CN112885406B - 检测hla杂合性缺失的方法及系统 - Google Patents

检测hla杂合性缺失的方法及系统 Download PDF

Info

Publication number
CN112885406B
CN112885406B CN202010302140.XA CN202010302140A CN112885406B CN 112885406 B CN112885406 B CN 112885406B CN 202010302140 A CN202010302140 A CN 202010302140A CN 112885406 B CN112885406 B CN 112885406B
Authority
CN
China
Prior art keywords
hla
copy number
coverage
sample
control sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010302140.XA
Other languages
English (en)
Other versions
CN112885406A (zh
Inventor
朱嘉麒
聂新华
李艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuce Biotechnology Co ltd
Original Assignee
Shenzhen Yuce Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuce Biotechnology Co ltd filed Critical Shenzhen Yuce Biotechnology Co ltd
Priority to CN202010302140.XA priority Critical patent/CN112885406B/zh
Publication of CN112885406A publication Critical patent/CN112885406A/zh
Application granted granted Critical
Publication of CN112885406B publication Critical patent/CN112885406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种检测HLA杂合性缺失的方法及系统,该方法包括:数据获取:获取肿瘤样本和对照样本的测序数据;HLA分型检测:检测肿瘤样本、对照样本的HLA分子类型;HLA等位基因不平衡检测:将测序数据与HLA分型结果比对,获得HLA等位基因不平衡检测结果;拷贝数变异检测:对所有目标区域进行拷贝数变异检测,获得HLA基因座的拷贝数变异检测结果;HLA杂合性缺失判断:根据HLA等位基因不平衡检测结果、拷贝数变异检测结果,判断是否为HLA杂合性缺失。本发明不只单独使用HLA基因上的序列信息,还结合HLA基因附近的序列信息,得到准确的HLA LOH结果。

Description

检测HLA杂合性缺失的方法及系统
技术领域
本发明涉及生物信息学领域,具体而言,涉及一种检测HLA杂合性缺失的方法及系统。
背景技术
HLA全称Human Leukocyte Antigen,即人类白细胞抗原,是人类的主要组织相容性复合体(Major Histocompatibility Complex,MHC)的表达产物,该系统是目前所知人体最复杂的多态性系统。HLA是具有高度多态性的同种异体抗原,其化学本质为一类糖蛋白,由一条α重链(被糖基化的)和一条β轻链非共价结合而成。其肽链的氨基端向外(约占整个分子的3/4),羧基端穿入细胞质,中间疏水部分在胞膜中。HLA定位于第6染色体短臂上,具体位置可以用6p21.31表示。HLA包含了一系列紧密连锁的基因座,与人类的免疫系统功能高度密切相关。肿瘤细胞表面上也存在HLA,参与抗原的处理和呈递。HLA对CD8+T Cell识别肿瘤细胞必不可少。人体大部分细胞含有两套HLA分子编码基因:一套基因遗传自母亲,另一套基因遗传自父亲。有时,基因变化能够导致一套基因全部或部分丢失,称为杂合子缺失(Loss of Heterozygosity,LOH)。HLA LOH阳性代表着HLA基因存在杂合性缺失或功能完全缺失。由于HLA的功能是呈递新生抗原到细胞表面,供T细胞识别,故一旦功能部分或完全缺失,会导致抗原呈递能力缺失,免疫系统无法识别肿瘤的情况,即肿瘤发生免疫逃逸,也就是说该患者可能存在对免疫药物耐药的风险。2017年11月,《Cell》杂志发表的一篇文章:Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution1。文章中作者及其团队开发了一款从测序数据中确定HLA等位基因特定拷贝数的软件,名为LOHHLA,并对90位非小细胞肺癌患者进行了HLA LOH鉴定,发现40%的患者具有HLA杂合性缺失。杂合性缺失在非小细胞肺癌里面呈现正向选择,这些数据显示了HLA LOH在肺癌进化过程中是一种常见的免疫逃避机制。目前公开的HLA LOH鉴定方法只有上述文章中这一种,具体是使用二代测序序列分别往HLA的两个特定等位基因上比对,取完全比对上的序列,计算两个HLA型的覆盖度,比较肿瘤组织和白细胞测序数据中的覆盖度,判断是否有差异。该方法的主要缺陷在于:这种方法使用到的信息有限,虽然对HLA基因是否发生两个等位基因的不平衡突变有准确的检出,却因为丢失了肿瘤样本和白细胞样本整体测序深度的信息,并不能很好的区分是扩增还是缺失。
申请公布号为CN 108154007A的中国专利公开了一种基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机,其基于单肿瘤样本拷贝数变异及缺失类型检测方法建立拷贝数扩展和拷贝数缺失幅度的动态平衡机制,迭代检测过程不断更正读段数的基准,更正统计检验分布的参数,客观检测显著性拷贝数变异以及弱显著的拷贝数变异;构建贝叶斯推理模型,正确检测拷贝数变异状态及拷贝数缺失类型。该专利主要是通过比对人参考基因组上特定区域的序列数量检测常规区域的拷贝数变化,而HLA区域的特点是多个区的序列很相似,只有少量位点的区别,比对上每个HLA基因的序列数很不稳定,所以该方法为常规方法,不能用于计算HLA区域的拷贝数变化。
申请公布号为CN 110752041A的中国专利公开了一种基于二代测序的新生抗原预测方法、装置和存储介质,其通过对肿瘤样本和正常样本的二代测序数据进行变异检测,获得肿瘤体细胞点突变和插入缺失突变作为候选突变;对所述肿瘤转录组二代测序数据进行融合基因突变检测,得到融合基因突变作为候选突变;对肿瘤样本和正常样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与正常样本匹配的HLA分型结果;对所述候选突变中的点突变、插入缺失突变和融合基因突变进行基因突变到氨基酸突变的注释;基于所述注释得到的结果,对所述候选突变中的点突变、插入缺失突变和融合基因突变的肽段进行预测,得到相应的突变预测肽段;将所述突变预测肽段和所述HLA分型结果输入新生抗原预测模型,所述新生抗原预测模型是利用肿瘤细胞表面的新生抗原质谱检测数据作为阳性数据并利用机器学习拟合出的模型;通过所述新生抗原预测模型打分排序,得到分数从高到低依次排列的新生抗原预测结果。该专利是通过数据库和HLA分型来训练如何从突变肽段预测新生抗原,并没有考虑HLA的缺失是否会对预测出来的新生抗原产生影响。
发明内容
本发明主要解决的技术问题是如何在准确得到HLA基因发生不平衡突变后定性为扩增还是缺失的问题。
根据第一方面,本发明提供一种检测HLA杂合性缺失的方法,包括:
数据获取:获取来源于受试者的肿瘤样本和对照样本的测序数据;
HLA分型检测:根据所述肿瘤样本和对照样本的测序数据,对来源于同一受试者的肿瘤样本和对照样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与对照样本的HLA分子匹配的HLA分型结果;
HLA等位基因不平衡检测:将所述肿瘤样本和对照样本的测序数据与所述HLA分型结果比对,保留完全匹配的序列,进行HLA等位基因不平衡检测,获得HLA等位基因不平衡检测结果;
拷贝数变异检测:根据所述肿瘤样本和对照样本的测序数据,对所有目标区域进行拷贝数变异检测,获得HLA基因座的拷贝数变异检测结果;
HLA杂合性缺失判断:根据所述HLA等位基因不平衡检测结果以及拷贝数变异检测结果,判断是否为HLA杂合性缺失。
本领域技术人员可以理解,所述目标区域是指测序时探针捕获样本所得到的DNA序列。
在一些实施例中,HLA杂合性缺失判断时,如果HLA区域没有等位基因不平衡,则判断为非HLA杂合性缺失;
如果HLA区域有等位基因不平衡,则判断如下:
如果所述拷贝数变异检测结果为没有拷贝数缺失,则判断为非HLA杂合性缺失;
如果所述拷贝数变异检测结果为没有拷贝数扩增,则判断为HLA杂合性缺失。
在一些实施例中,所述肿瘤样本和对照样本的测序数据是通过全基因组测序、全外显子组测序或捕获探针测序得到,在一优选的实施例中,通过全外显子组测序得到。
在一些实施例中,所述HLA等位基因不平衡检测步骤包括:找到每对HLA等位基因的不一致位点,统计所述不一致位点的覆盖度在两个HLA等位基因中的分布,判断是否有显著性差异,获得HLA等位基因不平衡检测结果。
在一些实施例中,如果所述不一致位点的覆盖度在两个HLA等位基因中的分布有显著性差异,则判断有HLA等位基因不平衡,如果没有显著性差异,则判断没有HLA等位基因不平衡。
在优选的实施例中,统计所述不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异的方法包括:分别统计肿瘤样本、对照样本中每个HLA等位基因的不一致位点的覆盖度,并将肿瘤样本中每个HLA等位基因的不一致位点的覆盖度分别除以对照样本中该不一致位点的覆盖度,得到均一化后的每个HLA等位基因的不一致位点的覆盖度,统计均一化后的覆盖度在两个HLA等位基因中的分布是否有显著性差异,获得HLA等位基因不平衡检测结果,所述HLA等位基因的不一致位点的覆盖度是指所述完全匹配的序列中覆盖HLA等位基因的不一致位点的序列支持数。
在一优选的实施例中,采用成对t检验法统计HLA等位基因的不一致位点的覆盖度在两个HLA等位基因中的分布,判断是否有显著性差异。
在一优选的实施例中,统计所述肿瘤样本中不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异时,设定第一阈值,如果统计得到的P值<所述第一阈值,则判断有显著性差异,如果统计得到的P值≥所述第一阈值,则判断没有显著性差异。
所述第一阈值可以根据本领域技术人员的需要而设定,在更优选的实施例中,所述第一阈值为0.001。
在一些实施例中,所述拷贝数变异检测步骤包括:
将所述肿瘤样本、对照样本的测序数据分别与参考基因组比对,统计每个目标区域的覆盖度,分别将所述每个目标区域的覆盖度除以平均覆盖度,得到肿瘤样本、对照样本中每个目标区域的覆盖度比值,然后将所述肿瘤样本中每个目标区域的覆盖度比值除以对照样本中该目标区域的覆盖度比值,得到均一化的拷贝数变化结果;所述目标区域的覆盖度是指覆盖目标区域的序列支持数;
GC矫正,统计每个目标区域的GC含量,并将GC含量接近的目标区域划分为一个GC含量区间,对所述GC含量区间的拷贝数变化结果做均一化处理,得到GC矫正后的拷贝数变化结果;
分段,对目标区域分段,根据所述GC矫正后的拷贝数变化结果,将连续相似高倍数变化的目标区域划分为一个CNV(Copy number variations,即基因拷贝数变异),并计算出该CNV的扩增/缺失状态。
本领域技术人员可以理解,平均覆盖度是指所有目标区域的覆盖度的算术平均值。
在一些实施例中,所述参考基因组选自人参考基因组hg19。
在一些实施例中,GC矫正时,统计GC含量接近的目标区域,将GC含量在0-100%之间分为N个GC含量区间,每一个区间包含若干目标区域,计算各GC含量区间的区间内平均值,并且用每个目标区域的所述均一化的拷贝数变化结果的log值减去该目标区域所在的GC含量区间的区间内平均值,得到GC矫正后的拷贝数变化结果,所述区间内平均值是指该GC含量区间中的所有目标区域的所述均一化的拷贝数变化结果的log值的算术平均值,简而言之,先计算该GC含量区间中的所有目标区域的所述均一化的拷贝数变化结果的log值之和,然后计算算术平均值,即为区间内平均值。
本领域技术人员可以理解,N是指区间数量,所述N的取值可以根据需要而定,例如,可以为2-50,优选为5-30,更优选为5-20,更优选为10-20;具体可以为2、3、4、5、6、7、8、9、10、12、15、18、20、25、30、35、40、45、50等,优选为5、6、7、8、9、10、11、12、、13、14、15、16、17、18、19、20,更优选为10、11、12、、13、14、15、16、17、18、19、20,更优选为10。
在一些实施例中,对目标区域分段,根据所述GC矫正后的拷贝数变化结果,将连续相似高倍数变化的目标区域划分为一个CNV后,通过该CNV内的拷贝数变化结果的平均值,计算出该CNV的扩增/缺失状态。
在一些实施例中,计算各CNV的扩增/缺失状态时,设定第二阈值,如果所述CNV内的拷贝数变化结果的平均值大于或等于所述第二阈值,则判断为没有拷贝数缺失,如果所述CNV内的拷贝数变化结果的平均值小于所述第二阈值,则判断为没有拷贝数扩增。
在一优选的实施例中,所述第二阈值为0。
在一些实施例中,对所述GC含量区间的拷贝数变化结果做均一化处理时,在log2运算得到均一化的每个目标区域的拷贝数log值。
根据第二方面,本发明提供一种检测HLA杂合性缺失的系统,包括:
数据获取装置,用于获取来源于受试者的肿瘤样本和对照样本的测序数据;
HLA分型检测装置:用于根据所述肿瘤样本和对照样本的测序数据,对来源于同一受试者的肿瘤样本和对照样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与对照样本的HLA分子匹配的HLA分型结果;
HLA等位基因不平衡检测装置:用于将所述肿瘤样本和对照样本的测序数据与所述HLA分型结果比对,保留完全匹配的序列,进行HLA等位基因不平衡检测,获得HLA等位基因不平衡检测结果;
拷贝数变异检测装置:用于根据所述肿瘤样本和对照样本的测序数据,对所有目标区域进行拷贝数变异检测,获得HLA基因座的拷贝数变异检测结果;
HLA杂合性缺失判断装置:根据所述HLA等位基因不平衡检测结果以及所述拷贝数变异检测结果,判断是否为HLA杂合性缺失。
根据第三方面,本发明提供一种计算机设备,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,本发明提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
本发明利用HLA分型信息,直接比对原始测序数据到两个HLA基因型的序列上,得到HLA等位基因的不平衡信息,再利用整体基因组的覆盖度信息得到拷贝数变化,并且通过HLA基因和周边的拷贝数变化来判断等位基因不平衡为扩增还是缺失。相比于现有技术(现有技术只单独使用HLA基因上的序列信息进行判断),本发明可以确定HLA等位基因的不平衡是扩增还是缺失造成的,得到准确的HLA LOH结果。
附图说明
图1显示为本发明实施例中基于二代测序HLA杂合性缺失预测的流程框图。
图2显示为本发明实施例1中样本sample_1_1中6号染色体的覆盖度信息。
图3显示为本发明实施例1中样本sample_1_2中6号染色体的覆盖度信息。
图4显示为本发明实施例2中sample_2_1中6号染色体CNV信息。
图5显示为本发明实施例2中sample_2_1中使用第三方验证结果,椭圆圈出chr6前半部分的CNV,包括HLA-A、HLA-B、HLA-C。
图2、图3、图4中出现的横线是用于划分区域的标示线。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
目前二代测序的成本越来越低,覆盖度越来越深,区域越来越广,本发明利用HLA基因内部加上周边基因和样本整体数据分布,从测序数据中准确得到HLA LOH信息,指导后续进一步实验验证和/或免疫治疗。
本文中所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
如本文中所用,术语“包括”、“包含”、“含有”及其任何变型旨在涵盖非排他性囊括,以便包括、包含或含有元素或元素列表的过程、方法、方法限定的产品或物质的组合物不仅包含那些元素,而且可以包含这样的过程、方法、方法限定的产品或物质的组合物中没有明确列出的或者并非其固有的其他元素。
如本文中所用,在液体活检样本的上下文中使用的术语“提供”意在涵盖获得该样本的任何和全部手段。该术语在实践所要求保护的方法的情况下涵盖导致该样本的存在的所有直接和间接手段。
如本文中所用,术语“患者”优选指人类,但也涵盖其他哺乳动物。如本文中所用,术语“受试者”、“生物体”、“个体”、“对象”或“患者”被用作同义词并且可互换使用。
如本文所述,术语“癌症”是指或描述了哺乳动物的生理状况,其典型特征在于细胞生长不受调节。如本文中所用,术语“肿瘤”是指恶性或者良性的所有肿瘤细胞生长和增殖,以及所有的癌前细胞和组织和癌细胞和组织。在优选的实施例中,所述“肿瘤”是指实体瘤。
如本文中所用,所述二代测序包括但不限于Roch公司的454技术、illumina公司的Solexa、Hiseq技术和ABI公司的Solid技术。
需要说明的是,本发明所涉及的肿瘤样本、对照样本均为离体样品,并且,判断结果仅仅为中间结果,不能直接用于诊断疾病,还需要结合其他的检测指标才能指导后续进一步实验验证和/或免疫治疗,本发明的方法针对肿瘤患者等受试者,但该方法本身并不以获取受试者的患病信息作为直接目的。事实上,受试者的患病信息在进行本发明的检测方法之前已经确认,本发明的方法的目的在于检测HLA杂合性缺失。因此,本发明的方法不属于疾病的诊断和治疗方法的范畴。
本发明也适用于非诊断、治疗目的的HLA杂合性缺失检测,例如,在一些实施例中,本发明可用于HLA杂合性缺失相关疾病的现有药物或新候选药物的筛选。
现有技术中没有专门检测HLA杂合性缺失的方法,一般只使用拷贝数变异来检测,其主要缺陷在于,现有技术通过拷贝数变异检测结果只能知道大概的HLA区域的拷贝数变异情况,但是不知道具体哪一个基因型有变化,而该具体基因型的缺失在后续新生抗原的预测中具有重要作用,因为新生抗原都由对应分型的主要组织相容性复合体(majorhistocompatibility complex,MHC)呈递,如果对应分型有缺失,那么新生抗原就不能进行后续工作。
为了实现上述目的,根据本发明的一个方面,提供了一种HLA杂合性缺失检测方法,该方法包括以下步骤:
S1、数据获取
获取同一个体来源的肿瘤样本测序数据和对照样本测序数据。
在一些实施例中,上述肿瘤样本和对照样本来源于同一个个体,受检个体可以是已经通过临床方法确诊为肿瘤患者的个体。肿瘤样本,也可称为待检组织样本,一般是指来源于肿瘤患者的病患部位或组织的样本,例如肺癌患者的肺组织样本。对照样本,一般是指来源于同一肿瘤患者的非病患部位或组织的样本,例如,可以为外周血分离的白细胞样本。
在一些实施例中,对照样本可以是全血,更优选是外周血或外周血细胞部分。如本领域技术人员将理解的,血液样本可以包含但不限于T细胞、单核细胞、嗜中性粒细胞、红细胞、血小板和微泡(例如外来体和外来体样囊泡)的血液的任何部分或组分。在本披露的上下文中,包含在血液样本中的血细胞涵盖任何有核细胞并且不限于全血的组分。因此,血细胞包含,例如白细胞(WBC)。在一些实施例中,对照样本也可称为正常样本。
在一些实施例中,对上述样本的测序方法包括但不限于全基因组测序、全外显子组测序或捕获探针测序等高通量测序方法。在一优选的实施例中,肿瘤样本测序数据和对照样本测序数据是通过全外显子组测序得到。
本发明实施例中,肿瘤样本和对照样本的基因组二代测序数据一般首先比对到参考基因组上。因此,优选实施例中,在数据获取步骤获取的是肿瘤样本和对照样本的基因组二代测序数据比对到参考基因组的比对文件。
参考基因组,例如可以是物种(例如,人)的参考的标准基因组序列,例如,在一个实施例中,以hg19作为人类参考基因组的其中一个版本。
在一些实施例中,肿瘤样本的测序深度>200×,在另一些实施例中,肿瘤样本的测序深度>300×,在另一些实施例中,肿瘤样本的测序深度>400×,在另一些实施例中,肿瘤样本的测序深度>500×。
在一些实施例中,对照样本的测序深度>50×,在另一些实施例中,对照样本的测序深度>100×,在另一些实施例中,对照样本的测序深度>200×。
S2、HLA分型检测
对肿瘤样本和对照样本的HLA进行分型,得到患者的两个HLA等位基因的分子类型。
在一实施例中,根据步骤S1所获得的肿瘤样本和对照样本的测序数据,对肿瘤样本和对照样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与对照样本的HLA分子匹配的HLA分型结果。
本领域技术人员可以理解,可采用现有的软件对肿瘤样本和对照样本的HLA进行分型,在一实施例中,可以使用HLA分子类型检测软件polysolver对样本进行检测。在另一些实施例中,还可以使用BWA hla、optitype等软件。对照样本通常为正常样本,即通常指没有发生体细胞变异的样本,肿瘤样本和对照样本通常来自于同一受试者。
在一个实施例中,分别采用HLA分子类型检测软件polysolver和BWA mem对肿瘤样本和对照样本的HLA分子类型进行检测,如果polysolver软件检测的肿瘤样本的HLA分子和对照样本匹配,则作为HLA分子亚型结果输出;如果不匹配,则检查BWA mem检测的肿瘤样本的HLA分子和对照样本的匹配情况,如果匹配则将BWA mem的HLA分子亚型检测结果输出,如果仍然不匹配,则输出空的结果。
在一些实施例中,所检测的HLA分子类型包括但不限于HLA-I型、HLA-II型、HLA-III型、HLA-IV型,在一些优选的实施例中,所检测的HLA分子类型为HLA-I型,在另一些优选的实施例中,所述HLA-I型包括HLA-A、HLA-B、HLA-C。
在一优选的实施例中,HLA-I分型包括等位基因A-1
S3、HLA等位基因不平衡检测
将肿瘤样本和对照样本的测序数据往步骤S2得到的两个HLA分型的序列上比对,只保留完全比对上的序列并计数,找到每对HLA等位基因的所有不一致的位点,分别统计肿瘤样本、对照样本中每个HLA等位基因的不一致位点上的完全匹配序列的覆盖度,并将肿瘤样本中每个HLA等位基因的不一致位点的覆盖度分别除以对照样本中该不一致位点的覆盖度,得到均一化后的每个HLA等位基因的不一致位点的覆盖度,判断每个均一化后的HLA等位基因的不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异,获得HLA等位基因不平衡检测结果。HLA等位基因的不一致位点的覆盖度是指完全匹配序列中覆盖HLA等位基因的不一致位点的序列支持数。
在本发明的一个优选实施例中,使用软件BWA mem将测序结果比对步骤S2得到的两个HLA分型的序列上。
在一实施例中,HLA等位基因不平衡检测步骤的具体方法如下:
S301、将肿瘤样本、对照样本的测序数据比对到样本特定的两个HLA等位基因的hg19参考基因组上,只保留完全比对上的序列。该步骤可以通过现有的软件完成,具体可以为Novalign、blast等软件,优选为Novalign软件。
S302、对比肿瘤样本或对照样本中两个HLA等位基因的序列,获得所有不一致的位点。
在未发生突变的情况下,鉴于肿瘤样本与对照样本中HLA等位基因的不一致位点相同,因此,可以选择肿瘤样本或者对照样本,对样本中的两个HLA等位基因序列进行比对,获得所有不一致的位点。
S303、分别统计肿瘤样本、对照样本中每个不一致位点的覆盖度,并将肿瘤样本中每个不一致位点的覆盖度分别除以对照样本中该不一致位点的覆盖度,得到均一化后的每个HLA不一致位点的覆盖度。比如,HLA-A-1和HLA-A-2两个等位基因在某个位点分别是A和C碱基,那么在完全匹配序列中统计覆盖这个位点的所有序列,假如在肿瘤样本分别是100、200,对照样本分别是50、50,使用对照样本均一化以后就变成2、4。
S304、使用成对t检验判断每个均一化后的HLA等位基因不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异。
在一实施例中,对HLA-A、HLA-B、HLA-C分别作两个等位基因的成对t检验,判断每对等位基因的所有不一致位点的覆盖度是否来自同一个分布,设定第一阈值,如果p-value(P值)小于第一阈值,说明有等位基因不平衡出现,否则,没有等位基因不平衡。
在一优选实施例中,第一阈值为0.001。
S4、拷贝数变异检测
对所有目标区域进行拷贝数变异检测,找到HLA-A、HLA-B、HLA-C三个基因上的拷贝数变异检测结果。
在一实施例中,拷贝数变异检测具体包括如下步骤:
S401、将肿瘤样本和对照样本的测序数据分别比对到参考基因组上,分别将肿瘤样本、对照样本中每个目标区域位点的覆盖度除以平均覆盖度,得到肿瘤样本、对照样本中每个目标区域位点的覆盖度比值,然后将肿瘤样本中覆盖度比值除以对照样本的覆盖度比值,得到均一化的肿瘤样本拷贝数变化结果。
平均覆盖度是指所有目标区域位点的覆盖度的算术平均值。
在一实施例中,用BWA-MEM软件将肿瘤样本和对照样本的测序数据比对到参考基因组上。
S402、GC矫正,统计每个目标区域的GC含量,并排序,对不同GC含量的序列做均一化处理,使其拷贝数变化均值变为0,消除GC含量对不同区域覆盖度的影响。
S403、分段,对目标区域分段,根据所述GC矫正后的拷贝数变化结果,将连续相似高倍数变化的区域划分为一个CNV,设定第二阈值,如果所述CNV内的拷贝数变化结果的平均值大于或等于第二阈值,则判断没有拷贝数缺失,如果所述CNV内的拷贝数变化结果的平均值小于第二阈值,则判断为没有拷贝数扩增。
在一优选的实施例中,第二阈值为0。
在一些实施例中,可以使用circular binary segmentation算法对目标区域分段,也可以其他算法。
需要说明的是,平衡检测步骤与拷贝数变异检测步骤无时间先后顺序之分,可以同时进行,也可以先进行其中一个步骤。
在一些实施例中,不限于检测HLA-A、HLA-B、HLA-C三个基因上的拷贝数变异,在数据库完善的情况下,也可以是Ⅱ类基因区,如HLA-DR、DQ、DP亚区,或者DO、DZ、DX亚区。
S5、HLA LOH检测
结合HLA不平衡检测结果和拷贝数变异检测结果,判断HLA LOH和缺失的等位基因型。
在一实施例中,如果HLA区域有等位基因不平衡,并且HLA基因所在区域没有扩增的CNV检出,那么判断为HLA LOH,即HLA杂合性缺失,并且以低覆盖度的HLA基因型作为丢失基因型报出,否则判断为非HLA LOH。
本发明利用HLA分型信息,直接比对原始测序数据到两个HLA基因型的参考序列上面,得到等位基因的不平衡信息,再利用整体基因组的覆盖度信息得到拷贝数变化,并且通过HLA基因和周边的拷贝数变化来判断等位基因不平衡为扩增还是缺失。相比于现有技术(现有技术只单独使用HLA基因上的序列信息),可以确定等位基因的不平衡是扩增还是缺失造成的,准确得到高质量的HLA LOH结果。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
相对于申请公布号为CN 110752041A的中国专利,本发明取得HLA区域的序列后,重新用更严格的参数比对到每个HLA分型序列上,可以更准确地计算每个分型的拷贝数变化。
相对于申请公布号为CN 110752041A的中国专利,本发明在HLA分型步骤中增加了分析是否有缺失的环节。理论上,加入了本发明的HLA分型的缺失结果,新生抗原的预测可以更准确,因为缺失的HLA型对应的新生抗原是不会被组织相容复合体(MHC)呈递到细胞表面,也就不会成为新生抗原。
在一实施例中,如图1所示,本发明提供一种基于二代测序HLA杂合性缺失检测方法和系统,包括以下方面:
1、HLA等位基因不平衡检测模块
2.1使用Novalign软件将原始测序数据比对到样本的HLA-A、HLA-B、HLA-C的分型参考序列上,一共6条参考序列,只保留完全比对上的比对结果。
2.2统计每个不一致位点的覆盖度,比如HLA-A-1和HLA-A-2两个等位基因在某个位点分别是A和C碱基,那么统计覆盖这个位点的所有序列,假如在肿瘤样本分别是100、200,对照样本分别是50、50,使用对照样本均一化以后就变成2、4。
2.3对HLA-A,HLA-B,HLA-C分别作两个等位基因的成对t检验,判断每对等位基因的所有不一致位点的覆盖度是否来自同一个分布,如果p-value小于0.001,说明有等位基因不平衡出现,否则,判断为没有等位基因不平衡。
2、拷贝数检测模块
2.1使用BWA-MEM软件比对原始测序数据到人参考基因组hg19(https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/),统计每一个目标区域的覆盖度,并除以样本的平均覆盖度,在log2运算得到均一化的每个区域的拷贝数的log值。
2.2GC矫正,统计GC含量接近的区域,将GC含量在0-100%之间分为10个区间,每一个GC含量区间包含若干目标区域,并求各区间内的GC含量平均值,并且用每个目标区域的均一化的拷贝数log值减去所在GC区间内平均值,得到GC矫正后的拷贝数log值。
2.3使用circular binary segmentation算法对目标区域分段,将连续相似高倍数变化的区域划分为一个CNV(拷贝数变异,Copy Number Variation),通过CNV内平均拷贝数log值计算出该CNV的拷贝数扩增、缺失状态。
3、组合判断结果并输出
3.1结合上面的拷贝数检测结果和HLA的等位基因不平衡结果,如果HLA没有等位基因不平衡,输出HLA杂合缺失的阴性。
3.2如果HLA有不平衡,则看拷贝数检测结果,如果为扩增,则输出HLA杂合缺失的阴性。
3.3如果HLA有不平衡,拷贝数检测中没有扩增,那么输出HLA杂合缺失的阳性结果。
下面将通过具体实施例并结合附图对本发明作进一步说明。应当理解,实施例仅是示例性的,并不构成对本发明保护范围的限制。
以下实施例中,对所述GC含量区间的拷贝数变化结果做均一化处理时,在log2运算得到均一化的每个目标区域的拷贝数log值。
实施例1
本实施例中,使用的样本取自鼻咽喉癌患者,肿瘤样本取自癌组织,对照样本取自同一患者的血液白细胞,具体是免疫治疗无效且高TMB(肿瘤突变负荷)的患者样本T17121390189-KY438-VS-B17120989463-KY438(记为样本sample_1_1)和免疫治疗有效且高TMB的患者样本F17120989201-KY438-VS-B17120989370-KY438(记为样本sample_1_2)。
本实施例样本T17121390189-VS-B17120989463-KY438检测的具体步骤如下:
1、使用安捷伦WES SureSelect Human All Exon V6方法测序,测序平台为illumina NextSeq 2000。
安捷伦WES SureSelect Human All Exon V6方法参考如下网址:
https://www.agilent.com/cs/library/datasheets/public/SureSelect%20V6%20DataS heet%205991-5572EN.pdf。
2、使用bwa-mem(版本号0.7.12-r1039)软件将肿瘤样本和对照样本的下机数据分别比对上人参考基因组hg19。
3、对步骤2中比对结果,使用拷贝数检测的方法,得到HLA区域的拷贝数变化为-0.48,小于阈值0,没有拷贝数扩增。
4、使用polysover(版本号1.0.0)软件对对照样本的参考基因组比对数据检测HLA分型,得到HLA-A、HLA-B、HLA-C三个基因的共6个基因型序列,基因型编号分别为HLA-A02:01、HLA-A24:02、HLA-B54:01、HLA-B35:03、HLA-C04:01、HLA-C01:02。
5、取出肿瘤样本和对照样本的比对序列中HLA区域序列,使用Novalign(版本号3.0)重新往步骤4所得的6个基因型序列上比对。
6、使用R(版本3.6.1)成对t检验判断:
统计肿瘤样本中每个不一致位点所在的完全匹配序列的覆盖度,并使用肿瘤样本中的每个不一致位点的覆盖度除以对照样本中该不一致位点的覆盖度,得到均一化后的两个HLA等位基因在肿瘤样本中每个HLA不一致位点的覆盖度,判断这两个覆盖度在肿瘤样本和对照样本中是否符合同一分布,这里HLA-A基因的p-value等于1.26E-08,小于阈值0.001,说明HLA-A基因的两个基因型之间不平衡。
7、根据拷贝数变异检测结果和不平衡检测结果,组合判断HLA等位基因缺失状态。
同样以上述方法对样本F17120989201-KY438-VS-B17120989370-KY438进行检测。
下表1为本实施例中两个样本HLA的信息。
表1
样本 免疫治疗疗效 TMB CNV p-value HLA-LOH
sample_1_1 无效 12.2 LOSS(没有拷贝数扩增) 1.26E-08 1
sample_1_2 有效 10.9 DUP(没有拷贝数缺失) 1.23E-06 0
表1中,HLA LOH为1,表示存在HLA LOH;HLA LOH为0,表示不存在HLA LOH,即非HLALOH。
图2显示为样本sample_1_1中6号染色体的CNV信息。在图2中可以看到有3条横线(从左到右分别标示为横线a、b、c),即在拷贝数检测中整个染色体被分成了3个区域,横线b的纵坐标对应0.2,大于阈值0,说明该区域没有拷贝数缺失,横线a、c的纵坐标对应-0.5,小于阈值0,说明这两个区域没有拷贝数扩增。而HLA区域在图2所示的虚线内,横线a(没有拷贝数扩增)跨过HLA区域,再结合第6步的等位基因不平衡结果,判断HLA区域存在HLA LOH。
图3显示为样本sample_1_2中6号染色体的CNV信息。在图3中可以看到有3条横线(从左到右分别记为横线d、e、f),即在拷贝数检测中,整个染色体被分成了3个区域,横线d、e的纵坐标分别对应0.4、0.2,都大于阈值0,说明这两个区域都没有拷贝数缺失,横线f的纵坐标对应-0.4,小于阈值0,说明这个区域没有拷贝数扩增。而HLA区域在图3所示的虚线内,横线e(没有拷贝数缺失)跨过HLA区域,结合第6步的等位基因不平衡结果,判断HLA区域为非HLA LOH。
本实施例中均选取高TMB样本,已有实验验证过TMB和免疫治疗的疗效是相关的,具体见:《Tumor Mutational Burden as an Independent Predictor of Response toImmunotherapy in Diverse Cancers》(作者:Goodman Aaron M;Kato Shumei等;刊物:Molecular cancer therapeutics;DOI:10.1158/1535-7163.MCT-17-0386)。这篇文章用了151免疫治疗的病人数据说明,高TMB可以作为一个独立预测免疫治疗的因素,一般高TMB对应高免疫治疗疗效,但是也有例外。本实施例的第一个样本就说明这种例外可能是由于HLA杂合性缺失导致,解释了为什么这个患者即使高TMB情况下免疫治疗无效,第二个样本没有HLA杂合性缺失,同时免疫治疗评估结果有效说明这个HLA杂合性缺失可以和TMB共同作为免疫治疗的生物标记物。
实施例2
本实施例涉及的方法以及所使用的软件版本同实施例1。
本实施例的样本编号为DN1902862AZZAA02-VS-DN1902862XYZAA02(记为样本sample_2_1),取自鼻咽喉癌患者,肿瘤样本取自癌组织,对照样本取自同一患者的血液白细胞。
本实施例样本检测结果如下:
1、得到样本拷贝数变异结果,HLA区域为没有拷贝数缺失。
2、这里HLA-A基因的p-value等于2.27E-04,小于阈值0.001,说明HLA-A基因的两个基因型之间不平衡。
3、将上述两个结果组合,判断HLA等位基因扩增/缺失状态,判断为非HLA-LOH。
下表2为本实施例中样本HLA的信息。
表2
样本 CNV CNV(OncoScan) p-value HLA-LOH
sample_2_1 DUP(没有拷贝数缺失) DUP(没有拷贝数缺失) 2.27E-04 0
表2中HLA LOH为0,表示不存在HLA LOH,即非HLA LOH。
图4显示为本实施例的sample_2_1中6号染色体CNV信息。在图4中可以看到有4条横线(从左到右分别记为横线g、h、i、j),即在拷贝数检测中整个染色体被分成了4个区域,横线g、i的纵坐标对应0.8,大于阈值0,说明这两个区域没有拷贝数缺失,横线h的纵坐标对应0,等于阈值0,说明这个区域没有拷贝数缺失,横线j的纵坐标对应-0.2,小于阈值0,说明这个区域没有拷贝数扩增。而HLA区域在图4所示的虚线内,横线h(没有拷贝数缺失)跨过HLA区域,再结合等位基因不平衡的结果,判断HLA区域为非HLA LOH。
图5显示为本实施例的sample_2_1中使用第三方验证结果,椭圆圈出chr6前半部分的CNV,包括HLA-A、HLA-B、HLA-C部分。
使用第三方平台赛默飞的CNV检测平台OncoScan(https://www.thermofisher.com/order/catalog/product/902293#/902293)验证该样本,该样本的HLA区域确实没有拷贝数缺失,而是拷贝数扩增,证明本发明对现有的仅通过HLA等位基因不平衡的方法来判断HLA杂合性是否缺失有比较好的矫正作用。
我们可以从实施例2中发现,HLA区域的拷贝数计算不可靠,需要加上等位基因不平衡的信息才可以准确知道HLA区域的拷贝数扩增、缺失情况。
综上,本发明不只单独使用HLA基因上的序列信息,还结合HLA基因附近的序列信息,可以确定HLA等位基因的不平衡是拷贝数扩增还是缺失造成的,得到准确的HLA LOH结果。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (23)

1.一种检测HLA杂合性缺失的方法,其特征在于,包括:
数据获取:获取来源于受试者的肿瘤样本和对照样本的测序数据;
HLA分型检测:根据所述肿瘤样本和对照样本的测序数据,对来源于同一受试者的肿瘤样本和对照样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与对照样本的HLA分子匹配的HLA分型结果;
HLA等位基因不平衡检测:将所述肿瘤样本和对照样本的测序数据与所述HLA分型结果比对,保留完全匹配的序列,进行HLA等位基因不平衡检测,获得HLA等位基因不平衡检测结果;
拷贝数变异检测:根据所述肿瘤样本和对照样本的测序数据,对所有目标区域进行拷贝数变异检测,获得HLA基因座的拷贝数变异检测结果;
HLA杂合性缺失判断:根据所述HLA等位基因不平衡检测结果以及所述拷贝数变异检测结果,判断是否为HLA杂合性缺失;
HLA杂合性缺失判断时,如果HLA区域没有等位基因不平衡,则判断为非HLA杂合性缺失;
如果HLA区域有等位基因不平衡,则判断如下:
如果所述拷贝数变异检测结果为没有拷贝数缺失,则判断为非HLA杂合性缺失;
如果所述拷贝数变异检测结果为没有拷贝数扩增,则判断为HLA杂合性缺失。
2.根据权利要求1所述的方法,其特征在于,所述肿瘤样本和对照样本的测序数据是通过全基因组测序、全外显子组测序或捕获探针测序得到。
3.根据权利要求1所述的方法,其特征在于,所述肿瘤样本和对照样本的测序数据是通过全外显子组测序得到。
4.根据权利要求1所述的方法,其特征在于,所述HLA等位基因不平衡检测步骤包括:找到每对HLA等位基因的不一致位点,统计所述不一致位点的覆盖度在两个HLA等位基因中的分布,判断是否有显著性差异,获得HLA等位基因不平衡检测结果。
5.根据权利要求4所述的方法,其特征在于,如果所述不一致位点的覆盖度在两个HLA等位基因中的分布有显著性差异,则判断有HLA等位基因不平衡,如果没有显著性差异,则判断没有HLA等位基因不平衡。
6.根据权利要求4或5所述的方法,其特征在于,统计所述不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异的方法包括:分别统计肿瘤样本、对照样本中每个HLA等位基因的不一致位点的覆盖度,并将肿瘤样本中每个HLA等位基因的不一致位点的覆盖度分别除以对照样本中该不一致位点的覆盖度,得到均一化后的每个HLA等位基因的不一致位点的覆盖度,统计均一化后的覆盖度在两个HLA等位基因中的分布是否有显著性差异,获得HLA等位基因不平衡检测结果,所述HLA等位基因的不一致位点的覆盖度是指所述完全匹配的序列中覆盖HLA等位基因的不一致位点的序列支持数。
7.根据权利要求4或5所述的方法,其特征在于,采用成对t检验法统计不一致位点的覆盖度在两个HLA等位基因中的分布,判断是否有显著性差异。
8.根据权利要求4或5所述的方法,其特征在于,统计所述肿瘤样本中不一致位点的覆盖度在两个HLA等位基因中的分布是否有显著性差异时,设定第一阈值,如果统计得到的P值<所述第一阈值,则判断有显著性差异,如果统计得到的P值≥所述第一阈值,则判断没有显著性差异。
9.根据权利要求8所述的方法,其特征在于,所述第一阈值为0.001。
10.根据权利要求1所述的方法,其特征在于,所述拷贝数变异检测步骤包括:
将所述肿瘤样本、对照样本的测序数据分别与参考基因组比对,统计每个目标区域的覆盖度,分别将所述每个目标区域的覆盖度除以平均覆盖度,得到肿瘤样本、对照样本中每个目标区域的覆盖度比值,然后将所述肿瘤样本中每个目标区域的覆盖度比值除以对照样本中该目标区域的覆盖度比值,得到均一化的拷贝数变化结果;所述目标区域的覆盖度是指覆盖目标区域的序列支持数,所述平均覆盖度是指所有目标区域的覆盖度的算术平均值;
GC矫正,统计每个目标区域的GC含量,并将GC含量接近的目标区域划分为一个GC含量区间,对所述GC含量区间的拷贝数变化结果做均一化处理,得到GC矫正后的拷贝数变化结果;
分段,对目标区域分段,根据所述GC矫正后的拷贝数变化结果将连续相似高倍数变化的目标区域划分为一个CNV,并计算出该CNV的扩增/缺失状态。
11.根据权利要求10所述的方法,其特征在于,所述参考基因组选自人参考基因组hg19。
12.根据权利要求10所述的方法,其特征在于,GC矫正时,统计GC含量接近的目标区域,将GC含量在0-100%之间分为N个GC含量区间,每一个区间包含若干目标区域,计算各GC含量区间的区间内平均值,并且用每个目标区域的所述均一化的拷贝数变化结果的log值减去该目标区域所在的GC含量区间的区间内平均值,得到GC矫正后的拷贝数变化结果,所述区间内平均值是指该GC含量区间中的所有目标区域的所述均一化的拷贝数变化结果的log值的算术平均值。
13.根据权利要求12所述的方法,其特征在于,所述N为5-50。
14.根据权利要求12所述的方法,其特征在于,所述N为5-30。
15.根据权利要求12所述的方法,其特征在于,所述N为5-20。
16.根据权利要求12所述的方法,其特征在于,所述N为10-20。
17.根据权利要求10所述的方法,其特征在于,对目标区域分段,根据所述GC矫正后的拷贝数变化结果,将连续相似高倍数变化的目标区域划分为一个CNV后,通过该CNV内的拷贝数变化结果的平均值,计算出该CNV的扩增/缺失状态。
18.根据权利要求10所述的方法,其特征在于,计算各CNV的扩增/缺失状态时,设定第二阈值,如果所述CNV内的拷贝数变化结果的平均值大于或等于所述第二阈值,则判断为没有拷贝数缺失,如果所述CNV内的拷贝数变化结果的平均值小于所述第二阈值,则判断为没有拷贝数扩增。
19.根据权利要求18所述的方法,其特征在于,所述第二阈值为0。
20.根据权利要求10所述的方法,其特征在于,对所述GC含量区间的拷贝数变化结果做均一化处理时,在log2运算得到均一化的每个目标区域的拷贝数log值。
21.一种检测HLA杂合性缺失的系统,包括:
数据获取装置:用于获取来源于受试者的肿瘤样本和对照样本的测序数据;
HLA分型检测装置:用于根据所述肿瘤样本和对照样本的测序数据,对来源于同一受试者的肿瘤样本和对照样本的HLA分子类型进行检测,得到肿瘤样本的HLA分子与对照样本的HLA分子匹配的HLA分型结果;
HLA等位基因不平衡检测装置:用于将所述肿瘤样本和对照样本的测序数据与所述HLA分型结果比对,保留完全匹配的序列,进行HLA等位基因不平衡检测,获得HLA等位基因不平衡检测结果;
拷贝数变异检测装置:用于根据所述肿瘤样本和对照样本的测序数据,对所有目标区域进行拷贝数变异检测,获得HLA基因座的拷贝数变异检测结果;
HLA杂合性缺失判断装置:用于根据所述HLA等位基因不平衡检测结果以及拷贝数变异检测结果,判断是否为HLA杂合性缺失;
HLA杂合性缺失判断时,如果HLA区域没有等位基因不平衡,则判断为非HLA杂合性缺失;
如果HLA区域有等位基因不平衡,则判断如下:
如果所述拷贝数变异检测结果为没有拷贝数缺失,则判断为非HLA杂合性缺失;
如果所述拷贝数变异检测结果为没有拷贝数扩增,则判断为HLA杂合性缺失。
22.一种计算机设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1-20中任一项所述的方法。
23.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现权利要求1-20中任一项所述的方法。
CN202010302140.XA 2020-04-16 2020-04-16 检测hla杂合性缺失的方法及系统 Active CN112885406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302140.XA CN112885406B (zh) 2020-04-16 2020-04-16 检测hla杂合性缺失的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302140.XA CN112885406B (zh) 2020-04-16 2020-04-16 检测hla杂合性缺失的方法及系统

Publications (2)

Publication Number Publication Date
CN112885406A CN112885406A (zh) 2021-06-01
CN112885406B true CN112885406B (zh) 2023-01-31

Family

ID=76042828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302140.XA Active CN112885406B (zh) 2020-04-16 2020-04-16 检测hla杂合性缺失的方法及系统

Country Status (1)

Country Link
CN (1) CN112885406B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889187B (zh) * 2021-09-24 2022-12-06 上海仁东医学检验所有限公司 单样本等位基因拷贝数变异检测方法、探针组和试剂盒
CN114627962B (zh) * 2022-03-04 2022-11-08 至本医疗科技(上海)有限公司 一种预测肿瘤患者对免疫疗法的敏感性的方法和装置
CN115148285B (zh) * 2022-06-09 2023-08-22 北京齐碳科技有限公司 信息筛选方法、装置、电子设备、介质和程序产品

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007150071A1 (en) * 2006-06-23 2007-12-27 Myriad Genetics, Inc. Gene amplifications and deletions
US20100261189A1 (en) * 2008-10-03 2010-10-14 Roche Molecular Systems, Inc. System and method for detection of HLA Variants
WO2014183078A1 (en) * 2013-05-10 2014-11-13 Foundation Medicine, Inc. Analysis of genetic variants
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
CN106460070B (zh) * 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
BR112018003631A2 (pt) * 2015-08-25 2018-09-25 Nantomics Llc sistemas e métodos para busca por variante de alta precisão
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
WO2017161201A1 (en) * 2016-03-16 2017-09-21 Cynvenio Biosystems Inc. Cancer detection assay and related compositions, methods and systems
US11634777B2 (en) * 2017-01-13 2023-04-25 The General Hospital Corporation Resistance to checkpoint blockade therapy
CA3068203A1 (en) * 2017-07-14 2019-01-17 The Francis Crick Institute Limited Analysis of hla alleles in tumours and the uses thereof
CN108154007B (zh) * 2017-11-28 2021-06-29 西安电子科技大学 一种基于单肿瘤样本拷贝数变异及缺失类型检测方法
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108624650B (zh) * 2018-05-14 2022-04-29 乐普(北京)医疗器械股份有限公司 判断实体瘤是否适合免疫治疗的方法和检测试剂盒
CN110752041B (zh) * 2019-10-23 2023-11-07 深圳裕策生物科技有限公司 基于二代测序的新生抗原预测方法、装置和存储介质

Also Published As

Publication number Publication date
CN112885406A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Litchfield et al. Meta-analysis of tumor-and T cell-intrinsic mechanisms of sensitization to checkpoint inhibition
CN112885406B (zh) 检测hla杂合性缺失的方法及系统
Giannakis et al. Genomic correlates of immune-cell infiltrates in colorectal carcinoma
Rodig et al. Improved detection suggests all Merkel cell carcinomas harbor Merkel polyomavirus
Lee et al. Comprehensive immunoproteogenomic analyses of malignant pleural mesothelioma
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
Borden et al. Cancer neoantigens: challenges and future directions for prediction, prioritization, and validation
CN110752041A (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
CN110799196A (zh) 致免疫性的癌症特异抗原决定位的排名系统
US20230154563A1 (en) Detection of Human Leukocyte Antigen Loss of Heterozygosity
US20200109455A1 (en) Systems and methods for predicting clinical responses to immunotherapies
WO2017218798A1 (en) Systems and methods for diagnosing familial hypercholesterolemia
CN114974412B (zh) 生成目标对象的肿瘤检测数据的方法、设备和介质
WO2019211418A1 (en) Surrogate marker and method for tumor mutation burden measurement
Wu et al. Identification of clonal neoantigens derived from driver mutations in an EGFR-mutated lung cancer patient benefitting from anti-PD-1
KR20230165259A (ko) 클론성 신항원의 동정 및 이의 용도
Pagadala et al. Germline modifiers of the tumor immune microenvironment implicate drivers of cancer risk and immunotherapy response
Li et al. Potential utility of longitudinal somatic mutation and methylation profiling for predicting molecular residual disease in postoperative non‐small cell lung cancer patients
CN115747327A (zh) 涉及移码突变的新抗原预测方法
Filip et al. Pervasiveness of HLA allele-specific expression loss across tumor types
Wu et al. Quantification of neoantigen-mediated immunoediting in cancer evolution
Perera et al. Detection of human leukocyte antigen class I loss of heterozygosity in solid tumor types by next-generation DNA sequencing
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN110706747B (zh) 检测肿瘤新生抗原多肽的方法和装置
CN116779028A (zh) 基于结构变异检测预测新抗原表位的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant