CN111583999B - 建立检测微卫星不稳定的基线的方法、装置及应用 - Google Patents

建立检测微卫星不稳定的基线的方法、装置及应用 Download PDF

Info

Publication number
CN111583999B
CN111583999B CN202010335375.9A CN202010335375A CN111583999B CN 111583999 B CN111583999 B CN 111583999B CN 202010335375 A CN202010335375 A CN 202010335375A CN 111583999 B CN111583999 B CN 111583999B
Authority
CN
China
Prior art keywords
sites
candidate
coverage
site
short sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010335375.9A
Other languages
English (en)
Other versions
CN111583999A (zh
Inventor
徐冰
张静波
单光宇
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN202010335375.9A priority Critical patent/CN111583999B/zh
Publication of CN111583999A publication Critical patent/CN111583999A/zh
Application granted granted Critical
Publication of CN111583999B publication Critical patent/CN111583999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种建立检测微卫星不稳定的基线的方法、装置及应用。该方法包括以下步骤:S1,针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点;S2,统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线。应用本发明的技术方案,在保证检测敏感性的同时,降低检测成本。

Description

建立检测微卫星不稳定的基线的方法、装置及应用
技术领域
本发明涉及生物信息学技术领域,具体而言,涉及一种建立检测微卫星不稳定的基线的方法、装置及应用。
背景技术
微卫星(Microsatellite)是遍布于人类基因组中的短串联重复序列,有单核苷酸、多核苷酸或高位核苷酸的重复,重复次数10~50次。与正常细胞相比,肿瘤细胞内的微卫星由于重复单位的插入或缺失导致微卫星长度的改变,就叫做微卫星不稳定性(Microsatellite Instability,MSI)。人类基因组中包含数万个微卫星位点,由于它们一般处于可积累中性突变的非编码DNA区域,在人群中呈现高度多态性。大量研究表明,MSI是由错配修复(MMR)基因发生缺陷引起的,MSI现象与1993年被Jacobs等人在结直肠癌中首次发现,与癌症发生有关,可用于癌症检测。通过观察12种不同类型的癌症,Dung Le等人发现MMR缺陷的癌症对含有抗PD-1抗体的免疫检查点阻断剂的治疗敏感。86例晚期具有MSI缺陷的癌症患者参与了KEYNOTE-016研究,并使用抗PD-1抗体药进行治疗,客观缓解率高达54%,疾病控制率达72%。研究者对三名患者的T细胞受体基因的CDR3区域进行了深度测序发现,在治疗前,克隆体在外周血中出现的频率非常低(通常无法检测到),但开始治疗后,克隆体数量迅速增加。对于其中一名患者,他们继续对T细胞克隆与突变肽结合能力进行功能表征。测试了患者治疗后的外周血对15种最常见的突变新抗原的反应性,发现一些T细胞克隆在治疗后扩大,对这些突变相关新抗原具有特异性。这项研究意义重大,因为它为MMR缺陷癌症中大量突变新抗原对免疫检查点阻断剂治疗敏感的假设提供了支持数据。在此项研究及其他研究结果的支持下,2017年,美国食品药品监督管理局(FDA)首次批准PD-1抗体药物Keytruda用于遗传性非息肉病性结直肠癌(HNPCC)治疗高频微卫星不稳定性(MSI-H)或错配修复缺陷(dMMR)的实体瘤患者。这是首个不依照肿瘤来源,而是依照分子标记物进行区分的抗肿瘤疗法,具有里程碑式的意义。
当肿瘤细胞中存在MMR基因功能缺失(Mis-Match Repair deficiency,dMMR)时,肿瘤细胞失去对DNA复制错误的修复能力,肿瘤细胞内将积累大量突变,就会伴随出现MSI特征。研究表明,肿瘤细胞携带的突变越多,能被患者自身免疫系统特异性识别的新生抗原就越多,免疫系统特异性杀伤肿瘤细胞的概率就越大。但往往免疫系统没有攻击肿瘤细胞的原因在于肿瘤细胞通过PD-1/PD-L1这条信号通路抑制了免疫T细胞的杀伤作用。Keytruda是一种PD-1单抗,能够阻断PD-1/PD-L1这条信号通路,从而解除肿瘤细胞对免疫T细胞的抑制作用,若同时肿瘤细胞表面又有大量能被T细胞识别的新生抗原,T细胞就能顺利杀死肿瘤细胞,达到较好的治疗效果。因此理论上那些具有dMMR/MSI-H型特征的实体瘤患者更能在Keytruda解除免疫抑制作用后获益。所以通过MSI检测区分出MSI-H实体瘤患者额,具有重大的临床意义。
现有检测MSI的方法有两种,分别为PCR技术及免疫组化(ICH)技术。PCR技术检测方法主要是对石蜡切片进行人工显微镜切割提取DNA,以一些微卫星点为标记指导合成引物进行多重荧光PCR对检测位点进行扩增,再通过毛细管电泳对扩增产物进行检测,并利用专业软件对两种组织来源检测结果进行比对分析。最常用的检测位点由美国国家癌症研究所(NCI)推荐的3个双核苷酸(D2S123、D5S346和D17S250)和2个单核苷酸(BAT-25和BAT-26)构成。后有研究发现将这些标记物作为错配修复(dMMR)缺陷的功能指标,并基于这些指标将肿瘤分为MSI-high、MSI-low和MSI-stable,在检测MSI-high时,二核苷酸重复序列比单核苷酸重复序列更不敏感,因此,更新为包含5个单核苷酸重复序列(BAT-25、-26,MONO-27,NR-21、-24)。主要的DNA MMR基因包括MLH1、MSH2、MSH6、PMS2、PMS1。ICH方法通常检测这四个基因,并依赖于这四个基因的蛋白表达水平。这两种MSI传统检测方法可能存在误判。有研究人员研究了这两种检测方法的准确性,该研究对38例参加CheckMate-142和KEYNOTE-164临床试验的患者进行免疫治疗疗效的验证。同时对来自法国6家医院MSI/dMMR的患者进行了检测结果的验证。通过ICH重新评估MMR,并且通过PCR和HT17assay的方法重新评估微卫星状态。在38例患者中,有5例发生原发耐药。经重新验证后,5例耐药患者中有3例(60%)MSI和dMMR状态发生误判:2例仅经一种方法检测;1例ICH和PCR结果不一致。来自法国6家医院被评估为dMMR或MSI的93例患者进行了检测结果的验证,其中有9例(10%)存在MSI假阳性的误判,其中6例仅通过一种方法检测,3例ICH和PCR结果不一致。基于Next GenerationSequencing(NGS)的MSI检测方法的主要优点是,可以评估数百个甚至数千个MSI位点,而不是局限于传统的基于PCR评估方法中的5位点。此外,使用独立的检测方法来评估MSI对每个癌症患者的效率都很低,因为只有5%的癌症MSI水平较高,而NGS允许MSI检测作为更全面分析的一部分,包括评估用于靶向治疗的驱动突变和肿瘤突变负荷。
利用靶向测序技术对配对的肿瘤-正常双样本进行MSI检测的方法越来越多,然而由于回顾性样本缺乏正常对照而不能成功检测。
发明内容
本发明旨在提供一种建立检测微卫星不稳定的基线的方法、装置及应用,以解决现有技术中由于回顾性样本缺乏正常对照而不能成功检测的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种建立检测微卫星不稳定的基线的方法。该方法包括以下步骤:S1,针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点;S2,统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线。
进一步地,S1中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,人类参考基因组为人类参考基因组GRCh37/hg19。
进一步地,建立检测微卫星不稳定的基线的方法还包括:使用验证过的样本作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
根据本发明的另一个方面,提供一种检测微卫星不稳定的方法。该方法包括:1)建立基线,采用上述任一种方法建立检测微卫星不稳定的基线;2)分析待测样本的测序数据,舍去候选MS位点或优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在候选MS位点基线或优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
进一步地,检测微卫星不稳定的方法还包括:计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即认为该样本具有微卫星不稳定性。
根据本发明的再一个方面,提供一种建立检测微卫星不稳定的基线的装置。该装置包括:检测位点筛选模块,设置为针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点;候选MS位点基线生成模块,设置为统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线。
进一步地,检测位点筛选模块中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,人类参考基因组为人类参考基因组GRCh37/hg19。
进一步地,建立检测微卫星不稳定的基线的装置还包括:优选MS位点基线生成模块,设置为使用验证过的样本作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
根据本发明的又一个方面,提供一种检测微卫星不稳定的装置。该装置包括:基线建立模块,采用上述任一种建立检测微卫星不稳定的基线的装置建立检测微卫星不稳定的基线;待测样本的测序数据分析模块,设置为舍去候选MS位点或优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在候选MS位点基线或优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
进一步地,还包括微卫星不稳定性判断模块,设置为计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即输出该样本具有微卫星不稳定性。
根据本发明的再一个方面,提供一种存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行建立检测微卫星不稳定的基线方法,或者执行上述检测微卫星不稳定的方法。
根据本发明的又一个方面,提供一种处理器。该处理器用于运行程序,其中,在程序运行时控制存储介质所在设备执行上述建立检测微卫星不稳定的基线的方法,或者执行上述检测微卫星不稳定的方法。
应用本发明的技术方案,使用多个阴性样本白细胞建立基线,来达到在没有对照样本的情况下检测待测样本微卫星不稳定性状态,在保证检测敏感性的同时,降低检测成本。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例1中检测微卫星不稳定的部分流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
利用靶向测序技术对配对的肿瘤-正常双样本进行MSI检测的方法越来越多,然而由于回顾性样本缺乏正常对照而不能成功检测,因此本发明通过对基于靶向捕获的双样本检测MSI的检测方法进行改进,在缺少肿瘤样本配对的白细胞对照的情况下,可以有效的检测肿瘤组织的MSI状态,在保证检测敏感性的同时,降低检测成本。
根据本发明一种典型的实施方式,提供一种建立检测微卫星不稳定的基线的方法。该方法包括以下步骤:S1,针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点;S2,统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线。
优选的,S1中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,人类参考基因组为人类参考基因组GRCh37/hg19。
在本发明一典型的实施方式中,建立检测微卫星不稳定的基线的方法还包括:使用验证过的样本作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
根据本发明一种典型的实施方式,提供一种检测微卫星不稳定的方法。该方法包括:1)建立基线,采用上述方法建立检测微卫星不稳定的基线;2)分析待测样本的测序数据,舍去候选MS位点或优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在候选MS位点基线或优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
在本发明另一实施方式中,上述方法还包括:计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即认为该样本具有微卫星不稳定性。
根据本发明一种典型的实施方式,提供一种建立检测微卫星不稳定的基线的装置。该装置用于实现上述建立检测微卫星不稳定的基线的方法,具体的,该装置包括检测位点筛选模块和候选MS位点基线生成模块,其中,检测位点筛选模块设置为针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点;候选MS位点基线生成模块设置为统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线。
优选的,检测位点筛选模块中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,人类参考基因组为人类参考基因组GRCh37/hg19。
在本发明一典型的实施方式中,对应上述建立检测微卫星不稳定的基线的方法,该装置还包括优选MS位点基线生成模块,优选MS位点基线生成模块设置为使用验证过的样本作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
根据本发明一种典型的实施方式,提供一种检测微卫星不稳定的装置。该装置用于实现上述检测微卫星不稳定的方法,具体的,该装置包括基线建立模块和待测样本的测序数据分析模块,其中,基线建立模块采用上述建立检测微卫星不稳定的基线的装置建立检测微卫星不稳定的基线;待测样本的测序数据分析模块设置为舍去候选MS位点或优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在候选MS位点基线或优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
在本发明另一实施方式中,上述装置还包括微卫星不稳定性判断模块,设置为计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即输出该样本具有微卫星不稳定性。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
1.取样:获取结直肠癌肿瘤组织样本
2.提取肿瘤组织DNA
3.杂交捕获及测序
4.建立基线(参见图1):
(1)确定人类参考基因组(GRCh37/hg19)MS位点(微卫星位点)共计2952815个,筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基。
(2)确定靶向捕获基因Panel上覆盖的人类参考基因组MS位点,共计2263个。
(3)筛选其中的单碱基重复位点363个,因为单核苷酸重复在美国国家癌症研究所(National Cancer Institute,NCI)的MSI-PCR中表现出较高的敏感性和特异性。
(4)统计120例阴性样本白细胞测序数据在步骤(3)中产生的单碱基重复位点上不同重复类型的短序列覆盖量,MS位点的不同重复类型小于5及覆盖深度小于30的位点舍去,得到候选MS位点,因样本测序数据量间存在差异,对短序列覆盖量进行标准化,即用候选MS位点的短序列覆盖量除以样本总的短序列数量,从而算出所有候选MS位点不同重复类型标准化后的短序列覆盖量,即为候选MS位点基线。
(5)使用60例经过MSI-PCR验证过的样本(30例MSI-H,30例MSS)作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,对不同样本在候选MS位点的短序列覆盖量进行标准化,标准化方法同步骤(4)。应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,共计20个。利用优选MS位点按照步骤(4)方法,产生优选MS位点基线。
5.评估待测肿瘤样本在优选MS位点的不稳定性:
(1)优选MS位点在待测肿瘤样本中重复类型小于5次的位点舍去;
(2)优选MS位点在待测肿瘤样本中的覆盖深度小于30的位点舍去;
(3)统计剩余优选MS位点在待测肿瘤样本中每种重复类型覆盖的短序列的数量;
(4)标准化优选MS位点短序列的覆盖量;
(5)使用秩和检验比较每个优选MS位点在优选基线和待测肿瘤样本中的差异,检验有统计学意义,即认为该优选MS位点具有不稳定性。
6.评估待测肿瘤样本的MSI状态:
计算具有不稳定性MS位点在所有优选MS位点中的比例,该比例大于60%即认为该样本具有MS不稳定性。
上述步骤4-5在检测微卫星不稳定的装置中执行,该装置包括:
基线建立模块:用于建立检测微卫星不稳定的基线的装置建立检测微卫星不稳定的基线,具体包括:
检测位点筛选模块,设置为针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内微卫星位点中单碱基重复位点,微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,人类参考基因组为人类参考基因组GRCh37/hg19;
候选MS位点基线生成模块,设置为统计多个阴性样本白细胞测序数据在单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线;
优选MS位点基线生成模块,设置为使用验证过的样本作为训练集,对候选MS位点进行训练,统计所有训练样本在所有候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线;
待测样本的测序数据分析模块,设置为舍去优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个优选MS位点在候选MS位点基线或优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定;
微卫星不稳定性判断模块,设置为计算具有不稳定性的微卫星位点在所有优选MS位点中的比例,该比例大于60%即输出该样本具有微卫星不稳定性。
实施例2
1.获取120例阴性样本的白细胞及60例阳性样本的组织样本提取DNA并测序;
2.使用比对软件将测序生成的数据文件比对到hg19/GRCh37人类参考基因组上,使用16个线程,其他参数使用默认设置,此步骤使用Burrows-Wheeler Aligner软件;
3.人类参考基因组覆盖的2952815个MS位点中,筛选出覆盖范围在10bp-100bp的MS位点,且最大重复单元为5个碱基,例如AAAAAA(A6),AGAGAGAGAGAG(AG6,SEQ ID NO:1),AGTAGTAGTAGTAGTAGT(AGT6,SEQ ID NO:2),AGTCAGTCAGTCAGTCAGTCAGTC(AGTC6,SEQ IDNO:3),AGTCAAGTCAAGTCAAGTCAAGTCAAGTCA(AGTCA6,SEQ ID NO:4)。此步骤使用MANTIS软件。
4.使用靶向捕获Panel捕获步骤3中筛选产生的MS位点,共计2263个;
5.将步骤4中产生的2263个MS位点中的单碱基重复位点筛选出来;
6.利用已有的120例阴性样本的白细胞测序数据基于步骤5中的MS位点建立基线,将步骤5中的MS位点在阴性样本中不同重复类型小于5的位点舍去,例如A12(碱基A重复12次,下同)、A13、A14、A15,其中单碱基重复A的类型只有4种,因此将此MS位点剔除;
7.基于步骤6,将筛选出的MS位点进行进一步过滤,将MS位点短序列覆盖量小于30的MS位点剔除,例如G17、G18、G19、G20、G21及G22的短序列覆盖量分别为37、18、30、35、50、46,将G18重复类型剔除;
8.基于步骤7筛选出的MS位点的短序列覆盖量进行标准化,即用MS位点的短序列覆盖量除以样本总的短序列覆盖量,算出所有MS位点的标准化短序列覆盖量,即为候选MS位点基线;
9.阴性样本的白细胞测序数据及阳性样本的组织样本测序数据均执行相同的步骤2-步骤8,并使用决策树分类器将候选MS位点中归类于阳性样本的候选MS位点设置为优选MS位点,即baseline reference;
10.获取待测肿瘤组织样本并提取DNA进行建库测序;
11.将步骤9中产生的优选MS位点在待测肿瘤组织中重复类型小于5的位点舍去,并将短序列覆盖量小于30的位点舍去,同步骤6及步骤7;
12.标准化步骤11中筛选的MS位点的短序列覆盖量,同步骤8;
13.使用秩和检验对每一个优选MS位点在baseline reference和待测肿瘤组织中进行差异检验,判定优选MS位点在待测肿瘤组织中的不稳定性,假设检验P值设定为0.05,检验所得结果小于0.05,即认为该位点是待测肿瘤组织的MSI位点;
14.统计待测肿瘤组织中所有MSI位点占优选MS的比例,该比例大于60%即认为该样本具有MS不稳定性;
15.利用以上处理步骤,40例待测肿瘤样本判断结果如下表1:
表1
经PCR检测所有样本均判定正确。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
序列表
<110> 北京优迅医学检验实验室有限公司
<120> 建立检测微卫星不稳定的基线的方法、装置及应用
<130> PN116829YXQX
<160> 4
<170> SIPOSequenceListing 1.0
<210> 1
<211> 12
<212> DNA
<213> Homo sapiens
<400> 1
agagagagag ag 12
<210> 2
<211> 18
<212> DNA
<213> Homo sapiens
<400> 2
agtagtagta gtagtagt 18
<210> 3
<211> 24
<212> DNA
<213> Homo sapiens
<400> 3
agtcagtcag tcagtcagtc agtc 24
<210> 4
<211> 30
<212> DNA
<213> Homo sapiens
<400> 4
agtcaagtca agtcaagtca agtcaagtca 30

Claims (10)

1.一种建立检测微卫星不稳定的基线的方法,其特征在于,包括以下步骤:
S1,针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索所述区域内微卫星位点中单碱基重复位点;
S2,统计多个阴性样本白细胞测序数据在所述单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用所述候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有所述候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线;
所述建立检测微卫星不稳定的基线的方法还包括:使用验证过的样本作为训练集,对所述候选MS位点进行训练,统计所有训练样本在所有所述候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用所述候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有所述优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
2.根据权利要求1所述的方法,其特征在于,所述S1中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,所述人类参考基因组为人类参考基因组GRCh37/hg19。
3.一种检测微卫星不稳定的方法,其特征在于,包括:
1)建立基线,采用权利要求1至2中任一项所述的方法建立检测微卫星不稳定的基线;
2)分析待测样本的测序数据,舍去所述候选MS位点或所述优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在所述候选MS位点基线或所述优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即认为该样本具有微卫星不稳定性。
5.一种建立检测微卫星不稳定的基线的装置,其特征在于,包括:
检测位点筛选模块,设置为针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索所述区域内微卫星位点中单碱基重复位点;
候选MS位点基线生成模块,设置为统计多个阴性样本白细胞测序数据在所述单碱基重复位点上不同重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,得到候选MS位点,利用所述候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,所有所述候选MS位点上不同重复类型的标准化短序列覆盖量即为候选MS位点基线;
优选MS位点基线生成模块,设置为使用验证过的样本作为训练集,对所述候选MS位点进行训练,统计所有训练样本在所有所述候选MS位点上不同单核苷酸重复类型的短序列覆盖量,舍去不同重复类型小于5及覆盖深度小于30的位点,利用所述候选MS位点的短序列覆盖量除以样本总的短序列数量算出标准化短序列覆盖量,应用决策树分类器算法筛选出归类于阳性样本的候选MS位点为优选MS位点,所有所述优选MS位点上不同重复类型的标准化短序列覆盖量即为优选MS位点基线。
6.根据权利要求5所述的装置,其特征在于,所述检测位点筛选模块中微卫星位点的筛选标准为重复区覆盖范围为10bp~100bp,最大重复单元为5个碱基,所述人类参考基因组为人类参考基因组GRCh37/hg19。
7.一种检测微卫星不稳定的装置,其特征在于,包括:
基线建立模块,采用权利要求5至6中任一项所述的装置建立检测微卫星不稳定的基线;
待测样本的测序数据分析模块,设置为舍去所述候选MS位点或所述优选MS位点上不同重复类型小于5及覆盖深度小于30的位点,算出剩余候选MS位点或优选MS位点上的标准化短序列覆盖量,使用秩和检验比较每个候选MS位点或优选MS位点在所述候选MS位点基线或所述优选MS位点基线和待测样本中的差异,根据差异判断微卫星不稳定。
8.根据权利要求7所述的装置,其特征在于,还包括微卫星不稳定性判断模块,设置为计算具有不稳定性的微卫星位点在所有候选MS位点或优选MS位点中的比例,该比例大于60%即输出该样本具有微卫星不稳定性。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至2中任意一项所述的建立检测微卫星不稳定的基线的方法,或者执行权利要求3或4所述的检测微卫星不稳定的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,在所述程序运行时控制如权利要求9所述的存储介质所在设备执行权利要求1至2中任意一项所述的建立检测微卫星不稳定的基线的方法,或者执行权利要求3或4所述的检测微卫星不稳定的方法。
CN202010335375.9A 2020-04-24 2020-04-24 建立检测微卫星不稳定的基线的方法、装置及应用 Active CN111583999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010335375.9A CN111583999B (zh) 2020-04-24 2020-04-24 建立检测微卫星不稳定的基线的方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010335375.9A CN111583999B (zh) 2020-04-24 2020-04-24 建立检测微卫星不稳定的基线的方法、装置及应用

Publications (2)

Publication Number Publication Date
CN111583999A CN111583999A (zh) 2020-08-25
CN111583999B true CN111583999B (zh) 2023-08-18

Family

ID=72111646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010335375.9A Active CN111583999B (zh) 2020-04-24 2020-04-24 建立检测微卫星不稳定的基线的方法、装置及应用

Country Status (1)

Country Link
CN (1) CN111583999B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687333B (zh) * 2020-12-24 2021-11-23 北京吉因加医学检验实验室有限公司 一种泛癌种的单样本微卫星不稳定性的分析方法和装置
CN113361580A (zh) * 2021-05-31 2021-09-07 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 一种结直肠癌错配修复功能的预测方法及装置
CN117292752B (zh) * 2023-08-16 2024-03-01 北京泛生子基因科技有限公司 一种基于cfDNA二代测序数据检测微卫星不稳定的装置、方法及其应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置
CN107526944A (zh) * 2017-09-06 2017-12-29 南京世和基因生物技术有限公司 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
WO2019204208A1 (en) * 2018-04-16 2019-10-24 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
CN110570907A (zh) * 2019-09-04 2019-12-13 北京橡鑫生物科技有限公司 建立检测微卫星不稳定的基线及模型的方法与应用
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN110951878A (zh) * 2019-12-20 2020-04-03 北京优迅医学检验实验室有限公司 与基因组稳定性相关的微卫星位点的筛选方法、筛选装置及应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置
CN107526944A (zh) * 2017-09-06 2017-12-29 南京世和基因生物技术有限公司 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
WO2019204208A1 (en) * 2018-04-16 2019-10-24 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN110570907A (zh) * 2019-09-04 2019-12-13 北京橡鑫生物科技有限公司 建立检测微卫星不稳定的基线及模型的方法与应用
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN110951878A (zh) * 2019-12-20 2020-04-03 北京优迅医学检验实验室有限公司 与基因组稳定性相关的微卫星位点的筛选方法、筛选装置及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵丹等.单肿瘤组织微卫星不稳定探测方法.计算机系统应用.2019,第50-57页. *

Also Published As

Publication number Publication date
CN111583999A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111583999B (zh) 建立检测微卫星不稳定的基线的方法、装置及应用
CN110305965B (zh) 一种预测非小细胞肺癌(nsclc)患者对免疫疗法的敏感性的方法
Lih et al. Analytical validation and application of a targeted next-generation sequencing mutation-detection assay for use in treatment assignment in the NCI-MPACT trial
CN112805563A (zh) 用于评估和/或治疗癌症的无细胞dna
Onecha et al. A novel deep targeted sequencing method for minimal residual disease monitoring in acute myeloid leukemia
US20150292033A1 (en) Method of determining cancer prognosis
CN107849569B (zh) 肺腺癌生物标记物及其应用
US20230002831A1 (en) Methods and compositions for analyses of cancer
CN111254196B (zh) Inpp4b基因变异在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN107002131B (zh) 作为确认骨髓增生异常综合征诊断的可靠测试的外周血血浆dna深度测序
CN112921091B (zh) Flt3基因突变在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN110923329B (zh) Fgfr4点突变在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
Chen et al. Efficacy comparison of targeted next-generation sequencing in the identification of somatic mutations in circulating tumor DNA from different stages of lung cancer.
CN111269979A (zh) Arid1b基因变异在预测肺腺癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN113355424B (zh) Pcdh11x突变在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN113403399B (zh) Pcdhgb1突变在预测肺腺癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN113061656A (zh) Tet1基因突变在预测结肠癌患者对免疫检查点抑制剂疗法敏感性中的应用
CN112342296A (zh) 用于实体瘤免疫检查点抑制剂疗法预测的kmt2家族基因变异标志物和试剂盒
CN111910007A (zh) Rnf43基因变异在预测实体瘤患者对免疫检查点抑制剂疗法敏感性中的应用
CN110564851A (zh) 一组用于非超突变型直肠癌分子分型的基因及其应用
WO2018212071A1 (ja) びまん性大細胞型b細胞リンパ腫の予後予測因子、及び予後予測方法
US12043873B2 (en) Molecule counting of methylated cell-free DNA for treatment monitoring
CN114934118A (zh) Fat3和lrp1b共突变在预测子宫内膜癌患者对免疫疗法敏感性中的应用
US20240360519A1 (en) Molecule counting of methylated cell-free dna for treatment monitoring
Onecha de La Fuente et al. Novel deep targeted sequencing method for minimal residual disease monitoring in acute myeloid leukemia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant