CN115223658A - 一种基于二代测序的微卫星不稳定性检测方法 - Google Patents

一种基于二代测序的微卫星不稳定性检测方法 Download PDF

Info

Publication number
CN115223658A
CN115223658A CN202110427488.6A CN202110427488A CN115223658A CN 115223658 A CN115223658 A CN 115223658A CN 202110427488 A CN202110427488 A CN 202110427488A CN 115223658 A CN115223658 A CN 115223658A
Authority
CN
China
Prior art keywords
msi
sample
sites
detection
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110427488.6A
Other languages
English (en)
Other versions
CN115223658B (zh
Inventor
林程宏
陈少红
李旭超
金宝雷
张吓妹
董华
阮力
郑立谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amoy Diagnostics Co Ltd
Original Assignee
Amoy Diagnostics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amoy Diagnostics Co Ltd filed Critical Amoy Diagnostics Co Ltd
Priority to CN202110427488.6A priority Critical patent/CN115223658B/zh
Priority to EP22790777.1A priority patent/EP4328920A1/en
Priority to PCT/CN2022/082252 priority patent/WO2022222668A1/zh
Publication of CN115223658A publication Critical patent/CN115223658A/zh
Application granted granted Critical
Publication of CN115223658B publication Critical patent/CN115223658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于二代测序的微卫星不稳定性检测方法,包括如下步骤:(1)将不同MSI阴性样本测序数据合并,获得参考集;(2)统计参考集中MSI位点i的深度Di;(3)计算MSI阴性样本的MSI位点i的微卫星序列的数据特征Fi;(4)统计整个所述参考集中低于阈值a的MSI位点i的深度Di的个数,然后选择构建混合参考集;(5)对MSI阴性样本进行分组质控;(6)进行第一次检出;(7)若上述第一次检出中被判为MSS候选位点的位点j的个数少于d,则该第一次检出的结果即为最终的检出结果;否则需要进行第二次检出,获得最终的检出结果;(8)对于步骤(7)所获得的待测样本中被判定为MSI候选位点的位点j的个数占该待测样本的总位点数的比例,判断待测样本的微卫星稳定状态。

Description

一种基于二代测序的微卫星不稳定性检测方法
技术领域
本发明属于微卫星检测技术领域,具体涉及一种基于二代测序的微卫星不稳定性检测方法。
背景技术
微卫星(Microsatellite,MS)为遍布于人类基因组中的短串联重复序列。微卫星不稳定(Microsatellite Instability,MSI),是指由于在DNA复制时发生插入或缺失突变所引起的MS序列长度改变的现象,常与错配修复功能(Mismatch repair,MMR)缺陷有关。
近年来发现,MSI与一些肿瘤预后相关。在结直肠癌、胃癌、子宫内膜癌和卵巢癌等疾病中,相比低度微卫星不稳定(MSI-L)癌症患者和微卫星稳定(MSS)癌症患者,高度微卫星不稳定(MSI-H)癌症患者单纯接受手术治疗后通常具有较好的预后效果和较长的生存期,而不适用于一些化疗药物,例如5-氟尿嘧啶。此外,研究表明,病人MSI状态对指导免疫治疗也具有重要意义。对于MSI-H晚期结直肠癌患者,免疫治疗不论是单药抗PD-1单抗还是联合抗CTLA-4单抗的双抗免疫疗法,均取得了良好的效果。而MSS结直肠癌患者目前则不推荐使用免疫治疗。除结直肠癌外,这种现象也相继在胃癌、子宫内膜癌、胰腺癌和胆管癌等晚期实体瘤中得到验证。因此,MSI作为化学疗法和免疫治疗的潜在疗效预测指标,准确评估患者的MSI状态对其临床诊断、预后、化疗敏感性以及治疗方案的制订具有重要意义。
随着高通量测序平台的广泛应用,二代测序技术(Next-generation sequencing,NGS)开始大量应用于MSI的检测。NGS进行MSI检测具有高通量、高精确度、高灵敏度等特点,使得用生物信息计算工具同时分析基因组上大量的微卫星序列成为可能。然而,常规的基于NGS的MSI检测算法和软件需要采用正常样本或MSI阴性肿瘤样本所构建的固定阴性样本参考集作为对照,例如:mSINGS、MSIsensor、MSIsensor-pro、MANTIS等方法。而另一方面,MSI样本的数据特征极易受到不同测序平台、实验试剂、实验参数、实验批次等环节的影响,而产生一定的整体波动。因此在实际检测中往往会出现跨批次样本检出性能不佳,乃至不同平台、仪器需要构建和维护不同参考集以及参数流程的情况;此外,由于癌症的异质性,不同癌种间样本也存在数据特征的显著差异,往往也需要单独构建参考集,这不仅增加了成本,而且在应用上也带来很大的局限性,无法灵活快速的应对新平台、新仪器、新癌种数据。
因此,如何建立一个高效便捷且可在不同NGS检测平台、批次和不同癌种中通用的MSI阴性样本长度分布参考集用于MSI的检测至关重要。
发明内容
本发明的目的在于克服现有技术缺陷,提供一种基于二代测序的微卫星不稳定性检测方法。
本发明的技术方案如下:
一种基于二代测序的微卫星不稳定性检测方法,包括如下步骤:
(1)将不同NGS检测平台、不同试剂类型和/或不同癌种的MSI阴性样本测序数据合并,获得参考集;
(2)统计参考集中每个MSI阴性样本的MSI位点i的总的reads数,记为MSI位点i的深度Di
(3)对于参考集中每个MSI阴性样本的所有的MSI位点i,根据选择的MSI检测算法计算该MSI位点i的微卫星序列的数据特征Fi
(4)统计整个所述参考集中低于阈值a的MSI位点i的深度Di的个数,然后选择reads数低于阈值a的低深度位点的个数不大于b个的样本构建混合参考集;
(5)对该混合参考集中的每个NGS检测平台、每个癌种对应的MSI阴性样本进行分组质控:
a、对于其中任一MSI位点i,对于同组所有MSI阴性样本的数据特征Fi,去除离群点后获得该位点的均值MFi
b、对于每个MSI阴性样本,计算所有MSI位点i的数据特征Fi的标准差StdFi,并选择标准差StdFi小于阈值c的样本;
c、对于每个MSI阴性样本,将所有的MSI位点i的数据特征Fi与对应的均值MFi进行比较,经F检验,获得与对应的均值MFi不存在显著差异的样本;
d、选择每个分组中同时满足步骤b和步骤c的要求的样本,构建每个MSI位点i的混合样本参考集,并以该混合样本参考集,计算每个MSI位点i的数据特征Fi的均值MFi’和标准差StdFi’;
(6)根据步骤(1)至(5)获得待测样本的位点i的深度Di、数据特征Fi,对于reads数高于阈值a的待测样本的位点i,如果Fi<MFi’-x·StdFi’或Fi>MFi’+x·StdFi’,则将该位点i判定为MSI候选位点,否则为MSS候选位点,其中x为1-6,对于reads数低于阈值a的位点i则不予考虑;该步骤为第一次检出;
(7)若上述第一次检出中被判为MSS候选位点的位点j的个数少于d,则该第一次检出的结果即为最终的检出结果;否则需要为该待测样本挑选最优参考样本子集进行第二次检出,获得最终的检出结果;
(8)对于步骤(7)所获得的待测样本中被判定为MSI候选位点的位点j的个数占该待测样本的总位点数的比例,判断待测样本的微卫星稳定状态。
在本发明的一个优选实施方案中,所述深度Di为原始深度Di或有效深度Di
进一步优选的,所述深度Di为有效深度Di
在本发明的一个优选实施方案中,所述数据体征Fi为主峰深度占比或主峰个数,该主峰为覆盖所述MSI位点i最多的任意之一或之二的微卫星序列的长度类型。
在本发明的一个优选实施方案中,所述阈值a为100-300,b为样本中的MSI位点i的总数的10-30%。
在本发明的一个优选实施方案中,所述阈值c为0.2-0.3。
在本发明的一个优选实施方案中,所述标准差StdFi为所述混合参考集中的每个MSI阴性样本的数据特征Fi去除以所述均值MFi,并求log2,然后求同一个MSI阴性样本的所有位点的该log2值的标准差。
在本发明的一个优选实施方案中,所述x为3-5。
在本发明的一个优选实施方案中,所述d为待测样本的总位点个数的5-20%。
在本发明的一个优选实施方案中,所述第二次检出包括:
a、对于第一次检出中被判为MSS候选位点的位点j,如果阳性位点的数据特征Fj的数学期望比阴性位点小,将其阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj’-x·StdFj,然后对所得结果值从大到小进行排列,保留排序在前的至多e个位点,如果阳性位点的数据特征Fj的数学期望比阴性位点大,将阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj’+x·StdFj,然后对所得结果值从小到大进行排列,保留排序在前的至多e个位点,以作用于后续最优阴性参考子集的匹配过程;
b、基于步骤a中所挑选的位点j在所述待测样本与所述混合参考集的样本中的数据特征,计算待测样本与混合参考集中每个样本的相似度,根据相似度选取最高的若干个样本,构建最优参考子集;
c、计算最优参考子集中的每个位点i的数据特征Fi’的均值MFi”和标准差StdFi”;
d、根据步骤(7)所示,基于第二次检出阈值MFj”-y·StdFj”和MFj”+y·StdFj”,再对所述待测样本的每个位点j进行重新判定,即为每个位点最终的检出结果。
进一步优选的,所述第二次检出中的步骤a中的e为所述待测样本中的总位点数的30-50%。
进一步优选的,所述第二次检出中的步骤b中的相似度的计算方法包括计算欧式距离、计算余弦距离、计算曼哈顿距离或使用聚类方法。
进一步优选的,所述y为1-6。
更进一步优选的,所述y为3-5。
进一步优选的,所述e为所述待测样本的总位点数的30-50%。
在本发明的一个优选实施方案中,所述步骤(8)中,若被判为MSI的位点数除以总MSI位点数的商R≥检出阈值Thr,则将该待测样本被判定为MSI,否则判定为MSS。
进一步优选的,所述检出阈值Thr为10-60%。
更进一步优选的,所述检出阈值Thr为15-40%。
本发明的有益效果是:
1、本发明开发了一种基于NGS技术的MSI阴性样本参考集构建与适配方法,该分析方法可以应用在各种基于NGS测序的样本中,用于微卫星不稳定性状态的检测。
2、本发明不依赖于待测样本自身的阴性对照样本或同批次的阴性样本参考集,能够在无法获得自身阴性样本参考集的情况下,自动适配与其数据特征最接近的阴性参考集,从而准确高效可重复地判断待测样本的MSI状态。
3、本发明具备比固定参考集更强的跨批次、跨试剂、跨仪器、跨平台、跨癌种检出性能;
4、本发明使待测样本和阴性参考集之间本底数据特征更相近,可以不需要针对待测样本类型进行单独优化和调参,乃至建立单独的流程,能够节约大量资源和成本,兼具理论与实际应用价值。
5、相比传统的MSI检测方法,例如:PCR检测、免疫组化,本发明具有高通量、客观、实验方案简单高效等优点。
具体实施方式
以下通过具体实施方式对本发明的技术方案进行进一步的说明和描述。
各实施例均按照以下方法进行:
一种基于二代测序的微卫星不稳定性检测方法,包括如下步骤:
(1)将不同NGS检测平台、不同试剂类型和/或不同癌种的MSI阴性样本测序数据合并,获得参考集;
(2)统计参考集中每个MSI阴性样本的MSI位点i的总的reads数,记为MSI位点i的深度Di
(3)对于参考集中每个MSI阴性样本的所有的MSI位点i,根据选择的MSI检测算法计算该MSI位点i的微卫星序列的数据特征Fi
(4)统计整个所述参考集中低于阈值a的MSI位点i的深度Di的个数,然后选择reads数低于阈值a的低深度位点的个数不大于b个的样本构建混合参考集;
(5)对该混合参考集中的每个NGS检测平台、每个癌种对应的MSI阴性样本进行分组质控:
a、对于其中任一MSI位点i,对于同组所有MSI阴性样本的数据特征Fi,去除离群点后获得该位点的均值MFi
b、对于每个MSI阴性样本,计算所有MSI位点i的数据特征Fi的标准差StdFi,并选择标准差StdFi小于阈值c的样本;
c、对于每个MSI阴性样本,将所有的MSI位点i的数据特征Fi与对应的均值MFi进行比较,经F检验,获得与对应的均值MFi不存在显著差异的样本;
d、选择每个分组中同时满足步骤b和步骤c的要求的样本,构建每个MSI位点i的混合样本参考集,并以该混合样本参考集,计算每个MSI位点i的数据特征Fi的均值MFi’和标准差StdFi’;
(6)根据步骤(1)至(5)获得待测样本的位点i的深度Di、数据特征Fi,对于reads数高于阈值a的待测样本的位点i,如果Fi<MFi’-x·StdFi’或Fi>MFi’+x·StdFi’,则将该位点i判定为MSI候选位点,否则为MSS候选位点,其中x为1-6,对于reads数低于阈值a的位点i则不予考虑;该步骤为第一次检出;
(7)若上述第一次检出中被判为MSS候选位点的位点j的个数少于d,则该第一次检出的结果即为最终的检出结果;否则需要为该待测样本挑选最优参考样本子集进行第二次检出,获得最终的检出结果;
(8)对于步骤(7)所获得的待测样本中被判定为MSI候选位点的位点j的个数占该待测样本的总位点数的比例,判断待测样本的微卫星稳定状态。
所述深度Di为原始深度Di或有效深度Di,进一步优选的,所述深度Di为有效深度Di
所述数据体征Fi为主峰深度占比或主峰个数,该主峰为覆盖所述MSI位点i最多的任意之一或之二的微卫星序列的长度类型。
所述阈值a为100-300,b为样本中的MSI位点i的总数的10-30%。
所述阈值c为0.2-0.3。
所述标准差StdFi为所述混合参考集中的每个MSI阴性样本的数据特征Fi去除以所述均值MFi,并求log2,然后求同一个MSI阴性样本的所有位点的该log2值的标准差。
所述x为3-5。
所述d为待测样本的总位点个数的5-20%。
所述第二次检出包括:
a、对于第一次检出中被判为MSS候选位点的位点j,如果阳性位点的数据特征Fj的数学期望比阴性位点小,将其阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj’-x·StdFj,然后对所得结果值从大到小进行排列,保留排序在前的至多e个位点,如果阳性位点的数据特征Fj的数学期望比阴性位点大,将阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj’+x·StdFj,然后对所得结果值从小到大进行排列,保留排序在前的至多e个位点,以作用于后续最优阴性参考子集的匹配过程;
b、基于步骤a中所挑选的位点j在所述待测样本与所述混合参考集的样本中的数据特征,计算待测样本与混合参考集中每个样本的相似度,根据相似度选取最高的若干个样本,构建最优参考子集;
c、计算最优参考子集中的每个位点i的数据特征Fi’的均值MFi”和标准差StdFi”;
d、根据步骤(7)所示,基于第二次检出阈值MFj”-y·StdFj”和MFj”+y·StdFj”,再对所述待测样本的每个位点j进行重新判定,即为每个位点最终的检出结果。
所述第二次检出中的步骤a中的e为所述待测样本中的总位点数的30-50%。
所述第二次检出中的步骤b中的相似度的计算方法包括计算欧式距离、计算余弦距离、计算曼哈顿距离或使用聚类方法。
所述y为1-6,进一步优选为3-5。
所述e为所述待测样本的总位点数的30-50%。
所述步骤(8)中,若被判为MSI的位点数除以总MSI位点数的商R≥检出阈值Thr,则将该待测样本被判定为MSI,否则判定为MSS。
所述检出阈值Thr为10-60%,更进一步优选为15-40%。
各实施例中所涉及的实验样本均预先通过Sanger测序进行检测,其比较的位点为美国国家癌症研究所(National Cancer Institute,NCI)推荐的5个微卫星位点:BAT25、BAT26、D5S346、D2S123及D17S250。通过确定发生改变的位点数判定样本的MSI-H、MSI-L和MSS状态。Sanger测序是目前所有基因检测的国际金标准。由于既往研究表明MSI-L与MSS的肿瘤生物学特点没有明显的差异,各实施例将MSI-L和MSS样本归为一组MSS样本进行处理。根据肿瘤组织取样部位的不同,本发明将MSS样本又分为了MSS肿瘤组织样本和MSS癌旁正常样本。本发明通过从患者组织样本中提取基因组DNA,建库,扩增,进行NGS测序分析,具体样本信息如表1所示。实施例中使用了一种用于微卫星不稳定性检测的55个位点组合。对生成的测序数据,统计覆盖到55个位点不同重复序列长度类型的reads数进行后续的检测和判定。
表1 来自不同NGS检测平台、检测机型、检测试剂及癌种的样本信息检测平台
Figure BDA0003029000840000071
注:1结直肠癌,2子宫内膜癌,3胃癌
实施例1基于主峰深度占比的不同测序平台样本检出性能测试
本实施例所采用的测试数据为表1中MiSeq-v2和MGI200Test01-02结直肠癌的样本。此为同一批样本在不同测序平台所检测的数据,包括6例Sanger阳性结直肠癌组织样本、31例Sanger阴性结直肠癌组织样本和26例Sanger阴性结直肠癌癌旁正常组织样本。具体步骤如下:
(1)构建混合参考集
本实施例统计了上述114例Sanger阴性结直肠癌样本中覆盖本发明提供的55个位点分别所对应的不同重复序列长度类型的reads数。
针对某一微卫星位点,基于上述统计的reads数,每个样本分别计算在该位点的有效深度值和主峰深度占比值。在本实施例中,有效深度值指覆盖该位点所有微卫星序列长度类型的reads数的总和。主峰深度占比值指覆盖该位点最多的1或2种微卫星序列长度类型的覆盖率。具体而言,若覆盖第一的长度类型reads数的75%大于覆盖第二的长度类型reads数,则取覆盖第一的长度类型的覆盖率为主峰深度占比,否则,取覆盖第一、二的长度类型的覆盖率之和为主峰深度占比;针对每个NGS检测平台(MiSeq和MGI200)对应的阴性样本,根据步骤2.4和2.5进行质控,具体而言:
对于每个结直肠癌阴性样本,统计位点的有效深度值小于300的个数,去除个数>5的样本;
对任一MSI位点j,基于主峰深度占比计算其在阴性样本中的标准分数(z-score),根据z-score值去除20%的离群点,然后统计每个位点的主峰深度占比均值MFj
对任一MSI位点j,将其主峰深度占比值除以均值MFj,再进行log2转化,得到每个位点的深度占比log2值logMFj
对任一结直肠癌阴性样本,根据每个位点的logMFj,计算每个样本的标准差,去除标准差>0.2的样本;
对任一结直肠癌阴性样本,将位点的主峰深度占比值与均值MFj进行单因素方差分析,得到每个样本检验的显著性水平P,去除P<0.05的样本;
再把两个测序平台的质控后的阴性样本合并,得到最终的阴性样本混合参考集。基于此,计算得到每个位点主峰深度占比的均值meani和标准差stdi
(2)待测样本MSI状态检测
针对本实施例中某一待测样本的每个MSI位点i,同样统计覆盖该位点不同重复序列长度类型的reads数,并计算该样本在该位点的有效深度值和主峰深度占比值,本实施例中将有效深度不大于300的位点不予考虑;
将有效深度大于300的每个位点的主峰深度占比值,与步骤1.1中所计算的每个位点对应的阈值meani-4·stdi进行比较,即若位点的主峰深度占比值<meani-4·stdi,则将该位点判断为不稳定的微卫星位点,否则判断为稳定的微卫星位点,统计此时该待测样本被判为MSS位点的个数n1
若n1<3,则此时该待测样本不稳定的位点数为55-n1
若n1≥3,则根据步骤3.2为该待测样本挑选最优参考集进行二次检出,具体而言:对于第一次检出中被判为MSS的位点,将其主峰深度占比值除以对应位点的第一次检出阈值meani-4·stdi,并对该值从大到小进行排列,保留排秩在前的至多40个位点。基于所挑选位点的主峰深度占比值,统计待测样本与混合参考集中每个样本的曼哈顿距离,并将该距离值从小到大进行排列,选取排秩在前的30个样本,即为最优参考子集;计算此时每个位点在最优参考子集中的主峰深度占比均值mean’i和标准差std’i。基于第二次检出阈值mean’i-4·std’i,统计此时该待测样本被判为MSS位点的个数n2,则此时该待测样本不稳定的位点数为55-n2
针对每个待测样本,若不稳定的位点数55-n1或55-n2≥15%·55,则该样本判定为MSI,若个数<15%·55,则该样本判定为MSS。
由于MSI-L与MSS的肿瘤生物学特点没有明显的差异,因此,本发明将MSI-L与MSS归为一组MSS,将MSI-H归为MSI。
(3)待测样本MSI状态验证
本实施例中共检测了MiSeq和MGI200测序平台的6例Sanger阳性结直肠癌组织样本、31例Sanger阴性结直肠癌组织样本和26例Sanger阴性结直肠癌癌旁正常组织样本。
采用基于本发明的方法对这126例样本进行检出时,结果显示,126例样本全部正确检出,特异性和敏感性都达到100%;
作为本实施例的对比,采用基于常规的固定参考集的方法如下:
对比试验1:基于MiSeq测序平台所对应的57例阴性结直肠癌样本的主峰深度占比构建自身阴性参考集,计算此时每个位点在自身阴性参考集中主峰深度占比的均值mean”i和标准差std”i,之后,根据阈值mean”i-4·std”i,对MiSeq测序平台的63例样本进行检出。结果显示,63例样本全部正确检出。
对比试验2:同上,以MGI200测序平台所对应的57例阴性结直肠癌样本为参考集对MGI200测序平台的63例样本进行检出。结果显示,63例样本也是全部正确检出。
对比试验3:同上,以MGI200测序平台所对应的57例阴性结直肠癌样本为参考集对MiSeq测序平台的63例样本进行检出。结果显示,6例Sanger阳性结直肠癌组织样本全部被界定为MSI,灵敏度为100%,而对于57例Sanger阴性样本,仅7例被界定为MSS,特异度仅为12.28%。
由此可见,常规的固定参考集的方法并不适用于跨不同测序平台的样本。
实施例2基于主峰深度占比的不同测序仪器样本检出性能测试
本实施例所采用的测试数据为表1中NextSeq和MiSeq Test04-05子宫内膜癌的样本。此为同一批次的样本在相同测序平台(Illumina)、不同测序机型(NextSeq,MiSeq)、不同测序试剂类型及版本(Mid,High,V2,V2.5)所检测的数据。具体步骤为:本实施例基于上述不同测序机型、不同测序试剂类型及版本对应的214例阴性样本构建混合参考集,具体实施步骤与实施例1中一致。结果显示,对于NextSeq-Mid的测序数据,24例Sanger阳性样本全部被界定为MSI,105例Sanger阴性样本,104例被界定为MSS,仅1例被界定为MSI;对于NextSeq-High的测序数据,24例Sanger阳性样本全部被界定为MSI,59例Sanger阴性样本,58例被界定为MSS,仅1例被界定为MSI;对于MiSeq的测序数据,19例Sanger阳性样本全部被界定为MSI,50例Sanger阴性样本全部被界定为MSS。总体敏感度达100%,特异度达99.07%。
作为本实施例的对比,基于常规的固定参考集的方法如下:
对比试验4:基于NextSeq-Mid-v2.5测序平台所对应的105例阴性样本的主峰深度占比值构建自身阴性参考集,计算此时每个位点在自身阴性参考集中主峰深度占比的均值mean”i和标准差std”i,之后,根据阈值mean”i-4·std”i,对NextSeq-Mid-v2.5测序平台的129例样本进行检出。结果显示,24例Sanger阳性样本,23例被界定为MSI,1例被界定为MSS,105例Sanger阴性样本,104例被界定为MSS,1例被界定为MSI。
对比试验5:同上,以NextSeq-High-v2.5测序平台所对应的59例阴性样本为参考集,对NextSeq-High-v2.5测序平台的83例样本进行检出。结果显示,24例Sanger阳性样本,23例被界定为MSI,1例被界定为MSS,59例Sanger阴性样本,58例被界定为MSS,1例被界定为MSI。
对比试验6:同上,以MiSeq-v2测序平台所对应的50例阴性样本为参考集,对MiSeq-v2测序平台的69例样本进行检出。结果显示,69例样本全部被正确检出。
对比试验7:同上,以NextSeq-Mid-v2.5测序平台的105例阴性样本为参考集,对MiSeq-v2测序平台的69例样本进行检出。结果显示,19例Sanger阳性样本,有17例被界定为MSI,2例被界定为MSS,50例Sanger阴性样本全部被界定为MSS。
由此可见,常规的固定参考集的方法,无论是基于自身对应的参考集还是跨不同测序机型的参考集,其灵敏度相比基于本发明的方法更低。
实施例3基于主峰深度占比的不同癌种样本检出性能测试
本实施例所采用的测试数据为表1中MiniSeq-High的样本。其中包括结直肠癌、胃癌和子宫内膜癌的样本在相同测序平台和仪器所检测的数据,分别包括6例Sanger阳性结直肠癌组织样本、20例Sanger阴性结直肠癌组织样本、12例Sanger阴性结直肠癌癌旁正常组织样本、9例Sanger阳性胃癌组织样本、25例Sanger阴性胃癌组织样本、12例Sanger阳性子宫内膜癌组织样本、30例Sanger阴性子宫内膜癌组织样本和31例Sanger阴性子宫内膜癌癌旁正常组织样本。具体步骤为:本实施例基于上述3个癌种的118例阴性样本构建混合参考集,具体实施步骤与实施例1中一致。结果显示,3个癌种总共145例全部被正确检出,准确性达100%。
作为本实施例的对比,基于常规的固定参考集的方法如下:
对比试验8:基于MiniSeq-High测序平台所对应的32例阴性结直肠癌样本的主峰深度占比值构建自身阴性参考集,计算此时每个位点在自身阴性参考集中主峰深度占比的均值mean”i和标准差std”i,之后,根据阈值mean”i-4·std”i,对MiniSeq-High测序平台的38例结直肠癌样本进行检出。结果显示,38例样本全部被正确检出。
对比试验9:同上,以MiniSeq-High测序平台所对应的25例阴性胃癌样本为参考集,对MiniSeq-High测序平台的34例胃癌样本进行检出。结果显示,34例样本全部被正确检出。
对比试验10:同上,以MiniSeq-High测序平台所对应的61例阴性子宫内膜癌样本为参考集,对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,73例样本全部被正确检出。
对比试验11:同上,以MiniSeq-High测序平台所对应的32例阴性结直肠癌样本为参考集,对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,12例Sanger阳性样本全部被界定为MSI,61例Sanger阴性样本,有60例被界定为MSS,1例被界定为MSI。
对比试验12:同上,以MiniSeq-High测序平台所对应的25例阴性胃癌样本为参考集,对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,12例Sanger阳性样本全部被界定为MSI,61例Sanger阴性样本,有60例被界定为MSS,1例被界定为MSI。
由此可见,常规的固定参考集的方法对跨不同癌种的参考集的应用具有局限性。
实施例4基于主重复单元数的不同癌种样本检出性能测试
本实施例所采用的测试数据与实施例3一致,为表1中MiniSeq-High测序平台的不同癌种的样本。具体步骤如下:
(1)构建混合参考集
本实施例统计了上述MiniSeq-High测序平台不同癌种的118例Sanger阴性样本中覆盖本发明提供的55个位点分别所对应的有效深度值和主重复单元数。在本实施例中,有效深度值指覆盖该位点所有微卫星重复序列长度类型的reads数的总和。主重复单元数的计算方式如下:对于每个样本的MSI位点i,统计覆盖该位点不同重复序列长度的类型及其对应的reads数n(i,j),j=1、2、3...,以及有效深度值ni,计算每种不同重复序列长度类型对应的reads数占该位点有效深度值的百分比n(i,j)/ni·100%,将其从大到小进行排列并将该百分比值累加,当百分比之和>=90%时停止计算,此时,所进行累加的百分比所对应的重复序列长度类型的个数即为主重复单元数。
针对每个癌种对应的阴性样本,根据步骤2.4和2.5进行质控,具体而言:
对于每个阴性样本,统计位点的有效深度值小于300的个数,去除个数>5的样本;
对任一MSI位点j,基于主重复单元数计算其在阴性样本中的标准分数(z-score),根据z-score值去除20%的离群点,然后统计每个位点的主重复单元数的均值MFj
对任一MSI位点j,将其主重复单元数除以均值MFj,再进行log2转化,得到每个位点的主重复单元占比log2值logMFj
对任一阴性样本,根据每个位点的logMFj,计算每个样本的标准差,去除标准差>0.2的样本;
对任一阴性样本,将位点的主重复单元数与均值MFj进行单因素方差分析,得到每个样本检验的显著性水平P,去除P<0.05的样本;
再把3个不同癌种分别质控后的阴性样本合并,得到最终的阴性样本混合参考集。基于此,计算得到每个位点主重复单元数的均值meani和标准差stdi
(2)待测样本MSI状态检测
针对本实施例中某一待测样本的每个MSI位点i,同样统计覆盖该位点不同重复序列长度类型的reads数,并计算该样本在该位点的有效深度值和主重复单元数,本实施例中将有效深度不大于300的位点不予考虑;
将有效深度大于300的每个位点的主重复单元数,与步骤1.1中所计算的每个位点对应的阈值meani+4·stdi进行比较,即若位点的主重复单元数>meani+4·stdi,则将该位点判断为不稳定的微卫星位点,否则判断为稳定的微卫星位点,统计此时该待测样本被判为MSS位点的个数n1
若n1<3,则此时该待测样本不稳定的位点数为55-n1
若n1≥3,则根据步骤3.2为该待测样本挑选最优参考集进行二次检出,具体而言:对于第一次检出中被判为MSS的位点,将其主重复单元数除以对应位点的第一次检出阈值meani+4·stdi,并对该值从小到大进行排列,保留排秩在前的至多40个位点。基于所挑选位点的主重复单元数,统计待测样本与混合参考集中每个样本的曼哈顿距离,并将该距离值从小到大进行排列,选取排秩在前的30个样本,即为最优参考子集;计算此时每个位点在最优参考子集中的主重复单元数的均值mean’i和标准差std’i。基于第二次检出阈值mean’i+4·std’i,统计此时该待测样本被判为MSS位点的个数n2,则此时该待测样本不稳定的位点数为55-n2
针对每个待测样本,若不稳定的位点数55-n1或55-n2≥15%·55,则该样本判定为MSI,若个数<15%·55,则该样本判定为MSS。
由于MSI-L与MSS的肿瘤生物学特点没有明显的差异,因此,本发明将MSI-L与MSS归为一组MSS,将MSI-H归为MSI。
(3)待测样本MSI状态验证
本实施例中共检测了MiniSeq-High测序平台子宫内膜癌的样本,包括12例Sanger阳性样本、30例Sanger阴性样本和31例Sanger阴性癌旁正常组织样本。
采用基于本发明的方法对这73例样本进行检出时,结果显示,73例样本全部正确检出,特异性和敏感性都达到100%;
作为本实施例的对比,基于常规的固定参考集的方法如下:
对比试验13:基于MiniSeq-High测序平台的61例阴性子宫内膜癌样本的主重复单元数构建自身阴性参考集,计算此时每个位点在自身阴性参考集中主重复单元数的均值mean”i和标准差std”i,之后,根据阈值mean”i+4·std”i,对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,73例样本全部正确检出。
对比试验14:同上,以MiniSeq-High测序平台所对应的32例阴性结直肠癌样本为参考集对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,12例Sanger阳性样本全部被界定为MSI,61例Sanger阴性样本有60例被界定为MSS,1例被界定为MSI。
对比试验15:以MiniSeq-High测序平台所对应的25例阴性胃癌样本为参考集对MiniSeq-High测序平台的73例子宫内膜癌样本进行检出。结果显示,12例Sanger阳性样本有10例被界定为MSI,2例被界定为MSS。61例Sanger阴性样本有60例被界定为MSS,1例被界定为MSI。
由此可见,基于主循环单元数的特征进行检出时,常规的固定参考集的方法在使用跨不同癌种的参考集时,其特异度相比基于本发明的方法更低。
综上,上述各实施例的结果表明了本发明提供的基于NGS技术,构建和挑选待测样本最优MSI阴性样本参考集,对样本微卫星不稳定性状态进行检测的方法,与Sanger测序结果比较,准确率达99.64%,相比常规的固定参考集的方法,能够更准确高效地识别样本的MSI状态(见表2),同时具备更好的跨批次、跨试剂、跨仪器、跨平台、跨癌种的稳定性。
表2 微卫星不稳定性判定结果
Figure BDA0003029000840000141
Figure BDA0003029000840000151
注:1结直肠癌,2胃癌,3子宫内膜癌。
以上所述,仅为本发明的较佳实施例而已,故不能依此限定本发明实施的范围,即依本发明专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明涵盖的范围内。

Claims (18)

1.一种基于二代测序的微卫星不稳定性检测方法,其特征在于:包括如下步骤:
(1)将不同NGS检测平台、不同试剂类型和/或不同癌种的MSI阴性样本测序数据合并,获得参考集;
(2)统计参考集中每个MSI阴性样本的MSI位点i的总的reads数,记为MSI位点i的深度Di
(3)对于参考集中每个MSI阴性样本的所有的MSI位点i,根据选择的MSI检测算法计算该MSI位点i的微卫星序列的数据特征Fi
(4)统计整个所述参考集中低于阈值a的MSI位点i的深度Di的个数,然后选择reads数低于阈值a的低深度位点的个数不大于b个的样本构建混合参考集;
(5)对该混合参考集中的每个NGS检测平台、每个癌种对应的MSI阴性样本进行分组质控:
a、对于其中任一MSI位点i,对于同组所有MSI阴性样本的数据特征Fi,去除离群点后获得该位点的均值MFi
b、对于每个MSI阴性样本,计算所有MSI位点i的数据特征Fi的标准差StdFi,并选择标准差StdFi小于阈值c的样本;
c、对于每个MSI阴性样本,将所有的MSI位点i的数据特征Fi与对应的均值MFi进行比较,经F检验,获得与对应的均值MFi不存在显著差异的样本;
d、选择每个分组中同时满足步骤b和步骤c的要求的样本,构建每个MSI位点i的混合样本参考集,并以该混合样本参考集,计算每个MSI位点i的数据特征Fi的均值MFi’和标准差StdFi’;
(6)根据步骤(1)至(5)获得待测样本的位点i的深度Di、数据特征Fi,对于reads数高于阈值a的待测样本的位点i,如果Fi<MFi’-x·StdFi’或Fi>MFi’+x·StdFi’,则将该位点i判定为MSI候选位点,否则为MSS候选位点,其中x为1-6,对于reads数低于阈值a的位点i则不予考虑;该步骤为第一次检出;
(7)若上述第一次检出中被判为MSS候选位点的位点j的个数少于d,则该第一次检出的结果即为最终的检出结果;否则需要为该待测样本挑选最优参考样本子集进行第二次检出,获得最终的检出结果;
(8)对于步骤(7)所获得的待测样本中被判定为MSI候选位点的位点j的个数占该待测样本的总位点数的比例,判断待测样本的微卫星稳定状态。
2.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述深度Di为原始深度Di或有效深度Di
3.如权利要求2所述的微卫星不稳定性检测方法,其特征在于:所述深度Di为有效深度Di
4.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述数据体征Fi为主峰深度占比或主峰个数,该主峰为覆盖所述MSI位点i最多的任意之一或之二的微卫星序列的长度类型。
5.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述阈值a为100-300,b为样本中的MSI位点i的总数的10-30%。
6.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述阈值c为0.2-0.3。
7.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述标准差StdFi为所述混合参考集中的每个MSI阴性样本的数据特征Fi去除以所述均值MFi,并求log2,然后求同一个MSI阴性样本的所有位点的该log2值的标准差。
8.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述x为3-5。
9.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述d为待测样本的总位点个数的5-20%。
10.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述第二次检出包括:
a、对于第一次检出中被判为MSS候选位点的位点j,如果阳性位点的数据特征Fj的数学期望比阴性位点小,将其阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj-x·StdFj,然后对所得结果值从大到小进行排列,保留排序在前的至多e个位点,如果阳性位点的数据特征Fj的数学期望比阴性位点大,将阳性位点的数据特征Fj除以对应位点的第一次检出的阈值MFj’+x·StdFj,然后对所得结果值从小到大进行排列,保留排序在前的至多e个位点,以作用于后续最优阴性参考子集的匹配过程;
b、基于步骤a中所挑选的位点j在所述待测样本与所述混合参考集的样本中的数据特征,计算待测样本与混合参考集中每个样本的相似度,根据相似度选取最高的若干个样本,构建最优参考子集;
c、计算最优参考子集中的每个位点i的数据特征Fi’的均值MFi”和标准差StdFi”;
d、根据步骤(7)所示,基于第二次检出阈值MFj”-y·StdFj”和MFj”+y·StdFj”,再对所述待测样本的每个位点j进行重新判定,即为每个位点最终的检出结果。
11.如权利要求10所述的微卫星不稳定性检测方法,其特征在于:所述第二次检出中的步骤a中的e为所述待测样本中的总位点数的30-50%。
12.如权利要求10所述的微卫星不稳定性检测方法,其特征在于:所述第二次检出中的步骤b中的相似度的计算方法包括计算欧式距离、计算余弦距离、计算曼哈顿距离或使用聚类方法。
13.如权利要求10所述的微卫星不稳定性检测方法,其特征在于:所述y为1-6。
14.如权利要求13所述的微卫星不稳定性检测方法,其特征在于:所述y为3-5。
15.如权利要求10所述的微卫星不稳定性检测方法,其特征在于:所述e为所述待测样本的总位点数的30-50%。
16.如权利要求1所述的微卫星不稳定性检测方法,其特征在于:所述步骤(8)中,若被判为MSI的位点数除以总MSI位点数的商R≥检出阈值Thr,则将该待测样本被判定为MSI,否则判定为MSS。
17.如权利要求16所述的微卫星不稳定性检测方法,其特征在于:所述检出阈值Thr为10-60%。
18.如权利要求17所述的微卫星不稳定性检测方法,其特征在于:所述检出阈值Thr为15-40%。
CN202110427488.6A 2021-04-20 2021-04-20 一种基于二代测序的微卫星不稳定性检测方法 Active CN115223658B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110427488.6A CN115223658B (zh) 2021-04-20 2021-04-20 一种基于二代测序的微卫星不稳定性检测方法
EP22790777.1A EP4328920A1 (en) 2021-04-20 2022-03-22 Microsatellite instability detection method based on second-generation sequencing
PCT/CN2022/082252 WO2022222668A1 (zh) 2021-04-20 2022-03-22 一种基于二代测序的微卫星不稳定性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427488.6A CN115223658B (zh) 2021-04-20 2021-04-20 一种基于二代测序的微卫星不稳定性检测方法

Publications (2)

Publication Number Publication Date
CN115223658A true CN115223658A (zh) 2022-10-21
CN115223658B CN115223658B (zh) 2023-04-28

Family

ID=83604067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427488.6A Active CN115223658B (zh) 2021-04-20 2021-04-20 一种基于二代测序的微卫星不稳定性检测方法

Country Status (3)

Country Link
EP (1) EP4328920A1 (zh)
CN (1) CN115223658B (zh)
WO (1) WO2022222668A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809744A (zh) * 2023-04-21 2024-04-02 苏州吉因加生物医学工程有限公司 一种筛选msi特征位点的方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109207594A (zh) * 2018-09-29 2019-01-15 广州燃石医学检验所有限公司 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN112687333A (zh) * 2020-12-24 2021-04-20 北京吉因加医学检验实验室有限公司 一种泛癌种的单样本微卫星不稳定性的分析方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755501B (zh) * 2017-01-25 2020-11-17 广州燃石医学检验所有限公司 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
CN107526944B (zh) * 2017-09-06 2018-08-24 南京世和基因生物技术有限公司 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN112365922B (zh) * 2021-01-13 2021-06-15 臻和(北京)生物科技有限公司 用于检测msi的微卫星位点、其筛选方法及应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109207594A (zh) * 2018-09-29 2019-01-15 广州燃石医学检验所有限公司 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN110689921A (zh) * 2019-12-10 2020-01-14 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN112687333A (zh) * 2020-12-24 2021-04-20 北京吉因加医学检验实验室有限公司 一种泛癌种的单样本微卫星不稳定性的分析方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONGXIN WANG ET AL.: "MICROSATELLITE INSTABILITY PREDICTION OF UTERINE CORPUS ENDOMETRIAL CARCINOMA BASED ON H&E HISTOLOGY WHOLE-SLIDE IMAGING", 《2020 IEEE 17TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING 》 *
张琪等: "结直肠癌与微卫星不稳定的十个临床问题", 《肿瘤综合治疗电子杂志》 *

Also Published As

Publication number Publication date
EP4328920A1 (en) 2024-02-28
WO2022222668A1 (zh) 2022-10-27
CN115223658B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109207594B (zh) 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
WO2018090298A2 (en) Systems and methods for monitoring lifelong tumor evolution
CN109182525B (zh) 一种微卫星生物标志物组合、检测试剂盒及其用途
CN104781422B (zh) 从血浆无创测定胎儿或肿瘤的甲基化组
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
CN107709636A (zh) 用于诊断或检测肺癌的方法和组合物
KR101501826B1 (ko) 위암에 대한 예후 예측 모형의 제조방법
WO2017112738A1 (en) Methods for measuring microsatellite instability
CN115223658A (zh) 一种基于二代测序的微卫星不稳定性检测方法
CN112951325B (zh) 一种用于癌症检测的探针组合的设计方法及其应用
EP4334476A1 (en) Methods and systems for analyzing nucleic acid molecules
CN112442540B (zh) 微卫星不稳定性检测方法、标志物组合、试剂盒及应用
US20240105281A1 (en) Methods and Systems for Analyzing Nucleic Acid Molecules
CN112980950B (zh) 一种检测直肠癌放化疗敏感性相关15基因突变位点的试剂盒及其应用
CN111566229B (zh) 乳腺癌分子分型及远处转移风险基因群及诊断产品和应用
EP4281583A1 (en) Heatrich-bs: heat enrichment of cpg-rich regions for bisulfite sequencing
TW202205301A (zh) 微衛星不穩定性檢測方法及系統
CN108342483B (zh) 一组用于非超突变型结直肠癌分子分型的基因及其应用
CN110564851A (zh) 一组用于非超突变型直肠癌分子分型的基因及其应用
CN112442538A (zh) 用于结直肠癌患者基因检测的目标基因组以及相关的评估方法、用途和试剂盒
CN115472294B (zh) 预测小细胞转化肺腺癌患者转化速度的模型及其构建方法
CN113764044B (zh) 一种构建骨髓增生异常综合征进展基因预测模型的方法
KR102323507B1 (ko) 종양의 서브클론을 분석하는 방법 및 장치
CN116377077A (zh) 一种预测含铂类新辅助治疗对中晚期肿瘤患者适用性的试剂盒及系统
Domingo Sabugo Establishing methods for analysis of DNA methylation in breast cancer and cell-free circulating DNA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Lin Chenghong

Inventor after: Chen Shaohong

Inventor after: Li Xuchao

Inventor after: Jin Baolei

Inventor after: Zhang Xiamei

Inventor after: Dong Hua

Inventor after: Ruan Li

Inventor after: Zheng Limou

Inventor before: Lin Chenghong

Inventor before: Chen Shaohong

Inventor before: Li Xuchao

Inventor before: Jin Baolei

Inventor before: Zhang Xiamei

Inventor before: Dong Hua

Inventor before: Ruan Li

Inventor before: Zheng Limou

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant