CN109830265B - 检测msi的试剂盒、参考数据库、其构建方法及应用 - Google Patents

检测msi的试剂盒、参考数据库、其构建方法及应用 Download PDF

Info

Publication number
CN109830265B
CN109830265B CN201910108413.4A CN201910108413A CN109830265B CN 109830265 B CN109830265 B CN 109830265B CN 201910108413 A CN201910108413 A CN 201910108413A CN 109830265 B CN109830265 B CN 109830265B
Authority
CN
China
Prior art keywords
msi
threshold
reads
types
repeating units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910108413.4A
Other languages
English (en)
Other versions
CN109830265A (zh
Inventor
韩文博
赵利利
郭现超
闫慧婷
陈维之
杜波
何骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenyue Biotechnology Jiangsu Co ltd
Original Assignee
Zhenyue Biotechnology Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenyue Biotechnology Jiangsu Co ltd filed Critical Zhenyue Biotechnology Jiangsu Co ltd
Priority to CN201910108413.4A priority Critical patent/CN109830265B/zh
Publication of CN109830265A publication Critical patent/CN109830265A/zh
Application granted granted Critical
Publication of CN109830265B publication Critical patent/CN109830265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请公开了一种检测MSI的试剂盒、参考数据库、其构建方法及应用。其中,该试剂盒包括:针对表1所示的70个微卫星位点中的至少8个位点的检测试剂。通过采用本申请所选择的70个微卫星位点的人群多态性低(为单态性或低于5%的多态性)、灵敏性和特异性高,且在同等测序深度下捕获效率高,与现有的用于金标准分析的5个位点相比,将其中的至少8个用于MSI状态分析,不仅能够相对更准确、更有效地把MSI‑H与MSS样本区分开,而且能显著降低测序深度的要求,因而在实际应用中能够减少MSI状态未知的情况。

Description

检测MSI的试剂盒、参考数据库、其构建方法及应用
技术领域
本申请涉及基因测序数据分析领域,具体而言,涉及一种检测MSI的试剂盒、参考数据库、其构建方法及应用。
背景技术
微卫星是人类基因组的一段串联重复序列,是一种比小卫星DNA具有更短重复单元的卫星DNA(每单元长度在1~6bp之间),又被称作短串连重复(Short Tandem Repeats,STRs)或简单重复序列(Simple Sequence Repeat,SSRs)。微卫星不稳定(MicrosatelliteInstability,MSI)指的是微卫星重复次数减少或者增加,出现新的等位基因。微卫星不稳定的内在机制是错配修复(MMR)系统失调,从而限制了纠正微卫星自发的长度改变的体细胞突变的能力,体细胞突变积累,最终形成MSI。
错配修复(MMR)系统失调主要包含两种:1)错配修复基因MLH1,MSH2,MSH6和PMS2一个或者多个发生胚系突变,导致错配修复缺陷,MSI-H现象发生在遗传性非息肉性大肠癌(Lynch syndrome)。2)MLH1启动子区域的超甲基化,MSI-H现象会散发在结直肠癌、子宫内膜癌、卵巢癌、胃癌等多种癌症中。
MSI检测可用于林奇综合征的诊断,可用于转移性结直肠癌、非结直肠癌的MSI-H实体瘤和II期结直肠癌患者用药指导和预后预测。在临床应用中主要利用MSI-PCR方法判断MSI状态。该方法采用荧光标记引物和毛细管电泳确定Promega panel中5个位点NR-21、NR-24、BAT-25、BAT-26和MONO-27的片段长度多态性。肿瘤样本和对照样本对比,5个微卫星检测位点均未出现PCR扩增片段大小改变,微卫星稳定型(MSS);5个MSI检测位点中1个MSI位点出现PCR扩增片段大小的改变,微卫星不稳定型-L(MSI-L,微卫星低频不稳定);5个MSI检测位点中2个或者2个以上的MSI位点均出现PCR扩增片段大小的改变,微卫星不稳定型-H(MSI-H,微卫星高频不稳定)。
免疫组化错配修复是检测微卫星不稳定的另一种方法,然而错配修复基因缺失或者完整与微卫星稳定性的一致性达到0.92,故使用该方法会导致一定比例的漏检和误检。
MSI-PCR方法是判断微卫星不稳定的金标准。该方法在应用中有2个缺陷:1)需要肿瘤组织样本和正常组织样本同时存在,限制了样本的使用。2)需要另外准备样本,进行其他的基因检测。除了MSI,肿瘤样本还需要其他的检测,比如使用全外显子或者panel(基因组合)进行二代测序(Next Generation Sequencing,NGS)检测SNV(single nucleotidevariants,单核苷酸位点变异)、CNV(copy number variants,拷贝数变异)、Gene fusion(基因融合)等信息。
因此,仍需要对MSI的检测方法进行改进,以节约样本和提高检测的准确性。
发明内容
本申请提供一种检测MSI的试剂盒、参考数据库、其构建方法及应用,以提高检测的准确性。
根据本申请的第一个方面,提供了一种检测MSI的试剂盒,该试剂盒包括:针对表1所示的70个微卫星位点中的至少8个位点的检测试剂。
根据本申请的第二个方面,提供了一种用于检测MSI的参考数据库,参考数据库包括表1所示的70个微卫星位点中的至少8个位点的MSI信息,每个位点的MSI信息包括重复单元的类型、支持每种类型的重复单元的reads数、每种类型的重复单元的相对丰度,相对丰度为每种类型的重复单元的reads数与reads数最多的重复单元的类型所对应的reads数的比值,不同长度的序列代表不同的重复单元的类型。
进一步地,参考数据库还包括参考人群的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni)。
根据本申请的第三个方面,提供了一种用于检测MSI的参考数据库的构建方法,该构建方法包括:获取参考人群的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;将测序数据与参考基因组序列进行比对,得到比对结果;从比对结果中进行筛选并保留同时满足以下条件的位点,得到参考数据库,(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值。
进一步地,从比对结果中筛选并保留同时满足条件的位点后,构建方法还包括:计算参考人群中所有样本的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni),得到参考数据库。
进一步地,预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05。
根据本申请的第四个方面,提供了一种检测MSI的方法,该方法包括:分别获取参考人群和待测样本的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;分别将参考人群和待测样本的测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据,(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值;统计参考数据库中参考人群的总的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni);统计待测数据中每个微卫星位点的重复单元的类型的数量Xi;若Xi≥Mean(Ni)+nSD(Ni),3≤n≤5,则判定微卫星位点的状态为不稳定;若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第五阈值,则判定待测样本的MSI状态为MSI-H;若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第六阈值,则判定待测样本的MSI状态为MSS。
进一步地,预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。
根据本申请的第四个方面,提供了一种检测MSI的装置,该装置包括:获取模块、比对模块、筛选模块、第一统计计算模块、第二统计计算模块、第一判定模块、第二判定模块及第三判定模块,其中,获取模块,用于分别获取参考人群和待测样本的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;比对模块,用于分别将参考人群和待测样本的测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;筛选模块,用于分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据,(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值;第一统计计算模块,用于统计参考数据库中参考人群的总的重复单元的类型的数量Ni,并计算重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni);第二统计计算模块,用于统计待测数据中每个微卫星位点的重复单元的类型的数量Xi;第一判定模块,用于当Xi≥Mean(Ni)+nSD(Ni),3≤n≤5时,判定微卫星位点的状态为不稳定;第二判定模块,用于当待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第五阈值时,判定待测样本的MSI状态为MSI-H;第三判定模块,用于当待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第六阈值时,判定待测样本的MSI状态为MSS。
进一步地,预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。
根据本申请的第五个方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述参考数据库的构建方法,或者该程序执行检测MSI的方法。
根据本申请的第六个方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述参考数据库的构建方法,或者该程序执行检测MSI的方法。
通过本申请,所选择的70个微卫星位点的人群多态性低(为单态性或低于5%的多态性)、灵敏性和特异性高,且在同等测序深度下捕获效率高,与现有的用于金标准分析的5个位点相比,将其中的至少8个用于MSI状态分析,不仅能够相对更准确、更有效地把MSI-H与MSS样本区分开,而且能显著降低测序深度的要求,因而在实际应用中能够减少MSI状态未知的情况。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例1提供的样本经PCR-MSI检测的结果;
图2是根据本申请实施例3提供的样本中部分微卫星位点的重复单元类型数目的饱和曲线图;
图3是根据本申请实施例4提供的MSI-H样本和MSS的样本的微卫星位点在重复单元的类型的数目上存在显著差异,可以看出两种状态的不稳定比值分界线明显;
图4是根据本申请实施例4提供的样本检测的MSI与TMB的一致性。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请的发明人对于二代测序方法分析MSI进行研究发现,有3个关键问题需要解决:1)如何准确计算出每个MSI位点的重复单元的类型及其各自所占的比例;2)如何判定每个MSI位点的状态;3)如何判定样本的MSI状态。
基于上述问题,本申请的发明人开发了一种新的计算位点重复单元的类型及其所占比例的方法。现有检测的MSI位点都是单碱基重复片段,长度范围为21~27bp,而NGS测序数据的长度约为151bp,因此能够有一定的比例的reads完全跨域整个位点区域,并延长位点区域两翼2bp左右(这类reads称为spanning reads),能够确保reads完全跨越整个位点区域的同时,最小化地减少数据量损失(覆盖两翼序列的长度越长,比对条件就越严格,符合的reads就越少),同时也避免了位点两翼区域内插入缺失对重复单元类型判断的影响。而且,发明人发现,MSI位点基本上都是单态的(单态或单态性指人群中多态频率<1%)或者是准单态(指多态性很低,比如低至<5%)的,在一个稳定样本中同时出现2个杂合状态的位点的可能性极低,因此发明人打算使用一批正常人的样本构建5个位点(即Promega试剂盒使用的5个位点,分别为NR-21、NR-24、BAT-25、BAT-26和NOMO-27)的baseline(基线或参照数据),当与baseline有差异时,判定该位点为不稳定(unstable)。当不稳定的位点的数目等于或者大于2时,该样本为MSI-H;当稳定(stable)的位点数目大于等于4时,该样本为MSS(微卫星稳定)。
在NGS panel捕获过程中,发明人发现由于位点自身的特性,MONO-27位点的捕获效率特别低,一部分情况下难以达到饱和,有效的位点数目减少为4个,因此容易出现MSI状态难以判定的情况。为了解决这一问题并且提高正确率,发明人决定寻找其他性能更好的位点补充到现有位点池中。
具体的位点筛选过程如下:1)首先在基因组范围内找20~30bp的单碱基重复的微卫星。2)选取血细胞样本和状态已知的组织样本为类型MSS的样本110例来统计这些位点的多态性比例,保留单态或者准单态的位点。3)然后计算跨越这些位点的spanning reads的数量与测序深度的比例,并以此比值来表示对应位点的有效捕获效率,保留有效捕获效率高的位点。4)接着利用15个MSI-H样本和25个MSS的样本,使用wilcoxon-test检验位点在两组间重复单元的类型数目上的差异性,保留有显著差异的位点。5)进一步,利用15个MSI-H样本和25个MSS的样本计算每个位点对MSI状态的敏感性和特异性,保留敏感性高和特异性高的位点。最终选出来70个单态或者准单态的,有效捕获效率高、敏感性高和特异性高的单碱基重复序列作为MSI分析位点(具体见表1)。
表1:
Figure GDA0003855068190000051
Figure GDA0003855068190000061
Figure GDA0003855068190000071
上表1中,位点名称:微卫星位点名称。物理位置:该微卫星位点在人类基因组上的坐标。标准差:在正常样本队列中,重复单元类型数目的标准偏差。平均重复单元种类数:在正常样本队列中,重复单元类型数目的平均值。多态性比例:在中国人群队列中,呈现多态性的比例。敏感性:在阳性样本中检出为阳性的比率,即真阳性/(真阳性+假阴性)。特异性:在阴性样本中检出为阴性的比率,即真阴性/(真阴性+假阳性)。端到端reads(即能够覆盖重复单元两端的reads)比例:该位点的端到端reads与样本深度的比例。
从上表1中可以看出,有很多位点的性能超过NR-21、NR-24、BAT-25、BAT-26和MONO-27这5个金标位点。发明人进一步通过试验证明,利用表1中的70个位点(除MONO-27外)能够有效地把MSI-H与MSS样本区分开,并能显著降低测序深度的要求,在实际应用中能够减少MSI状态未知的情况。
基于上述研究结果,申请人提出本申请的技术方案。在一种典型的实施例中,提供了一种检测MSI的试剂盒,该试剂盒包括:针对表1所示的70个(除MONO-27外,将其列入表1中是为了便于比较)微卫星位点中的至少8个位点的检测试剂。
如前述,本申请所选择的70个微卫星位点的人群多态性低(为单态性或低于5%的多态性)、灵敏性和特异性高,且在同等测序深度下捕获效率高(即覆盖微卫星位点两端的reads数比较高,reads数越高,统计上就越接近真实状况),与现有的用于金标准分析的5个位点相比,将上述位点中的至少8个用于MSI状态分析,不仅能够相对更准确、更有效地把MSI-H与MSS样本区分开,而且能显著降低测序深度的要求,因而在实际应用中能够减少MSI状态未知的情况。
基于上述研究结果,在本申请第二种典型的实施例中,提供了一种用于检测MSI的参考数据库,该参考数据库包括表1所示的70个微卫星位点中的至少8个位点的MSI信息,每个位点的MSI信息包括重复单元的类型、支持每种类型的重复单元的reads数、每种类型的重复单元的相对丰度,相对丰度为每种类型的重复单元的reads数与reads数最多的重复单元的类型所对应的reads数的比值,不同长度的序列代表不同的重复单元的类型。
包含了上述MSI信息的参考数据库,不仅能够提供MSI在正常样本群体中的状态分布情况,而且提供了基于PCR扩增的NGS方法在检测MSI状态时,PCR所引入的微卫星位点的重复单元的类型数目变化的背景噪音值,从而有助于准确判断待测样本的MSI状态。此外,利用该参考数据库中的参考人群的不同位点的重复单元的类型的数量,即可计算出重复单元的类型的数量的平均值和标准偏差,这两个参数可用于判断待测样本中的MSI的状态。因此,本申请的参考数据库能够准确有效地检测MSI的状态。
在一种优选的实施例中,上述参考数据库还包括参考人群的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni)。直接包含了参考人群的重复单元的类型的数量Ni的平均值Mean(Ni)和标准偏差SD(Ni)的参考数据库,无需再进行统计计算即可直接用于判断待测样本的MSI状态。
在本申请第三种典型的实施例中,还提供了一种用于检测MSI的参考数据库的构建方法,该构建方法包括:获取参考人群的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;将测序数据与参考基因组序列进行比对,得到比对结果;从比对结果中进行筛选并保留同时满足以下条件的位点,得到参考数据库:(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值。
上述构建方法是通过对正常样本的群体进行MSI的状态检测,以用来作为待测样本的MSI状态分析的参照。上述构建方法中,条件(1)筛选出“覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值的位点”,是因为覆盖微卫星位点区域及两翼各预设长度的reads,既能利用两翼序列确定该reads在参考基因组上的位置,又能使得所检测的微卫星位点的重复单元的类型是准确的,进而使得所统计的每种重复单元的类型的数量是准确的,从而提高检测结果的准确性。
此处的预设长度根据不同样本测序深度及测序质量的差异,可以有所不同。在本申请中预设长度优选为≥2bp,更优选为2bp,如前面所提到的,完全跨域整个位点区域,并延长位点区域两翼2bp左右(这类reads称为spanning reads),能够确保reads完全跨越整个位点区域的同时,最小化地减少数据量损失(覆盖两翼序列的长度越长,比对条件就越严格,符合的reads就越少),同时也避免了位点两翼区域内插入缺失对重复单元类型判断的影响。当然,预设长度也可以是3bp、4bp、5bp、6bp、7bp、8bp、9bp甚至更长,可以根据实际情况进行合理调整。
第一阈值同样根据测序样本的不同、选取的微卫星位点的不同以及测序深度和测序质量的不同而有所差异。本申请中优选第一阈值≥100,是通过试验验证该第一阈值满足大于等于100条时,各微卫星位点的重复单元的类型能够得到饱和,这样统计得到的类型的数量更准确,进而检测结果也更准确。当然,第一阈值可以是100、110、115、120条,或者更多条,根据实际需要合理设置。
上述构建方法中条件(2)“筛选出支持各重复单元的类型的reads数满足第二阈值的位点”,是在上述条件(1)的基础上,满足各重复单元的类型的支持reads数达到第二阈值以提高该位点属于一种真实的重复单元的类型的概率。
因为覆盖微卫星位点区域及两翼各预设长度的reads,既能利用两翼序列确定该reads在参考基因组上的位置,又能使得所检测的微卫星位点的重复单元的类型是准确的,进而使得所统计的每种重复单元的类型的数量是准确的,从而提高检测结果的准确性。如果支持某重复单元的类型的reads数低于第二阈值,则这种类型的重复单元就有可能是错误的或不真实的。
上述第二阈值根据具体检测的微卫星位点数量和种类、检测样本的测序深度及测序质量,可以进行合理调整。在本申请中,优选第二阈值大于等于2。当然,可以是2、3、4、5,甚至更多。
上述构建方法中条件(3)“各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值”,是指每种重复单元的类型的数量需要达到一定的丰度,若丰度太低,则统计意义较低。此处的丰度以支持reads数最多的重复单元的类型的数量定义为1,其余重复单元的类型的丰度为其数量与该支持reads数最多的重复单元的类型的数量的比值,该比值需要满足第三阈值。
此处的第三阈值的具体数值可以根据检测的微卫星位点数量和种类、检测样本的测序深度及测序质量,可以进行合理调整。在本申请中,优选第三阈值≥0.05,当然该数值不仅限于0.05,还可以是0.01、0.02、0.03或0.04甚至更小。
在一种优选的实施例中,从比对结果中筛选并保留同时满足条件的位点后,上述构建方法还包括:计算参考人群中所有样本的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni),得到参考数据库。重复单元的类型的数量的平均值和标准偏差是用来检测待测样本的MSI状态的关键指标,其具体数值根据所检测的微卫星位点数量和种类、检测样本的测序深度及测序质量而有所不同。
需要说明的是,上述用于检测MSI的参考数据库的构建方法中,确定各微卫星位点的重复单元的类型的步骤同样可以作为一种检出待测样本的微卫星位点中重复单元的类型的方法,该方法与现有方法相比具有重复单元的类型的划分更准确,进而统计得到的各种类型的重复单元的数量也更准确,进而最终的MSI状态检测结果也更准确。
在本申请第四种典型的实施例中,还提供了一种检测MSI的方法,该方法包括:
分别获取参考人群和待测样本的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
分别将参考人群和待测样本的测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;
分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据:(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值;
统计参考数据库中参考人群的总的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni);
统计待测数据中每个微卫星位点的重复单元的类型的数量Xi;
若Xi≥Mean(Ni)+nSD(Ni),3≤n≤5,则判定微卫星位点的状态为不稳定;
若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第五阈值,则判定待测样本的MSI状态为MSI-H;
若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第六阈值,则判定待测样本的MSI状态为MSS。
本申请的检测MSI的方法,通过采用本申请改进的微卫星位点以及改进的检测微卫星位点中重复单元的类型的确定方式,能够准确地获得参考人群和待测样本的各微卫星位点的重复单元的类型及其对应的类型的数量,进而获得更准确的参考人群的重复单元的类型Ni的平均值Mean(Ni)和标准偏差SD(Ni),然后利用这两个检测的关键参数,根据上述公式来判断各微卫星位点是否属于不稳定状态,并进一步根据待测样本中属于不稳定状态的微卫星位点的数量的占比确定的MSI状态更准确。
需要说明的是,当待测数据中的微卫星位点的总数不满足第四阈值时,将对应的样本的MSI状态判断为QNS(Quantity Not Sufficient,数量不足)。
上述方法中,预设长度、第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值的设置如前述,可以根据检测的微卫星位点数量和种类、检测样本的测序深度及测序质量进行合理调整。在一种优选的实施例中,上述预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。当然,上述的预设长度和各阈值并不局限于本申请所优选的范围。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本申请第五种典型的实施例中,还提供了一种检测MSI的装置。需要说明的是,本申请实施例的一种检测MSI的装置可以用于执行本申请实施例所提供的用于一种检测MSI的方法。以下对该装置进行介绍。
该装置包括:获取模块、比对模块、筛选模块、第一统计计算模块、第二统计计算模块、第一判定模块、第二判定模块及第三判定模块。
其中,获取模块,用于分别获取参考人群和待测样本的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
比对模块,用于分别将参考人群和待测样本的测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;
筛选模块,用于分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据,
(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;
(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;
(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值;
第一统计计算模块,用于统计参考数据库中参考人群的总的重复单元的类型的数量Ni,并计算重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni);
第二统计计算模块,用于统计待测数据中每个微卫星位点的重复单元的类型的数量Xi;
第一判定模块,用于当Xi≥Mean(Ni)+nSD(Ni),3≤n≤5时,判定微卫星位点的状态为不稳定;
第二判定模块,用于当待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第五阈值时,判定待测样本的MSI状态为MSI-H;
第三判定模块,用于当待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第六阈值时,判定待测样本的MSI状态为MSS。
本申请的检测MSI的装置,获取模块和筛选模块分别通过采用本申请改进的微卫星位点和改进的检测微卫星位点中重复单元的类型的确定方式,能够准确地获得参考人群和待测样本的各微卫星位点的重复单元的类型及其对应的类型的数量,进而使得第一统计计算模块和第二统计计算模块能够计算得到更准确的参考人群的重复单元的类型Ni的平均值Mean(Ni)和标准偏差SD(Ni),然后利用这两个检测的关键参数,根据上述第一判断模块中的公式来判断各微卫星位点是否属于不稳定状态,并进一步根据剩余判断模块判定的待测样本中属于不稳定状态的微卫星位点的数量的占比确定的MSI状态更准确。
需要说明的是,上述装置中,还可以包括第四判定模块,用于当待测数据中的微卫星位点的总数不满足第四阈值时,将对应的样本的MSI状态判断为QNS(Quantity NotSufficient,数量不足)。
上述装置中,预设长度、第一阈值、第二阈值、第三阈值、第四阈值、第五阈值和第六阈值的设置如前述,可以根据检测的微卫星位点数量和种类、检测样本的测序深度及测序质量进行合理调整。在一种优选的实施例中,上述预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。当然,上述的预设长度和各阈值并不局限于本申请所优选的范围。
上述检测MSI的装置包括处理器和存储器,上述获取模块、比对模块、筛选模块、第一统计计算模块、第二统计计算模块、第一判定模块、第二判定模块及第三判定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对MSI进行检测。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现检测MSI的方法,或者该程序被处理器执行时实现对用于MSI检测的参考数据库的构建方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,该程序被处理器执行时实现检测MSI的方法,或者该程序被处理器执行时实现对用于MSI检测的参考数据库的构建方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现检测MSI的方法,或者该程序被处理器执行时实现对用于MSI检测的参考数据库的构建方法。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取参考人群的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;将测序数据与参考基因组序列进行比对,得到比对结果;从比对结果中进行筛选并保留同时满足以下条件的位点,得到参考数据库:(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值。
可选的,上述预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。
本申请还提供了另一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:分别获取参考人群和待测样本的测序数据,测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
分别将参考人群和待测样本的测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;
分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据:(1)覆盖微卫星位点区域及两翼各预设长度的reads数满足第一阈值;(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的重复单元的类型;(3)各重复单元的类型的相对丰度满足第三阈值,相对丰度为各重复单元的类型的reads数与reads数最多的重复单元的类型所对应的reads数的比值;
统计参考数据库中参考人群的总的重复单元的类型的数量Ni、重复单元的类型的数量Ni的平均值Mean(Ni)以及重复单元的类型的数量Ni的标准偏差SD(Ni);
统计待测数据中每个微卫星位点的重复单元的类型的数量Xi;
若Xi≥Mean(Ni)+nSD(Ni),3≤n≤5,则判定微卫星位点的状态为不稳定;
若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第五阈值,则判定待测样本的MSI状态为MSI-H;
若待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的微卫星位点的数量在总数中的占比满足第六阈值,则判定待测样本的MSI状态为MSS。
可选的,上述预设长度≥2bp;优选地,第一阈值≥100;优选地,第二阈值≥2;优选地,第三阈值≥0.05;优选地,第四阈值≥8;优选地,第五阈值≥0.3;优选地,第六阈值<0.3。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
下面将结合更具体的实施例来进一步说明本申请的有益效果。
实施例1:
比较软件VarScan所采用的方法与本申请的方法在检出重复单元类型和重复单元类型所占的比例之间差别。
使用VarSan readcounts命令统计NR-21位点的重复单元类型和重复单元所占比例的结果如下:
-5:0.106:8|-4:0.106:8|-3:0.093:7|-2:0.2:15|-1:0.146:11|0:1.0:75|1:0.266:20|2:0.2:15。
使用本申请的方法检出的结果如下:
-6:0.090:2|-5:0.363:8|-4:0.409:9|-3:0.318:7|-2:0.681:15|-1:0.545:12|0:1:22|1:0.818:18|2:0.772:17|3:0.090:2|4:0.181:4。
上述两种结果的输出格式解释如下:每一种重复单元的类型用"|"分割,三个数字分别表示重复单元的类型:重复单元类型的reads数与丰度最大(即reads数最多)的重复单元类型的reads数的比值:支持该重复单元的reads数。重复单元类型用数字表示,“-6”表示与参考基因组序列(reference)相比,减少6bp,“0”代表与reference一致,正数代表与reference相比增加。丰度最大的重复单元类型的比值设为1。
从两种对比结果来看,VarScan得到的与reference相同的重复单元类型的比例为47%(即通过75/(8+8+7+15+11+75+20+15)计算得到),这样导致其他的重复单元类型比例偏小,与实际的PCR-MSI相差偏大,结果失真。附图1是该样本经PCR-MSI检测的结果,以NR-21的图谱为例来看,无论峰的数目还是峰的丰度,本申请的方法所检测的结果与PCR-MSI图谱更符合。
实施例2:参考数据库的构建
首先在基因组范围内找20~30bp的单碱基重复的微卫星。1)选取血细胞样本和状态已知的组织样本类型MSS样本共110例,进行高深度测序(>1000×),统计每个位点的重复单元类型和每个类型所占的比例,构建频谱图,确定每个位点的多态性比例;2)计算这些位点端到端reads与测序深度的比例,根据这些特征选择准单态性和端到端reads比例高的重复序列的位点。统计结果见表1中的人群多态性比例和端到端reads比例。
实施例3:重复单元类型数目的饱和度分析
利用15个MSI-H样本分析每个位点的重复单元类型数目的饱和度。每增加10条端到端reads计算得到的重复单元的类型数目,画成饱和曲线图,确定进行微卫星分析所需要的端到端reads数,进而确定每个位点的质控标准。
附图2是部分位点的饱和曲线图,基本上100条端到端的reads,重复单元类型数目能够达到饱和。
实施例4:
利用15个MSI-H样本和25个MSS的样本,使用wilcoxon-test检验每个微卫星位点在两组间的重复单元的类型的数目是否存在差异性,并计算每个位点对MSI状态的敏感性和特异性,选择高敏感性及高特异性的位点。具体见表1中的灵敏性和特异性参数。
利用这40个样本组合进行分析,分析结果见表2、表3和图3。其中,表2是40个样本的微卫星分析结果,其中PCR-MSI状态代表着该样本的真实的MSI状态,NGS-MSI是利用本申请的方法判断的MSI状态。从表2中可以看出,14例样本为MSI-H,25例样本为MSS,由于测序深度过低,1例样本未进入统计;39例样本MSI的判断结果与PCR-MSI状态一致率为100%。
表2:
Figure GDA0003855068190000161
Figure GDA0003855068190000171
表3是对表2中的40例样本的统计结果。
表3:
Figure GDA0003855068190000172
图3示出的是40例样本的不稳定比值,前15例是MSI-H样本,后25例是MSS样本。从图3中可以看出两种状态的不稳定比值分界线明显。其中,不稳定比值指不稳定位点目与总位点数目的比值。
实施例5:
选择71例样本作为测试样本集,使用NGS测序,使用本申请的检测流程和位点集进行分析,结果见表4。表4示出的是71例样本的微卫星的分析结果,其中5例样本的状态为MSI-H,66例样本的状态为MSS。然后进行PCR-MSI验证。表4显示:71例样本MSI分析的判断结果与金标PCR-MSI一致率为100%。
表4:
Figure GDA0003855068190000181
Figure GDA0003855068190000191
表5是对71例样本的统计结果,一致性100%。
表5:
Figure GDA0003855068190000192
实施例6
对一批数据进行了免疫组化错配修复分析,同时使用本申请的方法进行了二代测序微卫星不稳定分析。结果中有2例样本表现为错配修复基因缺失(dMMR),而NGS-MSI分析的微卫星结果为MSS,1例样本表现为错配修复基因完整(pMMR),而微卫星分析结果为MSI-H。同时对这3例样本进行PCR-MSI分析,PCR-MSI分析结果与NGS-MSI分型结果一致,如表6所示,dMMR与MSI-H并不完全一致,表明采用免疫组化的分析方法,不能完全检出微卫星不稳定。
表6:
Figure GDA0003855068190000201
对比例1
利用本申请实施例4中的40例样本,采用Promega试剂盒中的5个位点进行MSI分析,结果如表7所示,有3例MSI-H样本和4例MSS样本无法判断状态。与表4相比可知,采用5个位点进行MSI分析,其测序深度要远远高于70个位点的测序深度,才能满足检测需求。
表7
Figure GDA0003855068190000202
实施例7
MSI与TMB一致性分析
对实施例4中的39例样本(除QNS状态的样本外)同时进行肿瘤突变负荷(TMB)分析,以检测MSI与TMB是否具有一致性,检测结果见图4。图4显示TMB与MSI一致性高。
实施例8
PCR循环次数对重复单元类型数目影响的分析
选择32例6次PCR循环次数和30例10次循环次数的白细胞样本进行NGS-MSI分析,计算2组样本位点的重复单元类型数目,使用wilcoxon-test检验不同PCR循环次数对重复单元类型数目的影响。如表8所示,以p<0.05作为标准,共21个位点(表8中粗体显示的前21个)在不同的循环次数之间有显著差异。该实验结果表明PCR循环次数也是影响重复单元类型数目的重要因素。
表8
Figure GDA0003855068190000203
Figure GDA0003855068190000211
Figure GDA0003855068190000221
从上述实施例的结果可以看出,本申请的实施例具有以下有益效果:
1)通过采用改进的单态性或准单态性的、高灵敏性和高特异性的且具有高捕获效率的微卫星位点进行MSI检测,在检测时不需要正常组织样本做参照。
2)通过采用本申请改进的检测微卫星位点中重复单元的类型的确定方式,能够准确检出每个位点的重复单元类型及重复单元类型的比例,从而使得MSI检测结果更准确有效。
3)通过采用跨域整个微卫星位点区域,并延长位点区域两翼2bp左右的spanningreads,来进行重复单元类型的划分和统计,能够最小化地减少数据量损失,降低测序量要求,进而节约测序成本。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (27)

1.一种检测MSI的试剂盒,其特征在于,所述试剂盒包括:针对表1所示的70个微卫星位点中的至少8个位点的检测试剂。
2.一种用于检测MSI的参考数据库,其特征在于,所述参考数据库包括表1所示的70个微卫星位点中的至少8个位点的MSI信息,每个所述位点的MSI信息包括重复单元的类型、支持每种类型的所述重复单元的reads数、每种类型的所述重复单元的相对丰度,所述相对丰度为各所述重复单元的类型的reads数与reads数最多的所述重复单元的类型所对应的reads数的比值,不同长度的序列代表不同的所述重复单元的类型。
3.根据权利要求2所述的参考数据库,其特征在于,所述参考数据库还包括参考人群的所述重复单元的类型的数量Ni、所述重复单元的类型的数量Ni的平均值Mean(Ni)以及所述重复单元的类型的数量Ni的标准偏差SD(Ni)。
4.一种用于检测MSI的参考数据库的构建方法,其特征在于,所述构建方法包括:
获取参考人群的测序数据,所述测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
将所述测序数据与参考基因组序列进行比对,得到比对结果;
从比对结果中进行筛选并保留同时满足以下条件的位点,得到所述参考数据库,
(1)覆盖所述微卫星位点区域及两翼各预设长度的reads数满足第一阈值;
(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的所述重复单元的类型;
(3)各所述重复单元的类型的相对丰度满足第三阈值,所述相对丰度为各所述重复单元的类型的reads数与reads数最多的所述重复单元的类型所对应的reads数的比值。
5.根据权利要求4所述的构建方法,其特征在于,从比对结果中筛选并保留同时满足所述条件的位点后,所述构建方法还包括:
计算所述参考人群中所有样本的所述重复单元的类型的数量Ni、所述重复单元的类型的数量Ni的平均值Mean(Ni)以及所述重复单元的类型的数量Ni的标准偏差SD(Ni),得到所述参考数据库。
6.根据权利要求4或5所述的构建方法,其特征在于,所述预设长度≥2bp。
7.根据权利要求4或5所述的构建方法,其特征在于,所述第一阈值≥100。
8.根据权利要求4或5所述的构建方法,其特征在于,所述第二阈值≥2。
9.根据权利要求4或5所述的构建方法,其特征在于,所述第三阈值≥0.05。
10.一种检测MSI的方法,其特征在于,所述方法包括:
分别获取参考人群和待测样本的测序数据,所述测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
分别将所述参考人群和所述待测样本的所述测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;
分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据,
(1)覆盖所述微卫星位点区域及两翼各预设长度的reads数满足第一阈值;
(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的所述重复单元的类型;
(3)各所述重复单元的类型的相对丰度满足第三阈值,所述相对丰度为各所述重复单元的类型的reads数与reads数最多的所述重复单元的类型所对应的reads数的比值;
统计所述参考数据库中所述参考人群的总的所述重复单元的类型的数量Ni、所述重复单元的类型的数量Ni的平均值Mean(Ni)以及所述重复单元的类型的数量Ni的标准偏差SD(Ni);
统计所述待测数据中每个微卫星位点的重复单元的类型的数量Xi;
若所述Xi≥Mean(Ni)+nSD(Ni),3≤n≤5,则判定所述微卫星位点的状态为不稳定;
若所述待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的所述微卫星位点的数量在所述总数中的占比满足第五阈值,则判定所述待测样本的MSI状态为MSI-H;
若所述待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的所述微卫星位点的数量在所述总数中的占比满足第六阈值,则判定所述待测样本的MSI状态为MSS。
11.根据权利要求10所述的方法,其特征在于,所述预设长度≥2bp。
12.根据权利要求10所述的方法,其特征在于,所述第一阈值≥100。
13.根据权利要求10所述的方法,其特征在于,所述第二阈值≥2。
14.根据权利要求10所述的方法,其特征在于,所述第三阈值≥0.05。
15.根据权利要求10所述的方法,其特征在于,所述第四阈值≥8。
16.根据权利要求10所述的方法,其特征在于,所述第五阈值≥0.3。
17.根据权利要求10所述的方法,其特征在于,所述第六阈值<0.3。
18.一种检测MSI的装置,其特征在于,所述装置包括:
获取模块,用于分别获取参考人群和待测样本的测序数据,所述测序数据包括表1所示的70个微卫星位点中的至少8个位点的DNA测序reads;
比对模块,用于分别将所述参考人群和所述待测样本的所述测序数据与参考基因组序列进行比对,得到参考人群比对结果和待测样本比对结果;
筛选模块,用于分别从参考人群比对结果和待测样本比对结果中筛选出满足以下三个条件的位点,分别得到参考数据库和待测数据,
(1)覆盖所述微卫星位点区域及两翼各预设长度的reads数满足第一阈值;
(2)支持各重复单元的类型的reads数满足第二阈值,不同长度的序列代表不同的所述重复单元的类型;
(3)各所述重复单元的类型的相对丰度满足第三阈值,所述相对丰度为各所述重复单元的类型的reads数与reads数最多的所述重复单元的类型所对应的reads数的比值;
第一统计计算模块,用于统计所述参考数据库中所述参考人群的总的所述重复单元的类型的数量Ni,并计算所述重复单元的类型的数量Ni的平均值Mean(Ni)以及所述重复单元的类型的数量Ni的标准偏差SD(Ni);
第二统计计算模块,用于统计所述待测数据中每个微卫星位点的重复单元的类型的数量Xi;
第一判定模块,用于当所述Xi≥Mean(Ni)+nSD(Ni),3≤n≤5时,判定所述微卫星位点的状态为不稳定;
第二判定模块,用于当所述待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的所述微卫星位点的数量在所述总数中的占比满足第五阈值时,判定所述待测样本的MSI状态为MSI-H;
第三判定模块,用于当所述待测数据中的微卫星位点的总数满足第四阈值,且状态判定为不稳定的所述微卫星位点的数量在所述总数中的占比满足第六阈值时,判定所述待测样本的MSI状态为MSS。
19.根据权利要求18所述的装置,其特征在于,所述预设长度≥2bp。
20.根据权利要求18所述的装置,其特征在于,所述第一阈值≥100。
21.根据权利要求18所述的装置,其特征在于,所述第二阈值≥2。
22.根据权利要求18所述的装置,其特征在于,所述第三阈值≥0.05。
23.根据权利要求18所述的装置,其特征在于,所述第四阈值≥8。
24.根据权利要求18所述的装置,其特征在于,所述第五阈值≥0.3。
25.根据权利要求18所述的装置,其特征在于,所述第六阈值<0.3。
26.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求4-9中任一项所述的参考数据库的构建方法;或者所述程序执行权利要求10-17中任一项所述的检测MSI的方法。
27.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序执行权利要求4-9中任一项所述的参考数据库的构建方法;或者所述程序执行权利要求10-17中任一项所述的检测MSI的方法。
CN201910108413.4A 2019-01-18 2019-01-18 检测msi的试剂盒、参考数据库、其构建方法及应用 Active CN109830265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910108413.4A CN109830265B (zh) 2019-01-18 2019-01-18 检测msi的试剂盒、参考数据库、其构建方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910108413.4A CN109830265B (zh) 2019-01-18 2019-01-18 检测msi的试剂盒、参考数据库、其构建方法及应用

Publications (2)

Publication Number Publication Date
CN109830265A CN109830265A (zh) 2019-05-31
CN109830265B true CN109830265B (zh) 2022-11-25

Family

ID=66863449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910108413.4A Active CN109830265B (zh) 2019-01-18 2019-01-18 检测msi的试剂盒、参考数据库、其构建方法及应用

Country Status (1)

Country Link
CN (1) CN109830265B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556164B (zh) * 2019-09-09 2023-02-07 深圳裕策生物科技有限公司 用于目标区域捕获测序检测msi的方法、装置和存储介质
CN111304303B (zh) * 2020-02-18 2023-05-05 福建和瑞基因科技有限公司 微卫星不稳定的预测方法及其应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170037095A (ko) * 2015-09-25 2017-04-04 주식회사 시선바이오머티리얼스 현미부수체 불안정성의 진단을 위한 pna 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성의 진단용 키트
CN109082470A (zh) * 2018-09-07 2018-12-25 上海赛安生物医药科技股份有限公司 微卫星不稳定性状态的二代测序引物探针组及其检测方法
CN109097478A (zh) * 2018-10-07 2018-12-28 浙江数问生物技术有限公司 一种人类微卫星不稳定性状态msi检测试剂盒及其检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170037095A (ko) * 2015-09-25 2017-04-04 주식회사 시선바이오머티리얼스 현미부수체 불안정성의 진단을 위한 pna 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성의 진단용 키트
CN109082470A (zh) * 2018-09-07 2018-12-25 上海赛安生物医药科技股份有限公司 微卫星不稳定性状态的二代测序引物探针组及其检测方法
CN109097478A (zh) * 2018-10-07 2018-12-28 浙江数问生物技术有限公司 一种人类微卫星不稳定性状态msi检测试剂盒及其检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
微卫星标记在种群生物学研究中的应用;盛岩等;《植物生态学报》;20021231;全文 *

Also Published As

Publication number Publication date
CN109830265A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
Frankell et al. The evolution of lung cancer and impact of subclonal selection in TRACERx
Jennings et al. Guidelines for validation of next-generation sequencing–based oncology panels: a joint consensus recommendation of the Association for Molecular Pathology and College of American Pathologists
Cross et al. The evolutionary landscape of colorectal tumorigenesis
Hause et al. Classification and characterization of microsatellite instability across 18 cancer types
Zhang et al. INTEGRATE: gene fusion discovery using whole genome and transcriptome data
Oh et al. Comparison of accuracy of whole-exome sequencing with formalin-fixed paraffin-embedded and fresh frozen tissue samples
US11978535B2 (en) Methods of detecting somatic and germline variants in impure tumors
Ulahannan et al. Technical and implementation issues in using next-generation sequencing of cancers in clinical practice
Gunnarsson et al. Array-based genomic screening at diagnosis and during follow-up in chronic lymphocytic leukemia
Luthra et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring
Cereda et al. Patients with genetically heterogeneous synchronous colorectal cancer carry rare damaging germline mutations in immune-related genes
Simen et al. Validation of a next-generation–sequencing cancer panel for use in the clinical laboratory
Kotoula et al. Targeted KRAS mutation assessment on patient tumor histologic material in real time diagnostics
CN111627501B (zh) 检测msi的微卫星位点、其筛选方法及应用
CN112365922B (zh) 用于检测msi的微卫星位点、其筛选方法及应用
Misyura et al. Comparison of next-generation sequencing panels and platforms for detection and verification of somatic tumor variants for clinical diagnostics
Thomas et al. Integration of technical, bioinformatic, and variant assessment approaches in the validation of a targeted next-generation sequencing panel for myeloid malignancies
Shih et al. Cancer aneuploidies are shaped primarily by effects on tumour fitness
Gowrisankar et al. Evaluation of second-generation sequencing of 19 dilated cardiomyopathy genes for clinical applications
CN109830265B (zh) 检测msi的试剂盒、参考数据库、其构建方法及应用
Kondelin et al. Comprehensive evaluation of protein coding mononucleotide microsatellites in microsatellite-unstable colorectal cancer
CN113488105B (zh) 基于扩增子二代测序msi检测的微卫星位点、其筛选方法及应用
CN116631508B (zh) 肿瘤特异性突变状态的检测方法及其应用
CN117947163A (zh) 变体核酸样本背景水平的评估方法
JP2023526252A (ja) 相同組換え修復欠損の検出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant