一种微卫星不稳定性的测序数据分析方法、装置及计算机可
读介质
技术领域
本发明涉及基因检测领域,具体而言,本发明涉及一种基于下一代测序技术(NGS)针对微卫星不稳定性(MSI)指示位点的检测结果的分析方法。该方法适用于同时分析一个或多个指示MSI状态的微卫星位点,准确评估病人的MSI状态,为肿瘤的诊断、预后、及临床治疗方案的制定提供理论基础及指导。
背景技术
微卫星不稳定性(Micro-Satellite Instability,或MSI)是一种分子表现型,具体体现为人类基因组内微卫星位点的重复序列上存在插入或缺失突变,进而产生人类标准基因组中不存在的等位基因。这些插入或缺失因多种原因未被DNA错配修复机制(MMR)修正。MSI现象最早于1993年由Aaltonen等在遗传性非息肉病性大肠癌(HNPCC,亦称Lynch综合征)中发现。产生Lynch综合征的常见机理为MLH1、MSH2、MSH6、PMS2、或EPCAM等基因中存在种系失活或截短突变。随后,研究者相继在肺癌、消化道癌、子宫内膜癌、和卵巢癌中发现偶发MSI现象。与Lynch综合征不同,造成偶发MSI现象的成因多为MLH1基因启动子序列存在异常的表观生物学修饰(过度甲基化),进而导致MLH1基因失活。MSI现象在不同癌种中发生率亦存在显著差异,约15%的结直肠癌患者表现为MSI瘤,而早发型结直肠癌中则达到30%,HNPCC中MSI瘤的发生率甚至超过90%。
研究显示,高频MSI(MSI-H)的二/三期肠癌患者预后较好,而无法从氟尿嘧啶类药物(例如5-FU)辅助化疗中获益;但低频MSI(MSI-L)癌症患者表征与微卫星稳定(MSS)癌症患者相似,预后较MSI-H患者差。因此,在2011年国际肿瘤综合网络结直肠癌筛查指南中正式将MSI检测作为首要检测项目,其中认为以下人群应该接受MSI检测:
-50岁以下,诊断出结直肠癌的病人
-病人带有同时或异时性HNPCC类肿瘤,无论年龄。
-病人有一位或多位一级亲属被诊断为HNPCC肿瘤,且其中至少有一位小于50岁。
-病人有两位或以上一级或二级亲属被诊断出HNPCC类肿瘤,无论年龄。
近期研究表明,MSI检测在肿瘤免疫治疗中也起到了重要的指导作用。多项研究显示MSI-H较MSI-L和MSS的结肠患者接受PD-1抗体治疗后效果更好,并陆续在其他癌种中得到验证。2017年5月,美国FDA加速批准了免疫治疗药物Pembrolizumab(Keytruda)用于具有MSI-H或DNA错配修复缺陷的不可手术或晚期转移,并在之前的治疗后出现进展的实体瘤患者的治疗。这也是美国FDA批准的首款不依照肿瘤来源的治疗方法。可见,准确界定MSI状态对临床诊断及治疗方案制定具有极高价值和指导意义。
常用的MSI检测主要使用以下三大类技术:
1.DNA错配修复缺陷检测:直接对导致MSI现象的相关基因,主要是DNA错配修复系统(MMR)基因进行基因突变检测,或对其表达的蛋白水平运用免疫组化的方法进行检测。
2.PCR检测(MSI-PCR):使用特异的引物,对微卫星位点进行逐一PCR或多重荧光PCR扩增,扩增产物经过凝胶电泳显像或Sanger片段大小分析其产物片段与正常对照相比,有无迁移率的改变,从而判定MSI的状态。
3.NGS检测:使用多重PCR或液相杂交捕获法富集指示MSI状态的位点,并使用大规模平行测序法,结合生物信息学分析手段,同时评估多个MSI位点的插入/缺失突变状态。这三类技术中,对于DNA错配修复基因的传统检验方法,例如Sanger测序,存在高成本,低通量,且无法准确鉴定表观遗传学异常导致的基因产物失活的缺点。对于免疫组化方法,存在对样本质量要求高,操作程序复杂,通量低,结果的界定过度依赖读片人的主观看法等缺点。基于PCR的MSI检测可以直接评估微卫星位点的不稳定性,但同样存在操作复杂,耗时长,通量低,灵敏度差,结果时常难以复制等问题。多重荧光PCR检测虽然提高了检测通量,但若干组引物间的相互作用十分复杂,限制了一次检测可以评估的微卫星位点数量,间接增加了准确区分高频MSI-H和低频MSI-L的难度,亦显著加大了增、减MSI位点的开发成本和难度。与前两类技术不同,NGS虽然检测总成本昂贵,但由于MSI检测可与其他检测内容同时进行,且NGS方法具备高通量,高精确度,高灵敏性等特点,间接降低了单个检测的成本,逐渐被更多的用户所接受。但与此同时,人们也逐渐意识到,基于NGS的检测方法对数据分析提出了极高的技术要求。由于缺乏统一标准或纲领性指导意见,如何通过生物信息学算法,高效地、准确地、客观地界定每一个位点的稳定/不稳定状态,成为目前主要的技术难题之一。
对于MSI检测评估的微卫星位点的选择,美国国家肿瘤研究所(NCI)于1997年颁布了Bethesda指导纲要,推荐了5个可用来进行结直肠癌MSI检测的微卫星位点(BAT-26,BAT-25,D2S123,D5S346,D17S250)。此外,纲要将MSI进行了分类并对各分类进行了定义,分别为:
1.高频MSI(MSI-H):推荐位点中两个或以上检测出重复序列的长度变化;
2.低频MSI(MSI-L):推荐位点中有一个检测出重复序列的长度变化;
3.微卫星稳定(MSS):推荐位点中重复序列的长度无变化。
Bethesda纲要最早提出的5个推荐位点中,三个双碱基重复位点(D2S123,D5S346与D17S250)是否稳定在2002年NCI会议中受到争议:Suraweera研究小组指出,对MSI-H级别患者,将以上三个双碱基重复位点替换为NR21,NR22与NR24三个单碱基位点可以增进检测敏感度。2004年Bacher小组的研究显示,使用单碱基位点的检测敏感度在92%-100%之间,而针对MSI-H级别病例的特异性高达99.5%-100%。这一结论在2007年Rosa M.Xicola小组的研究中得到进一步证实。Bethesda纲要之外,普洛麦格(Promega)生物技术有限公司研制了自己的MSI分析系统,其中使用单碱基位点Mono27替代Suraweera提出的NR22,另外加入了两个在人群中高度多样性的五碱基位点Penta C与Penta D用于样品质控。
基于Bethesda纲要研发的检测方法,由于只评估5个MSI位点,导致最后的结果缺乏连贯性,仅仅有20%、40%、60%、80%、100%这样的呈明显梯度的测定结果,容易导致对于接近判定阈值的样本存在错误分类MSI-H和MSI-L的风险。因此,增加MSI位点可以提高检测的清晰度,为准确判定MSI-H和MSI-L提供数学及统计学基础。由此而及,急需开发一种寻找潜在MSI位点的方法,科学高效准确地筛选可以指示MSI状态的基因组位点。
发明内容
本发明的目的是:解决目前商品化的普洛麦格(Promega)MSI检测试剂盒只能检测5个MSI位点(BAT-25、BAT-26,MONO-27,NR-21、NR-24),而导致的判定结果连贯性差、检测结果数值呈明显梯度而导致的对于接近判定阈值的样本存在错误分类MSI-H和MSI-L的风险。本发明提出了一种包括22个MSI位点的组合,利用该组合进行微卫星不稳定性判定时,使检测结果数值之间的梯度更加细化,同时也能够达到与普洛麦格试剂盒同样的检测准确性。
同时,本发明还可以解决常规的根据MSI测序来判定某个位点是否是微卫星不稳定性过程中容易出现敏感性低的问题。本发明提供了一种应用于NGS检测MSI的数据的生物信息学分析方法,通过上述的判定方法,能够利用NGS测序结果判定出是否存在微卫星不稳定的情况,该分析计算方法在不降低特异性的情况下能够明显提高检测敏感性,可以快速、自动化、高通量、高灵敏度、高特异性地评估每个MSI位点的稳定或不稳定状态,进而结合每个样本中所有MSI位点的状态,综合评估样本为MSS,MSI-L,或MSI-H。本发明同时基于这种分析方法,提供一套筛选潜在MSI位点的方案,可以应用在全外显子组NGS、或任何定制靶向基因板或目标序列板的DNA NGS平台中,准确筛选目标序列板中适宜用于判定样本MSI状态的MSI位点。
本发明的第一个方面:
一种用于检测微卫星不稳定性的位点组合,包括有如下22个基因位点中的任意16个、17个、18个、19个、20个、21个、22个的组合:BAT25、BAT26、NR24、NR21、Mono27、NR22、NR27、BAT40、CUL-22、MET-15、ATM-15、RB1-13、NF1-26、DDR-11、FANC-21、MITF-14、PKHD-18、PTK-16、RET-14、CBL-17、PTPN-17、SMAD-18;所述的微卫星位点在基因组中的位置如表1所示。
表1用于检测微卫星不稳定性的22个联合标记物。
位点编号 |
微卫星位点名称 |
重复序列 |
基因组位置(Human Hg19) |
MS-1 |
BAT-25 |
T(25) |
chr4:55,598,212-55,598,236 |
MS-2 |
BAT-26 |
A(27) |
chr2:47,641,560-47,641,586 |
MS-3 |
NR-24 |
T(23) |
chr2:95,849,362-95,849,384 |
MS-4 |
NR-21 |
T(21) |
chr14:23,652,347-23,652,367 |
MS-5 |
Mono-27 |
A(27) |
chr2:39,536,690-39,536,716 |
MS-6 |
NR-22 |
T(21) |
chr11:125,490,766-125,490,786 |
MS-7 |
NR-27 |
A(26) |
chr11:102,193,509-102,193,534 |
MS-8 |
BAT-40 |
T(37) |
chr1:120,053,341-120,053,377 |
MS-9 |
CUL-22 |
A(22) |
chr2:225,422,601-225,422,622 |
MS-10 |
MET-15 |
T(15) |
chr7:116,409,676-116,409,690 |
MS-11 |
ATM-15 |
T(15) |
chr11:108,114,662-108,114,676 |
MS-12 |
RB1-13 |
T(13) |
chr13:48,954,160-48,954,172 |
MS-13 |
NF1-26 |
T(26) |
chr17:29,559,062-29,559,087 |
MS-14 |
DDR-11 |
A(11) |
chr1:162,736,822-162,736,832 |
MS-15 |
FANC-21 |
A(21) |
chr3:10,076,009-10,076,029 |
MS-16 |
MITF-14 |
T(14) |
chr3:69,988,438-69,988,451 |
MS-17 |
PKHD-18 |
A(18) |
chr6:51,503,598-51,503,615 |
MS-18 |
PTK-16 |
A(16) |
chr8:141,754,889-141,754,904 |
MS-19 |
RET-14 |
T(14) |
chr10:43,595,837-43,595,850 |
MS-20 |
CBL-17 |
T(17) |
chr11:119,144,792-119,144,808 |
MS-21 |
PTPN-17 |
T(17) |
chr12:112,893,676-112,893,692 |
MS-22 |
SMAD-18 |
A(18) |
chr18:45,395,846-45,395,863 |
在一个实施例中,所述的位点组合中包含有全部22个位点。
在一个实施例中,所述的点组合中还包含有下述基因中的一个或几个:AKT1、CTNNB1、FLT3、KRAS、PTPN11、SRC、ALK、EGFR、GNAS、MLH1、RB1、STK11、ATM、ERBB2、HNF1A、MPL、RAD50、TP53、BRAF、ERBB4、IDH1、NRAS、RET、VHL、BRCA1、BRCA2、FBXW7、JAK3、PIK3CA、SMAD4、CDH1、FGFR2、KIT、PTEN、SMARCB1、ABL1、CSF1R、GNA11、JAK2、NOTCH1、SMO、APC、FGFR1、GNAQ、KDR、NPM1、CDKN2、FGFR3、HRAS、MET或者PDGFRA。
本发明的第二个方面:
用于检测所述的位点组合的试剂盒。
所述的试剂盒中包含有特异性结合位点组合中微卫星不稳定位点的探针或引物。
本发明的第三个方面:
上述的位点组合在用于制备微卫星不稳定性检测试剂中的应用。
所述的微卫星不稳定性检测试剂是用于检测哺乳动物癌症,所述的癌症包括但不限于判定结直肠癌、子宫内膜癌、卵巢癌或者消化道癌。
所述的应用中,微卫星不稳定性检测的过程是指通过本发明第四方面所述的步骤。
本发明的第四个方面:
一种微卫星不稳定性的测序数据分析方法,包括如下步骤:
S1:对待测样本以及正常样本采用NGS测序,获取待测样本和正常样本中覆盖需要测定的MSI位点的测序数据;
S2:对于步骤S1中获得的测序数据,采用以下三种判定方法中的任意一个进行分析,当满足条件时,则认定该样本的所述的微卫星不稳定位点为不稳定;
S2-1:根据步骤S1的测序数据,计算出每个待测样本和正常样本在该MSI位点上的主要重复单元类型,统计出在每个正常样本中主要重复单元类型的种类数Ni,并计算出种类数Ni的平均值mean(Ni)及标准偏差sd(Ni);若对于待测样本的主要重复单元类型的种类数>mean(Ni)+x×sd(Ni),则判定该样本中MSI位点为不稳定微卫星位点;其中x为标准差系数,优选为3;
S2-2:根据步骤S1的测序数据,计算出每个待测样本和正常样本在该MSI位点上的主要重复单元类型,若在待测样本中找到了在正常样本中未出现过的主要重复单元类型,则判定该样本中MSI位点为不稳定微卫星位点;
S2-3:根据步骤S1的测序数据,将所有的正常样本作为整体,计算出所有的正常样本上的人群主导重复单元类型,再分别计算出所述的人群主导重复单元类型在每个正常样本上所占比例,根据所占的比例进行统计,得到分布参考集合,计算出所占比例的中位数Q2(Ri),第一四分位数Q1(Ri)和第三四分位数Q3(Ri);计算出所述的人群主导重复单元类型在每个待测样本上所占比例RTi,当RTi满足以下条件时,则判定该样本中MSI位点为不稳定微卫星位点:
RTi>Q2(Ri)+1.5×(Q3(Ri)-Q1(Ri))或RTi<Q2(Ri)-1.5×(Q3(Ri)-Q1(Ri))。
在一个实施例中,所述的测序数据分析方法为非治疗与诊断目的。
在一个实施例中,步骤S2-1和S2-2中所述的主要重复单元类型是通过如下方法计算得到:
S3-1:根据某一个样本的测序结果,分别统计出覆盖该MSI位点的具有不同重复碱基数的重复单元所对应的测序片段(reads)的个数,以及所有的重复单元所对应的测序片段的个数的总和ntotal;
S3-2:将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;
S3-3:从m依次为1、2、3……,分别计算:
当B≥设定比例时,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为主要重复单元类型;所述的设定比例优选是90%。
在一个实施例中,步骤S2-3中所述的人群主导重复单元类型是通过如下方法计算得到:
S4-1:将全部的正常样本的测序数据作为整体,统计出覆盖该MSI位点的具有不同重复碱基数的重复单元所对应的测序片段(reads)的个数,以及所有的重复单元所对应的测序片段的个数的总和ntotal;
S4-2:将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;
S3-3:从m依次为1、2、3……,分别计算:
当B≥设定比例时,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为人群主导重复单元类型;所述的设定比例优选是90%。
在一个实施例中,所述的步骤S2-3中,计算所述的人群主导重复单元类型在每个正常样本上所占比例的过程是:在每个正常样本中,统计出每个人群主导重复单元类型所对应的测序片断数n,再计算出测序片断数n在这个样本中可以覆盖该MSI位点的全部测序片断数ntotal中占的比例。
在一个实施例中,分析方法中还包括步骤S5:计算出上述方法判定为微卫星不稳定的位点在全部检测微卫星位点中所占的比例,将样本的数据进行统计,计算出可以用于界定样本为MSS、MSI-L或MSI-H的阈值。
在一个实施例中,步骤S1中NGS流程中采用液相捕获法富集目标基因DNA;更优选的,NGS流程中使用液相捕获法及长度为120bp生物素化单链DNA探针富集的目标基因DNA。
在一个实施例中,步骤S2中,同时采用三种判定方法进行判定,至少其中一个判定方法满足时,即认为该样本的所述的微卫星不稳定位点为不稳定。
在一个实施例中,所述的MSI位点是单碱基重复的MSI位点。
在一个实施例中,以上的微卫星不稳定性的测序数据分析方法可以由S1、S2中的S2-1、S5构成一个整体检测方法,也可以是由S1、S2中的S2-2、S5构成一个整体检测方法,也可以是由S1、S2中的S2-3、S5构成一个整体检测方法。
本发明的第五个方面:
一种检测微卫星不稳定性的设备,所述的设备中包括:
测序数据读取模块,用于从读取从测序设备中获得并存储的样本测序数据;
主要重复单元类型判定模块,用于从样本测序数据中分析得到每个正常样本或者待测样本的微卫星位点的主要重复单元类型;
人群主导重复单元类型判定模块,用于从样本测序数据中分析得到全部正常样本中的人群主导重复单元类型;
判定模块,用于判定所述的微卫星不稳定位点是否为不稳定状态,所述的判定模块中包括第一分析模块、第二分析模块或者第三分析模块中的一个或者几个;
所述的第一分析模块,用于获取主要重复单元类型判定模块中所得到每个待测样本和正常样本在该MSI位点上的主要重复单元类型,并统计每个正常样本中主要重复单元类型的种类数Ni,并计算出种类数Ni的平均值mean(Ni)及标准偏差sd(Ni);若对于待测样本的主要重复单元类型的种类数>mean(Ni)+x×sd(Ni),则判定该样本中MSI位点为不稳定微卫星位点;其中x为标准差系数,优选为3;
所述的第二分析模块,用于获取主要重复单元类型判定模块中所得到每个待测样本和正常样本在该MSI位点上的主要重复单元类型,用于判定是否在待测样本中找到了在正常样本中未出现过的主要重复单元类型,若存在,则判定该样本中MSI位点为不稳定微卫星位点;
所述的第三分析模块,用于获取人群主导重复单元类型判定模块中所得到的全部正常样本的人群主导重复单元类型,再分别计算出所述的人群主导重复单元类型在每个正常样本上所占比例,根据所占的比例进行统计,得到分布参考集合,计算出所占比例的中位数Q2(Ri),第一四分位数Q1(Ri)和第三四分位数Q3(Ri);计算出所述的人群主导重复单元类型在每个待测样本上所占比例RTi,当RTi1满足以下条件时,则判定该样本中MSI位点为不稳定微卫星位点:RTi>Q2(Ri)+1.5×(Q3(Ri)-Q1(Ri))或RTi<Q2(Ri)-1.5×(Q3(Ri)-Q1(Ri))。
在一个实施例中,判定模块中包括第一分析模块、第二分析模块和第三分析模块;并且,判定模块获取第一分析模块、第二分析模块和第三分析模块的分析结果,若三个分析模块中的结果中有任意一个为微卫星不稳定状态,则判定模块认定该样本为微卫星不稳定状态。
在一个实施例中,主要重复单元类型判定模块根据某一个样本的测序结果,分别统计出覆盖该MSI位点的具有不同重复碱基数的重复单元所对应的测序片段(reads)的个数,以及所有的重复单元所对应的测序片段的个数的总和ntotal;将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;从m依次为1、2、3……,分别计算:
当B≥设定比例时,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为主要重复单元类型;所述的设定比例优选是90%。
在一个实施例中,人群主导重复单元类型判定模块将全部的正常样本的测序数据作为整体,统计出覆盖该MSI位点的具有不同重复碱基数的重复单元所对应的测序片段(reads)的个数,以及所有的重复单元所对应的测序片段的个数的总和ntotal;将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;从m依次为1、2、3……,分别计算:
当B≥设定比例时,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为人群主导重复单元类型;所述的设定比例优选是90%。
在一个实施例中,还包括有阈值计算模块,用于计算出判定为微卫星不稳定的位点在全部检测微卫星位点中所占的比例,并将样本的比例数据进行统计,计算出可以用于界定样本为MSS、MSI-L或MSI-H的阈值。
在一个实施例中,检测微卫星不稳定性的设备可以是由测序数据读取模块、主要重复单元类型判定模块、包括第一分析模块的判定模块所组成;也可以是由测序数据读取模块、主要重复单元类型判定模块、包括第二分析模块的判定模块所组成;也可以是由测序数据读取模块、人群主导重复单元类型判定模块、包括第三分析模块的判定模块所组成。
本发明的第六个方面:
一种计算机可读介质,记录有可以运行上述微卫星不稳定性的测序数据分析方法的程序。
有益效果
综上所述,本发明开发了基于下一代测序技术微卫星不稳定性检测的数据分析方法,及寻找基因组中适合作为微卫星不稳定性指示物的基因组位点的筛选方法。该分析方法与筛选方法可以选择性地应用在各种与全外显子组测序或靶向测序兼容的基因检测技术中,对相关癌症的治疗方案拟定和预后提供极高的理论及临床指导意义。
基于本发明开发的MSI相关微卫星状态检测方法,相比传统MSI检测,具有高通量、高灵敏度、高清晰度、高可重复度、客观、及操作简便等优势;相比其他基于下一代测序技术的微卫星不稳定检测,本检测还具备以下有益效果:
一方面,本发明提出的鉴别微卫星位点稳定状态的判定方法,从三种不同的角度判断点位是否存在微卫星不稳定现象,因此具备更高的灵敏度。同时,伴随灵敏度的提高,本检测方法并未表现出特异性降低。本检测方法的高灵敏度和高特异性直接推进了本检测区分MSS、MSI-L、及MSI-H样本的准确性。另一方面,本发明对MSI位点的选择局限于使用的NGS的富集方法本身,因此不需要为微卫星位点单独设计富集方法,避免因引入额外的富集探针或PCR引物而导致的富集脱靶率升高。选择的过程具备基于理论预设的筛选条件,同时结合候选点位在临床样本中的实际表现,确保了选出的点位在临床应用中的价值。
附图说明
图1是本发明中提出的微卫星位点检测方法的流程图;
图2是本发明中提出的计算设备的模块构成图;
图3是在SMAD-18位点上的正常样本和MSI-H样本的不同碱基重复单元的占比分布图;
图4是在NF1-26位点上的正常样本和MSI-H样本的不同碱基重复单元的占比分布图;
图5是在PTK-16位点上的正常样本和MSI-H样本的不同碱基重复单元的占比分布图;
图6是实施例3中对照试验1的微卫星不稳定判断结果箱形图;
图7是实施例3中对照试验2的微卫星不稳定判断结果箱形图;
图8是实施例3中对照试验3的微卫星不稳定判断结果箱形图;
图9是实施例3中本申请方法试验的微卫星不稳定判断结果箱形图。
具体实施方式
下面通过具体实施方式对本发明做进一步详细说明。但本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明使用范围的限定条件。实施例中未注明具体技术或条件的步骤,按照本领域内文献所描述的技术或条件或对应步骤商业产品的说明书进行。所用未注明生产厂商的试剂或仪器,均为可以通过市购货的的常规产品。
在本文中所使用的术语“DNA”为脱氧核糖核酸(英文:Deoxyribonucleic acid,缩写为DNA)是一种由脱氧核糖核苷酸组成的双链分子。可组成遗传指令,引导生物发育与生命机能运行,其碱基排列顺序构成了遗传信息,所以在遗传病的诊断中具有重要的作用。
在本文中所使用的术语“下一代测序技术”指的是第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于Illumina(Miseq、Hiseq2000、Hiseq2500、Hiseq3000、Hiseq4000、HiseqX Ten等)、ABI-Solid和Roche-454测序平台等。随着测序技术的不断发展,本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置进行本检测。根据本发明的具体示例,可以将根据本发明实施例的核酸标签用于Illumina、ABI-Solid和Roche-454测序平台等的至少一种进行测序。下一代测序技术,例如Illumina测序技术具有以下优势:(1)高灵敏度:下一代测序,例如Miseq的测序通量大,目前一次实验流程可以产生最多15G碱基数据,高的数据通量可以在测序序列数一定的情况下,使得每条序列获得更高的测序深度,所以可以检测到含量更低的突变,同时因其测序深度高,突变位点被多次覆盖,其测序结果也更为可靠。(2)高通量,低成本:利用根据本发明实施例的标签序列,通过一次测序可以检测上万份样本,从而大大降低了成本。
本文所用的术语“微卫星”或“微卫星区域”指核苷酸序列中由至少两个重复单位组成且具有最少6个碱基的长度的单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸或六核苷酸重复。微卫星的具体亚类包括同聚物。本文所用的“同聚物”指微卫星区域,其是至少6个碱基的单核苷酸重复;换言之,在DNA水平看,其是至少6个连续的A、C、T或G碱基的一段序列。最尤其是,在测定微卫星时,审视个体的基因组DNA(或存在于个体中的癌症的基因组DNA)。
本申请中所用的术语“MSI状态”指微卫星不稳定性(MSI)的存在,微卫星不稳定性是微卫星中重复DNA核苷酸单位数目的克隆改变或体细胞改变。MSI状态可以是三个离散种类之一:MSI-H,也称为MSI-高、MSI阳性或MSI;MSI-L,也称为MSI-低;或MSS,也称为微卫星稳定,或缺乏MSI。
本发明中的“突变”、“核酸变异”、“基因变异”可通用,本发明中的“SNP”(SNV)、“CNV”、“插入缺失”(indel)和“结构变异”(SV)同通常定义,但本发明中对各种变异的大小不作特别限定,这样这几种变异之间有的有交叉,比如当插入/缺失的为大片段甚至整条染色体时,也属于发生拷贝数变异(CNV)或是染色体非整倍性,也属于SV。这些类型变异的大小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描述的结果。
本发明提供一种通过分析下一代测序技术生成的数据确定微卫星不稳定性的方法。具体而言,从哺乳动物例如人的细胞、体液或组织样本中提取基因组DNA,经处理获得片段化的双链DNA作为DNA样本库;然后,将该DNA样本库与DNA探针库进行杂交,从而从DNA样本库中富集得到MSI相关微卫星位点片段,进行下一代测序。测序获得的数据,使用常用生物信息学分析软件比对至人类参考基因组GRCh37/hg19(可从UCSC网站http://genome.ucsc.edu下载),经过适当处理,使用常用生物信息学分析软件找出每个微卫星位点不同重复元素的测序片段数。其结果即可作为本发明提出的分析流程的输入信号进行MSI状态分析,确认微卫星位点的稳定性及样本的微卫星稳定状态。
本申请首先提出了一种用于检测微卫星不稳定性的位点组合,包括有如下22个基因位点:BAT25、BAT26、NR24、NR21、Mono27、NR22、NR27、BAT40、CUL-22、MET-15、ATM-15、RB1-13、NF1-26、DDR-11、FANC-21、MITF-14、PKHD-18、PTK-16、RET-14、CBL-17、PTPN-17、SMAD-18;所述的微卫星位点在基因组中的位置如表1所示。基因组的位置是从基因组数据库Hg19版本所确定;表1中chr及其后续代表的数字表示第几条染色体。
上述的位点组合在进行微卫星不稳定性检测判定时,可以有效解决商品化的普洛麦格(Promega)MSI检测试剂盒只能检测5个MSI位点(BAT-25、-26,MONO-27,NR-21、-24)而导致的判定结果连贯性差、检测结果数值呈明显梯度而导致的对于接近判定阈值的样本存在错误分类MSI-H和MSI-L的风险。同时,上述检测方法在检测低肿瘤细胞占比的样本时,较普洛麦格MSI检测试剂盒具备更高的灵敏度。
当需要判定各个位点是否存在微卫星不稳定性的状态时,可以采用常规的PCR、高通量测序等方法对正常样本和待测样本进行检测和判定,若出现碱基的重复单元数异常时,可以判定为微卫星不稳定状态;优选条件下,可以采用本发明中所涉及的三条件判定的方法进行判定。当需要判定某个样本是否处于MSS,MSI-L,或MSI-H的状态时,可以采用与正常样本中微卫星不稳定性的位点的占比进行对照分析,当大于或小于设定阈值时,认定为相应的状态。
对于上述的微卫星位点组合进行检测时,可以设计出相应的检测试剂和试剂盒,试剂中可以根据位点的序列设计出相应的探针或引物,也可以在试剂盒中增加其它的对照基因及相应的检测试剂。
另外,上述的微卫星位点也可以与其它的肿瘤敏感基因共同构成联合标记物,进行高通量测序分析,以对样本进行更全面的基因检测,这些肿瘤敏感基因包括但不限于:AKT1、CTNNB1、FLT3、KRAS、PTPN11、SRC、ALK、EGFR、GNAS、MLH1、RB1、STK11、ATM、ERBB2、HNF1A、MPL、RAD50、TP53、BRAF、ERBB4、IDH1、NRAS、RET、VHL、BRCA1、FBXW7、JAK3、PIK3CA、SMAD4、CDH1、FGFR2、KIT、PTEN、SMARCB1、ABL1、CSF1R、GNA11、JAK2、NOTCH1、SMO、APC、FGFR1、GNAQ、KDR、NPM1、CDKN2、FGFR3、HRAS、MET和PDGFRA等。
针对测序结果来判定某一个样本的某一个微卫星位点的状态,常需要对比正常样本的测序结果进行统计分析,例如考虑同时存在于某一样本的某一微卫星位点内的不同重复元素的种类数等,这些方法存在灵敏度不足,容易漏检、误判的情况。
本发明还提出了一种新的根据NGS测序数据来判定位占是否为微卫星不稳定状态的数据分析方法,该方法的主要流程是:首先通过NGS获得待测样本和正常样本(也称参考样本)中的测序数据,这里的测序数据主要是用于测序相关的MSI位点的信息,通过高通量测序的方法获得相应位点的序列信息可以按照常规的实验方法、教科书、探针设计方法、测序仪使用手册中的描述进行,主要的流程包括:对每个待测样本和正常样本的组织样本或者全血样本进行DNA提取,获取基因组DNA;对DNA片段过大的样本,通过超声破碎,将样本机械力打断至200-350碱基对;对片段化的DNA分子执行末端修复、添加腺嘌呤、文库接头连接等操作;获得的DNA文库与长度为120碱基的单链生物素标记DNA探针分子杂交,再以链霉亲和素包裹的磁珠分离捕获的DNA文库分子;在illumina下一代测序仪上进行测序。测序反应获得的数据通过生物信息学分析。在获得了相应的测序信息后,可以采用常规方法做数据进行预处理,以去除接头二聚体或低质量的测序片断(reads)等等。
针对某一个待测位点,需要获取能够覆盖该位点范围内的测序片断(reads)。对于正常样本来说,有两个特定数值需要首先经过统计分析得出,一个是主要重复单元类型,另一个是人群主导重复单元类型。下面针对这两种数值进行详述:
对于主要重复单元类型,主要是用于判断在某一个特定样本中的某一个MSI位点上的主要重复单元信息。例如,对于SMAD-18位点,在参考基因组序列中该位点上有18个连续的A,并且在正常人群会常出现15、16、17、18、19个连续A的重复碱基类型(可以被记为-3、-2、-1、0、1这5种重复元素),但是,单个健康人全血样本只常见5种重复元素中的两种或三种,因此需要确定在每一个样本中的最主要的类型。它的计算方式主要是通过测序片段(reads)的个数占比进行判定,当获得了可以比对于该位点的所有测序片段之后,对测序片断的数据按照重复碱基数目进行归类,每一种重复碱基数的reads为一类,并将对应于该类的reads数目进行计数,如上面所示的,在某个正常人群的样本中,可能在SMAD-18位点上检测到了具有16、17、18、19个连续A的重复碱基类型,然后再累加出这4种类型的重复单元分别具有的reads的个数,并且要再获得这些有效reads的总数ntotal。接下来,需要再计算出这4种类型当中的主导类型,主要是通过每种类型对应的reads个数在总的ntotal中的占比来统计,方法是:取单个样本中出现频率(占比)最高的重复单元类型;若占比最高的一个重复单元类型占比未及90%,则加入出现频率(占比)第二高的重复单元类型,将两者的占比进行加和,以判断加和之后是否大于等于90%;若占比最高和第二高的重复单元类型的总占比没有大于等于90%,则继续再加入出现频率(占比)第三高的重复单元类似;以此类推,直到总占比恰好大于等于90%。在计算方法上,可以通过以下的方法实现:将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;从m依次为1、2、3……,分别计算:
当B≥90%,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为主要重复单元类型。通过上述的方法,即实现了针对某一个特定样本上的特定MSI位点的主要重复单元类型的确定。
另一个需要确定的数据是人群主导重复单元类型,该数据是用于判断在全部采用的正常样本中的主要的重复碱基类型。与上面的主要重复单元类型类似,这里也是根据测序片断的个数占比进行判定,区别在于是直接采用全部的正常样本进行整体判断。首先,需要将针对某一个MSI位点的所有正常人群的测序结果进行汇总,通过其中可以覆盖至该MSI位点的测序片断进行分析,将所有的reads中的重复单元类型进行统计,对测序片断的数据按照重复碱基数目进行归类,每一种重复碱基数的reads为一类,并将对应于该类的reads数目进行计数,然后再累加出这些不同种类型的重复单元分别具有的reads的个数,并且要再获得这些有效reads的总数ntotal。接下来,需要再计算出这这些不同种类型当中的人群主导重复单元类型,主要是通过每种类型对应的reads个数在总的ntotal中的占比来统计,方法是:对于全部的汇总样本中出现频率(占比)最高的重复单元类型;若占比最高的的那个重复单元类型占比未及90%,则加入出现频率(占比)第二高的重复单元类型,将两者的占比进行加和,以判断加和之后是否大于等于90%,若没有大于等于90%,则继续再加入出现频率(占比)第三高的重复单元类型,以此类推,直到总占比恰好大于等于90%。在计算方法上可以这样实现:将不同重复碱基数的重复单元按照与它们对应的测序片段(reads)个数进行由大至小排列,个数分别记为n(j),j=1、2、3……;分别计算n(j)在总测序片段个数中所占的百分比A(j)=n(j)/ntotal×100%;从m依次为1、2、3……,分别计算:
当B≥90%,停止计算,并将A(1)~A(m)所对应的不同重复碱基数的重复单元判定为人群主导重复单元类型。
在获得了上面的两种类型数据结果后,需要针对该MSI的位点测序信息进行分析,这里可以采用以下三种判定方法当中的任意一个进行判定,为了进一步提高检测敏感性,可以是采用以下三种方法当中的任意两个进行判定,只要其中一个条件满足即认定为微卫星不稳定性;在更优选的情况下,是采用三种判定方法同时进行判定,只要三个当中有任意一个条件符合,就认定为该位点为微卫星不稳定,并且本发明发现采用这种三方法联合判定时,并不会使判定结果的特异性降低。以下对这三个判定方法进行详述:
第一种判定方法,其目的是限定主要重复单元类型的数量不能过多,如果在待测样本中,采用这一条判定方法时,可以将主要重复单元类型过多的那些位点标记为不稳定状态,使得整体的判定结果与5位点普洛麦格试剂盒的判定结果更加符合。采用这种方法时,首先需要获得每个正常样本中的主要重复单元类型,再分别统计它们中主要重复单元类型的种类数,例如,在某个正常样本中的SMAD-18位点上检测到了主要重复单元类型是具有18、19个连续A的重复碱基,那么在这个样本上的种类数就为2,在获得了所有的样本中的某一个位点的主要重复单元类型的种类数之后,对它们进行统计学分析,计算出这些种类数的集合Ni的平均值mean(Ni)及标准偏差sd(Ni);接下来,再对待测样本上的这个位点进行主要重复单元类型的种类数的统计,同样地,如果在某个待测样本中SMAD-18位点上检测到了15、17、18、19个重复碱基的单元都是主要重复单元类型后,那么在这个待测重复单元上的种类数就是4。再判定对于待测样本的主要重复单元类型的种类数是否大于mean(Ni)+x×sd(Ni),如果成立则判定该样本中MSI位点为不稳定微卫星位点;表达式中x为标准差系数,优选为3;以此类推,将所有的涉及的MSI位点都进行上述的判定,得到全部的结果。
第二种判定方法,其目的是限定在待测样本中不应出现罕见的主要重复单元类型,本发明中发现在一些位点上,具有该特征的样本判定为微卫星不稳定时,可以提高整体评价的敏感性。这一判定方法,也依赖于上述的主要重复单元类型,当获得了全部的正常样本中的主要重复单元类型后,再对待测样本进行分析,当发现待测样本中的一个或多个主要重复单元类型在所有的正常样本中都没有出现后,将其判定为微卫星不稳定性,可以避免一些漏检的发生,使该判定方法的判定敏感性得到提高。
第三种判定方法,其目的是用于使样本当中的人群主导重复单元类型的占比限定在特定范围内,不能过大也不能过小,本发明发现采用这一条标准时,也可以避免漏检和提高检测敏感性。该方法的过程主要是:在获得了人群主导重复单元类型之后,再在每个正常样本中统计出是否存在了这个人群主导重复单元类型,如果存在了,就统计人群主导重复单元类型所对应的测序片断的个数n,再计算出在该样本上可以覆盖该MSI位点的全部测序片断ntotal的个数,得到n在ntotal中的所占的比例。例如,对PTK-16位点进行检测中,首先统计在100个正常人样本中可以比对至该位点上的测序片断的个数,共在全部的约50000个测序片断中得到18696条测序片断,在这些测序片断中找到12、13、14、15、16、17、18、19、20重复碱基数量的单元(分别记为-4、-3、-2、-1、0、1、2、3、4),其中17013条测序片段为16重复碱基的类型,在全部片断中占比91%,则认定16碱基重复类型为人群主导重复单元类型;接下来,再分别对这100个正常人群的测序数据计算16碱基重复类型的占比,同样也是通过测序片断的个数进行计算,例如对于正常人A的测序结果中共100条测序片断可以比对至PTK-16位点,并且在100条中共分别有5条、5条、60条、30条测序片断指向14、15、16、17重复碱基片断,那么在正常人A中16碱基重复类型占比是60/100=0.6,而在正常人B的测序数据中,依照同样的方法计算出16碱基重复类型占比是20/100=0.2,那么可以在这100个人群中获得100个如0.6、0.2……这样的比例数据。接下来,将这100个数值进行分布统计,计算出所占比例的中位数Q2(Ri),第一四分位数Q1(Ri)和第三四分位数Q3(Ri);再在某一个待测样本的测序数据中计算16碱基重复类型的测序片断在它的全部测序片断中所占的比例,RTi,当RTi满足以下条件时,则判定该样本中MSI位点为不稳定微卫星位点:RTi>Q2(Ri)+1.5×(Q3(Ri)-Q1(Ri))或RTi<Q2(Ri)-1.5×(Q3(Ri)-Q1(Ri))。
将全部的MSI位点都依照上面的方法全部计算完毕之后,可以得到待测样本在每个MSI位点上是否处于稳定;当需要判定每个病人样本是否为微卫星不稳定状态时,可以采用常规的计算不稳定的微卫星位点在所有的微卫星位点数目中的比例来进行判定,根据正常样本和已知微卫星稳定状态的样本的比例进行统计,标定出相应的阈值,界定样本j为MSS、MSI-L、或MSI-H。
上述的方法为非治疗与诊断目的,其仅仅用于确定样本是否存在着MSI不稳定现象、防止漏检的发生,而MSI的出现与癌症的临床样本特征并没有实质性相关性。
基于上述的方法,可以将计算方法通过常规的计算模块组成计算装置,也可以将上述的计算方法写出可运行的程序记录于存储器中。本发明还提供了存储有上述的计算方法程序的计算机存储介质,以及可以运行上述方法的计算机系统。
实施例1位点的初步筛选
本发明下面以实例展示本分析流程及MSI位点筛选方法的应用。我们对2000例罹患实体瘤的中国人个体的肿瘤组织样本及对应全血阴性对照样本进行了高通量测序检测,检测的靶向基因组区间为422个癌症相关基因的全外显子区域,及部分常见基因融合的内含子区域。检测采用液相捕获法富集目标DNA。测序过程为通常的下一代测序方法,其简略描述如下:对每个病人的组织样本和全血样本进行DNA提取,获取基因组DNA;对DNA片段过大的样本,通过超声破碎,将样本机械力打断至200-350碱基对;对片段化的DNA分子执行末端修复、添加腺嘌呤、文库接头连接等操作;获得的DNA文库与长度为120碱基的单链生物素标记DNA探针分子杂交,再以链霉亲和素包裹的磁珠分离捕获的DNA文库分子;在illumina下一代测序仪上进行测序。测序反应获得的数据通过生物信息学分析,显示在靶向区间内,共存在96个超过10碱基对的、且在肿瘤样本中存在插入/缺失突变的单碱基重复序列。
本次发现的96个存在插入/缺失突变的单碱基重复序列的信息相关:
表2 96个初步筛选的位点信息
为了进一步解决常规的普洛麦格(Promega)MSI检测试剂盒只能检测5个MSI位点(BAT-25、BAT-26,MONO-27,NR-21、NR-24)而导致的判定结果连贯性差、检测结果数值呈明显梯度的问题,发明人还总结了100例健康人全血样本、及163例接受过普洛麦格PCR微卫星检测的结直肠癌临床样本,其中包括MSS样本133例、MSI-L样本6例、及MSI-H样本24例。对上述获得的96个候选点位执行如下筛选条件:1.位点应被较好地覆盖,覆盖位点的测序深度应达到全样本测序平均深度的20%。2.正常样本中,占比最高的重复元素类型在全部覆盖位点的测序片段中的所占比例不应低于60%。3.正常样本中,至少80%的覆盖位点的测序片段不应发生偏离占比最高重复元素类型超过1碱基对的插入或缺失突变。4.该位点在80%以上的MSS样本中(基于免疫组化或普洛麦格PCR检测),被判定为稳定。5.该位点在80%以上的MSI-H样本中(基于免疫组化或普洛麦格PCR检测),被判定为不稳定。过滤后,共有22个位点满足条件,其列表在表1中罗列,这经过筛选后22个位点可以表现出与Promega试剂盒5个位点结果在正常人群和病人样本上表现的一致性,同时也可以使Promega试剂盒的检测梯度得到精确细分。
实施例2微卫星位点不稳定状态的数据分析
采用实施例1中的100例健康人全血样本、及163例接受过普洛麦格PCR微卫星检测的结直肠癌临床样本进行微卫星位点的测序分析,测序过程在illumina下一代测序仪上进行。
首先,将正常人群和病人样本的测序下机数据经过处理后,找到可以覆盖至22个MSI位点上的读段,再对根据微卫星位点中单碱基重复数目对这些读段进行归类和数目积累。统计出对应于正常样本和病人样本的每个位点上的主要重复单元类型,以及统计出全部正常样本上的人群主导重复单元类型。再统计出22个MSI位点上的主要重复单元类型的平均值和标准偏差(结果如表3所示),统计出22个MSI位点上正常样本人群主导重复单元类型的中位数Q2(Ri),第一四分位数Q1(Ri)和第三四分位数Q3(Ri)(结果如表4所示)。
表3主要重复单元类型的平均值和标准偏差
表4人群主导重复单元类型的中位数,第一四分位数和第三四分位数
再依据上述的三组分析方法对患者样本的数据进行分析,并与普洛麦格试剂盒的检测结果进行对比。
如图3所示,100例健康人全血样本的集合分析显示,SMAD-18位点常出现-3、-2、-1、0、1这5种重复元素,但单个健康人全血样本只常见5种重复元素中的两种或三种。其中有一例MSI-H样本在SMAD-18位点同时具备5种不同重复元素,显然显示该位点不稳定。若仅以本发明提出的“未出现的主要重复单元类型”(第二种判定方法)与“人群主导重复单元类型的占比”(第三种判定方法)两条判定条件分析该位点,该位点将被误判为稳定。因此,需要采用“主要重复单元类型的数量”(第一种判定方法)去进行比较。
如图4所示,100例健康人全血样本的集合分析显示,NF1-26位点常见-4至4这9种重复元素,一例MSI-H样本在NF1-26位点亦出现多条不同重复元素,且出现正常样本中从未出现的-15至-10重复元素,显然该样本的该位点为不稳定。若仅以本发明提出的“主要重复单元类型的数量”与“人群主导类型占比”两条判定条件分析该位点,该位点将被误判为稳定。因此,需要采用“未出现的主要重复单元类型”的方法进行判定。
如图5所示,100例健康人全血样本的集合分析显示,PTK-16位点常见-1、0、1共3种重复元素,但人群主导类型为0一种重复元素。一例MSI-H样本在PTK-16位点的人群主导类型的占比仅为60%,显然该样本的该位点为不稳定。若仅以本发明提出的“主要重复单元类型的数量”与“未出现的主要重复单元类型”两条判定条件分析该位点,该位点将被误判为稳定。因此,需要采用“人群主导类型占比”的方法进行判定。
实施例3位点组合的微卫星不稳定性分析
为了展示本发明提出的22个微卫星不稳定位点联合生物指示物的优越性,比较了筛选获得的22个微卫星点位,与96个候选位点中剩余的位点中随机选取的22个位点,在界定患者微卫星不稳定性的准确度方面做了对比。
对照试验1:图6展示了以随机选取的22个微卫星不稳定点位(表2中编号分别为39、88、43、34、25、56、63、69、42、32、28、45、59、98、44、50、85、99、67、53、52、66的MSI位点),仅采用“主要重复单元类型的数量”一条判定条件得出的分析结果。图中MSS、MSI-L、MSI-H的分类是基于普洛麦格试剂盒的判定结果,其中各个数据点是163例接受普洛麦格微卫星检测试剂盒的临床样本,其中包括MSS样本133例、MSI-L样本6例、及MSI-H样本24例。图中所占的比例是基于本发明提供的判定方法确定的微卫星不稳定性得到的结果计算的数量比例,从图中可以看出,显然,MSS与MSL-L之间的区分线非常模糊,完全无法区别,并且对MSI-L与MSI-H也无法区分,且对至少1例MSI-L样本及4例MSI-H存在误判。
对照试验2:图7展示了以随机选取的22个微卫星不稳定点位(表2中编号分别为39、88、43、34、25、56、63、69、42、32、28、45、59、98、44、50、85、99、67、53、52、66的MSI位点),采用本发明提出的“主要重复单元类型的数量”、“未出现的主要重复单元类型”、“人群主导类型占比”三条判定条件得出的分析结果。检测灵敏度较图6有显著提升,但仍无法分辨MSI-L与MSI-H,且对至少1例MSI-L样本及1例MSI-H存在误判。
对照试验3:以随机选取的22个微卫星不稳定点位(表2中编号分别为28、69、43、38、70、31、35、81、54、29、73、59、32、88、64、42、62、53、57、83、30、76的MSI位点),采用本发明提出的“主要重复单元类型的数量”、“未出现的主要重复单元类型”、“人群主导类型占比”三条判定条件得出的分析结果。
对照试验4:以随机选取的22个微卫星不稳定点位(表2中编号分别为76、41、43、39、99、48、42、54、33、46、35、32、79、57、49、90、58、77、88、81、82、74的MSI位点),采用本发明提出的“主要重复单元类型的数量”、“未出现的主要重复单元类型”、“人群主导类型占比”三条判定条件得出的分析结果。
对照试验5:图8展示了以本发明提出的MSI位点筛选方案确定的22个微卫星不稳定点位,仅采用“主要重复单元类型的数量”一条判定条件得出的分析结果。虽然检测灵敏度较图6及图7展示的结果进一步提高,但仍然无法清晰区分接近判定阈值的MSI-L及MSI-H样本,对接近判定阈值的样本存在极高误判风险。
本申请方法的试验:图9展示了以本发明提出的MSI位点筛选方案确定的22个微卫星不稳定点位,采用本发明提出的“主要重复单元类型的数量”、“未出现的主要重复单元类型”、“人群主导类型占比”三条判定条件得出的分析结果。检测灵敏度极高,同时对MSS样本保持了极高的特异性。若以总分0.18及0.65为判定阈值,本发明提出的检测方法与普洛麦格PCR微卫星检测达成了98.8%的吻合度。结论不吻合的样本为1例MSI-L和1例MSI-H,由于接近判定阈值,不排除普洛麦格PCR微卫星检测结果误判的可能性。
上述判定结果汇总如下:
表5微卫星不稳定性判定结果
实施例4对HCT-116细胞线DNA样本的梯度稀释试验
由于普洛麦格试剂盒检测基于PCR及一代Sanger测序法,其检测所用技术敏感性低于本发明所述的基于二代测序法的检测方法。实际操作中,从实体肿瘤病灶获得的活检样本中常包含高比例正常细胞,而肿瘤细胞所占百分比(亦称肿瘤丰度)很低。为了展示本发明所述分析方法在样本低肿瘤丰度时亦具备极高的检测灵敏度,本申请开展了对已知为MSI-H的阳性样本的梯度稀释试验。
HCT-116细胞线是一条被广泛使用和研究的结直肠癌细胞线,大量科研数据表明该样本为高频微卫星不稳定(MSI-H),且在其基因组上大多数微卫星位点均呈现微卫星不稳定。在实施例4中,以从正常人淋巴细胞线GM18535提取的基因组DNA作为稀释液,将HCT-116细胞线提取的基因组DNA按照质量占比5%,10%,15%,20%,30%,50%,100%的比例混合,所得混合DNA样本使用本发明所述的检测方法和普洛麦格试剂盒分别检测,所得结果如下:
表6对HCT-116细胞线基因组DNA梯度稀释样本的检测结果
可以看出普洛麦格在肿瘤细胞丰度低于20%时无法准确界定样本微卫星稳定性,而本发明所述检测在肿瘤细胞丰度低至10%时仍能准确界定样本微卫星状态。