具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
标志物组、检测标志物组的试剂在制备试剂盒中的用途、探针、试剂盒
在本发明的第一方面,本发明提出了一组标志物,所述标志物用于检测微卫星不稳定性。根据本发明的实施例,标志物组包括如表1所示的微卫星位点至少之一。根据本发明实施例的方法,表1所示的微卫星位点准确性及灵敏度高,适合利用高通量测序方法对受试者的微卫星稳定性状态进行判断,并且这些标志物可以选择性应用于靶向测序、目标捕获测序、全基因组测序等基因检测技术,从而对癌症等的治疗方案拟定、预后提供指导,对科学研究、药物筛选提供帮助。发明人通过大量的实验筛选到该23个微卫星位点的组合,利用该组合可以准确地判断待检测样本的微卫星稳定性状态。
在本发明的一个实施例,发明人通过下列方法筛选上述23个微卫星位点的组合:
S1:获取需要分析的MSI位点的探针或待设计探针区域的序列;S2:对S1中的序列分析其在基因组上的相似区域数目;S3:对S2中在基因组上相似区域数目<=10的位点(identity>85%,alignment length/seq length>85%)进行下一步分析,否则视为该位点不合格;S4:对已知PCR的MSI状态结果的样本采用NGS测序,获取采用的样本中覆盖需要分析的MSI位点的测序数据;S5:对步骤S4中获得的测序数据,获取待分析的MSI位点map_quality>=0时的深度D_0及map_quality>30时的深度D_30;S6:若D0>1000时,进行下一步分析,否则视为该位点不合格;S7:若D30/D0>80%时,进行下一步分析,否则视为该位点不合格;S8:对步骤S4中获得的测序数据,获取匹配到待分析MSI位点的read及其数目,统计同时含有待分析MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read数目,统计不含Useq及Dseq的read数目,统计同时含有Useq和Dseq的read在Useq和Dseq之间的序列长度,并可视化。S9:筛选在步骤S8得到的可视化结果中,出现连续多个T(肿瘤)高出N(对照)一倍以上的位点,或序列长度(横坐标)数目少于10个而单个T高出N一倍以上的位点(所述T为来源于微卫星不稳定样本读段长度的频率,所述N为来源于微卫星稳定样本的读段长度的频率)。S10:采用Mantis对S4中样本进行分析,获取每个待分析位点在各个样本中的Stpe-Wise Difference值,统计MSI-H样本和MSS样本的情况并绘制箱线图,在S9的基础上去除MSI-H组和MSS组Stpe-Wise Difference值交叉区域(即MSI-H组小于MSS组最大值)超过3个样本的位点,去除MSS组Stpe-Wise Difference值标准差大于0.1的位点,去除MSI-H组Stpe-Wise Difference值标准差小于0.2的位点。剩余位点即为可用位点,即为本发明中的23个微卫星位点。
在本发明的一个实施例,利用该23个微卫星位点组合进行微卫星不稳定性判定时,检测结果梯度更加细化,准确性更高。
在本发明的第二方面,本发明提出了检测上述标志物的试剂在制备试剂盒中的用途。根据本发明的实施例,所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例,所述检测上述标志物的试剂可以特异性检测或识别上述标志物,具有较高的灵敏度与准确度,可以单独检测上述标志物,也可以应用于测序技术,与目标标志物进行结合,对目标标志物进行捕获或识别,提高检测的灵敏度,帮助测序分析。
根据本发明的实施例,检测上述标志物的试剂包括但不限于检测上述微卫星位点的抗体、探针、引物、质谱检测试剂。所提供的抗体、探针、引物以及质谱检测试剂的至少之一,能特异性、高灵敏性地筛选出前面所述的微卫星位点,进而特异性、高灵敏性地判断待检测样品的微卫星稳定性状态。
在本发明的第三方面,本发明提出了一组探针,所述探针特异性识别上述标志物。根据本发明的实施例,所述探针包括如SEQ ID NO:1~23所示的核苷酸序列至少之一。根据本发明实施例的探针,可以进一步包括标记分子,例如荧光标记分子、生物素标记分子等,用于针对上述标记物进行检测。上述探针也可以用于目标捕获测序,针对待检测样本中上述微卫星位点进行特异性的目标捕获测序,获得待检测样本中位点的测序读段信息,进而进行位点的分析,判断待检测样本的微卫星稳定性类型。
TTGTCCTCCAAACTCTGATGAATACACTTGTAGCTATTAGTAGGGGGGGAAAAAAAAGGCTTAATTAAATCAATGAAAAATTAATAAACTGGTCACAAAATAATGACTATTAGTCTTCTA(SEQ ID NO:1)
ATCTTCTACAGGGTGGGTGCAATCAAGAGTGAACTTCAGAACTTGCTTCTTTTTTTTGCCCCCCTTCACCACAAGCTTTTTCTAAGAAAATACACAAATGATAACAGAGATGAAGTTTCA(SEQ ID NO:2)
TAAAGCAACCACAAGCCCATTCATTATAAATTTATTCCCTGAGCTAATCTTTTTTTTTTTTTTTTTTCCAGATAGGGTCTCACTGTTGCTCAGGCTGGAGTGCCATGGCACAAACATGGT(SEQ ID NO:3)
TGAGAATATATTGTTGTTTTATTTGAGTATTTTAAAAACTACTTTTAGGAAAAAAAAAAAAAAAGACCCAACACGGTGGCTCATGTCATGTCTATAATCCCAGCACATTGGGAGGCTGAG(SEQ ID NO:4)
ATTGGAGGTATTGTTTTAATTTCCTGTTCGAAGCCTAGAGTTTAAATAGTTTTTTTTTTTTTTTTCTAATGGCCCTTTCTTCACAGGTCAGTCAGTACTAAAGTAGTCGTTGCCAGCATC(SEQ ID NO:5)
TGGTGCAGTCTGTCACTCCAGCCTGGGTGACACAGTGAGACTCCATCTCAAAAAAAAAAAAAAAAAAAAACTATATGGGAGGATGTGCATTTTGTTATATGCAAATGCTGCACCATTTTG(SEQ ID NO:6)
CTAAAAAAGTTGACTAAACTGGTTACTGCTACTTCGGTGAAGAGAAAGCTTTTTTTTTTTTTTTTTAAATAACATTTGGGGTTTTTGTCTGTATGAAAGTATTTTAATTCATTTTAGGAA(SEQ ID NO:7)
TCCTTTGTATTATTATAATATTATATCGTAAGTTCCAGAACTTACATAGTTTTTTTTTTTTTTTTTTTCATTTCTCTTGCTTACATGAACTCTATGTCGTGGCATTCAGATCAGTCACAC(SEQ ID NO:8)
CATTCACACTTTCTGGTCACTCGCGTTTACAAACAAGAAAAGTGTTGCTAAAAAAAAAAAAAAAAAAAAAGGCCAGGGGAGACATACATTTAAATATAAAAATAGAACTGTGCCAGCGAC(SEQ ID NO:9)
GTTTATTTGAGGGGAAGTGAAAGAACTTGAAAGATTCATGGTCTCTAAATTTTTTTTTTTTTTTTTTTTTTTTTTCAGAGATTTGGACCAGGCAAGCATGGAAGCAGTAGTTTCACTTCT(SEQ ID NO:10)
GTGCACAGTTGCATCCTGGGGCCGAGAGCCAGGGGTGGGCTCGGAGGGACCCCCCCGCCTTTTCCTCTGTGGGTGTCGGGCAGAGAGGCTGGATTTTTGCAAGTTGAACAGACTGCTGGT(SEQ ID NO:11)
CCTTTCTTATACTCCTGCTTTGCTGTCTTTTTTAATAGCATGTATCATGTTTTTTTTTTTTTTATTTTTAGAGACACAGTCTCATTGTCCCAGGCTGCAGTGCAGTGCCGCAATCATAGC(SEQ ID NO:12)
ACTTGTTCCCTGGCACATTGGAATTCACAGATGGGAGTTAATGGCTTTCTTTTTTTTTTTTTTTTTTTCCTCAGCGTCTTGTGGGTACTTCTCTTATAGCTGGTACTTGTCTGACCCCTC(SEQ ID NO:13)
GGAGGCGGAGTTTGCAGTGAGCTGAGATCGCACCACTGCACTCCATCTCAAAAAAAAAAAAAAAAAAACCCTGTCCAAAAATGGCAGTTATATTCTATACTGTATTTCTTACTCTAGTAA(SEQ ID NO:14)
ATATGAAATTGGATATTGCAGCAGTCAGAGCCCTTAACCTTTTTCAGGTAAAAAAAAAAAAAAAAAAAAAAAAAAAGGGTTAAAAATGTTGAATGGTTAAAAAATGTTTTCATTGACATA(SEQ ID NO:15)
AATTGGCCAGCATCCATCTCTTGAAGACATGCAGGAAGTTGTTGTGCATAAAAAAAAGAGGCCTGTTTTAAGAGATTATTGGCAGAAACATGCTGTAAGTTATCCAGTTAGCTTTTCATT(SEQ ID NO:16)
GTAGCCTGGCAGTATGCACCATCAGGAAAGCGTGTGGCTGCCATGGGGGAAAAAAACATATTCAAATTATTATACAAATTGACTACTTTGGGGAAGCTTCCTGCTATTTCTCCTTTGGCT(SEQ ID NO:17)
GATCGCACCACTGCACTCCAGCCTGGGTGACAGAGCCAGACTCCGTCTTAAAAAAAAAAAAAAAAAAAAAAAAGTCACAATTAGTCAAGATTCACATTGTGTCAATGCTAAAAGAAAACC(SEQ ID NO:18)
TAGACAGTTTCTCTCTTTGGAGGAAGTGGTGAAGTTAGATTAGTGGTGATTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTCTTGCTCTGTCACCAGGCTGGAATGCAGTGGCATGATC(SEQ ID NO:19)
CTACAAGGTAGGAATCTCTAACAGCTGGCATACATGTTTTTGTTTGGTGTTTTTTTTTTTTTTTTGGTTTGGTTTGGTTTGTTTTTTGTTTTTTTAGATACAAATCCCACTAATGAAAAA(SEQ ID NO:20)
ACAACCCATCTCATTTGACTAATGAAAAACCAGTATTGTCTGTCAACACTTTTTTTTTTTTTTTTTTTTGAGATGGAGTCTCTCTCTGGAGTGCAGTGGCGCGATCTTGGCTCACGCAGC(SEQ ID NO:21)
AAGTGGCTAAATGAATATCTCTGCTTTGTGGTTTGAAAATTAATATTGATTTTTTTTCCCCCTAGAGGAAGAAATCCTACTTAGCGACATGAACAAACAGTTGACTTCAATCTCTGAGGA(SEQ ID NO:22)
CATCCTTTCAGCCGATTAATTTGTTTCAGTATTAATGGAATTCTCTTGATTTTTTTTTTTTTTCCCTTCCCTTCTCAGGTGCTATTCAAGTATTGGGAAAGTTCAGGATGCCTTTATATC(SEQ ID NO:23)在本发明的第四方面,本发明提出了一种试剂盒,所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例,所述试剂盒包括用于识别上述的标记物的探针和/或用于扩增上述标记物的引物。根据本发明实施例的试剂盒包括检测上述标记物的探针,所述试剂盒可以进一步包含所需酶、缓冲液等,试剂盒可以高效准确地检测受试者的微卫星稳定性类型。利用本申请的探针可以准确识别并捕获待检测样本,可以用于目标片段捕获的高通量测序中,便于对目标微卫星位点进行测序,并进行分析,最终确定待检测样本是否属于微卫星不稳定性样本。
根据本发明的实施例,所述试剂盒包括如SEQ ID NO:1-23所示序列至少之一的探针组。
确定微卫星不稳定性的方法
在本发明的第五方面,本发明提出了一种确定微卫星不稳定性的方法。根据本发明的实施例,参考图1,所述方法包括:S1000,获取测序数据,所述测序数据含有与本发明第一方面所提出标志物对应的测序读段,所述测序数据分别来自于待测样本和对照样本;S2000,基于所述标志物的每一个,分别在参考基因组序列上构建标志物分析窗口,所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列;S3000,基于比对,从所述测序数据中选择匹配测序读段,所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列;S4000,针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段,以便获得每个所述标志物分析窗口对应的稳定性评估值;和S5000,基于所获得的全部稳定性评估值,确定所述待测样本是否存在微卫星不稳定性,其中,每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的:S5100,确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度;S5200,基于所述匹配长度,去除偏离测序读段;S5300,确定各所述匹配长度对应的所述匹配测序读段数目;S5400,基于所述各所述匹配长度对应的所述匹配测序读段数目,按照下列公式确定所述标志物分析窗口对应的稳定性评估值:
其中,Vi表示第i号所述标志物分析窗口的稳定性评估值,TL表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目,NL表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目,RT表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合,RN表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。
在一些实施方案中,所述对照样本与所述待测样本来自于相同个体,并且所述对照样本具有已知的生理状态。对照样本与待测样本来源于相同个体可以避免因个体不同带来的结果偏差,例如,对照样本来自于癌症患者的健康组织或癌旁组织等,并已通过PCR等方式验证其微卫星稳定性状态,待检测样本来自于癌症患者的肿瘤组织,基于对肿瘤组织的的检测分子,判断该患者的肿瘤组织是否属于微卫星不稳定型,以便指导用药,若肿瘤组织属于微卫星不稳定型,则可针对该组织施用相关药物,利于肿瘤的治疗。
在一些实施方案中,所述对照样本与所述待测样本也可以来自于不同个体,例如,对照样本来源于健康人群的组织、细胞、血液等,待检测样本来自于早期肿瘤筛查的人群的血液、细胞、组织等,通过上述分析方法,判断待检测样本的微卫星稳定性,进而预测待检测人群患肿瘤的风险。
在一些实施方案中,利用上述方法可以进行药物筛选,针对微卫星不稳定性特异肿瘤有效的药物,检测使用药物前后样本的微卫星稳定性状态,可以筛选出符合期望的药物。
在一些实施方案中,所述对照样本来自所述相同个体的健康组织。
在一些实施方案中,对照样本可以是全血,更优选是外周血或外周血细胞部分。如本领域技术人员将理解的,血液样本可以包含但不限于T细胞、单核细胞、嗜中性粒细胞、红细胞、血小板和微泡(例如外来体和外来体样囊泡)的血液的任何部分或组分。在本披露的上下文中,包含在血液样本中的血细胞涵盖任何有核细胞并且不限于全血的组分。因此,血细胞包含,例如白细胞(WBC)。
在一些实施方案中,对各样本的测序方法包括但不限于全基因组测序、全外显子组测序、捕获探针测序、单细胞测序、单分子测序等高通量测序方法。
在一些实施方案中,参考基因组,可以是物种(例如,人、小鼠、猴等)的参考的标准基因组序列,在一个具体的实施方案中,以hg19作为人类参考基因组的其中一个版本,在另一个实施方案中,以hg38作为人类参考基因组的其中一个版本(http:// hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/)。
在一些实施方案中,基于所获得的全部稳定性评估值,确定是否存在微卫星不稳定性进一步包括:S5410,确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值,当所述稳定性分值不小于预定阈值时,则为所述待测样本为微卫星不稳定型的指示。
在一些实施方案中,所述预定阈值为不小于0.2,优选为0.25。
在一些实施方案中,所述偏离测序读段的标准为读段长度不小于4个标准差。
在一些具体的实施方案中,所述偏离测序读段的标准为读段长度不小于3个标准差。
在一些实施方案中,在步骤S5400之前,对所述匹配测序读段数目进行均一化处理。所述均一化处理为对待检测样本和对照样本中某个标志物去除偏离测序读段后的数目分别除以各自总读段数目来进行均一化。
在一些实施方案中,本方法适用于所有癌症的检测。优选地,本发明所适用的癌症类型包括但不限于结直肠癌、胃癌、食道癌、胰腺癌、泌尿系统肿瘤。
在一些具体的实施方案中,确定微卫星不稳定性的方法具体为:
S1:对待测样本及正常样本采用二代测序,获取完整覆盖表1中单个MSI位点区域的测序数据;S2:去除长度小于50bp及平均碱基质量低于20的读段;S3:统计同时含有某个MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的读段上介于Useq和Dseq之间的序列长度L,去除序列长度偏离平均值超过3个标准差(离群值)的L及对应的读段;S4:对待分析样本和正常样本中某个MSI位点经步骤S3筛选后的读段数目分别除以各自总读段数目来进行均一化,计算该位点每种L在待分析样本和正常样本中的对应的读段数目标准化后的值的差值的绝对值之和V:
V为表1中任一位点i的稳定性评估值,R_T为待测样本中该位点的读段上介于Useq和Dseq之间的序列长度,R_N为正常样本中的读段上介于Useq和Dseq之间的序列长度,T_L为待测样本中序列长度为L的读段数目均一化处理后的值,N_L为正常样本中序列长度为L的读段数目均一化处理后的值。用表1的所有位点进行分析时,计算出所有位点的V值,并取平均,即得到待测样本的稳定性分值V。S5:若V>0.25,则判定该样本为MSI-H。
确定微卫星不稳定性的系统
在本发明的第六方面,本发明提出了一种确定微卫星不稳定性的系统。根据本发明的实施例,参考图2,该系统包括:获取测序数据单元100,所述测序数据含有与奔放买那个第一方面所提出的标志物对应的测序读段,所述测序数据分别来自于待测样本和对照样本;构建标志物分析窗口单元200,所述构建标志物分析窗口单元200与所述获取测序数据单元100相连,分别在参考基因组序列上构建标志物分析窗口,所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列;选择匹配测序读段单元300,所述选择匹配测序读段单元300与所述构建标志物分析窗口单元200相连,基于比对,从所述测序数据中选择匹配测序读段,所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列;获得每个所述标志物分析窗口对应的稳定性评估值单元400,所述获得每个所述标志物分析窗口对应的稳定性评估值单元400与所述选择匹配测序读段单元300相连,针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段,以便获得每个所述标志物分析窗口对应的稳定性评估值;和确定是否存在微卫星不稳定性单元500,所述确定是否存在微卫星不稳定性单元500与所述获得每个所述标志物分析窗口对应的稳定性评估值单元400相连,基于所获得的全部稳定性评估值,确定所述待测样本是否存在微卫星不稳定性,其中,每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的:1确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度;2基于所述匹配长度,去除偏离测序读段;3确定各所述匹配长度对应的所述匹配测序读段数目;4基于所述各所述匹配长度对应的所述匹配测序读段数目,按照下列公式确定所述标志物分析窗口对应的稳定性评估值:
其中,Vi表示第i号所述标志物分析窗口的稳定性评估值,TL表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目,NL表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目,RT表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合,RN表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。根据本发明实施例的系统,可以快速准确地基于本发明第一方面所提出的标志物判定待检测样本微卫星稳定性类型,检测结果梯度更加细化,准确性更高,其还可以引入智能操控系统,实现智能化、机械化,节省劳动力,快速、准确、高效。
在一些实施方案中,所述对照样本与所述待测样本来自于相同个体,并且所述对照样本具有已知的生理状态。对照样本与待测样本来源于相同个体可以避免因个体不同带来的结果偏差,例如,对照样本来自于癌症患者的健康组织或癌旁组织等,并已通过PCR等方式验证其微卫星稳定性状态,待检测样本来自于癌症患者的肿瘤组织,基于对肿瘤组织的的检测分子,判断该患者的肿瘤组织是否属于微卫星不稳定型,以便指导用药,若肿瘤组织属于微卫星不稳定型,则可针对该组织施用相关药物,利于肿瘤的治疗。
在一些实施方案中,所述对照样本与所述待测样本也可以来自于不同个体,例如,对照样本来源于健康人群的组织、细胞、血液等,待检测样本来自于早期肿瘤筛查的人群的血液、细胞、组织等,通过上述分析方法,判断待检测样本的微卫星稳定性,进而预测待检测人群患肿瘤的风险。
在一些实施方案中,利用上述方法可以进行药物筛选,针对微卫星不稳定性特异肿瘤有效的药物,检测使用药物前后样本的微卫星稳定性状态,可以筛选出符合期望的药物。
在一些实施方案中,所述对照样本来自所述相同个体的健康组织。
在一些实施方案中,对照样本可以是全血,更优选是外周血或外周血细胞部分。如本领域技术人员将理解的,血液样本可以包含但不限于T细胞、单核细胞、嗜中性粒细胞、红细胞、血小板和微泡(例如外来体和外来体样囊泡)的血液的任何部分或组分。在本披露的上下文中,包含在血液样本中的血细胞涵盖任何有核细胞并且不限于全血的组分。因此,血细胞包含,例如白细胞(WBC)。
在一些实施方案中,对各样本的测序方法包括但不限于全基因组测序、全外显子组测序、捕获探针测序、单细胞测序、单分子测序等高通量测序方法。
在一些实施方案中,参考基因组,可以是物种(例如,人、小鼠、猴等)的参考的标准基因组序列,在一个具体的实施方案中,以hg38作为人类参考基因组的其中一个版本(http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/)。
在一些实施方案中,所述确定是否存在微卫星不稳定性单元500进一步包括:确定稳定性分值模块510,确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值,当所述稳定性分值不小于预定阈值时,则为所述待测样本为微卫星不稳定型的指示。
在一些实施方案中,所述预定阈值为不小于0.2,优选为0.25。
在一些实施方案中,所述偏离测序读段的标准为读段长度不小于4个标准差。
在一些具体的实施方案中,所述偏离测序读段的标准为读段长度不小于3个标准差。
在一些实施方案中,在进行步骤4之前,对所述匹配测序读段数目进行均一化处理。所述均一化处理为对待检测样本和对照样本中某个标志物去除偏离测序读段后的数目分别除以各自总读段数目来进行均一化。
在一些实施方案中,本系统适用于所有癌症的检测。优选地,本发明所适用的癌症类型包括但不限于结直肠癌、胃癌、食道癌、胰腺癌、泌尿系统肿瘤。
下面参考具体实施例,对本发明进行描述,需要说明的是,这些实施例仅仅是描述性的,而不以任何方式限制本发明。
实施例1MSI位点的筛选
首先从文献报道中获取了多个MSI位点,通过对这些位点的序列初步分析后,保留其中碱基连续重复次数大于等于6个,双碱基连续重复次数大于等于4个,三个及以上碱基连续重复次数大于等于3个的位点,得到276个初始MSI位点,详见表2。
表2:276位点初始筛选的位点(hg38)
为了对这些位点进行筛选,我们首先分析了这些位点的特异性情况,保留了在基因组上相似区域小于等于10的251个位点。之后,我们对剩余的251个位点设计了探针,并在来自11个临床病例的肿瘤及血浆样本(PCR检测为6个MSS,5个MSI-H)中进行了测序情况的测试,保留了215个满足深度及测序质量要求的位点,之后通过对MSI位点突变情况进行统计和筛选,得到23个MSI位点,如表1所示。图3~4,分别为BAT-26在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及BAT-26在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。图5~6,分别为site3在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及site1在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。图7~8,分别为ORI46在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及ORI46在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。
筛选方法如下所述:S1:获取上述276个MSI位点的探针或待设计探针区域的序列;S2:对S1中的序列分析其在基因组上的相似区域数目;S3:对S2中在基因组上相似区域数目<=10的位点进行下一步分析,否则视为该位点不合格;S4:对已知PCR的MSI状态结果的样本采用NGS测序,获取采用的样本中覆盖需要分析的MSI位点的测序数据;S5:对步骤S4中获得的测序数据,获取待分析的MSI位点map_quality>=0时的深度D_0及map_quality>30时的深度D_30;S6:若D0>1000时,进行下一步分析,否则视为该位点不合格;S7:若D30/D0>80%时,进行下一步分析,否则视为该位点不合格;S8:对步骤S4中获得的测序数据,获取匹配到待分析MSI位点的read及其数目,统计同时含有待分析MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read数目,统计不含Useq及Dseq的read数目,统计同时含有Useq和Dseq的read在Useq和Dseq之间的序列长度L,并可视化其分布情况。S9:筛选在步骤S8得到的可视化结果中,出现连续多个T高出N一倍以上的位点,或序列长度(横坐标)数目少于10个而单个T高出N一倍以上的位点(所述T为来源于肿瘤组织样本读段长度的频率,所述N为来源于正常组织(血浆)的读段长度的频率)。
实施例2
采用26例临床样本(肿瘤及血浆)进行微卫星位点的测序分析,临床样本信息如表3所示。所有病例额外采用PCR进行微卫星位点稳定性的分析。首先对对待测样本(肿瘤)及正常样本(血浆)采用NGS测序,获取完整覆盖表1中MSI位点区域的测序数据,之后去除长度小于50bp及平均碱基质量低于20的read,并统计同时含有某个MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read上介于Useq和Dseq之间的序列长度L,去除序列长度偏离平均值超过3个标准差(离群值)的L及对应的read。之后对待分析样本和正常样本中各MSI位点的read数目分别除以各自总read数目来进行均一化,计算各位点每种L在待分析样本和正常样本中的对应的read数目标准化后的值的差值的绝对值之和V。若V>0.25,则判定该样本为MSI-H。结果汇总如表4所示。
表3:临床样本信息
表4:实施例2的样本微卫星不稳定性判定结果汇总
根据结果可知,使用本发明的微卫星位点组合所检测的微卫星稳定性状态与PCR检测的结果一致性高,有利于准确检测待检测样本的微卫星稳定性状态。
实施例3不同位点组合的MSI分析
比较了筛选获得的23个MSI位点与276个初始位点微卫星位点中任意23个位点组合在MSI判定时的准确度。
从实施例1的表2中276个初始位点中随机选取4组位点(test1,test2,test3,test4)组合,每组23个位点,与筛选获得的23个位点(23site)进行MSI判定时准确度的比较。采用11对临床样本的测序数据,每对样本包括肿瘤样本和血浆样本(对照样本)。对这些样本的测序数据进行处理,获得去重后的bam文件。以成对样本的bam作为输入文件,利用Mantis获取test1-test4的4组位点组合(表5)及筛选得到的site23位点组合对11对样本微卫星状态的预测结果。统计各组预测结果与PCR结果的一致性。
表5:4组位点组合
表6:不同位点组合的MSI分析
表中所列样本为各位点组合的预测结果不一致及微卫星不稳定的样本,所列各实验组合的值为Mantis预测得到的值,该值>0.25判定为微卫星不稳定。
综上所述,使用本发明的23个微卫星位点组合所检测的微卫星稳定性状态与PCR检测的结果一致性高,有利于准确检测待检测样本的微卫星稳定性状态。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
SEQUENCE LISTING
<110> 杭州瑞普基因科技有限公司
<120> 微卫星位点标志物及其应用
<130> PIDC3205605
<160> 23
<170> PatentIn version 3.5
<210> 1
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 1
ttgtcctcca aactctgatg aatacacttg tagctattag taggggggga aaaaaaaggc 60
ttaattaaat caatgaaaaa ttaataaact ggtcacaaaa taatgactat tagtcttcta 120
<210> 2
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 2
atcttctaca gggtgggtgc aatcaagagt gaacttcaga acttgcttct tttttttgcc 60
ccccttcacc acaagctttt tctaagaaaa tacacaaatg ataacagaga tgaagtttca 120
<210> 3
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 3
taaagcaacc acaagcccat tcattataaa tttattccct gagctaatct tttttttttt 60
tttttttcca gatagggtct cactgttgct caggctggag tgccatggca caaacatggt 120
<210> 4
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 4
tgagaatata ttgttgtttt atttgagtat tttaaaaact acttttagga aaaaaaaaaa 60
aaaagaccca acacggtggc tcatgtcatg tctataatcc cagcacattg ggaggctgag 120
<210> 5
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 5
attggaggta ttgttttaat ttcctgttcg aagcctagag tttaaatagt tttttttttt 60
tttttctaat ggccctttct tcacaggtca gtcagtacta aagtagtcgt tgccagcatc 120
<210> 6
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 6
tggtgcagtc tgtcactcca gcctgggtga cacagtgaga ctccatctca aaaaaaaaaa 60
aaaaaaaaaa ctatatggga ggatgtgcat tttgttatat gcaaatgctg caccattttg 120
<210> 7
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 7
ctaaaaaagt tgactaaact ggttactgct acttcggtga agagaaagct tttttttttt 60
ttttttaaat aacatttggg gtttttgtct gtatgaaagt attttaattc attttaggaa 120
<210> 8
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 8
tcctttgtat tattataata ttatatcgta agttccagaa cttacatagt tttttttttt 60
ttttttttca tttctcttgc ttacatgaac tctatgtcgt ggcattcaga tcagtcacac 120
<210> 9
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 9
cattcacact ttctggtcac tcgcgtttac aaacaagaaa agtgttgcta aaaaaaaaaa 60
aaaaaaaaaa ggccagggga gacatacatt taaatataaa aatagaactg tgccagcgac 120
<210> 10
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 10
gtttatttga ggggaagtga aagaacttga aagattcatg gtctctaaat tttttttttt 60
tttttttttt tttttcagag atttggacca ggcaagcatg gaagcagtag tttcacttct 120
<210> 11
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 11
gtgcacagtt gcatcctggg gccgagagcc aggggtgggc tcggagggac ccccccgcct 60
tttcctctgt gggtgtcggg cagagaggct ggatttttgc aagttgaaca gactgctggt 120
<210> 12
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 12
cctttcttat actcctgctt tgctgtcttt tttaatagca tgtatcatgt tttttttttt 60
tttattttta gagacacagt ctcattgtcc caggctgcag tgcagtgccg caatcatagc 120
<210> 13
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 13
acttgttccc tggcacattg gaattcacag atgggagtta atggctttct tttttttttt 60
ttttttttcc tcagcgtctt gtgggtactt ctcttatagc tggtacttgt ctgacccctc 120
<210> 14
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 14
ggaggcggag tttgcagtga gctgagatcg caccactgca ctccatctca aaaaaaaaaa 60
aaaaaaaacc ctgtccaaaa atggcagtta tattctatac tgtatttctt actctagtaa 120
<210> 15
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 15
atatgaaatt ggatattgca gcagtcagag cccttaacct ttttcaggta aaaaaaaaaa 60
aaaaaaaaaa aaaaaagggt taaaaatgtt gaatggttaa aaaatgtttt cattgacata 120
<210> 16
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 16
aattggccag catccatctc ttgaagacat gcaggaagtt gttgtgcata aaaaaaagag 60
gcctgtttta agagattatt ggcagaaaca tgctgtaagt tatccagtta gcttttcatt 120
<210> 17
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 17
gtagcctggc agtatgcacc atcaggaaag cgtgtggctg ccatggggga aaaaaacata 60
ttcaaattat tatacaaatt gactactttg gggaagcttc ctgctatttc tcctttggct 120
<210> 18
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 18
gatcgcacca ctgcactcca gcctgggtga cagagccaga ctccgtctta aaaaaaaaaa 60
aaaaaaaaaa aaagtcacaa ttagtcaaga ttcacattgt gtcaatgcta aaagaaaacc 120
<210> 19
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 19
tagacagttt ctctctttgg aggaagtggt gaagttagat tagtggtgat tttttttttt 60
tttttttttt ttgagatgga gtcttgctct gtcaccaggc tggaatgcag tggcatgatc 120
<210> 20
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 20
ctacaaggta ggaatctcta acagctggca tacatgtttt tgtttggtgt tttttttttt 60
tttttggttt ggtttggttt gttttttgtt tttttagata caaatcccac taatgaaaaa 120
<210> 21
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 21
acaacccatc tcatttgact aatgaaaaac cagtattgtc tgtcaacact tttttttttt 60
tttttttttg agatggagtc tctctctgga gtgcagtggc gcgatcttgg ctcacgcagc 120
<210> 22
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 22
aagtggctaa atgaatatct ctgctttgtg gtttgaaaat taatattgat tttttttccc 60
cctagaggaa gaaatcctac ttagcgacat gaacaaacag ttgacttcaa tctctgagga 120
<210> 23
<211> 120
<212> DNA
<213> Artificial Sequence
<220>
<223> 探针
<400> 23
catcctttca gccgattaat ttgtttcagt attaatggaa ttctcttgat tttttttttt 60
tttcccttcc cttctcaggt gctattcaag tattgggaaa gttcaggatg cctttatatc 120