CN112725446A

CN112725446A - 微卫星位点标志物及其应用

Info

Publication number: CN112725446A
Application number: CN202110045665.4A
Authority: CN
Inventors: 肖姗姗; 王涛; 常壹照
Original assignee: Hangzhou Repugene Technology Co ltd
Current assignee: Hangzhou Repugene Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-30
Anticipated expiration: 2041-01-13
Also published as: CN112725446B

Abstract

本发明提出一组标志物，所述标志物用于检测微卫星不稳定性，该组标志物包括如表(1)所示的微卫星位点至少之一。

Description

微卫星位点标志物及其应用

技术领域

本发明属于生物医药领域，具体地，涉及标志物，更具体地，涉及检测标志物的试剂在制备试剂盒中的用途、探针、试剂盒、确定微卫星不稳定性的方法、确定微卫星不稳定性的系统、非临时性可存储介质、计算机设备、计算机程序产品。

背景技术

微卫星序列是基因组上以数个短的DNA基序(1-10bp)重复串联而成的序列，其在基因组上的位置为该微卫星的位点。

微卫星不稳定性(MSI)是指在肿瘤DNA中存在而在胚系DNA中不存在的微卫星序列长度变化，具体表现为微卫星位点的序列上存在的插入或缺失。MSI反映的是DNA错配修复机制(MMR)的缺失。在正常人体中，hMLH1、hMSH2、hMSH6、hPMS2及hEPCAM等MMR基因会修复基因组上的插入或缺失。当MMR相关基因突变或缺失时，MMR失去对基因组进行修复的能力，表现出基因组上的插入、缺失累积的现象。这种插入、缺失在微卫星位点表现为MSI。在遗传性非息肉病性大肠癌(HNPCC,亦称Lynch综合征)中，MSI常见于hMLH1、hMSH2、hMSH6、hPMS2及hEPCAM等基因的突变个体中。而在其它肺癌、消化道癌、子宫内膜癌及卵巢癌中的偶发MSI则多由hMLH1启动子的过度甲基化导致该基因无法转录而失活造成。

MSI在不同肿瘤中的发生率差别显著。MSI是Lynch综合征的特征之一，发生率超过90％。在结直肠癌中，发生率可达15％，而在早发性结直肠癌中则达到30％。

研究表明，结直肠癌患者有MSI特征的可以获益于5FU-辅助的化疗。另外，MSI状态的分析也有助于疑似Lynch综合征的判定。因此，在2011年美国国家肿瘤综合网络(NCCN)结直肠癌筛查指南中正式将MSI检测列为首要检测项目。在2019年结直肠癌及其他相关实体瘤微卫星不稳定性检测中国专家共识中则推荐：所有结直肠癌患者均应进行MSI状态筛查；晚期实体瘤患者(如胃癌、小肠癌、子宫内膜癌、尿路上皮癌、胰腺癌和胆管癌等)如考虑免疫治疗应进行MSI状态检测。

研究表明，MSI检测可用于指导肿瘤免疫治疗。多项研究显示微卫星高度不稳定型(MSI-H)较微卫星低度不稳定型(MSI-L)和微卫星稳定型(MSS)的患者接受PD-1抗体治疗后效果更好。2017年5月，美国FDA加速批准了免疫治疗药物派姆单抗(Pembrolizumab，Keytruda)用于具有MSI-H或DNA错配修复缺陷的不可切除或转移性实体瘤患者。截至2019年底，已经有六款PD-1抗体药物。其中派姆单抗可用于所有实体瘤，而纳武单抗(Nivolumab，OPDIVO)可以单独或联合伊匹单抗(Ipilimumab,Yervoy)用于结直肠癌。

使用高通量测序技术对多个MSI位点同时进行检测和分析是一种常用的MSI状态分析方式。应用NGS技术进行MSI状态检测的关键是MSI位点组合和MSI位点状态的评估方法。

对多个MSI位点同时进行检测时，不同的MSI位点组合所适用的MSI状态判定方式、灵敏度和准确性差异较大。

由此可见，找到一组能准确判断微卫星稳定性状态的微卫星位点及对应的分析方法非常重要。

发明内容

目前常用的MSI检测主要有以下三种方式：DNA错配修复检测(MMR检测)：直接对导致MSI现象的相关基因进行基因突变检测或免疫组化检测；PCR检测(MSI-PCR)：使用特异的引物，对MONO-27、NR27、NR-24、NR-21、BAT-25和BAT-26等位点进行逐一PCR或多重荧光PCR扩增并检测；NGS检测：使用高通量测序技术对多个MSI位点同时进行检测和分析。

然而发明人发现这三类技术中，对DNA错配修复基因的传统检验方法如Sanger测序或免疫组化，存在通量低，且成本高或操作复杂，且结果判定主观性强等缺点。而基于MSI-PCR的方法，虽然可以直接评估微卫星位点的不稳定性，但同样存在操作复杂，灵敏度差等缺点。此外，MSI-PCR或多重荧光PCR由于一次可以评估的位点有限，导致最后的结果梯度跨度太大。如1997年发布的Bethesda指导纲要中推荐了BAT-25、BAT-26、D2S123、D5S346和D17S250五个位点，检测结果呈20％、40％、60％、80％、100％这样的梯度，容易导致对于接近判定阈值的样本进行错误分类。而BAT-25和BAT-26在不同人种中的突变程度差异较大亦表明了这些位点在不同人群中具有偏好性。因而，采用NGS来对多个MSI位点同时进行检测成为一种拓展性强且可靠的选择。然而，对多个MSI位点同时进行检测时，不同的MSI位点组合所适用的MSI状态判定方式、灵敏度和准确性差异较大。基于MSI-PCR的产品检测的判定方式梯度跨度大而容易误判，且无法拓展应用。

同时，微卫星稳定性状态的评估在科学研究领域也有非常重要的作用，如：利用微卫星位点及其对应样本的稳定性状态研究相应物种的进化与发育，利用物种间微卫星位点的差异与微卫星稳定性状态对物种的起源进行追踪；再如利用微卫星稳定性状态筛选或者制备能够用于药物筛选的细胞、组织、动物模型等，并利用模型进行药物筛选，判断细胞、组织、动物模型在施用待检测药物前后的微卫星稳定性状态，进而根据微卫星稳定性状态判断待筛选药物的效果。

在本发明的第一方面，本发明提出了一组标志物，所述标志物用于检测微卫星不稳定性。根据本发明的实施例，标志物组包括如表1所示的微卫星位点至少之一。根据本发明实施例的方法，表1所示的微卫星位点准确性及灵敏度高，适合利用高通量测序方法对受试者的微卫星稳定性状态进行判断，并且这些标志物可以选择性应用于靶向测序、目标捕获测序、全基因组测序等基因检测技术，从而对癌症等的治疗方案拟定、预后提供指导，对科学研究、药物筛选提供帮助。

表1：微卫星位点信息

在本发明的第二方面，本发明提出检测上述标志物的试剂在制备试剂盒中的用途。根据本发明的实施例，所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例，所述检测上述标志物的试剂可以特异性检测或识别上述标志物，具有较高的灵敏度与准确度，可以单独检测上述标志物，也可以应用于测序技术，与目标标志物进行结合，对目标标志物进行捕获或识别，提高检测的灵敏度，帮助测序分析。

在本发明的第三方面，本发明提出了一组探针，所述探针用于识别本发明第一方面所提出的标志物。根据本发明的实施例，所述探针包括如SEQ ID NO:1～23所示的核苷酸序列至少之一。根据本发明实施例的探针可以准确检测上述标志物，方便快捷，进而可以判断受试者微卫星稳定性状态。

在本发明的第四方面，本发明提出了一种试剂盒，所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例，所述试剂盒包括用于识别本发明第一方面所提出的标志物的探针和/或用于扩增本发明第一方面所提出的标志物的引物。根据本发明实施例的试剂盒包括检测上述标记物的探针，所述试剂盒可以进一步包含所需酶、缓冲液等，试剂盒可以高效准确地检测受试者的微卫星稳定性类型。利用本申请的探针可以准确识别并捕获待检测样本，可以用于目标片段捕获的高通量测序中，便于对目标微卫星位点进行测序，并进行分析，最终确定待检测样本是否属于微卫星不稳定性样本。

在本发明的第五方面，本发明提出了一种确定微卫星不稳定性的方法。根据本发明的实施例，所述方法包括：获取测序数据，所述测序数据含有与本发明第一方面所提出标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；基于所述标志物的每一个，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，其中，每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的：(1)确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度；(2)基于所述匹配长度，去除偏离测序读段；(3)确定各所述匹配长度对应的所述匹配测序读段数目；(4)基于所述各所述匹配长度对应的所述匹配测序读段数目，按照下列公式确定所述标志物分析窗口对应的稳定性评估值：

其中，Vi表示第i号所述标志物分析窗口的稳定性评估值，T_L表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，N_L表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，R_T表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合，R_N表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。根据本发明实施例的方法，可以快速准确地基于本发明第一方面所提出的标志物判定待检测样本微卫星稳定性类型，检测结果梯度更加细化，准确性更高。

在本发明的第六方面，本发明提出了一种确定微卫星不稳定性的系统。根据本发明的实施例，所述系统包括：获取测序数据单元，所述测序数据含有与本发明第一方面所提出标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；构建标志物分析窗口单元，所述构建标志物分析窗口单元与所述获取测序数据单元相连，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；选择匹配测序读段单元，所述选择匹配测序读段单元与所述构建标志物分析窗口单元相连，基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；获得每个所述标志物分析窗口对应的稳定性评估值单元，所述获得每个所述标志物分析窗口对应的稳定性评估值单元与所述选择匹配测序读段单元相连，针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和确定是否存在微卫星不稳定性单元，所述确定是否存在微卫星不稳定性单元与所述获得每个所述标志物分析窗口对应的稳定性评估值单元相连，基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，其中，每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的：(1)确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度；(2)基于所述匹配长度，去除偏离测序读段；(3)确定各所述匹配长度对应的所述匹配测序读段数目；(4)基于所述各所述匹配长度对应的所述匹配测序读段数目，按照下列公式确定所述标志物分析窗口对应的稳定性评估值：

其中，Vi表示第i号所述标志物分析窗口的稳定性评估值，TL表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，NL表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，RT表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合，RN表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。根据本发明实施例的系统，可以快速准确地基于本发明第一方面所提出的标志物判定待检测样本微卫星稳定性类型，检测结果梯度更加细化，准确性更高，其还可以引入智能操控系统，实现智能化、机械化，节省劳动力，快速、准确、高效。

在本发明的第七方面，本发明提出了一种非临时性可存储介质，其上存储有计算机程序。根据本发明的实施例，该程序被处理器执行时实现在本发明第五方面所提出的方法的步骤。

在本发明的第八方面，本发明提出了一种计算机设备，其特征在于，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现在本发明第五方面所提出的确定微卫星不稳定性的方法。

在本发明的第九方面，本发明提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行在本发明第五方面所提出的确定微卫星不稳定性的方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的确定微卫星不稳定性的方法流程图；

图2是根据本发明实施例的确定微卫星不稳定性的系统模式图；

图3是根据本发明实施例的BAT-26(ORI145)在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布；

图4是根据本发明实施例的BAT-26(ORI145)在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布；

图5是根据本发明实施例的ORI1在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布；

图6是根据本发明实施例的ORI1在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布；

图7是根据本发明实施例的ORI46在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布；

图8是根据本发明实施例的施例的ORI46在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

标志物组、检测标志物组的试剂在制备试剂盒中的用途、探针、试剂盒

在本发明的第一方面，本发明提出了一组标志物，所述标志物用于检测微卫星不稳定性。根据本发明的实施例，标志物组包括如表1所示的微卫星位点至少之一。根据本发明实施例的方法，表1所示的微卫星位点准确性及灵敏度高，适合利用高通量测序方法对受试者的微卫星稳定性状态进行判断，并且这些标志物可以选择性应用于靶向测序、目标捕获测序、全基因组测序等基因检测技术，从而对癌症等的治疗方案拟定、预后提供指导，对科学研究、药物筛选提供帮助。发明人通过大量的实验筛选到该23个微卫星位点的组合，利用该组合可以准确地判断待检测样本的微卫星稳定性状态。

在本发明的一个实施例，发明人通过下列方法筛选上述23个微卫星位点的组合：

S1:获取需要分析的MSI位点的探针或待设计探针区域的序列；S2:对S1中的序列分析其在基因组上的相似区域数目；S3:对S2中在基因组上相似区域数目<＝10的位点(identity>85％，alignment length/seq length>85％)进行下一步分析，否则视为该位点不合格；S4:对已知PCR的MSI状态结果的样本采用NGS测序，获取采用的样本中覆盖需要分析的MSI位点的测序数据；S5:对步骤S4中获得的测序数据，获取待分析的MSI位点map_quality>＝0时的深度D_0及map_quality>30时的深度D_30；S6：若D0>1000时，进行下一步分析，否则视为该位点不合格；S7:若D30/D0>80％时,进行下一步分析，否则视为该位点不合格；S8：对步骤S4中获得的测序数据，获取匹配到待分析MSI位点的read及其数目，统计同时含有待分析MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read数目,统计不含Useq及Dseq的read数目，统计同时含有Useq和Dseq的read在Useq和Dseq之间的序列长度，并可视化。S9：筛选在步骤S8得到的可视化结果中，出现连续多个T(肿瘤)高出N(对照)一倍以上的位点，或序列长度(横坐标)数目少于10个而单个T高出N一倍以上的位点(所述T为来源于微卫星不稳定样本读段长度的频率，所述N为来源于微卫星稳定样本的读段长度的频率)。S10：采用Mantis对S4中样本进行分析，获取每个待分析位点在各个样本中的Stpe-Wise Difference值，统计MSI-H样本和MSS样本的情况并绘制箱线图，在S9的基础上去除MSI-H组和MSS组Stpe-Wise Difference值交叉区域(即MSI-H组小于MSS组最大值)超过3个样本的位点，去除MSS组Stpe-Wise Difference值标准差大于0.1的位点，去除MSI-H组Stpe-Wise Difference值标准差小于0.2的位点。剩余位点即为可用位点，即为本发明中的23个微卫星位点。

在本发明的一个实施例，利用该23个微卫星位点组合进行微卫星不稳定性判定时，检测结果梯度更加细化，准确性更高。

在本发明的第二方面，本发明提出了检测上述标志物的试剂在制备试剂盒中的用途。根据本发明的实施例，所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例，所述检测上述标志物的试剂可以特异性检测或识别上述标志物，具有较高的灵敏度与准确度，可以单独检测上述标志物，也可以应用于测序技术，与目标标志物进行结合，对目标标志物进行捕获或识别，提高检测的灵敏度，帮助测序分析。

根据本发明的实施例，检测上述标志物的试剂包括但不限于检测上述微卫星位点的抗体、探针、引物、质谱检测试剂。所提供的抗体、探针、引物以及质谱检测试剂的至少之一，能特异性、高灵敏性地筛选出前面所述的微卫星位点，进而特异性、高灵敏性地判断待检测样品的微卫星稳定性状态。

在本发明的第三方面，本发明提出了一组探针，所述探针特异性识别上述标志物。根据本发明的实施例，所述探针包括如SEQ ID NO:1～23所示的核苷酸序列至少之一。根据本发明实施例的探针，可以进一步包括标记分子，例如荧光标记分子、生物素标记分子等，用于针对上述标记物进行检测。上述探针也可以用于目标捕获测序，针对待检测样本中上述微卫星位点进行特异性的目标捕获测序，获得待检测样本中位点的测序读段信息，进而进行位点的分析，判断待检测样本的微卫星稳定性类型。

TTGTCCTCCAAACTCTGATGAATACACTTGTAGCTATTAGTAGGGGGGGAAAAAAAAGGCTTAATTAAATCAATGAAAAATTAATAAACTGGTCACAAAATAATGACTATTAGTCTTCTA(SEQ ID NO:1)

ATCTTCTACAGGGTGGGTGCAATCAAGAGTGAACTTCAGAACTTGCTTCTTTTTTTTGCCCCCCTTCACCACAAGCTTTTTCTAAGAAAATACACAAATGATAACAGAGATGAAGTTTCA(SEQ ID NO:2)

TAAAGCAACCACAAGCCCATTCATTATAAATTTATTCCCTGAGCTAATCTTTTTTTTTTTTTTTTTTCCAGATAGGGTCTCACTGTTGCTCAGGCTGGAGTGCCATGGCACAAACATGGT(SEQ ID NO:3)

TGAGAATATATTGTTGTTTTATTTGAGTATTTTAAAAACTACTTTTAGGAAAAAAAAAAAAAAAGACCCAACACGGTGGCTCATGTCATGTCTATAATCCCAGCACATTGGGAGGCTGAG(SEQ ID NO:4)

ATTGGAGGTATTGTTTTAATTTCCTGTTCGAAGCCTAGAGTTTAAATAGTTTTTTTTTTTTTTTTCTAATGGCCCTTTCTTCACAGGTCAGTCAGTACTAAAGTAGTCGTTGCCAGCATC(SEQ ID NO:5)

TGGTGCAGTCTGTCACTCCAGCCTGGGTGACACAGTGAGACTCCATCTCAAAAAAAAAAAAAAAAAAAAACTATATGGGAGGATGTGCATTTTGTTATATGCAAATGCTGCACCATTTTG(SEQ ID NO:6)

CTAAAAAAGTTGACTAAACTGGTTACTGCTACTTCGGTGAAGAGAAAGCTTTTTTTTTTTTTTTTTAAATAACATTTGGGGTTTTTGTCTGTATGAAAGTATTTTAATTCATTTTAGGAA(SEQ ID NO:7)

TCCTTTGTATTATTATAATATTATATCGTAAGTTCCAGAACTTACATAGTTTTTTTTTTTTTTTTTTTCATTTCTCTTGCTTACATGAACTCTATGTCGTGGCATTCAGATCAGTCACAC(SEQ ID NO:8)

CATTCACACTTTCTGGTCACTCGCGTTTACAAACAAGAAAAGTGTTGCTAAAAAAAAAAAAAAAAAAAAAGGCCAGGGGAGACATACATTTAAATATAAAAATAGAACTGTGCCAGCGAC(SEQ ID NO:9)

GTTTATTTGAGGGGAAGTGAAAGAACTTGAAAGATTCATGGTCTCTAAATTTTTTTTTTTTTTTTTTTTTTTTTTCAGAGATTTGGACCAGGCAAGCATGGAAGCAGTAGTTTCACTTCT(SEQ ID NO:10)

GTGCACAGTTGCATCCTGGGGCCGAGAGCCAGGGGTGGGCTCGGAGGGACCCCCCCGCCTTTTCCTCTGTGGGTGTCGGGCAGAGAGGCTGGATTTTTGCAAGTTGAACAGACTGCTGGT(SEQ ID NO:11)

CCTTTCTTATACTCCTGCTTTGCTGTCTTTTTTAATAGCATGTATCATGTTTTTTTTTTTTTTATTTTTAGAGACACAGTCTCATTGTCCCAGGCTGCAGTGCAGTGCCGCAATCATAGC(SEQ ID NO:12)

ACTTGTTCCCTGGCACATTGGAATTCACAGATGGGAGTTAATGGCTTTCTTTTTTTTTTTTTTTTTTTCCTCAGCGTCTTGTGGGTACTTCTCTTATAGCTGGTACTTGTCTGACCCCTC(SEQ ID NO:13)

GGAGGCGGAGTTTGCAGTGAGCTGAGATCGCACCACTGCACTCCATCTCAAAAAAAAAAAAAAAAAAACCCTGTCCAAAAATGGCAGTTATATTCTATACTGTATTTCTTACTCTAGTAA(SEQ ID NO:14)

ATATGAAATTGGATATTGCAGCAGTCAGAGCCCTTAACCTTTTTCAGGTAAAAAAAAAAAAAAAAAAAAAAAAAAAGGGTTAAAAATGTTGAATGGTTAAAAAATGTTTTCATTGACATA(SEQ ID NO:15)

AATTGGCCAGCATCCATCTCTTGAAGACATGCAGGAAGTTGTTGTGCATAAAAAAAAGAGGCCTGTTTTAAGAGATTATTGGCAGAAACATGCTGTAAGTTATCCAGTTAGCTTTTCATT(SEQ ID NO:16)

GTAGCCTGGCAGTATGCACCATCAGGAAAGCGTGTGGCTGCCATGGGGGAAAAAAACATATTCAAATTATTATACAAATTGACTACTTTGGGGAAGCTTCCTGCTATTTCTCCTTTGGCT(SEQ ID NO:17)

GATCGCACCACTGCACTCCAGCCTGGGTGACAGAGCCAGACTCCGTCTTAAAAAAAAAAAAAAAAAAAAAAAAGTCACAATTAGTCAAGATTCACATTGTGTCAATGCTAAAAGAAAACC(SEQ ID NO:18)

TAGACAGTTTCTCTCTTTGGAGGAAGTGGTGAAGTTAGATTAGTGGTGATTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTCTTGCTCTGTCACCAGGCTGGAATGCAGTGGCATGATC(SEQ ID NO:19)

CTACAAGGTAGGAATCTCTAACAGCTGGCATACATGTTTTTGTTTGGTGTTTTTTTTTTTTTTTTGGTTTGGTTTGGTTTGTTTTTTGTTTTTTTAGATACAAATCCCACTAATGAAAAA(SEQ ID NO:20)

ACAACCCATCTCATTTGACTAATGAAAAACCAGTATTGTCTGTCAACACTTTTTTTTTTTTTTTTTTTTGAGATGGAGTCTCTCTCTGGAGTGCAGTGGCGCGATCTTGGCTCACGCAGC(SEQ ID NO:21)

AAGTGGCTAAATGAATATCTCTGCTTTGTGGTTTGAAAATTAATATTGATTTTTTTTCCCCCTAGAGGAAGAAATCCTACTTAGCGACATGAACAAACAGTTGACTTCAATCTCTGAGGA(SEQ ID NO:22)

CATCCTTTCAGCCGATTAATTTGTTTCAGTATTAATGGAATTCTCTTGATTTTTTTTTTTTTTCCCTTCCCTTCTCAGGTGCTATTCAAGTATTGGGAAAGTTCAGGATGCCTTTATATC(SEQ ID NO:23)在本发明的第四方面，本发明提出了一种试剂盒，所述试剂盒用于检测微卫星不稳定性。根据本发明的实施例，所述试剂盒包括用于识别上述的标记物的探针和/或用于扩增上述标记物的引物。根据本发明实施例的试剂盒包括检测上述标记物的探针，所述试剂盒可以进一步包含所需酶、缓冲液等，试剂盒可以高效准确地检测受试者的微卫星稳定性类型。利用本申请的探针可以准确识别并捕获待检测样本，可以用于目标片段捕获的高通量测序中，便于对目标微卫星位点进行测序，并进行分析，最终确定待检测样本是否属于微卫星不稳定性样本。

根据本发明的实施例，所述试剂盒包括如SEQ ID NO：1-23所示序列至少之一的探针组。

确定微卫星不稳定性的方法

在本发明的第五方面，本发明提出了一种确定微卫星不稳定性的方法。根据本发明的实施例，参考图1，所述方法包括：S1000,获取测序数据，所述测序数据含有与本发明第一方面所提出标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；S2000,基于所述标志物的每一个，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；S3000,基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；S4000,针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和S5000,基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，其中，每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的：S5100,确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度；S5200,基于所述匹配长度，去除偏离测序读段；S5300,确定各所述匹配长度对应的所述匹配测序读段数目；S5400,基于所述各所述匹配长度对应的所述匹配测序读段数目，按照下列公式确定所述标志物分析窗口对应的稳定性评估值：

其中，Vi表示第i号所述标志物分析窗口的稳定性评估值，T_L表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，N_L表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，R_T表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合，R_N表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。

在一些实施方案中，所述对照样本与所述待测样本来自于相同个体，并且所述对照样本具有已知的生理状态。对照样本与待测样本来源于相同个体可以避免因个体不同带来的结果偏差，例如，对照样本来自于癌症患者的健康组织或癌旁组织等，并已通过PCR等方式验证其微卫星稳定性状态，待检测样本来自于癌症患者的肿瘤组织，基于对肿瘤组织的的检测分子，判断该患者的肿瘤组织是否属于微卫星不稳定型，以便指导用药，若肿瘤组织属于微卫星不稳定型，则可针对该组织施用相关药物，利于肿瘤的治疗。

在一些实施方案中，所述对照样本与所述待测样本也可以来自于不同个体，例如，对照样本来源于健康人群的组织、细胞、血液等，待检测样本来自于早期肿瘤筛查的人群的血液、细胞、组织等，通过上述分析方法，判断待检测样本的微卫星稳定性，进而预测待检测人群患肿瘤的风险。

在一些实施方案中，利用上述方法可以进行药物筛选，针对微卫星不稳定性特异肿瘤有效的药物，检测使用药物前后样本的微卫星稳定性状态，可以筛选出符合期望的药物。

在一些实施方案中，所述对照样本来自所述相同个体的健康组织。

在一些实施方案中，对照样本可以是全血，更优选是外周血或外周血细胞部分。如本领域技术人员将理解的，血液样本可以包含但不限于T细胞、单核细胞、嗜中性粒细胞、红细胞、血小板和微泡(例如外来体和外来体样囊泡)的血液的任何部分或组分。在本披露的上下文中，包含在血液样本中的血细胞涵盖任何有核细胞并且不限于全血的组分。因此，血细胞包含，例如白细胞(WBC)。

在一些实施方案中，对各样本的测序方法包括但不限于全基因组测序、全外显子组测序、捕获探针测序、单细胞测序、单分子测序等高通量测序方法。

在一些实施方案中，参考基因组，可以是物种(例如，人、小鼠、猴等)的参考的标准基因组序列，在一个具体的实施方案中，以hg19作为人类参考基因组的其中一个版本，在另一个实施方案中，以hg38作为人类参考基因组的其中一个版本(http:// hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/)。

在一些实施方案中，基于所获得的全部稳定性评估值，确定是否存在微卫星不稳定性进一步包括：S5410，确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值，当所述稳定性分值不小于预定阈值时，则为所述待测样本为微卫星不稳定型的指示。

在一些实施方案中，所述预定阈值为不小于0.2，优选为0.25。

在一些实施方案中，所述偏离测序读段的标准为读段长度不小于4个标准差。

在一些具体的实施方案中，所述偏离测序读段的标准为读段长度不小于3个标准差。

在一些实施方案中，在步骤S5400之前，对所述匹配测序读段数目进行均一化处理。所述均一化处理为对待检测样本和对照样本中某个标志物去除偏离测序读段后的数目分别除以各自总读段数目来进行均一化。

在一些实施方案中，本方法适用于所有癌症的检测。优选地，本发明所适用的癌症类型包括但不限于结直肠癌、胃癌、食道癌、胰腺癌、泌尿系统肿瘤。

在一些具体的实施方案中，确定微卫星不稳定性的方法具体为：

S1：对待测样本及正常样本采用二代测序，获取完整覆盖表1中单个MSI位点区域的测序数据；S2：去除长度小于50bp及平均碱基质量低于20的读段；S3：统计同时含有某个MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的读段上介于Useq和Dseq之间的序列长度L，去除序列长度偏离平均值超过3个标准差(离群值)的L及对应的读段；S4：对待分析样本和正常样本中某个MSI位点经步骤S3筛选后的读段数目分别除以各自总读段数目来进行均一化，计算该位点每种L在待分析样本和正常样本中的对应的读段数目标准化后的值的差值的绝对值之和V:

V为表1中任一位点i的稳定性评估值，R_T为待测样本中该位点的读段上介于Useq和Dseq之间的序列长度，R_N为正常样本中的读段上介于Useq和Dseq之间的序列长度，T_L为待测样本中序列长度为L的读段数目均一化处理后的值，N_L为正常样本中序列长度为L的读段数目均一化处理后的值。用表1的所有位点进行分析时，计算出所有位点的V值，并取平均，即得到待测样本的稳定性分值V。S5：若V>0.25,则判定该样本为MSI-H。

确定微卫星不稳定性的系统

在本发明的第六方面，本发明提出了一种确定微卫星不稳定性的系统。根据本发明的实施例，参考图2，该系统包括：获取测序数据单元100，所述测序数据含有与奔放买那个第一方面所提出的标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；构建标志物分析窗口单元200，所述构建标志物分析窗口单元200与所述获取测序数据单元100相连，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；选择匹配测序读段单元300，所述选择匹配测序读段单元300与所述构建标志物分析窗口单元200相连，基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；获得每个所述标志物分析窗口对应的稳定性评估值单元400，所述获得每个所述标志物分析窗口对应的稳定性评估值单元400与所述选择匹配测序读段单元300相连，针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和确定是否存在微卫星不稳定性单元500，所述确定是否存在微卫星不稳定性单元500与所述获得每个所述标志物分析窗口对应的稳定性评估值单元400相连，基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，其中，每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的：1确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度；2基于所述匹配长度，去除偏离测序读段；3确定各所述匹配长度对应的所述匹配测序读段数目；4基于所述各所述匹配长度对应的所述匹配测序读段数目，按照下列公式确定所述标志物分析窗口对应的稳定性评估值：

其中，Vi表示第i号所述标志物分析窗口的稳定性评估值，T_L表示所述待测样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，N_L表示所述对照样本中与第i号标志物分析窗口对应匹配长度为L的所述匹配测序读段的数目，R_T表示所述待测样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合，R_N表示所述对照样本中与第i号标志物分析窗口对应的所述匹配测序读段中所包含匹配长度构成的数值集合。根据本发明实施例的系统，可以快速准确地基于本发明第一方面所提出的标志物判定待检测样本微卫星稳定性类型，检测结果梯度更加细化，准确性更高，其还可以引入智能操控系统，实现智能化、机械化，节省劳动力，快速、准确、高效。

在一些实施方案中，参考基因组，可以是物种(例如，人、小鼠、猴等)的参考的标准基因组序列，在一个具体的实施方案中，以hg38作为人类参考基因组的其中一个版本(http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/)。

在一些实施方案中，所述确定是否存在微卫星不稳定性单元500进一步包括：确定稳定性分值模块510，确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值，当所述稳定性分值不小于预定阈值时，则为所述待测样本为微卫星不稳定型的指示。

在一些实施方案中，所述预定阈值为不小于0.2，优选为0.25。

在一些实施方案中，在进行步骤4之前，对所述匹配测序读段数目进行均一化处理。所述均一化处理为对待检测样本和对照样本中某个标志物去除偏离测序读段后的数目分别除以各自总读段数目来进行均一化。

在一些实施方案中，本系统适用于所有癌症的检测。优选地，本发明所适用的癌症类型包括但不限于结直肠癌、胃癌、食道癌、胰腺癌、泌尿系统肿瘤。

下面参考具体实施例，对本发明进行描述，需要说明的是，这些实施例仅仅是描述性的，而不以任何方式限制本发明。

实施例1MSI位点的筛选

首先从文献报道中获取了多个MSI位点，通过对这些位点的序列初步分析后，保留其中碱基连续重复次数大于等于6个，双碱基连续重复次数大于等于4个，三个及以上碱基连续重复次数大于等于3个的位点，得到276个初始MSI位点，详见表2。

表2：276位点初始筛选的位点(hg38)

为了对这些位点进行筛选，我们首先分析了这些位点的特异性情况，保留了在基因组上相似区域小于等于10的251个位点。之后，我们对剩余的251个位点设计了探针，并在来自11个临床病例的肿瘤及血浆样本(PCR检测为6个MSS,5个MSI-H)中进行了测序情况的测试，保留了215个满足深度及测序质量要求的位点，之后通过对MSI位点突变情况进行统计和筛选，得到23个MSI位点，如表1所示。图3～4，分别为BAT-26在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及BAT-26在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。图5～6，分别为site3在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及site1在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。图7～8，分别为ORI46在一例MSI-H的病例肿瘤及血浆中微卫星位点不同序列长度L的分布及ORI46在一例MSS的病例肿瘤及血浆中微卫星位点不同序列长度L的分布。

筛选方法如下所述：S1:获取上述276个MSI位点的探针或待设计探针区域的序列；S2:对S1中的序列分析其在基因组上的相似区域数目；S3:对S2中在基因组上相似区域数目<＝10的位点进行下一步分析，否则视为该位点不合格；S4:对已知PCR的MSI状态结果的样本采用NGS测序，获取采用的样本中覆盖需要分析的MSI位点的测序数据；S5:对步骤S4中获得的测序数据，获取待分析的MSI位点map_quality>＝0时的深度D_0及map_quality>30时的深度D_30；S6：若D0>1000时，进行下一步分析，否则视为该位点不合格；S7:若D30/D0>80％时,进行下一步分析，否则视为该位点不合格；S8：对步骤S4中获得的测序数据，获取匹配到待分析MSI位点的read及其数目，统计同时含有待分析MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read数目,统计不含Useq及Dseq的read数目，统计同时含有Useq和Dseq的read在Useq和Dseq之间的序列长度L，并可视化其分布情况。S9：筛选在步骤S8得到的可视化结果中，出现连续多个T高出N一倍以上的位点，或序列长度(横坐标)数目少于10个而单个T高出N一倍以上的位点(所述T为来源于肿瘤组织样本读段长度的频率，所述N为来源于正常组织(血浆)的读段长度的频率)。

实施例2

采用26例临床样本(肿瘤及血浆)进行微卫星位点的测序分析，临床样本信息如表3所示。所有病例额外采用PCR进行微卫星位点稳定性的分析。首先对对待测样本(肿瘤)及正常样本(血浆)采用NGS测序，获取完整覆盖表1中MSI位点区域的测序数据，之后去除长度小于50bp及平均碱基质量低于20的read，并统计同时含有某个MSI位点上游8bp序列(Useq)及下游8bp序列(Dseq)的read上介于Useq和Dseq之间的序列长度L，去除序列长度偏离平均值超过3个标准差(离群值)的L及对应的read。之后对待分析样本和正常样本中各MSI位点的read数目分别除以各自总read数目来进行均一化，计算各位点每种L在待分析样本和正常样本中的对应的read数目标准化后的值的差值的绝对值之和V。若V>0.25,则判定该样本为MSI-H。结果汇总如表4所示。

表3：临床样本信息

表4：实施例2的样本微卫星不稳定性判定结果汇总

根据结果可知，使用本发明的微卫星位点组合所检测的微卫星稳定性状态与PCR检测的结果一致性高，有利于准确检测待检测样本的微卫星稳定性状态。

实施例3不同位点组合的MSI分析

比较了筛选获得的23个MSI位点与276个初始位点微卫星位点中任意23个位点组合在MSI判定时的准确度。

从实施例1的表2中276个初始位点中随机选取4组位点(test1，test2，test3，test4)组合，每组23个位点，与筛选获得的23个位点(23site)进行MSI判定时准确度的比较。采用11对临床样本的测序数据，每对样本包括肿瘤样本和血浆样本(对照样本)。对这些样本的测序数据进行处理，获得去重后的bam文件。以成对样本的bam作为输入文件，利用Mantis获取test1-test4的4组位点组合(表5)及筛选得到的site23位点组合对11对样本微卫星状态的预测结果。统计各组预测结果与PCR结果的一致性。

表5：4组位点组合

表6：不同位点组合的MSI分析

表中所列样本为各位点组合的预测结果不一致及微卫星不稳定的样本，所列各实验组合的值为Mantis预测得到的值，该值>0.25判定为微卫星不稳定。

综上所述，使用本发明的23个微卫星位点组合所检测的微卫星稳定性状态与PCR检测的结果一致性高，有利于准确检测待检测样本的微卫星稳定性状态。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

SEQUENCE LISTING

<110> 杭州瑞普基因科技有限公司

<120> 微卫星位点标志物及其应用

<130> PIDC3205605

<160> 23

<170> PatentIn version 3.5

<210> 1

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 1

ttgtcctcca aactctgatg aatacacttg tagctattag taggggggga aaaaaaaggc 60

ttaattaaat caatgaaaaa ttaataaact ggtcacaaaa taatgactat tagtcttcta 120

<210> 2

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 2

atcttctaca gggtgggtgc aatcaagagt gaacttcaga acttgcttct tttttttgcc 60

ccccttcacc acaagctttt tctaagaaaa tacacaaatg ataacagaga tgaagtttca 120

<210> 3

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 3

taaagcaacc acaagcccat tcattataaa tttattccct gagctaatct tttttttttt 60

tttttttcca gatagggtct cactgttgct caggctggag tgccatggca caaacatggt 120

<210> 4

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 4

tgagaatata ttgttgtttt atttgagtat tttaaaaact acttttagga aaaaaaaaaa 60

aaaagaccca acacggtggc tcatgtcatg tctataatcc cagcacattg ggaggctgag 120

<210> 5

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 5

attggaggta ttgttttaat ttcctgttcg aagcctagag tttaaatagt tttttttttt 60

tttttctaat ggccctttct tcacaggtca gtcagtacta aagtagtcgt tgccagcatc 120

<210> 6

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 6

tggtgcagtc tgtcactcca gcctgggtga cacagtgaga ctccatctca aaaaaaaaaa 60

aaaaaaaaaa ctatatggga ggatgtgcat tttgttatat gcaaatgctg caccattttg 120

<210> 7

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 7

ctaaaaaagt tgactaaact ggttactgct acttcggtga agagaaagct tttttttttt 60

ttttttaaat aacatttggg gtttttgtct gtatgaaagt attttaattc attttaggaa 120

<210> 8

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 8

tcctttgtat tattataata ttatatcgta agttccagaa cttacatagt tttttttttt 60

ttttttttca tttctcttgc ttacatgaac tctatgtcgt ggcattcaga tcagtcacac 120

<210> 9

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 9

cattcacact ttctggtcac tcgcgtttac aaacaagaaa agtgttgcta aaaaaaaaaa 60

aaaaaaaaaa ggccagggga gacatacatt taaatataaa aatagaactg tgccagcgac 120

<210> 10

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 10

gtttatttga ggggaagtga aagaacttga aagattcatg gtctctaaat tttttttttt 60

tttttttttt tttttcagag atttggacca ggcaagcatg gaagcagtag tttcacttct 120

<210> 11

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 11

gtgcacagtt gcatcctggg gccgagagcc aggggtgggc tcggagggac ccccccgcct 60

tttcctctgt gggtgtcggg cagagaggct ggatttttgc aagttgaaca gactgctggt 120

<210> 12

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 12

cctttcttat actcctgctt tgctgtcttt tttaatagca tgtatcatgt tttttttttt 60

tttattttta gagacacagt ctcattgtcc caggctgcag tgcagtgccg caatcatagc 120

<210> 13

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 13

acttgttccc tggcacattg gaattcacag atgggagtta atggctttct tttttttttt 60

ttttttttcc tcagcgtctt gtgggtactt ctcttatagc tggtacttgt ctgacccctc 120

<210> 14

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 14

ggaggcggag tttgcagtga gctgagatcg caccactgca ctccatctca aaaaaaaaaa 60

aaaaaaaacc ctgtccaaaa atggcagtta tattctatac tgtatttctt actctagtaa 120

<210> 15

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 15

atatgaaatt ggatattgca gcagtcagag cccttaacct ttttcaggta aaaaaaaaaa 60

aaaaaaaaaa aaaaaagggt taaaaatgtt gaatggttaa aaaatgtttt cattgacata 120

<210> 16

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 16

aattggccag catccatctc ttgaagacat gcaggaagtt gttgtgcata aaaaaaagag 60

gcctgtttta agagattatt ggcagaaaca tgctgtaagt tatccagtta gcttttcatt 120

<210> 17

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 17

gtagcctggc agtatgcacc atcaggaaag cgtgtggctg ccatggggga aaaaaacata 60

ttcaaattat tatacaaatt gactactttg gggaagcttc ctgctatttc tcctttggct 120

<210> 18

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 18

gatcgcacca ctgcactcca gcctgggtga cagagccaga ctccgtctta aaaaaaaaaa 60

aaaaaaaaaa aaagtcacaa ttagtcaaga ttcacattgt gtcaatgcta aaagaaaacc 120

<210> 19

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 19

tagacagttt ctctctttgg aggaagtggt gaagttagat tagtggtgat tttttttttt 60

tttttttttt ttgagatgga gtcttgctct gtcaccaggc tggaatgcag tggcatgatc 120

<210> 20

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 20

ctacaaggta ggaatctcta acagctggca tacatgtttt tgtttggtgt tttttttttt 60

tttttggttt ggtttggttt gttttttgtt tttttagata caaatcccac taatgaaaaa 120

<210> 21

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 21

acaacccatc tcatttgact aatgaaaaac cagtattgtc tgtcaacact tttttttttt 60

tttttttttg agatggagtc tctctctgga gtgcagtggc gcgatcttgg ctcacgcagc 120

<210> 22

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 22

aagtggctaa atgaatatct ctgctttgtg gtttgaaaat taatattgat tttttttccc 60

cctagaggaa gaaatcctac ttagcgacat gaacaaacag ttgacttcaa tctctgagga 120

<210> 23

<211> 120

<212> DNA

<213> Artificial Sequence

<220>

<223> 探针

<400> 23

catcctttca gccgattaat ttgtttcagt attaatggaa ttctcttgat tttttttttt 60

tttcccttcc cttctcaggt gctattcaag tattgggaaa gttcaggatg cctttatatc 120

Claims

1.一组标志物，所述标志物用于检测微卫星不稳定性，其特征在于，包括如表(1)所示的微卫星位点至少之一。

2.检测权利要求1所述标志物的试剂在制备试剂盒中的用途，其特征在于，所述试剂盒用于检测微卫星不稳定性。

3.一组探针，所述探针特异性识别权利要求1所述的标志物，其特征在于，所述探针包括如SEQ ID NO:1～23所示的核苷酸序列至少之一。

4.一种试剂盒，所述试剂盒用于检测微卫星不稳定性，其特征在于，所述试剂盒包括用于识别权利要求1所述的标志物的探针和/或用于扩增权利要求1所述的标志物的引物。

5.根据权利要求4所述的试剂盒，其特征在于，所述试剂盒包括如SEQ ID NO：1-23所示序列至少之一的探针。

6.一种确定微卫星不稳定性的方法，其特征在于，包括：

获取测序数据，所述测序数据含有与权利要求1所述标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；

基于所述标志物的每一个，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；

基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；

针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和

基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，

其中，每个所述标志物分析窗口对应的稳定性评估值是通过下列步骤确定的：

(1)确定每个所述匹配测序读段与每个所述标志物分析窗口的匹配长度；

(2)基于所述匹配长度，去除偏离测序读段；

(3)确定各所述匹配长度对应的所述匹配测序读段数目；

(4)基于所述各所述匹配长度对应的所述匹配测序读段数目，按照下列公式确定所述标志物分析窗口对应的稳定性评估值：

7.根据权利要求6所述的方法，其特征在于，所述对照样本与所述待测样本来自于相同个体，并且所述对照样本具有已知的生理状态；

优选地，所述对照样本来自所述相同个体的健康组织。

8.根据权利要求6所述的方法，其特征在于，基于所获得的全部稳定性评估值，确定是否存在微卫星不稳定性进一步包括：

确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值，

当所述稳定性分值不小于预定阈值时，则为所述待测样本为微卫星不稳定型的指示。

9.根据权利要求8所述的方法，其特征在于，所述预定阈值为不小于0.2，优选为0.25。

10.根据权利要求6所述的方法，其特征在于，所述偏离测序读段的标准为读段长度不小于4个标准差。

11.根据权利要求6所述的方法，其特征在于，在进行步骤(4)之前，对所述匹配测序读段数目进行均一化处理。

12.一种确定微卫星不稳定性的系统，其特征在于，包括：

获取测序数据单元，所述测序数据含有与权利要求1所述标志物对应的测序读段，所述测序数据分别来自于待测样本和对照样本；

构建标志物分析窗口单元，所述构建标志物分析窗口单元与所述获取测序数据单元相连，分别在参考基因组序列上构建标志物分析窗口，所述标志物分析窗口包括所述微卫星位点和上游毗邻序列和下游毗邻序列；

选择匹配测序读段单元，所述选择匹配测序读段单元与所述构建标志物分析窗口单元相连，基于比对，从所述测序数据中选择匹配测序读段，所述匹配测序读段同时含有所述上游毗邻序列以及相应的下游毗邻序列；

获得每个所述标志物分析窗口对应的稳定性评估值单元，所述获得每个所述标志物分析窗口对应的稳定性评估值单元与所述选择匹配测序读段单元相连，针对每个所述标志物分析窗口和与所述标志物分析窗口对应的所述匹配测序读段，以便获得每个所述标志物分析窗口对应的稳定性评估值；和

确定是否存在微卫星不稳定性单元，所述确定是否存在微卫星不稳定性单元与所述获得每个所述标志物分析窗口对应的稳定性评估值单元相连，基于所获得的全部稳定性评估值，确定所述待测样本是否存在微卫星不稳定性，

(2)基于所述匹配长度，去除偏离测序读段；

(3)确定各所述匹配长度对应的所述匹配测序读段数目；

13.根据权利要求12所述的系统，其特征在于，所述对照样本与所述待测样本来自于相同个体，并且所述对照样本具有已知的生理状态；

优选地，所述对照样本来自所述相同个体的健康组织。

14.根据权利要求12所述的系统，其特征在于，所述确定是否存在微卫星不稳定性单元进一步包括：

确定稳定性分值模块，确定所述全部稳定性评估值的平均值作为所述待测样本的稳定性分值，

15.根据权利要求14所述的系统，其特征在于，所述预定阈值为不小于0.2，优选为0.25。

16.根据权利要求12所述的系统，其特征在于，所述偏离测序读段的标准为读段长度不小于4个标准差。

17.根据权利要求12所述的系统，其特征在于，在进行步骤(4)之前，对所述匹配测序读段数目进行均一化处理。

18.一种非临时性可存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求6～11中任一项所述方法的步骤。

19.一种计算机设备，其特征在于，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求6～11中任一所述的确定微卫星不稳定性的方法。

20.一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求6～11中任一所述的确定微卫星不稳定性的方法。