CN112365922B

CN112365922B - 用于检测msi的微卫星位点、其筛选方法及应用

Info

Publication number: CN112365922B
Application number: CN202110039459.2A
Authority: CN
Inventors: 赵利利; 谢泓禹; 于佳宁; 王小庆; 洪媛媛; 陈维之; 何骥; 杜波
Original assignee: Wuxi Zhenhe Biotechnology Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Zhenhe Biotechnology Co.,Ltd.; Zhenhe (Beijing) Biotechnology Co.,Ltd.
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-06-15
Anticipated expiration: 2041-01-13
Also published as: CN112365922A

Abstract

本发明提供了一种用于检测MSI的微卫星位点、其筛选方法及应用。其中筛选方法包括：选取≤15bp的A或T的单碱基重复序列且两翼序列相似值低于相似阈值的微卫星位点，记作第一位点集；获取多个MSS样本的测序数据并筛选统计出第一位点集中每个位点的重复单元的类型和每个重复单元的类型频率；选择满足第二条件的位点作为第二位点集，第二条件包括：1）频率最高的重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；统计并保留第二位点集中每个位点在阴性样本组和阳性样本组之间deletion ratio存在显著差异的位点。所筛选的位点能提高检测的灵敏性和特异性。

Description

用于检测MSI的微卫星位点、其筛选方法及应用

技术领域

本发明涉及高通量测序数据分析领域，具体而言，涉及一种用于检测MSI的微卫星位点、其筛选方法及应用。

背景技术

微卫星不稳定（MSI）是错配修复（MMR）缺失的一种表型表现，并作为一种生物标记物越来越多地应用到临床肿瘤诊断和治疗中。相比较基于PCR的MSI检测，基于NGS 的MSI检测有在临床上有多项优势：可以在定制的靶向区域（targeted panel）同时进行MSI 检测和其他的检测，比如SNV。另外，基于PCR检测的MSI检测对样本的肿瘤纯度要求偏高（>20%),基于NGS 的MSI检测由于算法的优化，可以降低肿瘤含量的要求。

基于NGS的MSI检测方法发展迅速，目前常规的去重策略是“基于碱基质量值总和最高”，软件mSINGS 和MSIsensor-pro等使用的就是基于该策略的Picard，而这种去重策略是否适合MSI这种单碱基重复序列，也没有相关的比较和研究。同时，选择合适的位点对检测准确性有重要影响。

然而，采用现有的方法对MSI检测时，仍存在检测准确性低的缺陷。

发明内容

本发明的主要目的在于提供一种用于检测MSI的微卫星位点、其筛选方法及应用，以解决现有技术检测结果准确性低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种用于检测MSI的微卫星位点的筛选方法，该筛选方法包括：选取符合第一条件的微卫星位点，记作第一位点集，第一条件包括：a.≤15bp的单碱基重复序列；b.单碱基重复序列为A或T的重复序列；c.与单碱基重复序列的两翼序列相似值低于相似阈值；获取多个微卫星稳定样本的测序数据，并从每个微卫星稳定样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型频率；从第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，第二条件指包括：1）频率最高的重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计第二位点集中每个微卫星位点在阴性样本组和阳性样本组之间deletion ratio 的差异性，并保留deletion ratio存在显著差异的微卫星位点。

进一步地，从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点，记作第一位点集；优选地，从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；针对每个微卫星位点，计算7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与A或T单碱基重复序列的相似值；选取相似值低于相似阈值的微卫星位点，作为第一位点集；优选地，相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是左右两端设定长度的序列中与微卫星位点碱基相同的碱基到微卫星位点的距离，d2为设定长度；优选地，d2为8~12bp，更优选为10bp；优选地，相似阈值为1.5~2.5，更优选为2。

进一步地，获取多个微卫星稳定样本的测序数据，并从每个微卫星稳定样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型频率包括：将每个微卫星稳定样本的测序数据分别与参考基因组序列进行比对，得到比对结果；从比对结果中查找第一位点集，并从比对结果中提取覆盖第一位点集中各微卫星位点的spanning reads，spanning reads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads；对属于同一重复序列家族的spanning reads进行去重，获得每个重复序列家族的重复单元类型；统计每个微卫星位点的每种重复单元的类型和每种重复单元的类型的频率。

进一步地，对属于同一重复序列家族的spanning reads进行去重，获得每个重复序列家族的重复单元类型包括：从比对结果中统计属于同一重复序列家族的spanningreads，并统计同一重复序列家族中不同重复单元的类型的数量，选择数量最多的重复单元的类型作为同一重复序列家族的重复单元的类型，并计入支持微卫星位点的重复单元的类型的family支持数，计算微卫星位点family数目之和，定义为spanning coverage；优选地，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析；优选地，支持各微卫星位点的各重复单元类型的family支持数至少为2个；优选地，捕获效率以各微卫星位点的spanning coverage与样本的测序深度的比值来衡量，优选捕获阈值≥0.2。

进一步地，采用非参数检验，优选wilcox test检验的方法统计第二位点集中每个微卫星位点在阴性样本组和阳性样本组之间deletion ratio的差异性，并保留deletionratio存在显著差异的微卫星位点；优选p-value <0.5的微卫星位点。

根据本申请的第二个方面，提供了一种用于检测MSI的基线构建方法，该构建方法包括：获取多个已知MSS样本的测序数据，并对测序数据进行降采样处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率；在spanning coverage 达到饱和值的条件下，根据每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicate ratio水平下各微卫星位点的deletion ratio的基线；其中，微卫星位点为上述任一种筛选方法所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio即为reads重复率；deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

进一步地，构建不同duplicate ratio水平下各微卫星位点的deletion ratio的基线包括：计算出所有经过降采样处理得到的各MSS样本在相同duplicate ratio水平下每个微卫星位点的deletion ratio，并去除MSS样本中具有多态性的微卫星位点；在不同duplicate ratio(d)水平下，计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m，优选m为0.01，对于每一个duplicate ratio,来自同一个样本的所述降采样处理后的MSS样本只取一个；对平均值和标准差进行如下任一种处理：（1）采用移动窗口中位值或均值的方式进行平滑处理；（2）构建回归线；（3）构建方程式，从而构建出在不同duplicate ratio水平下的deletion ratio平均值和标准差，作为检测MSI的基线。

进一步地，不同duplicate ratio水平按照如下任意一种方式获得：（1）通过使用软件降采样方式按照设定比例从测序数据与参考基因组序列的比对文件提取；（2）通过使用软件经过降采样方式从测序数据（fastq）提取；（3）通过测试不同的duplicate ratio的样本，不经过降采样直接获取；优选地，按公式I计算duplicate ratio，公式I为：

（I），

其中，K代表完全覆盖微卫星位点的某个family，n _total,K是family(K)的spanningreads的数目。

进一步地，在去除MSS样本中具有多态性的微卫星位点之前，构建方法还包括：判断所有MSS样本中各微卫星位点的多态性；优选地，通过如下任一方式进行判断：（1）计算频率第一高的重复单元的类型与频率第二高的重复单元的类型，两者的频率的差异是否在第一预定范围内；（2）比较野生型或与reference长度相同的重复单元的类型的频率是否显著低于第二预定范围；（3）比较deletion ratio是否显著高于第三预定范围。

根据本申请的第三个方面，提供了一种微卫星状态的检测方法，该检测方法包括：获得待检样本的测序数据并计算待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio；若微卫星位点spanning coverage 达到饱和值并且duplicate ratio 大于或等于该微卫星位点基线的最低duplicate ratio，该微卫星位点通过质控；将待检样本在相同duplicate ratio水平下与基线进行比较，基线为上述任一种构建方法构建的基线；若待检样本的位点k的 deletion ratio(k)(d)> mean(k)(d)+n*Mean(k)(d)，优选地，n为3或者4，则判定微卫星位点为不稳定；根据如下条件判断待检样本的微卫星状态：（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a，a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSI-H；（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a，a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSS；（3）若通过质控的位点数目n1<15，则待检样本的微卫星状态判断为待定；其中，微卫星位点为上述任一种筛选方法所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio(d)即为reads重复率；deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

进一步地，按公式I计算待检样本中每个微卫星位点的duplicate ratio(d)，公式I为：

（I），

根据本申请的第四个方面，提供了一种用于检测MSI的微卫星位点的筛选装置，该筛选装置包括：第一位点集获取模块，用于选取符合第一条件的微卫星位点，记作第一位点集，第一条件包括：a.≤15bp的单碱基重复序列；b.单碱基重复序列为A或T的重复序列；c.与单碱基重复序列的两翼序列相似值低于相似阈值；重复单元类型及频率统计模块，用于获取多个微卫星稳定样本的测序数据，并从每个微卫星稳定样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型频率；第二位点集获取模块，用于从第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，第二条件指包括：1）频率最高的重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；差异检测及筛选模块，用于采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计第二位点集中每个微卫星位点在阴性样本组和阳性样本组之间deletion ratio 的差异性，并保留deletion ratio存在显著差异的微卫星位点。

进一步地，第一位点集获取模块包括：第一选择模块，用于从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；相似值计算模块，针对每个微卫星位点，计算7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与A或T单碱基重复序列的相似值；第二选择模块，用于选取相似值低于相似阈值的微卫星位点，作为第一位点集；优选地，相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是左右两端设定长度的序列中与微卫星位点碱基相同的碱基到微卫星位点的距离，d2为设定长度；优选地，d2为8~12bp，更优选为10bp；优选地，相似阈值为1.5~2.5，更优选为2。

进一步地，重复单元类型及频率统计模块包括：比对模块，用于将每个微卫星稳定样本的测序数据分别与参考基因组序列进行比对，得到比对结果；spanning reads提取模块，用于从比对结果中查找第一位点集，并从比对结果中提取覆盖第一位点集中各微卫星位点的spanning reads，spanning reads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads；去重模块，用于对属于同一重复序列家族的spanning reads进行去重，获得每个重复序列家族的重复单元类型；统计模块，用于统计每个微卫星位点的每种重复单元的类型和每种重复单元的类型的频率。

进一步地，去重模块包括：第一统计子模块，用于从比对结果中统计属于同一重复序列家族的spanning reads；第二统计子模块，用于统计同一重复序列家族中不同重复单元的类型的数量；重复单元的类型确定模块，用于选择数量最多的重复单元的类型作为同一重复序列家族的重复单元的类型，并计入支持微卫星位点的重复单元的类型的family支持数，计算微卫星位点family数目之和，定义为spanning coverage；优选地，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析；优选地，支持各微卫星位点的各重复单元类型的family支持数至少为2；优选地，捕获效率以各微卫星位点的spanning coverage与样本的测序深度的比值来衡量，优选捕获阈值≥0.2。

进一步地，差异检测及筛选模块采用非参数检验，优选采用wilcox test检验检测差异性；优选p-value <0.5。

根据本申请的第五个方面，提供了一种用于检测MSI的基线构建装置，该构建装置包括：获取统计模块，用于获取多个已知MSS样本的测序数据，并对测序数据进行降采样处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率；基线构建模块，用于在spanning coverage 达到饱和值的条件下，根据每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicate ratio水平下各微卫星位点的deletion ratio的基线；其中，微卫星位点为上述任一种筛选装置所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio即为reads重复率；deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

进一步地，基线构建模块包括：第一计算模块，用于计算出所有经过降采样处理得到的各MSS样本在相同duplicate ratio水平下每个微卫星位点的deletion ratio；去除模块，用于去除MSS样本中具有多态性的微卫星位点；第二计算模块，用于在不同duplicateratio(d)水平下，计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m，优选m为0.01；对于每一个duplicate ratio, 来自同一个样本的降采样处理后的MSS样本只取一个；处理模块，用于对平均值和标准差进行如下任一种处理：（1）采用移动窗口中位值或均值的方式进行平滑处理；（2）构建回归线；（3）构建方程式，从而构建出在不同duplicate ratio水平下的deletion ratio平均值和标准差，作为检测MSI的基线。

进一步地，不同duplicate ratio水平按照如下任意一种方式获得：（1）通过使用软件降采样方式提取按照设定比例从测序数据与参考基因组序列的比对文件提取；（2）通过使用软件经过降采样方式从测序数据中提取；（3）通过测试不同的duplicate ratio的样本，不经过降采样直接获取；优选地，按公式I计算duplicate ratio，公式I为：

（I），

进一步地，构建装置还包括：多态性判断模块，用于判断所有MSS样本中各微卫星位点的多态性：优选地，多态性判断模块选自如下任一模块：第一频率比较模块，用于计算频率第一高的重复单元的类型与频率第二高的重复单元的类型，并比较两者的频率的差异是否在第一预定范围内；或者第二频率比较模块，用于比较野生型或与reference长度相同的重复单元的类型的频率是否显著低于第二预定范围；或者deletion ratio比较模块，用于比较deletion ratio是否显著高于第三预定范围。

根据本申请的第六个方面，提供了一种微卫星状态的检测装置，该检测装置包括：获取计算模块，用于获取待检样本的测序数据并计算待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio；质控模块，用于在spanningcoverage达到饱和值并且duplicate ratio 大于或等于该微卫星位点基线的最低duplicate ratio时，该微卫星位点通过质控；比较模块，用于将待检样本在相同duplicateratio水平下与基线进行比较，基线为上述任一种构建装置构建的基线；不稳定位点判定模块，用于在待检样本的位点k的 deletion ratio(k)(d)> mean(k)(d)+n*Mean(k)(d)时，优选地，n为3或4，将微卫星位点判定为不稳定；微卫星状态判断模块，用于根据如下条件判断待检样本的微卫星状态：（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a， a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSI-H；（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a， a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSS；（3）若通过质控的位点数目n1<15，则待检样本的微卫星状态判断为待定；其中，微卫星位点为上述任一种筛选装置所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio(d)即为reads重复率，deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

（I），

根据本申请的第七个方面，提供了一种用于检测MSI的微卫星位点，其包括表1所示的37个微卫星位点中的至少15个。

根据本申请的第八个方面，提供了一种用于检测MSI的试剂盒，该试剂盒包括用于检测MSI的微卫星位点的检测试剂，微卫星位点包括表1所示的37个微卫星位点中的至少15个。

根据本申请的第九个方面，提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述任一种筛选方法，或者上述任一种构建方法，或者上述任一种检测方法。

根据本申请的第十个方面，提供了一种存储介质，该存储介质用于存储程序，其中，程序运行时执行上述任一种筛选方法，或者上述任一种构建方法，或者上述任一种检测方法。

应用本发明的技术方案，通过选择长度不超过15bp，且碱基为A或者T的单碱基重复片段作为候选微卫星位点，提高样本测序数据中真实单碱基重复片段的比例，并且选择这些位点中两翼10bp序列与微卫星的相似值低的位点，来降低测序错误对结果的影响，进一步从满足上述条件的位点中选择捕获效率高、多态性低于5%以及频率最高的重复单元的类型与参考序列一致的位点，捕获效率高以便于提高检测的可重复性，选择多态性<5%的位点为单样本分析MSI提供了前提条件并有助于提高特异性，而选择频率最高重复单元的类型与参考序列一致的位点便于计算；最后通过微卫星稳定和不稳定度的已知样本，对满足上述检测条件的位点进一步进行差异性检测和筛选，最后保留在两组样本之间存在显著差异的位点作为检测MSI的位点，这些位点兼具敏感性高和特异性高的优点。因而，利用这些位点进行微卫星状态检测，具有更高的灵敏度和特异性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了不同duplicate ratio 水平下deletion ratio的基线；

图2示出了37个微卫星位点的spanning coverage的饱和度分析图；

图3示出了不同重复片段长度与stutter比例的关系；

图4示出了不同的去重方法对微卫星位点重复单元类型频率分布的影响；

图5示出了不同方法判定微卫星不稳定的准确性；

图6示出了不同MSI检测方法的最低肿瘤检测限；

图7示出了26种癌肿发生微卫星不稳定的比例。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

spanning reads：本申请中指跨越reads，即完全覆盖微卫星位点区域及其左右两端至少各2bp长度的reads。

Duplicate：本申请中指duplicate reads family，即重复序列家族，指在测序中同一个DNA片段被测了多次。因为在建库的过程，需要PCR扩增，一条DNA片段会扩增成很多个。在测序过程中，当测序量高的时候，同一条序列就会测多次，这些reads称为一个duplicate（reads family）。在微卫星序列中，PCR过程中会发生滑链，微卫星序列长度会变长或者变短，长度不同的重复序列成为不同的重复单元类型。一个duplicate中，会有不同的重复单元类型。

Family：即重复序列家族。

spanning coverage：指某一微卫星位点family数目之和。

Duplicate ratio：在本申请中指测序数据中，reads的重复率。

Deletion ratio：在本申请中指与reference相比，重复序列的长度减少的等位基因（allele）占总的等位基因（allele）的比例。

Insertion ratio：在本申请中指与reference相比，重复序列的长度增加的等位基因（allele）占总的等位基因（allele）的比例。

Germline ratio：在本申请中指与reference相比，重复序列的长度与reference等长的等位基因（allele）占总的等位基因（allele）的比例。

Germline allele、extended allele 和contracted allele：在微卫星序列中，建库和/或测序流程中的PCR过程中会发生滑链，导致微卫星序列长度会变长或者变短，长度不同的重复序列成为不同的重复单元类型，微卫星序列长度变长的重复单元记为extendedallele，长度变短的重复单元记为contracted allele，长度与reference相等的记为Germline allele。

Germline allele left-shifting：与reference等长的重复单元左移，在“碱基质量值总和最高”的去重策略中，与不去重相比Germline ratio变少，Deletion ratio增加，部分Germline allele检测成contracted allele，我们称为Germline allele left-shifting。

Extended allele left-shifting：比reference更长的重复单元左移，在“碱基质量值总和最高”的去重策略中，与不去重相比Insertion ratio变少，部分extended allele检测成Germline allele和contracted allele，我们称为Extended allele left-shifting。

“绝对多数投票去重”策略：“在同一重复序列家族中统计不同重复单元的类型的数量，选择数量最多的重复单元的类型作为该同一重复序列家族的重复单元的类型”的策略。

Wilcox检验：一种检测两组间差异的非参数检验，也叫wilcox秩和检验。当数据不满足执行t检验的参数假设（如，数据分布不符合正态性，变量在本质上就严重偏倚或呈现有序关系），无法使用t检验分析时，可采用非参数的方法来完成检验。

比例或频率，在本申请中具有相同的涵义，均指某一重复单元类型在该微卫星位点上的reads数占覆盖该微卫星位点的总reads数的比例。

Reference：本申请中可以是hg19 人类参考基因组，也可以是研究族群中野生型的allele。

如背景技术部分所提到的，采用MSI-PCR或者现有的NGS方法对于待检样本检测时，仍存在对样本的微卫星状态判断准确性低的问题。为此，申请人对现有的微卫星状态的检测方案进行了研究和分析，具体如下：

1）现有方法或者工具都没有考虑或者很少考虑实验条件对结果准确性的影响。

DNA起始量，PCR循环次数及测序量是NGS文库构建和测序流程中关键的实验变量，并且在实际应用中，这种变化几乎是不可避免的。评估并且恰当地对检测样本与对照样本之间实验变量进行标准化，能够有助于识别潜在的体细胞突变信号。

为此，我们首先需要寻找能够提取和充分描述相关变量的度量标准。与较低复杂度文库相比，一个较高复杂度文库的样本需要更多的测序量来达到相似的duplicateratio。对于起始量一定的样本，提高测序量理论上会连续地降低背景噪音。饱和性分析表明当spanning coverage达到某一个值时，就不再影响MSI检测算法。此后，duplicateratio可以完全描述样本起始量和测序深度的综合影响。在此基础上，我们构建了不同duplicate ratio水平下的deletion ratio的基线，以此来降低检测样本与对照样本间实验条件差异的影响。

需要说明的是，duplicate ratio并不能反映PCR循环次数。拥有相似的duplicateratio而PCR循环次数差异显著的话，可能会导致不同的MSI结果。微卫星位点在建库和测序过程中，PCR扩增会引起微卫星长度发生变化。文库构建有2次PCR扩增过程：1）预实验PCR扩增和2）捕获PCR扩增。测序过程中有桥式PCR扩增。对于文库构建过程PCR循环次数根据样本量在22～26次范围内（一般预实验PCR：循环次数为8～12次，捕获：循环次数为14次），测序过程PCR循环次数是35次，这两个过程PCR循环次数都在47以下。现有研究（Raz O,Biezuner T, Spiro A, Amir S, Milo L, Titelman A, Onn A, Chapal-Ilani N, TaoL, Marx T et al. 2019. Short tandem repeat stutter model inferred from directmeasurement of in vitro stutter noise. Nucleic Acids Res 47: 2436-2445）表明：对于长度小于15bp碱基为A或者T的单碱基重复片段，在PCR循环次数低于47时，原始单碱基重复片段的比例最高，因此在常规的建库和测序中，长度选择≤15bp，碱基为A或者T的单碱基重复序列的条件下，采用“绝对多数投票去重”策略有利于得到片段真实的重复单元类型，在现在的文库构建流程和测序流程下我们认为忽略PCR循环次数的影响是安全的。

2）去重策略对结果准确性的影响

我们还注意到：包含较长单碱基重复片段的read，单碱基重复片段下游区的碱基质量偏低，而单碱基重复片段及其上游区的碱基质量不受影响，这一现象可能是由测序仪相关的定相算法所致。因此我们推测在测序长度相同的情况下，在spanning reads组成的family中，较长的单碱基重复片段的碱基质量总和可能会低于较短的重复片段。在这种“重复序列越长，质量值越低”的趋势下，使用“碱基质量值总和最高”的去重策略偏向选择包含较短的重复片段从而导致等位基因类型(allele type)向左倾斜，使得DeletionRatio增加，InsertionRatio降低，而GermlineRatio由于“germline allele left-shifting”和“extended allele left-shifting”互相作用而稍微降低。而真正去重的算法extendedallele 和contracted allele 应该向中间的germline allele集中。在现有的建库流程和“位点长度≤15bp，碱基为A或者T的单碱基重复片段”的条件下，“绝对多数投票去重”策略偏向于得到germline allele，并且duplicate ratio 越大，得到真实重复单元类型的概率越大，符合MSI检测去重的目的。

综上，根据PCR实验条件以及PCR对单碱基重复片段背景噪音的影响，我们首先选择a）长度≤15bp，碱基为A或者T的单碱基重复片段作为候选微卫星位点。b）在此基础上，计算其两翼10bp序列与微卫星的相似度，选择相似度低的位点来降低测序错误对结果的影响。c)选择捕获效率高的位点；d）统计这些位点的多态性比例，选择多态性<5%的位点，提高特异性；e）选择敏感性和特异性都较高的37个位点。

我们研究了实验条件对结果的影响，并首次使用“duplicate ratio”作为描述相关实验变量的度量标准，构建不同duplicate ratio水平下的基线，标准化检测样本的实验变量，并在相同的duplicate ratio水平下与基线进行比较，以此来降低检测样本与基线样本间由于实验差异带来的影响。首次比较了“碱基质量值总和最高”和“绝对多数投票”两种策略对MSI位点去重效果的影响，结果显示“绝对多数投票”能够有效地降低背景噪音，而“碱基质量值总和最高”策略反而扩大了背景噪音。同时我们还提出了一套完整的位点选择标准。综合“duplicate ratio计算及不同水平下baseline构建”，“绝对多数投票去重”和“位点选择原则”, 我们开发了本专利申请的基于“deletion ratio”的MSI检测方法。该方法从位点选择，去重策略以及标准化实验条件这三方面来有效的降低背景噪音，提高真实突变强度，最终提高MSI检测的灵敏性和特异性并降低MSI-H的最低检出限。

基于上述研究结果，申请人提出了本申请的一系列技术方案。

实施例1

在本实施例中，提供了一种用于检测MSI的微卫星位点的筛选方法，该筛选方法包括：

S101，选取符合第一条件的微卫星位点，记作第一位点集，第一条件包括：a.≤15bp的单碱基重复序列；b.单碱基重复序列为A或T的重复序列；c.与单碱基重复序列的两翼序列相似值低于相似阈值；

S103，获取多个微卫星稳定样本的测序数据，并从每个微卫星稳定样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型频率；

S105，从第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，第二条件指包括：1）重复单元的类型频率最高且重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；

S107，采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计第二位点集中每个微卫星位点在阴性样本组和阳性样本组之间deletion ratio 的差异性，并保留deletion ratio存在显著差异的微卫星位点。

上述微卫星位点的筛选方法，通过选择长度不超过15bp，且碱基为A或者T的单碱基重复片段作为候选微卫星位点，提高样本测序数据中真实单碱基重复片段的比例，并且选择这些位点中两翼10bp序列与微卫星的相似值低的位点，来降低测序错误对结果的影响，进一步从满足上述条件的位点中选择捕获效率高、多态性低于5%以及频率最高的重复单元的类型与参考序列一致的位点，捕获效率高是为了在相同的实验条件下，获得更多的spanning coverage，选择多态性<5%的位点为单样本分析MSI提供了前提条件并有助于提高特异性，而选择频率最高重复单元的类型与参考序列一致的位点便于计算；最后通过微卫星稳定和不稳定度的已知样本，对满足上述检测条件的位点进一步进行差异性检测和筛选，最后保留在两组样本之间存在显著差异的位点作为检测MSI的位点，这些位点兼具敏感性高和特异性高的优点。

上述选取第一位点集时，根据所欲处理的测序数据是全基因组测序数据还是靶向特定基因panel的基因捕获测序数据，可以从全基因组范围内进行选择，也可以从具体的基因panel的序列范围内进行选取。

此处的微卫星稳定样本优选指的是正常的健康样本，既可以是正常组织样本，也可以是正常的淋巴细胞样本，优选采用白膜层样本。需要说明的是，这里并未排除其他可能带有体细胞SNV突变的微卫星稳定样本，尽管这种带有体细胞SNV突变的微卫星稳定样本可能存在影响某个微卫星位点变异的情况。

上述人群中的多态性，可以按如下方法来进行评估：如果第一高频率和第二高频率对应的重复单元类型的频率相似，判定为该位点为杂合，增加一个多态性样本。如果第一高频率的重复单元类型的频率远大于第二高频率对应的重复单元类型的频率，判断为该位点为纯合，且第一高频率的重复单元类型与绝大部分正常样本的第一高频率的重复单元类型不同，增加一个多态性样本。多态性比例为多态性样本与总的样本的比值。

从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点，记作第一位点集，优选从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；针对每个微卫星位点，计算7~15bp的单碱基重复序列的左右两端设定长度的序列与A或的单碱基重复序列的相似值；选取相似值低于相似阈值的微卫星位点，作为第一位点集。

优选地，相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是所述左右两端设定长度的序列中与微卫星位点碱基相同的碱基到微卫星位点的距离，d2为设定长度；优选地，d2为8~12bp，更优选为10bp；优选地，相似阈值为1.5~2.5，更优选为2。

选择两端的侧翼序列明显不同于7-15bp长度的单碱基重复序列作为候选的微卫星位点，能够明显减少两端序列对微卫星位点的变异检测的干扰，从而减少噪音干扰。

在一种优选的实施例中，获取多个MSS样本（即正常淋巴细胞样本）的测序数据，并从每个MSS样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型出现的频率包括：将每个MSS样本的测序数据分别与参考基因组序列进行比对，得到比对结果；从比对结果中查找第一位点集，并从比对结果中提取覆盖第一位点集中各微卫星位点的spanning reads，spanning reads是指覆盖第一位点集中微卫星位点左右两端至少各2bp的reads；统计覆盖每个微卫星位点每种重复单元的类型和每种重复单元的类型出现的频率。

覆盖微卫星位点区域及两翼至少各2bp的spanning reads，既能利用两翼序列确定该reads在参考基因组上的位置，又能使得所检测的微卫星位点的重复单元的类型是准确的，进而使得所统计的每种重复单元的类型的数量是准确的，从而提高检测结果的准确性。至少各2bp，更优选为2bp，如上述，完全跨域整个位点区域，并延长位点区域两翼2bp左右，能够确保reads完全跨越整个位点区域的同时，最小化地减少数据量损失（覆盖两翼序列的长度越长，比对条件就越严格，符合的reads就越少），同时也避免了位点两翼区域内插入缺失对重复单元类型判断的影响。当然，预设长度也可以是3bp、4bp、5bp、6bp、7bp、8bp、9bp甚至更长，可以根据实际情况进行合理调整。

在一种优选的实施例中，从比对结果中提取覆盖第一位点集中各微卫星位点的spanning reads包括：从比对结果中统计属于同一重复序列家族的spanning reads，并统计同一重复序列家族中不同重复单元的类型的数量，选择数量最多的重复单元的类型作为同一重复序列家族的重复单元的类型，并计入支持微卫星位点的重复单元的类型的family支持数；计算所有位点family数目之和，定义为spanning coverage。优选地，支持每个微卫星位点的各重复单元类型的family的支持数至少为2；优选地，捕获效率以各微卫星位点的spanning coverage与样本的测序深度的比值来衡量，优选捕获阈值≥0.2；优选地，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析。

由于在建库的过程，需要PCR扩增，一条DNA片段会扩增成很多个。在测序过程中，当测序量高的时候，同一条序列就会测多次，这些reads称为一个duplicate（readsfamily），即重复序列家族。在微卫星序列中，PCR过程中会发生滑链，微卫星序列长度会变长或者变短，长度不同的重复序列成为不同的重复单元类型。

一个真实的DNA片段被测了多次，需要选择一条保留下来。对于微卫星位点，同一个重复序列家族的重复单元类型可能不相同。本申请的 “绝对多数投票”策略是适合MSI的去重方式。现有类似的去重策略在于分析过程和对duplicate的判断准则与本申请不一致。现有方法的去重过程是对于同一个family，先统计序列相同的reads的丰度，选取丰度最高的read作为该family的代表。而在此过程中，测序错误、突变信息都会影响“相同reads”的判断，另外有可能选取出的read并不是spanning read，该duplicate的信息被浪费。而本申请中，根据比对信息，首先提取微卫星位点序列，计算重复单元类型并统计其分布，在此过程中，不必考虑测序错误、突变信息等，能最大限度的趋于微卫星位点真实的重复单元类型分布。

上述 family的判断会有不同的方式，而本申请上述优选使用的是比对起始位点与插入片段相同作为同一个family，也可以考虑其他的替代方案，比如考虑softclip情况，把5’端没有比对上或者/和3’端没有比对上的碱基也纳入插入片段长度计算；再或者不把softclip的read纳入分析。

上述对于一个family存在2个或者2个以上的最多重复单元类型的处理方式，也可以采用其他处理方式，比如随机选一个，选最长的，或者最短的或者长度位于中间的一个。或者单独使用UMI（唯一分子标记）技术，或者UMI技术与上述标准一起作为family的判断标准。

上述筛选方法包括：通过进一步比较对多个已知状态为MSI-H的样本和多个已知状态为MSS的样本之间各微卫星位点的 deletion ratio的差异性，并保留在两类不同状态的样本中deletion ratio存在显著差异的微卫星位点作为检测微卫星不稳定的位点。

上述差异性可以采用不同的差异检测方法来进行检测，优选地，采用非参数检验的方法检验是否存在显著差异，优选采用Wilcox检验的方法。优选地，p值低于0.05的位点。

实施例2

本实施例提供了一种用于检测MSI的基线构建方法，该构建方法包括：

获取多个已知MSS样本的测序数据，并对各已知MSS样本的测序数据进行降采样（downsampled）处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率,，其中，微卫星位点为上述筛选方法所筛选到的用于检测MSI的微卫星位点（表1所示的37个位点中的一部分位点或全部位点）；

在spanning coverage 达到饱和值（100~200，不同位点的值不同）的条件下，根据每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicateratio水平下各微卫星位点的deletion ratio的基线；

其中，每个微卫星位点的duplicate ratio指各微卫星位点的reads重复率（即建库及测序过程中的PCR扩增导致一条片段被测试多次，重复reads的比例，即指序列一模一样的reads的条数在该条片段的测序reads总条数中的比例），deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

该基线的构建方法，利用前述筛选方法所筛选到的用来检测MSI的微卫星位点，通过对MSS样本进行测序，并通过降采样处理，获得各样本的各位点的不同duplicate ratio下的各重复单元的类型频率，进而计算得到不同duplicate ratio下的长度比reference短的重复单元类型的family数量在该位点所有重复单元family数中所占比例，即通过将deletion ratio按照不同duplicate ratio进行展示，从而使得不同批次或不同来源的样本，在实验条件层面上的差异进行了标准化，得到了阴性样本中各位点的基线水平，有利于提高检测结果的准确性。

上述的MSS样本指的是正常的健康样本，既可以是正常组织样本，也可以是正常的淋巴细胞样本，优选为白膜层样本。需要说明的是，这里并未排除其他可能带有体细胞SNV突变的MSS样本，尽管这种带有体细胞SNV突变的MSS样本可能存在影响某个微卫星位点变异的情况。

上述构建不同duplicate ratio水平下各微卫星位点的deletion ratio的步骤，在一种优选的实施例中，包括：

计算出所有经过降采样处理得到的各MSS样本在相同duplicate ratio水平下每个微卫星位点的deletion ratio，并去除MSS样本中具有多态性的微卫星位点；

在不同duplicate ratio(d)水平下，每个降采样处理前的MSS样本只取一次，计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m，优选m为0.01；

对平均值和标准差进行如下任一种处理：（1）采用移动窗口中位值或均值的方式进行平滑处理；（2）构建回归线；（3）构建方程式，从而构建出在不同duplicate ratio水平下的deletion ratio平均值和标准差，作为检测MSI的基线。

上述实施例是通过降采样的方式，按照设定比例从测序数据与参考基因组序列的比对文件中提取，来获得不同水平的duplicate ratio。除此之外，也可以采用其他的方式获得，比如，通过使用软件经过降采样方式从测序数据（fastq）提取；通过测试不同的duplicate ratio的样本，不经过降采样直接获取，只是成本更高。

无论采用何种方式来获得不同水平的duplicate ratio，其抽取样本后在进行duplicate ratio计算时，也可以有多种计算方式。其本质上就是reads的重复率。比如可以计算所有family的duplicate ratio的平均值或者中值来获得，或者对不同的famliy的duplicate ratio进行加权处理后获得。在本申请一种优选的实施例中，其按照如下公式I进行计算：

（I），

其中，K代表完全覆盖微卫星位点的某个family，n _total,K是该family(K)的spanning reads的数目。

上述family的判断可以有不同的方式，本申请中优选使用的是比对起始位点与插入片段相同作为同一个family。但也可以采用其他的方式，比如考虑softclip情况，把5’端没有比对上或者（和）3’端没有比对上的碱基也纳入插入片段长度计算；或者不把softclip的read纳入分析。对于一个family存在2个或者2个以上的最多重复单元类型的处理有替代方案，可以随机选一个，也可以选最长的，或者最短的或者长度位于中间的。或者单独使用UMI技术，或者UMI技术与上述标准一起作为family的判断标准。

需要说明的是，本申请中将duplicate ratio作为实验条件便利的度量标准，因此，并不局限于采用本申请上述一种方式来衡量。所有与duplicate ratio值直接相关的度量方式都在本申请的保护范围内，比如1-duplicate ratio（即unique ratio）、1+duplicate ratio或1/duplicate ratio 等。

类似地，本申请中deletion ratio的计算方式除了上述提到的方式外，也可以采用其他的替代方式，但本质上都是与reference相比，重复片段长度减少的重复单元的类型占总的重复单元的类型的比例。因此，所有与deletion ratio直接相关的值都可以作为替代方案，比如1-deletion ratio，1+deletion ratio，2*deletion ratio等。

上述去除具有多态性的微卫星位点时，首先要对各位点的多态性进行评估，该评估过程本质上是判断：频率第一高的重复单元的类型与频率第二高的重复单元的类型是否在相同或者相似的水平。实际操作中，可以通过如下任一种方式来判断：（1）计算频率第一高的重复单元的类型与频率第二高的重复单元的类型，两者的频率的差异是否在某一预定范围；（2）也可以单独比较野生型的重复单元的类型的频率是否低于正常范围（此处的正常范围可以通过野生型的重复单元的类型的频率统计得到），或者（3）deletion ratio是否高于正常范围（此处的正常范围可以通过MSS样本中该位点的长度变短的重复单元的类型的频率统计得到）。

上述通过移动窗口中位值或均值的方式对平均值和标准差进行平滑处理来构建基线的方式，还可以通过构建回归线或构建方程式的方式来实现。

实施例3

本实施例提供了一种微卫星状态的检测方法，该检测方法包括：获得待检样本的测序数据并计算待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio；

将待检样本在相同duplicate ratio水平下与基线进行比较，基线为上述构建方法构建的基线；若该微卫星位点的spanning coverage 达到饱和值（100~200，不同的位点饱和值不同），并且duplicate ratio 大于或等于该位点基线的最低duplicate ratio，则该位点通过质控；若待检样本的位点k deletion ratio(k)(d)> mean(k)(d)+n*Mean(k)(d)，优选地，n为3或4，则判定所属微卫星位点为不稳定；

根据如下条件判断待检样本的微卫星状态：

（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a， a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSI-H；

（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a，a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSS；

（3）若通过质控的位点数目n1<15，则待检样本的微卫星状态判断为待定；

其中，微卫星位点为前述筛选方法所筛选到的用于检测MSI的微卫星位点；

每个微卫星位点的duplicate ratio(d)即为reads重复率，deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanningcoverage的比例。

本申请的微卫星不稳定状态的检测方法，通过首次采用“duplicate ratio”作为描述相关实验变量的度量标准，构建不同duplicate ratio水平下的基线，标准化检测样本的实验变量，使待检样本在相同的duplicate ratio水平下与基线进行比较，以此来降低检测样本与基线样本间由于实验条件差异带来的影响，并结合选择特异性和灵敏度均高的微卫星位点以及改进的去重策略进行微卫星状态的检测，能够有效的降低背景噪音，提高真实突变强度，最终提高MSI检测的灵敏性和特异性并降低MSI-H的最低检出限。

需要说明的是，上述微卫星状态的判断规则，也可以在利用本申请的上述微卫星位点以及基线的基础上，采用机器学习的方式进行判断。

实施例4

本实施例提供了一种微卫星不稳定状态的检测方法，该方法的详细步骤如下：

1）使用(≥30)个coverage高和duplication ratio高的BC样本或者MSS组织样本数据，经过不同程度的降采样（downsampled）处理，获得不同数据量的样本，并计算出每个样本每个微卫星位点的 spanning coverage、duplicate ratio和重复单元类型频率。

1.1 使用软件BWA把测序得到的reads与人类基因组比对，获得比对文件。

1.2 使用picard 对比对文件进行不同比例的随机抽取。

1.3 使用软件samtools 对比对文件进行排序，使用GATK重比对后提取完全覆盖该微卫星位点区域及两翼至少各2bp长度的reads（spanning reads）。

1.4 提取1.3中的spanning read中微卫星位点序列，计算序列长度，每一个长度代表一个重复单元类型。

1.5 对于1.3中的spanning reads对应的reads对，如果read1和read2比对到相同的染色体，计算该read对在染色体最左端的比对位点及插入片段长度，具有相同的染色体最左端比对位点和插入片段长度的reads属于同一个family（家族）。统计属于同一family的重复单元类型的频率，保留频率最高的作为该family的重复单元类型，即“绝对多数投票”策略。如果一个family存在2个或2个以上的最高频率的重复单元类型，该family 不纳入分析。

1.6 按照公式

计算每个位点的duplicate ratio（dup_ratio），其中K代表完全覆盖该位点的某个family，n _total,K是该family(K)的spanning read数目。

1.7 统计位点family数目之和，定义为spanning coverage。

1.8 若该微卫星位点的spanning coverage数目大于该位点spanning coverage饱和值, 该位点通过质控。

1.9 若支持一个重复单元类型的family数目≥2，该重复单元类型有效。

1.10 计算该微卫星位点的每个重复单元类型所占的频率。

1.11 微卫星位点与reference相比，计算长度减少的重复单元类型的family的数目总和与spanning coverage 的比例，即 deletion ratio。

1.12 统计所有原始样本位点多态性。

2）构建不同duplicate ratio 水平下deletion ratio的基线

2.1 按照1）计算出所有经过降采样处理得到的MSS样本在相同duplicate ratio水平下每个微卫星位点的deletion ratio，并去除样本中具有多态性的微卫星位点。

2.2 在不同duplicate ratio(d)水平下，计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为0.01。对于每一个duplicate ratio, 来自同一个样本的降采样处理后的MSS样本只取一个。

2.3 使用移动窗口中位值的方式对平均值和标准差进行平滑处理，最终构建不同duplicate ratio水平下的deletion ratio平均值和标准差作为MSI分析的基线。

3 ) 按照1.1,1.3,1.4,1.5,1.6,1.7,1.8,1.9,1.10和1.11计算待检样本微卫星位点的 spanning coverage、duplicate ratio(d)和deletion ratio。

4) 待检样本在相同duplicate ratio水平下与基线进行比较，若该微卫星位点的spanning coverage 达到饱和值，并且duplicate ratio 大于或等于该位点基线的最低duplicate ratio，则该位点通过质控；进一步若待检样本的位点k的 Deletion ratio(k)(d)> mean(k)(d)+4*Mean(k)(d)，则判定该位点为不稳定。

5) 若通过质控的位点数目≥15, 不稳定位点的数目/通过质控的位点数目≥0.1, 微卫星状态判断为MSI-H。

6) 若通过质控的位点数目≥15, 不稳定位点的数目/通过质控的位点数目<0.1,微卫星状态判断为MSS。

7）若通过质控的位点数目<15, 微卫星状态判断为QNS(Quantity NotSufficient)。

下面将结合具体的实施例来进一步说明本申请的有益效果。

实施例5：MSI位点选择

我们在panel 范围内按照以下顺序对位点进行选择：

1.1 单碱基重复的微卫星序列；

1.2 长度范围为7~15bp；

1.3 碱基为A或者T；

1.4 按照公式∑（11-n）/10，计算微卫星左右两端10bp序列与微卫星序列的相似值，选取相似值≤2的位点；

1.5 计算位点spanning coverage与测序深度的比例，获得spanning ratio，选择spanning ratio高（≥0.2）的位点；

1.6 对118例白膜层样本进行高深度测序，统计每个位点的重复单元类型和每个类型所占的比例，构建频谱图，确定比例最高的等位基因类 (allele type），为了便于计算，选择比例最高的等位基因类 (allele type）与参考序列（reference）一致的位点。实际操作中，若不限制该条件，在计算deleltion ratio时，参考序列（reference）应改为目标族群的野生型等位基因类型 (allele type）。

1.7 对118例外周白膜层样本进行高深度测序，统计每个位点的重复单元类型和每个类型所占的比例，构建频谱图，确定每个位点的多态性比例，选择多态性比例小于5%的位点；

1.8 使用20个肿瘤含量高的MSI-H样本和20个肿瘤含量高MSS的样本，进行wilcoxtest检验，统计每个位点在两组间deletion ratio 的差异性，选择p-value低于0.05的位点。

按照上述步骤，共筛选了37个位点，每个位点的具体信息查看表1。

表1：

其中：

名称：微卫星位点名称；

物理位置：微卫星位点在人类基因组上的坐标；

长度：微卫星位点长度；

相似值：微卫星位点左右两翼各10bp的序列与微卫星位点序列的相似程度，计算公式是∑（11-n）/10，其中n是两翼序列中与微卫星序列相同的碱基与微卫星位点的距离；

Spanning ratio：该位点的spanning coverage数目与样本深度的比例（由于区间捕获效率不同，某些位点的测序深度大于平均深度，spanning ratio大于1）；

多态性比例：微卫星位点在人群队列中呈现多态性的比例；

wilcox p：使用wilcox test 统计在MSI-H和MSS两组样本中，微卫星位点deletion ratio值的差异性。

实施例6：基线构建（即建立阴性样本的不同duplicate ratio水平下的deletionratio的平均值与标准差）

另外选取了143例非小细胞肺腺癌的FFPE样本，按照方法方案中1）和2）步骤构建不同duplicate ratio 水平下deletion ratio的基线数据。在此实施例中duplicateratio 最低值≥0.2，最高值大于0.8，步长为0.01，平滑处理的移动窗口为5，结果如附图1所示。

实施例7：重复单元类型频率分布饱和度分析

使用实施例2中的143例非小细胞肺腺癌的FFPE样本数据按照方法方案中1）进行降采样处理，对每个位点的deletion ratio值饱和度进行评估。随着增加spanningcoverage计算相应的deletion ratio值，画成饱和曲线图，确定进行微卫星分析需要的spanning coverage数目，进而确定位点的质控标准。

附图2是各位点的饱和曲线图，基本上spanning coverage达到100～200，deletion ratio值能够达到饱和。

实施例8：位点长度比较

PCR过程对不同长度的单碱基重复序列的影响是不同的。在实施例4中118个白膜层样本中，统计位点L10A-1,L11T-1,L12T-1,L14A-1,L15T-1和NR-24的背景噪音。其长度分别为10bp、11bp、12bp、14bp、15bp和24bp。

比较结果见图3，从中可以看出：1）背景噪音随着位点长度增加；2）在MSS样本中也存在零散的多态性位点。

实施例9：去重策略比较

评估去重策略对结果的影响。对一个健康人白膜层样本数据进行降采样(downsample)处理，选择 L10A-1、L11T-1、L12T-1、L14A-1、L15T-1和NR-24 5个微卫星位点来评估“不去重（deduplication-free strategy）”、“现有技术中的基于碱基质量值总和最高策略的Picard MarkDuplicates软件去重（sum-of-base-qualities strategy）”以及“本专利中的绝对多数投票策略去重（majority-voting strategy）”方式对微卫星位点重复单元的类型频率分布的影响。结果见图4。

从图4可以看出，使用绝对多数投票策略进行去重，随着数据量和duplicateratio的增加，与reference一致的微卫星重复单元类型比例（Germline Ratio）、长度小于reference 的微卫星重复单元类型的比例（Deletion Ratio）和长度大于reference的微卫星重复单元类型的比例（Insertion Ratio）去重后应该分别是增加，减小和减小。

由此表明：1）绝对多数投票策略去重结果符合预期。2）Picard MarkDuplicates与不去重相比甚至会有负效应，尤其是微卫星长度较长的NR-24。3）不去重的方式，GermlineRatio，DeletionRatio和InsertionRatio基本无变化。

实施例10 不同duplicate ratio对deletion ratio影响的比较

实施例6结果展示了不同duplicate ratio水平下，deletion Ratio值的变化。随着duplicate ratio的增加，MSS样本的deletion ratio值降低，意味着背景噪音的降低（参见图1）。

实施例11 比较不同软件判定微卫星不稳定的准确性

使用已发表并应用比较广泛的单样本微卫星分析软件mSINGS和msisensor-pro分析微卫星状态已知的163例验证样本，这两个软件使用Picard MarkDuplicates去重，并使用Cohen’d值来比较软件的分类效果。结果见图5，从图5可以看出：

1)如果以PCR为金标准，msings的灵敏性为97.4% (38/39)，特异性98.3% (122/124)；msisensor-pro的灵敏性为100% (39/39)，特异性为98.3%(122/124)；deletionratio方法灵敏性为100% (39/39) 特异性为98.3%(122/124)。

共有5个样本在3种软件判断结果不一致，如下表所示。我们从TMB值、肿瘤含量、MMR（MLH1, MSH2, PMS2, MSH6）基因突变、duplicate ratio 以及MSI-score值是否接近它们的阈值这几个方面进一步考虑这5个样本的微卫星状态。

其中，样本GCST85和GCST124由MSI-PCR分类为MSS，而deletion ratio 方法判断为MSI-H，并且样本GCST85同时被mSINGS和msisensor-pro分类为MSI-H。这2例样本经过病理检测，肿瘤含量在相对偏低的20%～40%范围，TMB均为extra-high，并且MMR基因均发生stop-gain突变(GCST85: MLH1, chr3: g.37053343C>A, VAF=12.4%, p.S193X; GCST124:MLH1, chr3: g.37048493C>G, VAF=14.6%, p.S131X)，并且MSI-score值接近MSIsensor-pro和mSINGS阈值，综合以上信息，我们猜测这两个样本真实的微卫星状态是MSI-H。

样本GCST122和GCST133 MSI-PCR分类为MSS，而MSIsensor-pro 和 mSINGS分别判定为MSI-H，这两个样本MSI-score值接近MSIsensor-pro和mSINGS阈值，这两个样本的TMB不是extra high 状态，MMR基因也没有致病突变，并且duplicate ratio 非常高，分别是0.94和0.95。我们假定由于碱基质量值总和最高策略去重策略在过高的duplicate ratio水平下的负效应，导致了MSIsensor-pro和mSINGS的误判，这两个样本的微卫星状态确实是MSS。为了验证该假设，我们把这两个样本的duplicate ratio 通过down-sampled分别降到0.71和0.68，MSIsensor-pro和 mSINGS判定结果改为MSS。这种不直观的观察结果（数据较少但更准确）可以通过减少重复数据消除的负面影响来解释。

对于样本GCST35，MSIsensor-pro 和deletion ratio方法与MSI-PCR 结果一致，均为MSI-H，而mSINGS判断为MSS。

2）Cohen’d 值用来衡量三种工具的效应量，与mSINGS and MSIsensor-pro（分别是2.82和5.40）相比，deletion ratio的Cohen’d 最高（6.74）。

表2：

实施例12 不同软件微卫星不稳定检测的最低检测限（LOD）

4个MSI-H细胞系样本与一个MSS细胞系（12878）样本按照0.9%、2%、3%、4.4%、6.7%、10% 、20%和100%的肿瘤含量混合，起始量为50ng，分别分析deletion ratio，mSINGS和msisensor-pro预测样本的微卫星的状态，并分析最低肿瘤含量检出限。

图6是不同MSI检测软件的最低肿瘤检测限。当灵敏性达到75%时，DeletionRatio，mSINGS和msisensor-pro的LOD分别是6.7%，10.0%和20.0%。

实施例13比较不同肿瘤类型MSI-H的发生率

分析了9068例样本的微卫星状态，统计26种癌肿发生微卫星不稳定的比例，结果如图7所示（有的种类例数太少，所以没有在图上展示）。为了研究不同肿瘤类型MSI-H的发生率，我们排除临床上不能确定类型的样本并限制每个肿瘤类型至少有20例，最终在7667例样本中，总的MSI-H的发生率为1.9%。在非小细胞肺癌中，鳞癌的MSI-H发生率稍微高于腺癌(1.3%和0.5%)；在结直肠癌（CRC）中，结肠癌（COC）的MSI-H发生率要高于直肠癌（REC）(8.8%和3.0%)；发生率最高的是子宫内膜癌（UCEC）和前列腺癌（PRAD）(18.0%和9.5%)，与已有的研究一致(Hause et al. 2016; Bonneville et al. 2017；Vanderwalde et al.2018; Willis et al. 2019)。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本申请的方案能够提高MSI检测准确性，并降低MSI-H样本肿瘤含量最低检测限。具体有以下优点：

1）提高MSI检测准确性

通过引入“duplicate ratio”作为实验变量的度量标准，建立了不同的duplicateratio水平下，deletion ratio的基线（标准化实验条件），计算待检样本位点的duplicateratio并与相同duplicate ratio的基线进行比较，从而降低检测样本与对照样本间实验条件差异的影响。

2）降低MSI-H样本肿瘤含量最低检测限

一方面通过选择适合MSI检测的“绝对多数投票”去重策略降低背景噪音；另一方面采用deletion ratio作为微卫星位点特征值。

3）不需要正常组织样本做参照

通过采用已知的37个人群队列中的单态或者准单态的微卫星位点作为参照。

上述方法中筛选得到了在MSS样本和MSI样本存在显著差异的37个微卫星位点。利用这37个单碱基的重复序列中的任意几个组合作为微卫星位点代替Promega试剂盒中的5个位点，进行微卫星不稳定（MSI）分析，能够提高spanning coverage，降低MSI-H样本肿瘤含量的要求，提高分析结果的稳定性和准确性。

“提高spanning coverage”优点源于采用37个微卫星位点，这些位点均为较短的重复单元类型，进而更容易获得spanning reads。

“降低MSI-H样本肿瘤含量最低检测限”优点源于采用37个微卫星位点，这些位点均为较短的重复单元类型和特定的A或者T碱基，进而PCR造成的背景噪音低。

“提高了分析结果的稳定性和准确性”优点源于1）采用37个微卫星位点，这些位点与两翼序列相似性低，减少比对错误； 2）所选位点的单态性，提高了特异性；3）所选位点在MSI-H 和MSS 之间有显著差异，提高了灵敏性。

从验证样本来看，分析方法结合产品位点可以检出肿瘤含量低至6.67%的样本的MSI状态。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

对应于上述方式，本申请还分别提供了一系类装置，这些装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

下面进一步结合一些可选的实施例来说明本申请的有益效果。

实施例14

本实施例提供了一种用于检测MSI的微卫星位点的筛选装置，该筛选装置包括：第一位点集获取模块、重复单元类型及频率统计模块、第二位点集获取模块以及差异检测及筛选模块，其中，

第一位点集获取模块，用于选取符合第一条件的微卫星位点，记作第一位点集，第一条件包括：a.≤15bp的单碱基重复序列；b.单碱基重复序列为A或T的重复序列；c.与单碱基重复序列的两翼序列相似值低于相似阈值；

重复单元类型及频率统计模块，用于获取多个微卫星稳定样本的测序数据，并从每个微卫星稳定样本的测序数据中筛选出第一位点集，并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型频率；

第二位点集获取模块，用于从第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，第二条件指包括：1）频率最高的重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；

差异检测及筛选模块，用于采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计第二位点集中每个微卫星位点在阴性样本组和阳性样本组之间deletion ratio 的差异性，并保留deletion ratio存在显著差异的微卫星位点。

可选地，第一位点集获取模块包括：第一选择模块，用于从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；相似值计算模块，针对每个微卫星位点，计算7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与A或T单碱基重复序列的相似值；第二选择模块，用于选取相似值低于相似阈值的微卫星位点，作为第一位点集。

优选地，相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是左右两端设定长度的序列中与微卫星位点碱基相同的碱基到微卫星位点的距离，d2为设定长度；优选地，d2为8~12bp，更优选为10bp；

优选地，相似阈值为1.5~2.5，更优选为2。

可选地，重复单元类型及频率统计模块包括：比对模块，用于将每个微卫星稳定样本的测序数据分别与参考基因组序列进行比对，得到比对结果；spanning reads提取模块，用于从比对结果中查找第一位点集，并从比对结果中提取覆盖第一位点集中各微卫星位点的spanning reads，spanning reads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads；去重模块，用于对属于同一重复序列家族的所述spanning reads进行去重，获得每个重复序列家族的重复单元类型；统计模块，用于统计每个微卫星位点中每种重复单元的类型和每种重复单元的类型的频率。

可选地，去重模块包括：第一统计子模块，用于从比对结果中统计属于同一重复序列家族的spanning reads；第二统计子模块，用于统计同一重复序列家族中不同重复单元的类型的数量；重复单元的类型确定模块，用于选择数量最多的重复单元的类型作为同一重复序列家族的重复单元的类型，并计入支持微卫星位点的所述重复单元的类型的family支持数；计算微卫星位点family数目之和，定义为spanning coverage。优选地，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析；优选地，支持每个微卫星位点的各重复单元类型的family的支持数至少为2；优选地，捕获效率以各微卫星位点的spanning coverage与样本的测序深度的比值来衡量，优选捕获阈值≥0.2。

可选地，差异检测及筛选模块采用非参数检验，优选采用wilcox test检验检测差异性；优选p-value <5%。

实施例15

本实施例提供了一种用于检测MSI的基线构建装置，该构建装置包括：获取统计模块，用于获取多个已知MSS样本的测序数据，并对测序数据进行降采样处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的 spanning coverage、duplicate ratio和重复单元的类型频率；以及基线构建模块，用于在spanning coverage 达到饱和值（100~200，不同位点的值不同）的条件下（则通过质检），根据每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicate ratio水平下各微卫星位点的deletion ratio的基线；其中，微卫星位点为前述筛选装置所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio即为reads重复率；deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanningcoverage的比例。

可选地，基线构建模块包括：第一计算模块，用于计算出所有经过降采样处理得到的各MSS样本在相同duplicate ratio水平下每个微卫星位点的deletion ratio；去除模块，用于去除MSS样本中具有多态性的微卫星位点；第二计算模块，用于在不同duplicateratio(d)水平下计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m，优选m为0.01；对于每一个duplicate ratio, 来自同一个样本的降采样处理后的MSS样本只取一个。处理模块，采用如下任一种方式对平均值和标准差进行处理，从而构建出在不同duplicate ratio水平下的deletion ratio平均值和标准差，作为检测MSI的基线：（1）采用移动窗口中位值或均值的方式进行平滑处理；（2）构建回归线；（3）构建回归方程式。

可选地，不同duplicate ratio水平按照如下任意一种方式获得：（1）通过使用软件降采样方式提取按照设定比例从测序数据与参考基因组序列的比对文件提取；（2）通过使用软件经过降采样方式从测序数据（fastq）提取；（3）通过测试不同的duplicate ratio的样本，不经过降采样直接获取。

可选地，按公式I计算duplicate ratio，公式I为：

（I），

需要说明的是，计算duplicate ratio的公式并不限于上述公式I。

可选地，上述构建装置还包括多态性判断模块，用于判断所有MSS样本中各微卫星位点的多态性。

可选地，多态性判断模块选自如下任一模块：

第一频率比较模块，用于计算频率第一高的重复单元的类型与频率第二高的重复单元的类型，并比较两者的频率的差异是否在第一预定范围内；或者

第二频率比较模块，用于比较野生型或与reference长度相同的重复单元的类型的频率是否显著低于第二预定范围；或者

deletion ratio比较模块，用于比较deletion ratio是否显著高于第三预定范围。

实施例16

本实施例提供了一种微卫星状态的检测装置，该检测装置包括：获取计算模块，用于获取待检样本的测序数据并计算待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio；质控模块，用于在spanning coverage达到饱和值并且duplicate ratio 大于或等于该微卫星位点基线的最低duplicate ratio时，该微卫星位点通过质控；比较模块，用于将待检样本在相同duplicate ratio水平下与基线进行比较，基线为上述构建装置构建的基线；不稳定位点判定模块，用于在spanning coverage达到饱和值，且待检样本的位点k的 deletion ratio(k)(d)> mean(k)(d)+n*Mean(k)(d)时，优选地，n为3或4，将该微卫星位点判定为不稳定；微卫星状态判断模块，用于根据如下条件判断待检样本的微卫星状态：（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a，a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSI-H；（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a，a≥0.1，优选地，a=0.1，则待检样本的微卫星状态判断为MSS；（3）若通过质控的位点数目n1<15，则待检样本的微卫星状态判断为待定；其中，微卫星位点为上述筛选装置所筛选到的用于检测MSI的微卫星位点；每个微卫星位点的duplicate ratio(d)即为reads重复率，deletion ratio指微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与spanning coverage的比例。

可选地，按公式I计算待检样本中每个微卫星位点的duplicate ratio(d)，公式I为：

（I），

实施例17

本实施例提供了一种用于检测MSI的微卫星位点，这些微卫星位点包括表1所示的37个微卫星位点中的至少15个。

此外，还提供了一种用于检测MSI的试剂盒，该试剂盒包括表1所示的37个微卫星位点中的至少15个。

实施例18

本实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任一种筛选方法，或者上述任一种构建方法，或者上述任一种检测方法。

本申请还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任一种筛选方法，或者上述任一种构建方法，或者上述任一种检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于检测MSI的微卫星位点的筛选方法，其特征在于，所述筛选方法包括：

选取符合第一条件的微卫星位点，记作第一位点集，所述第一条件包括：a.≤15bp的单碱基重复序列；b.所述单碱基重复序列为A或T的重复序列；c.与所述单碱基重复序列的两翼序列相似值低于相似阈值；

获取多个微卫星稳定样本的测序数据，并从每个所述微卫星稳定样本的所述测序数据中筛选出所述第一位点集，并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型频率；

从所述第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，所述第二条件指包括：1）频率最高的所述重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；

采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计所述第二位点集中每个所述微卫星位点在所述阴性样本组和所述阳性样本组之间deletion ratio 的差异性，并保留所述deletion ratio存在显著差异的微卫星位点；

获取多个微卫星稳定样本的测序数据，并从每个所述微卫星稳定样本的所述测序数据中筛选出所述第一位点集，并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型频率包括：

将每个所述微卫星稳定样本的测序数据分别与参考基因组序列进行比对，得到比对结果；

从所述比对结果中查找所述第一位点集，并从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的spanning reads，所述spanning reads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads；

对属于同一重复序列家族的所述spanning reads进行去重，获得每个重复序列家族的重复单元类型；

统计每个所述微卫星位点的每种所述重复单元的类型和每种所述重复单元的类型的频率；

其中，对属于同一重复序列家族的所述spanning reads进行去重，获得每个重复序列家族的重复单元类型包括：

从所述比对结果中统计属于同一重复序列家族的spanning reads，并统计所述同一重复序列家族中不同重复单元的类型的数量，选择数量最多的所述重复单元的类型作为所述同一重复序列家族的重复单元的类型，并计入支持所述微卫星位点的所述重复单元的类型的family支持数，计算所述微卫星位点family数目之和，定义为spanning coverage；

其中，所述deletion ratio指所述微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与所述spanning coverage的比例，所述family指duplicate 或duplicate reads family，即所述重复序列家族。

2.根据权利要求1所述的筛选方法，其特征在于，从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；

针对每个所述微卫星位点，计算所述7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与所述A或T单碱基重复序列的相似值；

选取所述相似值低于相似阈值的微卫星位点。

3.根据权利要求2所述的筛选方法，其特征在于，所述相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是所述左右两端设定长度的序列中与微卫星位点碱基相同的碱基到所述微卫星位点的距离，d2为所述设定长度。

4.根据权利要求3所述的筛选方法，其特征在于，所述d2为8~12bp。

5.根据权利要求3所述的筛选方法，其特征在于，所述d2为10bp。

6.根据权利要求2所述的筛选方法，其特征在于，所述相似阈值为1.5~2.5。

7.根据权利要求2所述的筛选方法，其特征在于，所述相似阈值为2。

8.根据权利要求1所述的筛选方法，其特征在于，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析。

9.根据权利要求1所述的筛选方法，其特征在于，支持各所述微卫星位点的各重复单元类型的所述family支持数至少为2个。

10.根据权利要求1所述的筛选方法，其特征在于，所述捕获效率以各所述微卫星位点的所述spanning coverage与样本的测序深度的比值来衡量。

11.根据权利要求1所述的筛选方法，其特征在于，所述捕获阈值≥0.2。

12.根据权利要求1所述的筛选方法，其特征在于，采用非参数检验的方法统计所述第二位点集中每个所述微卫星位点在所述阴性样本组和所述阳性样本组之间deletionratio的差异性，并保留所述deletion ratio存在显著差异的微卫星位点。

13.根据权利要求12所述的筛选方法，其特征在于，所述非参数检验为wilcox test检验。

14.根据权利要求13所述的筛选方法，其特征在于，存在显著差异的微卫星位点指 p-value <0.5的所述微卫星位点。

15.一种用于检测MSI的基线构建方法，其特征在于，所述构建方法包括：

获取多个已知MSS样本的测序数据，并对所述测序数据进行降采样处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率；

在spanning coverage 达到饱和值的条件下，根据所述每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicate ratio水平下各所述微卫星位点的deletion ratio的基线；

其中，所述微卫星位点为权利要求1至14中任一项所述的筛选方法所筛选到的用于检测MSI的微卫星位点；

每个微卫星位点的所述duplicate ratio即为reads重复率；

所述deletion ratio指所述微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与所述spanning coverage的比例。

16.根据权利要求15所述的构建方法，其特征在于，构建不同duplicate ratio水平下各所述微卫星位点的deletion ratio的基线包括：

计算出所有经过所述降采样处理得到的各所述MSS样本在相同duplicate ratio水平下每个所述微卫星位点的deletion ratio，并去除所述MSS样本中具有多态性的微卫星位点；

在不同duplicate ratio(d)水平下，计算出位点k的 deletion ratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m；对于每一个duplicate ratio,来自同一个样本的所述降采样处理后的MSS样本只取一个；

17.根据权利要求16所述的构建方法，其特征在于，所述m为0.01。

18.根据权利要求16所述的构建方法，其特征在于，不同duplicate ratio水平按照如下任意一种方式获得：

（1）通过使用软件降采样方式按照设定比例从所述测序数据与参考基因组序列的比对文件提取；

（2）通过使用软件经过降采样方式从所述测序数据提取；

（3）通过测试不同的duplicate ratio的样本，不经过降采样直接获取。

19.根据权利要求18所述的构建方法，其特征在于，按公式I计算所述duplicateratio，所述公式I为：

（I），

其中，K代表完全覆盖所述微卫星位点的某个family，n _total，K是family(K)的spanningreads的数目。

20.根据权利要求16所述的构建方法，其特征在于，在去除所述MSS样本中具有多态性的微卫星位点之前，所述构建方法还包括：判断所有所述MSS样本中各所述微卫星位点的多态性。

21.根据权利要求20所述的构建方法，其特征在于，通过如下任一方式判断所有所述MSS样本中各所述微卫星位点的多态性：

（1）计算频率第一高的重复单元的类型与频率第二高的重复单元的类型，两者的频率的差异是否在第一预定范围内；

（2）比较野生型或与reference长度相同的重复单元的类型的频率是否显著低于第二预定范围；

（3）比较deletion ratio是否显著高于第三预定范围。

22.一种微卫星状态的检测方法，其特征在于，所述检测方法包括：

获得待检样本的测序数据并计算所述待检样本中每个微卫星位点的spanningcoverage、duplicate ratio(d)和deletion ratio；

若所述微卫星位点的spanning coverage 达到饱和值并且duplicate ratio 大于或等于所述微卫星位点的基线的最低duplicate ratio，则所述微卫星位点通过质控；

将所述待检样本在相同duplicate ratio水平下与基线进行比较，所述基线为权利要求15-21中任一项所述的构建方法构建的基线；

若所述待检样本的位点k的 deletion ratio(k)(d)> mean(k)(d)+n*SD(k)(d)，所述n为3或者4，则判定所述微卫星位点为不稳定；

根据如下条件判断所述待检样本的微卫星状态：

（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a，a≥0.1，则所述待检样本的微卫星状态判断为MSI-H；

（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a，a≥0.1，则所述待检样本的微卫星状态判断为MSS；

（3）若通过质控的位点数目n1<15，则所述待检样本的微卫星状态判断为待定；

每个微卫星位点的所述duplicate ratio(d)即为reads重复率；

23.根据权利要求22所述的检测方法，其特征在于，按公式I计算所述待检样本中每个微卫星位点的duplicate ratio(d)和deletion ratio，所述公式I为：

（I），

其中，K代表完全覆盖所述微卫星位点的某个family，n _total，K是family(K)的spanningreads数目。

24.一种用于检测MSI的微卫星位点的筛选装置，其特征在于，所述筛选装置包括：

第一位点集获取模块，用于选取符合第一条件的微卫星位点，记作第一位点集，所述第一条件包括：a.≤15bp的单碱基重复序列；b.所述单碱基重复序列为A或T的重复序列；c.与所述单碱基重复序列的两翼序列相似值低于相似阈值；

重复单元类型及频率统计模块，用于获取多个微卫星稳定样本的测序数据，并从每个所述微卫星稳定样本的所述测序数据中筛选出所述第一位点集，并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型频率；

第二位点集获取模块，用于从所述第一位点集中选择满足第二条件的微卫星位点，作为第二位点集，所述第二条件指包括：1）频率最高的所述重复单元的类型与参考序列一致；2）在建库测序过程中的捕获效率高于捕获阈值；3）在人群中的多态性低于5%；

差异检测及筛选模块，用于采用多个微卫星稳定样本组成的阴性样本组和多个微卫星不稳定样本组成的阳性样本组，统计所述第二位点集中每个所述微卫星位点在所述阴性样本组和所述阳性样本组之间deletion ratio 的差异性，并保留所述deletion ratio存在显著差异的微卫星位点；

其中，所述重复单元类型及频率统计模块包括：

比对模块，用于将每个所述微卫星稳定样本的测序数据分别与参考基因组序列进行比对，得到比对结果；

spanning reads提取模块，用于从所述比对结果中查找所述第一位点集，并从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的spanning reads，所述spanningreads是指覆盖微卫星位点及微卫星位点左右两端至少各2bp的reads；

去重模块，用于对属于同一重复序列家族的所述spanning reads进行去重，获得每个重复序列家族的重复单元类型；

统计模块，用于统计每个所述微卫星位点的每种所述重复单元的类型和每种所述重复单元的类型的频率；

其中，所述去重模块包括：

第一统计子模块，用于从所述比对结果中统计属于同一重复序列家族的spanningreads；

第二统计子模块，用于统计所述同一重复序列家族中不同重复单元的类型的数量；

重复单元的类型确定模块，用于选择数量最多的所述重复单元的类型作为所述同一重复序列家族的重复单元的类型，并计入支持所述微卫星位点的所述重复单元的类型的family支持数，计算所述微卫星位点family数目之和，定义为spanning coverage；

所述deletion ratio指所述微卫星位点与参考序列相比，长度减少的重复单元类型的family的数目总和与所述spanning coverage的比例，所述family即所述重复序列家族。

25.根据权利要求24所述的筛选装置，其特征在于，所述第一位点集获取模块包括：

第一选择模块，用于从人类参考基因组序列中提取7~15bp的A或T单碱基重复序列的微卫星位点；

相似值计算模块，针对每个所述微卫星位点，计算所述7~15bp的A或T单碱基重复序列的左右两端设定长度的序列与所述A或T单碱基重复序列的相似值；

第二选择模块，用于选取所述相似值低于相似阈值的微卫星位点，作为所述第一位点集。

26.根据权利要求25所述的筛选装置，其特征在于，所述相似值按如下公式计算：∑（d2+1-d1）/d2，其中d1是所述左右两端设定长度的序列中与微卫星位点碱基相同的碱基到所述微卫星位点的距离，d2为所述设定长度。

27.根据权利要求26所述的筛选装置，其特征在于，所述d2为8~12bp。

28.根据权利要求27所述的筛选装置，其特征在于，所述d2为10bp。

29.根据权利要求26所述的筛选装置，其特征在于，所述相似阈值为1.5~2.5。

30.根据权利要求26所述的筛选装置，其特征在于，所述相似阈值为2。

31.根据权利要求24所述的筛选装置，其特征在于，存在2个或2个以上的数量最多的重复单元类型的同一重复序列家族不纳入分析。

32.根据权利要求24所述的筛选装置，其特征在于，支持各所述微卫星位点的各重复单元类型的所述family支持数至少为2。

33.根据权利要求24所述的筛选装置，其特征在于，所述捕获效率以各所述微卫星位点的所述spanning coverage与样本的测序深度的比值来衡量。

34.根据权利要求33所述的筛选装置，其特征在于，所述捕获阈值≥0.2。

35.根据权利要求24所述的筛选装置，其特征在于，所述差异检测及筛选模块采用非参数检验。

36.根据权利要求35所述的筛选装置，其特征在于，采用wilcox test检验检测所述差异性。

37.根据权利要求36所述的筛选装置，其特征在于，所述wilcox test检验的p-value <0.5。

38.一种用于检测MSI的基线构建装置，其特征在于，所述构建装置包括：

获取统计模块，用于获取多个已知MSS样本的测序数据，并对所述测序数据进行降采样处理，获得不同数据量的MSS样本，统计出每个样本每个微卫星位点的spanning coverage、duplicate ratio和重复单元的类型频率；

基线构建模块，用于在所述spanning coverage 达到饱和值的条件下，根据所述每个样本每个微卫星位点的duplicate ratio和重复单元的类型频率，构建不同duplicateratio水平下各所述微卫星位点的deletion ratio的基线；

每个微卫星位点的所述duplicate ratio即为reads重复率；

39.根据权利要求38所述的构建装置，其特征在于，所述基线构建模块包括：

第一计算模块，用于计算出所有经过所述降采样处理得到的各所述MSS样本在相同duplicate ratio水平下每个所述微卫星位点的deletion ratio；

去除模块，用于去除所述MSS样本中具有多态性的微卫星位点；

第二计算模块，用于在不同duplicate ratio(d)水平下，计算出位点k的 deletionratio平均值mean(k)(d)以及标准偏差SD(k)(d)，duplicate ratio的步长为m；对于每一个duplicate ratio, 来自同一个样本的所述降采样处理后的MSS样本只取一个；

处理模块，用于对平均值和标准差进行如下任一种处理：（1）采用移动窗口中位值或均值的方式进行平滑处理；（2）构建回归线；（3）构建方程式，从而构建出在不同duplicateratio水平下的deletion ratio平均值和标准差，作为检测MSI的基线。

40.根据权利要求39所述的构建装置，其特征在于，所述m为0.01。

41.根据权利要求38所述的构建装置，其特征在于，不同duplicate ratio水平按照如下任意一种方式获得：

（1）通过使用软件降采样方式提取按照设定比例从所述测序数据与参考基因组序列的比对文件提取；

（2）通过使用软件经过降采样方式从所述测序数据中提取；

42.根据权利要求41所述的构建装置，其特征在于，按公式I计算所述duplicateratio，所述公式I为：

（I），

其中，K代表完全覆盖所述微卫星位点的某个family，n _total,K是family(K)的spanningreads的数目。

43.根据权利要求39所述的构建装置，其特征在于，所述构建装置还包括：多态性判断模块，用于判断所有所述MSS样本中各所述微卫星位点的多态性。

44.根据权利要求43所述的构建装置，其特征在于，所述多态性判断模块选自如下任一模块：

45.一种微卫星状态的检测装置，其特征在于，所述检测装置包括：

获取计算模块，用于获取待检样本的测序数据并计算所述待检样本中每个微卫星位点的spanning coverage、duplicate ratio(d)和deletion ratio；

质控模块，用于当所述微卫星位点spanning coverage 达到饱和值并且duplicateratio 大于或等于所述微卫星位点基线的最低duplicate ratio，则所述微卫星位点通过质控；

比较模块，用于将所述待检样本在相同duplicate ratio水平下与基线进行比较，所述基线为权利要求15-21中任一项所述的构建装置构建的基线；

不稳定位点判定模块，用于在所述待检样本的微卫星位点k的 deletion ratio(k)(d)> mean(k)(d)+n*SD(k)(d)时，所述n为3或4，将所述微卫星位点判定为不稳定；

微卫星状态判断模块，用于根据如下条件判断所述待检样本的微卫星状态：

（1）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1≥a， a≥0.1，则所述待检样本的微卫星状态判断为MSI-H；

（2）若通过质控的位点数目n1≥15，不稳定位点的数目为n2，且n2/n1＜a， a≥0.1，则所述待检样本的微卫星状态判断为MSS；

每个微卫星位点的所述duplicate ratio(d)即为reads重复率，

46.根据权利要求45所述的检测装置，其特征在于，按公式I计算所述待检样本中每个微卫星位点的duplicate ratio(d)，所述公式I为：

（I），

47.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至14中任意一项所述的筛选方法，或者权利要求15至21中任一项所述的构建方法，或者权利要求22至23中任一项所述的检测方法。

48.一种存储介质，其特征在于，所述存储介质用于存储程序，其中，所述程序运行时执行权利要求1至14中任意一项所述的筛选方法，或者权利要求15至21中任一项所述的构建方法，或者权利要求22至23中任一项所述的检测方法。