CN117831631A

CN117831631A - 一种改进二代测序数据微卫星不稳定性计算的新方法

Info

Publication number: CN117831631A
Application number: CN202311784597.9A
Authority: CN
Inventors: 袁媛; 姜昕; 赵德志; 郭云涛; 周昊天; 吴星辰; 朱云; 唐帅男; 付国龙; 朱瑾; 秦飞; 马端
Original assignee: SHANGHAI GENOMEPILOT TECHNOLOGY Inc
Current assignee: SHANGHAI GENOMEPILOT TECHNOLOGY Inc
Priority date: 2023-12-23
Filing date: 2023-12-23
Publication date: 2024-04-05

Abstract

本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法，包括：对原始测序数据质量进行评估；将测序序列数据回贴至参考基因组，得到比对文件；从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息；从比对文件中提取微卫星序列结构信息中的微卫星位点的测序信息，并根据微卫星位点的测序信息进行过滤和归一化处理，并根据处理结果和基线数据进行待检测微卫星位点的状态评估，得到待检测微卫星位点特征和待检测微卫星位点的稳定状态，并进行可视化显示输出。本发明对于微卫星不稳定性计算之前，对二代测序数据进行系统分析，通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求。

Description

一种改进二代测序数据微卫星不稳定性计算的新方法

技术领域

本发明涉及生物标记物组合筛选技术领域，特别是涉及一种改进二代测序数据微卫星不稳定性计算的新方法。

背景技术

微卫星(Microsatellite)DNA序列是基因组中一类具有特殊结构的序列，它是由1～10bp碱基组成的重复结构，如“G-CACACACACACACACACACA-A”一段长为20bp的微卫星DNA序列中，CA为重复单元，重复次数为10次。微卫星DNA的重复次数因人而异，且部分微卫星序列出在DNA的编码区，如一些重要蛋白基因的外显子、启动子区域。相比非重复序列，微卫星DNA在DNA复制过程中更容易出现错配。

细胞在DNA复制过程中不可避免的会出现碱基错配现象，导致子代细胞DNA携带错配碱基并发生突变。这种突变如果被遗传到新产生的细胞中将会引起细胞性状发生改变甚至癌变。为了避免在DNA复制过程中出现错误，生物体内存在一种错配修复(MismatchRepair,MMR)体系，确保DNA复制过程的“保真性”。MMR系统中包括MutSc和MutLa两大家族蛋白，其中前者包括MSH2、MSH3和MSH6等，后者包括MLH1、MLH3、PMS1和PMS2。

若MMR系统存在缺陷，易发生错配的微卫星序列结构无法得到正确及时的修复，就会对下游基因的表达和蛋白的形态功能产生影响，这种现象就叫做微卫星不稳定(Microsatellite Instability,MSI)。根据MSI不稳定的程度，可分为微卫星高度不稳定(Microsatellite Instability-high,MSI-H)、微卫星低度不稳定(MicrosatelliteInstability-low,MSI-L)和微卫星稳定(Microsatellite Stable,MSS)。当生物体表现出MSI-H状态时，相关的基因就会出现很多的新生外显子，这些外显子编码的蛋白肽段对生物体免疫系统来说是外来的，继而激发特异性T细胞应答，因此MSI-H携带者使用免疫治疗可以强化自身对肿瘤的免疫反应，更容易见效。

大量研究表明，MSI参与恶性肿瘤的发生发展过程，与结肠癌、直肠癌、胃癌、子宫内膜癌、林奇综合征等发生密切相关。例如，90％的林奇综合征患者表现出MSI-H状态，因此MSI-H可作为林奇综合征疾病初筛的标志物；与MSS的结直肠癌患者相比，携带MSI-H状态的结直肠癌患者预后更好，提示MSI-H可作为结直肠癌预后的独立预测因子。

目前MSI检测对象多为组织类型样本，且检测方式各有其局限性：

(1)PCR结合毛细管电泳法(PCR-MSI)：通常选择5-11个单核苷酸重复位点，长度为25bp左右，PCR扩增后通过毛细管电泳测量其长度分布区间，来确定样本的MSI状态，该方法目前被认为是“金标准”检测方法。该检测方法需要受检者同时提供血液样本。仅有极少数医院开展了该检测方法对MSI状态检测，且多为外送检测。另外，该检测方法纳入检测的微卫星位点数目受到电泳方法的影响，一次实验可检测的位点数目及其有限。因此，什么样的微卫星位点适合纳入该检测方法，临床上没有给出明确的参考和指导意见。市面上目前常见的微卫星位点有：BAT25、BAT26、D2S123、D5S346、D17S250、NR21、NR22、NR24、NR27和MONO27。通过各种组合方式，市面上被大量认可的组合有2B3D、Promega、NCI等。

(2)免疫组化法(IHC-MSI)：选择对MLH1、MSH2、MSH6和PMS2四种蛋白表达情况进行检测，该检测方法可由医院进行独立检测。该检测方法依赖的是MMR系统缺陷引起的DNA复制过程中错配不断累积，从而导致MSI现象的发生和携带者发生肿瘤易感。大量临床数据显示，约占5％的MSI-H携带者的肿瘤组织中这4种蛋白的表达量处于正常水平，MMR系统中除了这四种蛋白外还有多个成员，仅用MLH1、MSH2、MSH6和PMS2蛋白的表达情况无法完全反映MMR系统是否存在缺陷的情况，也就无法从侧面反映出受检者的MSI状态。另外，免疫组化实验依赖的是“抗原-抗体相互作用”的原理，现实中是存在不影响蛋白抗原结构但影响蛋白功能和表达的变异，这种情况下免疫组化法无法准确地真实地反映出受检者微卫星状态。

(3)二代测序检测法(NGS-MSI)：选择对大量的微卫星位点进行测序分析，计算每一个微卫星位点的重复次数，以参考样本的重复次数平均值和标准差建立稳定状态的波动区间，评估每一个位点的微卫星稳定状态，最终以不稳定位点的占比作为判断受检组织样本的MSI状态的评估条件。该检测方法的优势在于可以通过一次检测实现足够多的微卫星序列测序，同时刻画基因组图谱，提供癌症诊断更丰富的信息。结合二代测序“边合成边测序、短读长”的特征，选择合适的微卫星位点便成了该检测方法的重中之重。

随着二代测序技术的不断完善，NGS-MSI与金标准PCR-MSI的一致性极高，但与PCR-MSI检测方法微卫星位点数量稀少不同的是，NGS-MSI可以纳入大量的微卫星位点信息，更加全面的评估受检样本的MSI状态。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种改进二代测序数据微卫星不稳定性计算的新方法。

为实现上述目的，本发明提供了如下方案：

一种改进二代测序数据微卫星不稳定性计算的新方法，包括：

对原始测序数据质量进行评估，得到评估后的测序序列数据；

将测序序列数据回贴至参考基因组，以明确序列关联的基因信息，去除低质量序列和PCR重复序列，对有效序列进行质控分析，得到比对文件；

从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息；

从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息，并根据所述微卫星位点的测序信息进行过滤和归一化处理，并根据处理结果和基线数据进行待检测微卫星位点的状态评估，得到待检测微卫星位点特征和待检测微卫星位点的稳定状态；

对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。

优选地，对原始测序数据质量进行评估，得到评估后的测序序列数据，包括：

查看所述原始测序数据测序质量结果，得到测序序列；所述测序质量结果包括碱基质量得分值分布、GC含量分布和碱基平衡性；

去除测序序列两端可能为接头的部分；

去除N碱基数目不满足条件的测序序列；

去除总长不满足条件的测序序列；

去除测序序列3’端的ployA尾巴；

对过滤后的测序序列计算重复度、平均长度，并根据所述重复度和平均长度对所述测序序列进行评估，以得到评估后的测序序列数据。

优选地，将测序序列数据回贴至参考基因组，以明确序列关联的基因信息，去除低质量序列和PCR重复序列，对有效序列进行质控分析，得到比对文件，包括：

将所述测序序列数据比对到参考基因组，获得初始文件；

对所述初始文件进行坐标排序和重复标记，获得比对文件；

查看所述比对文件的质量结果；所述比对文件的质量结果包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度和PCR重复率。

优选地，从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息，包括：

对参考基因组序列进行扫描，获得所有微卫星位点的信息表；

将所述信息表的每个微卫星位点的repeat_unit_length字段数值分别与repeat_times字段数值相乘，若乘积小于120则另存入基础文件；

针对基础文件的每一个微卫星位点，若所述微卫星位点的repeat_unit_length字段数值大于2，则剔除出basic文件，若所述微卫星位点的repeat_times字段数值小于11，则剔除出basic文件，得到剔除后的微卫星序列结构信息。

优选地，从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息，并根据所述微卫星位点的测序信息进行过滤和归一化处理，并根据处理结果和基线数据进行待检测微卫星位点的状态评估，得到待检测微卫星位点特征和待检测微卫星位点的稳定状态，包括：

从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息，并存入mpileup文件；所述测序信息包括测序深度和重复单元重复次数；

获取mpileup文件的第一个微卫星位点测序信息；

针对mpileup文件的每一个微卫星位点测序信息，若coverage字段数值小于100，则剔除出mpileup文件；

针对剔除后的mpileup文件的每一个微卫星位点的readbases字段信息，统计该重复单元在每一条测序序列上的相对重复次数；

根据所述相对重复次数进行分布统计，得到分布信息，并将所述分布信息保存至msi.txt文件；

对于所有基线正常组织样本每个微卫星位点，重复次数种类占比峰值位于25％-75％之间，且对于所有基线正常组织样本每个微卫星位点，以重复次数占比的均值mean和标准差std为基础，寻找最大范围的连续区间，保证95％的样本在对应微卫星位点携带的重复次数种类落入该区间，并将该区间确定该微卫星位点在基线正常组织样本的peak区域，并将所述peak区域作为MSS状态下该微卫星位点的重复次数特征，获得基线文件；

对于待检测组织样本的各微卫星位点的特征，以所述基线文件中peak区域为标准，若该特征落入peak区域，则认为该微卫星位点稳定；否则认为该微卫星位点不稳定；

统计微卫星位点中不稳定位点个数的占比Mscore，当Mscore值小于10％，待检测组织样本判为MSS；高于20％，待检测组织样本判为MSI-H；介于10％～20％之间，则将待检测组织样本判为MSI-L；

将各微卫星的稳定状态和Mscore值另存入MSI_analysis.txt文件。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法，包括：对原始测序数据质量进行评估，得到评估后的测序序列数据；将测序序列数据回贴至参考基因组，以明确序列关联的基因信息，去除低质量序列和PCR重复序列，对有效序列进行质控分析，得到比对文件；从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息；从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息，并根据所述微卫星位点的测序信息进行过滤和归一化处理，并根据处理结果和基线数据进行待检测微卫星位点的状态评估，得到待检测微卫星位点特征和待检测微卫星位点的稳定状态；对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。本发明对于微卫星不稳定性计算之前，对二代测序数据进行系统分析，如Q20/30、GC含量、插入片段长度、目标区域上靶率、均一性、比对率、目标区域有效平均测序深度等，通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的主要分析流程示意图；

图3为本发明实施例提供的质量控制流程图；

图4为本发明实施例提供的序列回贴流程图；

图5为本发明实施例提供的待检组织样本微卫星不稳定计算流程图；

图6为本发明实施例提供的候选微卫星位点筛选流程图；

图7为本发明实施例提供的下机数据各碱基测序错误率示意图；

图8为本发明实施例提供的不合格微卫星位点分布特征示意图；

图9为本发明实施例提供的终选微卫星位点分布特征示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的方法流程图，如图1所示，本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法，包括：

步骤100：对原始测序数据质量进行评估，得到评估后的测序序列数据；

步骤200：将测序序列数据回贴至参考基因组，以明确序列关联的基因信息，去除低质量序列和PCR重复序列，对有效序列进行质控分析，得到比对文件；

步骤300：从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息；

步骤400：从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息，并根据所述微卫星位点的测序信息进行过滤和归一化处理，并根据处理结果和基线数据进行待检测微卫星位点的状态评估，得到待检测微卫星位点特征和待检测微卫星位点的稳定状态；

步骤500：对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。

如图2所示，本实施例的分析流程包括以下五个模块：

(1)质量控制：对原始测序数据质量进行评估，减少低质量数据，降低测序数据噪音，为后续分析提供有效数据；

(2)序列回贴：将测序数据回贴至参考基因组，明确序列关联的基因信息，去除低质量序列和PCR重复序列，对有效序列进行质控分析，为后续分析结果准确性提供质控信息；

(3)微卫星结构信息获取：从参考基因组序列和基因组注释信息，获得全基因组的微卫星序列结构信息，含基因组位置坐标、重复单元结构、重复单元长度、重复单元基础重复次数等。后续纳入分析的微卫星位点需具备以下基本特征：重复单元长度*重复单元基础重复次数<120；

(4)微卫星序列测序信息获取：对序列回贴后的数据进行提取处理，并进行过滤和归一化处理。与基线数据相比，微卫星位点的状态评估；

(5)统计报告：统计待检测微卫星位点特征、待检测微卫星位点的稳定状态，并输出可视化图表。

其中上述模块(1)具体包括：

1.1查看测序质量结果，包括碱基质量得分值分布、GC含量分布、碱基平衡性等；统计Total Reads、Total Bases、Q20、Q30、GC Content、N Bases等；

1.2去除测序序列两端可能为接头的部分；

1.3去除N碱基数目不满足条件的测序序列(对)；

1.4去除总长不满足条件的测序序列(对)；

1.5去除测序序列3’端的ployA尾巴(仅针对Illumina NextSeq/NovaSeq测序平台)；

1.6对过滤后的测序序列计算重复度、平均长度；

其中上述模块(2)具体包括：

2.1把模块(1)中获得的序列，比对到参考基因组获得比对文件；

2.2对2.1得到的比对文件进行坐标排序和重复标记，获得比对文件；

2.3查看2.2得到比对文件的质量结果，包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度、PCR重复率等；其中上述模块(3)具体包括：

3.1对参考基因组序列进行扫描，获得所有微卫星位点的信息表；

3.2获取3.1信息表的第一个微卫星位点；

3.3将3.2提取位点的repeat_unit_length字段数值与repeat_times字段数值相乘，若乘积小于120则另存入basic文件；

3.4重复上述3.3步骤，直至3.1信息表里所有微卫星位点被遍历，获得basic文件；

3.5获取3.4basic文件的第一个微卫星位点；

3.6若3.5提取位点的repeat_unit_length字段数值大于2，则剔除出basic文件；

3.7若3.5提取位点的repeat_times字段数值小于11，则剔除出basic文件；

3.8重复上述3.6-3.7步骤，直至3.4basic文件里所有微卫星位点被遍历，获得advanced文件；

其中上述模块(4)具体包括：

4.1从上述模块(2.2)中获得的比对文件中提取上述模块(3.8)中获得的advanced文件中的微卫星位点的测序信息，包括测序深度、重复单元重复次数等，存入mpileup文件；

4.2获取4.1mpileup文件的第一个微卫星位点测序信息；

4.3若4.2提取位点的coverage字段数值小于100，则剔除出mpileup文件；

4.4重复上述4.3步骤，直至4.1mpileup文件里所有微卫星位点被遍历；

4.5获取4.4mpileup文件的第一个微卫星位点测序信息；

4.6根据4.4提取位点的readbases字段信息，统计该重复单元在每一条测序序列上的相对重复次数(基于上述模块(3.8)中获得的advanced文件内微卫星位点repeat_times字段数值而言)；

4.7根据4.6获得的重复次数，进行分布统计。分布信息保存至msi.txt文件；

4.8重复上述4.6-4.7步骤，直至4.4mpileup文件里所有微卫星位点被遍历，获得msi.txt文件；

4.9以上4.1-4.8步骤针对待检测组织样本和基线正常组织样本均适用。

4.10对于所有基线正常组织样本，收集4.8msi.txt文件，统计描述基线样本各微卫星位点测序片段出现的重复次数分布特征，包括大概率出现的重复次数、重复次数种类等；

4.10.1对于所有基线正常组织样本每个微卫星位点，重复次数种类占比峰值位于25％-75％之间；

4.10.2对于所有基线正常组织样本每个微卫星位点，以重复次数占比的均值mean和标准差std为基础，寻找最大范围的连续区间，保证～95％的样本在对应微卫星位点携带的重复次数种类落入该区间，该区间称为该微卫星位点在基线正常组织样本的peak区域；

4.10.3满足以上4.10.1-4.10.2条件的peak区域，作为MSS状态下该微卫星位点的重复次数特征，获得基线文件baseline；

4.11对于待检测组织样本，收集4.8msi.txt文件，统计各微卫星位点测序片段出现的重复次数分布特征；

4.11.1对于待检测组织样本的各微卫星位点的特征，以4.10baseline文件中peak区域为标准，若该特征落入peak区域，则认为该微卫星位点稳定；否则认为该微卫星位点不稳定；

4.11.2统计微卫星位点中不稳定位点个数的占比Mscore，当Mscore值小于10％，待检测组织样本判为MSS；高于20％，待检测组织样本判为MSI-H；介于二者之间，待检测组织样本判为MSI-L；

各微卫星的稳定状态(0为稳定，1为不稳定)、Mscore值另存入MSI_analysis.txt文件。

作为一种可选的实施方式，本实施例中的分析流程包括：①质量控制→②序列回贴+质量控制→③微卫星不稳定性计算→④结果统计，如具体步骤和方法如下：

一质量控制，如图3所示。

1.1-1.5利用fastp软件对二代测序下机数据进行“1.2步骤去除接头序列”和“1.3步骤去除低质量测序序列对”处理，命令如下：fastp-i<R1.fastq.gz>-I<R2.fastq.gz>-o<trimR1.fastq>-O<trimR2.fastq>-j fastp.json；本发明利用更快速高效的python程序，统计1.2-1.3步骤处理前后，含1.1步骤查看的rawbases、rawreads、Nbases、Q20、Q30、GC数量及相关比例；含1.4步骤查看的clean bases、cleanreads、Nbases、Q20、Q30、GC数量及相关比例；含1.5步骤查看的重复度；

1.6本步骤是本分析方法关键步骤之一，该步骤的相关指标决定了本次二代测序数据是否提供高质量数据trimR1/2.fastq供后续分析。

二序列回贴+质量控制，如图4所示。

2.1将步骤(1)中获得的“高质量数据trimR1/2.fastq”，利用bwa-mem2软件回贴到参考基因组获得比对文件，命令如下：bwa-mem2 mem-t<threads_num>-R<read_group_info><reference.fasta><trimR1.fastq><trimR2.fastq>-o<sample.sam>；

2.2利用samtools软件对2.1获得的比对文件bwa.sam按照参考基因组坐标进行排序，获得排序后的比对文件，命令如下：samtools sort-@<threads_num>-O BAM-o<sample.sorted.bam><sample.sam>；

2.3利用sambamba软件对2.2获得的比对文件bwa.sorted.bam进行PCR重复标记，获得PCR重复标记后的比对文件，命令如下：sambambamarkdup-t<threads_num><sample.sorted.bam><sample.sorted.markdupl.bam>；

2.4利用shell程序组合优化后的bamdst、gatk、samtools软件，实现对PCR重复标记后的比对文件sample.sorted.markdupl.bam进行质量查看，其中包括的指标有：比对率、均一性、上靶率、错配率、有效深度、覆盖度、插入片段长度、污染率；

2.5本步骤是本分析的另一个关键步骤之一，该步骤的相关指标决定了本次二代测序实验是否提供合格的比对文件sample.sorted.markdupl.bam供后续分析。

三微卫星不稳定性计算，如图5所示。

3.1将步骤(2)中获得的比对文件sample.sorted.markdupl.bam，根据“终选微卫星位点信息”提供的坐标，利用samtools软件提取微卫星位点测序信息文件sample.msi.mpileup，命令如下：samtools mpileup-A-E-f<reference.fasta>-l<msi_position>-o<sample.msi.mpileup><sample.sorted.markdupl.bam>；

3.2对3.1获得的微卫星位点测序信息文件sample.msi.mpileup进行初级过滤，过滤条件如下：coverage>100，即微卫星位点覆盖的有效reads数大于100，该位点为有效的微卫星位点，对应的测序信息为有效微卫星位点测序信息。对有效微卫星位点测序信息进行特征分布统计，获得有效微卫星位点特征分布文件sample.msi.txt；

3.3将3.2获得的有效微卫星位点特征分布文件sample.msi.txt，与“终选微卫星位点MSS特征”提供的peaks区域进行联合计算判断；

3.4当任意有效微卫星位点符合MSS特征，stable MSI数值加1；反之unstable MSI数值加1；

3.5以3.4获得的stable/unstable MSI数值计算Mscore值，即Mscore＝unstableMSI/(unstable MSI+stable MSI)，获得不稳定微卫星位点数目占比值Mscore；

3.6若3.5获得的Mscore值大于0.2，判定待检样本为MSI-H；

3.7若3.5获得的Mscore值不满足大于0.2的条件，进一步判断Mscore值是否大于0.1，若满足条件，则判定待检样本为MSI-L；反之则为MSS。

四结果统计

本分析模块对下机数据质量(含各碱基测序错误率，过滤reads特征占比等)、碱基平衡性、纳入分析的微卫星位点特征进行了相关统计并输出了可视化图，如图7-9所示。

关于步骤(3.3)引入的“终选微卫星位点MSS特征”文件，如图6所示，采用以下步骤获得：

01扫描参考基因组序列获得所有微卫星位点序列信息msi.list，含染色体chromosome信息、坐标location信息、重复单元长度repeat_unit_length信息、参考基因组序列中重复单元重复次数repeat_times信息、重复单元碱基repeat_unit_bases信息；

02对步骤(01)获得的微卫星位点序列信息msi.list中每一个微卫星位点进行判断：当该位点的repeat_unit_length*repeat_times>＝120时，舍弃该位点，进行下一个位点判断，直至所有位点完成判断，获得微卫星位点序列信息basic.msi.list文件；

03对步骤(02)获得的微卫星位点序列信息basic.msi.list中每一个微卫星位点进行判断：当该位点的repeat_unit_length>＝3时，舍弃该位点，进行下一个位点判断，直至所有位点完成判断；

04对完成步骤(03)判断的每一个微卫星位点进行判断：当该位点的repeat_times<＝10时，舍弃该位点，进行下一个位点判断，直至所有位点完成判断，获得待选微卫星位点序列信息advanced.msi.list，包含染色体chromosome信息、坐标location信息、重复单元长度repeat_unit_length信息、参考基因组序列中重复单元重复次数repeat_times信息、重复单元碱基repeat_unit_bases信息；

05将步骤(2)中获得的比对文件sample.sorted.markdupl.bam(正常/MSS样本),根据步骤(04)获得的“待选微卫星位点信息advanced.msi.list”提供的坐标，利用samtools软件提取测序信息，获得待选微卫星位点测序信息文件sample.msi.mpileup，命令如下：samtools mpileup-A-E-f<reference.fasta>-l<msi_position>-o<sample.msi.mpileup><sample.sorted.markdupl.bam>；

06对步骤(05)获得的待选微卫星位点测序信息文件sample.msi.mpileup进行初级过滤；

07当任一待选微卫星位点覆盖的有效reads数小于等于100，即coverage<＝100时，舍弃该位点，进行下一个位点判断，直至所有待选微卫星位点完成判断；

08对完成步骤(07)判断的每一个待选微卫星位点测序信息进行特征分布分析，

获得待选微卫星位点特征分布文件sample.msi.txt。对于大量基线正常样本而言，汇总统计获得大样本下的特征信息，含大概率出现的重复次数、重复次数种类等，并进行过滤；

09当任一待选微卫星位点的重复次数种类分布极值小于25％或大于75％，舍弃该位点，进行下一个位点判断，直至所有待选微卫星位点完成判断；

10对完成步骤(09)判断的微卫星位点特征分布信息进行整理，获得终选微卫星位点特征分布文件candidate.msi.txt；

11以步骤(10)获得的终选微卫星位点特征分布文件candidate.msi.txt，以重复次数占比的均值mean和标准差std为基础，寻找最大范围的连续区间，保证～95％的样本在对应微卫星位点携带的重复次数种类落入该区间，该区间称为该微卫星位点在基线正常组织样本的peak区域。以每个终选微卫星位点的peaks区域作为其MSS特征。

本发明的有益效果如下：

(1)测序数据质量控制系统化：本方法对于微卫星不稳定性计算之前，对二代测序数据进行系统分析，如Q20/30、GC含量、插入片段长度、目标区域上靶率、均一性、比对率、目标区域有效平均测序深度等，通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求；

(2)微卫星位点选择标准规范化：本方法对于纳入微卫星不稳定性计算的微卫星位点的选择进行了规范化，基于二代测序的特征，选择重复单元长度更小、稳定性有明显差异的位点，确保每一个微卫星位点都可以准确反映待测组织样本的MSI真实状态；

(3)微卫星不稳定性计算流程化：为了提高计算效率，本方法对于Mscore值的计算锁定在目标区域内进行，这个区域可以根据实际检测需要进行相应调整；

(4)数据可视化：本分析方法结果中除了提供有效的表格文件外，还生成了形象的信息图，使得更多的数据信息得以展示，也使得结果一目了然。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种改进二代测序数据微卫星不稳定性计算的新方法，其特征在于，包括：

2.根据权利要求1所述的改进二代测序数据微卫星不稳定性计算的新方法，其特征在于，对原始测序数据质量进行评估，得到评估后的测序序列数据，包括：