CN115312120A

CN115312120A - 一种全外显子组测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统

Info

Publication number: CN115312120A
Application number: CN202210948309.8A
Authority: CN
Inventors: 王佳; 鲍远亮; 鲍成佳
Original assignee: Saifu Decoding Beijing Gene Technology Co ltd
Current assignee: Saifu Decoding Beijing Gene Technology Co ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-08

Abstract

本发明提供了一种全外显子测序数据的处理方法、处理系统及一种检测短串联重复疾病相关异常扩增的系统。本发明通过WES测序数据中实际样本真实覆盖度情况定义样本可检测的STR相关基因，比使用WES探针bed区域/bed+flanking区域的是否重叠来评估更准确。本发明提供的全外显子测序数据的处理方法受不同的算法、不同的测序平台、不同的探针、不同的比对软件影响较小，得到的数据结果较为准确。

Description

一种全外显子组测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统

技术领域

本发明涉及医药技术领域，尤其涉及一种全外显子测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统。

背景技术

基因组上外显子占总序列约1-2％，却包含高达85％疾病相关致病性变异。通过序列捕获或靶向技术将全基因组外显子区域DNA富集后的高通量测序方法叫全外显子组测序(WES)，因其全面性、有效性和极高性价比已经成为大多数临床异质性较高疾病的分子诊断首选方案，可以同时检测SNP、Indel、CNV，若增加线粒体环的捕获，还可以同时检测线粒体环基因变异。

短串联重复(STR)，通常指基因组中由1～6个碱基单元(motif)组成的一段DNA重复序列。重复数在个体间高度变异且数量众多，具有丰富的遗传多态性，据估计在人类基因组中有超过一百万STR位点，，占人类基因组的约3％。短串联重复扩增能够导致一系列疾病包括亨廷顿、各种共济失调、肌萎缩性侧索硬化症、额颞叶痴呆、脆X综合征和其他神经系统疾病。同时也有较多的研究表明串联重复多态性(TRP)在多基因疾病的基因表达调控中发挥重要的作用。串联重复相关疾病(TRDs)在表型上并不是一个简单有和无的定义(患病人群和正常人群的比较)，因其特殊性根据其串联重复次数的变化通常导致一种连续的量级的变化(比如发病的年龄、疾病严重程度等)。

目前，对于这类疾病的常规分子诊断是基于精确的PCR扩增或者Southern印迹分析，这需要实验室能精准的扩增每种不同的重复序列，临床医生需要对患者进行准确的诊断，确定最可能与哪些疾病最相关，提交合适的检测。但是STR相关疾病在临床症状、外显率的变异和发病时间上有一定的重叠，主要取决于等位基因的大小和修饰基因的作用。在多达50％的共济失调的患者中，可能是由其它突变比如SNP、Indel等导致。因此在对这些疾病进行分子诊断时，通常还需要对候选基因进行常规测序，比如panel、WES等。有些遗传病因临床表型异质性超高，可能因错误诊断而选择不恰当的检测方法而导致患者无法获得正确的分子诊断确诊。比如齿状核红核苍白球路易体萎缩症(Dentatorubral-pallidoluysianatrophy，DRPLA))是一种进行性常染色体显性遗传疾病，其特征是肌阵挛性癫痫、共济失调、舞蹈手足徐动症/肌张力障碍、认知障碍、痴呆和精神障碍，由ATN1基因CAG三核苷酸串联重复导致，正常人重复次数为7-23次，受累者常为49-88次。DRPLA发病年龄从0岁到70岁，平均发病年龄为30岁。该病临床表现因发病年龄而异：儿童的主要特征是共济失调、智力障碍、行为改变、肌阵挛和癫痫；成人的主要特征是共济失调、舞蹈手足徐动症和痴呆。20岁之前发病的患者通常有进行性肌阵挛性癫痫((PME))表型，其特征为肌阵挛、癫痫发作、共济失调和进行性智力退化，还观察到各种形式的全面性癫痫发作((包括强直、失张力、阵挛或强直-阵挛发作))。对于早发型病人常常因被诊断为癫痫发作、智力障碍而推荐做常规WES检测。

虽然高通量测序技术(NGS)的发展为全基因组检测数以百万计的STR提供了可能性，但是在生信分析中基因分型仍然具有挑战：高GC含量、无法覆盖完整重复的短读长序列、映射到与参考基因组存在差异的大的缺失/插入的STR变异、重复序列本身重复特性无法映射或者映射差、PCR扩增导致的stutter产物(影子带或者DNA聚合酶滑脱产物)噪音影响等。虽然Illumina开发了一个免扩增的(PCR-)的文库制备方法，该方法去除了样本制备(PCR+)中PCR扩增过程中STR stutter错误，可以提高STR分型的准确性。但是，现阶段PCR+方法已经产生了大量的测序数据，PCR-的方法在成本和难度上还存在一定的限制。虽然PCR-的WGS测序有很多的优势，但是WES因其低成本高覆盖，在人类遗传病研究和诊断中发挥着重要的作用。在国内遗传诊断中，WES是临床异质性高的疾病首选的检测方式，因此，从PCR+的测序数据中精确的进行STR分型至关重要。针对WES数据，现有技术开发了较多用于STR分型的工具，但绝大多数限于检测读长范围内的STR，而且因其算法和原理不同，在疾病相关STR鉴定上都存在一定的局限性。比如exSTRa，该算法主要用于在测序的队列样本中检测用户指定的STR序列，其为outlier检测手段，假设大多数(>85％)的个体在特定的STR位点具有正常的等位基因。；又如ExpansionHunter，主要用于WGS数据的STR分析，倾向于PCR-的文库制备，使用预定的阈值来确定个体是否存在STR扩增。

目前NGS短读长测序数据的STR分析的相关研究更多集中在分析算法上，但不同的算法、不同的测序平台、不同的探针、不同的比对软件对最终STR分析结果都存在较大的影响，导致绝大多分子诊断送检样本均会存在分析软件提示的不同程度的异常值。

发明内容

有鉴于此，本发明提供了一种全外显子测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统，本发明提供的全外显子测序数据的处理方法受不同的算法、不同的测序平台、不同的探针、不同的比对软件影响较小，得到的数据结果较为准确。

本发明提供了一种全外显子测序数据的处理方法，包括以下步骤：

步骤S1、获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

获取第二参考数据，所述第二参考数据包括阴性参考样本扩增次数数据；

步骤S2、获取检测样本数据，所述检测样本数据包括检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据、预定的碱基覆盖度下的样本占比数据和检测样本扩增次数数据；

将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对，获得第一比对结果数据；

若所述第一比对结果数据为不符合，则将所述检测样本扩增次数数据与所述阴性参考样本扩增次数数据进行比对，获得第二比对结果数据。

在一些实施例中，所述步骤S1具体包括：

获取STR相关疾病基因数据，确定STR相关疾病异常扩增的靶标区域数据；

获取参考样本的WES测序数据，对比所述参考样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据，获得参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

采用ExpansionHunter软件对参考样本中阴性样本的WES测序数据进行分析，获得阴性参考样本扩增次数数据。

在一些实施例中，所述步骤S2具体为：

获取检测样本的WES测序数据，对比所述检测样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据，获得检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

采用ExpansionHunter软件对检测样本的WES测序数据进行分析，获得检测样本扩增次数数据。

在一些实施例中，所述步骤S1还包括：对所述阴性参考样本扩增次数数据进行修正，获得修正后的阴性参考样本扩增次数数据。

在一些实施例中，对所述阴性参考样本扩增次数数据进行修正具体为：

获取阳性样本的实际扩增次数数据和WES测序数据；

采用ExpansionHunter软件对阳性样本的WES测序数据进行分析，获得阳性样本的预测扩增次数数据；

根据所述阳性样本的实际扩增次数数据和预测扩充次数，对所述阴性参考样本扩增次数数据进行修正。

在一些实施例中，还包括：

采用exSTRa软件对所述参考样本的WES测序数据进行分析，获得所述参考样本中阳性样本的STR计算得分；

采用exSTRa软件对所述检测样本的WES测序数据进行分析，获得所述检测样本的STR计算得分。

本发明还提供了一种全外显子测序数据的处理系统，包括第一参考数据获取单元，所述第一参考数据单元用于获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

第二参考数据获取单元，所以第二参考数据获取单元用于获取第二参考数据，所述第二参考数据包括阴性参考样本扩增次数数据；

检测样本数据获取单元，所述检测样本数据获取单元用于获取检测样本数据，所述检测样本数据包括检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据、预定的碱基覆盖度下的样本占比数据和检测样本扩增次数数据；

第一比对单元，所述第一比对单元用于将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对，获得第一比对结果数据；

第二比对单元，所述第二比对单元用于比对所述检测样本扩增次数数据与所述阴性参考样本扩增次数数据，获得第二比对结果数据。

在一些实施例中，所述第一参考数据获取单元包括STR相关疾病基因数据获取单元，所述STR相关疾病基因数据获取单元用于获取STR相关疾病基因数据，确定STR相关疾病异常扩增的靶标区域数据；

参考样本WES测序数据获取单元，所述参考样本WES测序数据获取单元用于获取参考样本的WES测序数据；

第三比对单元，所述第三比对单元用于对比所述参考样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据，获得参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据。

在一些实施例中，所述检测样本数据获取单元包括检测样本WES测序数据获取单元，所述检测样本WES测序数据获取单元用于获取检测样本的WES测序数据；

第四比对单元，所述第四比对单元用于对比所述检测样本的WES测序数据与所述STR相关疾病异常扩增的靶标区域数据，获得检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

检测样本扩增次数数据处理单元，用于采用ExpansionHunter软件对检测样本的WES测序数据进行分析，获得检测样本扩增次数数据。

本发明还提供了一种检测短串联重复疾病相关异常扩增的系统，包括第一参考数据获取单元，所述第一参考数据单元用于获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

第二比对单元，所述第二比对单元用于比对所述检测样本扩增次数数据与所述阴性参考样本扩增次数数据，获得第二比对结果数据；

预测系统，所述预测系统用于根据第一比对结果数据和第二比对结果数据，获得短串联重复疾病相关异常扩增的预测结果。

本发明通过WES测序数据中实际样本真实覆盖度情况定义样本可检测的STR相关基因，比使用WES探针bed区域/bed+flanking区域的是否重叠来评估更准确。本发明提供的全外显子测序数据的处理方法受不同的算法、不同的测序平台、不同的探针、不同的比对软件影响较小，得到的数据结果较为准确。

附图说明

图1为本发明实施例提供的检测短串联重复疾病相关异常扩增的流程示意图；

图2为本发明实施例获取STR相关疾病基因靶标区域内覆盖度情况的流程示意图；

图3为STR疾病相关基因正常扩增范围内实际观测值和软件预测值；

图4为致病性STR变异过滤指标和评估标准流程示意图。

具体实施方式

本发明提供了一种全外显子测序数据的处理方法、系统及一种检测短串联重复疾病相关异常扩增的系统。本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

参见图1，图1为本发明实施例提供的检测短串联重复疾病相关异常扩增的流程示意图，具体而言，本发明实施例提供的检测短串联重读疾病相关异常扩增方法包括以下步骤：

1)STR相关疾病的列表、WES产品的靶标区域内覆盖度情况获取：

首先进行STR相关罕见遗传病基因变异信息收集和实际生产数据样本WES测序数据(即生产数据样本比对后的WES bam文件)，对两种数据进行分析，获得STR相关疾病异常扩增的靶标区域数据(STR变异及侧翼序列相关区域bam文件)，并获得STR变异及侧翼序列相关区域覆盖度等数据；

2)常规分析软件流程搭建和本地库构建：

例如以软件ExpansionHunter和exSTRa对不同样本的WES测序数据进行分析处理，分别构建本地阴性样本(即正常人)STR样本集和本地特异基因STR异常参考集；

3)软件预测和实验扩增次数差异评估

4)致病性STR变异过滤指标和评估标准确定

根据STR疾病相关异常过滤指标和评估标准对上述分析结果进行评估，将其列入重点关注的Y标签或后续回顾的L标签。

6)疾病相关异常扩增STR鉴定标准灵敏性和特异性评估。

本发明首先获取STR相关疾病基因靶标区域内覆盖度情况，参见图2，图2为本发明实施例获取STR相关疾病基因靶标区域内覆盖度情况的流程示意图。

本发明首先通过检索确定现有文献中公开的STR相关疾病基因，例如使用关键词STR、short tandem repeat或者genetic disorder等在OMIM数据库和PubMed等数据库中获取STR相关疾病基因，共计38个基因，并确定疾病相关异常扩增的发生的基因组区域和疾病相关异常扩增范围，包括最小值min_abnorm和最大值Max_abnorm。对于目标区域长度10bp以下的STR区间，将区间上下游延伸至25bp，确定STR相关疾病异常扩增的靶标区域数据，生成STR-gene bed文件。

本申请从生产数据，即实际样本中获取WES测序数据(以bam文件保存)，例如200个，统计STR相关疾病异常扩增的靶标区域内所有碱基的覆盖度以及测序覆盖度达到1X、10X、20X等的碱基占比，以及预定覆盖度下碱基占比满足条件，例如大于95％的实际样本的比例。使用实际WES探针产品真实检测情况下的覆盖度而非产品bed文件的重叠值可以更好的确定靶标区域内有足够的reads覆盖用于评估异常扩增的情况。结果参见表1，表1为STR相关疾病基因WES测序数据靶标区域内满足不同覆盖度样本占比。

表1 STR相关疾病基因WES测序数据靶标区域内满足不同覆盖度样本占比

其中：现有区域覆盖a，1：完全；2：覆盖有波动；3：覆盖不好。

本发明以ExpansionHunter和exSTRa作为常规分析软件，根据上述获取的38个疾病相关基因按照软件要求准备相关位点文件。使用软件的默认参数，对样本的WES测序数据进行分析，例如：

ExpansionHunter：

使用软件的默认参数，分析每个阳性样本，命令行如下：

ExpansionHunter--reads smp.bam--reference reference.fa--variant-catalog/path/hg38/variant_catalog.json--output-prefix smp

参数说明：

--reads 待检测的bam文件

--reference 参考基因组fasta文件

--variant-catalog 已知变异信息的STR位点文件

--output-prefix 输出文件的前缀

每个检测样本可获取候选位点预测的扩增次数。

exSTRa：

根据STR-gene bed，对于每个STR区域，分别向两侧各延伸500bp后获取新的STR-gene flanking500 bed文件，并使用原始文件截取STR-gene flanking500 bed中的区域bam，获取对照target bam文件。使用来自https://github.com/bahlolab/Bio-STR-exSTRa的Perl脚本和模块来读取对照和检测样本target bam并生成STR计数。使用R exSTRa包进行候选的STR得分计算，包括P value、t值、差异可视化等。

对约317个正常人样本(即阴性样本)的ExpansionHunter结果进行整理，统计本地正常人的STR扩增次数，构建本地正常人数据库。提取阴性样本的扩增次数，排序后，选择low最小值和up次大值，使用这2个值作为正常人扩张次数的范围(Norm_min_CG；Norm_max_CG)。因为软件预测会存在一些假阳性，选择次大值是为了避免一些假阳性数据导致正常扩增范围上限增大而产生一些假阴性的数据。

表2不同STR基因本地正常人软件预测扩增次数

样本数据表示：检测样本中可提示该基因扩增次数数据的总样本数，对于覆盖度差或未覆盖的区域ExpansionHunter无法进行扩增次数的预测。

本申请在建立本地库后，对软件预测结果和实际实验扩增次数的差异进行评估，从而对扩增次数数据进行修正。市场上成熟的动态突变检测产品常使用PCR+毛细管电泳的方式进行检测。常见的检测基因或疾病包括齿状核红核苍白球路易体萎缩症(DRPLA)、弗里德里希综合征(FRDA)、肯尼迪综合征(SBMA)、脆X染色体综合征(FX)、强直性肌营养不良(DM)、亨廷顿舞蹈症(HD)、脊髓小脑共济失调八型(1-3型、6-8型、12型、17型)、脊髓小脑共济失调十型(1-3型、6-8型、12型、17型，FRDA，DRPLA)。汇总临床送检的动态突变产品相关的实验检测扩增数据，并获取相关样本的WES数据，进行ExpansionHunter扩增次数预测，共计80个样本，涉及到13个基因，这些均为临床诊断率较高的基因。比较STR疾病相关基因正常扩增范围内实际观测值和软件预测值的差异，结果参见图3，图3为STR疾病相关基因正常扩增范围内实际观测值和软件预测值，图3中，X轴表示部分动态突变相关基因，Y轴表示观察值-预测值的差值，蓝色表示两等位基因中最小值差，黄色表示两等位基因中最大值的差。结果发现观测值普遍小于预测值，而有少数几个基因观测值与预测值差异的波动范围较大，最高达20个重复的差异。比如SCA17平均少20个重复，SCA3平均少5个重复。SCA2比较平均，都是2次重复的差异。表现最好的5个基因为ATN1、ATXN1、PPP2P2B、ATXN2、HTT、TBP其次为ATXN3、CACNA1A、ATXN7、ATXN8、DMPK。将每个STR正常扩增范围内实际观察和软件预测的平均差值为Diff，将具有Diff的基因的对应的Min_abnorm进行修订，Min_abnorm修＝Min_abnorm-Diff。

在本发明的一些实施例中，采用候选致病性STR变异过滤指标和评估标准对按照上文所述的方法获得的数据进行分类，参见图4，图4为候选致病性STR变异过滤指标和评估标准流程示意图，具体过程如下：

Y标准过滤条件如下：这些记录需要根据患者临床症状进行重点关注。

1)根据上文所述的方法获取相关数据，选择靶标区域>20X覆盖度样本占比大于90％的基因，满足条件基因作为L组起始入组基因。

2)选择疾病相关最小异常扩增值在NGS测序读长范围内(即Min_abnorm*扩增碱基单元数<150bp,满足条件基因作为Y标准入组基因。

3)选择检测样本对应基因最大扩增次数>Norm_max_CG的数据；

4)选择检测样本对应基因最大扩增次数>Min_abnorm修的数据；

5)选择exSTRa分析受检样本和对照库扩增差异显著性Pvalue<0.05。

L标准过滤条件如下：

在满足Y标准1)的条件下，选择满足3)、4)、5)任一标准的STR扩增数据均作为L标准入组到后续大规模回顾性分析。

本申请对38个STR基因数据按照上述方法进行处理，获得结果如下：

Y标准入组基因为：ATXN1、ATXN2、ATXN3、CACNA1A、ATXN7、PPP2R2B、TBP、DMPK、HTT、ATN1；

L标准入组基因为：PPP2R2B、TBP、ATXN1、ATXN2、NOP56、ATXN3、CACNA1A、ATXN7、ATXN8、JPH3、HTT、DMPK、AR、ATN1、LRP12、TCF4、GLS、NOTCH2NLC、NUTM2BA_S1。

本申请还进一步对疾病相关异常扩增STR鉴定标准灵敏性和特异性评估，具体如下：评估仅针对Y标准入组基因(10个)进行，选择18个动态突变产品检测出疾病相关异常扩增基因样本进行WES测序，并按照上述流程进行分析，最终共获得的个具有与疾病相关异常扩增阳性的WES数据，共计180条记录，参见表3。其中符合Y标准的17个，符合L标准48+17个。

Y标准下：

灵敏度(TPR)：true positive rate，描述识别出的所有正例占所有正例的比例；

计算公式为：TPR＝TP/(TP+FN)。TP：true positive，真阳性、FN：False Negative，假阴性。

TPR＝17/17+1＝94.4％；

特异度(TNR)：true negative rate，描述识别出的负例占所有负例的比例；

计算公式为：TNR＝TN/(FP+TN)。TN：True Negative，真阴性，FP：False Positive，假阳性

TNR：(180-18)/(0+162)＝100％

即入组检测阳性样本中，Y标准下，灵敏度为94.4％，特异度为100％。保证通过该方法标准为Y的记录有足够的证据证明其为一个真的异常扩增。其中假阴性样本中出现的ATXN3(SCA3)因其exSTRa pvalue不满足要求而被定义为L标准。根据上文所述的实验和预测差异分析可见SCA3的波动稍大，导致差异显著性统计出现偏差导致。L标准下的ATXN3基因需要特别关注。

表3阳性动态突变实验样本WES数据STR检测结果

基于此，本发明提供了一种全外显子测序数据的处理方法，包括以下步骤：

本发明首先获取第一参考数据和第二参考数据，其过程具体如下：

本申请首先获取STR相关疾病数据，确定STR相关疾病异常扩增的靶标区域数据。在一个具体的实现方式中，本申请通过检索现有文献获取STR相关疾病数据，例如在OMIM和PubMed等数据库中获取STR相关疾病基因，并确定STR相关疾病发生异常扩增的基因区域和范围，即靶标区域。具体而言，所述STR相关疾病异常扩增的靶标区域数据包括基因片段长度最小值Min_abnorm和基因片段长度最大值Max_abnorm。为了提高后续数据处理的准确性，对于基因片段长度小于10bp的靶标区域，将其上下游序列进行延伸，例如延伸至25bp，获得STR相关疾病异常扩增的靶标区域数据。

本申请提供的处理方法包括获取参考样本的WES测序数据的步骤，在一些实施例中，所述参考样本的WES测序数据可以为检测机构获得的与STR相关疾病相关的WES测序结果。统计STR相关疾病异常扩增的靶标区域内所有碱基的覆盖度，确定参考样本的WES测序数据中STR相关疾病异常扩增的靶标区域，并根据STR相关疾病异常扩增的靶标区域内所有碱基的覆盖度确定参考样本的WES测序数据STR相关疾病异常扩增的靶标区域中覆盖度达到1X、10X、20X、30X等的碱基占比，同时统计预定覆盖度下碱基占比满足条件，例如大于95％的参考样本的比例。

本发明提供的处理方法包括获取第二参考数据的步骤，所述第二参考数据包括阴性参考样本扩增次数数据。在一些可能的实现方式中，本申请采用ExpansionHunter软件对参考样本中阴性样本的WES测序数据进行分析，获得阴性参考样本扩增次数数据，具体而言，所述阴性参考样本扩增次数数据为扩增次数范围，由扩增次数最小值(Norm_min_CG)和扩增次数次大值(Norm_max_CG)分别作为所述扩增次数范围的上限和下限。

进一步的，所述第二参考数据还包括阳性参考样本扩增次数数据，其处理方法与阴性参考样本扩增次数数据获取方法类似，本申请在此不再赘述。

在一些可能的实现方式中，所述第二参考数据还包括参考样本中阳性样本的STR计算得分数据，具体而言，本申请采用exSTRa软件对所述参考样本的WES测序数据进行分析，获得所述参考样本中阳性样本的STR计算得分数据，例如P值(P Value)、t值、差异可视化等。

在一些可能的实现方式中，本申请还可以包括对所述阴性参考样本扩增次数数据进行修正的过程，具体为：

步骤1、获取阳性样本的实际扩增次数数据和WES测序数据；

步骤2、采用ExpansionHunter软件对阳性样本的WES测序数据进行分析，获得阳性样本的预测扩增次数数据；

步骤3、根据所述阳性样本的实际扩增次数数据和预测扩增次数，对所述阴性参考样本扩增次数数据进行修正。

具体而言，步骤1、步骤2的过程与上文所述的获取过程相类似，本申请在此不再赘述。获得阳性样本的实际扩增次数和预测扩增次数后，计算两者的差值，并根据该差值对所述阴性参考样本扩增次数数据进行修正。

本发明提供的处理方法还包括步骤S2：

获取检测样本数据，所述检测样本数据包括检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据、预定的碱基覆盖度下的样本占比数据和检测样本扩增次数数据；

所述步骤S2中获取检测样本数据的过程与步骤S1中获取第一参考数据和第二参考数据的过程类似，具体为：

获得检测样本数据后，将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对，获得第一对比数据，例如预定的靶标区域的碱基覆盖度达到20X以上，碱基的样本占比数据为90％以上，若检测样本相应的数据满足上述预定条件，即将所述检测样品的数据列入L标准入组基因。

若检测样本相应的数据不满足上述预定条件，则对其进行下一步判断。在一个具体的实施方案中，所述检测样本数据还包括检测样本异常扩增的发生的基因组区域和疾病相关异常扩增范围，包括最小值Min_abnorm和最大值Max_abnorm。如果检测样本相应的数据不满足上述预定条件时，继续比对所述检测样本的异常扩增的发生的基因组区域的最小值Min_abnorm，获得第二比对结果数据。具体而言，将Min_abnorm与NGS测序读长进行比对，若Min_abnorm在NGS测序读长范围内，则将所述检测样本数据列入Y标准入组基因，若Min_abnorm不在NGS测序读长范围内，则对所述检测样本数据进行进一步的比对分析。

具体而言，进一步比对分析包括：将检测样本数据中的最大扩增次数与所述阴性样本的扩增次数数据进行比对分析，包括以下比对分析的至少一种：

(1)将所述检测样本数据的最大扩增次数与所述阴性样本的扩增次数的次大值(Norm-max-CG)进行比对分析，如该最大扩增次数不大于Norm-max-CG，则将该数据列为L标准入组基因，如该最大扩增次数大于Norm-max-CG，则列为Y标准，作为临床解读重点关注数据；

(2)将所述检测样本数据的最大扩增次数与所述修正后的阴性样本的扩增次数的最小值(Min_abnorm修)进行比对分析，若该最大扩增次数不大于修正后的阴性样本的扩增次数的最小值，则将该数据列为L标准入组基因，若该最大扩增次数大于修正后的阴性样本的扩增次数的最小值，则列为Y标准，作为临床解读重点关注数据；

(3)获取所述检测样本数据中采用exSTRa计算获得的P值，若该P值≥0.05，则将数据列为L标准入组基因，若P值<0.05，则列为Y标准，作为临床解读重点关注数据。

本发明提供了一种全外显子测序数据的处理系统，包括第一参考数据获取单元，所述第一参考数据单元用于获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

在一个具体的实现方式中，所述第一参考数据获取单元包括STR相关疾病基因数据获取单元，所述STR相关疾病基因数据获取单元用于获取STR相关疾病基因数据，确定STR相关疾病异常扩增的靶标区域数据；

在一个具体的实现方式中，所述检测样本数据获取单元包括检测样本WES测序数据获取单元，所述检测样本WES测序数据获取单元用于获取检测样本的WES测序数据；

检测样本扩增次数数据处理单元，用于采用Min_abnorm软件对检测样本的WES测序数据进行分析，获得检测样本扩增次数数据。

本发明提供的数据处理系统用于实现上述数据处理方法，各单元的作用在于实现数据处理方法的各步骤，本申请在此不再赘述。

具体而言，所述预测系统用于对所述第一比对结果数据和第二比对结果数据进行分析，获得短串联重复疾病相关异常扩增的预测结果。获得检测样本数据后，将所述检测样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据与所述参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据进行比对，获得第一对比数据，例如预定的靶标区域的碱基覆盖度达到20X以上，碱基的样本占比数据为90％以上，预测系统根据所述第一对比数据判断将该检测样本列入L入组标准基因还是进行下一步判断，若检测样本相应的数据满足上述预定条件，即将所述检测样品的数据列入L标准入组基因。

若检测样本相应的数据不满足上述预定条件，则对其进行下一步判断。在一个具体的实施方案中，所述检测样本数据还包括检测样本异常扩增的发生的基因组区域和疾病相关异常扩增范围，包括最小值Min_abnorm和最大值Max_abnorm。如果检测样本相应的数据不满足上述预定条件时，继续比对所述检测样本的异常扩增的发生的基因组区域的最小值Min_abnorm，获得第二比对结果数据。具体而言，将Min_abnorm与NGS测序读长进行比对，若Min_abnorm在NGS测序读长范围内，预测系统将所述检测样本数据列入Y标准入组基因，若Min_abnorm不在NGS测序读长范围内，，则对所述检测样本数据进行进一步的比对分析。

(1)将所述检测样本数据的最大扩增次数与所述阴性样本的扩增次数的次大值(Norm_max_CG)进行比对分析，如该最大扩增次数不大于Norm_max_CG，则将该数据列为L标准入组基因，如该最大扩增次数大于Norm_max_CG，则列为Y标准，作为临床解读重点关注数据；

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种全外显子测序数据的处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的处理方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的处理方法，其特征在于，所述步骤S2具体为：

4.根据权利要求1～3任意一项所述的处理方法，其特征在于，所述步骤S1还包括：对所述阴性参考样本扩增次数数据进行修正，获得修正后的阴性参考样本扩增次数数据。

5.根据权利要求4所述的处理方法，其特征在于，对所述阴性参考样本扩增次数数据进行修正具体为：

获取阳性样本的实际扩增次数数据和WES测序数据；

6.根据权利要求1～3任意一项所述的处理方法，其特征在于，还包括：

7.一种全外显子测序数据的处理系统，其特征在于，包括第一参考数据获取单元，所述第一参考数据单元用于获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；

8.根据权利要求7所述的处理系统，其特征在于，所述第一参考数据获取单元包括STR相关疾病基因数据获取单元，所述STR相关疾病基因数据获取单元用于获取STR相关疾病基因数据，确定STR相关疾病异常扩增的靶标区域数据；

9.根据权利要求8所述的处理系统，其特征在于，所述检测样本数据获取单元包括检测样本WES测序数据获取单元，所述检测样本WES测序数据获取单元用于获取检测样本的WES测序数据；

10.一种检测短串联重复疾病相关异常扩增的系统，其特征在于，包括第一参考数据获取单元，所述第一参考数据单元用于获取第一参考数据，所述第一参考数据包括参考样本的STR相关疾病基因靶标区域内碱基覆盖度数据和预定的碱基覆盖度下的样本占比数据；