CN108052798B

CN108052798B - 处理高通量测序数据的方法、装置、存储介质及处理器

Info

Publication number: CN108052798B
Application number: CN201711175443.4A
Authority: CN
Inventors: 陶炳忠
Original assignee: LIAONING KEJUN BIOLOGICAL CO Ltd
Current assignee: LIAONING KEJUN BIOLOGICAL CO Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2020-08-07
Anticipated expiration: 2037-11-22
Also published as: CN108052798A

Abstract

本发明提供了一种处理高通量测序数据的方法、装置、存储介质及处理器。其中，处理高通量测序数据的方法包括：利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；以及将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果。通过用目的区域扩增引物筛选出完全覆盖目标区域的测序数据，而利用该部分测序数据能够使得目标区域的5'端和3'端覆盖深度的均一度大大提高，解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题。

Description

处理高通量测序数据的方法、装置、存储介质及处理器

技术领域

本发明涉及测序数据处理领域，具体而言，涉及一种处理高通量测序数据的方法、装置、存储介质及处理器。

背景技术

二代测序基因突变检测，是利用高通量测序仪产生大量DNAread(读长)序列数据，对同一个位点多次覆盖，通过变异reads和未变异reads的数量比值计算位点变异频率的方法。

在当前对基因突变的生物信息学分析方法中，当测序数据下机之后，对数据进行质量控制(质控)，质控操作一般包括去除短read(≤25bp的read)，修剪3'端测序质量不好的碱基，然后使用所有数据测序数据进行分析。使用以上方法进行统计分析时，往往存在检测结果不准确的问题。

因此，急需对现有的测序数据分析方法进行改进，以提高检测结果的准确性。

发明内容

本发明的主要目的在于提供一种处理高通量测序数据的方法、装置、存储介质及处理器，以解决现有技术中的测序数据的处理结果存在不准确的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种处理高通量测序数据的方法，该方法包括：利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；以及将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果。

进一步地，将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果的步骤包括：将完全覆盖目标区域的reads与参考基因组进行初次比对，获得候选变异位点信息，候选变异位点信息包括候选变异位点的所在位置及变异类型；根据各候选变异位点的所在位置，从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；以及将修正后reads与参考基因组进行再次比对，获得比对结果。

进一步地，候选变异位点为InDel，位于目标区域的reads内，且距离目标区域的reads的5’端＜5bp，优选＜8bp的位置，则从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得修正后reads。

进一步地，候选变异位点为单核苷酸变异，位于目标区域的reads内，且距离目标区域的reads的3’端或5’端≥5bp，优选≥8bp的位置，则从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

进一步地，候选变异位点为单核苷酸变异，候选变异位点位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点，则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

进一步地，利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads的步骤包括：将高通量测序数据进行质控处理，获得质控后reads；以及利用目的区域扩增引物筛选质控后reads，获取完全覆盖目标区域的reads。

为了实现上述目的，根据本发明的一个方面，提供了一种处理高通量测序数据的装置，该装置包括：第一获取单元和第二获取单元，第一获取单元用于利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；第二获取单元用于将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果。

进一步地，第二获取单元包括：第一比对模块、修正模块以及第二比对模块，第一比对模块用于将完全覆盖目标区域的reads与参考基因组进行初次比对，获得候选变异位点信息，候选变异位点信息包括候选变异位点的所在位置及变异类型；修正模块用于根据各候选变异位点的所在位置，从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；第二比对模块用于将修正后reads与参考基因组进行再次比对，获得比对结果。

进一步地，修正模块包括第一修正子模块，第一修正子模块用于当候选变异位点为InDel，且位于目标区域的reads内，并距离目标区域的reads的5’端＜5bp，优选＜8bp的位置时，从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得修正后reads。

进一步地，修正模块包括第二修正子模块，第二修正子模块用于当候选变异位点为单核苷酸变异，且位于目标区域的reads内，并距离目标区域的reads的3’端或5’端≥5bp，优选≥8bp的位置时，从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

进一步地，修正模块包括第三修正子模块，第三修正子模块用于当候选变异位点为单核苷酸变异，且位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点时，从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

进一步地，第一获取单元包括质控模块和筛选模块，质控模块用于将高通量测序数据进行质控处理，获得质控后reads；筛选模块用于利用目的区域扩增引物筛选质控后reads，获取完全覆盖目标区域的reads。

根据本发明的另一方面，提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在的设备执行上述任一种方法。

根据本发明的另一方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述任一种方法。

应用本发明的技术方案，通过用目的区域扩增引物筛选出完全覆盖目标区域的测序数据，而利用该部分测序数据能够使得目标区域的5'端和3'端覆盖深度的均一度大大提高，解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了现有的高通量测序结果中存在的5'端的测序质量高于3'端测序质量的示意图；

图2示出了现有的测序处理方法在比对时，若与3'末端＜5bp的位置存在InDel位点容易进行soft clipped标记的示意图；

图3示出了现有方法构建的文库的结构示意图；

图4示出了现有的高通量测序所获得的reads的结构示意图；

图5示出了本申请所提供的目标区域3'端的soft clipped的解决原理示意图；

图6a至图6d示出了本申请所提供的从目标区域中剪切扩增引物序列的各种情况的示意图；

其中，图6a示出的是单核苷酸变异在目标区域中间，没有出现在目标区域两端5bp内，更优选8bp内时，剪切掉5'端和3'端两端的扩增引物序列的示意图；

图6b示出的是目标区域2的扩增引物序列覆盖目标区域1的候选变异位点，则剪切掉目标区域2的5'端和3'端两端的扩增引物序列的示意图；

图6c示出的是距离目标区域的3'末端＜8bp的位置存在InDel位点，则剪切掉5'端的扩增引物序列，保留3'端的扩增引物序列的示意图；

图6d示出的是：距离目标区域的5'末端＜8bp的位置存在InDel位点，则剪切掉3'端的扩增引物序列，保留5'端的扩增引物序列的示意图；

图7示出了本申请一种优选的实施例中利用本申请的方法与现有方法对测序数据进行处理后所得到的目标区域从5'到3'端的覆盖均一性的比较结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

术语解释：

Soft clipped：当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads比对软件标记为soft-clipped reads。

tmap/bwa：常用的DNA比对软件，实现把短reads快速准确定位到参考基因组上的功能，两种软件都支持soft clipped比对。

InDel：Insertion和Deletion缩写，指基因组中有一定数量碱基的插入或缺失，在癌症基因检测中关注与癌症相关的碱基插入缺失。

Hotspots：患病人群突变检测数据统计显示与疾病显著相关的DNA变异位点，或者在患病人群中经常检测到的DNA变异位点。

Target Sequence：目标区域，即文库中所携带的待检测是否存在变异的目的片段。

针对现有技术中存在的，同一样品的测序数据通过不同的生物统计学分析方法进行突变分析往往会得到不同的测序结果，从而使得测序结果不准确的问题，发明人对其中的原因进行了深入分析和研究，发现测序结果不准确存在以下两方面的原因：

(1)如图1所示，由于二代测序技术存在5'端的测序质量高于3'端测序质量的现象，在质控过程中3'端数据修剪比5'端严重，这就造成目标区域(Target Sequence)可能出现5'端较3'端覆盖深度逐渐递减现象。这种测序深度的变化可能导致检测位点左侧覆盖深度高于右侧覆盖深度，如果被修剪reads的最后一碱基是变异检测点，将会导致变异reads末尾1bp与参考基因组比对失败，导致变异频率计算不准确。

(2)现有的比对软件，当测序序列与参考基因组序列发生不一致(例如InDel)时，右侧至少5bp才确定右侧比对上(例如tmap软件)。如图2所示，假设3'末端发生InDel，一般比对软件要求缺失(gap)两侧都需有一定长度的比对序列(如tmap软件默认为5bp)。如果InDel位点距离目标区域末端距离较小(比如，tmap小于5bp)，则出现3'末端不能准确比对到参考基因组上的情况，此时比对软件判断3'末端比对不一致，进行soft clipped标记。这种情况导致InDel reads比对不准确，进而使得变异检测结果计算不准确。

发明人针对现有的建库方法和高通量测序方法，采用目标区域进行扩增的扩增引物序列来筛选测序数据，保留目标区域全覆盖的reads数据来进行比对。具体措施如下：

(1)解决目标区域覆盖深度不一致问题。

现有方法构建的文库片段的结构示意图如图3所示，从5’端到3’端依次包括A接头序列(SEQ ID NO:1：ctgagtcggagacacgcagggatgagatgg)、CS1序列(SEQ ID NO:2：tgtgactgctgtaccaagatgt)、引物1序列、目标区域序列、引物2序列、CS2序列(SEQ ID NO:3：atgccatcgtctctgaaccaga)以及P1序列(SEQ ID NO:4：atcaccgactgcccatagagaggaaagcggaggcgtagtgg)。而测序reads序列结构示意图如图4所示，从5’端到3’端依次包括CS1序列、引物1序列、目标区域序列、引物2序列、CS2序列以及P1序列。

由于同一文库中包含多条目标区域，且目标区域的长度不同，测序时为了保证所有目标区域的碱基被完全测序，一般选择最长片段计算每次测序加入dNTP循环的(flow)数量，所以较短的目标区域reads末端可能包含长度不相同的P1序列。文库中引物1(目标区域扩增的正向引物)片段和引物2(目标区域扩增的反向引物)片段靠近目标区域有约20bp左右的序列与人类基因型(hg19)对应位置同源。

本申请中，利用文库构建时所用到的用于扩增目标区域片段的扩增引物序列，在质控完成后，利用目标区域的正反向扩增引物序列的位置筛选测序reads，保证用于分析检测位点的reads包括完整的目标区域，从而解决目标区域5'端和3'端覆盖深度不一致带来的检测结果不准确问题。

(2)解决目标区域两端soft clipped导致的检测结果不准确问题。

A.目标区域3'端soft clipped解决原理如图5所示，而5'端的soft clipped的解决原理与3'端类似。

如图2所示，针对目标区域3'端发生soft clipped的问题，本申请选择保留reads3'端引物2(目标区域扩增的反向引物)序列，由于引物2序列长度大约20bp，reads保留引物2序列后，在发生Del位点右侧长度大约25bp，使得比对软件(tmap/bwa)可以正确识别参考基因组的位置，因而此时变异分析软件能够正确计算位点的突变频率。

B.保留引物位点判断

在实际变异检测过程中，第一步PCR扩增引物序列不属于目标区域(TargetSequence)，并且如果扩增引物序列区域有突变，将会影响检测到的变异位点的准确性。所以reads中引物必须被剪切。

具体剪切扩增引物序列的具体情况可以根据扩增引物序列的位置信息，目标区域(Target Sequence)信息，热点突变(hotspots)(即候选的变异位点)信息，来判断热点突变(hotspots)位点是否在目标区域(Target Sequence)两端，以及扩增引物序列是否覆盖热点突变(hotspots)位点，进而确定如何剪切。

剪切扩增引物序列的具体的情况如图6a至图6d所示：其中，

图6a示出的是：单核苷酸变异在目标区域(Target Sequence)中间，没有出现在目标区域(Target Sequence)两端5bp内，更优选8bp内时，则剪切掉5'端和3'端两端的扩增引物序列。

图6b示出的是：目标区域(Target Sequence)2的扩增引物序列覆盖目标区域(Target Sequence)1的候选变异位点，则剪切掉目标区域(Target Sequence)2的5'端和3'端两端的扩增引物序列。

图6c示出的是：距离目标区域(Target Sequence)的3'末端＜8bp的位置存在InDel位点，则剪切掉5'端的扩增引物序列，保留3'端的扩增引物序列。

图6d示出的是：距离目标区域(Target Sequence)的5'末端＜8bp的位置存在InDel位点，则剪切掉3'端的扩增引物序列，保留5'端的扩增引物序列。

在上述研究结果的基础上，申请人提出了本申请的技术方案。在本申请一种典型的实施方式中，提供了一种处理高通量测序数据的方法，该方法包括：利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；以及将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果。

本申请的上述处理高通量测序数据的方法，通过用目的区域扩增引物筛选出完全覆盖目标区域的测序数据，而利用该部分测序数据能够使得目标区域的5'端和3'端测序覆盖深度的均一度大大提高，解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题。

在上述解决了5'端和3'端测序覆盖深度不一致问题的基础上，为了进一步降低目标区域5'端和3'端两端存在soft clipped而导致的检测结果不准确问题，在本申请一种优选的实施例中，将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果的步骤包括：将完全覆盖目标区域的reads与参考基因组进行初次比对，获得候选变异位点信息，候选变异位点信息包括候选变异位点的所在位置及变异类型；根据各候选变异位点的所在位置，从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；以及将修正后reads与参考基因组进行再次比对，获得比对结果。

通过根据目的区域的扩增引物可能对变异发生位点的检测结果是否产生影响，而根据具体变异位点发生的位置及变异类型，选择性地剪切掉目标区域5'端和/或3'端的扩增引物序列，这样在尽量确保所有目的区域都被完全覆盖的基础上，又避免了扩增引物序列自身存在的变异位点对待检测的目标区域的变异位点造成干扰而使得检测结果不准确的现象。

具体地，剪切不同目标区域的其中一端或同时剪切两端的扩增引物序列的具体情况，可以根据不同变异位点所在的位置及变异的具体类型进行合理设置。具体地，可以通过设计软件程序来实现。

在本申请一种优选的实施例中，候选变异位点为InDel，位于目标区域的reads内，且距离目标区域的reads的5’端＜5bp，优选＜8bp的位置，则从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得修正后reads。

该实施例中由于InDel仅发生在5’端＜5bp的位置，影响着5’端的soft clipped，而不3’端的目的区域扩增引物序列，因而将3’端的目的区域扩增引物序列剪切掉，对目的变异位点的检测并无影响，而避免了5’端发生soft clipped而可能导致检测不准确的现象。

在本申请一种优选的实施例中，候选变异位点为单核苷酸变异，位于目标区域的reads内，且距离目标区域的reads的3’端或5’端≥5bp，优选≥8bp的位置，则从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

该实施例中，单核苷酸变异发生在目标区域的中间位置，与3’端或5’端均无关系，因而可以将两端的扩增引物序列进行剪切，从而减少扩增引物序列所可能带来的变异检测干扰，从而使得检测结果更准确。

在本申请一种优选的实施例中，候选变异位点为单核苷酸变异，候选变异位点位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点，则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

该实施例中，单核苷酸变异发生在第一目标区域上，而同时也发生在第二目标区域的扩增引物序列上，因而，为避免第二扩增引物序列上可能存在的变异位点与该变异位点的检测造成干扰，因而将第二目标区域两端的扩增引物序列进行剪切，从而减少检测干扰，从而使得检测结果更准确。

本申请的处理高通量测序数据的方法是在现有的二代测序数据常规处理方法基础上进行的上述改进，因而，上述处理所针对的测序数据与常规的处理方法所针对的测序数据一样，都是经过初步质控后的测序数据。

在本申请一种优选的实施例中，利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads的步骤包括：将高通量测序数据进行质控处理，获得质控后reads；以及利用目的区域扩增引物筛选质控后reads，获取完全覆盖目标区域的reads。

上述具体的质控处理包括过滤下机的高通量测序数据中低质量的测序数据，保留30bp滑窗平均质量值大于16的测序数据。

在本申请第二种典型的实施方式中，提供了一种处理高通量测序数据的装置，该装置包括：第一获取单元，用于利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；以及第二获取单元，用于将完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果。

本申请所提供的上述处理高通量测序数据的装置，通过执行第一获取单元获取完全覆盖目标区域的reads，然后执行第二获取单元将完全覆盖目标区域的reads与参考基因组进行比对的步骤，获得比对结果。该装置上述两个单元执行上述步骤解决了3'端比5'端测序覆盖深度低而导致3'端检测结果不准确的问题，能够使得目标区域的5'端和3'端测序覆盖深度的均一度大大提高。

为了进一步提到现有处理装置的检测准确性，在本申请一种优选的实施例中，第二获取单元包括：第一比对模块，用于将完全覆盖目标区域的reads与参考基因组进行初次比对，获得候选变异位点信息，候选变异位点信息包括候选变异位点的所在位置及变异类型；修正模块，用于根据各候选变异位点的所在位置，从完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；第二比对模块，用于将修正后reads与参考基因组进行再次比对，获得比对结果。

上述优选实施例中，第二获取单元通过根据目的区域的扩增引物可能对变异发生位点的检测结果是否产生影响，而根据具体变异位点发生的位置及变异类型，选择性地剪切掉目标区域5'端和/或3'端的扩增引物序列，这样在尽量确保所有目的区域都被完全覆盖的基础上，又避免了扩增引物序列自身存在的变异位点对待检测的目标区域的变异位点造成干扰而使得检测结果不准确的现象。

具体地，剪切不同目标区域的其中一端或同时剪切两端的扩增引物序列的具体情况，可以根据不同变异位点所在的位置及变异的具体类型进行合理设置。具体地，可以根据不同情况设计不同的软件程序来实现。

在本申请一种优选的实施例中，修正模块包括：第一修正子模块，用于当候选变异位点为InDel，且位于目标区域的reads内，并距离目标区域的reads的5’端＜5bp，优选＜8bp的位置时，从完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得修正后reads。

在本申请一种优选的实施例中，修正模块包括：第二修正子模块，用于当候选变异位点为单核苷酸变异，且位于目标区域的reads内，并距离目标区域的reads的3’端或5’端≥5bp，优选≥8bp的位置时，从完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

在本申请一种优选的实施例中，修正模块包括：第三修正子模块，用于当候选变异位点为单核苷酸变异，且位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了候选变异位点时，从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

本申请的处理高通量测序数据的装置是在现有的处理二代测序数据的常规装置基础上进行的上述改进，因而，上述处理所针对的测序数据与常规的处理装置所针对的测序数据一样，都是经过初步质控后的测序数据。

在本申请一种优选的实施例中，上述第一获取单元包括：质控模块，用于将高通量测序数据进行质控处理，获得质控后reads；以及筛选模块，用于利用目的区域扩增引物筛选质控后reads，获取完全覆盖目标区域的reads。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请第三种典型的实施方式中，提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在的设备执行上述任一种处理高通量测序数据的方法。

在本申请第四种典型的实施方式中，提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行任一种处理高通量测序数据的方法。

下面将结合具体的实施例来进一步说明本申请方案所能带来的有益效果。

需要说明的是，下列实施例中所用到的检测样品为从市面购买经溯源的4个EGFR基因突变位点的阳性细胞系DNA制备而成的Cosmic，各Cosmic种类的具体突变情况如下表1。

表1：

实施例1

将上述四个Cosmic DNA制备成含有上述突变位点的DNA文库，然后通过高通量测序，获得测序数据，对测序数据进行质控后，获得质控后reads。每个位点构建3种突变频率文库，每种突变频率文库3次重复，共计进行9次检测。

通过使用本申请的目的区域扩增引物1和目的区域扩增引物2筛选质控后reads后，没有完全覆盖目标区域的reads被排除，获得完全覆盖目标区域的reads。具体结果见下表2，从表2可以看出，基于二代测序高通量和高质量数据，筛选后reads的保留数量以及比率仍然有充足的数据能够保证用于分析，平均覆盖深度远高于现有试剂盒的技术指标要求>＝2000。

表2：

使用本申请的方法对reads进行筛选后，目标区域覆盖深度的均一性明显更好，下图7为其中一个目标区域覆盖深度对比图，从图7中可明显观察到本申请的方法所得到的目标区域5’到3’端的覆盖均一性更好。

实施例2

dPCR(数字PCR)被认为是目前最接近真实突变的检测方法。通过对表1中四个突变位点进行文库构建，每个位点构建3种突变频率文库，每种突变频率文库3次重复，共计进行9次检测。然后分别采用dPCR分析方法、现有(常规)的二代测序数据的处理方法以及本申请的方法对检测位点进行检测，检测结果见下表3。

表3：

注：“-”表示没有进行测序样本

从上述表3中的结果可以看出，对于COSM6213正常位点，本申请的检测结果与二代测序数据处理方法与dPCR分析方法的结果误差相近。

对于COSM6223位点发生Deletion，本申请的检测方法能有效规避3'末端发生softclipped。

对于COSM6252、COSM6240，本申请的方法可以避免覆盖度不均一的问题，且检测突变频率和dPCR结果误差明显小于二代测序与dPCR的误差。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：(1)本申请的处理高通量测序数据的方法和装置能够使所获得处理结果中目标片段的区域覆盖度均一性更好；(2)使得目标片段的末端区域检测位点准确性更高。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 辽宁科骏生物有限公司

<120> 处理高通量测序数据的方法、装置、存储介质及处理器

<130> PN75188KJSW

<160> 4

<170> SIPOSequenceListing 1.0

<210> 1

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(30)

<223> A接头序列

<400> 1

ctgagtcgga gacacgcagg gatgagatgg 30

<210> 2

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(22)

<223> CS1序列

<400> 2

tgtgactgct gtaccaagat gt 22

<210> 3

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(22)

<223> CS2序列

<400> 3

atgccatcgt ctctgaacca ga 22

<210> 4

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(41)

<223> P1序列

<400> 4

atcaccgact gcccatagag aggaaagcgg aggcgtagtg g 41

Claims

1.一种处理高通量测序数据的方法，其特征在于，所述方法包括：

利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；

将所述完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果；

将所述完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果的步骤包括：

将所述完全覆盖目标区域的reads与所述参考基因组进行初次比对，获得候选变异位点信息，所述候选变异位点信息包括候选变异位点的所在位置及变异类型；

根据各所述候选变异位点的所在位置，从所述完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；

将所述修正后reads与所述参考基因组进行再次比对，获得所述比对结果；

所述候选变异位点为InDel，位于所述目标区域的reads内，且距离所述目标区域的reads的5’端＜5bp的位置，则从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得所述修正后reads；和/或

所述候选变异位点为单核苷酸变异，位于所述目标区域的reads内，且距离所述目标区域的reads的3’端或5’端≥5bp的位置，则从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

2.根据权利要求1所述的方法，其特征在于，所述候选变异位点为InDel，位于所述目标区域的reads内，且距离所述目标区域的reads的5’端＜8bp的位置，则从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得所述修正后reads。

3.根据权利要求1所述的方法，其特征在于，所述候选变异位点为单核苷酸变异，位于所述目标区域的reads内，且距离所述目标区域的reads的3’端或5’端≥8bp的位置，则从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

4.根据权利要求1所述的方法，其特征在于，所述候选变异位点为单核苷酸变异，所述候选变异位点位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了所述候选变异位点，则从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

5.根据权利要求1至4中任一项所述的方法，其特征在于，利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads的步骤包括：

将所述高通量测序数据进行质控处理，获得质控后reads；

利用目的区域扩增引物筛选所述质控后reads，获取所述完全覆盖目标区域的reads。

6.一种处理高通量测序数据的装置，其特征在于，所述装置包括：

第一获取单元，用于利用目的区域扩增引物筛选高通量测序数据，获取完全覆盖目标区域的reads；

第二获取单元，用于将所述完全覆盖目标区域的reads与参考基因组进行比对，获得比对结果；

第二获取单元包括：

第一比对模块，用于将所述完全覆盖目标区域的reads与所述参考基因组进行初次比对，获得候选变异位点信息，所述候选变异位点信息包括候选变异位点的所在位置及变异类型；

修正模块，用于根据各所述候选变异位点的所在位置，从所述完全覆盖目标区域的reads中将5’端和/或3’端的目的区域扩增引物剪切掉，获得修正后reads；

第二比对模块，用于将所述修正后reads与所述参考基因组进行再次比对，获得所述比对结果；

所述修正模块包括：

第一修正子模块，用于当所述候选变异位点为InDel，且位于所述目标区域的reads内，并距离所述目标区域的reads的5’端＜5bp的位置时，从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得所述修正后reads；和/或

第二修正子模块，用于当所述候选变异位点为单核苷酸变异，且位于所述目标区域的reads内，并距离所述目标区域的reads的3’端或5’端≥5bp的位置时，从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

7.根据权利要求6所述的装置，其特征在于，所述

第一修正子模块，用于当所述候选变异位点为InDel，且位于所述目标区域的reads内，并距离所述目标区域的reads的5’端＜8bp的位置时，从所述完全覆盖目标区域的reads中剪切掉3’端的目的区域扩增引物序列，获得所述修正后reads。

8.根据权利要求6所述的装置，其特征在于，所述

第二修正子模块，用于当所述候选变异位点为单核苷酸变异，且位于所述目标区域的reads内，并距离所述目标区域的reads的3’端或5’端≥8bp的位置时，从所述完全覆盖目标区域的reads中剪切掉5’端和3’端的目的区域扩增引物序列。

9.根据权利要求6所述的装置，其特征在于，所述修正模块还包括：

第三修正子模块，用于当所述候选变异位点为单核苷酸变异，且位于完全覆盖第一目标区域的reads中，而用于扩增第二目标区域的扩增引物序列同时也覆盖了所述候选变异位点时，从完全覆盖第二目标区域的reads中剪切掉5’端和3’端的第二目标区域的扩增引物序列。

10.根据权利要求6至9中任一项所述的装置，其特征在于，第一获取单元包括：

质控模块，用于将所述高通量测序数据进行质控处理，获得质控后reads；

筛选模块，用于利用目的区域扩增引物筛选所述质控后reads，获取所述完全覆盖目标区域的reads。

11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在的设备执行权利要求1至5中任意一项所述的方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的方法。