CN103617256B

CN103617256B - 待变异检测文件的处理方法及装置

Info

Publication number: CN103617256B
Application number: CN201310629728.6A
Authority: CN
Inventors: 闫军; 吴俊�; 张钰
Original assignee: Beijing Polytron Technologies Inc
Current assignee: Beijing Polytron Technologies Inc
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2018-01-02
Anticipated expiration: 2033-11-29
Also published as: CN103617256A

Abstract

本发明公开了一种待变异检测文件的处理方法及装置。其中，该方法包括：根据待变异检测文件来获取比对数据；对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；对用于变异检测的比对数据进行变异检测，获取变异检测结果；获取变异检测结果进行深度处理后的输出结果。通过本发明，能够实现为多种类型的比对数据提供了变异检测方法，并简化了变异检测设计和操作。

Description

待变异检测文件的处理方法及装置

技术领域

本发明涉及生物信息处理领域，具体而言，涉及一种待变异检测文件的处理方法及装置。

背景技术

现有的变异检测软件，例如Samtools、SOAPsnp、DIndel、realSFS、GATK等，主要设计形式通常有以下三种：一是输入比对数据后产生基本的用于变异检测的信息统计，前期比对数据的处理、中期变异检测的执行、后期变异数据的过滤等都需要依赖其它工具和自行设计；二是输入比对数据后可进行单一的变异检测方法的执行并产生冗余的变异数据结果，但前期的比对数据的处理和后期的变异数据的过滤仍需要依赖其它工具和自行设计；三是提供一些独立的功能模块可分别用于输入比对数据的处理、变异检测的执行、变异数据的后期过滤和分析等，但各模块之间没有关联，一些功能模块适用范围有限，或者需要依赖已知的变异数据，完整的变异检测方案仍需要依赖其它工具和自行设计。

在变异检测的设计实现上，本领域常用的技术手段是针对具体需求设计几个独立的模块，分别用于比对数据生成和前期处理、变异检测的执行、变异数据的后期过滤和分析。近年来，由于二代测序技术的飞速发展，变异检测的应用范围已越来越广，由从最初的只针对单样本二倍体生物的高深度的DNA数据设计，到现在的需要考虑到多样本数据、非二倍体生物的数据、低深度的数据、RNA数据等不同情况下的设计，难度越来越大。但是现有的变异检测方法功能单一、操作复杂、设计难度大、标准不统一，当用户在使用了不当的比对数据处理方法、不当的变异检测方法或者不当的变异数据后期过滤方法后，都会导致变异检测效力低下或假阳性太高的问题。所以，如何进行变异检测方法的设计，在保证检测效力和降低假阳性的前提下，以应对不同类型数据情况下的变异检测是一个需要解决的技术问题。

目前针对相关技术的针对复杂类型的比对数据的变异检测方法功能单一、操作复杂的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术的针对复杂类型的比对数据的变异检测方法功能单一、操作复杂的问题，目前尚未提出有效的解决方案，为此，本发明的主要目的在于提供一种待变异检测文件的处理方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种待变异检测文件的处理方法，该方法包括：根据待变异检测文件来获取比对数据；对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；对用于变异检测的比对数据进行变异检测，获取变异检测结果；获取变异检测结果进行深度处理后的输出结果。

为了实现上述目的，根据本发明的另一方面，提供了一种待变异检测文件的处理装置，该装置包括：第一获取模块，用于根据待变异检测文件来获取比对数据；处理模块，用于对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；变异检测模块，用于对用于变异检测的比对数据进行变异检测，获取变异检测结果；第二获取模块，用于获取变异检测结果进行深度处理后的输出结果。

通过本发明，采用根据待变异检测文件来获取比对数据；对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；对用于变异检测的比对数据进行变异检测，获取变异检测结果；获取变异检测结果进行深度处理后的输出结果，解决了相关技术的针对复杂类型的比对数据的变异检测方法功能单一、操作复杂的问题，进而实现为多种类型的比对数据提供了变异检测方法，并简化了变异检测设计和操作的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的待变异检测文件的处理方法的流程图；

图2是根据本发明实施例的待变异检测文件的处理方法的详细流程图；

图3是根据本发明实施例的待变异检测文件的处理装置的结构示意图；以及

图4是根据本发明实施例的待变异检测文件的处理装置的详细结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一：

在其最基本的配置中，图1是根据本发明实施例的待变异检测文件的处理方法的流程图；图2是根据本发明实施例的待变异检测文件的处理方法的详细流程图。

如图1所示，该待变异检测文件的处理方法包括如下步骤：

步骤S10，根据待变异检测文件来获取比对数据。

步骤S30，对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据。具体的，该步骤实现对比对数据进行预处理，得到可用于初期的变异检测分析的比对数据，然后根据训练数据集进一步优化比对结果，得到最终用于变异检测的比对数据。

步骤S50，对用于变异检测的比对数据进行变异检测，获取变异检测结果。具体的，上述步骤通过对高质量的比对数据进行变异检测得到变异检测结果，该过程中可以对变异数据进行分类和过滤。

步骤S70，获取变异检测结果进行深度处理后的输出结果。具体的，该步骤的深度处理操作可以是对变异检测结果进行分类和过滤，以及相应的格式转换和进一步过滤，必要时进行变异注释。

本申请上述实施例提供了一种多功能的变异检测方法，通过为变异检测文件中各种类型的比对数据提供相应的变异检测处理过程，对于多种类型的数据都可以进行变异检测，因此，简化了人工进行变异检测设计和操作的过程，其中，对比对数据进行预处理和/或校正处理，使得后续的变异检测处理过程成功率提高，从而在保证检测效力和降低假阳性的前提下，简化了用户进行变异检测设计和操作的难度。由此可知，本申请上述实施例解决了相关技术的针对复杂类型的比对数据的变异检测方法功能单一、操作复杂的问题，进而实现为多种类型的比对数据提供了变异检测方法，并简化了变异检测设计和操作的效果，同时，上述方案提供的检测方案设计难度降低、同一了标准。

需要说明的是，本申请在进行变异检测之前，系统需要获取输入文件和参数的属性值，根据属性值决定是否需要进行比对、决定是否需要产生训练数据集、决定变异检测的方法、决定是否可以进行变异注释。上述方法中的属性值可以包括：输入文件类型、是否有已知变异数据、基因组染色体倍数、是否有基因编码框(coding sequence，简称为CDS)注释数据。

本申请上述实施例中，如图2所示，步骤S10，根据待变异检测文件来获取比对数据的步骤可以包括如下步骤：

步骤S101，系统准备输入文件，输入文件可以包括：参考基因组序列和变异检测序列。

具体的，输入文件类型可以分为fq格式的原始测序序列和sam或bam格式的比对数据，可以是单样本数据或者是多样本数据，基因组染色体倍数分为二倍体和非二倍体的任意整倍体。

步骤S102，在系统开始启动执行时，获取输入文件，即获取参考基因组序列和变异检测序列的数据文件信息，该变异检测序列可以是测序序列。

步骤S103，该步骤判断变异检测序列的类型，其中，如果变异检测序列的类型是原始测序序列，则执行步骤S104，否则执行步骤S105。

步骤S104，将原始测序序列往参考基因组序列上进行比对，生成比对数据，否则变异检测序列为比对数据。

具体的，上述步骤中，将原始测序序列往参考基因组序列上进行比对，生成比对数据的步骤可以包括如下实现过程：首先，获取参考基因组序列，参考基因组序列包括：参考基因组索引和参考基因组索引对应的参考基因组；然后，将原始测序序列与参考基因组索引对应的参考基因组进行比对，生成比对数据，其中，原始测序序列的类型包括单端测序序列和双端测序序列，采用单端测序序列对应的对比策略或双端测序序列对应的对比策略来将原始测序序列进行比对处理。单端比对策略为：建立比对序列索引，与参考基因组进行比对并输出比对结果；双端比对策略为：两端分别建立比对序列索引，同时与参考基因组进行比对并输出比对结果。

上述过程中，需要构建参考基因组索引，并将原始测序序列往构建好的参考基因组索引的参考基因组上比对，最终整理的比对结果可以为sam格式的比对数据文件。

进一步地，将原始测序序列往构建好的参考基因组索引的参考基因组上比对时，根据原始测序序列类型，需采取不同的比对策略进行比对。前述的原始测序序列类型分为单端测序和双端测序。

步骤S105，获取到比对数据，比对数据可以是上述步骤S101-S104生成的数据，也可以是输入系统的比对数据文件。例如，bam/sam格式的比对数据。

本申请上述实施例中提供的比对数据进行预处理可以包括如下任意一个或多个处理方式：对比对数据进行排序处理(例如将比对数据中的序列按照其比对到染色体上的坐标位置进行排序)、对比对数据进行筛选处理(例如去除某些情况下存在于比对数据中的次要比对的序列信息)、对比对数据进行去重处理(例如去掉比对数据中重复出现多次的序列)、对比对数据进行重新排序处理(例如根据参考基因组染色体顺序对比对数据进行重新排序)、对比对数据预定片断区域内的序列进行重新比对处理(例如对比对数据中小片段插入/缺失(insertion/deletions,简称为InDel)附近的区域进行重新比对)。上述预处理过程中，还可以在比对数据中添加样本分类信息即RG标签。预处理结果是得到可用于变异检测的初始比对数据。

需要说明的是，上述各种预处理方式的实施步骤次序不限，可以存在多种组合。下面就其中一种本申请优选的预处理过程进行详细描述。

如图2所示，本申请上述实施例中，对比对数据进行预处理的步骤可以包括如下步骤：

步骤S106，对比对数据进行排序处理，并在排序后的比对数据中添加样本分类信息，得到分类后的比对数据。具体的，该步骤可以包括如下实施过程：按照比对数据中的序列比对到染色体上的坐标位置将比对数据中的序列进行排序，生成排序后的比对数据。由此，该步骤实现了对比对数据文件进行排序和加RG标签。

上述步骤将比对数据中的序列按照其比对到染色体上的坐标位置进行排序和在比对数据中添加样品分类信息即RG标签的目的在于，变异检测算法需要处理排序好的比对数据并需要区分测序序列的样本属性情况。

步骤S107，对比对数据进行筛选处理。具体的，该步骤可以包括如下实施过程：去除分类后的比对数据中的次要比对数据，生成筛选后的比对数据。由此，该步骤实现了去除比对数据中的次要比对序列。

上述步骤去除某些情况下存在于比对数据中的次要比对的序列信息的目的在于，某些比对程序或方法可能会在比对数据中产生次要比对的序列信息，这一信息对变异检测没有用处，反而可能会引起后面的变异检测步骤失效。

步骤S108，对比对数据进行去重处理。具体的，该步骤可以包括如下实施过程：删除筛选后的比对数据中重复的比对数据，生成去重后的比对数据。由此，该步骤实现了去掉比对数据中重复多次的序列；

上述步骤去掉比对数据中重复出现多次的序列的目的在于，比对数据中重复出现多次的序列很可能是由于测序聚合酶链式反应(Polymerase Chain Reaction，简称为PCR)扩增引起的，这样的序列如果存在测序错误，则很容易通过过滤算法的检测，从而形成假阳性变异位点，必须去除。

步骤S109，对比对数据进行重新排序处理，即根据参考基因组染色体对比对数据进行重新排序。具体的，该步骤可以包括如下实施过程：根据参考基因组序列的染色体序列对去重后的比对数据进行重新排序，生成重新排序后的比对数据。由此，该步骤实现了根据参考基因组染色体对比对数据进行重新排序。

上述步骤根据参考基因组染色体顺序对比对数据进行重新排序的目的在于，某些非标准的参考基因组排序可能会与比对数据的染色体排序出现不一致的情况，而这一情况会导致后面的变异检测步骤失效。

步骤S110，对比对数据预定片断区域内的序列进行重新比对处理，该步骤包括：提取重新排序后的比对数据中的预定片断，将靠近预定片断的预定区域内的比对数据进行重新比对，生成预选比对数据。由此，该步骤实现了识别可能的小片段插入/缺失(insertion/deletions,简称为InDel)区域并对比对数据中InDel附近的序列进行重新比对。

上述步骤对比对数据中InDel附近的区域进行重新比对的目的在于，InDel附近区域很容易产生错误的比对，导致连续变异位点的检出，此过程进一步包括：根据比对数据的特点检出可能出现InDel的区域和对这些区域的序列进行重比对。

在完成上述步骤S 106-S110之后，进入步骤S111，产生可用于变异检测的比对数据，即可以获取生成的预选比对数据。

如图2所示，本申请上述实施例中，在完成对比对数据进行预处理的步骤之后，可以对比对数据进行校正处理，校正处理的步骤可以包括如下步骤：首先，根据预选比对数据获取训练数据集，或者从外部获取训练数据集；然后，根据训练数据集合对预选比对数据进行碱基质量值的重新校正，生成用于变异检测的比对数据。

碱基质量值重校正具体包括如下步骤：首先，根据训练集数据集和比对数据碱基质量值信息构建错误率模型，然后根据错误率模型对比对结果碱基质量值进行校正。上述方案实现了根据训练数据集合进一步优化预选比对数据，即通过产生的训练数据集合和根据训练数据集对比对数据进行碱基质量值重校正。

在上述方案中，待变异检测文件还可以包括：已知变异位点信息。由此，如图2所示，根据预选比对数据获取训练数据集合的步骤可以通过如下实施过程实现：

步骤S112，判断预选比对数据是否是二倍体基因组，在预选比对数据是二倍体基因组的情况下，进入步骤S113，在预选比对数据为非二倍体基因组的情况下，进入步骤S114。

步骤S113，对二倍体基因组进行去冗余和/或压缩操作，生成含有变异位点的比对数据，在对含有变异位点的比对数据进行变异检测之后，获取变异检测训练结果。上述步骤实现了在确定预选比对数据是二倍体基因组之后，可以对比对数据进行去冗余压缩，从而提高后续变异检测效率。

步骤S114，检测是否获取到已知变异位点信息，即判断是否输入已知变异位点信息，在获取到已知变异位点信息的情况下，执行步骤S115，否则执行步骤S116。

步骤S115，将已知变异位点信息作为变异检测训练结果，

步骤S116，在没有获取到已知变异位点信息的情况下，对非二倍体基因组进行变异检测，获取变异检测训练结果。

由此可知，上述步骤实现了针对二倍体基因组和非二倍体基因组分别采取不同的方法进行变异检测。

步骤S117，针对上述步骤中的变异检测训练结果进行分类，并将分类后的变异检测训练结果中质量低的变异位点数据进行删除，生成训练数据集合。该步骤对变异检测结果进行分类，并通过严格的质量值进行变异位点过滤，由此可以实现，获取已知的变异位点数据或通过前步产生的变异位点数据，作为训练数据集合。

由此可知，上述步骤S111-S117产生的训练数据集合可以为输入已知变异位点信息作为训练数据集合以及从头产生训练数据集合。前述从头产生训练数据集的过程进一步可以包括：使用上述可用于变异检测的比对数据进行变异检测、对原始的变异检测结果进行分类和进行严格质量过滤。

更进一步地，从头产生训练数据集的过程中进行变异检测的方法分为二倍体的检测方法和非二倍体的检测方法。其中二倍体检测方法是优化的，首先对比对数据进行去冗余和压缩，只保留含有变异位点的区域，然后对压缩后的数据进行变异检测，这样有效提高了检测的速度和降低了资源消耗；二倍体的变异检测方法是对变异区域的比对序列构建德布鲁因图，通过拼接并引入隐马模型进行检测，可同时得到变异区域所有变异类型信息；而非二倍体的变异检测方法则是基于贝叶斯模型，独立考虑各个变异位点的发生变异类型的可能性。

更进一步地，从头产生训练数据集的过程中对原始变异结果进行分类指的是将原始变异结果分为单核苷酸多态性(single nucleotide polymorphism，简称为SNP)集合和小片段插入/缺失(insertion/deletions,简称为InDel)集合；进行严格质量过滤指的是设置严格的质量值标准，以消除质量值偏低的变异位点容易导致假阳性变异检出的可能性，得到高质量的变异集合，作为训练数据集合。

优选地，在上述方案中，如图2所示，根据训练数据集合对预选比对数据进行碱基质量值的重新校正，生成用于变异检测的比对数据的步骤可以包括如下实施过程：

步骤S118，读取训练数据集合中的变异位点数据，生成校正值列表。该步骤实施过程中，依赖于训练数据集合，对步骤111中可用于变异检测的比对数据进行碱基质量值的重新校正。

步骤S119，根据校正值列表对预选比对数据进行校正，输出校正后的用于变异检测的比对数据。由此，在重新校正之后产生高质量的最终用于变异检测的比对数据。

具体的，上述实施例根据训练数据集合对对比对数据进行碱基质量值重校正的目的在于二代测序仪产生的测序序列的质量值是不准确的和有偏性的，如果直接用原始的质量值进行一般质量值的变异检测，质量值较低的变异位点会在一定程度上导致检测结果不准确；依赖于已知的准确的变异位点信息，考虑到测序循环数等因素，通过计算协方差和线性拟合的方法对比对数据中序列的碱基质量值进行重新校正。此过程进一步包括：产生校正值列表、根据列表数据进行校正、输出校正后的比对数据。

本申请上述实施例中，如图2所示，步骤S50，对用于变异检测的比对数据进行变异检测，获取变异检测结果的步骤可以包括如下步骤：

步骤S120，判断用于变异检测的比对数据是否是二倍体基因组，在用于变异检测的比对数据是二倍体基因组的情况下，执行步骤S121，在预选比对数据为非二倍体基因组的情况下，执行步骤S122。

步骤S121，对二倍体基因组进行去冗余和/或压缩操作。该步骤实现了针对二倍体基因组，可以将比对数据进行去冗余压缩，从而提高后续变异检测效率。

步骤S122，对二倍体基因组和/或非二倍体基因组进行变异检测，获取变异检测结果。上述步骤中，针对二倍体基因组和非二倍体基因组可以分别采取不同的方法进行变异检测。

由上可知，上述方案中的对高质量的比对数据进行变异检测，并对变异数据进行分类和过滤的步骤与上述方法中根据训练数据集合进一步优化比对结果中从头产生训练数据集的方法几乎一致，不同之处有二：一是于用于输入的是经过碱基质量值重校正后获得的高质量的最终用于变异检测的比对数据，二是过滤条件为一般的质量值过滤。这样处理可有效提高变异位点的检出效力，特别是针对测序深度较低的数据类型，尤其适用于RNA数据的变异检测。

上述方法中对变异数据进行格式转换和进一步过滤包括提取有效变异位点的基因型和深度信息、过滤间距过小的变异位点和对变异检测结果进行基本统计。

优选地，在本申请所提供的各个实施例的方案中，待变异检测文件还可以包括：CDS注释信息，由此，如图2所示，获取变异检测结果进行深度处理后的输出结果的步骤可以通过如下实施过程实现：

步骤S123，对变异检测结果进行分类，并通过严格的质量值进行变异位点过滤，具体的采用将分类后的变异检测结果中质量低的变异位点数据进行删除的方式进行过滤。

步骤S124，生成SNP数据集合以及InDel数据集合。该步骤产生了可用于后续分析的SNP集合和InDel集合。

步骤S125，对前述变异集合进行格式转换，包括SNP数据集合以及InDel数据集合。

步骤S126，将SNP数据集合以及InDel数据集合中间距小于预定值的变异位点进行删除，获取变异位点集合。该步骤实现了过滤间距过小的变异位点，同时，同时可以对变异位点进行基本信息统计。

步骤S127，同上述步骤产生最终的变异位点集合和变异位点信息统计图表。

步骤S128，判断是否获取到CDS注释信息，即判断是否输入已知基因CDS注释信息，其中，在获取到CDS注释的情况下，执行步骤S129，否则变异检测流程结束。

步骤S129，对SNP数据集合中的位点进行同义非同义注释和转换颠换统计，生成注释和统计信息。

步骤S130，获取上述步骤产生的SNP位点同义非同义注释和转换颠换统计信息。该步骤获取了注释和统计信息。

由此可知，必要时需要进行变异注释，具体指的是在已知基因CDS注释信息的情况下，分别对SNP位点进行同义非同义注释和转换颠换统计。

步骤S131，输出结果，至此，完成变异检测流程。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

此处需要说明的是，本申请上述实施例中，对于fq格式的文件，获取比对数据的比对步骤也可用其它输出bam/sam格式的比对软件(如Bowtie2、TopHat2等)代替BWA实现。另外，比对过程可以通过外部装置实现，再将比对数据文件直接作为输入当前系统即可。

优选地，上述示例中的排序也可通过picardtools软件包中的SortSam模块实现，但加RG标签还是需要AddOrReplaceReadGroup模块完成，比较来说本申请上述排序方法更简洁。

优选地，上述实施例中的二倍体变异检测也可以通过UnifiedGenotyper模块实现，或者不经过去冗余和压缩的步骤也可直接进行变异检测，比较本申请上述变异检测方法执行效率和准确性相对降低。

实施例二：

在描述本发明的各实施例的细节过程中，将参考图3来描述可用于实现本发明的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本发明的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本发明，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本发明的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本发明的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本发明。

图3是根据本发明实施例的待变异检测文件的处理装置的结构示意图；图4是根据本发明实施例的待变异检测文件的处理装置的详细结构示意图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本发明的使用范围或功能提出任何局限。也不应将该计算系统解释为对图2所示的任一组件或其组合具有任何依赖或需求。

本发明的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本发明的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

如图3所示，该待变异检测文件的处理装置可以包括：第一获取模块20、处理模块40、变异检测模块60和第二获取模块80。

其中，第一获取模块20，用于根据待变异检测文件来获取比对数据；处理模块40，用于对比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；变异检测模块60，用于对用于变异检测的比对数据进行变异检测，获取变异检测结果；第二获取模块80，用于获取变异检测结果进行深度处理后的输出结果。

本申请上述实施例提供了一种多功能的变异检测装置，通过为变异检测文件中各种类型的比对数据提供相应的变异检测处理过程，对于多种类型的数据都可以进行变异检测，因此，简化了人工进行变异检测设计和操作的过程，其中，对比对数据进行预处理和/或校正处理，使得后续的变异检测处理过程成功率提高，从而在保证检测效力和降低假阳性的前提下，简化了用户进行变异检测设计和操作的难度。由此可知，本申请上述实施例解决了相关技术的针对复杂类型的比对数据的变异检测方法功能单一、操作复杂的问题，进而实现为多种类型的比对数据提供了变异检测方法，并简化了变异检测设计和操作的效果，同时，上述方案提供的检测方案设计难度降低、同一了标准。

如图4所示，本申请上述实施例中的第一获取模块20可以包括比对模块202，处理模块40可以包括预处理模块203和校正模块204，变异检测模块60可以包括检测模块205，第二获取模块80可以包括后处理模块206和注释模块207。

优选地，本申请上述实施例还可以包括控制模块201，该控制模块201，用于控制输入输出、获取文件和参数属性值、控制其它模块的调用和决定变异检测方法的设计。进一步地，上述装置中的控制模块201的控制其它模块的调用和决定变异检测流程的方案可以如下：决定是否调用比对模块并选择恰当的比对方式、是否生成训练数据集、是否进行SNP注释、是否进行比对数据去冗余压缩、选择恰当的变异检测模块。

具体的，控制模块201，控制整个变异检测流程的设计和执行。首先，根据输入文件属性值进行判断，如果是原始测序数据，则调用比对模块202，否则调用预处理模块203；其次，在未输入已知变异数据的情况下，调用变异检测模块和后处理模块从头产生训练数据集；再次根据染色体倍数控制变异检测方法的选择；最后，控制SNP注释模块的调用。

上述装置中的控制模块201的属性值包括：输入文件类型、是否有已知变异数据、基因组染色体倍数、是否有基因CDS注释数据。可选地，如上述装置中的控制模块201的属性值还可以包括：输入输出路径、指定样品名称、输出样品名称、比对使用线程数。

其中，比对模块202，用于将原始测序序列往参考基因组上比对，生成比对数据。具体的，如果被控制模块调用，则进行将原始测序序列往参考基因组上做比对。

预处理模块203，用于将比对数据处理成可用于变异检测的水平。具体的，针对对比对数据进行一系列处理，产生可用于变异检测的比对数据。

校正模块204，用于将比对数据的质量值进行重新校正以获得高质量的比对数据。具体的，对比对数据进行碱基质量值重校正，需要依赖于训练数据集。

检测模块205，用于变异检测的执行。具体的，根据控制模块指示选择合适的变异检测方法进行变异检测。

后处理模块206，用于变异检测结果的分类、过滤，以及格式转换和基本统计。具体的，对变异数据进行分类，并根据控制模块指示选择不同的质量值过滤参数进行变异位点过滤，还负责变异数据格式转换和统计等过程。

注释模块207，用于SNP数据的同义非同义注释和转换颠换统计。具体的，如果被控制模块调用，则进行SNP位点的同义非同义注释和转换颠换统计。

综上可见，本发明提出的一种多功能的变异检测装置内置了多项功能模块，其中控制模块可根据不同的数据类型自动设计最适的变异检测流程，自动完成相应模块的调用和整合，进行高效的变异检测。该变异检测方法和装置方法严谨、功能全面、操作简单。

优选地，本申请上述实施例中的第一获取模块20可以包括：第一子获取模块，用于获取输入文件，输入文件包括：参考基因组序列和变异检测序列；第一判断模块，用于判断变异检测序列的类型；比对模块202，用于如果变异检测序列的类型是原始测序序列，则将原始测序序列往参考基因组序列上进行比对，生成比对数据，否则变异检测序列为比对数据。

优选地，本申请上述实施例中的比对模块可以包括：构建参考基因组的索引单元，索引单元保存参考基因组序列；第二子获取模块，用于获取参考基因组序列，参考基因组序列包括：参考基因组索引和参考基因组索引对应的参考基因组；子比对模块，用于将原始测序序列与参考基因组索引对应的参考基因组进行比对，生成比对数据，其中，原始测序序列的类型包括单端测序序列和双端测序序列，采用单端测序序列对应的对比策略或双端测序序列对应的对比策略来将原始测序序列进行比对处理。

优选地，本申请上述实施例中，对比对数据进行预处理包括如下任意一个或多个处理方式：对比对数据进行排序处理、对比对数据进行筛选处理、对比对数据进行去重处理、对比对数据进行重新排序处理、对比对数据预定片断区域内的序列进行重新比对处理。

优选地，本申请上述实施例中的处理模块可以包括：排序处理模块，用于按照比对数据中的序列比对到染色体上的坐标位置将比对数据中的序列进行排序，生成排序后的比对数据；分类模块，用于在排序后的比对数据中添加样本分类信息，得到分类后的比对数据；筛选处理，用于去除分类后的比对数据中的次要比对数据，生成筛选后的比对数据；去重处理，用于删除筛选后的比对数据中重复的比对数据，生成去重后的比对数据；重新排序处理，用于根据参考基因组序列的染色体序列对去重后的比对数据进行重新排序，生成重新排序后的比对数据；重新比对处理，用于提取重新排序后的比对数据中的预定片断，将靠近预定片断的预定区域内的比对数据进行重新比对，生成预选比对数据。

优选地，本申请上述实施例中的处理模块还可以包括：第三子获取模块，用于根据预选比对数据获取训练数据集合；校正模块，用于根据训练数据集合对预选比对数据进行碱基质量值的重新校正，生成用于变异检测的比对数据。

优选地，本申请上述实施例中，待变异检测文件还包括：已知变异位点信息，其中，第三子获取模块可以包括：第二判断模块，用于判断预选比对数据是否是二倍体基因组；第一子处理模块，用于在预选比对数据是二倍体基因组的情况下，对二倍体基因组进行去冗余和/或压缩操作，生成含有变异位点的比对数据，在对含有变异位点的比对数据进行变异检测之后，获取变异检测训练结果；第二子处理模块，用于在预选比对数据为非二倍体基因组的情况下，检测是否获取到已知变异位点信息，在获取到已知变异位点信息的情况下，将已知变异位点信息作为变异检测训练结果，在没有获取到已知变异位点信息的情况下对，对非二倍体基因组进行变异检测，获取变异检测训练结果；子分类模块，用于对变异检测训练结果进行分类，并将分类后的变异检测训练结果中质量低的变异位点数据进行删除，生成训练数据集合。

优选地，本申请上述实施例中的校正模块可以包括：读取模块，用于读取训练数据集合中的变异位点数据，生成校正值列表；校正处理模块，用于根据校正值列表对预选比对数据进行校正，输出校正后的用于变异检测的比对数据。

优选地，本申请上述实施例中的变异检测模块可以包括：第三判断模块，用于判断用于变异检测的比对数据是否是二倍体基因组；第一子变异检测模块，用于在用于变异检测的比对数据是二倍体基因组的情况下，在对二倍体基因组进行去冗余和/或压缩操作之后，执行变异检测，获取变异检测结果；第二子变异检测模块，用于在预选比对数据为非二倍体基因组的情况下，对非二倍体基因组进行变异检测，获取变异检测结果。

优选地，本申请上述实施例中，待变异检测文件还包括：CDS注释信息，其中，第二获取模块可以包括：分类筛选模块，用于对变异检测结果进行分类，并将分类后的变异检测结果中质量低的变异位点数据进行删除，生成SNP数据集合以及InDel数据集合；删除模块，用于将SNP数据集合以及InDel数据集合中间距小于预定值的变异位点进行删除，获取变异位点集合；注释统计模块，该注释统计模块包括：同义非同义注释单元、转换颠换统计单元，用于判断是否获取到CDS注释信息，其中，在获取到CDS注释的情况下，对SNP数据集合中的位点进行同义非同义注释和转换颠换统计，生成注释和统计信息。

由上可知，本申请提出的一种多功能的变异检测方法和装置，控制模块可以根据输入文件和参数的属性值自动设计变异检测方法，调用其它功能模块自动完成整个变异检测流程。本发明适用于单本数据检测、多样本数据检测、二倍体数据检测、非二倍体的其它整倍体数据检测、有训练集数据检测、无训练集数据检测、DNA数据检测、RNA数据检测、不同深度的测序数据检测、原始测序数据检测、比对数据检测等多种类型的输入数据，解决了现有变异检测方法和装置功能单一、操作复杂、设计难度大、标准不统一的问题，简化了用户进行变异检测设计和操作的难度。

从以上的描述中，可以看出，本发明实现了如下技术效果：加入了生成训练集的步骤，有效解决了在没有已知变异数据的前提下如何用GATK2进行碱基质量值重校正的问题；增加了去除次要比对序列和重排序的步骤，有效解决了在一些特殊比对结果文件(如TopHat2的比对结果)和参考基因组染色体排序混乱的情况下，程序会意外中止的问题；增加了一些自写模块(如间距过滤、样本统计、SNP注释)对变异结果进行统计和注释，在增加了结果准确性的同时，还免去了用户变异检测后续数据处理的烦恼；优化了参数设置，可以针对DNA和RNA数据进行变异检测；可以针对二倍体和非二倍体进行变异检测。

由此可知，本申请自动化、流程化程度高、简单易用、不需要专业知识即可得到完整专业的分析结果，极大提高了变异检测的工作效率。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种待变异检测文件的处理方法，其特征在于，包括：

根据待变异检测文件来获取比对数据；

对所述比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；

对所述用于变异检测的比对数据进行变异检测，获取变异检测结果；

获取所述变异检测结果进行深度处理后的输出结果；

对所述用于变异检测的比对数据进行变异检测，获取变异检测结果的步骤包括：

判断所述用于变异检测的比对数据是否是二倍体基因组；

在所述用于变异检测的比对数据是二倍体基因组的情况下，在对所述二倍体基因组进行去冗余和/或压缩操作之后，执行变异检测，获取变异检测结果；

在所述用于变异检测的比对数据为非二倍体基因组的情况下，对所述非二倍体基因组进行变异检测，获取变异检测结果；

所述待变异检测文件还包括：CDS注释信息，其中，获取所述变异检测结果进行深度处理后的输出结果的步骤包括：

对所述变异检测结果进行分类，并将分类后的所述变异检测结果中质量低的变异位点数据进行删除，生成SNP数据集合以及InDel数据集合；

将所述SNP数据集合以及InDel数据集合中间距小于预定值的变异位点进行删除，获取变异位点集合；

判断是否获取到所述CDS注释信息，其中，在获取到所述CDS注释的情况下，对所述SNP数据集合中的位点进行同义非同义注释和转换颠换统计，生成注释和统计信息。

2.根据权利要求1所述的方法，其特征在于，根据待变异检测文件来获取比对数据的步骤包括：

获取输入文件，所述输入文件包括：参考基因组序列和变异检测序列；

判断所述变异检测序列的类型，其中，如果所述变异检测序列的类型是原始测序序列，则将所述原始测序序列往所述参考基因组序列上进行比对，生成所述比对数据，否则所述变异检测序列为所述比对数据。

3.根据权利要求2所述的方法，其特征在于，将所述原始测序序列往所述参考基因组序列上进行比对，生成所述比对数据的步骤包括：

获取所述参考基因组序列，所述参考基因组序列包括：参考基因组索引和所述参考基因组索引对应的参考基因组；

将所述原始测序序列与所述参考基因组索引对应的参考基因组进行比对，生成所述比对数据，其中，所述原始测序序列的类型包括单端测序序列和双端测序序列，采用所述单端测序序列对应的对比策略或所述双端测序序列对应的对比策略来将所述原始测序序列进行比对处理。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，对所述比对数据进行预处理包括如下任意一个或多个处理方式：对所述比对数据进行排序处理、对所述比对数据进行筛选处理、对所述比对数据进行去重处理、对所述比对数据进行重新排序处理、对所述比对数据预定片断区域内的序列进行重新比对处理。

5.根据权利要求4所述的方法，其特征在于，对所述比对数据进行预处理的步骤包括：

对所述比对数据进行排序处理，该步骤包括：按照所述比对数据中的序列比对到染色体上的坐标位置将所述比对数据中的序列进行排序，生成排序后的比对数据；

在所述排序后的比对数据中添加样本分类信息，得到分类后的比对数据；

对所述比对数据进行筛选处理，该步骤包括：去除所述分类后的比对数据中的次要比对数据，生成筛选后的比对数据；

对所述比对数据进行去重处理，该步骤包括：删除所述筛选后的比对数据中重复的比对数据，生成去重后的比对数据；

对所述比对数据进行重新排序处理，该步骤包括：根据参考基因组序列的染色体序列对所述去重后的比对数据进行重新排序，生成重新排序后的比对数据；

对所述比对数据预定片断区域内的序列进行重新比对处理，该步骤包括：提取所述重新排序后的比对数据中的所述预定片断，将靠近所述预定片断的预定区域内的比对数据进行重新比对，生成预选比对数据。

6.根据权利要求5所述的方法，其特征在于，对所述比对数据进行校正处理的步骤包括：

根据所述预选比对数据获取训练数据集合；

根据所述训练数据集合对所述预选比对数据进行碱基质量值的重新校正，生成所述用于变异检测的比对数据。

7.根据权利要求6所述的方法，其特征在于，所述待变异检测文件还包括：已知变异位点信息，其中，根据所述预选比对数据获取训练数据集合的步骤包括：

判断所述预选比对数据是否是二倍体基因组；

在所述预选比对数据是二倍体基因组的情况下，对所述二倍体基因组进行去冗余和/或压缩操作，生成含有变异位点的比对数据，在对所述含有变异位点的比对数据进行变异检测之后，获取变异检测训练结果；

在所述预选比对数据为非二倍体基因组的情况下，检测是否获取到所述已知变异位点信息，在获取到所述已知变异位点信息的情况下，将所述已知变异位点信息作为所述变异检测训练结果，在没有获取到所述已知变异位点信息的情况下，对所述非二倍体基因组进行变异检测，获取所述变异检测训练结果；

对所述变异检测训练结果进行分类，并将分类后的所述变异检测训练结果中质量低的变异位点数据进行删除，生成所述训练数据集合。

8.根据权利要求7所述的方法，其特征在于，根据所述训练数据集合对所述预选比对数据进行碱基质量值的重新校正，生成所述用于变异检测的比对数据的步骤包括：

读取所述训练数据集合中的变异位点数据，生成校正值列表；

根据所述校正值列表对所述预选比对数据进行校正，输出校正后的所述用于变异检测的比对数据。

9.一种待变异检测文件的处理装置，其特征在于，包括：

第一获取模块，用于根据待变异检测文件来获取比对数据；

处理模块，用于对所述比对数据进行预处理和/或校正处理，获取用于变异检测的比对数据；

变异检测模块，用于对所述用于变异检测的比对数据进行变异检测，获取变异检测结果；

第二获取模块，用于获取所述变异检测结果进行深度处理后的输出结果；

所述变异检测模块包括：

第三判断模块，用于判断所述用于变异检测的比对数据是否是二倍体基因组；

第一子变异检测模块，用于在所述用于变异检测的比对数据是二倍体基因组的情况下，在对所述二倍体基因组进行去冗余和/或压缩操作之后，执行变异检测，获取变异检测结果；

第二子变异检测模块，用于在用于变异检测的比对数据为非二倍体基因组的情况下，对所述非二倍体基因组进行变异检测，获取变异检测结果；

所述待变异检测文件还包括：CDS注释信息，其中，所述第二获取模块包括：

分类筛选模块，用于对所述变异检测结果进行分类，并将分类后的所述变异检测结果中质量低的变异位点数据进行删除，生成SNP数据集合以及InDel数据集合；

删除模块，用于将所述SNP数据集合以及InDel数据集合中间距小于预定值的变异位点进行删除，获取变异位点集合；

注释统计模块，用于判断是否获取到所述CDS注释信息，其中，在获取到所述CDS注释的情况下，对所述SNP数据集合中的位点进行同义非同义注释和转换颠换统计，生成注释和统计信息。

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块包括：

第一子获取模块，用于获取输入文件，所述输入文件包括：参考基因组序列和变异检测序列；

第一判断模块，用于判断所述变异检测序列的类型；

比对模块，用于如果所述变异检测序列的类型是原始测序序列，则将所述原始测序序列往所述参考基因组序列上进行比对，生成所述比对数据，否则所述变异检测序列为所述比对数据。

11.根据权利要求10所述的装置，其特征在于，所述比对模块包括：

第二子获取模块，用于获取所述参考基因组序列，所述参考基因组序列包括：参考基因组索引和所述参考基因组索引对应的参考基因组；

子比对模块，用于将所述原始测序序列与所述参考基因组索引对应的参考基因组进行比对，生成所述比对数据，其中，所述原始测序序列的类型包括单端测序序列和双端测序序列，采用所述单端测序序列对应的对比策略或所述双端测序序列对应的对比策略来将所述原始测序序列进行比对处理。

12.根据权利要求9至11中任意一项所述的装置，其特征在于，对所述比对数据进行预处理包括如下任意一个或多个处理方式：对所述比对数据进行排序处理、对所述比对数据进行筛选处理、对所述比对数据进行去重处理、对所述比对数据进行重新排序处理、对所述比对数据预定片断区域内的序列进行重新比对处理。

13.根据权利要求12所述的装置，其特征在于，所述处理模块包括：

排序处理模块，用于按照所述比对数据中的序列比对到染色体上的坐标位置将所述比对数据中的序列进行排序，生成排序后的比对数据；

分类模块，用于在所述排序后的比对数据中添加样本分类信息，得到分类后的比对数据；

筛选处理，用于去除所述分类后的比对数据中的次要比对数据，生成筛选后的比对数据；

去重处理，用于删除所述筛选后的比对数据中重复的比对数据，生成去重后的比对数据；

重新排序处理，用于根据参考基因组序列的染色体序列对所述去重后的比对数据进行重新排序，生成重新排序后的比对数据；

重新比对处理，用于提取所述重新排序后的比对数据中的所述预定片断，将靠近所述预定片断的预定区域内的比对数据进行重新比对，生成预选比对数据。

14.根据权利要求13所述的装置，其特征在于，所述处理模块还包括：

第三子获取模块，用于根据所述预选比对数据获取训练数据集合；

校正模块，用于根据所述训练数据集合对所述预选比对数据进行碱基质量值的重新校正，生成所述用于变异检测的比对数据。

15.根据权利要求14所述的装置，其特征在于，所述待变异检测文件还包括：已知变异位点信息，其中，所述第三子获取模块包括：

第二判断模块，用于判断所述预选比对数据是否是二倍体基因组；

第一子处理模块，用于在所述预选比对数据是二倍体基因组的情况下，对所述二倍体基因组进行去冗余和/或压缩操作，生成含有变异位点的比对数据，在对所述含有变异位点的比对数据进行变异检测之后，获取变异检测训练结果；

第二子处理模块，用于在所述预选比对数据为非二倍体基因组的情况下，检测是否获取到所述已知变异位点信息，在获取到所述已知变异位点信息的情况下，将所述已知变异位点信息作为所述变异检测训练结果，在没有获取到所述已知变异位点信息的情况下对所述，对所述非二倍体基因组进行变异检测，获取所述变异检测训练结果；

子分类模块，用于对所述变异检测训练结果进行分类，并将分类后的所述变异检测训练结果中质量低的变异位点数据进行删除，生成所述训练数据集合。

16.根据权利要求15所述的装置，其特征在于，所述校正模块包括：

读取模块，用于读取所述训练数据集合中的变异位点数据，生成校正值列表；

校正处理模块，用于根据所述校正值列表对所述预选比对数据进行校正，输出校正后的所述用于变异检测的比对数据。