CN110462063B

CN110462063B - 一种基于测序数据的变异检测方法、装置和存储介质

Info

Publication number: CN110462063B
Application number: CN201780089042.9A
Authority: CN
Inventors: 莫晓东; 杨焕杰; 张涛
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2023-06-23
Anticipated expiration: 2037-05-23
Also published as: WO2018214010A1; CN110462063A

Abstract

一种基于测序数据的变异检测方法、装置和存储介质，该方法包括：将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息；针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡；绘制变异位点总深度和/或变异碱基型深度与dbSNP%关系图，并对变异位点总深度和/或变异碱基型深度以及次等位基因频率和/或哈迪温伯格平衡进行过滤；对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。本发明的方法能够利用群体的低深度测序数据进行精准的变异检测，提高数据利用率。

Description

一种基于测序数据的变异检测方法、装置和存储介质

技术领域

本发明涉及生物信息学技术领域，具体涉及一种基于测序数据的变异检测方法、装置和存储介质。

背景技术

尽管测序成本仍在下降，但是目前测序策略仍没有质的突破，高深度的测序数据成本仍然居高不下。因此，基于低深度的变异检测方法，将有效提高现有低深度全基因组测序数据的利用率。目前对低深度的变异检测，仍是利用常规软件进行，得到的变异信息往往由于深度不足而在质控中被过滤掉。

为了得到这些低深度区域的变异信息，现在主要采用基于基因连锁推断的基因型填补(Genotype imputation)，以高深度的变异位点为标记位点，参考已有的基因集合(收集了一定群体的基因信息)，根据已知的标记位点与临近未知位点的连锁关系来推断未知的变异信息。这种方法利用基因连锁关系进行推断，通过推断方法填补得到的未知位点，事实上在个体测序过程中也有覆盖，但是由于深度较低，一直被忽视，造成这些数据的浪费。通过推断方法进行基因型填补，没有考虑测序得到的真实碱基情况，单纯参考基因集合中的基因信息无法获得个体本身特有的变异，牺牲了准确度和低深度数据。不仅如此，由于基因型推断填补技术需要利用已知的高深度变异位点信息，所以对变异信息密度有所要求，如果已知的变异位点数目过少、分布密度过低，将难以开展基因型的推断填补。此外基因型填补技术耗时较长，时效性较差。

发明内容

本发明提供一种基于测序数据的变异检测方法、装置和存储介质，能够利用群体的低深度测序数据直接进行精准的变异检测，提高数据利用率。

根据第一方面，一种实施例中提供一种基于测序数据的变异检测方法，包括：

将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息；

依据上述比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果；

绘制变异位点总深度和/或变异碱基型深度与dbSNP％关系图，并依据设定的过滤阈值对上述变异位点总深度和/或变异碱基型深度以及上述次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于上述过滤阈值的值，得到过滤后的群体变异信息累加结果；

依据上述过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。

根据第二方面，一种实施例中提供一种基于测序数据的变异检测装置，包括：

比对与变异检测装置，用于将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息；

加和与计算装置，用于依据上述比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果；

群体变异信息过滤装置，用于绘制变异位点总深度和/或变异碱基型深度与dbSNP％关系图，并依据设定的过滤阈值对上述变异位点总深度和/或变异碱基型深度以及上述次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于上述过滤阈值的值，得到过滤后的群体变异信息累加结果；

个体变异信息过滤装置，用于依据上述过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。

根据第三方面，一种实施例中提供一种基于测序数据的变异检测装置，包括：

存储器，用于存储程序；

处理器，用于通过执行上述存储器存储的程序以实现如下的方法：

根据第四方面，一种实施例中提供一种计算机可读存储介质，包括程序，上述程序能够被处理器执行以实现如下的方法：

本发明能够利用群体的低深度测序数据，不再借助连锁推断而直接进行精准的变异检测，提高数据利用率，并且低深度区域获得的变异信息可作为标记位点，协助改善现有的连锁推断结果。

附图说明

图1为本发明一个实施例基于测序数据的变异检测方法的流程图；

图2为本发明一个实施例基于测序数据的变异检测装置的结构框图；

图3为本发明一个实施例中变异碱基型深度与dbSNP％关系图，其中，各曲线代表不同染色体的情况，加粗曲线代表平均值，灰色部分代表标准差。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本发明相关的一些操作并没有在说明书中显示或者描述，这是为了避免本发明的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

对于低深度测序数据的变异检测，传统方法都是针对单个样本，本发明的方法将群体的低深度变异合并在一起，看作是单个样本的变异信息，从而实现低深度群体转化为虚构的高深度个体，进而进行变异检测，得到精准的变异检测结果后再拆分得到单个个体本身的变异信息。

如图1所示，本发明一个实施例的基于测序数据的变异检测方法包括如下步骤：

步骤S101：将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长(Reads)的比对位置和变异信息。

本发明实施例中，测序数据属于同一群体，例如同一物种(人、猪等)。这些测序数据可以是同一批次的下机数据，也可以是虽然属于不同批次但是属于同一群体的下机数据。测序数据的格式例如Fastq格式。参考基因组可以是各群体(物种)的已公开的基因组数据，例如对人而言，参考基因组可以是人类参考基因组hg19。比对软件可以是常用的BWA软件等，变异检测软件可以是常用的GATK软件等。得到的变异信息包含变异所在的染色体、位置、变异碱基型等元素。关于个体数量(即样本量)，本发明实施例无严格要求，但样本量越多越有利于找到更多变异位点。

本发明实施例中，测序数据的平均测序深度没有特别限制，本发明实施例的方法特别适合于低深度测序数据，例如平均深度为1×至15×的测序数据。在本发明一个实施例中，测序数据的平均测序深度是3.5×。

步骤S102：依据得到的比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率(Minor allele frequency，MAF)和/或哈迪温伯格平衡(Hardy-Weinbergequilibrium，HWE)，得到群体变异信息累加结果，所谓“群体变异信息累加结果”包括各个变异位点加和的变异位点总深度、变异碱基型深度，以及MAF和/或HWE。

如本发明所使用的，术语“变异位点总深度”是指覆盖在该变异位点上的所有个体的测序读长(Reads)的数量；术语“变异碱基型深度”是指覆盖在该变异位点上某种特定的碱基类型的所有个体的测序读长的数量。可见，对特定变异位点而言，“变异位点总深度”是各种碱基类型的“变异碱基型深度”之和。例如，若某一变异位点存在A、T两种碱基类型，并且在所有个体的测序读长中，有100个在该变异位点为A，有100个在该变异位点为T，则A、T两种碱基类型的“变异碱基型深度”分别是100，该变异位点的“变异位点总深度”是200。

如本发明所使用的，术语“次等位基因频率”，指在给定群体中的不常见的等位基因的频率；术语“哈迪温伯格平衡”，是指各等位基因的频率和等位基因的基因型频率在遗传中稳定不变，即保持着基因平衡。

本发明实施例的方法特别适合于单核苷酸多态性(SNP)变异、插入/删除(Ins/Del)变异检测，因此在本发明的一个优选的实施例中，在将群体中所有个体的变异位点总深度、变异碱基型深度分别加和时，去除三碱基及其它多碱基变异而仅保留单核苷酸多态性变异。

步骤S103：绘制变异位点总深度和/或变异碱基型深度与dbSNP％关系图，并依据设定的过滤阈值对变异位点总深度和/或变异碱基型深度以及次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于过滤阈值的值，得到过滤后的群体变异信息累加结果。

如本发明所使用的，术语“dbSNP％”是指发现的变异位点在寡核苷酸多态性数据库中的占比，通常用来衡量检测到的SNP的准确性。

在本发明实施例中，过滤阈值包括变异位点总深度的过滤阈值和/或变异碱基型深度的过滤阈值，以及MAF的过滤阈值和/或HWE的过滤阈值。也就是说，关键指标是变异碱基型深度(或变异位点总深度)、MAF值和/或HWE值。某种碱基类型的变异碱基型深度与该变异的可信度直接相关，HWE和MAF常用于除去低可信度的变异位点。

在本发明的一个实施例中，变异碱基型深度的过滤阈值是30×，MAF的过滤阈值是0.05。也就是说，变异碱基型深度大于等于30×，MAF大于0.05，认为达到统计学显著效果。

在本发明的其它实施例中，可以根据实际深度密度分布适当调整过滤深度(变异碱基型深度或变异位点总深度)。其中，“实际深度密度分布”可以是指不同变异位点的测序深度的分布。

在本发明的的其它实施例中，样本量可以根据数据平均深度来设置，例如平均深度为1×，样本量应该为30例，使得变异位点类型深度可达到设定的大于等于30×的过滤条件。样本量越多，越有利于检测更多的变异位点。

步骤S104：依据过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。

在本发明的一个具体实施例中，对每个个体的变异信息进行过滤具体包括：若在个体原始的变异信息中存在染色体、位置和变异碱基类型与过滤后的群体变异信息累加结果一致的结果，则保留该结果，否则过滤掉该结果。此外，还包括：若在一个变异位点上存在两种以上的变异，则过滤掉该变异位点。

通过以上步骤，可以得到每个个体的最终变异信息。然后，可通过dbSNP％来评估变异的准确性并且进行后续推断填补和研究分析。

本发明的方法提高了高通量测序数据中低深度区域的数据利用率，将本来被忽视的数据转化为可利用的数据，同时显著提高了检测出SNP的准确性，而且方法简单易用，既可以提高准确率也可以增加数据利用率，还可以加入到传统变异填补的上一步，改善传统方法。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的一种实施例还提供一种基于测序数据的变异检测装置，如图2所示，包括：

比对与变异检测装置201，用于将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息；加和与计算装置202，用于依据比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果；群体变异信息过滤装置203，用于绘制变异位点总深度和/或变异碱基型深度与dbSNP％关系图，并依据设定的过滤阈值对变异位点总深度和/或变异碱基型深度以及次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于过滤阈值的值，得到过滤后的群体变异信息累加结果；个体变异信息过滤装置204，用于依据过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。

本发明的另一种实施例还提供一种基于测序数据的变异检测装置，包括：

存储器，用于存储程序；

将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息；依据比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果；绘制变异位点总深度和/或变异碱基型深度与dbSNP％关系图，并依据设定的过滤阈值对变异位点总深度和/或变异碱基型深度以及次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于过滤阈值的值，得到过滤后的群体变异信息累加结果；依据过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息。

本发明的又一种实施例还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下的方法：

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明保护范围的限制。

实施例

本实施例中，样本为105例人类MHC区域(6号染色体上4.9M区域)捕获的测序数据，这批数据中集中在MHC区域的数据占约50％。也就是说还有约50％是伴随产生的基因组其他位置的数据，相对而言，这部分数据就是低深度的数据。利用本发明的方法对这50％低深度的区域进行变异检测，为对结果的准确性进行测评，还对这105例样本进行外显子测序，在外显子测序数据中，外显子区域是高深度的。通过比较低深度数据和外显子测序在外显子区域的一致性，便能确定变异的一致性情况，从而测评本发明方法的准确性。

本实施性的具体步骤如下：

(1)下载人类参考基因组hg19，利用BWA软件将测序读长比对到参考基因组hg19上，并用GATK软件对变异信息进行检测，将阈值调低以保留更多的变异信息。

(2)针对MHC区域捕获的测序数据变异位点，本实施例以低深度区域进行研究，本实施例中低深度区域的平均深度为3.5×。按照变异位点所在的染色体、位置、变异碱基型，将105个MHC样本的变异位点总深度、变异碱基型深度分别进行加和，去除三碱基及其它多碱基变异并且计算各个变异位点在群体中的MAF值，得到105个样本的群体变异信息累加结果。

(3)计算得到变异位点总深度、变异碱基型深度、MAF值(部分结果如表1所示)后，计算得到相关数值的数据分布形式。发现dbSNP％与变异碱基型深度在30×达到稳定，分析变异位点和MAF数值分布后，设定变异位点总深度的阈值30×，MAF的阈值为0.05，滤除低于阈值的值，得到过滤后的群体变异信息累加结果。图3示出了本实施例中变异碱基型深度与dbSNP％关系图。

表1

(4)根据105例样本过滤后的群体变异信息累加结果，对每个个体的变异结果进行过滤。若在个体原始的变异信息中存在染色体、位置和变异碱基类型与过滤后的群体变异信息累加结果一致的结果，则保留该结果，否则过滤掉该结果。此外，还包括：若在一个变异位点上存在两种以上的变异，则过滤掉该变异位点。

(5)dbSNP％评估变异的准确性，发现dbSNP％可以达到90.3％(若去掉Y染色体与覆盖度较差的9号染色体dbSNP％为93％)。另外，与对应的高深度外显子测序数据进行对比，比较后一致性可以达到96.45％，结果如表2所示，表中“编号”表示105例样本的编号，表中“未处理”表示未使用本发明的方法得到的结果与对应的高深度外显子测序数据对比的一致性数据，表中“本方法”表示使用本发明的方法得到的结果与对应的高深度外显子测序数据对比的一致性数据。

表2

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于测序数据的变异检测方法，其特征在于，包括：

将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息，所述测序数据的平均测序深度是1×至15×；

依据所述比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果，其中，在将群体中所有个体的变异位点总深度、变异碱基型深度分别加和时，去除三碱基及其它多碱基变异而仅保留单核苷酸多态性变异；

绘制变异位点总深度和/或变异碱基型深度与dbSNP%关系图，并依据设定的过滤阈值对所述变异位点总深度和/或变异碱基型深度以及所述次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于所述过滤阈值的值，得到过滤后的群体变异信息累加结果；所述过滤阈值包括所述变异位点总深度的过滤阈值和/或所述变异碱基型深度的过滤阈值，以及所述次等位基因频率的过滤阈值和所述哈迪温伯格平衡的过滤阈值；

依据所述过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息，具体包括：若在所述个体原始的变异信息中存在染色体、位置和变异碱基类型与所述过滤后的群体变异信息累加结果一致的结果，则保留该结果，否则过滤掉该结果；并且，若在一个所述变异位点上存在两种以上的变异，则过滤掉该变异位点。

2.根据权利要求1所述的变异检测方法，其特征在于，所述变异碱基型深度的过滤阈值是30×，所述次等位基因频率的过滤阈值是0.05，所述哈迪温伯格平衡的过滤阈值是0.01。

3.一种基于测序数据的变异检测装置，其特征在于，包括：

比对与变异检测装置，用于将来源于同一群体的多个个体的测序数据比对到参考基因组并进行变异检测，得到读长的比对位置和变异信息，所述测序数据的平均测序深度是1×至15×；

加和与计算装置，用于依据所述比对位置和变异信息，针对各个变异位点，将群体中所有个体的变异位点总深度、变异碱基型深度分别加和，然后计算各个变异位点在群体中的次等位基因频率和/或哈迪温伯格平衡，得到群体变异信息累加结果，其中，在将群体中所有个体的变异位点总深度、变异碱基型深度分别加和时，去除三碱基及其它多碱基变异而仅保留单核苷酸多态性变异；

群体变异信息过滤装置，用于绘制变异位点总深度和/或变异碱基型深度与dbSNP%关系图，并依据设定的过滤阈值对所述变异位点总深度和/或变异碱基型深度以及所述次等位基因频率和/或哈迪温伯格平衡进行过滤以滤除低于所述过滤阈值的值，得到过滤后的群体变异信息累加结果；所述过滤阈值包括所述变异位点总深度的过滤阈值和/或所述变异碱基型深度的过滤阈值，以及所述次等位基因频率的过滤阈值和所述哈迪温伯格平衡的过滤阈值；

个体变异信息过滤装置，用于依据所述过滤后的群体变异信息累加结果对每个个体的变异信息进行过滤，得到每个个体的最终变异信息，具体包括：若在所述个体原始的变异信息中存在染色体、位置和变异碱基类型与所述过滤后的群体变异信息累加结果一致的结果，则保留该结果，否则过滤掉该结果；并且，若在一个所述变异位点上存在两种以上的变异，则过滤掉该变异位点。

4.一种基于测序数据的变异检测装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1或2所述的方法。

5.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1或2所述的方法。