CN111243663B

CN111243663B - 一种基于模式增长算法的基因变异检测方法

Info

Publication number: CN111243663B
Application number: CN202010121579.2A
Authority: CN
Inventors: 叶凯; 杨帆; 杨晓飞; 蔺佳栋; 梁皓; 郭立
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2022-06-07
Anticipated expiration: 2040-02-26
Also published as: CN111243663A

Abstract

一种基于模式增长算法的基因变异检测方法，在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类，将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段，将所有的S段的序列压缩建立一致性序列，将所有的M段的序列压缩建立一致性序列；并对同一类中的数据信息进行计算，则形成超项目，根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中；使用模式增长算法，建立断点间的比对关系；建立变异模型，确定变异的类型。本发明直接将过滤后数据库中的所有断点为对象进行比对来获取相互比对关系，从而得到全局比对信息，实现更精准的变异检测效果，对较小或较大变异均有很好的检测效果。

Description

一种基于模式增长算法的基因变异检测方法

技术领域

本发明涉及一种基因变异检测方法，具体涉及一种基于模式增长算法的基因变异检测方法。

背景技术

从1977年第一代DNA测序技术(Sanger法)，发展至今四十多年时间，测序技术已取得了相当大的发展，从第一代到第三代乃至第四代，测序读长从长到短，再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置，但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革，也都对基因组研究，疾病医疗研究，药物研发，育种等领域产生巨大的推动作用。

利用二代测序数据可以进行基因变异的检测以及分析探索基因变异与疾病之间的关系。基因变异是指基因组DNA分子发生的突然的可遗传的变异。它包括单个碱基改变所引起的点突变，或碱基片段改变造成的结构变异(SV)，包括缺失、重复、插入和反转。血友病、白化病、色盲等都是遗传性疾病，肿瘤、高血压、冠心病、糖尿病和精神性疾病也往往同遗传有关系。利用变异检测确认患病的基因或者是否携带有遗传疾病易感基因，可以诊断疾病，也可以用于疾病风险的预测，从而使人们能了解自己的基因信息，明确病因或预知身体患某种疾病的风险。

目前基于二代测序的基因变异检测方法主要有以下四种：基于组装(AS)的方法,基于序列比对深度(RD)的方法,基于序列读对(RP)的方法和基于序列拆分(SR)的方法。基于单一信号的变异检测方法适用于在特定分辨率范围内检测特定类型的结构变异(SV)。通常，基于AS和SR的算法都可以实现碱基分辨率水平的SV检测，而基于RP的工具通常仅产生大概的断点位置和SV长度。基于AS和SR的方法不仅可以检测小SV，还可以检测点突变(SNP)和插入缺失变异(indel)，而RP信号最适合中等大小的SV，RD更适合大SV。基于RD的算法只能检测分辨率较差的复制和缺失。因此，基于以上问题，将不同的信号组合起来是非常有意义的，可以在更广泛的分辨率下检测多个SV。为此，可以采取两种方案：

(i)在单个工具中整合多种信号。

(ii)将不同检测工具进行集成。

对于第一种方案，许多工具都已经整合了多种信号。如SR和RP信号的整合使得SV检测实现了较低的错误发现率，包括DELLY，PRISM，MATE-CLEVER，Tangram和SoftSearch等工具。Pindel最初仅使用了SR信息，但现在还集成了RP信息。DELLY在具有复杂重排的大SV(>10kb)上有良好的性能。基于RP和RD单一信号的工具都可以检测到许多SV但存在较高错误发现率。将RP和RD信号进行整合有助于降低错误发现率并提高可确定断点的分辨率。如GASVPro整合了两种信号，与原始基于RP的GASV相比，检测缺失和反转的特异性提高了50％。

对于第二种方案，如SVMerge，是一个整合了四种变异检测工具的管道，BreakDancer(基于RP)，Pindel(基于SR，支持RP)，cnD(基于RD)和SECluster(使用AS信号)。它的模块化设置允许被不同工具检测到的SV进行合并。

而对于方案一中的一些工具，如pindel的变异检测的灵敏度很高，但检测速度较慢；DELLY在大SV上有比较良好的性能，但对于小一些的变异检测效果一般。并且他们的共同特点是需要将有用的reads与参考基因进行重比对，这是比较繁琐的一步。

下一代测序技术的出现，人类积累了大量的测序数据，这种大规模的序列数据集对基因检测的算法研究提出了严峻挑战。因此，需要提高变异检测的速度，同时还要保持较高的灵敏度和较低的错误发现率，以此来应对测序序列越来越长，数据规模不断扩大等各种现实问题。

发明内容

本发明的目的是提供一种基于模式增长算法的，快速高效，灵敏度高，不依赖于参考基因的基因变异检测的方法。

为实现上述目的，本发明是通过以下技术方案来实现：

一种基于模式增长算法的基因变异检测方法，包括如下步骤：

第一步：预处理测序比对数据；

第二步：在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类，将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段，将所有的S段的序列压缩建立一致性序列，将所有的M段的序列压缩建立一致性序列；并对同一类中的数据信息进行计算，则每一类数据均形成一个超项目，即每个超项目代表的是不同比对状态的各个断点，然后根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中；

第三步，将变异信号数据库中的各个超项目的一致性序列，使用模式增长算法，建立断点间的比对关系；

第四步：建立变异模型，将有相互比对关系的断点带入变异模型，确定变异的类型。

本发明进一步的改进在于，第一步中，对二代测序比对数据进行过滤，得到预处理后的测序比对数据；

本发明进一步的改进在于，第一步中，预处理后的测序比对数据包括短读段比对到参考基因上的信息，包括比对到参考基因组后的染色体名称，比对到的起始坐标位置，短读段的序列数据以及该短读段的比对状态。

本发明进一步的改进在于，第二步中，有变异特征信号的数据通过以下过程得到：在预处理后的测序比对数据中，提取比对状态显示为SM和MS的比对数据，对每一条提取的数据，依据比对状态及比对到的起始坐标位置，计算对应的断点位置；得到相同断点位置且比对状态为SM的比对数据以及相同断点位置且比对状态为MS的比对数据；

本发明进一步的改进在于，第三步的具体过程为：将变异信号数据库中的各个超项目的一致性序列，利用模式增长算法进行序列间比对，则得到序列间的比对信息；对序列间的比对信息进行整理，若有两断点的S与M状态序列能实现交叉比对，则得到这两个断点间的相互比对关系。

本发明进一步的改进在于，第四步中，对缺失、重复和反转变异依据变异特征分别建立相应的变异模型：将有相互比对关系的断点带入变异模型，若符合某种变异模型的断点状态特征，则确定变异的类型，最终完成了对变异位置和类型的判断，完成变异检测。

本发明进一步的改进在于，对于缺失类型变异，左断点处序列比对状态为MS，右断点为SM；对于重复类型变异，左断点处序列比对状态为SM，右断点为MS；对于反转类型变异，左右断点的比对状态相同。

本发明以快速高效检测基因变异为出发点，采取模式增长算法来直接进行断点间的序列比对，得到断点间的相互比对关系。然后依据不同变异的结构特征建立变异模型，将具有相互比对关系的断点带入获得变异类型信息，最后依据变异断点和类型的判断即完成了变异检测。本发明具有的优点有如下几点：

第一：本发明是一种不依赖于参考基因的变异检测方法，相比于传统算法需要进行与参考基因重比对这一花费大量时间的重复步骤，本发明直接利用比对数据中的相关比对信息，可以快速高效判定变异位置进而进行变异的进一步检测。

第二：本发明直接将过滤后数据库中的所有断点为对象进行比对来获取相互比对关系，从而得到全局比对信息，实现更精准的变异检测效果，克服了传统算法将短读段与参考基因重比对时需要考虑比对效率，无法有效地获取全局比对信息的问题。

第三：本发明直接将过滤后数据库中的所有断点为对象进行比对来获取相互比对关系，对不同变异大小无特异性，因此对较小或较大变异均有很好的检测效果，克服了传统算法在检测变异时，由于不同的方法特点会出现只对较大或较小变异比较灵敏的问题。

第四：由于变异信号数据库中的序列规模很大，序列比对需要花费大量时间，所以本发明使用模式增长的方法获得序列的比对关系，往往会在接近线性的时间内得到一个满意的比对结果，从而高效判定变异位置进而进行变异的进一步检测。

第五：本发明考虑了不同输入样本数据的差异性。由于不同的样本由于实现环境等的不同，在短读段长度分布、插入片段长度等数据上会有不同，所以本发明对每个输入样本都进行了数据分布的计算，来对不同样本设置适合的过滤条件，来实现更好的变异检测效果。

第六：本发明在一遍读数据过后则将输入文件的所有相关信息分析整理存入了数据库中，避免了传统工具的多次读数据，进而提升了运算效率。且该算法的可并行性较高，可以高效的用于人群基因组变异检测。

附图说明

图1为基于模式增长算法检测基因变异流程图。

图2为基于序列拆分法检测基因变异流程图。

图3为缺失类型的变异分类模型图。

图4为复制类型的变异分类模型图。

图5为反转类型的变异分类模型图。

具体实施方式

本发明所述的基于模式增长算法的基因变异检测方法，如图1所示，主要包括建立变异特征数据库和基因变异检测两大模块。各部分具体详述如下。

参见图1，本发明的一种基于模式增长算法的基因变异检测方法，包括以下4个步骤：

第一步：测序比对数据预处理。本发明整个算法是以二代测序比对数据为输入数据，比对数据可以为BAM/CRAM。考虑不同输入样本数据的差异性，需要计算输入样本的短读段长度分布，插入片段长度等信息进行分析，便于后续数据过滤操作。而原始比对数据存在一些比对质量不高、重复比对的数据，这些数据可能会影响变异检测的结果，因此需要对样本比对数据进行质量控制，将这些数据进行初步过滤，过滤后的数据进行下一步分析。

每一条预处理后的测序比对数据都包含了短读段比对到参考基因上的许多相关信息，包括比对到参考基因组后的染色体名称，比对到的起始坐标位置，该短读段的序列数据以及该短读段的比对状态等等。

第二步：提取有变异特征信号的数据并进行聚类。

在预处理后的测序比对数据中，提取出比对状态显示为“SM”和“MS”的比对数据，这些数据即为可疑的变异断点处比对数据。对每一条提取出来的数据，依据其比对状态及比对到的起始坐标位置，计算出它对应的断点位置。然后将相同断点位置且比对状态为“SM”的比对数据进行聚类，及将相同断点位置且比对状态为“MS”的比对数据进行聚类。对每一类数据，将其中所有的短读段序列依据比对状态拆分成状态分别为“S”和“M”的两段，将所有的“S”段的序列压缩建立“S”状态的一致性序列(consensus)，将所有的“M”段的序列压缩建立“M”状态的一致性序列(consensus)，压缩时采用投票方式按位置对齐压缩，这一操作可弥补测序过程中实验环境、实验技术等造成的测序错误。并对同一类中的数据信息(即有相同比对状态和断点位置的比对数据)进行综合计算和分析，如计算该类中序列比对数量、序列比对范围及序列比对方向等信息。则每一类数据都形成一个超项目，即每个超项目代表的是不同比对状态的各个断点。然后将每个超项目按照其在基因组上的位置按顺序存入设计好的变异信号数据库中。

第三步，使用模式增长算法，建立断点间的比对关系。

传统检测算法如图2所示，变异检测部分需要经过一个耗时很大且步骤重复的与参考序列重比对的一个过程。本发明则可以巧妙地避开这一步同时又高效准确地检测变异。

检测结构变异，即是要确定变异发生在参考基因上的坐标位置及该变异的类型。首先需要检测出变异的位置。一个结构变异在染色体上有两个断点，正常比对到断点位置的短读段，其比对状态应为“SM”或者“MS”状态。传统算法是将这些状态的短读段与参考基因进行重比对来获得断点位置信息。而这些分别比对到同一变异的两个断点位置的短读段之间，是有相互比对关系的，即断点1的“S”状态的序列可与断点2的“M”状态的序列有比对关系，同时断点1的“M”状态的序列可与断点2的“S”状态的序列有比对关系。依据这一信息，就无需进行“将短读段与参考基因重比对”这一步骤，而直接进行短读段之间的互相比对，即可获得变异位置信息。对变异信号数据库中的超项目依据序列长度、序列比对方向等信息进行过滤，保留序列长度不小于设定长度且序列比对方向符合要求的超项目。从过滤后的数据库中提取各个超项目的一致性序列，构造特征序列集，然后使用模式增长算法对序列集中的序列进行序列间比对，则可得到序列间的比对信息。最后通过比对信息进行变异位点的判断。模式增长算法即建立字符串模式树，大致过程为，模式从某一特定字符开始增长，同时构造该模式对应的投影序列集，投影序列集中记录的是符合当前模式的所有序列中当前模式的所有所在位置。序列模式每增长一位，就对符合当前模式的投影序列集进行迭代更新，直到投影序列集中有两序列对齐，便可得到相应序列比对信息，此时输出比对信息，模式停止增长。对比对信息进行整理，若有两断点的S与M状态序列能实现交叉比对，则可得到这两个断点间的相互比对关系，即确定了一个疑似变异发生在参考基因上的坐标位置。

第四步：建立变异模型，确定变异的类型。本发明为了确定变异的类型，主要检测缺失、重复和反转这三种变异。对这三种变异依据其不同的变异特征分别建立相应的变异模型。删除类型的变异模型如图3，参考基因上的中间区域在样本基因上发生了缺失，取断点处的短读段序列比对到参考基因上，发现左断点比对状态为MS，右断点为SM；复制类型的变异模型如图4，参考基因上的中间区域在样本基因上发生了复制，取断点处的短读段序列比对到参考基因上，发现左断点比对状态为SM，右断点为MS；反转类型的变异模型如图5，参考基因上的中间区域在样本基因上发生了反转，取断点处的短读段序列比对到参考基因上，发现左右断点的比对状态相同。将第三步中得到的有相互比对关系的断点带入变异模型，符合变异模型中断点状态特征的即可确定变异的类型。则就完成了对变异位置和类型的判断，完成了对输入样本的变异检测。

Claims

1.一种基于模式增长算法的基因变异检测方法，其特征在于，包括如下步骤：

第一步：预处理测序比对数据；

第二步：在预处理后的测序比对数据中提取有变异特征信号的数据并进行聚类，将聚类后的每一类数据中所有的短读段序列依据比对状态拆分成状态分别为S和M的两段，将所有的S段的序列压缩建立一致性序列，将所有的M段的序列压缩建立一致性序列；并对同一类中的数据信息进行计算，则每一类数据均形成一个超项目，即每个超项目代表的是不同比对状态的各个断点，然后根据每个超项目在基因组上的位置将每个超项目按顺序存入变异信号数据库中；有变异特征信号的数据通过以下过程得到：在预处理后的测序比对数据中，提取比对状态显示为SM和MS的比对数据，对每一条提取的数据，依据比对状态及比对到的起始坐标位置，计算对应的断点位置；得到相同断点位置且比对状态为SM的比对数据以及相同断点位置且比对状态为MS的比对数据；

2.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法，其特征在于，第一步中，对二代测序比对数据进行过滤，得到预处理后的测序比对数据。

3.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法，其特征在于，第一步中，预处理后的测序比对数据包括短读段比对到参考基因上的信息，包括比对到参考基因组后的染色体名称，比对到的起始坐标位置，短读段的序列数据以及该短读段的比对状态。

4.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法，其特征在于，第三步的具体过程为：将变异信号数据库中的各个超项目的一致性序列，利用模式增长算法进行序列间比对，则得到序列间的比对信息；对序列间的比对信息进行整理，若有两断点的S与M状态序列能实现交叉比对，则得到这两个断点间的相互比对关系。

5.根据权利要求1所述的一种基于模式增长算法的基因变异检测方法，其特征在于，第四步中，对缺失、重复和反转变异依据变异特征分别建立相应的变异模型：将有相互比对关系的断点带入变异模型，若符合某种变异模型的断点状态特征，则确定变异的类型，最终完成了对变异位置和类型的判断，完成变异检测。

6.根据权利要求5所述的一种基于模式增长算法的基因变异检测方法，其特征在于，对于缺失类型变异，左断点处序列比对状态为MS，右断点为SM；对于重复类型变异，左断点处序列比对状态为SM，右断点为MS；对于反转类型变异，左右断点的比对状态相同。