CN103853941A

CN103853941A - 高通量dna测序数据匹配增强方法

Info

Publication number: CN103853941A
Application number: CN201310714093.XA
Authority: CN
Inventors: 冯伟兴; 贺波; 董彦生; 陈若雷; 王科俊
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2014-06-11

Abstract

本发明属于分子生物信息检测领域，具体涉及只用在已有高通量DNA测序数据匹配基础上，基于贝叶斯技术进一步增加测序数据的匹配数量，以提高测序数据的利用效率和实验检测效果的高通量DNA测序数据匹配增强方法。本发明包括：初步匹配高通量DNA测序数据；求取高通量DNA测序数据错配先验概率；计算高通量DNA测序数据错配后验概率；求取高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估值；提取高通量DNA测序数据不成功匹配集中成功匹配数据。本发明在原有高通量DNA测序数据匹配映射基础上，通过评估不成功匹配测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用效率。

Description

高通量DNA测序数据匹配增强方法

技术领域

本发明属于分子生物信息检测领域，具体涉及只用在已有高通量DNA测序数据匹配基础上，基于贝叶斯技术进一步增加测序数据的匹配数量，以提高测序数据的利用效率和实验检测效果的高通量DNA测序数据匹配增强方法。

背景技术

高通量DNA测序技术直接对靶核苷酸序列进行测序，然后通过测序结果与参考基因组序列匹配的方式找到靶核苷酸序列在DNA上的出处，从而获取相关基因的检测信息。由于直接对靶核苷酸序列进行测序，高通量DNA测序技术大幅度地提高了基因信息的检测精度。然而，由于在基因信息检测过程中存在序列匹配环节，高通量DNA测序对基因信息的检测属于间接检测，其序列匹配环节直接影响着信息检测的最终效果。

此外，有别于传统基因芯片技术只能检测事先设计好的特定的基因信息，高通量DNA测序技术有能力一次性地检测全基因组的基因信息，因此，高通量DNA测序技术在生物信息检测领域正得到越来越广泛的应用。然而，为了达到检测目的，高通量DNA测序技术必须产生更高通量的检测数据，以保证检测数据有效覆盖全基因组上的所有信息。此时，对高通量DNA测序技术而言，所生成的每一条检测数据都非常重要，其序列匹配环节的成功率更是与信息检测效果密切相关。

综上所述，在高通量DNA测序实验中，如何保证测序数据高成功率地匹配映射回其在DNA上的出处至关重要。

目前，被大家广泛使用的高通量DNA测序数据序列匹配方法有很多。但不论何种方法，由于个体间差异和测序误差的存在，都无法将所有的高通量DNA测序数据一丝不差地通过与参考基因组序列的匹配而映射回基因组。因此，为了保证序列匹配的成功率，在序列匹配过程中，都允许测量序列和参考基因组中的参考序列间存在一定数量的错配。只有当错配过量出现时，才认为测量序列和参考序列不匹配。尽管如此，在每次测序数据的匹配过程中，仍有部分数据因找不到相匹配的参考序列而被放弃，影响了测序数据的利用效率。

实际上，高通量DNA测序数据中测序误差的发生是有规律的，即每个测序读数中，越往后的位置，发生测序错误的概率越高；不同测序位置上，发生不同种类测序错误的概率不同。而上述规律是随着测序平台的不同，实验环境的不同而变化的。因此，针对特定的测序实验，可以通过估计其特有的测序误差模式，作为匹配映射的参考并进而提高其测序数据的匹配映射成功率，以提高测序数据的利用效率。

发明内容

本发明的目的在于提供一种基于贝叶斯技术对测序实验中特有的测序误差模式进行估计，以提高测序数据的匹配映射成功率和测序数据的利用效率的高通量DNA测序数据匹配增强方法。

本发明的目的是这样实现的：

1）初步匹配高通量DNA测序数据

利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配，根据匹配结果中所含错配个数，将测序数据分为成功匹配和不成功匹配两个数据集合，在成功匹配的数据集中，进一步将含有错配的数据提取出来形成有错配匹配子集合，其余数据为完全匹配子集合。

2）求取高通量DNA测序数据错配先验概率

在成功匹配集合的有错配匹配子集合中，统计分析错配信息，并计算成功匹配时不同测序位置上不同种类错配发生的先验概率，该概率为P(A_ij|M)，其中，A_ij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配；M为成功匹配；

3）计算高通量DNA测序数据错配后验概率

根据成功匹配集合中有错配匹配子集合数据求取得到的高通量DNA测序数据错配先验概率，计算测序数据存在某种错配但仍是成功匹配的后验概率P(M|A_ij)：

P(M|A_ij)＝P(A_ij|M)*P(M)/P(A_ij)

其中，A_ij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配；M为成功匹配，则P(A_ij|M)为成功匹配数据中，第i个位置上发生第j种错配A_ij的先验概率，P(M|A_ij)为第i个位置上发生第j种错配A_ij时仍认为其是成功匹配的后验概率，P(M)为全部测序数据中成功匹配的概率，P(A_ij)为全部测序数据中第i个位置上发生第j种错配A_ij的概率；

4）求取高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估值

不成功匹配集中的测序数据，通过初步匹配映射与参考序列之间形成一种错配模式，该模式存在较多错配，则仍认为两者之间是成功匹配的评估值为：

E (M | B_{1}, B_{2}, . . ., B_{n}) = Π_{k = 1}^{n} P (M | B_{k});

其中，B_k为某一个测序数据的错配模式所包含的n个错配中的第k个错配（第i个位置上发生的第j种错配A_ij），P(MB|_k)为发生第k个错配仍认为是成功匹配的后验概率，n为该测序数据中发生的错配个数；

5）提取高通量DNA测序数据不成功匹配集中成功匹配数据

针对高通量DNA测序数据不成功匹配集中的每一条测序数据，依据其与参考序列的错配模式计算二者之间为成功匹配的评估值，再将评估值大于阈值S的测序数据提取并增补为成功匹配数据。

本发明的有益效果在于：

本发明利用贝叶斯技术，在原有高通量DNA测序数据匹配映射基础上，通过评估不成功匹配测序数据集中数据发生成功匹配的可能，进一步增加成功匹配映射的数据数量，以提高测序数据的利用效率。

附图说明

图1为本发明的基于贝叶斯的高通量DNA测序数据匹配增强方法流程图。

图2为CRF模型的训练流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明方法具体实施方式如图1所示，具体如下：

基于贝叶斯的高通量DNA测序数据匹配增强方法，包括下列步骤：

(1)利用常规高通量DNA测序数据序列匹配方法对测序数据进行匹配映射，依据匹配结果将测序数据分为成功匹配和不成功匹配两个数据集合。在成功匹配的数据集合中，进一步依据是否含有错配将数据分为完全匹配和有错配匹配两个子集合；

(2)在有错配匹配子集合中，分析含有错配的测序数据，并依据贝叶斯原理，计算测序实验中成功匹配数据在不同测序位置上发生不同种类错配的先验概率；

(3)利用计算得到的测序实验中成功匹配数据在不同位置上发生不同种类错配的先验概率，计算在不同位置上发生不同种类错配但仍是成功匹配的后验概率；

本方法所采用测序数据发生某一种类错配但仍认为是成功匹配的贝叶斯后验概率计算公式如下：

P(M|A_ij)＝P(A_ij|M)*P(M)/P(A_ij)

其中，A_ij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配；M为成功匹配。则P(A_ij|M)为成功匹配数据中，第i个位置上发生第j种错配A_ij的先验概率，P(M|A_ij)为第i个位置上发生第j种错配A_ij时仍认为其是成功匹配的后验概率。P(M)为全部测序数据中成功匹配的概率，P(A_ij)为全部测序数据中第i个位置上发生第j种错配A_ij的概率。

(4)对不成功匹配测序数据集合中的测序数据，利用计算得到的测序数据发生不同种类错配但仍认为是成功匹配的后验概率，计算其发生某种错配模式并仍是成功匹配的评估值，并依据评估值的大小判断是否接受其为成功匹配，从而增加测序数据的匹配数量，以提高测序数据的利用效率。

本方法所采用的某一个测序数据发生某种错配模式但仍认为是成功匹配的评估值计算公式如下：

E (M | B_{1}, B_{2}, . . ., B_{n}) = Π_{k = 1}^{n} P (M | B_{k})

其中，B_k为某一个测序数据的错配模式所包含的n个错配中的第k个错配（第i个位置上发生的第j种错配A_ij），P(MB|_k)为发生第k个错配仍认为是成功匹配的后验概率，n为该测序数据中发生的错配个数。

1.高通量DNA测序数据的初步匹配

利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配。常规高通量DNA测序数据匹配方法将自动依据匹配结果中所含错配个数的多少，将测序数据分为成功匹配和不成功匹配两个数据集合。

本发明中，将在成功匹配的数据集中，进一步将含有错配的数据提取出来形成有错配匹配子集合，其余数据为完全匹配子集合。

2.高通量DNA测序数据错配先验概率的求取

在成功匹配集合的有错配匹配子集合中，统计分析错配信息，并计算成功匹配时不同测序位置上不同种类错配发生的先验概率。该概率为P(A_ij|M)，其中，A_ij表示测序数据匹配映射到参考基因组时在第i个位置上发生的第j种错配；M为成功匹配。

3.高通量DNA测序数据错配后验概率的计算

利用成功匹配集合中有错配匹配子集合数据求取得到的高通量DNA测序数据错配先验概率，即可计算测序数据存在某种错配但仍是成功匹配的后验概率。该概率为P(M|A_ij)，其贝叶斯计算公式如下：

P(M|A_ij)＝P(A_ij|M)*P(M)/P(A_ij)

4.高通量DNA测序数据不成功匹配集中数据发生成功匹配的评估

不成功匹配集中的测序数据，通过初步匹配映射与参考序列之间形成一种错配模式，该模式存在较多错配，则仍认为两者之间是成功匹配的评估值计算公式如下：

E (M | B_{1}, B_{2}, . . ., B_{n}) = Π_{k = 1}^{n} P (M | B_{k})

5.高通量DNA测序数据不成功匹配集中成功匹配数据提取

针对高通量DNA测序数据不成功匹配集中的每一条测序数据，依据其与参考序列的错配模式计算二者之间为成功匹配的评估值，再将评估值较高的测序数据提取并增补为成功匹配数据，从而增加整体测序数据中发生成功匹配映射的数据数量，以提高测序数据的利用效率。

6.实验验证

6.1测序数据获取

本实验所采用的测序数据来自美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)生物信息网站的测序序列数据库(Sequence Read Archive,SRA)公开的数据，编号ERR015950，为大肠杆菌的DNA测序数据。该数据是由Illmina/Solexa测序平台生成的长度为36个碱基的测序读数数据。测序数据总数量为19249204。

6.2数据初步匹配

这里选取被广泛使用的Bowtie软件作为该组大肠杆菌DNA测序数据与参考基因组之间的初步匹配工具。Bowtie软件准许两个错配存在，即测序数据与参考基因序列数据之间存在两个以内错配就认为是成功匹配，否则认为是不成功匹配并被遗弃。

本实验利用Bowtie软件对大肠杆菌的19249204个测序数据进行初步匹配，匹配成功的数据共有16408131个，其中，0个错配的有9988144个，1个错配的有4518585个，2个错配的有1901402个。但仍有2841073个测序数据为不成功匹配，其中，3个错配的有63928个。

6.3匹配结果分析

首先，利用贝叶斯技术，依据成功匹配测序数据集中有错配子集的6419987个数据（1错配和2错配），通过错配情况统计分析计算成功匹配时发生某种错配的先验概率，即计算成功匹配时测序数据第i个位置上发生第j种错配A_ij的概率。

本实验所采用的测序数据长度为36,每个位置上可取的碱基值为A、C、G、T之一，因此，每个位置上可发生12种错配，测序数据可发生错配的全部种类为432种。通过分析，发现本实验成功匹配的数据中，全部432种错配均存在，其先验概率值分布在0.000592-0.005590之间；

然后，利用求取得到的测序数据错配先验概率，计算存在某种错配但仍为成功匹配的后验概率，其后验概率值分布在0.035341-0.333544之间。

最后，计算不成功匹配集中每一条测序数据在已有错配模式下为成功匹配的评估值，以3错配为例，63928个3错配数据中，评估值分布在5.43705e-5-0.365844之间。

我们将3错配的63928个测序数据按评估值由大到小排序并分成两类，前10%为可信匹配数据，后10%为不可信匹配数据。

将可信匹配数据和不可信匹配数据与成功匹配数据集中完全匹配数据（0错配）进行匹配一致性验证分析。结果发现，可信匹配数据中，有2599（40.7%）个数据的匹配映射区域与完全匹配数据匹配映射区域一致，而不可信数据中，仅有562（8.8%）个数据的匹配映射区域与完全匹配数据的匹配映射区域一致。验证结果表明，在不成功匹配数据集中，我们利用贝叶斯技术区分开的可信匹配数据和不可信匹配数据与成功匹配数据集中完全匹配数据在一致性方面具有显著差异，从而证明本发明所设计的高通量DNA测序数据匹配增强方法的有效性和可行性。

Claims

1.高通量DNA测序数据匹配增强方法，其特征在于：

1）初步匹配高通量DNA测序数据

利用常规高通量DNA测序数据匹配方法，对测序实验获得的高通量DNA测序数据进行初步匹配，根据匹配结果中所含错配个数，将测序数据分为成功匹配和不成功匹配两个数据集合，在成功匹配的数据集中，进一步将含有错配的数据提取出来形成有错配匹配子集合，其余数据为完全匹配子集合；

2）求取高通量DNA测序数据错配先验概率

3）计算高通量DNA测序数据错配后验概率

P(M|A_ij)＝P(A_ij|M)*P(M)/P(A_ij)

E (M | B_{1}, B_{2}, . . ., B_{n}) = Π_{k = 1}^{n} P (M | B_{k})

5）提取高通量DNA测序数据不成功匹配集中成功匹配数据