CN112712850A

CN112712850A - 一种可应用于传染病病原体测序读段映射的种子序列定位方法

Info

Publication number: CN112712850A
Application number: CN202011597126.3A
Authority: CN
Inventors: 项荣; 罗穆峰; 范亮亮; 黄皓
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-27

Abstract

本发明涉及一种可应用于传染病病原体测序读段映射的种子序列定位方法。该方法包括如下步骤：(1)预设种子长度：将种子长度N预先设定为某个值；(2)为参考基因组建立二叉树索引；(3)在二叉树索引上定位：在二叉树索引上对每个读段进行种子序列定位，其中对于每个读段其定位方法是：对读段中每个长为N的片段，都在二叉树索引上查找。相比现有技术本发明提供的种子序列定位方法计算量极大减少。

Description

一种可应用于传染病病原体测序读段映射的种子序列定位方法

技术领域

本发明涉及一种DNA测序(种子序列定位及延伸(seed-and-extend)测序)过程中种子序列的定位方法。

背景技术

DNA测序是分子生物学等学科研究的基础工作。例如研究病原体的DNA序列。在目前全球的COVID-19疫情中，分析病毒DNA序列是防疫工作的基础。荧光标记的Sanger法是第一代测序技术的标准方法。但是该方法通量低，不适合用于大规模测序工作。高通量测序(High-Throughput Sequencing,HTS)是对传统Sanger测序的革命性变革，其解决了一代测序一次只能测定一条序列的限制，一次运行即可同时得到几十万到几百万条核酸分子的序列，因此也被称为新一代测序(Next Generation Sequencing,NGS)或第二代测序。第二代测序技术虽然测序的通量大大增加，但是其获得单条序列长度很短，想要得到准确的基因序列信息依赖于较高的测序覆盖度和准确的序列拼接技术。其中对短序列的读取和识别是非常大的工作量。

在利用第二代测序方法进行基因测序时，首先会得到许多的读段，随后，需要把读段映射到参考基因组上。而映射过程分为两步：第一步是种子序列定位，第二步是延伸扩展。可见，种子序列的定位是完成映射过程的基础步骤。

目前常用的种子序列定位方法是：首先确定种子长度，然后为参考基因组建立FM索引，然后再在该FM索引上查找与读段中的每一个长度为种子长度的片段完全相同的片段。

例如：当读段为：CGTATGCGCGTAGGCGCGTAGCA；参考基因组为：ATATGCGCGTAGGCGCGTAGCTGAT时，首先确定一个种子长度，例如20，然后为参考基因组建立FM索引，建好后的索引如下图4所示。

接着，对读段中每个长为20的片段，都在FM索引上查找。本例中，读段共有4个长为20的片段，其中一个片段(以下称为片段C)为TATGCGCGTAGGCGCGTAGC，在FM索引上查找片段C的过程如下：

1.设置两个行号A和B，行号A的初始值为1,行号B的初始值为27；设置一个指针P，指向片段C的最后一个字母“C”；

2.将指针P指向的字母设为字母M，对行号A和行号B(以下统称行号C)，都进行以下操作(以下称行号更新操作)：在数量表的第行号C行找到字母M的值，如果数量表的第行号C行为空，则要逐行向上扫描，直到数量表不为空，从该行取字母M的值，并加上在逐行扫描过程中在BWT表中扫到的与字母M相同的字母的数量。将该值加上统计表中字母M的值，再加1，得出的值赋给行号C；

在本例中，指针P指向的字母是“C”，所以字母M是“C”。

行号A的值为1，对行号A的行号更新操作如下：

在数量表的第1行找到“C”的值0，加上统计表中“C”的值6，为6，再加1为7，所以行号A的值变更为7。本步需要在数量表中进行1次查表操作，计算量为1，累积计算量为1。

行号B的值为27，对行号B的行号更新操作如下：

数量表的第27行为空，所以从第27行开始向上找，直到第25行，数量表中“C”的值为4。在扫描过程，在BWT表的第25行扫到了1个“C”，所以加1,值为5，加上统计表中“C”的值6，为11，再加1为12。所以行号B的值变更为12。本步在数量表中扫描了3行，计算量为3，累积计算量为4。

3.将指针P往前移一个字母，重复执行步骤2，直到指针P指向片段C的第1个字母。

本例中，指针P前移指向“G”。

行号A此时为7，而数量表第7行为空，所以向上扫描7行，直到第1行，数量表中“G”的值为0。在BWT表的第4行扫到了1个“G”，所以加1，为1，加上统计表中“G”的值11,为12，再加1为13。行号A变更为13。本步在数量表中扫描了7行，计算量为7，累积计算量为11。

行号B此时为12，而数量表第12行为空，所以向上扫描4行，直到第9行，数量表中“G”的值为3。在BWT表的第11、10、9行扫到了3个“G”，所以加3，为6，加上统计表中“G”的值11,为17，再加1为18。行号B变更为18。本步在数量表中扫描了4行，计算量为4，累积计算量为15。

指针P前移指向“A”。

行号A此时为13，而数量表第13行为空，所以向上扫描5行，直到第9行，数量表中“A”的值为0。在BWT表中未扫到“A”，加上统计表中“A”的值1,为1，再加1为2。行号A变更为2。本步在数量表中扫描了5行，计算量为5，累积计算量为20。

行号B此时为18，而数量表第18行为空，所以向上扫描2行，直到第17行，数量表中“A”的值为0。在BWT表的第17行扫到了1个“A”，所以加1，为1，加上统计表中“A”的值1,为2，再加1为3。行号B变更为3。本步在数量表中扫描了2行，计算量为2，累积计算量为22。

重复上述过程，直到指针P向片段C的第1个字母“T”，累积计算量为168。

此时，行号A为6。

4.如果位置表的行号A行为空，则重复以下操作，直到位置表的行号A行不为空：将BWT表中行号A行的字母设为字母M，对行号A进行行号更新操作。用位置表中行号A行的值加上重复操作的次数，即为参考基因组上的种子序列的起始位置。

本例中，行号A为6，位置表的第6行为空，要进行一次行号更新操作。BWT表的第6行为“T”，操作如下：

行号A此时为6，而数量表第6行为空，所以向上扫描6行，直到第1行，数量表中“T”的值为0。在BWT表的第3、2、1行扫到了3个“T”，所以加3，为3。加上统计表中“T”的值20,为23，再加1为24。行号A变更为24。本步在数量表中扫描了6行，计算量为6，累积计算量为174。

此时，行号A为24，位置表的第24行为空，要进行一次行号更新操作。BWT表的第24行为“A”，操作如下：

行号A此时为24，而数量表第24行为空，所以向上扫描8行，直到第17行，数量表中“A”的值为0。在BWT表的第21、18、17行扫到了3个“A”，所以加3，为3。加上统计表中“A”的值1,为4，再加1为5。行号A变更为5。本步在数量表中扫描了8行，计算量为8，累积计算量为182。

此时，行号A为5，位置表的第5行不为空，值为0，共进行了2次行号更新操作，所以加2，为2。所以，参考基因组中的种子序列起始位置为第2bp。

可以看到上述示例中，查找一个片段需要计算182次。可见传统方法的计算量较大，速度较慢。

本申请中涉及的术语的定义如下。

字母序：两个英文字母，在字母表中靠前的那个，其字母序小于在字母表中靠后的那个。例如：“C”的字母序小于“E”；“A”的字母序小于其他所有字母；“Z”的字母序大于其他所有字母。

字典序：两个长度相同的英文字符串，把它们中的字母从左至右依次比较，直到第一个不相同的字母为止，字母序较小的那个字母所在的字符串，其字典序小于另外一个字符串。例如：字符串ABCZZZZ的字典序小于字符串ABXAAAA的字典序。特别地，如果两个字符串完全相同，则两者的字典序相等。

读段：一个字符串。例如：ACCAGTCAACTGTGCA。

参考基因组：一个字符串。例如：GTAACTGTGCATGTCGCATGTATGCATGTAATGCbp：字符串的长度单位，一个字母就是一个bp，字符串中的第i个字符就是第ibp。例如：AAACTTGGA，长度为9bp，其中字母“C”是第4bp。

编辑距离：两个字符串A和B，如果要把A变成B，最少需要i次编辑操作，则称A与B的编辑距离是i。其中，一次编辑操作是指下列三种操作之一：1.修改一个字母，2.插入一个字母，3.删除一个字母。例如：两个字符串分别为：

字符串A：ACTCTAGTATGTGCATGCGCGCCATGTGTGCATGGGCAT

字符串B：ACTCGTAGTATGAGCATGTGCGCCATGTGTGCTGGGCAT

至少需要4次编辑操作，才可将以将字符串A变成字符串B。具体的编辑操作如下(如图1所示)：

1.插入字母“G”(以红色标出)，2.修改字母“T”为“A”(以蓝色标出)，3.修改字母“C”为“T”(以黄色标出)，4.删除字母“A”(以绿色标出)。

所以这两个字符串的编辑距离为4。

读段映射：将读段映射到参考基因组上。映射的结果就是要在参考基因组上找一个片段，使得该片段与读段之间的编辑距离尽可能地小。例如：

当读段为：

ACCAGTCAACTGTGCATGTCGCATGTATGCATGAATGCG

参考基因组如图2所示。

在该映射结果中，在参考基因组上找到的片段是第13bp至第51bp之间(含第13bp和第51bp)的片段(以灰底标出)，读段与该片段的编辑距离为3，仅有1处修改(以红字，加粗标出),1处插入(以绿字、斜体标出)和1处删除(以蓝字、下划线标出)。

参考基因组上除此片段之外的其他任何片段，与读段的编辑距离均大于3。

种子序列定位：在读段和参考基因组中都找一个固定长度(称为种子长度，种子长度预先设定)的片段，使得二者完全相同。例如，在上例中，如果预先设定的种子长度为20bp，则可以在基因组上找到第20bp至第39bp之间(含第20bp和第39bp)的片段，使其与读段上第9bp至第28bp之间(含第9bp和第28bp)的片段完全相同(两者均以黄字标出)。

二叉搜索树：一种二叉树结构，其特点是：任何一个节点，它的左子树上的每个节点都小于或等于该节点，它的右子树上的每个节点都大于或等于该节点。节点之间的小于、大于和等于，其含义是指：如果节点A代表的片段的字典序在节点B代表的片段的字典序之前，则称节点A小于节点B，节点B大于节点A；如果节点A代表的片段与节点B代表的片段内容相同，则称节点A等于节点B。例如，图3所示。

发明内容

本发明的目的是针对现有方法的上述不足，提供一种可以减少计算量，提高种子序列定位的速度的种子序列定位方法。

本发明提供的测序读段过程中种子序列定位方法是：

1、预设种子长度：将种子长度N预先设定为某个值；

2、为参考基因组建立二叉树索引：建立一棵二叉搜索树，将参考基因组中每个长为N的片段都添加到二叉搜索树中；

3、在二叉树索引上定位：在二叉树索引上对每个读段进行种子序列定位，其中对于每个读段其定位方法是：对读段中每个长为N的片段，都在二叉搜索树上查找。

所述的在二叉搜索树上查找的步骤为：

第1步、将根节点设为当前节点。

第2步、将当前节点所代表的片段称为片段B。

第3步、将待查片段A与片段B比较：

如果两者的字典序相等，则查找成功,也就是种子序列定位成功；

如果片段A的字典序小于片段B的字典序，则：

如果当前节点没有左子节点，则查找失败；

如果当前节点有左子节点，则将当前节点的左子节点设为当前节点；

如果片段A的字典序大于片段B的字典序，则：

如果当前节点没有右子节点，则查找失败；

如果当前节点有右子节点，则将当前节点的右子节点设为当前节点。

第4步、跳转回第2步。

为了减少存储容量，在构建二叉树索引时，不需要在二叉搜索树中储存每一个片段的实际内容，而只需要储存片段在参考基因组中的位置，即可通过位置，在参考基因组中找到该片段的内容。通过这种方式，可以优化存储空间的占用。

更优化的方法是将二叉树建立为完全二叉树，用线性数组来储存。

需要注意的是，本发明不限定二叉树索引的建立方法。

以前述例子为例，读段为CGTATGCGCGTAGGCGCGTAGCA，参考基因组为ATATGCGCGTAGGCGCGTAGCTGAT，种子长度为20，采用本发明提供的种子序列定位方法，则只需要进行4次计算，即可完成片段TATGCGCGTAGGCGCGTAGC的定位，相比现有技术计算量极大减少。

附图说明

图1为编辑字符创A和B的示意图；

图2为读段映射的参考基因组；

图3为二叉搜索树图；

图4为根据现有的方法建立的FM索引图；

图5为本发明实施例的流程图；

图6为以序号代替具体片段存储的二叉树索引图；

图7为以线性数组方式储存的二叉树索引形式。

具体实施例

实施例1

参考图5表述的流程图进行种子序列定位。

设定读段为CGTATGCGCGTAGGCGCGTAGCA，参考基因组为ATATGCGCGTAGGCGCGTAGCTGAT。

首先预设种子长度N为20。

其次，建立一棵二叉搜索树。参考基因组中每一个长度为N的片段都是二叉树索引中的一个节点，同时，该二叉树索引是一棵完全二叉树。当N为20时，参考基因组建立的二叉树索引如图3所示。该参考基因组长度为25bp，其中长度为20的片段有6个，从第1bp开始，连续20个bp的片段为ATATGCGCGTAGGCGCGTAG，称为片段1；从第2bp开始，连续20个bp的片段为TATGCGCGTAGGCGCGTAGC，称为片段2；依此类推，6个片段依次为：

片段1：ATATGCGCGTAGGCGCGTAG

片段2：TATGCGCGTAGGCGCGTAGC

片段3：ATGCGCGTAGGCGCGTAGCT

片段4：TGCGCGTAGGCGCGTAGCTG

片段5：GCGCGTAGGCGCGTAGCTGA

片段6：CGCGTAGGCGCGTAGCTGAT

这六个片段以序号的形式全部都存在于图6所示的二叉搜索树中。

参考基因组对应的二叉树索引如图6所示。

对该二叉树索引的解释如下：

将上述6个片段按字典序由小到大排序，依次为：

片段1：ATATGCGCGTAGGCGCGTAG

片段3：ATGCGCGTAGGCGCGTAGCT

片段6：CGCGTAGGCGCGTAGCTGAT

片段5：GCGCGTAGGCGCGTAGCTGA

片段2：TATGCGCGTAGGCGCGTAGC

片段4：TGCGCGTAGGCGCGTAGCTG

二叉树的根节点为5,其左子树共有三个节点，分别为6、1、3，表示片段6、片段1、片段3的字典序全部都小于片段5的字典序；其右子树共有两个节点，分别为4、2，表示片段4、片段2的字典序全部都大于片段5的字典序。

值为3的节点，其左子树有一个节点1，表示片段1的字典序小于片段3的字典序；其右子树有一个节点6，表示片段6的字典序大于片段3的字典序。

在实际应用中，完全二叉树可以用线性数组来储存。根节点储存到数组的第1个元素中，其他节点的储存规则是：如果它的父节点储存在第i个元素中，则看该节点是其父节点的左子节点还是右子节点。如果该节点是其父节点的左子节点，则储存到第i*2个元素中；如果该节点是其父节点的右子节点，则储存到第i*2+1个元素中。例如，图3中的二叉树索引可以按如图6所示的方式，储存到线性数组中：

图6中，根节点5储存到了数组的第1个元素中，它的左子节点3储存到了第1*2＝2个元素中，它的右子节点4储存到了第1*2+1＝3个元素中；节点4储存到了第3个元素中，它的左子节点2储存到了第3*2＝6个元素中。

建立二叉树索引的方法不限，例如可以穷举所有的排序方式，直到符合二叉树索引的规则为止。

3.在二叉树索引上定位。在二叉树索引上对每个读段进行种子序列定位。对于每个读段，其定位方法是：对读段中每个长为N的片段，都在二叉树索引上查找。例如，当N为20时，示例二中的读段共有4个长为N的片段，依次为：

片段一：CGTATGCGCGTAGGCGCGTA

片段二：GTATGCGCGTAGGCGCGTAG

片段三：TATGCGCGTAGGCGCGTAGC

片段四：ATGCGCGTAGGCGCGTAGCA

对每个片段(以下称为片段A)，都在二叉树索引上查找.

例如，将上述片段三(TATGCGCGTAGGCGCGTAGC)在图3所示的二叉树上定位，过程如下：

第一步、将根节点(节点5)设为当前节点。节点5代表的片段是片段5(GCGCGTAGGCGCGTAGCTGA)。

第二步、片段三的字典序大于片段5的字典序，所以将当前节点(节点5)的右子节点(节点4)设为当前节点。节点4代表的片段是片段4(TGCGCGTAGGCGCGTAGCTG)。

第三步、片段三的字典序小于片段4的字典序，所以将当前节点(节点4)的左子节点(节点2)设为当前节点。节点2代表的片段是片段2(TATGCGCGTAGGCGCGTAGC)。

第四步、片段三的字典序等于片段2的字典序，定位成功。即：参考基因组上的种子序列起始位置为第2bp。

在本例中，只需要进行4次计算，即可完成该片段的定位。

实施例2

其他条件和说明同实施例1，但将上述片段一(CGTATGCGCGTAGGCGCGTA)在图3所示的二叉树上定位，过程如下：

第二步、片段一的字典序小于片段5的字典序，所以将当前节点(节点5)的左子节点(节点3)设为当前节点。节点3代表的片段是片段3(ATGCGCGTAGGCGCGTAGCT)。

第三步、片段一的字典序大于片段3的字典序，所以将当前节点(节点3)的右子节点(节点6)设为当前节点。节点6代表的片段是片段6(CGCGTAGGCGCGTAGCTGAT)。

第四步、片段一的字典序大于片段6的字典序，而当前节点(节点6)没有右子节点，定位失败。

在本例中，只需要进行4次计算，即可排除该片段。

可以看到，在本例中，定位或排除一个片段均只需要计算4次，与传统方法需要计算182次相比，本发明提出的方法大大减少了计算量，提高了种子序列定位的速度。

Claims

1.一种测序读段过程中种子序列定位方法，其包括如下步骤：

(1)预设种子长度：将种子长度N预先设定为某个值；

(2)为参考基因组建立二叉树索引；

(3)在二叉树索引上定位：在二叉树索引上对每个读段进行种子序列定位，其中对于每个读段其定位方法是：对读段中每个长为N的片段，都在二叉树索引上查找。

2.根据权利要求1所述的测序读段过程中种子序列定位方法，其特征在于所述的在二叉树索引上查找的步骤为：

第1步、将根节点设为当前节点；

第2步、将当前节点所代表的片段称为片段B；

第3步、将查找片段A与片段B比较：

如果两者的字典序相等，则查找成功；

如果片段A的字典序小于片段B的字典序，则：

如果当前节点没有左子节点，则查找失败；

如果片段A的字典序大于片段B的字典序，则：

如果当前节点没有右子节点，则查找失败；

如果当前节点有右子节点，则将当前节点的右子节点设为当前节点；

第4步、跳转回第2步。

3.根据权利要求1所述的测序读段过程中种子序列定位方法，其特征在于在构建二叉树索引时，只储存片段的编号。

4.根据权利要求3所述的测序读段过程中种子序列定位方法，其特征在于二叉树索引可以用线性数组来储存。

5.根据权利要求1所述的测序读段过程中种子序列定位方法，其特征在于所述的二叉树索引为完全二叉树。