CN113449533B

CN113449533B - 一种基于条形码序列的读长比对方法和装置

Info

Publication number: CN113449533B
Application number: CN202010228801.9A
Authority: CN
Inventors: 张通达; 李建标; 郭健; 陈芳; 朱师达
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2022-10-14
Anticipated expiration: 2040-03-27
Also published as: CN113449533A

Abstract

一种基于条形码序列的读长比对方法和装置，该方法包括：将含有条形码序列的测序读长比对到参考基因组得到每个读长的初始比对位置；根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在重复数据库内的读长判定为比对到重复区域；对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。本发明对于预判定为比对不准确的读长，根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置，以改进比对的准确性。

Description

一种基于条形码序列的读长比对方法和装置

技术领域

本发明涉及序列比对技术领域，尤其涉及一种基于条形码序列的读长比对方法和装置。

背景技术

带有条形码序列(barcode)的测序读长(reads)，由于多了一些序列信息，理论上能够比常规二代测序读长提供更多信息。但是，实际序列分析中较多还是用常规二代比对算法。

考虑到条形码序列的比对算法，如Lariat算法和EMA算法也只是把相同条形码序列的测序读长当成整体进行比对优化。重复区域内的数据会很容易比对错位置。

例如，出自论文《Ariya Shajii1,et al.Latent variable model for aligningbarcoded short-reads improves downstream analyses.Res Comput MolBiol.2018April；10812:280–282》的EMA算法，方法示意图如图1所示。流程包括：(A)带标签读段测序的理想模型是，一些数量的未知来源的DNA片段，在一个微滴或小室中被修剪、带上标签，并通过测序获得带有标签的读段；(B)EMA的“读段云”是由一群带有共同的标签且比对到基因组邻近位置的读段组成，然后EMA通过比对将“读段云”区分成一个个互斥的组，如果有一个读段能同时比对到两个读段云，那么这两个读段云是关联的。这些关联的部分对应来源于同样DNA片段的读段的可变的基因组比对的多种可能性。EMA的潜在变量模型将对每个关联的成分进行单独的优化，以推论属于共有barcode的哪个片段。(C)EMA对包含多个比对位置的读段的读段云应用一个新的读段密度优化算法，具体方法是同时通过读段云内的和读段密度进行优化，基因组的绿色区域是高度同源的，会导致同一个读段云内的reads有多个基因组比对的位置。(D)当对一个读段云内进行读段密度优化，EMA的潜在变量模型优化会确定一个特定的read的在不同读段云之间的最佳比对位置，而且不仅仅只有最终的比对结果，还有可转译的比对可能性。。

出自论文《Alex Bishara,et al.Read clouds uncover variation in complexregions ofthe human genome.Genome Res.201525:1570-1580》的Lariat算法，方法示意图如图2所示。流程包括：通过短读长比对工具分别对每个读长进行比对，以确定打断片段候选位置以及确定比对到长片段的多个候选短读长位置。最后，执行MAP推断以确定最佳比对。在此示例中，RFA成功地确定打断源长片段重叠的正确重复拷贝R。

带有相同条形码序列的读长一起比对是一个较好的方案，对于比较短的重复区域能比对准确。但是对于较长的重复区域依然会比对错误。单纯依靠统计算法并不足以发挥条形码序列的潜力。

发明内容

本发明的目的在于提供一种基于条形码序列的读长比对方法和装置，使用重复数据库预先判定初始比对的准确性，对于预先判定为比对不准确的读长，根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置，以改进比对的准确性。

根据本发明的第一方面，本发明提供一种基于条形码序列的读长比对方法，包括：

将含有条形码序列的测序读长比对到参考基因组，得到每个读长的初始比对位置；

根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在上述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域；

对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与上述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

在优选实施例中，上述重复数据库中包括具有基因同源性的序列。

在优选实施例中，上述建库最大插入片段长度是200kb。

在优选实施例中，上述方法还包括：

对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据上述不同位置上比对上的读长支持数确定具有该条形码序列的读长的准确位置。

在优选实施例中，上述准确位置的数量是一个或两个。

根据本发明的第二方面，本发明提供一种基于条形码序列的读长比对装置，包括：

读长初始比对单元，用于将含有条形码序列的测序读长比对到参考基因组，得到每个读长的初始比对位置；

初始位置判定单元，用于根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在上述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域；

重复区域确定单元，用于对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与上述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

在优选实施例中，上述建库最大插入片段长度是200kb。

在优选实施例中，上述装置还包括：

非重复区域确定单元，用于对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据上述不同位置上比对上的读长支持数确定具有该条形码序列的读长的准确位置。

在优选实施例中，上述准确位置的数量是一个或两个。

根据本发明的第三方面，本发明提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如第一方面的方法。

本发明的方法，使用重复数据库预先判定初始比对的准确性，对于预先判定为比对到重复区域的读长，初步提示比对不准确，根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置，以改进比对的准确性，进而提高变异检出准确性。

附图说明

图1为本发明实施例中EMA算法的原理示意图；

图2为本发明实施例中Lariat算法的原理示意图；

图3为本发明实施例中基于条形码序列的读长比对方法流程示意图；

图4为本发明实施例中基于条形码序列的读长比对装置结构框图；

图5为本发明实施例中一个比对位置比对优化前的比对结果；

图6为本发明实施例中一个比对位置比对优化后的比对结果。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他材料、方法所替代。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

如图3所示，本发明提供一种基于条形码序列的读长比对方法，包括如下步骤：

S310：将含有条形码序列的测序读长比对到参考基因组，得到每个读长的初始比对位置。

测序读长(Reads)就是测序仪测序产生的核酸序列片段。本发明中，测序读长可以是从测序仪直接下机的测序序列数据，也可以是经过适当预处理，例如序列拆分或去除部分接头序列的数据。

参考基因组是由测序组装的数字核酸序列数据库，是物种基因组的代表示例。由于它们通常是通过对许多供体的DNA进行测序而组装的，因此参考基因组不能准确代表任何一个个体(如个人)的基因组。相反，参考提供了来自每个供体的不同DNA序列的单倍体镶嵌。每个物种有不同的参考基因组，以人类为例，可以是hg19参考基因组。

初始比对位置即测序读长比对到参考基因组上的位置，会有一个编号，一般包含染色体号和碱基位置编码。例如，chr1:206566904位置，表示1号染色体上第206566904号碱基位置。当一个测序读长上的所有碱基的位置被确定下来，即可得到该测序读长的初始比对位置。

S320：根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在上述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域。

本发明的使用重复数据库对每个读长的初始比对位置进行预判，预先确定比对结果的准确性。其中，重复数据库中包含大量重复区域序列，例如具有基因同源性的序列。例如，一个基因家族的基因序列具有很高的相似性，会组成一个重复区域。在本发明的一个实施例中，重复数据库是同源基因数据库。在本发明的一个实施例中，根据同源基因数据库，比对到TUBB2A或TUBB2B的读长，被判定为比对到重复区域。

经过重复数据库的预判，每个读长都根据其初始比对位置被判定为比对到重复区域，或非重复区域。其中，判定为比对到重复区域的比对准确性低，需要进一步重新比对。而判定为比对到非重复区域的比对准确性相对较高。

S330：对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与上述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

对于比对到重复区域的读长，每条读长都能比对到多个位置，所有读长需要重新比对。每个读长具有一个条形码序列，具有该相同条形码序列的读长还有若干个，这些读长可能比对到参考基因组上的不同区域，例如有一些比对到重复区域，另有一些比对到非重复区域。首先，找到与需要重新比对的读长(即比对到重复区域的读长)具有相同的条形码序列但比对到非重复区域位置的读长，这些比对到非重复区域位置的读长具有较高的比对准确性。然后，在那些具有相同的条形码序列并比对到重复区域的读长中寻找满足如下条件的读长：其与上述确定的非重复区域位置之间的距离不超过建库最大插入片段长度。一旦找到这样的读长，就将其在参考基因组上的比对位置作为具有该条形码序列的读长的真正比对位置。

本发明实施例中，建库最大插入片段长度一般不超过200kb，例如100bk、150kb或200kb，优选200kb。

举例而言，假如A和B区域序列相似，构成重复区域，具有相同条形码序列的短读长在初始比对中随机比对到A和B区域上，接下来要优化成只比对到一个区域的结果。假如比对到A区域的读长还跨到A区域的上游(非重复区域)，由于A区域的上游是非重复区域，因此可以根据这点表明：具有这个条形码序列的所有读长的真正比对位置都在A区域。

本发明的方法，除了对比对到重复区域的读长进行优化比对以外，还对比对到非重复区域的读长做处理。并且，一般而言，可以首先对比对到非重复区域的读长做处理，然后对比对到重复区域的读长进行优化比对。

具体而言，在一个实施例中，对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据上述不同位置上比对上的读长支持数确定具有该条形码序列的读长的准确位置。例如，选择比对上的读长支持数最多的位置作为具有该条形码序列的读长的准确位置，这样的位置是唯一的。在其他实施例中，例如存在潜在变异或发生测序错误的情况下，比对到了非重复区域的两个位置，根据每个位置的读长支持数，确定最终保留一个位置，或者两个位置都保留。因此，最终保留的准确位置的数量最少是一个，最多是两个。

在本发明的一个实施例中，对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据不同位置上比对上的读长支持数进行排序，将读长支持数最多的位置定义为准确位置；如果读长支持数的排序第二多的位置的读长支持数小于或等于4个，则准确位置数目为1，即将读长支持数最多的那个位置视为准确位置；如果读长支持数的排序第二多的位置的读长支持数多于4个，则在读长支持数的排序最多的位置和读长支持数的排序第二多的位置，可能存在结构变异，准确位置数目为2，即读长支持数的排序最多的位置和读长支持数的排序第二多的位置都是准确位置。

本发明的方法，加入了重复数据库优化比对，使用重复数据库预先判定初始比对的准确性，对于预先判定为比对到重复区域的读长，初步提示比对不准确，因为重复区域容易导致比对错误，非重复区域比对正确率相对较高。根据具有相同条形码序列的读长的正确比对位置来调整重复区域的位置，以改进比对的准确性，进而提高变异检出准确性。由于具有相同条形码序列的读长很大概率来源于同一打断片段，比对位置必然相近，因此加入重复数据库的比对优化方案比单纯的读长云(reads clouds)准确性更高，更能充分利用条形码序列信息。

在其他实施例中，重复数据库可以替换成特征区域数据库、可信区域数据库等，构造方法也可能有多种，比如基于参考基因组序列分割比对确定重复区域，例如，可以基于已有数据库(如repeat masker数据库)等。

对应于本发明的基于条形码序列的读长比对方法，本发明还提供一种基于条形码序列的读长比对装置，如图4所示，包括如下单元：读长初始比对单元410，用于将含有条形码序列的测序读长比对到参考基因组，得到每个读长的初始比对位置；初始位置判定单元420，用于根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在上述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域；重复区域确定单元430，用于对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与上述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，本发明的一种实施例中提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现本发明的基于条形码序列的读长比对方法。

以下通过实施例详细说明本发明的技术方案和效果，应当理解，实施例仅是示例性的，不能理解为对本发明的限制。

实施例1

本实施例以一例10X数据chr1:121077154-206667783为例，该区间涉及SRGAP2A、SRGAP2B、SRGAP2C三个基因的比对，这三个基因同属一个基因家族，序列相似性高。经过数据库判定把整个区域分成重复区域比对和非重复区域比对，如chr1:206566904位置，判定为重复区域，涉及198条读长，184个特异性条形码序列。由于该区域属于重复区域，所以该区域的所有读长重新比对，每条读长都能比对到多个位置，如reads“ST-E0:0:SIMULATE:8:0:0:948760180”，条形码为AAACACCGTCAGTCAT。具有该条形码序列的其他读长共25条，其中比对到非重复区域的位置chr1:121117180-121132181之间的读长有10条。针对比对到重复区域内的读长进行重新比对，从中挑选与非重复区域位置(chr1:121117180-121132181)位置相近，即距离不超过建库最大插入片段长度的读长，以其比对位置作为所有具有该条形码序列的读长的真正比对位置。

如图5所示，该位置比对优化前存在变异T>C。如图6所示，比对优化后该位置不存在变异。其中，图5为该位置初始比对结果，图6为经过本发明的方法优化后该位置的最终比对结果。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于条形码序列的读长比对方法，其特征在于，所述方法包括：

根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在所述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域；

对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与所述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

2.根据权利要求1所述的方法，其特征在于，所述重复数据库中包括具有基因同源性的序列。

3.根据权利要求1所述的方法，其特征在于，所述建库最大插入片段长度是200kb。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据所述不同位置上比对上的读长支持数确定具有该条形码序列的读长的准确位置。

5.根据权利要求4所述的方法，其特征在于，所述准确位置的数量是一个或两个。

6.一种基于条形码序列的读长比对装置，其特征在于，所述装置包括：

初始位置判定单元，用于根据重复数据库对每个读长的初始比对位置进行判定，初始比对位置在所述重复数据库内的读长判定为比对到重复区域，否则判定为比对到非重复区域；

重复区域确定单元，用于对于比对到重复区域的读长，找到与该读长具有相同的条形码序列但比对到非重复区域位置的读长，然后从具有相同的条形码序列并比对到重复区域的读长中挑选与所述非重复区域位置之间的距离不超过建库最大插入片段长度的读长，以其比对位置作为具有该条形码序列的读长的真正比对位置。

7.根据权利要求6所述的装置，其特征在于，所述重复数据库中包括具有基因同源性的序列。

8.根据权利要求6所述的装置，其特征在于，所述建库最大插入片段长度是200kb。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

非重复区域确定单元，用于对于比对到非重复区域的读长，将具有相同条形码序列但比对到不同位置的读长，根据所述不同位置上比对上的读长支持数确定具有该条形码序列的读长的准确位置。

10.根据权利要求9所述的装置，其特征在于，所述准确位置的数量是一个或两个。

11.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1至5任一项所述的方法。