CN112420129B

CN112420129B - 一种光学图谱辅助组装结果去冗余的方法及系统

Info

Publication number: CN112420129B
Application number: CN202011367262.3A
Authority: CN
Inventors: 孙宗毅; 高玉南; 刘山林; 梁帆; 汪德鹏
Original assignee: Wuhan Hope Group Biotechnology Co ltd
Current assignee: Wuhan Hope Group Biotechnology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-10
Anticipated expiration: 2040-11-27
Also published as: CN112420129A

Abstract

本发明公开了一种光学图谱辅助组装结果去冗余的方法及系统，包括以下步骤：通过比对筛选出具有重叠关系的序列，确定具体的冗余区域，并针对不同的冗余区域进行处理，获得去冗余的光学图谱辅助组装结果。本发明适用于大规模数据的处理，避免手动操作，提高处理效率；且在能保证组装质量的情况下，有效去除组装结果过程中的大部分冗余。

Description

一种光学图谱辅助组装结果去冗余的方法及系统

技术领域

本发明涉及生物信息技术领域，具体涉及一种光学图谱辅助组装结果去冗余的方法及系统。

背景技术

单分子光学图谱技术可以生成单分子光学图谱，反映生物大分子的结构信息。目前，市场上主要以Bionano Genomics公司的Irys系统为代表，其原理为：采用半导体加工技术制作纳米微流体硅晶芯片，该芯片上存在大量平行、直径40-45nm左右、透明的纳米微流体通道；生物大分子(例如，150kb–3Mb的超长DNA双链分子)在电场的作用下呈线性，并进入该纳米微流体通道，且在通道内只能以线性方式存在；该生物大分子上已经存在特异性荧光标记，通过成像技术，可以清楚的获得每个特异性标记之间的距离，从而反映该生物大分子的结构特征。Irys系统主要利用NLRS技术或DLS技术对DNA分子进行荧光标记，NLRS技术利用了序列特异性切刻酶(限制性内切酶)、荧光标记核苷酸和连接酶对DNA进行切刻-标记-修复等操作，从而完成对基因组DNA的特异性标记；DLS技术则不对基因组DNA结构造成任何破坏直接进行标记。

单分子光学图谱技术的优势在于：数据来源于原始的生物大分子，没有经过人为的扩增处理(例如，DNA或RNA的PCR扩增、文库构建)，其数据是基于成像结果而非推算获得。因此，该技术是完全、高保真、无偏好的，该技术可以生成长度为达到Mb级别的图谱，并已在辅助组装和结构变异检测等方面有广泛的应用。

如现有技术公开的，采用单分子光学图谱技术辅助组装时，组装结果中主要存在以下三种冗余的情况：碱基片段完全被其他片段所包含(如图1中的片段1)、碱基片段与另一片段存在首尾重叠区域(如图1中的片段2)以及涉及多条碱基片段的复杂区域的重叠。根据冗余区域的大小不同，会不同程度影响后续分析结果，如重比对时造成多序列比对，转录组组装、注释错误等。

目前，针对该组装结果中的去冗余，在实际应用中，多采用人工手动调整，在准确性、全面性、效率等方面明显不适合大规模数据的处理。

发明内容

针对现有技术中的问题，本发明提供了一种光学图谱辅助组装结果去冗余的方法及系统，能有效去除组装结果过程中的大部分冗余，且不影响组装质量。

本发明的技术方案具体如下：

一种光学图谱辅助组装结果去冗余的方法，包括以下步骤：

1)将若干待通过光学图谱辅助组装的碱基片段，根据光学图谱检测中光学标记位点序列，逐一转化为记录光学标记位点相对位置关系的序列；其中，所有碱基片段的集合记为集合A，转化后得到的序列集合记为集合B；

2)将集合B中比对至光学图谱组装结果，提取集合B中具有首尾重叠比对关系的序列记为第一比对集；所述光学图谱组装结果是利用光学图谱技术获得的光学读段的组装结果；

3)提取集合A中与第一比对集中序列对应的碱基片段，记为第二比对集；

4)基于步骤2)所述首尾重叠比对关系，对第二比对集进行碱基比对，确定首尾重叠区域，并判断该区域是否为第一冗余区域；

5)选择步骤4)所述第一冗余区域的中间位置进行打断，在断点处连接，获得去冗余的光学图谱辅助组装结果。

优选的，所述待通过光学图谱辅组装的碱基片段为测序读段或由测序读段组装的序列；更加优选的，所述测序读段由第三代测序技术得到。测序技术既可以是二代测序技术也可以是三代测序技术，但三代测序技术因其长度长的技术特点能获得更完整的组装效果。

优选的，所述光学图谱组装结果的获得过程具体为：根据光学读段之间的光学标记的重叠情况利用OLC算法进行组装。所述光学读段是使用与“待通过光学图谱辅助组装的碱基片段”相同的样本，经单分子光学图谱技术平台获取的信息，其输出结果记录的是单分子光学图谱技术中所使用的光学标记位点的相对位置关系；优选的，所述单分子光学图谱技术平台为Bionano Genomics公司商业化平台。OLC算法组装主要分三步：①对所有光学读段进行两两比对，根据荧光标记的相对位置信息，找到读段间的重叠信息；②根据重叠信息对读段进行排列，形成重叠群；③根据构成重叠群中读段的原始质量数据，在重叠群中寻找一条质量最佳的排列路径，即为光学图谱组装结果。

优选的，步骤2)所述光学图谱组装结果在集合B比对前进行矫正，所述矫正方法为：查找测序读段组装的序列与光学图谱组装结果中的冲突位点，比较两者在冲突位点的读段支持数，保留读段支持数多的组装方式，对读段支持数少的组装方式在冲突位点进行打断。可以理解的是，由于“光学图谱组装结果”与“序列读段组装的序列”是使用相同样本通过不同技术手段获得的组装结果，故其结果可能存在冲突，即在相同位置给出不同的组装方式；“光学图谱组装结果”是由记录光学标记位点相对位置关系的光学读段组装而来，“序列读段组装的序列”是由记录具体碱基的测序读段组装而来，两者均有读段进行支持，可以相互验证。

在上述技术方案中，步骤2)所述第一比对集中包含所有的具有首尾重叠比对关系的序列，因此第一比对集中的序列均是成对出现的，同理所述第二比对集中的碱基片段也是成对出现的。更具体的，所述第一比对集、第二比对集中不仅记录了具体的序列/片段，还记录了对应的首尾重叠比对关系。

可以理解的是，在实际操作过程中，步骤2)中既可以每提取一对序列就对其进行及时处理，也可以一次性提取出所有符合条件的序列再统一进行后续处理。

优选的，步骤4)中所述第一冗余区域的确定条件为：步骤4)所述首尾重叠区域占步骤2)所述集合B中具有首尾重叠比对关系的区域的90％以上，且步骤4)所述首尾重叠区域内的末端未必对上的区域占比小于5％。需要说明的是，步骤4)所述首尾重叠区域是碱基比对的结果，步骤2)所述集合B中具有首尾重叠比对关系的区域是基于光学标记位点相对位置关系的比对结果；所述首尾重叠区域内的末端具体为存在首尾重叠比对关系的上游序列的3'末端和下游序列5'末端。

优选的，步骤5)所述第一冗余区域的中间位置为碱基片段比对结果中最长首尾重叠区域的中间位置。

优选的，步骤5)所述断点处连接方式具体为：将断点处上游序列3'末端与断点处下游序列5'末端连接。

优选的，根据实际需要，可对步骤2)～5)进行迭代。

优选的，所述方法还包括以下步骤：

6)根据步骤2)所述集合B比对至光学图谱组装结果，提取集合B中被包含比对关系的序列记为第三比对集；提取集合A中与第三比对集中序列对应的碱基片段，记为第四比对集；

7)基于步骤6)所述被包含比对关系，对第四比对集中的碱基片段进行碱基比对，确定被包含的序列为第二冗余区域；去除第二冗余区域，获得去冗余的光学图谱辅助组装结果。

可以理解的是，所述第三比对集中包含所有的具有被包含比对关系的序列，因此第三比对集中的序列是成对的，即包含方与被包含方，同理所述第四比对集中的碱基片段也是成对出现的。更具体的，所述第三比对集、第四比对集中不仅记录了具体的序列/片段，还记录了对应的被包含比对关系。

同样，与步骤2)相同，既可以每提取一对序列就对其进行及时处理，也可以一次性提取出所有符合条件的序列再统一进行后续处理。

优选的，所述第二冗余区域的确定条件为：被包含序列中比对上碱基占比超80％、且包含序列中包含区域比对上碱基占比超90％。需要说明的是，第二冗余区域的确定是基于碱基比对的结果。

本发明还提供了用于光学图谱辅助组装结果去冗余的系统，包括：

转化模块：用于碱基片段与记录光学标记位点相对位置关系的序列之间的相互转换；

第一比对模块：用于记录光学标记位点相对位置关系的序列与光学图谱组装结果的比对，提取具有首尾重叠比对关系的序列和/或被包含比对关系的序列；

第二比对模块：用于碱基片段之间的两两比对；

冗余区域判定模块：确定冗余区域；

去冗余模块：用于处理冗余区域，得到去冗余的光学图谱辅助组装结果。

本发明的有益效果为：采用本发明的方法能去除光学图谱辅助组装结果中的大部分冗余，有效提高组装质量。

附图说明

图1为现有光学图谱辅助组装结果中的冗余情况示意图；

图2为实施例1中确定的第二冗余区域示意图；灰色圆点代表被包含序列，圆点大小代表序列长度，黑色方框内圆点为确定的第二冗余区域；

图3为现有光学图谱辅助组装结果中的第一冗余区域情况示意图；“现有光学图谱辅助组装结果”中“50Kb N”为基于“矫正后的光学图谱组装结果”真实存在的GAP。

具体实施方式

为了更好的理解本发明，下面结合实施例对本发明做进一步的详细说明。

需要说明的是，本发明中的术语“A”、“B”、“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定的顺序；本发明中的“集合A”、“集合B”包含至少一个碱基片段或序列，对“集合A”、“集合B”的操作是指对其包含的碱基片段或序列的操作；本发明中的“第一比对集”、“第二比对集”、“第三比对集”、“第四比对集”包含至少一组具有指定比对关系的碱基片段或序列。

为了便于理解本发明，下面对本发明中的一些术语进行解释说明。

重叠比对关系：如果两条序列或片段能够比对上，存在重叠区域，则称两序列或片段存在重叠比对关系。

首尾重叠比对关系：如果两条序列或片段的重叠关系位于这两条序列或片段末端，则两序列或片段的重叠比对关系称为首尾重叠比对关系。

被包含比对关系：如果两条序列或片段存在重叠关系，且其中一序列或片段覆盖另一序列或片段，则两序列或片段的重叠比对关系称为被包含比对关系。其中，被覆盖的序列或片段称为被包含序列或片段，另一序列或片段称为包含序列或片段。

基因组组装：通过测序技术获得的测序读段(reads)相较于整个基因组而言是极小的，基因组组装就是通过各种算法和方法对这些测序读段建立一种组合关系并进行拼接，形成没有gap的序列即contigs，在其他技术的辅助下contigs可进一步形成更长的scaffolds。

实施例1

选取某百合目植物的基因组，采用本发明的方法进行验证。具体过程如下：

(1)提取该植物样本DNA、构建测序文库、进行全基因组三代测序，获得测序读段(即reads)；将测序读段经过各种算法进行连接，得到多条连续的、无间断的测序读段组装序列(即contigs)，将测序读段组装序列记为集合A。此外测序技术以及将reads拼接成contigs的组装算法均为现有技术，在现有技术菜单中有多种技术方案可供选择，具体可参见文献^[1～3]。

(2)利用Bionano Genomics公司的Irys系统进行光学图谱检测。提取该植物样本DNA、对样本进行光学标记、上机检测，获得光学读段。以上各步骤均使用配套的商业化试剂盒并参照官方指南进行操作。其中，有两种方式对样本进行光学标记：一种是利用限制性内切酶在对应的识别位点酶切后产生缺口、标记荧光、修复缺口(NLRS，Nick-Label-Repairand Stain)；另一种是利用识别特定序列的酶直接在识别位点进行标记(DLS，DirectLabel and Stain)。两种光学标记位点均基于特定酶的固定的识别位点。

根据光学读段中荧光标记的相对位置，对光学读段进行组装，得到光学图谱组装结果。具体地，依据光学读段之间荧光标记的重叠情况利用Overlap-Layout-Consensus(OLC)算法进行组装，该算法主要分三步：①对所有光学读段进行两两比对，根据荧光标记的相对位置信息，找到读段间的重叠信息；②根据重叠信息对读段进行排列；③根据读段的原始质量数据，寻找一条质量最佳的排列路径，即为光学图谱组装结果。

(3)根据步骤(2)光学图谱检测中所确定的光学标记位点序列，将集合A中的所有contigs逐一转变为记录光学标记位点相对位置关系的序列，记为集合B。

(4)对光学图谱组装结果进行矫正

将步骤(2)得到的光学图谱组装结果与步骤(3)得到的集合B中的序列进行比对。光学图谱组装结果，是基于光学图谱检测获得的光学读段经组装而来。集合B，实质是基于三代测序检测获得的测序读段经组装而来，其记录形式上经步骤(2)进行了转化。经比对后，针对不同的情形处理如下：

对于二者一致的位点，进行合并(merge)即可；

对于二者冲突的位点，需要进一步进行判断及处理。冲突的位点，具体是指对于基因组上同一个位置，两种组装结果显示了不同的连接方式；例如光学图谱组装结果中显示某两条读段并不存在连接关系，而集合B中显示该两条读段却连接在了一起。具体的处理方式为：分别调取光学图谱组装结果、集合B冲突位点的原始数据，前者为光学读段、后者为测序读段，通过比较两者在冲突位点的读段支持数，读段支持数越多说明对应的连接方式可信度越高，保留可信度高的连接方式，对可信度低的连接方式在冲突位点进行打断；处理后得到矫正后的光学图谱组装结果。

(5)去除第一冗余区域

将集合B中的序列比对至步骤(4)矫正后的光学图谱组装结果，提取集合B中所有具有首尾重叠比对关系的序列作为第一比对集；再提取集合A中与第一比对集中序列对应的所有碱基片段，记为第二比对集。

对第二比对集中成对的碱基片段分别进行碱基比对，判定每对碱基片段的首尾重叠区域是否为第一冗余区域；第一冗余区域的确定条件为：碱基片段比对结果中的首尾重叠区域占集合B中具有首尾重叠比对关系的区域的90％以上，且碱基片段比对结果中首尾重叠区域内的末端未比对上的区域占比小于5％。

选择第一冗余区域的中间位置进行打断，并在断点处连接。具体为，在第一冗余区域中最长首尾重叠区域的中间位置进行打断，将断点处上游序列3'末端与断点处下游序列5'末端连接。即获得去除第一冗余区域的光学图谱辅助组装结果。

(6)去除第二冗余区域

将集合B中的序列比对至步骤(4)矫正后的光学图谱组装结果，提取集合B中被包含比对关系的序列作为第三比对集；提取集合A中与第三比对集中序列对应的碱基片段，记为第四比对集。

对第四比对集中的碱基片段进行碱基比对，确定被包含的序列是否为第二冗余区域，第二冗余区域需满足以下条件：被包含的序列中比对上碱基占比大于80％、且包含的序列中包含区域比对上碱基占比大于90％。确定的第二冗余区域如图2所示。

去除第二冗余区域，进一步获得去除第二冗余区域的光学图谱辅助组装结果。

实施例2

选取某双翅目动物的基因组，采用本发明的方法进行验证，过程同实施例1。

实施例3

选取某膜翅目动物的基因组，采用本发明的方法进行验证，过程同实施例1。

实施例4

选取某管状花植物的基因组，采用本发明的方法进行验证，过程同实施例1。

各实施例的去冗余情况如下表所示：

对比例

分别采用与相应实施例一致的三代测序数据及光学图谱数据，使用现有技术中的常规方法进行组装，具体步骤如下：

步骤(1)(2)(3)(4)同实施例1一致；

(5)基于矫正后的光学图谱组装结果，根据该结果中所包含的集合B的信息对集合A中的序列进行挂载，获得现有光学图谱辅助组装结果，即未去冗余的光学图谱辅助组装结果。现有光学图谱辅助组装结果中，对于具有首尾重叠比对关系的contigs，输出完整的contigs序列信息，并且在两序列间添加固定数目的N(通常为13个N)，与GAP处的N相区别，如图3所示；对于具有被包含比对关系的contigs，与其他序列混合存储，无法直接进行提取、标识和去除。

各物种的未去冗余的光学图谱辅助组装结果如下表所示：

实施例5

一种用于去除光学图谱辅助组装结果中冗余的系统，包括：

转化模块：用于碱基片段与记录光学标记位点相对位置关系的序列之间的相互转换；集合A转化为集合B，以及根据第一比对集中的序列提取第二比对集、根据第三比对集中的序列提取第四比对集均可以通过该模块实现。

第一比对模块：用于记录光学标记位点相对位置关系的序列与光学图谱组装结果的比对，提取具有首尾重叠比对关系的序列和/或被包含比对关系的序列；通过该模块可以得到第一比对集和第三比对集，所述第一比对集和第三比对集中不仅仅包括符合各自条件的序列，还包括序列之间的比对关系。

第二比对模块：用于碱基片段之间的两两比对，确定碱基片段之间的重叠或被包含区域。

冗余区域判定模块：确定冗余区域，根据判定条件，对第二比对集和第四比对集中的冗余区域进行更精确的判断。

去冗余模块：用于处理冗余区域，如打断、连接或去除等；得到去冗余的光学图谱辅助组装结果。

需要说明的是，上述实施例针对光学图谱辅助基因组组装结果去冗余，因基因组组装结果数据量大且复杂，能更好的体现本发明的技术效果，实施例仅作为示例并不用作限制本发明的应用范围。更具体的，实施例是利用光学图谱技术，辅助基因组由contigs级别组装至scaffolds级别。使用光学图谱辅助部分基因组、某条染色体、染色体某区段等进行组装，本发明仍然适用。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献

[1]Huang,G.,Wu,Z.,Percy,R.G.et al.Genome sequence of Gossypiumherbaceum and genome updates of Gossypium arboreum and Gossypium hirsutumprovide insights into cotton A-genome evolution.Nat Genet 52,516–524(2020).

[2]Xiong,X.,Wu,G.,Wei,Y.et al.SspABCD–SspE is a phosphorothioation-sensing bacterial defence system with broad anti-phage activities.NatMicrobiol 5,917–928(2020).

[3]Ning D L,Wu T,Xiao L J et al.Chromosomal-level assembly of Juglanssigillata genome using Nanopore,BioNano,and Hi-C analysis.Gigaence,2020,9(2).

Claims

1.一种光学图谱辅助组装结果去冗余的方法，其特征在于，包括以下步骤：

2)将集合B比对至光学图谱组装结果，提取集合B中具有首尾重叠比对关系的序列记为第一比对集；所述光学图谱组装结果是利用光学图谱技术获得的光学读段的组装结果；

2.根据权利要求1所述光学图谱辅助组装结果去冗余的方法，其特征在于，所述待通过光学图谱辅组装的碱基片段为测序读段或由测序读段组装的序列。

3.根据权利要求1所述光学图谱辅助组装结果去冗余的方法，其特征在于，所述光学图谱组装结果的获得过程具体为：根据光学读段之间的光学标记的重叠情况利用OLC算法进行组装。

4.根据权利要求2所述光学图谱辅助组装结果去冗余的方法，其特征在于，步骤2)所述光学图谱组装结果在与集合B比对前进行矫正，所述矫正方法为：查找测序读段组装的序列与光学图谱组装结果中的冲突位点，比较两者在冲突位点的读段支持数，保留读段支持数多的组装方式，对读段支持数少的组装方式在冲突位点进行打断。

5.根据权利要求1所述光学图谱辅助组装结果去冗余的方法，其特征在于，步骤4)中所述第一冗余区域的条件为：步骤4)所述首尾重叠区域占步骤2)所述集合B中具有首尾重叠比对关系的区域的90％以上，且步骤4)所述首尾重叠区域内的末端未必对上的区域占比小于5％。

6.根据权利要求5所述光学图谱辅助组装结果去冗余的方法，其特征在于，步骤5)所述第一冗余区域的中间位置为最长首尾重叠区域的中间位置；步骤5)所述断点处连接方式具体为：将断点处上游序列3'末端与断点处下游序列5'末端连接。

7.根据权利要求1所述光学图谱辅助组装结果去冗余的方法，其特征在于，对步骤2)～5)进行迭代。

8.根据权利要求1所述光学图谱辅助组装结果去冗余的方法，其特征在于，所述方法还包括以下步骤：

7)基于步骤6)所述被包含比对关系，对第四比对集进行碱基比对，确定被包含的序列为第二冗余区域；去除第二冗余区域，获得去冗余的光学图谱辅助组装结果。

9.根据权利要求8所述光学图谱辅助组装结果去冗余的方法，其特征在于，所述第二冗余区域的确定方法为：步骤7)所述碱基比对结果中，被包含序列中比对上碱基占比大于80％、且包含序列中包含区域比对上碱基占比大于90％。

10.一种用于去除光学图谱辅助组装结果中冗余的系统，其特征在于，包括：

转化模块：用于碱基片段与记录光学标记位点相对位置关系的序列之间的转换；

第二比对模块：用于碱基片段之间的两两比对；

冗余区域判定模块：确定冗余区域；