CN110310702A

CN110310702A - 一种基因组测序组装结果修复的方法、装置和存储介质

Info

Publication number: CN110310702A
Application number: CN201810219052.6A
Authority: CN
Inventors: 贺丽娟; 刘亚斌; 杨林峰; 邓天全; 陈露; 高强
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2019-10-08
Anticipated expiration: 2038-03-16
Also published as: CN110310702B

Abstract

本申请公开了一种基因组测序组装结果修复的方法、装置和存储介质。本申请的方法包括，将待验证基因组组装结果与Bionano分子图谱比对，找出两者分子标记不匹配或长度不一致的区域，在该区域的基因组序列上下游各延伸预设长度，作为异常区域；分别分析二代数据和三代数据对异常区域的覆盖度；根据覆盖度对异常区域进行修复，获得修复的基因组组装结果。本申请方法，采用二代测序技术、三代测序技术和Bionano图谱联合修复基因组组装结果，解决了基因组拼接中由区域复杂性引入的结构性错误，可防止传统Bionano验证对结构冲突区域操作处理上对组装结果的过多丢失，也可处理和验证Bionano与基因组组装结果分子标记长度不一致区域，提高了基因组拼接准确性和完整性。

Description

一种基因组测序组装结果修复的方法、装置和存储介质

技术领域

本申请涉及核酸测序领域，特别是涉及一种基因组测序组装结果修复的方法、装置和存储介质。

背景技术

目前，基于全基因组鸟枪法(WGS)的Illumina测序平台得到的二代测序数据具有测序通量高，速度快，精确度高，成本低，并且可以测量不同插入片段大小的DNA片段文库，尤其可以测量DNA大片段文库序列的特点，例如可以测量插入片段长度大于1k的文库，在过去的几年时间内广泛应用在基因组组装分析中。

但是二代测序方法由于测序片段短，采用双末端测序方法，对于基因组内部具有很高复杂度的区域，测序数据很难正确处理。随后拥有超长读长的第三代单分子实时测序技术(SMRT)的Pacbio数据也飞速发展起来；同时，拥有超高精度和超长序列的新一代图谱方法BioNano Genomics’System测序得到的分子图谱，简称Bionano分子图谱，也越来越多的应用于基因组组装的辅助分析中。

随着技术的发展，现在基因组组装的主要技术是用三代Pacbio数据搭建基因组骨架，然后用三代Pacbio数据和二代数据对基因组组装结果进行纠错，然后用Bionano分子图谱进行scaffold连接，得到最终的组装结果。Pacbio数据有高的测序错误，二代数据精确性高，但是序列长度偏短。所以二代Illumina数据及三代Pacbio数据结合使用得到较为完整的基因组骨架，同时用Bionano分子图谱将基因组结果连成更为完整的基因组组装结果，这种方法已经被逐渐应用于组装案例中。

但是，在实际利用超长读长的Bionano分子图谱对基因组组装结果进行结构验证时，发现存在很多结构异常区域，对于这些结构异常区域的处理方法包括：

(1)用Bionano分子图谱直接对组装结果进行连接，对于有冲突的区域直接在分子标记处打断，由于Bionano分子图谱的分子标记之间的距离很大，这样会导致一些实际上正常的序列也被截断，进而导致本来正确的组装序列的丢失。

(2)传统的Bionano分子图谱的直接处理方法，对于分子标记结构匹配但长度不一致的区域，都当作结构变异(缩写SV)处理，在组装结果中不做修正，但是在实际中，这样的序列也可能是组装序列不完整导致。

发明内容

本申请的目的是提供一种新的基因组测序组装结果修复的方法、装置和存储介质。

本申请的第一方面公开了一种基因组测序组装结果修复的方法，包括将待验证的基因组组装结果与Bionano分子图谱进行比对，找出两者的分子标记不匹配或者对应长度不一致的区域，在不匹配或者对应长度不一致的区域的基因组序列的上下游各延伸预设长度，作为异常区域；分别分析第二代测序数据和第三代测序数据对异常区域的覆盖度；根据第二代测序数据和第三代测序数据对异常区域的覆盖度，对异常区域进行修复，获得修复的基因组组装结果。

其中，在不匹配或者对应长度不一致的区域的基因组序列的上下游各延伸预设长度，该延伸的预设长度，目的是可以更明显看到区域内的情况，尤其在异常区域与区域外比对情况差异明显时；在本申请的一种实现方式中，上下游各延伸50kb-100kb即可。另外，本申请中，基因组组装结果与Bionano分子图谱比对的分子标记是指酶切位点标记，因此，在本申请的一种实现方式中，需要将基因组组装结果转化为相应的酶切位点位置组成的文件，具体转化方式可以采用现有的序列分析软件，在此不做限定。此外，覆盖度的分析也可以采用现有的分析比对软件，在此不做具体限定。

需要说明的是，利用超长读长的Bionano分子图谱对基因组组装结果进行结构验证时，发现存在很多结构异常区域，现有的处理方法是直接在结构异常区域的分子标记处打断，或者当作结构变异不做处理；但是，本申请经过大量的实践和研究认为，这些结构异常区域，也可能是使用Pacbio和Illumina数据组装过程中一些比较复杂的重复区域与杂合区域混合的区域，这些区域结构较为复杂，从而在组装结果中引入结构性错误，导致结构异常。基于以上研究和认识，本申请创造性的提出，采用第二代测序数据和第三代测序数据对于异常区域进行覆盖度分析，并根据覆盖度分析的结果，对异常区域进行修复。本申请的方法，解决了基因组拼接过程中由于区域复杂性引入的结构性错误，一方面可以防止传统Bionano对结构冲突区域操作处理上对组装结果的过多丢失，另一方面可以处理和验证Bionano与组装结果分子标记长度不一致的区域，确定区域内的差异是否是组装错误导致，对于组装错误区域对序列进行调整，从而能够提高基因组拼接的准确性和完整性。

还需要说明的是，本申请的方法能够提高基因组拼接的准确性和完整性；可以理解，本申请的方法并不仅限于基因组组装结果的修复，根据相同的原理的方法步骤，本申请的方法也能够用于某一特定核酸区域进行验证或修复。

优选的，对异常区域进行修复，具体包括，根据第二代测序数据和第三代测序数据对异常区域的覆盖度，将异常区域分为四种类型：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

其中，第二种情况的异常区域中，对于第二代测序数据没有覆盖到的位点，第三代测序数据的覆盖深度不一致是指，一般来说对于正常区域，第三代测序数据的覆盖度是保持一致或者相差不大的，但是如果在第二代测序数据未覆盖的区域，第三代测序数据在此区间内的某个位点两侧的覆盖深度有数量级上的差异，例如在位点一端只有10条以内覆盖，但是在另一端则有100条以上的覆盖，而变化只是出现在该位点，则认为这个位点附近的碱基覆盖存在异常，即第三代测序数据的覆盖深度不一致。

第三种情况的异常区域中，第三代测序数据有高质量和高深度覆盖是指，例如用Bwa的比对软件，第三代测序数据在此区域内的比对质量大于20，即相当于碱基正确率大于99％，则认为是高质量的覆盖；高深度覆盖或覆盖深度高，是相对于使用的数据覆盖深度而言的，例如使用平均覆盖深度为40×的数据进行比对，至少有20×以上是覆盖到，而且是高质量覆盖，则认为第三代测序数据有高质量和高深度覆盖。

第四种情况的异常区域中，第二代测序数据和第三代测序数据都有正常覆盖是指，对于Bionano选出来的异常区域，用第二代测序数据和第三代测序数据进行比对，发现覆盖均是正常的区域，有高质量覆盖，且覆盖深度高，即为都有正常覆盖。

需要说明的是，对于第三和第四种类型的异常区域，本申请认为组装结果的结构是没有问题的，异常区域的出现可能是Bionano分子图谱存在测序异常导致，而非组装导致异常，因此这两种情况不做处理；但是，对于这两种类型的异常区域，在组装完成后，仍然需要按照常规的处理方法进行修复，例如对最终修正后的组装结果可以使用二代序列和三代序列对整个基因组进行补洞和其他分析，在此不做具体限定。其中，其他分析是指，在确保目前结构正确的基础上，补洞后可以进行进一步的scaffold连接或者构建染色体图谱等。

优选的，本申请的方法，具体包括以下步骤，

分子比对步骤，包括将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对；

异常区域获取步骤，包括根据分子比对步骤的结果，提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域；

第二代测序数据比对步骤，包括将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点；

第三代测序数据比对步骤，包括将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常；

异常区域处理步骤，包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果，将异常区域分为：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

优选的，分子比对步骤中，将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，包括将fasta格式的待验证的基因组组装结果序列转化为cmap格式；Bionano分子图谱为Bionano测序数据自组装的结果。

优选的，Bionano测序数据自组装由组装软件RefAlign进行。

其中，组装软件RefAlign可以从

https://bionanogenomics.com/support/software-downloads/

中的Bionano Solve软件包中获得。

优选的，第二代测序数据比对步骤中，将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，具体采用SOAPaligner比对软件。

优选的，第三代测序数据比对步骤中，将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，具体包括采用Bwa软件进行比对，并用samtools软件查看对异常区域的覆盖情况。

其中，SOAPaligner比对软件可以从http://soap.genomics.org.cn/上下载；

Bwa可以从https://github.com/lh3/bwa上下载；

samtools可从http://samtools.sourceforge.net/中获得。

需要说明的是，第二代测序数据比对软件不仅局限于Soap软件，所有可以检测PE关系的比对软件均可适用于本申请；同样的，第三代测序数据比对也不仅局限于Bwa软件，所有可验证三代区域对基因组的覆盖度和比对情况的方法或软件均可。

本申请的第二方面公开了一种基因组测序组装结果修复的装置，该装置包括，

分子比对模块，用于将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对；

异常区域获取模块，用于提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域；

第二代测序数据比对模块，用于将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点；

第三代测序数据比对模块，用于将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常；

异常区域处理模块，用于将异常区域分为四种类型：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；并且对四种类型的异常区域进行如下处理：对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

本申请的第三方面公开了一种基因组测序组装结果修复的装置，该装置包括，存储器，用于存储程序；处理器，用于执行存储器存储的程序，以实现本申请的基因组测序组装结果修复方法。

本申请的第四方面公开了一种计算机可读存储介质，该计算机可读存储介质中包括程序，该程序能够被处理器执行以实现本申请的基因组测序组装结果修复方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请的方法，采用第二代测序技术、第三代单分子实时测序技术以及Bionano分子图谱联合修复基因组组装结果，解决了基因组拼接过程中由于区域复杂性引入的结构性错误，不仅可以防止传统Bionano分子图谱验证对结构冲突区域操作处理上对组装结果的过多丢失，而且可以处理和验证Bionano分子图谱与基因组组装结果分子标记长度不一致的区域，提高了基因组拼接的准确性和完整性。

附图说明

图1是本申请实施例中基因组测序组装结果修复方法的流程框图；

图2是本申请实施例基因组测序组装结果修复方法中分子比对步骤的流程框图；

图3是本申请实施例基因组测序组装结果修复方法中异常区域的几种结构的示意图；

图4是本申请实施例基因组测序组装结果修复方法中第二代测序数据和第三代测序数据对异常区域的覆盖度的四种类型的示意图；

图5是本申请实施例中基因组测序组装结果修复装置的结构框图。

具体实施方式

现有的Bionano分子图谱验证方法，对于分子标记不匹配的异常区域通常是直接在分子标记处打断，这样会造成一些正常序列被截断，而对于分子标记匹配但长度不一致的异常区域则直接当作结构变异，不进行修正。因此，现有的Bionano分子图谱验证方法不能解决组装过程中因区域复杂性引入的结构性错误，即不能识别组装本身引入的结构性错误，以至于影响组装结果的完整性和准确性。

基于以上研究和认识，本申请提出了一种特别针对因区域复杂性引入的结构性错误的基因组测序组装结果修复方法，即将待验证的基因组组装结果与Bionano分子图谱进行比对，找出两者的分子标记不匹配或者对应长度不一致的区域，在不匹配或者对应长度不一致的区域的基因组序列的上下游各延伸预设长度，作为异常区域；分别分析第二代测序数据和第三代测序数据对异常区域的覆盖度；根据第二代测序数据和第三代测序数据对异常区域的覆盖度，对异常区域进行修复，获得修复的基因组组装结果。

需要说明的是，在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解本申请。而本领域技术人员可以理解，其中部分特征在不同情况下可以省略，或由其他步骤、材料、方法所替代。并且，在某些情况下，本申请相关的一些操作并没有详细显示或描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，根据本申请的描述以及本领域的一般技术知识即可完整了解相关操作。因此，对于本申请的基因组测序组装结果修复的方法、装置和存储介质详细说明如下。

二代测序是指通常所属的NGS测序，即通过PCR扩增，将文库打断之后，测序得到的双末端测序数据。这种数据一般读长约50-300bp左右，插入片段文库可以是170、500、800等小片段文库，或者2k、5k、10k、20k、40k等大插入片段文库。具有代表性的是Illumina测序仪得到的数据，以及目前华大基因的BGIseq500等测序得到的数据。三代测序是指目前主流的单分子实时测序技术得到的数据，通常这种数据没有经过PCR扩增，而且测序长度比较长。目前比较主流的是以Pacbio为代表的三代测序数据，平均读长可以达到8-12k，最长读长可以测到80k以上或者更长。如图1所示，本申请的基因组测序组装结果修复方法，包括以下步骤：

S101：分子比对步骤，包括将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对。

在本申请的一些实施例中，如图2所示，比对之前，需要先将fasta格式的基因组组装结果序列转化为cmap格式，即将实际的序列文件转为对应酶切位点位置组成的文件。Bionano分子图谱数据与基因组组装结果序列进行比对，根据比对结果调整一些基本的参数指标后，即标准化后，进行自组装，再利用Bionano官方软件RefAlign将Bionano自组装结果与参考序列进行比对。RefAlign可以从https://bionanogenomics.com/support/software-downloads/中的Bionano Solve软件包中获得。

S102：异常区域获取步骤，包括根据分子比对步骤的结果，提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域。

其中，上游和下游各延伸50-100kb，目的是可以更明显看到异常区域内的情况，尤其在异常区域与区域外比对情况差异明显时。因为Bionano是分子图谱，没有实实在在的序列，Bionano数据的分辨率大概1.5k左右，所以标签位置异常，在其上下游1.5k范围内碱基都可能异常，本申请取50-100kb既是为了方便验证，同时也能清晰看到正常区域与异常区域的差异；毕竟二代数据的大片段最大可以测到40k，三代数据测的最长也可以大于80k。

本申请的一些实施例中，如图3所示，存在五种比对结果，图中，“Bionano map”标记的灰色粗线条代表Bionano分子图谱，“Reference”标记的白色粗线条代表基因组组装结果转化的文件，“■”表示匹配分子标记，“□”表示未匹配分子标记；301为Bionano分子标记与基因组序列上对应的分子标记结构完全一致，基因组序列不存在结构问题的情况；302为Bionano分子标记与基因组序列上对应的分子标记结构一致，但标记之间长度不一致，基因组上对应标记位点为a和b，Bionano分子图谱对应的标记位点为e和f，则|e-f|-|a-b|为偏差长度；303、304和305分别示出了三种Bionano分子标记与参考序列比对结构不匹配的异常区域，对应基因组上的位点为a、b和c、d；其中a和d分别为冲突位点相邻的与Bionano分子标记完全对应上的标签位点。

S103：第二代测序数据比对步骤，包括将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点。

在本申请的一些实施例中，具体的，将不同插入片段文库的二代Illumina的Pairend数据用SOAPaligner软件比对到异常区域的序列上，验证异常区域内的二代数据的覆盖情况，及插入片段长度是否异常；其中，SOAPaligner比对软件可以从http://soap.genomics.org.cn/上下载。

S104：第三代测序数据比对步骤，包括将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常。

在本申请的一些实施例中，因为三代Pacbio数据有15％-20％的平均错误率，所以为了确保比对结果的准确性，使用三代纠错后的数据进行比对。比对软件用Bwa软件，并用samtools软件查看区间内三代Pacbio数据的覆盖情况。

其中，Bwa比对软件的下载网址为：https://github.com/lh3/bwa；samtools可从http://samtools.sourceforge.net/中获得。

S105：异常区域处理步骤，包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果，将异常区域分为四种情况，如图4所示，图中，白色粗线条代表异常区域的基因组序列，即ad区域，白色粗线条上方的曲线表示第二代测序数据的覆盖情况，白色粗线条下方的直线表示第三代测序数据的覆盖情况；四种情况详细如下：第一，如图4的401所示，第二代测序数据和第三代测序数据都没有覆盖的异常区域，401图展示了在gh这个区间二代数据和三代数据均未有覆盖；第二，如图4的402所示，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据的覆盖深度变化明显，402图展示了二代数据未覆盖的区域gf，三代数据虽有覆盖，但在区域gf覆盖深度变化很明显，且覆盖深度很低；第三，如图4的403所示，第二代测序数据没有覆盖，第三代测序数据覆盖质量高、深度高的异常区域，403图展示了在gh这个区间二代数据未覆盖，三代数据覆盖质量高，深度高；第四，如图4的404所示，第二代测序数据和第三代测序数据都有覆盖，且深度很高的异常区域；对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

本领域技术人员可以理解，上述实施方式中各步骤的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

因此，如图5所示，本申请一实施例中，基因组测序组装结果修复的装置，包括：分子比对模块501、异常区域获取模块502、第二代测序数据比对模块503、第三代测序数据比对模块504和异常区域处理模块505。

其中，分子比对模块501，用于将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对；异常区域获取模块502，用于提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域；第二代测序数据比对模块503，用于将异常区域的序列与第二代测序数据的多个插入片段文库的PairEnd测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点；第三代测序数据比对模块504，用于将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常；异常区域处理模块505，用于将异常区域分为四种类型：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；并且对四种类型的异常区域进行如下处理：对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

本申请另一实施例还提供一种基因组测序组装结果修复的装置，包括，存储器，用于存储程序；处理器，用于执行存储器存储的程序，以实现如下方法：分子比对步骤，包括将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对；异常区域获取步骤，包括根据分子比对步骤的结果，提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域；第二代测序数据比对步骤，包括将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点；第三代测序数据比对步骤，包括将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常；异常区域处理步骤，包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果，将异常区域分为：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

本申请另一种实施例还提供一种计算机可读存储介质，包括程序，该程序能够被处理器执行以实现如下方法：分子比对步骤，包括将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，与Bionano分子图谱进行比对；异常区域获取步骤，包括根据分子比对步骤的结果，提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域，记录该区域对应的酶切位点标记在基因组上的位置，以该位置为基础，在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域；第二代测序数据比对步骤，包括将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，分析所有文库reads对异常区域的覆盖情况，并记录覆盖异常的位点；第三代测序数据比对步骤，包括将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常；异常区域处理步骤，包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果，将异常区域分为：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；对于第三和第四种类型，不做处理。

术语说明：本申请中，Bionano分子图谱是指新一代图谱方法BioNano Genomics’System测序得到的分子图谱。Pacbio数据是指第三代单分子实时测序技术(SMRT)获得的测序数据。Illumina数据是指基于全基因组鸟枪法(WGS)的Illumina测序平台得到的二代测序数据。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例对一大小约为2.3Gb的谷类植物基因组，在基因组组装过程中，用二代插入片段文库大小为450bp和800bp的数据使用Pilon软件对基因组进行纠错和补洞处理时，发现有8个间隙序列被填补上，而且这些间隙序列长度都大于3k，甚至一些间隙长度超过40k的区域也被填补上。为了验证这些被填补序列的可靠性，按照本申请的基因组测序组装结果修复方法进行以下处理：

(一)分子比对步骤

1)参考序列准备：将基因组组装结果的序列文件转化为对应酶切位点位置组成的文件；具体的，标记填补后的序列ID信息，及其对应填补区域的位置坐标，如表1所示；表1中第一列为序列ID，其中scaffold160_1和scaffold160_2代表为同一条scaffold有多个位置被处理；Gap_start和Gap_end为补洞前间隙区域的起始和终止位置，Pre_start和Pre_end为补洞时被修正的碱基区域的起始和终止位置，filled_start和filled_end为被修正后碱基区域的起始和终止位置坐标；提取表1中第一列ID对应的fasta格式的文件，并将序列转换为cmap格式。

2)Bionano分子自组装：基于参考基因组的全基因组组装序列对Bionano分子数据进行标准化，再自组装成为Bionano分子图谱。

3)利用Bionano官方软件RefAlign将Bionano自组装结果与参考序列进行比对。

表1基因组组装结果转化的对应酶切位点位置文件信息

ID	Gap_start	Gap_end	Pre_start	Pre_end	Filled_start	Filled_end
							Scaffold160_1	10,900,369	10,903,868	10,900,287	10,903,932	10,899,928	10,900,030
Scaffold160_2	12,256,456	12,273,435	12,256,456	12,273,531	12,252,535	12,252,535
							Scaffold127	20,949,378	20,967,496	20,949,378	20,967,496	20,948,858	20,948,858
Scaffold174	7,736,653	7,774,627	7,736,553	7,775,130	7,736,383	7,736,383
							Scaffold116_1	31,642,484	31,686,690	31,642,202	31,687,193	31,641,676	31,641,676
Scaffold116_2	33,760,580	33,779,095	33,760,373	33,779,141	33,714,817	33,714,865
							Scaffold356	3,188,143	3,206,351	3,187,934	3,206,351	3,187,923	3,188,133
Scaffold228	6,680,393	6,691,386	6,680,393	6,691,386	6,680,206	6,680,206

(二)异常区域获取步骤

对于每一条scaffold的比对结果，筛选Bionano分子图谱上包含表1中filled_start和filled_end位点且两侧最近邻的分子标记，并记录分子标记在scaffold上对应的位置如表2所示；表2中第一列为序列ID，Mark_start为filled_start最近邻的上游分子标记的位置坐标，Mark_end为filled_end最近邻的下游分子标记的位置坐标。同时根据比对的分子图谱与图3中进行匹配和验证；对8个被Pilon软件填补过的区域附近的序列与Bionano分子图谱比对结果进行分析，发现有5个被填补的间隙两侧的分子标记情况类似于图3的301，这5个分子标记即Scaffold160_1、Scaffold127、Scaffold174、Scaffold116_2和Scaffold228，从表2也可以看出这些区域的分子标记距离和Bionano的分子标记距离相差不大，虽然略有差异，但是考虑到Bionano分子图谱的分辨率，所以在误差接受的范围内；而其余3个被填补的间隙两侧的分子标记情况则类似于图3的301，这3个分子标记即Scaffold160_2、Scaffold116_1和Scaffold356，从表2中也可以看出这几个分子标记长度相差超过10k以上。

表2异常区域在基因组组装序列上对应的位置信息

(三)结构验证

结构验证包括第二代测序数据比对步骤、第三代测序数据比对步骤和异常区域处理步骤。具体的，在实际分析中，基因组上包含Mark_start和Mark_end的区域被截取下来，分别与二代Illumina的2k、5k、10k的文库进行soap比对，并对结果进行插入片段长度验证，满足PE关系的比对结果用来做覆盖度图，结果如图4和表3所示，图4中序列的上方的曲线，截取的区域和三代经过数据纠错的Pacbio数据进行bwa比对，并用samtools depth和samtools view工具查看比对的具体情况，结果如图，4中的序列下方的直线；表3展示了Mark_start和Mark_end内的二代数据和三代数据的覆盖情况。其中第一列为序列ID，Mark_start和Mark_end同表2的第二列和第三列的含义，第四列为二代数据的覆盖情况；第五列为三代Pacbio数据的覆盖情况。从比对情况看，有三个被处理过的洞对应的分子标记区域内二代数据和三代数据的覆盖情况是异常的，分别是Scaffold160_2、Scaffold116_1和Scaffold356。

表3第二代测序数据和第三代测序数据对异常区域的覆盖度情况

(1)分析Scaffold160_2的比对情况，发现被处理过的间隙区域变成位点12252535，但是二代数据未覆盖的区域在位点12245202和位点12245302的区间内，所以说明间隙处序列填补正常，但是在位点12245202和位点12245302内序列是异常的；从三代数据分析结果看，位点12245202和位点12245302区间内为高度重复区域，三代Pacbio数据覆盖度达到5000×以上，所以可能由于该区域过于复杂，二代序列未完全覆盖到；但是由于三代数据比对覆盖正常，所以这个区域暂时不做处理。

(2)Scaffold116_1的比对情况，被处理过的间隙序列为位点31641676，二代数据未覆盖到的区域在位点31641901和位点31641957之间，与间隙序列处位点及其接近，而且二代数据在此处均未有数据支持，虽然三代Pacbio数据在此处的覆盖度达到8000×，但是在位点31641955处覆盖深度突然降低；而且此区间内Bionano与组装序列的分子标记相差45k，且距离补洞的间隙处很近，因此初步判断该区域补洞结果可能不太准确；所以将位点31641676和位点31641957区间内的序列替换为45k的间隙序列，在后续操作中对其进一步补洞处理。

(3)Scaffold356的比对情况，被处理过的间隙序列为位点3187923到位点3188133区间，二代数据未连续覆盖的区域在位点3183940和位点3184155区间范围内，与被补洞区域相距较远，三代在补洞区间内覆盖连续，故认为Pilon对该区域的补洞操作是正常的；而且位点3183940和位点3184155区间范围内二代数据虽然未连续覆盖，但是二代插入片段长度为5k和10k的文库在该区域内的两侧都有比对上，而且两侧满足Pair End关系，且三代在该区间覆盖深度超过1000×，且覆盖深度没有明显变化，所以认为该区域可能组装序列可能存在单碱基错误导致二代数据没办法匹配到，但是结构无大的异常。

本例通过Bionano分子图谱与二代Illumina数据、三代Pacbio数据结合使用，验证了Pilon补洞之后的结果是否准确，并对于不确定区域进行重新替换为间隙，从而防止错误的分析结果引入到最终的基因组，有效提升基因组组装的准确性和完整性。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种基因组测序组装结果修复的方法，其特征在于：包括将待验证的基因组组装结果与Bionano分子图谱进行比对，找出两者的分子标记不匹配或者对应长度不一致的区域，在所述不匹配或者对应长度不一致的区域的基因组序列的上下游各延伸预设长度，作为异常区域；

分别分析第二代测序数据和第三代测序数据对所述异常区域的覆盖度；

根据第二代测序数据和第三代测序数据对异常区域的覆盖度，对异常区域进行修复，获得修复的基因组组装结果。

2.根据权利要求1所述的方法，其特征在于：所述对异常区域进行修复，具体包括，

根据第二代测序数据和第三代测序数据对异常区域的覆盖度，将异常区域分为四种类型：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；

对四种类型的异常区域处理具体包括，对于第一和第二种类型，如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致，则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开；如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致，但标记之间长度不一致，则记录偏差的长度，对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列；

对于第三和第四种类型的异常区域，不做处理。

3.根据权利要求1或2所述的方法，其特征在于：具体包括以下步骤，

异常区域处理步骤，包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果，将异常区域分为：第一，第二代测序数据和第三代测序数据都没有覆盖的异常区域；第二，第二代测序数据没有覆盖，第三代测序数据虽然有覆盖，但是对于第二代测序数据没有覆盖到的位点，第三代测序数据在该位点两侧的覆盖深度不一致；第三，第二代测序数据没有覆盖，第三代测序数据有高质量和高深度覆盖的异常区域；第四，第二代测序数据和第三代测序数据都有正常覆盖的异常区域；

对于第三和第四种类型，不做处理。

4.根据权利要求3所述的方法，其特征在于：所述分子比对步骤中，将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件，包括将fasta格式的待验证的基因组组装结果序列转化为cmap格式；所述Bionano分子图谱为Bionano测序数据自组装的结果；优选的，Bionano测序数据自组装由组装软件RefAlign进行。

5.根据权利要求3所述的方法，其特征在于：所述第二代测序数据比对步骤中，将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析，具体采用SOAPaligner比对软件。

6.根据权利要求3所述的方法，其特征在于：所述第三代测序数据比对步骤中，将异常区域的序列与第三代测序经过纠错后的数据进行对比分析，验证第三代测序数据对异常区域的覆盖情况，具体包括采用Bwa软件进行比对，并用samtools软件查看对异常区域的覆盖情况。

7.一种基因组测序组装结果修复的装置，其特征在于：所述装置包括，

8.一种基因组测序组装结果修复的装置，其特征在于：所述装置包括，

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，以实现根据权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中包括程序，所述程序能够被处理器执行以实现根据权利要求1-6任一项所述的方法。