CN114724632B

CN114724632B - 评估基因组组装完整度方法及装置

Info

Publication number: CN114724632B
Application number: CN202210423265.7A
Authority: CN
Inventors: 吕云云; 李燕平; 文正勇; 贺扬; 王均
Original assignee: Neijiang Normal University
Current assignee: Neijiang Normal University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2023-03-21
Anticipated expiration: 2042-04-21
Also published as: CN114724632A

Abstract

本发明公开了一种评估基因组组装完整度方法及装置，根据测序报告确定测序reads的长度和测序错误率；在基因组序列中的随机位置上产生模拟reads；根据测序错误率在模拟产生的reads上进行错误性碱基替换；对实际和模拟产生的reads逐个碱基进行一定长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识；根据不同标识kmer的出现频次分布，计算所有kmer的频次深度分布；根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。本发明整体设计不依赖于其他数据库，采用简单可行的手段对基因组进行科学合理的完整性评估。

Description

评估基因组组装完整度方法及装置

技术领域

本发明涉及行为分析识别技术领域，具体的说，涉及一种评估基因组组装完整度方法及装置。

背景技术

基因组包含了生命体所有的遗传信息，包含了数亿计碱基对，不同的碱基排列方式造就了生命的多样。随着测序的进步，在数小时内即可完成一个物种基因组全序的测定，但完整的还原基因组本身的序列排布成为了当前生命科学重要的难点之一。生物学家致力于基因组组装质量的提高，评估基因组的完整度成为了高质量完成基因组组装的重要一环。当前评估基因组完整度，多依赖其他数据库的评估，例如利用计算保守单拷贝基因在基因组中的呈现比例，越高的比例代表基因组完整度越高。但遗传距离较远的物种在进化上的差异，会导致基因组完整度的评估也出现较高的误差。具体来说，现有技术基于单拷贝基因数据库与已有基因组比较，完整单拷贝基因所占的比例、缺失的比例和片段化的比例评估组装基因组的完整度。上述方法存在的缺陷在于，遗传距离较远的物种在进化上的差异，会导致基因组完整度的评估也出现较高的误差。

发明内容

本发明提供一种评估基因组组装完整度方法及装置，以能够有效的分析基因组的完整情况，评估出基因组组装质量情况。

本发明的具体技术方案如下：

根据本发明的第一技术方案，提供一种评估基因组组装完整度方法，所述方法包括：根据测序报告确定测序reads的长度l和测序错误率e；将基因组序列储存于字典数据结构中，在基因组序列中的随机位置上产生长度为l的模拟reads；根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换；收集实际测序数据和模拟测序数据；对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识；根据不同标识kmer的出现频次分布，将出现频次相同的kmer归为一类，记为kmer频次深度d，按照d＝1,2,3…计算所有kmer的频次深度分布；根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。

根据本发明的第二技术方案，提供一种评估基因组组装完整度装置，所述装置包括处理器，所述处理器配置为：根据测序报告确定测序reads的长度l和测序错误率e；将基因组序列储存于字典数据结构中，在基因组序列中的随机位置上产生长度为l的模拟reads；根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换；收集实际测序数据和模拟测序数据；对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识；根据不同标识kmer的出现频次分布，将出现频次相同的kmer归为一类，记为kmer频次深度d，按照d＝1,2,3…计算所有kmer的频次深度分布；根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。

根据本发明各个实施例公开的一种评估基因组组装完整度方法及装置，根据实际测序报告产生模拟测序数据，根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度，整体设计不依赖于其他数据库，采用简单可行的手段对基因组进行科学合理的完整性评估，为当下鉴定基因组组装质量优劣提供新的途径。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图；

图2示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

图1示出了根据本发明实施例的一种评估基因组组装完整度方法的流程图。本发明实施例提供一种评估基因组组装完整度方法，如图1所示，该方法始于步骤S100，根据测序报告确定测序reads的长度l和测序错误率e。其中，测序报告是通过对基因组测序而产生的报告，其通常包含有实际测序数据。一个实际测序数据的大小应当至少是基因组大小的30倍。

步骤S200，将基因组序列储存于字典数据结构中，在基因组序列中的随机位置上产生长度为l的模拟reads。

步骤S300，根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换。

步骤S400，收集实际测序数据和模拟测序数据。

步骤S500，对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识。预设长度可以是17或19或21等等，本发明实施例对此不作具体限制。

步骤S600，根据不同标识kmer的出现频次分布，将出现频次相同的kmer归为一类，记为kmer频次深度d，按照d＝1,2,3…计算所有kmer的频次深度分布。

步骤S700，根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。

在一些实施例中，按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据，其中，X≥10。收集不同数据量大小的实际测序数据和模拟测序数据，以保证对基因组科学合理的完整性评估的准确性。

在一些实施例中，所述根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度，包括：

比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同；

当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时，则确定基因组组装完整；

当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时，则确定基因组组装不完整。

在一些实施例中，所述当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时，则确定基因组组装不完整，包括：

当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时，说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度，这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中，导致模拟测序数据的总特征kmer序列少于实际测序数据；据此可确定一部分序列未被组装出来，则已有基因组质量较差，组装不完整；

当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时，说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度，这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中，导致模拟测序数据kmer频次深度加倍；据此可确定基因组中存在过度组装的重复性序列，则已有基因组质量存在冗余重复。

本发明实施例在具体应用时，可以适用于不同的语言环境。

示例性的，在Python环境中，如图2所示，将基因组总大小为G的基因组序列在Python环境中，根据短片段测序(测序长度l)确定的错误率e来随机模拟产生错误率为e的短序列片段，即得到模拟测序数据。短片段测序即实际测序数据。对模拟测序数据和实际测序数据分别逐单个碱基取17长度短片段，比较互补配对片段，取较大者为短片段标识，记录短片段累计长度GA，当GA为G的10倍，15倍，20倍，25倍，30倍时比较实际测序与模拟产生的短片段频次深度分布。在两者频次深度分布主峰一致，形状接近时，确定基因组组装完整。在两者频次深度分布主峰不一致，主峰右移时，则确定基因组组装不完整，此时在基因组中一部分序列未被组装出来，基因组质量较差。在两者频次深度分布主峰不一致，主峰左移时，则确定基因组冗余。

因此，本发明基于测序原理和计算机语言Python的优势，设计出不依赖于其他数据库，简单可行的手段对基因组进行科学合理的完整性评估方法，为当下鉴定基因组组装质量优劣提供新的途径。

本发明实施例还提供一种评估基因组组装完整度装置，所述装置包括处理器，所述处理器配置为：根据测序报告确定测序reads的长度l和测序错误率e；将基因组序列储存于字典数据结构中，在基因组序列中的随机位置上产生长度为l的模拟reads；根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换；收集实际测序数据和模拟测序数据；对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识；根据不同标识kmer的出现频次分布，将出现频次相同的kmer归为一类，记为kmer频次深度d，按照d＝1,2,3…计算所有kmer的频次深度分布；根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度。

需要说明的是，本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中，所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。

在一些实施例中，所述处理器进一步配置为按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据，其中，X≥10。

在一些实施例中，所述处理器进一步配置为：比较kmer频次深度分布在实际测序数据和模拟测序数据中的不同；当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布一致时，则确定基因组组装完整；当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时，则确定基因组组装不完整。

在一些实施例中，所述处理器进一步配置为：

当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰右移时，说明模拟测序数据的kmer频次深度要高于实际测序数据的kmer频次深度，这种情况源于实际测序数据中的部分特征kmer序列不存在于模拟测序数据中，导致模拟测序数据的总特征kmer序列少于实际测序数据；据此可确定一部分序列未被组装出来，则已有基因组质量较差，组装不完整；当模拟测序数据产生的kmer频次深度分布的主峰相对于实际测序数据产生的kmer频次深度分布的主峰左移时，说明模拟测序数据的kmer频次深度要低于实际测序数据的kmer频次深度，这种情况源于实际测序数据中的部分特征kmer序列多次出现在模拟数据中，导致模拟测序数据kmer频次深度加倍；据此可确定基因组中存在过度组装的重复性序列，则已有基因组质量存在冗余重复。

本发明实施例所提供的一种评估基因组组装完整度装置与在前阐述的方法的技术效果基本一致，此处不赘述。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种评估基因组组装完整度方法，其特征在于，所述方法包括：

根据测序报告确定测序reads的长度l和测序错误率e；

将基因组序列储存于字典数据结构中，在基因组序列中的随机位置上产生长度为l的模拟reads；

根据测序错误率e在模拟产生的reads上进行相同频次的错误性碱基替换；

收集实际测序数据和模拟测序数据；

对实际和模拟产生的reads逐个碱基进行预设长度短片段kmer的抽取，并比较其反向互补配对序列，取在字母表排列在前的kmer作为序列标识；

根据不同标识kmer的出现频次分布，将出现频次相同的kmer归为一类，记为kmer频次深度d，按照d＝1,2,3…计算所有kmer的频次深度分布；

根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度；

所述根据模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布来评估基因组组装完整度，包括：

当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时，则确定基因组组装不完整；

所述当模拟测序数据产生的kmer频次深度分布与实际测序数据产生的kmer频次深度分布不一致时，则确定基因组组装不完整，包括：

2.根据权利要求1所述的方法，其特征在于，所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。

3.根据权利要求1所述的方法，其特征在于，按照基因组大小的X1倍、X2倍、X3倍和X4倍数据量收集实际测序数据和模拟测序数据，其中，X≥10。

4.一种评估基因组组装完整度装置，其特征在于，所述装置包括处理器，所述处理器配置为：

根据测序报告确定测序reads的长度l和测序错误率e；

收集实际测序数据和模拟测序数据；

所述处理器进一步配置为：

5.根据权利要求4所述的装置，其特征在于，所述测序报告中包含的实际测序数据的大小至少是基因组大小的30倍。

6.根据权利要求4所述的装置，其特征在于，所述处理器进一步配置为按照基因组大小的X1倍、X2倍、X3倍和/或X4倍数据量收集实际测序数据和模拟测序数据，其中，X≥10。