CN116230078B

CN116230078B - 一种de novo评估组装基因组污染度的方法

Info

Publication number: CN116230078B
Application number: CN202310505622.9A
Authority: CN
Inventors: 周袁杰; 房路京; 李少川
Original assignee: Ruiyinmaituo Technology Guangzhou Co ltd
Current assignee: Ruin Maituo Technology Wuhan Co ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-07-07
Anticipated expiration: 2043-05-08
Also published as: CN116230078A

Abstract

本发明属于分子生物学领域，提供一种de novo评估组装基因组污染度的方法，使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类，通过聚类的结果来评估组装的基因组中是否含有污染。本申请的方法无需依赖数据库，使用情况广泛，运行速度稳定。

Description

一种de novo评估组装基因组污染度的方法

技术领域

本发明属于分子生物学领域，具体涉及一种de novo评估组装基因组污染度的方法及其相应计算设备。

背景技术

物种基因组组装是物种鉴定过程中重要的过程，由于样本来源，核酸提取，建库，上机测序等过程可能会混入其他物种的核酸。样本来源如来自肠道，土壤，水体中的样本本身包含多种物种，而实验室培养的菌落类似的样本中只包含一种样本由此导致的组装结果存在污染，最终会影响物种的鉴定结果。

目前对组装结果进行评估的工具较为常用的是checkm工具，该工具是根据基因组在参考基因组发育树中的位置来推断精确的单拷贝标记基因（lineage-specificmarkerset），同时也提供数据库可用的基于分类学的基因集（taxonomic-specificmarker set），利用单拷贝基因来估计基因组的污染度（如图1所示）。使用此方法来进行污染度评估是需要有参考数据库的，若是新物种的单拷贝基因并没有在数据库中则使用该方法得到的结果并不准确；checkm中对于组装基因组的基因预测是基于prodigal方法，该方法适合细菌和古生细菌的基因预测，不能用于真核生物。而且此种方法中使用的工具，如python, hmmer,prodigal, pplacer中有的步骤并不能充分利用cpu，导致速度比较慢。

不同物种基因组核酸种类组成中会有不同，鸟嘌呤（G）和胞嘧啶（C）在总碱基中所占的比例（GC含量）是一个重要的指标，不同物种中该指标会有所不同，可根据组装后基因组不同核酸比例来进行评估组装结果是否是来源于不同物种。此外相较于相同物种的测序数据比对到自身基因组与比对到其他基因组的比对率会有不同，比对到自身的基因组会有大量的reads能够比对上，而比对到其他基因组则会有大量的reads不能比对上，因此测序深度也会受影响，在污染度较低的基因组中测序深度是比较高且稳定的，而有污染的基因组因为混入了其他物种的序列则会低很多。

发明内容

本发明将利用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类，通过聚类的结果来评估组装的基因组中是否含有污染。相较于chekm方法，本方法是一种无需依赖任何数据库的de novo方法，运行速度也会比较稳定；不依赖参考数据库，即便未检测到相应的marker基因也能计算基因组的污染度。

一方面，本申请提供了一种de novo评估组装基因组污染度的方法，所述方法使用组装后计算得到的GC含量以及测序深度这两个维度的数据来进行聚类，通过聚类的结果来评估组装的基因组中是否含有污染。

进一步地，所述方法包括以下步骤：

（1）对样品基因组进行测序，获得质控后的reads以及组装的基因组；

（2）对组装的基因组构建需要比对的index；

（3）使用短序列比对软件对reads进行比对获得比对结果bam文件；

（4）计算基因组序列中每个位点测序深度；

（5）对基因组序列统计GC含量：将每条组装的序列分割成等长的分割区域，每个分割区域长度为100—3000个碱基，计算每个分割区域中的GC含量：GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数）；

（6）按照步骤（5）的分割方式并结合步骤（4）得到的每个位点的测序深度结果，计算每个分割区域的平均测序深度；某个位点测序深度 = 比对到该位点的reads数；某个分割区域的测序深度 = （比对到该位点的reads数 * 比对的reads长度）/分割碱基总数；

（7）将步骤（5）得到的GC含量数据和步骤（6）计算得到的测序深度结果合并在一起，形成二维数据；

（8）对步骤（7）得到的二维数据进行无监督聚类；

（9）根据聚类结果判断污染程度。

另一方面，本申请提供了一种de novo评估组装基因组污染度的系统，所述系统包括以下模块：

模块1：用于对样品基因组进行测序，获得质控后的reads以及组装的基因组；

模块2：用于对组装的基因组构建需要比对的index；

模块3：用于使用短序列比对软件对reads进行比对获得比对结果bam文件；

模块4：用于计算基因组序列中每个位点测序深度；

模块5：用于对基因组序列统计GC含量：对每条组装的序列进行分割，每个分割区域长度为100—3000个碱基，计算每个分割区域中的GC含量：GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数；

模块6：用于按照模块5的分割方式并结合模块4得到的每个位点的测序深度结果，计算每个分割区域的平均测序深度；某个位点测序深度 = 比对到该位点的reads数；某个分割区域的测序深度 = （比对到该位点的reads数 * 比对的reads长度）/分割碱基总数；

模块7：用于将模块5得到的GC含量数据和模块6计算得到的测序深度结果合并在一起，形成二维数据；

模块8：用于对模块7得到的二维数据进行无监督聚类；

模块9：用于根据聚类结果判断污染程度；

模块1-9中均包括存储和计算设备。

每个模块中包括存储和计算设备。

进一步地，模块3短序列比对软件选自bowtie2、bwa、bwa-mem。

进一步地，模块4中使用samtools depth工具。

进一步地，模块5中的分隔长度为200—1000个碱基。

进一步地，模块5中的分隔长度为500个碱基。

进一步地，模块8中的聚类方法选自kmeans、层次聚类（hierarchicalclustering）， DBSCAN算法以及Density Peaks聚类（局部密度聚类）。

进一步地，步骤模块8中聚类方法为kmeans；模块9包括寻找最优的k值；确定好最优的k值后，若k值为1，则表示只有一个类，表示没有污染；若k值大于1，则计算每个聚类中数据的数据量，计算最大的类占总数据量的比例，若大于95%则表示污染很少或是无污染。

进一步地，所述基因组为真核生物基因组。

本申请中步骤（1）/模块1中的“测序”可以使用现有技术中已知的研究中的各种方法和设备来处理样本、提取、建立文库和进行测序。

本申请中的设备中的模块可以是物理上有明显区分的单独设备，通过一定的方式连接传输数据；也可以有多个模块存在于同一物理设备（如包括CPU和存储器的计算机）中，其仅在程序中做出相应划分；每个模块对应的程序本领域技术人员可以常规设计编写。

由于不依赖现有数据库，本申请的GC-depth方法的运行速度快，时间和内存资源消耗表现均明显优于现有的方法；而且在未检测到相应的marker基因的情况下也能计算基因组的污染度，适用范围较现有方法更为广泛。

附图说明

图1为常用质量评估工具checkm的实现原理图。

图2为测序深度示意图。

图3A为计算得到的GC含量和测序深度结果存在污染的情况，图3B为计算得到的GC含量和测序深度结果不存在污染的情况。

图4为本申请方法的流程图。

具体实施方式

下面结合具体实施例详述本发明。以下实施例仅做展示用，本发明的保护范围由权利要求限定，不局限于以下实施例。

实施例1 ：本申请方法的流程

本申请方法的基本过程如图4所示：

（1）数据准备：质控后的reads、组装的基因组文件；

（2）使用bowtie2-build对组装的基因组构建需要比对的index；

（3）利用构建好的数据库使用bowtie2对reads进行比对获得比对结果bam文件；

（4）使用samtools depth工具计算基因组序列中每个位点测序深度；

（5）使用python对基因组序列统计GC含量，对每条组装的序列进行分割，分割长度为500个碱基，计算这500个碱基的GC含量（GC(%) = 区域内GC总数/区域碱基长度）；若基因组序列为10000个碱基，则此序列会生成20个GC含量的值；

（6）按照步骤（5）的分割方式并结合步骤（4）得到的每个位点的测序深度结果，计算500个碱基的平均测序深度；某个位点测序深度 = 比对到该位点的reads数；某个区域测序深度 = （比对到该位点的reads数 * 比对的reads长度）/目标区域长度。如图2所示，图中横向连续线条表示基因组序列，横向短线条的表示短reads，纵向线条表示基因组序列上特定的位点。在图示示例中：上方低测序深度reads并未比对到该点的碱基，此时此处测序深度为0；在下方的高测序深度有3条reads比对上（纵向线条与横向短线条交叉），此处测序深度为3；

（7）将步骤（5）得到的GC含量数据和步骤（6）计算得到的测序深度结果合并在一起，合并规则同一个序列相同顺序（第一个500碱基结果，第二个500碱基结果）合并在一起，形成一个二维数据结果；

（8）使用python中sklearn包对GC-depth二维数据进行Kmeans聚类，k值选择范围为1-5，每选择1个k值记录下SSE（误差平方和）；

（9）使用kneed包中的KneeLocator函数来寻找最优的k值；确定好最优的k值后，若k值为1，则表示只有一个类，表示没有污染。若k值大于1，则计算每个聚类中数据的数据量，计算最大的类占总数据量的比例，若大于95%则表示污染很少或是无污染。

实施例2：计算实例

1）数据准备：用于测试的数据来源于NCBI下载的大肠杆菌数据（SRR10003456），此外准备沙门氏菌的基因组一个。NCBI下载的数据进行使用fastp进行数据质控。质控后数据使用spades软件进行组装获得大肠杆菌组装的基因组。挑选50%的大肠杆菌组装基因组以及50%沙门氏菌基因组序列合并成一个的有污染的混合基因组。后续会用到clean reads，混合基因组以及大肠杆菌基因组这三种数据。

2）使用clean reads同组装的大肠杆菌基因组使用bowtie2进行比对。

3）对比对后的结果使用samtools depth计算每个位点测序深度。

4）对基因组结果每条序列进行划分，每500碱基统计GC含量，同时也计算相应的该区域的平均测序深度，获得GC-depth的二维结果。以GC含量为x轴，测序深度depth为y轴对GC-depth结果展示。从这样的图（如图3A、3B所示的存在或不存在污染的情况）可以进行初步判断是否存在污染。若横轴纵轴的频率分布曲线的峰值有不止一个，则表示存在污染；不存在污染的基因组同reads比对后GC-depth在任何的维度上都是不存在两个峰值。计算得到的GC含量和测序深度分别是两个维度，类似二维数据的x、y的点（展示方式是密度累积图，和二维散点图一致，只是展示方式不同，颜色越深，线越密集，表示此处的点越多。上方的是GC含量累积密度曲线表示了数据在该维度的分布，若此处有峰，则表示该区域数据分布密集。右侧的是测序深度的累积密度曲线）。

5）利用上述得到的数据使用无监督聚类方法kmeans进行聚类。

6）为kmeans聚类选择最优的k值，初始k值设置为1-5，计算SSE（误差平方和），根据SSE确定最佳k值。

7）污染判断标准，若最优k值等于1，则表示无污染。若k值大于1，则会计算聚类中最大类包含数据占比总数据量的比例。若超过95%则表示无污染，或污染极低，若未超过95%。则表示组装的基因组中存在污染。

8）使用相同方式对大肠杆菌基因组计算测序的深度以及GC含量进行kmeans聚类。

9) 使用checkm对大肠杆菌组装的基因组结果直接进行污染度评估。

统计程序运行的时间方法，使用date命令获取当前的开始时间，程序结束后同样调用date命令获取最终结束的时间，计算两次时间的时间差。

内存统计方法，使用python中psutil包在程序运行过程中每隔10s统计系统占用内存大小，最后程序运行完成后，计算平均内存占用大小，和内存峰值。使用的线程数均为32个线程分别在耗时，污染度评估结果，是否依赖数据库以及内存消耗几个方面比较了两种方法的差别。

表1本申请的GC-depth方法与Checkm方法的效果比较

如表1所述，在保证准确性的前提下，相较于checkm方法：GC-depth方法无需依赖任何数据库，运行速度和内存消耗表现均明显优于checkm；特别是，由于GC-depth方法不依赖参考数据库，即便未检测到相应的marker基因也能计算基因组的污染度，明显扩展了方法的适用条件。

Claims

1.一种de novo评估组装基因组污染度的方法，其特征在于，所述方法使用组装后计算得到的GC含量以及测序深度两个维度的数据来进行聚类，通过聚类的结果来评估组装的基因组中是否含有污染；所述方法包括以下步骤：

（2）对组装的基因组构建需要比对的index；

（4）计算基因组序列中每个位点测序深度；

（5）对基因组序列统计GC含量：将每条组装的序列分割成等长的分割区域，每个分割区域长度为100-3000个碱基，计算每个分割区域中的GC含量：GC% = 每个分割区域中GC总数/每个分割区域中的碱基总数；

（8）对步骤（7）得到的二维数据进行无监督聚类；

（9）根据聚类结果判断污染程度。

2. 根据权利要求1所述的方法，其中步骤（3）短序列比对软件选自bowtie2、bwa、bwa-mem；步骤（4）中使用samtools depth工具；步骤（8）中的聚类方法选自kmeans、层次聚类，DBSCAN算法或Density Peaks聚类。

3.根据权利要求2所述的方法，其中步骤（5）中的每个分割区域长度为500个碱基。

4.根据权利要求3所述的方法，其中步骤（8）中聚类方法为kmeans；步骤（9）包括寻找最优的k值；确定好最优的k值后，若k值为1，则表示只有一个类，表示没有污染；若k值大于1，则计算每个聚类中数据的数据量，计算最大的类占总数据量的比例，若大于95%则表示污染很少或是无污染。

5.根据权利要求1-4任一项所述的方法，其中所述基因组为真核生物基因组。

6. 一种de novo评估组装基因组污染度的系统，其特征在于，所述系统包括以下模块：

模块2：用于对组装的基因组构建需要比对的index；

模块4：用于计算基因组序列中每个位点测序深度；

模块8：用于对模块7得到的二维数据进行无监督聚类；

模块9：用于根据聚类结果判断污染程度；

模块1-9中均包括存储和计算设备。

7. 根据权利要求6所述的系统，其中模块3中的短序列比对软件选自bowtie2、bwa、bwa-mem；模块4中使用samtools depth工具；模块5中的聚类方法选自kmeans、层次聚类，DBSCAN算法或Density Peaks聚类。

8.根据权利要求7所述的系统，其中模块5中每个分割区域长度为500个碱基。

9.根据权利要求8所述的系统，其中模块8中聚类方法为kmeans；模块9的功能包括寻找最优的k值；确定好最优的k值后，若k值为1，则表示只有一个类，表示没有污染；若k值大于1，则计算每个聚类中数据的数据量，计算最大的类占总数据量的比例，若大于95%则表示污染很少或是无污染。

10.根据权利要求6-9任一项所述的系统，其中所述基因组为真核生物基因组。