CN107832584A

CN107832584A - 宏基因组的基因分析方法、装置、设备及存储介质

Info

Publication number: CN107832584A
Application number: CN201710838808.0A
Authority: CN
Inventors: 郭宁; 魏彦杰; 张慧玲; 葛健秋; 滕彦宁
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-03-23
Anticipated expiration: 2037-09-18
Also published as: CN107832584B

Abstract

本发明适用计算机科学与生物信息学交叉的技术领域，提供了一种宏基因组的基因分析方法、装置、设备以及存储介质，该方法包括：对接收的每组测序数据进行筛选和组装，生成测序数据对应的组装数据，通过对组装数据进行基因预测，生成每组测序数据的预测基因，根据预测基因构建基因字典，根据基因字典中每条基因的丰度对基因字典进行聚类，根据聚类后的基因簇对筛选后的每组测序数据进行分类和组装，生成并输出宏基因组的基因，从而在没有现有生物基因作为参考基因组的情形下，实现宏基因组的基因分析，避免了参考基因组带来的局限性，并有效地提高了宏基因组基因分析的准确度。

Description

宏基因组的基因分析方法、装置、设备及存储介质

技术领域

本发明属于计算机科学与生物信息学交叉的技术领域，尤其涉及一种宏基因组的基因分析方法、装置、设备及存储介质。

背景技术

宏基因组学是一种不需要进行微生物培养的微生物研究方法，可以直接对取自环境中的微生物样品进行分析和研究，该技术的出现使得人们对占微生物99％的不可培养微生物的研究成为现实。宏基因组技术首先需要对环境样品进行基因提取和测序，再通过计算机软件对测序结果进行分析。由于宏基因组中提取的基因为多个物种(包括未知物种)的多个基因的混合，在宏基因组数据中找出每个物种的基因组序列是一件非常复杂的工作。

目前，宏基因组基因的分析方法主要依赖于宏基因组中的基因与参考基因组的比对，参考基因组中仅包含少量已知物种的基因以及一些基因片段，并不完整，而且来自同一物种不同分离物的微生物基因组在比较时，通常也会显示出较大的差异性。可见，依赖于占微生物系统中一小部分已知微生物基因的参考基因组，不但给宏基因组基因分析带来一定的局限性，而且无法描述微生物中的未知物种。

发明内容

本发明的目的在于提供一种宏基因组的基因分析方法、装置、设备及存储介质，旨在解决现有宏基因组的基因分析需要依赖于参考基因组，无法对宏基因组中未知生物基因进行分析，导致宏基因组基因分析准确度不高的问题。

一方面，本发明提供了一种宏基因组的基因分析方法，所述方法包括下述步骤：

接收用户输入的宏基因组的测序数据，对所述每组测序数据进行筛选和组装，生成所述每组测序数据对应的组装数据；

通过对所述每组组装数据进行基因预测，生成所述每组测序数据的预测基因，根据所述预测基因构建所述宏基因组的基因字典；

统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度，根据所述每条基因的丰度对所述基因字典中的基因进行聚类，获得聚类后的基因簇；

根据所述基因簇对所述筛选后的每组测序数据进行分类和组装，生成并输出所述宏基因组的基因。

另一方面，本发明提供了一种宏基因组的基因分析装置，所述装置包括：

测序组装单元，用于接收用户输入的宏基因组的测序数据，对所述每组测序数据进行筛选和组装，生成所述每组测序数据对应的组装数据；

基因预测单元，用于通过对所述每组组装数据进行基因预测，生成所述每组预测数据的预测基因，根据所述预测基因构建所述宏基因组的基因字典；

基因聚类单元，用于统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度，根据所述每条基因的丰度对所述基因字典中的基因进行聚类，获得聚类后的基因簇；以及

基因输出单元，用于根据所述基因簇对所述筛选后的每组测序数据进行分类和组装，生成并输出所述宏基因组的基因。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述宏基因组的基因分析方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述宏基因组的基因分析方法所述的步骤。

本发明对宏基因组的每组测序数据分别进行筛选、组装及基因预测，生成每组测试数据的预测基因，有效地提高了宏基因组基因组装的精度和基因预测的准确度，根据这些预测基因构建宏基因组的基因字典，根据基因字典中基因聚类后的基因簇对筛选后的每组测序数据进行分类和组装，进一步提高了宏基因组基因组装的精度，生成并输出宏基因组的基因，从而在无需依赖参考基因组的情形下实现了宏基因组的基因分析，有效地提高了宏基因组的基因分析的准确度。

附图说明

图1是本发明实施例一提供的宏基因组的基因分析方法的实现流程图；

图2是本发明实施例二提供的宏基因组的基因分析装置的结构示意图；

图3是本发明实施例二提供的宏基因组的基因分析装置的优选结构示意图；以及

图4是本发明实施例三提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的宏基因组的基因分析方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收用户输入的宏基因组的测序数据，对每组测序数据进行筛选和组装，生成每组测序数据对应的组装数据。

在本发明实施例中，对环境样本进行DNA提取和测序可得到宏基因组的测序数据，在每组测序数据中包含多条读长数据(reads)，测序数据中读长数据的长度都比较短，需对每组测序数据中的读长数据进行组装，得到较长的组装序列，由这些组装序列构成每组测序数据对应的组装数据。作为示例地，可通过预设的SOAPdenovo组装软件对测序数据中的读长数据进行组装，在组装过程中预先设置好SOAPdenovo组装软件中最大读长数据的长度、文库平均插入长度等参数，通过该组装软件进行测序数据中读长数据的组装可有效减少读长数据组装时的内存消耗，并增加组装后得到的基因序列的覆盖度和长度。

优选地，在对每组测序数据进行组装之前，对每组测序数据进行测序质量的控制，即根据每组测序数据中读长数据的测序质量和预设的质量阈值，将每组测序数据中测序质量低于质量阈值的读长数据过滤掉，以提高测序数据组装的精度。作为实例地，可通过软件包fastx_toolkit中的质量过滤工具fastq_quality_filter对每组测序数据进行质量过滤。

在步骤S102中，通过对每组组装数据进行基因预测，生成每组测序数据的预测基因，根据预测基因构建宏基因组的基因字典。

在本发明实施例中，可通过预设的基因预测软件(例如MetaGeneMark)，分别对每组组装数据中的组装序列进行基因预测，生成每组测序数据的预测基因，对所有预测基因进行组合，以得到对应的预测基因集合，通过预设的相似度对比工具(例如BLAT)对预测基因集合中任意两条预测基因进行相似度的统计，将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并，使得预测基因集合中剩余的预测基因都是相似度不高的基因，将此时的预测基因集合设置为基因字典，从而降低基因字典中基因信息的重复率，有效提高基因字典的代表性。

在步骤S103中，统计基因字典中每条基因相对于筛选后的所有测序数据的丰度，根据每条基因的丰度对基因字典中的基因进行聚类，获得聚类后的基因簇。

在本发明实施例中，将筛选后的所有测序数据中的读长数据与基因字典中的每条基因进行映射，以统计所有测序数据的读长数据在基因字典的每条基因上的分布，进而得到基因字典中每条基因在所有测序数据中的丰度(即覆盖率)，将每条基因的丰度设置为每条基因的聚类特征，通过预设的聚类算法对基因字典中的基因进行聚类，得到聚类后的基因簇。优选地，采用k-means无监督聚类算法对基因字典中的基因进行聚类，以有效地提高基因字典中基因分类的准确度。

在步骤S104中，根据基因簇对筛选后的每组测序数据进行分类和组装，生成并输出宏基因组的基因。

在本发明实施例中，根据基因簇对筛选后的每组测序数据中的读长数据进行分类，将分类到每个基因簇中的读长数据进行组装，将由每个基因簇中的读长数据组装得到的组装数据设置为宏基因组的基因并输出，从而完成宏基因组的基因分析。

在本发明实施例中，对宏基因组的每组测序数据分别进行筛选、组装、基因预测，有效提高了基因组装的精度和基因预测的准确度，将基因预测得到的预测基因进行相似度的筛选，生成基因字典，根据基因字典聚类后的基因簇对筛选后的每组测序数据分类和组装，进一步有效地提高了基因组装的精度，从而在不依赖参考基因组的情形下实现宏基因组的基因分析，避免了参考基因组带来的局限性，并有效地提高了宏基因组基因分析的准确度。

实施例二：

图2示出了本发明实施例二提供的宏基因组的基因分析装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

测序组装单元21，用于接收用户输入的宏基因组的测序数据，对每组测序数据进行筛选和组装，生成每组测序数据对应的组装数据。

在本发明实施例中，在每组测序数据中包含多条读长数据(reads)，测序数据中读长数据的长度都比较短，需对每组测序数据中的读长数据进行组装，得到较长的组装序列，由这些组装序列构成每组测序数据对应的组装数据。作为示例地，可通过预设的SOAPdenovo组装软件对测序数据中的读长数据进行组装，在组装过程中预先设置好SOAPdenovo组装软件中最大读长数据的长度、文库平均插入长度等参数，通过该组装软件进行测序数据中读长数据的组装可有效减少读长数据组装时的内存消耗，并增加了组装后得到的基因序列的覆盖度和长度。

优选地，在对每组测序数据进行组装之前，对每组测序数据进行测序质量的控制，即根据每组测序数据中读长数据的测序质量和预设的质量阈值，将对每组测序数据中测序质量低于质量阈值的读长数据过滤掉，以提高测序数据组装的精度。作为实例地，可通过软件包fastx_toolkit中的质量过滤工具fastq_quality_filter对每组测序数据进行质量过滤。

基因预测单元22，用于通过对每组组装数据进行基因预测，生成每组预测数据的预测基因，根据预测基因构建宏基因组的基因字典。

在本发明实施例中，可通过预设的基因预测软件(例如MetaGeneMark)，分别对每组组装数据中的组装序列进行基因预测，生成每组测序数据的预测基因，对所有预测基因进行组合，以得到对应的预测基因集合，通过预设的相似度对比工具(例如BLAT)对预测基因集合中任意两条预测基因进行相似度的统计，将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并，使得在预测基因集合中剩余的预测基因都是相似度不高的基因，将此时的预测基因集合设置为基因字典，从而降低基因字典中基因信息的重复率，有效提高基因字典的代表性。

基因聚类单元23，用于统计基因字典中每条基因相对于筛选后的所有测序数据的丰度，根据每条基因的丰度对基因字典中的基因进行聚类，获得聚类后的基因簇。

在本发明实施例中，将筛选后的所有每组测序数据中的读长数据与基因字典中的每条基因进行映射，以统计所有测序数据的读长数据在基因字典的每条基因上的分布，进而得到基因字典中每条基因在所有测序数据中的丰度，将每条基因的丰度设置为每条基因的聚类特征，通过预设的聚类算法对基因字典中的基因进行聚类，得到聚类后的基因簇。优选地，采用k-means无监督聚类算法对基因字典中的基因进行聚类，以有效地提高基因字典中基因分类的准确度。

基因输出单元24，用于根据基因簇对筛选后的每组测序数据进行分类和组装，生成并输出宏基因组的基因。

在本发明实施例中，根据基因簇对筛选后的每组测序数据中的读长数据进行分类，对每个基因簇中的读长数据进行组装，将由每个基因簇中的读长数据组装得到的组装数据对应地设置为每组测序数据的基因并输出，从而完成宏基因组的基因分析。

优选地，测序组装单元21包括数据过滤单元311和数据组装单元312，其中：

数据过滤单元311，用于根据预设的质量阈值和每组测序数据中每个读长数据的测序质量，对每组测序数据进行过滤；以及

数据组装单元312，用于对过滤后的每组测序数据中的读长数据进行组装，生成过滤后的每组测序数据对应的组装数据。

优选地，基因预测单元22包括相似度计算单元321和字典生成单元322，其中：

相似度计算单元321，用于对所有预测基因进行组合，以得到对应的预测基因集合，计算预测基因集合中每对预测基因的相似度；以及

字典生成单元322，用于将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并，将合并后的预测基因集合设置为基因字典。

在本发明实施例中，宏基因组的基因分析装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图4示出了本发明实施例三提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器40执行计算机程序42时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

在本发明实施例中，对宏基因组的每组测序数据分别进行筛选、组装及基因预测，生成每组测试数据的预测基因，有效地提高了宏基因组基因组装的精度和基因预测的准确度，根据这些预测基因构建宏基因组的基因字典，根据基因字典中基因聚类后的基因簇对筛选后的每组测序数据进行分类和组装，进一步提高了宏基因组基因组装的精度，生成并输出宏基因组的基因，从而在无需依赖参考基因组的情形下实现了宏基因组的基因分析，有效地提高了宏基因组的基因分析的准确度。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种宏基因组的基因分析方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，对所述每组测序数据进行筛选和组装，生成所述每组测序数据对应的组装数据的步骤，包括：

根据预设的质量阈值和所述每组测序数据中每个读长数据的测序质量，对所述每组测序数据进行过滤；

对所述过滤后的每组测序数据中的读长数据进行组装，生成所述过滤后的每组测序数据对应的所述组装数据。

3.如权利要求1所述的方法，其特征在于，根据所述预测基因构建所述宏基因组的基因字典的步骤，包括：

对所述所有预测基因进行组合，以得到对应的预测基因集合，计算所述预测基因集合中每对预测基因的相似度；

将所述预测基因集合中所述相似度超过预设相似阈值的每对预测基因进行合并，将所述合并后的所述预测基因集合设置为所述基因字典。

4.如权利要求1所述的方法，其特征在于，统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度，根据所述每条基因的丰度对所述基因字典中的基因进行聚类，获得聚类后的基因簇的步骤，包括：

根据所述筛选后的所有测序数据的读长数据在所述基因字典中每条基因上的分布，统计所述基因字典中每条基因的丰度；

将所述基因字典中每条基因的丰度设置为所述基因字典中每条基因的聚类特征，根据所述基因字典中每条基因的聚类特征，对所述基因字典中的基因进行聚类，生成所述基因簇。

5.如权利要求1所述的方法，其特征在于，根据所述基因簇对所述筛选后的每组测序数据进行分类和组装，生成并输出所述宏基因组的基因的步骤，包括：

根据所述基因簇对所述筛选后的每组测序数据中的读长数据进行分类，分别将属于所述每个基因簇的所述读长数据进行组装；

将由所述读长数据组装得到的组装数据设置为所述宏基因组的基因并输出。

6.一种宏基因组的基因分析装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述测序组装单元包括：

数据过滤单元，用于根据预设的质量阈值和所述每组测序数据中每个读长数据的测序质量，对所述每组测序数据进行过滤；以及

数据组装单元，用于对所述过滤后的每组测序数据中的读长数据进行组装，生成所述过滤后的每组测序数据对应的所述组装数据。

8.如权利要求6所述的装置，其特征在于，所述基因预测单元包括：

相似度计算单元，用于对所述所有预测基因进行组合，以得到对应的预测基因集合，计算所述预测基因集合中每对预测基因的相似度；以及

字典生成单元，用于将所述预测基因集合中所述相似度超过预设相似阈值的每对预测基因进行合并，将所述合并后的所述预测基因集合设置为所述基因字典。

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。