CN107832584A - 宏基因组的基因分析方法、装置、设备及存储介质 - Google Patents

宏基因组的基因分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107832584A
CN107832584A CN201710838808.0A CN201710838808A CN107832584A CN 107832584 A CN107832584 A CN 107832584A CN 201710838808 A CN201710838808 A CN 201710838808A CN 107832584 A CN107832584 A CN 107832584A
Authority
CN
China
Prior art keywords
gene
group
data
sequencing
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710838808.0A
Other languages
English (en)
Other versions
CN107832584B (zh
Inventor
郭宁
魏彦杰
张慧玲
葛健秋
滕彦宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201710838808.0A priority Critical patent/CN107832584B/zh
Publication of CN107832584A publication Critical patent/CN107832584A/zh
Application granted granted Critical
Publication of CN107832584B publication Critical patent/CN107832584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用计算机科学与生物信息学交叉的技术领域,提供了一种宏基因组的基因分析方法、装置、设备以及存储介质,该方法包括:对接收的每组测序数据进行筛选和组装,生成测序数据对应的组装数据,通过对组装数据进行基因预测,生成每组测序数据的预测基因,根据预测基因构建基因字典,根据基因字典中每条基因的丰度对基因字典进行聚类,根据聚类后的基因簇对筛选后的每组测序数据进行分类和组装,生成并输出宏基因组的基因,从而在没有现有生物基因作为参考基因组的情形下,实现宏基因组的基因分析,避免了参考基因组带来的局限性,并有效地提高了宏基因组基因分析的准确度。

Description

宏基因组的基因分析方法、装置、设备及存储介质
技术领域
本发明属于计算机科学与生物信息学交叉的技术领域,尤其涉及一种宏基因组的基因分析方法、装置、设备及存储介质。
背景技术
宏基因组学是一种不需要进行微生物培养的微生物研究方法,可以直接对取自环境中的微生物样品进行分析和研究,该技术的出现使得人们对占微生物99%的不可培养微生物的研究成为现实。宏基因组技术首先需要对环境样品进行基因提取和测序,再通过计算机软件对测序结果进行分析。由于宏基因组中提取的基因为多个物种(包括未知物种)的多个基因的混合,在宏基因组数据中找出每个物种的基因组序列是一件非常复杂的工作。
目前,宏基因组基因的分析方法主要依赖于宏基因组中的基因与参考基因组的比对,参考基因组中仅包含少量已知物种的基因以及一些基因片段,并不完整,而且来自同一物种不同分离物的微生物基因组在比较时,通常也会显示出较大的差异性。可见,依赖于占微生物系统中一小部分已知微生物基因的参考基因组,不但给宏基因组基因分析带来一定的局限性,而且无法描述微生物中的未知物种。
发明内容
本发明的目的在于提供一种宏基因组的基因分析方法、装置、设备及存储介质,旨在解决现有宏基因组的基因分析需要依赖于参考基因组,无法对宏基因组中未知生物基因进行分析,导致宏基因组基因分析准确度不高的问题。
一方面,本发明提供了一种宏基因组的基因分析方法,所述方法包括下述步骤:
接收用户输入的宏基因组的测序数据,对所述每组测序数据进行筛选和组装,生成所述每组测序数据对应的组装数据;
通过对所述每组组装数据进行基因预测,生成所述每组测序数据的预测基因,根据所述预测基因构建所述宏基因组的基因字典;
统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度,根据所述每条基因的丰度对所述基因字典中的基因进行聚类,获得聚类后的基因簇;
根据所述基因簇对所述筛选后的每组测序数据进行分类和组装,生成并输出所述宏基因组的基因。
另一方面,本发明提供了一种宏基因组的基因分析装置,所述装置包括:
测序组装单元,用于接收用户输入的宏基因组的测序数据,对所述每组测序数据进行筛选和组装,生成所述每组测序数据对应的组装数据;
基因预测单元,用于通过对所述每组组装数据进行基因预测,生成所述每组预测数据的预测基因,根据所述预测基因构建所述宏基因组的基因字典;
基因聚类单元,用于统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度,根据所述每条基因的丰度对所述基因字典中的基因进行聚类,获得聚类后的基因簇;以及
基因输出单元,用于根据所述基因簇对所述筛选后的每组测序数据进行分类和组装,生成并输出所述宏基因组的基因。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述宏基因组的基因分析方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述宏基因组的基因分析方法所述的步骤。
本发明对宏基因组的每组测序数据分别进行筛选、组装及基因预测,生成每组测试数据的预测基因,有效地提高了宏基因组基因组装的精度和基因预测的准确度,根据这些预测基因构建宏基因组的基因字典,根据基因字典中基因聚类后的基因簇对筛选后的每组测序数据进行分类和组装,进一步提高了宏基因组基因组装的精度,生成并输出宏基因组的基因,从而在无需依赖参考基因组的情形下实现了宏基因组的基因分析,有效地提高了宏基因组的基因分析的准确度。
附图说明
图1是本发明实施例一提供的宏基因组的基因分析方法的实现流程图;
图2是本发明实施例二提供的宏基因组的基因分析装置的结构示意图;
图3是本发明实施例二提供的宏基因组的基因分析装置的优选结构示意图;以及
图4是本发明实施例三提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的宏基因组的基因分析方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收用户输入的宏基因组的测序数据,对每组测序数据进行筛选和组装,生成每组测序数据对应的组装数据。
在本发明实施例中,对环境样本进行DNA提取和测序可得到宏基因组的测序数据,在每组测序数据中包含多条读长数据(reads),测序数据中读长数据的长度都比较短,需对每组测序数据中的读长数据进行组装,得到较长的组装序列,由这些组装序列构成每组测序数据对应的组装数据。作为示例地,可通过预设的SOAPdenovo组装软件对测序数据中的读长数据进行组装,在组装过程中预先设置好SOAPdenovo组装软件中最大读长数据的长度、文库平均插入长度等参数,通过该组装软件进行测序数据中读长数据的组装可有效减少读长数据组装时的内存消耗,并增加组装后得到的基因序列的覆盖度和长度。
优选地,在对每组测序数据进行组装之前,对每组测序数据进行测序质量的控制,即根据每组测序数据中读长数据的测序质量和预设的质量阈值,将每组测序数据中测序质量低于质量阈值的读长数据过滤掉,以提高测序数据组装的精度。作为实例地,可通过软件包fastx_toolkit中的质量过滤工具fastq_quality_filter对每组测序数据进行质量过滤。
在步骤S102中,通过对每组组装数据进行基因预测,生成每组测序数据的预测基因,根据预测基因构建宏基因组的基因字典。
在本发明实施例中,可通过预设的基因预测软件(例如MetaGeneMark),分别对每组组装数据中的组装序列进行基因预测,生成每组测序数据的预测基因,对所有预测基因进行组合,以得到对应的预测基因集合,通过预设的相似度对比工具(例如BLAT)对预测基因集合中任意两条预测基因进行相似度的统计,将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并,使得预测基因集合中剩余的预测基因都是相似度不高的基因,将此时的预测基因集合设置为基因字典,从而降低基因字典中基因信息的重复率,有效提高基因字典的代表性。
在步骤S103中,统计基因字典中每条基因相对于筛选后的所有测序数据的丰度,根据每条基因的丰度对基因字典中的基因进行聚类,获得聚类后的基因簇。
在本发明实施例中,将筛选后的所有测序数据中的读长数据与基因字典中的每条基因进行映射,以统计所有测序数据的读长数据在基因字典的每条基因上的分布,进而得到基因字典中每条基因在所有测序数据中的丰度(即覆盖率),将每条基因的丰度设置为每条基因的聚类特征,通过预设的聚类算法对基因字典中的基因进行聚类,得到聚类后的基因簇。优选地,采用k-means无监督聚类算法对基因字典中的基因进行聚类,以有效地提高基因字典中基因分类的准确度。
在步骤S104中,根据基因簇对筛选后的每组测序数据进行分类和组装,生成并输出宏基因组的基因。
在本发明实施例中,根据基因簇对筛选后的每组测序数据中的读长数据进行分类,将分类到每个基因簇中的读长数据进行组装,将由每个基因簇中的读长数据组装得到的组装数据设置为宏基因组的基因并输出,从而完成宏基因组的基因分析。
在本发明实施例中,对宏基因组的每组测序数据分别进行筛选、组装、基因预测,有效提高了基因组装的精度和基因预测的准确度,将基因预测得到的预测基因进行相似度的筛选,生成基因字典,根据基因字典聚类后的基因簇对筛选后的每组测序数据分类和组装,进一步有效地提高了基因组装的精度,从而在不依赖参考基因组的情形下实现宏基因组的基因分析,避免了参考基因组带来的局限性,并有效地提高了宏基因组基因分析的准确度。
实施例二:
图2示出了本发明实施例二提供的宏基因组的基因分析装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
测序组装单元21,用于接收用户输入的宏基因组的测序数据,对每组测序数据进行筛选和组装,生成每组测序数据对应的组装数据。
在本发明实施例中,在每组测序数据中包含多条读长数据(reads),测序数据中读长数据的长度都比较短,需对每组测序数据中的读长数据进行组装,得到较长的组装序列,由这些组装序列构成每组测序数据对应的组装数据。作为示例地,可通过预设的SOAPdenovo组装软件对测序数据中的读长数据进行组装,在组装过程中预先设置好SOAPdenovo组装软件中最大读长数据的长度、文库平均插入长度等参数,通过该组装软件进行测序数据中读长数据的组装可有效减少读长数据组装时的内存消耗,并增加了组装后得到的基因序列的覆盖度和长度。
优选地,在对每组测序数据进行组装之前,对每组测序数据进行测序质量的控制,即根据每组测序数据中读长数据的测序质量和预设的质量阈值,将对每组测序数据中测序质量低于质量阈值的读长数据过滤掉,以提高测序数据组装的精度。作为实例地,可通过软件包fastx_toolkit中的质量过滤工具fastq_quality_filter对每组测序数据进行质量过滤。
基因预测单元22,用于通过对每组组装数据进行基因预测,生成每组预测数据的预测基因,根据预测基因构建宏基因组的基因字典。
在本发明实施例中,可通过预设的基因预测软件(例如MetaGeneMark),分别对每组组装数据中的组装序列进行基因预测,生成每组测序数据的预测基因,对所有预测基因进行组合,以得到对应的预测基因集合,通过预设的相似度对比工具(例如BLAT)对预测基因集合中任意两条预测基因进行相似度的统计,将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并,使得在预测基因集合中剩余的预测基因都是相似度不高的基因,将此时的预测基因集合设置为基因字典,从而降低基因字典中基因信息的重复率,有效提高基因字典的代表性。
基因聚类单元23,用于统计基因字典中每条基因相对于筛选后的所有测序数据的丰度,根据每条基因的丰度对基因字典中的基因进行聚类,获得聚类后的基因簇。
在本发明实施例中,将筛选后的所有每组测序数据中的读长数据与基因字典中的每条基因进行映射,以统计所有测序数据的读长数据在基因字典的每条基因上的分布,进而得到基因字典中每条基因在所有测序数据中的丰度,将每条基因的丰度设置为每条基因的聚类特征,通过预设的聚类算法对基因字典中的基因进行聚类,得到聚类后的基因簇。优选地,采用k-means无监督聚类算法对基因字典中的基因进行聚类,以有效地提高基因字典中基因分类的准确度。
基因输出单元24,用于根据基因簇对筛选后的每组测序数据进行分类和组装,生成并输出宏基因组的基因。
在本发明实施例中,根据基因簇对筛选后的每组测序数据中的读长数据进行分类,对每个基因簇中的读长数据进行组装,将由每个基因簇中的读长数据组装得到的组装数据对应地设置为每组测序数据的基因并输出,从而完成宏基因组的基因分析。
优选地,测序组装单元21包括数据过滤单元311和数据组装单元312,其中:
数据过滤单元311,用于根据预设的质量阈值和每组测序数据中每个读长数据的测序质量,对每组测序数据进行过滤;以及
数据组装单元312,用于对过滤后的每组测序数据中的读长数据进行组装,生成过滤后的每组测序数据对应的组装数据。
优选地,基因预测单元22包括相似度计算单元321和字典生成单元322,其中:
相似度计算单元321,用于对所有预测基因进行组合,以得到对应的预测基因集合,计算预测基因集合中每对预测基因的相似度;以及
字典生成单元322,用于将预测基因集合中相似度超过预设相似阈值的每对预测基因进行合并,将合并后的预测基因集合设置为基因字典。
在本发明实施例中,对宏基因组的每组测序数据分别进行筛选、组装、基因预测,有效提高了基因组装的精度和基因预测的准确度,将基因预测得到的预测基因进行相似度的筛选,生成基因字典,根据基因字典聚类后的基因簇对筛选后的每组测序数据分类和组装,进一步有效地提高了基因组装的精度,从而在不依赖参考基因组的情形下实现宏基因组的基因分析,避免了参考基因组带来的局限性,并有效地提高了宏基因组基因分析的准确度。
在本发明实施例中,宏基因组的基因分析装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图4示出了本发明实施例三提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器40执行计算机程序42时实现上述装置实施例中各单元的功能,例如图2所示单元21至24的功能。
在本发明实施例中,对宏基因组的每组测序数据分别进行筛选、组装及基因预测,生成每组测试数据的预测基因,有效地提高了宏基因组基因组装的精度和基因预测的准确度,根据这些预测基因构建宏基因组的基因字典,根据基因字典中基因聚类后的基因簇对筛选后的每组测序数据进行分类和组装,进一步提高了宏基因组基因组装的精度,生成并输出宏基因组的基因,从而在无需依赖参考基因组的情形下实现了宏基因组的基因分析,有效地提高了宏基因组的基因分析的准确度。
实施例四:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图2所示单元21至24的功能。
在本发明实施例中,对宏基因组的每组测序数据分别进行筛选、组装及基因预测,生成每组测试数据的预测基因,有效地提高了宏基因组基因组装的精度和基因预测的准确度,根据这些预测基因构建宏基因组的基因字典,根据基因字典中基因聚类后的基因簇对筛选后的每组测序数据进行分类和组装,进一步提高了宏基因组基因组装的精度,生成并输出宏基因组的基因,从而在无需依赖参考基因组的情形下实现了宏基因组的基因分析,有效地提高了宏基因组的基因分析的准确度。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种宏基因组的基因分析方法,其特征在于,所述方法包括下述步骤:
接收用户输入的宏基因组的测序数据,对所述每组测序数据进行筛选和组装,生成所述每组测序数据对应的组装数据;
通过对所述每组组装数据进行基因预测,生成所述每组测序数据的预测基因,根据所述预测基因构建所述宏基因组的基因字典;
统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度,根据所述每条基因的丰度对所述基因字典中的基因进行聚类,获得聚类后的基因簇;
根据所述基因簇对所述筛选后的每组测序数据进行分类和组装,生成并输出所述宏基因组的基因。
2.如权利要求1所述的方法,其特征在于,对所述每组测序数据进行筛选和组装,生成所述每组测序数据对应的组装数据的步骤,包括:
根据预设的质量阈值和所述每组测序数据中每个读长数据的测序质量,对所述每组测序数据进行过滤;
对所述过滤后的每组测序数据中的读长数据进行组装,生成所述过滤后的每组测序数据对应的所述组装数据。
3.如权利要求1所述的方法,其特征在于,根据所述预测基因构建所述宏基因组的基因字典的步骤,包括:
对所述所有预测基因进行组合,以得到对应的预测基因集合,计算所述预测基因集合中每对预测基因的相似度;
将所述预测基因集合中所述相似度超过预设相似阈值的每对预测基因进行合并,将所述合并后的所述预测基因集合设置为所述基因字典。
4.如权利要求1所述的方法,其特征在于,统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度,根据所述每条基因的丰度对所述基因字典中的基因进行聚类,获得聚类后的基因簇的步骤,包括:
根据所述筛选后的所有测序数据的读长数据在所述基因字典中每条基因上的分布,统计所述基因字典中每条基因的丰度;
将所述基因字典中每条基因的丰度设置为所述基因字典中每条基因的聚类特征,根据所述基因字典中每条基因的聚类特征,对所述基因字典中的基因进行聚类,生成所述基因簇。
5.如权利要求1所述的方法,其特征在于,根据所述基因簇对所述筛选后的每组测序数据进行分类和组装,生成并输出所述宏基因组的基因的步骤,包括:
根据所述基因簇对所述筛选后的每组测序数据中的读长数据进行分类,分别将属于所述每个基因簇的所述读长数据进行组装;
将由所述读长数据组装得到的组装数据设置为所述宏基因组的基因并输出。
6.一种宏基因组的基因分析装置,其特征在于,所述装置包括:
测序组装单元,用于接收用户输入的宏基因组的测序数据,对所述每组测序数据进行筛选和组装,生成所述每组测序数据对应的组装数据;
基因预测单元,用于通过对所述每组组装数据进行基因预测,生成所述每组预测数据的预测基因,根据所述预测基因构建所述宏基因组的基因字典;
基因聚类单元,用于统计所述基因字典中每条基因相对于所述筛选后的所有测序数据的丰度,根据所述每条基因的丰度对所述基因字典中的基因进行聚类,获得聚类后的基因簇;以及
基因输出单元,用于根据所述基因簇对所述筛选后的每组测序数据进行分类和组装,生成并输出所述宏基因组的基因。
7.如权利要求6所述的装置,其特征在于,所述测序组装单元包括:
数据过滤单元,用于根据预设的质量阈值和所述每组测序数据中每个读长数据的测序质量,对所述每组测序数据进行过滤;以及
数据组装单元,用于对所述过滤后的每组测序数据中的读长数据进行组装,生成所述过滤后的每组测序数据对应的所述组装数据。
8.如权利要求6所述的装置,其特征在于,所述基因预测单元包括:
相似度计算单元,用于对所述所有预测基因进行组合,以得到对应的预测基因集合,计算所述预测基因集合中每对预测基因的相似度;以及
字典生成单元,用于将所述预测基因集合中所述相似度超过预设相似阈值的每对预测基因进行合并,将所述合并后的所述预测基因集合设置为所述基因字典。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201710838808.0A 2017-09-18 2017-09-18 宏基因组的基因分析方法、装置、设备及存储介质 Active CN107832584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710838808.0A CN107832584B (zh) 2017-09-18 2017-09-18 宏基因组的基因分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710838808.0A CN107832584B (zh) 2017-09-18 2017-09-18 宏基因组的基因分析方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107832584A true CN107832584A (zh) 2018-03-23
CN107832584B CN107832584B (zh) 2021-06-22

Family

ID=61643347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710838808.0A Active CN107832584B (zh) 2017-09-18 2017-09-18 宏基因组的基因分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107832584B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN109741790A (zh) * 2018-11-12 2019-05-10 山东省医学科学院基础医学研究所 微生物二代测序数据的宏基因组分析方法及系统
CN111304307A (zh) * 2020-02-20 2020-06-19 深圳未知君生物科技有限公司 菌群宏基因组基因功能分析方法、装置和存储装置
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104195146A (zh) * 2014-07-15 2014-12-10 浙江大学 肝硬化微生物标志物及应用
CN104546930A (zh) * 2014-09-30 2015-04-29 深圳华大基因科技有限公司 副流感嗜血杆菌在治疗或预防类风湿性关节炎或其相关疾病中的应用
CN104546932A (zh) * 2014-09-30 2015-04-29 深圳华大基因科技有限公司 卵形拟杆菌在治疗或预防类风湿性关节炎或其相关疾病中的应用
CN105132518A (zh) * 2015-09-30 2015-12-09 上海锐翌生物科技有限公司 大肠癌标志物及其应用
CN106682454A (zh) * 2016-12-29 2017-05-17 中国科学院深圳先进技术研究院 一种宏基因组数据分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104195146A (zh) * 2014-07-15 2014-12-10 浙江大学 肝硬化微生物标志物及应用
CN104546930A (zh) * 2014-09-30 2015-04-29 深圳华大基因科技有限公司 副流感嗜血杆菌在治疗或预防类风湿性关节炎或其相关疾病中的应用
CN104546932A (zh) * 2014-09-30 2015-04-29 深圳华大基因科技有限公司 卵形拟杆菌在治疗或预防类风湿性关节炎或其相关疾病中的应用
CN105132518A (zh) * 2015-09-30 2015-12-09 上海锐翌生物科技有限公司 大肠癌标志物及其应用
CN106682454A (zh) * 2016-12-29 2017-05-17 中国科学院深圳先进技术研究院 一种宏基因组数据分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG MINGHUA 等: "Molecular cloning, polymorphism and association of porcine WARS2 gene with litter size", 《BIOTECHNOLOGY & BIOTECHNOLOGICAL EQUIPMENT》 *
魏子艳 等: "环境微生物宏基因组学研究中的生物信息学方法", 《微生物学通报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN109741790A (zh) * 2018-11-12 2019-05-10 山东省医学科学院基础医学研究所 微生物二代测序数据的宏基因组分析方法及系统
CN111304307A (zh) * 2020-02-20 2020-06-19 深圳未知君生物科技有限公司 菌群宏基因组基因功能分析方法、装置和存储装置
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法

Also Published As

Publication number Publication date
CN107832584B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Jaber et al. A deep learning image-based intrinsic molecular subtype classifier of breast tumors reveals tumor heterogeneity that may affect survival
Lytal et al. Normalization methods on single-cell RNA-seq data: an empirical survey
Chauvel et al. Evaluation of integrative clustering methods for the analysis of multi-omics data
Li et al. A statistical simulator scDesign for rational scRNA-seq experimental design
CN107832584A (zh) 宏基因组的基因分析方法、装置、设备及存储介质
Liaw et al. Classification and regression by randomForest
CN106682454B (zh) 一种宏基因组数据分类方法和装置
CN103955629A (zh) 基于模糊k均值的宏基因组片段聚类方法
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
Chen et al. Single-cell transcriptome data clustering via multinomial modeling and adaptive fuzzy k-means algorithm
Delgado-Serrano et al. Mycofier: a new machine learning-based classifier for fungal ITS sequences
WO2012041861A2 (en) Computer-implemented method for analyzing multivariate data
CN111710364A (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
Shujaat et al. Cr-prom: A convolutional neural network-based model for the prediction of rice promoters
Grossmann et al. An improved statistic for detecting over-represented gene ontology annotations in gene sets
Zhu et al. Sc-gpe: a graph partitioning-based cluster ensemble method for single-cell
CN107463801A (zh) 一种Drop‑seq数据质量控制和分析方法
Varshavsky et al. Compact: A comparative package for clustering assessment
CN103348350B (zh) 核酸信息处理装置及其处理方法
Chen et al. Bubble: a fast single-cell RNA-seq imputation using an autoencoder constrained by bulk RNA-seq data
Liu et al. Are dropout imputation methods for scRNA-seq effective for scATAC-seq data?
Arora Classification of human metaspread images using convolutional neural networks
Anyaso-Samuel et al. Metagenomic geolocation prediction using an adaptive ensemble classifier
CN103339632B (zh) 核酸信息处理装置及其处理方法
Yang et al. DeepNoise: signal and noise disentanglement based on classifying fluorescent microscopy images via deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant