CN106682454B - 一种宏基因组数据分类方法和装置 - Google Patents

一种宏基因组数据分类方法和装置 Download PDF

Info

Publication number
CN106682454B
CN106682454B CN201611255130.5A CN201611255130A CN106682454B CN 106682454 B CN106682454 B CN 106682454B CN 201611255130 A CN201611255130 A CN 201611255130A CN 106682454 B CN106682454 B CN 106682454B
Authority
CN
China
Prior art keywords
cluster
classification
long
centralization
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611255130.5A
Other languages
English (en)
Other versions
CN106682454A (zh
Inventor
郭宁
魏彦杰
滕彦宁
葛健秋
张慧玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201611255130.5A priority Critical patent/CN106682454B/zh
Publication of CN106682454A publication Critical patent/CN106682454A/zh
Application granted granted Critical
Publication of CN106682454B publication Critical patent/CN106682454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于基因数据处理领域,提供了一种宏基因组数据分类方法和装置,以较小的时间开销提高基因组的分类精度。所述方法包括:计算待测序序列的特征向量;对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;获取所述簇G1至GM中每个簇的中心集合Ki;通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。与现有技术相比,本发明提供的技术方案既降低了分类所用的时间开销即提高了运算速度,又显著提高了对测序序列所属基因组类别的分类精度。

Description

一种宏基因组数据分类方法和装置
技术领域
本发明属于基因数据处理领域,尤其涉及一种宏基因组数据分类方法和装置。
背景技术
基于DNA的宏基因组学理论上覆盖了环境样品中的全部微生物,因此可以更加全面真实地反映微生物群落组成,同时大大拓展了筛选新的基因或生物活性物质的来源。根据所用策略不同,宏基因组学研究可分为序列驱动的(sequence-driven)和功能驱动的(function-driven),其中,序列驱动是指通过测序分析微生物群落的结构和功能,功能驱动是指基于构建宏基因组文库筛选新基因或新物质的宏基因组学研究。
宏基因组研究的目标是研究微生物群里的结构组成,例如,对海洋样本的测序科研揭示起环境的多样性,同样,对人类样本的研究可以人类微生物和人类健康之间的关系。一旦一个宏基因组的样本被测序,第一项任务就是要找到存在其中的各种微生物物种。基于比对和序列组成,将宏基因组的读长(read)归类到已有的生物物种,现在有许多工具可以用。
基于序列结构组成的宏基因组分类方法,是利用序列本身的构成特征进行分类的方法。普遍的过程是用统计学的方法对样本数据进行抽样,利用筛选出来的特征表达,将序列数据抽象为生物意义上的特征向量,然后将这些特征向量组成特征矩阵,选择合适的分类器模型,对生物序列进行分类分析。Karlin研究了多种微生物的基因组序列,发现同一物种的基因序列的碱基构成具有相似性(例如GC的含量),而不同物种的碱基使用偏向性差异很大。基于这一理论基础,Teelin等人开发了TERTRA工具,Chan等人开发了基于自组织生长算法的工具。在特征的使用方面,微生物的物种丰度、基因功能、代谢通路、系统发育关系等可作为该群落或样本的特征用来进行样本分类。David等人使用微生物的全基因组序列的表型特点;G、C含量、基因组大小、微生物能量来源、生存湿度W及耗氧量等作为样本特征,利用R-SVM分类器对宏基因组序列进行了分类。
常用的分类器有朴素贝叶斯分类模型、期望最大化模型、最大似然估计模型、马尔可夫模型等。目前,一种宏基因组的分类器是监督分类,起使用结构组成的相关的序列特征,应用在已知类别标签的序列中,提取特征信息,输入分类器,训练分类模型,最后对未知标签的序列进行分类。CARMA就是一种基于监督的宏基因组分类工具,它根据隐马尔科夫模型,对长度80bps(Base pairs)的较短序列的分类效果很好。TACOA用了基于核函数的kNN算法能够对读长大于800bps的序列进行预测,该软件可以保持参考基因组数据库的实时更新,并且可以使用IMMs(Interpolated Markov Models)来建模,对长度大于100bps的序列的分类准确度很高。NBC将朴素贝叶斯分类算法应用到宏基因组分类上,而且实现了网络在线服务,使得宏基因组分类的结果可以得到方便快捷的在网页上展示。张学工等人提出了一种不需要参考序列,使用R-SVM算法的基于监督的宏基因组分类算法,利用特征选择算法筛选出序列结构信息中的有用特征来提高分类准确率。
然而,上述现有的监督分类算法,由于特征提取方法和分类器模型性能的缘故,在针对低分类层次、多物种分类的大规模宏基因组数据分类问题时分类精度比较低,且运行时间开销太大。
发明内容
本发明的目的在于提供一种宏基因组数据分类方法和装置,以较小的时间开销提高基因组的分类精度。
本发明第一方面提供一种宏基因组数据分类方法,所述方法包括:
计算待测序序列的特征向量;
对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取所述簇G1至GM中每个簇的中心集合Ki
通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。
本发明第二方面提供一种宏基因组数据分类装置,所述装置包括:
计算模块,用于计算待测序序列的特征向量;
聚类模块,用于对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取模块,用于获取所述簇G1至GM中每个簇的中心集合Ki
类别判断模块,用于通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。
从上述本发明技术方案可知,通过对待测序序列的特征向量进行聚类得到若干组包含读长的簇,并由此获取所述簇的中心集合,由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比,判断每个簇的基因组类别,因此,与现有技术相比,本发明提供的技术方案既降低了分类所用的时间开销即提高了运算速度,又显著提高了对测序序列所属基因组类别的分类精度。
附图说明
图1是本发明实施例一提供的宏基因组数据分类方法的实现流程示意图;
图2是本发明实施例二提供的宏基因组数据分类装置的结构示意图;
图3是本发明实施例三提供的宏基因组数据分类装置的结构示意图;
图4是本发明实施例四提供的宏基因组数据分类装置的结构示意图;
图5-a是本发明实施例五提供的宏基因组数据分类装置的结构示意图;
图5-b是本发明实施例六提供的宏基因组数据分类装置的结构示意图;
图5-c是本发明实施例七提供的宏基因组数据分类装置的结构示意图;
图6-a是本发明实施例八提供的宏基因组数据分类装置的结构示意图;
图6-b是本发明实施例九提供的宏基因组数据分类装置的结构示意图;
图6-c是本发明实施例十提供的宏基因组数据分类装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种宏基因组数据分类方法,所述方法包括:计算待测序序列的特征向量;对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;获取所述簇G1至GM中每个簇的中心集合Ki;通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别。本发明实施例还提供相应的宏基因组数据分类装置。以下分别进行详细说明。
请参阅附图1,是本发明实施例一提供的宏基因组数据分类方法的实现流程示意图,主要包括以下步骤S101至步骤S104,详细说明如下:
S101,计算待测序序列的特征向量。
作为本发明一个实施例,计算待测序序列的特征向量可通过如下步骤S1011和S1012实现:
S1011,将待测序序列分割成L-k+1个长度为k的k-mer,其中,L为待测序序列的长度。
在基因学领域,k-mer是指一个长度为k的子串,一般是从序列的某一位置开始的k个连续组成碱基。假设测序序列长度为L,在本发明实施例中,可以将待测序序列依次按长度为k=3、4、6截取片段,每个片段就是一个k-mer,如此,一个长度为L的待测序序列总共可分割为L-k+1个长度为k的k-mer。
S1012,统计经步骤S1011分割所得的L-k+1个k-mer中每个k-mer的出现频率,将L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量作为待测序序列的特征向量。
具体地,针对被分割为L-k+1个长度为k的k-mer的待测序序列,统计这些k-mer中不同k-mer的出现频率,然后,对这些k-mer进行编码,分别将A(腺嘌呤)、T(鸟嘌呤)、C(胞嘧啶)、G(胸腺嘧啶)采用0、1、2、3这些数字表示,再进行四进制编码,将每个k-mer的数字表示作为向量的维度索引,该k-mer的出现频率作为向量值,从而组成一个维度为4k的向量,而该向量就是被分割为L-k+1个长度为k的k-mer的待测序序列的特征向量。
需要说明的是,为了降低后续处理时的计算量和/或复杂度,从而减小运行时的时间开销,在本发明实施例中,可以对待测序序列的特征向量进行降维处理,具体可以使用基于互信息选择对待测序序列的特征向量进行降维处理。
S102,对经步骤S101计算所得待测序序列的特征向量进行聚类得到M组包含读长的簇G1至GM,此处,M为不小于1的整数。
具体地,可以使用聚类工具箱vlfeat中的kmeans算法将经步骤S101计算所得待测序序列的特征向量进行聚类,从而得到M组包含读长的簇(即cluster),此处编号为G1、G2、…、Gi…、GM-1、GM
S103,获取簇G1至GM中每个簇的中心集合Ki
经步骤S102聚类所得的簇中,每个簇中有很多读长可能是有重叠的碱基的读长,在本发明实施例中,具体可以是将每个簇里的所有读长构成一个图,而每个读长是图的一个顶点,然后计算图的最大独立集,将这个最大独立集包含的那些读长构成每个簇的中心集合Ki
S104,通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别。
作为本发明一个实施例,通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别可通过如下步骤S1041和S1042实现:
S1041,通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,统计每个簇的中心集合Ki的每一读长的基因组类别。
具体可以将每个簇的中心集合Ki的每一读长与参考基因序列对比,使用工具BLAST,统计出每个簇的中心集合Ki的每一读长的基因组类别。需要说明的是,本发明的技术方案并不是将每个簇的所有读长与参考基因序列对比,而是只选择每个簇的中心集合Ki的每一读长与参考基因序列对比,如此,减小了每个簇的类别的搜索范围,减小了对比量,从而减小了时间上的开销。
S1042,若中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将读长Ri的基因组类别Ci确认为读长Ri所属簇的基因组类别。
在将每个簇的中心集合Ki的每一读长与参考基因序列对比过程中,统计的结果可能是同一读长却属于不同的基因组类别,此时,可以以该读长的基因组类别的出现频率来确定其基因组类别。例如,假设预设阈值是70%,若对比和统计的结果显示读长Ri的基因组类别属于C’i的出现频率是30%,属于C”i的出现频率是43%,属于Ci的出现频率是75%,则将读长Ri的基因组类别确定为Ci,并且将读长Ri的基因组类别Ci确认为读长Ri所属中心集合Ki的基因组类别或所属簇的基因组类别。
为了将经步骤S104错分或误分的序列剔除,提高宏基因组数据分类整体的分类准确率,在本发明实施例中,可在步骤S104后,进一步采用多核学习训练分类器对所述已确认基因组类别的簇再次进行分类。具体可以是从已确认基因组类别的簇的中心集合Ki中随机选取一定比例,例如60%的读长作为训练集,用多核学习工具shogun训练分类模型,将余下比例,例如40%的读长作为测试集,采用多核学习训练分类器对其进行分类,滤除每个中心集合Ki中由于上一步聚类错误判别的读长。
从上述附图1示例的宏基因组数据分类方法可知,通过对待测序序列的特征向量进行聚类得到若干组包含读长的簇,并由此获取所述簇的中心集合,由于只是将所述每个簇的中心集合的每一读长与参考基因序列对比,判断每个簇的基因组类别,因此,与现有技术相比,本发明提供的技术方案既降低了分类所用的时间开销即提高了运算速度,又显著提高了对测序序列所属基因组类别的分类精度。
请参阅附图2,是本发明实施例二提供的宏基因组数据分类装置的结构示意图。为了便于说明,附图2仅示出了与本发明实施例相关的部分。附图2示例的宏基因组数据分类装置可以是附图1示例的宏基因组数据分类方法的执行主体。附图2示例的宏基因组数据分类装置主要包括计算模块201、聚类模块202、获取模块203和类别判断模块204,其中:
计算模块201,用于计算待测序序列的特征向量。
聚类模块202,用于对计算模块201计算所得待测序序列的特征向量进行聚类得到M组包含读长的簇G1至GM,其中,M为不小于1的整数。
具体地,聚类模块202可以使用聚类工具箱vlfeat中的kmeans算法将经计算模块201计算所得待测序序列的特征向量进行聚类,从而得到M组包含读长的簇(即cluster),此处编号为G1、G2、…、Gi…、GM-1、GM
获取模块203,用于获取簇G1至GM中每个簇的中心集合Ki
经聚类模块202聚类所得的簇中,每个簇中有很多读长可能是有重叠的碱基的读长,在本发明实施例中,获取模块203具体可以将每个簇里的所有读长构成一个图,而每个读长是图的一个顶点,然后计算图的最大独立集,将这个最大独立集包含的那些读长构成每个簇的中心集合Ki
类别判断模块204,用于通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别。
需要说明的是,以上附图2示例的宏基因组数据分类装置的实施方式中,各功能模块的划分仅是举例说明,实际应用中可以根据需要,例如相应硬件的配置要求或者软件的实现的便利考虑,而将上述功能分配由不同的功能模块完成,即将所述宏基因组数据分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。而且,实际应用中,本实施例中的相应的功能模块可以是由相应的硬件实现,也可以由相应的硬件执行相应的软件完成,例如,前述的聚类模块,可以是具有执行前述对计算模块(或计算器)计算所得待测序序列的特征向量进行聚类得到M组包含读长的簇G1至GM的硬件,例如聚类器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备;再如前述的类别判断模块,可以是执行通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别的硬件,例如类别判断器,也可以是能够执行相应计算机程序从而完成前述功能的一般处理器或者其他硬件设备(本说明书提供的各个实施例都可应用上述描述原则)。
附图2示例的计算模块201可以包括分割单元301和统计单元302,如附图3所示本发明实施例三提供的宏基因组数据分类装置,其中:
分割单元301,用于将待测序序列分割成L-k+1个长度为k的k-mer,其中,L为待测序序列的长度。
在基因学领域,k-mer是指一个长度为k的子串,一般是从序列的某一位置开始的k个连续组成碱基。假设测序序列长度为L,在本发明实施例中,分割单元301可以将待测序序列依次按长度为k=3、4、6截取片段,每个片段就是一个k-mer,如此,一个长度为L的待测序序列总共可分割为L-k+1个长度为k的k-mer。
统计单元302,用于统计L-k+1个k-mer中每个k-mer的出现频率,将L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量确认为待测序序列的特征向量。
具体地,针对被分割为L-k+1个长度为k的k-mer的待测序序列,统计单元302统计这些k-mer中不同k-mer的出现频率,然后,对这些k-mer进行编码,分别将A(腺嘌呤)、T(鸟嘌呤)、C(胞嘧啶)、G(胸腺嘧啶)采用0、1、2、3这些数字表示,再进行四进制编码,将每个k-mer的数字表示作为向量的维度索引,该k-mer的出现频率作为向量值,从而组成一个维度为4k的向量,而该向量就是被分割为L-k+1个长度为k的k-mer的待测序序列的特征向量。
附图2示例的类别判断模块204可以包括对比单元401和确定单元402,如附图4所示本发明实施例四提供的宏基因组数据分类装置,其中:
对比单元401,用于通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,统计每个簇的中心集合Ki的每一读长的基因组类别。
具体地,对比单元401可以将每个簇的中心集合Ki的每一读长与参考基因序列对比,使用工具BLAST,统计出每个簇的中心集合Ki的每一读长的基因组类别。需要说明的是,本发明的技术方案并不是将每个簇的所有读长与参考基因序列对比,而是只选择每个簇的中心集合Ki的每一读长与参考基因序列对比,如此,减小了每个簇的类别的搜索范围,减小了对比量,从而减小了时间上的开销。
确定单元402,用于若中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将读长Ri的基因组类别Ci作为读长Ri所属簇的基因组类别。
在对比单元401将每个簇的中心集合Ki的每一读长与参考基因序列对比过程中,统计的结果可能是同一读长却属于不同的基因组类别,此时,可以以该读长的基因组类别的出现频率来确定其基因组类别。例如,假设预设阈值是70%,若对比和统计的结果显示读长Ri的基因组类别属于C’i的出现频率是30%,属于C”i的出现频率是43%,属于Ci的出现频率是75%,则确定单元402将读长Ri的基因组类别确定为Ci,并且将读长Ri的基因组类别Ci确认为读长Ri所属中心集合Ki的基因组类别或所属簇的基因组类别。
附图2至4任一示例的宏基因组数据分类装置还可以包括降维模块501,如附图5-a至5-c所示本发明实施例五至七提供的宏基因组数据分类装置。降维模块501用于计算模块201计算待测序序列的特征向量之后,聚类模块202对特征向量进行聚类得到M组包含读长的簇G1至GM之前,对待测序序列的特征向量进行降维处理,具体可以使用基于互信息选择对待测序序列的特征向量进行降维处理。经过降维模块501的降维处理后,可以降低后续处理时的计算量和/或复杂度,从而减小运行时的时间开销。
附图2至4任一示例的宏基因组数据分类装置还可以包括再分类模块601,如附图6-a至6-c所示本发明实施例八至十提供的宏基因组数据分类装置。再分类模块601用于类别判断模块204通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别之后,采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。
为了将经类别判断模块204错分或误分的序列剔除,提高宏基因组数据分类整体的分类准确率,在本发明实施例中,可在类别判断模块204通过将每个簇的中心集合Ki的每一读长与参考基因序列对比,判断每个簇的基因组类别后,再分类模块601进一步采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。具体可以是再分类模块601从已确认基因组类别的簇的中心集合Ki中随机选取一定比例,例如60%的读长作为训练集,用多核学习工具shogun训练分类模型,将余下比例,例如40%的读长作为测试集,采用多核学习训练分类器对其进行分类,滤除每个中心集合Ki中由于上一步聚类错误判别的读长。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的宏基因组数据分类方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种宏基因组数据分类方法,其特征在于,所述方法包括:
计算待测序序列的特征向量;
对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取所述簇G1至GM中每个簇的中心集合Ki
通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,统计所述每个簇的中心集合Ki的每一读长的基因组类别;
若所述中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将所述读长Ri的基因组类别Ci确认为所述读长Ri所属簇的基因组类别。
2.根据权利要求1所述的方法,其特征在于,所述计算待测序序列的特征向量包括:
将所述待测序序列分割成L-k+1个长度为k的k-mer,所述L为所述待测序序列的长度;
统计所述L-k+1个k-mer中每个k-mer的出现频率,将所述L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量作为所述待测序序列的特征向量。
3.根据权利要求1或2所述的方法,其特征在于,所述计算待测序序列的特征向量之后,对所述特征向量进行聚类得到M组包含读长的簇G1至GM之前,所述方法还包括:
对所述待测序序列的特征向量进行降维处理。
4.根据权利要求1或2所述的方法,其特征在于,所述通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别之后,所述方法还包括:
采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。
5.一种宏基因组数据分类装置,其特征在于,所述装置包括:
计算模块,用于计算待测序序列的特征向量;
聚类模块,用于对所述特征向量进行聚类得到M组包含读长的簇G1至GM,所述M为不小于1的整数;
获取模块,用于获取所述簇G1至GM中每个簇的中心集合Ki
类别判断模块,用于通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,统计所述每个簇的中心集合Ki的每一读长的基因组类别;若所述中心集合Ki中任一读长Ri的基因组类别Ci的出现频率不小于预设阈值,则将所述读长Ri的基因组类别Ci确认为所述读长Ri所属簇的基因组类别。
6.根据权利要求5所述的装置,其特征在于,所述计算模块包括:
分割单元,用于将所述待测序序列分割成L-k+1个长度为k的k-mer,所述L为所述待测序序列的长度;
统计单元,用于统计所述L-k+1个k-mer中每个k-mer的出现频率,将所述L-k+1个k-mer中k-mer的出现频率组成维度为4k的向量确认为所述待测序序列的特征向量。
7.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
降维模块,用于所述计算模块计算待测序序列的特征向量之后,所述聚类模块对所述特征向量进行聚类得到M组包含读长的簇G1至GM之前,对所述待测序序列的特征向量进行降维处理。
8.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
再分类模块,用于所述类别判断模块通过将所述每个簇的中心集合Ki的每一读长与参考基因序列对比,判断所述每个簇的基因组类别之后,采用多核学习训练分类器对已确认基因组类别的簇再次进行分类。
CN201611255130.5A 2016-12-29 2016-12-29 一种宏基因组数据分类方法和装置 Active CN106682454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611255130.5A CN106682454B (zh) 2016-12-29 2016-12-29 一种宏基因组数据分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611255130.5A CN106682454B (zh) 2016-12-29 2016-12-29 一种宏基因组数据分类方法和装置

Publications (2)

Publication Number Publication Date
CN106682454A CN106682454A (zh) 2017-05-17
CN106682454B true CN106682454B (zh) 2019-05-07

Family

ID=58872348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611255130.5A Active CN106682454B (zh) 2016-12-29 2016-12-29 一种宏基因组数据分类方法和装置

Country Status (1)

Country Link
CN (1) CN106682454B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292124A (zh) * 2017-06-25 2017-10-24 广东国盛医学科技有限公司 基于分层主元深度学习的宏基因组操作分类单元识别方法
CN107832584B (zh) * 2017-09-18 2021-06-22 中国科学院深圳先进技术研究院 宏基因组的基因分析方法、装置、设备及存储介质
CN107577923B (zh) * 2017-09-26 2018-12-04 广东美格基因科技有限公司 一种高度相似微生物的鉴定和分类方法
CN107871060B (zh) * 2017-11-11 2020-10-09 深圳深知生物科技有限公司 基于dna标记的犬类品系鉴定方法
CN108470113B (zh) * 2018-03-14 2019-05-17 四川大学 多物种未出现k-mer子序列计算和特征分析方法及系统
CN112920965B (zh) * 2020-12-29 2022-05-27 中国农业科学院烟草研究所 基于微生物组学技术筛选青枯病生防菌剂的方法及所得青枯病生防菌剂
CN113205856B (zh) * 2021-06-22 2022-07-12 南开大学 一种微生物宏基因组分箱方法及系统
CN115910216B (zh) * 2022-12-01 2023-07-25 杭州瑞普基因科技有限公司 一种基于机器学习识别基因组序列分类错误的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2518656A1 (en) * 2011-04-30 2012-10-31 Tata Consultancy Services Limited Taxonomic classification system
US20130345095A1 (en) * 2011-03-02 2013-12-26 Bgi Tech Solutions Co., Ltd. Method and device for assembling genome sequence
CN104541276A (zh) * 2012-08-07 2015-04-22 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类
CN104750765A (zh) * 2013-12-30 2015-07-01 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130345095A1 (en) * 2011-03-02 2013-12-26 Bgi Tech Solutions Co., Ltd. Method and device for assembling genome sequence
EP2518656A1 (en) * 2011-04-30 2012-10-31 Tata Consultancy Services Limited Taxonomic classification system
CN104541276A (zh) * 2012-08-07 2015-04-22 皇家飞利浦有限公司 使用基于树的空间数据结构对基因数据集的群体分类
CN104750765A (zh) * 2013-12-30 2015-07-01 中国科学院天津工业生物技术研究所 一种基因组测序数据序列组装方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征向量的宏基因组测序序列分类算法研究;陈波;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150915(第09期);第1章,第3章和第4章 *
宏基因组样本数据的分析比较与分类;程福东等;《宏基因组样本数据的分析比较与分类》;20160531(第5期);第1-8页 *

Also Published As

Publication number Publication date
CN106682454A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106682454B (zh) 一种宏基因组数据分类方法和装置
Duò et al. A systematic performance evaluation of clustering methods for single-cell RNA-seq data
CN111798921A (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN105095494B (zh) 一种对分类数据集进行测试的方法
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
Tian et al. A data-driven clustering recommendation method for single-cell RNA-sequencing data
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN108171012A (zh) 一种基因分类方法与装置
KR20230004566A (ko) 머신 러닝 모델을 사용한 로컬 조상 추론
He et al. Cloudpred: Predicting patient phenotypes from single-cell rna-seq
Jin et al. Imputing dropouts for single-cell RNA sequencing based on multi-objective optimization
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
CN109359694B (zh) 一种基于混合协同表示的分类器的图像分类方法和装置
Cudic et al. Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs
KR101128425B1 (ko) hERG 채널의 저해 예측에 관한 정보를 제공하는 방법
Cai et al. Application and research progress of machine learning in Bioinformatics
CN114819056B (zh) 一种基于域对抗和变分推断的单细胞数据整合方法
Ma et al. Evolutionary clustering algorithm based on mixed measures
Ramkumar et al. Research Article Healthcare Biclustering-Based Prediction on Gene Expression Dataset
CN115017125B (zh) 改进knn方法的数据处理方法和装置
CN116541252B (zh) 一种机房故障日志数据处理方法及装置
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치
Jenifer et al. An adaptive classification model for microarray analysis using big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant