CN106599618A - 一种宏基因组重叠群的无监督分类方法 - Google Patents

一种宏基因组重叠群的无监督分类方法 Download PDF

Info

Publication number
CN106599618A
CN106599618A CN201611201966.7A CN201611201966A CN106599618A CN 106599618 A CN106599618 A CN 106599618A CN 201611201966 A CN201611201966 A CN 201611201966A CN 106599618 A CN106599618 A CN 106599618A
Authority
CN
China
Prior art keywords
contig
metagenome
contigs
fuzzy
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611201966.7A
Other languages
English (en)
Other versions
CN106599618B (zh
Inventor
刘云
刘富
侯涛
康冰
王柯
姜守坤
王婧媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201611201966.7A priority Critical patent/CN106599618B/zh
Publication of CN106599618A publication Critical patent/CN106599618A/zh
Application granted granted Critical
Publication of CN106599618B publication Critical patent/CN106599618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种宏基因组重叠群的无监督分类方法,属于生物信息学分析技术领域。本发明的目的是通过对c‑harmonic均值算法进行改进后对宏基因组重叠群进行无监督分类的方法。本发明的步骤是重叠群数据的获取;特征向量的建立;通过考虑各个类的体量构建了代价函数;根据聚类中心计算公式计算聚类中心;利用隶属度矩阵公式更新隶属度矩阵。本发明提出的改进的模糊c‑harmonic均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群的无监督分类中可以提高分类精度,为宏基因组中物种多样性的分析提供更好的基础。

Description

一种宏基因组重叠群的无监督分类方法
技术领域
本发明属于生物信息学分析技术领域。
背景技术
与传统的基因组学研究相比,宏基因组学技术的优点在于无需经过实验室培养而能够获得环境中绝大部分的遗传物质,这样就可以分析环境中物种之间以及物种与环境之间的关系。然而,宏基因组原始数据是大量的、长度很短的的DNA片段(reads)。研究人员可以根据DNA片段之间的重叠关系将其组装成长度较长的DNA序列,生物信息学中称之为重叠群(contigs)。将这些重叠群按照其物种归属进行分类是分析宏基因组中物种多样性的基础。
然而,由于物种间的不同基因组长度以及物种间的不同丰度,在宏基因组数据中,不同物种所包含的重叠群的数量往往相差很大。因此,宏基因组重叠群数据是一种典型的不平衡数据集。如何这种数据集进行有效地分类,是目前的一个难题。
模糊c-harmonic均值算法是一种常用的无监督分类方法,其在模糊c均值算法的代价函数中使用了调和平均数,使得其具有对处置不敏感的优点。然而,该方法对不平衡数据的聚类效果较差。基于此,本发明提出了一种基于改进的模糊c-harmonic均值算法的宏基因组重叠群的无监督分类方法。
发明内容
本发明的目的是通过对c-harmonic均值算法进行改进后对宏基因组重叠群进行无监督分类的方法。
本发明的步骤是:
①重叠群数据的获取;
②特征向量的建立;
③通过考虑各个类的体量构建了代价函数,定义为:
(1)
其中为第个类的体量,定义为所有样本属于该类的隶属度值之和:
(2)
满足
一、隶属度矩阵的求解过程为:
①根据约束条件构造拉格朗日函数:
(3)
②求对于的偏导数:
(4)
③令,可得:
(5)
④根据约束条件,可得:
(6)
⑤可求得:
(7)
⑥将的计算公式带入到公式(5)中,可得:
(8);
二、聚类中心的推导过程为:
①求对于的偏导数:
(9)
②采用欧式距离,因此,可得:
(10)
因此,
(11)
③令,可解得:
(12)
三、重复步骤一到二,直到,其中
四、去模糊化。
本发明提出的改进的模糊c-harmonic均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群的无监督分类中可以提高分类精度,为宏基因组中物种多样性的分析提供更好的基础。
附图说明
图1是本发明工艺流程图。
具体实施方式
本发明的步骤是:
①重叠群数据的获取;本发明适用于所有的宏基因组重叠群数据集,可从网络公开数据库中下载各种宏基因组数据。例如,可从http://gutmeta.genomics.org.cn/下载人体肠道的宏基因组数据。
②特征向量的建立;
(1)本发明利用DNA序列的k-mer频率作为重叠群的分类特征,k-mer频率是指k长度的子序列在重叠群序列中出现的频率,本发明中k值取4。由于DNA由A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)、C(胞嘧啶)四种核苷酸排列而成,因此4-mer频率的维度为256维。
(2)对步骤(1)中计算得到的特征向量进行归一化,方法为:特征向量中每一个元素都除以该特征向量中元素的最大值,即:
其中,N是宏基因组数据中重叠群的数量,是第个DNA重叠群的4-mer频率特征。
利用改进的模糊c-harmonic均值算法进行宏基因组重叠群分类。
改进的模糊c-harmonic均值算法:
与模糊c均值算法类似,模糊c-harmonic均值算法对于不平衡数据的聚类效果也不理想,其原因是该算法的平方和形式的代价函数
其中c是类的个数,N是数据集中的样本数量,是第个样本到第个类的中心的欧氏距离,的隶属度值,是模糊度,本发明中。已有研究证明(Noordam, J. C.等,Multivariate image segmentation with clustersize insensitive fuzzy C-means,2002年),平方和形式的代价函数将在聚类结果中均衡化各个类中的样本数量,因此,在模糊c-harmonic的聚类结果中,一部分来自多数类的样本将被错误的划分到其相邻的少数类中。
③本发明利用第个类的体量来改良模糊c-harmonic均值算法的代价函数的性能,用原代价函数的平方和部分除以体量,通过考虑各个类的体量构建了代价函数,定义为:
(1)。
式(1)中为第个类的体量,定义为所有样本属于该类的隶属度值之和:
(2)
满足
类似地,最小化该代价函数将使得各个类中包含的样本个数除以其大小趋于相等,大类包含的样本个数多,小类包含的样本个数少,因此在聚类结果中,大类的样本将不会被分到其邻近的小类中,从而在根本上改善了传统算法对于不平衡数据的聚类性能。
通过求新代价函数对隶属度和聚类中心的偏导数并令其为零,可以得出改进算法的隶属度矩阵和聚类中心的计算公式。
一、隶属度矩阵的求解过程为:
①根据约束条件构造拉格朗日函数:
(3)。
②求对于的偏导数:
(4)。
③令,可得:
(5)。
④根据约束条件,可得:
(6)。
⑤可求得:
(7)。
⑥将的计算公式带入到公式(5)中,可得:
(8)。
二、聚类中心的推导过程为:
①求对于的偏导数:
(9)。
②采用欧式距离,因此,可得:
(10)。
因此,
(11)。
③令,可解得:
(12)。
三、重复步骤一到二,直到,其中
四、去模糊化。
利用改进算法进行重叠群分类:
首先设定类的个数,再以数据集中重叠群的4-mer频率作为特征向量,然后按照步骤中的改进算法流程进行重叠群的无监督分类。在分类结果中,一个类中的重叠群可能来自多个不同的基因组,在该类中包含重叠群数量最多的基因组确定为该类的主导基因组,其包含的重叠群视为该类正确分类的重叠群。
对比验证:
在一个宏基因组重叠群数据集上进行分类实验,以验证本发明所述方法的有效性,并与传统模糊c-harmonic均值算法和发明专利201610361015X中所述的方法进行对比,具体的实验步骤为:
1、从网址:http://gutmeta.genomics.org.cn/下载了一个宏基因组重叠群数据集,该数据集中共包含41786个重叠群。
2、计算每个重叠群的4-mer频率特征,并利用公式进行归一化,其中,N是宏基因组数据中重叠群的数量,是第个DNA重叠群的4-mer频率特征。
3、设定类的个数为200,下面对三种方法进行具体操作来获得重叠群数量。
(1)传统模糊c-harmonic均值算法的流程参见“汪中,刘贵全,陈恩红,基于模糊k-harmonic means的谱聚类算法”。
(2)发明专利201610361015X的分类流程请参见该发明专利公开的说明书。
(3)本发明的分类流程为:
①利用MATLAB的rand命令构建一个41786×200维的随机矩阵作为隶属度矩阵,该矩阵中的所有元素均为0到1区间的随机数。
②根据权利要求书的公式(2)计算各个类的大小,共包含200个数。
③根据权利要求书的公式(12)计算各个类的聚类中心
④根据权利要求书的公式(8)计算隶属度矩阵
⑤重复步骤②至④,直到分别是本次迭代和上一次迭代的隶属度矩阵,是二阶范数。
⑥去模糊化。
(4)结果分析。在分类结果中,一个类中的重叠群可能来自多个不同的基因组,在该类中包含重叠群数量最多的基因组确定为该类的主导基因组,其包含的重叠群视为该类正确分类的重叠群。所有类的正确分类的重叠群数量之和为该方法正确分类的重叠群。传统模糊c-harmonic均值算法正确聚类了8224个重叠群,发明专利201610361015X的数量为10391,本发明的数量为15223。
表1 本发明与传统模糊c-harmonic算法和发明专利201610361015X公开的重叠群分类方法的对比结果
从表1的结果可得,本发明方法正确分类的重叠群的数量分别比传统模糊c-harmonic均值算法和发明专利201610361015X的方法多6999和4832,表明了本发明所述方法的有效性和优越性。

Claims (1)

1.一种宏基因组重叠群的无监督分类方法,其步骤是:
①重叠群数据的获取;
②特征向量的建立;
其特征在于:
③通过考虑各个类的体量构建了代价函数,定义为:
(1)
其中为第个类的体量,定义为所有样本属于该类的隶属度值之和:
(2)
满足
一、隶属度矩阵的求解过程为:
①根据约束条件构造拉格朗日函数:
(3)
②求对于的偏导数:
(4)
③令,可得:
(5)
④根据约束条件,可得:
(6)
⑤可求得:
(7)
⑥将的计算公式带入到公式(5)中,可得:
(8);
二、聚类中心的推导过程为:
①求对于的偏导数:
(9)
②采用欧式距离,因此,可得:
(10)
因此,
(11)
③令,可解得:
(12)
三、重复步骤一到二,直到,其中
四、去模糊化。
CN201611201966.7A 2016-12-23 2016-12-23 一种宏基因组重叠群的无监督分类方法 Active CN106599618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611201966.7A CN106599618B (zh) 2016-12-23 2016-12-23 一种宏基因组重叠群的无监督分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611201966.7A CN106599618B (zh) 2016-12-23 2016-12-23 一种宏基因组重叠群的无监督分类方法

Publications (2)

Publication Number Publication Date
CN106599618A true CN106599618A (zh) 2017-04-26
CN106599618B CN106599618B (zh) 2021-07-23

Family

ID=58603106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611201966.7A Active CN106599618B (zh) 2016-12-23 2016-12-23 一种宏基因组重叠群的无监督分类方法

Country Status (1)

Country Link
CN (1) CN106599618B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009402A (zh) * 2017-07-25 2018-05-08 北京工商大学 一种基于动态卷积网络的微生物基因序列分类模型的方法
CN110032973A (zh) * 2019-04-12 2019-07-19 哈尔滨工业大学(深圳) 一种基于人工智能的无监督寄生虫分类方法及系统
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN114065866A (zh) * 2021-11-22 2022-02-18 吉林大学 一种基于参考物种标签约束的宏基因组序列深度聚类方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102881019A (zh) * 2012-10-08 2013-01-16 江南大学 一种具备迁移学习能力的模糊聚类图像分割方法
CN103150731A (zh) * 2013-03-07 2013-06-12 南京航空航天大学 一种模糊聚类图像分割方法
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
CN104182511A (zh) * 2014-08-20 2014-12-03 南京信息工程大学 一种簇特征加权的模糊紧致散布聚类方法
CN104282022A (zh) * 2014-09-29 2015-01-14 江南大学 一种具备多视角学习能力的模糊聚类图像分割方法
CN106055928A (zh) * 2016-05-29 2016-10-26 吉林大学 一种宏基因组重叠群的分类方法
KR101680055B1 (ko) * 2015-08-27 2016-11-29 서울대학교산학협력단 결합적 클러스터링 기법과 앙상블 모델링 기법을 이용한 인공신경망 모델 개발 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102881019A (zh) * 2012-10-08 2013-01-16 江南大学 一种具备迁移学习能力的模糊聚类图像分割方法
CN103150731A (zh) * 2013-03-07 2013-06-12 南京航空航天大学 一种模糊聚类图像分割方法
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
CN104182511A (zh) * 2014-08-20 2014-12-03 南京信息工程大学 一种簇特征加权的模糊紧致散布聚类方法
CN104282022A (zh) * 2014-09-29 2015-01-14 江南大学 一种具备多视角学习能力的模糊聚类图像分割方法
KR101680055B1 (ko) * 2015-08-27 2016-11-29 서울대학교산학협력단 결합적 클러스터링 기법과 앙상블 모델링 기법을 이용한 인공신경망 모델 개발 방법
CN106055928A (zh) * 2016-05-29 2016-10-26 吉林大学 一种宏基因组重叠群的分类方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
J.C.NOORDAM等: ""Multivariate image segmentation with cluster size insensitive Fuzzy C-means"", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 *
TAO HOU等: ""Classification of Metagenomics Data at Lower Taxonomic Level Using a Robust Supervised Classifier"", 《EVOLUTIONARY BIOINFORMATICS ONLINE》 *
YUN LIU等: ""A new unsupervised binning method for metagenomic dataset with automated estimation of number of species"", 《PEERJ INC》 *
YUN LIU等: ""Improving fuzzy c-means method for unbalanced dataset"", 《ELECTRONICS LETTERS》 *
YUN LIU等: ""Unsupervised Binning of Metagenomic Assembled Contigs Using Improved Fuzzy C-Means Method"", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 *
YUN LIU等: "《2016 35th Chinese Control Conference (CCC)》", 29 July 2016 *
刘云等: ""优化核参数的模糊C均值聚类算法"", 《吉林大学学报(工学版)》 *
汪中等: ""基于模糊K-harmonicmeans的谱聚类算法"", 《智能系统学报》 *
田祥等: "《大学数学》", 30 April 2014 *
赵恒等: ""模糊K-Harmonic Means聚类算法"", 《西安电子科技大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009402A (zh) * 2017-07-25 2018-05-08 北京工商大学 一种基于动态卷积网络的微生物基因序列分类模型的方法
CN110032973A (zh) * 2019-04-12 2019-07-19 哈尔滨工业大学(深圳) 一种基于人工智能的无监督寄生虫分类方法及系统
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112466404B (zh) * 2020-12-14 2024-02-02 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN114065866A (zh) * 2021-11-22 2022-02-18 吉林大学 一种基于参考物种标签约束的宏基因组序列深度聚类方法
CN114065866B (zh) * 2021-11-22 2024-04-30 吉林大学 一种基于参考物种标签约束的宏基因组序列深度聚类方法

Also Published As

Publication number Publication date
CN106599618B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN106599618A (zh) 一种宏基因组重叠群的无监督分类方法
US11702708B2 (en) Systems and methods for analyzing viral nucleic acids
Niu et al. sgRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks
Břinda et al. Spaced seeds improve k-mer-based metagenomic classification
Zagordi et al. ShoRAH: estimating the genetic diversity of a mixed sample from next-generation sequencing data
Bandyopadhyay et al. MBSTAR: multiple instance learning for predicting specific functional binding sites in microRNA targets
Liu et al. A method for aligning RNA secondary structures and its application to RNA motif detection
WO2017120128A1 (en) Systems and methods for adaptive local alignment for graph genomes
CN103246829B (zh) 宏基因组序列的组装
CN106055928A (zh) 一种宏基因组重叠群的分类方法
CN103955629A (zh) 基于模糊k均值的宏基因组片段聚类方法
Wang et al. A fast heuristic search algorithm for finding the longest common subsequence of multiple strings
Comin et al. Clustering of reads with alignment-free measures and quality values
de Araujo Oliveira et al. SnoReport 2.0: new features and a refined Support Vector Machine to improve snoRNA identification
Wu et al. Nucleotide composition string selection in HIV-1 subtyping using whole genomes
Wang et al. Comprehensive genome-wide transcription factor analysis reveals that a combination of high affinity and low affinity DNA binding is needed for human gene regulation
Colosimo et al. Nephele: genotyping via complete composition vectors and MapReduce
CN111916149A (zh) 基于层次聚类的蛋白质相互作用网络全局比对方法
Zhang et al. Integration of multiple heterogeneous omics data
Kauer et al. Applying signal theory to the analysis of biomolecules
Jiang et al. miRTMC: a miRNA target prediction method based on matrix completion algorithm
Buchfink et al. MetaScope-Fast and accurate identification of microbes in metagenomic sequencing data
Zhao et al. A novel clustering method via nucleotide-based Fourier power spectrum analysis
Cai et al. Milnp: plant lncrna–mirna interaction prediction based on improved linear neighborhood similarity and label propagation
Leibovich et al. Mutual enrichment in ranked lists and the statistical assessment of position weight matrix motifs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant