CN106055928A - 一种宏基因组重叠群的分类方法 - Google Patents

一种宏基因组重叠群的分类方法 Download PDF

Info

Publication number
CN106055928A
CN106055928A CN201610361015.XA CN201610361015A CN106055928A CN 106055928 A CN106055928 A CN 106055928A CN 201610361015 A CN201610361015 A CN 201610361015A CN 106055928 A CN106055928 A CN 106055928A
Authority
CN
China
Prior art keywords
fuzzy
contig
species
contigs
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610361015.XA
Other languages
English (en)
Other versions
CN106055928B (zh
Inventor
刘云
刘富
侯涛
康冰
王柯
姜守坤
王婧媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201610361015.XA priority Critical patent/CN106055928B/zh
Publication of CN106055928A publication Critical patent/CN106055928A/zh
Application granted granted Critical
Publication of CN106055928B publication Critical patent/CN106055928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种宏基因组重叠群的分类方法,属于生物信息学分析技术领域。本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。本发明的步骤是:设c个物种的平均覆盖率,则根据宏基因组物种个数确定公式,利用改进的模糊c均值算法进行宏基因组重叠群分类。本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以极大地提高分类精度,为后续的宏基因组分析提供良好的基础。

Description

一种宏基因组重叠群的分类方法
技术领域
本发明属于生物信息学分析技术领域。
背景技术
宏基因组学利用新一代测序技术,无需经过实验室培养而直接从环境中获取DNA遗传物质,有效地克服了传统基因测序技术的局限性,目前已成为分析生物群落中物种多样性的有效手段。宏基因组分析的一般步骤为测序、组装、分类和功能注释。原始的宏基因组数据是由大量的、长度短的DNA片段(reads)组成。这些片段之间具有重叠关系,可据此将其组装成长度较长的DNA序列,称之为重叠群(contigs),将这些重叠群按照其物种归属进行分类是宏基因组分析中必不可少的一步。
由于若干个因素,诸如物种间的基因组长度不同以及物种间的不同丰度等,在宏基因组数据中,不同物种所包含的重叠群的数量往往是不一样的。因此,组装后的宏基因组数据是一种不平衡数据集。如何对具有不平衡属性的重叠群进行有效地分类,是一个难题。
模糊c均值算法是一种著名的无监督分类方法,已经有效地应用在数据挖掘、图像分割、模式识别等领域,然而该方法对于不平衡数据集具有较差的性能。
发明内容
本发明的目的是针对宏基因组重叠群的不平衡特性,提出了一种利用改进的模糊c均值算法进行重叠群分类的方法。
本发明的步骤是:
a、设是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
(1)
其中是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
(2)
利用Nonpareil软件来估计物种的平均覆盖率
按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为
宏基因组中的物种个数区间为:
(3)和
(4)
其中N和分别为宏基因组数据中重叠群的个数和平均长度;
b、利用改进的模糊c均值算法进行宏基因组重叠群分类:
①改进的模糊c均值算法:
改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,新的代价函数为:
(5)
其中是第i个重叠群的特征向量,是第j个类的中心,的隶属度值,是模糊度,本发明中q=2,d为欧氏距离,为第j个类的大小,定义为:
(6)
通过最小化新代价函数,得出改进算法的隶属度矩阵和聚类中心公式为:
(7)
(8)
重复步骤直到,其中
②利用改进算法进行重叠群分类:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间的物种个数,改进的模糊c均值算法共执行次,分别对应不同的属于区间的物种个数,得到了个分类结果。
本发明最佳分类结果的确定:
利用一种聚类准则函数个分类结果中确定一个最好的分类结果。
本发明所使用的改进的模糊c均值算法是在分析了传统的模糊c均值算法对于不平衡数据集较差的性能的根本原因的基础上,提出的改进算法。改进的模糊c均值算法能够有效地改善传统方法对于不平衡数据集效果不理想的缺点,将其应用到重叠群分类中可以极大地提高分类精度,为后续的宏基因组分析提供良好的基础。
具体实施方式
本发明的步骤是:
(1)重叠群数据的获取
本发明适用于所有的宏基因组重叠群数据集,可从网络公开数据库中下载各种宏基因组数据。例如,可从http://gutmeta.genomics.org.cn/下载人体肠道的宏基因组数据。
(2)特征向量的建立
①计算每个重叠群的4-mer频率,即用一个列向量来表示一个DNA序列。由于DNA由ATGC四种核苷酸排列而成,因此特征向量的维度为256维。
②对步骤①中计算得到的特征向量进行归一化,方法为:特征向量中每一个元素都除以该特征向量中元素的最大值,即:
其中,N是宏基因组数据中重叠群的数量,是第j个重叠群的特征向量。
③宏基因组物种个数的确定
在一个包含有c个物种的宏基因组中,基因组总长度G为:
其中是第i个物种的基因组长度,是第i个物种的覆盖率。
a、设 是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
(1)
其中是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
(2)
因此,需要估计来确定物种个数c。
利用Nonpareil软件来估计物种的平均覆盖率;该估算方法可参见文献Rodriguez-R, Luis M, Konstantinidis, Konstantinos T. Nonpareil: a redundancy-based approach to assess the level of coverage in metagenomic datasets[J].Bioinformatics, 30(5):629-635。
由于物种间基因组的长度往往是不同的,本发明从NCBI网站上下载了一个包含有2573个细菌的全基因组数据全集,网址为ftp://ftp.ncbi.nih.gov/genomes/Bacteria/。按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为bps,bps,区间可以包含这些物种的90%。
宏基因组中的物种个数区间为:
(3)和
(4)
其中N和分别为宏基因组数据中重叠群的个数和平均长度;
b、利用改进的模糊c均值算法进行宏基因组重叠群分类:
①改进的模糊c均值算法:
传统模糊c均值算法对于不平衡数据集分类效果不理想的原因是其使用了一种平方和形式的代价函数,因此分类结果中各个类之间的样本个数大致相等将获得较小的代价函数值,于是模糊c均值算法会将一部分来自大类的样本误分到其临近的小类中。为了从根本上克服模糊c均值算法的这种缺陷,本发明提出了一种改进的模糊c均值算法,在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,用来表示类所包含的样本的个数,比如第一类包含800个样本,第二类包含1000个样本,800和1000即为类的大小,新的代价函数为:
(5)
其中是第i个重叠群的特征向量,是第j个类的中心,的隶属度值,是模糊度,本发明中q=2,d为欧氏距离,为第j个类的大小,定义为:
(6)
改进后的代价函数将在分类结果中允许小类的存在,由于其考虑了各个类的大小,使得分类结果中各个类之间的样本个数除以其大小大致相等才能获得较小的代价函数值。
通过最小化新代价函数,得出改进算法的隶属度矩阵和聚类中心公式为:
(7)
(8)
重复步骤直到,其中
改进算法的分类过程为:
i. 给定类的个数,构建随机隶属度矩阵;
ii. 根据聚类中心计算公式计算聚类中心;
iii. 计算各个类的大小;
iv.利用隶属度矩阵公式更新隶属度矩阵;
v.重复步骤ii到iv,直到。本发明中
②利用改进算法进行重叠群分类:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间的物种个数,改进的模糊c均值算法共执行次,分别对应不同的属于区间的物种个数,得到了个分类结果。
本发明最佳分类结果的确定:
利用一种聚类准则函数个分类结果中确定一个最好的分类结果。
定义为:
其中。越小的值代表越好的分类结果,因此,最终的聚类个数为:
最终的分类结果即为对应的分类结果。
实例
本发明从https://github.com/minillinim/GroopM_test_data下载了一个宏基因组重叠群数据集,该数据集中共包含5668个重叠群。利用本发明所述的方法,可得,最终的分类结果如表1所示。
表1 实施例的最终分类结果
利用本发明所述的分类方法,能够正确分类其中的4340个重叠群,从而证明了本发明所述方法的有效性。

Claims (2)

1.一种宏基因组重叠群的分类方法,其特征在于:
a、设是c个物种的平均覆盖率,则根据宏基因组物种个数确定公式得到如下关系:
(1)
其中是该宏基因组中最短和最长的物种基因组;因此,物种个数c应在如下区间:
(2)
利用Nonpareil软件来估计物种的平均覆盖率
按照从短到长的顺序排列,分别取处于5%和95%位置的基因组长度为
宏基因组中的物种个数区间为:
(3)和
(4)
其中N和分别为宏基因组数据中重叠群的个数和平均长度;
b、利用改进的模糊c均值算法进行宏基因组重叠群分类:
①改进的模糊c均值算法:
改进的模糊c均值算法在原始代价函数的基础上,改进算法在其代价函数中考虑了各个类的大小,新的代价函数为:
(5)
其中是第i个重叠群的特征向量,是第j个类的中心,的隶属度值,是模糊度,本发明中q=2,d为欧氏距离,为第j个类的大小,定义为:
(6)
通过最小化新代价函数,得出改进算法的隶属度矩阵和聚类中心公式为:
(7)
(8)
重复步骤直到,其中
②利用改进算法进行重叠群分类:
以物种个数作为类的个数输入到改进的模糊c均值算法进行重叠群分类,分别遍历所有属于区间的物种个数,改进的模糊c均值算法共执行次,分别对应不同的属于区间的物种个数,得到了个分类结果。
2.根据权利要求1所述的宏基因组重叠群的分类方法,其特征在于:
最佳分类结果的确定:
利用一种聚类准则函数个分类结果中确定一个最好的分类结果。
CN201610361015.XA 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法 Active CN106055928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610361015.XA CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610361015.XA CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Publications (2)

Publication Number Publication Date
CN106055928A true CN106055928A (zh) 2016-10-26
CN106055928B CN106055928B (zh) 2018-09-14

Family

ID=57174725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610361015.XA Active CN106055928B (zh) 2016-05-29 2016-05-29 一种宏基因组重叠群的分类方法

Country Status (1)

Country Link
CN (1) CN106055928B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599618A (zh) * 2016-12-23 2017-04-26 吉林大学 一种宏基因组重叠群的无监督分类方法
CN107292124A (zh) * 2017-06-25 2017-10-24 广东国盛医学科技有限公司 基于分层主元深度学习的宏基因组操作分类单元识别方法
CN109001386A (zh) * 2018-04-17 2018-12-14 中国地质大学(武汉) 一种水体径流连通性的探测方法
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112634989A (zh) * 2020-12-29 2021-04-09 山东建筑大学 基于片段重叠群的双面基因组片段填充方法及装置
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
US20130077837A1 (en) * 2010-03-29 2013-03-28 Galderma Research & Development Snc Fuzzy clustering algorithm and its application on carcinoma tissue
KR101254177B1 (ko) * 2011-10-07 2013-04-19 위아코퍼레이션 주식회사 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
CN103246829A (zh) * 2012-02-10 2013-08-14 塔塔咨询服务有限公司 宏基因组序列的组装
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
US20140363456A1 (en) * 2011-12-09 2014-12-11 Biovest International, Inc. Tumor-specific gm-csf cytokine response as predictor of cancer vaccine effectiveness
CN104299232A (zh) * 2014-09-30 2015-01-21 西安电子科技大学 一种基于自适应窗方向波域和改进fcm的sar图像分割方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
US20130077837A1 (en) * 2010-03-29 2013-03-28 Galderma Research & Development Snc Fuzzy clustering algorithm and its application on carcinoma tissue
KR101254177B1 (ko) * 2011-10-07 2013-04-19 위아코퍼레이션 주식회사 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
US20140363456A1 (en) * 2011-12-09 2014-12-11 Biovest International, Inc. Tumor-specific gm-csf cytokine response as predictor of cancer vaccine effectiveness
CN103246829A (zh) * 2012-02-10 2013-08-14 塔塔咨询服务有限公司 宏基因组序列的组装
CN103955629A (zh) * 2014-02-18 2014-07-30 吉林大学 基于模糊k均值的宏基因组片段聚类方法
CN104299232A (zh) * 2014-09-30 2015-01-21 西安电子科技大学 一种基于自适应窗方向波域和改进fcm的sar图像分割方法
CN105243296A (zh) * 2015-09-28 2016-01-13 丽水学院 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
C.WOOLEY J ET AL.: "A Primer on Metagenomics", 《COMPUTATIONAL BIOLOGY》 *
PHEN-LAN LIN ET AL.: "A size-insensitive integrity-based fuzzy c-means method for data clustering", 《ELSEVIER》 *
RODRIGUEZ-R L M ET AL.: "Nonpareil: a redundancy-based approach to assess the level of coverage in metagenomic datasets", 《BIOINFORMATICS》 *
XUE JIAN ETC: "《The Reduction and Classification Research on DNA Fragment Species Attributes in Meta genome》", 《2015 27TH CHINESE CONTROL AND DECISION CONFERENCE》 *
YUCEL KOCYIGIT ET AL.: "Imbalanced Data Classifier By Using Ensemble Fuzzy C-Means Clustering", 《PROCEEDINGS OF THE IEEE-EMBS INTERNATIONAL CONFERENCE ON BIOMEDICAL AND HEALTH INFORMATICS》 *
YUN LIU, ETC: "Improving fuzzy c-means method for unbalanced dataset", 《ELECTRONICS LETTERS》 *
YUNJIE ZHANG ET AL.: "A cluster validity index for fuzzy clustering", 《ELSEVIER》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599618A (zh) * 2016-12-23 2017-04-26 吉林大学 一种宏基因组重叠群的无监督分类方法
CN106599618B (zh) * 2016-12-23 2021-07-23 吉林大学 一种宏基因组重叠群的无监督分类方法
CN107292124A (zh) * 2017-06-25 2017-10-24 广东国盛医学科技有限公司 基于分层主元深度学习的宏基因组操作分类单元识别方法
CN109001386A (zh) * 2018-04-17 2018-12-14 中国地质大学(武汉) 一种水体径流连通性的探测方法
CN112466404A (zh) * 2020-12-14 2021-03-09 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112466404B (zh) * 2020-12-14 2024-02-02 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统
CN112634989A (zh) * 2020-12-29 2021-04-09 山东建筑大学 基于片段重叠群的双面基因组片段填充方法及装置
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法

Also Published As

Publication number Publication date
CN106055928B (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN106055928A (zh) 一种宏基因组重叠群的分类方法
Srivastava et al. Alevin efficiently estimates accurate gene abundances from dscRNA-seq data
Liu et al. Normalization methods for the analysis of unbalanced transcriptome data: a review
Frise et al. Systematic image‐driven analysis of the spatial Drosophila embryonic expression landscape
Ali et al. Alignment-free protein interaction network comparison
Govek et al. Clustering-independent analysis of genomic data using spectral simplicial theory
Binder et al. Analysis of large-scale OMIC data using self organizing maps
CN114974435B (zh) 一种统一细胞类型和状态特征的细胞相似性度量方法
CN114420212A (zh) 一种大肠杆菌菌株鉴定方法和系统
Shujaat et al. Cr-prom: A convolutional neural network-based model for the prediction of rice promoters
CN106599618A (zh) 一种宏基因组重叠群的无监督分类方法
Chiu et al. Clustering biological sequences with dynamic sequence similarity threshold
US9008974B2 (en) Taxonomic classification system
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
Belean et al. Unsupervised image segmentation for microarray spots with irregular contours and inner holes
US20190156917A1 (en) Data Processing Method and Apparatus
US20210324465A1 (en) Systems and methods for analyzing and aggregating open chromatin signatures at single cell resolution
Xu et al. CellBRF: a feature selection method for single-cell clustering using cell balance and random forest
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN111091867B (zh) 基因变异位点筛选方法及系统
Chandrasekhar et al. Performance analysis of enhanced clustering algorithm for gene expression data
Iqbal et al. A framework for the RNA-Seq based classification and prediction of disease
Yu et al. Hypergraph regularized NMF by L 2, 1-norm for Clustering and Com-abnormal Expression Genes Selection
Aldas-Bulos et al. Benchmarking protein structure predictors to assist machine learning-guided peptide discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant