CN106446603A - 基于改进pso算法的基因表达数据聚类方法 - Google Patents

基于改进pso算法的基因表达数据聚类方法 Download PDF

Info

Publication number
CN106446603A
CN106446603A CN201610861263.0A CN201610861263A CN106446603A CN 106446603 A CN106446603 A CN 106446603A CN 201610861263 A CN201610861263 A CN 201610861263A CN 106446603 A CN106446603 A CN 106446603A
Authority
CN
China
Prior art keywords
gene
gene expression
clustering
expression data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610861263.0A
Other languages
English (en)
Inventor
郑相涵
刘煜
陈日清
于元隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610861263.0A priority Critical patent/CN106446603A/zh
Publication of CN106446603A publication Critical patent/CN106446603A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于改进PSO算法的基因表达数据聚类方法,主要包括以下步骤:1、构建基因聚类矩阵:对基因芯片数据进行处理后构建基因表达矩阵,再计算基因间的欧式距离构建基因距离矩阵;2、优化PSO算法聚类:把基因距离矩阵带入优化后的PSO算法获取一条最优路径,对根据给定阈值进行划分得到聚类模块;3:聚类结果优化:去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。粒子群算法是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法,相对于其他聚类算法具有较大的优势,所以将其应用到基因表达数据聚类分析领域上,能根据基因表达数据,对基因进行准确、快速的聚类。

Description

基于改进PSO算法的基因表达数据聚类方法
技术领域
本发明属于基因表达数据聚类分析领域中,具体涉及一种基于改进PSO算法的基因表达数据聚类方法。
背景技术
随着生命科学的高速发展,产生的生物信息也急剧增加,为了处理这些庞大的数据集,人们巧妙的将计算机科学等分析工具和方法引入到生命科学研究中,形成生物信息学。生物信息学的研究内容大致可分为基因组分析、蛋白质组学研究、在基因组水平上研究分子进化、基因芯片与生物信息学以及系统生物学研究五个方面。基因相似性的研究内容是寻找不同序列的相似性,主要从结构及功能的角度进行研究和分析,既是序列结构和功能相似性研究的入手点,也为研究新纪元的结构和功能提供一个新的途径。
粒子群算法是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法,相对于其他聚类算法具有较大的优势,所以将其应用到基因表达数据聚类分析领域上来。
发明内容
本发明的目的在于,提出一种基于改进PSO算法的基因表达数据聚类新方法。
为实现上述目的,本发明的技术方案包括以下部分:一种基于改进PSO算法的基因表达数据聚类方法,其特征在于,包括以下步骤:步骤S1:对基因芯片数据进行0-1标准化后,建立基因表达矩阵,然后再计算基因间的欧式距离,把基因表达矩阵转化为距离矩阵,距离矩阵相对于对角线对称,基因间的距离表示基因的相似程度;步骤S2对于每个粒子,随机选取0~n之间的整数k,其中n为基因的个数,求出其余各基因到基因k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各基因到中心基因的距离作为粒子群体历史最优位置;步骤S3:将惯性权重w设为可调因子:w=0.9-a*0.4b,将学习因子c2也设为可调因子:c2=2.0*a/b,其中a为当前迭代次数,b为总迭代次数;步骤S4:原始的基因表达数据聚类算法中,当获得最初优化路径时,仅仅根据给定阀值D对路径进行剪枝,获得初始基因聚类;再对聚类的结果进行进一步优化,去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。
较佳的,步骤S2中的粒子的种群规模取基因个数的5倍。
本发明将粒子群算法应用到基因表达数据聚类分析领域上,使其能根据基因表达数据,对基因进行准确、快速的聚类。
具体实施方式
下面结合具体实施例对本发明做进一步解释说明。
本发明提出一种基于改进PSO算法的基因表达数据聚类新方法,其主要包括以下步骤:
①建立基因距离矩阵
从基因芯片数据中选取优质的实验条件,对数据进行0-1标准化后,建立基因表达矩阵。然后再计算基因间的欧式距离,把基因表达矩阵转化为距离矩阵。距离矩阵相对于对角线对称,基因间的距离表示基因的相似程度。
②PSO初始化
在基本粒子群算法中,粒子群初始位置是随机选取,跟实际问题的求解没有关联。而为了使粒子群算法跟实际问题相关联,本发明中粒子初始位置是确定的:对于每个粒子,随机选取0~n之间的整数k(其中n为基因的个数),求出其余各基因到基因k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各基因到中心基因的距离作为粒子群体历史最优位置。较佳的,粒子的种群规模取基因个数的5倍。
③参数设置
在基本粒子群算法中,一般选取惯性权重w=1和学习因子c2=2,但考虑到基本粒子群算法容易陷入局部最优,而惯性权重w主要是粒子保持自身运动状态的惯性,用来平衡算法局部和全局搜索,当w取大值时有利于探索新领域,较小时有利于详细搜索当前区域。因此迭代初始时粒子应扩大搜索区域,进行全局搜索,使搜索区域收敛于某一局部区域,而随着迭代次数的增加,粒子应进行局部范围搜索,有利于寻找最优解,防止陷入局部最优。所以本发明中惯性权重w设为可调因子:w=0.9-a*0.4b。
由于学习因子c2是粒子向群体历史最优位置学习,粒子开始搜索阶段,群体历史最优位置在群体最优解所占据的优势还不是很明显,因此通过参数设置使粒子开始阶段向群体历史最优位置学习的比重较低,而搜索后期,由于群体历史最优位置在搜索全局最优解中的比重较大,因此可以使粒子多向群体历史最优位置学习,防止陷入局部最优,有利于找到最优解。所以本发明中,c2也设为可调因子:c2=2.0*a/b。其中a为当前迭代次数,b为总迭代次数。
④聚类优化
原始的基因表达数据聚类算法中,当获得最初优化路径时,仅仅根据给定阀值D对路径进行剪枝,获得初始基因聚类。之后,再对聚类的结果进行进一步优化,去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。
以上所述仅为本发明的较佳实施例,并不用以限定本发明,在不脱离本发明基本构思的前提下所做的若干等同替代和变型,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于改进PSO算法的基因表达数据聚类方法,其特征在于,包括以下步骤:
步骤S1:对基因芯片数据进行0-1标准化后,建立基因表达矩阵,然后再计算基因间的欧式距离,把基因表达矩阵转化为距离矩阵,距离矩阵相对于对角线对称,基因间的距离表示基因的相似程度;
步骤S2对于每个粒子,随机选取0~n之间的整数k,其中n为基因的个数,求出其余各基因到基因k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各基因到中心基因的距离作为粒子群体历史最优位置;
步骤S3:将惯性权重w设为可调因子:,将学习因子c2也设为可调因子:,其中a为当前迭代次数,b为总迭代次数;
步骤S4:原始的基因表达数据聚类算法中,当获得最初优化路径时,仅仅根据给定阀值D对路径进行剪枝,获得初始基因聚类;再对聚类的结果进行进一步优化,去掉单独成簇的基因以及过于稀疏的聚类,得到最终的基因聚类结果。
2.根据权利要求1所述的基于改进PSO算法的基因表达数据聚类方法,其特征在于:步骤S2中的粒子的种群规模取基因个数的5倍。
CN201610861263.0A 2016-09-29 2016-09-29 基于改进pso算法的基因表达数据聚类方法 Pending CN106446603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610861263.0A CN106446603A (zh) 2016-09-29 2016-09-29 基于改进pso算法的基因表达数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610861263.0A CN106446603A (zh) 2016-09-29 2016-09-29 基于改进pso算法的基因表达数据聚类方法

Publications (1)

Publication Number Publication Date
CN106446603A true CN106446603A (zh) 2017-02-22

Family

ID=58170061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610861263.0A Pending CN106446603A (zh) 2016-09-29 2016-09-29 基于改进pso算法的基因表达数据聚类方法

Country Status (1)

Country Link
CN (1) CN106446603A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN108009241A (zh) * 2017-11-30 2018-05-08 昆山青石计算机有限公司 一种基于pso参数优化的工业物联网安全聚合关联方法
CN108090326A (zh) * 2018-02-09 2018-05-29 国家卫生计生委科学技术研究所 单细胞网络调控关系的构建方法
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN111883208A (zh) * 2020-06-24 2020-11-03 浪潮电子信息产业股份有限公司 一种基因序列优化方法、装置、设备及介质
CN112259219A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于上消化道出血预测疾病的系统、设备、存储介质
CN115035957A (zh) * 2022-05-31 2022-09-09 陕西师范大学 基于粒子群算法的改进最小残差法分析混合str图谱
US11456057B2 (en) 2018-03-29 2022-09-27 International Business Machines Corporation Biological sequence distance explorer system providing user visualization of genomic distance between a set of genomes in a dynamic zoomable fashion

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184349A (zh) * 2011-04-29 2011-09-14 河海大学 基于流形学习的基因表达数据的聚类系统及方法
CN103745137A (zh) * 2014-01-30 2014-04-23 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN104156635A (zh) * 2014-07-08 2014-11-19 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184349A (zh) * 2011-04-29 2011-09-14 河海大学 基于流形学习的基因表达数据的聚类系统及方法
CN103745137A (zh) * 2014-01-30 2014-04-23 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN104156635A (zh) * 2014-07-08 2014-11-19 华南师范大学 基于公共子序列的基因芯片表达数据的opsm挖掘方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仇建烨等: "P53基因蛋白质序列的相似性及其聚类分析", 《计算机与应用化学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107368707B (zh) * 2017-07-20 2020-07-10 东北大学 基于us-elm的基因芯片表达数据分析系统及方法
CN108009241A (zh) * 2017-11-30 2018-05-08 昆山青石计算机有限公司 一种基于pso参数优化的工业物联网安全聚合关联方法
CN108090326A (zh) * 2018-02-09 2018-05-29 国家卫生计生委科学技术研究所 单细胞网络调控关系的构建方法
US11456057B2 (en) 2018-03-29 2022-09-27 International Business Machines Corporation Biological sequence distance explorer system providing user visualization of genomic distance between a set of genomes in a dynamic zoomable fashion
CN108537005A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于BPSO-KNN模型的关键lncRNA预测方法
CN108681660A (zh) * 2018-05-07 2018-10-19 福州大学 一种基于关联规则挖掘的非编码rna与疾病关系预测方法
CN111883208A (zh) * 2020-06-24 2020-11-03 浪潮电子信息产业股份有限公司 一种基因序列优化方法、装置、设备及介质
CN111883208B (zh) * 2020-06-24 2022-07-05 浪潮电子信息产业股份有限公司 一种基因序列优化方法、装置、设备及介质
CN112259219A (zh) * 2020-09-30 2021-01-22 吾征智能技术(北京)有限公司 一种基于上消化道出血预测疾病的系统、设备、存储介质
CN112259219B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于上消化道出血预测疾病的系统、设备、存储介质
CN115035957A (zh) * 2022-05-31 2022-09-09 陕西师范大学 基于粒子群算法的改进最小残差法分析混合str图谱

Similar Documents

Publication Publication Date Title
CN106446603A (zh) 基于改进pso算法的基因表达数据聚类方法
Nieuwenhuis et al. Evolution of uni-and bifactorial sexual compatibility systems in fungi
Nagy et al. Morphological characterization of clades of the Psathyrellaceae (Agaricales) inferred from a multigene phylogeny
CN105930688B (zh) 基于改进pso算法的蛋白质功能模块检测方法
Zhou et al. A clustering-Based KNN improved algorithm CLKNN for text classification
CN108121781A (zh) 基于高效样本选取与参数优化的相关反馈图像检索方法
CN112201300A (zh) 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
Du et al. Molecular phylogenetic evidence that the Chinese viviparid genus Margarya (Gastropoda: Viviparidae) is polyphyletic
CN114065933B (zh) 一种基于人工免疫思想的未知威胁检测方法
CN107273842B (zh) 基于csjoga算法的选择性集成人脸识别方法
CN104765804B (zh) 一种根据特征选择负载的方法和系统
Dai et al. Feature selection of high-dimensional biomedical data using improved SFLA for disease diagnosis
CN106484865A (zh) 一种基于DNA k‑mer index问题四字链表字典树检索算法
Mousavirad et al. Wrapper feature selection using discrete cuckoo optimization algorithm
Zhou et al. A new method for classification in DNA sequence
CN114245922A (zh) 单一生物单元的序列信息的新型处理方法
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
CN110070908B (zh) 一种二项树模型的模体搜索方法、装置、设备与存储介质
CN110738249B (zh) 一种基于深度神经网络的极光图像聚类方法
CN105426910B (zh) 一种基于改进abc算法与de变异策略的自适应聚类方法
Yu et al. Comparative analyses of Pleurotus pulmonarius mitochondrial genomes reveal two major lineages of mini oyster mushroom cultivars
CN111860755A (zh) 基于支持向量机回归的改进粒子群算法
Hasibuan et al. Identification of single nucleotide polymorphism using support vector machine on imbalanced data
Nurhasanah et al. Feature selection approach for solving imbalanced data problem in single nucleotide polymorphism discovery
Narmadha et al. Gene ontology analysis of 3D microarray gene expression data using hybrid PSO optimization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication