CN110534154B - 基于和声搜索的鲸鱼dna序列优化方法 - Google Patents

基于和声搜索的鲸鱼dna序列优化方法 Download PDF

Info

Publication number
CN110534154B
CN110534154B CN201910832011.9A CN201910832011A CN110534154B CN 110534154 B CN110534154 B CN 110534154B CN 201910832011 A CN201910832011 A CN 201910832011A CN 110534154 B CN110534154 B CN 110534154B
Authority
CN
China
Prior art keywords
whale
population
whales
harmony
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910832011.9A
Other languages
English (en)
Other versions
CN110534154A (zh
Inventor
王宾
李雪
吕卉
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201910832011.9A priority Critical patent/CN110534154B/zh
Publication of CN110534154A publication Critical patent/CN110534154A/zh
Application granted granted Critical
Publication of CN110534154B publication Critical patent/CN110534154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于和声搜索的鲸鱼DNA序列优化方法,首先随机生成一个初始化种群;其次,采用WOA算法对种群进行更新;接着,用和声搜索扩大搜索范围,得到新种群;然后通过加入多个约束条件缩小解空间;最后,对结果的适应度值进行排序并输出最优序列。和声搜索离散性强,对局部优解的搜索能力较强,通过和声不断搜索,在个体周围增加扰动,从而在使算法避免陷入局部最优的同时增加了种群的丰富度。

Description

基于和声搜索的鲸鱼DNA序列优化方法
技术领域
本发明属于DNA计算中编码设计领域,具体说是基于和声搜索的鲸鱼DNA序列优化方法。
背景技术
南加州大学阿德尔曼教授在1994年用DNA分子作为计算介质,解决了7个顶点哈密尔顿路径问题,拿到了生物技术与计算机相结合的钥匙,打开了DNA计算的大门。利用DNA分子在编码时可以唯一地被识别的特点,遵循碱基互补配对的原则,将要解决的问题映射成一个DNA分子集合。对生成的DNA分子进行生化反应,得到问题的所有解空间,再对解空间进行分离提取,就可以得到问题的解。遵循的碱基互补配对原则是碱基A与碱基T配对,碱基C与碱基G配对;生化反应,通常采用DNA分子的杂交反应,使经过编码的DNA分子完全杂交是保证问题准确可靠解决的关键。因此研究高质量的DNA分子序列是一项具有重要意义的工作。
发明内容
将鲸鱼算法与和声搜索算法相结合,提出了基于和声搜索的鲸鱼DNA序列优化方法;本方法与现有方法相比增加了新的约束条件:配对。通过模拟本方法可以得到序列质量较高的DNA序列。
为实现上述目的,本发明的技术方案为:基于和声搜索的鲸鱼DNA序列优化方法,需要得到满足多个约束条件的DNA优化序列。首先随机生成一个初始化种群;其次,采用WOA算法对种群进行更新;接着,用和声搜索扩大搜索范围,得到新种群;然后通过加入多个约束条件缩小解空间;最后,对结果的适应度值进行排序并输出最优序列。具体步骤为:
步骤1:随机生成一个初始化种群,对参数进行初始化,Max_iter是最大迭代次数,t是当前迭代次数;
步骤2:对当前种群计算适应度值,将个体适应度值之和的最小值作为当前最优鲸鱼并记录其位置信息;
步骤3:随机产生每一次迭代改变的变量;
步骤4:对变量p(p∈[0,1])进行判断,若p<0.5,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置;否则,随机挑选一个鲸鱼对其它鲸鱼的位置进行更新;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼的位置;
步骤7:将已存在的所有种群加入到和声搜索,扩大搜索范围,以得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,采用快速非支配排序的方法选出初始种群个数的鲸鱼;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群。
本发明通过以上方法,可以取得如下效果:
1、对初始种群进行适应度值计算时,确定个体的适应度值之和的最小值为当前最优,记录最小值,便于鲸鱼算法种群进化时使个体对环境适应性更好,得以全面优化。
2、鲸鱼算法具有容易陷入局部最优的缺点,而和声搜索离散性强,对局部优解的搜索能力较强,通过和声不断搜索,在个体周围增加扰动,从而在使算法避免陷入局部最优的同时增加了种群的丰富度。
3、本发明提出的基于和声搜索的鲸鱼优化DNA序列算法能够得到质量较优的DNA编码序列。
附图说明
图1为本发明的实现流程图。
具体实施方式
以下将结合附图对本发明作详细说明。其中,本发明用到的约束共有8个,分别是发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,还有新提出的一个约束:配对。将前面提到的前4个约束条件作为目标函数,剩下的作为约束条件。用在权利要求书的第二步,计算每个个体的适应度。
发卡结构表示一条DNA链存在自身互补造成自身折叠的现象。H-measure表示两条互补序列碱基互补配对的个数,用来限制序列间产生不必要的杂交反应的约束。连续性表示一条DNA序列的某一个区间内连续出现相同碱基的个数应处于某一个阈值。相似性表示的是两条同向的DNA序列在等位基因上相同碱基的概率。汉明距离约束指的是两条不同的DNA序列的等位基因上碱基不相同的个数。解链温度表示一半DNA分子由双链变成单链状态时的温度。GC含量表示在任意一条DNA序列中,其所含碱基G(胞嘧啶)和C(鸟嘌呤)的含量占这条DNA链的所有碱基的百分比,本发明中将其规定在50%。配对约束是将随意连续3个碱基为一个单位,使其与剩下所有单位首尾比较查看是否配对,若完全配对调整两个不同碱基的位置。
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。实例中DNA编码的长度、维度均为20,发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,配对等约束如上所述。
步骤1:初始化一个维度、长度都为20的初始DNA编码序列。初始化相关参数,最大迭代次数Max_iter为300,迭代次数t从0开始,汉明距离L=11;
步骤2:对已有种群进行适应度值计算,将适应度值最小的个体最为当前最优解,并记录其位置信息;
步骤3:对每次迭代变化的参数进行取值,
Figure BDA0002191020770000041
是用线性方法从2减到0,/>
Figure BDA0002191020770000042
取[0,1]之间的任一随机数,l取[-1,1]之间的任一随机数,p取[0,1]之间的任一随机数,A的取值按照公式(6):
Figure BDA0002191020770000051
步骤4:对随机取的p进行判断,若p<0.5,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置,更新公式为(7);否则,随机挑选一个鲸鱼,利用公式(8)对其他鲸鱼进行更新;
Figure BDA0002191020770000052
其中
Figure BDA0002191020770000053
Figure BDA0002191020770000054
是当前最优鲸鱼的位置,/>
Figure BDA0002191020770000055
表示当前被更新的鲸鱼位置;
Figure BDA0002191020770000056
其中
Figure BDA0002191020770000057
Figure BDA0002191020770000058
是随机取的一个鲸鱼的位置;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼的位置,公式如下:
Figure BDA0002191020770000059
其中
Figure BDA00021910207700000510
步骤7:将所有种群加入到和声搜索,在和声搜索中,根据当前音色进行声音的变换,变换后的声音与原来声音作比较,留下音色好的声音,从而得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,留下满足约束条件的鲸鱼,采用快速非支配排序的方法选出排名前20的鲸鱼,进入下一次迭代;若经过约束的种群减少到20以下,则全部进入下一次迭代;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群;
表1 为初始DNA序列
Figure BDA0002191020770000061
表2 为最优DNA序列集合
Figure BDA0002191020770000071
本发明提出基于和声搜索的鲸鱼DNA序列优化方法,用鲸鱼算法对初始种群进行搜索。通过发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,配对等约束对种群进行选优,最终选出排序后的前7个序列最为最终的优秀集合输出。本发明在Win10Intel(R)CPU2.70GHz,ARM 8.00GB的环境下运行,用MATLAB2018a进行仿真,实验表明本实例得到的优化序列好于其他算法的序列。

Claims (2)

1.基于和声搜索的鲸鱼DNA序列优化方法,其特征在于,具体步骤如下:
步骤1:随机生成一个初始化种群;
步骤2:对当前种群计算适应度值,将个体适应度值之和的最小值作为当前最优鲸鱼并记录其位置信息;
步骤3:随机产生每一次迭代改变的变量;
步骤4:对变量进行判断,若变量小于设定值,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的系数向量
Figure FDA0004084966940000011
的模|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置;否则,随机挑选一个鲸鱼,对其它鲸鱼进行位置更新;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼位置;
步骤7:加入和声搜索,扩大搜索范围,得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,采用快速非支配排序的方法选出初始种群个数的鲸鱼;所述约束条件,具体为:
对序列x,其反序列为y,将3个连续碱基看成一个单位,则x'=(xi,xi+1,xi+2)和y’=(yj,yj+1,yj+2),对
Figure FDA0004084966940000012
都有j∈[1,n-2],服从函数(5):
Figure FDA0004084966940000013
其中函数subcb()累计x'和y'是否完全互补配对;当subcb()=3时,表示这两个单位内碱基完全配对,则取x'中任意两个不相同的碱基进行位置交换;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群。
2.根据权利要求1所述基于和声搜索的鲸鱼DNA序列优化方法,其特征在于,鲸鱼位置更新计算公式为:
Figure FDA0004084966940000021
其中,
Figure FDA0004084966940000022
Figure FDA0004084966940000023
是用线性方法从2减到0,/>
Figure FDA0004084966940000024
取[0,1]之间的任一随机数,l取[-1,1]之间的任一随机数,p取[0,1]之间的任一随机数,/>
Figure FDA0004084966940000025
表示当前最优鲸鱼的位置,对/>
Figure FDA0004084966940000026
如公式(2)所示:
Figure FDA0004084966940000027
其中,
Figure FDA0004084966940000028
表示随机挑选的鲸鱼位置;
Figure FDA0004084966940000029
如公式(3)所示:/>
Figure FDA00040849669400000210
Figure FDA00040849669400000211
如公式(4)所示:
Figure FDA00040849669400000212
/>
CN201910832011.9A 2019-09-04 2019-09-04 基于和声搜索的鲸鱼dna序列优化方法 Active CN110534154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910832011.9A CN110534154B (zh) 2019-09-04 2019-09-04 基于和声搜索的鲸鱼dna序列优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910832011.9A CN110534154B (zh) 2019-09-04 2019-09-04 基于和声搜索的鲸鱼dna序列优化方法

Publications (2)

Publication Number Publication Date
CN110534154A CN110534154A (zh) 2019-12-03
CN110534154B true CN110534154B (zh) 2023-06-09

Family

ID=68666731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910832011.9A Active CN110534154B (zh) 2019-09-04 2019-09-04 基于和声搜索的鲸鱼dna序列优化方法

Country Status (1)

Country Link
CN (1) CN110534154B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348154B (zh) * 2020-11-06 2023-06-27 大连大学 基于混沌优化鲸鱼算法的dna序列设计方法
CN115660073B (zh) * 2022-12-28 2024-02-06 民航成都物流技术有限公司 基于和声鲸鱼优化算法的入侵检测方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300507A (zh) * 2018-09-04 2019-02-01 大连大学 基于粒子群的混沌入侵杂草算法的dna编码序列优化方法
CN109389206A (zh) * 2018-09-26 2019-02-26 大连大学 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法
CN109886589A (zh) * 2019-02-28 2019-06-14 长安大学 一种基于改进鲸鱼优化算法求解低碳车间调度的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300507A (zh) * 2018-09-04 2019-02-01 大连大学 基于粒子群的混沌入侵杂草算法的dna编码序列优化方法
CN109389206A (zh) * 2018-09-26 2019-02-26 大连大学 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法
CN109886589A (zh) * 2019-02-28 2019-06-14 长安大学 一种基于改进鲸鱼优化算法求解低碳车间调度的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Analysis of Bioactive Amino Acids from Fish Hydrolysates with a New Bioinformatic Intelligent System Approach;Mohamed Abd Elaziz等;《SCIENTIFIC REPRTS》;20170907;第1-9页 *
基于蚁群优化聚类算法的DNA序列分类方法;梁冰 等;《计算机工程与应用》;20101231;第46卷(第25期);第124-126页 *

Also Published As

Publication number Publication date
CN110534154A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
AU2020103826A4 (en) Whale dna sequence optimization method based on harmony search (hs)
Kim et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
Sonnenburg et al. Accurate splice site prediction using support vector machines
Zhu et al. DNA sequence compression using adaptive particle swarm optimization-based memetic algorithm
CN106687966B (zh) 用于数据分析和压缩的方法和系统
US20200239965A1 (en) Source of origin deconvolution based on methylation fragments in cell-free dna samples
Mourad et al. A hierarchical Bayesian network approach for linkage disequilibrium modeling and data-dimensionality reduction prior to genome-wide association studies
CN110534154B (zh) 基于和声搜索的鲸鱼dna序列优化方法
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
Kolosov et al. Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning
Brinda Novel computational techniques for mapping and classification of Next-Generation Sequencing data
Yuan et al. DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks
CN112348154B (zh) 基于混沌优化鲸鱼算法的dna序列设计方法
Phuong et al. Choosing SNPs using feature selection
Kao et al. naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing
Shehzadi et al. Intelligent predictor using cancer-related biologically information extraction from cancer transcriptomes
CN113658643A (zh) 一种基于注意力机制对lncRNA和mRNA的预测方法
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
CN116994645B (zh) 基于交互式推理网络的piRNA与mRNA靶标对的预测方法
JP2000285120A (ja) 遺伝子発現探索方法及びその装置
Shouman et al. Detecting Acute Lymphoblastic Leukemia in down Syndrome Patients Using Convolutional Neural Networks on Preprocessed Mutated Datasets
CN115662515A (zh) 一种利用双重匹配约束和错配约束提高dna编码集质量的方法
CN110364223B (zh) 一种基于多示例学习的ires序列搜寻方法
Biswas Integrative Approaches for Large-scale Biomedical Data Analysis
Bonet et al. Machine Learning Strategies for Improved Phenotype Prediction in Underrepresented Populations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant