CN110534154A - 基于和声搜索的鲸鱼dna序列优化方法 - Google Patents
基于和声搜索的鲸鱼dna序列优化方法 Download PDFInfo
- Publication number
- CN110534154A CN110534154A CN201910832011.9A CN201910832011A CN110534154A CN 110534154 A CN110534154 A CN 110534154A CN 201910832011 A CN201910832011 A CN 201910832011A CN 110534154 A CN110534154 A CN 110534154A
- Authority
- CN
- China
- Prior art keywords
- whale
- population
- whales
- harmony
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims abstract description 18
- 238000005457 optimization Methods 0.000 title claims abstract description 11
- 241000283153 Cetacea Species 0.000 claims abstract description 48
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 108020004414 DNA Proteins 0.000 description 14
- 238000002844 melting Methods 0.000 description 4
- 230000008018 melting Effects 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 238000005842 biochemical reaction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于和声搜索的鲸鱼DNA序列优化方法,首先随机生成一个初始化种群;其次,采用WOA算法对种群进行更新;接着,用和声搜索扩大搜索范围,得到新种群;然后通过加入多个约束条件缩小解空间;最后,对结果的适应度值进行排序并输出最优序列。和声搜索离散性强,对局部优解的搜索能力较强,通过和声不断搜索,在个体周围增加扰动,从而在使算法避免陷入局部最优的同时增加了种群的丰富度。
Description
技术领域
本发明属于DNA计算中编码设计领域,具体说是基于和声搜索的鲸鱼DNA序列优化方法。
背景技术
南加州大学阿德尔曼教授在1994年用DNA分子作为计算介质,解决了7个顶点哈密尔顿路径问题,拿到了生物技术与计算机相结合的钥匙,打开了DNA计算的大门。利用DNA分子在编码时可以唯一地被识别的特点,遵循碱基互补配对的原则,将要解决的问题映射成一个DNA分子集合。对生成的DNA分子进行生化反应,得到问题的所有解空间,再对解空间进行分离提取,就可以得到问题的解。遵循的碱基互补配对原则是碱基A与碱基T配对,碱基C与碱基G配对;生化反应,通常采用DNA分子的杂交反应,使经过编码的DNA分子完全杂交是保证问题准确可靠解决的关键。因此研究高质量的DNA分子序列是一项具有重要意义的工作。
发明内容
将鲸鱼算法与和声搜索算法相结合,提出了基于和声搜索的鲸鱼DNA序列优化方法;本方法与现有方法相比增加了新的约束条件:配对。通过模拟本方法可以得到序列质量较高的DNA序列。
为实现上述目的,本发明的技术方案为:基于和声搜索的鲸鱼DNA序列优化方法,需要得到满足多个约束条件的DNA优化序列。首先随机生成一个初始化种群;其次,采用WOA算法对种群进行更新;接着,用和声搜索扩大搜索范围,得到新种群;然后通过加入多个约束条件缩小解空间;最后,对结果的适应度值进行排序并输出最优序列。具体步骤为:
步骤1:随机生成一个初始化种群,对参数进行初始化,Max_iter是最大迭代次数,t是当前迭代次数;
步骤2:对当前种群计算适应度值,将个体适应度值之和的最小值作为当前最优鲸鱼并记录其位置信息;
步骤3:随机产生每一次迭代改变的变量;
步骤4:对变量p(p∈[0,1])进行判断,若p<0.5,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置;否则,随机挑选一个鲸鱼对其它鲸鱼的位置进行更新;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼的位置;
步骤7:将已存在的所有种群加入到和声搜索,扩大搜索范围,以得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,采用快速非支配排序的方法选出初始种群个数的鲸鱼;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群。
本发明通过以上方法,可以取得如下效果:
1、对初始种群进行适应度值计算时,确定个体的适应度值之和的最小值为当前最优,记录最小值,便于鲸鱼算法种群进化时使个体对环境适应性更好,得以全面优化。
2、鲸鱼算法具有容易陷入局部最优的缺点,而和声搜索离散性强,对局部优解的搜索能力较强,通过和声不断搜索,在个体周围增加扰动,从而在使算法避免陷入局部最优的同时增加了种群的丰富度。
3、本发明提出的基于和声搜索的鲸鱼优化DNA序列算法能够得到质量较优的DNA编码序列。
附图说明
图1为本发明的实现流程图。
具体实施方式
以下将结合附图对本发明作详细说明。其中,本发明用到的约束共有8个,分别是发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,还有新提出的一个约束:配对。将前面提到的前4个约束条件作为目标函数,剩下的作为约束条件。用在权利要求书的第二步,计算每个个体的适应度。
发卡结构表示一条DNA链存在自身互补造成自身折叠的现象。H-measure表示两条互补序列碱基互补配对的个数,用来限制序列间产生不必要的杂交反应的约束。连续性表示一条DNA序列的某一个区间内连续出现相同碱基的个数应处于某一个阈值。相似性表示的是两条同向的DNA序列在等位基因上相同碱基的概率。汉明距离约束指的是两条不同的DNA序列的等位基因上碱基不相同的个数。解链温度表示一半DNA分子由双链变成单链状态时的温度。GC含量表示在任意一条DNA序列中,其所含碱基G(胞嘧啶)和C(鸟嘌呤)的含量占这条DNA链的所有碱基的百分比,本发明中将其规定在50%。配对约束是将随意连续3个碱基为一个单位,使其与剩下所有单位首尾比较查看是否配对,若完全配对调整两个不同碱基的位置。
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。实例中DNA编码的长度、维度均为20,发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,配对等约束如上所述。
步骤1:初始化一个维度、长度都为20的初始DNA编码序列。初始化相关参数,最大迭代次数Max_iter为300,迭代次数t从0开始,汉明距离L=11;
步骤2:对已有种群进行适应度值计算,将适应度值最小的个体最为当前最优解,并记录其位置信息;
步骤3:对每次迭代变化的参数进行取值,是用线性方法从2减到0,取[0,1]之间的任一随机数,l取[-1,1]之间的任一随机数,p取[0,1]之间的任一随机数,A的取值按照公式(6):
步骤4:对随机取的p进行判断,若p<0.5,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置,更新公式为(7);否则,随机挑选一个鲸鱼,利用公式(8)对其他鲸鱼进行更新;
其中 是当前最优鲸鱼的位置,表示当前被更新的鲸鱼位置;
其中 是随机取的一个鲸鱼的位置;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼的位置,公式如下:
其中
步骤7:将所有种群加入到和声搜索,在和声搜索中,根据当前音色进行声音的变换,变换后的声音与原来声音作比较,留下音色好的声音,从而得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,留下满足约束条件的鲸鱼,采用快速非支配排序的方法选出排名前20的鲸鱼,进入下一次迭代;若经过约束的种群减少到20以下,则全部进入下一次迭代;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群;
表1 为初始DNA序列
表2 为最优DNA序列集合
本发明提出基于和声搜索的鲸鱼DNA序列优化方法,用鲸鱼算法对初始种群进行搜索。通过发卡结构、H-measure、连续性、相似性、汉明距离、解链温度、GC含量,配对等约束对种群进行选优,最终选出排序后的前7个序列最为最终的优秀集合输出。本发明在Win10Intel(R)CPU2.70GHz,ARM 8.00GB的环境下运行,用MATLAB2018a进行仿真,实验表明本实例得到的优化序列好于其他算法的序列。
Claims (3)
1.基于和声搜索的鲸鱼DNA序列优化方法,其特征在于,具体步骤如下:
步骤1:随机生成一个初始化种群;
步骤2:对当前种群计算适应度值,将个体适应度值之和的最小值作为当前最优鲸鱼并记录其位置信息;
步骤3:随机产生每一次迭代改变的变量;
步骤4:对变量进行判断,若变量小于设定值,执行步骤5,否则执行步骤6;
步骤5:判断本次迭代的系数向量的模|A|是否小于1,如果小于1,用当前最优的鲸鱼进行更新剩余鲸鱼的位置;否则,随机挑选一个鲸鱼,对其它鲸鱼进行位置更新;
步骤6:由当前最优鲸鱼采用螺旋上升公式进行更新其它鲸鱼位置;
步骤7:加入和声搜索,扩大搜索范围,得到新的优秀种群;
步骤8:将所有种群通过约束条件,删除不满足约束条件的鲸鱼,采用快速非支配排序的方法选出初始种群个数的鲸鱼;
步骤9:迭代次数加1,判断是否达到最大迭代次数,未达到执行步骤2,否则执行步骤10;
步骤10:对结果的适应度值进行排序并输出结果,得到优化后的种群。
2.根据权利要求1所述基于和声搜索的鲸鱼DNA序列优化方法,其特征在于,鲸鱼位置更新计算公式为:
其中, 是用线性方法从2减到0,取[0,1]之间的任一随机数,l取[-1,1]之间的任一随机数,p取[0,1]之间的任一随机数,表示当前最优鲸鱼的位置,对X#如公式(2)所示:
其中,表示随机挑选的鲸鱼位置;
对D如公式(3)所示:
对如公式(4)所示:
3.根据权利要求1所述基于和声搜索的鲸鱼DNA序列优化方法,其特征在于,加入新的种群约束条件,具体为:
对序列x,其反序列为y,将3个连续碱基看成一个单位,则x′=(xi,xi+1,xi+2)和y’=(yj,yj+1,yj+2),对都有j∈[1,n-2],服从函数(5)
其中函数subcb()累计x′和y′是否完全互补配对;当subcb()=3时,表示这两个单位内碱基完全配对,则取x′中任意两个不相同的碱基进行位置交换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832011.9A CN110534154B (zh) | 2019-09-04 | 2019-09-04 | 基于和声搜索的鲸鱼dna序列优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832011.9A CN110534154B (zh) | 2019-09-04 | 2019-09-04 | 基于和声搜索的鲸鱼dna序列优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534154A true CN110534154A (zh) | 2019-12-03 |
CN110534154B CN110534154B (zh) | 2023-06-09 |
Family
ID=68666731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832011.9A Active CN110534154B (zh) | 2019-09-04 | 2019-09-04 | 基于和声搜索的鲸鱼dna序列优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534154B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348154A (zh) * | 2020-11-06 | 2021-02-09 | 大连大学 | 基于混沌优化鲸鱼算法的dna序列设计方法 |
CN115660073A (zh) * | 2022-12-28 | 2023-01-31 | 民航成都物流技术有限公司 | 基于和声鲸鱼优化算法的入侵检测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300507A (zh) * | 2018-09-04 | 2019-02-01 | 大连大学 | 基于粒子群的混沌入侵杂草算法的dna编码序列优化方法 |
CN109389206A (zh) * | 2018-09-26 | 2019-02-26 | 大连大学 | 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法 |
CN109886589A (zh) * | 2019-02-28 | 2019-06-14 | 长安大学 | 一种基于改进鲸鱼优化算法求解低碳车间调度的方法 |
-
2019
- 2019-09-04 CN CN201910832011.9A patent/CN110534154B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300507A (zh) * | 2018-09-04 | 2019-02-01 | 大连大学 | 基于粒子群的混沌入侵杂草算法的dna编码序列优化方法 |
CN109389206A (zh) * | 2018-09-26 | 2019-02-26 | 大连大学 | 基于非支配排序的混合蝙蝠算法的dna编码序列优化方法 |
CN109886589A (zh) * | 2019-02-28 | 2019-06-14 | 长安大学 | 一种基于改进鲸鱼优化算法求解低碳车间调度的方法 |
Non-Patent Citations (2)
Title |
---|
MOHAMED ABD ELAZIZ等: "Analysis of Bioactive Amino Acids from Fish Hydrolysates with a New Bioinformatic Intelligent System Approach", 《SCIENTIFIC REPRTS》 * |
梁冰 等: "基于蚁群优化聚类算法的DNA序列分类方法", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348154A (zh) * | 2020-11-06 | 2021-02-09 | 大连大学 | 基于混沌优化鲸鱼算法的dna序列设计方法 |
CN112348154B (zh) * | 2020-11-06 | 2023-06-27 | 大连大学 | 基于混沌优化鲸鱼算法的dna序列设计方法 |
CN115660073A (zh) * | 2022-12-28 | 2023-01-31 | 民航成都物流技术有限公司 | 基于和声鲸鱼优化算法的入侵检测方法和系统 |
CN115660073B (zh) * | 2022-12-28 | 2024-02-06 | 民航成都物流技术有限公司 | 基于和声鲸鱼优化算法的入侵检测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110534154B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020103826A4 (en) | Whale dna sequence optimization method based on harmony search (hs) | |
Min et al. | Predicting enhancers with deep convolutional neural networks | |
Phuong et al. | Choosing SNPs using feature selection | |
US20200239965A1 (en) | Source of origin deconvolution based on methylation fragments in cell-free dna samples | |
CN108052696B (zh) | 利用粒子群算法的三值fprm电路面积与延时优化方法 | |
Kolosov et al. | Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning | |
CN110534154A (zh) | 基于和声搜索的鲸鱼dna序列优化方法 | |
CN112348154A (zh) | 基于混沌优化鲸鱼算法的dna序列设计方法 | |
Oluoch et al. | A review on RNA secondary structure prediction algorithms | |
Sun et al. | HS-MMGKG: a fast multi-objective harmony search algorithm for two-locus model detection in GWAS | |
Phuong et al. | Choosing SNPs using feature selection | |
Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
CN107977550A (zh) | 一种基于压缩的快速分析致病基因算法 | |
Shehzadi et al. | Intelligent predictor using cancer-related biologically information extraction from cancer transcriptomes | |
Bao et al. | A deep embedded clustering algorithm for the binning of metagenomic sequences | |
CN113658643A (zh) | 一种基于注意力机制对lncRNA和mRNA的预测方法 | |
CN108182347B (zh) | 一种大规模跨平台基因表达数据分类方法 | |
CN113808671B (zh) | 基于深度学习区别编码和非编码核糖核酸的方法 | |
CN116994645B (zh) | 基于交互式推理网络的piRNA与mRNA靶标对的预测方法 | |
CN110364223B (zh) | 一种基于多示例学习的ires序列搜寻方法 | |
Gupal et al. | Using compositions of Markov models to determine functional gene fragments | |
Soo et al. | Deep Neural Network-Empowered Polygenic Disease Prediction on Cardiovascular Diseases | |
Dogan et al. | Characterizing RNA secondary-structure features and their effects on splice-site prediction | |
CN115662515A (zh) | 一种利用双重匹配约束和错配约束提高dna编码集质量的方法 | |
CN116825178A (zh) | 疾病相关可变剪接异构体预测模型建立及其预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |