CN110533096A - 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法 - Google Patents

基于K-means聚类的多元宇宙算法的DNA存储编码优化方法 Download PDF

Info

Publication number
CN110533096A
CN110533096A CN201910796324.3A CN201910796324A CN110533096A CN 110533096 A CN110533096 A CN 110533096A CN 201910796324 A CN201910796324 A CN 201910796324A CN 110533096 A CN110533096 A CN 110533096A
Authority
CN
China
Prior art keywords
universe
dna
multiverse
fitness
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910796324.3A
Other languages
English (en)
Other versions
CN110533096B (zh
Inventor
王宾
曹犇
周士华
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201910796324.3A priority Critical patent/CN110533096B/zh
Publication of CN110533096A publication Critical patent/CN110533096A/zh
Application granted granted Critical
Publication of CN110533096B publication Critical patent/CN110533096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于K‑means聚类的多元宇宙算法的DNA存储编码优化方法,其具体为:构造满足组合约束条件的最优DNA编码序列,首先要构造出一定个数的DNA序列作为初始种群,对种群的适应度进行评价排序。其次,利用已经得出的DNA编码序列,用k均值聚类算法和虫洞交叉进行优化,得到适应度较高的DNA编码序列。然后,通过约束比对根据约束判断是否加入备选解集合。最后,输出最优DNA编码序列。该方法可以搜索出数量较优的DNA编码序列。

Description

基于K-means聚类的多元宇宙算法的DNA存储编码优化方法
技术领域
本发明涉及群体智能优化算法和DNA存储编码,具体来说是用多元宇宙算法、K-means聚类算法和虫洞交叉来优化DNA编码序列,其属于DNA存储中编码设计领域。
背景技术
DNA存储技术最早被认为是Joe Davis发起的Microvenus project,目的是在DNA中存储图像等非生物数据。编码基于CTAG的碱基分子大小(C-1、T-2、A-3、G-4),四个碱基被分配为相变值而不是增量值。每个碱基表示每个二进制位(0或1)转换为另一个二进制要进行多少次重复变换,这是计算机压缩存储的一种技术。或可表示为, C=X、T=XX、A=XXX、G=XXXX。例如,10101→CCCC,100101→CTCCT。然而在解码时就出现了一个问题,C可以解码成0或1就导致了很多错误。这种方法是DNA存储编码方面的先驱,但是因为解码前后的不一致容易产生错误而没有得到广泛的应用。DNA存储在保存时间上具有优势,在适应的条件下DNA数据存储可以保存多年。然而,读写DNA数据的成本依然很高。但是最近DNA合成和测序方法的飞速发展,DNA存储在将来会是一个很有竞争力的存储解决方案。
发明内容
本申请提出了基于K-means聚类的多元宇宙算法的DNA存储编码优化方法,该方法首先用多元宇宙算法对初始种群进行搜索初始解集;其次,用k均值聚类算法对多元宇宙算法得到的编码进行聚类;接着,将聚类后得到的最劣集合和最优集合等数目交叉;最后,比对所得集合是否满足约束条件,符合约束的加入备选解集合;该方法可以搜索出数量较优的DNA编码序列。
为实现上述目的,本申请的技术方案为:基于K-means聚类的多元宇宙算法的DNA存储编码优化方法,其具体为:构造满足组合约束条件的最优DNA编码序列,首先要构造出一定个数的DNA序列作为初始种群,对种群的适应度进行评价排序。其次,利用已经得出的DNA编码序列,用k均值聚类算法和虫洞交叉进行优化,得到适应度较高的DNA编码序列。然后,通过约束比对根据约束判断是否加入备选解集合。最后,输出最优DNA编码序列。
本发明由于采用以上技术方案,能够取得如下的技术效果:
1、用多元宇宙算法对初始种群进行适应度计算,引入黑/白洞隧道不仅可以把物质随机传送到最好宇宙,还可以提高初始种群的平均适应度;
2、k均值聚类算法克服多元宇宙算法前期收敛慢的缺点,加快收敛速度,使得算法有更快的迭代速度,使用虫洞交叉可以避免算法后期陷入局部最优;
3、本发明提出的基于k均值聚类的多元宇宙算法的DNA序列优化算法能够搜索出数量较优的DNA编码序列。
附图说明
图1为本发明的实现流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施中的技术方案进行清楚、完整的描述,可以理解的是,所描述的实例仅仅是本发明的一部分实例,而不是全部的实施例。基于本发明的实施例,本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明中涉及的约束条件有三条,分别为全不连续性约束、汉明距离、GC含量。将约束条件中的汉明距离和作为目标函数,其他两项作为约束条件。用在权利要求的第二步骤中计算每个个体的适应度值。全不连续性约束表示在一个DNA序列中相同的碱基在相邻时不能连续出现。汉明距离指成对的DNA序列x,y中,序列x与序列y中相同位置元素不同的数量。GC含量约束表示在DNA序列集合中任意一个序列中鸟嘌呤(G)和胞嘧啶(C)的数量占整个序列碱基数量的百分比,本实施例将其约束在50%。
详细步骤如下所示:
步骤1:生成初始宇宙种群,初始化算法需要的参数 TDR,WEP,MAXIter,WEP是虫洞存在概率,WEP是旅行距离率,MAXIter 是最大迭代次数;
步骤2:计算每个宇宙适应度(膨胀率),更新参数 Best_universe,即当前最好的宇宙,用多元宇宙算法对初始宇宙种群进行排序,选出最优适应度和最劣适应度宇宙,把当前适应度最优的作为初始宇宙集合;
步骤3:产生随机数r1依次通过轮盘赌选出宇宙产生白洞,与其他宇宙交换物质;
步骤4:对于每个宇宙,产生一个随机数r2,判断r2和虫洞存在概率WEP的大小,如果r2小于洞存在概率WEP,则执行步骤5,反之则执行步骤8;
步骤5:产生两个随机数r3,r4并根据随机数r4和旅行距离率TDR 对宇宙物质进行更新,如果r3<0.5执行更新公式2,反之执行更新公式3;
步骤6:把更新结果作为k均值聚类的输入,分别用最佳适应度和最劣适应度宇宙为中心进行聚类;
步骤7:从最佳适应度类中取出了与最劣适应度类相同的宇宙数,进行虫洞交叉;
步骤8:计算其他宇宙和初始宇宙是否满足约束条件,若满足即加入初始宇宙集合;
步骤9:判断是否达到最大迭代次数,若是进行步骤10,否则返回步骤2;
步骤10:对结果进行统计,输出序列最大个数;
实施例1
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。实例中DNA编码长度n为6,汉明距离约束为d≥4,全不连续性约束、GC含量约束如上所述。
步骤1:对种群进行初始化生成500个长度为6的DNA编码序列。初始化算法所需要的相关参数,虫洞存在概率WEP中的min取0.2, max取1,旅行距离率TDR中p取6;
步骤2:用多元宇宙算法对初始种群进行搜索,首先初始化宇宙种群的适应度,并对宇宙适应度进行排序,选出最优适应度和最劣适应度宇宙,把当前适应度最优的作为初始宇宙集合。就本实例通过 MATLAB进行仿真实验通过GC含量,和全不连续约束得到粒子群优化算法得到初始集合为57;
步骤3:将步骤2用多元宇宙算法得到的57条6维的DNA序列用多元宇宙算法继续进行寻优操作。本实例用MATLAB里面的sort() 函数对宇宙个体适应度进行排序后,产生随机数r1依次通过轮盘赌选出宇宙产生白洞,与其他宇宙交换物质,宇宙物质的更新方式为:
其中Xij代表的是第i个宇宙中的第j个物质,Xwj同理。Ui代表的是第i个宇宙,所以NI(Ui)是第i个宇宙的标准膨胀率。通过轮盘赌机制选出第w个宇宙的第j个物质为Xwj。其中r1为[0,1]之间的随机数;
步骤4:对于每个宇宙,产生一个随机数r2,判断r2和虫洞存在概率WEP的大小,如果r2小于洞存在概率WEP,则执行步骤5,反之则执行步骤8;
步骤5:在[0,1]区间产生两个随机数r3,r4并根据随机数r4和旅行距离率TDR对宇宙物质进行更新,如果r3<0.5执行更新公式2,反之执行更新公式3;
xij=Xj+TDR×((ubj-lbj)×r4+lbj) (2)
xij=Xj-TDR×((ubj-lbj)×r4+lbj) (3)
其中Xij代表的是第i个宇宙中的第j个物质,Xj代表目前所创建的最佳宇宙的第j个物质,第j个物质的边界分别是ubj和lbj,TDR 是自适应的参数旅行距离率,r4是[0,1]区间的随机数。
步骤6:把更新结果作为K-means聚类的输入,分别用最佳适应度和最劣适应度宇宙为中心进行聚类为GUniverses,BUniverses,其中GUniverses所代表的是最佳类,BUniverses代表的是最劣类;
步骤7:从最佳适应度类中取出了最劣适应度类相同的宇宙个数,利用函数exchange()进行虫洞交叉;
步骤8:计算其他宇宙和初始宇宙是否满足约束条件,若满足即加入初始宇宙集合newDNA;
步骤9:判断是否达到最大迭代次数1000代,若是进行步骤10,否则返回步骤2;
步骤10:对结果进行统计,输出序列最大个数;
本发明提出基于k均值聚类算法的多元宇宙算法的DNA存储编码优化方法,用多元宇宙算法对初始种群进行搜索。通过GC和全不连续性约束筛选出符合要求的DNA序列,以这些序列为基础根据多元宇宙算法进行不断的更新,每次更新后用K均值算法进行聚类,评价最优适应度进入下一次迭代,最终将得到的最大DNA序列编码集合作为输出结果。本发明在Intel(R)CPU3.6GHz、4.0GB内存、Windows 10 运行环境下,借助MATLAB对该算法进行仿真实验,实验结果表明本实例的方法结果优于其他算法的实验结果。
表1为初始DNA序列
表2为n=6,d≥4时最优DNA序列集合
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (3)

1.基于K-means聚类的多元宇宙算法的DNA存储编码优化方法,其特征在于,包括如下具体步骤:
步骤1:生成初始宇宙种群,初始化约束参数:虫洞存在概率WEP,旅行距离率WEP,最大迭代次数MAXIter;
步骤2:计算每个宇宙适应度,更新参数Best_universe,用多元宇宙算法对初始宇宙种群进行排序,选出最优适应度宇宙和最劣适应度宇宙,把当前适应度最优的作为初始宇宙集合;
步骤3:产生随机数r1依次通过轮盘赌选出宇宙产生白洞,与其他宇宙交换物质;
步骤4:对于每个宇宙,产生一个随机数r2,判断r2和虫洞存在概率WEP的大小,如果r2小于洞存在概率WEP,则执行步骤5,反之则执行步骤8;
步骤5:产生两个随机数r3、r4,并根据随机数r4和旅行距离率TDR对宇宙物质进行更新,如果r3<0.5执行更新公式2,反之执行更新公式3;
步骤6:把更新结果作为k均值聚类的输入,分别用最佳适应度和最劣适应度宇宙为中心进行聚类;
步骤7:从最佳适应度类中取出了与最劣适应度类相同的宇宙数,进行虫洞交叉;
步骤8:计算其他宇宙和初始宇宙是否满足约束条件,若满足即加入初始宇宙集合;
步骤9:判断是否达到最大迭代次数,若是进行步骤10,否则返回步骤2;
步骤10:对结果进行统计,输出序列最大个数。
2.根据权利要求1所述基于K-means聚类的多元宇宙算法的DNA存储编码优化方法,其特征在于,步骤3中宇宙物质的更新方式为:
其中Xij代表的是第i个宇宙中的第j个物质,Ui代表的是第i个宇宙,NI(Ui)是第i个宇宙的标准适应度值;通过轮盘赌机制选出第w个宇宙的第j个物质为Xwj;其中r1为[0,1]之间的随机数。
3.根据权利要求1所述基于K-means聚类的多元宇宙算法的DNA存储编码优化方法,其特征在于,更新公式2和更新公式3分别为:
xij=Xj+TDR×((ubj-lbj)×r4+lbj) (2)
xij=Xj-TDR×((ubj-lbj)×r4+lbj) (3)
其中Xij代表的是第i个宇宙中的第j个物质,Xj代表目前所创建的最佳宇宙的第j个物质,第j个物质的边界分别是ubj和lbj,TDR是自适应的参数旅行距离率,r4是[0,1]区间的随机数。
CN201910796324.3A 2019-08-27 2019-08-27 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法 Active CN110533096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796324.3A CN110533096B (zh) 2019-08-27 2019-08-27 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796324.3A CN110533096B (zh) 2019-08-27 2019-08-27 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

Publications (2)

Publication Number Publication Date
CN110533096A true CN110533096A (zh) 2019-12-03
CN110533096B CN110533096B (zh) 2021-09-10

Family

ID=68664411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796324.3A Active CN110533096B (zh) 2019-08-27 2019-08-27 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

Country Status (1)

Country Link
CN (1) CN110533096B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079290A (zh) * 2019-12-17 2020-04-28 中国人民解放军海军航空大学 一种基于改进多元宇宙算法的发动机模型修正方法
CN111292808A (zh) * 2020-02-14 2020-06-16 大连大学 基于改进哈里斯鹰算法的dna存储编码优化方法
CN111339635A (zh) * 2020-01-17 2020-06-26 大连大学 基于阻尼因子的多元宇宙算法的dna存储编码优化方法
CN111858507A (zh) * 2020-06-16 2020-10-30 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN113191108A (zh) * 2021-04-20 2021-07-30 西安理工大学 一种光伏组件等效电路模型参数高效辨识方法
CN113704868A (zh) * 2021-07-19 2021-11-26 广西大学 一种基于多目标优化飞轮储能系统轴承的故障诊断方法
WO2023040343A1 (zh) * 2021-09-18 2023-03-23 大连理工大学 基于双策略黑蜘蛛算法的dna存储编码优化方法
GB2619782A (en) * 2021-09-18 2023-12-20 Univ Dalian Tech DNA storage coding optimization method based on double-strategy back spider algorithm
WO2024112946A1 (en) * 2022-11-22 2024-05-30 University Of Southern California Cell-free dna methylation test for breast cancer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SEYEDALI MIRJALILI 等: "Multi-Verse Optimizer: a nature-inspired algorithm for global optimization", 《NEURAL COMPUT & APPLIC》 *
潘魏: "多元宇宙优化算法及应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
聂颖 等: "多元宇宙优化算法改进SVM参数", 《辽宁工程技术大学学报(自然科学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079290A (zh) * 2019-12-17 2020-04-28 中国人民解放军海军航空大学 一种基于改进多元宇宙算法的发动机模型修正方法
CN111339635A (zh) * 2020-01-17 2020-06-26 大连大学 基于阻尼因子的多元宇宙算法的dna存储编码优化方法
CN111339635B (zh) * 2020-01-17 2023-06-30 大连大学 基于阻尼因子的多元宇宙算法的dna存储编码优化方法
CN111292808B (zh) * 2020-02-14 2023-04-28 大连大学 基于改进哈里斯鹰算法的dna存储编码优化方法
CN111292808A (zh) * 2020-02-14 2020-06-16 大连大学 基于改进哈里斯鹰算法的dna存储编码优化方法
CN111858507A (zh) * 2020-06-16 2020-10-30 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN111858507B (zh) * 2020-06-16 2023-06-20 广州大学 基于dna的数据存储方法、解码方法、系统和装置
CN113191108A (zh) * 2021-04-20 2021-07-30 西安理工大学 一种光伏组件等效电路模型参数高效辨识方法
CN113704868A (zh) * 2021-07-19 2021-11-26 广西大学 一种基于多目标优化飞轮储能系统轴承的故障诊断方法
CN113704868B (zh) * 2021-07-19 2023-08-04 广西大学 一种基于多目标优化飞轮储能系统轴承的故障诊断方法
WO2023040343A1 (zh) * 2021-09-18 2023-03-23 大连理工大学 基于双策略黑蜘蛛算法的dna存储编码优化方法
GB2619782A (en) * 2021-09-18 2023-12-20 Univ Dalian Tech DNA storage coding optimization method based on double-strategy back spider algorithm
WO2024112946A1 (en) * 2022-11-22 2024-05-30 University Of Southern California Cell-free dna methylation test for breast cancer

Also Published As

Publication number Publication date
CN110533096B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110533096A (zh) 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法
US11748628B2 (en) Method for optimizing reservoir operation for multiple objectives based on graph convolutional neural network and NSGA-II algorithm
CN111582431B (zh) 一种两步式X结构Steiner最小树构建方法
CN110162041A (zh) 一种基于自适应遗传算法的机器人路径规划方法
CN110851662B (zh) 基于元路径的异质信息网络链路预测方法
CN105303450A (zh) 基于谱聚类改进交叉的复杂网络社区发现方法
CN107463702A (zh) 一种基于进化算法的数据库多连接查询优化方法
CN111292808A (zh) 基于改进哈里斯鹰算法的dna存储编码优化方法
CN107122843A (zh) 一种基于改进遗传算法的旅行商问题求解方法
CN110347881A (zh) 一种基于路径回溯图嵌入的群体发现方法
Froese et al. The border k-means clustering algorithm for one dimensional data
CN102663499B (zh) 基于模拟退火遗传算法的网络社区划分方法
CN113222165A (zh) 一种基于遗传算法的量子线路优化方法
Sun et al. Find the best path: An efficient and accurate classifier for image hierarchies
CN106991442A (zh) 混合蛙跳算法的自适应核k‑means方法与系统
CN107565973A (zh) 一种结点可扩展的哈夫曼编码的实现方法及电路结构
CN111915091A (zh) 一种车位排布方法、装置、终端和介质
CN101616074B (zh) 基于量子进化的组播路由优化方法
CN112270398A (zh) 一种基于基因编程的集群行为学习方法
CN117253037A (zh) 语义分割模型结构搜索方法、自动语义分割方法及系统
CN114742593A (zh) 一种物流仓储中心优化选址方法及系统
CA2322138A1 (en) Code compaction by evolutionary algorithm
CN108509764B (zh) 一种基于遗传属性约简的古生物谱系演化分析方法
CN111339635A (zh) 基于阻尼因子的多元宇宙算法的dna存储编码优化方法
CN105740952A (zh) 社区网络检测的多目标快速遗传方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant