CN110533096A

CN110533096A - 基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

Info

Publication number: CN110533096A
Application number: CN201910796324.3A
Authority: CN
Inventors: 王宾; 曹犇; 周士华; 张强; 魏小鹏
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-03
Anticipated expiration: 2039-08-27
Also published as: CN110533096B

Abstract

本发明公开了基于K‑means聚类的多元宇宙算法的DNA存储编码优化方法，其具体为：构造满足组合约束条件的最优DNA编码序列，首先要构造出一定个数的DNA序列作为初始种群，对种群的适应度进行评价排序。其次，利用已经得出的DNA编码序列，用k均值聚类算法和虫洞交叉进行优化，得到适应度较高的DNA编码序列。然后，通过约束比对根据约束判断是否加入备选解集合。最后，输出最优DNA编码序列。该方法可以搜索出数量较优的DNA编码序列。

Description

基于K-means聚类的多元宇宙算法的DNA存储编码优化方法

技术领域

本发明涉及群体智能优化算法和DNA存储编码，具体来说是用多元宇宙算法、K-means聚类算法和虫洞交叉来优化DNA编码序列，其属于DNA存储中编码设计领域。

背景技术

DNA存储技术最早被认为是Joe Davis发起的Microvenus project，目的是在DNA中存储图像等非生物数据。编码基于CTAG的碱基分子大小(C-1、T-2、A-3、G-4)，四个碱基被分配为相变值而不是增量值。每个碱基表示每个二进制位(0或1)转换为另一个二进制要进行多少次重复变换，这是计算机压缩存储的一种技术。或可表示为， C＝X、T＝XX、A＝XXX、G＝XXXX。例如，10101→CCCC，100101→CTCCT。然而在解码时就出现了一个问题，C可以解码成0或1就导致了很多错误。这种方法是DNA存储编码方面的先驱，但是因为解码前后的不一致容易产生错误而没有得到广泛的应用。DNA存储在保存时间上具有优势，在适应的条件下DNA数据存储可以保存多年。然而，读写DNA数据的成本依然很高。但是最近DNA合成和测序方法的飞速发展,DNA存储在将来会是一个很有竞争力的存储解决方案。

发明内容

本申请提出了基于K-means聚类的多元宇宙算法的DNA存储编码优化方法，该方法首先用多元宇宙算法对初始种群进行搜索初始解集；其次，用k均值聚类算法对多元宇宙算法得到的编码进行聚类；接着，将聚类后得到的最劣集合和最优集合等数目交叉；最后，比对所得集合是否满足约束条件，符合约束的加入备选解集合；该方法可以搜索出数量较优的DNA编码序列。

为实现上述目的，本申请的技术方案为：基于K-means聚类的多元宇宙算法的DNA存储编码优化方法，其具体为：构造满足组合约束条件的最优DNA编码序列，首先要构造出一定个数的DNA序列作为初始种群，对种群的适应度进行评价排序。其次，利用已经得出的DNA编码序列，用k均值聚类算法和虫洞交叉进行优化，得到适应度较高的DNA编码序列。然后，通过约束比对根据约束判断是否加入备选解集合。最后，输出最优DNA编码序列。

本发明由于采用以上技术方案，能够取得如下的技术效果：

1、用多元宇宙算法对初始种群进行适应度计算，引入黑/白洞隧道不仅可以把物质随机传送到最好宇宙，还可以提高初始种群的平均适应度；

2、k均值聚类算法克服多元宇宙算法前期收敛慢的缺点，加快收敛速度，使得算法有更快的迭代速度,使用虫洞交叉可以避免算法后期陷入局部最优；

3、本发明提出的基于k均值聚类的多元宇宙算法的DNA序列优化算法能够搜索出数量较优的DNA编码序列。

附图说明

图1为本发明的实现流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施中的技术方案进行清楚、完整的描述，可以理解的是，所描述的实例仅仅是本发明的一部分实例，而不是全部的实施例。基于本发明的实施例，本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明中涉及的约束条件有三条，分别为全不连续性约束、汉明距离、GC含量。将约束条件中的汉明距离和作为目标函数，其他两项作为约束条件。用在权利要求的第二步骤中计算每个个体的适应度值。全不连续性约束表示在一个DNA序列中相同的碱基在相邻时不能连续出现。汉明距离指成对的DNA序列x，y中，序列x与序列y中相同位置元素不同的数量。GC含量约束表示在DNA序列集合中任意一个序列中鸟嘌呤(G)和胞嘧啶(C)的数量占整个序列碱基数量的百分比，本实施例将其约束在50％。

详细步骤如下所示：

步骤1：生成初始宇宙种群，初始化算法需要的参数 TDR,WEP,MAXIter，WEP是虫洞存在概率，WEP是旅行距离率，MAXIter 是最大迭代次数；

步骤2：计算每个宇宙适应度(膨胀率)，更新参数 Best_universe，即当前最好的宇宙，用多元宇宙算法对初始宇宙种群进行排序，选出最优适应度和最劣适应度宇宙，把当前适应度最优的作为初始宇宙集合；

步骤3：产生随机数r₁依次通过轮盘赌选出宇宙产生白洞，与其他宇宙交换物质；

步骤4：对于每个宇宙，产生一个随机数r₂，判断r₂和虫洞存在概率WEP的大小，如果r₂小于洞存在概率WEP,则执行步骤5，反之则执行步骤8；

步骤5：产生两个随机数r₃，r₄并根据随机数r₄和旅行距离率TDR 对宇宙物质进行更新，如果r₃<0.5执行更新公式2，反之执行更新公式3；

步骤6：把更新结果作为k均值聚类的输入，分别用最佳适应度和最劣适应度宇宙为中心进行聚类；

步骤7：从最佳适应度类中取出了与最劣适应度类相同的宇宙数，进行虫洞交叉；

步骤8：计算其他宇宙和初始宇宙是否满足约束条件，若满足即加入初始宇宙集合；

步骤9：判断是否达到最大迭代次数，若是进行步骤10，否则返回步骤2；

步骤10：对结果进行统计，输出序列最大个数；

实施例1

本发明的实施例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述实施例。实例中DNA编码长度n为6，汉明距离约束为d≥4，全不连续性约束、GC含量约束如上所述。

步骤1：对种群进行初始化生成500个长度为6的DNA编码序列。初始化算法所需要的相关参数，虫洞存在概率WEP中的min取0.2， max取1，旅行距离率TDR中p取6；

步骤2：用多元宇宙算法对初始种群进行搜索，首先初始化宇宙种群的适应度，并对宇宙适应度进行排序，选出最优适应度和最劣适应度宇宙，把当前适应度最优的作为初始宇宙集合。就本实例通过 MATLAB进行仿真实验通过GC含量，和全不连续约束得到粒子群优化算法得到初始集合为57；

步骤3：将步骤2用多元宇宙算法得到的57条6维的DNA序列用多元宇宙算法继续进行寻优操作。本实例用MATLAB里面的sort() 函数对宇宙个体适应度进行排序后，产生随机数r₁依次通过轮盘赌选出宇宙产生白洞，与其他宇宙交换物质，宇宙物质的更新方式为:

其中X_ij代表的是第i个宇宙中的第j个物质，X_wj同理。U_i代表的是第i个宇宙，所以NI(Ui)是第i个宇宙的标准膨胀率。通过轮盘赌机制选出第w个宇宙的第j个物质为X_wj。其中r₁为[0,1]之间的随机数；

步骤5：在[0,1]区间产生两个随机数r₃，r₄并根据随机数r₄和旅行距离率TDR对宇宙物质进行更新，如果r₃<0.5执行更新公式2，反之执行更新公式3；

x_ij＝X_j+TDR×((ub_j-lb_j)×r₄+lb_j) (2)

x_ij＝X_j-TDR×((ub_j-lb_j)×r₄+lb_j) (3)

其中X_ij代表的是第i个宇宙中的第j个物质，X_j代表目前所创建的最佳宇宙的第j个物质，第j个物质的边界分别是ub_j和lb_j，TDR 是自适应的参数旅行距离率，r4是[0,1]区间的随机数。

步骤6：把更新结果作为K-means聚类的输入，分别用最佳适应度和最劣适应度宇宙为中心进行聚类为GUniverses，BUniverses，其中GUniverses所代表的是最佳类，BUniverses代表的是最劣类；

步骤7：从最佳适应度类中取出了最劣适应度类相同的宇宙个数，利用函数exchange()进行虫洞交叉；

步骤8：计算其他宇宙和初始宇宙是否满足约束条件，若满足即加入初始宇宙集合newDNA；

步骤9：判断是否达到最大迭代次数1000代，若是进行步骤10，否则返回步骤2；

步骤10：对结果进行统计，输出序列最大个数；

本发明提出基于k均值聚类算法的多元宇宙算法的DNA存储编码优化方法，用多元宇宙算法对初始种群进行搜索。通过GC和全不连续性约束筛选出符合要求的DNA序列，以这些序列为基础根据多元宇宙算法进行不断的更新，每次更新后用K均值算法进行聚类，评价最优适应度进入下一次迭代，最终将得到的最大DNA序列编码集合作为输出结果。本发明在Intel(R)CPU3.6GHz、4.0GB内存、Windows 10 运行环境下，借助MATLAB对该算法进行仿真实验，实验结果表明本实例的方法结果优于其他算法的实验结果。

表1为初始DNA序列

表2为n＝6,d≥4时最优DNA序列集合

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.基于K-means聚类的多元宇宙算法的DNA存储编码优化方法，其特征在于，包括如下具体步骤：

步骤1：生成初始宇宙种群，初始化约束参数:虫洞存在概率WEP，旅行距离率WEP，最大迭代次数MAXIter；

步骤2：计算每个宇宙适应度，更新参数Best_universe，用多元宇宙算法对初始宇宙种群进行排序，选出最优适应度宇宙和最劣适应度宇宙，把当前适应度最优的作为初始宇宙集合；

步骤5：产生两个随机数r₃、r₄，并根据随机数r₄和旅行距离率TDR对宇宙物质进行更新，如果r₃<0.5执行更新公式2，反之执行更新公式3；

步骤10：对结果进行统计，输出序列最大个数。

2.根据权利要求1所述基于K-means聚类的多元宇宙算法的DNA存储编码优化方法，其特征在于，步骤3中宇宙物质的更新方式为:

其中X_ij代表的是第i个宇宙中的第j个物质，U_i代表的是第i个宇宙，NI(Ui)是第i个宇宙的标准适应度值；通过轮盘赌机制选出第w个宇宙的第j个物质为X_wj；其中r₁为[0,1]之间的随机数。

3.根据权利要求1所述基于K-means聚类的多元宇宙算法的DNA存储编码优化方法，其特征在于，更新公式2和更新公式3分别为：

x_ij＝X_j+TDR×((ub_j-lb_j)×r₄+lb_j) (2)

x_ij＝X_j-TDR×((ub_j-lb_j)×r₄+lb_j) (3)

其中X_ij代表的是第i个宇宙中的第j个物质，X_j代表目前所创建的最佳宇宙的第j个物质，第j个物质的边界分别是ub_j和lb_j，TDR是自适应的参数旅行距离率，r4是[0,1]区间的随机数。