CN101866388B

CN101866388B - 一种dna计算编码系统及其方法

Info

Publication number: CN101866388B
Application number: CN2009100824301A
Authority: CN
Inventors: 许进; 赵东明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2009-04-16
Filing date: 2009-04-16
Publication date: 2012-07-04
Anticipated expiration: 2029-04-16
Also published as: CN101866388A

Abstract

本发明涉及一种DNA计算编码系统及其方法，该系统包括：评价模型生成模块，用于构建DNA序列的评价模型，并利用所述评价模型计算DNA序列的评价参数；DNA序列搜索模块，用于基于模拟退火算法搜索评价参数值最小的最优序列，本系统和方法建立了一个完善的DNA编码体系，综合考虑了各种评价DNA编码的影响因素及其相关性，有效地避免了DNA计算时不期望的二级结构的产生。

Description

一种DNA计算编码系统及其方法

技术领域

本发明涉及生物纳米计算技术，尤其涉及一种DNA计算编码系统及其方法。

背景技术

以DNA分子为“数据”、生物酶或者生化操作为“工具”的一种新的信息处理计算机模型-DNA计算机模型正在受到诸如分子生物学、基因工程、化学以及计算机科学、数学、物理学等许多领域科学家的极大关注，DNA计算机已经形成了当前科学领域中的一个研究“热点”。

DNA计算是以生化反应或者生化操作为机理的一种新的计算模式，具有如下四个优点：①具有高度的并行性，运算速度快；②DNA作为信息的载体其贮存的容量非常之大；③DNA分子生物计算所消耗的能量只有一台电子计算机完成同样计算所消耗的能量的十亿分之一；④自然界可获取的DNA资源丰富。正是由于DNA计算的上述优势，使得在未来的科学领域内，DNA计算机有望在优化计算、密码学、数学等众多领域得到突破性的创新与应用。

DNA计算的基本原理是：利用DNA分子的双螺旋结构和碱基互补配对的性质，将所要处理的问题编码为特定的DNA分子，在生物酶的作用下，或者某些生化操作下，通过可控的生化反应生成问题的解空间，然后利用各种现代分子生物技术得出运算结果。在所有的DNA计算中，首当其冲的问题是编码问题。DNA序列的编码是数学上的一个很困难的问题，这是因为，在DNA计算中，作为“数据”的DNA分子不能随机的产生，原因很多，诸如氢键引力的作用有可能导致不希望出现的发夹构形的DNA分子产生；自由能ΔG、解链温度T_m值，序列的相似度问题、以及问题的规模与DNA序列长度的选择问题等。所以，采用什么样的编码(单链/双链/环状/发卡状/混合型/具有粘性末端)是DNA计算中的一个基本问题。进而，编码的长度问题，若过长，则解空间“膨胀”，不仅产生巨大的资源浪费，而且给生物操作，或者生化反应带来不必要的麻烦，使问题求解变得复杂，甚至难于求解。因此，如何根据图信息处理的特性，给出尽可能优化的编码系统是DNA计算机研究中的一个基本的问题。

另外，作为一种新型的计算方式，可靠性是其存在和发展的基础。由于DNA计算所依赖的各种生化操作均存在一定的误差，如PCR扩增的效率大概为90％，而生物酶的效率大概为80％～95％。随着计算过程中循环次数的增加，其累积误差将不容忽视。更为突出的是，DNA计算中的核心操作——杂交反应在不完全互补的条件下也能发生，由此形成各种不希望的二级结构(如图1所示)。这些因素将导致DNA计算的实际计算过程有可能偏离计算模型所设计的方向从而得出错误的结果。众所周知，基于信息论的各种纠错码方法有效的解决了电子计算机中的信息传输和处理过程中存在的一些问题。在DNA计算中，信息的识别主要是通过DNA分子间的特异性杂交来实现的。因此，系统的开展基于DNA计算的编码方法的研究，以此来提高DNA计算中的信息处理的“信噪比”，就成为解决其可靠性的一个有效的途径。

现有技术中的DNA序列编码技术主要包括以下几种。

一、Frutos A.G.等提出的基于模板的DNA编码方法，利用汉明距离和反补汉明距离减少编码间的相似程度。模板-映射方法是将DNA分子的编码过程分为二步：(1)搜索满足一定条件的二进制串作为模板集合T，其中“1”代表A/T的位置，”0”代表C/G的位置；(2)搜索满足一定条件的二进制串作为映射集合M，然后由T×M→S，最终得到所期望的DNA编码序列集合S，其规则1×1→T，1×0→A， 0×1→G，0×0→C。模板-映射方法主要的理论基础是当模板集合T和映射集合M中的各序列间的距离均大于d时，它们所产生的目标序列间的距离也大于d。

Frutos A.G.等采用8bp的DNA序列代表一个可能的布尔变量组合，编码的要求如下：

a.GC含量为50％；

b.任两个编码的DNA序列之间的汉明距离大于等于4；

c.x(x的补序列)和y(y的补序列)之间的汉明距离大于等于4；

模板集合T必须满足条件(1)、(2)和(3)；映射集合M满足条件(2)和(3)。最后得到一个有108个编码的DNA序列集合，并进行了杂交试验。试验结果表明，对于长度为16bp的DNA分子，完全匹配与不完全匹配(有4个不同位点)的解链温度T_m的差别最小为30℃，自由能的变化ΔG最小为10kcal/mol。

二、Feldkamp等提出了最小长度子串评价方法：所有DNA序列(长度为n_s)间的相同子串的最大长度为n_b-1，而长度为n_b的子串在编码集合中最多出现一次。于是定义

Φ = \frac{n_{b} - 1}{n_{s}}

为DNA序列间的相似度，显然Ф越大，DNA分子间的相似度越小，出现错误杂交的几率越小。搜索方法如下：

a.产生所有长度为n_b的基础串(base strand)集合；

b.过滤掉各种不满足要求的基础串如回文结构、GC含量、启动子、多聚GGG等；

c.随机选取一个合法的基础串作为有向树的树根；然后去掉根顶点的第一个字母，在其末尾分别加上4个碱基A、G、C、T生成4个树叶顶点(如图2所示)；重复此过程直到生成长度为n_s-n_b的有向路；

d.对新生成的DNA序列用各种不同的过滤器进行过滤，如GC 含量、解链温度、酶识别序列、同源性等。

e.如果新生成的DNA序列满足要求，就将其加入新生成的序列集合并中止该有向树搜索过程；否则就回到上一顶点知道遍历完整个有向树；

f.重复c、d、e直到基础串集合变为空集。

三、Deatonn等人提出用遗传算法来解决DNA计算中的编码问题，其流程如图3所示。初始群体为特定长度的单链，经过复性后变为双链，然后在连接酶的作用下随机交叉生成一条长的双链；评价函数是根据生化反应过程的自由能变化ΔG来确定的，选择和变异过程均用内切酶uvrABC来实现。内切酶uvrABC能够在双链上识别不完全匹配的位点，并在此将一条单链切去一个12bp的单链。在选择过程中，只要加入核酸外切酶可水解掉有缺口的双链；在变异过程中，只要加入DNA聚合酶进行PCR反应将缺口补齐从而完全互补。由于选择过程将水解掉大量的DNA分子，因此需要不定期进行复制过程来增加群体的多样性。

综上所述，DNA计算本身的特殊性决定了其编码问题的复杂性，影响因素众多且难以综合考虑，已有的技术方法对编码的约束基本上是一种人为的经验假设，而没有进行系统科学的评价；并且，现有的编码方法主要是设法如何最大限度的降低编码间的相似性，而很少或者没有考虑具体模型中的数据结构的特征。

发明内容

本发明的目的是提供一种DNA计算编码系统及其方法，以解决已有DNA计算编码技术存在的上述缺陷。

为了达到上述目的，本发明的技术方案提出一种DNA计算编码系统，该系统包括：

评价模型生成模块，构建DNA序列的评价模型，并利用所述评价模型计算DNA序列的评价参数；

DNA序列搜索模块，基于模拟退火算法搜索评价参数值最小的最优序列。

上述的DNA计算编码系统中，所述评价模型包括：

a.H测度评价函数

f_{H} = \max_{i, j, i < j} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))}

其中，H(*，*)表示汉明距离，σ^k表示右(左)编码框移位，k为编码框长度，x_i表示补序列；

b.自互补评价函数

f_{self} = \max_{i} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))};

c.GC含量评价函数

f_{GC} = Σ_{i = 1}^{m} {({GC}^{(i)} - {GC}_{user_defined}^{(i)})}^{2}

其中，

{GC}_{user_defined}^{(i)} &Element; [0,100]

为序列x_i的GC含量的目标值；

d.相似度评价函数

f_{sim} = \max_{i, j, i < j} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))};

e.连续性评价函数

f_{Con} = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (j - 1) N_{j}^{(i)}

其中，N_j ⁽ⁱ⁾表示在DNA序列x_i中j个连续相同碱基出现的次数；

f.解链温度评价函数

f_{T_{m}} = Σ_{i = 1}^{m} {(T_{m}^{(i)} {- T}_{user_defined}^{i})}^{2}

其中，

T_{user_defined}^{i} &Element; [0,100]

为序列x_i的解链温度的目标值；

g.3′端互补评价函数

f_{3 end} = Σ_{i = 1}^{m} Σ_{j = 1}^{n} CN (x_{i} x_{j}^{(k)})

其中，CN(x_ix_j ^(k))是序列x_i与序列x_j的3’端k个碱基完全互补的个数，k由用户定义。

本发明的技术方案还提出一种DNA计算编码方法，该方法包括以下步骤：

生成评价模型，并利用所述评价模型计算DNA序列的评价参数；

随机生成定长的若干个DNA序列；

基于模拟退火算法搜索评价参数值最小的最优序列。

上述的DNA计算编码方法中，所述生成评价模型并计算评价参数的步骤具体包括：

S41.对指定长度为L的DNA序列，输入要评价的参数和权值，并将这些参数按权值大小降序排列。

S42.随机生成k个样本序列，计算这些序列的每个评价参数的参数值；

S43.计算参数值的平均值和标准方差

μ_{i} = \frac{1}{k} Σ_{i = 1}^{k} x_{ij}

σ_{i} = \sqrt{\frac{1}{k} Σ_{i = 1}^{k} {(x_{ij} - μ_{i})}^{2}}

S44.计算评价参数的正则值

x_{ij} = \frac{x_{ij} - μ_{i}}{σ_{i}}

S45.计算正则值的Schmit正交值

z_{ij} = x_{ij} - Σ_{i = 1}^{i - 1} b_{i 1} z_{1 j}

式中：

b_{i 1} = \frac{1}{{kV}_{1}} Σ_{j = 1}^{k},

V_{1} = \frac{1}{k} Σ_{j = 1}^{k} z_{1 j}^{2}

S46.计算每个评价参数的的贡献率

ρ_{i} = \frac{V_{i}^{2}}{Σ_{p = 1}^{n} V_{p}^{2}}

S47.删除贡献率低于阈值的评价参数

S48.将被删除的评价参数的权值重新分配给其它的评价参数，新的权值计算如下：

W_{q}^{'} = W_{q} + \frac{r_{1 q}}{Σ_{i = 1}^{i - 1} r_{1 i}} (1 - ρ_{i}) W_{i}

S49.重新排列评价参数，转步骤S45。

上述的DNA计算编码方法中，所述基于模拟退火算法搜索评价参数值最小的最优序列具体包括：

S51.选择初始可行解x；

S52.当温度T＞ε(ε是一个较小数)，则执行下一步；

S53.从邻域中任意选择一个可行解y；

S54.如果x＜y，则在概率下用x取代y；

S55.否则，用y取代x。

本发明的技术方案建立了一个完善的DNA编码体系，综合考虑了各种评价DNA编码的影响因素及其相关性，有效地避免了DNA计算时不期望的二级结构的产生。

附图说明

图1为本发明的评价模型生成模块的计算流程图；

图2为本发明实施例的模拟退火算法(SA)搜索评价参数值最小的最优序列的流程图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明的DNA计算编码系统将各种基本评价参数如H测度、自互补、GC含量、相似度、解链温度等作为影响编码的基本因素，建立综合型DNA编码评价模型。系统分为两个模块：评价模型生成模块和DNA序列搜索模块。详细方案如下：

1.评价模型

a.H测度定义如下：

| x_{i}, x_{j} | = \min_{- n < k < n} H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))

式中，H(*，*)表示汉明距离，σ^k表示右(左)编码框移位，k为编码框长度，x_i，x_j分别表示DNA序列，x_i表示补序列。

H测度评价函数如下：

f_{H} = \max_{i, j, i < j} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))}

b.自互补评价函数如下：

f_{self} = \max_{i} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))}

c.GC含量评价函数

f_{GC} = Σ_{i = 1}^{m} {({GC}^{(i)} - {GC}_{user_defined}^{(i)})}^{2}

式中

{GC}_{user_defined}^{(i)} &Element; [0,100]

为序列x_i的GC含量的目标值。

d.相似度评价函数

f_{sim} = \max_{i, j, i < j} \max_{- n < k < n} {n - H (x_{i}, σ^{k} (\overset{&OverBar;}{x_{i}}))}

e.连续性评价函数

f_{Con} = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (j - 1) N_{j}^{(i)}

式中N_j ⁽ⁱ⁾表示在DNA序列x_i中j个连续相同碱基出现的次数。

f.解链温度评价函数

f_{T_{m}} = Σ_{i = 1}^{m} {(T_{m}^{(i)} {- T}_{user_defined}^{i})}^{2}

T_{user_defined}^{i} &Element; [0,100]

为序列x_i的解链温度的目标值。

g.3′端互补评价函数

要避免3′端的互补重叠以防引物二聚体的形成。

f_{3 end} = Σ_{i = 1}^{m} Σ_{j = 1}^{n} CN (x_{i} x_{j}^{(k)})

式中CN(x_ix_j ^(k))是序列x_i与序列x_j的3’端k个碱基完全互补的个数，k由用户定义。

h.综合评价模型

F = Σ_{i = 1}^{m} w_{i} f_{i}

式中f_i是评价函数值，w_i是该评价参数的权值。

2.评价模型生成模块

评价模型生成模块的计算流程如图1所示，包括以下步骤：

S41.对指定长度为L的DNA序列，用户输入要评价的参数f_i和权值w_i(i＝1，2，...n)，系统将这些参数按权值大小降序排列。

S42.随机生成k个样本序列(k＝1000)，计算这些序列的每个评价参数f_i的参数值x_ij(j＝1...k)；

S43.计算参数值x_ij的平均值和标准方差

μ_{i} = \frac{1}{k} Σ_{i = 1}^{k} x_{ij}

σ_{i} = \sqrt{\frac{1}{k} Σ_{i = 1}^{k} {(x_{ij} - μ_{i})}^{2}}

S44.计算评价参数的正则值

x_{ij} = \frac{x_{ij} - μ_{i}}{σ_{i}}

S45.计算正则值的Schmit正交值

z_{ij} = x_{ij} - Σ_{i = 1}^{i - 1} b_{ij} z_{ij}

式中：

b_{ij} = \frac{1}{{kV}_{i}} Σ_{j = 1}^{k}

V_{i} = \frac{1}{k} Σ_{j = 1}^{k} z_{ij}^{2}

S46.计算每个评价参数的的贡献率

Schmit正交化的目的是消除评价参数间的相关性，相关度越高， z_ij的差别就越小，因此方差V_i可以表示评价参数的作用大小，评价参数贡献率定义如下：

ρ_{i} = \frac{V_{i}^{2}}{Σ_{p = 1}^{n} V_{p}^{2}}

S47.系统删除贡献率低于阈值的评价参数，如果没有这样的评价参数，则跳入序列搜索模块。

S48.将被删除的评价参数的权值重新分配给其它的评价参数(q＝1，2，...i-1)，新的权值计算如下：

W_{q}^{'} = W_{q} + \frac{r_{1 q}}{Σ_{i = 1}^{i - 1} r_{1 i}} (1 - ρ_{i}) W_{i}

S49.重新排列评价参数f_i(i＝1，2，...n-1)，转第e步。

3.序列搜索模块

序列搜索模块的功能是用模拟退火算法(SA)搜索评价参数值最小的最优序列，流程如图2所示，包括以下步骤：

S51.选择初始可行解x；

S52.当温度T＞ε(ε是一个较小数)，则执行下一步；

S53.从邻域中任意选择一个可行解y；

S54.如果x＜y，则在概率

下用x取代y；

S55.否则，用y取代x；

按冷却进度表c降低T的值，初始温度T和冷却率的值分别为1000和0.9998。

以下通过具体实施例进一步说明本发明的实际效果。

令

{GC}_{user_defined}^{(i)} = 50 %,

T_{user_defined}^{i} = 350 k,

k＝5，DNA序列的长度为20。则利用上述本发明DNA计算编码系统得出的各评价参数的相关系数如表1所示。

表1

	f_H	f_self	f_GC	f_Sim	f_Con	f_Tm	f_3end
								f_H	1	-0.006804	-0.02707	0.003681	-0.015259	-0.011736	0.030687
f_self	-0.006804	1	0.092293	-0.008876	-0.029155	0.065794	0.055172
								f_GC	-0.02707	0.092293	1	-0.011328	0.202055	0.740378	0.034056
f_Sim	0.003681	-0.008876	-0.011328	1	-0.009967	-0.02112	-0.011076
								f_Con	-0.015259	-0.029155	0.202055	-0.009967	1	-0.013646	0.01596
f_Tm	-0.011736	0.065794	0.740378	-0.02112	-0.013646	1	0.020442
								f_3end	0.030687	0.055172	0.034056	-0.011076	0.01596	0.020442	1

表2

从表2可以看出f_GC贡献率是很低的，因为f_GC和f_Tm的相关系数很高(0.740378)，f_GC和f_Con的相关系数也相对较高。

以上为本发明的最佳实施方式，依据本发明公开的内容，本领域的普通技术人员能够显而易见地想到一些雷同、替代方案，均应落入本发明保护的范围。