CN105224826A

CN105224826A - 一种基于s-pcnn与霍夫曼编码的dna序列相似性分析方法

Info

Publication number: CN105224826A
Application number: CN201510563124.5A
Authority: CN
Inventors: 聂仁灿; 金鑫; 周冬明; 贺康建; 王佺; 何敏; 余介夫; 谭明川
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2016-01-06

Abstract

本发明结合简化脉冲耦合神经网络(S-PCNN)模型与霍夫曼编码公开了一种新的脱氧核糖核酸(DNA)序列相似度分析方法。首先根据S-PCNN模型特性以三联密码子(A、G、C、T)为基本编码单元进行霍夫曼编码，编码使得DNA字符序列数字化，且适于S-PCNN模型的提取DNA序列特征；然后用S-PCNN模型对编码后的DNA序列进行特征聚类，得到振荡时间序列(OTS)。最后通过OTS的欧式距离，来衡量两段DNA序列的相似程度。本发明选取9个物种常用的β球蛋白第一个外显子的DNA序列进行验证，实验证明本发明方法能够有效的分辨不同物种之间的DNA相似度，体现了良好的分类性能。

Description

一种基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法

技术领域

本发明属于生物信息学技术领域，具体涉及一种基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法。

背景技术

脱氧核糖核酸(DNA)是生物的主要遗传物质，它由4种碱基：腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)组合而成。每种生物都有自己独特的碱基排列，这种排列组合关系存储了生物的遗传信息。随着人类基因测序及蛋白质测序技术的发展，及基因组计划的设施，生物序列数据库(DNA、RNA和蛋白质序列)中的数据量空前增长，对于其海量信息的智能处理成为生物科研工作者的迫切需求。

对DNA序列的分析可以帮助人们破解基因密码的信息，有助于人们从基因角度了解生物的生老病死以及生物的起源与进化关系，有助于人们分析不同序列之间的同源关系以及利用已知结构和功能的序列来预测未知序列的结构和功能，此项研究可以为各种生命科学问题提供共同的科学基础。较早的DNA相似度分析方法是对两个DNA的序列进行逐个对比，当两个序列长度不同时对比就会比较困难。近几年DNA序列的二维图形表示方法已经成为分析DNA序列的重要方法，但这一系列的方法在编码过程中会产生积累误差，最终会造成相似度分析的误差。此后又有将DNA序列映射到二维笛卡尔坐标系中，然后进行DTW距离分析相似度的算法，但是其对DNA序列的区分度不高。以DNA的编码来计算相似度的算法还有卷积码、CMI(反转码)等，DNA相似对变换算法有基于傅里叶变换分析、小波分析，模糊聚类法等，这些算法各有优缺点。因此进一步推荐生物序列的智能分析技术是必要的，也是极其迫切的。

脉冲耦合神经网络(PCNN)具有优良的特性，其在图像处理已经得到广泛应用，PCNN是一种有着深厚生物学背景的新型人工神经网络模型，它模拟了猫的视觉皮层神经元的信息处理机制，其神经元具有捕获特性，会引起输入(DNA编码幅值)相近的周围神经元捕获点火，自动实现信息耦合和传递。通过对PCNN模型及DNA序列特点分析发现，DNA数字化后的编码数值类似于与图像中的像素值，PCNN也可用于DNA序列的特征提取，且提取的信息中不仅包含DNA碱基序列的位置信息，而且包含了碱基之间的链接信息，从而更加真实的反应DNA序列携带的遗传信息。

基于以上原因，本发明提出一种新的DNA序列相似度分析算法，通过对DNA序列的霍夫曼编码，使其适合用S-PCNN提取特征信息(OTS)，再由欧式距离分析其相似程度，通过9个不同物种DNA片段的实验分析，证明本发明算法能有效的提取DNA的特征，并且正确区分了不同物种之间的亲缘关系，与生物学对物种亲缘关系的界定一致。

发明内容

本发明的目的在于提供一种有效的DNA序列相似度分析方法。本发明提出一种基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法，实现智能分析DNA序列的相似度，可以很好的度量DNA之间的同源关系及相似程度。

为了解决DNA相似度的智能分析技术问题，本发明发明了一种基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法，具体步骤为:

(1)对样本DNA片段中的基本功能单元(64种三联密码子)的数目进行统计，得到其概率为c1，c2，c3，c4，c5，…ci，…c64；

(2)对64种三联密码子出现的概率进行霍夫曼编码，得到编码p1，p2，p3，p4,，p5，…pi，…p64；

(3)将每个编码转换为十进制数，并且将编码归一化为0到1的范围；

(4)用归一化后的霍夫曼编码替换DNA的三联密码子字符序列(如：ATG,GTG,CAC,CTG,ACT)，得到的DNA数字编码序列；

(5)将编码后的DNA数字序列，送入S-PCNN模型聚类计算后，得到DNA序列的振荡时间序列(OTS)；

(6)计算不同DNA序列的振荡时间序列之间的欧式距离，通过欧式距离判断物种之间的亲缘程度。

与现有的技术相比，本发明的有益效果为：

1)本发明对DNA字符序列的数字化编码，使编码的后的序列尽可能包含DNA序列的所有信息，且适合于PCNN对其进行处理；

2)采用了具有哺乳动物视皮层视感知机制的PCNN模型对DNA序列进行特征聚类分析，N次迭代输出N段二值脉冲序列，这些二值序列有效地表达了生物序列的时空相关特征信息，对每一段二值脉冲进行求和运算，则可根据每段二值脉冲序列的产生顺序得到相应的OTS，最终以OTS的方式输出DNA序列的特征信息；

3)对PCNN输出的DNA特征数据OTS进行欧氏距离分析，以数值的方式输出DNA序列之间的相似程度。

本发明可以有效的提取了不同物种的DNA序列特征，计算所得的欧式距离能够准确衡量各物种之间的亲缘关系。本算法为DNA序列分析提供了一种有效的途径，可广泛用于DNA序列分析中。

附图说明

图1为本发明DNA相似度分析算法的流程。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

本发明的基本思想是：对DNA片段中64种三联密码子的数目进行统计，并得到其出现概率，然后对64种三联密码子出现的概率进行霍夫曼编码，再将每个编码转换为十进制数，并且将编码归一化为0到1的范围，替换DNA的三联密码子字符序列为数字序列，再将编码后的DNA数字序列，送入S-PCNN模型聚类计算后，得到DNA序列的振荡时间序列(OTS)。最后计算不同DNA序列的振荡时间序列之间的欧式距离，通过欧式距离判断物种之间的亲缘程度。其方法流程图如图1所示；

具体来讲本发明依次包括以下步骤：

(2)对64种三联密码子的比例进行霍夫曼编码，得到编码p1，p2，p3，p4,，p5，…pi，…p64，首先，将符号按照概率由大到小排队，编码时，从最小概率的两个符号开始，选上支路为0，下支路为1。再将已编码的两支路的概率合并，并对剩下的符号重新排队，多次重复使用上述方法直至合并概率归一时为止，即可得到霍夫曼编码；

(3)将每个编码转换为十进制数，并且将编码归一化为0到1的范围，公式如下；

C = \frac{I_{m a x} - i}{I_{m a x} - I_{\min}} - - - (1)

C表示归一化的编码，i表示输入十进制编码,I_max和I_min分别表示最大十进制编码和最小十进制编码；.

(5)将编码后的DNA数字序列，送入S-PCNN模型聚类计算后，得到DNA序列的振荡时间序列(OTS)，其中PCNN模型如下；

F_ij(n)＝S_ij(2)

L_ij(n)＝V^LΣ_klW_kjY_ijkl(n-1)(3)

U_ij(n)＝F_ij(n)[1+βL_ij(n)](4)

θ_{i j} (n) = e^{- a^{θ}} θ_{i j} (n - 1) + V_{i j}^{θ} Y_{i j} (n - 1) - - - (5)

Y_{i j} (n) = s t e p (U_{i j} (n) - θ_{i j} (n)) = \{\begin{matrix} 1, U_{i j} (n) > θ_{i j} (n) \\ 0, o t h e r w i s e \end{matrix} - - - (5)

对于神经元N_ij，式(4)描述的F通道输入和式(5)描述的L通道构成了它的接受域，其中神经元的F通道接受外部激励输入S_ij，即图像的像素值，而L通道接受邻域神经元N_kl的脉冲激励输入Y_ijkl，W_kj为邻域链接权，而V^L为通道幅值。然后在调制域，神经元的F通道输出和L通道输出经过非线性的相乘调制形成了神经元的内部状态值U，β为调制域中L通道输出的链接强度。最后，当内部状态值U大于神经元的阈值时θ_ij时，神经元发出脉冲，即Y_ij＝1。在迭代计算过程中，阈值θ_ij做非线性的指数衰减变化，衰减指数为α^θ，但在发出脉冲后，θ_ij在进行指数衰减的同时还叠加了一个幅值系数

PCNN模型的N次迭代输出N段二值脉冲序列，这些二值序列有效地表达了生物序列的时空相关特征信息，对每一段二值脉冲进行求和运算，则可得到相应的OTS，G(n)表示OTS；

G (n) = Σ_{n = 1}^{N} Y_{i j} (n) - - - (6)

(6)计算不同DNA序列的振荡时间序列之间的欧式距离，即可通过欧式距离可以判断物种之间的亲缘程度，公式如下。

d = \sqrt{Σ_{n = 1}^{N} {(G_{1} (n) - G_{2} (n))}^{2}} - - - (7)

为了验证基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法的性能，选取了11个物种常用的β球蛋白第一个外显子的DNA序列作为实验样本，如表1所示。采用本发明的方法得到的物种相似度结果如表2所示。由表中实验数据比较两物种之间的相似性发现：在第Human列的9种生物中之间，人与黑猩猩的亲缘关系是最近的，与人最远的是鸡；在Gorilla列中也得到了一致的结果。在Goat列中所有数据中，山羊与牛的距离是最近的，与山羊最远的是鸡；在Bovine列中也得到一致结果。在Mouse列所有数据中，大鼠和小鼠的亲缘关系最近，其欧式距离最小，与鸡的亲缘关系最远，其欧式距离最大；在Rat列中也得到了一致的结果。在Gallus列数据中，可以看出其余其他物种之间的距离相对较大，与生物学常识一致。该实验数据表明本发明于对DNA序列的分析较为合理有效，对研究物种的同源性较有价值，能较好的区分物种之间的亲缘关系。

表1：11个物种常用的β球蛋白第一个外显子的DNA序列

表2：11个物种DNA序列的相似程度

上面对本专利的较佳实施方式作了详细说明，但是本专利并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本专利宗旨的前提下作出各种变化。

Claims

1.一种基于S-PCNN与霍夫曼编码的DNA序列相似性分析方法，其特产在于，具体步骤为:

(2)对64种三联密码子出现的概率进行霍夫曼编码，得到编码p1，p2，p3，p4，p5，…pi，…p64；