基因序列的可视化处理方法
技术领域
本发明涉及可以应用于DNA分析的基因序列3D表示方法。
背景技术
近年来,基因序列的图形表示广泛应用于基因序列的可视化,分类和比对等方面.该方法的主要思想是将基因序列转换为不同维数的几何图形.最常见的图形是2D(平面)图形和3D(空间)图形。1983年,Hamori和Ruskin首先提出基因序列的3D表示,后来,人们提出越来越多的曲线来表示基因序列.为了得到不同基因序列的相似性特征,人们利用曲线得到一些高维矩阵或者向量来简化生物序列比对.一般来说,基因序列的图形表示理论可以分成两个部分:基因的图形表示和基于图形特征的相似性度量。
在基因序列的不同曲线表示中,张春霆院士于1991年提出的Z-曲线是用来分析基因序列的典型曲线,Z-曲线是一条3D曲线,每一个DNA序列都可以用Z- 曲线来唯一表示.在2014年,张春霆和张任撰文给出Z-曲线的一个概述,并给出它们的一些应用:Z-曲线是获取DNA信息的一类典型图形表示并可以应用在 DNA序列分析的诸多领域.Z-曲线上包含了DNA序列所携带的所有信息。然而,目前缺乏一种能够用于DNA序列3D表示的曲率序列和挠率序列,缺乏相关序列应用于DNA分析的处理方法。
发明内容
本发明所要解决的技术问题是实现一种将DNA序列转化为3D表示的曲率序列和挠率序列,这两个数值序列包含了DNA序列上3D表示的所有本质特征,可以应用于DNA分析方面。
为了实现上述目的,本发明采用的技术方案为:基因序列的可视化处理方法:步骤1、获得待比对的DNA曲线的曲率序列和挠率序列;步骤2、利用Z- 曲线表示待比对的DNA曲线的曲率序列和挠率序列;步骤3、获得待比对的DNA 之间两个曲率序列中相同项的个数,以及两个挠率序列中相同项的个数。
本发明利用3D图形的曲率序列和挠率序列来表示基因序列,这两个序列一起可以体现序列的内在特征,基因序列的Z-曲线是一类典型的3D曲线,我们给出Z-曲线的两类数值序列的计算方法,可以将Z-曲线的曲率序列转换为仅含0,1 的数值序列,将Z-曲线的挠率序列转换为仅含0,1和-1的数值序列.我们可以根据基因序列直接、快速地得到这两类数值序列。
附图说明
下面对本发明说明书中每幅附图表达的内容作简要说明:
图1(a)为人类基因序列Z-曲线的曲率序列;
图2(a)为黑猩猩基因序列Z-曲线的曲率序列;
图3(a)为灰海豹基因序列Z-曲线的曲率序列;
图4(a)为港海豹基因序列Z-曲线的曲率序列;
图5(a)为老鼠基因序列Z-曲线的曲率序列;
图6(a)为大家鼠基因序列Z-曲线的曲率序列;
图7(a)为大袋鼠基因序列Z-曲线的曲率序列;
图8(a)为大猩猩基因序列Z-曲线的曲率序列;
图1(b)为人类基因序列Z-曲线的挠率序列;
图2(b)为黑猩猩基因序列Z-曲线的挠率序列;
图3(b)为灰海豹基因序列Z-曲线的挠率序列;
图4(b)为港海豹基因序列Z-曲线的挠率序列;
图5(b)为老鼠基因序列Z-曲线的挠率序列;
图6(b)为大家鼠基因序列Z-曲线的挠率序列;
图7(b)为大袋鼠基因序列Z-曲线的挠率序列;
图8(b)为大猩猩基因序列Z-曲线的挠率序列
图9是八个物种的分类结果线形图;
具体实施方式
三维向量空间中的3D曲线有两个基本特征,即曲线的曲率和挠率。曲线的曲率是曲线弯曲程度的度量,曲线的挠率是描述曲线距离平面翘起的程度。2D 曲线的所有基本特征可以由曲线曲率完全刻画,而3D曲线的所有基本特征可以由曲率和挠率两个变量完全刻画。
空间曲线的形状由曲率和绕率唯一确定,这一特征可以帮助我们认识基因序列的本质特征。例如,两条反向平行的多核苷酸链相互缠绕形成一个右手的双螺旋结构,A-T或G-C通过氢键作用成对出现,这两条链具有完全相同的曲率和挠率,而且我们也可以根据给定的曲率和挠率来确定DNA序列。
一般地,我们使用曲线上一点处内切圆半径的倒数来度量该点处的曲率,即光滑曲线该点处曲率K是对于DNA序列的图形表示,所得到的曲线往往不是光滑的,于是我们给出分段光滑曲线曲率的如下定义,设G是一段DNA序列,第 i个位置是gi,gi∈{A,T,G,C},它在基因曲线表示上对应的点是Pi,设rij表示点Pi和点Pj间的距离,Rijk是三角形PiPjPk的内切圆半径,三角形PiPjPk的三条边长分别是rij,rik,rjk。
曲率序列获得方法:
定义:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点.则曲线L在点Pi处的曲率定义为κi,DNA序列G的表示曲线L的曲率序列定义为
获得方法:在三角形PiPjPk中,i,j,k是相邻的三个正整数,即j=i+1,k=j+1. 令rijk=rij+rik+rjk为三角形PiPjPk的三边长之和,Sijk为三角形PiPjPk的面积,为三角形PiPjPk的内切圆半径,于是点Pi处的曲率为κi=2Sijk/rijk。
挠率序列获得方法:
定义:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点.则曲线L在点Pi处的挠率定义为τi,,DNA序列G的表示曲线L的挠率序列定义为
获得方法:在四面体PhPiPjPk中,h,i,j,k是四个连续正整数,即i=h+1, j=i+1,k=j+1.令Vh为四面体PhPiPjPk的体积,Shij,Shjk,Shik,Sijk分别表示三角形 PhPiPj,PhPjPk,PhPiPk,PiPjPk的面积,为四面体PhPiPjPk内接球半径且注意到于是点Pi处的挠率为τi=±3V/(Shij+Shjk+Shik+Sijk),当òh>0时,τi的值为正;当òh<0时,τi的值为负。
对于DNA序列的表示曲线,如果我们可以知道四个碱基A,C,T,G的关系矩阵
那么我们就可以得到DNA表示曲线的曲率序列和挠率序列。
例如,长度为12的DNA序列G=ACA CAC TGT GTG,四个碱基A,C,T,G的关系矩阵M为
且∈A>0,∈C<0,∈T>0,∈G<0,于是DNA序列G的曲率序列K(G)为(2.0,2.4,2.0,2.4,2.8,3.9,4.4,4.8,4.4,4.8),挠率序列T(G)为(0.8,-0.8,0.8, -0.9,1.1,-1.4,1.6,-1.6,1.6).
DNA序列Z-曲线表示的两个数值序列获得方法:
Z-曲线是描述DNA序列的典型曲线表示,它包含了DNA序列携带的所有信息. 对于长度为N的DNA序列,Z-曲线的三个坐标公式为
注意到Z-曲线中四个碱基A,C,T,G的关系矩阵MZ为
我们发现MZ是一个对称矩阵.
根据曲率序列和挠率序列的定义和算法,我们可以得到Z-曲线的两个数值序列.对正整数i,设G=g1g2…gN是长度为N的DNA序列,G的第i个位置是gi, 其中gi∈{A,C,T,G.}则曲率序列和挠率序列分别是和对 i=1,2,…,N-2,曲率序列的各项为
对j=1,2,…,N-3,挠率序列的各项为
为方便起见,我们用符号函数简化上面结论.即
且
Z-曲线的关系矩阵仅由0,1两个元素组成.
对于DNA序列中四个相邻的碱基gigi+1gi+2gi+3,其Z-曲线的特征可以用曲率序列和挠率序列的三元组来描述.
(1)gi,gi+1,gi+2,gi+3互不相同当且仅当
(2)gi,gi+1,gi+2,gi+3仅有两个相同当且仅当
(3)gi,gi+1,gi+2,gi+3有两组相同元素或者三个不相邻的相同元素当且仅当
(4)gi,gi+1,gi+2相同且gi+3不同的当且仅当
(5)gi+1,gi+2,gi+3相同且gi不同当且仅当
(6)gi,gi+1,gi+2,gi+3全相同当且仅当
通过上面的规律,我们可以根据DNA序列快速得到相应Z-曲线的曲率序列和挠率序列.
数值特征序列的相似性分析:
相似性分析是DNA序列图形表示理论的重要内容之一.由于DNA序列的本质特征可以在曲率序列和挠率序列中表现出来,于是我们可以使用这两个数值序列来对DNA序列进行比较.设P和Q分别是长度为N1和N2的DNA序列,其曲率序列的简单组合系数定义为
其中sκ是两个曲率序列中相同项的个数.DNA序列P和Q挠率序列的简单组合系数定义为
其中sτ是两个挠率序列中相同项的个数.于是我们用
S(P,Q)=Δκ(P,Q)Δτ(P,Q)
表示两个DNA序列P和Q表示曲线的相似性。
利用DNA序列Z-曲线表示的曲率序列和挠率序列,给出DNA序列相似性判断方法.我们将计算不同物种DNA序列的曲率序列和挠率序列,并利用前面相似性定义给出这些物种的分类结果。
用来计算的例子包含了八个物种的基因片段,它们分别是
Human人类(NC_012920.1:14149..14673),
chimpanzee黑猩猩(NC_001643.1:13567..14091),
gray seal灰海豹(NC_001602.1:14466..14993),
harbor seal港海豹(NC_001325.1:14493..15020),
mouse老鼠(NC_005089.1:13552..14070),
rat大家鼠(AC_000022.2:13531..14049),
wal laroo大袋鼠(NC_001794.1:13608..14111),
gori lla大猩猩(NC_001645.1:13571..14095).
它们的蛋白质序列分别是
human人类(YP_003024037.1),
gorilla大猩猩(NP_008223),
chimpanzee黑猩猩(NP_008197),
wallaroo大袋鼠(NP_007405),
harbor seal港海豹(H.seal)(NP_006939),
gray seal灰海豹(G.seal)(NP_007080),
rat大家鼠(AP_004903),
mouse老鼠(NP_904339).
(所有数据均来源于美国国家生物技术信息中心-National Center ofBiotechnology Information,网址为http://www.ncbi.nlm.nih.gov/)
根据我们前面给出的曲率序列和挠率序列的定义和计算公式,我们可以得到八类物质基因序列Z-曲线的曲率序列和挠率序列,如图1-8所示。
根据曲率序列简单组合系数的定义,我们可以得到八个物种DNA序列片段Z- 曲线的曲率序列相似系数Δτ(见表1)。
物种 |
黑猩猩 |
灰海豹 |
港海豹 |
老鼠 |
大家鼠 |
大袋鼠 |
大猩猩 |
人类 |
0.5461 |
0.4931 |
0.4637 |
0.4853 |
0.5078 |
0.5300 |
0.5543 |
黑猩猩 |
|
0.6619 |
0.5265 |
0.5307 |
0.5343 |
0.4350 |
0.7544 |
灰海豹 |
|
|
0.6432 |
0.4885 |
0.5027 |
0.4352 |
0.6283 |
港海豹 |
|
|
|
0.4845 |
0.5287 |
0.4857 |
0.5283 |
老鼠 |
|
|
|
|
0.5811 |
0.5384 |
0.5396 |
大家鼠 |
|
|
|
|
|
0.4950 |
0.5361 |
大袋鼠 |
|
|
|
|
|
|
0.4783 |
表1
类似地,根据定义,我们可以得到八个物种DNA序列片段Z-曲线的挠率序列相似系数Δκ(见表2)。
物种 |
黑猩猩 |
灰海豹 |
港海豹 |
老鼠 |
大家鼠 |
大袋鼠 |
大猩猩 |
人类 |
0.7698 |
0.7617 |
0.7704 |
0.7343 |
0.7438 |
0.7592 |
0.7532 |
黑猩猩 |
|
0.8779 |
0.8272 |
0.7890 |
0.7714 |
0.7863 |
0.9333 |
灰海豹 |
|
|
0.9605 |
0.8000 |
0.7943 |
0.8086 |
0.8249 |
港海豹 |
|
|
|
0.8391 |
0.8124 |
0.8191 |
0.8272 |
老鼠 |
|
|
|
|
0.8774 |
0.8270 |
0.8068 |
大家鼠 |
|
|
|
|
|
0.8221 |
0.7691 |
大袋鼠 |
|
|
|
|
|
|
0.8093 |
表2
相似性系数S=ΔκΔτ(见表3)。
物种 |
黑猩猩 |
灰海豹 |
港海豹 |
老鼠 |
大家鼠 |
大袋鼠 |
大猩猩 |
人类 |
0.4204 |
0.3756 |
0.3572 |
0.3564 |
0.3777 |
0.4024 |
0.4175 |
黑猩猩 |
|
0.5811 |
0.4355 |
0.4187 |
0.4121 |
0.3421 |
0.7042 |
灰海豹 |
|
|
0.6178 |
0.3908 |
0.3993 |
0.3519 |
0.5182 |
港海豹 |
|
|
|
0.4066 |
0.4296 |
0.3978 |
0.4370 |
老鼠 |
|
|
|
|
0.5099 |
0.4453 |
0.4354 |
大家鼠 |
|
|
|
|
|
0.4070 |
0.4123 |
大袋鼠 |
|
|
|
|
|
|
0.3871 |
表3
利用八个物种的相似性系数,得到这八个物种的分类结果(图9),其中X轴1 到8分半代表Human(人类),Chimpanzee(黑猩猩),Gray seal(灰海豹),Harbor seal(港海豹),Mouse(老鼠),Rat(大家鼠),Wallaroo(大袋鼠),Gorrilla (大猩猩)从图9中,我们可以发现,Human(人类)与其它物种有显著不同,Chimpanzee(黑猩猩)与Gorrilla(大猩猩)相似,Gray seal(灰海豹)与 Harbor seal(港海豹)相似,Mouse(老鼠),Rat(大家鼠)与Wallaroo(袋鼠) 相似,其中Mouse(老鼠)和Rat(大家鼠)具有更高的相似性。
基因序列的图形表示是基因序列分析中很有用的一种工具,不同曲线蕴含了不同基因序列的生物性质.曲率和挠率是3D曲线的基本特征,在本文中我们给出了曲线曲率和挠率序列的定义和计算方法,并对基因序列的Z-曲线,给出了快速计算两类数值序列的计算方法.在两类数值序列的基础上,我们定义了曲线的曲率组合系数,挠率组合系数和相似系数,在此基础上以八个物种的基因序列为例,计算并对这八个物种进行了分类.这种方法还适用于基因序列的其它2D和3D曲线表示。