CN101950326A

CN101950326A - 基于Hurst指数的DNA序列相似性检测方法

Info

Publication number: CN101950326A
Application number: CN2010102777191A
Authority: CN
Inventors: 刘晓; 唐鸿铃; 黄扬帆; 曾浩; 刘玲
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2010-09-10
Filing date: 2010-09-10
Publication date: 2011-01-19
Anticipated expiration: 2030-09-10
Also published as: CN101950326B

Abstract

本发明涉及生物信息处理领域，具体涉及一种基于Hurst指数的DNA序列相似性检测方法，能够同时对多个DNA序列进行相似性检测，简化了计算复杂性，提高了运算效率，并能提高较近进化距离的分析对象间的区别度；包括如下步骤：1)获取不同物种相同功能区域的DNA编码序列作为初始序列；2)对步骤1)所得的初始序列进行数字转换，得到初始序列对应的数值序列；3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数；4)利用步骤3)所得的Hurst指数构建距离矩阵。5)从步骤4)获得的距离矩阵获得序列相似性信息。

Description

基于Hurst指数的DNA序列相似性检测方法

技术领域

本发明涉及生物信息处理领域，具体涉及一种DNA序列相似性检测方法。

背景技术

生物信息学的一个重要内容是序列分析，通过对核酸和蛋白质的序列进行分析，得到它们的结构和功能信息，以了解核酸和蛋白质在生物体中的作用，并研究它们的进化起源。序列数据库中序列数据的快速扩增，促使研究人员对序列分析方法进行了大量研究。

基于不同序列表达方式，研究人员使用多种算法从数字化的序列中提取可以有效反映序列生物信息的特征参数，例如各种矩阵的最大特征值和拓扑类指数等，然后构建分析序列对应的多维向量。广泛使用的序列相似性判断是通过计算向量端点之间的欧几里得距离或者向量之间的夹角来判定的，若向量端点之间的欧几里得距离越小或者向量之间夹角越小，则两序列越相似。而宋杰、骆嘉伟等基于信息离散性量度采用离散度函数对DNA序列的相似性进行分析，李梅等则通过计算动态时间弯曲距离分析DNA序列相似性。但上述方法一方面分析过程均较复杂，往往需要构建多维向量，计算量较大，这促使我们寻找一种更简洁的分析方法。另一方面，上述分析方法所的分析结果给出的不同物种之间的相对差异值有不大，这又促使我们寻找一种能提供更显著结果的分析方法。

已有的大量研究表明，DNA序列具有长程相关性，这使我们可以从另一个角度对序列进行分析。其中，研究人员将Hurst指数作为一个重要的特征参数，对DNA序列蕴含的相关性进行了分析。例如，赵小杰等在利用功率谱分析编码DNA序列基础上，用Hurst指数对人的DNA序列的自相似性进行描述，结果反映出人DNA序列中的长程相似性。Boekhorst等利用Hurst指数区分编码DNA、调控DNA和非编码非调控DNA。Yu等利用Hurst指数对DNA序列的分形和统计特征进行分析，研究了部分分析对象外显子和内含子的Hurst指数、部分对象完全基因组的编码序列的平均Hurst指数和相关维数，对利用平均Hurst指数和相关维数进行分类和进化关系进行了研究。但是Hurst指数并没有应用于DNA序列进行相似性分析。基于现有研究，我们在本方法中将Hurst指数作为指标参数用于DNA序列相似性检测。

发明内容

有鉴于此，为了解决上述问题，本发明提出了一种基于Hurst指数的DNA序列相似性检测方法，能够同时对多个DNA序列进行相似性检测，简化了计算复杂性，提高了运算效率，并能提高较近进化距离的分析对象间的区别度。

本发明的目的是这样实现的：基于Hurst指数的DNA序列相似性检测方法，包括如下步骤：

1)获取不同物种相同功能区域的DNA编码序列作为初始序列；

2)对步骤1)所得的初始序列进行数字转换，得到初始序列对应的数值序列；

3)对步骤2)所得的每个数值序列通过R/S分析方法获得得到各个数值序列的Hurst指数；

4)利用步骤3)所得的Hurst指数构建距离矩阵；

5)从步骤4)获得的距离矩阵获得序列相似性信息，即：距离数值越小的Hurst指数对应的DNA编码序列，其对应物种相似性越大，反之，其对应物种相似性越小。

进一步，所述步骤2)中，采用2D图形表示法对初始序列进行数字化；

进一步，所述步骤3)中，对任一数值序列

使用R/S分析方法通过如下步骤获得数值序列的Hurst指数：

a)通过下式，获得均值序列：

b)通过下式，获得累计离差：

c)通过下式，获得极差：R(n)＝maxu(i，n)-minu(i，n)；

d)通过下式，获得标准差：

e)若存在常数H使得则H为该序列的Hurst指数；

以上步骤中，3≤n≤N；

进一步，步骤e)中，通过在双对数坐标ln(n)-ln(R(s)/S(n))系下得到N-2个点，利用最小二乘法对N-2个点进行拟合得到Hurst指数；

进一步，所述步骤4)中的距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值构成的数值矩阵；

进一步，所述数值矩阵为上三角矩阵。

本发明基于Hurst指数的DNA序列相似性检测方法，利用R/S算法求取待分析序列的Hurst指数作为特征参量，能够对多个DNA序列进行相似性检测，检测效果有效地反映出分析对象的生物特性，方法较为简洁，无需多维向量的构建和比较，简化了计算复杂性，提高了运算效率，同时检测结果相对差异值较大，有助于提高较近进化距离的分析对象间的区别度。同时，由于DNA序列具有长程相关性，Hurst指数作为特征参数可以描述序列的重要进化特征，可以获得良好的准确度。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述：

图1示出了本发明基于Hurst指数的DNA序列相似性检测方法的流程示意图；

图2示出了本发明实施例的人β-球蛋白第一个外显子编码序列R/S分析示例图。

具体实施方式

以下将参照附图，对采用本发明的方法用于11个物种的β-球蛋白第一个外显子编码序列作为分析对象为例进行详细的描述，包括以下步骤：参见图1，本实施例的基于Hurst指数的DNA序列相似性检测方法包括如下步骤：

1)选择了在序列相似性的分析中广泛使用的11个物种的β-球蛋白第一个外显子编码序列作为初始序列；参见表1。

2)对步骤1)所得的初始序列进行数字转换，得到初始序列所对应的数值序列；本方法采用2D图形表示法对DNA序列进行数字化(参见M，

M，

N，et al.Chemical Physics Letters[J].，2003，368：1-6.)。此方法的特点是4个碱基的表达取决于在分析序列中出现的顺序，最先出现者赋值为3，随后依次为2、1、0。例如，序列片段TACCTG表示为321130，序列片段ATACCT则表示为323112。

3)对步骤2)所得数值序列进行R/S分析(中文名重标极差分析法，参见Craciun D，Isvoran A，Avram N M.Physica A-Statistical Mechanics and ItsApplication[J].，2009，388(21)：4609-4618.)，具体地，对任一数值序列

通过如下步骤获得数值序列的Hurst指数：

a)通过下式，获得均值序列：

b)通过下式，获得累计离差：

c)通过下式，获得极差：R(n)＝maxu(i，n)-minu(i，n)；

d)通过下式，获得标准差：

e)若存在常数H使得则H为该序列的Hurst指数，具体的，可在双对数坐标ln(n)-ln(R(s)/S(n))系下得到N-2个点，利用最小二乘法对N-2个点进行拟合得到Hurst指数；

以上步骤中，3≤n≤N；

本发明与现有R/S分析方法不同的是：从n＝3对应的数据开始，这样可以得到有意义的相似性检测结果。以图2为示例，图2绘出了人β-球蛋白第一个外显子编码序列R/S分析结果，图中横轴ln(n)，n从3变化到92(人β-球蛋白第一个外显子编码序列长度)，纵轴为ln(R(s)/S(n))，拟合直线斜率为0.0752；所有分析对象对应的Hurst指数参见表2；

4)利用步骤3)所得的Hurst指数构建距离矩阵，距离矩阵是所有初始序列对应的Hurst指数两两比较所得差值构成的数值矩阵，通常可列为上三角矩阵，参见表3。观察可以发现表3中最小的元素是与3种灵长类相关联的物种(人，黑猩猩，大猩猩)，这反映了他们之间由于进化关系而存在的强相似性。另一方面，矩阵最大的元素出现在属于负鼠(距现存哺乳动物最远物种)和鸡(唯一非哺乳动物代表)的行中，这表明本方法可以展现所分析的DNA序列的重要信息。

5)对步骤4)所得的距离矩阵中的数值进行分析，两数值距离越小表示两序列对应的物种进化距离越近，反之两数值距离越大表示两序列对应的物种进化距离越远；亦即：距离数值越小的Hurst指数对应的DNA编码序列，其对应物种相似性越大，反之，其对应物种相似性越小。与相关文献中其他分析方法获得的结果进行对比，可了解本方法检测结果的有效性：将人——黑猩猩相似性设定为1进行归一化，以人与其他10个物种的相似性进行比较，结果参见表4；由表4可见，本文所采用基于Hurst指数的检测方法表现出良好的有效性，且本方法具有较高的敏感性，即不同物种间相对数据差别较为明显，这有助于提高较近进化距离的分析对象间的区别度。

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

表1 11个物种的β-球蛋白第一个外显子编码序列

表4 采用不同算法人与其他物种β-球蛋白第一个外显子基因相似性/不相似性比较

注：A数据来源于表3，算法基于Hurst指数比较；B数据来源于文献(LiuX，Tian F C，Wang S Y.Nucleosides Nucleotides & Nucleic Acids[J].2010，29(2)：123-131)表4，算法基于8分量向量之间欧几里得距离；C数据来源于文献(Wang S Y，Tian F C，Feng W J，et al.Journal of Molecular Structure：THEOCHEM[J].，2009，909(1-3)：33-42.)表3，算法基于3分量向量之间欧几里得距离；D数据来源于文献(

M，

M，

N，et al.Chemical Physics Letters [J].，2003，371(1-2)：202-207.)表III，算法基于12分量向量之间欧几里得距离；E数据来源于文献(Liao B，Wang T M.Chemical Physics Letters[J].，2004，388(1-3)：195-200.)表VII，算法基于15分量向量之间欧几里得距离；F数据来源于文献(Liao B，Tan M S，Ding K Q.Chemical Physics Letters[J].2005，402(4-6)：380-383.)表IV，算法基于4分量向量之间欧几里得距离；G数据来源于文献(Liu Y Z，Wang T M.ChemicalPhysics Letters[J].2006，417(1-3)：173-178.)表III，算法基于8分量向量之间欧几里得距离。