CN106557668A

CN106557668A - 基于lf熵的dna序列相似性检验方法

Info

Publication number: CN106557668A
Application number: CN201610970981.1A
Authority: CN
Inventors: 林劼; 魏静; 徐彭娜; 江育娥
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2017-04-05
Anticipated expiration: 2036-11-04
Also published as: CN106557668B

Abstract

本发明公开基于LF熵的DNA序列相似性检验方法，通过对原始的DNA序列按着L‑Gram模型进行映射，得到一个新的数值序列。通过计算N条序列的LF熵值构成的矩阵，进而得出其标准熵，并投影到hamming空间进行序列相似性比对。本发明综合考虑到在转换后的特征空间包含足够的原始DNA信息，避免DNA信息的丢失；将每一段DNA序列转为一个新的空间，可以提高运算速度和精确度。

Description

基于LF熵的DNA序列相似性检验方法

技术领域

本发明涉及生物信息处理领域，尤其涉及基于LF熵的DNA序列相似性检验方法。

背景技术

DNA序列的相似性作为生物信息学中的基本度量，在许多场合中都会有应用，包括预测一段未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等。

随着生物科学技术的高速发展，生物科学领域的数据资源急剧的膨胀,因此需要寻找出一种高效快速的方法来处理庞大的生物数据正成为生物信息领域越来越严峻的问题。生物信息数据的收集已是庞然大物。对大量的生物学序列数据进行分类、分析是一项极具挑战的工作。

现有的DNA序列相似性搜寻方法存在很多的缺陷。基于碱基排列的方法是直接比较两个DNA序列字符串的匹配，如算法BLAST，FASTA，UCLUST和CD-HIT等。这些方法运算过程非常耗时，在大型的数据库中匹配是很消耗时间的。K-tuple算法是十分常用的序列相似性搜寻的方法，DNA序列通过一个长度为K的滑动窗口，在窗口的每一段DNA序列是一个元组，但是它已被证明在许多研究中，简单的K-tuple算法并不能完全的描述DNA序列中所包含的信息。

发明内容

本发明的目的在于克服现有技术的不足，提供基于LF熵的DNA序列相似性检验方法。

本发明采用的技术方案是：

基于LF熵的DNA序列相似性检验方法，其包括以下步骤：

(1)从DNA片段中获取原始DNA序列；

(2)将原始DNA序列按L-Gram模型进行映射得到对应的数字序列，预处理字长为L，获得|∑|^L个待处理字；

(3)计算数字序列中每个待处理字的LF值，进而获得每个待处理字的LF值序列X＝{X₁,X₂……X_n}其中n为LF值序列的长度；所述LF值为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数，其计算公式如下：

其中W表示待处理字，t表示待处理字出现的位置顺序，m代表待处理字出现的频数；

(4)计算N条LF值序列的LF熵值h：LF熵值h反映的是待处理字在DNA序列分布中位置的重要性；

(5)基于LF熵值计算N条序列的标准熵值H_LF，标准熵值H_LF的计算公式如下：

h(W_t)是字W_t的熵，t表示待处理字出现的位置顺序，m代表待处理字出现的频数；

(6)将N条序列的标准熵值H_LF采用K-means聚类方法进行聚类并投影至Hamming空间，得到数值序列；

(7)将每条数值序列均分为d+1序列段，d为大于零的整数，并将任一数值序列与其他数值序列的段进行一一比较，将与该任一数值序列存在相等序列段的序列均作为该任一数值序列的候选序列；

(8)计算该任一数值序列与其所有候选序列的海明距离；

(9)从该任一数值序列的候选序列中删除与该任一数值序列的海明距离大于d的候选序列；

(10)确定最邻近序列查询结果：

候选序列的个数不大于k时，k为大于零的整数，则候选序列作为最近邻序列查询结果；候选序列的个数大于k时，则将候选序列按对应海明距离从小到大排序保留k个候选序列，并以该k条候选序列作为最近邻序列查询结果。

进一步地，所述步骤(4)中LF值序列的LF熵值的计算方法如下：

a.计算LF值序列的部分和S，S＝{S₁,S₂……,S_n}＝{X₁,X₁+X₂,X₁+X₂+X₃,……，}；

其中：

S₁＝X₁；

S₂＝X₁+X₂；

S₃＝X₁+X₂+X₃；

……

S_n＝X₁+X₂+…+X_m；

b.计算LF值序列部分和S的总和Z，Z＝S₁+S₂+...+S_n；

c.计算序列每个位置的离散概率P，S_t为对应的第t个部分和，Z为序列的总和；

d.计算LF值序列的LF熵值h，P[t]为离散概率P的第t个离散概率。

本发明采用以上技术方案，在众多的DNA序列分析方法中，我们通过对原始的DNA序列按着L-Gram模型进行映射，即由于DNA序列是由{A,T,C,G}四个字母组成，预处理字长为L，从而获得|∑|^L个待处理字；从而原始DNA序列经过映射得到一个新的数值序列。通过计算N条序列的Local Frequency(简称LF)熵值构成N^*|∑|^L的矩阵，进而得出其标准熵，投影到hamming空间进行序列相似性比对。采用Local Frequency综合考虑到在转换后的特征空间包含足够的原始DNA信息，避免DNA序列信息的丢失；以Local Frequency为基础的计算而得的熵值更能精细的反应DNA序列的结构信息。DNA序列的相似性作为生物信息学中的基本度量，在许多场合中都会有应用，包括预测一段未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等。对于判定两个DNA序列间的相似性，基于LF熵的DNA序列相似性检验，这种方法将每一段DNA序列转为一个新的空间，可以提高运算速度和精确度。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于LF熵的DNA序列相似性检验方法的流程图。

具体实施方式

如图1所示，本发明基于LF熵的DNA序列相似性检验方法，其包括以下步骤：

(1)从DNA片段中获取原始DNA序列；

(2)将原始DNA序列按L-Gram模型进行映射得到对应的数字序列，预处理字长为L，获得|Σ|^L个待处理字；

(3)计算数字序列中每个待处理字的LF值，获得每个待处理字的LF值序列X＝{X₁,X₂……X_n}，其中n为LF值序列的长度；X₁为当前序列中字W出现的第二个位置与第一个位置差的倒数，X_n为当前序列中字W出现的第n+1个位置与第n位置差的倒数；所述LF值为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数，其计算公式如下：

(8)计算该任一数值序列与其所有候选序列的海明距离；

(10)确定最邻近序列查询结果：

进一步地，所述步骤(4)中LF值序列的LF熵值的计算方法如下：

a.计算获取LF值序列的部分和序列S，S＝{S₁,S₂……,S_n}＝{X₁,X₁+X₂,X₁+X₂+

X₃,……，}；

其中：

S₁＝X₁；

S₂＝X₁+X₂；

S₃＝X₁+X₂+X₃；

……

S_n＝X₁+X₂+…+X_m；

b.计算序列的总和Z，Z＝S₁+S₂+...+S_n；

部分和S的和为总和Z；

d.计算LF值序列的LF熵值h，P[t]为前一个步骤中所计算的离散概率P的第t个离散概率。

下面就本发明的处理过程做详细的说明：

为了更清楚描述本专利中DNA序列的处理过程，随机抽取2条DNA编码序列作为分析对象，以这些DNA序列为样例对专利实施过程进行详细的描述。基于LF熵的DNA序列相似性检验方法步骤如下：

(1)从DNA序列数据库中随机选择2条待测DNA序列；

(2)对于步骤(1)中所得的原始序列按L-Gram模型进行映射，预处理字长L，从而获得|Σ|^L个待处理字，经过映射得到原始序列对应的新的数字序列；在映射过程中，按字处理，获得每个字在序列中的位置信息和每个字的频数，并将位置信息存储在list表格对应位置中，以便于在下面的运算中进行调用。

例如字长L＝2时获得个待处理字：AA,AC,AG,AT,CA,CC,CG,CT,

GA,GC,GG,GT,TA,TC,TG,TT,

随机抽取的原始DNA序列为:

TACATCGAGAACATCCAGAATTTGTTTGATAACCAACTGGCAAGCAA

CACAGGCAAAATACAAACATCCACCAGGCCAGCGCCTTTCGGACAAA

经过L＝2字长的映射，A＝0,C＝1，G＝2，T＝3,并得出每个字对应的位置信息，如表一；

表一：每个字在两个序列中的位置

(3)计算数字序列中每个待处理字的LF值，一个字对应计算出的LF值产生一个数值序列X＝{X₁,X₂……X_n}其中n为LF值序列的长度，则本例中字长为L＝2所以每条DNA序列将会产生16个LF值序列。；通过计算每个字出现两次时两个位置间的距离，距离的倒数即为LF值；LF值计算公式为

其中W表示待处理字，t表示待处理字出现的位置顺序；m代表待处理字出现的频数，LF值如表二所示。

表二：序列中每个字对应的LF值

(4)根据公式计算出映射后每个字对应的累积和，离散概率和熵值，计算N条LF值序列的LF熵值h：LF熵值h反映的是待处理字在DNA序列分布中位置的重要性；对于每一个序列将产生|Σ|^L个LF熵计算值，计算|Σ|^L个LF熵值得到一个2^*|Σ|^L的矩阵，具体如表3所示。其中，LF值序列的LF熵值的计算方法具体包括以下步骤：

a.计算LF值序列的部分和S，S＝{S₁,S₂……,S_n}＝{X₁,X₁+X₂,X₁+X₂+X₃,……，}，

S为部分和序列，其计算公式如下：

S₁＝X₁；

S₂＝X₁+X₂；

S₃＝X₁+X₂+X₃；

……

S_n＝X₁+X₂+…+X_m；

b.计算LF值序列的部分和S的和总和Z，Z＝S₁+S₂+...+S_n；部分和S的和为总和Z；

表三：每个字对应的LF熵值

(5)进一步根据步骤4计算出的LF熵值，计算标准熵值，标准熵值H_LF的计算公式为：h(W_t)是字W_t的熵，m是该字出现的频数；

表四：每个字对应的LF标准熵值

(6)进一步的通过对步骤5得出的LF标准熵结果运用K-means聚类方法进行聚类，对2条的字进行K-means，分为K类，聚类后的结果投影到Hamming空间；得到全新的数值序列。

K-means聚类是对LF标准熵进行离散化的过程，将离散化后的结果投影到Hamming空间，经过聚类后，标准熵被分为k类，每个字对应的标准熵被归入1，2……，k中的某一类，例如为聚类为1，则投影为00…001，聚类为3则投影为0…0111，总共有k位。将每一列进行K-means聚类，由于是一维数据聚类，可以将聚类中心按照顺序定义为1,2，……，K，k为聚类个数，然后将各个聚类号作为值填入表格中。如表五所示，将两条序列的标准熵聚为五类。投影到Hamming空间，通过使用Hamming Distance对序列进行相似性的检验。HammingDistance值越大，代表两个序列相似度越低，Hamming Distance值越小，代表两个序列相似度越高。对于所举例子经过计算的出两条序列的Hamming Distance为18。

表五：对标准熵进行离散化的结果

(7)对投影到Hamming空间的聚类后的数值序列进行预处理，每条数值序列分为d+1段，将当前数值序列与其他数值序列的段进行一一比较，并把搜寻的对应段的候选序列存放在list表中，用list表来存储每段相似的序列号信息，存储在search中。

(8)计算当前数值序列与其所有候选序列的海明距离；存储在另一个名为HM_distance的list表中。

(9)从当前数值序列的候选序列中删除与当前数值序列的海明距离大于d的候选序列；

(10)确定最邻近序列查询结果，按照hamming距离从小到大的顺序，在。候选序列中查找出几条与当前序列最相似的DNA序列。候选序列的个数不大于k时，k为大于零的整数，则候选序列作为最近邻序列查询结果；候选序列的个数大于k时，则将候选序列按对应海明距离从小到大排序保留k个候选序列，并以该k条候选序列作为最近邻序列查询结果。即判断search中候选序列的个数n(search)，如果n(search)≤k，则search为序列k条海明距离小于d的最近邻序列的查找结果；如果n(search)>k，将HM_distance从小到大排序，保留k个结果，search保留HM_distance对应的候选序列，则search为序列k条海明距离小于d的最近邻序列的查找结果。

Claims

1.基于LF熵的DNA序列相似性检验方法，其特征在于：其包括以下步骤：

(1)从DNA片段中获取原始DNA序列；

(3)计算数字序列中每个待处理字的LF值X_t，进而获得LF值序列X＝{X₁,X₂……X_n}其中n为LF值序列的长度；所述LF值X_t为待处理字在数字序列中两次出现时对应的两个位置间的距离的倒数，LF值X_t的计算公式如下：

X_{t} = \frac{1}{{LF}_{t}^{W} - {LF}_{t - 1}^{W}}, (t = 1, 2, ... ..., m)

其中W表示待处理字，t表示待处理字出现的位置顺序；m代表待处理字出现的频数；

H_{L F} = \frac{h (W_{t})}{- \frac{1}{m} * {\log_{2}}^{\frac{1}{m}}}

(8)计算该任一数值序列与其所有候选序列的海明距离；

(10)确定最邻近序列查询结果：

2.根据权利要求1所述基于LF熵的DNA序列相似性检验方法，其特征在于：所述步骤(4)中LF值序列的LF熵值的计算方法如下：

a.计算获取LF值序列的部分和序列S，S＝{S₁,S₂……,S_n}＝{X₁,X₁+X₂,X₁+X₂+X₃,……，}；其中：

S₁＝X₁；

S₂＝X₁+X₂；

S₃＝X₁+X₂+X₃；

……

S_n＝X₁+X₂+…+X_m；

b.计算LF值序列的部分和S的总和Z，Z＝S₁+S₂+...+S_n；

c.计算序列每个位置的离散概率P，即为(t＝1，2，……，n)；S_t为对应的第t个部分和；

d.计算LF值序列的LF熵值h，P[t]为离散概率P的第t个离散概率。