CN107480471A

CN107480471A - 基于小波变换为特征的序列相似性分析的方法

Info

Publication number: CN107480471A
Application number: CN201710591333.XA
Authority: CN
Inventors: 江育娥; 魏静; 林劼
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-12-15
Anticipated expiration: 2037-07-19
Also published as: CN107480471B

Abstract

本发明公开基于小波变换为特征的序列相似性分析的方法，其包括以下步骤：（1）选取原始DNA数据集；（2）对原始DNA数据集中的每一条序列进行K‑词处理；（3）统计每条序列中出现的K‑词的词频，对词频进行标准化处理；（4）根据每个K‑词对应的幅角给出其复数的映射；（5）每个K‑词的复数的乘上对应的标准化后的词频，将得到的实部乘积结果和虚部乘积结果按列合并；（6）对步骤（5）中得到的结果进行静态离散小波变换；（7）进行k‑means聚类运算，得到聚类结果。本发明基于小波变换为特征的序列相似性分析，运用复数和SWT的方法，不仅可以提取序列的时域信息，同时提取出信号的频域特征，SWT是一种复杂度较低的算法，并且K‑词的方法显著的降低维度，因此，本发明方法可以显著的提高运算速度和聚类的精确度。

Description

基于小波变换为特征的序列相似性分析的方法

技术领域

本发明涉及生物信息处理领域，尤其涉及基于小波变换为特征的序列相似性分析的方法。

背景技术

近年来，生物的快速发展使得生物数据急剧膨胀，如何从海量的生物数据中快速高效的搜寻具有相似性的生物序列进行聚类是生物信息邻域的热门研究，分析序列的相似性也是生物信息处理的基础。生物序列的相似性搜寻是生物信息处理中的基本方法，其应用场景十分广泛，预测未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等都需要对序列进行相似性搜寻。所以，一种高效快速的相似性搜寻方法对于生物序列的相似性研究具有重要的意义。

一个复数是由一对有序的实数唯一确定，对于复平面上给定的直角坐标系，复数的全体与平面上点的全体唯一对应。复数的向量可以表示复平面上的点的几何意义、解析几何中点的坐标、距离等问题相互联系。将K-词通过幅角和词频的方式使时间序列转化到复数域，更加完整地保留了序列的原始信息。

小波变换能够较好地实现信号在时间域和频率域的局部变换，因此能够更加完整有效地提取和分析信号的局部特性。从生物序列在进行处理的过程中看，信号都是转化为数字信号。目前，大部分生物序列的特征提取方式都只是提取了信号的时域特征，忽略了信号的频域特征，频域特征则能够清楚准确的反应出信号的变换特征。小波变换可以实现时间域和频率域的局部变换，通过母小波的伸缩和平移运算对生物序列信号进行多尺度或多分辨率的分析，因而能更有效地从序列中提取有效的信息。

离散小波变换过程中，信号每进行一次分解，会对其进行下采样过程，采样的过程一般是只保留偶数项或者奇数项。因此，随着离散小波变换分解过程的增加，所提取的信号含的时移信息会丢失的越来越多，实验结果准确率也会随之大幅度降低。静态离散小波变换(SWT)则弥补了离散小波变换这一不足之处。SWT分解过程没有进行下采样，因此很好的保留了序列的信息。SWT通过滤波器分解得到的近似系数和细节系数的长度和原始信号相同，从而避免传统离散小波变换因为下采样而丢失序列信息的缺点。

小波变换的近似系数保留了信号的大部分信息，反应信号的变换特征，细节系数则主要保留信号的局部特征和噪音特征，不能很好的反应出信号的变化趋势。基于小波变换为特征的序列相似性分析方法是非比对的序列研究方法，与传统的比对方法相比，也极大的提高的运算的速度。

发明内容

本发明的目的在于克服现有的序列特征提取技术的不足，提供基于小波变换为特征的序列相似性分析的方法，将序列用K-词和幅角的方法转化成离散型的数据，使用SWT方法得到序列的特征向量，进行k-means聚类。本发明致力于探究出更加有效、准确、快速的方法提取序列的特征信息，以达到较好的聚类效果。

本发明采用的技术方案是：

基于小波变换为特征的序列相似性分析的方法，其包括以下步骤：

(1)选取原始DNA数据集；

(2)对原始DNA数据集中的每一条序列进行K-词处理，每条序列获得K-词的数量是L-K+1个，K-词的类别数是|∑|^K，L是序列的长度；

(3)统计每条序列中出现的K-词的词频X，为了避免序列长度L的不同对词频X产生的影响，对词频X进行标准化处理，标准化后的结果为S；

(4)在复平面上，根据每个K-词对应的幅角给出其复数的映射。在复平面上定义一个单位圆，|∑|^K类的K-词按照字母的排序均匀分布在单位圆上，每个K-词对应的幅角的正弦值为该K-词对应复数的实部，余弦值为该K-词对应复数的虚部。

(5)每个K-词的复数的实部和虚部分别乘上对应的标准化后的词频，将得到的实部乘积结果和虚部乘积结果按列合并得到序列的特征向量；

(6)选用coiflets滤波器作为母小波对步骤(5)中得到的结果进行静态离散小波变换；

(7)将得到的静态离散小波变换的结果进行k-means聚类运算，得到聚类结果。

进一步地，所述步骤(2)中序列是由{A,T,C,G}四个字母组成，K-词处理中的滑动窗口的长度为K，序列长度为L,每条序列获得K-词的数量是L-K+1个，K-词的类别数是|∑|^K，Σ＝{A,C,G,T},|Σ|＝4。

进一步地，所述步骤(3)中K-词的词频X＝{X₁，X₂…，X_t…，X_n}，X_t为第t个K-词在当前序列中出现的频数，n为K-词的总数；

标准化处理的方法是将词频按比例缩放，落到0-1这个特定的区间，也可以称为词频的归一化；标准化公式为：

x是当前词频，y是标准化后的词频，mean(Value)是词频的均值，S(Value)是词频的标准差；

标准化后的词频：

S＝{S₁，S₂…，S_t…，S_n}

S_t为第t个K-词的词频x标准化后的结果，n为K-词的总数。

进一步地，所述步骤(4)中K-词复数表示的计算方式：每条序列对应|∑|^K个K-词，复平面二维直角坐标系，K-词按照字母对应的ASCII的大小顺序进行排序，|∑|^K个K-词逆时针方向均匀分布在以坐标原点为中心的单位圆上；

那么设定平均幅角为θ，即将一个圆周均分为|∑|^K份，每份的幅角为θ，即

则第t个K-词所对应的幅角是θ的t倍，

即其中t表示该K-词在所有K-词中排序的位置；

进一步地，第t个K-词的复数值的实部为

第t个K-词的复数值的虚部为

本发明采用以上技术方案，通过对原始的生物序列根据K-词和复数域的幅角映射，K-词长度是K，从而获得|∑|^K个词，将得到K-词按照步骤(4)的规则映射到复数域，并且每个K-词乘以其对应的词频，然后进行SWT得到序列的特征向量。

复数的辐角是复数三角形式表示的两个基本元素，所以将每个K-词用幅角的形势转化到复数域，能够突出的表现出序列的特征。用一个复数是由一对有序的实数唯一确定，所以对于复平面上给定的直角坐标系，复数的全体和此平面上点的全体是一一对应的关系。复数的向量可以表示复平面上的点的几何意义、解析几何中点的坐标、距离等问题相互联系。将K-词通过幅角的方式使序列转化到复数域，更加完整地保留了序列的原始信息。

基于小波变换为特征的序列相似性分析，运用复数和SWT的方法，不仅可以提取序列的时域信息，同时提取出信号的频域特征，SWT是一种复杂度较低的算法，并且K-词的方法显著的降低维度，因此，本发明方法可以显著的提高运算速度和聚类的精确度。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明基于小波变换为特征的序列相似性分析的方法的流程示意图。

具体实施方式

如图1所示，本发明公开了基于小波变换为特征的序列相似性分析的方法，其包括以下步骤：

(1)选取原始DNA数据集；

标准化后的词频：

S＝{S₁，S₂…，S_t…，S_n}

S_t为第t个K-词的词频x标准化后的结果，n为K-词的总数。

则第t个K-词所对应的幅角是θ的t倍，

即其中t表示该K-词在所有K-词中排序的位置；

进一步地，第t个K-词的复数值的实部为

第t个K-词的复数值的虚部为

下面就本发明的处理过程做详细的说明：

为了更清楚描述本专利中生物序列的处理过程，随机抽取一个family中的2条DNA序列作为分析对象，以这些DNA序列为样例对专利实施过程进行详细的描述。基于小波变换为特征的序列相似性分析方法步骤如下：

(1)、从实验数据集中的某一个family中随机选取两条DNA序列作为分析对象；

(2)、对于每一个数据集，将其中每一条生物序列进行K-词处理，即一条生物序列通过一个长度为K的滑动窗口，在窗口中的这一段序列是一个K-词，每条序列获得K-词的数量是L-K+1个，K-词的类别数是|∑|^K，L是序列的长度；

例如设滑动窗口长度K＝2时获得的K-词个数：AA AC AG AT CA CC CG CT GA GCGG GT TA TC TG TT

随机抽取的DNA序列为:

第一条序列：

ATGAACTTCTCCGGCAAGTACCAGCTGCAGAGCCAGGAAAACTTTGAGGCCTTCATGAAGGCAGTCGGTCTGCCTGACGAACTCATCCAGAAGGGGAAGGACATCAAGGGGGTGTCGGAAATTGTGCAGAATGGGAAGCACTTCAAACTCACCATCACCACTGGGTCCAAAGTGATTCAAAATGAGTTCACCTTGGGGGAAGAGTGTGAGCTGGAGACCATGACTGGGGAGAAGGTCAAGGCTGTGGTCCAGATGGAAGGTGACAATAAACTGGTGACAACTTTCAAAGGCATCAAGTCTGTGACCGAACTCAATGGCGATGTGATCACCAATACCATGACATTGGGTGACATTGTCTTC

AAGAGAATCAGCAAGAGAATTTAA

第二条序列：

ATGAACTTCTCCGGCAAGTACCAAGTCCAGACCCAGGAGAACTATGAGGCCTTCATGAAGGCAGTTGGGA

TGCCCGATGACATCATCCAGAAGGGGAAGGATATCAAGGGGGTGTCGGAAATCGTGCAGAATGGGAAGCACTTCAAGTTCATCATCACCGCTGGCTCCAAAGTGATCCAGAATGAGTTCACCTTGGGGGAGGAGTGTGAGATGGAGTTCATGACTGGGGAGAAGATCAAGGCAGTGGTTCAGCAGGAAGGTGATAATAAACTTGTGACAACTTTCAAGGGCATCAAGTCTGTGACTGAATTCAATGGTGACACTGTTACCAGTACCATGACGAAGGGCGACGTTGTCTTCAAGAGAGTCAGCAAGAGAATTTAG

(3)、统计每条序列中出现的K-词的词频X_t，X_t为第t个K-词在当前序列中出现的频数，为了避免序列长度的不同对词频产生的影响，对词频进行标准化处理，标准化后的结果为S_t，S_t为第t个K-词的词频标准化后的结果；

表一：每个K-词在两个序列中的词频

表二：词频标准化后的结果

(4)、提出一种新的特征定义方法。在复平面上，根据每个K-词对应的幅角给出其复数的映射。每个词在复平面上的位置定义如下：在复平面上定义一个单位圆，|∑|^K个K-词按照字母的排序均匀分布此在单位圆上，每个词对应的幅角的正弦值为该词对应复数的实部，余弦值为该词对应复数的虚部。那么则有

θ＝360/|∑|^K；

θ为平均幅角，即将一个圆周均分为|∑|^K份，每份的幅角为θ。

为第t个K-词所对应的幅角，是θ的t倍。

t表示该词在所以K-词中排序的位置；

进一步的，第t个K-词的复数值的实部为

第t个K-词的复数值的虚部为

表三：每个词对应的复数值

(5)、对于每条生物序列按照步骤(4)转化成复数序列后，每个词的复数的实部和虚部分别乘上步骤(3)中标准化后的词频，将得到的实部乘积结果和虚部乘积结果按列合并；

复数的实部和虚部分别与标准化后的词频相乘，两部分的乘积按列进行合并即得到序列的特征向量；

第一条序列计算得到的特征向量：

表四：第一条序列复数值与标准化后的词频乘积

第二条序列计算得到的特征向量：

表五：第二条序列复数值与标准化后的词频乘积

(6)、步骤(5)中得到的复数值与标准化后的词频相乘的结果，实部和虚部按列合并后对其进行静态小波变换，选用coiflets滤波器作为母小波；

序列可以进行多级的分解，本例中给出两条序列SWT一级分解后得到序列的特征向量，由于SWT方法分解后得到的特征向量长度与输入信号长度相等所以得到的特征向量为：

序列的特征向量：-1.1661 -1.6418 -1.8824 -1.9052 -1.6074 -1.1732-0.41659 0.3991 1.2425 1.6943 1.9272 2.22 1.9009 1.1565 0.39917 -0.8507 -1.6644 -1.1567 -0.34301 0.35241 1.109 1.7623 2.1302 2.088 1.807 1.19590.35244 -0.4737 -1.231 -1.721 -1.9853 -1.374

序列的特征向量：-1.198 -1.5968 -1.9076 -1.9936 -1.6097 -1.1317 -0.4030.39127 1.2018 1.6372 1.9127 2.185 1.8857 1.1883 0.40167 -0.95666 -1.7584 -1.1311 -0.32931 0.36491 1.0937 1.7017 2.0665 2.0382 1.7552 1.153 0.34241 -0.45522 -1.2419 -1.7564 -2.0114 -1.438

(7)、步骤(6)得到的小波变换的结果进行k-means聚类运算，对k-means聚类结果运用F-measure模型进行评价。

本发明采用以上技术方案，生物序列的相似性搜寻是生物信息处理中的基本方法，其应用场景十分广泛，预测未知序列的作用和功能、构建生物或者物种的系统进化树、分析物种的同源性等都需要对序列进行相似性搜寻。基于小波变换为特征的序列相似性分析方法，用词频的方法降低序列的维度，并将序列通过幅角的方法映射到复数域，结合K-词的词频特征，进行静态小波变换。静态小波变换能较好地实现信号在时间域和频率域的局部变换，更加完整有效地提取和分析信号的局部特性。静态小波变换分解过程没有进行下采样，因此很好的保留了序列的信息，通过滤波器分解得到的近似系数和细节系数的长度和原始信号相同，从而避免传统离散小波变换因为下采样而丢失序列信息的缺点，而且其复杂度较低，能够显著的提高计算速度并且提高聚类精确度。

Claims

1.基于小波变换为特征的序列相似性分析的方法，其特征在于：其包括以下步骤：

(1)选取原始DNA数据集；

(3)统计每条序列中出现的K-词的词频X，对词频X进行标准化处理，标准化后的结果为S；

(4)在复平面上定义一个单位圆，|∑|^K类的K-词按照字母的排序均匀分布在单位圆上，每个K-词对应的幅角的正弦值为该K-词对应复数的实部，余弦值为该K-词对应复数的虚部。

2.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法，其特征在于：所述步骤(2)中序列是由{A,T,C,G}四个字母组成，K-词处理中的滑动窗口的长度为K，序列长度为L,每条序列获得K-词的数量是L-K+1个，K-词的类别数是|∑|^K，Σ＝{A,C,G,T},|Σ|＝4。

3.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法，其特征在于：所述步骤(3)中K-词的词频X＝{X₁，X₂…，X_t…，X_n}，X_t为第t个K-词在当前序列中出现的频数，n为K-词的总数；

x是当前词频，y是标准化后的词频，mean(Value)是词频的均值，S(Value)是词频的标准差；标准化后的词频：

S＝{S₁，S₂…，S_t…，S_n}

S_t为第t个K-词的词频x标准化后的结果，n为K-词的总数。

4.根据权利要求1所述的基于小波变换为特征的序列相似性分析的方法，其特征在于：所述步骤(4)中K-词复数表示的计算方式：每条序列对应|∑|^K个K-词，复平面二维直角坐标系，K-词按照字母对应的ASCII的大小顺序进行排序，|∑|^K个K-词逆时针方向均匀分布在以坐标原点为中心的单位圆上；

则第t个K-词所对应的幅角是θ的t倍；即(1≤t≤|∑|^K)，其中t表示该K-词在所有K-词中排序的位置；

进一步地，第t个K-词的复数值的实部为

第t个K-词的复数值的虚部为