CN104978972A

CN104978972A - 基于超完备傅里叶基的语音信号稀疏表示方法

Info

Publication number: CN104978972A
Application number: CN201510229462.5A
Authority: CN
Inventors: 刘冠群; 张汝波; 杨大伟; 唐莉莉; 吴俊伟
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2015-10-14
Anticipated expiration: 2035-05-07
Also published as: CN104978972B

Abstract

本发明公开了一种基于超完备傅里叶基的语音信号稀疏表示方法，其步骤是：根据需要构造超完备傅里叶基；将输入信号进行分帧，进行线性预测估计，获得线性预测系数；利用所获得的线性预测系数求线性预测谱；搜索线性预测谱的局部极大值，获得当前帧语音的共振峰数目；将所获得共振峰数作为依据，利用超完备傅里叶基进行稀疏逼近，以获得稀疏表示系数，即获得语音信号的稀疏表示，从而完成语音信号的稀疏表示。本发明利用线性预测谱的局部极大值与语谱中的共振峰之间的对应关系，通过搜索线性预测谱局部极大值获得的共振峰数目，为稀疏系数中非零元的数目提供了依据，提高了语音稀疏逼近的性能。

Description

基于超完备傅里叶基的语音信号稀疏表示方法

技术领域

本发明涉及数字信号处理和模式分类技术，特别涉及一种基于超完备傅里叶基的语音信号稀疏表示方法，即利用计算机对语音信号进行稀疏表示的方法。

背景技术

语音信号稀疏表示在语音信号处理中有重要地位，它能降低信号处理成本，提高压缩效率。广泛使用的稀疏变换有傅里叶变换、离散余弦变换等。这些方法的缺点在于稀疏表示基固定，有时不能取得好的稀疏表示效果。基于超完备字典的信号稀疏表示方法用超完备的冗余函数系统代替传统的正交函数基，为信号的稀疏展开提供了极大的灵活性，利用字典的冗余特性可以捕捉原始信号的自然特征，取得很好的信号稀疏表示效果。

语音信号是人的发声器官所发出的声音。由于人的发声系统的特殊性，语音在频谱上会呈现共振峰结构，在二维的语谱图上则表现为缓慢变化的带状结构。这说明语音信号在频域上具有稀疏性，具备稀疏展开条件。针对傅里叶变换基固定所造成的频率分辨率固定的缺点，本发明利用超完备的傅里叶基对语音信号进行稀疏表示，以提高语音信号的稀疏表示性能。

发明内容

本发明的目的在于提供一种利用语音信号的频域稀疏特性并利用超完备傅里叶基对语音信号进行稀疏表示的方法。

本发明的目的是这样实现的：

一种基于超完备傅里叶基的语音信号稀疏表示方法，其内容包括如下步骤：

(1)根据需要构造超完备傅里叶基；

(2)将输入信号进行分帧，进行线性预测估计，获得线性预测系数；

(3)利用所获得的线性预测系数求线性预测谱；

(4)搜索线性预测谱的局部极大值，获得当前帧语音的共振峰数目；

(5)将步骤(4)所获得的共振峰数作为依据，利用超完备傅里叶基进行稀疏逼近，以获得稀疏表示系数，即获得语音信号的稀疏表示；

(6)重复步骤(2)-(5)，直至任务结束。

作为人类特有的声音，语音在频谱上具有共振峰结构，是语音信号在频域上具有稀疏性的体现，能够在频域上对语音信号进行稀疏表示。用超完备傅里叶基对语音信号进行稀疏表示，弥补了离散傅里叶变换中基函数固定导致频谱能量泄露的不足，可以在频域上对语音信号进行更好的稀疏逼近。线性预测谱的局部极大值与语谱中的共振峰具有对应关系，通过搜索线性预测谱局部极大值获得的共振峰数目，为稀疏系数中非零元的数目提供了依据，提高了语音稀疏逼近性能。

本发明将输入的语音信号进行线性预测估计，获得线性预测系数，然后计算线性预测谱，通过搜索线性预测谱的局部极大值获得共振峰数目，以此作为稀疏系数中非零元数目的依据，最后用超完备傅里叶基对语音信号进行稀疏逼近以获得稀疏系数，完成语音信号的稀疏表示。

由于采用上述技术方案，本发明提供的一种基于超完备傅里叶基的语音信号稀疏表示方法，与现有技术相比具有这样的有益效果：

现有的稀疏表示技术，要么以能量残余作为稀疏表示的终止条件，要么以固定的稀疏表示系数数目作为稀疏表示的终止，没有充分考虑语音信号本身特点。本发明利用线性预测谱的局部极大值与语谱中的共振峰之间的对应关系，通过搜索线性预测谱局部极大值获得的共振峰数目，为稀疏系数中非零元的数目提供了依据，提高了语音稀疏逼近的性能。

附图说明

图1是语音稀疏表示流程图。

具体实施方式

下面结合附图举例对本发明做详细的描述：

一种基于超完备傅里叶基的语音信号稀疏表示方法，其实施例流程图如图1所示，现根据图1对本发明方法做详细说明如下：

(1)根据需要的频率分辨率构造超完备傅里叶基；设待稀疏表示信号的帧长为N，令

e(ω)＝[1 e^jω e^jω … e^jNω]^T

式中的ω为离散频率点，设所需的频率分辨率为Δ＝2π/M，式中M是频率分辨率控制参数，为整数，M决定超完备傅里叶基的频率分辨率，M＞N，M的值越大，则频率分辨率越高；则超完备傅里基A为

A＝[e(0) e(Δ) … e(2π-Δ)]

A的维数为N×M；

(2)将输入信号进行分帧，分帧后的信号为s(n)，长度为N，建立P阶线性预测模型，使用Durbin递推算法进行线性预测估计，获得P个线性预测系数，并组成线性预测系数向量a＝[a₁ a₂ … a_P]；

(3)利用所获得的线性预测系数向量a求线性预测谱H(e^jω)

H (e^{jω}) = \frac{G}{1 - Σ_{i = 1}^{i = P} a_{i} e^{- jωi}}

式中的G为增益因子，可以设为1；

(4)对数字频带[0,π)进行抽样，抽样间隔为θ＝π/L，式中L为抽样间隔控制参数，L＞0，且为整数，L决定所得到的线性预测谱的光滑程度，L的大小可以根据需要进行设定，L越大，所得到的线性预测谱幅值越光滑，将ω＝e^jnθ(0≤n＜L)代入|H(e^jω)|，可得离散化的线性预测谱幅值，搜索线性预测谱幅值的局部极大值，根据预先设定的终止条件，可获得线性预测谱幅值的m个局部极大值，即为当前帧语音的共振峰数目；

(5)将步骤(4)所获得共振峰数m作为依据，利用超完备傅里叶基进行稀疏逼近，以获得稀疏表示系数，即获得语音信号的稀疏表示；

(6)重复步骤(2)-(5)，直至任务结束。

Claims

1.一种基于超完备傅里叶基的语音信号稀疏表示方法，其特征在于该方法内容包括如下步骤：

e(ω)＝[1 e^jω e^jω … e^jNω]^T

A＝[e(0) e(Δ) … e(2π-Δ)]

A的维数为N×M；

(3)利用所获得的线性预测系数向量a求线性预测谱H(e^jω)

H (e^{jω}) = \frac{G}{1 - Σ_{i = 1}^{i = P} a_{i} e^{- jωi}}

式中的G为增益因子，可以设为1；

(6)重复步骤(2)-(5)，直至任务结束。