CN104978972A - 基于超完备傅里叶基的语音信号稀疏表示方法 - Google Patents

基于超完备傅里叶基的语音信号稀疏表示方法 Download PDF

Info

Publication number
CN104978972A
CN104978972A CN201510229462.5A CN201510229462A CN104978972A CN 104978972 A CN104978972 A CN 104978972A CN 201510229462 A CN201510229462 A CN 201510229462A CN 104978972 A CN104978972 A CN 104978972A
Authority
CN
China
Prior art keywords
linear prediction
base
sparse
voice signal
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510229462.5A
Other languages
English (en)
Other versions
CN104978972B (zh
Inventor
刘冠群
张汝波
杨大伟
唐莉莉
吴俊伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Nationalities University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Nationalities University filed Critical Dalian Nationalities University
Priority to CN201510229462.5A priority Critical patent/CN104978972B/zh
Publication of CN104978972A publication Critical patent/CN104978972A/zh
Application granted granted Critical
Publication of CN104978972B publication Critical patent/CN104978972B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于超完备傅里叶基的语音信号稀疏表示方法,其步骤是:根据需要构造超完备傅里叶基;将输入信号进行分帧,进行线性预测估计,获得线性预测系数;利用所获得的线性预测系数求线性预测谱;搜索线性预测谱的局部极大值,获得当前帧语音的共振峰数目;将所获得共振峰数作为依据,利用超完备傅里叶基进行稀疏逼近,以获得稀疏表示系数,即获得语音信号的稀疏表示,从而完成语音信号的稀疏表示。本发明利用线性预测谱的局部极大值与语谱中的共振峰之间的对应关系,通过搜索线性预测谱局部极大值获得的共振峰数目,为稀疏系数中非零元的数目提供了依据,提高了语音稀疏逼近的性能。

Description

基于超完备傅里叶基的语音信号稀疏表示方法
技术领域
本发明涉及数字信号处理和模式分类技术,特别涉及一种基于超完备傅里叶基的语音信号稀疏表示方法,即利用计算机对语音信号进行稀疏表示的方法。
背景技术
语音信号稀疏表示在语音信号处理中有重要地位,它能降低信号处理成本,提高压缩效率。广泛使用的稀疏变换有傅里叶变换、离散余弦变换等。这些方法的缺点在于稀疏表示基固定,有时不能取得好的稀疏表示效果。基于超完备字典的信号稀疏表示方法用超完备的冗余函数系统代替传统的正交函数基,为信号的稀疏展开提供了极大的灵活性,利用字典的冗余特性可以捕捉原始信号的自然特征,取得很好的信号稀疏表示效果。
语音信号是人的发声器官所发出的声音。由于人的发声系统的特殊性,语音在频谱上会呈现共振峰结构,在二维的语谱图上则表现为缓慢变化的带状结构。这说明语音信号在频域上具有稀疏性,具备稀疏展开条件。针对傅里叶变换基固定所造成的频率分辨率固定的缺点,本发明利用超完备的傅里叶基对语音信号进行稀疏表示,以提高语音信号的稀疏表示性能。
发明内容
本发明的目的在于提供一种利用语音信号的频域稀疏特性并利用超完备傅里叶基对语音信号进行稀疏表示的方法。
本发明的目的是这样实现的:
一种基于超完备傅里叶基的语音信号稀疏表示方法,其内容包括如下步骤:
(1)根据需要构造超完备傅里叶基;
(2)将输入信号进行分帧,进行线性预测估计,获得线性预测系数;
(3)利用所获得的线性预测系数求线性预测谱;
(4)搜索线性预测谱的局部极大值,获得当前帧语音的共振峰数目;
(5)将步骤(4)所获得的共振峰数作为依据,利用超完备傅里叶基进行稀疏逼近,以获得稀疏表示系数,即获得语音信号的稀疏表示;
(6)重复步骤(2)-(5),直至任务结束。
作为人类特有的声音,语音在频谱上具有共振峰结构,是语音信号在频域上具有稀疏性的体现,能够在频域上对语音信号进行稀疏表示。用超完备傅里叶基对语音信号进行稀疏表示,弥补了离散傅里叶变换中基函数固定导致频谱能量泄露的不足,可以在频域上对语音信号进行更好的稀疏逼近。线性预测谱的局部极大值与语谱中的共振峰具有对应关系,通过搜索线性预测谱局部极大值获得的共振峰数目,为稀疏系数中非零元的数目提供了依据,提高了语音稀疏逼近性能。
本发明将输入的语音信号进行线性预测估计,获得线性预测系数,然后计算线性预测谱,通过搜索线性预测谱的局部极大值获得共振峰数目,以此作为稀疏系数中非零元数目的依据,最后用超完备傅里叶基对语音信号进行稀疏逼近以获得稀疏系数,完成语音信号的稀疏表示。
由于采用上述技术方案,本发明提供的一种基于超完备傅里叶基的语音信号稀疏表示方法,与现有技术相比具有这样的有益效果:
现有的稀疏表示技术,要么以能量残余作为稀疏表示的终止条件,要么以固定的稀疏表示系数数目作为稀疏表示的终止,没有充分考虑语音信号本身特点。本发明利用线性预测谱的局部极大值与语谱中的共振峰之间的对应关系,通过搜索线性预测谱局部极大值获得的共振峰数目,为稀疏系数中非零元的数目提供了依据,提高了语音稀疏逼近的性能。
附图说明
图1是语音稀疏表示流程图。
具体实施方式
下面结合附图举例对本发明做详细的描述:
一种基于超完备傅里叶基的语音信号稀疏表示方法,其实施例流程图如图1所示,现根据图1对本发明方法做详细说明如下:
(1)根据需要的频率分辨率构造超完备傅里叶基;设待稀疏表示信号的帧长为N,令
e(ω)=[1 e e … ejNω]T
式中的ω为离散频率点,设所需的频率分辨率为Δ=2π/M,式中M是频率分辨率控制参数,为整数,M决定超完备傅里叶基的频率分辨率,M>N,M的值越大,则频率分辨率越高;则超完备傅里基A为
A=[e(0) e(Δ) … e(2π-Δ)]
A的维数为N×M;
(2)将输入信号进行分帧,分帧后的信号为s(n),长度为N,建立P阶线性预测模型,使用Durbin递推算法进行线性预测估计,获得P个线性预测系数,并组成线性预测系数向量a=[a1 a2 … aP];
(3)利用所获得的线性预测系数向量a求线性预测谱H(e)
H ( e jω ) = G 1 - Σ i = 1 i = P a i e - jωi
式中的G为增益因子,可以设为1;
(4)对数字频带[0,π)进行抽样,抽样间隔为θ=π/L,式中L为抽样间隔控制参数,L>0,且为整数,L决定所得到的线性预测谱的光滑程度,L的大小可以根据需要进行设定,L越大,所得到的线性预测谱幅值越光滑,将ω=ejnθ(0≤n<L)代入|H(e)|,可得离散化的线性预测谱幅值,搜索线性预测谱幅值的局部极大值,根据预先设定的终止条件,可获得线性预测谱幅值的m个局部极大值,即为当前帧语音的共振峰数目;
(5)将步骤(4)所获得共振峰数m作为依据,利用超完备傅里叶基进行稀疏逼近,以获得稀疏表示系数,即获得语音信号的稀疏表示;
(6)重复步骤(2)-(5),直至任务结束。

Claims (1)

1.一种基于超完备傅里叶基的语音信号稀疏表示方法,其特征在于该方法内容包括如下步骤:
(1)根据需要的频率分辨率构造超完备傅里叶基;设待稀疏表示信号的帧长为N,令
e(ω)=[1 e e … ejNω]T
式中的ω为离散频率点,设所需的频率分辨率为Δ=2π/M,式中M是频率分辨率控制参数,为整数,M决定超完备傅里叶基的频率分辨率,M>N,M的值越大,则频率分辨率越高;则超完备傅里基A为
A=[e(0) e(Δ) … e(2π-Δ)]
A的维数为N×M;
(2)将输入信号进行分帧,分帧后的信号为s(n),长度为N,建立P阶线性预测模型,使用Durbin递推算法进行线性预测估计,获得P个线性预测系数,并组成线性预测系数向量a=[a1 a2 … aP];
(3)利用所获得的线性预测系数向量a求线性预测谱H(e)
H ( e jω ) = G 1 - Σ i = 1 i = P a i e - jωi
式中的G为增益因子,可以设为1;
(4)对数字频带[0,π)进行抽样,抽样间隔为θ=π/L,式中L为抽样间隔控制参数,L>0,且为整数,L决定所得到的线性预测谱的光滑程度,L的大小可以根据需要进行设定,L越大,所得到的线性预测谱幅值越光滑,将ω=ejnθ(0≤n<L)代入|H(e)|,可得离散化的线性预测谱幅值,搜索线性预测谱幅值的局部极大值,根据预先设定的终止条件,可获得线性预测谱幅值的m个局部极大值,即为当前帧语音的共振峰数目;
(5)将步骤(4)所获得共振峰数m作为依据,利用超完备傅里叶基进行稀疏逼近,以获得稀疏表示系数,即获得语音信号的稀疏表示;
(6)重复步骤(2)-(5),直至任务结束。
CN201510229462.5A 2015-05-07 2015-05-07 基于超完备傅里叶基的语音信号稀疏表示方法 Expired - Fee Related CN104978972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510229462.5A CN104978972B (zh) 2015-05-07 2015-05-07 基于超完备傅里叶基的语音信号稀疏表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510229462.5A CN104978972B (zh) 2015-05-07 2015-05-07 基于超完备傅里叶基的语音信号稀疏表示方法

Publications (2)

Publication Number Publication Date
CN104978972A true CN104978972A (zh) 2015-10-14
CN104978972B CN104978972B (zh) 2018-08-10

Family

ID=54275426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510229462.5A Expired - Fee Related CN104978972B (zh) 2015-05-07 2015-05-07 基于超完备傅里叶基的语音信号稀疏表示方法

Country Status (1)

Country Link
CN (1) CN104978972B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597534A (zh) * 2018-04-09 2018-09-28 中国人民解放军国防科技大学 基于卷积框架的语音信号稀疏表示方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078621A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Sparse representation features for speech recognition
CN102445691A (zh) * 2011-10-11 2012-05-09 北京航空航天大学 一种多通道星载合成孔径雷达方位频谱稀疏重建方法
CN103268765A (zh) * 2013-06-04 2013-08-28 沈阳空管技术开发有限公司 民航管制语音稀疏编码方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078621A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Sparse representation features for speech recognition
CN102445691A (zh) * 2011-10-11 2012-05-09 北京航空航天大学 一种多通道星载合成孔径雷达方位频谱稀疏重建方法
CN103268765A (zh) * 2013-06-04 2013-08-28 沈阳空管技术开发有限公司 民航管制语音稀疏编码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙林慧 ET AL.: "基于过完备线性预测字典的压缩感知语音重构", 《仪器仪表学报》 *
孙林慧 ET AL.: "语音压缩感知研究进展与展望", 《JOURNAL OF DATA ACQUISITION AND PROCESSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597534A (zh) * 2018-04-09 2018-09-28 中国人民解放军国防科技大学 基于卷积框架的语音信号稀疏表示方法
CN108597534B (zh) * 2018-04-09 2021-05-14 中国人民解放军国防科技大学 基于卷积框架的语音信号稀疏表示方法

Also Published As

Publication number Publication date
CN104978972B (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
Prasad et al. Automatic segmentation of continuous speech using minimum phase group delay functions
Perraudin et al. A fast Griffin-Lim algorithm
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
Schörkhuber et al. Audio pitch shifting using the constant-Q transform
CN109063613A (zh) 基于广义参数化同步提取变换的非平稳信号处理方法
CN105788607A (zh) 应用于双麦克风阵列的语音增强方法
RU2012128847A (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
CN111128213A (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN103258543B (zh) 一种人工语音带宽扩展的方法
CN109117832A (zh) 高阶同步提取变换信号时频分析方法
CN107490722A (zh) 一种低信噪比实信号的频率估计方法
CN103093757B (zh) 一种窄带码流转换为宽带码流的转换方法
CN102332268B (zh) 基于自适应冗余字典的语音信号稀疏表示方法
CN107248414A (zh) 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN102543089B (zh) 一种窄带码流转换为宽带码流的转换装置
CN104978972A (zh) 基于超完备傅里叶基的语音信号稀疏表示方法
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
Zhidong et al. A new method for processing end effect in empirical mode decomposition
CN104658547A (zh) 一种人工语音带宽扩展的方法
CN113095113A (zh) 一种用于水下目标识别的小波线谱特征提取方法及系统
Ernawan et al. Efficient discrete tchebichef on spectrum analysis of speech recognition
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Wang et al. Research on transformer fault voiceprint recognition based on Mel time-frequency spectrum-convolutional neural network
Wang et al. Processing of partial discharge ultra-high frequency signals from a true size transformer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180810

Termination date: 20200507