CN108597534A

CN108597534A - 基于卷积框架的语音信号稀疏表示方法

Info

Publication number: CN108597534A
Application number: CN201810311280.6A
Authority: CN
Inventors: 王泽龙; 袁翰; 刘吉英; 叶钒; 余奇; 严奉霞; 朱炬波
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-09-28
Anticipated expiration: 2038-04-09
Also published as: CN108597534B

Abstract

一种基于卷积框架的语音信号稀疏表示方法，针对卷积框架中给定的非局部基U，利用语音训练信号集，建立局部基V的优化模型，数值求解该模型后，获得与非局部基最佳匹配的局部基，得到优化训练的卷积框架。优化训练后的卷积框架能够充分挖掘待表示语音信号的局部、非局部信息，具有更好的语音信号稀疏表示能力。优化训练后的卷积框架能够利用语音训练信号集的结构特征，具有更好的数据适应性。

Description

基于卷积框架的语音信号稀疏表示方法

技术领域

本发明涉及语音信号稀疏表示方法，具体涉及一种基于卷积框架的语音信号稀疏表示方法。

背景技术

语音信号的稀疏表示在语音信号去噪、语音修复等领域具有重要应用，其源于一个基本事实：自然信号具有稀疏特性，即当信号在某表示基(字典)上线性分解时，其表示系数是稀疏的。调和分析中的傅里叶基、余弦基、小波基等为语音信号稀疏表示提供了重要的数学工具，尽管其构造简单、计算量小，但稀疏表示能力有限，为此过完备基(字典)应运而生。过完备字典增强了稀疏表示能力，但是训练复杂。随着非局部滤波(NLM)、三维块匹配(BM3D)等非局部方法的发展，信号非局部信息为提升信号处理效果提供了额外的维度，然而上述两类稀疏表示工具都没有同时考虑信号的局部与非局部特性。

卷积框架利用局部基与非局部基进行卷积运算，构造了性能更强的稀疏表示工具。卷积框架不仅提供了对非局部滤波、三维快匹配等非局部方法新的理解视角，还给出了稀疏表示工具的一般构造方法。利用汉克(Hankel)矩阵将语音信号提升至一高维矩阵空间，则提升后的语音信号可表示为非局部基、表示矩阵与局部基的矩阵乘积，其中表示矩阵具有较好的稀疏特性。对于原语音信号而言，等价于将其在由非局部基与局部基卷积而成的卷积框架上进行线性表示，由于卷积框架的过完备特性以及其结合了信号局部、非局部信息，因此表示系数具有较好的稀疏特性。

注意到卷积框架中局部基与非局部基一般选取为具有结构特征的基矩阵，如傅里叶基、余弦基与小波基，尽管其构造简单，但数据适应性较低。因此，卷积框架需要进一步优化，以使其具备理想的稀疏表示能力。

发明内容

为了解决现有技术存在的问题，本发明目的在于提供一种基于卷积框架的语音信号稀疏表示方法。对于给定的非局部基以及语音训练信号数据，优化训练与之匹配的局部基，使卷积框架对训练数据具有良好的数据适应性，提高卷积框架的稀疏表示能力。本发明需要解决的问题包括：其一，建立语音信号稀疏表示的卷积框架优化模型；其二，实现优化模型的数值求解。

为实现本发明之目的，本发明采用以下技术方案予以实现：

一种基于卷积框架的语音信号稀疏表示方法，包括以下步骤：

S1：建立语音信号稀疏表示的卷积框架优化模型

给定一维语音信号f＝(g₁,g₂,…,g_n)^T∈Rⁿ与信号片长度d，其中Rⁿ代表n维实向量空间，表明语音信号f可以由该空间n维向量表示；1≤d≤n，n的取值为自然数。

考虑一维语音信号f＝(g₁,g₂,…,g_n)^T∈Rⁿ与信号片长度d，定义汉克算子H_d:Rⁿ→Rⁿ ^×d为：

其中R^n×d代表n*d维实向量空间。F用来简化表示汉克算子H_d；H_d(f)表示由语音信号f生成的汉克算子；g₁到g_n是Rⁿ空间中f的组成向量，每d个g_i(1<＝i<＝n)组成一个信号片。

则对于任给向量v∈R^d，有

f*v＝Fv (2)

其中，*为卷积算子。

类似的，可以定义汉克算子H_d的广义逆算子为

其中，是指矩阵B的汉克算子的逆算子，A_i＝H_d(e_i),i＝1,2,3...n，e_i,i＝1,2,…,n为f_i,i＝1,2,…,n在Rⁿ空间的标准正交基矢量，H_d(e_i)表示由e_i生成的汉克算子；B为任给矩阵且B∈R^n×d，＜·,·＞为矩阵内积算子。

在数学中，一个算子设为C，其零空间是方程Cv＝0的所有解v的集合。当给定算子的形式和定义域后，该算子的零空间就能得出。注意到算子的零空间含有非零元素，因此定义关于的相等算子为

其中A是一个任给矩阵，是相等算子定义中的一个矩阵，它满足

进一步，对于给定的训练语音信号集(f_l∈Rⁿ，L是训练语音信号集的数量)以及信号片长度d，可通过汉克算子H_d直接建立其提升信号集(H_d(f_l)∈R^n×d)，是中每一个语音信号f带入汉克算子后得到的矩阵的集合。

则卷积框架的优化训练可表示为，对于给定的非局部基U∈R^n×n，优化局部基V∈R^d ^×d，使得由非局部基U与优化局部基V的列向量卷积而成的卷积框架{u_i*v_j|i＝1,2,…,n；j＝1,2,…,d}对语音训练信号具有良好的稀疏表示能力，进而更好的表示一般语音测试信号。其中R^n×n表示n*n维实向量空间；R^d×d表示d*d维实向量空间；u_i，v_j分别为非局部基U与优化局部基V的列向量。

为此，建立如下卷积框架的优化模型：

其中，I_d为R^d×d中单位矩阵，||·||₁定义为C_l是语音训练信号在该卷积框架下的稀疏表示矩阵，c_ij是矩阵C_l中的元素。

由公式(4)可将优化模型(5)等价表示为

其中，F_l∈R^n×d为引入的分裂变量。

经过优化模型(6)训练得到的卷积框架，具备很好的数据适应性，能够提升卷积框架对语音信号的稀疏表示能力。

S2：对卷积框架的优化模型进行数值求解，具体包括以下步骤：

S2.1，对优化模型(6)进行等价转换。

注意到这等价于即则将模型(6)中两约束项作为惩罚项添加到优化模型(6)中的目标函数后，得到

其中，λ,μ＞0为惩罚项参数。

S2.2，利用交替优化方法实现模型(7)的数值求解。模型(7)可分解为

其中，τ＝μ/λ。k代表的是迭代次数，先将式(8)中求得的第一个子模型的结果代入式(8)中第二个子模型，再将第二个子模型求得的结果代入式(8)中第三个子模型，再用第三个子模型求得的结果结果代回第一个子模型，依次迭代循环，实现迭代优化。

S2.2中，模型(8)中的三个子模型可以分别进行数值求解，具体包括三个步骤：

S2.2.1、模型(8)中第一个子模型可分解为

由于U与V^k为正交基，(9)可进一步转化为

此模型(10)可通过阈值收缩算子求解，即

其中，阈值收缩算子定义为S(a,b)＝sgn(a)·max{|a|-b,0}，即

S2.2.2、模型(8)中第二个子模型的目标函数可转化为

其中，Tr(·)为矩阵迹函数。则第二个子模型等价于

易知，该模型(13)有闭形式解：V^k+1＝PQ^T，

P、Λ、Q为矩阵的奇异值分解。其中，P、Q都是正交矩阵，Λ是对角矩阵。

S2.2.3、模型(8)中第三个子模型可分解为

令F_l＝UΓ_l(V^k+1)^T，Γ_l为引入的一个中间变量，无实际定义。由于U与V^k+1为正交基，上述模型(15)进一步等价于

由汉克算子H_d的广义逆算子的定义，有

其中，v(·)为矩阵矢量化算子。γ_ij ^l是矩阵Γ_l的元素，其中l＝1,2,…,L

则模型(16)等价于

由最小二乘估计有

其中，v^-1(·)为v(·)的逆算子。I_nd是nd*nd阶单位矩阵。

S2.4.4、若则停止迭代，输出结算结果：否则，返回继续S2.2.1。其中表示V的估计值。

优选后，S2.2.1至S2.4.4中参数取值满足：λ∈(0,20)，μ∈(0,20)，δ∈(0,1)，η∈(0,0.01)。

S3、对于给定的语音测试信号g，利用上述过程训练得到的卷积框架将该给定的语音测试信号g表示为：其中：s即为该给定的语音测试信号g的稀疏表示，为了求得s，最简单的方法是求得利用得出；

但由于卷积框架的过完备性，无法利用上述方法直接求得s，s需要通过优化问题进行近似求解，其中α为优化参数，其取值为(0,1)，s′为优化模型中的优化变量，是真值s的估计值，最终得到语音测试信号g的稀疏表示

本方法针对卷积框架中给定的非局部基U，利用语音训练信号集，建立局部基V的优化模型，数值求解该模型后，获得与非局部基最佳匹配的局部基，得到优化训练的卷积框架。具有以下优点：

1)优化训练后的卷积框架能够充分挖掘待表示语音信号的局部、非局部信息，具有更好的语音信号稀疏表示能力；

2)优化训练后的卷积框架能够利用语音训练信号集的结构特征，具有更好的数据适应性；

3)模型可以稳健的数值求解，便于实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中卷积框架优化训练流程图。

图2为本发明中交替优化求解算法流程图。

图3为本发明实施例中部分语音训练信号集。

图4为本发明实施例中给定的非局部基。

图5为本发明实施例中优化训练后的卷积框架，为了便于显示，在列方向进行10倍下采样。

图6为本发明实施例中语音测试信号，分别标记为A、B、C与D。

图7为本发明实施例中稀疏表示系数图，其中子图(a)、(b)、(c)与(d)分别对应语音测试信号A、B、C与D；DCT与Haar分别表示余弦基与Haar小波基，CF(DCT-DCT)与CF(DCT-Haar)分别表示由DCT与DCT、DCT与Haar卷积而成的卷积框架，OMCF为本实例中优化训练后的卷积框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于卷积框架的语音信号稀疏表示方法，其首先，对于给定的非局部基与语音训练信号集建立卷积框架的优化模型；进而针对模型特点设计数值求解(流程如图2所示)实现卷积框架的优化训练，参照图1，图1为利用语音训练信号集优化训练卷积框架的流程图。最后，基于优化训练的卷积框架得到语音测试信号的稀疏表示。

本实施例中的部分语音训练信号集如图3所示，给定的非局部基如图4所示，先对卷积框架进行优化训练，然后基于优化训练的卷积框架得到语音测试信号的稀疏表示。具体步骤包括：

S1：建立语音信号稀疏表示的卷积框架优化模型

则对于任给向量v∈R^d，有

f*v＝Fv (2)

其中，*为卷积算子。

类似的，可以定义汉克算子H_d的广义逆算子为

其中，是指矩阵B的汉克算子的逆算子，A_i＝H_d(e_i),i＝1,2,3...n，e_i,i＝1,2,…,n为f_i,i＝1,2,…,n在Rⁿ空间的标准正交基矢量，H_d(e_i)表示由e_i生成的汉克算子；B为任给矩阵且B∈R^n×d，＜·,·＞为矩阵内积算子。注意到算子的零空间含有非零元素，因此定义关于的相等算子为

为此，建立如下卷积框架的优化模型：

由公式(4)可将优化模型(5)等价表示为

其中，F_l∈R^n×d为引入的分裂变量。

S2.1，对优化模型(6)进行等价转换。

其中，λ,μ＞0为惩罚项参数。

S2.2，利用交替优化方法实现模型(7)的数值求解。

模型(7)可分解为

S2.2.1、模型(8)中第一个子模型可分解为

由于U与V^k为正交基，(9)可进一步转化为

此模型(10)可通过阈值收缩算子求解，即

其中，阈值收缩算子定义为S(a,b)＝sgn(a)·max{|a|-b,0}，即

S2.2.2、模型(8)中第二个子模型的目标函数可转化为

其中，Tr(·)为矩阵迹函数。则第二个子模型等价于

易知，该模型(13)有闭形式解：V^k+1＝PQ^T，

S2.2.3、模型(8)中第三个子模型可分解为

由汉克算子H_d的广义逆算子的定义，有

其中，v(·)为矩阵矢量化算子。γ_ij ^l是矩阵Γ_l的元素，其中l＝1,2,…,L则模型(16)等价于

由最小二乘估计有

其中，v^-1(·)为v(·)的逆算子。I_nd是nd*nd阶单位矩阵。

S2.2.4、若则停止迭代，输出结算结果：否则，返回继续S2.2.1。其中表示V的估计值。

优选后，S2.2.1至S2.2.4步骤中参数取值满足：λ∈(0,20)，μ∈(0,20)，δ∈(0,1)，η∈(0,0.01)。

但由于卷积框架的过完备性，无法利用上述方法直接求得s，s需要通过优化问题进行近似求解，其中α为优化参数，其取值为(0，1)，s′为优化模型中的优化变量，是真值s的估计值，最终得到语音测试信号g的稀疏表示

本实施例中：S2.2.1至S2.2.4中的具体参数取值如表1所示：

表1模型参数与交替优化求解算法参数

训练信号个数	n	d	λ	μ	τ	η
							250	256	16	10	10	1	0.001

参数说明：

n：语音信号长度；

d：信号片长度；

λ：惩罚项参数；

μ：惩罚项参数；

τ：τ＝μ/λ；

η：迭代终止条件；

δ：收缩算法参数。

将如图4所示的非局部基作为交替优化模型中的U，将包括图3中所示的四个语音训练信号在内的训练信号集作为优化模型中的将16×16维余弦基作为交替优化算法中局部基的初始值V⁰，将汉克算子H_d作用于得到的作为交替优化算法中变量的初始值。

本实施例中的输出的优化后的卷积框架如图5所示，图6为四个语音测试信号，图7为利用优化后的卷积框架(OMCF)以及传统稀疏表示工具对语音测试信号进行表示后的系数，可以发现优化后的卷积框架具有更好的能量聚集性，即稀疏表示能力更强。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于卷积框架的语音信号稀疏表示方法，其特征在于，包括以下步骤：

S1：建立语音信号稀疏表示的卷积框架优化模型

给定一维语音信号f＝(g₁,g₂,L,g_n)^T∈Rⁿ与信号片长度d，其中Rⁿ代表n维实向量空间，表明语音信号f可以由该空间n维向量表示；1≤d≤n，n的取值为自然数；

考虑一维语音信号f＝(g₁,g₂,L,g_n)^T∈Rⁿ与信号片长度d，定义汉克算子H_d:Rⁿ→R^n×d为：

其中R^n×d代表n*d维实向量空间；F用来简化表示汉克算子H_d；H_d(f)表示由语音信号f生成的汉克算子；g₁到g_n是Rⁿ空间中f的组成向量，每d个g_i(1<＝i<＝n)组成一个信号片；

则对于任给向量v∈R^d，有

f*v＝Fv (2)

其中，*为卷积算子；

类似的，可以定义汉克算子H_d的广义逆算子为

其中，是指矩阵B的汉克算子的逆算子，A_i＝H_d(e_i),i＝1,2,3...n，e_i,i＝1,2,L,n为f_i,i＝1,2,L,n在Rⁿ空间的标准正交基矢量，H_d(e_i)表示由e_i生成的汉克算子；B为任给矩阵且B∈R^n×d，＜·,·＞为矩阵内积算子；

在数学中，一个算子设为C，其零空间是方程Cv＝0的所有解v的集合；当给定算子的形式和定义域后，该算子的零空间就能得出；注意到算子的零空间含有非零元素，因此定义关于的相等算子为

对于给定的训练语音信号集(f_l∈Rⁿ，L是训练语音信号集的数量)以及信号片长度d，可通过汉克算子H_d直接建立其提升信号集H_d(f_l)∈R^n×d，是中每一个语音信号f_l带入汉克算子后得到的矩阵的集合；

则卷积框架的优化训练可表示为，对于给定的非局部基U∈R^n×n，优化局部基V∈R^d×d，使得由非局部基U与优化局部基V的列向量卷积而成的卷积框架{u_i*v_j|i＝1,2,L,n；j＝1,2,L,d}对语音训练信号具有良好的稀疏表示能力，进而更好的表示一般语音测试信号；其中R^n×n表示n*n维实向量空间；R^d×d表示d*d维实向量空间；u_i，v_j分别为非局部基U与优化局部基V的列向量；

为此，建立如下卷积框架的优化模型：

其中，I_d为R^d×d中单位矩阵，||·||₁定义为C_l是语音训练信号在该卷积框架下的稀疏表示矩阵，c_ij是矩阵C_l中的元素；

由公式(4)可将优化模型(5)等价表示为

其中，F_l∈R^n×d为引入的分裂变量；

经过优化模型(6)训练得到的卷积框架；

S2.1，对优化模型(6)进行等价转换；

其中，λ,μ＞0为惩罚项参数；

S2.2，利用交替优化方法实现模型(7)的数值求解；模型(7)可分解为

其中，τ＝μ/λ；k代表的是迭代次数，先将式(8)中求得的第一个子模型的结果代入式(8)中第二个子模型，再将第二个子模型求得的结果代入式(8)中第三个子模型，再用第三个子模型求得的结果结果代回第一个子模型，依次迭代循环，实现迭代优化；

S3、对于给定的语音测试信号g，利用上述过程训练得到的卷积框架将该给定的语音测试信号g表示为：其中：s即为该给定的语音测试信号g的稀疏表示。

2.根据权利要求1所述的基于卷积框架的语音信号稀疏表示方法，其特征在于，S2.2中，模型(8)中的三个子模型可以分别进行数值求解，具体包括三个步骤：

S2.2.1、模型(8)中第一个子模型可分解为

由于U与V^k为正交基，(9)可进一步转化为

此模型(10)可通过阈值收缩算子求解，即

其中，阈值收缩算子定义为S(a,b)＝sgn(a)·max{|a|-b,0}，即

S2.2.2、模型(8)中第二个子模型的目标函数可转化为

其中，Tr(·)为矩阵迹函数；则第二个子模型等价于

易知，该模型(13)有闭形式解：V^k+1＝PQ^T，

P、Λ、Q为矩阵的奇异值分解；其中，P、Q都是正交矩阵，Λ是对角矩阵；

S2.2.3、模型(8)中第三个子模型可分解为

令F_l＝UΓ_l(V^k+1)^T，Γ_l为引入的一个中间变量，无实际定义；由于U与V^k+1为正交基，上述模型(15)进一步等价于

由汉克算子H_d的广义逆算子的定义，有

其中，v(·)为矩阵矢量化算子；γ_ij ^l是矩阵Γ_l的元素，其中l＝1,2,L,L；

则模型(16)等价于

由最小二乘估计有

其中，v^-1(·)为v(·)的逆算子；I_nd是nd*nd阶单位矩阵；

S2.4.4、若则停止迭代，输出结算结果：否则，返回继续S2.2.1；其中表示V的估计值。

3.根据权利要求2所述的基于卷积框架的语音信号稀疏表示方法，其特征在于，S2.2.1至S2.4.4中参数取值满足：λ∈(0,20)，μ∈(0,20)，δ∈(0,1)，η∈(0,0.01)。

4.根据权利要求1所述的基于卷积框架的语音信号稀疏表示方法，其特征在于，S3中，s通过优化问题进行近似求解，其中α为优化参数，其取值为(0,1)，s′为优化模型中的优化变量，是真值s的估计值，最终得到语音测试信号g的稀疏表示