CN108597534B - 基于卷积框架的语音信号稀疏表示方法 - Google Patents

基于卷积框架的语音信号稀疏表示方法 Download PDF

Info

Publication number
CN108597534B
CN108597534B CN201810311280.6A CN201810311280A CN108597534B CN 108597534 B CN108597534 B CN 108597534B CN 201810311280 A CN201810311280 A CN 201810311280A CN 108597534 B CN108597534 B CN 108597534B
Authority
CN
China
Prior art keywords
operator
model
signal
matrix
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810311280.6A
Other languages
English (en)
Other versions
CN108597534A (zh
Inventor
王泽龙
袁翰
刘吉英
叶钒
余奇
严奉霞
朱炬波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810311280.6A priority Critical patent/CN108597534B/zh
Publication of CN108597534A publication Critical patent/CN108597534A/zh
Application granted granted Critical
Publication of CN108597534B publication Critical patent/CN108597534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

一种基于卷积框架的语音信号稀疏表示方法,针对卷积框架中给定的非局部基U,利用语音训练信号集,建立局部基V的优化模型,数值求解该模型后,获得与非局部基最佳匹配的局部基,得到优化训练的卷积框架。优化训练后的卷积框架能够充分挖掘待表示语音信号的局部、非局部信息,具有更好的语音信号稀疏表示能力。优化训练后的卷积框架能够利用语音训练信号集的结构特征,具有更好的数据适应性。

Description

基于卷积框架的语音信号稀疏表示方法
技术领域
本发明涉及语音信号稀疏表示方法,具体涉及一种基于卷积框架的语音信号稀疏表示方法。
背景技术
语音信号的稀疏表示在语音信号去噪、语音修复等领域具有重要应用,其源于一个基本事实:自然信号具有稀疏特性,即当信号在某表示基(字典)上线性分解时,其表示系数是稀疏的。调和分析中的傅里叶基、余弦基、小波基等为语音信号稀疏表示提供了重要的数学工具,尽管其构造简单、计算量小,但稀疏表示能力有限,为此过完备基(字典)应运而生。过完备字典增强了稀疏表示能力,但是训练复杂。随着非局部滤波(NLM)、三维块匹配(BM3D) 等非局部方法的发展,信号非局部信息为提升信号处理效果提供了额外的维度,然而上述两类稀疏表示工具都没有同时考虑信号的局部与非局部特性。
卷积框架利用局部基与非局部基进行卷积运算,构造了性能更强的稀疏表示工具。卷积框架不仅提供了对非局部滤波、三维快匹配等非局部方法新的理解视角,还给出了稀疏表示工具的一般构造方法。利用汉克(Hankel)矩阵将语音信号提升至一高维矩阵空间,则提升后的语音信号可表示为非局部基、表示矩阵与局部基的矩阵乘积,其中表示矩阵具有较好的稀疏特性。对于原语音信号而言,等价于将其在由非局部基与局部基卷积而成的卷积框架上进行线性表示,由于卷积框架的过完备特性以及其结合了信号局部、非局部信息,因此表示系数具有较好的稀疏特性。
注意到卷积框架中局部基与非局部基一般选取为具有结构特征的基矩阵,如傅里叶基、余弦基与小波基,尽管其构造简单,但数据适应性较低。因此,卷积框架需要进一步优化,以使其具备理想的稀疏表示能力。
发明内容
为了解决现有技术存在的问题,本发明目的在于提供一种基于卷积框架的语音信号稀疏表示方法。对于给定的非局部基以及语音训练信号数据,优化训练与之匹配的局部基,使卷积框架对训练数据具有良好的数据适应性,提高卷积框架的稀疏表示能力。本发明需要解决的问题包括:其一,建立语音信号稀疏表示的卷积框架优化模型;其二,实现优化模型的数值求解。
为实现本发明之目的,本发明采用以下技术方案予以实现:
一种基于卷积框架的语音信号稀疏表示方法,包括以下步骤:
S1:建立语音信号稀疏表示的卷积框架优化模型
给定一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,其中Rn代表n维实向量空间,表明语音信号f可以由该空间n维向量表示;1≤d≤n,n的取值为自然数。
考虑一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,定义汉克算子 Hd:Rn→Rn×d为:
Figure GDA0002965757000000021
其中Rn×d代表n*d维实向量空间。F用来简化表示汉克算子Hd;Hd(f)表示由语音信号f生成的汉克算子;g1到gn是Rn空间中f的组成向量,每d个gi (1<=i<=n)组成一个信号片。
则对于任给向量v∈Rd,有
f*v=Fv (2)
其中,*为卷积算子。
类似的,可以定义汉克算子Hd的广义逆算子
Figure GDA0002965757000000022
Figure GDA0002965757000000031
其中,
Figure GDA0002965757000000032
是指矩阵B的汉克算子的逆算子,Ai=Hd(ei),ei为语音信号fi在Rn空间的标准正交基矢量,i=1,2,…,n,Hd(ei)表示由ei生成的汉克算子;B为任给矩阵且B∈Rn ×d,<·,·>为矩阵内积算子。
在数学中,一个算子设为C,其零空间是方程Cv=0的所有解v的集合。当给定算子的形式和定义域后,该算子的零空间就能得出。注意到
Figure GDA0002965757000000033
算子的零空间
Figure GDA0002965757000000034
含有非零元素,因此定义关于
Figure GDA0002965757000000035
的相等算子
Figure GDA0002965757000000036
Figure GDA0002965757000000037
其中A是一个任给矩阵,是相等算子定义中的一个矩阵,它满足
Figure GDA0002965757000000038
进一步,对于给定的训练语音信号集
Figure GDA0002965757000000039
(fl∈Rn,L是训练语音信号集的数量)以及信号片长度d,可通过汉克算子Hd直接建立其提升信号集
Figure GDA00029657570000000310
(Hd(fl)∈Rn×d),
Figure GDA00029657570000000311
Figure GDA00029657570000000312
中每一个语音信号f带入汉克算子后得到的矩阵的集合。
则卷积框架的优化训练可表示为,对于给定的非局部基U∈Rn×n,优化局部基V∈Rd ×d,使得由非局部基U与优化局部基V的列向量卷积而成的卷积框架 {ui*vj|i=1,2,…,n;j=1,2,…,d}对语音训练信号具有良好的稀疏表示能力,进而更好的表示一般语音测试信号。其中Rn×n表示n*n维实向量空间;Rd×d表示d*d 维实向量空间;ui,vj分别为非局部基U与优化局部基V的列向量。
为此,建立如下卷积框架的优化模型:
Figure GDA00029657570000000313
其中,Id为Rd×d中单位矩阵,||·||1定义为
Figure GDA0002965757000000041
Cl是语音训练信号在该卷积框架下的稀疏表示矩阵,cij是矩阵Cl中的元素。
由公式(4)可将优化模型(5)等价表示为
Figure GDA0002965757000000042
其中,Fl∈Rn×d为引入的分裂变量。
经过优化模型(6)训练得到的卷积框架,具备很好的数据适应性,能够提升卷积框架对语音信号的稀疏表示能力。
S2:对卷积框架的优化模型进行数值求解,具体包括以下步骤:
S2.1,对优化模型(6)进行等价转换。
注意到
Figure GDA0002965757000000043
这等价于
Figure GDA0002965757000000044
Figure GDA0002965757000000045
则将模型(6)中两约束项作为惩罚项添加到优化模型(6)中的目标函数后,得到
Figure GDA0002965757000000046
其中,λ,μ>0为惩罚项参数。
S2.2,利用交替优化方法实现模型(7)的数值求解。模型(7)可分解为
Figure GDA0002965757000000047
其中,τ=μ/λ。k代表的是迭代次数,先将式(8)中求得的第一个子模型的结果代入式(8)中第二个子模型,再将第二个子模型求得的结果代入式(8) 中第三个子模型,再用第三个子模型求得的结果结果代回第一个子模型,依次迭代循环,实现迭代优化。
S2.2中,模型(8)中的三个子模型可以分别进行数值求解,具体包括三个步骤:
S2.2.1、模型(8)中第一个子模型可分解为
Figure GDA0002965757000000051
由于U与Vk为正交基,(9)可进一步转化为
Figure GDA0002965757000000052
此模型(10)可通过阈值收缩算子求解,即
Figure GDA0002965757000000053
其中,阈值收缩算子定义为S(a,b)=sgn(a)·max{|a|-b,0},即
Figure GDA0002965757000000054
S2.2.2、模型(8)中第二个子模型的目标函数可转化为
Figure GDA0002965757000000055
其中,Tr(·)为矩阵迹函数。则第二个子模型等价于
Figure GDA0002965757000000056
易知,该模型(13)有闭形式解:Vk+1=PQT
Figure GDA0002965757000000057
P、Λ、Q为矩阵
Figure GDA0002965757000000058
的奇异值分解。其中,P、Q都是正交矩阵,Λ是对角矩阵。
S2.2.3、模型(8)中第三个子模型可分解为
Figure GDA0002965757000000061
令Fl=UΓl(Vk+1)T,Γl为引入的一个中间变量,无实际定义。由于U与Vk+1为正交基,上述模型(15)进一步等价于
Figure GDA0002965757000000062
由汉克算子Hd的广义逆算子
Figure GDA0002965757000000063
的定义,有
Figure GDA0002965757000000064
其中,v(·)为矩阵矢量化算子。γij l是矩阵Γl的元素,其中l=1,2,…,L
则模型(16)等价于
Figure GDA0002965757000000065
由最小二乘估计有
Figure GDA0002965757000000066
其中,v-1(·)为v(·)的逆算子。Ind是nd*nd阶单位矩阵。
S2.4.4、若
Figure GDA0002965757000000067
则停止迭代,输出结算结果:
Figure GDA0002965757000000068
否则,返回继续S2.2.1。其中
Figure GDA0002965757000000069
表示V的估计值。
优选后,S2.2.1至S2.4.4中参数取值满足:λ∈(0,20),μ∈(0,20),δ∈(0,1),η∈(0,0.01)。
S3、对于给定的语音测试信号g,利用上述过程训练得到的卷积框架
Figure GDA00029657570000000610
将该给定的语音测试信号g表示为:
Figure GDA00029657570000000611
其中:s即为该给定的语音测试信号g的稀疏表示,为了求得s,最简单的方法是求得
Figure GDA00029657570000000612
利用
Figure GDA00029657570000000613
得出;
但由于卷积框架
Figure GDA00029657570000000614
的过完备性,无法利用上述方法直接求得s,s需要通过优化问题
Figure GDA00029657570000000615
进行近似求解,其中α为优化参数,其取值为(0,1),s′为优化模型中的优化变量,是真值s的估计值,最终得到语音测试信号g的稀疏表示
Figure GDA0002965757000000071
本方法针对卷积框架中给定的非局部基U,利用语音训练信号集,建立局部基V的优化模型,数值求解该模型后,获得与非局部基最佳匹配的局部基,得到优化训练的卷积框架。具有以下优点:
1)优化训练后的卷积框架能够充分挖掘待表示语音信号的局部、非局部信息,具有更好的语音信号稀疏表示能力;
2)优化训练后的卷积框架能够利用语音训练信号集的结构特征,具有更好的数据适应性;
3)模型可以稳健的数值求解,便于实现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中卷积框架优化训练流程图。
图2为本发明中交替优化求解算法流程图。
图3为本发明实施例中部分语音训练信号集。
图4为本发明实施例中给定的非局部基。
图5为本发明实施例中优化训练后的卷积框架,为了便于显示,在列方向进行10倍下采样。
图6为本发明实施例中语音测试信号,分别标记为A、B、C与D。
图7为本发明实施例中稀疏表示系数图,其中 (a)、(b)、(c)与 (d)分别对应语音测试信号A、B、C与D;DCT与Haar分别表示余弦基与 Haar小波基,CF(DCT-DCT)与CF(DCT-Haar)分别表示由DCT与DCT、 DCT与Haar卷积而成的卷积框架,OMCF为本实例中优化训练后的卷积框架。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于卷积框架的语音信号稀疏表示方法,其首先,对于给定的非局部基与语音训练信号集建立卷积框架的优化模型;进而针对模型特点设计数值求解(流程如图2所示)实现卷积框架的优化训练,参照图1,图1 为利用语音训练信号集优化训练卷积框架的流程图。最后,基于优化训练的卷积框架得到语音测试信号的稀疏表示。
本实施例中的部分语音训练信号集如图3所示,给定的非局部基如图4所示,先对卷积框架进行优化训练,然后基于优化训练的卷积框架得到语音测试信号的稀疏表示。具体步骤包括:
S1:建立语音信号稀疏表示的卷积框架优化模型
给定一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,其中Rn代表n维实向量空间,表明语音信号f可以由该空间n维向量表示;1≤d≤n,n的取值为自然数。
考虑一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,定义汉克算子 Hd:Rn→Rn×d为:
Figure GDA0002965757000000081
其中Rn×d代表n*d维实向量空间。F用来简化表示汉克算子Hd;Hd(f)表示由语音信号f生成的汉克算子;g1到gn是Rn空间中f的组成向量,每d个gi(1<=i<=n) 组成一个信号片。
则对于任给向量v∈Rd,有
f*v=Fv (2)
其中,*为卷积算子。
类似的,可以定义汉克算子Hd的广义逆算子
Figure GDA0002965757000000091
Figure GDA0002965757000000092
其中,
Figure GDA0002965757000000093
是指矩阵B的汉克算子的逆算子,Ai=Hd(ei),ei为语音信号fi在Rn空间的标准正交基矢量,i=1,2,…,n,Hd(ei)表示由ei生成的汉克算子;B为任给矩阵且B∈Rn×d,<·,·>为矩阵内积算子。注意到
Figure GDA0002965757000000094
算子的零空间
Figure GDA0002965757000000095
含有非零元素,因此定义关于
Figure GDA0002965757000000096
的相等算子
Figure GDA0002965757000000097
Figure GDA0002965757000000098
其中A是一个任给矩阵,是相等算子定义中的一个矩阵,它满足
Figure GDA0002965757000000099
进一步,对于给定的训练语音信号集
Figure GDA00029657570000000910
(fl∈Rn,L是训练语音信号集的数量)以及信号片长度d,可通过汉克算子Hd直接建立其提升信号集
Figure GDA00029657570000000911
(Hd(fl)∈Rn×d),
Figure GDA00029657570000000912
Figure GDA00029657570000000913
中每一个语音信号f带入汉克算子后得到的矩阵的集合。
则卷积框架的优化训练可表示为,对于给定的非局部基U∈Rn×n,优化局部基V∈Rd ×d,使得由非局部基U与优化局部基V的列向量卷积而成的卷积框架 {ui*vj|i=1,2,…,n;j=1,2,…,d}对语音训练信号具有良好的稀疏表示能力,进而更好的表示一般语音测试信号。其中Rn×n表示n*n维实向量空间;Rd×d表示d*d 维实向量空间;ui,vj分别为非局部基U与优化局部基V的列向量。
为此,建立如下卷积框架的优化模型:
Figure GDA0002965757000000101
其中,Id为Rd×d中单位矩阵,||·||1定义为
Figure GDA0002965757000000102
Cl是语音训练信号在该卷积框架下的稀疏表示矩阵,cij是矩阵Cl中的元素。
由公式(4)可将优化模型(5)等价表示为
Figure GDA0002965757000000103
其中,Fl∈Rn×d为引入的分裂变量。
经过优化模型(6)训练得到的卷积框架,具备很好的数据适应性,能够提升卷积框架对语音信号的稀疏表示能力。
S2:对卷积框架的优化模型进行数值求解,具体包括以下步骤:
S2.1,对优化模型(6)进行等价转换。
注意到
Figure GDA0002965757000000104
这等价于
Figure GDA0002965757000000105
Figure GDA0002965757000000106
则将模型(6)中两约束项作为惩罚项添加到优化模型(6)中的目标函数后,得到
Figure GDA0002965757000000107
其中,λ,μ>0为惩罚项参数。
S2.2,利用交替优化方法实现模型(7)的数值求解。
模型(7)可分解为
Figure GDA0002965757000000111
其中,τ=μ/λ。k代表的是迭代次数,先将式(8)中求得的第一个子模型的结果代入式(8)中第二个子模型,再将第二个子模型求得的结果代入式(8) 中第三个子模型,再用第三个子模型求得的结果结果代回第一个子模型,依次迭代循环,实现迭代优化。
S2.2中,模型(8)中的三个子模型可以分别进行数值求解,具体包括三个步骤:
S2.2.1、模型(8)中第一个子模型可分解为
Figure GDA0002965757000000112
由于U与Vk为正交基,(9)可进一步转化为
Figure GDA0002965757000000113
此模型(10)可通过阈值收缩算子求解,即
Figure GDA0002965757000000114
其中,阈值收缩算子定义为S(a,b)=sgn(a)·max{|a|-b,0},即
Figure GDA0002965757000000115
S2.2.2、模型(8)中第二个子模型的目标函数可转化为
Figure GDA0002965757000000116
其中,Tr(·)为矩阵迹函数。则第二个子模型等价于
Figure GDA0002965757000000117
易知,该模型(13)有闭形式解:Vk+1=PQT
Figure GDA0002965757000000121
P、Λ、Q为矩阵
Figure GDA0002965757000000122
的奇异值分解。其中,P、Q都是正交矩阵,Λ是对角矩阵。
S2.2.3、模型(8)中第三个子模型可分解为
Figure GDA0002965757000000123
令Fl=UΓl(Vk+1)T,Γl为引入的一个中间变量,无实际定义。由于U与Vk+1为正交基,上述模型(15)进一步等价于
Figure GDA0002965757000000124
由汉克算子Hd的广义逆算子
Figure GDA0002965757000000125
的定义,有
Figure GDA0002965757000000126
其中,v(·)为矩阵矢量化算子。γij l是矩阵Γl的元素,其中l=1,2,…,L
则模型(16)等价于
Figure GDA0002965757000000127
由最小二乘估计有
Figure GDA0002965757000000128
其中,v-1(·)为v(·)的逆算子。Ind是nd*nd阶单位矩阵。
S2.2.4、若
Figure GDA0002965757000000129
则停止迭代,输出结算结果:
Figure GDA00029657570000001210
否则,返回继续S2.2.1。其中
Figure GDA00029657570000001211
表示V的估计值。
优选后,S2.2.1至S2.2.4步骤中参数取值满足:λ∈(0,20),μ∈(0,20),δ∈(0,1),η∈(0,0.01)。
S3、对于给定的语音测试信号g,利用上述过程训练得到的卷积框架
Figure GDA00029657570000001212
将该给定的语音测试信号g表示为:
Figure GDA0002965757000000131
其中:s即为该给定的语音测试信号g的稀疏表示,为了求得s,最简单的方法是求得
Figure GDA0002965757000000132
利用
Figure GDA0002965757000000133
得出:
但由于卷积框架
Figure GDA0002965757000000134
的过完备性,无法利用上述方法直接求得s,s需要通过优化问题
Figure GDA0002965757000000135
进行近似求解,其中α为优化参数,其取值为(0,1),s′为优化模型中的优化变量,是真值s的估计值,最终得到语音测试信号g的稀疏表示
Figure GDA0002965757000000136
本实施例中:S2.2.1至S2.2.4中的具体参数取值如表1所示:
表1模型参数与交替优化求解算法参数
训练信号个数 n d λ μ τ η
250 256 16 10 10 1 0.001
参数说明:
n:语音信号长度;
d:信号片长度;
λ:惩罚项参数;
μ:惩罚项参数;
τ:τ=μ/λ;
η:迭代终止条件;
δ:收缩算法参数。
将如图4所示的非局部基作为交替优化模型中的U,将包括图3中所示的四个语音训练信号在内的训练信号集作为优化模型中的
Figure GDA0002965757000000137
将16×16维余弦基作为交替优化算法中局部基的初始值V0,将汉克算子Hd作用于
Figure GDA0002965757000000138
得到的
Figure GDA0002965757000000139
作为交替优化算法中变量
Figure GDA00029657570000001310
的初始值。
本实施例中的输出的优化后的卷积框架如图5所示,图6为四个语音测试信号,图7为利用优化后的卷积框架(OMCF)以及传统稀疏表示工具对语音测试信号进行表示后的系数,可以发现优化后的卷积框架具有更好的能量聚集性,即稀疏表示能力更强。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于卷积框架的语音信号稀疏表示方法,其特征在于,包括以下步骤:
S1:建立语音信号稀疏表示的卷积框架优化模型
给定一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,其中Rn代表n维实向量空间,表明语音信号f能由该空间n维向量表示;1≤d≤n,n的取值为自然数;
考虑一维语音信号f=(g1,g2,…,gn)T∈Rn与信号片长度d,定义汉克算子Hd:Rn→Rn×d为:
Figure FDA0002965756990000011
其中Rn×d代表n*d维实向量空间;F用来简化表示汉克算子Hd;Hd(f)表示由语音信号f生成的汉克算子;g1到gn是Rn空间中f的组成向量,每d个gi组成一个信号片,其中1<=i<=n;
则对于任给向量v∈Rd,有
f*v=Fv (2)
其中,*为卷积算子;
类似的,定义汉克算子Hd的广义逆算子
Figure FDA0002965756990000012
Rn×d→Rn
Figure FDA0002965756990000013
其中,
Figure FDA0002965756990000014
是指矩阵B的汉克算子的逆算子,Ai=Hd(ei),ei为fi在Rn空间的标准正交基矢量,Hd(ei)表示由ei生成的汉克算子;B为任给矩阵且B∈Rn×d,<·,·>为矩阵内积算子;
在数学中,一个算子设为C,其零空间是方程Cv=0的所有解v的集合;当给定算子的形式和定义域后,该算子的零空间就能得出;注意到
Figure FDA0002965756990000021
算子的零空间
Figure FDA0002965756990000022
含有非零元素,因此定义关于
Figure FDA0002965756990000023
的相等算子
Figure FDA0002965756990000024
Figure FDA0002965756990000025
其中A是一个任给矩阵,是相等算子定义中的一个矩阵,它满足
Figure FDA00029657569900000212
对于给定的训练语音信号集
Figure FDA0002965756990000026
以及信号片长度d,通过汉克算子Hd直接建立其提升信号集
Figure FDA0002965756990000027
其中fl∈Rn,L是训练语音信号集的数量,Hd(fl)∈Rn×d
Figure FDA0002965756990000028
Figure FDA0002965756990000029
中每一个语音信号fl带入汉克算子后得到的矩阵的集合;
则卷积框架的优化训练表示为,对于给定的非局部基U∈Rn×n,优化局部基V∈Rd×d,使得由非局部基U与优化局部基V的列向量卷积而成的卷积框架{ui*vj|i=1,2,…,n;j=1,2,…,d}对语音训练信号具有良好的稀疏表示能力,进而更好的表示一般语音测试信号;其中Rn×n表示n*n维实向量空间;Rd×d表示d*d维实向量空间;ui,vj分别为非局部基U与优化局部基V的列向量;
为此,建立如下卷积框架的优化模型:
Figure FDA00029657569900000210
其中,Id为Rd×d中单位矩阵,||·||1定义为
Figure FDA00029657569900000211
Cl是语音训练信号在该卷积框架下的稀疏表示矩阵,cij是矩阵Cl中的元素;
由公式(4)将优化模型(5)等价表示为
Figure FDA0002965756990000031
其中,Fl∈Rn×d为引入的分裂变量;
经过优化模型(6)训练得到的卷积框架;
S2:对卷积框架的优化模型进行数值求解,具体包括以下步骤:
S2.1,对优化模型(6)进行等价转换;
注意到
Figure FDA0002965756990000032
这等价于
Figure FDA0002965756990000033
Figure FDA0002965756990000034
则将模型(6)中两约束项作为惩罚项添加到优化模型(6)中的目标函数后,得到
Figure FDA0002965756990000035
其中,λ,μ>0为惩罚项参数;
S2.2,利用交替优化方法实现模型(7)的数值求解;模型(7)可分解为
Figure FDA0002965756990000036
其中,τ=μ/λ;k代表的是迭代次数,先将式(8)中求得的第一个子模型的结果代入式(8)中第二个子模型,再将第二个子模型求得的结果代入式(8)中第三个子模型,再用第三个子模型求得的结果代回第一个子模型,依次迭代循环,实现迭代优化;
S3、对于给定的语音测试信号g,利用上述过程训练得到的卷积框架
Figure FDA0002965756990000037
将该给定的语音测试信号g表示为:
Figure FDA0002965756990000038
其中:s即为该给定的语音测试信号g的稀疏表示。
2.根据权利要求1所述的基于卷积框架的语音信号稀疏表示方法,其特征在于,S2.2中,模型(8)中的三个子模型分别进行数值求解,包括三个步骤:
S2.2.1、模型(8)中第一个子模型分解为
Figure FDA0002965756990000041
由于U与Vk为正交基,(9)转化为
Figure FDA0002965756990000042
此模型(10)通过阈值收缩算子求解,即
Figure FDA0002965756990000043
其中,阈值收缩算子定义为S(a,b)=sgn(a)·max{|a|-b,0},即
Figure FDA0002965756990000044
S2.2.2、模型(8)中第二个子模型的目标函数转化为
Figure FDA0002965756990000045
其中,Tr(·)为矩阵迹函数;则第二个子模型等价于
Figure FDA0002965756990000046
易知,该模型(13)有闭形式解:Vk+1=PQT
Figure FDA0002965756990000047
P、Λ、Q为矩阵
Figure FDA0002965756990000048
的奇异值分解;其中,P、Q都是正交矩阵,Λ是对角矩阵;
S2.2.3、模型(8)中第三个子模型分解为
Figure FDA0002965756990000051
令Fl=UΓl(Vk+1)T,Γl为引入的一个中间变量,无实际定义;由于U与Vk+1为正交基,上述模型(15)等价于
Figure FDA0002965756990000052
由汉克算子Hd的广义逆算子
Figure FDA0002965756990000053
的定义,有
Figure FDA0002965756990000054
其中,v(·)为矩阵矢量化算子;γij l是矩阵Γl的元素,其中l=1,2,…,L;
则模型(16)等价于
Figure FDA0002965756990000055
由最小二乘估计有
Figure FDA0002965756990000056
其中,v-1(·)为v(·)的逆算子;Ind是nd*nd阶单位矩阵;
S2.4.4、若
Figure FDA0002965756990000057
则停止迭代,输出结算结果:
Figure FDA0002965756990000058
否则,返回继续S2.2.1;其中
Figure FDA0002965756990000059
表示V的估计值。
3.根据权利要求2所述的基于卷积框架的语音信号稀疏表示方法,其特征在于,S2.2.1至S2.4.4中参数取值满足:λ∈(0,20),μ∈(0,20)。
4.根据权利要求1所述的基于卷积框架的语音信号稀疏表示方法,其特征在于,S3中,s通过优化问题
Figure FDA00029657569900000510
进行近似求解,其中α为优化参数,其取值为(0,1),s′为优化模型中的优化变量,是真值s的估计值,最终得到语音测试信号g的稀疏表示
Figure FDA00029657569900000511
CN201810311280.6A 2018-04-09 2018-04-09 基于卷积框架的语音信号稀疏表示方法 Active CN108597534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810311280.6A CN108597534B (zh) 2018-04-09 2018-04-09 基于卷积框架的语音信号稀疏表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810311280.6A CN108597534B (zh) 2018-04-09 2018-04-09 基于卷积框架的语音信号稀疏表示方法

Publications (2)

Publication Number Publication Date
CN108597534A CN108597534A (zh) 2018-09-28
CN108597534B true CN108597534B (zh) 2021-05-14

Family

ID=63621202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810311280.6A Active CN108597534B (zh) 2018-04-09 2018-04-09 基于卷积框架的语音信号稀疏表示方法

Country Status (1)

Country Link
CN (1) CN108597534B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
CN103150713A (zh) * 2013-01-29 2013-06-12 南京理工大学 利用图像块分类稀疏表示与自适应聚合的图像超分辨方法
CN104978972A (zh) * 2015-05-07 2015-10-14 大连民族学院 基于超完备傅里叶基的语音信号稀疏表示方法
CN105139028A (zh) * 2015-08-13 2015-12-09 西安电子科技大学 基于分层稀疏滤波卷积神经网络的sar图像分类方法
CN107864440A (zh) * 2016-07-08 2018-03-30 奥迪康有限公司 包括eeg记录和分析系统的助听系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024547A1 (en) * 2007-07-17 2009-01-22 Ut-Battelle, Llc Multi-intelligent system for toxicogenomic applications (mista)
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
CN103150713A (zh) * 2013-01-29 2013-06-12 南京理工大学 利用图像块分类稀疏表示与自适应聚合的图像超分辨方法
CN104978972A (zh) * 2015-05-07 2015-10-14 大连民族学院 基于超完备傅里叶基的语音信号稀疏表示方法
CN105139028A (zh) * 2015-08-13 2015-12-09 西安电子科技大学 基于分层稀疏滤波卷积神经网络的sar图像分类方法
CN107864440A (zh) * 2016-07-08 2018-03-30 奥迪康有限公司 包括eeg记录和分析系统的助听系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Fast convolutional sparse coding with separable filters》;Gustavo Silva et al.;《2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20170630;全文 *
《ISAR super-resolution imaging based on sparse representation》;Fan Ye et al.;《2010 International Conference on Wireless Communications & Signal Processing (WCSP)》;20101130;全文 *

Also Published As

Publication number Publication date
CN108597534A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
Huang et al. Rank minimization with applications to image noise removal
Yu et al. Quaternion-based weighted nuclear norm minimization for color image denoising
Fan et al. Dual Gramian analysis: duality principle and unitary extension principle
Chen et al. SAR image despeckling by combination of fractional-order total variation and nonlocal low rank regularization
Qi et al. Two dimensional synthesis sparse model
CN109165432B (zh) 一种基于部分奇异值和的磁共振波谱重建方法
Routray et al. Improving performance of K-SVD based image denoising using curvelet transform
CN108597534B (zh) 基于卷积框架的语音信号稀疏表示方法
CN109582917B (zh) 一种基于ssa的信号去噪方法、装置、终端设备及存储介质
Krupiński Generating augmented quaternion random variable with generalized Gaussian distribution
CN113556132B (zh) 一种基于信号奇异性检测改进的电力信号压缩感知新方法
CN115329820A (zh) 基于改进FastICA的电网扰动辨识方法及系统
Tang et al. Adaptive graph filtering with intra-patch pixel smoothing for image denoising
Lee et al. Image compression based on a partially rotated discrete cosine transform with a principal orientation
Quesada et al. Combinatorial separable convolutional dictionaries
Kakariadis Finite-dimensional approximations for Nica–Pimsner algebras
CN108256581B (zh) Gabor小波域copula模型图像分类方法
US20030113024A1 (en) Accelerated predictive-transform
Chen et al. Feature Extraction for Patch Matching in Patch-Based Denoising Methods
Zhang et al. Blind image separation based on reorganization of block DCT
Adeyemi et al. Sparse representations of images using overcomplete complex wavelets
Potluru et al. Sparse shift-invariant NMF
Ga’fer et al. Slantlet Transform based Video Denoising
Li et al. Testing for unit roots in panel data using a wavelet ratio method
Kulkarni et al. K-SVD based periodicity dictionary learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant