CN104217730B - 一种基于k‑svd的人工语音带宽扩展方法及装置 - Google Patents
一种基于k‑svd的人工语音带宽扩展方法及装置 Download PDFInfo
- Publication number
- CN104217730B CN104217730B CN201410411869.5A CN201410411869A CN104217730B CN 104217730 B CN104217730 B CN 104217730B CN 201410411869 A CN201410411869 A CN 201410411869A CN 104217730 B CN104217730 B CN 104217730B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- input
- output end
- speech
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于K‑SVD的人工语音带宽扩展方法及装置,其特征在于:1)在带宽扩展的发送端,对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵;2)在带宽扩展的接收端,采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号。采用本发明提高了扩展出的宽带语音质量、大幅度减少训练时间和先验知识的使用,有效提高源窄带语音稀疏矩阵结果的准确性,故具有较高的实用价值。因此本发明可在语音通信等领域广泛推广。
Description
技术领域
本发明涉及一种带宽扩展方法及装置,特别是关于一种基于K-SVD(K-meansSingular Value Decomposition,K均值奇异值分解)的人工语音带宽扩展方法及装置。
背景技术
人类语音能量主要分布在0.05~8KHz的频率范围内。在语音通信系统中,如公用电话交换网(PSTN,Public Switched Telephone Network)和全球移动通信系统(GSM,Global System for Mobile communication)等,囿于技术、成本和系统复杂度等诸多原因,传输的语音信号带宽一般都在4KHz以下,此类语音称为窄带语音。窄带语音通信在减少带宽需求的同时,虽然保证了一定的清晰度,但却降低了语音自然度,这在某些特殊场合,如电话会议系统,窄带语音听起来令人感觉不自然,难以满足要求。随着语音编码技术的不断发展,国际电信联盟(ITU,International Telecommunication Union)等标准化组织相继提出了多种宽带语音编解码标准。然而,这些宽带语音编解码标准对码流格式和编码速率等改变很大,没有考虑对现有通信网络和标准的兼容,因此无法获得预期性能,而通信网络的更新漫长且复杂,短时间内难以实现。因此,人们一直在考虑如何在当前网络和标准的条件下如何得到宽带品质的语音。
目前,使用人工语音带宽扩展(Artificial Speech Bandwidth Extension,ASBWE)技术获得宽带品质的语音是一个较好的解决方案。所谓人工语音带宽扩展,就是凭借语音信号处理技术,利用窄带语音扩展出丢失的高频成分,进而合成出宽带语音。
现有的针对语音信号的频带扩展目前包括半盲类带宽扩展方法和全盲类带宽扩展方法:
1)半盲类带宽扩展方法易与已有标准兼容,但存在的问题也较为明显。
如在申请于2011年12月16日、公开于2012年7月4日、公开号为102543086A的专利“一种基于音频水印的语音带宽扩展的装置和方法”中,针对宽带语音信号,在通过电话线传输之前,将高频参数嵌入到窄带码流中,通过电话线传输窄带语音信号;在接收端进行A律解码,然后提取高频参数,使用此高频参数恢复宽带语音中的高频部分,最后将高频语音和低频语音合成宽带语音。该装置和方法利用音频水印的特性,在窄带语音中建立一条隐藏的信道,利用此信道传输高频语音的参数,从而在不改变原有网络协议的前提下,实现了语音信号的频带扩展。但嵌入信息对低频信号本身来说是额外的噪声干扰,会降低其音质;同时,允许嵌入信息量的多少严重依赖于具体的主要频带信号,这将影响信息嵌入的稳定性,进而影响语音通信的实时性。
2)全盲类带宽扩展方法在传送窄带低频信号时,不传送高频带的任何信息,完全由窄带低频信号恢复出高频带分量,然后合成出宽带语音,因而被称为全盲类方法。目前人工语音带宽扩展的研究主要集中在全盲类带宽扩展方法上。
全盲类带宽扩展方法认为语音信号符合某种模型,使用最多的是语音产生的“源—滤波器”模型。该模型将带宽扩展分为宽带谱包络估计和宽带激励信号估计两部分,通过成熟的线性预测理论较好地模拟了语音信号的生成过程,取得了良好的带宽扩展效果。但同时也一直存在着某些缺陷悬而未解。
如在申请于2010年9月14日、公开于2012年7月25日、公开号为102612712A的专利“一种带宽扩展方法及其装置”中,该方法提取窄带低频信号的特征集合,而后使用广义加性模型将提取的特征映射到至少一个高频带参数。而后,通过谱平移法将窄带低频信号的副本频移到高频带。通过至少一个高频带参数来控制低频带音频信号频移后副本的包络,以此完成带宽扩展。
在申请于2002年10月30日、公开于2005年3月2日、公开号为CN1589469A的专利中“一种音频信号带宽扩展方案”中,该方案先对窄带音频信号的某一部分进行频谱折叠,再对频谱折叠后的音频信号某一部分进行噪声整形产生整形后的噪声信号,最后通过合成器将整形后的噪声信号和频谱折叠后的音频信号合并为宽带信号。
综上可知,由于基于语音产生的“源—滤波器”模型,因而先验知识使用过多,且算法复杂度较高;宽带谱包络估计过程中所花费较长的训练时间去训练码本或统计模型,因此实时性较差等,从而难以推广。
发明内容
根据上述提出的技术问题,而提供一种相对于现有的基于“源—滤波器”模型的语音宽带扩展方法,能够取得较高质量的宽带语音,大幅度减少训练时间和先验知识的使用,具有较高的实用价值的基于K-SVD的人工语音带宽扩展方法及装置。
本发明采用的技术手段如下:一种基于K-SVD的人工语音带宽扩展方法,其包括以下步骤:1)在带宽扩展的发送端,对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,其包括以下步骤:①对源宽带语音信号进行低通滤波处理,得到对应的窄带语音信号;②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱;③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练,得到窄带语音字典和窄带语音稀疏矩阵;④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练,得到宽带语音字典,且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵,以确保宽带语音字典与窄带语音字典之间的稀疏相关性;2)在带宽扩展的接收端,采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号,其包括以下步骤:①将源窄带语音信号进行插值和低通滤波处理,以提高源窄带语音信号的采样频率,而有效宽带不变,得到最终宽带语音信号的低频分量;②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱;③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练,所用字典为窄带语音字典,并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵;④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘,得到扩展后宽带语音的STRAIGHT光滑声道谱,且利用其反推得到扩展后的初始宽带语音信号;⑤对扩展后的初始宽带语音信号进行高通滤波处理,得到最终宽带语音信号的高频分量;⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加,得到扩展出的最终宽带语音信号。
所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下:a、将语音信号进行小波分解,得到一系列经过Gabor滤波器滤波的复信号D(t,τc):
其中,t为语音信号上的时间平移变量,且0≤t≤T0,T0为语音信号时长;τc为gAG(t)的伸缩因子,表示滤波时对应的滤波通道且0≤τc≤t0,t0一般取10ms;u代表积分变量,取值范围为积分区间Ω0,即s(t)为0到t时间段的语音输入信号;gAG(t)为分析小波,由复合的Gabor滤波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η为Gabor滤波器的频率分辨率,根据Gabor滤波器特性取值,通常η>1;b、把复信号D(t,τc)按时间段分为多个重叠的区间段,即把t分为[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms;若用tk表示第k个区间段t的变化范围,即[0.5t0(k-1),0.5t0(k+1)],对每个区间段上的D(t,τc)计算代价函数M(τc),则第k个区间段的代价函数Mk(τc):
其中,上式中D表示的是第k个区间段的所有复信号D(t,τc),用Dk(t,τc)表示,表示AM成分幅值;lg[∫Ω|D|2dt]表示AM总能量;表示FM成分幅值;2lgτc表示FM基频的平方;lgΩ(τc)表示时域积分区间的归一化因子,且Ω=Ω(τc)是积分区间,也是τc的函数,且其范围为c、求代价函数M(τ0)在每个区间段取最大值时对应的τc集合τc(t),若第k个区间段Mk(τc)取最大值时对应的τc为则所有区间段的对应的所有区间段基频值f0(t)为
f0(t)=ω0(t)/2π
其中,瞬时频率Δt=1/fs;fs为语音信号采样频率;d、利用求出的基频值来提取语音信号的光滑声道谱,其过程如下:首先,求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω,tk)
其中,为窗函数;ω为角频率,ω=2πf,0≤f≤8Hz;然后,采用内插函数去除傅里叶短时谱在时频域的周期性,得到语音信号STRAIGHT光滑声道谱S(ω,t):
其中,为内插函数,是两个三角窗函数的乘积,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t);函数g(·)定义了插值时所保留的特性。
所述步骤1)的步骤③中包括以下步骤:a、设窄带语音STRAIGHT光滑声道谱为Y,其前K列数据作为初始窄带语音字典,且K=40;b、设初始窄带语音字典为固定的字典D,利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y,结合OMP稀疏编码算法求解对应的窄带语音稀疏矩阵X;
其中,为N个训练信号的集合;为Y的解向量集合;T0为稀疏度;应用OMP稀疏编码算法分别对第i列训练信号yi求解对应的最优解向量且i=1,2,…,N,最后求得窄带语音稀疏矩阵就可以表示为OMP稀疏编码算法的实现过程如下:
c、根据所得的窄带语音稀疏矩阵X,对固定的字典D进行迭代更新;设dk为固定的字典D中待更新的第k列向量,固定的字典D中其他列固定,则
其中,表示Frobenius范数的平方,共有K个列向量每个列向量均为一个原子, 为与dk相对应的窄带语音稀疏矩阵X中的第k行,表示去除dk后的误差矩阵;
为了确保窄带语音稀疏矩阵X的稀疏性,对Ek进行去零补偿处理,其过程如下:
其中,集合Λk为的点的索引值,Ωk为N×|Λk|矩阵,它在(Λk(i),i)位置上的元素值为1,其余元素值均为0;去掉了Y、Ek中的零输入,得到的 即为补偿后的结果;对新的进行SVD分解,得将U的第一列作为dk的优化结果,而Δ(1,1)乘以的第一列后作为的解;至此,固定的字典D中的一列更新完毕;将固定的字典D中各列按此方法逐个更新,以便得到了新的字典而后,判断对固定的字典D进行迭代更新是否终止,通过迭代次数限制判断是否终止;若不终止,则返回步骤b;若终止,则输出窄带语音字典和窄带语音稀疏矩阵X。
一种基于K-SVD的人工语音带宽扩展方法的装置,其特征在于:它包括训练单元和扩展单元;其中,在宽带扩展的发送端,所述训练单元对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元;所述扩展单元根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号。
所述训练单元包括低通滤波模块、基于STRAIGHT模型的参数提取模块、所述K-SVD训练模块以及所述稀疏矩阵固定的所述K-SVD训练模块;其中,所述低通滤波模块的输入端输入源宽带语音信号,将得到的窄带语音信号传送给所述基于STRAIGHT模型的参数提取模块的输入端相连;所述基于STRAIGHT模型的参数提取模块的输入端一方面输入源宽带语音信号,另一方面与所述低通滤波模块的输出端相连,其输出端分别与所述K-SVD训练模块和所述稀疏矩阵固定的所述K-SVD训练模块的输入端相连;所述K-SVD训练模块的输入端与所述基于STRAIGHT模型的参数提取模块的输出端相连,其输出端输出窄带语音字典和窄带语音稀疏矩阵;所述稀疏矩阵固定的所述K-SVD训练模块的输入端一方面输入窄带语音稀疏矩阵,另一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连,其输出端输出宽带语音字典。
所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块;其中,所述2倍升采样模块的输入端输入源窄带语音信号,其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连;所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连,其输出端与所述字典固定的所述K-SVD训练模块的输入端相连;所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连,另一方面输入训练单元中得到的窄带语音字典,其输出端与所述合成模块的输入端相连;所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连,另一方面输入训练单元中得到的宽带语音字典,其输出端与所述高通滤波模块的输入端相连;所述高通滤波模块的输入端与所述合成模块的输出端相连,其输出端与所述叠加模块的输入端相连;所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连,另一方面与所述2倍升采样模块的输出端相连,其输出端输出最终宽带语音信号。
所述基于STRAIGHT模型的参数提取模块包括小波分解机构、基本性指数计算机构、基频提取机构以及光滑声道谱提取机构;其中,所述小波分解机构的输入端输入宽带语音信号,其输出端与所述基本性指数计算机构的输入端相连;所述基本性指数计算机构的输入端与所述小波分解机构的输出端相连,其输出端与所述基频提取机构的输入端相连;所述基频提取机构的输入端与所述基本性指数计算机构的输出端相连,其输出端与所述光滑声道谱提取机构的输入端相连;所述光滑声道谱提取机构的输入端与所述基频提取机构的输出端相连,其输出端输出STRAIGHT光滑声道谱。
本发明具有以下优点:1、本发明由于采用将语音STRAIGHT光滑声道谱分解成了字典和稀疏矩阵的信息分离思想,并采用K-SVD算法分别对窄带语音光滑声道谱和宽带语音光滑声道谱进行训练,从而窄带保证了语音字典与宽带语音字典之间的稀疏相关性,从而提高了扩展出的宽带语音质量。另外,K-SVD算法使用带有稀疏约束的OMP稀疏编码算法,去零补偿和奇异值分解算法,来更新字典与稀疏系数,仅需迭代很少的次数就可以得到最优的字典及对应的稀疏系数,因而可以大幅度减少训练时间和先验知识的使用,因此具有较高的实用价值。2、本发明根据语音自身的特性,并采用稀疏表示,与矢量量化等高压缩率算法相比分解误差更小,因此提高了分解结果的准确性。3、本发明由于采用OMP稀疏编码算法完成字典固定的K-SVD训练,因此有效提高源窄带语音稀疏矩阵结果的准确性。4、本发明采用K-SVD算法分解STRAIGHT光滑声道谱,而非时域语音信号,而STRAIGHT模型对语音信号的短时谱进行时域和频域的自适应平滑内插,并以此来提取谱包络,可以较大幅度地调整语音的基频和谱参数而不影响语音合成质量,具有参数提取精确,灵活度高等特点。因此基于上述理由本发明可在语音通信等领域广泛推广。
附图说明
图1是本发明装置的结构示意图
图2是本发明装置中的训练单元示意图
图3是基于STRAIGHT模型的参数提取模块示意图
图4是本发明装置的扩展单元示意图
图5是本发明的实施例中采用的FIR低通滤波器的幅频响应示意图
图6是本发明的实施例中采用的K-SVD算法流程示意图
图7是本发明的实施例中采用的FIR高通滤波器的幅频响应示意图
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明装置包括训练单元1和扩展单元2。在宽带扩展的发送端,训练单元1对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元2。扩展单元2根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号。
如图2所示,训练单元1包括低通滤波模块11、基于STRAIGHT(SpeechTransformation and Representation Using Adaptive Interpolation of WeightedSpectrum,基于自适应加权谱内插的语音转换和重构)模型的参数提取模块12、K-SVD训练模块13以及稀疏矩阵固定的K-SVD训练模块14。
其中,低通滤波模块11的输入端输入源宽带语音信号,将得到的窄带语音信号传送给基于STRAIGHT模型的参数提取模块12的输入端相连。基于STRAIGHT模型的参数提取模块12的输入端一方面输入源宽带语音信号,另一方面与低通滤波模块11的输出端相连,其输出端分别与K-SVD训练模块13和稀疏矩阵固定的K-SVD训练模块14的输入端相连。K-SVD训练模块13的输入端与基于STRAIGHT模型的参数提取模块12的输出端相连,其输出端输出窄带语音字典和窄带语音稀疏矩阵。稀疏矩阵固定的K-SVD训练模块14的输入端一方面输入窄带语音稀疏矩阵,另一方面与基于STRAIGHT模型的参数提取模块12的输出端相连,其输出端输出宽带语音字典。
如图3所示,基于STRAIGHT模型的参数提取模块12包括小波分解机构121、基本性指数计算机构122、基频提取机构123以及光滑声道谱提取机构124。小波分解机构121的输入端输入宽带语音信号,其输出端与基本性指数计算机构122的输入端相连。基本性指数计算机构122的输入端与小波分解机构121的输出端相连,其输出端与基频提取机构123的输入端相连。基频提取机构123的输入端与基本性指数计算机构122的输出端相连,其输出端与光滑声道谱提取机构124的输入端相连。光滑声道谱提取机构124的输入端与基频提取机构123的输出端相连,其输出端输出STRAIGHT光滑声道谱。
如图4所示,扩展单元2包括2倍升采样模块21、基于STRAIGHT模型的参数提取模块22、字典固定的K-SVD训练模块23、合成模块24、高通滤波模块25以及叠加模块26。
其中,2倍升采样模块21的输入端输入源窄带语音信号,其输出端分别与基于STRAIGHT模型的参数提取模块22和叠加模块26的输入端相连。基于STRAIGHT模型的参数提取模块22的输入端与2倍升采样模块21的输出端相连,其输出端与字典固定的K-SVD训练模块23的输入端相连。字典固定的K-SVD训练模块23的输入端一方面与基于STRAIGHT模型的参数提取模块22的输出端相连,另一方面输入训练单元1中得到的窄带语音字典,其输出端与合成模块24的输入端相连。合成模块24的输入端一方面与字典固定的K-SVD训练模块23的输出端相连,另一方面输入训练单元1中得到的宽带语音字典,其输出端与高通滤波模块25的输入端相连。高通滤波模块25的输入端与合成模块24的输出端相连,其输出端与叠加模块26的输入端相连。叠加模块26的输入端一方面与高通滤波模块25的输出端相连,另一方面与2倍升采样模块21的输出端相连,其输出端输出最终宽带语音信号。
需要说明的是,图2中基于STRAIGHT模型的参数提取模块12和图4中基于STRAIGHT模型的参数提取模块22实现的功能是相同的,故不在详述。基于STRAIGHT模型的参数提取模块12的输入端是窄带语音信号,而基于STRAIGHT模型的参数提取模块22的输入端是宽带语音信号,故图3中统一写成语音信号。
本发明方法包括以下步骤:
需要说明的是,人类语音频率集中在0-7K范围内,因此语音带宽扩展领域普遍采用采样频率为16KHz,有效带宽为8KHz的语音信号模拟人类语音频率,因此本发明主要针对这一区域的语音信号进行带宽扩展。
1)在带宽扩展的发送端,基于STRAIGHT模型和K-SVD算法,对采样频率为16KHz,有效带宽为8KHz的源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,其包括以下步骤:
①对源宽带语音信号进行低通滤波处理,得到对应的窄带语音信号。由于所使用的低通滤波器进行滤波后,窄带语音会延迟滤波器阶数地一半,从而源宽带语音信号得到了延迟,进而补偿滤波器时延。
上述实施例中,对源宽带语音信号进行低通滤波处理的低通滤波器优选为对称FIR(Finite Impulse Response,有限长脉冲响应)低通滤波器,其通带截止频率为4KHz,阻带截止频率为4.3KHz,通带波纹1dB,阻带衰减50dB,幅频响应如图5所示。
②提取生成的窄带语音信号和源宽带语音信号各自对应的窄带语音STRAIGHT光滑声道谱和宽带语音STRAIGHT光滑声道谱。
由于生成的窄带语音与宽带语音STRAIGHT光滑声道谱提取步骤一样,因此仅以语音信号代表生成的窄带语音和宽带语音,即下述步骤中将语音信号换成生成的窄带语音,则相应生成窄带语音STRAIGHT光滑声道谱;将语音信号换成生成的宽带语音,则相应生成宽带语音STRAIGHT光滑声道谱,其提取过程如下:
a、将语音信号进行小波分解,得到一系列经过Gabor滤波器滤波的复信号D(t,τc),即
其中,t为窄带语音信号上的时间平移变量,且0≤t≤T0,T0为窄带语音信号时长,本实施例中取值为5-7s;τc为gAG(t)的伸缩因子,表示滤波时对应的滤波通道且0≤τc≤t0,t0一般取10ms;u代表积分变量,取值范围为积分区间Ω0,即(t)为0到t时间段的语音输入信号;gAG(t)为分析小波,由复合的Gabor滤波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η为Gabor滤波器的频率分辨率,根据Gabor滤波器特性取值,通常η>1即可。
b、把复信号D(t,τc)按时间段分为多个重叠的区间段,即把t分为[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms,若用tk表示第k个区间段t的变化范围,即[0.5t0(k-1),0.5t0(k+1)],对每个区间段上的D(t,τc)计算代价函数M(τc),则第k个区间段的代价函数Mk(τc):
其中,上式中D表示的是第k个区间段的所有复信号D(t,τc),用Dk(t,τc)表示,表示AM(Amplitude Modulation,调幅)成分幅值;lg[∫Ω|D|2dt]表示AM总能量;表示FM(Frequency Modulation,调频)成分幅值;2lgτc表示FM基频的平方;lgΩ(τc)表示时域积分区间的归一化因子,且Ω=Ω(τc)是积分区间,也是τc的函数,且其范围为
c、求代价函数M(τ0)在每个区间段取最大值时对应的τc集合τc(t),若第k个区间段Mk(τc)取最大值时对应的τc为则所有区间段的对应的所有区间段基频值f0(t):
f0(t)=ω0(t)/2π (3)
其中,瞬时频率 Δt=2/fs;fs为语音信号采样频率,在实施例为8kHz(对于源宽带语音信号,应为16kHz)。
d、利用求出的基频值来提取语音信号的光滑声道谱,其过程如下:
首先,求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω,tk)
其中,为窗函数;ω为角频率,ω=2πf,0≤f≤8Hz。
然后,采用内插函数去除傅里叶短时谱在时频域的周期性,得到语音信号的光滑声道谱
其中,为内插函数,是两个三角窗函数的乘积,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t)。函数g(·)定义了插值时所保留的特性。本实验例中取g(x)=x保留信号能量。
③如图6所示,采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练,得到窄带语音字典和窄带语音稀疏矩阵,其包括以下步骤:
a、设窄带语音STRAIGHT光滑声道谱为Y,其前K列数据作为初始窄带语音字典,且K=40;
b、设初始窄带语音字典为固定的字典D,利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y,结合OMP(Orthogonal Matching Pursuit,正交匹配追踪)稀疏编码算法求解对应的窄带语音稀疏矩阵X。
其中,为N个训练信号的集合。为Y的解向量集合。T0为稀疏度,即稀疏表示系数中非零分量个数的上限值,本实施例中,T0=15。
OMP稀疏编码算法的实现过程如下:
分别对第i列训练信号yi求解对应的最优解向量具体过程如表1所示,最后求得窄带语音系数矩阵就可以表示为
表1 OMP稀疏编码算法实现过程(第i列训练信号)
c、根据所得的窄带语音稀疏矩阵X,对固定的字典D进行迭代更新。
设dk为固定的字典D中待更新的第k列向量,固定的字典D中其他列固定,则
其中,表示Frobenius范数的平方,共有K个列向量每个列向量均为一个原子, 为与dk相对应的窄带语音稀疏矩阵X中的第k行,表示去除dk后的误差矩阵。
为了确保窄带语音稀疏矩阵X的稀疏性,对Ek进行去零补偿处理,其过程如下:
其中,集合Λk为的点的索引值,Ωk为N×|Λk|矩阵,它在(Λk(i),i)位置上的元素值为1,其余元素值均为0。去掉了Y、Ek中的零输入,得到的 即为补偿后的结果。对新的进行SVD(Singular Value Decomposition,奇异值分解)分解,得将U的第一列作为dk的优化结果,而Δ(1,1)乘以的第一列后作为的解。至此,固定的字典D中的一列更新完毕。将固定的字典D中各列按此方法逐个更新,以便得到了新的字典
而后,判断对固定的字典D进行迭代更新是否终止,通过迭代次数限制判断是否终止,本实施例中,对固定的字典D进行迭代更新的限定迭代次数为20次。若不终止,则返回步骤1)中步骤③的步骤b;若终止,则输出窄带语音字典和窄带语音稀疏矩阵X。
④采用K-SVD算法结合窄带语音稀疏矩阵对宽带语音STRAIGHT光滑声道谱进行训练,得到宽带语音字典DW,以确保宽带语音字典与窄带语音字典之间的稀疏相关性。
设宽带语音STRAIGHT光滑声道谱YW,并结合窄带语音稀疏矩阵X通过矩阵除法求得初始宽带字典
而后,采用步骤1)中步骤③的步骤c对初始宽带字典的更新,且由于不需进行OMP稀疏编码,因此只需进行一次字典更新即可。需要说明的是,按照步骤1)中步骤③的步骤c对初始宽带字典的更新,当得到误差矩阵后,不再对进行SVD分解,而是将窄带语音稀疏矩阵中的第k行赋值给通过矩阵除法求得dk的优化结果
至此,初始宽带字典中的一列更新完毕。将初始宽带字典中各列按此方法逐个更新,便得到宽带语音字典DW,并输出。
2)在带宽扩展的接收端,采用语音字典宽带和窄带语音字典,对采样频率为8KHz,带宽为4KHz的源窄带语音信号进行带宽扩展。需要说明的是,采样频率为8KHz,带宽为4KHz的语音信号为模拟人的语音范围。
①将源窄带语音信号进行2倍升采样,以便将源窄带语音信号的采样频率提高到16KHz,但有效带宽依然为4KHz,其2倍升采样包括以下步骤:
a、将源窄带语音信号每两个采样点之间插入一个零值,以便将源窄带语音信号的采样频率提高到16KHz,但与此同时频谱的高频部分会产生低频的镜像。
b、使用一个低通滤波器滤除高频部分,得到最终宽带语音信号的低频分量,以便使得有效带宽不变,且所选用的低通滤波器的选取为步骤1)的步骤①中选用的低通滤波器的参数选择相同,其通带截止频率为4KHz,阻带截止频率为4.3KHz,通带波纹1dB,阻带衰减50dB,幅频响应如图5所示。
②提取经过2倍升采样处理的源窄带语音信号的STRAIGHT光滑声道谱;
③对所得的源窄带语音STRAIGHT光滑声道谱进行字典固定的K-SVD训练,且所用字典为步骤1)的步骤③中得到的窄带语音字典,并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵HEXT;
④将待扩展的源窄带语音稀疏矩阵HEXT、宽带语音字典DW,将HEXT和DW带入公式(6)后得到扩展后宽带语音的STRAIGHT光滑声道谱SEXT:
SEXT=DW·HEXT (11)
再将扩展后宽带语音的STRAIGHT光滑声道谱SEXT经过步骤2)中步骤②的短时傅里叶的反变换处理得到扩展后的初始宽带语音信号;
⑤对扩展后的初始宽带语音信号进行高通滤波处理,得到宽带信号的高频分量。
上述进行高通滤波处理的高通滤波器优选为一个FIR高通滤波器,其通带截止频率为4KHz,阻带截止频率为3.7KHz,通带波纹1dB,阻带衰减50dB,幅频响应如图7所示;
⑥将高通滤波后的高频分量与经过低通滤波后的低频分量,即步骤2)的步骤①的步骤中所得的低频分量相叠加,得到扩展出的最终宽带语音信号。
本发明方法通过计算机仿真实验验证其有效性。
实验使用个人笔记本电脑,在Matlab R2009a平台上进行仿真及测试。实验语料采用录制的10个不同人的无噪语音,其中5男5女,均有窄带与宽带两种版本,他们的音调或高或低,有着不同的话音风格特征。实验中对源宽带和窄带语音进行截取,截取后各段长度均在5秒~7秒之间,内容均为“新型广播系统功能完善,能实现智能化,区域化。”,朗读速度适中。各宽带语音数据采样频率均为16KHz,窄带语音数据为8KHz,量化精度为16bit。
分别使用一种客观和主观评测标准对所提出的方法和基于“源—滤波器”模型的带宽扩展方法结果作比较,他们分别是对数谱失真测度(LSD)和平均意见评分(MOS)。在基于“源—滤波器”模型的方法中,分别使用码本映射技术和谱折叠技术来估计宽带谱包络和宽带激励信号。源宽带语音、源窄带语音、本发明方法扩展出的宽带语音以及基于“源—滤波器”模型的方法扩展出的宽带语音,其语音质量评估如表2所示。
表2语音质量评估
由表2可得到如下结论:(1)本发明方法完成了语音的带宽扩展,得到了与基于“源—滤波器”模型的方法质量相近的宽带语音。(2)本发明方法完全脱离了传统方法的框架,不再使用任何语音模型,因而大幅度减少了先验知识的实用。(3)从实际带宽扩展效果来看,提出的方法中K-SVD的迭代次数达到20次左右,仅需花费数十分钟就可以取得较高质量的宽带语音。与传统方法中码本映射和统计映射动辄若干小时的训练时间相比,训练时间得以大幅度减少,实时性增强。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于K-SVD的人工语音带宽扩展方法,其包括以下步骤:
1)在带宽扩展的发送端,对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵,其包括以下步骤:
①对源宽带语音信号进行低通滤波处理,得到对应的窄带语音信号;
②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱;
③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练,得到窄带语音字典和窄带语音稀疏矩阵;
④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练,得到宽带语音字典,且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵,以确保宽带语音字典与窄带语音字典之间的稀疏相关性;
2)在带宽扩展的接收端,采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号,其包括以下步骤:
①将源窄带语音信号进行插值和低通滤波处理,以提高源窄带语音信号的采样频率,而有效宽带不变,得到最终宽带语音信号的低频分量;
②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱;
③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练,所用字典为窄带语音字典,并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵;
④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘,得到扩展后宽带语音的STRAIGHT光滑声道谱,且利用其反推得到扩展后的初始宽带语音信号;
⑤对扩展后的初始宽带语音信号进行高通滤波处理,得到最终宽带语音信号的高频分量;
⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加,得到扩展出的最终宽带语音信号。
2.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法,其特征在于:所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下:
a、将语音信号进行小波分解,得到一系列经过Gabor滤波器滤波的复信号D(t,τc):
其中,t为语音信号上的时间平移变量,且0≤t≤T0,T0为语音信号时长;τc为gAG(t)的伸缩因子,表示滤波时对应的滤波通道且0≤τc≤t0,t0一般取10ms;u代表积分变量,取值范围为积分区间Ω0,即s(t)为0到t时间段的语音输入信号;gAG(t)为分析小波,由复合的Gabor滤波器得到,gAG(t)=g(t-1/4)-g(t+1/4),其中η为Gabor滤波器的频率分辨率,根据Gabor滤波器特性取值,通常η>1;
b、把复信号D(t,τc)按时间段分为多个重叠的区间段,即把t分为[0,t0],[0.5t0,1.5t0],...,[T0-t0,T0],t0一般取10ms;若用tk表示第k个区间段t的变化范围,即[0.5t0(k-1),0.5t0(k+1)],对每个区间段上的D(t,τc)计算代价函数M(τc),则第k个区间段的代价函数Mk(τc):
其中,上式中D表示的是第k个区间段的所有复信号D(t,τc),用Dk(t,τc)表示,表示AM成分幅值;lg[∫Ω|D|2dt]表示AM总能量;表示FM成分幅值;2lgτc表示FM基频的平方;lgΩ(τc)表示时域积分区间的归一化因子,且Ω=Ω(τc)是积分区间,也是τc的函数,且其范围为
c、求代价函数M(τ0)在每个区间段取最大值时对应的τc集合τc(t),若第k个区间段Mk(τc)取最大值时对应的τc为则所有区间段的对应的所有区间段基频值f0(t)为
f0(t)=ω0(t)/2π
其中,瞬时频率 Δt=1/fs;fs为语音信号采样频率;
d、利用求出的基频值来提取语音信号的光滑声道谱,其过程如下:
首先,求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω,tk)
其中,为窗函数;ω为角频率,ω=2πf,0≤f≤8Hz;
然后,采用内插函数去除傅里叶短时谱在时频域的周期性,得到语音信号STRAIGHT光滑声道谱S(ω,t):
其中,为内插函数,是两个三角窗函数的乘积,τ0(t)=2π/ω0(t),-ω0(t)≤λ≤ω0(t),-τ0(t)≤τ≤τ0(t);函数g(·)定义了插值时所保留的特性。
3.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法,其特征在于:所述步骤1)的步骤③中包括以下步骤:
a、设窄带语音STRAIGHT光滑声道谱为Y,其前K列数据作为初始窄带语音字典,且K=40;
b、设初始窄带语音字典为固定的字典D,利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y,结合OMP稀疏编码算法求解对应的窄带语音稀疏矩阵X;
其中,为N个训练信号的集合;为Y的解向量集合;T0为稀疏度;
应用OMP稀疏编码算法分别对第i列训练信号yi求解对应的最优解向量且i=1,2,…,N,最后求得窄带语音稀疏矩阵就可以表示为OMP稀疏编码算法的实现过程如下:
①初始化:余量r0=yi,索引集V0=φ,原子集合Θ0为空矩阵,迭代次数m=1;
②在训练样本索引集V0中选出与余量相关性最大的那一列的列号nm=argmaxi=1,2,...,N<rm-1,di>,其中rm-1为第m-1次迭代的余量,di为D的第i列向量;
③更新索引集Vm=Vm-1∪{nm}及字典D中原子集合其中Vm和Θm分别表示第m次迭代的索引集和原子集合;
④求解最小二乘问题,保证残差最小,获得在已选列向量上的最优投影,更新已选第i列的稀疏系数值为
⑤更新余量
⑥m=m+1,判断是否满足rm<θ,θ为设定的最大残差值,θ=0.001或者迭代次数m>T0,如果满足,就停止迭代,输出否则,跳到步骤(2);
c、根据所得的窄带语音稀疏矩阵X,对固定的字典D进行迭代更新;
设dk为固定的字典D中待更新的第k列向量,固定的字典D中其他列固定,则
其中,表示Frobenius范数的平方,共有K个列向量每个列向量均为一个原子, 为与dk相对应的窄带语音稀疏矩阵X中的第k行,表示去除dk后的误差矩阵;
为了确保窄带语音稀疏矩阵X的稀疏性,对Ek进行去零补偿处理,其过程如下:
其中,集合Λk为的点的索引值,Ωk为N×|Λk|矩阵,它在(Λk(i),i)位置上的元素值为1,其余元素值均为0;去掉了Y、Ek中的零输入,得到的 即为补偿后的结果;对新的进行SVD分解,得将U的第一列作为dk的优化结果,而Δ(1,1)乘以的第一列后作为的解;至此,固定的字典D中的一列更新完毕;将固定的字典D中各列按此方法逐个更新,以便得到了新的字典
而后,判断对固定的字典D进行迭代更新是否终止,通过迭代次数限制判断是否终止;若不终止,则返回步骤b;若终止,则输出窄带语音字典和窄带语音稀疏矩阵X。
4.一种实现如权利要求1~3所述的基于K-SVD的人工语音带宽扩展方法的装置,其特征在于:它包括训练单元和扩展单元;其中,在宽带扩展的发送端,所述训练单元对源宽带语音信号进行训练,得到宽带语音字典、窄带语音字典,并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元;所述扩展单元根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展,得到扩展出的最终宽带语音信号。
5.如权利要求4所述的一种基于K-SVD的人工语音带宽扩展装置,其特征在于:所述训练单元包括低通滤波模块、基于STRAIGHT模型的参数提取模块、K-SVD训练模块以及稀疏矩阵固定的K-SVD训练模块;其中,所述低通滤波模块的输入端输入源宽带语音信号,将得到的窄带语音信号传送给所述基于STRAIGHT模型的参数提取模块的输入端相连;所述基于STRAIGHT模型的参数提取模块的输入端一方面输入源宽带语音信号,另一方面与低通滤波模块的输出端相连,其输出端分别与所述K-SVD训练模块和所述稀疏矩阵固定的K-SVD训练模块的输入端相连;所述K-SVD训练模块的输入端与所述基于STRAIGHT模型的参数提取模块的输出端相连,其输出端输出窄带语音字典和窄带语音稀疏矩阵;所述稀疏矩阵固定的K-SVD训练模块的输入端一方面输入窄带语音稀疏矩阵,另一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连,其输出端输出宽带语音字典。
6.如权利要求4所述的一种基于K-SVD的人工语音带宽扩展装置,其特征在于:所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块;其中,所述2倍升采样模块的输入端输入源窄带语音信号,其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连;所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连,其输出端与所述字典固定的所述K-SVD训练模块的输入端相连;所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连,另一方面输入训练单元中得到的窄带语音字典,其输出端与所述合成模块的输入端相连;所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连,另一方面输入训练单元中得到的宽带语音字典,其输出端与所述高通滤波模块的输入端相连;所述高通滤波模块的输入端与所述合成模块的输出端相连,其输出端与所述叠加模块的输入端相连;所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连,另一方面与所述2倍升采样模块的输出端相连,其输出端输出最终宽带语音信号。
7.如权利要求5所述的一种基于K-SVD的人工语音带宽扩展装置,其特征在于:所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块;其中,所述2倍升采样模块的输入端输入源窄带语音信号,其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连;所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连,其输出端与所述字典固定的所述K-SVD训练模块的输入端相连;所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连,另一方面输入训练单元中得到的窄带语音字典,其输出端与所述合成模块的输入端相连;所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连,另一方面输入训练单元中得到的宽带语音字典,其输出端与所述高通滤波模块的输入端相连;所述高通滤波模块的输入端与所述合成模块的输出端相连,其输出端与所述叠加模块的输入端相连;所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连,另一方面与所述2倍升采样模块的输出端相连,其输出端输出最终宽带语音信号。
8.如权利要求5或6或7所述的一种基于K-SVD的人工语音带宽扩展装置,其特征在于:所述基于STRAIGHT模型的参数提取模块包括小波分解机构、基本性指数计算机构、基频提取机构以及光滑声道谱提取机构;其中,所述小波分解机构的输入端输入宽带语音信号,其输出端与所述基本性指数计算机构的输入端相连;所述基本性指数计算机构的输入端与所述小波分解机构的输出端相连,其输出端与所述基频提取机构的输入端相连;所述基频提取机构的输入端与所述基本性指数计算机构的输出端相连,其输出端与所述光滑声道谱提取机构的输入端相连;所述光滑声道谱提取机构的输入端与所述基频提取机构的输出端相连,其输出端输出STRAIGHT光滑声道谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410411869.5A CN104217730B (zh) | 2014-08-18 | 2014-08-18 | 一种基于k‑svd的人工语音带宽扩展方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410411869.5A CN104217730B (zh) | 2014-08-18 | 2014-08-18 | 一种基于k‑svd的人工语音带宽扩展方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217730A CN104217730A (zh) | 2014-12-17 |
CN104217730B true CN104217730B (zh) | 2017-07-21 |
Family
ID=52099136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410411869.5A Active CN104217730B (zh) | 2014-08-18 | 2014-08-18 | 一种基于k‑svd的人工语音带宽扩展方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217730B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336338B (zh) | 2014-06-24 | 2017-04-12 | 华为技术有限公司 | 音频编码方法和装置 |
CN104657948B (zh) * | 2015-02-09 | 2018-03-13 | 重庆大学 | 一种用于海洋探测的激光水下成像图像去噪和增强方法 |
CN108366394A (zh) * | 2018-01-24 | 2018-08-03 | 南京邮电大学 | 基于时空压缩网络编码的高能效无线传感网数据传输方法 |
TWI702594B (zh) | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
CN108399368B (zh) * | 2018-01-31 | 2021-08-20 | 中南大学 | 一种人工源电磁法观测信号去噪方法 |
CN112133319A (zh) * | 2020-08-31 | 2020-12-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频生成的方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1300833A2 (en) * | 2001-10-04 | 2003-04-09 | AT&T Corp. | A method of bandwidth extension for narrow-band speech |
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN102411935A (zh) * | 2005-04-01 | 2012-04-11 | 高通股份有限公司 | 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备 |
CN103258543A (zh) * | 2013-04-12 | 2013-08-21 | 大连理工大学 | 一种人工语音带宽扩展的方法 |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE361524T1 (de) * | 2005-01-31 | 2007-05-15 | Harman Becker Automotive Sys | Erweiterung der bandbreite eines schmalbandigen sprachsignals |
-
2014
- 2014-08-18 CN CN201410411869.5A patent/CN104217730B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1300833A2 (en) * | 2001-10-04 | 2003-04-09 | AT&T Corp. | A method of bandwidth extension for narrow-band speech |
CN102411935A (zh) * | 2005-04-01 | 2012-04-11 | 高通股份有限公司 | 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备 |
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103258543A (zh) * | 2013-04-12 | 2013-08-21 | 大连理工大学 | 一种人工语音带宽扩展的方法 |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
Non-Patent Citations (5)
Title |
---|
《一种基于K-SVD的说话人识别方法》;马振 等;《计算机工程与应用》;20120123;112-115 * |
《基于CS理论的"非盲式"带宽扩展算法研究;吕焱;《计算机与数字工程》;20140531;第42卷(第5期);779-786 * |
K-SVD and its non—negative variant for dictionary;Aharon M,Elad M,Bruckstein A M;《International Society for Optics and Photonics,2005:59141l一59141l一13》;20051231 * |
K-SVD:An algorithm for designing overcomplete;Aharon M, Elad M,Bruckstein A;《IEEE Transactions on Signal 》;20061231 * |
Sparse image coding using learned overcomplete;Murray J F,Kreutz—Delgado K;《IEEE International Workshop on Machine Learning for Signal 》;20041231 * |
Also Published As
Publication number | Publication date |
---|---|
CN104217730A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217730B (zh) | 一种基于k‑svd的人工语音带宽扩展方法及装置 | |
CN103778919B (zh) | 基于压缩感知和稀疏表示的语音编码方法 | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN1750124B (zh) | 带限音频信号的带宽扩展 | |
AU2010206229B2 (en) | Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
DE10041512A1 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
CN111508518B (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
Koizumi et al. | SpecGrad: Diffusion probabilistic model based neural vocoder with adaptive noise spectral shaping | |
Sadasivan et al. | Joint dictionary training for bandwidth extension of speech signals | |
CN103345920B (zh) | 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法 | |
CN103093757B (zh) | 一种窄带码流转换为宽带码流的转换方法 | |
CN110503967A (zh) | 一种语音增强方法、装置、介质和设备 | |
Qian et al. | Combining equalization and estimation for bandwidth extension of narrowband speech | |
CN114495973A (zh) | 一种基于双路径自注意力机制的特定人语音分离方法 | |
CN101322183B (zh) | 信号失真消除装置、方法 | |
Iser et al. | Bandwidth extension of telephony speech | |
Bauer et al. | An HMM-based artificial bandwidth extension evaluated by cross-language training and test | |
Ye et al. | Speech enhancement based on a new architecture of wasserstein generative adversarial networks | |
US9460733B2 (en) | Apparatus and method for extending bandwidth of sound signal | |
Rao et al. | Voice conversion by prosody and vocal tract modification | |
CN116013343A (zh) | 语音增强方法、电子设备和存储介质 | |
CN106935243A (zh) | 一种基于melp的低比特数字语音矢量量化方法和系统 | |
CN2927247Y (zh) | 语音解码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |