CN104217730B

CN104217730B - 一种基于k‑svd的人工语音带宽扩展方法及装置

Info

Publication number: CN104217730B
Application number: CN201410411869.5A
Authority: CN
Inventors: 陈喆; 殷福亮; 隋经纬
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2014-08-18
Filing date: 2014-08-18
Publication date: 2017-07-21
Anticipated expiration: 2034-08-18
Also published as: CN104217730A

Abstract

本发明公开了一种基于K‑SVD的人工语音带宽扩展方法及装置，其特征在于：1)在带宽扩展的发送端，对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵；2)在带宽扩展的接收端，采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号。采用本发明提高了扩展出的宽带语音质量、大幅度减少训练时间和先验知识的使用，有效提高源窄带语音稀疏矩阵结果的准确性，故具有较高的实用价值。因此本发明可在语音通信等领域广泛推广。

Description

一种基于K-SVD的人工语音带宽扩展方法及装置

技术领域

本发明涉及一种带宽扩展方法及装置，特别是关于一种基于K-SVD(K-meansSingular Value Decomposition，K均值奇异值分解)的人工语音带宽扩展方法及装置。

背景技术

人类语音能量主要分布在0.05～8KHz的频率范围内。在语音通信系统中，如公用电话交换网(PSTN，Public Switched Telephone Network)和全球移动通信系统(GSM，Global System for Mobile communication)等，囿于技术、成本和系统复杂度等诸多原因，传输的语音信号带宽一般都在4KHz以下，此类语音称为窄带语音。窄带语音通信在减少带宽需求的同时，虽然保证了一定的清晰度，但却降低了语音自然度，这在某些特殊场合，如电话会议系统，窄带语音听起来令人感觉不自然，难以满足要求。随着语音编码技术的不断发展，国际电信联盟(ITU，International Telecommunication Union)等标准化组织相继提出了多种宽带语音编解码标准。然而，这些宽带语音编解码标准对码流格式和编码速率等改变很大，没有考虑对现有通信网络和标准的兼容，因此无法获得预期性能，而通信网络的更新漫长且复杂，短时间内难以实现。因此，人们一直在考虑如何在当前网络和标准的条件下如何得到宽带品质的语音。

目前，使用人工语音带宽扩展(Artificial Speech Bandwidth Extension，ASBWE)技术获得宽带品质的语音是一个较好的解决方案。所谓人工语音带宽扩展，就是凭借语音信号处理技术，利用窄带语音扩展出丢失的高频成分，进而合成出宽带语音。

现有的针对语音信号的频带扩展目前包括半盲类带宽扩展方法和全盲类带宽扩展方法：

1)半盲类带宽扩展方法易与已有标准兼容，但存在的问题也较为明显。

如在申请于2011年12月16日、公开于2012年7月4日、公开号为102543086A的专利“一种基于音频水印的语音带宽扩展的装置和方法”中，针对宽带语音信号，在通过电话线传输之前，将高频参数嵌入到窄带码流中，通过电话线传输窄带语音信号；在接收端进行A律解码，然后提取高频参数，使用此高频参数恢复宽带语音中的高频部分，最后将高频语音和低频语音合成宽带语音。该装置和方法利用音频水印的特性，在窄带语音中建立一条隐藏的信道，利用此信道传输高频语音的参数，从而在不改变原有网络协议的前提下，实现了语音信号的频带扩展。但嵌入信息对低频信号本身来说是额外的噪声干扰，会降低其音质；同时，允许嵌入信息量的多少严重依赖于具体的主要频带信号，这将影响信息嵌入的稳定性，进而影响语音通信的实时性。

2)全盲类带宽扩展方法在传送窄带低频信号时，不传送高频带的任何信息，完全由窄带低频信号恢复出高频带分量，然后合成出宽带语音，因而被称为全盲类方法。目前人工语音带宽扩展的研究主要集中在全盲类带宽扩展方法上。

全盲类带宽扩展方法认为语音信号符合某种模型，使用最多的是语音产生的“源—滤波器”模型。该模型将带宽扩展分为宽带谱包络估计和宽带激励信号估计两部分，通过成熟的线性预测理论较好地模拟了语音信号的生成过程，取得了良好的带宽扩展效果。但同时也一直存在着某些缺陷悬而未解。

如在申请于2010年9月14日、公开于2012年7月25日、公开号为102612712A的专利“一种带宽扩展方法及其装置”中，该方法提取窄带低频信号的特征集合，而后使用广义加性模型将提取的特征映射到至少一个高频带参数。而后，通过谱平移法将窄带低频信号的副本频移到高频带。通过至少一个高频带参数来控制低频带音频信号频移后副本的包络，以此完成带宽扩展。

在申请于2002年10月30日、公开于2005年3月2日、公开号为CN1589469A的专利中“一种音频信号带宽扩展方案”中，该方案先对窄带音频信号的某一部分进行频谱折叠，再对频谱折叠后的音频信号某一部分进行噪声整形产生整形后的噪声信号，最后通过合成器将整形后的噪声信号和频谱折叠后的音频信号合并为宽带信号。

综上可知，由于基于语音产生的“源—滤波器”模型，因而先验知识使用过多，且算法复杂度较高；宽带谱包络估计过程中所花费较长的训练时间去训练码本或统计模型，因此实时性较差等，从而难以推广。

发明内容

根据上述提出的技术问题，而提供一种相对于现有的基于“源—滤波器”模型的语音宽带扩展方法，能够取得较高质量的宽带语音，大幅度减少训练时间和先验知识的使用，具有较高的实用价值的基于K-SVD的人工语音带宽扩展方法及装置。

本发明采用的技术手段如下：一种基于K-SVD的人工语音带宽扩展方法，其包括以下步骤：1)在带宽扩展的发送端，对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，其包括以下步骤：①对源宽带语音信号进行低通滤波处理，得到对应的窄带语音信号；②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱；③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练，得到窄带语音字典和窄带语音稀疏矩阵；④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练，得到宽带语音字典，且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵，以确保宽带语音字典与窄带语音字典之间的稀疏相关性；2)在带宽扩展的接收端，采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号，其包括以下步骤：①将源窄带语音信号进行插值和低通滤波处理，以提高源窄带语音信号的采样频率，而有效宽带不变，得到最终宽带语音信号的低频分量；②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱；③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练，所用字典为窄带语音字典，并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵；④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘，得到扩展后宽带语音的STRAIGHT光滑声道谱，且利用其反推得到扩展后的初始宽带语音信号；⑤对扩展后的初始宽带语音信号进行高通滤波处理，得到最终宽带语音信号的高频分量；⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加，得到扩展出的最终宽带语音信号。

所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下：a、将语音信号进行小波分解，得到一系列经过Gabor滤波器滤波的复信号D(t,τ_c)：

其中，t为语音信号上的时间平移变量，且0≤t≤T₀，T₀为语音信号时长；τ_c为g_AG(t)的伸缩因子，表示滤波时对应的滤波通道且0≤τ_c≤t₀，t₀一般取10ms；u代表积分变量，取值范围为积分区间Ω₀，即s(t)为0到t时间段的语音输入信号；g_AG(t)为分析小波，由复合的Gabor滤波器得到，g_AG(t)＝g(t-1/4)-g(t+1/4)，其中η为Gabor滤波器的频率分辨率，根据Gabor滤波器特性取值，通常η>1；b、把复信号D(t,τ_c)按时间段分为多个重叠的区间段，即把t分为[0,t₀]，[0.5t₀,1.5t₀]，...，[T₀-t₀,T₀]，t₀一般取10ms；若用t_k表示第k个区间段t的变化范围，即[0.5t₀(k-1),0.5t₀(k+1)]，对每个区间段上的D(t,τ_c)计算代价函数M(τ_c)，则第k个区间段的代价函数M_k(τ_c)：

其中，上式中D表示的是第k个区间段的所有复信号D(t,τ_c)，用D_k(t,τ_c)表示，表示AM成分幅值；lg[∫_Ω|D|²dt]表示AM总能量；表示FM成分幅值；2lgτ_c表示FM基频的平方；lgΩ(τ_c)表示时域积分区间的归一化因子，且Ω＝Ω(τ_c)是积分区间，也是τ_c的函数，且其范围为c、求代价函数M(τ₀)在每个区间段取最大值时对应的τ_c集合τ_c(t)，若第k个区间段M_k(τ_c)取最大值时对应的τ_c为则所有区间段的对应的所有区间段基频值f₀(t)为

f₀(t)＝ω₀(t)/2π

其中，瞬时频率Δt＝1/f_s；f_s为语音信号采样频率；d、利用求出的基频值来提取语音信号的光滑声道谱，其过程如下：首先，求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω，t_k)

其中，为窗函数；ω为角频率，ω＝2πf,0≤f≤8Hz；然后，采用内插函数去除傅里叶短时谱在时频域的周期性，得到语音信号STRAIGHT光滑声道谱S(ω，t)：

其中，为内插函数，是两个三角窗函数的乘积，τ₀(t)＝2π/ω₀(t)，-ω₀(t)≤λ≤ω₀(t),-τ₀(t)≤τ≤τ₀(t)；函数g(·)定义了插值时所保留的特性。

所述步骤1)的步骤③中包括以下步骤：a、设窄带语音STRAIGHT光滑声道谱为Y，其前K列数据作为初始窄带语音字典，且K＝40；b、设初始窄带语音字典为固定的字典D，利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y，结合OMP稀疏编码算法求解对应的窄带语音稀疏矩阵X；

其中，为N个训练信号的集合；为Y的解向量集合；T₀为稀疏度；应用OMP稀疏编码算法分别对第i列训练信号y_i求解对应的最优解向量且i＝1,2,…,N，最后求得窄带语音稀疏矩阵就可以表示为OMP稀疏编码算法的实现过程如下：

c、根据所得的窄带语音稀疏矩阵X，对固定的字典D进行迭代更新；设d_k为固定的字典D中待更新的第k列向量，固定的字典D中其他列固定，则

其中，表示Frobenius范数的平方，共有K个列向量每个列向量均为一个原子，为与d_k相对应的窄带语音稀疏矩阵X中的第k行，表示去除d_k后的误差矩阵；

为了确保窄带语音稀疏矩阵X的稀疏性，对E_k进行去零补偿处理，其过程如下：

其中，集合Λ_k为的点的索引值，Ω_k为N×|Λ_k|矩阵，它在(Λ_k(i),i)位置上的元素值为1，其余元素值均为0；去掉了Y、E_k中的零输入，得到的即为补偿后的结果；对新的进行SVD分解，得将U的第一列作为d_k的优化结果，而Δ(1,1)乘以的第一列后作为的解；至此，固定的字典D中的一列更新完毕；将固定的字典D中各列按此方法逐个更新，以便得到了新的字典而后，判断对固定的字典D进行迭代更新是否终止，通过迭代次数限制判断是否终止；若不终止，则返回步骤b；若终止，则输出窄带语音字典和窄带语音稀疏矩阵X。

一种基于K-SVD的人工语音带宽扩展方法的装置，其特征在于：它包括训练单元和扩展单元；其中，在宽带扩展的发送端，所述训练单元对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元；所述扩展单元根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号。

所述训练单元包括低通滤波模块、基于STRAIGHT模型的参数提取模块、所述K-SVD训练模块以及所述稀疏矩阵固定的所述K-SVD训练模块；其中，所述低通滤波模块的输入端输入源宽带语音信号，将得到的窄带语音信号传送给所述基于STRAIGHT模型的参数提取模块的输入端相连；所述基于STRAIGHT模型的参数提取模块的输入端一方面输入源宽带语音信号，另一方面与所述低通滤波模块的输出端相连，其输出端分别与所述K-SVD训练模块和所述稀疏矩阵固定的所述K-SVD训练模块的输入端相连；所述K-SVD训练模块的输入端与所述基于STRAIGHT模型的参数提取模块的输出端相连，其输出端输出窄带语音字典和窄带语音稀疏矩阵；所述稀疏矩阵固定的所述K-SVD训练模块的输入端一方面输入窄带语音稀疏矩阵，另一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连，其输出端输出宽带语音字典。

所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块；其中，所述2倍升采样模块的输入端输入源窄带语音信号，其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连；所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连，其输出端与所述字典固定的所述K-SVD训练模块的输入端相连；所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连，另一方面输入训练单元中得到的窄带语音字典，其输出端与所述合成模块的输入端相连；所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连，另一方面输入训练单元中得到的宽带语音字典，其输出端与所述高通滤波模块的输入端相连；所述高通滤波模块的输入端与所述合成模块的输出端相连，其输出端与所述叠加模块的输入端相连；所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连，另一方面与所述2倍升采样模块的输出端相连，其输出端输出最终宽带语音信号。

所述基于STRAIGHT模型的参数提取模块包括小波分解机构、基本性指数计算机构、基频提取机构以及光滑声道谱提取机构；其中，所述小波分解机构的输入端输入宽带语音信号，其输出端与所述基本性指数计算机构的输入端相连；所述基本性指数计算机构的输入端与所述小波分解机构的输出端相连，其输出端与所述基频提取机构的输入端相连；所述基频提取机构的输入端与所述基本性指数计算机构的输出端相连，其输出端与所述光滑声道谱提取机构的输入端相连；所述光滑声道谱提取机构的输入端与所述基频提取机构的输出端相连，其输出端输出STRAIGHT光滑声道谱。

本发明具有以下优点：1、本发明由于采用将语音STRAIGHT光滑声道谱分解成了字典和稀疏矩阵的信息分离思想，并采用K-SVD算法分别对窄带语音光滑声道谱和宽带语音光滑声道谱进行训练，从而窄带保证了语音字典与宽带语音字典之间的稀疏相关性，从而提高了扩展出的宽带语音质量。另外，K-SVD算法使用带有稀疏约束的OMP稀疏编码算法，去零补偿和奇异值分解算法，来更新字典与稀疏系数，仅需迭代很少的次数就可以得到最优的字典及对应的稀疏系数，因而可以大幅度减少训练时间和先验知识的使用，因此具有较高的实用价值。2、本发明根据语音自身的特性，并采用稀疏表示，与矢量量化等高压缩率算法相比分解误差更小，因此提高了分解结果的准确性。3、本发明由于采用OMP稀疏编码算法完成字典固定的K-SVD训练，因此有效提高源窄带语音稀疏矩阵结果的准确性。4、本发明采用K-SVD算法分解STRAIGHT光滑声道谱，而非时域语音信号，而STRAIGHT模型对语音信号的短时谱进行时域和频域的自适应平滑内插，并以此来提取谱包络，可以较大幅度地调整语音的基频和谱参数而不影响语音合成质量，具有参数提取精确，灵活度高等特点。因此基于上述理由本发明可在语音通信等领域广泛推广。

附图说明

图1是本发明装置的结构示意图

图2是本发明装置中的训练单元示意图

图3是基于STRAIGHT模型的参数提取模块示意图

图4是本发明装置的扩展单元示意图

图5是本发明的实施例中采用的FIR低通滤波器的幅频响应示意图

图6是本发明的实施例中采用的K-SVD算法流程示意图

图7是本发明的实施例中采用的FIR高通滤波器的幅频响应示意图

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明装置包括训练单元1和扩展单元2。在宽带扩展的发送端，训练单元1对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元2。扩展单元2根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号。

如图2所示，训练单元1包括低通滤波模块11、基于STRAIGHT(SpeechTransformation and Representation Using Adaptive Interpolation of WeightedSpectrum，基于自适应加权谱内插的语音转换和重构)模型的参数提取模块12、K-SVD训练模块13以及稀疏矩阵固定的K-SVD训练模块14。

其中，低通滤波模块11的输入端输入源宽带语音信号，将得到的窄带语音信号传送给基于STRAIGHT模型的参数提取模块12的输入端相连。基于STRAIGHT模型的参数提取模块12的输入端一方面输入源宽带语音信号，另一方面与低通滤波模块11的输出端相连，其输出端分别与K-SVD训练模块13和稀疏矩阵固定的K-SVD训练模块14的输入端相连。K-SVD训练模块13的输入端与基于STRAIGHT模型的参数提取模块12的输出端相连，其输出端输出窄带语音字典和窄带语音稀疏矩阵。稀疏矩阵固定的K-SVD训练模块14的输入端一方面输入窄带语音稀疏矩阵，另一方面与基于STRAIGHT模型的参数提取模块12的输出端相连，其输出端输出宽带语音字典。

如图3所示，基于STRAIGHT模型的参数提取模块12包括小波分解机构121、基本性指数计算机构122、基频提取机构123以及光滑声道谱提取机构124。小波分解机构121的输入端输入宽带语音信号，其输出端与基本性指数计算机构122的输入端相连。基本性指数计算机构122的输入端与小波分解机构121的输出端相连，其输出端与基频提取机构123的输入端相连。基频提取机构123的输入端与基本性指数计算机构122的输出端相连，其输出端与光滑声道谱提取机构124的输入端相连。光滑声道谱提取机构124的输入端与基频提取机构123的输出端相连，其输出端输出STRAIGHT光滑声道谱。

如图4所示，扩展单元2包括2倍升采样模块21、基于STRAIGHT模型的参数提取模块22、字典固定的K-SVD训练模块23、合成模块24、高通滤波模块25以及叠加模块26。

其中，2倍升采样模块21的输入端输入源窄带语音信号，其输出端分别与基于STRAIGHT模型的参数提取模块22和叠加模块26的输入端相连。基于STRAIGHT模型的参数提取模块22的输入端与2倍升采样模块21的输出端相连，其输出端与字典固定的K-SVD训练模块23的输入端相连。字典固定的K-SVD训练模块23的输入端一方面与基于STRAIGHT模型的参数提取模块22的输出端相连，另一方面输入训练单元1中得到的窄带语音字典，其输出端与合成模块24的输入端相连。合成模块24的输入端一方面与字典固定的K-SVD训练模块23的输出端相连，另一方面输入训练单元1中得到的宽带语音字典，其输出端与高通滤波模块25的输入端相连。高通滤波模块25的输入端与合成模块24的输出端相连，其输出端与叠加模块26的输入端相连。叠加模块26的输入端一方面与高通滤波模块25的输出端相连，另一方面与2倍升采样模块21的输出端相连，其输出端输出最终宽带语音信号。

需要说明的是，图2中基于STRAIGHT模型的参数提取模块12和图4中基于STRAIGHT模型的参数提取模块22实现的功能是相同的，故不在详述。基于STRAIGHT模型的参数提取模块12的输入端是窄带语音信号，而基于STRAIGHT模型的参数提取模块22的输入端是宽带语音信号，故图3中统一写成语音信号。

本发明方法包括以下步骤：

需要说明的是，人类语音频率集中在0-7K范围内，因此语音带宽扩展领域普遍采用采样频率为16KHz，有效带宽为8KHz的语音信号模拟人类语音频率，因此本发明主要针对这一区域的语音信号进行带宽扩展。

1)在带宽扩展的发送端，基于STRAIGHT模型和K-SVD算法，对采样频率为16KHz，有效带宽为8KHz的源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，其包括以下步骤：

①对源宽带语音信号进行低通滤波处理，得到对应的窄带语音信号。由于所使用的低通滤波器进行滤波后，窄带语音会延迟滤波器阶数地一半，从而源宽带语音信号得到了延迟，进而补偿滤波器时延。

上述实施例中，对源宽带语音信号进行低通滤波处理的低通滤波器优选为对称FIR(Finite Impulse Response，有限长脉冲响应)低通滤波器，其通带截止频率为4KHz，阻带截止频率为4.3KHz，通带波纹1dB，阻带衰减50dB，幅频响应如图5所示。

②提取生成的窄带语音信号和源宽带语音信号各自对应的窄带语音STRAIGHT光滑声道谱和宽带语音STRAIGHT光滑声道谱。

由于生成的窄带语音与宽带语音STRAIGHT光滑声道谱提取步骤一样，因此仅以语音信号代表生成的窄带语音和宽带语音，即下述步骤中将语音信号换成生成的窄带语音，则相应生成窄带语音STRAIGHT光滑声道谱；将语音信号换成生成的宽带语音，则相应生成宽带语音STRAIGHT光滑声道谱，其提取过程如下：

a、将语音信号进行小波分解，得到一系列经过Gabor滤波器滤波的复信号D(t,τ_c)，即

其中，t为窄带语音信号上的时间平移变量，且0≤t≤T₀，T₀为窄带语音信号时长，本实施例中取值为5-7s；τ_c为g_AG(t)的伸缩因子，表示滤波时对应的滤波通道且0≤τ_c≤t₀，t₀一般取10ms；u代表积分变量，取值范围为积分区间Ω₀，即(t)为0到t时间段的语音输入信号；g_AG(t)为分析小波，由复合的Gabor滤波器得到，g_AG(t)＝g(t-1/4)-g(t+1/4)，其中η为Gabor滤波器的频率分辨率，根据Gabor滤波器特性取值，通常η>1即可。

b、把复信号D(t,τ_c)按时间段分为多个重叠的区间段，即把t分为[0,t₀]，[0.5t₀,1.5t₀]，...，[T₀-t₀,T₀]，t₀一般取10ms，若用t_k表示第k个区间段t的变化范围，即[0.5t₀(k-1),0.5t₀(k+1)]，对每个区间段上的D(t,τ_c)计算代价函数M(τ_c)，则第k个区间段的代价函数M_k(τ_c)：

其中，上式中D表示的是第k个区间段的所有复信号D(t,τ_c)，用D_k(t,τ_c)表示，表示AM(Amplitude Modulation，调幅)成分幅值；lg[∫_Ω|D|²dt]表示AM总能量；表示FM(Frequency Modulation，调频)成分幅值；2lgτ_c表示FM基频的平方；lgΩ(τ_c)表示时域积分区间的归一化因子，且Ω＝Ω(τ_c)是积分区间，也是τ_c的函数，且其范围为

c、求代价函数M(τ₀)在每个区间段取最大值时对应的τ_c集合τ_c(t)，若第k个区间段M_k(τ_c)取最大值时对应的τ_c为则所有区间段的对应的所有区间段基频值f₀(t)：

f₀(t)＝ω₀(t)/2π (3)

其中，瞬时频率 Δt＝2/f_s；f_s为语音信号采样频率，在实施例为8kHz(对于源宽带语音信号，应为16kHz)。

d、利用求出的基频值来提取语音信号的光滑声道谱，其过程如下：

首先，求取语音信号每个区间段的加窗后的傅里叶变换且第k个区间段上的傅里叶变换为F(ω，t_k)

其中，为窗函数；ω为角频率，ω＝2πf,0≤f≤8Hz。

然后，采用内插函数去除傅里叶短时谱在时频域的周期性，得到语音信号的光滑声道谱

其中，为内插函数，是两个三角窗函数的乘积，τ₀(t)＝2π/ω₀(t)，-ω₀(t)≤λ≤ω₀(t),-τ₀(t)≤τ≤τ₀(t)。函数g(·)定义了插值时所保留的特性。本实验例中取g(x)＝x保留信号能量。

③如图6所示，采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练，得到窄带语音字典和窄带语音稀疏矩阵，其包括以下步骤：

a、设窄带语音STRAIGHT光滑声道谱为Y，其前K列数据作为初始窄带语音字典，且K＝40；

b、设初始窄带语音字典为固定的字典D，利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y，结合OMP(Orthogonal Matching Pursuit，正交匹配追踪)稀疏编码算法求解对应的窄带语音稀疏矩阵X。

其中，为N个训练信号的集合。为Y的解向量集合。T₀为稀疏度，即稀疏表示系数中非零分量个数的上限值，本实施例中，T₀＝15。

OMP稀疏编码算法的实现过程如下：

分别对第i列训练信号y_i求解对应的最优解向量具体过程如表1所示，最后求得窄带语音系数矩阵就可以表示为

表1 OMP稀疏编码算法实现过程(第i列训练信号)

c、根据所得的窄带语音稀疏矩阵X，对固定的字典D进行迭代更新。

设d_k为固定的字典D中待更新的第k列向量，固定的字典D中其他列固定，则

其中，表示Frobenius范数的平方，共有K个列向量每个列向量均为一个原子，为与d_k相对应的窄带语音稀疏矩阵X中的第k行，表示去除d_k后的误差矩阵。

其中，集合Λ_k为的点的索引值，Ω_k为N×|Λ_k|矩阵，它在(Λ_k(i),i)位置上的元素值为1，其余元素值均为0。去掉了Y、E_k中的零输入，得到的即为补偿后的结果。对新的进行SVD(Singular Value Decomposition，奇异值分解)分解，得将U的第一列作为d_k的优化结果，而Δ(1,1)乘以的第一列后作为的解。至此，固定的字典D中的一列更新完毕。将固定的字典D中各列按此方法逐个更新，以便得到了新的字典

而后，判断对固定的字典D进行迭代更新是否终止，通过迭代次数限制判断是否终止，本实施例中，对固定的字典D进行迭代更新的限定迭代次数为20次。若不终止，则返回步骤1)中步骤③的步骤b；若终止，则输出窄带语音字典和窄带语音稀疏矩阵X。

④采用K-SVD算法结合窄带语音稀疏矩阵对宽带语音STRAIGHT光滑声道谱进行训练，得到宽带语音字典D_W，以确保宽带语音字典与窄带语音字典之间的稀疏相关性。

设宽带语音STRAIGHT光滑声道谱Y_W，并结合窄带语音稀疏矩阵X通过矩阵除法求得初始宽带字典

而后，采用步骤1)中步骤③的步骤c对初始宽带字典的更新，且由于不需进行OMP稀疏编码，因此只需进行一次字典更新即可。需要说明的是，按照步骤1)中步骤③的步骤c对初始宽带字典的更新，当得到误差矩阵后，不再对进行SVD分解，而是将窄带语音稀疏矩阵中的第k行赋值给通过矩阵除法求得d_k的优化结果

至此，初始宽带字典中的一列更新完毕。将初始宽带字典中各列按此方法逐个更新，便得到宽带语音字典D_W，并输出。

2)在带宽扩展的接收端，采用语音字典宽带和窄带语音字典，对采样频率为8KHz，带宽为4KHz的源窄带语音信号进行带宽扩展。需要说明的是，采样频率为8KHz，带宽为4KHz的语音信号为模拟人的语音范围。

①将源窄带语音信号进行2倍升采样，以便将源窄带语音信号的采样频率提高到16KHz，但有效带宽依然为4KHz，其2倍升采样包括以下步骤：

a、将源窄带语音信号每两个采样点之间插入一个零值，以便将源窄带语音信号的采样频率提高到16KHz，但与此同时频谱的高频部分会产生低频的镜像。

b、使用一个低通滤波器滤除高频部分，得到最终宽带语音信号的低频分量，以便使得有效带宽不变，且所选用的低通滤波器的选取为步骤1)的步骤①中选用的低通滤波器的参数选择相同，其通带截止频率为4KHz，阻带截止频率为4.3KHz，通带波纹1dB，阻带衰减50dB，幅频响应如图5所示。

②提取经过2倍升采样处理的源窄带语音信号的STRAIGHT光滑声道谱；

③对所得的源窄带语音STRAIGHT光滑声道谱进行字典固定的K-SVD训练，且所用字典为步骤1)的步骤③中得到的窄带语音字典，并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵H_EXT；

④将待扩展的源窄带语音稀疏矩阵H_EXT、宽带语音字典D_W，将H_EXT和D_W带入公式(6)后得到扩展后宽带语音的STRAIGHT光滑声道谱S_EXT：

S_EXT＝D_W·H_EXT (11)

再将扩展后宽带语音的STRAIGHT光滑声道谱S_EXT经过步骤2)中步骤②的短时傅里叶的反变换处理得到扩展后的初始宽带语音信号；

⑤对扩展后的初始宽带语音信号进行高通滤波处理，得到宽带信号的高频分量。

上述进行高通滤波处理的高通滤波器优选为一个FIR高通滤波器，其通带截止频率为4KHz，阻带截止频率为3.7KHz，通带波纹1dB，阻带衰减50dB，幅频响应如图7所示；

⑥将高通滤波后的高频分量与经过低通滤波后的低频分量，即步骤2)的步骤①的步骤中所得的低频分量相叠加，得到扩展出的最终宽带语音信号。

本发明方法通过计算机仿真实验验证其有效性。

实验使用个人笔记本电脑，在Matlab R2009a平台上进行仿真及测试。实验语料采用录制的10个不同人的无噪语音，其中5男5女，均有窄带与宽带两种版本，他们的音调或高或低，有着不同的话音风格特征。实验中对源宽带和窄带语音进行截取，截取后各段长度均在5秒～7秒之间，内容均为“新型广播系统功能完善，能实现智能化，区域化。”，朗读速度适中。各宽带语音数据采样频率均为16KHz，窄带语音数据为8KHz，量化精度为16bit。

分别使用一种客观和主观评测标准对所提出的方法和基于“源—滤波器”模型的带宽扩展方法结果作比较，他们分别是对数谱失真测度(LSD)和平均意见评分(MOS)。在基于“源—滤波器”模型的方法中，分别使用码本映射技术和谱折叠技术来估计宽带谱包络和宽带激励信号。源宽带语音、源窄带语音、本发明方法扩展出的宽带语音以及基于“源—滤波器”模型的方法扩展出的宽带语音，其语音质量评估如表2所示。

表2语音质量评估

由表2可得到如下结论：(1)本发明方法完成了语音的带宽扩展，得到了与基于“源—滤波器”模型的方法质量相近的宽带语音。(2)本发明方法完全脱离了传统方法的框架，不再使用任何语音模型，因而大幅度减少了先验知识的实用。(3)从实际带宽扩展效果来看，提出的方法中K-SVD的迭代次数达到20次左右，仅需花费数十分钟就可以取得较高质量的宽带语音。与传统方法中码本映射和统计映射动辄若干小时的训练时间相比，训练时间得以大幅度减少，实时性增强。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于K-SVD的人工语音带宽扩展方法，其包括以下步骤：

1)在带宽扩展的发送端，对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典和窄带语音稀疏矩阵，其包括以下步骤：

①对源宽带语音信号进行低通滤波处理，得到对应的窄带语音信号；

②提取生成的窄带语音信号和源宽带语音信号各自对应的STRAIGHT光滑声道谱；

③采用K-SVD算法对所得的窄带语音STRAIGHT光滑声道谱进行训练，得到窄带语音字典和窄带语音稀疏矩阵；

④采用K-SVD算法对宽带语音STRAIGHT光滑声道谱进行训练，得到宽带语音字典，且训练过程中所用稀疏矩阵为窄带语音稀疏矩阵，以确保宽带语音字典与窄带语音字典之间的稀疏相关性；

2)在带宽扩展的接收端，采用宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号，其包括以下步骤：

①将源窄带语音信号进行插值和低通滤波处理，以提高源窄带语音信号的采样频率，而有效宽带不变，得到最终宽带语音信号的低频分量；

②提取经过处理的源窄带语音信号的STRAIGHT光滑声道谱；

③采用K-SVD算法对所得的源窄带语音STRAIGHT光滑声道谱进行训练，所用字典为窄带语音字典，并采用OMP稀疏编码算法得到待扩展的源窄带语音稀疏矩阵；

④将待扩展的源窄带语音稀疏矩阵和宽带语音字典相乘，得到扩展后宽带语音的STRAIGHT光滑声道谱，且利用其反推得到扩展后的初始宽带语音信号；

⑤对扩展后的初始宽带语音信号进行高通滤波处理，得到最终宽带语音信号的高频分量；

⑥将宽带语音信号的高频分量与经过低通滤波后的低频分量相叠加，得到扩展出的最终宽带语音信号。

2.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法，其特征在于：所述步骤1)的步骤②中STRAIGHT光滑声道谱的提取过程如下：

a、将语音信号进行小波分解，得到一系列经过Gabor滤波器滤波的复信号D(t,τ_c)：

D (t, τ_{c}) = | τ_{c} |^{- 0.5} {&Integral;}_{Ω_{0}} s (t) {\overset{&OverBar;}{g}}_{A G} (\frac{t - u}{τ_{c}}) d u

其中，t为语音信号上的时间平移变量，且0≤t≤T₀，T₀为语音信号时长；τ_c为g_AG(t)的伸缩因子，表示滤波时对应的滤波通道且0≤τ_c≤t₀，t₀一般取10ms；u代表积分变量，取值范围为积分区间Ω₀，即s(t)为0到t时间段的语音输入信号；g_AG(t)为分析小波，由复合的Gabor滤波器得到，g_AG(t)＝g(t-1/4)-g(t+1/4)，其中η为Gabor滤波器的频率分辨率，根据Gabor滤波器特性取值，通常η>1；

b、把复信号D(t,τ_c)按时间段分为多个重叠的区间段，即把t分为[0,t₀]，[0.5t₀,1.5t₀]，...，[T₀-t₀,T₀]，t₀一般取10ms；若用t_k表示第k个区间段t的变化范围，即[0.5t₀(k-1),0.5t₀(k+1)]，对每个区间段上的D(t,τ_c)计算代价函数M(τ_c)，则第k个区间段的代价函数M_k(τ_c)：

M_{k} (τ_{c}) = - \lg [&Integral; Ω {(\frac{d | D |}{d t})}^{2} d t] + \lg [&Integral; Ω | D |^{2} d t] - \lg [&Integral; Ω {(\frac{d \arg (D)}{d t})}^{2}] d t + 2 {lgτ}_{c} + \lg Ω (τ_{c})

其中，上式中D表示的是第k个区间段的所有复信号D(t,τ_c)，用D_k(t,τ_c)表示，表示AM成分幅值；lg[∫_Ω|D|²dt]表示AM总能量；表示FM成分幅值；2lgτ_c表示FM基频的平方；lgΩ(τ_c)表示时域积分区间的归一化因子，且Ω＝Ω(τ_c)是积分区间，也是τ_c的函数，且其范围为

0.5 t_{0} (k - 1) - τ_{c} (η \sqrt{(10 l n 10) / π} + 0.25) \leq Ω_{0} \leq 0.5 t_{0} (k + 1) + τ_{c} (η \sqrt{(10 l n 10) / π} + 0.25);

c、求代价函数M(τ₀)在每个区间段取最大值时对应的τ_c集合τ_c(t)，若第k个区间段M_k(τ_c)取最大值时对应的τ_c为则所有区间段的对应的所有区间段基频值f₀(t)为

f₀(t)＝ω₀(t)/2π

其中，瞬时频率 Δt＝1/f_s；f_s为语音信号采样频率；

F (ω, t_{k}) = {&Integral;}_{0.5 t_{0} (k - 1)}^{0.5 t_{0} (k + 1)} s (t_{k}) w (t_{k}) e^{- {jωt}_{k}} {dt}_{k}

其中，为窗函数；ω为角频率，ω＝2πf,0≤f≤8Hz；

然后，采用内插函数去除傅里叶短时谱在时频域的周期性，得到语音信号STRAIGHT光滑声道谱S(ω，t)：

S (ω, t) = \sqrt{g^{- 1} (&Integral; {&Integral;}_{D} h_{t} (λ, τ) g (| F (ω - λ, t - λ) |^{2}) d λ d τ)}

3.如权利要求1所述的一种基于K-SVD的人工语音带宽扩展方法，其特征在于：所述步骤1)的步骤③中包括以下步骤：

b、设初始窄带语音字典为固定的字典D，利用固定的字典D和窄带语音STRAIGHT光滑声道谱Y，结合OMP稀疏编码算法求解对应的窄带语音稀疏矩阵X；

\{\begin{matrix} \underset{x_{i}}{m i n} {| | y_{i} - {Dx}_{i} | |_{2}^{2}} \\ \begin{matrix} s . t . & &ForAll; i, | | x_{i} | |_{0} \leq T_{0}, & i = 1, 2, ..., N \end{matrix} \end{matrix}

其中，为N个训练信号的集合；为Y的解向量集合；T₀为稀疏度；

应用OMP稀疏编码算法分别对第i列训练信号y_i求解对应的最优解向量且i＝1,2,…,N，最后求得窄带语音稀疏矩阵就可以表示为OMP稀疏编码算法的实现过程如下：

①初始化：余量r₀＝y_i，索引集V₀＝φ，原子集合Θ₀为空矩阵，迭代次数m＝1；

②在训练样本索引集V₀中选出与余量相关性最大的那一列的列号n_m＝argmax_i＝_1,2,...,_N<r_m-1,d_i>，其中r_m-1为第m-1次迭代的余量，d_i为D的第i列向量；

③更新索引集V_m＝V_m-1∪{n_m}及字典D中原子集合其中V_m和Θ_m分别表示第m次迭代的索引集和原子集合；

④求解最小二乘问题，保证残差最小，获得在已选列向量上的最优投影，更新已选第i列的稀疏系数值为

⑤更新余量

⑥m＝m+1，判断是否满足r_m＜θ，θ为设定的最大残差值，θ＝0.001或者迭代次数m>T₀，如果满足，就停止迭代，输出否则，跳到步骤(2)；

c、根据所得的窄带语音稀疏矩阵X，对固定的字典D进行迭代更新；

| | Y - D X | |_{F}^{2} = | | Y - Σ_{j = 1}^{K} d_{j} x_{j}^{T} | |_{F}^{2} = | | (Y - \underset{j &NotEqual; k}{Σ} d_{j} x_{j}^{T}) - d_{k} x_{k}^{T} | |_{F}^{2} = | | E_{k} - d_{k} x_{k}^{T} | |_{F}^{2}

Λ_{k} = {i | 1 \leq i \leq K, x_{k}^{T} (i) &NotEqual; 0}, x_{k}^{R} = x_{k}^{T} Ω_{k}, Y_{k}^{R} = {YΩ}_{k}, E_{k}^{R} = E_{k} Ω_{k}

其中，集合Λ_k为的点的索引值，Ω_k为N×|Λ_k|矩阵，它在(Λ_k(i),i)位置上的元素值为1，其余元素值均为0；去掉了Y、E_k中的零输入，得到的即为补偿后的结果；对新的进行SVD分解，得将U的第一列作为d_k的优化结果，而Δ(1,1)乘以的第一列后作为的解；至此，固定的字典D中的一列更新完毕；将固定的字典D中各列按此方法逐个更新，以便得到了新的字典

而后，判断对固定的字典D进行迭代更新是否终止，通过迭代次数限制判断是否终止；若不终止，则返回步骤b；若终止，则输出窄带语音字典和窄带语音稀疏矩阵X。

4.一种实现如权利要求1～3所述的基于K-SVD的人工语音带宽扩展方法的装置，其特征在于：它包括训练单元和扩展单元；其中，在宽带扩展的发送端，所述训练单元对源宽带语音信号进行训练，得到宽带语音字典、窄带语音字典，并将宽带语音字典和窄带语音字典传送给位于带宽扩展的接收端的扩展单元；所述扩展单元根据所得的宽带语音字典和窄带语音字典对源窄带语音信号进行带宽扩展，得到扩展出的最终宽带语音信号。

5.如权利要求4所述的一种基于K-SVD的人工语音带宽扩展装置，其特征在于：所述训练单元包括低通滤波模块、基于STRAIGHT模型的参数提取模块、K-SVD训练模块以及稀疏矩阵固定的K-SVD训练模块；其中，所述低通滤波模块的输入端输入源宽带语音信号，将得到的窄带语音信号传送给所述基于STRAIGHT模型的参数提取模块的输入端相连；所述基于STRAIGHT模型的参数提取模块的输入端一方面输入源宽带语音信号，另一方面与低通滤波模块的输出端相连，其输出端分别与所述K-SVD训练模块和所述稀疏矩阵固定的K-SVD训练模块的输入端相连；所述K-SVD训练模块的输入端与所述基于STRAIGHT模型的参数提取模块的输出端相连，其输出端输出窄带语音字典和窄带语音稀疏矩阵；所述稀疏矩阵固定的K-SVD训练模块的输入端一方面输入窄带语音稀疏矩阵，另一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连，其输出端输出宽带语音字典。

6.如权利要求4所述的一种基于K-SVD的人工语音带宽扩展装置，其特征在于：所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块；其中，所述2倍升采样模块的输入端输入源窄带语音信号，其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连；所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连，其输出端与所述字典固定的所述K-SVD训练模块的输入端相连；所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连，另一方面输入训练单元中得到的窄带语音字典，其输出端与所述合成模块的输入端相连；所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连，另一方面输入训练单元中得到的宽带语音字典，其输出端与所述高通滤波模块的输入端相连；所述高通滤波模块的输入端与所述合成模块的输出端相连，其输出端与所述叠加模块的输入端相连；所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连，另一方面与所述2倍升采样模块的输出端相连，其输出端输出最终宽带语音信号。

7.如权利要求5所述的一种基于K-SVD的人工语音带宽扩展装置，其特征在于：所述扩展单元包括2倍升采样模块、基于STRAIGHT模型的参数提取模块、字典固定的K-SVD训练模块、合成模块、高通滤波模块以及叠加模块；其中，所述2倍升采样模块的输入端输入源窄带语音信号，其输出端分别与所述基于STRAIGHT模型的参数提取模块和所述叠加模块的输入端相连；所述基于STRAIGHT模型的参数提取模块的输入端与所述2倍升采样模块的输出端相连，其输出端与所述字典固定的所述K-SVD训练模块的输入端相连；所述字典固定的所述K-SVD训练模块的输入端一方面与所述基于STRAIGHT模型的参数提取模块的输出端相连，另一方面输入训练单元中得到的窄带语音字典，其输出端与所述合成模块的输入端相连；所述合成模块的输入端一方面与所述字典固定的所述K-SVD训练模块的输出端相连，另一方面输入训练单元中得到的宽带语音字典，其输出端与所述高通滤波模块的输入端相连；所述高通滤波模块的输入端与所述合成模块的输出端相连，其输出端与所述叠加模块的输入端相连；所述叠加模块的输入端一方面与所述高通滤波模块的输出端相连，另一方面与所述2倍升采样模块的输出端相连，其输出端输出最终宽带语音信号。

8.如权利要求5或6或7所述的一种基于K-SVD的人工语音带宽扩展装置，其特征在于：所述基于STRAIGHT模型的参数提取模块包括小波分解机构、基本性指数计算机构、基频提取机构以及光滑声道谱提取机构；其中，所述小波分解机构的输入端输入宽带语音信号，其输出端与所述基本性指数计算机构的输入端相连；所述基本性指数计算机构的输入端与所述小波分解机构的输出端相连，其输出端与所述基频提取机构的输入端相连；所述基频提取机构的输入端与所述基本性指数计算机构的输出端相连，其输出端与所述光滑声道谱提取机构的输入端相连；所述光滑声道谱提取机构的输入端与所述基频提取机构的输出端相连，其输出端输出STRAIGHT光滑声道谱。