CN111243608A

CN111243608A - 一种基于深度自编码机低速率语音编码方法

Info

Publication number: CN111243608A
Application number: CN202010055219.7A
Authority: CN
Inventors: 闵刚; 张长青; 解云虹; 谭薇; 周怀军; 吴广恩; 刘向阳
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明提供了一种基于深度自编码机低速率语音编码方法，包括：步骤1，输入原始语音信号s(n)，并对原始语音信号s(n)进行分帧处理，得到每一帧语音信号s_m；步骤2，取分帧处理后的每一帧语音信号s_m的对数幅度谱y_m；步骤3，构建深度神经网络模型，对所构建的深度神经网络模型进行训练；步骤4，将每一帧语音信号的对数幅度谱y_m输入至训练后的深度神经网络模型，得到重建的每帧语音信号

步骤5，对重建的每帧语音信号

进行重叠加操作得到语音编码输出

本发明采用数据驱动的方式从语音信号中自动学习得到可进行量化编码的特征参数，通过对该特征参数进行高效量化从而实现语音信号的数字化和压缩编码。

Description

一种基于深度自编码机低速率语音编码方法

技术领域

本发明属于语音编码中低速率声码器的技术领域，具体涉及一种基于深度自编码机低速率语音编码方法。

背景技术

语音通信是人类相互交流最自然、最便捷的手段。随着移动互联网的快速发展，虽然数据通信业务量已经超越了传统的语音通信业务，但语音通信的基础地位在相当长一段时间内不会改变。语音编码，旨在通过数字信号处理手段对语音信号进行高效压缩以满足有限通信带宽的需要，是语音通信的核心和关键技术之一。随着多年的深入研究，许多成功的语音编码模型相继被提出并制定了一系列语音压缩编码标准，如公共交换电话网中使用的ITU-T G.711标准64kb/s脉冲编码调制(Pulse code modulation,PCM)语音编码方式；GSM数字蜂窝移动通信中使用的GSM-EFR标准12.2kb/s代数码激励线性预测(Algebraic code excited linearprediction,ACELP)编码方式；3G 移动通信中使用的3GPP标准4.75-12.2kb/s自适应多速率(Adaptive multi-rate,AMR)编码方式和3GPP2标准0.8-8.55kb/s增强型变速率语音编码(Enhancedvariable rate codec,EVRC)方式；4G以及下一代移动通信中使用的3GPP标准增强型语音服务(Enhanced voice service,EVS)编码方式以及3GPP2标准可选模式语音编码(Selective mode vocoder,SMV)方式等。为满足民用移动通信快速发展需要，传统语音编码正呈现出变速率、宽带化、面向全IP应用的趋势。然而，编码语音质量与语音编码速率之间始终是一对矛盾，固定编码速率不断提高编码语音质量或保持编码语音质量不断降低编码速率一直以来都是语音编码研究追求的永恒目标。语音编码一个有启发的下限是50b/s，而目前的语音编码速率离此下限还有很大的空间。基于此原始驱动以及各种特殊应用需求，有必要进一步降低语音编码速率。

与民用语音通信不同，军用语音通信面临的通信环境更加恶劣，各种嘈杂的背景噪声大量存在且干扰密集、复杂而又多变。如在军用短波、卫星、水声等特殊通信领域，信道特性复杂多变且干扰较为严重，带宽资源十分有限，4kb/s以上中高速率语音编码算法难以保障正常语音通信，因此进一步降低语音编码速率有着现实而紧迫的需求。但是，传统低速率语音编码模型和方法模拟人类发生机理，受限于声源—滤波器语音编码框架，需要提取基音周期、子带清浊音判决、残差谱等激励信息以及线谱对(Line spectrum pair,LSP)参数等声道信息，编码参数类型多样且难以联合量化，因此进一步降低编码速率十分困难。此外，声源—滤波器框架下语音编码模型对背景噪声十分敏感、鲁棒性较差，主要表现在当存在背景噪声干扰时，激励、声道等语音编码参数的提取和量化过程都会产生较大偏差，并最终导致编码语音质量严重恶化。

因此，以低速率、高质量、噪声鲁棒语音编码研究为目标，创新语音编码模型、降低语音编码速率、提升编码语音质量等课题仍然吸引不少研究人员的关注。

发明内容

针对现有技术中存在的不足，本发明的目的在于，提供一种基于深度自编码机的新型低速率语音编码方法，解决现有技术难以进一步降低编码速率同时保持较高语音编码质量的技术问题。

为了解决上述技术问题，本申请采用如下技术方案予以实现：

一种基于深度自编码机低速率语音编码方法，包括：

步骤1，输入原始语音信号s(n)，并对原始语音信号s(n)进行分帧处理，得到每一帧语音信号s_m；其中，n表示时间下标，0≤n≤L-1， L表示帧长，m表示每一帧语音信号的下标，m＝1,2,...,M，M表示语音总帧数；

步骤2，取分帧处理后的每一帧语音信号s_m的对数幅度谱y_m；

步骤3，构建深度神经网络模型，对所构建的深度神经网络模型进行训练；

步骤4，将每一帧语音信号的对数幅度谱y_m输入至训练后的深度神经网络模型，得到重建的每帧语音信号

步骤5，对重建的每帧语音信号

进行重叠加操作得到语音编码输出

进一步地，通过式(1)对所述原始语音信号s(n)进行分帧处理，得到每一帧语音信号s_m；

s_m(n)＝s_m(mR+n)ω(n) (1)

式(1)中，R表示帧移，ω(n)表示汉明窗。

3、如权利要求1所述的基于深度自编码机低速率语音编码方法，其特征在于，通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱y_m：

y_m＝log(|F{s_m}|) (2)

式(2)中，F{s_m}表示每一帧语音信号s_m的Fourier变换，N表示 Fourier变换的点数；|·|表示复数取模运算。

进一步地，所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层；

所述第一隐藏层和第二隐藏层均包括2048个节点，第三隐藏层和第四隐藏层均包括1024个节点，编码层包括72或54个节点。

进一步地，所述对所构建的深度神经网络模型进行训练，包括：

步骤31，输入训练语音信号s′(n)，并对训练语音信号s′(n)进行分帧处理，得到每一帧训练语音信号s′_m；其中，n表示时间下标， 0≤n≤L-1，L表示帧长，m表示每一帧训练语音信号的下标， m＝1,2,...,M，M为大于等于1的自然数；

步骤32，取分帧处理后的每一帧训练语音信号s′_m的对数幅度谱 y′_m；

步骤33，将每一帧训练语音信号的对数幅度谱y′_m输入至所构建的深度神经网络模型，得到重建的每帧训练语音信号

步骤34，根据每一帧训练语音信号s′_m和重建的每帧训练语音信号

对所构建的深度神经网络模型进行逐层训练，得到训练后的深度神经网络模型。

进一步地，所述将每一帧语音信号的对数幅度谱y_m输入至训练后的深度神经网络模型，得到重建的每帧语音信号

包括：

步骤41，将步骤2得到的每一帧语音信号的对数幅度谱y_m进行归一化处理得到z_m，将z_m作为深度神经网络模型的原始输入z_m；

步骤42，将原始输入z_m输入至深度神经网络模型的输入层，编码层输出特征向量f_m；

步骤43，在特征矢量AbS VQ码本F中选取K个码字

作为次最优码本，j＝1,2,...,K；

步骤44，在次最优码本中任选一个码字作为编码层的当前量化值，特征向量f_m通过该当前量化值进行量化，深度神经网络模型的输出层输出

计算y_m与

的均方误差；

步骤45，重复步骤44，直至次最优码本中的每一个码字均被作为当前量化值，得到K个y_m与

的均方误差，选取y_m与

的均方误差最小时所对应的码字作为编码层的量化值，此时深度神经网络模型输出层的输出

作为最终输出

步骤46，对最终输出

进行去归一化操作得到重建的每帧语音信号

进一步地，所述步骤43，在特征矢量AbS VQ码本F中选取K 个码字

作为次最优码本，包括：

所述码字

满足式(3)：

式(3)中，

为特征矢量AbS VQ码本F中的任一码字， i＝1,2,...,J,J为特征矢量AbS VQ码本F中码字的个数，K＜＜J。

本发明与现有技术相比，有益的技术效果是：

1、本发明提出一种Deep Vocoder语音编码模型，该模型属于“数据驱动”的端到端语音编码范畴，不需要提取基音周期、线谱对等“人工设计”的语音编码参数，完全采用数据驱动的方式从语音信号中自动学习得到可进行量化编码的特征参数，通过对该特征参数进行高效量化从而实现语音信号的数字化和压缩编码；

2、本发明所构建的用于语音编码的深度神经网络模型，具有上下对称，可用于学习信号特征和进行输入信号降维等优点。

附图说明

图1为本发明方法的流程示意图；

图2为本发明利用深度神经网络进行语音编码的流程示意图；

图3为编码语音时域波形对比示意图；其中(a)为原始语音； (b)为2400bit/s语音编码；(c)为1200bit/s语音编码；(d)为600 bit/s语音编码；

图4为不同速率语音编码重构语谱图对比；其中(a)为原始语音；(b)为2400bit/s语音编码；(c)为1200bit/s语音编码；(d) 为600bit/s语音编码。

以下结合附图和实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例：

本实施例给出一种基于深度自编码机低速率语音编码方法，如图 1，包括：

步骤1，输入原始语音信号s(n)，并对原始语音信号s(n)进行分帧处理，得到每一帧语音信号s_m；其中，n表示时间下标，0≤n≤L-1， L表示帧长，m表示每一帧语音信号的下标，m＝1,2,...,M，M表示语音的总帧数；

其中，通过式(1)对所述原始语音信号s(n)进行分帧处理，得到每一帧语音信号s_m；

s_m(n)＝s_m(mR+n)ω(n) (1)

式(1)中，R表示帧移，ω(n)表示汉明窗。

本实施例中每一帧语音信号的长度为20～30ms，每一帧语音信号 s_m可以表示为：s_m＝[s_m(0),s_m(1),...,s_m(L-1)]^T；

步骤2，取分帧处理后的每一帧语音信号s_m的对数幅度谱y_m；通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱y_m：

y_m＝log(|F{s_m}|) (2)

式(2)中，F{s_m}表示每一帧语音信号s_m的Fourier变换，N表示 Fourier变换的点数，根据实际可取256、512或1024等；|·|表示复数取模运算。

本实施例使用256点汉明窗对语音信号进行分帧，帧移为180个样点。每帧语音计算256点FFT并取模后得到其对数幅度谱。为了缩小数据的动态范围并考虑人耳对幅值大小的感知呈对数特性，对幅度谱取对数并计算得到129点对数幅度谱。

本实施例考虑到实信号Fourier变换后取值的对称性，y_m的后样点会被丢弃。

所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层；

本实施例中的深度神经网络模型为9个RBM堆叠外加输入、输出层构成的11层DBN结构，其中输入层和输出层节点个数为 129×T，其中T表示进行联合编码的语音帧数，根据编码速率可取2 或3；

对所构建的深度神经网络模型进行训练，如图2，包括：

步骤31，输入训练语音信号s′(n)，并对训练语音信号s′(n)进行分帧处理，得到每一帧训练语音信号s′_m；其中，n表示时间下标， 0≤n≤L-1，L表示帧长，m表示每一帧训练语音信号的下标， m＝1,2,...,M，M表示语音的总帧数；

步骤32，取分帧处理后的每一帧训练语音信号s′_m的对数幅度谱y′_m；

本发明采用CD算法逐层训练结构为129×T–2048，2048–2048， 2048–1024，1024–1024和1024–72/54五个RBM之后，通过堆叠构成初始的DAE，再进行网络权值的反馈微调得到最终DAE。

如图2，包括：

步骤43，在特征矢量AbS VQ码本F中选取K个码字

作为次最优码本，j＝1,2,...,K，其中码本F采用经典的LBG算法通过对大量语音提出的相应特征参数训练得到。

计算y_m与

的均方误差；

的均方误差，选取y_m与

作为最终输出

步骤46，对最终输出

进行去归一化操作得到重建的每帧语音信号

步骤5，对重建的每帧语音信号

进行重叠加操作得到语音编码输出

实验验证与分析：

应用TIMIT语音库进行Deep Vocoder声码器算法的实验评估。在训练阶段，TIMIT完整的训练集(462个说话人所讲的4620条语句，共计约4小时)通过提取归一化对数幅度谱后用于训练DAE。在测试阶段，TIMIT完整的测试集(168个说话人所讲的1680条语句，共计约1.5小时)用于进行测试。所有的训练语音和编码语音均被下采样至8kHz，采用汉明窗对语音信号进行分帧，每帧的长度为 256个样点，因此每帧语音输入的对数幅度谱矢量的维度为129，即 N/2+1＝129。

对语音质量进行评估时，采用广泛使用的频域分段加权信噪比 (Frequencyweighted segmental signal noise ratios,fwsegSNRs)，感知语音质量评估(Perceptual evaluation ofspeech quality,PESQ)和短时目标可懂度评估(Short-timeobjective intelligibility,STOI)三种准则评估编码语音质量。fwsegSNRs和PESQ用于评估语音的整体质量， STOI用于评估语音的可懂度。

本实施例分别采用SQ,VQ和AbS VQ三种方式对DAE编码层神经元输出进行量化，对应编码语音质量的客观评估结果如所示。其中，采用SQ方案量化时最低可达到的语音编码速率为2400bit/s，即编码层每个神经元输出都至少量化成1个比特，因此无法实现1200bit/s 语音编码。采用次最优码本搜索的AbS VQ方案量化DAE编码层特征矢量时，编码速率为2400bit/s时每级码本保留4个最优码字；编码速率为1200bit/s时每级码本保留16个最优码字，这样可在编码语音质量和算法复杂度之间取得较好的均衡。

表1基于DAE的语音编码方案fwsegSNRs对比(dB)

表2基于DAE的语音编码方案STOI对比

表3基于DAE的语音编码方案PESQ得分对比

从表1—表3可以看出，采用AbS VQ方案量化编码层特征矢量的语音编码效果始终优于采用传统SQ和VQ方案进行语音编码的效果，fwsegSNRs,PESQ和STOI得分均有明显提高。特别地，在1200bit/s 编码速率条件下最终的编码语音质量提高十分明显，平均fwsegSNRs,PESQ和STOI得分分别提高了1.dB,0.3和6.4％。实验结果充分说明了AbS VQ方案的优越性。尽管AbS VQ方案的算法复杂度有所增加，但次最优码本搜索方式可在编码语音质量和算法运算量之间提供较好的均衡。

针对基于深度神经网络的600bit/s低速率语音编码而言，采用同样的评估数据和评价准则，相应结果如表4所示；

表4基于DAE的600bit/s语音编码性能评估结果

图3和图4给出了TIMIT语音库中一段典型女声语音“Don’t ask me to carry anoily rag like that”的原始语音和重构语音的时域波形和语谱图对比。可以看出无论是低速率600bit/s语音编码还是速率相对较高的2400bit/s语音编码，重构语音信号的时域波形均得到较好地保持，包络起伏变化与原始语音信号一致；语音编码重构语谱图的时频结构也保留较为完整，尤其是对编码语音可懂度、清晰度等贡献最大的低频谐波结构和共振峰均很好地得到保持，在语谱图上均清晰可见。非正式主观听力测试表明，在2400bit/s、1200bit/s和600bit/s 三种编码速率条件下，编码语音均具有较高的可懂度和清晰度。