CN111243608A - 一种基于深度自编码机低速率语音编码方法 - Google Patents
一种基于深度自编码机低速率语音编码方法 Download PDFInfo
- Publication number
- CN111243608A CN111243608A CN202010055219.7A CN202010055219A CN111243608A CN 111243608 A CN111243608 A CN 111243608A CN 202010055219 A CN202010055219 A CN 202010055219A CN 111243608 A CN111243608 A CN 111243608A
- Authority
- CN
- China
- Prior art keywords
- frame
- neural network
- deep neural
- coding
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Abstract
Description
技术领域
本发明属于语音编码中低速率声码器的技术领域,具体涉及一种 基于深度自编码机低速率语音编码方法。
背景技术
语音通信是人类相互交流最自然、最便捷的手段。随着移动互联 网的快速发展,虽然数据通信业务量已经超越了传统的语音通信业 务,但语音通信的基础地位在相当长一段时间内不会改变。语音编码, 旨在通过数字信号处理手段对语音信号进行高效压缩以满足有限通 信带宽的需要,是语音通信的核心和关键技术之一。随着多年的深入 研究,许多成功的语音编码模型相继被提出并制定了一系列语音压缩 编码标准,如公共交换电话网中使用的ITU-T G.711标准64kb/s脉 冲编码调制(Pulse code modulation,PCM)语音编码方式;GSM数 字蜂窝移动通信中使用的GSM-EFR标准12.2kb/s代数码激励线性 预测(Algebraic code excited linearprediction,ACELP)编码方式;3G 移动通信中使用的3GPP标准4.75-12.2kb/s自适应多速率(Adaptive multi-rate,AMR)编码方式和3GPP2标准0.8-8.55kb/s增强型变速率 语音编码(Enhancedvariable rate codec,EVRC)方式;4G以及下一 代移动通信中使用的3GPP标准增强型语音服务(Enhanced voice service,EVS)编码方式以及3GPP2标准可选模式语音编码(Selective mode vocoder,SMV)方式等。为满足民用移动通信快速发展需要, 传统语音编码正呈现出变速率、宽带化、面向全IP应用的趋势。然 而,编码语音质量与语音编码速率之间始终是一对矛盾,固定编码速 率不断提高编码语音质量或保持编码语音质量不断降低编码速率一 直以来都是语音编码研究追求的永恒目标。语音编码一个有启发的下 限是50b/s,而目前的语音编码速率离此下限还有很大的空间。基于 此原始驱动以及各种特殊应用需求,有必要进一步降低语音编码速 率。
与民用语音通信不同,军用语音通信面临的通信环境更加恶劣, 各种嘈杂的背景噪声大量存在且干扰密集、复杂而又多变。如在军用 短波、卫星、水声等特殊通信领域,信道特性复杂多变且干扰较为严 重,带宽资源十分有限,4kb/s以上中高速率语音编码算法难以保障 正常语音通信,因此进一步降低语音编码速率有着现实而紧迫的需 求。但是,传统低速率语音编码模型和方法模拟人类发生机理,受限 于声源—滤波器语音编码框架,需要提取基音周期、子带清浊音判决、 残差谱等激励信息以及线谱对(Line spectrum pair,LSP)参数等声道 信息,编码参数类型多样且难以联合量化,因此进一步降低编码速率 十分困难。此外,声源—滤波器框架下语音编码模型对背景噪声十分 敏感、鲁棒性较差,主要表现在当存在背景噪声干扰时,激励、声道 等语音编码参数的提取和量化过程都会产生较大偏差,并最终导致编 码语音质量严重恶化。
因此,以低速率、高质量、噪声鲁棒语音编码研究为目标,创新 语音编码模型、降低语音编码速率、提升编码语音质量等课题仍然吸 引不少研究人员的关注。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种基于 深度自编码机的新型低速率语音编码方法,解决现有技术难以进一步 降低编码速率同时保持较高语音编码质量的技术问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种基于深度自编码机低速率语音编码方法,包括:
步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧 处理,得到每一帧语音信号sm;其中,n表示时间下标,0≤n≤L-1, L表示帧长,m表示每一帧语音信号的下标,m=1,2,...,M,M表示语 音总帧数;
步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym;
步骤3,构建深度神经网络模型,对所构建的深度神经网络模型 进行训练;
进一步地,通过式(1)对所述原始语音信号s(n)进行分帧处理, 得到每一帧语音信号sm;
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
3、如权利要求1所述的基于深度自编码机低速率语音编码方法, 其特征在于,通过式(2)取分帧处理后的每一帧语音信号的对数幅 度谱ym:
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示 Fourier变换的点数;|·|表示复数取模运算。
进一步地,所述深度神经网络模型从输入至输出依次包括输入层、 第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出 层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层 和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
进一步地,所述对所构建的深度神经网络模型进行训练,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分 帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标, 0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标, m=1,2,...,M,M为大于等于1的自然数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱 y′m;
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行 归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm;
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编 码层输出特征向量fm;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作 为当前量化值,得到K个ym与的均方误差,选取ym与的均方误 差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型 输出层的输出作为最终输出
本发明与现有技术相比,有益的技术效果是:
1、本发明提出一种Deep Vocoder语音编码模型,该模型属于“数 据驱动”的端到端语音编码范畴,不需要提取基音周期、线谱对等“人 工设计”的语音编码参数,完全采用数据驱动的方式从语音信号中自 动学习得到可进行量化编码的特征参数,通过对该特征参数进行高效 量化从而实现语音信号的数字化和压缩编码;
2、本发明所构建的用于语音编码的深度神经网络模型,具有上 下对称,可用于学习信号特征和进行输入信号降维等优点。
附图说明
图1为本发明方法的流程示意图;
图2为本发明利用深度神经网络进行语音编码的流程示意图;
图3为编码语音时域波形对比示意图;其中(a)为原始语音; (b)为2400bit/s语音编码;(c)为1200bit/s语音编码;(d)为600 bit/s语音编码;
图4为不同速率语音编码重构语谱图对比;其中(a)为原始语 音;(b)为2400bit/s语音编码;(c)为1200bit/s语音编码;(d) 为600bit/s语音编码。
以下结合附图和实施例对本发明的具体内容作进一步详细解释 说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于 以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本 发明的保护范围。
实施例:
本实施例给出一种基于深度自编码机低速率语音编码方法,如图 1,包括:
步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧 处理,得到每一帧语音信号sm;其中,n表示时间下标,0≤n≤L-1, L表示帧长,m表示每一帧语音信号的下标,m=1,2,...,M,M表示语 音的总帧数;
其中,通过式(1)对所述原始语音信号s(n)进行分帧处理,得 到每一帧语音信号sm;
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
本实施例中每一帧语音信号的长度为20~30ms,每一帧语音信号 sm可以表示为:sm=[sm(0),sm(1),...,sm(L-1)]T;
步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym; 通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱ym:
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示 Fourier变换的点数,根据实际可取256、512或1024等;|·|表示复 数取模运算。
本实施例使用256点汉明窗对语音信号进行分帧,帧移为180个 样点。每帧语音计算256点FFT并取模后得到其对数幅度谱。为了 缩小数据的动态范围并考虑人耳对幅值大小的感知呈对数特性,对幅 度谱取对数并计算得到129点对数幅度谱。
本实施例考虑到实信号Fourier变换后取值的对称性,ym的后样 点会被丢弃。
步骤3,构建深度神经网络模型,对所构建的深度神经网络模型 进行训练;
所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、 第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层 和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
本实施例中的深度神经网络模型为9个RBM堆叠外加输入、输 出层构成的11层DBN结构,其中输入层和输出层节点个数为 129×T,其中T表示进行联合编码的语音帧数,根据编码速率可取2 或3;
对所构建的深度神经网络模型进行训练,如图2,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分 帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标, 0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标, m=1,2,...,M,M表示语音的总帧数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱y′m;
本发明采用CD算法逐层训练结构为129×T–2048,2048–2048, 2048–1024,1024–1024和1024–72/54五个RBM之后,通过堆叠构 成初始的DAE,再进行网络权值的反馈微调得到最终DAE。
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行 归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm;
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编 码层输出特征向量fm;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作 为当前量化值,得到K个ym与的均方误差,选取ym与的均方误 差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型 输出层的输出作为最终输出
实验验证与分析:
应用TIMIT语音库进行Deep Vocoder声码器算法的实验评估。 在训练阶段,TIMIT完整的训练集(462个说话人所讲的4620条语 句,共计约4小时)通过提取归一化对数幅度谱后用于训练DAE。 在测试阶段,TIMIT完整的测试集(168个说话人所讲的1680条语 句,共计约1.5小时)用于进行测试。所有的训练语音和编码语音均 被下采样至8kHz,采用汉明窗对语音信号进行分帧,每帧的长度为 256个样点,因此每帧语音输入的对数幅度谱矢量的维度为129,即 N/2+1=129。
对语音质量进行评估时,采用广泛使用的频域分段加权信噪比 (Frequencyweighted segmental signal noise ratios,fwsegSNRs),感知 语音质量评估(Perceptual evaluation ofspeech quality,PESQ)和短时 目标可懂度评估(Short-timeobjective intelligibility,STOI)三种准则 评估编码语音质量。fwsegSNRs和PESQ用于评估语音的整体质量, STOI用于评估语音的可懂度。
本实施例分别采用SQ,VQ和AbS VQ三种方式对DAE编码层神 经元输出进行量化,对应编码语音质量的客观评估结果如所示。其中, 采用SQ方案量化时最低可达到的语音编码速率为2400bit/s,即编码 层每个神经元输出都至少量化成1个比特,因此无法实现1200bit/s 语音编码。采用次最优码本搜索的AbS VQ方案量化DAE编码层特 征矢量时,编码速率为2400bit/s时每级码本保留4个最优码字;编 码速率为1200bit/s时每级码本保留16个最优码字,这样可在编码语 音质量和算法复杂度之间取得较好的均衡。
表1基于DAE的语音编码方案fwsegSNRs对比(dB)
表2基于DAE的语音编码方案STOI对比
表3基于DAE的语音编码方案PESQ得分对比
从表1—表3可以看出,采用AbS VQ方案量化编码层特征矢量 的语音编码效果始终优于采用传统SQ和VQ方案进行语音编码的效 果,fwsegSNRs,PESQ和STOI得分均有明显提高。特别地,在1200bit/s 编码速率条件下最终的编码语音质量提高十分明显,平均fwsegSNRs,PESQ和STOI得分分别提高了1.dB,0.3和6.4%。实验结 果充分说明了AbS VQ方案的优越性。尽管AbS VQ方案的算法复杂 度有所增加,但次最优码本搜索方式可在编码语音质量和算法运算量 之间提供较好的均衡。
针对基于深度神经网络的600bit/s低速率语音编码而言,采用同 样的评估数据和评价准则,相应结果如表4所示;
表4基于DAE的600bit/s语音编码性能评估结果
图3和图4给出了TIMIT语音库中一段典型女声语音“Don’t ask me to carry anoily rag like that”的原始语音和重构语音的时域波形和 语谱图对比。可以看出无论是低速率600bit/s语音编码还是速率相对 较高的2400bit/s语音编码,重构语音信号的时域波形均得到较好地 保持,包络起伏变化与原始语音信号一致;语音编码重构语谱图的时频结构也保留较为完整,尤其是对编码语音可懂度、清晰度等贡献最 大的低频谐波结构和共振峰均很好地得到保持,在语谱图上均清晰可 见。非正式主观听力测试表明,在2400bit/s、1200bit/s和600bit/s 三种编码速率条件下,编码语音均具有较高的可懂度和清晰度。
Claims (7)
2.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,通过式(1)对所述原始语音信号s(n)进行分帧处理,得到每一帧语音信号sm;
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
3.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱ym:
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示Fourier变换的点数;|·|表示复数取模运算。
4.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
5.如权利要求4所述的基于深度自编码机低速率语音编码方法,其特征在于,所述对所构建的深度神经网络模型进行训练,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标,0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标,m=1,2,...,M,M为大于等于1的自然数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱y′m;
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm;
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编码层输出特征向量fm;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作为当前量化值,得到K个ym与的均方误差,选取ym与的均方误差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型输出层的输出作为最终输出
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055219.7A CN111243608A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度自编码机低速率语音编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055219.7A CN111243608A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度自编码机低速率语音编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243608A true CN111243608A (zh) | 2020-06-05 |
Family
ID=70868244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010055219.7A Pending CN111243608A (zh) | 2020-01-17 | 2020-01-17 | 一种基于深度自编码机低速率语音编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243608A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022213787A1 (zh) * | 2021-04-09 | 2022-10-13 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1371512A (zh) * | 1998-12-01 | 2002-09-25 | 加利福尼亚大学董事会 | 增强型波形内插编码器 |
CN1920950A (zh) * | 2006-09-25 | 2007-02-28 | 北京理工大学 | 一种基于Haar小波提升的特征波形分解与重构方法 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
-
2020
- 2020-01-17 CN CN202010055219.7A patent/CN111243608A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1371512A (zh) * | 1998-12-01 | 2002-09-25 | 加利福尼亚大学董事会 | 增强型波形内插编码器 |
CN1920950A (zh) * | 2006-09-25 | 2007-02-28 | 北京理工大学 | 一种基于Haar小波提升的特征波形分解与重构方法 |
CN110491400A (zh) * | 2019-08-21 | 2019-11-22 | 杭州派尼澳电子科技有限公司 | 一种基于深度自编码器的语音信号重建方法 |
Non-Patent Citations (1)
Title |
---|
宋知用: "MATLAB语音信号分析与合成 第2版", 北京航空航天大学出版社, pages: 458 - 16 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022213787A1 (zh) * | 2021-04-09 | 2022-10-13 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018217299B2 (en) | Improving classification between time-domain coding and frequency domain coding | |
TW497335B (en) | Method and apparatus for variable rate coding of speech | |
EP3301674B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
Skoglund et al. | Improving Opus low bit rate quality with neural speech synthesis | |
CN111508470B (zh) | 一种语音合成模型的训练方法及装置 | |
US9972325B2 (en) | System and method for mixed codebook excitation for speech coding | |
CN101676993A (zh) | 用于人工扩展语音信号的带宽的方法和装置 | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding | |
Chamberlain | A 600 bps MELP vocoder for use on HF channels | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
KR100656788B1 (ko) | 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더 | |
EP2951824B1 (en) | Adaptive high-pass post-filter | |
CN104517612A (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
Ribeiro et al. | Phonetic vocoding with speaker adaptation. | |
Ahmadi et al. | Analysis-by-synthesis method for whisper-speech reconstruction | |
CN111243608A (zh) | 一种基于深度自编码机低速率语音编码方法 | |
Qian et al. | Wideband speech recovery from narrowband speech using classified codebook mapping | |
Ding et al. | A Hybrid Structure Speech coding scheme based on MELPe and LPCNet | |
Ali et al. | Low bit-rate speech codec based on a long-term harmonic plus noise model | |
Anselam et al. | QUALITY EVALUATION OF LPC BASED LOW BIT RATE SPEECH CODERS | |
Lopukhova et al. | A Codec Simulation for Low-rate Speech Coding with Radial Neural Networks | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 | |
KR100309873B1 (ko) | 코드여기선형예측부호화기에서무성음검출에의한부호화방법 | |
Yen et al. | An improved oscillator method for modeling structured speech | |
Kritzinger | Low bit rate speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |