CN111243608A - 一种基于深度自编码机低速率语音编码方法 - Google Patents

一种基于深度自编码机低速率语音编码方法 Download PDF

Info

Publication number
CN111243608A
CN111243608A CN202010055219.7A CN202010055219A CN111243608A CN 111243608 A CN111243608 A CN 111243608A CN 202010055219 A CN202010055219 A CN 202010055219A CN 111243608 A CN111243608 A CN 111243608A
Authority
CN
China
Prior art keywords
frame
neural network
deep neural
coding
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010055219.7A
Other languages
English (en)
Inventor
闵刚
张长青
解云虹
谭薇
周怀军
吴广恩
刘向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010055219.7A priority Critical patent/CN111243608A/zh
Publication of CN111243608A publication Critical patent/CN111243608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Abstract

本发明提供了一种基于深度自编码机低速率语音编码方法,包括:步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧处理,得到每一帧语音信号sm;步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym;步骤3,构建深度神经网络模型,对所构建的深度神经网络模型进行训练;步骤4,将每一帧语音信号的对数幅度谱ym输入至训练后的深度神经网络模型,得到重建的每帧语音信号
Figure DDA0002372569080000011
步骤5,对重建的每帧语音信号
Figure DDA0002372569080000012
进行重叠加操作得到语音编码输出
Figure DDA0002372569080000013
本发明采用数据驱动的方式从语音信号中自动学习得到可进行量化编码的特征参数,通过对该特征参数进行高效量化从而实现语音信号的数字化和压缩编码。

Description

一种基于深度自编码机低速率语音编码方法
技术领域
本发明属于语音编码中低速率声码器的技术领域,具体涉及一种 基于深度自编码机低速率语音编码方法。
背景技术
语音通信是人类相互交流最自然、最便捷的手段。随着移动互联 网的快速发展,虽然数据通信业务量已经超越了传统的语音通信业 务,但语音通信的基础地位在相当长一段时间内不会改变。语音编码, 旨在通过数字信号处理手段对语音信号进行高效压缩以满足有限通 信带宽的需要,是语音通信的核心和关键技术之一。随着多年的深入 研究,许多成功的语音编码模型相继被提出并制定了一系列语音压缩 编码标准,如公共交换电话网中使用的ITU-T G.711标准64kb/s脉 冲编码调制(Pulse code modulation,PCM)语音编码方式;GSM数 字蜂窝移动通信中使用的GSM-EFR标准12.2kb/s代数码激励线性 预测(Algebraic code excited linearprediction,ACELP)编码方式;3G 移动通信中使用的3GPP标准4.75-12.2kb/s自适应多速率(Adaptive multi-rate,AMR)编码方式和3GPP2标准0.8-8.55kb/s增强型变速率 语音编码(Enhancedvariable rate codec,EVRC)方式;4G以及下一 代移动通信中使用的3GPP标准增强型语音服务(Enhanced voice service,EVS)编码方式以及3GPP2标准可选模式语音编码(Selective mode vocoder,SMV)方式等。为满足民用移动通信快速发展需要, 传统语音编码正呈现出变速率、宽带化、面向全IP应用的趋势。然 而,编码语音质量与语音编码速率之间始终是一对矛盾,固定编码速 率不断提高编码语音质量或保持编码语音质量不断降低编码速率一 直以来都是语音编码研究追求的永恒目标。语音编码一个有启发的下 限是50b/s,而目前的语音编码速率离此下限还有很大的空间。基于 此原始驱动以及各种特殊应用需求,有必要进一步降低语音编码速 率。
与民用语音通信不同,军用语音通信面临的通信环境更加恶劣, 各种嘈杂的背景噪声大量存在且干扰密集、复杂而又多变。如在军用 短波、卫星、水声等特殊通信领域,信道特性复杂多变且干扰较为严 重,带宽资源十分有限,4kb/s以上中高速率语音编码算法难以保障 正常语音通信,因此进一步降低语音编码速率有着现实而紧迫的需 求。但是,传统低速率语音编码模型和方法模拟人类发生机理,受限 于声源—滤波器语音编码框架,需要提取基音周期、子带清浊音判决、 残差谱等激励信息以及线谱对(Line spectrum pair,LSP)参数等声道 信息,编码参数类型多样且难以联合量化,因此进一步降低编码速率 十分困难。此外,声源—滤波器框架下语音编码模型对背景噪声十分 敏感、鲁棒性较差,主要表现在当存在背景噪声干扰时,激励、声道 等语音编码参数的提取和量化过程都会产生较大偏差,并最终导致编 码语音质量严重恶化。
因此,以低速率、高质量、噪声鲁棒语音编码研究为目标,创新 语音编码模型、降低语音编码速率、提升编码语音质量等课题仍然吸 引不少研究人员的关注。
发明内容
针对现有技术中存在的不足,本发明的目的在于,提供一种基于 深度自编码机的新型低速率语音编码方法,解决现有技术难以进一步 降低编码速率同时保持较高语音编码质量的技术问题。
为了解决上述技术问题,本申请采用如下技术方案予以实现:
一种基于深度自编码机低速率语音编码方法,包括:
步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧 处理,得到每一帧语音信号sm;其中,n表示时间下标,0≤n≤L-1, L表示帧长,m表示每一帧语音信号的下标,m=1,2,...,M,M表示语 音总帧数;
步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym
步骤3,构建深度神经网络模型,对所构建的深度神经网络模型 进行训练;
步骤4,将每一帧语音信号的对数幅度谱ym输入至训练后的深度 神经网络模型,得到重建的每帧语音信号
Figure BDA0002372569060000031
步骤5,对重建的每帧语音信号
Figure BDA0002372569060000032
进行重叠加操作得到语音编码 输出
Figure BDA0002372569060000033
进一步地,通过式(1)对所述原始语音信号s(n)进行分帧处理, 得到每一帧语音信号sm
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
3、如权利要求1所述的基于深度自编码机低速率语音编码方法, 其特征在于,通过式(2)取分帧处理后的每一帧语音信号的对数幅 度谱ym
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示 Fourier变换的点数;|·|表示复数取模运算。
进一步地,所述深度神经网络模型从输入至输出依次包括输入层、 第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出 层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层 和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
进一步地,所述对所构建的深度神经网络模型进行训练,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分 帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标, 0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标, m=1,2,...,M,M为大于等于1的自然数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱 y′m
步骤33,将每一帧训练语音信号的对数幅度谱y′m输入至所构建 的深度神经网络模型,得到重建的每帧训练语音信号
Figure BDA0002372569060000041
步骤34,根据每一帧训练语音信号s′m和重建的每帧训练语音信 号
Figure BDA0002372569060000042
对所构建的深度神经网络模型进行逐层训练,得到训练后的深 度神经网络模型。
进一步地,所述将每一帧语音信号的对数幅度谱ym输入至训练后 的深度神经网络模型,得到重建的每帧语音信号
Figure BDA0002372569060000051
包括:
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行 归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编 码层输出特征向量fm
步骤43,在特征矢量AbS VQ码本F中选取K个码字
Figure BDA00023725690600000513
作为次 最优码本,j=1,2,...,K;
步骤44,在次最优码本中任选一个码字作为编码层的当前量化 值,特征向量fm通过该当前量化值进行量化,深度神经网络模型的输 出层输出
Figure BDA0002372569060000052
计算ym
Figure BDA0002372569060000053
的均方误差;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作 为当前量化值,得到K个ym
Figure BDA0002372569060000054
的均方误差,选取ym
Figure BDA0002372569060000055
的均方误 差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型 输出层的输出
Figure BDA0002372569060000056
作为最终输出
Figure BDA0002372569060000057
步骤46,对最终输出
Figure BDA0002372569060000058
进行去归一化操作得到重建的每帧语音 信号
Figure BDA0002372569060000059
进一步地,所述步骤43,在特征矢量AbS VQ码本F中选取K 个码字
Figure BDA00023725690600000510
作为次最优码本,包括:
所述码字
Figure BDA00023725690600000511
满足式(3):
Figure RE-GDA00024327837100000513
式(3)中,
Figure RE-GDA0002432783710000061
为特征矢量AbS VQ码本F中的任一码字, i=1,2,...,J,J为特征矢量AbS VQ码本F中码字的个数,K<<J。
本发明与现有技术相比,有益的技术效果是:
1、本发明提出一种Deep Vocoder语音编码模型,该模型属于“数 据驱动”的端到端语音编码范畴,不需要提取基音周期、线谱对等“人 工设计”的语音编码参数,完全采用数据驱动的方式从语音信号中自 动学习得到可进行量化编码的特征参数,通过对该特征参数进行高效 量化从而实现语音信号的数字化和压缩编码;
2、本发明所构建的用于语音编码的深度神经网络模型,具有上 下对称,可用于学习信号特征和进行输入信号降维等优点。
附图说明
图1为本发明方法的流程示意图;
图2为本发明利用深度神经网络进行语音编码的流程示意图;
图3为编码语音时域波形对比示意图;其中(a)为原始语音; (b)为2400bit/s语音编码;(c)为1200bit/s语音编码;(d)为600 bit/s语音编码;
图4为不同速率语音编码重构语谱图对比;其中(a)为原始语 音;(b)为2400bit/s语音编码;(c)为1200bit/s语音编码;(d) 为600bit/s语音编码。
以下结合附图和实施例对本发明的具体内容作进一步详细解释 说明。
具体实施方式
以下给出本发明的具体实施例,需要说明的是本发明并不局限于 以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本 发明的保护范围。
实施例:
本实施例给出一种基于深度自编码机低速率语音编码方法,如图 1,包括:
步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧 处理,得到每一帧语音信号sm;其中,n表示时间下标,0≤n≤L-1, L表示帧长,m表示每一帧语音信号的下标,m=1,2,...,M,M表示语 音的总帧数;
其中,通过式(1)对所述原始语音信号s(n)进行分帧处理,得 到每一帧语音信号sm
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
本实施例中每一帧语音信号的长度为20~30ms,每一帧语音信号 sm可以表示为:sm=[sm(0),sm(1),...,sm(L-1)]T
步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym; 通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱ym
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示 Fourier变换的点数,根据实际可取256、512或1024等;|·|表示复 数取模运算。
本实施例使用256点汉明窗对语音信号进行分帧,帧移为180个 样点。每帧语音计算256点FFT并取模后得到其对数幅度谱。为了 缩小数据的动态范围并考虑人耳对幅值大小的感知呈对数特性,对幅 度谱取对数并计算得到129点对数幅度谱。
本实施例考虑到实信号Fourier变换后取值的对称性,ym的后样 点会被丢弃。
步骤3,构建深度神经网络模型,对所构建的深度神经网络模型 进行训练;
所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、 第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层 和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
本实施例中的深度神经网络模型为9个RBM堆叠外加输入、输 出层构成的11层DBN结构,其中输入层和输出层节点个数为 129×T,其中T表示进行联合编码的语音帧数,根据编码速率可取2 或3;
对所构建的深度神经网络模型进行训练,如图2,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分 帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标, 0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标, m=1,2,...,M,M表示语音的总帧数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱y′m
步骤33,将每一帧训练语音信号的对数幅度谱y′m输入至所构建 的深度神经网络模型,得到重建的每帧训练语音信号
Figure BDA0002372569060000091
步骤34,根据每一帧训练语音信号s′m和重建的每帧训练语音信 号
Figure BDA0002372569060000092
对所构建的深度神经网络模型进行逐层训练,得到训练后的深 度神经网络模型。
本发明采用CD算法逐层训练结构为129×T–2048,2048–2048, 2048–1024,1024–1024和1024–72/54五个RBM之后,通过堆叠构 成初始的DAE,再进行网络权值的反馈微调得到最终DAE。
步骤4,将每一帧语音信号的对数幅度谱ym输入至训练后的深度 神经网络模型,得到重建的每帧语音信号
Figure BDA0002372569060000093
如图2,包括:
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行 归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编 码层输出特征向量fm
步骤43,在特征矢量AbS VQ码本F中选取K个码字
Figure BDA0002372569060000094
作为次 最优码本,j=1,2,...,K,其中码本F采用经典的LBG算法通过对大量 语音提出的相应特征参数训练得到。
步骤44,在次最优码本中任选一个码字作为编码层的当前量化 值,特征向量fm通过该当前量化值进行量化,深度神经网络模型的输 出层输出
Figure BDA0002372569060000095
计算ym
Figure BDA0002372569060000096
的均方误差;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作 为当前量化值,得到K个ym
Figure BDA0002372569060000101
的均方误差,选取ym
Figure BDA0002372569060000102
的均方误 差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型 输出层的输出
Figure BDA0002372569060000103
作为最终输出
Figure BDA0002372569060000104
步骤46,对最终输出
Figure BDA0002372569060000105
进行去归一化操作得到重建的每帧语音 信号
Figure BDA0002372569060000106
步骤5,对重建的每帧语音信号
Figure BDA0002372569060000107
进行重叠加操作得到语音编码 输出
Figure BDA0002372569060000108
实验验证与分析:
应用TIMIT语音库进行Deep Vocoder声码器算法的实验评估。 在训练阶段,TIMIT完整的训练集(462个说话人所讲的4620条语 句,共计约4小时)通过提取归一化对数幅度谱后用于训练DAE。 在测试阶段,TIMIT完整的测试集(168个说话人所讲的1680条语 句,共计约1.5小时)用于进行测试。所有的训练语音和编码语音均 被下采样至8kHz,采用汉明窗对语音信号进行分帧,每帧的长度为 256个样点,因此每帧语音输入的对数幅度谱矢量的维度为129,即 N/2+1=129。
对语音质量进行评估时,采用广泛使用的频域分段加权信噪比 (Frequencyweighted segmental signal noise ratios,fwsegSNRs),感知 语音质量评估(Perceptual evaluation ofspeech quality,PESQ)和短时 目标可懂度评估(Short-timeobjective intelligibility,STOI)三种准则 评估编码语音质量。fwsegSNRs和PESQ用于评估语音的整体质量, STOI用于评估语音的可懂度。
本实施例分别采用SQ,VQ和AbS VQ三种方式对DAE编码层神 经元输出进行量化,对应编码语音质量的客观评估结果如所示。其中, 采用SQ方案量化时最低可达到的语音编码速率为2400bit/s,即编码 层每个神经元输出都至少量化成1个比特,因此无法实现1200bit/s 语音编码。采用次最优码本搜索的AbS VQ方案量化DAE编码层特 征矢量时,编码速率为2400bit/s时每级码本保留4个最优码字;编 码速率为1200bit/s时每级码本保留16个最优码字,这样可在编码语 音质量和算法复杂度之间取得较好的均衡。
表1基于DAE的语音编码方案fwsegSNRs对比(dB)
Figure BDA0002372569060000111
表2基于DAE的语音编码方案STOI对比
Figure BDA0002372569060000112
Figure BDA0002372569060000121
表3基于DAE的语音编码方案PESQ得分对比
Figure BDA0002372569060000122
从表1—表3可以看出,采用AbS VQ方案量化编码层特征矢量 的语音编码效果始终优于采用传统SQ和VQ方案进行语音编码的效 果,fwsegSNRs,PESQ和STOI得分均有明显提高。特别地,在1200bit/s 编码速率条件下最终的编码语音质量提高十分明显,平均fwsegSNRs,PESQ和STOI得分分别提高了1.dB,0.3和6.4%。实验结 果充分说明了AbS VQ方案的优越性。尽管AbS VQ方案的算法复杂 度有所增加,但次最优码本搜索方式可在编码语音质量和算法运算量 之间提供较好的均衡。
针对基于深度神经网络的600bit/s低速率语音编码而言,采用同 样的评估数据和评价准则,相应结果如表4所示;
表4基于DAE的600bit/s语音编码性能评估结果
Figure BDA0002372569060000131
图3和图4给出了TIMIT语音库中一段典型女声语音“Don’t ask me to carry anoily rag like that”的原始语音和重构语音的时域波形和 语谱图对比。可以看出无论是低速率600bit/s语音编码还是速率相对 较高的2400bit/s语音编码,重构语音信号的时域波形均得到较好地 保持,包络起伏变化与原始语音信号一致;语音编码重构语谱图的时频结构也保留较为完整,尤其是对编码语音可懂度、清晰度等贡献最 大的低频谐波结构和共振峰均很好地得到保持,在语谱图上均清晰可 见。非正式主观听力测试表明,在2400bit/s、1200bit/s和600bit/s 三种编码速率条件下,编码语音均具有较高的可懂度和清晰度。

Claims (7)

1.一种基于深度自编码机低速率语音编码方法,其特征在于,包括:
步骤1,输入原始语音信号s(n),并对原始语音信号s(n)进行分帧处理,得到每一帧语音信号sm;其中,n表示时间下标,0≤n≤L-1,L表示帧长,m表示每一帧语音信号的下标,m=1,2,...,M,M表示语音总帧数;
步骤2,取分帧处理后的每一帧语音信号sm的对数幅度谱ym
步骤3,构建深度神经网络模型,对所构建的深度神经网络模型进行训练;
步骤4,将每一帧语音信号的对数幅度谱ym输入至训练后的深度神经网络模型,得到重建的每帧语音信号
Figure FDA0002372569050000011
步骤5,对重建的每帧语音信号
Figure FDA0002372569050000012
进行重叠加操作得到语音编码输出
Figure FDA0002372569050000013
2.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,通过式(1)对所述原始语音信号s(n)进行分帧处理,得到每一帧语音信号sm
sm(n)=sm(mR+n)ω(n) (1)
式(1)中,R表示帧移,ω(n)表示汉明窗。
3.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,通过式(2)取分帧处理后的每一帧语音信号的对数幅度谱ym
ym=log(|F{sm}|) (2)
式(2)中,F{sm}表示每一帧语音信号sm的Fourier变换,N表示Fourier变换的点数;|·|表示复数取模运算。
4.如权利要求1所述的基于深度自编码机低速率语音编码方法,其特征在于,所述深度神经网络模型从输入至输出依次包括输入层、第一隐藏层、第二隐藏层、编码层、第三隐藏层、第四隐藏层和输出层;
所述第一隐藏层和第二隐藏层均包括2048个节点,第三隐藏层和第四隐藏层均包括1024个节点,编码层包括72或54个节点。
5.如权利要求4所述的基于深度自编码机低速率语音编码方法,其特征在于,所述对所构建的深度神经网络模型进行训练,包括:
步骤31,输入训练语音信号s′(n),并对训练语音信号s′(n)进行分帧处理,得到每一帧训练语音信号s′m;其中,n表示时间下标,0≤n≤L-1,L表示帧长,m表示每一帧训练语音信号的下标,m=1,2,...,M,M为大于等于1的自然数;
步骤32,取分帧处理后的每一帧训练语音信号s′m的对数幅度谱y′m
步骤33,将每一帧训练语音信号的对数幅度谱y′m输入至所构建的深度神经网络模型,得到重建的每帧训练语音信号
Figure FDA0002372569050000021
步骤34,根据每一帧训练语音信号s′m和重建的每帧训练语音信号
Figure FDA0002372569050000022
对所构建的深度神经网络模型进行逐层训练,得到训练后的深度神经网络模型。
6.如权利要求5所述的基于深度自编码机低速率语音编码方法,其特征在于,所述将每一帧语音信号的对数幅度谱ym输入至训练后的深度神经网络模型,得到重建的每帧语音信号
Figure FDA0002372569050000031
包括:
步骤41,将步骤2得到的每一帧语音信号的对数幅度谱ym进行归一化处理得到zm,将zm作为深度神经网络模型的原始输入zm
步骤42,将原始输入zm输入至深度神经网络模型的输入层,编码层输出特征向量fm
步骤43,在特征矢量AbS VQ码本F中选取K个码字
Figure FDA0002372569050000032
作为次最优码本,j=1,2,...,K;
步骤44,在次最优码本中任选一个码字作为编码层的当前量化值,特征向量fm通过该当前量化值进行量化,深度神经网络模型的输出层输出
Figure FDA0002372569050000033
计算ym
Figure FDA0002372569050000034
的均方误差;
步骤45,重复步骤44,直至次最优码本中的每一个码字均被作为当前量化值,得到K个ym
Figure FDA0002372569050000035
的均方误差,选取ym
Figure FDA0002372569050000036
的均方误差最小时所对应的码字作为编码层的量化值,此时深度神经网络模型输出层的输出
Figure FDA0002372569050000037
作为最终输出
Figure FDA0002372569050000038
步骤46,对最终输出
Figure FDA0002372569050000039
进行去归一化操作得到重建的每帧语音信号
Figure FDA00023725690500000310
7.如权利要求5所述的基于深度自编码机低速率语音编码方法,其特征在于,所述步骤43,在特征矢量AbS VQ码本F中选取K个码字
Figure RE-FDA00024327837000000310
作为次最优码本,包括:
所述码字
Figure RE-FDA00024327837000000311
满足式(3):
Figure RE-FDA00024327837000000312
式(3)中,
Figure RE-FDA0002432783700000041
为特征矢量AbS VQ码本F中的任一码字,i=1,2,...,J,J为特征矢量AbSVQ码本F中码字的个数,K<<J。
CN202010055219.7A 2020-01-17 2020-01-17 一种基于深度自编码机低速率语音编码方法 Pending CN111243608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010055219.7A CN111243608A (zh) 2020-01-17 2020-01-17 一种基于深度自编码机低速率语音编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010055219.7A CN111243608A (zh) 2020-01-17 2020-01-17 一种基于深度自编码机低速率语音编码方法

Publications (1)

Publication Number Publication Date
CN111243608A true CN111243608A (zh) 2020-06-05

Family

ID=70868244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010055219.7A Pending CN111243608A (zh) 2020-01-17 2020-01-17 一种基于深度自编码机低速率语音编码方法

Country Status (1)

Country Link
CN (1) CN111243608A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022213787A1 (zh) * 2021-04-09 2022-10-13 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1371512A (zh) * 1998-12-01 2002-09-25 加利福尼亚大学董事会 增强型波形内插编码器
CN1920950A (zh) * 2006-09-25 2007-02-28 北京理工大学 一种基于Haar小波提升的特征波形分解与重构方法
CN110491400A (zh) * 2019-08-21 2019-11-22 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1371512A (zh) * 1998-12-01 2002-09-25 加利福尼亚大学董事会 增强型波形内插编码器
CN1920950A (zh) * 2006-09-25 2007-02-28 北京理工大学 一种基于Haar小波提升的特征波形分解与重构方法
CN110491400A (zh) * 2019-08-21 2019-11-22 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋知用: "MATLAB语音信号分析与合成 第2版", 北京航空航天大学出版社, pages: 458 - 16 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022213787A1 (zh) * 2021-04-09 2022-10-13 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
AU2018217299B2 (en) Improving classification between time-domain coding and frequency domain coding
TW497335B (en) Method and apparatus for variable rate coding of speech
EP3301674B1 (en) Adaptive bandwidth extension and apparatus for the same
Skoglund et al. Improving Opus low bit rate quality with neural speech synthesis
CN111508470B (zh) 一种语音合成模型的训练方法及装置
US9972325B2 (en) System and method for mixed codebook excitation for speech coding
CN101676993A (zh) 用于人工扩展语音信号的带宽的方法和装置
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
Chamberlain A 600 bps MELP vocoder for use on HF channels
JPH08123484A (ja) 信号合成方法および信号合成装置
KR100656788B1 (ko) 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
EP2951824B1 (en) Adaptive high-pass post-filter
CN104517612A (zh) 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
Ribeiro et al. Phonetic vocoding with speaker adaptation.
Ahmadi et al. Analysis-by-synthesis method for whisper-speech reconstruction
CN111243608A (zh) 一种基于深度自编码机低速率语音编码方法
Qian et al. Wideband speech recovery from narrowband speech using classified codebook mapping
Ding et al. A Hybrid Structure Speech coding scheme based on MELPe and LPCNet
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
Anselam et al. QUALITY EVALUATION OF LPC BASED LOW BIT RATE SPEECH CODERS
Lopukhova et al. A Codec Simulation for Low-rate Speech Coding with Radial Neural Networks
KR100624545B1 (ko) 티티에스 시스템의 음성압축 및 합성방법
KR100309873B1 (ko) 코드여기선형예측부호화기에서무성음검출에의한부호화방법
Yen et al. An improved oscillator method for modeling structured speech
Kritzinger Low bit rate speech coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination