CN110610713B - 一种声码器余量谱幅度参数重构方法及系统 - Google Patents
一种声码器余量谱幅度参数重构方法及系统 Download PDFInfo
- Publication number
- CN110610713B CN110610713B CN201910800781.5A CN201910800781A CN110610713B CN 110610713 B CN110610713 B CN 110610713B CN 201910800781 A CN201910800781 A CN 201910800781A CN 110610713 B CN110610713 B CN 110610713B
- Authority
- CN
- China
- Prior art keywords
- parameter
- spectrum amplitude
- margin
- voice
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
本发明公开了一种声码器余量谱幅度参数重构方法及系统,获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。优点:余量谱幅度参数不进性编码传输,在声码器工作时,通过训练生成的深度卷积网络对余量谱幅度参数进行重构,在保证语音可懂度的同时,进一步提高了合成语音的自然度。
Description
技术领域
本发明涉及一种声码器余量谱幅度参数重构方法及系统,属于语音编码技术领域。
背景技术
语音编码在通信系统、录放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、3GPP、一些区域组织和国家相继制定了一系列语音压缩编码标准,其中一个重要的发展趋势是:编码速率越来越低,合成语音质量越来越高。目前,低速率高质量语音压缩编码算法在无线通信、保密通信、水声通信、卫星通信等领域仍然有迫切的需求,并得到了广泛的研究。在各种低速率语音编码模型中,混合激励线性预测(MixedExcitation Linear Prediction,MELP)模型编码性能突出并得到了广泛采用。在MELP编码算法中,余量谱幅度参数主要用来改善语音的自然度,在编码速率进一步降低的时候,为了保证语音可懂度,往往会牺牲部分语音自然度,不再对余量谱幅度参数进行编码传输,将其量化比特分配给其他更重要的参数,在解码端用全1矢量来代替余量谱幅度参数,无法有效描述激励信号的谱包络,从而降低了语音的自然度。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种声码器余量谱幅度参数重构方法及系统,解决现有技术中合成语音自然度偏低的技术问题。
为解决上述技术问题,本发明提供一种声码器余量谱幅度参数重构方法,
获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;
将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;
根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;
对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。
进一步的,所述深度卷积网络的训练方法包括:
从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数;
根据所提取的余量谱幅度参数构建余量谱幅度参数集合,将所述余量谱幅度参数集合训练生成余量谱幅度参数码本;
利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化,得到语音训练集的量化索引,作为深度卷积网络的输出集合;
利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音;
将合成语音转换为图像矩阵,作为深度卷积网络的输入集合,利用所述输入集合和输出集合离线训练生成深度卷积网络。
在余量谱幅度参数不进性编码传输的前提下,利用余量谱幅度参数和其他编码参数间的相关性,离线训练生成用来对余量谱幅度参数进行重构的深度卷积网络。
进一步的,所述余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数、余量谱幅度参数通过语音训练集按帧提取。
进一步的,利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音过程中,余量谱幅度参数置为全1矢量。
进一步的,所述余量谱幅度参数码本采用矢量聚类方法训练生成。可以有效地利用矢量之间中各分量相互关联的性质消除冗余度,具有比特率低、解码简单、失真较小的特点。
进一步的,将合成语音转换为图像矩阵的方法包括:
对合成语音进行FFT变换得到幅值,将所有幅值排列为图像矩阵
进一步的,所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。
一种声码器余量谱幅度参数重构系统,其特征在于,包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块;
所述初步语音合成模块获用于获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;
所述量化索引获取模块用于将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;
所述余量谱幅度参数重构模块用于根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;
所述最终语音合成模块用于对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。
进一步的,所述系统还包括深度卷积网络训练模块,所述深度卷积网络训练模块包括:
参数提取模块:用于从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数;
余量谱幅度参数码本生成模块:用于根据所提取的余量谱幅度参数构建余量谱幅度参数集合,将所述余量谱幅度参数集合训练生成余量谱幅度参数码本;
矢量量化模块:利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化,得到语音训练集的量化索引,作为深度卷积网络的输出集合;
合成语音子模块:利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音;
转换模块:用于将合成语音转换为图像矩阵,作为深度卷积网络的输入集合;
训练生成模块:利用所述输入集合和输出集合离线训练生成深度卷积网络。
进一步的,所述转换模块包括:
FFT变换模块:用于对合成语音进行FFT变换得到幅值;
排列模块:用于将所有幅值排列为图像矩阵。
本发明所达到的有益效果:
本发明在余量谱幅度参数不进性编码传输的前提下,利用余量谱幅度参数和其他编码参数间的相关性,训练生成用来对余量谱幅度参数进行重构的深度卷积网络。在声码器工作时,在解码端利用接收到的其他参数,通过训练生成的深度卷积网络对余量谱幅度参数进行重构,而非采用全1矢量代替,从而在保证语音可懂度的同时,进一步提高了合成语音的自然度。
附图说明
图1是本发明提出的声码器余量谱幅度参数重构方法流程框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的方法流程如图1所示,包括以下步骤:
1、离线训练深度卷积网络:
(11)利用语音训练集,按帧提取余量谱幅度参数,形成余量谱幅度集合;
实施例:利用语音训练集按8KHz频率采样,16比特量化,参考MELP声码器中的方法提取余量谱幅参数,维度为10,形成余量谱幅度集合。
(12)利用矢量聚类技术,针对上述余量谱幅度集合,训练生成尺寸为1024的余量谱幅度码本;
实施例:利用步骤(11)中生成的余量谱幅度集合,采用LBG算法生成尺寸为1024的余量谱幅度码本C。
(13)利用训练语音集,按帧提取线谱频率、带通浊音度、基音周期、能量、余量谱幅度等参数;
实施例:参考MELP声码器中的参数提取方法提取线谱频率、带通浊音度、基音周期、能量、余量谱幅度等参数。
(14)利用步骤(12)中得到的余量谱幅度码本对步骤(13)中的余量谱幅度参数进行矢量量化,得到量化索引,作为输出;利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数合成语音。合成过程中,余量谱幅度参数置为全1矢量。将合成语音做1024点FFT变换,将FFT变换得到的1024个幅值排列为32*32的图像矩阵,作为输入;
实施例:本步骤中的矢量量化过程采用全搜索矢量量化,失真采用欧式距离,参照MELP声码器中语音合成的方法得到合成语音,对合成语音采用1024点FFT变换,变换后得到的FFT幅度参数按行依次填入32*32的图像矩阵中。
(15)步骤(14)中得到的输入、输出集合,训练生成深度卷积网络,网络结构采用LeNet-5卷积神经网络;
实施例:利用步骤(14)中得到的输入、输出集合,训练生成深度卷积网络,网络结构采用7层LeNet-5卷积神经网络,包括2个卷积层、2个池化层、3个全连接层。
2、基于深度卷积网络的声码器余量谱幅度参数重构方法:
(21)声码器解码端利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数合成语音。合成过程中,余量谱幅度参数置为全1矢量。
实施例:利用频率参数、带通浊音度参数、基音周期参数、能量参数,将余量谱幅度参数设置为10维的全1矢量,参照MELP声码器中语音合成的方法得到初始合成语音;
(22)将步骤(21)中的合成语音做1024点FFT变换,将FFT变换得到的1024个幅值排列为32*32的图像矩阵,作为输入,利用深度卷积网络得到输出的量化索引;
实施例:对合成语音采用1024点FFT变换,变换后得到的FFT幅度参数按行依次填入32*32的图像矩阵中,利用离线训练得到的深度卷积网络得到输出的余量谱幅度参数索引i。
(23)利用步骤(22)中得到的量化索引i,搜索余量谱幅度参数码本C,得到余量谱幅度参数;
(24)利用步骤(21)中的线谱频率参数、带通浊音度参数、基音周期参数、能量参数和步骤(23)中得到的余量谱幅度参数,送入合成器,得到最终的合成语音;
实施例:利用频率参数、带通浊音度参数、基音周期参数、能量参数,以及步骤(23)中搜索得到的余量谱幅度参数,参照MELP声码器中语音合成的方法得到最终合成语音。
一种声码器余量谱幅度参数重构系统,包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块;
所述初步语音合成模块获用于获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;
所述量化索引获取模块用于将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;
所述余量谱幅度参数重构模块用于根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;
所述最终语音合成模块用于对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。
本实施例中,所述系统还包括深度卷积网络训练模块,所述深度卷积网络训练模块包括:
参数提取模块:用于从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数;
余量谱幅度参数码本生成模块:用于根据所提取的余量谱幅度参数构建余量谱幅度参数集合,将所述余量谱幅度参数集合训练生成余量谱幅度参数码本;
矢量量化模块:利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化,得到语音训练集的量化索引,作为深度卷积网络的输出集合;
合成语音子模块:利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音;
转换模块:用于将合成语音转换为图像矩阵,作为深度卷积网络的输入集合;
训练生成模块:利用所述输入集合和输出集合离线训练生成深度卷积网络。
本实施例中,所述转换模块包括:
FFT变换模块:用于对合成语音进行FFT变换得到幅值;
排列模块:用于将所有幅值排列为图像矩阵。
本发明在余量谱幅度参数不进性编码传输的前提下,利用余量谱幅度参数和其他编码参数间的相关性,离线训练生成用来对余量谱幅度参数进行重构的深度卷积网络,深度卷积网络采用LeNet-5结构,但不限于此。在声码器工作时,在解码端利用接收到的其他参数,通过离线训练生成的深度卷积网络对余量谱幅度参数进行重构,而非采用全1矢量代替,从而在保证语音可懂度的同时,进一步提高了合成语音的自然度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种声码器余量谱幅度参数重构方法,其特征在于,
获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;
将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;
根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;
对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。
2.根据权利要求1所述的声码器余量谱幅度参数重构方法,其特征在于,所述深度卷积网络的训练方法包括:
从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数;
根据所提取的余量谱幅度参数构建余量谱幅度参数集合,将所述余量谱幅度参数集合训练生成余量谱幅度参数码本;
利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化,得到语音训练集的量化索引,作为深度卷积网络的输出集合;
利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音;
将合成语音转换为图像矩阵,作为深度卷积网络的输入集合,利用所述输入集合和输出集合离线训练生成深度卷积网络。
3.根据权利要求2所述的声码器余量谱幅度参数重构方法,其特征在于,所述余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数按帧提取。
4.根据权利要求1所述的声码器余量谱幅度参数重构方法,其特征在于,利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取初步合成语音过程中,余量谱幅度参数置为全1矢量。
5.根据权利要求1或2所述的声码器余量谱幅度参数重构方法,其特征在于,所述余量谱幅度参数码本采用矢量聚类方法训练生成。
6.根据权利要求2所述的声码器余量谱幅度参数重构方法,其特征在于,将合成语音转换为图像矩阵的方法包括:
对合成语音进行FFT变换得到幅值,将所有幅值排列为图像矩阵。
7.根据权利要求1所述的声码器余量谱幅度参数重构方法,其特征在于,所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。
8.一种声码器余量谱幅度参数重构系统,其特征在于,包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块;
所述初步语音合成模块获用于获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数,根据所获取的参数获取初步合成语音;
所述量化索引获取模块用于将初步合成语音转换为图像矩阵,输入至已训练好的深度卷积网络得到量化索引;
所述余量谱幅度参数重构模块用于根据所述量化索引搜索预生成的余量谱幅度参数码本,得到重构的余量谱幅度参数;
所述最终语音合成模块用于对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。
9.根据权利要求8所述的声码器余量谱幅度参数重构系统,其特征在于,其特征在于,所述系统还包括深度卷积网络训练模块,所述深度卷积网络训练模块包括:
参数提取模块:用于从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数;
余量谱幅度参数码本生成模块:用于根据所提取的余量谱幅度参数构建余量谱幅度参数集合,将所述余量谱幅度参数集合训练生成余量谱幅度参数码本;
矢量量化模块:利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化,得到语音训练集的量化索引,作为深度卷积网络的输出集合;
合成语音子模块:利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音;
转换模块:用于将合成语音转换为图像矩阵,作为深度卷积网络的输入集合;
训练生成模块:利用所述输入集合和输出集合离线训练生成深度卷积网络。
10. 根据权利要求 9所述的声码器余量谱幅度参数重构系统,其特征在于,其特征在于,所述转换模块包括:
FFT变换模块:用于对合成语音进行FFT变换得到幅值;
排列模块:用于将所有幅值排列为图像矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800781.5A CN110610713B (zh) | 2019-08-28 | 2019-08-28 | 一种声码器余量谱幅度参数重构方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800781.5A CN110610713B (zh) | 2019-08-28 | 2019-08-28 | 一种声码器余量谱幅度参数重构方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610713A CN110610713A (zh) | 2019-12-24 |
CN110610713B true CN110610713B (zh) | 2021-11-16 |
Family
ID=68890556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910800781.5A Active CN110610713B (zh) | 2019-08-28 | 2019-08-28 | 一种声码器余量谱幅度参数重构方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610713B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
CN101261836A (zh) * | 2008-04-25 | 2008-09-10 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
CN101741504A (zh) * | 2008-11-24 | 2010-06-16 | 华为技术有限公司 | 一种确定信号线性预测编码阶数的方法和装置 |
CN102903365A (zh) * | 2012-10-30 | 2013-01-30 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
CN109448739A (zh) * | 2018-12-13 | 2019-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于分层聚类的声码器线谱频率参数量化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
WO2006107833A1 (en) * | 2005-04-01 | 2006-10-12 | Qualcomm Incorporated | Method and apparatus for vector quantizing of a spectral envelope representation |
US9837094B2 (en) * | 2015-08-18 | 2017-12-05 | Qualcomm Incorporated | Signal re-use during bandwidth transition period |
-
2019
- 2019-08-28 CN CN201910800781.5A patent/CN110610713B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
CN101261836A (zh) * | 2008-04-25 | 2008-09-10 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
CN101741504A (zh) * | 2008-11-24 | 2010-06-16 | 华为技术有限公司 | 一种确定信号线性预测编码阶数的方法和装置 |
CN102903365A (zh) * | 2012-10-30 | 2013-01-30 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
CN109448739A (zh) * | 2018-12-13 | 2019-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于分层聚类的声码器线谱频率参数量化方法 |
Non-Patent Citations (3)
Title |
---|
MELP算法的研究及其嵌入式平台的实现;段雨宁;《中国优秀硕士学位论文全文数据库信息科技辑》;20180331;I136-241 * |
Spectral modification for context-free voice conversion using MELP speech coding framework;O. Salor;《 Proceedings of 2004 International Symposium on Intelligent Multimedia, Video and Speech Processing》;20050606;314-317 * |
基于MELP的低速率声码器矢量量化技术研究;付余涛;《中国优秀硕士学位论文全文数据库信息科技辑》;20170331;I136-605 * |
Also Published As
Publication number | Publication date |
---|---|
CN110610713A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101577605B (zh) | 基于滤波器相似度的语音lpc隐藏和提取算法 | |
RU2366007C2 (ru) | Способ и устройство для восстановления речи в системе распределенного распознавания речи | |
JP4489959B2 (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
CN101083076A (zh) | 使用带宽扩展技术对信号编码和解码的方法和设备 | |
NO318627B1 (no) | Fremgangsmate og innretning for a gjenvinne hoyfrekvensinnhold av oversamplet, syntetisert bredbandssignal | |
JP2023546098A (ja) | オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法 | |
US6269332B1 (en) | Method of encoding a speech signal | |
US8532985B2 (en) | Warped spectral and fine estimate audio encoding | |
US6934650B2 (en) | Noise signal analysis apparatus, noise signal synthesis apparatus, noise signal analysis method and noise signal synthesis method | |
CN110610713B (zh) | 一种声码器余量谱幅度参数重构方法及系统 | |
CN106098072B (zh) | 一种基于混合激励线性预测的600bps甚低速率语音编解码方法 | |
CN102903365B (zh) | 一种在解码端细化窄带声码器参数的方法 | |
CN110580920A (zh) | 一种声码器子带清浊音判决的方法及系统 | |
JP3878254B2 (ja) | 音声圧縮符号化方法および音声圧縮符号化装置 | |
Tanaka et al. | Low-bit-rate speech coding using a two-dimensional transform of residual signals and waveform interpolation | |
WO2022228704A1 (en) | Decoder | |
JPH08129400A (ja) | 音声符号化方式 | |
Geiser et al. | Binaural wideband telephony using steganography | |
Lee | Analysis by synthesis linear predictive coding | |
JP3715417B2 (ja) | 音声圧縮符号化装置,音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
KR20010076622A (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
Zheng et al. | SuperCodec: A Neural Speech Codec with Selective Back-Projection Network | |
Ramasubramanian et al. | Ultra low bit-rate speech coding based on unit-selection with joint spectral-residual quantization: No transmission of any residual information | |
KR100255297B1 (ko) | 음성 데이터 부호화/복호화장치 및 그 방법 | |
JP5188913B2 (ja) | 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |