CN110610713B

CN110610713B - 一种声码器余量谱幅度参数重构方法及系统

Info

Publication number: CN110610713B
Application number: CN201910800781.5A
Authority: CN
Inventors: 颜夕宏; 张生平; 王主磊; 吴子晧; 颜明
Original assignee: Nanjing Indusic Microelectronics Technology Co ltd
Current assignee: Nanjing Indusic Microelectronics Technology Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-11-16
Anticipated expiration: 2039-08-28
Also published as: CN110610713A

Abstract

本发明公开了一种声码器余量谱幅度参数重构方法及系统，获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数，根据所获取的参数获取初步合成语音；将初步合成语音转换为图像矩阵，输入至已训练好的深度卷积网络得到量化索引；根据所述量化索引搜索预生成的余量谱幅度参数码本，得到重构的余量谱幅度参数；对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。优点：余量谱幅度参数不进性编码传输，在声码器工作时，通过训练生成的深度卷积网络对余量谱幅度参数进行重构，在保证语音可懂度的同时，进一步提高了合成语音的自然度。

Description

一种声码器余量谱幅度参数重构方法及系统

技术领域

本发明涉及一种声码器余量谱幅度参数重构方法及系统，属于语音编码技术领域。

背景技术

语音编码在通信系统、录放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟（ITU）、3GPP、一些区域组织和国家相继制定了一系列语音压缩编码标准，其中一个重要的发展趋势是：编码速率越来越低，合成语音质量越来越高。目前，低速率高质量语音压缩编码算法在无线通信、保密通信、水声通信、卫星通信等领域仍然有迫切的需求，并得到了广泛的研究。在各种低速率语音编码模型中，混合激励线性预测（MixedExcitation Linear Prediction，MELP）模型编码性能突出并得到了广泛采用。在MELP编码算法中，余量谱幅度参数主要用来改善语音的自然度，在编码速率进一步降低的时候，为了保证语音可懂度，往往会牺牲部分语音自然度，不再对余量谱幅度参数进行编码传输，将其量化比特分配给其他更重要的参数，在解码端用全1矢量来代替余量谱幅度参数，无法有效描述激励信号的谱包络，从而降低了语音的自然度。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种声码器余量谱幅度参数重构方法及系统，解决现有技术中合成语音自然度偏低的技术问题。

为解决上述技术问题，本发明提供一种声码器余量谱幅度参数重构方法，

获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数，根据所获取的参数获取初步合成语音；

将初步合成语音转换为图像矩阵，输入至已训练好的深度卷积网络得到量化索引；

根据所述量化索引搜索预生成的余量谱幅度参数码本，得到重构的余量谱幅度参数；

对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。

进一步的，所述深度卷积网络的训练方法包括：

从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数；

根据所提取的余量谱幅度参数构建余量谱幅度参数集合，将所述余量谱幅度参数集合训练生成余量谱幅度参数码本；

利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化，得到语音训练集的量化索引，作为深度卷积网络的输出集合；

利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音；

将合成语音转换为图像矩阵，作为深度卷积网络的输入集合，利用所述输入集合和输出集合离线训练生成深度卷积网络。

在余量谱幅度参数不进性编码传输的前提下，利用余量谱幅度参数和其他编码参数间的相关性，离线训练生成用来对余量谱幅度参数进行重构的深度卷积网络。

进一步的，所述余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数、余量谱幅度参数通过语音训练集按帧提取。

进一步的，利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音过程中，余量谱幅度参数置为全1矢量。

进一步的，所述余量谱幅度参数码本采用矢量聚类方法训练生成。可以有效地利用矢量之间中各分量相互关联的性质消除冗余度，具有比特率低、解码简单、失真较小的特点。

进一步的，将合成语音转换为图像矩阵的方法包括：

对合成语音进行FFT变换得到幅值，将所有幅值排列为图像矩阵

进一步的，所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。

一种声码器余量谱幅度参数重构系统，其特征在于，包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块；

所述初步语音合成模块获用于获取声码器解码端输入的线谱频率参数、带通浊音度参数、基音周期参数、能量参数，根据所获取的参数获取初步合成语音；

所述量化索引获取模块用于将初步合成语音转换为图像矩阵，输入至已训练好的深度卷积网络得到量化索引；

所述余量谱幅度参数重构模块用于根据所述量化索引搜索预生成的余量谱幅度参数码本，得到重构的余量谱幅度参数；

所述最终语音合成模块用于对重构的余量谱幅度参数以及所获取的线谱频率参数、带通浊音度参数、基音周期参数、能量参数进行合成得到最终合成语音。

进一步的，所述系统还包括深度卷积网络训练模块，所述深度卷积网络训练模块包括：

参数提取模块：用于从预构建的语音训练集提取余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数；

余量谱幅度参数码本生成模块：用于根据所提取的余量谱幅度参数构建余量谱幅度参数集合，将所述余量谱幅度参数集合训练生成余量谱幅度参数码本；

矢量量化模块：利用所述余量谱幅度参数码本对所述余量谱幅度参数进行矢量量化，得到语音训练集的量化索引，作为深度卷积网络的输出集合；

合成语音子模块：利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取合成语音；

转换模块：用于将合成语音转换为图像矩阵，作为深度卷积网络的输入集合；

训练生成模块：利用所述输入集合和输出集合离线训练生成深度卷积网络。

进一步的，所述转换模块包括：

FFT变换模块：用于对合成语音进行FFT变换得到幅值；

排列模块：用于将所有幅值排列为图像矩阵。

本发明所达到的有益效果：

本发明在余量谱幅度参数不进性编码传输的前提下，利用余量谱幅度参数和其他编码参数间的相关性，训练生成用来对余量谱幅度参数进行重构的深度卷积网络。在声码器工作时，在解码端利用接收到的其他参数，通过训练生成的深度卷积网络对余量谱幅度参数进行重构，而非采用全1矢量代替，从而在保证语音可懂度的同时，进一步提高了合成语音的自然度。

附图说明

图1是本发明提出的声码器余量谱幅度参数重构方法流程框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明的方法流程如图1所示，包括以下步骤：

1、离线训练深度卷积网络：

（11）利用语音训练集，按帧提取余量谱幅度参数，形成余量谱幅度集合；

实施例：利用语音训练集按8KHz频率采样，16比特量化，参考MELP声码器中的方法提取余量谱幅参数，维度为10，形成余量谱幅度集合。

（12）利用矢量聚类技术，针对上述余量谱幅度集合，训练生成尺寸为1024的余量谱幅度码本；

实施例：利用步骤(11)中生成的余量谱幅度集合，采用LBG算法生成尺寸为1024的余量谱幅度码本C。

（13）利用训练语音集，按帧提取线谱频率、带通浊音度、基音周期、能量、余量谱幅度等参数；

实施例：参考MELP声码器中的参数提取方法提取线谱频率、带通浊音度、基音周期、能量、余量谱幅度等参数。

（14）利用步骤（1２）中得到的余量谱幅度码本对步骤（1３）中的余量谱幅度参数进行矢量量化，得到量化索引，作为输出；利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数合成语音。合成过程中，余量谱幅度参数置为全1矢量。将合成语音做1024点FFT变换，将FFT变换得到的1024个幅值排列为32*32的图像矩阵，作为输入；

实施例：本步骤中的矢量量化过程采用全搜索矢量量化，失真采用欧式距离，参照MELP声码器中语音合成的方法得到合成语音，对合成语音采用1024点FFT变换，变换后得到的FFT幅度参数按行依次填入32*32的图像矩阵中。

（15）步骤（14）中得到的输入、输出集合，训练生成深度卷积网络，网络结构采用LeNet-5卷积神经网络；

实施例：利用步骤（14）中得到的输入、输出集合，训练生成深度卷积网络，网络结构采用７层LeNet-5卷积神经网络，包括2个卷积层、2个池化层、3个全连接层。

2、基于深度卷积网络的声码器余量谱幅度参数重构方法：

（21）声码器解码端利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数合成语音。合成过程中，余量谱幅度参数置为全1矢量。

实施例：利用频率参数、带通浊音度参数、基音周期参数、能量参数，将余量谱幅度参数设置为10维的全１矢量，参照MELP声码器中语音合成的方法得到初始合成语音；

（22）将步骤（21）中的合成语音做1024点FFT变换，将FFT变换得到的1024个幅值排列为32*32的图像矩阵，作为输入，利用深度卷积网络得到输出的量化索引；

实施例：对合成语音采用1024点FFT变换，变换后得到的FFT幅度参数按行依次填入32*32的图像矩阵中,利用离线训练得到的深度卷积网络得到输出的余量谱幅度参数索引i。

（23）利用步骤（22）中得到的量化索引i，搜索余量谱幅度参数码本C，得到余量谱幅度参数；

（24）利用步骤（2１）中的线谱频率参数、带通浊音度参数、基音周期参数、能量参数和步骤（2３）中得到的余量谱幅度参数，送入合成器，得到最终的合成语音；

实施例：利用频率参数、带通浊音度参数、基音周期参数、能量参数，以及步骤(23)中搜索得到的余量谱幅度参数，参照MELP声码器中语音合成的方法得到最终合成语音。

一种声码器余量谱幅度参数重构系统，包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块；

本实施例中，所述系统还包括深度卷积网络训练模块，所述深度卷积网络训练模块包括：

本实施例中，所述转换模块包括：

FFT变换模块：用于对合成语音进行FFT变换得到幅值；

排列模块：用于将所有幅值排列为图像矩阵。

本发明在余量谱幅度参数不进性编码传输的前提下，利用余量谱幅度参数和其他编码参数间的相关性，离线训练生成用来对余量谱幅度参数进行重构的深度卷积网络，深度卷积网络采用LeNet-5结构，但不限于此。在声码器工作时，在解码端利用接收到的其他参数，通过离线训练生成的深度卷积网络对余量谱幅度参数进行重构，而非采用全1矢量代替，从而在保证语音可懂度的同时，进一步提高了合成语音的自然度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种声码器余量谱幅度参数重构方法，其特征在于，

2.根据权利要求1所述的声码器余量谱幅度参数重构方法，其特征在于，所述深度卷积网络的训练方法包括：

3.根据权利要求2所述的声码器余量谱幅度参数重构方法，其特征在于，所述余量谱幅度参数、线谱频率参数、带通浊音度参数、基音周期参数、能量参数按帧提取。

4.根据权利要求1所述的声码器余量谱幅度参数重构方法，其特征在于，利用线谱频率参数、带通浊音度参数、基音周期参数、能量参数获取初步合成语音过程中，余量谱幅度参数置为全1矢量。

5.根据权利要求1或2所述的声码器余量谱幅度参数重构方法，其特征在于，所述余量谱幅度参数码本采用矢量聚类方法训练生成。

6.根据权利要求2所述的声码器余量谱幅度参数重构方法，其特征在于，将合成语音转换为图像矩阵的方法包括：

对合成语音进行FFT变换得到幅值，将所有幅值排列为图像矩阵。

7.根据权利要求1所述的声码器余量谱幅度参数重构方法，其特征在于，所述深度卷积网络的网络结构采用LeNet-5卷积神经网络。

8.一种声码器余量谱幅度参数重构系统，其特征在于，包括初步语音合成模块、量化索引获取模块、余量谱幅度参数重构模块以及最终语音合成模块；

9.根据权利要求8所述的声码器余量谱幅度参数重构系统，其特征在于，其特征在于，所述系统还包括深度卷积网络训练模块，所述深度卷积网络训练模块包括：

10. 根据权利要求 9所述的声码器余量谱幅度参数重构系统，其特征在于，其特征在于，所述转换模块包括：

FFT变换模块：用于对合成语音进行FFT变换得到幅值；

排列模块：用于将所有幅值排列为图像矩阵。