CN110428847B

CN110428847B - 一种线谱频率参数量化比特分配方法及系统

Info

Publication number: CN110428847B
Application number: CN201910800636.7A
Authority: CN
Inventors: 颜夕宏; 张生平; 王主磊; 吴子晧; 颜明
Original assignee: Nanjing Indusic Microelectronics Technology Co ltd
Current assignee: Nanjing Indusic Microelectronics Technology Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-08-24
Anticipated expiration: 2039-08-28
Also published as: CN110428847A

Abstract

本发明公开了一种线谱频率参数量化比特分配方法及系统，以客观语音MOS得分作为线谱频率参数量化比特分配方案的依据，采用量化比特累减并比较MOS得分的方法得到初始比特分配，再采用模拟退火算法进行最优比特分配方案搜索。优点：该方法充分考虑到了线谱频率参数每一维对合成语音质量影响的差异，并采用了模拟退火算法进行全局最优解搜索，能够进一步提高线谱频率参数的量化效率，改善合成语音质量。

Description

一种线谱频率参数量化比特分配方法及系统

技术领域

本发明涉及一种线谱频率参数量化比特分配方法及系统，属于语音编码技术领域。

背景技术

语音编码在通信系统、录放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟（ITU）、3GPP、一些区域组织和国家相继制定了一系列语音压缩编码标准，编码速率越来越低，合成语音质量越来越高。目前国内外的研究主要集中在中低速率高质量语音压缩编码上，主要用于无线通信、保密通信、水声通信等领域。在上述语音编码算法中，高效量化用来描述声道特征的线谱频率参数极为重要，其量化质量直接影响合成语音的可懂度。在很多场合，为了降低算法复杂度和终端功耗，对线谱频率参数要采用标量量化算法。在线谱频率参数标量量化算法中，需要将总分配比特数分配给线谱频率参数的每一维分量，再对分量进行标量量化。根据线谱频率参数透明量化的要求，每一维分量的量化比特数分配一般不少于2个比特，不多于5个比特。

目前已有方法对于线谱频率参数标量量化比特数进行分配，但容易陷入局部最优值，而且采用量化失真作为比特分配依据，没有充分考虑到量化失真对合成语音的质量影响程度，实际情况是，线谱频率参数每一维对合成语音质量的影响程度有较大差异，因而现有技术仍有缺陷需要克服。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种线谱频率参数量化比特分配方法及系统，提高线谱频率参数的量化效率和合成语音质量。

为解决上述技术问题，本发明提供一种线谱频率参数量化比特分配方法，获取语音训练集中的线谱频率参数，将线谱频率参数的每一维分量，分别训练生成量化层数为4、8、16、32的量化器，层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5，计算每一个量化器所对应的合成语音质量MOS得分，设置总分配比特数B；将线谱频率参数每一维的初始量化比特数均设置为5，对应的量化层数为32，将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b；

判断总量化比特数b是否等于总分配比特数B，若是，则将当前量化比特数的分配方案设置为初始解，设置初始温度T=T0，设置最大迭代次数L，设置迭代次数k的初值为1；若否，从最低维到最高维，依次尝试减少1个量化比特，并计算其带来的合成语音质量MOS得分减少量，比较线谱频率参数各维的MOS得分减少量，选取减少量最小的维度，为其减少1个量化比特，总量化比特数b减1，再对减去1的b是否等于总分配比特数B进行判断；

在设置初始温度T=T0，设置最大迭代次数L，设置迭代初值k=1后，随机选择线谱频率参数的两个维度，将这两个维度的量化比特数分别增加和减少1，计算该量化比特数的分配方案下的MOS得分增加量ΔM，判断ΔM是否大于0，若是则接受该量化比特数的分配方案为最优分配方案，若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案；

在对ΔM是否大于0判断后，再判断k 是否等于 L，若是，则按照所述的最优分配方案结束线谱频率参数量化比特的分配，若否，则令k = k+1，T=T*0.9，再次随机选择线谱频率参数的两个维度，将这两个维度的量化比特数分别增加和减少1，计算该量化比特数的分配方案下的MOS得分增加量ΔM，并对ΔM进行上述判断过程。

进一步的，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。我们这里通过MOS分的高低，合成判断语音质量的优劣，选取最佳的量化分配方案。

进一步，在计算MOS得分时，除了当前量化器对应的维度分量减少1个量化比特，其他维度分量均采用原始值。只考虑当前量化器对应的维度分量对声码器的具体影响，排除其他维度分量的影响。

进一步，所述总分配比特数B由声码器分配给线谱频率参数的总比特数决定。

进一步，采用LBG算法生成4、8、16、32不同量化层数的量化器。

一种线谱频率参数量化比特分配系统，包括数据获取模块、第一判断模块、第二判断模块以及第三判断模块；

所述数据获取模块用于获取语音训练集中的线谱频率参数，将线谱频率参数的每一维分量，分别训练生成量化层数为4、8、16、32的量化器，层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5，计算每一个量化器所对应的合成语音质量MOS得分，设置总分配比特数B；将线谱频率参数每一维的初始量化比特数均设置为5，对应的量化层数为32，将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b；

所述第一判断模块用于判断总量化比特数b是否等于总分配比特数B，若是，则将当前量化比特数的分配方案设置为初始解，设置初始温度T=T0，设置最大迭代次数L，设置迭代次数k的初值为1；若否，从最低维到最高维，依次尝试减少1个量化比特，并计算其带来的合成语音质量MOS得分减少量，比较线谱频率参数各维的MOS得分减少量，选取减少量最小的维度，为其减少1个量化比特，总量化比特数b减1，再对减去1的b是否等于总分配比特数B进行判断；

所述第二判断模块用于在设置初始温度T=T0，设置最大迭代次数L，设置迭代初值k=1后，随机选择线谱频率参数的两个维度，将这两个维度的量化比特数分别增加和减少1，计算该量化比特数的分配方案下的MOS得分增加量ΔM，判断ΔM是否大于0，若是则接受该量化比特数的分配方案为最优分配方案，若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案；

所述第三判断模块用于在对ΔM是否大于0判断后，再判断k 是否等于 L，若是，则按照所述的最优分配方案结束线谱频率参数量化比特的分配，若否，则令k = k+1，T=T*0.9，再次随机选择线谱频率参数的两个维度，将这两个维度的量化比特数分别增加和减少1，计算该量化比特数的分配方案下的MOS得分增加量ΔM，并对ΔM进行上述判断过程。

进一步的，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。

进一步的，所述数据获取模块在计算MOS得分时，除了当前量化器对应的维度分量减少1个量化比特，其他维度分量均采用原始值。

进一步的，所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。

进一步的，所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。

本发明所达到的有益效果：

本发明的特点是本发明采用MOS值作为量化比特分配依据，并采用了模拟退火算法寻求线谱频率参数标量量化的最优比特分配方案，该方法充分考虑到了线谱频率参数不同维的量化失真对合成语音质量的影响差异，并采用模拟退火算法寻找全局最优解，能够进一步提高线谱频率参数的量化效率，并提高合成语音的质量。

附图说明

图1是本发明提出的线谱频率参数标量量化比特分配流程框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种线谱频率参数量化比特分配方法，包括以下步骤：

（1）利用语音训练集，对线谱频率参数的每一维分量，分别训练生成量化层数为4、8、16、32的量化器，对应量化比特数分别为2、3、4、5，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分，在计算该分值时，除了当前量化器对应的维度分量，其他维度分量均采用原始值；设置总分配比特数Ｂ；

实施例：语音训练集按8KHz频率采样，16比特量化，线谱频率参数维度为10，采用LBG算法生成4、8、16、32不同量化层数的量化器，用P.862软件计算每一个量化器所对应的合成语音质量MOS得分，并进行存储。Ｂ由声码器分配给线谱频率参数的总比特数决定；该步骤中，计算每一维参数不同量化器对应的MOS值时，其他维参数取值不进行量化；

（2）将线谱频率参数每一维的初始比特分配数均设置为5，即量化层数为32；将线谱频率所有维的量化比特数累加求和得到ｂ；

实施例：线谱频率参数的10维分量初始比特分配均设置为5，初始MOS得分设置为量化层数为均为32时得分，该分值在步骤（１）中得到；ｂ＝５０；

（3）判断ｂ其是否等于分配比特数Ｂ，若是，进入步骤（5）；若否，从最低维到最高维，依次尝试减少1个量化比特，并计算其带来的合成语音质量MOS减少量；

实施例：根据步骤（１）中得到的线谱频率参数每一维不同量化比特数对应的MOS分值，求得当前线谱频率参数每一维减少１个量化比特带来的MOS得分减少量；

（4）比较步骤（3）中线谱频率参数各维减少1个量化比特所带来的MOS得分减少量，选取减少量最小的维度，为其减少1个量化比特，总量化比特数b减1，转至步骤（3）；

实施例：根据步骤（3）中求得的各维度减少1个量化比特所带来的MOS得分减少量，求最小值，并将其所对应的维度的量化比特数减1，同时令b=b-1；

（5）将当前量化比特分配方案设置为初始解，设置初始温度T=T0，设置最大迭代次数L；设置迭代初值k=1；

实施例：设置初始温度T=100，循环次数L=50；

（6）随机选择线谱频率参数的两个维度，量化比特数分别增加和减少1个；

实施例：以均匀概率从[1，10]区间范围内随意选择两个数值，将其对应的线谱频率参数的量化比特数分别增加和减少1个；

（7）计算新比特分配方案下的MOS得分增加量ΔM；

实施例：根据步骤（1）中得到的线谱频率参数每一维不同量化比特数对应的MOS分值，求得步骤(7)所述比特分配方案的MOS得分，并计算MOS得分增加量ΔM；

（8）若ΔM>0则接受新的比特分配方案，否则以概率exp(ΔM/T)接受新的比特分配方案；

（9）k 是否等于L，若回答为是，转入（10）执行，若回答为否，令k = k+1，T=T*0.9，转至步骤（6）；

实施例：如果迭代次数已满足，则转至步骤（10），否则，对T按照0.9的衰减因子进行衰减，即T= T*0.9；

（10）线谱频率参数量化比特分配过程结束。

本实施例中，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。

本实施例中，所述数据获取模块在计算MOS得分时，除了当前量化器对应的维度分量减少1个量化比特，其他维度分量均采用原始值。

本实施例中，所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。

本实施例中，所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。

本发明基于PESQ(Perceptual evaluation of speech quality)和模拟退火的线谱频率参数量化比特分配方法，以客观语音MOS得分作为线谱频率参数量化比特分配方案的依据，采用量化比特累减并比较MOS得分的方法得到初始比特分配，再采用模拟退火算法进行最优比特分配方案的全局最优搜索。与传统的基于比特分配方法相比，该方法充分考虑到了线谱频率参数每一维对合成语音质量影响的差异，并采用了模拟退火算法进行全局最优解搜索，能够进一步提高线谱频率参数的量化效率，改善合成语音质量。尤其适合中低速率的参数语音编码算法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种线谱频率参数量化比特分配方法，其特征在于，获取语音训练集中的线谱频率参数，将线谱频率参数的每一维分量，分别训练生成量化层数为4、8、16、32的量化器，层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5，计算每一个量化器所对应的合成语音质量MOS得分，在计算MOS得分时，除了当前量化器对应的维度分量减少1个量化比特，其他维度分量均采用原始值；设置总分配比特数B；将线谱频率参数每一维的初始量化比特数均设置为5，对应的量化层数为32，将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b；

2.根据权利要求1所述的线谱频率参数量化比特分配方法，其特征在于，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。

3.根据权利要求1所述的线谱频率参数量化比特分配方法，其特征在于，所述总分配比特数B由声码器分配给线谱频率参数的总比特数决定。

4.根据权利要求1所述的线谱频率参数量化比特分配方法，其特征在于，采用LBG算法生成4、8、16、32不同量化层数的量化器。

5.一种线谱频率参数量化比特分配系统，其特征在于，包括数据获取模块、第一判断模块、第二判断模块以及第三判断模块；

所述数据获取模块用于获取语音训练集中的线谱频率参数，将线谱频率参数的每一维分量，分别训练生成量化层数为4、8、16、32的量化器，层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5，计算每一个量化器所对应的合成语音质量MOS得分，在计算MOS得分时，除了当前量化器对应的维度分量减少1个量化比特，其他维度分量均采用原始值；设置总分配比特数B；将线谱频率参数每一维的初始量化比特数均设置为5，对应的量化层数为32，将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b；

6.根据权利要求5所述的线谱频率参数量化比特分配系统，其特征在于，采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。

7.根据权利要求5所述的线谱频率参数量化比特分配系统，其特征在于，所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。

8.根据权利要求5所述的线谱频率参数量化比特分配系统，其特征在于，所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。