CN109448739A

CN109448739A - 基于分层聚类的声码器线谱频率参数量化方法

Info

Publication number: CN109448739A
Application number: CN201811524849.3A
Authority: CN
Inventors: 李晔; 张鹏; 张�杰; 宫晓飞
Original assignee: Shandong Computer Science Center
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan; Shandong Computer Science Center
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-03-08
Anticipated expiration: 2038-12-13
Also published as: CN109448739B

Abstract

本发明公开了一种基于分层聚类的声码器线谱频率参数量化方法，包括：接收语音信号并按帧提取线谱频率参数和清浊音参数；将连续若干帧的线谱频率参数和清浊音参数分别联合，组成超帧线谱频率矢量和超帧清浊音矢量；对当前超帧清浊音矢量进行矢量量化，得到量化索引，其中，当前超帧和上一超帧对应的量化索引联合组成当前转移模式；分别计算该转移模式下的线谱频率参数的直流分量，并训练预测系数，得到该转移模式下当前超帧余量线谱频率参数；根据当前转移模式选择对应量化码本，对余量线谱频率参数进行多级矢量量化，得到量化后的余量线谱频率参数。该方法考虑了线谱频率参数在不同状态下的统计特性差异，能够提高线谱频率参数的量化质量。

Description

基于分层聚类的声码器线谱频率参数量化方法

技术领域

本公开属于语音编码技术领域，尤其涉及基于参数编码的低速率声码器技术。

背景技术

语音编码在通信系统、录放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和国家相继制定了一系列语音压缩编码标准，在高于2400bps的编码速率上取得了令人满意的语音质量。目前国内外的研究主要集中在2400bps以下速率高质量语音压缩编码上，主要用于无线通信、保密通信、水声通信等领域。在2400bps速率以下的语音编码算法中，高效量化用来描述声道特征的线谱频率参数极为重要，其量化质量直接影响合成语音的可懂度。目前，对线谱频率参数的量化方法有：将连续多帧线谱频率参数合并为超帧线谱频率参数采用矢量量化，在矢量量化之前对线谱频率参数去除直流分量和预测分量，再进行多级矢量量化。在多级矢量量化过程中，是根据当前超帧子带清浊音参数的量化索引值(当前超帧清浊音模式)选择对应的量化码本。实际情况是，这种码本选择方法主要考虑当前超帧的清浊音模式，并没有充分考虑到线谱频率参数在不同模式下统计特征的差异程度，因而量化质量并不是最优的。

发明内容

为克服上述现有技术的不足，本公开提供了一种声码器线谱频率参数量化方法和声码器。本发明采用的量化码本选择方法不仅考虑当前帧的清浊音模式，还考虑历史帧的清浊音模式，即综合考虑了清浊音的超帧间转移模式，然后采用分层聚类的方法对众多的清浊音超帧转移模式进行聚类，同一类别的清浊音超帧转移模式采用相同的码本，从而进一步提高了线谱频率参数的量化质量。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

一种基于分层聚类的声码器线谱频率参数量化方法，包括：

接收语音信号，对所述语音信号按时间顺序进行分帧，并按帧提取线谱频率参数和清浊音参数；

将连续若干帧的线谱频率参数和清浊音参数分别联合，组成超帧线谱频率矢量和超帧清浊音矢量；

对当前超帧清浊音矢量进行矢量量化，得到相应的量化索引，其中，当前超帧和上一超帧的清浊音矢量对应的量化索引联合组成当前转移模式；

分别计算该转移模式下的线谱频率参数的直流分量，并训练预测系数，从而得到该转移模式下当前超帧余量线谱频率参数；

根据当前转移模式选择对应量化码本，对余量线谱频率参数进行多级矢量量化，得到当前超帧量化后的余量线谱频率参数。

进一步地，所述提取线谱频率参数和清浊音参数包括提取10维的线谱频率参数以及5个子带的清浊音参数。

进一步地，所述量化码本从量化码本集合中选择，其中，所述量化码本集合获取方法包括：

训练所有转移模式相应的码本，记为初始码本集合；

基于分层聚类方法对所有转移模式进行聚类分析，得到多个类别的转移模式和各类别对应的码本，即量化码本集合。

进一步地，所述基于分层聚类方法对所有转移模式进行聚类分析包括：

(1)根据当前超帧和上一超帧的清浊音矢量对应的量化索引确定线谱频率参数量化的初始模式，分别训练得到每个模式对应的初始码本；

(2)分别求取所有码本两两之间的质心距，找到质心距最小的两个码本，将两个码本对应的模式合并为一个模式，状态数S＝S-1，对合并后的状态重新训练得到其对应码本；

(3)设L为量化码本集合中设定的码本个数，若S>L，转至步骤2；若S＝L，则分层聚类结束，进入步骤(4)；

(4)对合并后的L个模态，按照线谱频率参数的比特数分配，分别训练得到其多级矢量量化码本，得到量化码本集合，分层聚类过程结束。

进一步地，所述该转移模式下的线谱频率参数的直流分量为：语音库所有该模式下的线谱频率参数值的平均数。

进一步地，所述预测系数训练方法为：根据语音库所有该转移模式下的线谱频率参数，根据预测后的余量均方误差最小的准则得到。

进一步地，所述该转移模式下当前超帧余量线谱频率参数计算方法为：当前超帧余量线谱频率参数＝当前超帧线谱频率矢量-所述直流分量-预测系数×上一超帧中最后子帧。

以上一个或多个技术方案存在以下有益效果：

本发明改进了线谱频率参数矢量量化时的模式分类方法，以当前帧与历史帧的清浊音模式作为量化模式状态判决时的基本输入信息，即综合考虑了清浊音的超帧间转移模式，然后采用分层聚类的方法对众多的清浊音超帧转移模式进行聚类，直到聚类后的状态数达到预先设定的状态数量，同一类别的清浊音超帧转移模式采用相同的码本。与传统的基于清浊音模式的量化模式分类方法相比，该方法充分考虑到了线谱频率参数在不同状态下的统计特性差异，能够进一步提高线谱频率参数的量化质量。

本发明可以有效提高线谱频率参数的量化质量，该方法最适合2400bps以下的低速率及超低速率的声码器算法。

附图说明

构成本公开的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一基于分层聚类的声码器线谱频率参数量化方法。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于分层聚类的声码器线谱频率参数量化方法，如图1所示，包括以下步骤：

步骤1：对输入语音信号样点按时间顺序分帧；

对输入语音按8KHz频率采样，每20ms(160个语音样点)构成一帧，连续4帧组成一个超帧(根据编码速率选择一个超帧所语音帧的数目，例如编码速率为1200bps可以选2帧，600bps选4帧)。

步骤2：按帧提取线谱频率参数以及清浊音参数；

按美国政府2400bps混合激励线性预测语音编码算法标准(MELP，MixedExcitation Linear Prediction)所描述的方法对当前帧提取10维的线谱频率参数lsf以及5个子带的清浊音参数bpvc，每个子带清音用“0”表示，浊音用“1”表示。

步骤3：将连续的若干帧的线谱频率参数组成一个超级矢量LSF，将连续若干帧的清浊音参数组成一个超级矢量BPVC；

具体地，将超帧中4个帧的线谱频率参数与子带清浊音参数分别联合，组成超级矢量LSF和BPVC，如下：LSF＝[lsf₁,lsf₂,lsf₃,lsf₄]，BPVC＝[bpvc₁,bpvc₂,bpvc₃,bpvc₄]；

步骤4：对清浊音超级矢量BPVC进行矢量量化，得到其量化值Index_{cur_bpvc}；

每个超帧和其上一超帧的清浊音矢量对应的量化索引联合均组成一个转移模式。

对上述清浊音矢量BPVC进行矢量量化，采用4个量化比特，码本包含16个矢量。量化失真测度采用加权欧氏距离准则，对每帧的5个子带分配不同的权重，权重系数为wgt＝{16,8,4,2,1}，低频子带加权系数高于高频子带。量化码本中的16个清浊音矢量是通过对训练语音样本统计出现频率得到的，选取了出现频率最高的16个清浊音矢量。

步骤5：针对各个转移模式，分别计算相应模式下的线谱频率参数的直流分量，并训练相应模式下的预测系数，从而得到每个转移模式下超帧余量线谱频率参数；

步骤5.1：根据BPVC量化索引Index_{cur_bpvc}确定线谱频率参数的直流分量，并从线谱频率参数中减去相应的直流分量；

本步骤中的直流分量是用训练语音得到的，具体做法是将训练语音按超帧的BPVC量化索引分成16个训练语音集，对每个训练语音集的线谱频率参数分别求平均值即得到该BPVC量化索引下线谱频率参数的直流分量。

步骤5.2：根据当前超帧BPVC的量化索引Index_{cur_bpvc}和前一个超帧BPVC的量化索引Index_{last_bpvc}确定线谱频率参数预测系数；

根据当前超帧BPVC的量化索引Index_{cur_bpvc}和前一个超帧BPVC的量化索引Index_{last_bpvc}确定一组线谱频率参数预测系数，该组预测系数通过离线对每组转移模式下训练样本的线谱频率参数预测误差最小均方准则统计得到。

设当前超帧线谱频率矢量为l_n＝{l_n,1,l_n,2,...,l_n,i,...,l_n,j}，l_n表示第n个超帧对应的线谱频率矢量，j表示组成超帧线谱频率矢量的连续帧数；上一超帧最后子帧对应的线谱频率参数值为l_n-1,j。

步骤5.3：利用线谱频率预测系数和前一超帧线谱频率超级矢量的最后一帧量化后的余量线谱频率参数计算预测值；从当前超帧线谱频率矢量中每一个已去直流线谱频率参数中减去相应的预测值，得到当前超帧的余量线谱频率参数；

具体地，利用上述步骤5.2得到的预测系数矩阵和前一超帧中最后一帧量化后的去直流线谱对参数矢量计算预测值，并从上述步骤5.1得到的当前超帧中每一个已去直流线谱对参数中减去相应的预测值，得到当前超帧的余量线谱对参数。

步骤6：根据当前超帧BPVC的量化索引Index_{cur_bpvc}选和上一超帧BPVC的量化索引选择对应的量化码本，对余量线谱频率参数进行多级矢量量化，得到当前超帧量化后的余量线谱频率参数；

步骤6.1：接收所有转移模式相应的码本，记为初始码本集合；

步骤6.2：基于分层聚类方法对所有转移模式进行聚类分析，得到多个类别的转移模式和各类别对应的码本；

表1.超帧清浊音转移模式及其对应的量化码本

如表1所示，K表示清浊音参数量化码本中矢量的个数，C_i,j表示上一超帧清浊音参数量化索引为i且当前超帧清浊音参数量化索引为j时所选择的量化码本，C_i,j的取值空间为一个码本集合C＝{C₁,C₂,...,C_L}，即C_i,j∈{C₁,C₂,...,C_L}。其中L为码本集合中码本的个数，也是线谱频率参数量化的状态模式个数。码本集合C的L个模态采用分层聚类的方法得到，具体如下：

·Step1.根据当前超帧BPVC的量化索引Index_{cur_bpvc}选和上一超帧BPVC的量化索引Index_{last_bpvc}确定线谱频率参数量化的初始状态，分别训练得到每个状态对应的初始码本初始态数为S＝K²，初始码本的尺寸为256；

·Step2.令i＝0，分别求取所有码本的质心距，找到质心距离最小的两个码本，将两个码本对应的状态合并为一个状态，状态数S＝S-1，对合并后的状态重新训练得到其对应码本；

·Step3.若S>L，令i＝i+1，转至Step2；若S＝L，则状态分层聚类结束，进入Step4；

·Step4.对合并后的L个模态，按照线谱频率参数的比特数分配，分别训练得到其多级矢量量化码本C＝{C₁,C₂,...,C_L}，分层聚类过程结束。

其中，上述步骤中，码本根据所有训练矢量集得到，根据训练矢量集得到码本的方法可以参考杨行峻等人著《语音信号数字处理》第92-95页中所述LBG方法。

步骤6.3：根据当前超帧BPVC的量化索引Index_{cur_bpvc}选和上一超帧BPVC的量化索引Index_{last_bpvc}从表1种选择对应的量化码本，对余量线谱频率参数进行多级矢量量化，得到当前超帧量化后的余量线谱频率参数。

以上一个或多个实施例具有以下技术效果：

本领域技术人员应该明白，上述本申请的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

1.一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，包括：

2.如权利要求1所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述提取线谱频率参数和清浊音参数包括提取10维的线谱频率参数以及5个子带的清浊音参数。

3.如权利要求1所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述量化码本从量化码本集合中选择，其中，所述量化码本集合获取方法包括：

训练所有转移模式相应的码本，记为初始码本集合；

4.如权利要求1所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述基于分层聚类方法对所有转移模式进行聚类分析包括：

5.如权利要求1所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述该转移模式下的线谱频率参数的直流分量为：语音库所有该模式下的线谱频率参数值的平均数。

6.如权利要求5所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述预测系数训练方法为：根据语音库所有该转移模式下的线谱频率参数，根据预测后的余量均方误差最小的准则得到。

7.如权利要求6所述的一种基于分层聚类的声码器线谱频率参数量化方法，其特征在于，所述该转移模式下当前超帧余量线谱频率参数计算方法为：当前超帧余量线谱频率参数＝当前超帧线谱频率矢量-所述直流分量-预测系数×上一超帧中最后子帧的线谱频率参数值。