CN1284137C

CN1284137C - 一种超帧声道参数矢量量化方法

Info

Publication number: CN1284137C
Application number: CNB2004100906614A
Authority: CN
Inventors: 崔慧娟; 唐昆; 赵永刚; 李军林
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2004-11-12
Filing date: 2004-11-12
Publication date: 2006-11-08
Anticipated expiration: 2024-11-12
Also published as: CN1614686A

Abstract

本发明涉及超帧声道参数矢量量化方法，属于低速率语音压缩编码技术领域。该方法首先对输入语音信号样点按时间顺序分帧；将连续的若干帧组成一个超帧，对超帧按时间顺序进行处理；对当前超帧中的每一帧提取声道A参数和清浊音参数；对当前超帧的清浊音参数矢量量化，根据量化值确定当前超帧的模式；将该提取的声道A参数转换成线谱对参数；从当前超帧线谱对参数中减去直流分量，直流分量由当前超帧模式确定；根据前一超帧和当前超帧的模式确定线谱对参数预测值，从去直流线谱对参数中减去该预测值，然后进行矢量量化。这种方法可以提高声道参数的量化精度，使合成语音具有更高的可懂性。该方法最适合600～800b/s低速率参数语音编码。

Description

一种超帧声道参数矢量量化方法

技术领域

本发明属于语音编码技术领域，特别涉及多帧联合处理低码率参数语音编码技术。

背景技术

语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和一些国家相继制定了一系列语音压缩编码标准，在编码速率为1.2kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在1.2kb/s以下速率高质量语音压缩编码上，主要用于无线通信、保密通信、大容量语音存储回放等。由于编码速率太低，必须采用多帧联合(即超帧)处理的参数语音编码技术，其中最关键的是如何对声道参数进行量化，因为声道参数量化所需要的比特数最高，对它量化的质量将决定语音可懂度。

直接对声道A参数量化效果不好，因此需要将声道A参数转成线谱对参数，然后再进行量化。如图1所示，该方法包括以下步骤：

(1)对输入语音信号样点按时间顺序分帧，将连续的若干帧组成一个超帧；

(2)对超帧按时间顺序进行处理，然后对当前超帧中的每一帧提取声道A参数；

(3)将当前超帧中的每一帧提取的声道A参数转换成线谱对参数；

(4)再从该线谱对参数中减去相应的直流分量，直流分量采用固定值，该固定值是用大量语音样本统计得到的；

(5)然后使用固定预测器和利用已处理过的上一个超帧线谱对参数对当前超帧中的每一帧线谱对参数的进行预测，从去直流线谱对参数中减去该预测值，得到当前超帧的余量线谱对参数；

(6)再对预测余量参数进行矢量量化，得到的量化后的预测余量参数加上对应的直流分量和预测值后得到量化后的线谱对参数；同时将量化后的预测余量参数送入延迟单元，延迟一个超帧为下一个超帧预测使用；

(7)最后将量化后的线谱对参数转换成声道A参数，得到量化后的声道A参数。

上述已有技术对于超帧线谱对参数采用矢量量化，在矢量量化之前也对线谱对参数去除直流分量和利用已处理过的上一超帧线谱对参数对当前超帧的线谱对参数进行预测，但没有充分考虑到语音短时特性以及激励参数和声道参数之间的相关特性。在去除线谱对参数的直流分量时通常将全部训练语音的平均值作为直流分量，而实际上不同的语音段的线谱对参数是有不同的直流分量。对于1.2kb/s及以上速率参数编码，由于量化线谱对参数可用比特数较多，可以用简单的去直流方法，仍然能够得到好的量化效果。对于更低码率语音参数编码，则必须采用更高效率的去直流分量的方法，才可能获得好的量化效果，进而得到好的语音质量。

如图1所示，在线谱对参数预测上，原有技术采用固定或基本固定的预测器，没有充分利用超帧之间、激励参数和声道参数之间的相关性。这对于采用超帧处理的更低码率参数语音编码，预测效率很低，是声道参数量化效果不好的主要原因之一。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种超帧声道参数矢量量化的方法，能够比较充分利用超帧之间、激励参数和声道参数之间的相关性，预测效率更高。

本发明提出的超帧声道参数量化方法，包括以下步骤：

(1)首先对输入语音信号样点按时间顺序分帧；将连续的若干帧组成一个超帧(对超帧按时间顺序进行处理)；

(2)对当前超帧中的每一帧提取声道A参数和清浊音参数；

(4)对当前超帧的清浊音参数矢量量化，根据量化值确定当前超帧的模式；

(5)根据当前超帧的模式确定当前超帧中每一个线谱对参数的直流分量，并从每一个线谱对参数中减去相应的直流分量(即采用了自适应去直流分量方法)；

(6)然后再根据前一个超帧和当前超帧的模式确定线谱对参数的预测值(即也使用了自适应的方法确定预测值)；

(7)从已去直流线谱对参数中减去该预测值，得到当前超帧的余量线谱对参数；

(8)对当前超帧的余量线谱对参数进行矢量量化，得到的量化后的余量线谱对参数加上步骤(5)中的直流分量和步骤(6)中的预测值，得到当前超帧量化后的线谱对参数(同时将该超帧量化后的线谱对余量参数加到延迟一超帧单元中)；

(9)将当前超帧量化后的线谱对参数转换成声道A参数，得到当前超帧量化后的声道A参数。

本发明的特点及技术效果

本发明的特点是对线谱对参数去直流分量采用了自适应的方法，对线谱对参数的预测也采用了自适应方法。传统的语音生成模型认为语音激励参数和声道参数是独立的，因此对它们分别进行处理，这对于编码速率较高的情况影响不大，而对于编码速率很低的情况就限制了性能的提高。本发明经过对大量语音样本统计，发现激励参数(即本发明中的清浊音参数)和声道参数存在一定的相关性，利用这种相关性可以提高低码率语音编码的性能。本发明利用清浊音参数这组参数可以对语音帧、超帧进行特性分类，达到对声道参数更好的量化。本发明根据当前被处理语音超帧的清浊音参数性质来确定线谱对参数直流分量，也就是利用了激励参数处理的结果来处理声道参数，达到了对直流分量更精确的估值。本发明除了利用当前超帧激励参数外，还利用了前一超帧激励参数共同决定当前超帧线谱对参数的预测模式，使预测模式分类更精细，达到了更好的预测效果。这种利用激励参数和声道参数之间存在的相关性，使得对声道参数量化的精度得到了提高，进而提高了低码率语音编码的质量。

本方法可以提高声道参数的量化精度，使合成语音具有更高的可懂性。该方法最适合600～800b/s低速率参数语音编码。

附图说明

图1为已有技术的超帧声道参数量化方法流程框图。

图2为本发明提出的超帧声道参数量化方法流程框图。

具体实施方式

本发明提出的超帧声道参数矢量量化的方法结合附图及实施例进一步说明如下：

本发明的方法流程如图2所示，包括以下步骤：

(2)对当前超帧中的每一帧提取声道A参数；

(3)将当前超帧中的每一帧声道A参数转换成线谱对参数；

(4)对当前超帧中的每一帧提取清浊音参数；

(5)对当前超帧的清浊音参数进行矢量量化，得到当前超帧量化后的清浊音参数量化值；

(6)根据当前超帧清浊音参数量化值确定当前超帧模式；

(7)根据当前超帧的模式确定当前超帧中每一个线谱对参数的直流分量，并从每一个线谱对参数中减去相应的直流分量；

(8)根据当前超帧模式和前一个超帧的模式确定一组线谱对参数预测系数；

(9)利用这一组预测系数和前一超帧中最后一帧量化后的去直流线谱对参数计算预测值；从当前超帧中每一个已去直流线谱对参数中减去相应的预测值，得到当前超帧的余量线谱对参数；

(10)对当前超帧的余量线谱对参数进行矢量量化，得到当前超帧量化后的余量线谱对参数；

(11)将上述步骤(7)得到的直流分量和上述步骤(9)得到的预测值加到量化后的余量线谱对参数中得到量化后的线谱对参数；同时将该量化后的线谱对余量参数加入到延迟一超帧单元中；

(12)将当前超帧量化后的线谱对参数转换成声道A参数，即得到量化后的声道A参数。

本发明上述方法各步骤的具体实施例分别详细说明如下：

上述方法步骤(1)对输入语音信号样点按时间顺序分帧，将连续的若干帧组成一个超帧的实施例是按8khz频率采样、已经过高通滤波去除工频干扰的语音样点。每20ms，也就是160个语音样点构成一帧，连续6帧组成一个超帧(根据编码速率选择一个超帧所晗帧的数目，例如编码速率为1200b/s可以选3帧，600b/s选6帧等)。

上述方法步骤(2)的实施例为：按美国政府2400b/s多带激励的线性预测(MELP)语音编码算法标准所描述的方法对当前超帧中的每一帧都提取10阶声道A参数aⁿ＝[a₁ ⁿ，a₂ ⁿ，…，a₁₀ ⁿ](n＝0，1，…，5)。

上述方法步骤(3)的实施例为：按美国政府2400b/s多带激励的线性预测(MELP)语音编码算法标准所描述的方法将当前超帧中的每一帧声道A参数转换成线谱对参数

f^{n} = [{f_{1}}^{n}, {f_{2}}^{n}, \cdot \cdot \cdot, {f_{10}}^{n}], (n = 0,1, \cdot \cdot \cdot, 5) .

上述方法步骤(4)的实施例为：按美国政府2400b/s多带激励的线性预测(MELP)语音编码算法标准所描述的方法对当前超帧中的每一帧都提取5个子带的清浊音参数，子带为清音用“0”表示，子带为浊音用“1”表示。这样一个超帧中6个帧总共有30个子带清浊音参数，构成一个30维的矢量，每一维的值为“0”或“1”，记做F

F = [B^{(0)}, B^{(1)}, \cdot \cdot \cdot, B^{(5)}] = [b_{1}^{(0)}, b_{2}^{(0)}, \cdot \cdot \cdot, b_{5}^{(0)}, \cdot \cdot \cdot \cdot \cdot \cdot, b_{1}^{(5)}, b_{2}^{(5)}, \cdot \cdot \cdot, b_{5}^{(5)}]

上述方法步骤(5)中的实施例为：对上述清浊音矢量F用4比特矢量量化，总共有16种超帧清浊音矢量量化值，每一个矢量量化值对应一种超帧模式；本实施例的矢量量化值码表由表1给出，对应的超帧模式也在表1中给出。量化失真测度采用加权欧氏距离准则，即使下式所示的失真D最小

D＝(F-F⁽ⁱ⁾)·W·(F-F⁽ⁱ⁾)^T

其中F⁽ⁱ⁾(i＝0，1，…，15)是矢量量化码本中的一个码字，加权矩阵W是一个对角矩阵，其值用来表示各子带重要性的不同。通常低带最重要，随着频带的升高重要性依次降低，对每帧的5个子带分配不同的权重，在本实施例中，5个子

带权重的比例为16∶8∶4∶2∶1，反映了低频子带比高频子带更重要，从而加权矩阵W如下所示：

每个码字都代表了超帧的一种模式，也就是说，通过超帧清浊判决参数的量化，可以确定超帧的模式。清浊音矢量量化码字是通过对训练语音样本统计得到的出现次数最多的16种超帧清浊音矢量。

上述方法步骤(6)的实施例为：通过步骤(5)的实施例中对清浊音矢量F量化的结果，利用表1确定当前超帧的模式，记作F₀，下标“0”表示当前超帧。

表1 超帧清浊音矢量量化码表和对应的超帧模式

超帧清浊音矢量量化值	对应超帧模式
超帧清浊音矢量量化值	对应超帧模式	10000 10000 10000 10000 00000 00000	1
11111 11111 11111 11000 10000 00000	2	10000 10000 10000 10000 00000 00000	1
11111 11111 11111 11000 10000 00000	2	00000 00000 11000 11111 11111 11111	3
00000 00000 00000 00000 10000 11100	4	00000 00000 11000 11111 11111 11111	3
00000 00000 00000 00000 10000 11100	4	10000 10000 00000 00000 00000 00000	5
11111 11111 11100 10000 00000 00000	6	10000 10000 00000 00000 00000 00000	5
11111 11111 11100 10000 00000 00000	6	00000 00000 00000 11100 11111 11111	7
11000 10000 10000 00000 10000 11100	8	00000 00000 00000 11100 11111 11111	7
11000 10000 10000 00000 10000 11100	8	10000 10000 10000 10000 10000 10000	9
11111 11111 11000 10000 10000 10000	10	10000 10000 10000 10000 10000 10000	9
11111 11111 11000 10000 10000 10000	10	10000 11000 11111 11111 11111 11111	11
11000 10000 10000 11000 11111 11111	12	10000 11000 11111 11111 11111 11111	11
11000 10000 10000 11000 11111 11111	12	00000 00000 00000 00000 00000 00000	13
00000 11000 11111 11111 11111 11111	14	00000 00000 00000 00000 00000 00000	13
00000 11000 11111 11111 11111 11111	14	11111 11111 11111 11111 11000 10000	15
11111 11111 11111 11111 11111 11111	16	11111 11111 11111 11111 11000 10000	15

上述方法步骤(7)的实施例为：使用上述步骤(5)的实施例方法得到的当前超帧模式F₀确定各帧线谱对参数的直流分量矢量

d^{n} (F_{0}) = (d_{1}^{n}, d_{2}^{n}, \cdot \cdot \cdot, d_{10}^{n}), n = (0,1, \cdot \cdot \cdot, 5),

并从对应的线谱对参数中减去直流分量，得到去直流分量后的线谱对参数lⁿ＝[l₁ ⁿ，l₂ ⁿ，…，l₁₀ ⁿ](n＝0，1，…，5)

lⁿ＝fⁿ-dⁿ(F₀)，(n＝0，1，…，5)

直流分量

d^{n} (F_{0}) = (d_{1}^{n}, d_{2}^{n}, \cdot \cdot \cdot, d_{10}^{n}), n = (0,1, \cdot \cdot \cdot, 5)

是用训练语音得到的。本实施例的具体做法是将训练语音按超帧模式分成16个子集，对每个子集的线谱对参数分别求平均值即得到线谱对参数直流分量。

获得上述步骤(8)的预测系数是按前一超帧的模式和当前超帧模式确定的超帧转移模式将训练语音分集，按均方误差最小原则对每个集分别求出一组预测系数。该步骤(8)的实施例为：根据当前超帧模式F₀和前一超帧模式F_-1的转移模式(F_-1，F₀)确定一组线谱对参数预测系数矩阵αⁿ(F_-1，F₀)，(n＝0，1，…，5)，它是一个10×10的矩阵。

上述方法步骤(9)的实施例为：利用上述步骤(8)的实施例方法得到的预测系数矩阵αⁿ(F_-1，F₀)和前一超帧中最后一帧量化后的去直流线谱对参数矢量

{\hat{l}}_{- 1}^{5} = (l_{- 1,1}^{5}, l_{- 1, 2}^{5}, \cdot \cdot \cdot, l_{- 1,10}^{5})

计算预测值，并从上述步骤(7)的实施例得到的当前超帧中每一个已去直流线谱对参数lⁿ＝[l₁ ⁿ，l₂ ⁿ，…，l₁₀ ⁿ](n＝0，1，…，5)中减去相应的预测值，得到当前超帧的余量线谱对参数

r^{n} = (r_{1}^{n}, r_{2}^{n}, \cdot \cdot \cdot, r_{10}^{n}), (n = 0,1, \cdot \cdot \cdot, 5),

即

r^{n} = l^{n} - α^{n} (F_{- 1}, F_{0}) \cdot {({\hat{l}}_{- 1}^{5})}^{T}, (n = 0,1, \cdot \cdot \cdot, 5)

上式中的T代表转置。预测系数矩阵αⁿ(F_-1，F₀)是用训练语音得到的。本实施例的具体做法是按转移模式(F_-1，F₀)将训练语音分集，对每个集分别求αⁿ(F_-1，F₀)，使下式最小：

\min E (Σ_{i = 0}^{5} {(l^{i} - α^{i} (F_{- 1}, F_{0}) \cdot {\hat{l}}_{- 1})}^{2})

式中E代表求平均。

上述方法步骤(10)的实施例的具体做法为：先将当前超帧中6个帧的6个余量线谱对参数矢量重新组成2个30维的矢量如下式所示，

R_{1} = (r_{1}^{0}, r_{2}^{0}, r_{3}^{0}, r_{4}^{0}, r_{5}^{0}, r_{1}^{1}, r_{2}^{1}, r_{3}^{1}, r_{4}^{1}, r_{5}^{1} \cdot \cdot \cdot, r_{1}^{5}, r_{2}^{5}, r_{3}^{5}, r_{4}^{5}, r_{5}^{5})

R_{2} = (r_{6}^{0}, r_{7}^{0}, r_{8}^{0}, r_{9}^{0}, r_{10}^{0}, r_{6}^{1}, r_{7}^{1}, r_{8}^{1}, r_{9}^{1}, r_{10}^{1}, \cdot \cdot \cdot, r_{6}^{5}, r_{7}^{5}, r_{8}^{5}, r_{9}^{5}, r_{10}^{5})

然后对这两个矢量分别进行多级矢量量化(MSVQ)。其中对矢量R₁采用总共26比特的三级矢量量化，前两级分别为9比特，第三级为8比特；对矢量R₂采用总共21比特的三级矢量量化，三级比特分别为8比特、7比特和6比特。矢量量化码本对训练语音采用模拟退火训练法得到。量化后的R₁、R₂按原来元素的归属重新构成6个10维矢量，即得到量化后的6个10维余量线谱对参数矢量。

上述方法步骤(11)中将相应的直流分量和预测值加到当前超帧相应的量化后的余量线谱对参数中，得到当前超帧量化后的线谱对参数，即

{\hat{f}}^{n} = {\hat{r}}^{n} + α^{n} (F_{- 1}, F_{0}) \cdot {({\hat{l}}_{- 1}^{5})}^{T} + d (F_{0}), (n = 0,1, \cdot \cdot \cdot, 5)

式中

是当前超帧中第n帧量化后的线谱对参数矢量，

是当前超帧中第n帧量化后的余量线谱对参数矢量。

上述方法步骤(12)的实施例为：按照美国政府2400b/s多带激励的线性预测(MELP)语音编码算法标准所描述的方法将量化后的线谱对参数转换成声道A参数，即得到量化后的声道A参数。

Claims

1、一种超帧声道参数矢量量化的方法，其特征在于该方法包括以下步骤：

(2)对当前超帧中的每一帧提取声道A参数；

(3)将当前超帧中的每一帧声道A参数转换成线谱对参数；

(4)对当前超帧中的每一帧提取清浊音参数；

(6)根据当前超帧清浊音参数量化值确定当前超帧模式；

(9)利用这一组预测系数和前一超帧中最后一帧量化后的余量线谱对参数计算预测值；从当前超帧中每一个已去直流线谱对参数中减去相应的预测值，得到当前超帧的余量线谱对参数；

(11)将上述步骤(7)得到的直流分量和上述步骤(9)得到的预测值加到量化后的余量线谱对参数中得到量化后的线谱对参数；

(12)将当前超帧量化后的线谱对参数转换成声道A参数，得到量化后的声道A参数。

2、按权利要求1所述的方法，其特征在于，所述步骤(1)中每一个超帧包含6个帧，每一个帧包含160个语音样点。

3、按权利要求2所述的方法，其特征在于，所述步骤(5)中对当前超帧的每一帧都提取5个子带的清浊音参数，共得到30个清浊音参数，用4比特进行矢量量化，总共有16种超帧清浊音矢量量化值；清浊音矢量量化采用加权欧氏距离准则，对所述每帧的5个子带分配不同的权重，该各加权因子的比例关系为16∶8∶4∶2∶1；清浊音矢量量化值是通过对训练语音样本统计得到的出现次数最多的16种超帧清浊音矢量，这16个矢量分别对应一种超帧模式。

4、按权利要求1所述的方法，其特征在于，获得所述步骤(7)中的线谱对参数的直流分量的具体方法为：将训练语音按超帧模式分成16个子集，对每个子集的线谱对参数分别求平均值，该平均值为该超帧模式下线谱对参数直流分量。

5、按权利要求1所述的方法，其特征在于，获得所述步骤(8)的预测系数是按前一超帧的模式和当前超帧模式确定的超帧转移模式将训练语音分集，按均方误差最小原则对每个集分别求出一组预测系数。