CN1109697A

CN1109697A - 矢量量化器方法和设备

Info

Publication number: CN1109697A
Application number: CN94190277A
Authority: CN
Inventors: 艾瑞·A·格森; 马克·A·杰休科; 马休·A·哈特曼
Original assignee: Motorola Inc
Current assignee: BlackBerry Ltd
Priority date: 1993-03-26
Filing date: 1994-03-07
Publication date: 1995-10-04
Anticipated expiration: 2014-03-07
Also published as: SE518319C2; CA2135629C; SE9404086L; SG47025A1; AU6084396A; BR9404725A; GB9802900D0; JP3042886B2; CN1150516C; AU678953B2; US5675702A; DE4492048T1; WO1994023426A1; SE0201109D0; DE4492048C2; SE0201109L; AU668817B2; FR2706064A1; CN1166019A; US5826224A

Abstract

矢量相加激励的线性预测编码(VSELP)语音编码器提供了改进的质量，减少了通常语音编码器的复杂性。VSELP使用代码簿，它有一预先定义的结构使得代码簿搜索过程所要求的计算大为减少。这个 VSELP语音编码器运用基于定点阵技术(FLAT)的反射系数的单一或多段矢量量化器。此外，这个语音编码器使用预量化器来减小搜索的复杂性，使用高分辨标量量化器来减小所需要的存贮总量。以减少计算量和存贮要求。

Description

本发明一般地涉及使用代码激励的线性预测编码（CELP），使用随机编码或矢量激励的语音编码的语音编码器，以及更具体地讲，涉及用于矢量相加激励的线性预测编码（VSELP）的矢量量化器。

代码激励的线性预测（CELP）是一用于产生高质量合成语音的语音编码技术。这种语音编码也称为矢量激励的线性预测，被用于许多的语音通信和语音合成应用中。CELP特别是应用于数字语音加密和数字无线电话通信系统，这里语音质量，数据速率，大小和费用都是重要的问题。

在CELP语音编码器中，模拟输入语音信号特性的长期（音调（pitch））和短期（峰段（formant））预测器包含在一套时变滤波器内。具体地，可使用一个长期和一个短期滤波器。用于滤波器的激励信号从已存贮的改进序列的代码簿或码矢（codevectors）中选择。

对于每一帧语音，选择一最佳的激励信号。语音编码器施加一单独码矢到滤波器以产生一重建的语音信号，该重建的语音信号和原始输入的语音信号相比较，产生一误差信号。该误差信号通过一谱噪声加权滤波器被加权。谱噪声加权滤波器有一以人体听力感觉为基础的响应。最佳激励信号是一选出的码矢，对当时的语音帧它以最小能量产生加权的误差信号。

典型地，线性预测编码（LPC）是用来模拟采样区段内的短期信号相关，也称为短期滤波器。短期信号相关表示声道的谐振频率。LPC系数是一组语音模型参量。其它的参量组可用来表示加于短期预测滤波器的激励信号的特性。这些其它的语音模型参量包括：线谱频率（LSF），逆谱（cepstral）系数，反射系数，对数面积比和反正弦。

语音编码器通常对激励信号进行矢量量化以减少为表示信号特性所必需的比特数。LPC系数可在量化前被转换为其它的上述的参量组。这些系数可被单独地量化（标量量化）或被一组地量化（矢量量化）。标量量化不如矢量量化那样有效。然而标量量化在计算和存贮要求上比矢量量化费便宜。LPC参量的矢量量化是应用于主要考虑编码效率的地方。

多段矢量量化可被用来均衡编码效率，矢量量化器搜索复杂性，和矢量量化器存贮要求等。第一类多段矢量量化是将一Np元素的LPC参量矢量划分为n段，n段的每一段是单独地被矢量量化。第二类多段矢量量化是在n个矢量的代码簿中划分LPC参量，这里每个矢量代码簿复盖所有Np矢量元素。为了说明矢量量化，假设Np＝10个元素，每个元素以2比特代表。传统的矢量量化每10个元素将要求2²⁰个码矢来表示所有可能码矢的可能性。第一类带有两段的多段矢量量化每5个元素将要求2¹⁰+2¹⁰个码矢。第二类带有2段的多段矢量量化每5个元素将要求2¹⁰+2¹⁰个码矢。这些矢量量化的每一种方法对于编码效率，搜索复杂性和存贮要求等方面都提供不同的利益。这样，现代技术的语音编码器将会从矢量量化方法和设备（这些设备和方法增加了编码效率，或减少了搜索复杂性或存贮要求而无需改变相应的要求）中得益。

图1是一无线电通信系统的方框图，它包括依据本发明的语音编码器。

图2是依据本发明的语音编码器的方框图。

图3是依据本发明所使用的反正弦函数的曲线图。

这里描述代码激励线性预测编码（CELP）的一种变形，被称为矢量相加激励的线性预测编码（VSELP）是本发明的优选实施例。VSELP使用一具有预先定义的结构的激励代码簿，这样，代码簿搜索过程所要求的计算就大大减少。这个VSELP语音编码器使用基于定点点阵技术（FLAT）的反射系数的单一或多段矢量量化器。此外，这个语音编码器使用了预量化器以减少矢量代码簿搜索复杂性，和使用高分辨率标量量化器以减少为存贮反射系数矢量代码簿所需要的存贮器总量。这就得到一反射系数的高性能的矢量量化器，它在计算上是有效的并已减少了存贮要求。

图1是无线电通信系统100的方框图。无线电通信系统100包括两个收发机101，113，他们互相发送和接收语音数据。这两个收发机101，113可以是中继无线电系统，或无线电话通信系统或任何其它发送和接收语音数据的无线电通信系统的一部分。在发射机中，语音信号被输入到话筒108，语音编码器选择被量化的语音模型参量。被量化的参量的代码被发送到另一收发信机113。在另一收发信机113，所发送的被量化参量的代码被接收机121接收，并用来在语音译码器123中再生语音。再生的语音输出到扬声器124。

图2是一VSELP语音编码器200的方框图。VSELP语音编码器200使用所接收的代码来决定使用代码簿中的激励矢量。VSELP编码器使用有2^M个码矢（它由M个基本矢量构成）的激励代码簿。字度Vm（n）为第m个基本矢量，定义u_i（n）为代码簿中的第i个码矢。

于是

u_{i} (n)= Σ_{m-1}^{M} θ_{im} V_{m} (n) (1.10)

这里0≤i-≤2^M-1;0≤n≤N-1。换句话说，代码簿中的每一个码矢被构成为M个基本矢量的线性组合。线性组合由Q参量定义。

θ_im被定义为

θ_im＝+1如果码字i的比特m＝1

θ_im＝-1如果码字i的比特m＝0

码矢i被构成为M个基本矢量之和，这里每一基本矢量的符号（正号或负号）由码字i中相应的比特状态来决定。注意如果我们求补码字i中全部比特数，相应的码矢就是码矢i的负数。所以，对于每个码矢，它的负数也是代码簿中的一个码矢。由于为相应的码字彼此互补，这些码矢对被称为互补码矢。

适宜的矢量被选择后，增益单元205对所选择的矢量乘以增益项γ换算。增益单元205的输出加到一组线性滤波器207和209以获得重建语音的N个样值。滤波器包括一“长期”（或“音调”）滤波器207，它将音调周期性插入激励中。“长期”滤波器207的输出又加到“短期”（或“峰段”）滤波器209。短期滤波器209给信号加上谱包络。

长期滤波器207包括长期预测器系数（LTP）。长期滤波器207试图从一个或多个很远以前的样值中预测下一个输出样值。如果仅有一个过去的样值被应用于预测器中，那么，预测器就是一单抽头预测器。典型地使用一到三个抽头。含有一个单抽头长期预测器的长期（“音调”）滤波器207，其传递函数由（1.1）给出

B(z)= \frac{1}{{1-β}_{Z}^{-L}} (1.1)

B（z）的特性由两个量L和β表示。L称为“滞后”。对于声频的语音， L典型地应是音调周期或是它的倍数。L也可能是一非整数值。如果L是一非整数，一个内插的有限脉冲响应（FIR）滤波器被用来产生部分延迟的样值。β是长期（或“音调”）预测器系数。

短期滤波器209包括短期预测器系数a_i，它试图从前面的Np个输出样值中预测下一个输出样值。Np典型的范围是从8到12。在本优选的实施例中，Np等于10。短期滤波器209相当于传统的Lpc合成滤波器。短期滤波器209的传递函数由（1.2）给出

A(z)= \frac{1}{1- Σ_{i = 1}^{N_{P}} a_{i} z^{-1}} (1.2)

短期滤波器209的特性由a_i参量表示。对于全极点“合成”滤波器，它是直接形式滤波器系数。关于a_i参量的详情可在下面见到。

各种参量（代码，增益，滤波器参量）并不以相同的速率发送到合成器（语音译码器）。典型地，短期参量的更新通常比代码少。我们将定义短期参量更新率为“帧频”，更新之间的间隔为一“帧”。代码更新率由矢量长度N决定。我们将定义代码更新率为“子帧频”，代码更新间隔为“子帧”。一帧通常由整数个子帧组成。增益和长期参量可以子帧频，帧频或根据语音编码器设计的两者之间的某些速率更新。

代码簿搜索过程包括尝试每一个码矢作为可能激励CELP合成器的码矢。合成语音S′（n）在比较器211和输入语音S（n）相比较，而产生一差值信号e_i。这个差值信号e_i（n）由一谱加权滤波器W（z）213（也可能由第二加权滤波器C（z）加以滤波以产生一加权的误差信号e′（n）。e′（n）中的功率在能量计算器215上计算。产生最小加权误差功率的码矢被选为该子帧的码矢。谱加权滤波器213用来对基于感官考虑的误差谱进行加权。这个加权滤波器213是语音谱的一个函数，并能以短期（谱）滤波器209的a参量来表示。

有两种方法能用来计算增益γ。可以在根据残余能量的代码簿搜索之前决定增益。这个增益然后可被固定用于代码簿搜索。另一个方法是当代码簿搜索时优化每个码矢的增益。产生最小加权误差的码矢将被选择，并且它相应的最佳增益将被用于γ。由于增益是对每个码矢的优化，所以后一方法一般地能产生更好的效果。这个方法也意味着增益项必须以子帧频更新。此技术的最佳代码和增益可计算如下：

1.对于子帧计算已加权的输入信号y（n）。

2.计算d（n），子帧的B（z）和W（z）（和（C（z），如果使C（z）的情况下）滤波器的零输入响应。（零输入响应是滤波器没有输入时的响应;滤波器状态的衰减）。

3.在整个子帧计算 p（n）＝y（n）-d（n）（0≤n≤N-1）

4.对于每个代码i。

a.计算g（n），即码矢i的B（z）（和C（z），如果使用的情况下）的零状态响应。（零状态响应是将起始滤波状态置为零的滤波器输出）。

b.计算

C_{i} = Σ_{n=0}^{N-1} g_{i} (n)P(n) (1.5)

即，已滤波的码矢i和p（n）之间的互相关

c.计算

G_{i} = Σ_{n=0}^{N -1} {｜ g}_{i} (n) ｜^{2} (1.6)

即，已滤波的码矢i中的功率。

5.选择i，它使 ((G_i)²)/(G_i) （1.7）达到最大。

6.使用所选择的码字和它相应的量化增益，更新B（z）和W（z）（和C（z），如使用的情况下）滤波器的滤波状态，以得到合成器在步骤2的下一子帧起始的同样滤波状态。码矢i的最佳增益由（1.8）式给出

γ_{i} = \frac{C_{i}}{G_{i}} (1.8)

使用最佳增益γ_i的码矢i的总加权误差由（1.9）给出

E_{i} =(Σ_{n=0}^{N-1} P^{2} (n))- \frac{{(C}_{i})^{2}}{G_{i}} (1.9)

短期预测器参量是图2短期滤波器209的a_i＇。这些是标准的LPC直接形式滤波器系数，许多LPC分析技术可被用来决定这些系数。在本优选实施例中，使用了一个快速定点协方差点阵算法（FLAT）。FLAT具有点阵算法的全部优点，包括有保证的滤波器稳定性，非窗口分析和在循环内量化反射系数的能力。此外，FLAT在数值上是健全的，并能在一定点处理器上很容易实现。

短期预测器参量是从输入语音计算的，没有使用预加重。用于参量计算的分析长度是170个样值（N_A＝170）。预测器的阶数是10（Np＝10）。

这部分将详细描述FLAT算法。令落入分析间隔内输入语音的样值用S（n）表示;0≤n≤N_A-1。因为FLAT是一点阵算法，可以认为该技术是试图逐级地建立一最佳（它使残余能量最小）的逆点阵滤波器。定义b_j（n）为来自逆点阵滤波器第j级的反向余项，f_j（n）为来自逆点阵滤波器第j级的正向余项，我们可定义

F_{j} (i,k)= Σ_{{n-N}_{P}}^{N_{A} -1} f_{j} (n-i )f_{j} (n-k) (2.1)

为f_j（n）的自相关;

B_{j} (i,k)= Σ_{{n-N}_{P}}^{N_{A} -1} b_{j} (n-i-1 )b_{j} (n-k-1) (2.2)

为b_j（n-1）的自相关;以及

C_{j} (i,k)= Σ_{{n-N}_{P}}^{N_{A} -1} f_{j} (n-i )f_{j} (n-k-1) (2.3)

为f_j（n）和b_j（n-1）之间的互相关。

令r_j表示逆点阵第j级的反射系数。于是

F_j（i，k）＝F_j-1（i，k）+r_j（C_j-1（i，k）+C_j-1（k，i）+r_j ²B_j-1（i，k）（2.4）

和

B_j（i，k）＝B_j-1（i+1，k+1）+r_j（C_j-1（i+1，k+1）+C_j-1（k+1，i+1）+r_j ²F_j-1（i+1，k+1）（2.5）

和

C_j（i，k）＝C_j-1（i，k+1）+r_j（B_j-1（i，k+1）+F_j-1（i，k+1））+r_j ²C_j-1（k+1，i）（2.6）

我们已选择的用来决定r_j的公式可表示为

r_{j} =-2 \frac{C_{j - 1} {(0,0)+C}_{j - 1} {(N}_{P} {-j,N}_{P} -j)}{F_{j-1} {(0,0)+B}_{j-1} {(0,0)+F}_{j-1} {(N}_{P} {-j,N}_{P} {-j)+B}_{j-1} {(N}_{P} {-j,N}_{P} -j)} (2.7)

FLAT算法现可描述如下：

1.首先从输入语音中计算协方差（自相关）矩阵

φ(i,k)= Σ_{N_{P}}^{N_{A} -1} s(n-i)s(n-k) (2.8)

0≤i，k≤NP

2.FO（i，k）＝f（i，k） 0≤i，k≤NP-1 （2.9）

BO（i，k）＝f（i+1，k+1） 0≤i，k≤NP-1 （2.10）

CO（i，k）＝f（i，k+1） 0≤i，k≤NP-1 （2.11）

3.设j＝1

4.用（2.7）式计算r_j

5.如j＝Np，于是结束

6.用（2.4）计算F_j（i，k） 0≤i，k≤Np-j-1

用（2.5）计算B（i，k） 0≤i，k≤Np-j-1

用（2.6）计算C_j（i，k） 0≤i，k≤Np-j-1

7.j＝j+1;转到4

在解出反射系数之前，用给自相关函数开窗的方法修正φ数值

φ＇（i，k）＝φ＇（i，k）w（li-kl）（2.12）

在计算反射系数之前，给自相关函数开窗通称为谱平滑（SST）。

从反射系数r_j，可计算短期LPC预测系数a_i

使用反射系数的28比特三段矢量量化器。矢量量化器的段分别复盖反射系数r₁-r₃，r₄-r₆，和r₇-r₁₀。矢量量化器段的比特分配是

Q₁11比特

Q₂9比特

Q₃8比特

为避免穷举的矢量量化器搜索的计算复杂性，在每一段使用了反射系数矢量的预量化器。每段预量化器的大小是：

P₁6比特

P₂5比特

P₃4比特

在一给定段，来自预量化器的每个矢量的残余误差被计算并存入暂时存贮器中。搜索这个表以识别最低失真的4个预量化器矢量。每个选出的预量化器矢量的指数是用来计算进入矢量量化器表中的偏移，与预量化器矢量相连系的量化器矢量邻接的子集从这里开始。在第k段每个矢量量化器子集的大小由下式给出：

S_K= (2Q_k)/(2^Pk) （2.13）

与选出的预量化器矢量相连系的量化器矢量的4个子集被检索用来寻找产生最低残余误差的量化器矢量。这样，在第一段估算64个预量化器矢量和128个量化器矢量，在第二段估算32个预量化器矢量和64个量化器矢量，在第三段估算16个预量化器矢量和64个量化器矢量。通过上述具有频带扩展的FLAT技术所计算的最佳反射系数在矢量量化之前被转换为一自相关矢量。

FLAT算法的自相关方案AFLAT是被用来计算正在被估算的反射系数矢量的残余误差能量。象FLAT一样，当计算最佳反射系数或从当前段的矢量量化器中选择反射系数时，这个算法具有部分地补偿来自以前点阵级中反射系数量化误差的能力。这个改善对于具有高反射系数量化失真的帧是很重要的。现在描述AFLST算法（在带有预量化器的多段矢量量化器的范围内）：

在0≤i≤Np范围内，根据最佳反射系数计算自相关序列R（i）。或者，可根据其它的LPC参量表示（如直接形式LPC预测器系数a_i＇）来计算自相关序列，或直接根据输入语音来计算。

定义AFLAT循环的起始条件：

P_o（i）＝R（i），0≤i≤N_p-1 （2.14）

V_o（i）＝R（︱i+1︱），1-N_p≤i≤N_p-1 （2.15）

初始化矢量量化器段指数k：

k＝1 （2.16）

令I₁（k）是第k段中第一点阵级的指数，I_h（k）是第k段的最后点阵级的指数。在第k段估算来自点阵级I_h（k）的残余误差的循环，已知r，来自预量化器的反射系数矢量或来自量化器的反射系数矢量表示如下。

初始化点阵级的指数j，以指向第k段的开始：

j＝I₁（k）（2.17）

设置P_j-1和V_j-1的起始条件为

P_j-1（i）＝P_j-1（i），0≤i≤I_b（k）-I₁（k）+1 （2.18）

V_j-1（i）＝V_j-1（i），-I_b（k）+I₁（k）-1≤i≤I_b（k）-I₁（k）+1 （2.19）

用下式计算V_j和P_j数值，

P_j（i）＝（1+

）P_j-1（i）+

[V_j-1（i）+V_j-1（-i）]，0≤i≤I_h（k）-j （2.20）

V_j（i）＝V_j-1（i+1）+

V_j-1（-i-1）+2

P_j-1（︱i+1︱），j-I_h（k）≤i≤I_b（k）-j （2.21）

j增加：

j＝j+1 （2.22）

如j≤I_h（k）转到（2.20）式。

已知反射系数矢量，来自点阵级I_h（k）的残余误差由下式给出：

E_{r} =P_{I_{b} (k)} (0) (2.23)

使用概述的AFLAT循环，估算来自第k段预量化器的每个矢量引起的残余误差，识别要搜索的量化器矢量的4个子集，并计算来自所选出的4个子集的每个量化器矢量引起的残余误差。在4个子集中所有量化器矢量范围内使E_r为最小的量化器矢量

的指数，被用Q_k比特编码。如k＜3，于是在k+1段进行循环的起始条件需要计算。设点阵级指数j等于：

j＝I₁（k）（2.24）

计算：

P_j（i）＝（1+ ） P_j-1（i）+

[ V_j-1（i）+ V_j-1（-i）]，0≤i≤N_p-j-1 （2.25）

V_j（i）＝ V_j-1（i+1）+

V_j-1（-i-1）+2 P_j-1（︱i+1︱），j-N_p+1≤i≤N_p-j-1 （2.26）

j增加，

j＝j+1 （2.27）

如j≤I_h（k），转到式（2.25）

增加矢量量化器分段指数k：

k＝k+1 （2.28）

如k≤3，转到（2.17）。否则，选择三段的反射系数矢量的指数，并终止反射系数矢量量化器的搜索。

为了使反射系数矢量量化器的存贮要求为最小，单个反射系数的八位代码而不是实际的反射系数值被存贮于矢量量化器表中，该代码被用来从有256项的标量量化表中查寻反射系数值。八位代码表示通过均匀采样图3所示的反正弦函数所得到的反射系数值。反射系数值从-1到+1变化。当值是接近于+/-1的极限时，在反射系数域（X轴）中的非线性间隔提供更精确的反射系数。而当值是近于0时，提供稍差的精确度。假设为256量化级时，和在反射系数域中均匀采样相比较，这减少了由于反射系数的标量量化引起的谱失真。

Claims

1、矢量量化一最佳反射系数矢量的方法，该方法包括以下步骤：

a)将最佳反射系数矢量分为至少第一段和第二段；

b)提供反射系数的预定矢量的第一数组，每一矢量有多个元素；

c)从预定矢量的第一数组中选择第一矢量，提供第一选出的矢量；

d)对应于第一送出的矢量计算残余误差；

e)对于第一数组的每一矢量，重复步骤c和d；

f)从具有最低残余误差的第一数组中选择一个矢量，形成第一所选的矢量；

g)响应于第一所选的矢量，定义第二段的起始条件；

h)提供反射系数的预定矢量的第二数组，每一矢量有多个元素；

i)利用预定矢量的第二数组对于第二段重复步骤c-f并形成第二被选的矢量。

2、矢量量化一最佳反射参数矢量的方法，该方法包含以下步骤：

a）将最佳反射系数分为至少第一和第二段;

b）提供反射系数的预定矢量的第一数组，每一矢量有多个元素;

c）提供相应于最佳反射系数矢量的自相关矢量;

d）相应于提供自相关矢量的步骤，定义相关数组和互相关数组的起始条件;

e）把相关数组和互相关数组设置到已定义的起始条件;

f）从预定矢量的第一数值中选择第一矢量，提供第一选出的矢量;

g）对于第一选出的矢量的每一元素，更新相关数组和互相关数组;

h）响应于更新的步骤，定义对应于第一选出的矢量的残余误差;

i）对第一数组的每一矢量，重复步骤e-h;

j）从具有最低残余误差的第一数组中选择矢量，形成第一所选的矢量;

k）响应于第一所选的矢量，定义第二段的起始条件;

l）提供反射系数的预定矢量的第二数值，每一矢量有多个元素;以及

m）利用预定矢量的第二数组对于第二段重复步骤e-j，并形成第二所选的矢量。

3、矢量量化一最佳反射系数矢量的方法包含以下步骤：

提供反射系数的预定矢量的第一数组X;

预量化最佳反射系数矢量包含以下步骤：

提供反射系数的预定矢量的第二数组Y，这里X大于Y，

将预定矢量Y的每一个与预定矢量X的至少一个相关联起来;

计算相应于预定矢量Y的每一个矢量的残余误差，以及

响应于残余误差，选择预定矢量Y的一部分，形成被选中的预定矢量Y;

选择预定的矢量X的子集，它和被选的预定矢量Y有关;

决定相应于预定矢量X子集的每一个矢量的残余误差;以及

选择预定矢量X的子集的矢量，该矢量具有最低的残余误差。

4、语音编码的方法包含以下步骤：

接收语音数据，形成语音数据矢量;

提供预定矢量的第一数组;

从第一数组选择第一预定矢量，形成表示语音数据矢量第一段的第一被选的矢量;

提供预定矢量的第二数组;以及

从第二数组中选择第二预定矢量，形成表示语音数据矢量的第二段的第二被选的矢量。

5、无线电通信系统包含：

第一收发信机，包含：

接收数据形成数据矢量的装置;

提供预定矢量第一数组的装置;

从第一数组中选择第一预定矢量，形成表示语音数据矢量的第一段的第一被选的矢量的装置;

提供预定矢量的第二数组的装置;

从第二数组选择第二预定矢量，形成表示语音数据矢量的第二段的第二被选的矢量的装置;

发送第一和第二选择的矢量到第二收发信机的装置;以及

第二收发机，包括：

接收第一和第二被选矢量的装置，以及

响应于接收上述装置，重建数据矢量的装置。

6、存贮反射系数矢量的方法包含以下步骤：

提供具有2^N个反射系数值的表，每个反射系数值以N位代码寻址;和

存贮一个N位代码以表示表中的反射系数值中的一个值。

7、依照权利要求6存贮的方法，其中，反射系数值是非线性范围的。

8、依照权利要求6存贮的方法，其中，反射系数值是范围在-1和+1之间的反正弦。