CN1239569A

CN1239569A - 一种编码语音信号的方法

Info

Publication number: CN1239569A
Application number: CN 97180220
Authority: CN
Inventors: 朱伟文; 高树义
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 1997-09-30
Filing date: 1997-09-30
Publication date: 1999-12-22

Abstract

公开了一种语音编码方法，其中该语音信号被采样并分割成多个帧，在该帧上执行多带激励分析以获取该带内的一基本音高、多个发声/不发声判定和谐音幅度。谐音幅度被分成固定数目的谐音的第一组和其余谐音的第二组，这两个组中的第一组利用离散余弦比变换、第二组利用非一平方变换分别进行变换，所得的变换系数被矢量量化以形成多个输出索引。还公开了一种执行编码和解码方法的解码方法及设备。

Description

一种编码语音信号的方法

本发明涉及编码语音信号的方法及设备，特别地，但不专门地涉及低比特率传输及存储的语音的编码方法及设备。

发明背景

在许多音频应用中需要数字地传送或存储例如语音信号的视频信号。不是试图采样然后再直接复制一语音信号，而是应用一语音编码器，它构造一包含该音频信号的关键特征的合成语音信号，该合成语音信号然后被解码以供复制。

已提出的用于语音编码器的一种编码算法利用称作“多带激励(MBE)模型”的一种语音模型，该模型首次在Griffin和Lim的论文“多带激励语音编码器”中提出(IEEE Transactions on Acoustics，语音与信号处理，vol36，No.8,1988年8月8日，第1223页)。该MBE模型将语音信号分成多个帧，这些帧被独立地分析以产生描述该帧的语音信号的一个参数集合，这些参数然后被编码以供传输/存储。每帧中的语音信号被分成一定数目的频带，对于每个频带判断该频谱部分是发声的还是不发声的，然后表示为对于发声判定的周期性能量或对于不发声判定的类噪声能量。利用该模型，每帧中的语音信号的特征信息包括：该帧中的语音信号的基本频率、各频带的发声/不发声判定及每一频带内的各谐音的对应幅度。这些信息于是被变换及矢量量化以提供编码器输出。该输出以相反过程被解码。利用多带激励模型实现语音编码器的一种建议可在Inmarsat-M VoiceCodec，Ver.3,1991年8月SDM/Mod.1/Appendix 1(数字语音系统公司)中找到。

实现这样一个语音编码器的问题是，基本音高周期和谐音的数目帧与帧间是变化的，这是因为这些特征是讲话者的函数。例如，男性语音通常具有较低的基本频率和较多的谐音成分，而女性语音具有较高的基本频率和较少的谐音成分。这就引起变维数的矢量量化问题。此问题的一个建议解决方案是通过仅选择预定数量的谐音来截短语音信号。然而，这样的方法引起了不能接受的语音质量下降，尤其是当需要识别重构的语音信号的讲话者时。

减轻上述问题的一个建议是利用非一平方变换(Non-Squaretransform NST)矢量量化，如Lupini和Cuperman在IEEE信号处理通讯，vol3，No.1,1996年1月提出的，及Cuperman、Lupini和Bhattachary在论文“2.4KB/S的语音谱激励编码”(IEEE语音学国际年会，语音及信号处理第一卷)中提出。利用此方法NST变换将变化数目的谱谐音幅度变换成待矢量量化的固定数目的变换系数。

但是，这种方法的一个不利之处在于，在NST操作中涉及非常高的计算复杂程度。这是因为将变化维数的矢量变换成此方法中的30或40维的矢量计算程度非常复杂，且需要大量的存储器来存储变换矩阵的元素。建议的固定维数的矢量需要的一级量化也需要大量计算。NST矢量量化的另一个不利之处在于这种技术引起语音信号的失真，这在矢量矢化器的号码本尺寸较小时会降低复制的语音的感知质量。

在某些应用中，需要编码低比特率的语音，例如2.4KBP或更少。以这种方法编码的语音信号需要更少的存储器来数字地存储该信号，于是，使利用该比特率的设备成本不变。但是，需要很高计算能力和存储器以及具有失真问题的NST矢量量化的使用不能提供低比特率的语音编码及存储的低成本问题的一个可行的解决方案。

本发明的目的在于提供一种语音编码的方法和设备，它能够消除已有技术的至少一个不利之处。

发明概述

根据本发明的第一方面提供了编码语音信号的方法，包括步骤：

采样语音信号；

将样本语音信号分成多个帧；

在每帧内对信号执行多带激动分析以获取一基本音高，信号中的各频带的多个发声/不不发声判定及所述频带内的谐音幅度；

对谐音幅度进行变换以形成多个变换系数；

对该系数做矢量量化以形成多个索引；其特征在于：

将谐音幅度分成固定数量的谐音的第一组及剩余的谐音的第二组，第一组及第二组被做不同的变换以形成用于量化的各自的第一及第二集合变换系数。

较好地，第一变换是离散余弦变换(DCT)，它将第一预定数目的谐音变换成同样数目的第一变换系数。较好地，第二变换是非一平方变换(NST)，它将其余的谐音变换成固定数目的第二变换系数。

更好地，第一组包括音频信号的前8个谐音，这8个谐音被变换成8个变换系数，第二组包括其余的谐音，它们也被变换成8个变换系数。

利用本发明的方法，选择的第一组谐音为用于识别重构的语音信号目的的最重要的谐音。由于这样的谐音的数目是固定的，便有可能利用如DCT的固定维数变换，以使失真最小，并保持最重要的参数的维数不变。另一方面，其他的次重要的谐音利用NST变维进行变换。由于只有次重要的谐音利用NST进行变换，就使得该音频信号的复制失真最小。

此外，由于谐音被分成二组，使得变换及编码较小矢量需要的计算能力变小，于是，减小了编码器需要的计算能力。

根据本发明的第二方面，提供了一种解码输入数据信号用于语音合成的方法，包括步骤：

对数据信号的多个索引作矢量去量化，以形成第一和第二变换系数集合；

变换第一、第二系数集合，以获取第一、第二谐音幅度组；

从输入的数据信号中获取音高和发声/不发声判定信息；

对该信息和谐音幅度执行多带激励合成，形成合成的信号；及

从合成的信号构造一语音信号。

根据本发明的第三方面，提供了一种语音编码设备，包括：

用于采样语音信号并将采样的信号分成多个帧的装置；

多带激励分析器，用于获取第一帧内的一个基本音高及各频带的多个发声/不发声判定及所述频带内的谐音幅度；

变换装置，用于对谐音幅度做变换以形成多个变换系数；

矢量量化装置，用于量化该系数以形成多个索引；

其特征在于：该变换装置包括第一变换装置和第二变换装置，第一变换装置用于将固定数目的谐音组成的第一组变换成第一集合的变换系数，第二变换装置用于将其余的谐音幅度变换成第二集合的变换系数。

根据本发明的第四方面，提供了一种用于解码输入数据信号以作语音合成的解码设备，包括：矢量去量化装置，用于以对多个索引去量化以形成至少两个变换系数集合；第一和第二变换装置，用于分别对第一、第二变换系数集合作反变换以获取第一、第二组谐音幅度；多带激励合成器，用于组合谐音及输入信号的音高和发声/不发声判定信息；及用于从合成器输出构造一语音信号的装置。

下面将参照附图以举例的形式说明本发明的实施例。

图1是本发明的编码设备的一个实施例的方框图；

图2是用于解码利用图1所示实施例编码的语音的本发明的解码设备的一个实施例的方框图。

优选实施例的详细说明

参照图1，示出了根据本发明的编码设备的一个实施例。

该实施例基于多带激励(MBE)语音编码器，其中一输入语音信号在方框100被采样及作模数转换(A/D)。然后样本在方框110利用MBE模型被进行分析。MBE分析将样本分组成160个样本的帧，对每一帧执行离散付立叶变换，获取该帧的基本音高并把该帧的谐音分割成多个带，对每个带作发声/不发声判断。然后利用传统的MBE量化器120对这些信息进行量化(音高信息量化成8比特，发声/不发声判定要求是1比特)，并在方框130与矢量量化的谐音组合以形成待传输或存储的每一帧的数字表示。

在110步，MBE分析还提供谐音幅度的输出，每一输出对应语音信号帧的一个谐音。谐音幅度的数目N根据帧中的语音信号变化并被分成二组，通常是该帧中最重要的谐音的前8个谐音组成的固定尺寸组和其余谐音组成的变化尺寸组。前8个谐音在方框130进行离散余弦变换以形成方框150处的包括8个第一变换系数的第一形状矢量。其余的N—8个谐音在方框160作NST变换，以在方框170形成8个最后变换系数，通常为最重要的谐音的前8个谐音(作DCT变换)被作精确变换。其余谐音利用NST作欠精确变换，但由于这些谐音欠重要，解码的语音信号的质量不是牺牲很大，但却减小了运算量需求。

在方框150、170形成的变换系数被作规范化以提供一个增益值和8个规范化系数。在方框180增益值被组合成一个增益矢量(前面的和最后的变换系数的增益值在该增益矢量中保持独立)，规范化的系数和增益矢量然后根据各自的矢量号码本在矢量量化器190、200、210中量化。

如图所示，前8个变换系数的号码本的尺寸为256×8，最后的变换系数的号码本的为512×8，增益值的为2048×2。号码本的尺寸可以根据需要的编码信息的近似程度变化而变化，号码本越大量化过程越精确，计算能力和存储器的代价越大。

量化器190—210的输出是3个号码本索引I1—I3，它们在方框。130与量化的音高和V/UV信息组合以产生每一帧的数字数据信号。方框130处的组合过程保持每个元素以预定的顺序相互离散以使得可作下面将要描述的解码。

参照图2，示出了解码图1的输出信号的解码器，它执行图1的编码器的相反操作，具有相似或相反功能的方框用相似的标号表示，除标号200以外。

在方框330数据信号被分成其组成部分，即I1—I3、量化的音高和V/UV判定信息。3个号码本索引I1—I3在方框390、400、410通过从各自的号码本中抽取正确的选项而被解码。增益信息在方框380为每个变换系数组而被抽取，然后在方框382、384处被乘以输出的规范化系数以在方框350、370形成前8个和后8个变换系数。这两组变换系数在方框340、360作反变换并被输出到多带激励合成器310，同时输出到合成器310的还有从MBE去量化器330获取的音高和V/UV判定信息，MBE去量化器330利用解码表解码该8比特数据。

MBE合成器310执行分析器110的反操作，组装信号各部分，对不发声的频带执行反离散付立叶变换，对于发声的频带利用解码的谐音幅度控制一组正弦振荡器来执行发声语音合成，组合每一帧中的合成的发声和不发声信号并连接各帧以形成一信号输出。从合成器310输出的信号然后通过方框300处的数模转换器以形成一个音频信号。

本发明的此实施例特别适用于以数字形式存储音频信号的设备，例如数字应答机或数字指示机。本发明的此实施例尤其适用于数字应答机，因为它需要讲话者能被识别但同时作为一件相对低廉的家用物品需要保持数字编码计算及存储器要求较低。利用本实施例便可能以2.4kbps的比特率存储数字信息，于是比用于获得高质量语音的其它技术需要相对低的存储容量(例如利用码激励的线性预测，它对于长途语音质量需要16kbps)而同时保持可识别的复制。

上面描述的此实施例不应理解为限定性的。例如虽然选择语音信号的前8个谐音作为第一组谐音(对其作固定维数变换)，也可根据要求选择其他维数的谐音。另外，虽然优选了离散余弦变换和非一平方变换来对2个组作变换，但也可使用其他变换，如小波和整数变换或其他技术。矢量量化号码本的尺寸可根据需要的量化精度改变。

Claims

1.一种编码语音信号的方法，包括步骤：

采样语音信号；

将样本语音信号分成多个帧；

对谐音幅度进行变换以形成多个变换系数；

对该系数做矢量量化以形成多个索引；其特征在于：

2.如权利要求1的方法，其中第一组利用离散余变换作变换。

3.如权利要求1或2的方法，其中第二组利用非一平方变换作变换。

4.如前述任一权利要求的方法，其中第二组谐音变换成与第一组同样数目的变换系数。

5.如前述任一权利要求的方法，其中第一组包括每帧内的信号的前8个谐音。

6.如前述任一权利要求的方法，其中该变换系数被规范化以形成规范化的系数及增益值，该增益值与规范化的系数集合分离地被量化。

7.一种用于解码由前述任一权利要求的方法所编码的信号的方法，包括步骤：去量化该索引，反变换该变换系数以形成谐音幅度并为多带激励合成而组合该谐音幅度、基本音高和发声/不发声判定以构造一个语音信号。

8.一种解码输入数据信号用于语音合成的方法，包括步骤：

反变换第一、第二系数集合，以获取第一、第二谐音幅度组；

从输入的数据信号中获取音高和发声/不发声判定信息；

对该信息和谐音幅度执行多带激励合成，形成合成的语音信号；及

从合成的信号构造一语音信号。

9.用于执行前述任一权利要求的方法的设备。

10.语音编码设备，包括：

用于采样语音信号并将采样的信号分成多个帧的装置；

变换装置，用于对谐音幅度做变换以形成多个变换系数；

矢量量化装置，用于量化该系数以形成多个索引；

11.如权利要求8的设备，其中第一变换装置执行离散余弦变换。

12.如权利要求9的设备，其中第二变换装置执行非一平方变换。

13.如权利要求10～12任一项的设备，其中第一变换装置对帧的前8个谐音执行变换。

14.如权利要求10～13任一项的设备，其中第二变换装置将其余的谐音变换成与第一变换系数集合的数目相同的变换系数的第二集合。

15.如前述任一权利要求的设备，其中矢量量化装置包括对应于第一变换系数集合的号码本。

16.如权利要求10～15任一项的设备，还包括用于将变换系数集合分割成规范化系数集合及各自增益值的装置。

17.如权利要求16的设备，其中矢量量化装置包括各增益值的一个分开的号码本。

18.用于解码输入数据信号以作语音合成的解码设备，包括：矢量去量化装置，用于以对多个索引去量化以形成至少两个变换系数集合；第一和第二变换装置，用于分别对第一、第二变换系数集合作变换以获取第一、第二组谐音幅度；多带激励合成器，用于组合谐音及输入信号的音高和发声/不发声判定信息；及用于从合成器输出构造一语音信号的装置。

19.组合如权利要求10～17任一项的设备及如权利要求18的设备。

20.用于存储及复制语音的设备，包括如权利要求10～19任一项的设备。

21.一种电话应答机，包括如权利要求10～19任一项的设备。