CN1533564A

CN1533564A - 语音信号的编码和传输的方法

Info

Publication number: CN1533564A
Application number: CNA028144295A
Authority: CN
Inventors: T��л��; T·芬谢德特; H·塔戴; I·瓦加
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2001-05-18
Filing date: 2002-05-02
Publication date: 2004-09-29
Anticipated expiration: 2022-05-02
Also published as: WO2002095734A3; DE10124420C1; US20040148162A1; WO2002095734A2; EP1388146B1; CN100508027C; DE50211294D1; EP1388146A2

Abstract

本发明涉及对语音信号、特别是所谓的“语音爆破音”段进行编码的方法。通过确定第一放大系数，减少了表示第一或自适应放大系数和自适应代码本项的总和的数据量，以此可准确地表示在语音编码过程中所出现的其它参量。此外，本发明还涉及传输进行如此编码的语音信号的方法。

Description

语音信号的编码和传输的方法

本发明涉及一种语音信号编码的方法、特别是在有多种代码本，通过代码本的项使语音信号成为近似值，的情况下涉及的一种语音信号编码的方法，和涉及一种传输语音信号的方法。

在数字语音通信系统、如固定网、因特网或数字移动网中，使用多种语音编码方法，以便降低要传输的比特率。语音编码方法通常提供一个已经进行语音编码的比特的比特流，该比特流被划分成分别代表譬如为20ms的语音信号的帧。一个帧内的多个比特一般表示参量的一个确定的组。一个帧又多次地划分成子帧，以致于某些参量一次按每帧传输，在下一次按每个子帧传输。作为举例给出了US-TDMA增强型全速率(EFR)语音编译码，其速率为7.4kbps，也即每20ms的帧为148比特。在此，一帧由4个子帧组成。

下面就这种语音编码方法示范性地介绍在所谓的CELP(码激励线性预测)码中所出现的参量的意义：

-所谓的LPC(线性预测编码)合成滤波器的10个系数，它用26比特/帧被进行量化。滤波器在当前帧的区内显示语音信号的频谱包络。用于这种滤波器的激励信号以相加地方式组成，有一个用所谓的“自适应放大系数”g-1加权的所谓的“自适应激励信号”s-a和一个用所谓的“固定的放大系数”g-2加权的所谓的“固定的激励信号”s-f。

-借助4×17个比特对固定激励信号的4个子帧量化。固定的激励信号s-f由所谓的“固定的代码本”的项组成，该项用固定的放大系数g-2加权。固定的代码本的项各由一脉冲序列组成，该脉冲序列只在很少时刻与0不同。

-借助2×8个比特和2×5个比特表示语音基频的4个值。在所谓的通过合成进行分析的CELP编码方法中产生的自适应激励信号，在延迟语音基频一个周期的情况下，从LPC合成滤波器的激励信号中确定。所有可能的已量化的语音基频都构成所谓的“自适应代码本”，该代码本包括相应移位的激励信号。

-借助4×7个比特对每帧4个放大系数对进行矢量量化。“自适应放大系数”被用到自适应激励信号上，“固定的放大系数”被用到固定的激励信号上。然后，如上所述，LPC合成滤波器的总激励信号以相加地方式由加权的自适应的和固定的激励信号组成。

代码本的项一般称做代码字或代码矢量。

自适应代码本之所以称之为“自适应”，是因为在该代码本中包含的代码矢量不是一个常数或更甚之以暂存的方式存在，而是对每个子帧都自适应地从过去的LPC合成滤波器的总激励信号中来确定该代码矢量。固定的代码本之所以是“固定”，是由于代码矢量或者是以固定存储方式存在(噪声激励)或者是至少通过所确定的计算规范算出(代数代码本)，该计算规范不依赖于各自的子帧。分别分配的放大系数通常也称之为“自适应”或“固定”。需要说明的是，所有4种参量类型即自适应和固定的激励信号，以及自适应和固定的放大系数，自然都可在每个子帧中确定，并且在这种意义上所有的4种参量都具有“自适应性质”。此外，确应坚持以前引用的术语(在文献中也是常用的)或使用概念“第一放大系数”代替“自适应放大系数”和使用概念“第二放大系数”代替“固定的放大系数”。

激励信号S`在进行LPC合成滤除之后，应尽可能准确地反映在这个时间出现的语音段、语音信号S。

所以，应如此选择参量g-1、g-2、s-a、s-f，以致于能由此尽可能好地表示语音信号。

激励信号s`＝g-1*s-a+g-2*s-f以此在接收机一端进行LPC合成滤除之后近似为语音信号。

对总的激励信号S`来说，各个被加数g-1*s-a或g-2*s-f的量值变化取决于语音信号段的语音特点。

语音信号包括帧序列或子帧序列，在这些帧中语音信号可作为稳定的，也即无须按时间展开其统计特性进行模拟。在此系指周期性的段譬如可表示元音的段。这种周期性通过被加数g-1*s-a的量值进入总激励信号S`之内。

但是也甚至于具有很不稳定的语音信号段，譬如象所谓的“突发开始”(“Onsets”)或“语音爆破音”(“Sprach-Onsets”)。在此譬如系指一个字开始的爆破音。在这种情况下，被加数g-2*s-f表示对激励信号S`的主要量值。

一个具有突发开始的帧或子帧的统计特性通常不用从后面的帧或子帧就可估算出来。特别是在突发开始时确定不了长时间周期性，也即语音基频的值完全不能表达和不能使用。因而，为对语音信号段编码，在突发开始时，由自适应代码本的自适应放大系数和项组成的量值，确可表达语音信号的长时间周期性，与其说是有利不如说是不利。自适应激励信号的量值对总激励信号来说在突发开始时按规则是不利的：如果根本就不出现周期性，也即在自适应代码本查找的范围内不出现合适的自适应激励信号，则得到的最佳的自适应放大系数为0。

现在，自适应和固定的放大系数g-1和g-2作为数对(g-1、g-2)多次借助放大系数的其它代码本进行量化。在对参量进行并行的彼此相关的量化的这种情况下，称之为矢量量化。这种代码本自然只有一个有限的数量，典型为7比特，以此就可实现2⁷＝128项，这些项的标号譬如是从0-127。

只传输标号到接收机上，由此在与常规传输相比在g-1和g-2进行标量量化后单独得到一个数据压缩的结果。标量量化可理解成是一种参量的单个的、彼此独立的量化。如上所述，在这个代码本中项的数量是有限的。

因此，可作为在这个代码本中的项来使用那些数对(g-1、g-2)，通过数对的总和，也即具有标号0-127的数对使尽可能地表示所有可能出现的g-1和g-2的组合。然后，这些按常规方式提供给一个所谓的矢量量化。在采用自适应放大系数g-1＝0时，原则上可能出现固定放大系数g-2的任意值，因为在非周期性语音段中，如上所述，自适应部分g-1*s-a恰好比固定部分小得多，由此通过后者来确定LPC合成滤波器的激励信号S`，并且在这种情况下不可能从过去存在的值中计算固定部分。

为了在这种情况下即g-1＝0的情况下，在LPC合成滤波后通过参量g-1、g-2、s-a、s-f使激励信号S`与原语音信号S也可进行最佳匹配，因此必须将许多个一对值(g-1＝0、g-2)纳入代码本，由于存储空间的原因，这自然是不可能的。就这方面来说，在情况g-1＝0进行参量匹配时大多会得到g-2的一个匹配不佳的值。这在量化后将导致总的激励信号S`中出现非预期的信号部分。

大多数常用的语音编码器根本不能解决这些问题。

许多语音编码器譬如GSM增强型全速率编码器(GSM-EFR)都可进行放大系数的标量量化。这就是说在这种情况下，即每个子帧具有4个比特的自适应放大系数和每个子帧具有5个比特的固定的放大系数都可单个地和彼此独立地进行量化。这具有的优点是，在某些不稳定的语音段中譬如在突发开始时可以很容易使自适应放大系数量化为0，并且固定的放大系数可以在量化后成为一个与此不相关的值。可是，与矢量量化相比它就具有编码效率低的缺点：在GSM-EFR编码器中对放大系数需要有4+5＝9比特，而矢量量化7个比特就够了。

在此，还有另一个缺点就是无附加比特提供使用，以便相当准确地量化固定的激励或固定的放大系数。在选择自适应放大系数为0的情况下，仍不使用自适应代码本的比特也即语音基频。

相比之下，GSM-半速率编码器(GSM-HR)以多种模式工作。一种模式规定，在某些子帧中譬如表示突发开始的这样的子帧中，用第二个固定的代码本代替自适应代码本。这虽然以某种方式解决了问题，但是对第二代码本来说复杂性比较高并且也需要存储空间。还有，在传输过程中增加了易出现误码的可能性，因为与模式有关使用了完全新型的编译码参量。此外，在采用GSM-HR编译码时必须显式地通过模式比特使自适应代码本的断开信号化。

于是，本发明基于的任务是提供进行编码和传输的一种方法，这种方法工作起来节省存储空间、效率高和误码率低，特别是运行起来复杂性低和编码效率高，同时译码后具有高信号质量。

这个任务可由独立权利要求1和6来解决，扩展实施方案由独立权利要求得出。

按照本发明在信号分类器的确定值时，就可确定分配给自适应代码本的第一放大系数的值。由此可实现减少数据量，该数据量是表示第一放大系数和自适应代码本项的总和所需要的。语音信号分解成各个时间段。这些段譬如可表示帧或子帧。

信号分类器譬如说明是否存在一个稳定的或一个不稳定的语音段，也就是说是否譬如涉及语音爆破音。

如果现在有这种类型情况，则可分配给第一放大系数一个由信号分类器确定的值。譬如通过相应的标号可如此确定第一放大系数的这个值，以致于这个值的表达式比常用的表达式所需的比特少。同样达到压缩当然是可选择的、可自由选择或其它可能的途径，其方式是通过当确定了第一放大系数时，则可压缩自适应代码本的项的表达式。由此，就可得出一个与现有技术相比编码效率高的表达式，至少是一个在语音编码的过程中所出现的一个参量的表达式。

特别是如果第一放大系数确定为0，则这种方法证明是有利的。由此可提高语音译码信号的质量，因为如开始所述，譬如在不稳定的语音段中出现的量化误码信号部分很少。

如果第一放大系数确定了，则另一个扩展方案规定第二放大系数以标量方式量化。于是，譬如可提高第二放大系数量化的分辨率。

由此，譬如在出现用激励信号g-2*s-f的固定部分表示语音爆破音的情况中，允许第二放大系数有一个扩大的取值范围，这就使得能更准确地描述这样的语音信号段。

在另一个扩展方案中规定，编码器用固定的数据率工作，这就是说，对于语音信号的一个段规定一个固定的数据量。用达到数据量的减少来表示第一放大系数和可选择地或自由选择地表示自适应代码本的项，可应得到如下充分使用，以致于可使用数据量的现未被用数据占用的部分来表示语音编码时所出现的其它参量。

在另一个扩展方案中，规定语音段用减少的数据量表示。这种方法特别是可以在使用具有可变的比特率的一种编码方法中得到应用。

此外，本发明涉及传输按照前述权利要求之一进行编码的语音信号的方法。在此，主要是不传输第一放大系数和/或自适应代码本的项。

特别是这种方法具有的优点是，当通过信息给接收机或译码器指出为表示各个参量进行了数据量的这种减少。这些信息譬如可以是占用由于减少而未用数据占用的数据量的一部分，或者可以是除所述的帧或子帧的数据量以外还可被发送出去的信息。

下面就几个实施例说明本发明，部分地结合附图说明。

图中：

图1示出了语音编码中关于合成分析(Analyse-durch-Synthese)原理构成的概况图，

图2示出了具有所属的放大系数的自适应的和固定的代码本的应用。

图1示出了按照用合成分析原理以方框图的形式表示语音编码的过程。

基本上是将原语音信号10与合成的语音信号11比较。合成的语音信号11应是这样的，即在合成的语音信号11和原语音信号10之间的偏差最小。这种偏差必要时还要以频谱方式加权。这要经一种加权滤波器W(z)实现。产生合成的语音信号可借助一个LPC合成滤波器H(z)。这种合成滤波器通过激励信号12进行激励。最后传输这个激励信号12的参量(并且必要时还有LPC合成滤波器的系数)，因此应尽可能地高效地进行编码。

于是，本发明的目的是尽可能有效地表示描述激励发生器的参量。

在图2中可详细看出未串接LPC合成滤波器的激励产生器。

激励信号12由一个自适应部分，借助于此主要表示周期性的语音段，和一个固定的部分，用于表示非周期性的段，组成。这在本文开头已详尽地作了说明。自适应代码本1用来表示自适应的部分，自适应代码本的项用第一放大系数3加权。

自适应代码本1的项通过前述的语音段来确定。这通过反馈回路2实现。第一放大系数3通过与原语音信号10的匹配来确定。固定的代码本4，如其名称所述，包括不由前面的时间段确定的项。在代码本中的每个项即所谓的代码字、代数的代码矢量是一个脉冲序列，该脉冲序列只在很少的确定的时刻具有的值不等于0。应选择这种项或激励序列，借助此序列使合成的信号11与原语音信号10的偏差降低。与此相应地确定分配给固定的代码本的放大系数5。

首先规定对每个帧都要计算一个所谓的信号分类器。这种信号分类器可提供譬如一个二进制的判决，即是否应使用或不应使用自适应代码本。为此目的，这应该指的是一种具有突发开始的识别器。规定依赖于分类器将自适应放大系数置0，也即自适应激励不纳入LPC合成滤波器的总激励信号。此外还规定，不再传输至少一个参量。对此，有多种有意义的选择方案：

-如果譬如传输的自适应放大系数的值为0，则不需再传输自适应代码本的项(也即语音基频)，因为它甚至在接收端eh与0相乘。

-如果譬如对译码器来说通过自适应代码本的备用的字(也即语音基频)使自适应激励的置零信号化，则不需再传输自适应放大系数。在自适应和固定的放大系数的矢量量化的情况下，固定的放大系数譬如可按标量量化。

-如果分类器通过一个显式比特进行传输，则在突发开始的情况下甚至放弃传输自适应代码本的项(语音基频)和自适应放大系数。

每个这种可能的实现方案的优点是，与现有技术相比可传输较少的比特数。在采用有固定的比特率的编码方法时，于是可使用这些比特，以便改进固定放大系数的量化、和/或固定激励的量化、和/或LPC系数的量化。在一般的情况下，每个剩余的编译参量都可能从改进的量化中获益。与GSM-HR编码器相反没有规定新的参量(也即没有第二个固定的代码本)，可是代之于此的是已有参量的改进的量化。这简化了计算的复杂性和节省了存储空间，并且也使得可能考虑具有突发开始的子帧的特有的特殊形式。此外，通过巧妙地将附加地可使用的比特插入其它编译参量的量化表中，就可进行存储效率高地编码。

总之可以说，通过在突发开始情况下对自适应激励置零，和通过使用自适应激励的或自适应放大系数的释放的比特都可获得改进的剩余的编译参量的量化。

下面简短地概述巧妙地插入附加释放的比特。假定，通过在自适应代码本中的一个备用字使自适应激励的置零信号化。然后，固定的放大系数，该放大系数在此前与自适应放大系数一起共用7个比特进行矢量量化，在有大约相同的量化误差时例如按标量方式用5比特进行量化。固定的放大系数的用5比特量化的值可从7个比特矢量代码本的25％的子量中得出，而且是一个用从7比特中任意5比特可寻址的子量中得出。这样实现的5比特标量量化器节省了附加的存储器。于是，可使用释放的2比特譬如可对固定的激励进行更精确的量化。

除了在此所提及的例子外，在本发明范围内还有许多其它的改进的实施方案，这些改进的实施方案由专业人员进行实施无须很大的花费就可在实践中应用。

Claims

1.语音信号编码的方法，

-其中将语音信号分解成语音信号段，

-其中合成滤波器的激励信号至少借助一固定的代码本和一分配的第二放大系数，并且可自由选择地借助一具有一所属第一放大系数的自适应代码本来组成，

-其中按照语音的特点通过一个信号分类器对语音信号段进行分类，并且

-其中依赖信号分类器确定第一放大系数的值，以此减少了表示自适应代码本项和第一放大系数的总和所需的数据量。

2.按照权利要求1所述的方法，其中确定第一放大系数为0。

3.按照权利要求1或2之一所述的方法，其中第二放大系数按标量量化。

4.按照上述权利要求之一所述的方法，其中对一个语音信号段保留一个以前所确定的数据量，并且根据压缩表示第一放大系数和自适应代码本的项的总和的数据量的减少，至少在语音编码中所出现的另一个参量要求占用较大部分的以前所确定的数据量。

5.按照权利要求1所述的方法，其中根据对第一放大系数的确定为表示语音信号段需要较少数量的比特。

6.传输按照权利要求1-5之一进行编码的语音信号的方法，其中不传输自适应代码本的项和/或第一放大系数。

7.按照权利要求6所述的方法，其中通过为此保留的信息给一个接收机显示，将第一放大系数设置为接收机已经知道的值。