CN1119376A

CN1119376A - 对来自多个信道的输入数字音频信号自适应编码的装置

Info

Publication number: CN1119376A
Application number: CN95101259A
Authority: CN
Inventors: 金钟一
Original assignee: Daewoo Electronics Co Ltd
Current assignee: WiniaDaewoo Co Ltd
Priority date: 1994-01-18
Filing date: 1995-01-16
Publication date: 1996-03-27
Also published as: JPH0851366A; KR960012475B1; JP2908270B2; EP0663740A3; US5613035A; KR950024447A; EP0663740A2

Abstract

自适应地对来自N个信道的输入数字音频信号进行编码的装置，包括：并联的N个分频段滤波器，用于对输入音频信号一分频段一分频段地进行滤波；为每个分频段、每帧估算感觉参数的估算器；比特分配单元，基于估算的信号对掩蔽比数据，感觉熵和平均值与标准偏差参数为各分频段确定比特及产生比特分配信息；N个并联的量化器，响应于各分频段的比特分配信息，为N个信道的已滤波分频段音频信号进行量化；用于与比特分配信息一起对已量化的音频信号进行格式化的电路。

Description

对来自多个信道的输入数字音频信号自适应编码的装置

本发明涉及一种数字音频编码装置，更具体地讲，涉及一种改进的对来自多个信道的输入数字音频信号自适应编码的装置，其编码是基于与人的听觉感觉相一致的每个输入数字音频信号的感觉熵进行的。

数字化的音频信号传输使其有可能获得与光盘和/或数字音频磁带相媲美的高质量音频信号。当以数字形式表示音频信号时，需要传输一个基本的数据总量，特别是在高清晰度电视(HDTV)系统中。然而，分配给这种数字音频信号的可用频带宽度是有限的，为了通过有限的，例如约128KHz的音频带宽传输基本的数字数据的总量，例如对于以48KHz取样频率的16比特PCM(脉冲编码调制)音频信号而言是每信道768kbps，从而压缩该数字音频信号是不可避免的。

在各种音频压缩装置或技术中，使用一种音质评价算法的称之为MPEG(运动图象专家组，Moving Pictures Expert Group)-音频算法已被建议用于HDTV的应用。

MPEG-音频算法使用了四个主要部分：即分频段滤波、音质评价模型、量化与编码、和帧格式化。分频段滤波是一个输入数字音频信号从时域到频域的映射过程。可以利用具有B(例如32)个分频段的滤波器库。在每个分频段中，12或36个样值被分组，以便对其进行处理；且来自所述B个分频段，即D×12或36个分组样值构成一个“帧”，对于音频信号的编码、传输、和解码而言，帧是一个处理单元。音质评价模型产生一个数据组，例如SMR(信号对掩蔽比)数据，用于每个分频段或一组分频段控制其量化与编码。然后，在量化分频段的样值过程中参照SMR各可用比特被自适应地分配给帧的每个分频段。帧格式化器以适当的形式将量化的数据与其它要求的辅助信息一起格式化以便传输。

但是，在上述MPEG音频技术中，因为固定数目的比特被分配到每个帧，不能反映如可能在帧中连续变化的输入数字音频信号的平均和标准偏移及感觉熵这样的统计特性。另外，在具有不同的感觉熵的输入数字音频信号被提供给利用这种现有技术的常规装置的情况下，该装置在没有考虑任何感觉熵的情况下编码输入数字信号，导致人的听觉感觉差。

因此，本发明的一个主要目的是提供能够对多个信道自适应地编码输入数字音频信号的新颖的装置，其编码是根据每个输入数字音频信号的感觉熵进行的，从而提高了编码效率和音频质量。

按照本发明，提供一种自适应地对N个数目的信道的输入数字音频信号进行编码的新颖装置，其中每个输入数字音频信号包括多个帧且每个帧包括多个分频段，这里N是一个正整数，该装置包括：并联安排的N个分频段滤波装置，用于分别按一个分频段一个分频段地分别接收和滤波输入数字音频信号；第一估算装置，用于为包括在每个输入数字音频信号中的各相应分频段估算信号掩蔽比数据、声压水平和掩蔽阀值；第二估算装置，用于为包括在每个输入数字音频信号的各个帧估算感觉熵，该估算是基于估算的信号对掩蔽比数据、声压水平和掩蔽阀进行的，和用于为总的N个信道的包括N×M个当前和以前帧的一个帧组得到一个平均值和一个标准偏差参数，该值对应于估算的感觉熵，其中M是正整数；比特分配装置，用于根据估算的信号对掩蔽比数据、感觉熵、平均值和标准偏差参数自适应地为该帧群的各个分频段确定比特和用于对应于确定的比特为该帧群的各个分频段产生比特分配信息；并联安排的数目为N的量化装置，用于响应于产生的比特分配信息为该帧群的各个分频段量化N个信道的滤波分频段音频信号；和用于格式化与比特分配信息一起的已量化数字音频信号的装置。

本发明的上述和其他目的及特点从下面结合附图的对优选实施例的描述中将变得更为明显，其中：

图1表示按照本发明的用于自适应地编码来自多个信道的输入数字音频信号的新颖装置的示意性框图；

图2描述如图1所示的第二感觉参数估算器的详细框图；

图3表示如图1所示的第一比特分配单元的详细框图。

参照图1，示出了说明按照本发明的编码装置100的示意性框图。

编码装置100包括分频段滤波装置10、第一和第二感觉参数估算器20和30、第一和第二比特分配单元40和50、量化装置60和格式化电路70。

在编码装置100中，通过N个，例如两个，即第一(或左)和第二(或右)信道接收的第i帧(或目前帧)的输入数字音频信号X1(m、i)和X2(s，i)被加到第一感觉参数估算器20和分频段滤波装置10，其中各个输入数字音频信号包括M和S个样值，以便m＝0、1、2、…，M-1；S＝0.1、…、S-1，且M和S是正整数。这里所用的“帧”表示对应于固定数目音频样值的一部分数字音频信号且是用于数字音频信号的编码和解码的一个处理单元。

如所示，分频段滤波装置10包括多个分频段滤波器，例如两个分频段滤波器11和12，它们是并联连接的以便同时接收各当前帧的输入数字信号并利用现有技术中，例如公开在出版物ISO IEC JTCI/SC2/WG11，“第三部分，Audio proposal”，CD-11172-3(1991)所公开的称之为MPEG音频算法中的分频段滤波技术对来自第一和第二信道的输入数字音频信号进行滤波。亦即，分频段滤波器11和12用作以f_s/B的取样频率均匀分开的分频段利用取样频率f_s将输入数字音频信号分解为B份，例如32份且将分解为分频段的音频样值提供给量化装置60。

另一方面，第一感觉参数估算器20接收来自第一和第二信道的当前帧的输入数字音频信号且利用在例如在MPEG音频算法中所讨论的音质评价模型对包括在来自第一和第二信道的当前帧的各个分频段同时执行信号对掩蔽比(SMR)数据SMR1和SMR2、声压水平P1和P2和掩蔽阈M1和M2的估算。按照下式得到来自第一信道的每个分频段的SMR1：

SMRl(r)＝P1(r)－Ml(r) (1)其中r是分频段指数，r＝0、1……B-1，B是在一帧中分频段的总数；SMR1(r)是第一信道的分频段r的信号对掩蔽比；P1(r)是由FFT(快速付利叶变换)估算的第一信道的r分频段的声压水平；M1(r)是第一信道r分频段的掩蔽阀值；并且SMR1(r)、P1(r)和M1(r)都是以dB(分贝)为单位。

同样，来自第二信道的每个分频段的SMR2可以按下式得到：

SMR2(r)＝＝P2(r)-M2(r)dB

(2)其中r具有与前面定义的相同含义。

掩蔽阀值表示一个可闻极限，它是一个声音的内部可闻极限或阀值和由音频信号的其他声音的与非声音的分量的压力引起的增量之和。然后在第一感觉参数估算器20估算的第一和第二信道的各信号对掩蔽比数据SMR1(r)和SMR2(r)被送到第二比特分配单元50，同时第一和第二信道的各声压水平P1(r)和P2(r)和各掩蔽阀值M1(r)和M2(r)被耦合到第二感觉参数估算器30。

第二感觉参数估算器30根据从第一感觉参数估算器20送来的声压水平P1(r)和P2(r)和掩蔽阀值M1(r)和M2(r)为第i个(或当前的)第一和第二信道的帧自适应估算感觉熵PE1(i)和PE2(i)，且根据估算的感觉熵为包括在第一和第二信道的当前和其以前帧的帧群得到代表统计特性的平均的和标准编移参数PEm和PEstd。第二感觉参数估算器30的详情将在下面参照图2予以描述。

包括在帧群中第p个帧的感觉熵PE(p)和在第二感觉参数估算器30估算的平均值与标准偏移参数PEm和PEstd而后被送到第一比特分配单元40。第一比特分配单元40根据感觉熵和来自第二感觉参数估算器30的平均值与标准偏移参数起到为包括在该帧群中的每个帧确定比特的作用，和向第二比特分配单元50与格式化电路70提供对应于为第一和第二信道的各个帧确定的比特的比特分配信息FB1和FB2。第一比特分配单元40的详情将在下文参照图3予以描述。

参照图2，其表示出如图1所示的第二感觉参数估算器30的详细框图。第二感觉参数估算器30包括感觉熵计算器32和平均值与标准偏移计算器34。

感觉熵计算器32接收馈自如图1所示的第一感觉参数估算器20的第一和第二信道的声压水平P1(r)和P2(r)以及掩蔽阀值M1(r)和M2(r)并为第一与第二信道的第i帧计算感觉熵PE1(i)和PE2(i)。第一信道的第i帧的感觉熵PE(i)，正如现有技术已公知的那样，可以表示为：

PE 1 (i) = \frac{1}{B} Σ_{r = 0}^{B - 1} MAX [0, \frac{1}{2} \log_{2} \frac{P 1 (r)}{M 1 (r)}] dB - - - - (3)

其中r、i和B具有与以前定义的相同含义。

类似地，对于第二信道的第i帧的感觉熵PE2(i)，如同现有技术一样，可以表示为：

PE 2 (i) = \frac{1}{B} Σ_{r = 0}^{B - 1} MAX [0, \frac{1}{2} \log_{2} \frac{P 2 (r)}{M 2 (r)}] dB - - - - (4)

其中r、i和B具有如以前定义的相同的含义。

公式(3)和(4)可以通过应用称为比率失真理论来获得；且对应于基于人的听觉感觉的感觉熵。在感觉熵计算器32中计算的第一和第二信道的第i帧的感觉熵而后被送到平均值与标准偏差计算器34。

平均值与标准偏差计算器34适于分组计算的感觉熵，即第一和第二信道的当前的和其前面帧的数目为Q，例如4的PE1(i-1)和PEi(i)，和PE2(i-1)和PE2(i)，这些感觉熵是从感觉熵计算器32送来的，以便按照第一比特分配单元40的处理，在它们之中自适应地分配比特，该第一比特分配单元将在下面参照图3详细描述；及利用该帧群总的感觉熵计算代表它们的统计特性的平均值和标准偏差参数。正如现有技术中公知的那样，对于该帧群的总感觉熵的平均参数PEm可以按下式计算：

PEm = \frac{1}{Q} Σ_{p = 0}^{Q - 1} PE (p) - - - - (5)

其中p是用于该帧群中的帧指数，p＝0、1、……Q-1，Q是该帧群的总帧数；PE(p)代表在该帧群中第P帧的感觉熵。

因此，用于该帧群的总感觉熵的标准偏差参数PEstd与现有技术中公知的一样，可以按下式得到：

PEstd = \sqrt{\frac{1}{Q} Σ_{P = 0}^{Q - 1} {[PE (p) - PEm]}^{2}} - - - - (6)

其中p和Q具与先前定义的同样含义。

第p帧的感觉熵PE(p)和在平均和标准偏差计算器32中被分组与被计算的平均值与标准偏差参数PEm和PEstd而后被送到如图1所示的第一比特分配单元40。

现参照图3，其示出了图1所示的第一比特分配单元40的详细框图。比特分配单元40包括判决电平估算器42和比特分配装置44。该判决电平估算器42自适应地为比特分配装置44估算该帧群的最佳判决电平，取决于来自图2所示的平均值与标准偏差计算器34的平均值和标准偏差参数PEm和PEstd，自适应地分配比特到该帧群的每一帧中。按照本发明的优选实施例，通过下式可以得到该帧群的第j个判决电平D(j)：

D(j)＝PEm＋j·PEstd·W

(7)其中j是判决电平指数，j＝-q至q，q是正整数，而W是该帧群中的一个加权因子。

正如从公式(7)可以看到，第p帧的第j个判决电平D(j)与第(j-1)个判决电平D(j-1)之间的电平间隔取决于来自平均和标准偏差计算器34的标准偏差PEstd和该帧群的加权因子W，同时确定了判决电平的总数，即2q＋1。在判决电平估算器42中所用的该帧群的加权W最好通过使用来自平均和标准偏差计算器34的平均值和标准偏参数PEm与PEstd确定，以便得到该帧群的最佳决判电平，该电平与人的听觉感觉非常一致。按照本发明，该帧群的加权因子最好基于如表1所示代表该帧群的统计特性的平均值和标准偏参数PEm与PEstd来获得。

正如从表1可以看到那样，如果，PEstd小于第一预定阀值，例如，0.0125和PEm小于第二预定阀值，例如，0.15，则其中加权因子W可以被确定为0；另外，可以参照上面表1从任何一个加权因子中选择。即，如果PEstd相对地小和PEm相对地大，可以选择加权因子W较大的值，而如果PEstd相对大和PEm较小，则选择较小的值。

应当理解为，判决电平的数目，平均值与标准偏差参数的阀值和加权因子最好根据要求的编码效率和编码装置声音质量来确定。

接下来，在判决电平估算器42中，被估算和被确定的判决电平D(j)和总的判决电平数，即2q＋1和来自图2所示平均与标准偏差计算器34的感觉熵PE(p)被同时提供到比特分配装置44。

比特分配44利用来自判决电平估算器42的判决电平和判决电平的总数和来自图2的平均与标准偏差计算器34的第p帧的感觉熵为该帧群的各个帧确定比特，和将对应于在该帧群中第一和第二信道为相应各帧确定的比特的比特分配信息FBI1和FBI2提供给图1所示的第二比特分配单元50和格式化电路70。在本发明的优选实施例中，为在该帧群中第p帧的比特分配FB(p)可以按下式确定：

FB (p) = FBm + \frac{BV}{2 q + 1} \cdot I - - - - (8)

其中p具有与以前定义的相同含义；FBm为平均比特，例如对于在每信道128kbps数据传输速率下以48KHz取样频率的16比特PCM(脉冲编码调制)的音频数据中每帧3072比特；BV是预定的比特变化值；2qt1是预定判决电平的总数；I是第p帧的电平指数。

正如从公式(8)可以看到的那样，第p帧的比特分配FB(p)可以通过平均比特数增加从其第二项得到可变比特数确定。其中预定的比特可变值BV可以作为按公式(8)确定的对于一帧的平均比特相同的值确定的；和在该帧群中第p帧的电平指数I可以根据来自判决电平估算器42的判决电平D(j)和来自图2所示的平均与标准偏差计算器34的感觉熵PE(p)得到。按照本发明优选实施例，该帧群中第p帧的电平指数I可以表示为如表2所示(其中假设判决电平的间隔是1.27和判决电平指数j是-2到2)：

正如从表2可以看出的那样，如果PE(p)在判决电平-2.55和-1.28之间，则电平指数I可以选为-1；如果PE(p)在判决电平-1.27和1.26之间，则电平指数I可以选为0，和以此类推。以这种方式，第p帧的比特分配FB(p)可以有益地利用公式(8)来确定。

接下来，在比特分配装置44中对应于该帧群的各个帧确定的比特的第一和第二信道的比特分配信息FBI1与FBI2和来自如图1所示的第一感觉参数估算器20的信号对掩蔽比数据SMR1(r)与SMR2(r)被同时送到第二比特分配单元50；且用于各个帧的比特分配信息FBI1与FDI2被送到格式化电路70。

再参照图1，第二比特分配单元50接收从第一感觉参数估算器20送来的信号对掩蔽比数据SMR1与SMR2和从第一比特分配单元40送来的用于各个帧的比特分配信息FBI1与FBI2，为包括在该帧群的每帧中的每个分频段确定比特，和分别提供对应于为第一和第二信道的各个分频段确定的比特的第一和第二信道比特分配信息SBI1与SBI2到量化装置60和格式化电路70。第二比特分配单元50所用的原理在于一帧的总掩蔽对噪声比数据的优化，不得不使所用比特数不超过第一比特分配单元40转换来的那个帧的可用比特数目。接下来，来自第二比特分配单元50的用于第一和第二信道的各个分频段的比特分配信息SBI1和SBI2和来自每个分频段滤波器11和12的分路分频段音频样值被送到包括多个量化器，例如61和62的量化装置60。

每个量化器61与62用作基于来自第二比特分配单元50相应比特分配信息对来自每个分频段滤波器11和12的对应分路分频段音频样值进行自适应量化和将第一和第二信道的每个信道的已量化音频信号提供给式化电路70。

在格式化电路70中，来自每个量化器61与62的已量化音频信号和来自第一与第二比特分配单元40与50的比特分配信息被传递到一个发送机(未示出)以便将其发送，从而改善了来自第一与第二信道的输入数字音频信号的编码效率及音频质量。第二比特分配单元50、量化器61与62和格式化电路70基本上与在MPEG音频算法中可以看到的相同。

在参照该具体的实施例本发明被表示与描述的同时，对于本专业的技术人员来说，在不脱离按所附的权利要求所限定的本发明的精神与范围的情况下，可能做出许多改变和改进是显而易见的。

表1

PEstdPEm	0.0125～0.125	0.126～0.25	0.26～0.375	0.376～
PEstdPEm	0.0125～0.125	0.126～0.25	0.26～0.375	0.376～	0.15～0.63	10	0.5	0.25	0.125
0.64～1.26	100	1	0.5	0.25	0.15～0.63	10	0.5	0.25	0.125
0.64～1.26	100	1	0.5	0.25	1.27～1.89	1000	2	1	0.5
1.90～	1000	4	2	1	1.27～1.89	1000	2	1	0.5

表2

判决电平D的范围	电平指数(I)
判决电平D的范围	电平指数(I)	～-2.56	-2
-2.55～1.28	-1	～-2.56	-2
-2.55～1.28	-1	-1.27～-1.26	0
1.27～2.54	1	-1.27～-1.26	0
1.27～2.54	1	2.55～	2

Claims

1、一种对来自N个信道的输入数字音频信号进行自适应编码的装置，其中每个输入数字音频信号包括多个帧并且每个帧包括多个分频段，其中N是正整数，该装置包括：

并联安排的N个分频段滤波装置，用于按一个分频段一个分频段地分别接收和滤波该输入数字音频信号；

第一估算装置，用于对包括在每个输入数字音频信号中的各个分频段估算信号对掩蔽比数据、声压水平和掩蔽阀值；

第二估算装置，用于基于所估算的信号对掩蔽比数据、声压水平和掩蔽阀值对包括在每个输入数字音频信号中的各个帧估算感觉熵和用于对包括总信道数为N的M×N个当前的与以前的帧的一个帧群导出一个平均值和一个标准偏移参数，它们对应于估算的感觉熵，其中M是正整数；

比特分配装置，用于根据估算的信号对掩蔽比数据、感觉熵、和平均值与标准偏差参数为该帧群的各个分频段自适应地确定比特，和用于为该帧群的各个分频段产生对应于确定的比特的比特分配信息；

并联安排的N个量化装置，响应于为该帧群的各个分频段产生的相应比特分配信息，对N个信道的已滤波的分频段音频信息进行量化；和

用于对已量化的数字音频信号与比特分配信息一起进行格式化的装置。

2、按照权利要求1所要求的装置，其中所述比特分配装置包括：

用于基于估算的平均值与标准偏差参数估算该帧群的判决电平的装置；

第一比特分配装置，用于基于估算的判决电平、判决电平的总数、感觉熵和预定的平均比特，为该帧群的各个帧确定比特，和用于产生对应于为每个帧确定的比特产生比特分配信息；和

第二比特分配装置，用于基于估算的信号对掩蔽比数据和产生的比特分配信息为每个帧的各个分频段确定比特，和用于对应于为每个分频段确定的比特，产生比特分配信息。

3、按照权利要求2的装置，其中，该帧群的每个判决电平D是按照下式确定的：

D＝PEm＋j·PEstd·W其中j是判决电平指数，j＝-q到q，q是正整数，W是该帧群中的加权因子，PEm是该帧群的平均值参数；PEstd是该帧群的标准偏差参数。

4、按照权利要求3的装置，其中第p帧的比特分配FB(p)是按照下式得到的：

FB (P) = FBm + \frac{BV}{2 q + 1} \cdot I

其中p是该帧群的帧指数；FBm是对于一帧的平均比特函数；BV是预定比特变化值；2q＋1是预定判决电平总数；和I是第p帧的电平指数。