CN1504993A

CN1504993A - 用较少的计算量重构高频分量的声频解码方法和装置

Info

Publication number: CN1504993A
Application number: CNA200310101234A
Authority: CN
Inventors: �Ϻ��ͨ��ѧ; 吴润学; Ŭ; 马修·马努
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-11-29
Filing date: 2003-10-13
Publication date: 2004-06-16
Anticipated expiration: 2023-10-13
Also published as: US20040107090A1; JP2004184975A; KR100501930B1; JP4022504B2; CN1266672C; KR20040047361A; US7444289B2

Abstract

提供一种以较小的计算量重构高频分量的声频信号解码方法和装置。所述解码装置包括：解码器；声道相似性确定单元；高频分量发生单元；和声频合成单元。所述方法对每个声道信号每隔一帧跳跃地产生各帧的高频分量；在左右声道信号彼此相似时，使用另一个声道信号的相对应的帧产生的高频分量，产生任何一个声道信号跳跃帧的高频分量；在左右声道信号彼此不相似时，使用相关声道信号的前帧，产生每个声道信号的跳跃帧的高频分量。

Description

用较少的计算量重构高频分量的声频解码方法和装置

技术领域

本发明涉及声频编码方法和装置，特别涉及一通过用较少的计算量重构声频信号的高频分量而能够获得和输出高质量的声频信号的声频解码方法和装置。

背景技术

一般，在声频编码中使用心理声学模型高效地压缩声频数据，使得少量位分配到人耳不能收听的高频分量中。此时，增加了压缩比，但是损失了高频声信号。由于损失高频声信号，所以在再现声频数据时，声音的音调改变，可读性降低，产生模糊的声音。因此，需要后处理方法，重构损失的高频分量来加强声音质量，以便完全地再现原始声音的音调和提高声频信号的可读性。

结合图1说明加强声频信号的声音质量的后处理方法。参见图1，如果输入编码的信号，它们被分成左右声道信号，并通过解码器110分别解码被分开的信号。然后，分别用第一和第二高频分量发生器单元120和130重构解码的左右声道信号的高频分量。

但是，因为大多数的声频信号的左右声道的声频信号彼此基本相似和高度冗余，所以不对它们单独编码。因此，存在的问题是，分开地重构左右声道信号的现有技术的后处理方法不能够有效地利用声道信号之间地相似性，因而不必要地增加了计算时间。

发明内容

本发明的一个目的是提供一种即使使用较少的计算也能加强声频信号的声音质量的声音解码方法和装置。

为实现上述目的，根据本发明的一个方面，提供了一种声频解码方法，该方法包括步骤：对每个声道信号每隔一帧跳跃地产生帧的高频分量；在左右声道信号彼此相似时，使用所产生的另一个声道信号的相应帧的高频分量，产生任何一个声道信号的跳跃的帧的高频分量；和在左右声道信号彼此不相似时，用相关的声道信号的前帧，产生每个声道信号的跳跃帧的高频分量。

根据本发明的另一方面，提供一种重构高频分量的声频解码装置，它包括：声频解码器，它接收编码的声频数据，解码接收的数据，和输出第一和第二声道的解码的声频数据；声道相似性确定单元，它确定在第一和第二声道信号之间的相似性；高频分量发生单元，它基于第一和声道信号之间的相似性，产生每个声道的声频信号的高频分量；和声频合成单元，它将解码的声频信号与产生的高频分量结合并输出结合的声频信号。

附图说明

通过结合以下优选实施例的说明将明了本发明的上述目的和其它特征。

图1是应用现有技术后处理算法的声频解码装置的方框图；

图2是根据本发明的声音解码装置的配置示意图；

图3是MPEG(活动图像专家组)一1层3的格式示意图；

图4是根据本发明的声频解码方法的整个处理过程流程图；

图5是根据本发明对每个声道信号每隔一个帧跳跃地，产生高频分量的处理图；

图6是在声道信号彼此不相似时，产生左右声道信号的高频分量的方法示意图；

图7是在声道信号彼此相似时，产生左右声道信号的高频分量的方法示意图；和

图8的图表，示出了与现有技术比较，本发明的声频解码方法声音质量的加强。

具体实施方式

下面参照附图详细说明本发明的声频解码装置的配置和工作。

图2示出声频解码装置200的配置示意图。参见图2，声频解码装置200包括：解码器210；声道相似性确定单元220；高频分量发生单元230；和声频合成单元240。装置200被配置成解码声频位流，然后重构来自解码的声频信号的各声道信号的高频分量。

解码器210解码输入的声频位流并产生声频信号。即，从输入的声频位流解码声频数据，然后将解码的数据去量化(dequantize)，以恢复在声频数据的编码处理中以前进行的量化操作，使得输出原始声频信号。

这里，在解码器210中采用的解码方法可以根据压缩声频信号使用的编码类型，例如比例因子编码、AC一3、MEPG和霍夫曼(Huffman)编码等变化。然而，因为在声频信号处理中使用的编码器的配置和操作基本彼此相同，所以，在此省略其详细说明。

同时，已知SBR(频谱带复制Spectral Band Replication)，即，从声频信号的低频范围重构高频范围的算法是迄今提出的声音质量强化的几种后处理算法当中的最有效的技术。但是，不能够将SBR2应用到各种声频编解码器，因为它是依靠MEPG-1层3的后处理算法。另外，与SBR2比较，SBRl能够用于各种声频编解码器，但是它将对每帧的左右声道信号进行后处理操作。因此，操作中不能够有效地利用两个声道之间的相似性，结果，增加了计算时间。因此，存在着几乎不能够将这种算法用于相关的产品的限制。

因此，为了减少与能够用于各种声频编解码器的相应于SBRl(下面简称为SBR)的问题的大计算量，和具有优良的重构性能，将本发明成配置成这样，通过声道相似性确定单元220和高频分量发生单元230，有效地利用声道的相似性，即使使用小的计算量也能够重构高频分量。

在输入解码的声频信号时，声道相似性确定单元220分析输入的声频信号是否包括模式信息。然后，声道相似性确定单元220根据该模式信息确定左右声道信号之间的相似性。否则，基于从声道信号之间的和及差信息获得的SNR(信噪比)，确定声道信号之间的相似性。

这里，在声频信号不包括模式信息时使用SNR确定声道信号之间相似性的原因是，基于从声道信号之间的和及差获得的SNR值，能够容易地确定左右声道之间的相似性，因为在压缩比高时，在通常的声频编解码器中频繁编码该和及差信息。

下面，为了更好理解本发明，通过MEPG-1层3声频信号的例子说明确定左右声道信号之间相似性的方法。

图3示出了MEPG-1层3声频流的格式。

MEPG一1层3声频流由多个AAU(声音访问单元)300构成。每个AAU300是能够单个解码并含有预定的固定数目的压缩数据的取样的最小的单元。

每个AAU300包括：标题310，循环冗余校验(CRC)320，声频数据330，和辅助数据340。

标题310含有关于同步字、ID、层、保护位的存在、位速率指数、取样频率、填充位的存在、专用使用位、模式、模式扩展、版权、原始/复制和强调特征的信息。

CRC320是可任选的，16位长，并且标题310定义在每个AAU300中是否包括CRC320。

声频数据330是含有压缩声音数据的部分。

辅助数据340是在每个声频数据330的尾端未达到相关AAU的尾端时的剩余的部分。在辅助数据340中能够包括除了MPEG声频数据外的任何数据

如图3所示，MP3声频位流的标题310含有模式信息，该模式信息表示所述流是否使用声道信号之间的相似性被压缩。因此，通过分析输入的MP3声频位流的模式信息，能够容易地确定在声道信号之间的相似性。

因此，在包括上述模式信息的MEPG-1层3声频信号输入时，声道相似性确定单元220分析在输入信号中的模式信息，并根据模式信息是否是具有左右声道信号之间很大相似性的共同立体声(joint stereo)模式值，或是具有在声道信号之间很小相似性的立体声模式值，来确定在声道信号之间的相似性。

在另一方面，在解码的声频信号中不包括模式信息的情况，声道相似性确定单元220基于从声频信号获得的声道信号之间的和及差信息，计算与代表声道信号之间相似性的参数相对应的SNR。然后，如果计算的SNR值小于声道信号之间相似性的阈值，则确定这两个声道信号彼此相似。否则确定这两个声道信号不彼此相似。

即，将从关于声道的信号之间的和及差的信息获得的SNR值用作代表声道之间相似性的参数。现在详细说明基于关于两个声道信号之间的和及差的信息计算SNR值的方法。

首先，计算在这两个声道信号之间的和及差的能量值。然后，对通过用这两个声道信号之间的和及差的相加值除以声道信号之间的差的能量值获得的值取对数。然后，用10乘这个对数值。此时，为了减小计算能量值需要的计算，最好是使用这个信号之间的和及差的数值。

这里，可对声道信号之间相似性的阈值赋予试验值。在本发明中，20分贝的值确定为声道信号之间相似性的阈值。

因此，声道相似性确定单元220分析声频信号是否包括模式信息。如果是，则确定单元基于该模式信息确定左右声道信号之间的相似性。否则，确定单元基于从这两个声道信号之间的和及差的信息获得的SNR，确定相似性

本领域的技术人员能够作出确定左右声道信号之间相似性的方法的各种修改和等同的变型。例如，如果不是MPEG-1层3，而是AC-3声频信号包括在左右声道信号之间的差的信息中，也能够确定左右声道信号之间的相似性。另外，如果在声频位流中存在线性预测系数，则通过解码这个线性预测系数和建模谱包络信号也能够确定左右声道信号之间的相似性。

另外，高频分量发生单元230使用SBR算法，对每个声道每隔一个帧跳跃地重构左右声道信号的高频分量。然后，在左右声道信号彼此相似时，用在一个声道中产生的高频分量重构另外一个声道信号的跳跃的帧的高频分量。在左右声道信号彼此不相似时，用每个声道信号的前帧的高频分量，重构相关声道信号的跳跃帧的高频分量。稍后参照图5和7说明其详细情况。

在高频发生单元230重构每个声道信号的高频分量时，声频合成单元240产生通过将发生的高频分量加到解码的视频信号获得的输出。因此，依靠在声道信号之间的相似性，合适地重构高频分量，从而能够减少不必要的计算，并且也能够加强声音质量。

下面参照附图详细说明本发明的声频信号解码方法。

图4是根据本发明的声频信号解码方法的整个处理过程流程图。

首先，解码器210解码输入的声频位流并输出声频信号(S10)。这里，这个解码方法能够根据压缩声频信号使用的如AC-3、MEPG和霍夫曼编码等编码类型变化。

然后，高频分量发生单元230使用SBR算法对每个声道每隔一个帧跳跃地重构左右声道信号的高频分量(S20)。下面参照图5对上述更具体说明。

图5是根据本发明对每个声道信号每隔一个帧跳跃地产生高频分量的处理过程示意图。参见图5，高频发生单元230分别对左右声道信号每隔一个帧跳跃地重构高频分量。

即，从时间t1的帧产生左声道的高频分量(Lt1)，而在时间t2的帧产生右声道(Rt2)的高频分量。相似地，这个处理在时间t3、t4、t5等被重复地进行。

然后，声道相似性确定单元220确定左右声道信号之间的相似性(S30)。下面简要说明确定声道信号之间相似性的方法。

首先，声道相似性确定单元220分析解码的声频信号是否包括模式信息。如果是，确定单元220基于模式信息确定声道信号之间的相似性，即，根据模式信息是具有左右声道信号之间大的相似性的共同立体声模式值，或是具有声道信号之间小的相似性的立体声模式值，确定声道信号之间的相似性

另一方面，在解码的声频信号中不包括模式信息时，声道相似性确定单元220基于从声频信号获得的声道信号之间的和及差的信息，计算相应于表示声道信号之间相似性的参数的SNR。然后，如果计算的SNR值小于声道信号之间的相似性的阈值，则确定这两个声道信号是彼此相似的。否则，确定这两个声道信号彼此不相似。即，如果在解码声频信号中不含有模式信息，则将从声道信号的和及差信息获得的SNR作为表示声道信号之间相似性的参数，然后与20分贝的阈值比较，确定声道信号之间的相似性。

已就图2和3说明了依靠模式信息确定声道信号之间相似性的方法，在此省略其详细说明。

另外，在声道相似性确定单元220确定左右声道信号彼此不相似时，高频分量发生单元230，使用每个声道信号的前帧的高频分量，重构跳跃帧的高频分量，从而产生各声道信号的高频分量(S40)。下面参照图6更详细说明这个处理。

图6是在两个声道信号彼此不相似时的产生左右声道信号的方法示意图。参见图6，在两个声道信号彼此不相似时，高频分量发生单元230用对每个声道信号的前帧产生的高频分量(在每隔一个帧跳跃时产生的高频分量)，重构跳跃的帧的高频分量。

也就是说，用在时间t1的左声道信号信号的高频分量Lt1代替跳跃的帧的高频分量，即在时间t2的左声道的高频分量Lt2。相似地，在时间t2的右声道信号的高频分量Rt2代替在时间t3的高频分量Rt3。

在另一方面，在声道相似性确定单元220确定左右声道信号彼此相似时，高频分量发生单元230利用从一个声道信号产生的高频分量，重构另一声道信号的高频分量(S50)。下面参照图7详细说明这个处理。

图7是在左右声道信号彼此相似时的重构每个声道信号的高频分量的方法示意图。参见图7，在确定左右声道彼此相似时，高频分量发生单元230使得左声道信号的高频分量分别代替左右声道信号的跳跃帧的高频分量。此时，从每个声道信号产生的高频分量能够乘以预定的修改值(例如，特定的常数)并用于产生另一声道信号的高频分量。

即，左声道信号高频分量(Lt1)代替在时间t1的右声道信号相对应的高频分量Rt1，并且右声道信号的高频分量(Rt2)代替时间t2的左声道的高频分量(Lt2)。

此时，因为左右声道信号通常彼此很相似，所以声音质量的降低变得最小。而且，对每个声道信号每隔一帧跳跃地产生高频分量，并且将它们有效地用于另一声道信号的高频分量。因此，与传统的SBR算法相比较，计算量约能够减少30％。

最后，产生的高频分量与解码的声频信号结合，然后输出结合的信号(S60)。

总的来说，因为多数声频信号的左右声道信号彼此相似，所以根据本发明的解码方法解码声频信号位流，使得重构高频分量需要的计算，与现有技术相比，约减少30％。

图8示出了与现有技术的SBR和MP3方法相比较，本发明加强声音质量的例子。为了评价在64kbps的比率压缩的包括3首爵士音乐、9首流行音乐、7首摇滚音乐和6首古典音乐的各种歌曲的声频信号的声音质量，进行了14次试验。使用用于测量压缩数字声响/声频信号的周知的系统的歌剧工具(opera tool)，作为声音质量评价程序。按照由歌剧工具测量的值接近零，确定改进重构的声音质量。

如图8所示，能够理解，根据本发明重构高频分量的方法再现的声频信号的声音质量，几乎与现有技术SBR和MP3方法再现的声频信号的声音质量相同或它们的差别可忽略。

因此，与传统的SBR算法相比较，本发明使得即使在计算量减少约30％的情况下也能够输出高质量的声频信号，而现有技术的SBR算法，尽管也具有良好的加强声音质量的作用，但是由于过量的计算时间，实际应用到相关产品是困难的。

而且，本发明的优选实施例能够以计算机可执行的程序的形式实现。另外，通过计算机可读记录介质，所述程序能够在数字计算机上运行。

所述计算机可读记录介质包括磁性记录介质(如ROM、软盘、硬盘等)，光学可读介质(如CD ROM、DVD等)和载波(如通过因特网传输)。

虽然现有技术能够使得声音质量改善，但是由于过多的计算时间，现有技术应用到相关产品是困难的，但是根据上述的本发明，能够解决这个关键问题。因此，优点是重构高频分量需要的计算时间能够约减少了30％。

虽然结合图示的优选实施例说明了本发明，但是本领域的技术人员应当理解，在不偏离本发明的范围和精神的情况下，能够做出各种改变。因此，本发明的优选实施例是示范说明，而不是限定本发明。本发明由权利要求限定，各种修改方案应包括在本发明内。

Claims

1.一种在解码声频数据时产生高频分量的方法，包括步骤：

利用第一和第二声道信号之间的相似性，产生高频分量。

2.如权利要求1所述的方法，其中基于第一和第二声道信号之间的和及差的信息获得的信噪比(SNR)，确定声道信号之间的相似性。

3.如权利要求1所述的方法，其中声频数据包括模式信息。

4.如权利要求3所述的方法，还包括步骤：确定模式信息是否是表示在第一和第二声道信号之间大的相似性的共同立体声值，或是表示第一和第二声道信号之间没有相似性的立体声模式值。

5.如权利要求1所述的方法，还包括步骤：在第一和第二声道信号彼此相似时，

产生每个声道信号的仅一些帧的高频分量；和

使用另一声道信号的某些帧的产生的高频分量，产生每个声道信号的其它一些帧的高频分量。

6.如权利要求5所述的方法，其中通过适当修改一些帧的高频分量产生其它帧的高频分量。

7.如权利要求1所述的方法，还包括步骤：在第一和第二声道信号彼此不相似时，

产生每个声道信号的仅一些帧的高频分量；和

使用相关声道信号的一些帧的产生的高频分量，产生每个声道信号的其它帧的高频分量。

8.如权利要求7所述的方法，其中通过适当修改一些帧的高频分量产生其它帧的高频分量。

9.一种重构高频分量的声频解码方法，包括步骤：

(a)接收编码的声频数据，解码接收的数据，和输出第一和第二声道的解码的声频信号；

(b)产生每个第一和第二声道信号的仅一些帧的高频分量；

(c)确定在第一声道和第二声道信号之间的相似性；

(d)在第一和第二声道信号彼此相似时，使用另一声道信号的一些帧的产生的高频分量，产生每个声道信号的另一些帧的高频分量；和

(e)将产生的高频分量与解码的声频信号结合，并输出结合的声频信号。

10.如权利要求9所述的方法，其中步骤(c)包括步骤：基于从第一和第二声道信号的和及差信息获得的信噪比(SNR)，确定声道信号之间的相似性。

11.如权利要求9所述的方法，其中声频数据包括模式信息。

12.如权利要求9所述的方法，其中步骤(c)包括步骤：确定模式信息是否是表示表在第一和第二声道信号之间大的相似性的共同立体声值，或是表示第一和第二声道信号之间无相似性的立体声模式值。

13.如权利要求9所述的方法，还包括步骤：在确定第一和第二声道信号彼此不相似时，使用相关声道信号的一些帧的产生的高频分量，产生每个声道信号的其它帧的高频分量。

14.一种重构高频分量的声频解码装置，包括：

声频解码器，接收编码的声频数据，解码接收的数据，和输出第一和第二声道的解码的声频数据；

声道相似性确定单元，确定第一和第二声道信号之间的相似性；

高频分量发生单元，基于第一和第二声道信号之间的相似性，产生每个声道的声频信号的高频分量；和

声频合成单元，将解码的声频信号与产生的高频分量结合，并输出结合的声频数据。

15.如权利要求14所述的装置，其中高频分量发生单元被配置成在第一和第二声道信号彼此相似时，产生每个第一和第二声道信号的仅一些帧的高频分量，然后使用另一声道信号的一些帧的产生的高频分量，产生每个声道信号的其它帧的高频分量。

16.如权利要求14所述的装置，其中高频分量发生单元被配置成在第一和第二声道信号彼此不相似时，产生每个声道的仅一些帧的高频分量，然后使用相关声道信号的一些帧的产生的高频分量，产生每个声道信号其它帧的高频分量。

17.一种计算机可读记录介质，其中记录了在计算机中执行权利要求1-13任何一项权利要求所述方法的程序。