CN100568740C

CN100568740C - 编码/解码音频信号的设备和方法

Info

Publication number: CN100568740C
Application number: CNB2005100755712A
Authority: CN
Inventors: 李俊弦; 张成哲
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-06-04
Filing date: 2005-06-06
Publication date: 2009-12-09
Anticipated expiration: 2025-06-06
Also published as: CN1707955A; US20050271367A1; KR100636144B1; KR20050115799A

Abstract

一种编码音频信号的设备和方法以及一种解码音频信号的设备和方法。该音频解码方法包括：通过解码输入信号而产生音频信号；以及将所产生的音频信号的原始波形变换为补偿音频信号中的声学共振效应的补偿波形。因此，通过利用翻转的补偿波形来补偿作为由于人耳的结构而产生的声学共振效应的ERP-DRP共振效应，可以经由耳机、头戴式耳机、或电话听筒等等听到中频带没有放大的具有极好声音质量的音频信号。

Description

编码/解码音频信号的设备和方法

相关申请的交叉引用

本申请要求2004年6月4日和2004年6月14向美国专利和商标局提交的美国临时专利申请号60/576,617和60/578,862、以及2004年6月11日向韩国知识产权局提交的韩国专利申请号2004-43075的优先权，在此通过引用将其公开全部合并在其中。

技术领域

本发明一般涉及一种编码音频信号的设备和方法以及一种解码音频信号的设备和方法。

背景技术

图1示出用于检测声音的人耳结构。

参考图1，当人耳外轮廓上的耳朵基准点(ERP)被耳机、头戴式耳机、电话听筒等等盖住之后，在ERP和人耳中部上的鼓膜基准点(DRP)之间形成一个密封的空间。因此，当人耳检测到从音频装置输出的音频信号时，共振效应将声压在对应于该密封空间的共振频率的频域内(大约为1～10KHz频带)提高了15dB以上。由于该ERP-DRP共振效应，即使采用高质量的耳机、头戴式耳机、电话听筒，还是存在人耳听到中频带被放大很多的音频信号的问题。结果，音频信号的声音质量恶化。特别是，因为耳机、头戴式耳机、电话听筒等等的使用随着便携式音频装置和移动电话的广泛使用而增加，所以该问题变得越来越重要。

发明内容

本一般发明构思提供一种解码音频信号的设备和方法，以补偿在音频解码操作中的ERP-DRP共振效应。

本一般发明构思还提供一种具有执行该音频解码方法的可执行代码的计算机可读介质。

本一般发明构思还提供一种在音频编码操作中通过考虑ERP-DRP共振效应来以更高的压缩率编码音频信号的设备和方法。

本一般发明构思还提供一种具有执行该音频编码方法的可执行代码的计算机可读介质。

本一般发明构思的其他方面将部分在下面的描述中提出，并且部分将根据该描述而清楚，或者可以通过对本一般发明构思的实践而得知。

本一般发明构思的上述和/或其它方面是通过提供一种音频解码方法来实现的，该方法包括通过解码输入信号而产生音频信号，以及将该音频信号的原始波形变换为补偿声学共振效应的补偿波形。

本一般发明构思的上述和/或其它方面还通过提供一种音频解码设备来实现，该设备包括通过解码输入信号产生音频信号的解码器，以及将解码器产生的音频信号的原始波形变换为补偿声学共振效应的补偿波形的共振补偿器。

本一般发明构思的上述和/或其它方面还通过提供一种具有执行该音频解码方法的可执行代码的计算机可读介质来实现。

本一般发明构思的上述和/或其它方面还通过提供一种音频编码方法来达到，该方法包括根据调整为说明声学共振效应的掩蔽阈值曲线来计算音频信号的多个子带样本中的每一个样本的信掩比(SMR：signal-to-mask ratio)，根据所计算的信掩比将比特分配给每一子带样本，并在所分配的比特范围内量化和编码该子带样本。

本一般发明构思的上述和/或其它方面还通过提供一种音频编码设备来达到，该设备包括心理声学模型单元，用于根据调整为说明声学共振效应的掩蔽阈值曲线来计算音频信号的多个子带样本中的每一个样本的信掩比(SMR)；比特分配器，用于根据所计算的信掩比而将比特分配给每一子带样本；以及量化/编码单元，用于在所分配的比特范围内量化和编码该子带样本。

本一般发明构思的上述和/或其它方面还通过提供一种具有执行该音频编码方法的可执行代码的计算机可读介质来达到。

附图说明

通过下面结合附图对实施例的描述，本一般发明构思的上述和/或其它方面和优点将变得更为明显和更容易理解，在附图中：

图1示出用于检测声音的人耳结构；

图2是示出人耳基准点(ERP)和人耳的鼓膜基准点(DRP)之间的共振波形的图；

图3是示出通过翻转图2的共振波形获得的补偿波形的图；

图4是示出通过将图3的补偿波形施加到图2的共振波形而获得的结果的图；

图5是示出根据本一般发明构思的实施例的音频解码设备的方框图；

图6是示出根据本一般发明构思的实施例的解码音频信号的方法的流程图；

图7示出由图5的音频解码设备所再现的音频信号与传统音频解码设备所再现的音频信号的比较；

图8示出用于考虑ERP和DRP之间的共振效应的掩蔽效果；

图9是示出根据本一般发明构思的实施例的音频编码设备的方框图；和

图10是示出根据本一般发明构思的实施例的音频编码方法的流程图。

具体实施方式

现在详细参考在附图中示出了其示例的本一般发明构思的实施例，其中相同的附图标记全部表示相同的元件。下面描述的实施例是为了在参考附图的同时解释本一般发明构思。

图2是示出人耳基准点(ERP)和人耳的鼓膜基准点(DRP)之间的共振波形的图。

参考图2，测量由于ERP和DRP之间的密封空间而使声压在约1～10KHz频带内提高了15dB以上的共振波形。ERP-DRP共振波形可以通过将探针麦克风插入人或人体模型头的耳朵内来测量。

图3是示出通过翻转图2的共振波形获得的补偿波形的图。

参考图3，该补偿波形是通过关于频率轴翻转图2示出的共振波形而获得的。

图4是示出通过将图3的补偿波形施加到图2的共振波形而获得的结果的图。

参考图4，当耳机或头戴式耳机的用户听到施加了图3的补偿波形的音频信号时，该用户实际上听到的是具有原始波形的音频信号。在整个详细说明中，为了图示的目的，假定音频信号的原始波形是平坦波形。但是，应当理解音频信号的原始波形可以具有其它各种形状。

参考图2、3和4，用于补偿ERP-DRP共振效应的音频解码设备可以通过测量由ERP-DRP共振效应产生的共振波形、通过翻转所测量的共振波形来计算补偿波形、设计一个或多个诸如有限脉冲响应(FIR)滤波器和/或无限脉冲响应(IIR)滤波器的数字滤波器以将计算的补偿波形施加到测量的共振波形上、以及在音频解码设备中实施所设计的数字滤波器来实现。

图5是示出根据本一般发明构思的实施例的音频解码设备的方框图。

参考图5，该音频解码设备包括解码器51、第一共振补偿器52、第一数模转换器(DAC)53、第一放大器54、第二共振补偿器55、第二DAC 56、和第二放大器57。

解码器51通过解码输入信号产生音频信号。通常，该输入信号可以是从MPEG音频编码设备传输的比特流。

第一共振补偿器52将解码器51产生的音频信号的波形变换为补偿ERP-DRP共振效应的第一波形。如图3所示，用于补偿ERP-DRP共振效应的补偿波形可以通过翻转图2所示的ERP-DRP共振波形来获得。

第一共振补偿器52包括第一共振频带提取器521和第一波形变换器522。第一共振频带提取器521提取受到ERP-DRP共振效应影响的频带，以补偿该ERP-DRP共振效应。也就是说，第一共振频带提取器521可以从音频信号中提取大约1～10KHz的频带。第一波形变换器522将第一共振频带提取器521提取出的频带变换为补偿波形，其(在音频信号平坦时)可以具有与图3所示的补偿波形相同的形状。如上所述，第一共振补偿器52可以用一个或多个诸如FIR滤波器和IIR滤波器的数字滤波器来实现。

第一DAC 53将已经由第一共振补偿器52变换为补偿波形的数字音频信号转换为模拟音频信号。如上所述，输入第一DAC 53的音频信号是通过对MEPG音频编码设备所传输的比特流进行解码而获得的数字音频信号，并且可以为了再现而转换为模拟音频信号。

第一放大器54将第一DAC 53所转换的模拟音频信号输出到扬声器。该扬声器可以是在人耳的ERP和DRP之间形成密封空间的音频装置的左扬声器，该音频装置例如是耳机、头戴式耳机、电话听筒等等。

第二共振补偿器55、第二DAC 56、和第二放大器57分别执行与第一共振补偿器52、第一DAC 53、和第一放大器54相同的功能。因此，将不提供对第二共振补偿器55、第二DAC 56、和第二放大器57的描述。但是，第一共振补偿器52、第一DAC 53、和第一放大器54可以处理输出到左扬声器的音频信号，而第二共振补偿器55、第二DAC 56、和第二放大器57可以处理输出到右扬声器的音频信号。因此，解码器51向第一共振补偿器52提供将要输出到左扬声器的解码数据，向第二共振补偿器55提供将要输出到右扬声器的解码数据。尽管图5示出由两个对应输出装置(例如扬声器)处理和输出两个声道(例如左声道和右声道)，但是应当理解本一般发明构思的实施例可以用于处理用于单声道输出装置的音频信号。例如，本一般发明构思的实施例可以用于处理用于电话听筒的声音。

图6是示出根据本一般发明构思的实施例的解码音频信号的方法的流程图。

参考图6，该音频解码方法包括操作61到66。图6所示的音频解码方法包括可以由图5所示的音频解码设备执行的一系列操作。或者，图6的方法可以由其它音频装置实施。

在操作61中，音频信号通过解码输入信号而产生。

在操作62中，从音频信号中提取出受到ERP-DRP共振效应影响的频带(即由于ERP-DRP共振效应而随后被变换的)。

在操作63中，所提取的频带被变换为补偿波形，其(在音频信号平坦时)可能具有与图3所示的补偿波形相同的形状。或者，当音频信号不平坦时，补偿波形可以具有不同的形状。

也就是说，在操作62和63中，在操作61中产生的音频信号的波形被变换为补偿波形，其由于音频信号中的ERP-DRP共振效应而随后被变换。这里，由于ERP-DRP共振效应而随后被变换的补偿波形是通过翻转ERP-DRP共振波形而获得的。由此，在音频信号中实际发生ERP-DRP共振效应之前，音频信号就被补偿了ERP-DRP共振效应。

在操作64，将具有在操作63中获得的补偿波形的数字音频信号转换为模拟音频信号。如上所述，具有在操作63中获得的补偿波形的数字音频信号可以是通过对MEPG音频编码设备所传输的比特流进行解码而获得的数字音频信号，并且可以为了再现而被转换为模拟音频信号。或者，该数字音频信号可以从诸如声音文件、致密盘(CD)、或数字视频盘(DVD)的计算机可读介质中获得。

在操作65和66中，对操作64中获得的已经补偿了ERP-DRP共振效应的模拟音频信号进行放大并输出到扬声器。然后当通过扬声器输出模拟音频信号时，发生ERP-DRP共振效应。因此，具有原始波形的原始音频信号被再现并可以由人耳检测到，因为ERP-DRP共振效应将补偿波形变换为原始音频信号的原始波形。

图7示出由图5的音频解码设备再现的音频信号与传统音频解码设备再现的音频信号的比较。用户可以例如采用耳机、头戴式耳机、或电话听筒来检测再现的音频信号。也可以采用其它可以在人耳的ERP和DRP之间创建密封空间的音频装置。

参考图7，当用户采用传统的音频解码设备收听到对应于具有平坦波形的输入音频信号71的输出音频信号时，由用户实际检测到的输出音频信号是具有被放大了大约15dB的中频带的波形的信号72。

但是，当用户采用根据本一般发明构思的实施例的音频解码设备收听到对应于具有平坦波形的输入音频信号73的输出音频信号时，从根据本一般发明构思的实施例的音频解码设备输出的音频信号是具有补偿波形的信号74。因此，由用户实际检测到的输出音频信号是具有与输入音频信号73相同平坦波形的信号75。由此，输入音频信号73的原始波形可以通过采用补偿波形对音频信号的原始波形预补偿ERP-DRP共振效应而获得。

因此，当本一般发明构思的实施例应用于采用耳机、头戴式耳机、电话听筒等等的便携式音频装置、移动电话、和个人数字助理(PDA)时，可以听到具有极好的声音质量而没有放大的中频带的输出音频信号。

图8示出在考虑ERP和DRP共振效应时出现的掩蔽效果。

大多数有损耗的音频压缩算法强调当原始音频信号与压缩音频信号进行比较时人的主观感觉不能将原始音频信号与压缩音频信号区分开来的最大程度，而不是强调原始音频信号和压缩音频信号之间的最小算术误差。在详细压缩处理的方面，去除了不能被人耳听到的声音，并且仅分配比特来表示人能听到的声音。例如，由于人耳很少听到非常高和非常低频率的分量，所以非常高和非常低频率的分量可以排除在压缩处理之外。此外，基于人听力的特性而被特定掩蔽频率掩蔽的频率分量可以按照低于正常的精度来编码。心理声学模型根据人耳和大脑之间的交互来使用该掩蔽效应。根据该心理声学模型，由于掩蔽而使得人耳无法听到的频率分量的最大声压被称为掩蔽阈值。一旦该频率分量的声压超过该掩蔽阈值，就能在该特定掩蔽频率上听到该频率分量。由于无法听到声压小于掩蔽阈值的音频信号，所以可以通过音频编码处理来去除这些音频信号。

参考图8，掩蔽阈值曲线的中间频带(即ERP-DRP共振频带)由于ERP-DRP共振效应而被放大了15dB以上。如果认为ERP-DRP共振频带是掩蔽频带，那么即使在正常状态下能够听到该掩蔽频带的相邻频带(即没有ERP-共振效应)，但是还是不能听到该掩蔽频带的相邻频带，因为它们被掩蔽频带掩蔽了。因此，可以通过调整说明对用于压缩声音数据的心理声学模型的ERP-DRP共振效应的掩蔽阈值曲线来最大化压缩率。

图9是示出根据本一般发明构思的实施例的音频编码设备的方框图。

参考图9，该音频编码设备包括滤波器组91、心理声学模型单元92、比特分配器93、量化/编码单元94、以及比特流格式器95。

滤波器组91将音频信号划分为多个子带样本。输入到滤波器组91和心理声学模型单元92的音频信号是脉码调制(PCM)音频信号。

心理声学模型单元92根据调整为说明ERP-DRP共振效应的掩蔽阈值曲线来计算音频信号的每个子带样本的信掩比(SMR)。也就是说，心理声学模型单元92考虑具有由于ERP-DRP共振效应而已经增加的掩蔽阈值的ERP-DRP共振频带，来计算音频信号的每个子带样本的信掩比。由于ERP-DRP共振效应而对掩蔽阈值进行了调整，因此可以应用频谱掩蔽理论和时间掩蔽理论。在此，所应用的掩蔽理论可以包括同时掩蔽、预掩蔽、和后掩蔽，这可以用于传统的感觉编码。

心理声学模型单元92包括FFT(快速傅立叶变换)单元921、共振频带计算器922、和高/低频带计算器923。

FFT单元921通过对音频信号进行快速傅立叶变换来计算频谱波形。

共振频带计算器922计算由于ERP-DRP共振效应而随后被变换的频带。共振频带计算器922还计算ERP-DRP共振频带的SMR。具体地说，共振频带计算器922通过从FFT单元921计算的频谱波形中确定ERP-DRP共振频带的掩蔽阈值和子带样本的声压级，而计算ERP-DRP共振频带的SMR。然后，共振频带计算器922计算所确定的ERP-DRP共振频带的掩蔽阈值和子带样本的声压级之间的差值。因此，共振频带计算器922可以确定ERP-DRP共振频带对围绕该ERP-DRP共振频带的子带样本提供的掩蔽效应。

高/低频带计算器923计算与不同于ERP-DRP共振频带的频带对应的高/低频带(即围绕ERP-DRP共振频带的频带)的SMR。具体地说，高/低频带计算器923通过从FFT单元921计算的频谱波形中确定高/低频带的掩蔽阈值和子带样本的声压级来计算高/低频带的SMR。然后，高/低频带计算器923计算所确定的掩蔽阈值和子带样本的声压级之间的差值。因此，高/低频带计算器923可以确定不是ERP-DRP共振频带的掩蔽频带对子带样本提供的掩蔽效应。

当根据ERP-DRP共振频带来实施心理声学模型单元92时，共振频带计算器922和高/低频带计算器923可以实施为单一组合单元或两个单独的单元。

然后，比特分配器93根据心理声学模型单元92计算的SMR，而将比特分配给由滤波器组91划分的每个子带样本。

例如，关于ERP-DRP共振频带的掩蔽效应，当子带样本具有小于或等于ERP-DRP共振频带的对应掩蔽阈值的声压时(也就是小于或等于1的SNR)，不需要向该子带样本分配比特，因为该子带样本由于ERP-DRP共振效应而无法听见。同样，当子带样本具有超过ERP-DRP共振频带的对应掩蔽阈值的声压时(也就是大于1的SNR)，向该子带样本分配比特，因为不管ERP-DRP共振效应如何，该子带样本都是可听见的。按照类似方式，可以根据由高/低频带计算器923确定的其它高/低掩蔽频带的掩蔽效应来将比特分配或不分配给子带样本。

量化/编码单元94在所分配的比特范围内量化和编码这些子带样本。

比特流格式器95通过向量化和编码后的子带样本添加比特分配信息和附加信息，而将量化和编码后的子带样本格式化为比特流。一般地，比特流格式器95根据MPEG标准来格式化所述量化和编码后的子带样本。

从比特流格式器95输出的比特流被传输到音频解码设备。

图10是示出根据本一般发明构思的实施例的编码音频信号的方法的流程图。

参考图10，该音频编码方法包括操作101到107。图10所示的音频编码方法包括可以由图9所示的音频编码设备执行的一系列操作。或者，图10的方法可以由其它音频装置执行。

在操作101，音频信号被划分为多个子带。

在操作102，通过对音频信号执行快速傅立叶变换而计算频谱波形。

在操作103，计算ERP-DRP共振频带的SMR。具体地说，通过从在操作102所计算的频谱波形确定ERP-DRP共振频带的掩蔽阈值和子带样本的声压级，来计算ERP-DRP共振频带的SMR，并且计算所确定的ERP-DRP共振频带的掩蔽阈值和子带样本的声压级之间的差值。

在操作104，计算与不同于ERP-DRP共振频带的频带对应的高/低频带(即围绕ERP-DRP共振频带的频带)的SMR。具体地说，通过从在操作102所计算的频谱波形确定高/低频带的掩蔽阈值和子带样本的声压级，来计算高/低频带的SMR，并且计算所确定的高/低频带的掩蔽阈值和子带样本的声压级之间的差值。

也就是说，在操作103和104中，根据由于ERP-DRP共振效应而变换的掩蔽阈值来计算音频信号的子带样本的SMR。

在操作105，根据在操作103和104中计算的SMR，而将比特分配给在操作101中划分的每个子带样本。

在操作106，在操作105分配的比特范围内，对子带样本进行量化和编码。

在操作107，通过向量化和编码后的子带样本添加比特分配信息和附加信息，而将操作106中量化和编码的子带样本格式化为比特流。

本一般发明构思可以实施为在包括存储介质的计算机可读介质中的可执行代码，该存储介质例如是磁存储介质(ROM、RAM、软盘、磁带等等)、光可读介质(CD-ROM、DVD等)、和载波(通过因特网传输)。

如上所述，根据本一般发明构思的实施例，用户利用耳机、头戴式耳机、电话听筒等等，采用补偿ERP-DRP共振效应(这是由人耳结构导致的声学共振效应)的补偿波形，可以听到中频带没有放大的具有极好声音质量的音频信号。特别是，可以补偿ERP-DRP共振效应，这是随着诸如便携式DVD播放器、MP3播放器和移动电话的便携式音频装置的广泛使用而变得越来越重要的问题。

此外，根据用于以高于其他频带的压缩率编码不能被人听到的高/低频带的心理声学模型，通过考虑由于ERP-DRP共振效应而变换的掩蔽阈值，添加以高于其它频带的压缩率来编码被ERP-DRP共振频带掩蔽的频带的功能，可以大大改善压缩率。

尽管已示出和描述了本一般发明构思的若干实施例，但是本领域的普通技术人员可以理解，在不脱离由所附权利要求及其等价物限定其范围的本一般发明构思的原理和精神的情况下，可以对这些实施例做出修改。

Claims

1.一种音频解码方法，包括：

通过解码输入信号而产生音频信号；以及

将该音频信号的原始波形变换为补偿声学共振效应的补偿波形，

其中所述音频信号的原始波形的变换包括通过翻转由于所述声学共振效应而获得的共振波形来获得补偿波形。

2.根据权利要求1的音频解码方法，还包括：

输出所述补偿波形，使得该补偿波形通过所述声学共振效应而转换为原始波形。

3.根据权利要求1的音频解码方法，其中所述声学共振效应包括在人耳基准点(ERP)和鼓膜基准点(DRP)之间产生的ERP-DRP共振效应。

4.根据权利要求1的音频解码方法，其中所述共振波形是通过对人体模型头进行测量而获得的。

5.根据权利要求1的音频解码方法，其中所述原始波形的变换包括：

从所述音频信号中提取由于声学共振效应而随后被变换的频带；以及

将所提取的频带变换为补偿波形。

6.根据权利要求1的音频解码方法，其中所述音频信号是数字音频信号，并且该方法还包括：

将具有补偿波形的数字音频信号转换为模拟音频信号。

7.一种补偿音频信号中的声学共振效应的方法，该方法包括：

确定由该声学共振效应引起的共振波形；

通过确定该共振波形的翻转而计算补偿波形；

将音频信号的原始波形变换为该补偿波形；以及

输出向其施加了补偿波形的音频信号。

8.根据权利要求7的方法，其中将音频信号的原始波形变换为该补偿波形包括：

提取被声学共振效应影响的频带；以及

将提取出的频带变换为补偿波形。

9.根据权利要求7的方法，其中：

输出该音频信号包括创建声学共振效应，以便将该补偿波形向回变换为原始波形。

10.根据权利要求7的方法，还包括：

从解码器接收音频信号，该音频信号包括左声道信号和右声道信号。

11.根据权利要求10的方法，其中：

确定共振波形包括确定由用户左耳内的声学共振效应引起的第一共振波形，并确定由用户右耳内的声学共振效应引起的第二共振波形；

计算该补偿波形包括通过确定该第一共振波形的翻转来计算第一补偿波形，并通过确定该第二共振波形的翻转来计算第二补偿波形；以及

将该补偿波形施加到音频信号包括将第一和第二补偿波形分别施加到左声道信号和右声道信号。

12.一种音频解码设备，包括：

解码器，用于通过解码输入信号而产生音频信号；以及

共振补偿器，用于将解码器产生的音频信号的原始波形变换为补偿声学共振效应的补偿波形，

其中该补偿波形是通过翻转由于所述声学共振效应获得的共振波形而获得的。

13.根据权利要求12的音频解码设备，还包括：

扬声器，用于输出所述补偿波形，使得该补偿波形通过该声学共振效应而转换为原始波形。

14.根据权利要求13的音频解码设备，其中该扬声器形成与人耳的密封空间，并输出补偿波形，使得该补偿波形在该密封空间内共振。

15.根据权利要求13的音频解码设备，其中该扬声器包括头戴式耳机、耳机、和电话听筒之一。

16.根据权利要求12的音频解码设备，其中所述声学共振效应包括在人耳基准点(ERP)和鼓膜基准点(DRP)之间产生的ERP-DRP共振效应。

17.根据权利要求12的音频解码设备，其中该共振补偿器包括：

共振频带提取器，用于从所述音频信号中提取由于声学共振效应而随后被变换的频带；以及

波形变换器，用于将提取的频带变换为补偿波形。

18.一种补偿音频信号中的声学共振效应的设备，该设备包括：

解码器，用于接收音频信号并解码所接收的音频信号；

至少一个波形变换器，用于将音频信号的原始波形变换为补偿波形；以及

至少一个扬声器单元，用于输出向其施加了补偿波形的音频信号，其中该补偿波形包括由声学共振效应引起的共振波形的反转。