CN103620673A

CN103620673A - 用于处理已编码多声道音频信号的音频信号处理器和用于音频信号处理器的方法

Info

Publication number: CN103620673A
Application number: CN201280031218.2A
Authority: CN
Inventors: A.S.赫梅; A.W.J.奧门
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-06-24
Filing date: 2012-06-04
Publication date: 2014-03-05
Anticipated expiration: 2032-06-04
Also published as: RU2014102198A; CN103620673B; EP2724555B1; US20140133661A1; EP2724555A1; JP2014520473A; WO2012176084A1; JP5895050B2; BR112013032727A2; RU2595910C2; US9626975B2

Abstract

一种音频信号处理器接收多个已编码多声道音频信号。多声道解码器（105）对第一已编码多声道信号进行解码，以生成第一已解码多声道信号。生成器（109）通过从至少第二已编码多声道音频信号选择音频编码数据来生成另外的已编码音频信号，使得包括来自第二已编码多声道音频信号的音频编码数据的该另外的已编码音频信号的声道数目小于第二已编码多声道信号中的声道数目。因此，在已编码数据域中实施了声道减少。另外的解码器（111）通过对所述另外的已编码音频信号进行解码来生成另外的已解码信号。合并器（107）将第一已解码多声道信号与所述另外的已解码信号进行合并来生成多声道输出信号。可以在保持低复杂度和资源使用的同时提供激动人心的用户体验。

Description

用于处理已编码多声道音频信号的音频信号处理器和用于音频信号处理器的方法

技术领域

本发明涉及一种音频信号处理器和一种用于音频信号处理器的方法，特别但是非排他性地，涉及多声道信号的同时再现。

背景技术

近几十年来，音频供应品的种类和灵活度显著增加。实际上，空间音频、数字音频编码和解码的引入、音频设备的小型化等导致了以许多不同方式消费音频。此外，额外的机会和功能导致了新的用户体验以及使用场景在发展。

例如，音频设备已经发展，其允许多个源信号被同时再现但是在空间上被区分开。这样的音频设备可以对多个源信号进行解码以提供已解码的信号，然后，对所述已解码的信号进行空间处理，使得它们对于听者而言显得像源自不同方向。这样的音频播放器的示例可以在Harma, A.和S. van de Par的文章“Spatial Track Transition Effects for Headphone Listening”；10th Int. Conf.Digital Audio Effects (DAFx10);2007;Bordeaux;法国中找到。

然而，尽管这样的处理倾向于提供有吸引力的用户体验，但是其还倾向于具有关联的缺陷。特别地，所述处理的复杂度和计算要求倾向于是极高的，因而需要相对强大的处理平台。这增大了成本和功率消耗，而这对于消费品市场的小型便携式音频播放器而言尤其是不希望的。可替换地，通过对所述处理的品质进行折衷处理或者限制能够被处理的音频源信号的数目，来降低复杂度和处理要求。然而，这导致降级的用户体验。

因此，一种改进的方法将是有利的，尤其是一种允许灵活度增大、复杂度降低、计算要求降低、操作便利、功率消耗降低、音频质量改善、用户体验改善和/或性能改善的方法将是有利的。

发明内容

相应地，本发明试图更好地以个别或任何组合的方式来减轻、减弱或消除以上提及的缺点中的一个或多个。

根据本发明的一个方面，提供了一种音频信号处理器，包括：接收器，用于接收多个已编码多声道音频信号；多声道解码器，用于对第一已编码多声道信号进行解码，以生成第一已解码多声道信号；生成器，用于通过从所述多个已编码多声道音频信号中的至少第二已编码多声道音频信号选择音频编码数据来生成另外的已编码音频信号，使得包括来自第二已编码多声道音频信号的音频编码数据的所述另外的已编码音频信号的声道数目小于第二已编码多声道信号中的声道数目；另外的解码器，用于通过对所述另外的已编码音频信号进行解码来生成另外的已解码音频信号；以及合并器，用于将至少第一已解码多声道信号与所述另外的已解码音频信号进行合并来生成多声道输出信号。

本发明可以提供对多个已编码多声道音频信号的改善处理。特别地，可以在许多场景下实现复杂度降低和/或计算资源减少。可以生成包括来自多个多声道音频信号的音频的输出信号，而无需各个多声道信号的全多声道解码。可以大大地减少计算资源使用，从而允许在多声道输出信号中包括极大量的多声道信号。在许多场景下，可以实现用户体验改善、成本降低和/或实现方式便利。

在一些实施例中，音频信号处理器还可以包括用于例如使用耳机来再现多声道输出信号的装置。

已编码多声道音频信号可以被编码为立体声信号。在一些实施例中，所述多个已编码多声道音频信号的多声道信号具有相等数目的声道，并且可以具体地是已编码立体声信号。

所述另外的已编码音频信号可以是具有比第二已编码多声道音频信号的声道少的声道的多声道信号。在其他实施例中，所述另外的已编码音频信号可以具有与第二已编码多声道音频信号一样多或者甚至更多的声道，但是来自第二已编码多声道音频信号的编码数据仅仅被包括在这些声道的子集中，其中，所述子集包括比第二已编码多声道音频信号的声道少的声道。

生成器实现了代表第二已编码多声道音频信号的音频源的已编码音频数据的声道数目上的减少。具体地，生成器可以丢弃第二已编码多声道音频信号的声道中的一个或多个。

典型地，第二已编码多声道信号不同于第一已编码多声道信号。

根据本发明的可选特征，生成器被布置为，通过从第二已编码多声道信号的单个声道选择音频编码数据来生成所述另外的已编码音频信号的第一声道。

这可以便于实现和/或降低复杂度和/或减少计算资源。特别地，其可以允许低复杂度的音频数据的提取/选择，并且不必对编码数据进行任何处理。生成器可以在生成所述另外的已编码音频信号时从仅仅单个声道选择编码数据，并且可以忽略或丢弃第二已编码多声道音频信号的所有其他声道。

第一声道可以包括来自第二已编码多声道音频信号的仅仅单个声道的编码数据。

根据本发明的可选特征，所述另外的已编码音频信号是多声道信号，并且生成器被布置为，通过从第三已编码多声道信号的单个声道选择音频编码数据来生成所述另外的已编码音频信号的第二声道。

所述另外的已编码音频信号可以包括来自多个已编码多声道信号的编码数据。所述另外的已编码音频信号可以具体地是这样的多声道信号，其具有的声道数目与第一已编码多声道信号的声道数目相同，但是具有来自不同已编码多声道信号的声道的子集。

所述另外的解码器可以是多声道解码器，并且可以对包括来自不同已编码多声道信号的声道的另外的已编码音频信号实施单一的多声道解码。因此，单一的多声道解码可以同时对来自多个所接收的已编码多声道信号的音频进行解码。所述另外的解码器可以与用于对第一已编码多声道信号进行解码的多声道解码器相同。

根据本发明的可选特征，所述另外的已编码音频信号的单个声道的已编码音频数据与第二已编码多声道信号的单个声道的已编码音频数据相同。

这可以允许特别高效且典型的低复杂度和/或低计算资源的实现方式。在一些实施例中，可以简单地通过复制来自第二已编码多声道信号的单个声道的所有音频编码数据来生成所述另外的已编码音频信号的单个声道。

根据本发明的可选特征，第二已编码多声道信号的单个声道是以下项中的至少一个：中侧立体声信号的中声道；左右式立体声信号的左声道；以及左右式立体声信号的右声道。

这可以提供特别有利的操作、性能和/或实现方式。特别地，它可以在提供极度有益的用户体验的同时，允许低复杂度和低资源要求的实现方式。

根据本发明的可选特征，所述另外的已编码音频信号是单声道信号。

这可以提供特别有利的操作、性能和/或实现方式。特别地，它可以在提供极度有益的用户体验的同时，允许低复杂度和资源要求的实现方式。

根据本发明的可选特征，所述另外的已编码音频信号是具有不同声道的多声道信号，所述不同声道包括来自所述多个已编码多声道音频信号中的不同已编码多声道音频信号的音频编码数据。

这可以提供特别有利的操作、性能和/或实现方式。特别地，它可以在提供极度有益的用户体验的同时，允许低复杂度和资源要求的实现方式。在许多场景下，该方法可以通过使用用于同时解码与多个不同声源对应的音频的多声道解码器来允许特别高效的操作。

根据本发明的可选特征，所述另外的已编码音频信号的每个声道对应于所述不同已编码多声道音频信号之一的一个声道。

这可以允许特别高效的实现方式。

根据本发明的可选特征，生成器被布置为，从多个已编码多声道音频信号选择用于所述另外的已编码音频信号的一个声道的音频编码数据。

这可以允许高效的实现方式，尤其是在许多场景下，这可以大大地减少所需要的解码计算要求。可以通过从来自不同已编码多声道音频信号的两个（或更多个）声道选择编码数据来生成所述另外的已编码音频信号的单个声道。在连续编码段中，编码数据的选择可以例如在两个已编码多声道音频信号之间交替。在一些场景下，可以应用更复杂的选择，比如，取决于所述多个已编码多声道音频信号的声道中的至少一个的音频编码数据的特性的选择。例如，可以选择与最强信号相对应的编码数据。

根据本发明的可选特征，生成器被布置为，通过修改第二已编码多声道音频信号的编码控制数据以对应于所述另外的已编码音频数据的已编码音频数据，来生成所述另外的已编码音频信号的编码控制数据。

这可以便于操作并且允许标准装置，比如，标准解码器功能，来处理所述另外的已编码音频信号。例如，可以将指示数据速率的报头信息从原始已编码多声道音频信号的数据修改为反应在生成所述另外的已编码音频信号时的音频编码数据的选择的值。例如，原始已编码多声道音频信号可以是中侧信号并且所述另外的已编码音频信号可以被生成为立体声信号，其中每个信号包括针对两个不同已编码多声道音频信号的中声道的编码数据。在这种情况下，所述另外的已编码音频信号的数据速率将高于这两个中侧已编码多声道音频信号的数据速率，并且报头数据可以被修改以对此进行反映。

根据本发明的可选特征，音频信号处理器还包括：用户接口，用于接收用户输入；空间模型，表示虚拟用户位置以及与所述多个已编码多声道音频信号相关联的虚拟空间声源位置；以及其中，生成器被布置为，响应于空间模型选择第一已编码多声道信号和第二已编码多声道音频信号。

这可以允许以降低的复杂度提供非常有吸引力的用户体验。具体地，在解码所需的复杂度越低时，对于模型而言可以再现的虚拟声源位置就越多，从而提供增强的用户体验。

在一些实施例中，用户接口可以包括用于呈现空间模型的表示的显示器。

根据本发明的可选特征，合并器被布置为，响应于空间模型，将空间处理应用于至少所述另外的已解码音频信号。

这可以提供高度有益的用户体验，其具有在听觉上提供的模型空间表示。

特别地，如果用户接口包括用于呈现空间模型的表示的显示器，则可以提供合并的音频视觉空间用户体验。此外，这可以在不需要对将被同时在空间上再现的所有声源进行全解码的情况下实现。因此，所述另外的已编码音频信号的生成不仅可以降低用于解码的复杂度和资源使用，而且还可以便利且降低用于空间再现的复杂度和资源使用。

根据本发明的可选特征，所述另外的已解码音频信号是多声道信号并且所述空间处理包括对所述另外的已解码音频信号的不同声道进行空间处理，以对应于空间模型的不同虚拟空间声源位置。

根据本发明的可选特征，合并器被布置为，响应于虚拟用户位置和与第二已编码多声道音频信号相关联的虚拟空间声源位置之间的距离，选择第二已编码多声道音频信号。

根据本发明的一个方面，提供了一种处理音频信号的方法，包括：接收多个已编码多声道音频信号；对第一已编码多声道信号进行解码，以生成第一已解码多声道信号；通过从所述多个已编码多声道音频信号中的至少第二已编码多声道音频信号选择音频编码数据来生成另外的已编码音频信号，使得包括来自第二已编码多声道音频信号的音频编码数据的所述另外的已编码音频信号的声道数目小于第二已编码多声道信号中的声道数目；通过对所述另外的已编码音频信号进行解码来生成另外的已解码音频信号；以及将至少第一已解码多声道信号与所述另外的已解码音频信号进行合并来生成多声道输出信号。

从下文中描述的（多个）实施例，本发明的这些和其他方面、特征和优点将显而易见，并且通过参考下文中描述的（多个）实施例，本发明的这些和其他方面、特征和优点得以阐明。

附图说明

将参照附图仅仅以举例的方式描述本发明的实施例，其中：

图1图示了根据本发明某些实施例的音频信号处理器的部件的示例；

图2图示了根据本发明某些实施例的音频信号处理器的信号合并器的部件的示例；

图3图示了根据本发明某些实施例的音频信号处理器的部件的示例；以及

图4图示了音频项集合的空间模型的视觉表示的示例。

具体实施方式

以下描述集中于本发明这样的实施例，其可用于由诸如便携式音频播放器之类的音频播放器再现立体声音频项。然而，应意识到，本发明不限于本应用，而是可以应用于许多其他音频信号和系统。

图1图示了根据本发明某些实施例的音频信号处理器的示例。

图1的音频信号处理器具体地被布置为处理与多个声源相对应的多个已编码多声道信号。具体地，生成输出信号，该输出信号包括来自多个输入已编码多声道信号的音频分量。每个已编码多声道音频信号可以是一个音频项或实体，比如一个已编码音频文件（例如，MP3编码歌曲）。

在该具体示例中，还可以引入空间处理，使得可以在得到的信号中基于不同声源/音频项的空间特性将所述不同声源/音频项区分开。例如，可以再现不同的歌曲，使得它们被感知为源自不同方向。

因此，在图1的系统中，从多个输入信号生成合成输出信号，使得听者感觉到具有多个同时声源的倾听环境。例如，可以同时呈现例如许多MP3编码歌曲。因此，将向该听者提供多个同时音频项。

按照惯例，通过对所有多声道信号进行解码以及后来对已解码的多声道信号进行逐声道混合，来实现同时多声道信号的再现。例如，当同时再现所接收的两个已编码立体声信号时，典型地，两个立体声解码器用于生成已解码的立体声信号。然后，这两个已解码的左声道被混合在一起，以生成左输出声道。类似地，这两个已解码的右声道被混合在一起，以生成右输出声道。然而，这样的方法在计算上有要求并且相对复杂。实际上，在许多应用中，希望的是，具有可能三或四个同时再现声源/音频项，因而需要三或四个同时的多声道解码器。然而，典型地，关联的计算需求远远高于典型地对于例如便携式应用（比如，例如便携式媒体或音频播放器）而言可行的计算需求。实际上，在这样的设备中，典型地，对于能够同时操作的解码器的数目，存在限制（例如3个）。

发明人已经意识到，对于其中同时向听者呈现多个多声道声源的许多应用而言，可能是可接受或实际上有利的是，按照全多声道再现来提供（多个）主源，但是可以用数目减少的声道再现其他源，具体地，在许多场景下，可以将其他源再现为（多个）单声道信号。图1的系统将这一事实与用于生成这样的输出信号的特定方法一起使用，以大大地降低复杂度和减少计算资源。特别地，图1的系统被布置为选择输入多声道信号中的一个（或多个）被再现为全多声道信号，包括应用全多声道解码和适当处理。然而，对于（多个）其他多声道信号，在解码之前，通过直接操控多声道信号的音频编码数据来实施声道数目上的减少。之后，仅仅得到的已编码声道被解码。因为与解码相关联的复杂度和资源需求典型地是全局复杂度和资源使用中最重要的因素之一，所以这导致非常显著地降低了全局复杂度和计算资源使用。

图1的音频信号处理器包括接收器101，该接收器101接收多个已编码多声道音频信号。因此，大量输入信号被接收，其中，每个输入信号都是代表声源的多声道信号。在该示例中，每个输入信号都是独立音频项，并且具体是音频文件，比如歌曲。在该示例中，输入信号代表分离且无关的声源。因此，每个输入信号代表与其他输入信号的声场或环境（sound stage or environment）无关的声场或环境。相应地，在输入信号之间不存在空间、音频和/或感知相关，但是这些可以被独立地再现而不用对其他输入信号中的任何一个进行任何考虑。

此外，每个输入信号根据适当编码标准或算法进行编码。例如，可以根据MP3、AAC等编码对数据进行编码。具体地，该编码是有损耗的有感知的多声道音频编码。

该输入多声道信号可以是立体声信号或可以包括更多声道，比如例如，对于五或七声道环绕信号就是这种情况。以下描述将集中于其中输入信号是立体声信号的示例，但是应意识到所描述的原理和方法等同地应用于具有更多声道的输入信号。

在该示例中，具体地，从在其上存储了极大量的已编码音频文件（比如，MP3或AAC编码歌曲）的内部存储介质接收输入信号。在该示例中，接收器101可以包括用于从存储介质提取音频文件的功能。存储介质可以例如是硬盘或半永久性存储器。可以通过经由适当用户接口接收的用户选择来控制从存储介质提取文件。

作为另一示例，输入信号可以是例如正从互连网上的源流化或者正经由数字无线电广播接收的实时信号。还可以从相同源或可以例如从分离且独立的源接收输入信号。

接收器101耦合至选择器103，所接收的（在该具体示例中，所提取的）已编码多声道信号被馈送给选择器103。图1的系统被布置为生成多声道输出信号，其中，输入已编码多声道信号之一被包括为全多声道信号，而其他已编码多声道信号被包括为减少了声道的信号。因此，对于具有N个声道的一个输入已编码多声道信号（此后其被称作首要信号），输出信号将包括全部N个声道。然而，对于其余已编码多声道信号，在输出信号中包括仅仅M个声道表示，其中 M<N。在该具体示例中，已编码多声道信号是已编码立体声信号，并且音频信号处理器生成输出立体声信号，其中输入信号之一被作为立体声信号提供，而其他信号被仅仅包括为单声道信号。

选择器103具体地选择一个首要信号。此后，其余已编码多声道信号将被称作次要信号。

选择器103耦合至多声道解码器105，首要已编码信号被馈送给该多声道解码器105。该多声道解码器105对该首要已编码多声道信号进行解码，以生成首要已解码多声道信号。在该具体示例中，首要已编码信号是立体声信号并且多声道解码器105是生成已解码立体声信号的立体声解码器。

多声道解码器105耦合至输出处理器107，该输出处理器107生成包括首要已解码多声道信号的多声道输出信号。

选择器103还耦合至生成器109，次要已编码多声道信号被馈送给该生成器109。生成器109通过从所述次要已编码多声道信号中的一个或多个选择音频编码数据来生成至少一个减少了声道的已编码音频信号。从次要已编码多声道信号中的一个或多个的音频编码数据，生成减少了声道的已编码音频信号。然而，在减少了声道的已编码音频信号中的声道数目小于用于生成该减少了的已编码多声道信号的次要已编码多声道信号中的声道之和。因此，对于在减少了声道的已编码多声道信号中包括的次要已编码多声道信号中的至少一个，声道的数目被减少。

相应地，生成器109引入了用于表示来自次要已编码多声道信号的音频的声道的数目上的减少。此外，这种减少通过从次要已编码多声道信号的编码数据选择音频编码数据来实现。因此，简单数据移动、选择和组合操作可以用于生成减少了声道的已编码音频信号，并且不需要（多个）潜在音频信号的解码或其他处理。因此，在没有重大资源需求的情况下以低复杂度实现了声道减少。

生成器耦合至第二解码器111，减少了声道的已编码音频信号被馈送给该第二解码器111。第二解码器继续，对减少了声道的已编码音频信号进行解码，以生成减少了声道的已解码多声道信号，此后，其被称作次要已解码信号。

第二解码器111耦合至输出处理器107，次要已编码信号被馈送给该输出处理器107。输出处理器107在多声道输出信号中包括次要已解码信号。因此，多声道输出信号被生成为首要已解码信号与次要已解码信号的组合。

作为低复杂度的示例，输出处理器107可以简单地实施首要已解码信号与次要已解码信号的音频混合。例如，首要已解码信号的一个声道可以与次要首要已解码信号的一个声道进行混合。如果次要首要信号是多声道信号，则对于所有声道，可以重复该混合，使得已解码音频信号的各个声道与首要已解码信号的一个声道进行混合。

因此，输出处理器107生成包括首要音频源和一个或多个次要音频源的多声道输出信号，该首要音频源被表示为全多声道信号，所述次要音频源被表示为减少了声道的信号。作为具体示例，首要立体声输入源可以被表示为全立体声表示，而两个次要立体声输入源被同时表示为两个单声道表示。在该示例中，这两个次要源可以分别被右耳和左耳局部感知，而该首要信号充满整个声场。

在一些实施例中，输出电路107可以直接生成多声道信号，该多声道信号可以驱动适当装置以便再现该多声道信号的音频。例如，输出电路107可以直接生成驱动耳机对的立体声信号，或者可以例如生成用于五声道环绕声系统的不同扬声器的五个空间声道。在其他场景中，输出电路107可以简单地生成由其他功能、设备或装置处理并再现的信号。实际上，在一些实施例中，输出电路107可以包括用于对输出多声道信号进行编码的功能，从而允许其被容易地传送、分布或存储。

本发明的发明人已经意识到，在降低复杂度和资源需求的同时，可以具体通过同时再现多个音频源来实现有吸引力的用户体验。具体地，发明人已经意识到，可以通过在减少其他声源的多声道本质的同时保持一个声源（或声源子集）处于全多声道表示，来实现有吸引力的用户体验。这不仅可以提供有吸引力的用户体验（其例如相对于（多个）次要声源强化（多个）首要声源），而且其还可以用于降低复杂度。实际上，发明人已经意识到，可以通过开发特定再现方法来实现大的复杂度/计算负担的降低，在所述特定再现方法中，基于音频编码数据的选择来对次要信号进行编码域（预解码）声道的减少。特别地，该系统可以减少信号的解码所需的资源。因为解码操作的计算要求通常对于音频处理单元（尤其是诸如便携式音频播放器之类的低资源设备）而言是占主导的资源负担，所以作为一个整体的系统的总负担降低通常被显著减少。

在许多场景下，生成器109的声道减少可以包括生成减少了声道的已编码音频信号的声道，以包括次要已编码多声道信号之一的声道之一的音频数据。因此，在一些实施例中，生成器109可以简单地选择次要已编码多声道信号的单个声道的所有音频编码数据，并且将其包括在减少了声道的已编码音频信号的单个声道中。因此，直接的比特选择可以用于生成减少了声道的已编码音频信号。

所述单个声道可以在内容上表示原始音频声道之一，或者可以根据音频编解码器的类型而表示那些原始音频声道的一些线性组合。例如，共用立体声音频编码器对左和右输入音频声道的和信号和差信号进行编码，而不是原始左信号和右信号。在这种情况下，生成器109可以例如仅仅选择和信号。

在一些实施例中，减少了声道的已编码音频信号的一个声道因此可以包括已编码音频数据，其与次要已编码多声道信号之一的单个声道相同。可以通过简单地从一个或多个次要已编码多声道信号选择声道来生成减少了声道的已编码音频信号。该声道选择选择可用声道的子集并且丢弃一些声道，从而导致总的声道的减少。

应该意识到，在其中简单地通过从次要已编码多声道信号的一个或多个声道获得音频编码数据来选择减少了声道的已编码音频信号的已编码音频数据的实施例中，其他数据，比如开销数据、控制数据、格式化数据等，可以被修改（或者可以不被传送，即，可以生成新数据）。因此，在一些实施例中，仅仅描述了底层音频信号的已编码音频数据可以被提取，而开销数据不被传递至减少了声道的已编码音频信号或者在这样做的过程中被修改。

作为具体示例，生成器109可以接收单个次要已编码多声道信号，并且可以继续,以简单地通过选择该次要已编码多声道信号的声道之一来生成单声道信号。次要已编码多声道信号可以具体地是立体声信号，并且生成器可以通过选择该立体声信号的一个声道来将此减少以成为单声道信号。

次要已编码多声道信号可以具体是被编码为中侧信号的立体声信号,并且生成器109可以通过选择中声道来生成单声道已编码音频信号。这导致这样的单声道信号，其包括大部分非空间音频信息并且相应地特别适合于再现为单声道信号而没有不可接受的信息损失。

在其中次要已编码多声道信号是被编码为左和右信号的立体声信号的场景中，生成器109可以通过选择左声道和右声道中的任何一个来生成单声道已编码音频信号。这可以被随机完成或者可以是基于信号特性的。例如，可以选择具有最高平均幅度的信号。

因此，在一些实施例中，生成器109可以简单地选择次要已编码多声道信号之一的声道来生成已编码单声道信号。然后，该信号可以由单声道解码器进行解码，以生成可以与首要已解码多声道信号合并的已解码单声道信号。因此，解码器111可以是简单的单声道编码器。因为单声道解码器的复杂度和资源使用大大地低于多声道编码器的复杂度和资源使用，包括立体声解码器的复杂度和资源使用，所以实现了非常显著的复杂度和功率的降低。

此外，该方法不限于单个次要已编码多声道信号。相反，多个次要已编码多声道信号可以独立地被转换为已编码单声道信号。每个已编码单声道信号可以独立地被解码，以生成已解码单声道信号。然后，所述多个已解码单声道信号可以与首要已解码多声道信号进行混合。

作为具体示例，可以同时再现三个已编码立体声信号。一个立体声信号被解码为立体声信号且再现为立体声信号。对于另外两个立体声信号，实施已编码域声道减少，以将其减少为已编码单声道信号。单声道编码器对信号进行解码，得到的已解码信号可以被分别添加到左和右输出声道。因此，通过将一个全主立体声信号与各个耳朵中的单声道信号一起同时再现，来向用户进行呈现。

在一些实施例中，减少了声道的已编码音频信号可以被生成来包括来自多个已编码多声道信号的贡献。具体地，减少了声道的已编码音频信号本身可以是从多个次要已编码多声道信号生成的多声道信号。具体地，可以通过从一个次要已编码多声道信号选择声道来生成减少了声道的已编码音频信号的声道中的每一个。例如，并非如前所提及，生成两个单声道信号，生成器109而是可以通过从一个次要已编码多声道信号选择一个声道并且从不同的已编码多声道信号选择一个声道来生成已编码立体声信号。然后，得到的立体声信号可以由立体声解码器进行解码，即，第二解码器111可以是立体声解码器。具体地，多声道解码器105和第二解码器111可以被实现为相同解码器，该解码器循序地对首要多声道信号和减少了声道的已编码音频信号进行解码。然后，得到的次要已解码立体声信号可以与首要已解码立体声信号进行混合，例如，简单地通过将这两个立体声信号求和。

在一些实施例中，减少了声道的已编码音频信号可以相应地是由生成器109通过从次要已编码多声道信号之一的一个声道选择音频编码数据生成第一声道并且通过从次要已编码多声道信号中的另一个的一个声道选择音频编码数据生成第二声道而构成的多声道信号。

更具体地，两个中侧编码信号的中信号（即，原始立体声项中的左和右声道的和）的编码表示可以被包括在单个立体声信号的两个声道中。该音频编码数据被存储为如（比如例如在Brandenburg, K., “{ISO-MPEG-1} Audio:A Generic Standard for Coding of High-Quality Digital Audio”.J. Audio Eng. Soc., 1994.42:p. 780-792 for the case of MPEG- I layer III encoded (MP3) data中针对MP3描述的）已编码比特流的适当数据报头和/或以及相应定义所指示的针对信号的立体声比特流的一部分。

然后，来自这两个输入音频信号的中声道数据流的音频编码数据被添加到代表减少了声道的已编码音频信号的新比特流容器的左和右数据字段中。如果输入信号不是中侧编码的，而是左右编码的，则替代地，调整器109可以简单地从来自每个输入比特流的左或右声道选择音频编码数据。

在一些实施例中，生成器109还被布置为，修改次要已编码多声道音频信号的编码控制数据，以对应于另外的已编码音频信号的已编码音频数据。编码控制数据可以是定义减少了声道的已编码音频信号本身的特性而非表示底层音频的开销数据。编码控制数据可以例如是元数据，比如例如定义了比特流中的不同数据的位置、数据速率、哪些选项被使用等的数据。

作为具体示例，典型地，两个中侧立体声信号的两个中信号的编码数据速率将大大地高于这两个中侧立体声信号中的每一个的数据速率，这是因为中声道的数据速率典型地大大高于侧声道的数据速率。生成器可以相应地修改（设置）指示当前数据速率的减少了声道的已编码比特流的数据，以对应于针对该减少了声道的已编码音频信号的所得到的数据速率。

因此，可以生成该减少了声道的已编码音频信号，以对应于根据音频编码标准的已编码音频信号，该音频编码标准具体地可以是与输入已编码多声道信号相同的编码标准。这允许将减少了声道的已编码音频信号像任何其他已编码音频信号一样对待，并且具体地允许标准解码器用作第二解码器111。

在一些实施例中，生成器109可以从多个已编码多声道音频信号选择另外的已编码音频信号的一个声道的编码数据。因此，在一些实施例中，可以通过将来自两个或更多个次要已编码多声道信号的音频编码数据合并来生成减少了声道的已编码音频信号的单个声道。可以按时和/或频段实施要包括哪个音频编码数据的选择，其中，该选择基于每个段中的音频编码数据的特性。

具体地，可以由生成器109将两个或更多个次要音频信号中的每一个的声道在它们的编码表示中合并到减少了声道的音频流的单个声道中。这可以被实施为将独立比特流的音频编码数据复制到共用比特流中的操作。在一个可能的实施例中，所述合并被实施，使得（由已编码比特流中的比例因子带系数（scale factor band coefficient）的值表示的）每个已编码子带中的信号的能量用于确定哪个输入音频信号被置入新比特流中。

在一些实施例中，音频信号处理器可以包括用于将空间处理应用于已解码音频信号中的至少一个的功能。典型地，在已解码音频信号被混合在一起之前，可以将空间处理应用于这些已解码音频信号。空间处理可以被应用于在由用户感知时不同声道处于不同位置的感知位置。

图2图示了图1的合并器107的示例，其被布置为针对次要声源实施空间处理。在该示例中，首要已解码音频信号(y₁, y₂)未被进行空间处理，而是被直接馈送至混合器201，混合器201以加权求和（或简单地，求和）的形式实施混合。首要已解码音频信号(y₁, y₂) 被直接包括在立体声输出信号 (o₁, o₂)中，因而，向用户提供了原始已编码立体声信号的空间立体声体验。

然而，在该示例中，次要已编码音频信号（(x₁, x₂)的每个声道被进行空间处理，使得它们被感知为源自音频场景中的给定位置。空间处理可以改变，从而允许合并器107将所感知的单点单声道声源移动到所期望的位置。

在该示例中，使用耳机来再现输出信号，并且再现了仅仅两个次要音频源。合并器107包括接收次要已解码音频信号的一个声道的第一空间处理器203和接收次要已解码音频信号的另一声道的第二空间处理器205。空间处理器203、205具体地被布置为将头相关传递函数（Head Related Transfer Function，HRTF）应用于不同声道，从而导致被感知为源自给定位置的输出信号。每个空间处理器203、205相应地生成针对音频源的与所期望的位置相对应的立体声输出信号。这些立体声输出信号被馈送至混合器201，混合器201将它们与首要已解码立体声信号进行混合。混合器201的输出相应地是包括被保持为原始立体声信号的首要立体声信号的空间音频信号，因而具有更宽的立体声声场。此外，在能够在空间上被移动以显得像来自任何期望位置的位置处生成两个单点音频源。

该系统因而可以提供多个音频源的同时再现（例如，该系统可以同时回放多个音频项），其中音频项中的仅仅一个（或子集）被按照全立体声回放的方式进行再现。所有其他再现的音频项被安置在空间中且再现得像单声道声源。发明人不仅意识到这样的方法在许多场景下提供了非常有益的用户体验，而且此外还意识到，实现了非常高效的处理。实际上，该系统将该见识进一步用来创建这样的系统，其中实施了预解码声道减少，从而降低了复杂度并减少了由解码过程使用的资源。这在计算和存储器需求上导致显著的节约，并且还由于现有软件块的有效再使用而导致程序存储空间上的节约。

所描述的同时再现多个已编码多声道信号的方法在与基于空间模型的用户接口一起使用时可以提供特别有益的用户体验。图3图示了音频处理单元的示例，其中，声源的空间处理和空间安置依赖于空间模型和关联的用户接口。

音频处理单元对应于图1的音频处理单元，但是附加地其包括空间模型301，空间模型301代表虚拟用户位置和已编码多声道音频信号的虚拟空间声源位置。此外，空间模型301耦合至显示器303，该显示器303可以显示该模型的（一部分的）图形化表示。

在该示例中，空间模型301可以被实施在适当的处理平台上，并且可以例如包括可能能够被再现的所有音频项的虚拟三维位置。例如，空间模型301可以针对在适当存储介质中存储的每个已编码歌曲而具有位置。可以例如基于歌曲的特性，歌曲如风格、流派、艺术家、标题、长度等，来确定该位置。

此外，空间模型301可以跟踪可以响应于用户输入而改变的虚拟用户位置。因此，可以向用户提供这样的用户接口，其中，该用户可以在虚拟空间模式301中的音频项之间来回转。空间模型301相应地连接至用户输入305，该用户输入305可以接收外部用户输入。用户输入305可以例如是显示器303的触摸输入。当用户位置在空间模型内移动时，显示器303可以持续呈现用户位置的地点的图形化表示。该表示可以是二维表示，其中，例如用图标表示用户位置并且音频项被表示为其他图标。

图4图示了这样的表示的示例。在该示例中，用户可以在显示器上浏览歌曲集合和呈现，在该歌曲集合中，多首歌曲同时可听，但是被再现为与空间模型相对应的不同位置。在该示例中，用耳机示出用户的虚拟位置，并且图册图标代表音频项，根据模型，这些音频项是从虚拟用户的位置“可见”的。

在该系统中，基于空间模型选择首要已编码多声道信号和次要已编码多声道信号。具体地，可以将首要已编码多声道信号选择为在模型中离用户最近的音频项，并且可以将次要已编码多声道信号选择为例如两个其次最接近的音频项。因此，在该示例中，当用户移动而接近音频项之一时，相应的音频项被无缝地转换为全立体声回放。同时，其他音频项被呈现为单声道信号并且可以被空间处理成根据与模型中相对位置相对应的位置来再现。因此，其他邻近音频项可以被再现为例如背景中的静音信号。这可以提供非常有吸引力的用户体验，并且可以例如提供特别有益的浏览体验。

空间再现可以具体地将不同空间处理应用于次要已解码音频信号的不同声道。特别地，在其中次要已解码音频信号是具有与不同输入音频源相对应的不同声道的立体声信号的示例中，一个声道的空间处理可以对应于相应音频项的相对虚拟位置，而其他声道的空间处理可以对应于其他音频项的相对虚拟位置。

应该意识到，为了清楚起见，以上描述已经参照不同功能电路、单元和处理器描述了本发明的实施例。然而，应该显而易见的是，在不减损本发明的情况下，可以使用不同功能电路、单元或处理器之间的任何适当功能分配。例如，图示为由分离的处理器或控制器实施的功能可以由相同处理器或控制器来实施。因此，对特定功能单元或电路的引用仅被看作对用于提供所描述功能的适当装置的引用，而非指示严格的逻辑或物理结构或组织。

可以以任何适当形式，包括硬件、软件、固件或这些的任何组合，来实施本发明。可选地，本发明可以被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何适当方式物理地、功能地和逻辑地实施本发明实施例的部件和组件。实际上，可以在单个单元中、多个单元中或作为其他功能单元的一部分来实施功能。照此，可以在单个单元中实施本发明，或者可以在不同单元、电路和处理器之间在物理且功能上分布本发明。

尽管已经结合一些实施例描述了本发明，但是本发明并非旨在受限于本文所阐述的具体形式。相反，本发明的范围仅仅由所附权利要求来限制。附加地，尽管特征可能显得像是结合特定实施例进行描述，但是本领域技术人员应意识到，可以根据本发明组合所描述实施例的各种特征。在权利要求书中，术语包括不排除其他部件或步骤的存在。

此外，尽管被独立地列出，但是可以通过例如单个电路、单元或处理器实施多个装置、部件、电路或方法步骤。此外，尽管个体特征可以被包括在不同权利要求中，但是可能地，可以有利地组合这些特征，并且在不同权利要求中的包括并不暗示特征的组合不是可行的和/或有利的。此外，在一种类别的权利要求中的特征的包括并不暗示限制到该类别，而是暗示，如果适当的话，该特征可等同地应用于其他权利要求类别。此外，权利要求中的特征的顺序并非暗示，特征必须按其来工作的任何特定顺序，尤其是，在方法权利要求中的个体步骤的顺序并非暗示必须以该顺序实施所述步骤。此外，可以以任何适当顺序执行所述步骤。附加地，单数引用并不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用并不排除多个。权利要求中的附图标记被仅仅提供作为澄清性示例，不应该被解释为以任何方式限制权利要求的范围。

Claims

1. 一种音频信号处理器，包括：

接收器（101），用于接收多个已编码多声道音频信号；

多声道解码器（105），用于对第一已编码多声道信号进行解码，以生成第一已解码多声道信号；

生成器（109），用于通过从所述多个已编码多声道音频信号中的至少第二已编码多声道音频信号选择音频编码数据来生成另外的已编码音频信号，使得包括来自第二已编码多声道音频信号的音频编码数据的所述另外的已编码音频信号的声道数目小于第二已编码多声道信号中的声道数目；

另外的解码器（111），用于通过对所述另外的已编码音频信号进行解码来生成另外的已解码音频信号；

以及合并器（107），用于将至少第一已解码多声道信号与所述另外的已解码音频信号进行合并来生成多声道输出信号。

2. 如权利要求1所述的音频信号处理器，其中，生成器（109）被布置为，通过从第二已编码多声道信号的单个声道选择音频编码数据来生成所述另外的已编码音频信号的第一声道。

3. 如权利要求2所述的音频信号处理器，其中，所述另外的已编码音频信号是多声道信号，并且生成器（109）被布置为，通过从第三已编码多声道信号的单个声道选择音频编码数据来生成所述另外的已编码音频信号的第二声道。

4. 如权利要求2所述的音频信号处理器，其中，所述另外的已编码音频信号的单个声道的已编码音频数据与第二已编码多声道信号的单个声道的已编码音频数据相同。

5. 如权利要求2所述的音频信号处理器，其中，第二已编码多声道信号的单个声道是以下项中的至少一个：

中侧立体声信号的中声道；

左右式立体声信号的左声道；以及

左右式立体声信号的右声道。

6. 如权利要求1所述的音频信号处理器，其中，所述另外的已编码音频信号是单声道信号。

7. 如权利要求1所述的音频信号处理器，其中，所述另外的已编码音频信号是具有不同声道的多声道信号，所述不同声道包括来自所述多个已编码多声道音频信号中的不同已编码多声道音频信号的音频编码数据。

8. 如权利要求7所述的音频信号处理器，其中，所述另外的已编码音频信号的每个声道对应于所述不同已编码多声道音频信号之一的一个声道。

9. 如权利要求1所述的音频信号处理器，其中，生成器（109）被布置为，从多个已编码多声道音频信号选择用于所述另外的已编码音频信号的一个声道的音频编码数据。

10. 如权利要求1所述的音频信号处理器，其中，生成器（109）被布置为，通过修改第二已编码多声道音频信号的编码控制数据以对应于所述另外的已编码音频信号的已编码音频数据，来生成所述另外的已编码音频信号的编码控制数据。

11. 如权利要求1所述的音频信号处理器，还包括：

用户接口（305），用于接收用户输入；

空间模型（301），表示虚拟用户位置以及与所述多个已编码多声道音频信号相关联的虚拟空间声源位置；以及其中，生成器被布置为，响应于空间模型选择第一已编码多声道信号和第二已编码多声道音频信号。

12. 如权利要求11所述的音频信号处理器，其中，合并器（109）被布置为，响应于空间模型（301），将空间处理应用于至少所述另外的已解码音频信号。

13. 如权利要求11所述的音频信号处理器，其中，所述另外的已解码音频信号是多声道信号并且所述空间处理包括对所述另外的已解码音频信号的不同声道进行空间处理，以对应于空间模型的不同虚拟空间声源位置。

14. 如权利要求11所述的音频信号处理，其中，合并器（107）被布置为，响应于虚拟用户位置和与第二已编码多声道音频信号相关联的虚拟空间声源位置之间的距离，选择第二已编码多声道音频信号。

15. 一种处理音频信号的方法，包括：

接收多个已编码多声道音频信号；

对第一已编码多声道信号进行解码，以生成第一已解码多声道信号；

通过从所述多个已编码多声道音频信号中的至少第二已编码多声道音频信号选择音频编码数据来生成另外的已编码音频信号，使得包括来自第二已编码多声道音频信号的音频编码数据的所述另外的已编码音频信号的声道数目小于第二已编码多声道信号中的声道数目；

通过对所述另外的已编码音频信号进行解码来生成另外的已解码音频信号；以及

将至少第一已解码多声道信号与所述另外的已解码音频信号进行合并来生成多声道输出信号。