CN107077861A

CN107077861A - 音频编码器和解码器

Info

Publication number: CN107077861A
Application number: CN201580053303.2A
Authority: CN
Inventors: 耶伦·科庞; 拉尔斯·维尔默斯; 托尼·希尔沃宁; 克里斯托弗·薛林
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-10-01
Filing date: 2015-10-01
Publication date: 2017-08-18
Anticipated expiration: 2035-10-01
Also published as: RU2017113711A; KR20170063657A; RU2017113711A3; KR20220066996A; US10163446B2; EP3201916A1; JP2017535153A; EP3201916B1; US20170249945A1; BR112017006278A2; ES2709117T3; WO2016050899A1; CN107077861B; KR102482162B1; JP6732739B2; RU2696952C2

Abstract

本公开内容属于音频编码领域，特别地，本公开内容涉及空间音频编码领域，其中音频信息由包括至少一个对话对象的多个音频对象来表示。特别地，本公开内容提供了一种用于在音频系统中的解码器中增强对话的方法和装置。此外，本公开内容提供了一种用于对这样的音频对象进行编码以使得对话能够被音频系统中的解码器增强的方法和装置。

Description

音频编码器和解码器

相关申请的交叉引用

本申请要求于2014年10月1日提交的美国临时专利申请第62/058,157号的优先权，该美国临时专利申请的全部内容通过引用并入本文。

技术领域

本文的公开内容一般涉及音频编码。具体地，本公开内容涉及用于在音频系统中的解码器中增强对话的方法和装置。本公开内容还涉及用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法和装置。

背景技术

在常规音频系统中，采用基于声道的方法。每个声道可以例如表示一个扬声器或一个扬声器阵列的内容。用于这样的系统的可能的编码方案包括离散多声道编码或参数编码诸如MPEG环绕(MPEG Surround)。

最近，已经开发了一种新的方法。这种方法是基于对象的，这在对复杂音频场景进行编码时(例如在电影院应用中)是有利的。在采用基于对象的方法的系统中，三维音频场景由音频对象以及其相关联的元数据(例如，位置元数据)来表示。这些音频对象在音频信号的播放期间在三维音频场景中移动。该系统还可以包括所谓的声床声道(bedchannels)，其可以被描述为直接映射到例如上述常规音频系统的某些输出声道的信号。

对话增强是用于相对于其他分量(诸如音乐、背景声音和声音效果)而增强或增加对话水平的技术。因为对话可以由单独的对象表示，所以基于对象的音频内容可以很好地适用于对话增强。然而，在一些情况下，音频场景可能包括大量的对象。为了降低表示音频场景所需的复杂度和数据量，可以通过减少音频对象的数量，即通过对象聚类(objetclustering)，来简化音频场景。这种方法可能在一些对象聚类中引入对话与其他对象之间的混合。

通过在音频系统中的解码器中包括用于这种音频聚类的对话增强可能性，解码器的计算复杂度可能增加。

附图说明

现在将参考附图描述示例实施方式，在附图中：

图1示出了根据示例性实施方式的用于在音频系统中增强对话的高质量解码器的一般化框图，

图2示出了根据示例性实施方式的用于在音频系统中增强对话的低复杂度解码器的第一一般化框图，

图3示出了根据示例性实施方式的用于在音频系统中增强对话的低复杂度解码器的第二一般化框图，

图4描述了根据示例性实施方式的用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法，

图5示出了根据示例性实施方式的用于对包括表示对话的至少一个对象的多个音频对象进行编码的编码器的一般化框图。

所有附图是示意性的并且通常仅示出了为了阐明本公开内容所必需的部分，而其他部分可能会被省略或仅仅被暗示。除非另有说明，否则在不同的附图中相同的附图标记表示相同的部件。

具体实施方式

鉴于上述内容，目的在于提供旨在降低解码器中的对话增强的复杂度的编码器和解码器以及相关联的方法。

I.概述-解码器

根据第一方面，示例实施方式提出了用于解码的解码方法、解码器和计算机程序产品。所提出的方法、解码器和计算机程序产品通常可以具有相同的特征和优点。

根据示例实施方式，提供了一种用于在音频系统中的解码器中增强对话的方法，包括以下步骤：接收多个下混信号，该下混信号是包括表示对话的至少一个对象的多个音频对象的下混；接收边信息，该边信息指示使得能够由多个下混信号重构多个音频对象的系数；接收用于标识多个音频对象中的哪个音频对象表示对话的数据；通过使用增强参数和用于标识多个音频对象中的哪个音频对象表示对话的数据来修改所述系数；以及使用修改的系数来至少重构表示对话的至少一个对象。

增强参数通常是在解码器处可用的用户设置。用户可以例如使用远程控制来增加对话的音量。因此，增强参数通常不由音频系统中的编码器提供给解码器。在许多情况下，将增强参数转换成对话的增益，但它也可以转换成对话的衰减。此外，增强参数可以与对话的某些频率有关，例如对话的频率相关的增益或衰减。

在本说明书的上下文中，术语对话应当被理解成：在一些实施方式中，仅是相关的对话被增强，而不是例如对话的背景聊天和任何混响版本被增强。对话可以包括人之间的对话，也可以包括独白、解说或其他讲话。

如本文所使用的，音频对象是指音频场景的元素。音频对象通常包括音频信号和诸如对象在三维空间中的位置的附加信息。附加信息通常用于在给定的播放系统上最佳地渲染音频对象。术语音频对象还包括音频对象的聚类，即对象聚类。对象聚类表示至少两个音频对象的混合，并且通常包括作为音频信号的音频对象和诸如对象聚类在三维空间中的位置的附加信息的混合。对象聚类中的至少两个音频对象可以基于以下而被混合：其各自的空间位置接近，以及对象聚类的空间位置被选择为各个对象位置的平均值。

如本文所使用的，下混信号是指作为多个音频对象中的至少一个音频对象的组合的信号。音频场景的其他信号(如声床声道)也可以组合到下混信号中。下混信号的数量通常(但不一定)小于音频对象的数量和声床声道的数量的总和，这解释了为什么下混信号被称为下混。下混信号也可以被称为下混聚类。

如本文所使用的，边信息也可以被称为元数据。

在本说明书的上下文中，术语指示系数的边信息应当被理解成系数直接存在于边信息中(该边信息例如在来自于编码器的比特流中被发送)，或者它们是根据存在于边信息中的数据而计算的。

根据本方法，修改使得能够重构多个音频对象的系数，以用于提供对后面重构的表示对话的至少一个音频对象的增强。与在表示对话的至少一个音频对象被重构之后执行对重构的表示对话的至少一个音频对象的增强(即，在没有修改所述系数的情况下启用重构)的常规方法相比，本方法提供了实现本方法的解码器的降低的数学复杂度以及因此降低的计算复杂度。

根据示例性实施方式，通过使用增强参数来修改系数的步骤包括将使得能够重构表示对话的至少一个对象的系数与增强参数相乘。这是用于修改系数的计算上低复杂度的操作，其仍保持系数之间的相互比率。

根据示例性实施方式，该方法还包括：根据边信息来计算使得能够由多个下混信号重构多个音频对象的系数。

根据示例性实施方式，至少重构表示对话的至少一个对象的步骤包括仅重构表示对话的至少一个对象。

在许多情况下，下混信号可以对应于将音频场景渲染或输出至给定扬声器配置，如标准5.1配置。在这种情况下，可以通过仅重构表示要增强的对话的音频对象，即，不执行所有音频对象的完全重构，来实现低复杂度解码。

根据示例性实施方式，仅重构表示对话的至少一个对象不涉及下混信号的解相关。这降低了重构步骤的复杂度。此外，由于并不是所有音频对象都被重构，即，对于这些音频对象而言可以降低要渲染的音频内容的质量，所以在重构表示对话的至少一个对象时使用解相关不会提高被增强渲染的音频内容的感知音频质量。因此，可以省略解相关。

根据示例性实施方式，该方法还包括以下步骤：将所重构的表示对话的至少一个对象与下混信号合并为至少一个单独的信号。因此，所重构的至少一个对象不需要再次混合到下混信号中或与下混信号组合。因此，根据本实施方式，不需要描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息。

根据示例性实施方式，该方法还包括接收具有空间信息的数据，该空间信息对应于多个下混信号的空间位置和表示对话的至少一个对象的空间位置，以及基于具有空间信息的数据来渲染多个下混信号和所重构的表示对话的至少一个对象。

根据示例性实施方式，该方法还包括使用用于描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息来组合下混信号和所重构的表示对话的至少一个对象。下混信号可以被下混，以便支持用于某些扬声器配置(如5.1配置或7.1配置)的始终音频输出(always-audio-out，AAO)，即，下混信号可以直接用于在这种扬声器配置上播放。通过组合下混信号和所重构的表示对话的至少一个对象，在仍然支持AAO的同时实现对话增强。换言之，根据一些实施方式，所重构的并且经对话增强的表示对话的至少一个对象被再次混合回下混信号中，以仍然支持AAO。

根据示例性实施方式，该方法还包括渲染下混信号和所重构的表示对话的至少一个对象的组合。

根据示例性实施方式，该方法还包括接收描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息。当对包括表示对话的至少一个对象的多个音频对象进行下混时，音频系统中的编码器可能已经具有这种类型的信息，或者编码器可以容易地计算所述信息。

根据示例性实施方式，通过熵编码对所接收到的用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息进行编码。这可以减少用于发送信息所需的比特率。

根据示例性实施方式，所述方法还包括以下步骤：接收具有空间信息的数据，该空间信息对应于多个下混信号的空间位置和表示对话的至少一个对象的空间位置，以及基于具有空间信息的数据来计算用于描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息。该实施方式的优点是减少了用于将包括下混信号和边信息的比特流传输到编码器所需的比特率，因为与多个下混信号的空间位置和表示对话的至少一个对象的空间位置对应的空间信息无论如何都可以被解码器接收，解码器不需要接收另外的信息或数据。

根据示例性实施方式，计算用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息的步骤包括应用函数，该函数将表示对话的至少一个对象的空间位置映射到多个下混信号的空间位置。该函数可以例如是诸如矢量基幅度平移(vector baseamplitude panning，VBAP)算法的3D平移算法。可以使用任何其他合适的函数。

根据示例性实施方式，至少重构表示对话的至少一个对象的步骤包括重构多个音频对象。在该情况下，该方法可以包括接收具有与多个音频对象的空间位置对应的空间信息的数据，以及基于具有空间信息的数据来渲染所重构的多个音频对象。由于如上所述对使得能够重构多个音频对象的系数执行对话增强，多个音频对象的重构和对所重构的音频对象的渲染(二者均是矩阵运算)可以组合成一个运算，这降低了两个运算的复杂度。

根据示例实施方式，提供了一种计算机可读介质，包括适用于在具有处理能力的设备上执行时执行第一方面的任何方法的计算机代码指令。

根据示例实施方式，提供了一种用于在音频系统中增强对话的解码器。该解码器包括接收级，接收级被配置用于：接收多个下混信号，下混信号是包括表示对话的至少一个对象的多个音频对象的下混；接收边信息，该边信息指示使得能够由多个下混信号重构多个音频对象的系数；以及接收用于标识所述多个音频对象中的哪个音频对象表示对话的数据。该解码器还包括修改级，修改级被配置用于通过使用增强参数和用于标识多个音频对象中的哪个音频对象表示对话的数据来修改系数。该解码器还包括重构级，重构级被配置用于使用修改的系数来至少重构表示对话的至少一个对象。

II.概述-编码器

根据第二方面，示例实施方式提出了用于编码的编码方法、编码器和计算机程序产品。所提出的方法、编码器和计算机程序产品通常可以具有相同的特征和优点。通常，第二方面的特征可以与第一方面的对应特征具有相同的优点。

根据示例实施方式，提供了一种用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法，包括以下步骤：确定多个下混信号，该多个下混信号是包括表示对话的至少一个对象的多个音频对象的下混；确定边信息，该边信息指示使得能够由多个下混信号重构多个音频对象的系数；确定用于标识多个音频对象中的哪个音频对象表示对话的数据；以及形成包括多个下混信号、边信息和用于标识多个音频对象中的哪个音频对象表示对话的数据的比特流。

根据示例性实施方式，该方法还包括确定与多个下混信号的空间位置和表示对话的至少一个对象的空间位置对应的空间信息的步骤，以及将所述空间信息包括在比特流中的步骤。

根据示例性实施方式，确定多个下混信号的步骤还包括确定用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息。根据该实施方式，将用于描述如何将表示对话的至少一个对象混合到多个下混信号中的这种信息包括在比特流中。

根据示例性实施方式，使用熵编码对所确定的用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息进行编码。

根据示例性实施方式，该方法还包括以下步骤：确定与多个音频对象的空间位置对应的空间信息的步骤，以及将与多个音频对象的空间位置对应的空间信息包括在比特流中的步骤。

根据示例实施方式，提供了一种计算机可读介质，包括适于在具有处理能力的设备上执行时执行第二方面的任何方法的计算机代码指令。

根据示例实施方式，提供了一种用于对包括表示对话的至少一个对象的多个音频对象进行编码的编码器。该编码器包括下混级和编码级，下混级被配置用于：确定多个下混信号，该多个下混信号是包括表示对话的至少一个对象的多个音频对象的下混；确定边信息，该边信息包括指示使得能够由多个下混信号重构多个音频对象，编码级被配置用于形成包括多个下混信号和边信息的比特流，其中，比特流还包括用于标识多个音频对象中的哪个音频对象表示对话的数据。

III.示例实施方式

如上所述，对话增强与相对于其他音频分量而增加对话水平有关。在根据内容创建而被适当地组织的情况下，对象内容非常适合于对话增强，因为对话可以由单独的对象表示。对象(即对象聚类或下混信号)的参数编码可能引入对话与其他对象之间的混合。

现在将结合图1至图3来描述用于增强混入到这种对象聚类中的对话的解码器。图1示出了根据示例性实施方式的用于在音频系统中增强对话的高质量解码器100的一般化框图。解码器100在接收级104处接收比特流102。还可以将接收级104视为核心解码器，其对比特流102进行解码并且输出比特流102的解码内容。比特流102可以例如包括多个下混信号110或下混聚类，所述多个下混信号110或下混聚类是包括表示对话的至少一个对象的多个音频对象的下混。因此，接收级通常包括下混解码器部件，该下混解码器部件可以适于对比特流102的部分进行解码以形成下混信号110，使得它们与解码器的声音解码系统(如杜比数字+或者诸如AAC、USAC或MP3的MPEG标准)兼容。比特流102还可以包括边信息108，边信息108指示使得能够由多个下混信号重构多个音频对象的系数。为了高效地进行对话增强，比特流102还可以包括用于标识多个音频对象中的哪个音频对象表示对话的数据108。该数据108可以合并在边信息108中，或者它可以与边信息108分开。如下面详细讨论的，边信息108通常包括可以转换成干上混矩阵(dry upmix matrix)C的干上混系数，以及可以转换成湿上混矩阵(wet upmix matrix)P的湿上混系数。

解码器100还包括修改级112，修改级112被配置成通过使用增强参数140和标识多个音频对象中的哪个音频对象表示对话的数据108来修改边信息108中所指示的系数。在修改级112处可以以任何合适的方式接收增强参数140。根据实施方式，修改级112修改干上混矩阵C和湿上混矩阵P，至少修改与对话对应的系数。

因此修改级112将期望的对话增强应用于与对话对象对应的系数。根据一个实施方式，通过使用增强参数140来修改系数的步骤包括将使得能够重构表示对话的至少一个对象的系数与增强参数140相乘。换言之，修改包括对与对话对象对应的系数的固定放大。

在一些实施方式中，解码器100还包括预解相关器级114和解相关器级116。这两个级114、116一起形成下混信号110的组合的解相关版本，该解相关版本稍后将用于由多个下混信号110重构(例如上混)多个音频对象。如在图1中可以看到的，在修改级112中修改系数之前，可以将边信息108馈送到预解相关器级114。根据实施方式，将边信息108中指示的系数转换成经修改的干上混矩阵120、经修改的湿上混矩阵142和如图1中表示为附图标记144的预解相关器矩阵Q。经修改的湿上混矩阵在如下所述的重构级124处被用于对解相关器信号122进行上混。

预解相关器矩阵Q在预解相关器级114处被使用，并且根据实施方式可以通过下式来计算：

Q＝(abs P)^TC

其中abs P表示通过对未修改的湿上混矩阵P的元素取绝对值而获得的矩阵，C表示未修改的干上混矩阵。

设想了基于干上混矩阵C和湿上混矩阵P来计算预解相关系数Q的替选方式。例如，可以将预解相关系数Q计算为Q＝(abs P₀)^T C，其中矩阵P₀是通过对P的每一列进行归一化而获得的。

计算预解相关器矩阵Q仅涉及具有相对低复杂度的计算，并且因此可以方便地在解码器侧采用。然而，根据一些实施方式，预解相关器矩阵Q被包括在边信息108中。

换言之，解码器可以被配置用于根据边信息来计算使得能够由多个下混信号重构多个音频对象126的系数。以这种方式，预解相关器矩阵不受在修改级中对系数做出的任何修改的影响，这可能是有利的，因为如果预解相关器矩阵被修改，则在预解相关器级114和解相关器级116中的解相关处理可能引入可能不期望的另外的对话增强。根据其他实施方式，在修改级112中对系数进行修改之后将边信息馈送到预解相关器级114。由于解码器100是高质量解码器，所以它可以被配置用于重构所有多个音频对象。这在重构级124处完成。因此，解码器100的重构级124接收下混信号110、解相关信号122以及使得能够由多个下混信号110重构多个音频对象的经修改的系数120、142。因此，重构级可以在将音频对象渲染到音频系统的输出配置(如7.1.4声道输出)之前通过参数(parametrically)重构音频对象126。然而，通常这在许多情况下不会发生，因为重构级124处的音频对象重构和渲染级128处的渲染是可以组合的矩阵运算(由虚线134表示)以用于在计算上高效地实现。为了将音频对象渲染在三维空间中的正确位置处，比特流102还包括具有空间信息的数据106，该空间信息与多个音频对象的空间位置对应。

可以注意到，根据一些实施方式，解码器100被配置成提供重构的对象作为输出，使得它们可以在解码器的外部被处理和渲染。根据该实施方式，解码器100因此输出重构的音频对象126，并且不包括渲染级128。

音频对象的重构通常在频域，如在正交镜像滤波器(QMF)域中执行。然而，音频可能需要在时域中输出。出于这个原因，解码器还包括变换级132，在该变换级132中例如通过应用逆正交镜像滤波器(IQMF)组来将渲染的信号130变换到时域。根据一些实施方式，在变换级132处到时域的变换可以在渲染级128中渲染信号之前执行。

总之，结合图1描述的解码器通过在重构音频对象之前修改使得能够由多个下混信号重构多个音频对象的系数来高效地实现对话增强。对系数执行增强的代价是每帧若干次乘法，针对与对话相关的每个系数一次乘法，乘以频带的数量。在典型情况下，乘法次数将最可能等于下混声道的数量(例如5至7)乘以参数频带的数量(例如20至40)，但是如果对话也获得解相关贡献，则乘法次数可能更多。相比之下，对重构对象执行对话增强的现有技术解决方案导致针对每个采样的乘法，对于复数信号来说乘以频带的数量乘以2。通常这将导致每帧16*64*2＝2048次乘法，经常更多。

音频编码/解码系统通常例如通过对输入音频信号应用合适的滤波器组来将时频空间划分成时间/频率片(tile)。时间/频率片通常意指时频空间的与时间间隔和频带对应的部分。时间间隔通常可以对应于音频编码/解码系统中使用的时间帧的持续时间。频带是正在被编码或解码的音频信号/对象的整个频率范围的完整频率范围的一部分。频带通常可以对应于由编码/解码系统中使用的滤波器组限定的一个或若干相邻频带。在频带对应于由滤波器组限定的若干相邻频带的情况下，这使得在音频信号的解码过程中能够具有非均匀的频带，例如较宽的频带用于音频信号的较高频率。

在替选输出模式中，为了节省解码器复杂度，不重构下混对象。在该实施方式中，下混信号被认为是要直接渲染给输出配置(如5.1输出配置)的信号。这也称为始终音频输出(AAO)操作模式。图2和图3描述了使得即使对于这种低复杂度实施方式也能够增强对话的解码器200、300。

图2描述了根据第一示例性实施方式的用于增强音频系统中的对话的低复杂度解码器200。解码器100在接收级104或核心解码器处接收比特流102。接收级104可以如结合图1所描述的那样被配置。因此，接收级输出边信息108和下混信号110。由边信息108指示的系数被修改级112通过如上所述的增强参数140来修改，差别在于必须考虑对话已经存在于下混信号110中，并且因此如下面所描述的，增强参数在被用于修改边信息108之前可能必须按比例缩小。另一个差别可能在于由于在(如下所述的)低复杂度解码器200中不采用解相关，因此修改级112仅修改边信息108中的干上混系数，并且因此忽略边信息108中存在的任何湿上混系数。在一些实施方式中，校正可以考虑由省略解相关器贡献而引起的对话对象的预测中的能量损失。修改级112的修改确保对话对象被重构为增强信号，该增强信号在与下混信号组合时产生增强的对话。将修改的系数218和下混信号输入到重构级204。在重构级处，可以使用修改的系数218仅重构表示对话的至少一个对象。为了进一步降低解码器200的解码复杂度，在重构级204处对表示对话的至少一个对象的重构不涉及下混信号110的解相关。重构级204因此生成对话增强信号206。在许多实施方式中，重构级204是重构级124的一部分，所述部分与表示对话的至少一个对象的重构有关。

为了仍然根据所支持的输出配置(即，下混信号110被下混以便支持的输出配置(例如5.1或7.1环绕信号))来输出信号，对话增强信号206需要再次被下混到下混信号110中或者与下混信号110组合。为此，解码器包括自适应混合级208，该自适应混合级208使用用于描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息202，以用于将对话增强对象混合回到表示210中，该表示210对应于在下混信号110中如何表示对话对象。然后将这种表示与下混信号110组合212，使得所得到的组合信号214包括增强对话。

用于增强多个下混信号中的对话的上述构思的步骤可以通过对表示多个下混信号110的一个时频片的矩阵D的单个矩阵运算来实现：

D_b＝D+MD 式1

其中D_b是包括提升的对话部分(boosted dialog parts)的经修改的下混214。修改矩阵M通过下式来获得：

M＝GC 式2

其中G是[下混声道的数量,对话对象的数量]的下混增益的矩阵，即，信息202用于描述是如何将表示对话的至少一个对象混合到多个下混信号110的当前解码的时频片D中的，C是[对话对象的数量,下混声道的数量]的经修改系数218的矩阵。

用于增强多个下混信号中的对话的替选实施方式可以通过对列向量X[下混声道的数量]的矩阵运算来实现，其中每个元素表示多个下混信号110的单个时频采样：

X_b＝EX 式3

其中X_b是包括增强的对话部分的经修改的下混214。修改矩阵E通过下式来获得：

E＝I+GC 式4

其中I是[下混声道的数量,下混声道的数量]的单位矩阵，G是[下混声道的数量,对话对象的数量]的下混增益的矩阵，即，信息202用于描述是如何将表示对话的至少一个对象混合到当前解码的多个下混信号110中的，C是[对话对象的数量，下混声道的数量]的经修改系数218的矩阵。

针对帧中的每个频带和时间采样来计算矩阵E。通常，矩阵E的数据每帧传输一次，并且通过用前一帧中的相应矩阵进行插值来针对时频片中的每个时间采样计算矩阵。

根据一些实施方式，信息202是比特流102的一部分，并且包括由音频系统中的编码器使用以用于将对话对象下混成下混信号的下混系数。

在一些实施方式中，下混信号不对应于扬声器配置的声道。在这样的实施方式中，有益的是将下混信号渲染到与用于重放的配置的扬声器对应的位置。对于这些实施方式，比特流102可以携带用于多个下混信号110的位置数据。

现在将描述与这样接收的信息202对应的比特流的示例性语法。对话对象可以混合到多于一个的下混信号。因此，可以根据下表将每个下混声道的下混系数编码到比特流中：

表1下混系数语法

用于表示以下音频对象的下混系数的比特流显现为0000111100：该音频对象被下混以使得7个下混信号中的第5个下混信号仅包括对话对象。相对比地，用于表示以下音频对象的下混系数的比特流显现为000010000011101：该音频对象被下混1/15，下混到第5下混信号中，以及被下混14/15，下混到第7下混信号中。

利用该语法，值0被最频繁地发送，因为对话对象通常不在所有下混信号中，而最可能在仅一个下混信号中。因此，可以有利地通过上表中定义的熵编码来对下混系数进行编码。对于大多数情况，在非零系数上花费多于一个的比特并且对于0值仅花费1个比特使得平均字长低于5个比特。例如，当7个下混信号中的一个下混信号中存在对话对象时，平均每个系数有1/7*(1[比特]*6[系数]+5[比特]*1[系数])＝1.57比特。用4个比特直接编码所有系数，成本将是1/7*(4[比特]*7[系数])＝每个系数4个比特。只有当对话对象在(7个下混信号中的)6个或7个下混信号中时，上述熵编码比直接编码成本高。使用上述熵编码减少了用于传输下混系数所需的比特率。

替选地，可以使用霍夫曼编码传输下混系数。

根据其他实施方式，用于描述音频系统中的编码器如何将表示对话的至少一个对象混合到多个下混信号中的信息202不是由解码器接收，而是在接收级104处计算，或者在解码器200的其它适当的级计算。这减少了用于传输解码器200所接收的比特流102所需的比特率。这种计算可以基于具有空间信息的数据，该空间信息对应于多个下混信号110的空间位置和表示对话的至少一个对象的空间位置。这样的数据通常已经由解码器200已知，因为它通常包括在由音频系统中的编码器生成的比特流102中。计算可以包括应用函数，该函数将表示对话的至少一个对象的空间位置映射到多个下混信号110的空间位置。该算法可以是3D平移算法，例如基于矢量的幅度平移(VBAP)算法。VBAP是使用多个物理声源(例如扬声器)的设置，即扬声器输出配置，来将虚拟声源(例如对话对象)定位到任意方向的方法。因此，这样的算法可以被再用，以通过使用下混信号的位置作为扬声器位置来计算下混系数。

使用上式1和2的符号，G是通过令rendCoef＝R(spkPos,sourcePos)来计算的，其中R是3D平移算法(例如，VBAP)，以提供用于将位于sourcePos(例如，笛卡尔坐标)处的对话对象渲染至位于spkPos处的nbrSpeakers个下混声道的渲染系数向量rendCoef[nbrSpeakers x 1](每个行对应于下混信号的坐标的矩阵)。然后通过下式获得G：

G＝[rendCoef₁,rendCoef₂,…,rendCoef_n] 式5

其中，rendCoef_i是n个对话对象中的对话对象i的渲染系数。

由于音频对象的重构通常在如上结合图1所述的QMF域中执行，并且声音可能需要在时域中输出，所以解码器200还包括变换级132，在该变换级132中例如通过应用逆QMF将组合信号214变换成时域中的信号216。

根据实施方式，解码器200还可以包括在变换级132上游或者在变换级132下游的渲染级(未示出)。如上所述，在一些情况下，下混信号不对应于扬声器配置的声道。在这样的实施方式中，有益的是将下混信号渲染到与用于重放的配置的扬声器对应的位置。对于这些实施方式，比特流102可以携带用于多个下混信号110的位置数据。

图3中示出了用于在音频系统中增强对话的低复杂度解码器的替选施方式。图3所示的解码器300与上述解码器200之间的主要区别在于：在重构级204之后，所重构的对话增强对象206不再次与下混信号110组合(combine)。相反，所重构的至少一个对话增强对象206与下混信号110合并(merge)为至少一个单独的信号。上述解码器300通常已知的用于至少一个对话对象的空间信息被用于在附加信号206被上述变换级132变换到时域之后或之前，渲染附加信号206以及根据多个下混信号的空间位置信息304来渲染下混信号。

对于结合图2至图3描述的解码器200、300的实施方式二者，必须考虑到对话已经存在于下混信号110中，以及增强的重构对话对象206添加至此，无论它们是如结合图2所描述的与下混信号110组合，还是如结合图3所描述的它们与下混信号110合并。因此，如果增强参数的大小是基于下混信号中现有的对话具有大小1而计算的，则g_DE需要减去例如1。

图4描述了根据示例性实施方式的用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法400。应当注意，通过示例示出了图4所示的方法400的步骤的顺序。

方法400的第一步骤是确定S401与多个音频对象的空间位置对应的空间信息的可选步骤。通常，对象音频伴有对每个对象应当被渲染到何处的描述。这通常根据坐标(例如笛卡尔、极坐标等)来完成。

该方法的第二步骤是确定S402多个下混信号的步骤，多个下混信号是包括表示对话的至少一个对象的多个音频对象的下混。这也可以称为下混步骤。

例如，每个下混信号可以是多个音频对象的线性组合。在其他实施方式中，下混信号中的每个频带可以包括多个音频对象的不同组合。实现这种方法的音频编码系统因此包括根据音频对象确定下混信号并且对下混信号进行编码的下混部件。编码的下混信号例如可以是5.1或7.1环绕信号，其与已建立的声音解码系统(诸如杜比数字+、或者诸如AAC、USAC或MP3的MPEG标准)向后兼容，使得实现AAO。

确定S402多个下混信号的步骤可以可选地包括确定S404用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息。在许多实施方式中，下混系数是根据下混操作中的处理得出的。在一些实施方式中，这可以通过使用最小均方误差(MMSE)算法将对话对象与下混信号进行比较来完成。

存在对音频对象进行下混的许多方式，例如，可以使用对在空间上靠近在一起的对象进行下混的算法。根据该算法，确定在空间中的哪些位置存在着对象的集中。然后，使用这些位置作为下混信号位置的质心。这只是一个示例。其他示例包括在下混时如果可能则保持使对话对象与其他音频对象分离，以便改善对话分离并且进一步简化在解码器侧的对话增强。

方法400的第四步骤是确定S406与多个下混信号的空间位置对应的空间信息的可选步骤。在省略了确定S401与多个音频对象的空间位置对应的空间信息的可选步骤的情况下，步骤S406还包括确定与表示对话的至少一个对象的空间位置对应的空间信息。

在如上所述确定S402多个下混信号时，空间信息通常是已知的。

该方法中的下一步骤是确定S408边信息，该边信息指示使得能够由多个下混信号重构多个音频对象的系数。这些系数也可以称为上混参数。上混参数可以例如是根据下混信号和音频对象来确定的，例如通过MMSE优化。上混参数通常包括干上混系数和湿上混系数。干上混系数定义了近似于要编码的音频信号的下混信号的线性映射。干上混系数因此是定义了线性变换的定量属性的系数，该线性变换采用下混信号作为输入，并且输出近似于要编码的音频信号的一组音频信号。所确定的一组干上混系数可以例如定义与音频信号的最小均方误差近似相对应的下混信号的线性映射，即，在下混信号的线性映射的集合中，所确定的一组干上混系数可以定义在最小均方意义上最佳地近似于音频信号的线性映射。

湿上混系数例如可以是基于以下二者之间的差或者通过比较以下二者而确定的：所接收的音频信号的协方差，以及通过下混信号的线性映射而近似的音频信号的协方差。

换言之，上混参数可以与使得能够由下混信号重构音频对象的上混矩阵的元素对应。通常关于各个时间/频率片，基于下混信号和音频对象来计算上混参数。因此，上混参数是针对每个时间/频率片而确定的，例如，可以针对每个时间/频率片来确定上混矩阵(包括干上混系数和湿上混系数)。

图4中所示的用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法的第六步骤是确定S410用于标识多个音频对象中的哪个音频对象表示对话的数据。通常，多个音频对象可以伴有用于指示哪些对象包含对话的元数据。替选地，如本领域已知的，可以使用语音检测器。

所描述的方法的最后步骤是形成比特流的步骤S412，该比特流至少包括通过下混步骤S402所确定的多个下混信号、通过确定用于重构的系数的步骤S408所确定的边信息、如上结合步骤S410所描述的标识多个音频对象中的哪个音频对象表示对话的数据。比特流还可以包括通过上述可选步骤S401、S404、S406、S408输出或确定的数据。

在图5中，通过示例示出了编码器500的框图。编码器被配置成对包括表示对话的至少一个对象的多个音频对象进行编码，并且最后用于传输比特流520，该比特流520可以由结合图1至图3所描述的解码器100、200、300中的任一个接收。

解码器包括下混级503，该下混级包括下混部件504和重构参数计算部件506。下混部件接收包括表示对话的至少一个对象的多个音频对象502，并且确定作为多个音频对象502的下混的多个下混信号507。下混信号可以例如是5.1或7.1环绕信号。如上所述，多个音频对象502实际上可以是多个对象聚类502。这意味着在下混部件504的上游可以存在聚类部件(未示出)，该聚类部件从更大量的音频对象中确定多个音频聚类。

下混部件504还可以确定用于描述如何将表示对话的至少一个对象混合到多个下混信号中的信息505。

多个下混信号507和多个音频对象(或对象聚类)由重构参数计算部件506接收，该重构参数计算部件506例如使用最小均方误差(MMSE)优化来确定边信息509，该边信息509指示使得能够从多个下混信号重构多个音频对象的系数。如上所述，边信息509通常包括干上混系数和湿上混系数。

示例性编码器500还可以包括下混编码器部件508，该下混编码器部件508可以适于对下混信号507进行编码，使得它们与已建立的声音解码系统(诸如杜比数字+、或者诸如AAC、USAC或MP3的MPEG标准)向后兼容。

编码器500还包括复用器518，该复用器518至少将编码的下混信号510、边信息509和用于标识多个音频对象中的哪个音频对象表示对话的数据516组合到比特流520中。比特流520还可以包括信息505，该信息505描述如何将表示对话的至少一个对象混合到多个下混信号中，该多个下混信号可以通过熵编码而被编码。此外，比特流520可以包括与多个下混信号的空间位置和表示对话的至少一个对象的空间位置对应的空间信息514。此外，比特流520可以包括与比特流中的多个音频对象的空间位置对应的空间信息512。

总之，本公开内容属于音频编码领域，特别地，本公开内容涉及空间音频编码领域，其中音频信息通过包括有至少一个对话对象的多个音频对象来表示。特别地，本公开内容提供了一种用于在音频系统中的解码器中增强对话的方法和装置。此外，本公开内容提供了一种用于对这样的音频对象进行编码以使得对话能够被音频系统中的解码器增强的方法和装置。

等同方案、扩展方案、替选方案和其他

在研究了上述描述之后，本公开内容的其他实施方式对于本领域技术人员而言将变得明显。尽管本说明书和附图公开了实施方式和示例，但本公开内容不限于这些具体示例。在不脱离由所附权利要求限定的本公开内容的范围的情况下，可以进行许多修改和变化。权利要求中出现的任何参考标记不应被理解为限制其范围。

另外，本领域技术人员在实践本公开内容时，根据对附图、公开内容和所附权利要求的研究可以理解并实现所公开的实施方式的变型。在权利要求中，词组“包括”不排除其他元件或步骤，并且不定冠词“一”或“一个”不排除多个。某些手段被记载在相互不同的从属权利要求中这一事实并不表示这些手段的组合不能被有利地使用。

上文公开的系统和方法可以被实现为软件、固件、硬件或其组合。在硬件实现中，上述描述中提到的功能单元之间的任务划分不一定对应于物理单元划分；相反，一个物理部件可以具有多个功能，并且一个任务可以由协作中的多个物理部件执行。某些部件或所有部件可以被实现为由数字信号处理器或微处理器执行的软件，或者被实现为硬件或专用集成电路。这样的软件可以分布在计算机可读介质上，该计算机可读介质可以包括计算机存储介质(或非暂态介质)以及通信介质(或暂态介质)。如本领域技术人员所公知的，术语计算机存储介质包括用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储所需信息并且可以由计算机访问的任何其他介质。此外，技术人员公知的是，通信介质通常实现为计算机可读指令、数据结构、程序模块或者调制数据信号(诸如载波或其他传输机制)中的其他数据，并且包括任何信息传递介质。

Claims

1.一种用于在音频系统中的解码器中增强对话的方法，包括以下步骤：

接收多个下混信号，所述下混信号是包括表示对话的至少一个对象的多个音频对象的下混，

接收边信息，所述边信息指示使得能够由所述多个下混信号重构所述多个音频对象的系数，

接收用于标识所述多个音频对象中的哪个音频对象表示对话的数据，

通过使用增强参数和用于标识所述多个音频对象中的哪个音频对象表示对话的数据来修改所述系数，以及

使用修改的系数来至少重构所述表示对话的至少一个对象。

2.根据权利要求1所述的方法，其中，通过使用所述增强参数修改所述系数的步骤包括将使得能够重构所述表示对话的至少一个对象的系数与所述增强参数相乘。

3.根据权利要求1至2中任一项所述的方法，还包括以下步骤：

根据所述边信息来计算使得能够由所述多个下混信号重构所述多个音频对象的系数。

4.根据权利要求1至3中任一项所述的方法，其中，至少重构所述表示对话的至少一个对象的步骤包括仅重构所述表示对话的至少一个对象。

5.根据权利要求4所述的方法，其中，仅重构所述表示对话的至少一个对象不涉及所述下混信号的解相关。

6.根据权利要求4或5所述的方法，还包括以下步骤：

将所重构的表示对话的至少一个对象与所述下混信号合并为至少一个单独的信号。

7.根据权利要求6所述的方法，还包括以下步骤：

接收具有空间信息的数据，所述空间信息对应于所述多个下混信号的空间位置以及所述表示对话的至少一个对象的空间位置，以及

基于所述具有空间信息的数据来渲染所述多个下混信号和所重构的表示对话的至少一个对象。

8.根据权利要求4或5所述的方法，还包括以下步骤：

使用用于描述所述音频系统中的编码器如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息来组合所述下混信号和所重构的表示对话的至少一个对象。

9.根据权利要求8所述的方法，还包括以下步骤：

渲染所述下混信号和所重构的表示对话的至少一个对象的组合。

10.根据权利要求8或9所述的方法，还包括以下步骤：

接收用于描述所述音频系统中的编码器如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息。

11.根据权利要求10所述的方法，其中，通过熵编码对所接收的用于描述如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息进行编码。

12.根据权利要求8或9所述的方法，还包括以下步骤：

基于所述具有空间信息的数据来计算用于描述所述音频系统中的编码器如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息。

13.根据权利要求12所述的方法，其中，所述计算步骤包括应用函数，所述函数将所述表示对话的至少一个对象的空间位置映射到所述多个下混信号的空间位置。

14.根据权利要求13所述的方法，其中，所述函数是3D平移算法。

15.根据权利要求1所述的方法，其中，至少重构所述表示对话的至少一个对象的步骤包括重构所述多个音频对象。

16.根据权利要求15所述的方法，还包括以下步骤：

接收具有空间信息的数据，所述空间信息对应于所述多个音频对象的空间位置，以及

基于所述具有空间信息的数据来渲染所重构的多个音频对象。

17.一种计算机程序产品，包括具有指令的计算机可读介质，所述指令用于执行根据权利要求1至16中任一项所述的方法。

18.一种用于在音频系统中增强对话的解码器，所述解码器包括：

接收级，被配置用于：

修改级，被配置用于：

通过使用增强参数和用于标识所述多个音频对象中的哪个音频对象表示对话的数据来修改所述系数，

重构级，被配置用于：

使用修改的系数来至少重构所述表示对话的至少一个对象。

19.一种用于对包括表示对话的至少一个对象的多个音频对象进行编码的方法，包括以下步骤：

确定多个下混信号，所述多个下混信号是包括表示对话的至少一个对象的多个音频对象的下混，

确定边信息，所述边信息指示使得能够由所述多个下混信号重构所述多个音频对象的系数，

确定用于标识所述多个音频对象中的哪个音频对象表示对话的数据，以及

形成包括所述多个下混信号、所述边信息和所述用于标识所述多个音频对象中的哪个音频对象表示对话的数据的比特流。

20.根据权利要求19所述的方法，还包括以下步骤：

确定与所述多个下混信号的空间位置和所述表示对话的至少一个对象的空间位置对应的空间信息；以及

将所述空间信息包括在所述比特流中。

21.根据权利要求19或20所述的方法，其中，确定多个下混信号的步骤还包括确定用于描述如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息，并且其中，所述方法还包括以下步骤：

将用于描述如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息包括在比特流中。

22.根据权利要求21所述的方法，其中，使用熵编码对所确定的用于描述如何将所述表示对话的至少一个对象混合到所述多个下混信号中的信息进行编码。

23.根据权利要求19至22中任一项所述的方法，还包括以下步骤：

确定与所述多个音频对象的空间位置对应的空间信息，以及

将与所述多个音频对象的空间位置的对应的空间信息包括在所述比特流中。

24.一种计算机程序产品，包括具有指令的计算机可读介质，所述指令用于执行根据权利要求19至23中任一项所述的方法。

25.一种用于对包括表示对话的至少一个对象的多个音频对象进行编码的编码器，所述编码器包括：

下混级，被配置用于：

确定边信息，所述边信息指示使得能够由所述多个下混信号重构所述多个音频对象的系数，以及

编码级，被配置用于：

形成包括所述多个下混信号和所述边信息的比特流，其中，所述比特流还包括用于标识所述多个音频对象中的哪个音频对象表示对话的数据。