CN105992120B

CN105992120B - 音频信号的上混音

Info

Publication number: CN105992120B
Application number: CN201510066647.9A
Authority: CN
Inventors: 王珺; 芦烈; 陈连武; 胡明清
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-02-09
Filing date: 2015-02-09
Publication date: 2019-12-31
Anticipated expiration: 2035-02-09
Also published as: US20190052991A9; EP3257269B1; WO2016130500A1; EP3257269A1; CN105992120A; US10362426B2; US20180262856A1

Abstract

本发明的实施例涉及音频信号的上混音。描述了一种对音频信号进行上混音的方法。该方法包括：将所述音频信号分解成扩散信号和直达信号；至少部分地基于扩散信号，生成音频静态环境声，音频静态环境声包括高度声道；从直达信号中提取音频对象；估计音频对象的元数据，元数据包括音频对象的高度信息；以及将音频静态环境声和音频对象呈现为经过上混音的音频信号，其中音频静态环境声被呈现到预定义的位置并且音频对象根据元数据而被呈现。还公开了相应的系统和计算机程序产品。

Description

音频信号的上混音

技术领域

本发明总体上涉及音频信号处理，更具体地，涉及音频信号的上混音。

背景技术

为了创建更加具有沉浸感的音频体验，可以向音频信号应用上混音处理，以便从原始音频信号中创建附加的环绕声道，例如从立体声到环绕5.1格式或者从环绕5.1格式到环绕7.1格式，等等。存在一些上混音器和上混音算法。在这些传统的上混音算法中，所创建的附加环绕声道仅仅针对地板扬声器。为了进一步提高空间沉浸感，已经提出了一些上混音算法将音频信号上混音到高位(头顶)扬声器，诸如从环绕5.1到环绕7.1.2格式，其中“.2”表示高位扬声器的数目。

传统的上混音方案通常仅仅将原始音频信号中的扩散信号或者说环境信号上混音到高位扬声器，而将直达信号留在地板扬声器。然而，诸如雨、雷、直升机、鸟叫等的声音之类的直达信号实际上是头顶上的声音。因此，传统的上混音方案有时无法创建足够强的空间沉浸感音频体验，甚至会在上混音之后的信号中造成可听到的瑕疵。

发明内容

总体上，本发明提供一种用于音频信号的上混音的方案。

在一个方面，本发明的示例实施例提供一种对音频信号进行上混音的方法。该方法包括：将所述音频信号分解成扩散信号和直达信号；至少部分地基于扩散信号，生成音频静态环境声，音频静态环境声包括高度声道；从直达信号中提取音频对象；估计音频对象的元数据，元数据包括音频对象的高度信息；以及将音频静态环境声和音频对象呈现为经过上混音的音频信号，其中音频静态环境声被呈现到预定义的位置并且音频对象根据元数据而被呈现。

在另一方面，本发明的示例实施例提供一种对音频信号进行上混音的系统。该系统包括：直达信号/扩散信号分解器，被配置为将音频信号分解成扩散信号和直达信号；静态环境声生成器，被配置为至少部分地基于扩散信号生成音频静态环境声，音频静态环境声包括高度声道；对象提取器，被配置为从直达信号中提取音频对象；元数据估计器，被配置为估计音频对象的元数据，元数据包括音频对象的高度信息；以及音频呈现器，被配置为将音频静态环境声和音频对象呈现为经过上混音的音频信号，其中音频静态环境声被呈现到预定义的位置并且音频对象根据元数据而被呈现。

通过下文描述将会理解，根据本发明的实施例，直达/扩散信号分解被用来实现音频信号的自适应上混音。音频对象从原始音频信号中被提取并且根据其高度被呈现，同时可以生成具有一个或多个高度声道的音频静态环境声并且将其呈现到预定义的扬声器位置。这样，如果音频对象在场景中相对较高，则该音频对象可由头顶扬声器来呈现。以此方式，可以产生更加自然和沉浸感的空间体验。

而且，在某些实施例中，可以基于输入音频信号的属性来自适应地控制直达/扩散信号分解、对象提取、静态环境声生成、元数据估计和/或呈现。例如，这些处理级中的一个或多个可以基于音频对象的内容复杂性来控制。以此方式，可以进一步改善上混音效果。

附图说明

通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：

图1是根据本发明一个示例性实施例的用于音频信号上混音的系统的框图；

图2是根据本发明另一示例性实施例的用于音频信号上混音的系统的框图；

图3是根据本发明又一示例性实施例的用于音频信号上混音的系统的框图；

图4是根据本发明再一示例性实施例的用于音频信号上混音的系统的框图；

图5是根据本发明又一示例性实施例的用于音频信号上混音的系统的框图；

图6是根据本发明一个示例性实施例的将输入音频信号的复杂性得分映射为不同分量的扩散增益的函数的示意图；

图7是根据本发明一个示例性实施例的用于音频信号上混音的方法的流程图；以及

图8是适于实现本发明的示例性实施例的示例计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

在此使用的术语“包括”表示开放性包括，即“包括但不限于”。除非特别中明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。其他术语的定义将在下文描述中给出。

在此使用的术语“音频对象”或者简称“对象”是指在声场中存在特定持续时间的个体音频元素。音频对象可以是动态的也可以是静态的。例如，音频对象可以是人、动物或者能够充当声源的任何其他元素。音频对象可以具有关联的元数据，其描述音频对象的位置、速度、轨迹、高度、大小和/或任何其他方面。在此使用的术语“静态环境声”(audio bed)是将以预定义的、固定的位置进行重现的声道。其他显式的或者隐式的定义将在下文描述。

一般而言，根据本发明的实施例，将要被上混音的音频信号被分解为扩散信号和直达信号。可以从直达信号中提取音频对象。通过估计音频对象的高度，可以在适当的位置呈现音频对象，而不是将音频对象留在地板扬声器。以此方式，诸如雷声之类的音频对象可以经由例如头顶扬声器来呈现。另一方面，可以至少部分地从扩散信号中生成具有一个或多个高度声道的静态环境声，从而实现原始音频信号中的扩散分量的上混音。以此方式，可以在具有任何扬声器布局的各种收听环境中增强空间沉浸感体验。

图1示出了根据本发明一个示例实施例的用于音频信号上混音的架构或称系统100的框图。如图所示，系统100包括直达信号/扩散信号分解器110、对象提取器120、元数据估计器130、静态环境声生成器140、音频呈现器150和控制器160。控制器160被配置为控制系统100的操作。

直达信号/扩散信号分解器110被配置为接收和分解音频信号。在一个示例实施例中，输入音频信号可以具有多声道格式。当然，任何其他适当格式同样是可能的。在一个示例实施例中，将要被上混音的音频信号被直接递送给直达信号/扩散信号分解器110。备选地，在一个示例实施例中，音频信号在被馈送给直达信号/扩散信号分解器110之前可以先经过预混音之类的预处理，这将在下文描述。

根据本发明的实施例，直达信号/扩散信号分解器110被配置为将输入的音频信号分解为扩散信号和直达信号。所得到的直达信号主要包含方向性声源，而扩散信号主要包括不具有明显方向的环境信号。直达信号/扩散信号分解器110可以使用任何适当的音频信号分解技术，不论是目前已知的还是将来开发的。

直达信号/扩散信号分解器110获得的直达信号被传递给对象提取器120。对象提取器120被配置为从直达信号中提取一个或多个音频对象。对象提取器120可以使用任何适当的音频对象提取技术，不论是目前已知的还是将来开发的。

例如，在一个示例实施例中，对象提取器120可以这样来提取音频对象：基于频谱连续性和空间一致性来检测属于相同对象的信号。为此，可以从直达信号中获得一个或多个信号特征或者线索，以便测量音频信号的子频带、声道或者帧是否属于相同的音频对象。这种音频信号特征的示例包括但不限于声音方向/位置、扩散度、直达混响声能比(DRR)、开/偏移同步、调和性、音高和音高波动、突出性/局部响度/能量、重复性，等等。

附加地或备选地，在一个示例实施例中，对象提取器120可以通过确定直达信号的每个子频带包含音频对象的概率来提取音频对象。基于所确定的概率，每个子频带可被划分为音频对象部分和残留音频部分。不通对将子频带的音频对象部分进行合并，可以提取一个或多个音频对象。这种概率可以通过各种方式确定。作为示例，可以基于如下项来确定该概率：子频带的空间位置，子频带的多个声道(如果存在的话)之间的相关性，音频混音的一个或多个平推规则、音频信号的子频带的频率范围，和/或任何附加的或备选的因素。

对象提取器120的输出包括一个或多个被提取的音频对象。可选地，在一个示例实施例中，直达信号中不适合被提取为音频对象的部分可以作为残留信号而从对象提取器120被输出。每个音频对象由元数据估计器130处理，以便估计相关联的元数据。元数据可以包括高级别语义元数据直至低级别描述信息。

例如，在一个示例实施例中，元数据可以包括中间级别的属性，包括开始、偏移、调和性、突出性、响度、临时结构，等等。附加地或备选地，元数据可以包括高级别的语义属性，包括：音乐、对话、歌唱声、声效、环境声音、拟音，等等。在一个示例实施例中，元数据可以包括空间元数据，其描述音频对象的空间属性，诸如位置、大小、宽度、轨迹，等等。

特别地，元数据估计器130可以突击三维(3D)空间中的每个音频对象的位置，或者至少估计其高度。作为示例，在一个示例实施例中，对于任何给定的音频对象，元数据估计器130可以估计音频对象的3D轨迹，其描述音频对象随时间的3D位置。所估计的元数据可例如以3D坐标(x，y，z)的形式来描述音频对象的空间位置。由此，可以获得音频对象的高度信息。

可以使用目前已知或者将来开发的任何适当的技术来估计3D轨迹。在一个示例实施例中，可以针对音频对象的多个帧中的每个帧生成候选位置组，其包括的至少一个候选位置。可以基于多个帧的全局代价函数，从针对多个帧的每个帧而生成的候选位置组中选择一个估计位置。继而，可以估计具有跨多个帧的所选择估计位置的轨迹。

返回参考直达信号/扩散信号分解器110，扩散信号被馈送给静态环境声生成器140，其被配置为生成音频静态环境声。可选地，如果对象提取器120所执行的音频对象提取产生了残留信号，则残留信号也可被馈送给静态环境声生成器140。如上所述，音频静态环境声是指将以预定义的、固定的位置进行重现的声道。典型的音频静态环境声可以是环绕7.1.2或者7.1.4格式或者任何其他适当的格式，这取决于扬声器布局。

特别地，根据本发明的实施例，静态环境声生成器140生成至少一个具有高度声道的静态环境声。为此，在一个示例实施例中，静态环境声生成器140可以将扩散信号上混音到完全静态环境声布局(例如，环绕7.1.2)以创建高度声道。可以使用任何目前已知的或者将来开发的上混音技术对扩散信号进行上混音。将会理解，音频的静态环境声的高度声道并非必须通过对扩散信号上混音而获得。在各种实施例中，可以通过其他方式来创建一个或多个高度声道，例如基于预先上混音处理，这将在下文描述。

对于来自对象提取器120的残留信号，其可以被包括到音频静态环境声中。在一个示例实施例中，残留信号可被保护不变并且被直接包括到音频静态环境声中。备选地，在一个示例实施例中，静态环境声生成器140可以将残留信号上混音到那些没有高度声道的音频静态环境声中。

由对象提取器120提取的音频对象、由元数据估计器130估计的元数据以及由静态环境声生成器140生成的音频静态环境声被递送给音频呈现器150以便呈现。一般地，音频静态环境声可以被呈现到预定义的扬声器位置。特别地，音频静态背景声的一个或多个高度声道可由高位(头顶)扬声器呈现。音频对象可由根据元数据由适当位置的麦克风呈现。例如，在一个示例实施例中，在任何给定的时刻，如果元数据所指示的音频对象的高度大于阈值，音频呈现器150可以至少部分地利用头顶扬声器来呈现该音频对象。

将会理解，尽管某些实施例参考扬声器而被描述，本发明的范围不限于此。例如，对经过上混音的音频信号进行双耳呈现同样是可行的。也即，经过上混音的音频信号可以被呈现到任何适当的耳机、耳麦、头戴式耳机，等等。

以此方式，不同于仅对扩散信号进行上混音而将直达信号留在地板扬声器的传统方案，直达信号被用来提取音频对象，音频对象可以根据其位置而被呈现到高度扬声器。借助于这种混合式上混音策略，可以在具有任意扬声器布局的各种收听环境中改善用户体验。

根据本发明的实施例，系统100可以具有多种实现或者变形，以便实现优化的上混音性能和/或满足不同的需求和用例。作为示例，图2示出了用于音频信号上混音的系统200的框图，系统200可被视作上文描述的系统100的一个实现。

如图所示，在系统200中，直达信号/扩散信号分解器110包括第一分解器210和第二分解器220，以便更好地对所提取的直达信号和扩散信号进行平衡。更具体地，已经发现：对于任何分解算法而言，所获得的直达信号和扩散信号是利用一定程度的权衡取得的。通常，难以针对直达信号和扩散信号二者都取得良好的结果。也即，好的直达信号可能导致扩散信号中的某些牺牲，反之亦然。

为了解决这一问题，在系统200中，直达信号和扩散信号不是像系统100中那样利用单个分解过程或者算法获得的。相反，第一分解器210被配置为应用第一分解过程以获得扩散信号，而第二分解器220被配置为应用第二分解过程以获得直达信号。在此实施例中，第一分解过程和第二分解过程具有不同的“扩散向直达”泄漏，并且彼此独立地被应用。

更具体地，在一个示例实施例中，第一分解过程具有比第二分解过程更小的“扩散向直达”泄漏，以便更好地保留原始音频信号中的扩散分量。由此，第一分解过程将导致提取出的扩散信号中的较小损失。相反，第二分解过程具有较小的“直达向扩散”泄漏，以便更好地保留直达信号。在一个示例实施例中，第一分解器210和第二分解器220可以分别应用不同类型的处理作为第一分解过程和第二分解过程。在另一实施例中，第一分解器210和第二分解器220可以应用具有不同参数的相同分解过程。

图3示出了根据另一实施例的上混音系统300的框图。上文描述的上混音技术可以生成与旧有上混音器不同的声像(sound image)，特别是对于被上混音到环绕7.1(具有或者不具有高度声道)的环绕5.1格式的音频信号而言。在旧有上混音器中，左环绕声道(Ls)和右环绕声道(Rs)通常位于相对于空间中心(头部位置)±110°的位置，并且左后声道(Lb)和右后声道(Rb)在Ls和Rs声道之后被生成和定位。在系统100或者200中，由于空间位置估计的内在属性，音频对象的估计位置可能必须定位在五个静态环境声声道之内的区域，因此Ls和Rs声道通常被推到空间的后面角落(也即，Lb和Rb的位置)，这使得所获得的声像可充满整个空间。因此，在某些情况下，在系统100和200中，声像可能在一定程度上被向后拉。

为了实现更好的兼容性，在系统300中，对将要进行上混音的音频信号进行预先上混音过程。特别地，如图3所示，音频信号的分解不是直接在原始音频信号上执行的。相反，系统300包括预先上混音器310，其被配置为对原始音频信号进行预先上混音。经过预先上混音的信号被传递给直达信号/扩散信号分解器110，以便被分解为直达信号和扩散信号。

可以使用任何目前已知的或者将来开发的适当上混音器作为系统300中的预先上混音器310。在一个示例实施例中，可以使用旧有的上混音器来实现良好的兼容性。例如，在一个示例实施例中，可以将原始音频信号预先上混音到具有默认的一致格式(例如，环绕7.1等)的音频。

系统300所实现的另一好处在于，可以在后续组件中实现一致的处理。这样，可以避免用于具有不同格式的输入的参数调节/选择。

将会理解，系统200和系统300可以结合使用。更具体地，如图3所示，在一个示例实施例中，系统300中的直达信号/扩散信号分解器110可以包括擦考图2所讨论的第一分解器210和第二分解器220。在此实施例中，第一分解过程和第二分解过程被独立地应用于经过预先上混音的音频信号而不是原始音频信号。当然，可以仅对经过预先上混音的音频信号应用一个分解过程。

图4示出了在一个示例实施例中的上混音系统的另一变形的框图。在图4所示的系统400中，预先上混音器410对原始音频信号执行预先上混音。特别地，预先上混音器410将音频信号上混音到具有至少一个高度声道的格式。作为示例，在一个示例实施例中，音频信号可以由预先上混音器410上混音为环绕7.1.2格式或者任何其他具有高度声道的静态环境声布局。以此方式，可以经由预先上混音过程而获得一个或多个高度声道。

由预先上混音器410获得的高度信号被传递给静态环境声生成器140，并且被直接用作音频静态环境声中的高度声道。如上所述，直达信号/扩散信号分解器110所获得的扩散信号和对象提取器120获得的残留信号(如果有的话)被传递给静态环境声生成器140。将会理解，在此实施例中，静态环境声生成器140无需对扩散信号进行上混音，因为高度声道已经存在了。也即，音频静态环境声的高度声道可以在不对扩散信号进行上混音的情况下被创建。扩散信号可以被置入音频静态环境声中。

此外，由于高度声道不是根据扩散信号生成的，系统400中的直达信号/扩散信号分解器110可以被实施为如图2中所示出的系统中的第二分解器220。以此方式，可以应用具有较少的“扩散向直达”泄漏的信号分解过程，以便特定地保留音频信号中的直达分量。

此外，在系统400中，从预先上混音器410向直达信号/扩散信号分解器110仅传送经过上混音的音频信号的底面声道是可能的。例如，在一个示例实施例中，如果音频信号被预先上混音至环绕7.1.2，仅底面声道7.1可以被馈送至直达信号/扩散信号分解器110。当然，在备选的实施例中，预先上混音器410可以将全部的经过上混音的音频信号输入至直达信号/扩散信号分解器110。

将理解到，在系统400中，由直达信号/扩散信号分解器110通过对经过预先上混音的信号或者它的一部分(也就是，底面声道)应用分解过程来分解音频信号。在一个变体中，直达信号/扩散信号分解过程可以对原始的输入音频信号来执行，而不是对预先上混音的信号。图5示出了在一个实施例中的这样的系统500的框图。

如所示出的，系统500包括预先上混音器410，用于对输入音频信号进行预先上混音。不像其中经过预先上混音的音频信号或者它的一部分被输入到直达信号/扩散信号分解器的系统400，原始音频信号被输入到预先上混音器510和直达信号/扩散信号分解器110。预先上混音器510，如预先上混音器410一样，通过将输入音频信号上混音至例如环绕7.1.2等而生成高度信号。高度信号被输入至静态环境声生成器140以用作高度声道。

系统500中的直达信号/扩散信号分解器110通过对原始音频内容应用分解过程来获得直达信号和扩散信号。具体地，类似于系统400，直达信号/扩散信号分解器110可以应用具有较少的“扩散向直达”泄漏的信号分解过程，以便很好地保留直达信号。相较于系统400，对象提取器120可以基于原始音频信号而不是经过上混音的信号的直达分量来提取音频对象。在没有上混音过程及其带来的影响的情况下，所提取的音频对象和它们的元数据可以保有更多的保真度。

要理解的是，系统200至500是系统100的某些示例修改或变体。系统200至500仅出于解释说明的目的而被讨论，而不是给出对本发明的范围的任何限制。

现在将讨论控制器160的功能。为了解释说明，将参照图1中示出的系统100。这仅出于解释说明的目的而被讨论，而不是给出对本发明的范围的任何限制。以下描述的控制器的功能应用至以上所讨论的系统200至500中的任一个。

如以上所提及的，控制器160被配置为控制系统中的组件。具体地，在一个示例实施例中，控制器160可以控制直达信号/扩散信号分解器110。如所知道的，在一些分解过程中，音频信号可以首先被分解成若干不相关的音频分量。每个音频分量被应用有相应的扩散增益，以用于提取扩散信号。如本文中所使用的，术语“扩散增益”指的是指示扩散分量在音频信号中的比例的增益。备选地，在一个示例实施例中，扩散增益可以被应用至原始音频信号。在任一种情况下，(多个)适当的扩散增益的选择是关键问题。

在一个示例实施例中，控制器160可以基于输入音频信号的复杂度来确定音频信号的每个分量的扩散增益。因此，控制器160计算复杂度得分以衡量音频复杂度。复杂度得分可以以各种适当的方式来定义。在一个示例实施例中，如果音频信号包含各种声音源和/或各种信号的混合，则复杂度得分可以被设置为高的数值。如果音频信号仅包含一个扩散信号和/或一个显著的声音源，则复杂度得分可以被设置为低的数值。

更具体地，在一个示例实施例中，控制器160可以计算音频信号的分量的功率差异之总和。如果该总和低于阈值，这意味着音频信号中仅包括扩散信号。备选地或者附加地，控制器160可以确定功率跨越音频信号的分量的分布有多平坦。备选地或者附加地，控制器160可以确定子频带中的局部显著分量与全频带或时域中的全局显著分量之间的功率差异。还可以使用任何附加的或备选的度量来估计音频信号的复杂度。

控制器160然后可以基于音频信号的复杂度来确定音频信号的扩散增益。在一个示例实施例中，可以将复杂度得分映射为音频信号的每个音频分量的扩散增益。具体地，将理解的是，这里所描述的扩散增益可以被实施为直接地被应用到每个音频分量的增益，或者被实施为用于进一步修改初始估计的增益的乘子(另一个增益)。

在一个或多个实施例中，可以使用一个或多个映射函数来将复杂度得分映射为扩散增益。在一个示例实施例中，可以使用非线性函数，非线性函数可以针对在直达/扩散分解中获得的不同音频分量而设置。当然，在备选的实施例中，可以对整个音频信号使用单个函数。

图6示出了映射函数的集合的示意图，每个映射函数将复杂度得分映射为要被应用于相关联的信号分量的扩散增益。曲线610指示用于输入音频信号的最显著分量的映射函数，曲线620指示用于中等分量的映射函数，并且曲线630指示用于最不显著的分量的映射函数。这些非线性函数可以通过将相应的线性分段函数615、625和635拟合至S型(sigmoid)函数而生成。可以看出，根据操作模式控制，这些非线性函数可以具有一个或多个操作点(在图中用星号标出)。以此方式，操作曲线的参数可以以灵活且连续的方式进行调谐。

在操作时，控制器160可以进一步地在“更少的扩散向直达泄漏”和“更少的直达向扩散泄漏”模式的上下文中调整这些函数。例如，当生成不具有明显方向的包络扩散声场时，曲线610的操作点可以朝向中间线调谐，以便实施“扩散向直达泄漏”的保守模式。又例如，在方向性信号需要被尽可能原封不动地被提取/平移(pan)/移动/分离的时候，曲线620和630的操作点可以朝向曲线610调谐，以便实现“直达向扩散泄露”的保守模式。

备选地，在一个示例实施例中，可以利用学习模型来估计音频信号的每个分量的扩散增益。在这个实施例中，模型基于一个或多个声学特征来扩散增益。可以根据操作模式输入而差异化地学习或估计这些增益值。在一个示例实施例中，显著的声源和扩散信号的混合可以被分解成若干不相关的分量。可以提取一个或多个声学特征。可以根据所选择的操作模式来计算目标增益。可以基于声学特征和目标增益来学习这些模型。

附加地或备选地，控制器160可以通过为对象提取器120选择不同的提取模式来控制由对象提取器120执行的对象提取。例如，在一种提取模式中，对象提取器120被配置为尽可能多地提取对象，以便充分利用音频对象对最终的音频呈现的益处。在另一种提取模式中，对象提取器120被配置为尽可能少地提取音频对象，以便保留原始音频信号的属性并且避免音质变化和空间不连续性。可以定义任何备选的或附加的提取模式。

在一个示例实施例中，可以应用“硬判决”，从而控制器160为对象提取器120选择这些提取模式中的一种提取模式。备选地，可以应用“软判决”，从而可以凭借指示要被提取的音频对象的量的0到1之间的因数，以连续的方式组合两种或更多不同的提取模式。在一个示例实施例中，对象提取可以被看作用于对输入音频对象的每个子频带估计和应用对象增益的方法。对象增益指示音频信号包含音频对象的概率。较小的对象增益指示较小量的被提取的对象。以此方式，不同的提取模式的选择或者要被提取的对象的量可以通过调整对象增益来实现。

类似于以上所描述的扩散增益，在一个示例实施例中，控制器160可以基于输入音频信号的复杂度来确定对象增益。例如，以上所描述的复杂度得分可以被用于确定对象增益，并且也可以应用如图6中示出的类似的(多个)。例如，如果音频复杂度低，对象增益可以被设置为高的数值。据此，控制器160控制对象提取器120尽可能多地提取音频对象。否则，如果音频复杂度高，对象增益可以被设置为低的数值。据此，控制器160控制对象提取器120以提取较少数目的音频对象。这将是有益的，因为在复杂的音频信号中，音频对象通常不能够被很好地提取，并且如果提取过多的对象，可能会引入可听到的瑕疵。

要理解的是，对象增益可以是被直接地应用至音频信号(例如，每个子频带)的增益、或者是被用于进一步修改初始估计的增益的乘子(另一个增益)。也就是说，可以以与在其中估计和/或调整环境增益的直达/扩散分解类似的方式来控制对象提取。此外，在一个示例实施例中，可以对音频信号的所有子频带应用单个映射函数。备选地，不同的映射函数可以被生成并且针对不同的子频带或者不同的子频带集合而被应用。在一个示例实施例中，在这种场景中也可以应用如所讨论的基于模型的增益估计。

在一个示例实施例中，控制器160可以自动地基于音频信号的复杂度而在元数据估计、特别是高度估计时确定模式或参数，高度估计确定音频对象的高度。一般而言，针对高度信息的估计可以定义不同的模式。例如，在一个示例实施例中，可以定义激进模式，其中所提取的音频对象被尽可能高地放置，以便创建更具沉浸感的音频图像(audio image)。在另一个实施例中，控制器160可以控制元数据估计器130以应用保守模式，其中音频对象被尽可能低地放置到(具有保守的高度值的)底面静态环境声，以避免引入可能的瑕疵。

为了选择高度估计的适当模式，在一个示例实施例中，控制器160可以基于音频信号的复杂度来确定高度增益。高度增益可以被用于进一步修改由元数据估计器130估计的高度信息。例如，可以通过将高度增益设置为小于1来减小所提取的音频对象的高度。

在一个示例实施例中，可以再次应用类似于图6中示出的那些曲线。也就是说，在复杂度较低时，其中对象可以被很好地提取并且随后被很好地呈现，高度增益可以被设置为较大或者接近于1。另一方面，在音频复杂度较高时，高度增益可以被设置为较低，以避免可听到的瑕疵。这是因为对象在这种情况下可能无法很好地被提取，并且可能一个源的一些子频带被提取为对象并且同一个源的其他子频带被认为是残留。因此，如果“被对象化”的子频带被放置得较高，这些子频带与同一个源的“被残留化”的子频带相比将更加不同，因而引入了诸如焦点丢失之类的瑕疵。

在一个示例实施例中，控制器160也可以控制静态环境声生成。如以上所描述的，静态环境声生成器140得到输入，输入包括从直达信号/扩散信号分解器110提取的扩散信号并且可能包括来自对象提取器120的残留信号。可能存在许多选择来在静态环境声生成时处理这两个信号。例如，由直达信号/扩散信号分解器110提取的扩散信号可以被维持为5.1(如果原始输入音频具有环绕5.1的格式)。备选地，它可以被上混音至环绕7.1或7.1.2(或者具有其他数目的高度扬声器)。类似地，来自对象提取器120的残留信号可以保持原封不动(诸如，以环绕5.1的格式)或者可以被上混音为环绕7.1。

将这两种类型的信号的不同处理选择进行组合，得到多种模式。例如，在一种模式中，扩散信号和残留信号均被上混音至环绕7.1。在另一种模式中，扩散信号被上混音至环绕7.1.2并且残留信号是原封不动的、或者可以被上混音至7.1。在一个示例实施例中，系统允许用户基于处理时对任务的特殊要求而指示所期望的选择或者模式。

在一个示例实施例中，控制器160可以通过音频呈现器150来控制经过上混音的音频信号的呈现。可以将所提取的音频对象和静态环境声直接地输入到任何现成的呈现器以生成上混音结果。然而却发现所呈现的结果可能包含某些瑕疵。例如，由于音频对象提取和相应的位置估计的不完美，可能听到不稳定性瑕疵。可能一个音频对象可以被分割成若干不同位置中的两个对象(瑕疵可能出现在转变部分)或者若干对象被合并在一起(所估计的轨迹变得不稳定)，并且如果所提取的音频对象具有四个或五个活跃声道，所估计的轨迹可能不准确。此外，在双声道呈现时，将对象呈现到收听者的位置(0.5，0.5)可能仍然是个问题。如果音频对象的所估计的位置“稍微”围绕(0.5，0.5)波动，不稳定性瑕疵显然是恼人的。

为了提升呈现的质量，在一个示例实施例中，控制器160可以估计“良好度”度量，以衡量所估计的对象和位置/轨迹能够有多良好。一种可能的解决方案是，如果所估计的对象和位置足够良好，可以应用更多的倾向于音频对象的呈现。否则，可以使用倾向于声道的呈现。

在一个示例实施例中，良好度度量可以被实施为0到1之间的数值，并且可以基于影响呈现性能的一个或多个因数来获得。例如，如果满足以下条件中的一个条件则良好度度量可以是低的：提取的对象具有许多活跃声道、提取的对象的位置接近收听者、声道之间的能量分布非常不同于参考(扬声器)呈现器的平移算法(即，可能是不准确的对象)等等。

在一个示例实施例中，良好度度量可以被表示为对象呈现增益，以确定音频呈现器150的、与提取的音频对象有关的呈现的水平。一般而言，对象呈现增益与良好度度量正相关。在最简单的情况下，对象呈现增益可以等于良好度度量，因为良好度度量在0到1之间。例如，对象呈现增益可以基于以下各项中的至少一项来确定：音频对象的活跃声道的数目、音频对象关于用户的位置、以及音频对象的在声道之间的能量分布。

图7示出了音频对象上混音的方法700的流程图。方法700开始于步骤710，其中音频信号被分解为扩散信号和直达信号。在一个示例实施例中，在步骤710，可以应用第一分解过程以获得扩散信号，并且可以应用第二分解过程以获得直达信号，其中第一分解过程具有比第二分解过程更少的扩散向直达泄漏。在一个示例实施例中，音频对象在步骤710之前被预先上混音。在这个实施例中，第一分解过程和第二分解过程可以被独立地应用至经过预先上混音的音频信号。

然后在步骤720，可以基于扩散信号生成包括高度声道的音频静态环境声。音频静态环境声的生成包括对扩散信号进行上混音以创建高度声道，以及将残留信号包括到音频静态环境声中，残留信号从音频对象的提取中被获得。在音频信号被预先上混音的一个示例实施例中，在步骤720，可以通过使用高度信号来创建高度声道而不对扩散信号进行上混音。在这个实施例中，在步骤710，可以对经过预先上混音的音频信号或者它的一部分、或者对原始音频信号应用分解过程。

在步骤730，从直达信号提取(多个)音频对象，并且在步骤740，估计音频对象的元数据。具体地，元数据包括音频对象的高度信息。要理解的是，可以以任何适当的顺序或者可以并列地执行静态环境声生成和音频对象提取以及元数据估计。也就是说，在一个示例实施例中，步骤730和740可以在步骤720之前被执行或者与步骤720并列地被执行。

在步骤750，将音频静态环境声和音频对象呈现为经过上混音的音频信号，其中音频静态环境声被呈现到预定义的位置并且音频对象根据元数据而被呈现。

如以上所描述的，在一个示例实施例中，可以例如以复杂度得分的形式来确定音频信号的复杂度。在一个示例实施例中，可以基于该复杂度来确定音频信号的扩散增益，其中述扩散增益指示扩散信号在音频信号中的比例。在这个实施例中，可以基于扩散增益来分解音频信号。

附加地或备选地，在一个示例实施例中，可以基于复杂度来确定音频信号的对象增益，其中对象增益指示音频信号包含音频对象的概率。在这个实施例中，可以基于对象增益来提取音频对象。附加地或备选地，在一个示例实施例中，可以基于复杂度来确定音频对象的高度增益。在这个实施例中，可以基于高度增益来调整音频对象的高度。

附加地或备选地，在一个示例实施例中，可以基于以下各项中的至少一项，确定对象呈现增益：音频对象的活跃声道的数量、音频对象关于用户的位置、以及音频对象在声道之间的能量分布。在这个实施例中，可以基于对象呈现增益，在经过上混音的音频信号的呈现中控制音频对象的水平。

要理解的是，系统100到500中的任何一个系统的组件可以是硬件模块，也可以是软件模块。例如，在某些实施例中，该系统可以部分或者全部地利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，该系统可以部分或者全部地基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

图8示出了适于用来实现本发明实施例的计算机系统800的示意性框图。如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储单元808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入单元806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元807；包括硬盘等的存储单元808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元809。通信单元809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储单元808。

特别地，根据本发明的实施例，以上描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元809从网络上被下载和安装，和/或从可拆卸介质811被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言的任意组合来编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE 1.一种新的上混音方法，包括：从音频信号提取环境音、对象和/或残留信号以及对应的元数据；将环境音和/或残留信号进行上混音以生成静态环境声；由呈现器使用双声道或扬声器呈现来呈现对象和静态环境声；以及基于正被处理的音频信号的内容来控制操作模式。

EEE 2.根据EEE 1所述的方法，其中直达/扩散分解在两种单独的模式中被执行，以生成针对静态环境声生成的更好扩散信号以及生成针对对象提取的更好直达信号。

EEE 3.根据EEE 1所述的方法，其中输入音频信号在直达/扩散分解之前被预先上混音至某个扬声器布局，诸如环绕7.1.2，其中传统的基于声道的上混音器可以被用于预先上混音。

EEE4.根据EEE 3所述的方法，其中从预先上混音获得的高度声道被直接连线至音频静态环境声，并且直达/扩散分解的一个模式被应用至经过预先上混音的信号的至少一部分。

EEE5.根据EEE 3所述的方法，其中从预先上混音获得的高度声道被直接连线至音频静态环境声，并且直达/扩散分解的一个模式被应用至原始信号。

EEE 6.根据EEE 1所述的方法，其中在具有或不具有用于静态环境声生成的高度声道的情况下，残留信号被上混音至更多的声道。

EEE 7.根据EEE 1所述的方法，其中由控制器根据所处理的内容而设置针对直达/扩散分解、对象提取、元数据估计以及呈现的不同模式。

EEE 8.根据EEE 7所述的方法，其中基于内容来估计扩散增益，以控制所提取的扩散和直达信号，并且根据将内容复杂度得分作为输入的映射函数来生成扩散增益。

EEE 9.根据EEE 7所述的方法，其中基于内容来估计对象增益，以控制对象提取时对象化的水平，并且根据将内容复杂度得分作为输入的映射函数来生成对象增益。

EEE 10.根据EEE 7所述的方法，其中基于内容来估计高度增益，以修改所提取的对象的高度，并且根据将内容复杂度得分作为输入的映射函数来生成高度增益。

EEE 11.根据EEE 8至10中任一项所述的方法，其中(多个)映射函数可以基于操作模式控制而按分量地配置。

EEE 12.根据EEE 8至10中任一项所述的方法，其中可以基于预先学习模型来进一步估计所有增益。

EEE 13.根据EEE 7所述的方法，其中基于所提取的对象以及所估计的位置的良好度来估计对象呈现增益，以便控制在呈现器中基于对象的呈现的水平，并且呈现结果是对象呈现和声道呈现的加权总和，其中该权重根据对象呈现增益来确定。

将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种对音频信号进行上混音的方法，包括：

确定所述音频信号的复杂度；

基于所确定的所述复杂度，将所述音频信号分解成扩散信号和直达信号；

至少部分地基于所述扩散信号生成音频静态环境声，所述音频静态环境声包括高度声道；

从所述直达信号中提取音频对象；

估计所述音频对象的元数据，所述元数据包括所述音频对象的高度信息；以及

将所述音频静态环境声和所述音频对象呈现为经过上混音的音频信号，其中所述音频静态环境声被呈现到预定义的位置并且所述音频对象根据所述元数据而被呈现。

2.根据权利要求1所述的方法，其中所述生成所述音频静态环境声包括：

对所述扩散信号进行上混音，以创建所述高度声道；以及

将残留信号包括到所述音频静态环境声中，所述残留信号从所述音频对象的提取中被获得。

3.根据权利要求1所述的方法，其中所述分解所述音频信号包括：

应用第一分解过程以获得所述扩散信号；以及

应用第二分解过程以获得所述直达信号，所述第一分解过程具有比所述第二分解过程更少的扩散向直达泄漏。

4.根据权利要求3所述的方法，进一步包括：

对所述音频信号进行预先上混音，

其中所述第一分解过程和所述第二分解过程被独立地应用至经过预先上混音的音频信号。

5.根据权利要求1所述的方法，进一步包括：

对所述音频信号进行预先上混音以获得高度信号，

其中所述生成所述音频静态环境声包括使用所述高度信号来创建所述高度声道而不对所述扩散信号进行上混音。

6.根据权利要求5所述的方法，其中所述分解所述音频信号包括：

对所述音频信号或者对经过预先上混音的音频信号的至少一部分应用分解过程。

7.根据权利要求1所述的方法，其中所述分解所述音频信号包括：

基于所述复杂度，确定针对所述音频信号的扩散增益，所述扩散增益指示所述扩散信号在所述音频信号中的比例；以及

基于所述扩散增益分解所述音频信号。

8.根据权利要求1所述的方法，其中所述提取所述音频对象包括：

基于所述复杂度，确定针对所述音频信号的对象增益，所述对象增益指示所述音频信号包含音频对象的概率；以及

基于所述对象增益提取所述音频对象。

9.根据权利要求1所述的方法，其中所述提取所述元数据包括：

基于所述复杂度，确定针对所述音频对象的高度增益；以及

基于所述高度增益，修改所述音频对象的所述高度信息。

10.根据权利要求1所述的方法，其中所述呈现所述音频对象包括：

基于以下各项中的至少一项，确定对象呈现增益：

所述音频对象的活跃声道的数量，

所述音频对象关于用户的位置，以及

所述音频对象在声道之间的能量分布；以及

基于所述对象呈现增益，在所述呈现中控制与所述音频对象有关的呈现水平。

11.一种对音频信号进行上混音的系统，包括：

控制器，被配置为确定所述音频信号的复杂度；

直达信号/扩散信号分解器，被配置为基于所确定的所述复杂度将所述音频信号分解成扩散信号和直达信号；

静态环境声生成器，被配置为至少部分地基于所述扩散信号生成音频静态环境声，所述音频静态环境声包括高度声道；

对象提取器，被配置为从所述直达信号中提取音频对象；

元数据估计器，被配置为估计所述音频对象的元数据，所述元数据包括所述音频对象的高度信息；以及

音频呈现器，被配置为将所述音频静态环境声和所述音频对象呈现为经过上混音的音频信号，其中所述音频静态环境声被呈现到预定义的位置并且所述音频对象根据所述元数据而被呈现。

12.根据权利要求11所述的系统，其中所述静态环境声生成器被配置为对所述扩散信号进行上混音以创建所述高度声道，

其中残留信号被包括到所述音频静态环境声中，所述残留信号从所述音频对象的提取中被获得。

13.根据权利要求11所述的系统，其中所述直达信号/扩散信号分解器包括：

第一分解器，被配置为应用第一分解过程以获得所述扩散信号；以及

第二分解器，被配置为应用第二分解过程以获得所述直达信号，所述第一分解过程具有比所述第二分解过程更少的扩散向直达泄漏。

14.根据权利要求13所述的系统，进一步包括：

预先上混音器，被配置为对所述音频信号进行预先上混音，

15.根据权利要求11所述的系统，进一步包括：

预先上混音器，被配置为对所述音频信号进行预先上混音以获得高度信号，

其中所述静态环境声生成器被配置为使用所述高度信号来创建所述高度声道而不对所述扩散信号进行上混音。

16.根据权利要求15所述的系统，其中所述直达信号/扩散信号分解器被配置为对经过预先上混音的音频信号的至少一部分或者对所述音频信号应用分解过程。

17.根据权利要求11所述的系统，其中所述控制器进一步被配置为基于所述复杂度确定针对所述音频信号的扩散增益，所述扩散增益指示所述扩散信号在所述音频信号中的比例，

并且其中所述直达信号/扩散信号分解器被配置为基于所述扩散增益分解所述音频信号。

18.根据权利要求11所述的系统，其中所述控制器进一步被配置为基于所述复杂度确定针对所述音频信号的对象增益，所述对象增益指示所述音频信号包含音频对象的概率，

并且其中所述对象提取器被配置为基于所述对象增益提取所述音频对象。

19.根据权利要求11所述的系统，其中所述控制器进一步被配置为基于所述复杂度确定针对所述音频对象的高度增益，

并且其中所述元数据估计器被配置为基于所述高度增益修改所述音频对象的所述高度信息。

20.根据权利要求11所述的系统，进一步包括控制器，所述控制器被配置为基于以下各项中的至少一项，确定对象呈现增益：所述音频对象的活跃声道的数量、所述音频对象关于用户的位置、以及所述音频对象在声道之间的能量分布，

并且其中所述音频呈现器被配置为基于所述对象呈现增益，控制由所述音频呈现器在呈现中与所述音频对象有关的呈现水平。

21.一种非瞬态计算机可读介质，其上存储有机器可执行指令，所述机器可执行指令在被执行时使所述机器执行根据权利要求1到10任一项所述的方法的步骤。