CN106063297B

CN106063297B - 用于再现三维音频的方法和设备

Info

Publication number: CN106063297B
Application number: CN201580012023.7A
Authority: CN
Inventors: 田相培; 金善民
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-01-10
Filing date: 2015-01-12
Publication date: 2019-05-03
Anticipated expiration: 2035-01-12
Also published as: CN109801640B; US10136236B2; WO2015105393A1; CN109801640A; US10863298B2; EP3079379A1; KR102160254B1; KR20150083734A; BR112016016008A2; US20160330560A1; US20190058959A1; HUE050525T2; US20200228908A1; EP3079379A4; EP3079379B1; US10652683B2; CN106063297A; BR112016016008B1

Abstract

公开了一种用于再现三维音频的方法和设备。所述用于再现三维音频的方法可包括以下步骤：接收包括多个输入声道的多声道信号；并且响应于所述多声道信号的频率范围执行下混合以将所述多个输入声道的格式转换为具有高度感的多个输出声道。

Description

用于再现三维音频的方法和设备

技术领域

本发明涉及一种用于通过使用给定的输出声道提供高处(overhead)声像的三维(3D)音频再现方法和设备。

背景技术

由于视频和音频处理技术的进步，具有高图像质量和高音频质量的多媒体内容是广泛普及的。用户期望具有现实视频和音频的高图像质量和高声音质量的内容，因此对三维(3D)视频和3D音频的研究正在积极地进行。

3D音频是这样的技术：多个扬声器位于水平面上的不同位置，并输出相同的音频信号或不同的音频信号，从而使用户感受到空间感。然而，实际的音频在水平面上的各个位置被提供，并也在不同的高度被提供。因此，需要开发一种有效地再现通过位于水平面上的扬声器在不同高度提供的音频信号的技术。

发明内容

技术问题

本发明提供了一种用于在包括水平输出声道的再现布局中提供高处声像的三维(3D)音频再现方法和设备。

技术方案

根据本发明的一个方面，提供了一种三维(3D)音频再现方法，包括：接收包括多个输入声道的多声道信号；根据所述多声道信号的频率范围执行下混合以将所述多个输入声道格式转换到具有高度感的多个输出声道。

执行下混合的步骤可包括：在对所述多声道信号的第一频率范围进行相位校准之后对所述多声道信号的第一频率范围执行下混合，并在不进行相位校准的情况下对所述多声道信号的剩余的第二频率范围执行下混合。

第一频率范围可具有比预定频率更低的频带。

所述多个输出声道可包括水平声道。

执行下混合的步骤可包括：基于所述多声道信号的特征，应用不同的下混合矩阵。

所述多声道信号的特征可包括带宽和相关度。

执行下混合的步骤可包括：根据比特流中包括的渲染类型，应用音色渲染和空间渲染之一。

渲染类型可根据所述多声道信号的特征是否是瞬态而被确定。

根据本发明的另一方面，提供了一种3D音频再现设备，包括：核心解码器，被配置为对比特流进行解码；格式转换器，被配置为从核心解码器接收包括多个输入声道的多声道信号，并被配置为根据所述多声道信号的频率范围执行下混合以将所述多个输入声道渲染到具有高度感的多个输出声道。

有益效果

在包括水平输出声道的再现布局中，当对垂直输入声道执行高度渲染或空间渲染时，确定对输入信号执行还是不执行相位校准，然后执行下混合。因此，在经过渲染的输出声道信号中的特定频率范围内的信号不经过相位校准，从而可提供精确的同步。

此外，在剩余频率范围内的信号经过相位校准和下混合两者，因此在整个有源下混合处理期间计算量的增加和高度感的恶化可被最小化。

附图说明

图1是根据实施例的三维(3D)音频再现设备的示意性结构的框图。

图2是根据实施例的3D音频再现设备的详细结构的框图。

图3是根据实施例的渲染器和混合器的框图。

图4是根据实施例的3D音频再现方法的流程图。

图5是根据实施例的3D音频再现方法的详细流程图。

图6解释根据实施例的有源下混合方法。

图7是根据另一实施例的3D音频再现设备的结构的框图。

图8是根据实施例的音频渲染设备的框图。

图9是根据另一实施例的音频渲染设备的框图。

图10是根据实施例的音频渲染方法的流程图。

图11是根据另一实施例的音频渲染方法的流程图。

具体实施方式

以下将参照附图更充分地描述实施例。在这些附图中，相同的标号指示相同的元件，并将不对其进行重复说明。

然而，实施例可按照许多不同的形式被实施，并且不应被解释为受限于在此陈述的示例性实施例。然而，这不限制本公开，应该理解，本公开覆盖了发明构思的理念和技术范围内的所有修改、等同物和替换。在实施例的描述中，当认为对相关技术的特定详细说明会不必要地模糊本发明构思的实质时，省略对相关技术的特定详细说明。然而，本领域的普通技术人员能理解本发明可在没有这些具体细节的情况下实现。

虽然包括序号的术语(如“第一”、“第二”等)会被用于描述各种组件，这些组件不可被这些术语限制。术语第一和第二不应该被用于附加任何重要的顺序，而是被用于将一个元件与另一个元件区分。

下面实施例中使用的术语仅用于描述特定的实施例，并且不意图限制本发明构思的范围。除非上下文中有明显不同的含义，否则使用单数的表述包含复数表述。在下面的实施例中，将理解，诸如“包括”、“具有”、“包含”的术语意图表示存在说明书中公开的特征、数字、步骤、动作、组件、部件或它们的组合，并且不意图排除可存在或可添加一个或更多个其它特征、数字、步骤、动作、组件、部件或组合的可能。

在下面的实施例中，术语“…模块”和“…单元”执行至少一个功能或操作，并且可被实现为硬件、软件或硬件和软件的组合。此外，除了使用特定硬件实现的“…模块”或“…单元”，多个“…模块”或多个“…单元”可集成为至少一个模块并因此使用至少一个处理器实现。

图1和图2是根据实施例的三维(3D)音频再现设备100和200的框图。3D音频再现设备100可将下混合的多声道音频信号输出到将被再现的声道。将被再现的声道被称为输出声道，并且，多声道音频信号被假设为包括多个输入声道。根据实施例，输出声道可与水平声道相应，输入声道可与水平声道或垂直声道相应。

3D音频是指这样的音频：通过不但再现音高和音调还再现方向感或距离感来使收听者能够感受到拟真感，并且具有使不位于声源产生的空间中的收听者能够感受到方向、距离和空间的空间信息。

在下文的描述中，音频信号的声道可以是输出声音的扬声器。随着声道数量的增加，扬声器的数量会增多。根据实施例的3D音频再现设备100可将具有大量声道的多声道音频信号渲染到将被再现的声道，并对经过渲染的信号进行下混合，使得多声道音频信号在声道数量少的环境中被再现。多声道信号可包括能够输出具有高度感的声音的声道例如，垂直声道。

能够输出具有高度感的声音的声道可以是能够通过位于收听者的头顶上方的扬声器输出声音信号以使收听者能够感受到高度的声道。水平声道可表示为能够通过位于与收听者处于相同水平面的平面的扬声器输出声音信号的声道。

声道数量少的环境可以是这样的环境：不包括能够输出具有高度感的声音的声道，并且声音能通过布置在水平面上的扬声器(即，通过水平声道)输出。

此外，在下文的描述中，水平声道可能是包括能通过布置在水平面上的扬声器输出的音频信号的声道。高处声道或垂直声道可表示包括能通过布置在高处而不是布置在水平面上且能够输出具有高度感的声音的扬声器输出的音频信号的声道。

参照图1，根据实施例的3D音频再现设备100包括渲染器110和混合器120。然而，不是所有示出的组件都是必要的。3D音频再现设备100可通过比图1示出的组件更多或更少的组件来实现。

3D音频再现设备100可对多声道音频信号进行渲染和混合，并将作为结果产生的多声道音频信道输出到将被再现的声道。例如，多声道音频信号是22.2声道信号，将被再现的声道可以是5.1或7.1声道。3D音频再现设备100可通过确定将与多声道音频信号的各个声道匹配的声道来执行渲染，并可将与确定的将被再现的声道相应的各个声道的信号组合来输出最终信号，从而对经过渲染的音频信号进行混合。

渲染器110可根据声道和频率来对多声道音频信号进行渲染。渲染器110可对多声道音频信号的高处声道执行空间渲染或高度渲染(elevation rendering)，并可对多声道音频声道的水平声道执行音色渲染(timbral rendering)。

为了对高处声道进行渲染，渲染器110可根据频率范围，通过使用不同方法对已通过空间高度滤波器(例如，基于头相关传输滤波器(HRTF)的均衡器)的高处声道进行渲染。基于HRTF的均衡器通过应用在关于复杂路径(例如，从头表面的衍射和从耳部的反射)以及简单路径差(例如，两耳之间的高差和声音信号在两耳之间的到达时间差)的特征根据声音到达方向而被改变的现象中发生的音调变换，将包括在高处声道中的音频信号变换为从不同方向到达的声音的音调。基于HRTF的均衡器可通过改变多声道音频信号的音质来处理包括在高处信道中的音频信号，以使收听者能够识别3D音频。

渲染器110可通过使用添加到最接近声道(add to the closest channel)的方法，对高处声道信号之中的在第一频率范围中的信号进行渲染，并可通过使用多声道平移(multichannel panning)方法来对在第二频率范围中的剩余信号进行渲染。为了方便说明，在第一频率范围中的信号被称为低频信号，在第二频率范围中的信号被称为高频信号。更适宜地，在第二频率范围中的信号可表示2.8KHz到10KHz的信号，在第一频率范围中的信号可表示剩余信号，即，等于或低于2.8KHz的信号或者等于或高于10KHz的信号。根据多声道平移方法，针对将被渲染的不同声道不同地设置的增益值可被应用于多声道音频信号，因此多声道音频信号的每个声道信号可被渲染到至少一个水平声道。已经分别应用了增益值的声道信号可经过混合被组合，并输出为最终信号。

由于低频信号具有强的衍射特性，因此即使当多声道音频信号的每个声道信号被渲染到仅一个声道，而不是根据多声道平移方法将每个声道信号渲染到多个声道时，也可向收听者提供相似的音质。因此，根据实施例的3D音频再现设备100可通过使用添加到最接近声道的方法来对低频信号进行渲染，从而避免了当多个声道被混合到一个输出声道时音质恶化。就是说，如果多个声道被混合到一个输出声道，则音质可能根据声道信号之间的干扰而被放大或降低，导致音质的恶化。因此，通过将一个声道混合到一个输出声道可避免音质的恶化。

根据添加到最接近声道的方法，多声道音频信号的每个声道可被渲染到将被渲染的声道之中的最接近的声道，而不是被渲染到多个声道。

此外，通过使用不同的方法对具有不同频率的多声道音频信号执行渲染，3D音频再现设备100可在不降低音质的情况下使甜点(sweet spot)变宽。就是说，通过使用添加到最接近声道的方法来对具有强衍射特性的低频信号进行渲染，可避免当多个声道被混合到一个输出声道时音质的恶化。甜点可以是使收听者能够无失真地最佳地收听3D音频的预定范围。随着甜点变宽，收听者可在宽的范围中无失真地最佳地收听3D音频。当收听者不位于甜点处，收听者会听到具有失真的音质或声像的声音。

混合器120可通过将经由渲染器110平移到水平输出声道的输入声道的信号组合来输出最终信号。混合器120可以以预定区段为单位将输入声道的信号混合。例如，混合器120可以以帧为单位的将输入声道的信号混合。

根据实施例的混合器120可通过使用有源下混合(active downmixing)方法来对根据频率渲染的信号进行下混合。具体地，混合器120可通过使用有源下混合方法来对低频信号进行混合。混合器120可通过使用基于被渲染到将被再现的声道的信号的能量值确定最终信号的幅度或将被应用到最终信号的增益的能量保存(power preserving)方法，对高频信号进行混合。混合器120不仅可通过使用能量保存方法，还可通过使用除了在无需相位校准的情况下对信号进行混合的方法之外的方法来对对高频信号进行下混合。

在有源下混合方法中，在使用被合并到信号将被混合到的声道的信号之间的协方差矩阵执行下混合之前，首先对信号的相位进行校准。例如，可基于在将被下混合的信号中具有最大能量的信号对信号的相位进行校准。根据有源下混合方法，将被下混合的信号的相位被校准使得在将被下混合的信号之间可发生相长干涉，因此可避免由于在下混合期间可能发生的相消干涉而导致的音质失真。具体地讲，当具有反相位的相关声音信号被输入，并根据有源下混合方法被下混合时，可避免发生由于相消干涉而导致经过下混合的声音信号的音调改变或声音消失的现象。

在虚拟渲染中，高处声道信道通过基于HRTF的均衡器，并且3D音频信号经由多声道平移被再现。根据所述虚拟渲染，同步的声源经由环绕的扬声器被再现，因此具有高度感的3D音频被输出。具体地讲，由于经由环绕扬声器再现同步声源，相同的双声道信号可被提供，因此高处声像可被提供。

但是，当根据有源下混合方法对信号进行下混合时，信号的相位可变得不同，因此声道的信号彼此不同步，因此高度感无法被提供。例如，当在下混合期间高处声道信号彼此不同步时，由于双耳之间的声音信号的到达时间差而能够识别的高度感消失，并因此由于应用有源下混合方法会使音质恶化。

由于在两耳之间的声音信号到达时间差难以被识别，并且在低频分量中显著发生相位重叠，因此，混合器120可根据有源下混合方法对具有强衍射特征的低频信号进行混合。混合器120可根据不包括相位校准的混合方法，对具有由于在双耳之间的声音信号到达时间差而能够识别的强高度感的高频信号进行混合。例如，混合器120可通过根据能量保存方法保护由于相消干涉而被抵消的能量，对高频信号进行混合，同时使由相消干涉引起的音质恶化最小化。

此外，根据实施例，可通过在正交镜像滤波器(QMF)组中将具有特定的交叉频率或更高交叉频率的频带分量视为高频，并将剩余频带分量视为低频，对低频信号和高频信号中的每个信号执行渲染和混合。QMF可以是将输入信号划分为低频信号和高频信号并输出低频和高频的滤波器。

有源下混合可对每个频带执行有源下混合，有源下混合包括非常大量的计算，诸如将被下混合的声道之间的协方差的计算。因此，当仅低频信号经由有源下混合被混合时，计算量可被减少。例如，如果3D音频再现设备100在QMF组中，在仅对以48KHz采样的信号之中的等于或小于2.8KHz的信号和等于或大于10KHz的信号执行相位校准之后，对等于或小于2.8KHz的信号和等于或大于10KHz的信号执行下混合，并在不进行相位校准的情况下对2.8KHz到10KHz的剩余信号执行下混合，可减少约1/3的计算量。

此外，对于实际录制的声源，对于高频信号来说，声道信号与另一声道同相的概率低。因此，当高频信号经由有源下混合被混合时，可能执行不必要的计算。

参照图2，根据实施例的3D音频再现设备200包括音频分析单元210、渲染器220、混合器230和输出单元240。图2中的3D音频再现设备200、渲染器220和混合器230与图1中的3D音频再现设备100、渲染器110和混合器120相应，因此，省略对其的多余的描述。然而，所有示出的组件是非必要的。3D音频再现设备200可通过比图2中示出的组件更多或更少的组件被实现。

音频分析单元210可通过分析多声道音频信号来选择渲染模式，并可从多声道音频信号中分离并输出部分信号。音频分析单元210可包括渲染模式选择单元211和渲染信号分离单元212。

渲染模式选择单元211可以以预定区段为单位确定在多声道音频信号中是否存在许多瞬态信号(诸如掌声、雨声等)。在下文的描述中，包括许多瞬态信号(诸如掌声和雨声)的音频信号将被称为掌声信号。

根据实施例的3D音频再现设备200可从多声道音频信号中分离出掌声信号，并且根据掌声信号的特征执行声道渲染和混合。

渲染模式选择单元211可根据以帧为单位在多声道信号中是否包括掌声信号，将普通模式和掌声模式之一选为渲染模式。渲染器220可根据由渲染模式选择单元211选择的模式执行渲染。就是说，渲染器220可根据选择的模式对掌声信号进行渲染。

渲染模式选择单元211可在多声道音频信号中不包括掌声信号时选择普通模式。在普通模式下，可由空间渲染器221对高处声道信号进行渲染，可由音色渲染器222对水平声道信号进行渲染。就是说，可在不考虑掌声信号的情况下执行渲染。

渲染模式选择单元211可在多声道音频信号中包括掌声信号时选择掌声模式。在掌声模式下，可将掌声信号分离出，并可对分离出的掌声信号执行音色渲染。

渲染模式选择单元211可通过使用多声道音频信号中包括的或从其他装置单独接收的掌声比特信息，以预定区段或帧为单位，确定在多声道音频信号中是否包括掌声信号。根据基于MPEG的编解器，掌声比特信息可包括bsTsEnable和bsTempShapeEnableChannel标志信息，并且渲染模式选择单元211可根据上述的标志信息选择渲染模式。

此外，渲染模式选择单元211可基于多声道音频信号之中的期望被确定的预定区段或帧的特征，选择渲染模式。就是说，渲染模式选择单元211可根据多声道音频信号的预定区段或帧的特征是否具有包括掌声信号的音频信号的特征，选择渲染模式。

渲染模式选择单元211可基于以下条件中的至少一个条件确定在多声道信号中是否包括掌声信号：在多声道音频信号的预定区段或帧中是否存在多个输入声道中的无音调的宽带信号并且与声道相应的宽带信号是否具有相似的级别，短区段的脉冲是否重复，以及声道间的相关性是否为低。

当确定多声道音频信号的当前区段中包括掌声信号时,渲染模式选择单元211可将掌声模式选为渲染模式。

当渲染模式选择单元211选择掌声模式时，渲染信号分离单元212可从普通声音信号中分离出多声道音频信号中包括的掌声信号。

当基于MPEG USAC的bsTsEnable标志被使用时，可根据该标志信息执行音色渲染，而不管相应声道的高度，就好像水平声道信号一样。此外，高处声道信号可被假设为水平声道信号，并可根据该标志信息被下混合。就是说，渲染信号分离单元212可根据该标志信息分离出多声道音频信号中的预定区段中包括的掌声信号，并且被分离出的掌声信号可经过音色渲染，就如像水平声道信号一样。

在没有使用标志的情况下，渲染信号分离单元212可在声道之间分析信号并分离出掌声信号分量。从高处信号中分离出的掌声信号可经过音色渲染，除了掌声信号之外的信号可经过空间渲染。

渲染器220包括空间渲染器221和音色渲染器222，其中，空间渲染器221根据空间渲染方法对高处声道信号进行渲染，音色渲染器222根据音色渲染方法对水平声道信号或掌声信号进行渲染。

空间渲染器221通过根据频率使用不同方法对高处声道信号进行渲染。空间渲染器221可通过使用添加到最接近声道的方法来对低频信号进行渲染，并可通过使用音色渲染方法对高频信号进行渲染。在下文中，空间渲染方法可以是对高处信号进行渲染的方法，并可包括多声道平移方法。

音色渲染器222可通过使用从音色渲染方法、添加到最接近声道的方法、能量提升方法中选择的至少一种方法来对水平声道信号或掌声信号进行渲染。在下文中，音色渲染方法可以是对水平声道信号进行渲染的方法，并且可包括下混合方程或矢量基础幅度平移(VBAP)方法。

混合器230可以以声道为单位计算经过渲染的信号并输出最终信号。根据实施例的混合器230可根据有源下混合方法对根据频率渲染的信号进行混合。因此，根据实施例的3D音频再现设备200可通过根据在相位校准之后执行下混合的有源下混合方法对低频信号进行混合，来减少音调失真。音调失真可由相消干涉引起。3D音频再现设备200可根据在不执行相位校准的情况下执行下混合的方法(例如，能量保存方法)，对除了低频信号以外的高频信号进行混合，从而防止高度感由于有源下混合方法的应用而恶化。

输出单元240可经由扬声器最终输出由混合器230输出的混合后的信号。此时，输出单元240可通过根据混合后的信号的声道，经由不同的扬声器输出声音信号。

图3是根据实施例的空间渲染器301和混合器302的框图。图3中的空间渲染器301和混合器302与图2中的空间渲染器221和混合器230相同，因此省略对其的多余描述。然而，所有示出的组件不是必须的。空间渲染器301和混合器302可通过比图3中示出的组件更多或更少的组合来实现。

参照图3，空间渲染器301可包括HRTF变换滤波器310、低通滤波器(LPF)320、高通滤波器(HPF)330、添加到最接近声道平移单元340和多声道平移单元350。

HRTF变换滤波器310可对包括在多声道音频信号中的高处声道信号执行基于HRTF的均衡。

LPF 320可从经过基于HRTF的均衡的高处声道信号中分离出特定频率范围内的分量，例如，等于或低于2.8KHz的低频分量。

HPF 330可从经过基于HRTF的均衡的高处声道信号中分离出等于或高于2.8KHz的高频分量。

不同于LPF 320和HPF 330，带通滤波器可将2.8KHz到10KHz的频率分量分类为高频分量，并将其余频率分量分类为低频分量。

当高处声道被投射到水平面上时，添加到最接近声道平移单元340可将高处声道信号中的低频分量渲染到最接近的声道。

多声道平移单元350可根据多声道平移方法对高处声道信号的高频分量进行渲染。

参照图3，混合器302包括有源下混合模块360和能量保存模块370。

有源下混合模块360可根据有源下混合方法，对由添加到最接近声道平移单元340渲染的高处声道信号的低频分量进行混合。有源下混合模块360可根据对针对每个声道组合的信号的相位进行校准的有源下混合方法，对低频分量进行混合，从而引起相长干涉。

能量保存模块370可根据能量保存方法，对由多声道平移单元350渲染的高处声道信号的高频分量进行混合。能量保存模块370可根据基于被分别渲染到声道的信号的能量值确定最终信号的幅度或将被应用到最终信号的增益的能量保存方法，对高频分量进行混合。根据实施例，能量保存模块370可根据上述的能量保存方法对高频分量信号进行混合，但本发明并不限于本实施例。能量保存模块370可根据另一种无需相位校准的方法来对高频分量信号进行混合。

混合器302可将由有源下混合模块360和能量保存模块370获得的混合后的信号组合，以输出混合后的3D声音信号。

现在将参照图4和图5详细描述根据实施例的3D音频再现方法。

图4和图5是根据实施例的3D音频再现方法的流程图。

参照图4，在操作S401，3D音频再现设备100可获得期望被再现的多声道音频信号。

在操作S403，3D音频再现设备100可对每个声道执行渲染。根据实施例，3D音频再现设备100可根据频率执行渲染，但本发明不限于该实施例。3D音频再现设备100可根据各种方法执行渲染。

在操作S405，3D音频再现设备100可基于有源下混合方法，对在操作S403获得的根据频率渲染的信号进行混合。详细地说，3D音频再现设备100可在对包括低频分量的第一频率范围执行相位校准之后，对包括低频分量的第一频率范围执行下混合，并可在不执行相位校准的情况下对包括高频分量的第二频率范围执行下混合。例如，3D音频再现设备100可根据通过应用根据针对声道分别渲染的信号的能量值确定的增益来执行混合使得由于相消干涉而抵消的能量可被保存的能量保存方法，对高频分量进行混合。

因此，根据实施例的3D音频再现设备100可通过将有源下混合方法应用到特定的频率范围(例如，2.8KHz到10KHz)中的高频分量，可使可能发生的高度感下降最小化。

图5是图4中的3D音频再现方法中包括的针对每个频率进行渲染和混合的流程图。

参照图5，在操作S501，3D音频再现设备100可获得将被再现的多声道音频信号。当多声道音频信号包括掌声信号时，3D音频再现设备100可从多声道音频信号中分离出掌声信号，并根据掌声信号的特征执行声道渲染和混合。

在操作S503，3D音频再现设备100可从在操作S501获得的多声道音频信号中分离出高处声道信号和水平声道信号，并可对高处声道信号和水平声道信号中的每个声道信号执行渲染和混合。换句话说，3D音频再现设备100可对在高处声道信号执行空间渲染和混合，并对水平声道信号执行音色渲染和混合。

在操作S505，3D音频再现设备100可通过使用HRTF变换滤波器对高处声道信号进行滤波，从而可提供高度感。

在操作S507，3D音频再现设备100可将高处声道信号分为高频分量的信号和低频分量的信号，并对高频分量的信号和低频分量的信号执行混合和渲染。

在操作S509和S511，3D音频再现设备100可根据空间渲染方法对高处声道信号的高频信号进行渲染。空间渲染方法可包括多声道平移方法。多声道平移可指多声道音频信号的声道信号被分配到将被再现的声道。在这种情况下，已经应用了平移系数的声道信号可被分配到将被再现的声道。高频分量信号可被分配到环绕声道，从而提供双耳强度差(ILD)随着高度感增加而减小的特征。声音信号可通过前声道和将被平移的多个声道的数量而被定位。

在操作S513，3D音频再现设备100可根据除了有源下混合方法以外的方法，对在操作S511获得的经过渲染的高频信号进行混合。例如，3D音频再现设备100可通过使用能量保存模块来对经过渲染的高频信号进行混合。

在操作S515，3D音频再现设备100可根据上述的添加到最接近声道的平移方法，对高处声道信号的低频信号进行渲染。当多个信号(即，多声道音频信号中的若干声道信号)被混合到单个声道时，音质由于这若干声道信号和单个声道的相位之间的差异被消除或者放大，导致音质恶化。根据添加到最接近声道的平移方法，当低频信号被投射到每个声道水平面上时，3D音频再现设备100可将低频信号与最接近的声道映射，从而防止音质恶化。

当多声道音频信号是频率信号或滤波器组信号时，与低频相应的频段(bin)或频带(band)可根据添加到最接近声道平移方法而被渲染，与高频相应的频段或频带可根据多声道平移方法而被渲染。频段或频带可表示在频域中与预定单位相应的信号部分。

在操作S521，3D音频再现设备100可根据能量保存方法，对在操作S519获得的经过渲染的水平声道信号进行混合。

在操作S523，3D音频再现设备100可对高处声道信号和水平声道信号进行混合以输出混合后的最终信号。

图6是示出根据实施例的有源下混合方法的示例的曲线图。

当信号610和信号620被混合时，这两个信号610和620彼此不同相，因此两者间可能发生相消干涉，导致音质的失真。因此，根据有源下混合方法，具有相对小能量的信号610的相位与信号620的相位对准，相位被校准的信号610和620可被混合。参照混合后的信号630，由于信号610的相位后移，可能发生相长干涉。

图7是根据另一实施例的3D音频再现设备的结构框图。图7中的3D音频再现设备大致可包括核心解码器710和格式转换器730。

参照图1，核心解码器710对比特流进行解码以输出具有多个输入声道的音频信号。根据实施例，核心解码器710根据语音和音频统一编码(USAC)算法进行操作，但是本发明不限于此。在这种情况下，核心解码器110可输出例如具有22.2声道格式的音频信号。核心解码器710可通过对下混合后的信号或比特流中包括的立体声声道进行上混合，输出例如具有22.2声道格式的音频信号。根据再现环境，声道可以指扬声器。

格式转换器730被包括以对声道的格式进行转换，并可使用下混合器还实现，其中，下混合器将接收到的具有多个输入声道的声道结构转换为到具有期望的再现格式的多个输出声道。输出声道的数量少于输入声道的数量。多个输入声道可包括多个水平声道和至少一个具有高度的垂直声道。每个垂直声道可以是能通过位于收听者的头顶上方的扬声器输出声音信号的声道，从而使收听者能够感受到高度。每个水平声道可以是能通过与收听者处于同一水平面的扬声器输出声音信号的声道。多个输出声道可仅包括水平声道。

格式转换器730可根据再现布局，将从核心解码器710接收到的具有22.2声道格式的输入声道转换为具有5.0或5.1声道格式的输出声道。输入声道或输出声道可具有各种格式。格式转换器730可基于信号特征，根据渲染类型，使用不同的下混合矩阵。也就是说，下混合器可对子带域(例如，QMF域)内的信号执行自适应的下混合处理。根据另一实施例，当再现布局仅包括水平声道时，格式转换器730可通过对输入声道执行垂直渲染来提供具有高度的高处声像。高处声像可被提供给环绕声道扬声器，但本发明不限于此。

格式转换器730可根据不同类型的声道，对多个输入声道执行不同类型的渲染。不同的基于HRTF的均衡器可根据作为垂直声道(即，高处声道)的输入声道的类型而被使用。根据作为垂直声道(即，高处声道)的输入声道的类型，相同的平移系数可被应用到所有的频率，或不同的平移系数可被应用到不同的频率范围。

具体地，可使用添加到最接近声道的平移方法来对输入声道之中的特定垂直声道(例如，诸如等于或低于2.8KHz的低频信号或者等于或高于10KHz的高频信号的第一频率范围信号)进行渲染，而可使用多声道平移方法对2.8KHz到10KHz的第二频率范围信号进行渲染。根据添加到最接近声道的平移方法，输入声道可被平移到多个输出声道中的最接近的信号输出声道，而不是被渲染到几个声道。根据多声道平移方法，可通过使用针对将被渲染的不同输出声道而设置的不同增益，将每个输入声道平移到至少一个水平声道。

当多个输入声道包括N个垂直声道和M个水平声道时，格式转换器730可将N个垂直声道中的每个垂直声道渲染到多个输出声道，将M个水平声道中的每个水平声道渲染到多个输出声道，并可对渲染结果进行混合以产生与再现布局相应的多个最终输出声道。

图8是根据实施例音频渲染设备的框图。参照图8，音频渲染设备包括第一渲染器810和第二渲染器830。第一渲染器810和第二渲染器830可基于渲染类型进行操作。渲染器类型可由编码器端基于音频场景来确定，并可以以标志的形式被传输。根据实施例，可基于带宽以及音频信号的相关度来确定。例如，在一帧内的音频场景具有宽带和高去相关特性的情况和其他情况下，可区分渲染类型。

参照图8，在音频场景具有宽带并在帧内去相关性很高的情况下，第一渲染器810可通过使用第一下混合矩阵执行音色渲染。音色渲染可被应用到瞬态信号，如掌声或雨声。

在不应用音色渲染的其他情况下，第二渲染器830可通过使用第二下混合矩阵执行高度渲染或空间渲染，从而将具有高度感的声像提供给多个输出声道。

第一渲染器810和第二渲染器830可针对在初始化阶段中给出的输入声道格式和输出声道格式产生下混合参数，即，下混合矩阵。为此，可使用用于从预先设定的转换规则列表中选择最合适于每个输入声道的映射规则的算法。每个规则与将一个输入声道到至少一个输出声道的映射相关。输入声道可与单个信号输出声道映射，可与两个输出声道映射，可与多个输出声道映射，或者可与根据频率而具有不同平移系数的多个输出声道映射。

可根据构成期望的再现布局的输出声道选择每个输入声道的最佳映射。作为映射的结果，下混合增益连同被应用到每个输入声道的均衡器可被定义。

图9是根据另一实施例的音频渲染设备的框图。参照图9，音频渲染设备可大致包括滤波器910、相位校准单元930和下混合器950。图9中的音频渲染设备可独立地操作，或可被包括在图7的格式转换器730中或图8的第二渲染器830中。

参照图9，滤波器910可用作带通滤波器以从在解码器输出中的垂直输入声道信号中滤波出特定频率范围的信号。根据实施例，滤波器910可从剩余的频率分量中区分出2.8KHz到10KHz的频率分量。2.8KHz到10KHz的频率分量可在无改变的情况下被提供给下混合器950，剩余的频率分量可被提供给相位调整单元930。在水平输入声道的情况下，由于在所有频率范围内的频率分量经过相位调整，滤波器910可能不是必须的。

相位校准单元930可对除了2.8KHz到10KHz以外的频率范围内的频率分量执行相位校准。经过相位校准的频率分量(即，等于或低于2.8KHz或者等于或高于10KHz的频率分量)可被提供给下混合器950。

下混合器950可针对从滤波器910或相位校准单元930接收的频率分量执行下混合。

图10是根据实施例的音频渲染方法的流程图，并可与图9中的音频渲染设备相应。

参照图10，在操作S1010，音频渲染设备可接收多声道音频信号。详细地说，在操作S1010，音频渲染设备可接收多声道音频信号中包括的高处声道信号(即，垂直声道信号)。

在操作S1030，音频渲染设备可根据预定的频率范围确定下混合方法。

在操作S1050，音频渲染设备可在对高处声道信号的分量中的除了预设频率范围之外的频率范围的分量执行相位校准之后，对该分量执行下混合。

在操作S1070，音频渲染设备可在不执行相位校准的情况下，对高处声道信号的分量中的预设频率范围的分量执行下混合。

图11是根据另一实施例的音频渲染方法的流程图，并可与图8中的音频渲染设备相应。

参照图11，在操作S1110，音频渲染设备可接收多声道音频信号。

在操作S1130，音频渲染设备可检查渲染类型。

在操作S1150，当渲染类型是音色渲染时，音频渲染设备可通过使用第一下混合矩阵执行下混合。

在操作S1170，当渲染类型是空间渲染时，音频渲染设备可通过使用第二下混合矩阵执行下混合。用于空间渲染的第二下混合矩阵包括空间高度滤波器系数和多声道平移系数。

上述的实施例是本发明的组件和特征在预定的形式上的组合。除非明确地描述，否则每个组件和特征可被认为是可选择的。每个组件和特征可在无需与其他组件或特性组合的情况下被实现。一些组件和/或特征可以彼此组合以构成实施例。实施例中描述的操作的顺序可以被改变。在一个实施例中的一些组件或特征可被包括在另一个实施例中，或可被另一个实施例中的相应组件或特征替换。因此，显然，没有明确地指定相互的关系的权利要求可被组合以构成实施例，或可在提交申请之后经过修改作为新的权利要求而被包括。

实施例可通过各种手段(例如，硬件、固件、软件或者它们的组合)被实施。当实施例通过硬件实施时，实施例可通过至少一个专用集成电路(ASIC)、至少一个数字信号处理器(DSP)、至少一个数字信号处理装置(DSPD)、至少一个可编程逻辑装置(PLD)、至少一个现场可编程门阵列(FPGA)、至少一个处理器、至少一个控制器、至少一个微控制器或至少一个微处理器被实施。

当实施例通过固件或软件被实施时，该实施例能够通过使用模块、程序、函数等等被写成计算机程序来执行上述的功能和操作，并能在使用计算机可读记录介质执行程序的通用数字计算机中被实施。在上述实施例中可使用的数据结构、程序命令或数据文件可通过若干方法被记录在计算机可读记录介质中。计算机可读记录介质是可存储由计算机系统随后读取的数据并可位于处理器内部或外部的任何类型的存储装置。计算机可读记录介质的示例可包括磁介质、磁光介质和专门被配置为存储并执行程序命令的硬件装置(诸如，只读存储器(ROM)、随机存取存储器(RAM)或闪存。计算机可读记录介质也可以是传输指定程序命令、数据结构等等的信号的传输介质。程序命令的示例可包括可由计算机通过使用注释器等执行的高级语言代码以及由编译器产生的机器语言代码。此外，这里描述的实施例能够使用用于电子配置、信号处理和/或控制、数据处理等等的任何数量的常规技术。词语“机制”、“元件”、“手段”、“配置”被广泛使用，并不局限于机械或物理的实施例，而是可包括与处理器结合的软件例程等。

在此示出和描述的具体实施是说明性的示例，不意图以任何形式限制本发明的范围。为简明起见，传统的电子产品、控制系统、软件开发和本系统的其他功能方面可能没有被详细的描述。此外，在呈现的各图中示出的连接线或连接器旨在表示各个元件之间的示例性功能关系和/或物理或逻辑的耦合。应该指出的是，许多替代的或额外的功能关系、物理连接或逻辑连接可以存在于一个实用设备中。

在描述本发明的上下文中(特别是在权利要求的上下文中)对术语“一”和“一个”和“该”和类似指示物的使用被解释为包括单数和复数。此外，除非另有说明，否则文中值的范围的详述仅仅旨在用作单独地将每个单独的值指定为落入该范围内的速记方法，每个单独的值被结合到说明书中，就好像它在此被单独的列举。另外，本文所描述的所有的方法的步骤可以以任何合适的顺序被执行，除非在此另有说明或与上下文明显矛盾。本发明不局限于这些步骤的描述顺序。对于任何或所有的示例或在此提供的示例性语言(例如，“诸如”)仅仅是为了更好地说明本发明构思，除非另有声明，否则不对发明构思的范围构成限制。不脱离本发明的精神和范围的众多修改和调整对于本领域的普通技术人员来说将明显。

Claims

1.一种渲染音频信号的方法，所述方法包括：

接收多个输入声道信号；

基于所述多个输入声道信号产生用于相位校准的参数；

基于用于相位校准的参数修改用于对所述多个输入声道信号的第一频率范围进行相位校准的下混合矩阵；

基于修改后的下混合矩阵将所述多个输入声道信号下混合为多个输出声道信号，

其中，所述多个输入声道信号包括高度输入声道信号，

其中，第一频率范围包括低于2.8kHz和高于10kHz，

其中，所述多个输出声道信号的布局包括5.0或5.1声道输出布局，

其中，基于高度感信息识别高度输入声道信号，

其中，修改后的下混合矩阵包括基于头相关传输滤波器的高度感渲染参数，其中，基于头相关传输滤波器的高度感渲染参数用于使用所述多个输出声道信号的布局提供高处声像。

2.如权利要求1所述的方法，还包括：

基于针对所述多个输入声道信号的标志确定所述下混合矩阵。