CN113038355A

CN113038355A - 用于渲染声信号的方法和设备，以及计算机可读记录介质

Info

Publication number: CN113038355A
Application number: CN202110273856.6A
Authority: CN
Inventors: 田相培; 金善民; 赵炫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-03-24
Filing date: 2015-03-24
Publication date: 2021-06-25
Anticipated expiration: 2035-03-24
Also published as: AU2015234454A1; EP3125240A4; WO2015147530A1; WO2015147532A3; RU2018101706A; CA2943670C; KR102574480B1; BR112016022042A2; EP3125240A1; US20180184227A1; CA2943670A1; WO2015147533A3; US20220322026A1; MX2016012543A; JP2019033506A; CN106463124A; KR20220129104A; EP3832645A1; JP6674902B2; CA3188561A1

Abstract

在将多声道信号诸如22.2声道信号渲染为5.1声道信号的情况下，可以使用二维(2D)输出声道来再现三维(3D)音频信号，但是已渲染的音频信号敏感地受扬声器布局的影响并且当所布置扬声器的布局不同于标准布局时可导致声像失真。本发明可以解决本文提到的现有技术的问题。根据本发明的一个实施方案，用于即使在所布置扬声器的布局不同于标准布局时减少声像失真的音频信号渲染方法包括：接收包括待转换成多个输出声道的多个输入声道的多声道信号；根据扬声器的位置和与多个输出声道中的每一个相对应的标准位置来获取关于至少一个输出声道的偏差信息；以及基于所获取的偏差信息，修改从包括在多个输入声道中的高度声道到具有偏差信息的输出声道的平移增益。

Description

用于渲染声信号的方法和设备，以及计算机可读记录介质

技术领域

本发明的概念涉及一种用于渲染音频信号的方法和设备，并且更具体地，涉及一种用于通过当输出声道的标准布局与布置布局之间存在未对准时修改平移(panning)增益或滤波器系数来更准确地再现声像的位置和音色的渲染方法和设备。

背景技术

立体声指代添加有空间信息的声音，其能够再现声音的方向或距离以及声音的音高和音色，从而允许听众有一种身临其境的感觉，并且使得不在声源出现的空间中的听众体验方向、距离和空间感知。

当声道信号诸如22.2声道被渲染为5.1声道时，可以使用二维(2D)输出声道来再现三维(3D)立体声，但是已渲染的音频信号对于扬声器的布局非常敏感以致于在扬声器的布置布局不同于标准布局的情况下可能会发生声像失真。

本发内容

[技术问题]

如上所述，当声道信号诸如22.2声道被渲染为5.1声道时，可以使用二维(2D)输出声道来再现三维(3D)立体声，但是已渲染的音频信号对于扬声器的布局非常敏感以致于在扬声器的布置布局不同于标准布局的情况下可能会发生声像失真。

为了解决现有技术的问题，本发明的概念提供了即使在所安装的扬声器的布局不同于标准布局时声像失真的减少。

[技术方案]

为了实现目标，本发明包括以下实施方案。

一种音频信号渲染方法包括：接收包括多个输入声道的多声道信号，所述多个输入声道待转换成多个输出声道；根据与多个输出声道中的每一个相对应的扬声器的位置和标准位置来获取关于至少一个输出声道的偏差信息；以及基于所获取的偏差信息，修改从包括在多个输入声道中的高度声道到具有偏差信息的输出声道的平移增益。

[有益效果]

根据本发明的概念，可以对音频信号进行渲染以便即使在所安装的扬声器的布局不同于标准布局或声像的位置已经改变的情况下减少声像失真。

附图说明

图1是示出根据一个实施方案的立体声再现设备的内部结构的框图；

图2是根据所述实施方案的立体声再现设备中的渲染器的框图；

图3是根据一个实施方案的在多个输入声道向下混合到多个输出声道的情况下声道布局的图解；

图4是根据一个实施方案的在输出声道的标准布局与布置布局之间发生位置偏差的情况下平移单元的图解；

图5是示出根据一个实施方案的在输出声道的标准布局与布置布局之间存在高度偏差的情况下的平移单元的配置的图解；

图6a和图6b是示出当从左声道信号和右声道信号来渲染中央声道信号时根据输出声道的布置布局的声像位置的图解；

图7a和图7b是示出在输出声道中存在高度偏差的情况下根据一个实施方案的通过校正高度效应实现的声像位置定位的图解；

图8是示出根据一个实施方案的渲染立体声音频信号的方法的流程图；

图9是示出根据一个实施方案的，当从左声道信号和右声道信号来渲染中央声道信号时，对于每个声道，高度偏差对平移增益的图解；

图10是示出根据扬声器之间的位置偏差的、各位置处的音调频谱的图解；

图11是示出根据一个实施方案的渲染立体声音频信号的方法的流程图；

图12a和图12b是用于示出根据一个实施方案的设计音质校正滤波器的方法的图解；

图13a和图13b是示出在用于3D虚拟渲染的输出声道与虚拟声源之间存在高度偏差的示例的图解；

图14是用于示出根据一个实施方案的通过使用L/R/LS/RS声道来虚拟渲染TFC声道的方法的图解；并且

图15是根据一个实施方案的用于通过使用5.1输出声道来处理虚拟渲染中的偏差的渲染器的框图。

具体实施方式

[最佳实施例]

为了实现目标，本发明包括以下实施方案。

根据实施方案，提供了一种音频信号渲染方法，所述方法包括：接收包括待转换成多个输出声道的多个输入声道的多声道信号；根据与多个输出声道中的每一个相对应的扬声器的位置和标准位置来获取关于至少一个输出声道的偏差信息；以及基于所获取的偏差信息，修改从包括在多个输入声道中的高度声道到具有偏差信息的输出声道的平移增益。

多个输出声道可以是水平声道。

具有偏差信息的输出声道可包括左水平声道和右水平声道中的至少一个。

偏差信息可包括方位偏差和高度偏差中的至少一个。

当所获取的偏差信息包括高度偏差时，修改平移增益可以修改由高度偏差引起的效应。

当所获取的偏差信息不包括高度偏差时，修改平移增益可以通过二维(2D)平移方法来校正平移增益。

校正由高度偏差引起的效应可包括校正由高度偏差导致的耳间声级差(ILD)。

校正由高度偏差引起的效应可包括与所获取的高度偏差成比例地修改与所获取的高度偏差相对应的输出声道的平移增益。

相对于左水平声道和右水平声道的平移增益平方值的和可以是1。

根据实施方案，提供了一种用于渲染音频信号的设备，所述设备包括：接收器，被配置成接收包括待转换成多个输出声道的多个输入声道的多声道信号；获取单元，被配置成根据与多个输出声道中的每一个相对应的扬声器的位置和标准位置来获取关于至少一个输出声道的偏差信息；以及平移增益修改器，被配置成基于所获取的偏差信息，修改从包括在多个输入声道中的高度声道到具有偏差信息的输出声道的平移增益。

多个输出声道可以是水平声道。

偏差信息可包括方位偏差和高度偏差中的至少一个。

当所获取的偏差信息包括高度偏差时，平移增益修改器可以校正由高度偏差引起的效应。

当所获取的偏差信息不包括高度偏差时，平移增益修改器可以通过二维(2D)平移方法来修改平移增益。

平移增益修改器可以校正由高度偏差导致的耳间声级差以便校正由高度偏差引起的效应。

平移增益修改器可以与所获取的高度偏差成比例地修改与高度偏差相对应的输出声道的平移增益，以便校正由所获取的高度偏差引起的效应。

根据实施方案，提供了一种具有记录在其上用于执行上述方法的计算机程序的计算机可读记录介质。

此外，提供了另一方法、另一系统以及一种具有记录在其上用于执行所述方法的计算机程序的计算机可读记录介质。

[发明概念的实施例]

参考示出本发明具体实施方案的附图来对本发明进行详细的描述。提供这些实施方案以使得本公开将是全面和完整的，并且将向本领域普通技术人员充分传达本发明的概念。应当理解，本发明的各种实施方案是彼此不同的并且不是互相排斥的。

例如，在不脱离本发明的精神和范围的情况下，本说明书中所描述的具体形状、具体结构和具体特征可以从一个实施方案到另一个实施方案发生改变。另外，应当理解的是，在不脱离本发明的精神和范围的情况下，每个实施方案中的每个元件的位置或布局可以发生改变。因此，详细描述应当仅在描述性意义上进行考虑而不是出于限制的目的，并且本发明的范围不是由本发明的详细描述限定而是由所附权利要求书限定，并且在所述范围内的所有差异都将被解释为包括在本发明中。

贯穿本说明书，附图中的相似的附图标记指代相似或类似的元件。在以下描述和附图中，不再详细描述众所周知的功能或构造，因为它们会用不必要的细节模糊本发明。另外，贯穿本说明书，附图中的相似的附图标记指代相似或类似的元件。

在下文中，将参考附图通过解释本发明的示例性实施方案来详细描述本发明。然而，本发明可以以许多不同的形式来实施，并且不应当解释为限制于此处阐明的实施方案；相反，提供这些实施方案以使得本公开将是全面和完整的，并且将向本领域普通技术人员充分传达本发明的概念。

贯穿本说明书，当一个元件被称为“连接到”另一个元件或“与”另一个元件“联接”时，其可以是“直接连接到”另一个元件“或与”另一个元件“直接联接”，或者其可以是通过具有插入在其间的介入元件“电连接到”另一个元件“或与”另一个元件“电联接”。另外，当一个部分“包括(includes)”或“包括(comprises)”一个元件时，除非有与其相反的具体描述，否则所述部分还可包括其他元件，并不排除其他元件。

在下文中，以下将会参考附图来详细描述本发明的概念。

图1是示出根据一个实施方案的立体声再现设备的内部结构的框图。

根据一个实施方案的立体声再现设备100可以输出多声道音频信号，其中多个输入声道被混合到多个输出声道以便进行再现。此处，当输出声道的数目小于输入声道的数目时，根据输出声道的数目对输入声道进行向下混合。

立体声指代添加有空间信息的声音，从而通过再现声音的方向或距离感以及声音的高度和音色来允许听众有一种身临其境的感觉，以使得即使不在声源出现的空间中的听众也可以体验方向、距离和空间感知。

在以下描述中，音频信号的输出声道可指代输出声音的扬声器的数目。输出声道越多，从其输出声音的扬声器的数目越多。根据实施方案的立体声再现设备100可以将多声道音频输入信号渲染并混合到将再现声音的输出声道，以使得来自大量输入声道的多声道音频信号可以在提供较小数目的输出声道的环境中输出和再现。此处，多声道音频信号可包括能够输出升高的声音的声道。

能够输出升高的声音的声道可指代能够通过定位于听众头部上方的扬声器来输出音频信号以使得听众可体验升高感的声道。水平声道可指代能够通过定位在相对于听众的水平面上的扬声器来输出音频信号的声道。

上述提供较小数目的输出声道的环境可指代可通过设置在水平面上的扬声器而不使用能够输出升高的声音的输出声道来输出声音的环境。

此外，在以下描述中，水平声道可指代包括可通过设置在水平面上的扬声器而输出的音频信号的声道。头顶上(overhead)声道可指代包括可通过设置在升高位置上而不是水平面上以便输出升高的声音的扬声器而输出的音频信号的声道。

参考图1，立体声再现设备100可包括音频核心110、渲染器120、混合器130和后处理器140。

根据实施方案的立体声再现设备100可以将多声道输入音频信号进行渲染、混合并输出到输出声道以便进行再现。例如，多声道输入音频信号可以是22.2声道信号，并且用于再现的输出声道可以是5.1或7.1声道。立体声再现设备100通过指定与多声道输入音频信号的声道相对应的输出声道来执行渲染，并且通过对声道(所述声道分别与用于再现的声道相对应)的信号进行混合来执行对已渲染音频信号的混合，并且输出最终信号。

编码的音频信号以比特流的格式输入到音频核心110，并且音频核心110在选择适合于音频信号的编码格式的解码工具之后对输入的音频信号进行解码。

渲染器120可根据声道和频率将多声道输入音频信号渲染到多声道输出声道。渲染器120可根据头顶上声道和水平声道来对多声道音频信号执行三维(3D)渲染和二维(2D)渲染。稍后将参考图2对渲染器的配置和详细的渲染方法进行更详细地描述。

混合器130可以对与通过渲染器120实现的水平声道相对应的声道的信号进行混合，并且输出最终信号。混合器130可以根据每个预定的片段来混合相应声道的信号。例如，混合器130可以通过一个帧单元来混合相应声道的信号。

根据实施方案的混合器130可基于被渲染到用于再现的相应声道的信号的功率值来执行所述混合。也就是说，混合器130可基于被渲染到用于再现的相应声道的信号的功率值来确定最终信号的幅值或施加到最终信号的增益。

后处理器140执行对关于多带信号的动态范围的控制并且对混合器130的输出信号执行双耳化(binaurlaizing)以便适合于相应的再现设备(扬声器、耳机等)。从后处理器140输出的输出音频信号是通过诸如扬声器的装置输出的，并且该输出音频信号可根据每个元素执行的过程而以2D或3D方式再现。

根据实施方案的参考图1所示出的立体声再现设备100是基于音频解码器的配置示出的，并且省略了其他额外的配置。

图2是示出根据一个实施方案的立体声再现设备的配置之中的渲染器的配置的框图。

渲染器120包括滤波单元121和平移单元123。

滤波单元121根据位置来补偿解码的音频信号的音调或类似特征，并且可以通过使用头相关传递函数(HRTF)滤波器来对输入音频信号执行滤波。

滤波单元121可以根据头顶上声道的频率以不同方式来渲染已经穿过HRTF滤波器的头顶上声道，以便对头顶上声道执行3D渲染。

HRTF滤波器可允许根据以下现象来识别立体声：在所述现象中，复杂路径的特性诸如头部表面上的衍射、由耳廓造成的反射等根据声音的传递方向、以及各路径之间的简单差(诸如在声音到达两个耳朵时发生的耳间声级差(ILD)和耳间时间差(ITD)等)而改变。HRTF滤波器可以处理包括在头顶上声道中的音频信号，也就是说，通过改变音频信号的音质以使得可以识别出立体声。

平移单元123计算并且施加待施加到每个频带和每个声道的平移系数，以便使输入音频信号相对于每个输出声道平移。音频信号的平移指代控制施加到每个输出声道的信号的幅值，以便在两个输出声道之间的特定位置处渲染声音源。

平移单元123可以根据添加到最接近声道的方法来渲染头顶上声道信号之中的低频信号，并且可以根据多声道平移方法来渲染高频信号。根据多声道平移方法，将增益值施加到多声道音频信号的每个声道的信号，以使得每个信号都可以被渲染到至少一个水平声道，所述增益值被设定为在待渲染到每个声道信号的声道中不同。待施加增益值的每个声道的信号可通过混合来合成并且可以输出为最终信号。

由于低频信号具有高衍射性质，即使多声道音频信号中的每个声道仅被渲染到一个声道，而不是根据多声道平移方法被渲染到各个声道，听众仍可以感觉彼此类似的音质。因此，根据实施方案的立体声再现设备100可根据添加到最接近声道的方法来渲染低频信号，并且因此可以防止在各个声道混合到一个输出声道时可能发生的音质退化。也就是说，如果各个声道混合到一个输出声道，则音质可由于声道信号之间的干扰而放大或减小并因此退化，并且因此可通过将一个声道混合到一个输出声道来防止音质退化。

根据添加到最接近声道的方法，代替被渲染到各个声道，多声道音频信号的每个声道可以被渲染到多个声道之中的最接近声道以便进行再现。

另外，立体声再现设备100执行与频率不同的渲染操作，从而增大最佳听音场所(sweet spot)而不降低音质。也就是说，根据添加到最接近声道的方法来渲染具有高衍射性质的低频信号，以防止在各个声道混合到一个输出声道时可能发生的音质退化。最佳听音场所指代听众可最佳地收听未失真的立体声的预定范围。

当最佳听音场所增大时，听众可最佳地收听大范围内未失真的立体声。此外，如果听众不在最佳听音场所内，则听众可以收听到声音，所述声音的音质或声像已经失真。

图3是根据一个实施方案的在多个输入声道向下混合到多个输出声道的情况下声道布局的图解。

已经开发了用于使立体声具有立体像的技术，以便向用户提供与现实相等或更夸张的真实性和身临其境的感觉。立体声指代一种音频信号本身具有声音高度和空间性，并且为了再现立体声，至少两个或更多个扬声器(即，输出声道)是必要的。另外，大量的输出声道是必要的，以便准确地再现声音的高度感、距离感和空间感，除了使用HRTF的双耳立体声。

因此，除了具有两个输出声道的立体声系统之外，已经建议并开发了各种多声道系统诸如5.1声道系统、Auro 3D系统、Holman 10.2声道系统、ETRI/Samsung 10.2声道系统、NHK 22.2声道系统等。

图3是示出通过5.1声道输出系统来再现22.2声道的立体声音频信号的示例的图解。

5.1声道系统是5声道环绕多声道声音系统的通用名称，并且已经广泛地分布并用作家庭中的家庭剧院和用于剧院的声音系统。各种类型的5.1声道包括前左(FL)声道、中央(C)声道、前右(FR)声道、环绕左(SL)声道和环绕右(SR)声道。如图3所示，由于5.1声道系统的输出声道被放置在同一水平面上，5.1声道系统物理地对应于2D系统。为了使5.1声道系统再现立体声音频信号，必须执行用于向待再现的信号赋予3D效果的渲染过程。

5.1声道系统广泛地用于各种领域中，诸如数字多功能光盘(DVD)视频、DVD声音、超级音频光盘(SACD)或数字广播，以及电影中。然而，尽管与立体声系统相比5.1声道系统提供改进的空间性，但是在形成更宽收听空间方面存在许多限制。具体地，5.1声道系统形成窄的最佳听音场所并且不提供具有仰角的垂直声像，并且因此，5.1声道系统不适合于宽的收听空间，例如剧院。

NHK建议的22.2声道系统包括三层输出声道。上层包括上帝之音(VOG)、T0、T180、TL45、TL90、TL135、TR45、TR90和TR45声道。此处，就每个声道而言，索引T指代上层，索引L和R分别指代左和右，并且后部的数字指代距离中央声道的方位角。

中间层与5.1声道在同一平面上，并且除5.1声道的输出声道之外还包括ML60、ML90、ML135、MR60、MR90和MR135声道。此处，就每个声道而言，前部的索引M意味着中间层，并且后部的数字指代距离中央声道的方位角。

下层包括L0、LL45和LR45声道。此处，在每个声道的名称的前部的索引L指代下层，并且后部的数字指代距离中央声道的方位角。

在22.2声道中，中间层被称为水平声道，并且具有0°或180°的方位角的VOG、T0、T180、T180、M180、L和C声道被称为垂直声道。

当通过5.1声道系统再现22.2声道输入信号时，最常规的方案是通过使用向下混合准则将信号分布到多个声道。另外，可以通过执行渲染以提供虚拟高度来经由5.1声道系统再现具有高度的音频信号。

图4示出根据一个实施方案的在输出声道的标准布局与布置布局之间发生位置偏差的情况下的平移单元。

当通过使用其数目小于输入信号的声道数目的输出声道来再现多声道输入音频信号时，原声场可能失真，并且为了补偿所述失真，正在研究各种技术。

常规的渲染技术被认为是基于根据标准布局对扬声器(即，输出声道)进行布置的情况来执行渲染的。然而，当输出声道并未布置成与标准布局准确地匹配时，发生声像位置失真和音调失真。

声像失真广义上包括在相对低的水平下不能敏感地感觉到的高度失真和相位角失真。然而，由于人体的物理特性，其中两只耳朵位于左侧和右侧，如果左侧-中央-右侧的声像改变，那么可敏感地感知到声像失真。具体地，可进一步敏感地感知到前侧的声像。

因此，如图3所示，当通过使用5.1声道来实现22.2声道时，特别要求不改变位于0°或180°处的VOG、T0、T180、T180、M180、L和C声道的声像，而不是左声道和右声道的声像。

当音频输入信号平移时，主要执行两个过程。第一过程对应于初始化过程，其中根据输出声道的标准布局来计算相对于输入多声道信号的平移增益。在第二过程中，基于实际布置输出声道的布局来修改所计算的平移增益。在执行了平移增益修改过程之后，输出信号的声像可在更准确的位置处出现。

因此，为了使平移单元123执行处理，除音频输入信号之外，还需要关于输出声道的标准布局的信息和关于输出声道的布置布局的信息。在C声道是从L声道和R声道进行渲染的情况下，音频输入信号指示待通过C声道再现的输入信号，并且音频输出信号指示根据布置布局来自L声道和R声道的修改的平移信号输出。

图5是根据一个实施方案的在输出声道的标准布局与布置布局之间存在高度偏差的情况下的平移单元的配置的图解。

如果输出声道的标准布局与布置布局之间存在高度偏差，则如图4所示的仅考虑方位偏差的2D平移方法不可以校正由高度偏差引起的效应。因此，如果输出声道的标准布局与布置布局之间存在高度偏差，那么必须通过如图5所示的高度效应补偿器124来补偿由于高度偏差引起的高度上升效应。

在图5中，高度效应补偿器124和平移单元123被示出为单独的元件，但是高度效应补偿器124可以实现为包括在平移单元123中的元件。

在下文中，图6a至图9详细示出根据扬声器布局确定平移系数的方法。

图6a和图6b是示出在从左声道信号和右声道信号来渲染中央声道信号的情况下根据输出声道的布置布局的声像位置的图解。

在图6a和图6b中，假设C声道是从L声道和R声道进行渲染的。

在图6a中，根据标准布局，L声道和R声道位于同一平面处，同时从C声道到左侧和右侧具有30°的方位角。在这种情况下，C声道信号仅由通过平移单元123的初始化获取的增益来渲染并且位于常规位置处，并且因此不需要另外修改平移增益。

在图6b中，L声道和R声道位于同一平面上，如同图6a中，并且R声道的位置与标准布局匹配，但是L声道具有大于30°的45°方位角。也就是说，L声道相对于标准布局具有15°的方位角。

在以上情况下，通过初始化过程计算的平移增益相对于L声道和R声道是相同的，并且当施加平移增益时，声像的位置确定为朝向R声道偏置的C'。发生以上现象是因为ILD根据方位角的变化而改变。当方位角基于C声道的位置被限定为0°时，到达听众的两只耳朵的音频信号的水平面差ILD随着方位角的增加而增加。

因此，必须通过根据2D平移方法修改平移增益来补偿方位偏差。在图6b所示的情况下，R声道的信号增加或L声道的信号减少，从而使得可以在C声道的位置处形成声像。

图7a至图7b是示出当输出声道之间存在高度偏差时根据一个实施方案的通过补偿高度效应实现的声像定位的图解。

图7a示出R声道布置在R'位置上的情况，所述R'具有一定的仰角以便具有满足标准布局的30°方位角，但是R声道并未与L声道位于同一平面上并且距离水平声道具有30°的仰角。在以上情况下，如果将相同的平移增益施加到R声道和L声道，声像C'的位置(其已经改变，这是由于ILD根据R声道的高度上升而改变)并不位于L声道与R声道之间的中心处，而是朝向L声道偏置。

这是因为ILD由于高度上升而改变，如同在存在方位偏差的情况中一样。如果仰角基于水平声道被限定为0°，那么到达听众的两只耳朵的音频信号的水平面差ILD随着仰角的增加而减少。因此，C'朝向作为水平声道(不具有仰角)的L声道偏置。

因此，高度效应补偿器124对具有仰角的声音的ILD进行补偿以防止声像的偏置。更具体地，高度效应补偿器对具有待增加的仰角的声道的平移增益进行修改，以便防止声像的偏置并且在方位角0°处形成声像。

图7b示出通过补偿高度效应来定位的声像的位置。在补偿高度效应之前的声像位于C'处，即，如图7a所示朝向不具有仰角的声道的偏置位置。然而，当高度效应得到补偿时，可对声像进行定位以便将其安置在L声道与R'声道之间的中心处。

图8是示出根据一个实施方案的渲染立体声音频信号的方法的流程图。

参考图6a至图6b和图7a至图7b所示出的渲染立体声音频信号的方法以下述顺序执行。

渲染器120，具体地平移单元123，接收具有多个声道的多声道输入信号(810)。为了使所接收的通过多声道输出的多声道输入信号平移，平移单元123通过将对应于输出声道进行布置的扬声器的位置与标准输出位置进行比较来获取关于每个输出声道的偏差信息(820)。

此处，如果输出声道包括5.1声道，那么输出声道是位于同一平面上的水平声道。

偏差信息可包括关于方位偏差的信息和关于高度偏差的信息中的至少一个。关于方位偏差的信息可包括由水平声道所处的水平面上的中央声道和输出声道形成的方位角，并且关于高度偏差的信息可包括由水平声道存在于其上的水平面和输出声道形成的仰角。

平移单元123基于标准输出位置获取待施加到输入多声道信号的平移增益(830)。此处，偏差信息的获取(820)和平移增益的获取(830)顺序可以交换。

在操作820中，由于获取了关于每个输出声道的偏差信息，所以如果输出声道中存在偏差信息，必须对在操作830中获取的平移增益进行修改。在操作840中，基于在操作820中获取的偏差信息来确定是否存在高度偏差。

如果不存在高度偏差，那么仅通过考虑方位偏差来修改平移增益(850)。

可存在计算和修改平移增益的各种方法。代表性地，可以使用基于幅值平移或正切定律的矢量基幅值平移(VBAP)方法。另外，为了解决最佳听音场所具有窄范围的问题，可以使用基于波场合成(WFS)的方法，该方法可以通过将在再现环境中使用的多个扬声器的时间延迟进行匹配以便在水平面上生成类似于平面波的波形来提供相对宽的最佳听音场所。

另外，当瞬时信号诸如下雨的声音、鼓掌的声音等以及来自各个声道的信号被向下混合到一个声道时，瞬时信号的数目在一个声道中增加并且可能发生音调失真，诸如白化。为了解决以上问题，可以应用混合式虚拟渲染方法，所述混合式虚拟渲染方法在根据每个场景中空间感知和音质的重要性选择2D(音色的)/3D(空间的)渲染模式之后执行渲染过程。

另外，可以使用将用于提供空间感知的虚拟渲染和使用主动向下混合的技术相结合的渲染方法，所述技术通过在向下混合过程期间防止梳状滤波来改进音质。

如果存在高度偏差，那么在考虑高度偏差的同时来修改平移增益(860)。

此处，在考虑高度偏差的同时修改平移增益包括根据仰角的增加补偿上升效应的过程，即，修改平移增益以便补偿根据高度的增加而减少的ILD。

在基于关于输出声道的偏差信息修改平移增益之后，相应声道的平移过程得以完成。此外，从操作820(即，获取关于每个输出声道的偏差信息)到操作850或860(即，修改待施加到相应声道的平移增益)的过程可以重复执行的次数与输出声道的数目一样多。

图9是示出根据一个实施方案的，当从左声道信号和右声道信号来渲染中央声道信号时，对于每个声道，高度偏差对平移增益的图解。

图9示出待施加到具有仰角的(升高的)声道和位于水平面上的(固定的)声道的平移增益与仰角之间的关系，正如高度效应补偿器124的实施方案。

当C声道是从水平面上的L声道和R声道进行渲染时，将要施加到L声道和R声道的平移增益g_L和

彼此相等，这是因为布置在水平面上的L声道和R声道是彼此对称的，并且各自均具有为0.707的值，即

然而，如果所述声道中的一个具有如图7a和图7b的示例中所示的仰角，那么必须根据所述仰角修改平移增益以便补偿由高度增加引起的效应。

在图9中，根据仰角的变化，平移增益被修改为增加了8dB/90°的比值。对于图7a和图7b所示的示例，将对应于仰角30°的升高声道的增益施加到R声道，并且随后将g_R修改为0.81，即从0.707增加到0.81，并且将固定声道的增益施加到L声道，并且随后将g_L修改为0.58，即从0.707减小到0.58。

此处，平移增益g_L和g_R必须满足以下用于能量归一化的方程2。

根据参考图9所示的实施方案，根据仰角的变化，将平移增益修改为线性地增加了8dB/90°的比值。然而，增加的比值可根据高度效应补偿器的示例而改变，或者平移增益可以非线性地增加。

图10是示出根据扬声器之间的位置偏差的、不同位置处的音色频谱的图解。

平移单元123和高度效应补偿器124对音频信号进行处理以使得声像不会根据与输出声道相对应的扬声器的位置而偏置，而是位于原始位置处。然而，如果与输出声道相对应的扬声器的位置实际上发生改变，那么不仅声像改变，而且音色也改变。

此处，人类根据声像的位置感知到的音色的频谱可基于HRTF来获取，所述HRTF是用于将位于特定空间位置处的声像传递到人耳朵的函数。可以通过对从时域获取的头部相关脉冲响应(HRIR)执行傅里叶转换来获取HRTF。

由于来自空间音频源的音频信号传播穿过空气并且通过耳廓、外耳道和耳膜，音频信号的幅值或相位已经改变。此外，由于听众也位于声场中，所传递的音频信号也由于听众的头部、躯干等部位而改变。因此，听众最终听到失真的音频信号。此处，听众所收听的音频信号的、具体地在声压与音频信号之间的传递函数被称为HRTF。

由于每个人具有独特的头部、耳廓和躯干尺寸和形状，HRTF对于每个人是独特的。然而，由于根据每个人来测量HRTF是不可能的，因此可以通过使用常用的HRTF、定制的HRTF等来对HRTF进行建模。

头部的衍射效应从约600Hz示出并且在4kHz之后极少示出，并且可以从1kHz到2kHz观察到的躯干效应在音频源位于身体同侧方位并且音频源的仰角为低的时候增加，并且对于13kHz(在13kHz频率下主要是耳廓影响音频信号的声像)，可观察到躯干效应。在5kHz频率周围，示出由于耳廓的谐振的峰值。此外，由于耳廓而引起的第一凹口被示出为在6kHz至10kHz的范围内，由于耳廓而引起的第二凹口被示出为在10kHz至15kHz的范围内，并且由于耳廓而引起的第三凹口被示出为在15kHz或更大的范围内。

为了感知方位角和仰角，音频源的ITD和ILD以及以单耳频谱标记示出的峰值和凹口被使用。峰值和凹口是由于躯干、头部和耳廓的衍射和色散而生成的，并且可以用HRTF来识别。

如上所述，HRTF根据音频源的方位角和仰角而改变。图10示出在扬声器的方位角为30°、60°和110°的情况下，人类根据音频源的频率感知到的音色的频谱的图解。

当根据方位角来比较音频信号的音色时，30°方位角的音色在400Hz或更小频率下的分量比60°方位角的音色的分量强了约3dB至约5dB。此外，110°方位角的音色在2kHz至5kHz范围内的分量比60°方位角的音色的分量弱了约3dB。

因此，当通过使用根据方位角的音色特性来执行音色变换滤波时，提供给听众的宽带信号的音色可彼此类似，并且因此可以更有效地执行渲染。

图11是示出根据一个实施方案的渲染立体声音频信号的方法的流程图。

图11是示出渲染立体声音频信号的方法(即当输入声道被平移到至少两个输出声道时对输入声道执行音色变换滤波的方法)的一个实施方案的流程图。

将待变换到多个输出声道的多声道音频信号输入到滤波单元121(1110)。当来自输入多声道音频信号的预定输入声道被平移到至少两个输出声道时，滤波单元121获取预定输入声道与输入声道待平移到的输出声道之间的映射关系(1130)。

滤波单元121基于关于输入声道的位置和输出声道的位置的HRTF来获取音色滤波器系数以用于基于映射关系进行平移，并且通过使用所述音色滤波器系数来执行音色校正滤波(1150)。

此处，音色校正滤波器可以通过以下过程来设计。

图12a和图12b是示出根据一个实施方案的设计音色校正滤波器的方法的图解。

假设当音频源的方位角为θ(度)时传递到听众的HRTF被限定为

并且具有方位角

的音频源被平移(定位)到位于方位角θ_D1和θ_D2处的扬声器。在这种情况下，相对于所述方位角的HRTF分别为

和

音色校正的目的在于校正从位于方位角θ_D1和θ_D2处的扬声器再现的声音，以便具有与在方位角θ_g处的声音的音色类似的音色，并且因此，来自方位角θ_D1的输出信号通过具有传递函数诸如

的滤波器，并且来自方位角θ_D2的输出信号通过具有传递函数诸如

的滤波器。

由于上述滤波，可以将从位于方位角θ_D1和θ_D2处的扬声器再现的声音校正为具有与来自方位角θ_g的声音的音色类似的音色。

在图10的示例中，当将来自所述方位角的音频信号的音色彼此进行比较时，在30°方位角处的音色在400Hz或更小频率下的分量比60°方位角的分量强了约3dB至约5dB，并且在110°方位角处的音色在2kHz至5kHz范围内的分量比60°方位角的分量小了约4dB。

由于音色校正的目的在于校正从位于30°和110°的角度处的扬声器再现的声音以便具有与在60°角度处再现的声音的音色类似的音色，从在30°角度处的扬声器再现的声音中的在400Hz或更小频率下的分量减少4dB以使得其音色类似于在60°角度处的声音的音色，并且从位于110°角度处的扬声器再现的声音中的在2kHz至5kHz范围内的分量增加4dB以使得其音色类似于在60°角度处的声音的音色。

图12a示出音色校正滤波器，所述音色校正滤波器将应用于来自60°方位角的待通过在30°方位角处的扬声器再现的音频信号，其中所述音质校正滤波器应用于整个频段，即，图10所示的在方位角为60°时音色的频谱(HRTF)与在方位角为30°时音色的频谱(HRTF)之间的比值

在图12a中，

成为这样的滤波器，其在500Hz或更小频率下将信号的幅值减少4dB，在500Hz至1.5kHz之间的频率下将信号的幅值增加5dB，并且旁路其他频域的信号，类似于以上的描述。

图12b示出音质校正滤波器，所述音质校正滤波器将应用于来自方位角60°的待通过在110°方位角处的扬声器再现的音频信号，其中所述音质校正滤波器应用于整个频段，即，图10所示的在方位角为60°时音色的频谱(HRTF)与在方位角为110°时音色的频谱(HRTF)之间的比值

在图12b中，

成为这样的滤波器，其在2kHz至7kHz的频率下将信号的幅值增加4dB，并且旁路其他频域的信号，类似于以上的描述。

图13a和图13b是示出在3D虚拟渲染中输出声道与虚拟音频源之间存在高度偏差的情况的图解。

虚拟渲染是用于从2D输出系统诸如5.1声道系统再现3D声音的技术，即用于在没有扬声器的虚拟位置处、具体地在具有仰角的位置处形成声像的渲染技术。

通过使用2D输出声道提供高度感知的虚拟渲染技术主要包括两个操作，即HRTF校正滤波和多声道平移系数分布。HRTF校正滤波指代用于向用户提供高度感知的音色校正操作，即执行与以上参考图10至图12a和图12b描述的音色校正滤波的功能类似的功能。

此处，如图13a所示，假设输出声道布置在水平面上，并且虚拟音频源的仰角

为35°。在这种情况下，L声道(即再现输出声道)与虚拟音频源之间的高度差为35，并且相对于虚拟音频源的HRTF可以被限定为

相反，如图13b所示，假设输出声道具有更大的仰角。在这种情况下，尽管L声道(即再现输出声道)与虚拟音频源之间的高度差为35，输出声道具有更大的仰角，相对于虚拟音频源的HRTF可以被限定为

此处，可以获取由方程

表示的关系。此外，如果虚拟音频源与输出声道之间不存在高度差，则不执行通过使用高度校正滤波器

进行的音色校正。

以上渲染操作可以概括为下表1中所示。

[表1]

此处，不使用音色变换滤波器的情况与执行旁路滤波的情况相同。上表1可以应用于当高度差在根据

的预定范围内时的情况，以及当高度差准确地为

或

时的情况。

图14是示出根据一个实施方案的通过使用L/R/LS/RS声道来虚拟渲染TFC声道的图解。

TFC声道位于0°方位角和35°仰角处，并且用于虚拟渲染TFC声道的水平声道L、R、LS和RS的位置如图14和下表2所示。

[表2]

如图14和上表2所示，R声道和LS声道根据标准布局进行布置，RS声道具有25°的方位偏差，并且L声道具有35°的高度偏差和15°的方位偏差。

根据一个实施方案的通过使用L/R/LS/RS声道对TFC声道施加虚拟渲染的方法以下述顺序执行。

第一，计算平移系数。可以通过加载用于虚拟渲染TFC声道的初始值、或者通过使用2D渲染、VBAP等来计算平移增益，其中初始值存储在存储装置中。

第二，根据声道的布置来修改(校正)平移系数。当输出声道的布局如图14所示那样时，L声道具有高度偏差，将通过高度效应补偿器124进行修改的平移增益应用于L声道和R声道以便使用L-R声道来执行成对的平移。另一方面，由于RS声道具有方位偏差，将通过常规方法进行修改的平移系数应用于LS声道和RS声道以便使用LS-RS声道来执行成对的平移。

第三，通过音色变换滤波器来校正音色。由于R声道和LS声道是根据标准布局进行布置的，因此将与原始虚拟渲染的滤波器相同的滤波器H_E应用于所述R声道和LS声道。

由于RS声道仅具有方位偏差而不具有高度偏差，因此使用与原始虚拟渲染操作的滤波器相同的滤波器H_E，除了用于校正从110°移位到方位角135°的分量的滤波器H_M110/H_M186，110°是根据标准布局的RS声道的方位角。此处，H_M110是相对于在110°角度处的音频源的HRTF，并且H_M186是相对于在135°角度处的音频源的HRTF。然而，在这种情况下，由于方位角110°和135°相对接近于彼此，因此渲染到RS输出声道的TFC声道信号可被旁路。

L声道具有距离标准布局的方位偏差和高度偏差两者，并且因此应用滤波器H_E和滤波器H_T000/H_T040，所述滤波器H_E被原始地应用以执行虚拟渲染，所述滤波器H_T000/H_T0458用于补偿TFC声道的音色和在L声道位置处的音色。此处，H_T000是相对于TFC声道的标准布局的HRTF，并且H_T04S是相对于L声道被布置的位置的HRTF。另外，在以上情况下，由于TFC声道的位置和L声道的位置相对接近于彼此，可以确定对被渲染到L输出声道的TFC声道信号进行旁路。

渲染单元通过对输入信号进行滤波并且将输入信号乘以平移增益而生成输出信号，并且平移单元和滤波单元独立于彼此进行操作。参考图15的框图，以上情况将变得清晰。

图15是根据一个实施方案的通过使用5.1输出声道来处理虚拟渲染中的偏差的渲染器的框图。

图15所示的渲染器的框图示出了在下述情况时每个框的输出和过程，即使用根据图14的布局进行布置的L/R/LS/RS输出声道来通过如同参考图14所示的实施方案中那样使用L/S/LS/RS声道执行对TFC声道的虚拟渲染。

平移单元首先计算5.1声道中的虚拟渲染平移增益。在图14所示的实施方案中，可以通过加载初始值来确定平移增益，所述初始值被设定来通过使用L/R/LS/RS声道执行对TFC声道的虚拟渲染。此处，所确定的施加到L/R/LS/RS声道的平移增益为g_L0、g_R0、g_LS0和g_RS0。

在下一个框中，基于输出声道的标准布局与输出声道的布置布局之间的偏差来修改L-R声道与LS-RS声道之间的平移增益。

在LS-RS声道的情况下，由于LS声道仅具有方位偏差，因此可以通过常规方法来修改平移增益。经修改的平移增益是g_LS和S_RS。在L-R声道的情况下，由于R声道具有高度偏差，通过用于校正高度效应的高度效应补偿器124来修改平移增益。经修改的平移增益是g_L和g_R。

滤波单元121接收输入信号X_TYC，并且执行相对于每个声道的滤波操作。由于R声道和LS声道是根据标准布局进行布置的，因此将与原始虚拟渲染操作的滤波器相同的滤波器H_I应用于所述R声道和LS声道。此处，来自滤波器的输出是X_TFC，R和X_IFC，LS。

由于RS声道不具有高度偏差并且仅具有方位偏差，因此使用与原始虚拟渲染的滤波器相同的滤波器H_E，并且将校正滤波器H_M110/H_M136应用于从根据标准布局的LS声道的方位角110°移位到角度135°的分量。此处，来自滤波器的输出信号是X_TFC，RS。

L声道具有相对于标准布局的方位偏差和高度偏差两者，并且因此不应用滤波器H_I(该滤波器H_I被原始地应用于执行虚拟渲染)，而是应用滤波器H_T000/H_T04S以校正TFC声道的音色和在L声道位置处的音色。此处，来自滤波器的输出信号是X_TIC，L。

将来自分别应用于各声道的滤波器的输出信号即y_TFC，L、X_TFC，R、X_TFC，LS和X_TFC，RS乘以平移增益g_L、g_R、g_LS和g_RS(所述平移增益g_L、g_R、g_L8和g_R8由平移单元进行修改)，以便相对于声道信号从渲染器输出信号y_TFC，L、y_TFC，R、y_TFCLS和y_TFC.RS。

根据本发明的实施方案还可以实施为在各种计算机配置元件中执行的编程命令，并且随后可以记录到计算机可读记录介质。计算机可读记录介质可包括编程命令、数据文件、数据结构或类似介质中的一个或多个。记录到计算机可读记录介质的编程命令可以被特别设计或配置用于本发明或者可以是对于计算机软件领域的普通技术人员熟知的。计算机可读记录介质的示例包括磁性介质(包括硬盘、磁带和软盘)、光学介质(包括CD-ROM和DVD)、磁光介质(包括光软盘)以及被设计成存储和执行只读存储器(ROM)、随机存取存储器(RAM)、快闪存储器和类似存储器中的编程命令的硬件设备。编程命令的示例不仅包括由编译器生成的机器码，而且还包括有待通过使用解释器在计算机中执行的卓越的代码。硬件设备可以被配置成充当一个或多个软件模块以便执行用于本发明的操作，或反之亦然。

虽然已经参考本发明的非明显特征具体地描述了具体实施方式，但是本领域的普通技术人员应当理解，在不脱离所附权利要求书的精神和范围的情况下，可以在本发明中对前述设备和方法的形式和细节进行各种删除、替换和改变。

因此，本发明的范围不是由具体实施方式限定而是由所附权利要求书限定，并且在所述范围内的所有差别都将被解释为包括在本发明中。

Claims

1.一种渲染音频信号的方法，所述方法包括：

接收多声道信号，所述多声道信号包括具有水平声道的输入声道信号；

获取包括输出声道信号的仰角与所述输出声道信号的标准扬声器仰角之间的差值的偏差信息；

获取用于将具有所述水平声道的所述输入声道信号渲染到所述输出声道信号的滤波器系数；以及

在所述差值是零以外的值的情况下，通过使用利用头相关传递函数HRTF的高度滤波器的逆形式和所述差值，修改所述滤波器系数。

2.如权利要求1所述的方法，其中所述标准扬声器具有水平声道。

3.一种用于渲染音频信号的设备，所述设备包括：

接收器，被配置成接收多声道信号，所述多声道信号包括具有水平声道的输入声道信号；以及

获取器，被配置成：

获取包括输出声道信号的仰角与所述输出声道信号的标准扬声器仰角之间的差值的偏差信息，

获取用于将具有所述水平声道的所述输入声道信号渲染到所述输出声道信号的滤波器系数，以及

4.如权利要求3所述的设备，其中所述标准扬声器具有水平声道。