CN108683984A

CN108683984A - 用于渲染声学信号的方法和设备

Info

Publication number: CN108683984A
Application number: CN201810661517.3A
Authority: CN
Inventors: 孙尚模; 金善民
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-03-28
Filing date: 2015-03-30
Publication date: 2018-10-19
Anticipated expiration: 2035-03-30
Also published as: AU2018204427A1; CA3121989A1; CA2944355C; RU2646337C1; KR102529121B1; US20190090078A1; EP4199544A1; AU2015237402A1; KR102343453B1; CN106416301B; EP3110177A1; EP3110177B1; BR122022016682B1; US10382877B2; CN108683984B; CN108834038B; BR112016022559B1; MX358769B; EP3668125B1; WO2015147619A1

Abstract

提供了一种用于渲染声学信号的方法和设备。当多声道信号(诸如来自22.2声道的多声道信号)被渲染到5.1声道时，三维音频信号可通过二维输出声道的方法被再现，但是，当输入声道的高度与标准高度不同并且使用与标准高度相应的高度渲染参数时，发生音频图像失真。根据本发明的实施例的对音频信号进行渲染的方法包括以下步骤：接收包括将被转换为多个输出声道的多个输入声道的多声道信号；获得用于具有标准仰角的上方输入声道的高度渲染参数使得每个输出声道提供具有高度感的音频图像；对用于具有设置的仰角而不是标准仰角的上方输入声道的高度渲染参数进行更新，其中，即使在输入声道的高度不同于标准高度时，所述方法也可减少音频图像失真。

Description

用于渲染声学信号的方法和设备

本申请是申请日为2015年3月30日，申请号为201580028236.9，发明名称为“用于渲染声学信号的方法和设备”的发明专利申请的分案申请。

技术领域

本发明涉及一种用于对音频信号进行渲染的方法和设备，更具体地说，涉及一种用于当输入声道的高度高于或低于根据标准布局的高度时通过校正高度平移系数或高度滤波器系数来比以前更精确地再现音频图像的位置和音调的渲染方法和设备。

背景技术

立体声是指这样的声音：该声音通过不仅对声音的音高和音调进行再现还对声音的方向和距离感进行再现而具有环绕感，并具有使不位于音源产生的空间中的听众意识到方向感、距离感和空间感的额外空间信息。

当多声道信号(诸如来自22.2声道的多声道信号)被渲染到5.1声道时，三维立体声可通过二维输出声道的方法被再现。但是，当输入声道的仰角不同于标准仰角并且使用根据标准仰角确定的渲染参数对输入声道进行渲染时，发生音频图像失真。

发明内容

技术问题

如上所述，当多声道信号(诸如来自22.2声道的多声道信号)被渲染到5.1声道时，三维音频信号可通过二维输出声道的方法被再现。然而，当输入声道的仰角不同于标准仰角并且使用根据标准仰角确定的渲染参数对输入信号进行渲染时，发生音频图像失真。

本发明的目的是为了解决在现有技术中的上述问题并为了减少即使当输入声道的高度高于或低于标准高度时的音频图像失真。

技术方案

如下是为了实现上述目的的本发明的代表性配置。

根据实施例的一方面，对音频信号进行渲染的方法包括以下步骤：接收包括将被转换为多个输出声道的多个输入声道的多声道音频信号；获得用于具有标准仰角的上方输入声道的高度渲染参数以通过多个输出声道提供具有高度感的音像；对用于具有预定仰角而不是标准仰角的上方输入声道的高度渲染参数进行更新。

有益效果

根据本发明，可对三维音频信号进行渲染使得即使当输入声道的高度高于或低于标准高度时也减少音频图像失真。

附图说明

图1是示出根据实施例的立体声音频再现设备的内部结构的框图。

图2是示出在根据实施例的立体声音频再现设备中的渲染器的配置的框图。

图3示出根据实施例的当多个输入声道被下混合到多个输出声道时的声道的布局。

图4a示出当从前部观察上层声道时的声道布局。

图4b示出当从顶部观察上层声道时的声道布局。

图4c示出上层声道的三维布局。

图5是示出在根据实施例的立体声音频再现设备中的解码器和三维声学渲染器的配置的框图。

图6是示出根据实施例的对三维音频信号进行渲染的方法的流程图。

图7a示出根据实施例的当上方声道的高度为0°、35°和45°时每个声道的位置。

图7b示出根据图7b的实施例的当音频信号在每个声道中被输出时由听众的左耳和右耳感觉到的信号之间的差异。

图7c示出根据实施例的根据当声道的仰角为35°和45°时的频率的音调滤波器的特征。

图8示出根据实施例的当输入声道的仰角等于或大于阈值时左音频图像和右音频图像被颠倒的现象。

图9是示出根据另一实施例的对三维音频信号进行渲染的方法的流程图。

图10和图11是用于描述根据包括至少一个外部设备和音频再现设备的实施例的每个设备的操作的信令图。

最佳实施方式

如下是为了实现上述目的的本发明的代表性的配置。

根据实施例的一方面，对音频信号进行渲染的方法包括以下步骤：接收包括将被转换成多个输出声道的多个输入声道的多声道信号；获得用于具有标准仰角的上方输入声道的高度渲染参数使得每个输出声道提供具有高度感的音频图像；对用于具有设置的仰角的而不是标准仰角的上方输入声道的高度渲染参数进行更新。

高度渲染参数包括高度滤波器系数和高度平移系数中的至少一个。

高度滤波器系数是通过反映HRTF的动态特征而被计算的。

对高度渲染参数进行更新的步骤包括基于标准仰角和设置的仰角将权重应用于高度滤波器系数的步骤。

所述权重被确定为使得当设置的仰角小于标准仰角时平缓地表现出高度滤波器特征，并被确定为使得当设置的仰角大于标准仰角时强烈地表现出高度滤波器特征。

对高度渲染参数进行更新的步骤包括基于标准仰角和设置的仰角对高度平移系数进行更新的步骤。

当设置的仰角小于标准仰角时，在更新的高度平移系数之中的将被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数大于在更新之前的高度平移系数，并且将分别被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数的平方和为1。

当设置的仰角大于标准仰角时，在更新的高度平移系数之中的将被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数小于在更新之前的高度平移系数，并且将分别被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数的平方和为1。

对高度渲染参数进行更新的步骤包括当设置的仰角等于或大于阈值时，基于标准仰角和阈值对高度平移系数进行更新的步骤。

所述方法还包括接收具有设置的仰角的输入的步骤。

所述输入是从单独的设备被接收到的。

所述方法包括以下步骤：基于更新的高度渲染参数对接收到的多声道信号进行渲染，并将渲染的多声道信号发送到单独的设备。

根据另一实施例的一方面，用于对音频信号进行渲染的设备包括：接收单元，用于接收包括将被转换为多个输出声道的多个输入声道的多声道信号；渲染单元，用于获得用于具有标准仰角的上方输入声道的高度渲染参数使得每个输出声道提供具有高度感的音频图像，并对用于具有设置的仰角而不是标准仰角的上方输入声道的高度渲染参数进行更新。

高度滤波器系数是通过反映HRTF的动态特征而被计算的。

更新的高度渲染参数包括基于标准仰角和设置的仰角更新的高度平移系数。

当设置的仰角小于标准仰角时，在更新的高度平移系数之中的将被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数大于在更新之前的高度平移系数，并且将分别被应用于输出声道的更新的高度平移系数的平方和为1。

当设置的仰角大于标准仰角时，在更新的高度平移系数之中的将被应用于存在于具有设置的仰角的输出声道同侧的输出声道的更新的高度平移系数小于在更新之前的高度平移系数，并且将分别被应用于输出声道的更新的高度平移系数的平方和为1。

更新的高度渲染参数包括当设置的仰角等于或大于阈值时基于标准仰角和阈值更新的高度平移系数。

所述设备还包括用于接收对设置的仰角的输入的接收单元。

所述输入是从单独的设备被接收到的。

渲染单元基于更新的高度渲染参数对接收到的多声道信号进行渲染，并且所述设备还包括用于将渲染后的多声道音频信号发送到单独的设备的发送单元。

根据另一实施例的一个方面，计算机可读记录介质已经在其上记录了用于执行上述方法的程序。

此外，还提供了用于实现本发明的另一方法和另一系统，以及已经记录了用于执行所述方法的计算机程序的计算机可读记录介质。

具体实施方式

将在下文中描述的本申请的详细描述参照将本发明可被实现的特定实施例作为示例示出的附图。这些实施例被详细的描述从而使本领域的普通技术人员充分地实现本发明。应该被理解的是，本发明的各种实施例彼此不相同但不必彼此排斥。

例如，在本说明书中陈述的特定的形状、结构和特征可在不脱离本发明的精神和范围的情况下通过从一个实施例改变为另一实施例被实现。此外，应该被理解的是，在每个实施例中的单个部件的位置或布局也可在不脱离本发明的精神和范围的情况下被改变。因此，将要描述的详细描述不是为了限制的目的，并且应该被理解的是本发明的范围包括权利要求所要求保护的范围以及等同于所要求保护的范围的所有范围。

在附图中相同的标号表示在各方面中相同或相似的元件。此外，在附图中，为了清楚地描述本发明，省略了与本描述不相关的部分，并且贯穿本说明书相同的标号表示相同的元件。

在下文中，本发明的实施例将参照附图被详细地描述，使得本发明所属领域的普通技术人员可容易地实现本发明。但是，本发明可以以各种不同的形式实现并不限于在此描述的实施例。

贯穿本说明书，当描述了某一元件“连接”到另一元件时，这包括“被直接地连接”的情况和通过中间的另一元件“被电连接”的情况。此外，当某一部分“包括”某一部件时，除非存在特别不同的公开，否则这指示该部分还可包括另一部件而不是排除另一部件。

在下文中，参照附图详细地描述了本发明。

根据实施例的立体声音频再现设备100可输出多声道音频信号，在多声道音频信号中，多个输入声道被混合到将要被再现的多个输出声道。在这种情况下，如果输入声道的数量小于输入声道的数量，则对输入声道进行下混合以符合输入声道的数量。

立体声是指这样的声音：该声音通过不仅再现声音的音高和音调还再现方向和距离感而具有环绕感，并具有使不位于声源产生的空间中的听众意识到方向感、距离感和空间感的额外空间信息。

在下文的描述中，音频信号的输出声道可指输出声音的扬声器的数量。输出声道的数量越多，输出声音的扬声器的数量就越多。根据实施例，立体声音频再现设备100可将多声道声学输入信号渲染并混合到将要被再现的输出声道，使得具有较多数量的输入声道的多声道音频信号可在具有较少数量的输出声道的环境中输出并再现。在这种情况下，多声道音频信号可包括可输出具有高度感的声音的声道。

可输出具有高度感的声音的声道可指可通过位于听众头顶之上的扬声器输出音频信号使得听众感受到高度的声道。水平声道可指可通过位于听众所在的水平面上的扬声器输出的音频信号的声道。

上述具有较少数量输出声道的环境可指可通过布置在水平面上的扬声器输出声音而不具有可输出具有高度感的声音的输出声道的环境。

此外，在下文的描述中，水平声道可指包括可通过位于水平面上的扬声器输出的音频信号的声道。上方声道可指包括可通过位于在水平面之上的具有高度的位置上以输出具有高度感的声音的扬声器输出的音频信号的声道。

参照图1，根据实施例的立体声音频再现设备100可包括音频核心110、渲染器120、混合器130和后处理单元140。

根据实施例，立体声音频再现设备100可通过对多声道输入音频信号进行渲染和混合来输出将被再现的声道。例如，多声道输入音频信号可以是22.2声道信号，并且将被再现的输出声道可以是5.1或7.1声道。立体声音频再现设备100可通过确定与多声道输入音频信号的每个声道相应的输出声道来执行渲染，并通过合成与将被再现的声道相应的声道的信号并将合成的信号输出为最终信号来对渲染后的音频信号进行混合。

编码的音频信号以比特流格式被输入到音频核心110，并且音频核心110通过选择适合对音频信号进行编码的方案的解码器工具对输入音频信号进行解码。

渲染器120可根据声道和频率将多声道输入音频信号渲染到多声道输出声道。渲染器120可对多声道音频信号、根据上方声道和水平声道的每个信号执行三维(3D)渲染和2D渲染。渲染器的配置和特定的渲染方法将参照图2进行更详细的描述。

混合器130可通过由渲染器120对与水平声道相应的声道的信号进行合成来输出最终信号。混合器130可针对每个设置段对声道的信号进行混合。例如，混合器130可针对每个I帧对声道的信号进行混合。

根据实施例，混合器130可基于被渲染到将被再现的各个声道的信号的能量值来执行混合。换句话说，混合器130可基于被渲染到将被再现的各个声道的信号的能量值来确定最终信号的幅度或将被应用于最终信号的增益。

后处理单元140针对混合器130的输出信号执行动态范围控制和多频带信号的立体声化以符合每个再现装置(扬声器或头戴式耳机)。从后处理单元140输出的输出音频信号由诸如扬声器的装置输出，并且输出音频信号可根据每个部件的处理以2D或3D方式再现。

基于音频解码器的配置示出了根据在图1中示出的实施例的立体声音频再现设备100，并且省略次要的配置。

图2是示出根据实施例的在立体声音频再现设备中的渲染器的配置的框图。

渲染器120包括滤波单元121和平移单元123。

滤波单元121可根据位置对解码的音频信号的音调等进行校正，并通过使用头相关传输函数(HRTF)滤波器对输入音频信号进行滤波。

滤波单元121可根据用于上方声道的3D渲染的频率，通过不同方法对上方声道进行渲染，其中，上方声道已经通过HRTF滤波器。

HRTF滤波器通过不仅是简单路径差(诸如耳间高度差(ILD)和耳间时间差(ITD))还是复杂路径特征(诸如在头表面上的衍射和耳部上的反射)根据声波到达方向变化的现象来允许对立体声声音的识别。HRTF滤波器可改变音频信号的音质以处理上方声道中包括的音频信号使得立体声可被识别。

平移单元123获得并应用将被应用到每个频带和每个声道的平移系数以将输入音频信号平移到每个输出声道。音频信号的平移指控制将被施加到每个输出声道的信号的幅度以将声源渲染到两个输出声道之间的特定的位置。

平移单元123可根据添加到最接近声道方法对上方声道信号的低频信号进行渲染并根据多声道平移方法对高频信号进行渲染。根据多声道平移方法，针对将被渲染到每个声道信号的每个声道而不同设置的增益值可被应用于多声道音频信号的每个声道的信号，使得信号被渲染到至少一个水平声道。应用了增益值的各个声道的信号可通过混合被合成并输出为最终信号。

由于低频信号具有强的衍射性质，因此即使当低频信号被渲染到仅一个声道，而不根据多声道平移方法分别将多声道音频信号的每个声道渲染到若干个声道时，当听众听低频信号时，所述一个声道也可呈现相似的音质。因此，根据实施例，立体声音频再现设备100可根据添加到最接近声道方法对低频信号进行渲染以避免可通过将几个声道混合到一个输出声道而发生的音质的恶化。即，由于当几个声道被混合到一个输出声道时音质可由于根据声道信号之间的干扰的放大或缩小而恶化，所以一个声道可被混合到一个输出声道以避免音质恶化。

根据添加到最接近声道方法，多声道音频信号的每个声道可被渲染到将被再现的声道之中的最接近的声道，而不是被分别渲染到若干个声道。

此外，立体声音频再现设备100可通过根据频率的不同的方法来执行渲染，在不使音质恶化的情况下使甜点(sweet spot)变宽。即，通过根据添加到最接近声道方法对具有强衍射特性的低频信号进行渲染，可避免通过将若干个声道混合到一个输出声道而可能发生的音质恶化。甜点是指听众可无失真地最佳地收听立体声的预定范围。

随着甜点变宽，听众可在宽的范围中无失真地最佳地收听立体声，并且当听众不位于甜点中时，听众可听到具有失真的音质或音频图像的声音。

为了提供与3D图像中的真实情况相同或比3D图像中的真实情况更夸张的现实感和沉浸感，已开发了用于与3D立体图像一起提供3D立体声的技术。立体声是指音频信号本身具有声音的高度感和空间感的声音，并且为了再现这样的立体声，需要至少两个扬声器，即，输出声道。此外，除了使用HRTF的双声道立体声，为了更精确地再现声音的高度感、距离感和空间感，需要更大数量的输出声道。

因此，已提出并开发了具有两个输出声道的立体声系统以及各种多声道系统(诸如5.1声道系统、Auro 3D系统、Holman 10.2声道系统、ETRI/Samsung 10.2系统和NHK 22.2声道系统)。

图3示出通过5.1声道输出系统再现22.2声道3D音频信号的情况。

5.1声道系统是五声道环绕多声道声音系统的通用名称，并是最普遍用于家庭影院和电影院声音系统的系统。5.1声道的总数包括左前(FL)声道、中央(C)声道、右前(FR)声道、左环绕(SL)声道和右环绕(SR)声道。如图3所示，由于5.1声道的所有输出位于同一平面上，因此5.1声道系统物理上相当于2D系统，并且为了通过使用5.1声道系统再现3D音频信号，必须执行用于将3D效果给予将被再现的信号的渲染处理。

5.1声道系统广泛地被用于各种领域(不仅包括电影领域还包括DVD图像领域、DVD声音领域、超级音频光盘(SACD)领域或数字广播领域)。但是，尽管5.1声道系统与立体声系统相比提供更高的空间感，但在形成更宽的收听空间中存在若干限制。具体地讲，由于形成的甜点是窄的并且无法提供具有仰角的垂直音频图像，因此5.1声道系统可能不适合于诸如电影院的宽收听空间。

如图3所示，由NHK提出的22.2声道系统包括三层输出声道。上层310包括上帝之声(VOG)声道、T0声道、T180声道、TL45声道、TL90声道、TL135声道、TR45声道、TR90声道和TR45声道。这里，作为每个声道名称的首位字符的索引T是指上层，指数L和R分别指示左侧和右侧，并且随后的数字是指与中央声道形成的方位角。上层通常也被成为顶层。

VOG声道是存在于听众头顶之上的声道，具有90°的仰角，并不具有方位角。然而，当错误地放置VOG声道时，即使存在微小误差，VOG声道也存在方位角并且仰角不为90°，并因此VOG声道可能再也无法起到VOG声道的作用。

中间层320位于与现有的5.1声道相同的平面上并且除了包括5.1声道的输出声道之外，还包括ML60声道、ML90声道、ML135声道、MR60声道、MR90声道和MR135声道。这里，作为每个声道名称的首位字符的索引M是指中间层，并且随后的数字是指与中央声道形成的方位角。

下层330包括L0声道、LL45声道和LR45声道。这里，作为每个声道名称的首位字符的索引L是指下层，并且随后的数字是指与中央声道形成的方位角。

在22.2声道中，中间层被称为水平声道，并且与方位角0°或180°相应的VOG声道、T0声道、T180声道、M180声道、L声道和C声道被称为垂直声道。

当使用5.1声道系统再现22.2声道输入信号时，根据最通用的方法，可使用下混合表达式分配声道间的信号。可选择地，可执行用于提供虚拟的高度感的渲染使得5.1声道系统再现具有高度感的音频信号。

图4示出了根据实施例的根据声道布局中的顶层高度的顶层声道的布局。

当输入声道信号是22.2声道3D音频信号并根据图3的布局布置时，输入声道之中的上层具有如图4所示的布局。在这种情况下，假定仰角是0°、25°、35°和45°，并省略了与90°仰角相应的VOG声道。具有0°仰角的上层声道就如同它们位于水平面(中间层320)上。

图4a示出当从前方观察上层声道时的声道布局。

参照图4a，由于八个上层声道之间具有45°的方位角差，所以当基于垂直声道轴从前方观察上层声道时，按照TL45声道和TL135声道、T0声道和T180声道以及TR45声道和TR135声道两两重叠的方式示出除了TL90声道和TR90声道之外所剩余的六个声道。这与图4b相比将会更清楚。

图4b示出当从上方观察上层声道时的声道布局。图4c示出了上层声道的3D布局。可看到以等间距并且彼此具有45°的方位角差的方式布置八个上层声道。

如果将通过高度渲染被再现为立体声的内容被固定为具有例如35°仰角，则即使在35°仰角针对所有输入音频信号执行高度渲染也是可以的，并可获得最佳的结果。

但是，根据内容，仰角可被应用于相应内容的立体声，并且如图4所示，每个声道的位置和距离根据声道的高度变化，相应地，信号特征也可变化。

因此，当在固定的仰角执行虚拟渲染时，发生音频图像失真，并且为了获得最佳的渲染性能，需要通过考虑输入3D音频信号的仰角(即，输入声道的仰角)来执行渲染。

图5是示出根据实施例的立体声音频再现中的解码器和3D声学渲染器的配置的框图。

参照图5，根据实施例，基于解码器110和3D声学渲染器120的配置示出立体声音频再现设备100，并省略其他配置。

输入到立体声音频再现设备100的音频信号是编码的信号并以比特流的格式输入。解码器110通过选择适合于音频信号被编码的方案的解码器工具对输入音频信号进行解码，并将解码后的音频信号发送到3D声学渲染器120。

3D声学渲染器120包括用于获得并更新滤波器系数和平移系数的初始化单元125和用于执行滤波和平移的渲染单元127。

渲染单元127对从解码器发送的音频信号执行滤波和平移。滤波单元1271处理关于声音的位置的信息使得渲染后的音频信号在期望的位置被再现，并且平移单元1272处理关于声音的音调的信息使得渲染后的音频信号具有适合于期望的位置的音调。

滤波单元1271和平移单元1272执行与参照图2描述的滤波单元121和平移单元123的功能相似的功能。然而，图2的滤波单元121和平移单元123被示意性地示出，并且将被理解的是用于获得滤波器系数和平移系数的配置(诸如，初始化单元)可被省略。

在这种情况下，从初始化单元125发送将被用于滤波的滤波器系数和将被用于平移的平移系数。初始化单元125包括高度渲染参数获得单元1251和高度渲染参数更新单元1252。

高度渲染参数获得单元1251通过使用输出声道(即，扬声器)的配置和布局获得高度渲染参数的初始化值。在这种情况下，基于根据标准布局的输出声道的配置和根据高度渲染设置的输入声道的配置来计算高度渲染参数的初始化值，或针对高度渲染参数的初始化值，根据输入/输出声道之间的映射关系读取预存储的初始化值。高度渲染参数可包括将由滤波单元1251使用的滤波器系数或将由平移单元1252使用的平移系数。

但是，如上所述，在针对高度渲染设置的高度值和输入声道的设置之间可存在偏差。在这种情况下，当使用固定设置的高度值时，难以实现通过具有与输入声道的配置不同的配置的输出声道更近似地对原始3D音频信号进行三维再现的虚拟渲染。

例如，当高度感太高时，会发生音频图像小并且音质恶化的现象，并当高度感太低时，会发生难以感到虚拟渲染的效果的问题。因此，需要根据用户的设置调整高度感或调整适合于输入声道的虚拟渲染的程度。

高度渲染参数更新单元1252基于输入声道的高度信息或用户设置的高度，通过使用由高度渲染参数获得单元1251获得的高度渲染参数的初始化值对高度渲染参数进行更新。在这种情况下，如果输出声道的扬声器布局与标准布局相比具有偏差，则可增加用于纠正根据偏差的影响的处理。输出声道偏差可包括根据仰角差或方位角差的偏差信息。

通过与每个输出声道相应的扬声器再现由渲染单元127通过使用由初始化单元125获得并更新的高度渲染参数而滤波并平移的输出音频信号。

图6是示出根据实施例的对3D音频信号进行渲染的方法的流程图。

在操作610，渲染器接收包括多个输入声道的多声道音频信号。输入多声道音频信号通过渲染被转换为多个输出声道信号。例如，在输入声道的数量大于输出声道的数量的下混合中，具有22.2声道的输入声道被转换为具有5.1声道的输出信号。

这样，当使用2D输出声道渲染3D立体声输入信号时，正常的渲染被应用于水平输入声道，并且用于给予高度感的虚拟渲染被应用于具有仰角的高度输入声道。

为了执行渲染，需要将被用于滤波的滤波器系数和将被用于平移的平移系数。在这种情况下，在操作620，在初始化处理中，根据输出声道的标准布局和用于虚拟渲染的默认仰角来获得渲染参数。可根据渲染器而不同地确定默认仰角，但当使用这样的固定的仰角执行虚拟渲染时，可发生根据用户的喜好或输入信号的特征降低虚拟渲染的满意度和效果的结果。

因此，当输出声道的配置与相应的输出声道的标准布局有偏差或将执行虚拟渲染的高度不同于默认高度时，在操作630中，渲染参数被更新。

在这种情况下，更新的渲染参数可包括通过将基于仰角偏差确定的权重应用到滤波器系数的初始化值而更新的滤波器系数，或包括通过根据在输入声道的高度和默认高度之间的幅度对比结果来增大或减小平移系数的初始化值而更新的平移系数。

将参照图7和图8更详细地描述对滤波器系数和平移系数进行更新的特定方法。

如果输出声道的扬声器布局与标准布局相比具有偏差，可增加用于纠正根据偏差的影响的处理，但省略了对该处理的特定方法的描述。输出声道偏差可包括根据仰角差或方位角差的偏差信息。

图7示出根据实施例的根据声道的高度的音频图像的改变和高度滤波器的改变。

图7a示出根据实施例的当高度声道的仰角是0°、35°和45°时每个声道的位置。图7a的图是从观众的后面观察的图，并且如图7a所示的声道是ML90声道或TL90声道。当仰角为0°时，该声音存在于水平面上并相应于ML90声道，并当仰角为35°和45°时，声道是上层声道并相应于TL90声道。

图7b示出根据图7b的实施例的当在每个声道中输出音频信号时由听众的左耳和右耳感受到的信号之间的差异。

当从不具有仰角的ML90声道输出音频信号时，原则上仅由左耳识别出音频信号，并且右耳不会识别出音频信号。

但是，随着高度的增加，由左耳识别出的声音和由右耳识别出的音频信号之间的差异逐渐减少，并当声道的仰角逐渐增加而仰角变成90°时，声道变成位于听众头顶之上的声道，即，VOG声道，并因此由双耳识别出相同的音频信号。

因此，在图7b中示出了根据仰角由双耳识别出的音频信号中的改变。

针对当仰角为0°时由左耳和右耳识别出的音频信号，仅由左耳识别出音频信号，并且没有音频信号可由右耳识别出。在这种情况下，ILD和ITD被最大化，并且听众识别出在左水平声道中存在的ML90声道的音频图像。

对于当仰角为35°时由左耳和右耳识别出的音频信号之间的差异和当仰角为45°时由左耳和右耳识别出的音频信号之间的差异，由左耳和右耳识别出的音频信号之间的差异随着仰角变高而减小，并且根据这个差异，听众可从输出声道信号中感到高度感的差异。

与具有45°仰角的声道的输出信号相比,具有35°仰角的声道的输出信号具有宽音频图像和宽甜点的特点以及自然音质的特点，虽然与具有35°仰角的声道输出声道相比，音频图像是窄的并且甜点也是窄的，但是具有45°仰角的声道的输出信号具有获得提供强沉浸感的音场感的特点。

如上所述，随着仰角的增加，高度感增加，并因此沉浸感变得更强，但是音频图像的宽度变得更窄。这个现象是因为随着仰角变高，声道的物理位置通常向内移动并最终接近听众。

因此，如下确定根据仰角改变而对平移系数的更新。平移系数被更新使得音频图像随着仰角增加而变宽，并平移系数被更新使得音频图像随着仰角减小而变窄。

例如，假定针对虚拟渲染的默认仰角为45°，并且通过将仰角减小到35°来执行虚拟渲染。在这种情况下，将被应用于将被渲染的虚拟声道同侧的输出声道的渲染平移系数被增大，并通过能量归一化确定将被应用于剩余声道的平移系数。

为了详细的描述，假定22.2声道输入的多声道信号通过5.1声道的输出声道(扬声器)被再现。在这种情况下，在22.2声道输入声道中将被应用于虚拟渲染的具有仰角的输入声道是以下九个声道：CH_U_000(T0)、CH_U_L45(TL45)、CH_U_R45(TR45)、CH_U_L90(TL90)、CH_U_R90(TR90)、CH_U_L135(TL135)、CH_U_R135(TR135)、CH_U_180(T180)和CH_T_000(VOG)，并且5.1声道输出声道是存在于水平面上的以下五个声道：CH_M_000、CH_M_L030、CH_M_R030、CH_M_L110和CH_M_R110(除了低音扬声器声道以外)。

这样，当使用5.1输出声道渲染CH_U_L45声道时，如果默认仰角是45°并期望将仰角减小到35°，则将被应用于CH_M_L030和CH_M_L110声道(存在于CH_U_L45声道同侧的输出声道)的平移系数被更新为增加3dB，并且剩余三个声道的平移系数被更新为减小到便满足等式1。

这里，N表示用于渲染任意虚拟声道的输出声道的数量，g_i表示将被应用于每个输出声道的平移系数。

应针对每个高度输入声道执行这个处理。

反之，假定针对虚拟渲染的默认仰角为45°并通过将仰角增加到55°来执行虚拟渲染。在这种情况下，将被应用于将被渲染的虚拟声道同侧的输出声道的渲染平移系数被减小，并且通过能量归一化确定将被应用于剩余声道的平移系数。

当如同上述示例，使用5.1输出声道渲染CH_U_L45声道时，如果默认仰角为45°并期望将仰角增加到55°，将被应用于CH_M_L030和CH_M_L110声道(存在于CH_U_L45声道同侧的输出声道)的平移系数被更新为减小3dB，并且剩余三个声道的平移系数被更新为增大到满足等式1。

但是，如上所述，当高度感被增加时，需要注意左音频图像和右音频图像不会由于平移系数更新而颠倒，并且这将参照图8进行描述。

在下文中，参照图7c描述了对音调滤波器系数进行更新的方法。

图7c示出根据实施例的当声道的仰角为35°和45°时根据频率的音调滤波器的特点。

如图7c所示，与具有35°仰角的声道的音调滤波器相比，具有45°仰角的声道的音调滤波器由于仰角表现出更大的特性。

因此，当期望执行虚拟渲染以具有比标准仰角更大的仰角时，当对标准仰角进行渲染时大小应该增加的频带(原始滤波器系数大于1的频带)被增加得更多(更新的滤波器系数增加到大于1)，并当对标准仰角进行渲染时大小应该减小的频带(原始滤波器系数小于1的频带)被减小得更多(更新的滤波器系数减小到小于1)。

当由分贝刻度示出滤波器大小特征时，如图7c所示，滤波器大小在输出信号的大小应被增加的频带中具有正值，并且在输出声道的大小应被减小的频带中具有负值。此外，如图7c所示，随着仰角的减小，滤波器大小的形状变得平滑。

当使用水平声道对上方声道执行虚拟渲染时，随着仰角减小，上方声道具有与水平声道的音调相似的音调，并且随着仰角增加，高度感的改变增加，并因此随着仰角增加，由于音调滤波器的影响被增加以增强由于仰角增加的高度感效果。反之，随着仰角减小，由于音调滤波器的影响可被减小以减弱高度感效果。

因此，针对根据仰角改变的滤波器系数更新，使用基于默认仰角的权重和将被渲染的实际仰角对原始滤波器系数进行更新。

当用于虚拟渲染的默认仰角是45°，并期望通过被渲染到低于默认仰角的35°来减小高度感时，与图7c中45°的滤波器相应的系数被确定为初始值并应被更新为与35°的滤波器相应的系数。

因此，当期望通过被渲染到低于默认仰角的45°的仰角35°来减小高度感时，滤波器系数应被更新使得根据频带的滤波器的峰谷两者与45°的滤波器相比更平缓地被校正。

反之，当默认值为45°并期望通过被渲染到高于默认仰角的55°来增加高度感时，滤波器系数应被更新使得根据频带的滤波器的峰谷两者与45°的滤波器相比更锐利。

如图7b的情况，图8示出从听众的后面观察的图像，并且使用长方形标记的声道是CH_U_L90声道。在这种情况下，当假定CH_U_L90的仰角为时，随着增加，到达听众的左耳和右耳的音频信号的ILD和ITD逐渐减小，并且通过双耳识别的音频信号具有相似的音频图像。仰角的最大值为90°，并且当变为90°时，CH_U_L90声道变为存在于听众头顶之上的VOG声道，并且可由双耳接收相同的音频信号。

如图8中的左图所示，当具有相当大的值时，高度感增加使得听众可感受提供了强沉浸感的音场感。但是，根据高度感的增加，音频图像变窄，并且形成的甜点变窄，并因此即使当听众的位置移动一点或声道偏离一点时，可发生音频图像的左/右颠倒现象。

图8中的右图示出当听众向左移动一点时听众和声道的位置。由于声道仰角的值较大而形成了高的高度感，因此即使当听众移动一点时，左右声道的相对位置被较大地改变，并在最坏的情况下，从左声道到达右耳的信号被识别为大于从左声道到达左耳的信号，并因此如图8中的右图所示可能发生音频图像的左/右颠倒。

在渲染处理中，与给予高度感相比，保持音频图像的左/右平衡并定位音频图像的左右位置是更重要的问题，并因此为了不发生音频图像左/右颠倒这样的情况，可能需要将用于虚拟渲染的仰角限制为等于或小于预定的范围。

因此，当仰角被增加以获得比用于渲染的默认仰角更高的高度感时，平移系数应被减小，但需要设置平移系数的最小阈值使得平移系数不会等于或小于预定值。

例如，即使当60°或更大的渲染高度被增加到60°或更大时，如果通过强制地应用针对阈值仰角60°更新的平移系数来执行平移，则可防止音频图像的左/右颠倒现象。

图9是示出根据另一实施例的对3D音频信号进行渲染的方法的流程图。

在上述的实施例中，已经描述了当输入信号的上方声道的仰角不同于渲染器的默认仰角时基于输入多声道信号的高度声道执行虚拟渲染的方法。但是，需要根据用户的喜好或音频信号将被再现的空间的特点来不同地改变用于虚拟渲染的仰角。

同样地，当需要不同地改变用于虚拟渲染的仰角时，需要向图6的流程图增加接收用于渲染的仰角的输入的操作，并且其他的操作与图6的操作相似。

在操作910，渲染器接收包括多个输入声道的多声道音频信号。输入的多声道音频信号通过渲染被转换为多个输入声道信号。例如，在输入声道的数量大于输出声道的数量的下混合中，具有22.2声道的输入信号被转换为具有5.1声道的输出信号。

同样地，当使用2D输出声道渲染3D立体声输入信号时，正常的渲染被应用于水平输入声道，并且用于给予空间感的虚拟渲染被应用于具有仰角的高度声道。

为了执行渲染，需要将被用于滤波的滤波器系数和将被用于平移的平移系数。在这种情况下，在操作920，在初始化处理中，根据输出声道的标准布局和用于虚拟渲染的默认仰角来获得渲染参数。默认仰角可根据渲染器被不同地确定，但当使用这样的固定的仰角执行虚拟渲染时，可发生根据用户的喜好、输入信号的特征或再现空间的特征降低虚拟渲染的效果的结果。

因此，在操作930，用于虚拟渲染的仰角被输入以针对任意仰角执行虚拟渲染。在这种情况下，作为用于虚拟渲染的仰角，由用户通过音频再现设备的用户界面或通过使用遥控直接输入的仰角可被传送到渲染器。

可选择地，用于虚拟渲染的仰角可由具有关于音频信号将被再现并被传送到渲染器的空间的信息的应用确定，或可通过单独的外部设备而不是包括渲染器的音频再现设备传送。通过单独的外部设备确定用于虚拟渲染的仰角的实施例将参照图10到图11更详细地描述。

虽然在图9中假定了通过使用渲染初始化设置在获得高度渲染参数的初始化值之后接收仰角的输入，但是仰角的输入可在对高度渲染参数进行更新之前的任何操作中被接收。

当输入不同于默认仰角的仰角时，在操作940，渲染器基于输入的仰角对渲染参数进行更新。

在这种情况下，更新的渲染参数可包括通过将基于仰角偏差确定的权重应用到滤波器系数的初始化值而更新的滤波器系数以及通过根据在参照图7和图8描述的输入声道的高度和默认高度之间的大小对比结果增加或减小平移系数的初始化值而更新的平移系数。

如果输出声道的扬声器布局与标准布局相比具有偏差，则可增加用于校正根据偏差的影响的处理，但省略了对所述处理的特定方法的描述。输出声道偏差可包括根据仰角差或方位角差的偏差信息。

如上所述，当通过根据用户的喜好、音频再现空间的特点等应用任意的仰角来执行虚拟渲染时，与已经根据固定的仰角执行渲染的虚拟3D音频信号相比，可向听众提供在音质的主观评价等中的更好的满意度。

图10是用于描述根据包括外部设备和音频再现设备的系统的实施例的当通过外部设备输入仰角时每个设备的操作的信令图。

随着平板PC和智能电话技术的发展，交互并使用音频/视频再现设备和平板PC等的技术也已经得到迅速的发展。简单地，智能电话可被用于对音频/视频再现设备进行遥控。即使对于包括触摸功能的TV，由于用户应靠近TV以通过使用TV的触摸功能输入指令，所以大部分用户通过使用遥控来控制TV，并且由于智能电话包括红外线终端，所以相当大数量的智能电话可执行遥控功能。

可选择地，平板PC或智能电话可通过其中安装的特定的应用与多媒体装置(诸如，TV或音频/视频接收器(AVR))进行交互来控制解码设置或渲染设置。

可选择地，可实现通过使用镜像技术用于在平板PC或智能电话中再现解码的以及渲染的音频/视频内容的播放。

在这些情况下，图10示出了在包括渲染器的立体声音频再现设备100和外部设备200(诸如平板PC或智能电话)之间的操作。在下文中，主要描述了立体声音频再现设备中渲染器的操作。

当在操作1010由渲染器接收到通过立体声音频再现设备100的解码器解码的多声道音频信号时，在操作1020，渲染器基于输出声道的布局和默认仰角获得渲染参数。在这种情况下，获得的渲染参数是通过读取预存储为根据输入声道和输出声道之间的映射关系预设的初始值的值或通过计算获得的。

在操作1040，用于控制音频再现设备的渲染设置的外部设备200向音频再现设备发送已经由用户输入的将被应用于渲染的仰角或者在操作1030中通过应用等被确定为最佳仰角的仰角。

当用于渲染的仰角被输入时，在操作1050，渲染器基于输入的仰角对渲染参数进行更新并在操作1060通过使用更新的渲染参数执行渲染。这里，对渲染参数进行更新的方法与参照图7和图8描述的方法相同，并且渲染的音频信号变为具有环绕感的3D音频信号。

音频再现设备100可通过自身对渲染的音频信号进行再现，但当存在外部设备200的请求时，在操作1070，渲染的音频信号被发送到外部设备，并且在操作1080，外部设备对接收到的音频信号进行再现以向用户提供具有环绕感的立体声。

如上所述，当使用镜像技术实现播放时，即使诸如平板PC或智能电话的便携式装置可通过使用双声道技术以及能够进行立体声再现的耳机来提供3D音频信号。

图11是用于描述根据包括第一外部设备、第二外部设备和音频再现设备的系统的实施例的当通过第二外部设备对音频信号进行再现时的每个设备的操作的信令图。

图11的第一外部设备201是指诸如图10中包括的平板PC或智能电话的外部设备。图11的第二外部设备202是指单独的声学系统，诸如包括渲染器而不包括音频再现设备100的AVR。

当第二外部设备仅根据固定的默认仰角执行渲染时，可通过使用根据本发明的实施例的音频再现设备来执行渲染并向第二外部设备发送渲染的3D音频信号使得第二外部设备对3D音频信号进行再现来获得具有更好性能的立体声。

当在操作1110由渲染器接收到通过立体声音频再现设备的解码器解码的多声道音频信号时，在操作1120，渲染器基于输出声道的布局和默认仰角获得渲染参数。在这种情况下，获得的渲染参数是通过读取被预存储为根据输入声道和输出声道之间的映射关系预设的初始值的值或通过计算获得的。

用于控制音频再现设备的渲染设置的第一外部设备201，在操作1140向音频再现设备发送在已经由用户输入的将被应用于渲染的仰角或者在操作1130通过应用等被确定为最佳仰角的仰角。

当用于渲染的仰角被输入时，在操作1150，渲染器基于输入的仰角对渲染参数进行更新并在操作1160通过使用更新的渲染参数执行渲染。这里，对渲染参数进行更新的方法与参照图7和图8描述的方法相同，并且渲染的音频信号变为具有环绕感的3D音频信号。

音频再现设备100可通过自身对渲染的音频信号进行再现，但当存在第二外部设备200的请求时，渲染的音频信号被发送到第二外部设备202，并且在操作1080，第二外部设备对接收到的音频信号进行再现。这里，如果第二外部设备可记录多媒体内容，则第二外部设备可记录接收到的音频信号。

在这种情况下，当音频再现设备100和第二外部设备201通过特定的接口相连时，可增加通过使用另一编码解码器将渲染的音频信号转换为适合对渲染的音频信号进行转码的相应的接口的格式以发送渲染的音频信号的处理。例如，渲染的音频信号可被转换为用于通过高清晰多媒体接口(HDMI)的不压缩传输的脉冲编码调制(PCM)格式并随后被发送。

如上所述，通过能够针对任意仰角执行渲染，可通过将通过虚拟渲染实现的虚拟扬声器位置布置到用户期望的任意位置来重构声场。

本发明的上述实施例可被实现为可由各种计算机方法执行的计算机指令，并被记录在计算机可读记录介质上。计算机可读记录介质可包括程序指令、数据文件、数据结构或它们的组合。在计算机可读记录介质上记录的程序指令可针对本发明被专门设计并构成或可被那些计算机软件领域的普通技术人员公知并使用。计算机可读记录介质的示例包括磁介质(诸如硬盘、软盘和磁盘)、光学记录介质(诸如紧凑的CD-ROMs和DVDs)、磁光介质(诸如光磁盘)和专门被配置为存储和执行程序指令的硬件装置(诸如ROMs、RAMs和闪存)。程序指令的示例不但包括可由计算机使用注释器执行的高级语言代码，还包括由编译器产生的机器语言代码。硬件装置可根据本发明被改变为一个或更多个软件模块以执行处理，反之亦然。

虽然已经参照特定的特征(诸如详细的组件、限制的实施例和附图)描述了本发明，但他们仅被提供用于帮助对本发明的一般理解，并且本发明不被限于实施例，本发明所属的领域的普通技术人员可对这里描述的实施例进行各种改变和修改。

因此，本发明的理念不应仅由上述的实施例定义，还被附加的权利要求、它们的等同物或所有属于本发明理念的范围的相等的改变的范围定义。

Claims

1.一种对音频信号进行渲染的方法，所述方法包括以下步骤：

接收包括预定仰角的上方输入声道信号的多声道信号；

获得用于标准仰角的上方输入声道信号的高度渲染参数，从而提供具有高度感的声像，其中，高度渲染参数包括高度滤波器系数和高度平移系数中的至少一个；

当所述预定仰角高于所述标准仰角时，基于所述预定仰角对高度渲染参数进行更新；

使用更新后的高度渲染参数将多声道信号渲染为多个输出声道信号，从而通过所述多个输出声道信号提供具有高度感的声像，

其中，所述高度滤波器系数与头相关传输函数有关。

2.如权利要求1所述的方法，还包括：接收对所述预定仰角的输入的步骤。

3.如权利要求2所述的方法，其中，所述输入是从单独的装置接收的。

4.如权利要求1所述的方法，还包括以下步骤：

基于更新后的高度渲染参数对接收到的多声道信号进行渲染；

将渲染后的多声道信号发送到再现单元。

5.一种用于对音频信号进行渲染的设备，所述设备包括：

接收单元，用于接收包括预定仰角的上方输入声道信号的多声道信号；

渲染单元，用于获得用于标准仰角的上方输入声道信号的高度渲染参数，从而提供具有高度感的声像，当所述预定仰角高于所述标准仰角时，基于所述预定仰角对高度渲染参数进行更新，使用更新后的高度渲染参数将多声道信号渲染为多个输出声道信号，从而通过所述多个输出声道信号提供具有高度感的声像，其中，高度渲染参数包括高度滤波器系数和高度平移系数中的至少一个，

其中，所述高度滤波器系数与头相关传输函数有关。

6.如权利要求5所述的设备，还包括：用于接收对所述预定仰角的输入的输入单元。

7.如权利要求6所述的设备，其中，所述输入是从单独的装置接收的。

8.如权利要求5所述的设备，其中，渲染单元基于更新后的高度渲染参数对接收到的多声道信号进行渲染，

所述设备还包括：发送单元，用于将渲染后的多声道信号发送到再现单元。