CN110610712A

CN110610712A - 用于渲染声音信号的方法和设备以及计算机可读记录介质

Info

Publication number: CN110610712A
Application number: CN201910948868.7A
Authority: CN
Inventors: 田相培
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-04-11
Filing date: 2015-04-13
Publication date: 2019-12-24
Anticipated expiration: 2035-04-13
Also published as: CN110610712B; JP6674981B2; KR20210114558A; AU2015244473A1; JP2018201225A; AU2018208751B2; US20200252736A1; US20170034639A1; RU2698775C1; MX357942B; AU2018208751A1; US11245998B2; CN106664500A; US11785407B2; MX2016013352A; EP3131313B1; AU2015244473B2; BR112016023716A2; KR102302672B1; US10674299B2

Abstract

本发明涉及用于再现多声道音频信号的方法，多声道音频信号包括在水平表面布局环境中的高度声音信号，通过根据渲染类型获得渲染参数并且配置下混合矩阵，对于不适于应用虚拟渲染的音频信号仍可获得有效的渲染性能。根据本发明的实施方式的渲染音频信号的方法包括：接收多声道信号，所述多声道信号包括待转换至多个输出声道的多个输入声道；基于从所述多声道信号的特性确定的参数确定用于高度渲染的渲染类型；以及根据所确定的渲染类型渲染至少一个高度输入声道，其中，所述参数包括在所述多声道信号的比特流中。

Description

用于渲染声音信号的方法和设备以及计算机可读记录介质

分案申请声明

本申请是申请日为2015年4月13日、申请号为201580030824.6且发明名称为用于渲染声音信号的方法和设备以及计算机可读记录介质的中国发明专利申请的分案申请。

技术领域

本发明涉及用于渲染音频信号的方法和设备，以及更具体地，涉及用于根据渲染类型下混合多声道信号的渲染方法和设备。

背景技术

由于图像和声音处理技术的发展，产生了大量的高质量图像和声音内容。要求高质量的图像和声音内容的用户想获得逼真的图像和声音，因此对立体图像和立体声的研究已经活跃地开展。

立体声指通过不仅再现声音的音高和音色还再现包括水平方向和竖直方向的三维(3D)方向和距离感，以及具有额外的空间信息，从而给出氛围感的声音，通过该额外的空间信息，未处于产生声源的空间的听众感受到方向感、距离感和空间感。

当诸如22.2声道信号的多声道信号通过使用虚拟渲染技术被渲染成5.1声道信号时，3D立体声可通过二维(2D)输出声道再现。

发明内容

技术问题

当诸如22.2声道信号的多声道信号通过使用虚拟渲染技术渲染成5.1声道信号时，虽然三维(3D)音频信号可通过使用二维(2D)输出声道而再现，但是根据信号的特性，该3D音频信号可能不适于应用虚拟渲染。

本发明涉及用于再现立体声的方法和设备，以及更具体地，涉及再现多声道音频信号的方法，该多声道音频信号包括在水平布局环境中的高度声音信号，从而根据渲染类型获得渲染参数并配置下混合矩阵。

技术方案

本发明实现上述目的的代表性配置如下：

根据实施方式的一方面，用于渲染音频信号的方法包括：接收多声道信号，该多声道信号包括待转换至多个输出声道的多个输入声道待；基于从多声道信号的特性确定的参数确定用于高度渲染的渲染类型；以及根据确定的渲染类型渲染至少一个高度输入声道，其中，该参数包括在多声道信号的比特流中。

有益效果

当诸如22.2声道信号的多声道信号通过使用虚拟渲染技术被渲染成5.1声道信号时，虽然三维(3D)音频信号可通过二维(2D)输出声道再现，但是根据信号的特性可能不适于应用虚拟渲染。

本发明涉及用于再现多声道音频信号的方法，多声道音频信号包括在水平布局环境中的高度声音信号，通过根据渲染类型获得渲染参数并且配置下混合矩阵，对于不适于应用虚拟渲染的音频信号仍可获得有效的渲染性能。

附图说明

图1示出了根据实施方式的立体声音频再现设备的内部结构的框图。

图2示出了根据实施方式的立体声音频再现设备中的解码器和三维(3D)音频渲染器的配置的框图。

图3示出了根据实施方式的当多个输入声道下混合至多个输出声道时的声道的布局。

图4是根据实施方式的渲染器格式转换器的主要部件的框图。

图5示出了根据实施方式的基于渲染类型确定参数选择渲染类型和下混合矩阵的选择器的配置。

图6示出了根据实施方式的基于渲染类型确定参数而确定渲染类型配置的语构。

图7示出了根据实施方式的渲染音频信号的方法的流程图。

图8示出了根据实施方式的基于渲染类型渲染音频信号的方法的流程图。

图9示出了根据另一实施方式的基于渲染类型渲染音频信号的方法的流程图。

优选方式

本发明实现上述目的的代表性配置如下所示。

根据实施方式的方面，渲染音频信号的方法包括：接收多声道信号，多声道信号包括待转换至多个输出声道的多个输入声道；基于从多声道信号的特性确定的参数确定用于高度渲染的渲染类型；以及根据所确定的渲染类型渲染至少一个高度输入声道，其中，该参数包括在多声道信号的比特流中。

多声道信号可通过核心解码器解码。

确定渲染类型可包括：针对多声道信号中的每一帧确定渲染类型。

渲染至少一个高度输入声道可包括：对至少一个高度输入声道应用根据所确定的渲染类型获得的不同的下混合矩阵。

该方法还可包括：确定是否对输出信号执行虚拟渲染，其中，如果输出信号未被虚拟渲染，则确定渲染类型包括：确定渲染类型不执行高度渲染。

渲染可包括：对至少一个高度输入声道执行空间音色滤波，如果所确定的渲染类型是三维(3D)渲染类型，则对至少一个高度输入声道执行空间位置平移；以及如果所确定的渲染类型是二维(2D)渲染类型，则对至少一个高度输入声道执行一般平移。

执行空间音色滤波可包括：基于头部相关传递函数(HRTF)校正声音的音色。

执行空间位置平移可包括：通过平移多声道信号生成头上声音图像。

执行一般平移可包括：通过基于方位角平移多声道信号在水平面上生成声音图像。

可基于音频场景的属性来确定参数。

音频场景的属性可包括输入音频信号的声道之间的相关性和输入音频信号的带宽中的至少一个。

参数可在编码器处创建。

根据另一实施方式的方面，用于渲染音频信号的设备包括：接收单元、确定单元和渲染单元，其中，接收单元用于接收多声道信号，多声道信号包括待转换至多个输出声道的多个输入声道；确定单元用于基于从多声道信号的特性确定的参数确定用于高度渲染的渲染类型；以及渲染单元用于根据所确定的渲染类型渲染至少一个高度输入声道，其中，该参数包括在多声道信号的比特流中。

该设备还可包括核心解码器，其中，多声道信号通过核心解码器解码。

确定单元可针对多声道信号中的每一帧确定渲染类型。

渲染单元可对至少一个高度输入声道应用根据所确定的渲染类型获得的不同的下混合矩阵。

该设备还可包括用于确定是否对输出信号执行虚拟渲染的确定单元，其中，如果输出信号未被虚拟渲染，则确定单元确定渲染类型不执行高度渲染。

渲染单元可对至少一个高度输入声道执行空间音色滤波，如果所确定的渲染类型是3D渲染类型，则还对至少一个高度输入声道执行空间位置平移，以及如果所确定的渲染类型是2D渲染类型，则还对至少一个高度输入声道执行一般平移。

空间音色滤波可基于头部相关传递函数(HRTF)校正声音的音色。

空间位置平移可通过平移多声道信号生成头上声音图像。

一般平移可通过基于方位角平移多声道信号在水平面上生成声音图像。

可基于音频场景的属性确定参数。

参数可在编码器处创建。

根据另一实施方式的方面，计算机可读记录介质在其上记录了用于执行上述方法的程序。

另外，还提供用于实现本发明的另一方法和另一系统，以及在其上记录了用于执行该方法的计算机程序的计算机可读记录介质。

具体实施方式

下文将参考附图对本发明进行详细描述，附图示出作为示例的具体实施方式，通过这些具体实施方式可实现本发明。详细描述这些实施方式以使得本领域的普通技术人员足以实施本发明。应该理解的是，本发明的多种实施方式互不相同但不互相排斥。

例如，本说明书中陈述的具体形状、结构和特性可通过在不脱离本发明的精神和范围的情况下从一实施方式变为另一实施方式来实现。另外，应该理解的是，在不脱离本发明的精神和范围的情况下，在每个实施方式中的单独部件的位置或布局也可改变。因此，将要进行的详细描述的目的不是限定，而应该理解的是，本发明的范围包括权利要求书请求的范围和与请求的范围等同的全部范围。

附图中的相同附图标记代表在各方面相同或相似的元件。另外，在附图中，省略了与描述无关的部分以清楚地描述本发明，以及在说明书全文中相同的附图标记代表相同的元件。

在下文中，将参考附图详细描述本发明的实施方式以使得本发明所属技术领域的普通技术人员能够容易地实施本发明。然而，本发明可以以多种不同形式实现并且不限于本文描述的实施方式。

在本说明书全文中，当描述为某元件“连接”至另一元件时，这包括“直接连接”的情况和通过在中间的另一元件“电连接”的情况。另外，当某部分“包括”某部件时，除非有具体不同的公开，否则这表示该部分还可包括另外的部件，而并非排除另外的部件。

在下文中，参考附图详细描述本发明。

图1是示出根据实施方式的立体声音频再现设备100的内部结构的框图。

根据实施方式的立体声音频再现设备100可输出多声道音频信号，在多声道音频信号中，多个输入声道被混合至多个输出声道从而被再现。在此情况下，如果输出声道的数量小于输入声道的数量，则输入声道被下混合以满足输出声道的数量。

立体声指通过不仅再现声音的音高和音色还再现方向和距离感，以及具有额外的空间信息，从而具有氛围感的声音，通过该额外的空间信息，未处于产生声源的空间的听众感受到方向感、距离感和空间感。

在下文的描述中，音频信号的输出声道可指输出声音的扬声器的数量。输出声道的数量越多，输出声音的扬声器的数量越多。根据实施方式，立体声音频再现设备100可将多声道音频输入信号渲染和混合至待再现的输出声道，以使得可在具有较少数量的输出声道的环境中输出和再现具有较多数量的输入声道的多声道音频信号。在此情况下，多声道音频信号可包括可输出抬高的声音的声道。

可输出抬高的声音的声道可指这样的声道，在这样的声道中可通过位于听众的头部上方的扬声器输出音频信号以使得听众感受高度。水平声道可指可通过位于与听众相同的水平面上的扬声器输出音频信号的声道。

具有较少数量的输出声道的上述环境可指可通过布置在水平面上的、没有可输出抬高的声音的输出声道的扬声器输出声音的环境。

另外，在下文的描述中，水平声道可指包括可通过位于水平面上的扬声器输出的音频信号的声道。头上声道可指包括可通过位于水平面以上的抬高的位置上的、输出抬高的声音的扬声器输出的音频信号的声道。

参考图1，根据实施方式的立体声音频再现设备100可包括核心解码器110，渲染器120，混合器130和后处理单元140。

根据实施方式，立体声音频再现设备100可通过渲染和混合多声道输入音频信号来输出待再现的声道。例如，多声道输入音频信号可以是22.2声道信号，以及待再现的输出声道可以是5.1声道或7.1声道。立体声音频再现设备100可通过确定与多声道输入音频信号的每个声道对应的输出声道来执行渲染，以及通过合成与待再现的声道对应的声道的信号以及输出合成信号作为最终信号来混合渲染的音频信号。

编码的音频信号以比特流的格式输入至核心解码器110。核心解码器110通过选择适于编码音频信号的方案的解码器工具来解码输入音频信号。音频核心可用以具有与核心解码器110相同的含义。

渲染器120可根据声道和频率将多声道输入音频信号渲染至多声道输出声道。渲染器120可执行包括头上声道和水平声道的多声道音频信号的三维(3D)渲染和二维(2D)渲染。渲染器的配置和具体的渲染方法将参考图2更详细地描述。

混合器130可通过合成与渲染器120的水平声道对应的声道的信号来输出最终信号。混合器130可针对每个设定的区段混合声道的信号。例如，混合器130可针对每一帧混合声道的信号。

根据实施方式，混合器130可基于渲染至各个待再现的声道的信号的功率值执行混合。换言之，混合器130可基于渲染至待再现的各个声道的信号的功率值确定最终信号的振幅或待应用于最终信号的增益。

后处理单元140对混合器130的输出信号执行多频带信号的动态范围控制和双声道化(binauralizing)，以满足每个再现装置(扬声器或耳机)。从后处理单元140输出的输出音频信号通过诸如扬声器的装置输出，以及输出音频信号可根据每个部件的处理以2D或3D的方式再现。

根据图1的实施方式的立体声音频再现设备100基于音频解码器的配置被示出，并且省略了附属配置。

图2是示出根据实施方式的立体声音频再现100中的核心解码器110和3D音频渲染器120的配置的框图。

参考图2，根据实施方式，立体声音频再现设备100基于核心解码器110和3D音频渲染器120的配置被示出，并且省略了其它配置。

输入至立体声音频再现设备100的音频信号是编码的信号，并且以比特流的格式被输入。核心解码器110通过选择适于编码音频信号的方案的解码器工具来解码输入音频信号，并且将解码的音频信号传输至3D音频渲染器120。

如果执行高度渲染，可通过仅包括水平声道的5.1声道布局获得虚拟3D抬高的声音图像。这种高度渲染算法包括空间音色滤波和空间位置平移过程。

3D音频渲染器120包括初始化单元121和渲染单元123，初始化单元121用于获得和更新滤波器系数和平移系数，渲染单元123用于执行滤波和平移。

渲染单元123对从核心解码器110传输的音频信号执行滤波和平移。空间音色滤波单元1231处理关于声音的位置的信息，以使得渲染的音频信号在要求的位置处再现。空间位置平移单元1232处理关于声音的音色的信息，以使得渲染的音频信号具有适合于要求的位置的音色。

空间音色滤波单元1231设计为基于头部相关传递函数(HRTF)建模来校正声音的音色并且反映输入声道传播至输出声道的路径的差异。例如，空间音色滤波单元1231可校正声音的音色以放大关于1kHz至10kHz的频带的信号的能量并减少关于其它频带的能量，从而获得更自然的声音音色。

空间位置平移单元1232设计为通过多声道平移提供头上声音图像。对输入声道应用不同的平移系数(增益)。虽然通过执行空间位置平移可获得头上声音图像，但是可能增加声道之间的相似度，这提高了全部音频场景的相关性。当对非常不相关的音频场景执行虚拟渲染时，可基于音频场景的特性确定渲染类型以防止渲染品质下降。

可替代地，当音频信号产生时，可根据音频信号产生者(创建者)的意图确定渲染类型。在此情况下，音频信号产生者可手动地确定关于音频信号的渲染类型的信息并且可在音频信号中包括用于确定渲染类型的参数。

例如，编码器在编码的数据帧中生成诸如rendering3DType的附加信息并且将该附加信息传输至核心解码器110，该附加信息是用于确定渲染类型的参数。核心解码器110可确认rendering3DType信息，如果rendering3DType指示3D渲染类型，则执行空间音色滤波和空间位置平移，以及，如果rendering3DType指示2D渲染类型，则执行空间音色滤波和一般平移。

就此而言，可基于输入音频信号的方位角信息而不考虑输入音频信号的俯仰角信息而对多声道信号执行一般平移。执行一般平移的音频信号不提供具有高度感的声音图像，所以水平面上的2D声音图像传输至用户。

应用于3D渲染的空间位置平移可针对每个频率具有不同的平移系数。

就此而言，待用于滤波的滤波器参数和待用于平移的平移参数从初始化单元121传输。初始化单元121包括高度渲染参数获得单元1211和高度渲染参数更新单元1212。

高度渲染参数获得单元1211通过使用输出声道(即，扬声器)的配置和布局获得高度渲染参数的初始化值。就此而言，基于根据标准布局的输出声道的配置和根据高度渲染设定的输入声道的配置来计算高度渲染参数的初始化值，或者根据输入/输出声道之间的映射关系针对高度渲染参数的初始化值读取预存储的初始化值。高度渲染参数可包括待由空间音色滤波单元1231使用的滤波器系数或待由空间位置平移单元1232使用的平移系数。

然而，如上所述，用于高度渲染的设定高度值和输入声道的设定之间可能存在偏差。在此情况下，当使用固定的设定高度值时，很难实现以下目的：虚拟渲染3D音频信号以通过输出声道再现与3D音频信号的原声更相似的3D音频信号，其中，输出声道具有与输入声道不同的配置。

例如，当高度感太强时，可能出现音频图像小并且声音品质下降的现象，以及当高度感太弱时，可能出现难以感觉到虚拟渲染的效果的问题。因此，有必要根据用户的设定或虚拟渲染的适合于输入声道的程度来调整高度感。

高度渲染参数更新单元1212通过使用由高度渲染参数获得单元1211获得的高度渲染参数的初始化值基于输入声道的高度信息或用户的设定高度来更新高度渲染参数。就此而言，如果输出声道的扬音器布局相对于标准布局存在偏差，可增添根据偏差校正影响的过程。输出声道偏差可包括根据俯仰角差异或方位角差异的偏差信息。

通过与每个输出声道对应的扬声器来再现由渲染单元123通过使用由初始化单元121获得并更新的高度渲染参数进行滤波和平移的输出音频信号。

图3示出根据实施方式的当多个输入声道下混合至多个输出声道时的声道的布局。

为了提供与3D图像中的逼真性相同或更夸张的真实感和代入感，与3D立体图像一起开发了用于提供3D立体声的技术。立体声指音频信号本身给出声音的高度感和空间感的声音，并且为了再现这种立体声，需要至少两个扬声器(即，输出声道)。另外，除了使用HRTF的双声道立体声之外，为了更精确地再现声音的高度感、距离感和空间感，需要更多数量的输出声道。

因此，提出和开发了具有两个输出声道的立体声系统和诸如5.1声道系统、Auro3D系统、Holman 10.2声道系统、ETRI/Samsung 10.2声道系统和NHK 22.2声道系统的多种多声道系统。

图3示出通过5.1声道输出系统再现22.2声道3D音频信号的情况。

5.1声道系统是五声道环绕多声道声音系统的通用名称，并且是用作家庭影院和剧院声音系统的最流行的系统。整个5.1声道包括左前(FL)声道、中部(C)声道、右前(FR)声道、左环绕(SL)声道和右环绕(SR)声道。如图3所示，由于5.1声道的全部输出在相同平面上，5.1声道系统物理上与2D系统对应，并且为了通过使用5.1声道系统再现3D音频信号，必须执行渲染过程以赋予信号3D效果。

5.1声道系统广泛使用在多种领域，不仅在电影领域，还在DVD图像领域、DVD声音领域、超级音频压缩光盘(SACD)领域或数字广播领域。然而，虽然5.1声道系统相较于立体声系统提供改善的空间感，但是与诸如22.2声道系统的多声道音频表现方法比较，在形成较宽广的收听空间方面有若干局限。具体地，由于当执行虚拟渲染时最佳听音点形成得窄，以及当执行一般渲染时不能提供具有俯仰角的竖直音频图像，所以5.1声道系统可能不适合于诸如在剧院中的宽广的收听空间。

如图3所示，由NHK提出的22.2声道系统包括三层输出声道。上层310包括上帝之音(VOG)声道、T0声道、T180声道、TL45声道、TL90声道、TL135声道、TR45声道、TR90声道和TR135声道。在本文中，每个声道名称的第一个字母的标志T表示上层，标志L和标志R分别表示左和右，以及字母后的数字表示关于中部声道的方位角。上层通常称作顶层。

VOG声道是在听众的头部上方的声道，具有的俯仰角，并且没有方位角。然而，当VOG声道稍有定位错误时，VOG声道就带有方位角和不同于的俯仰角，因此VOG声道可能就不再起VOG声道的作用。

中间层320位于与现有的5.1声道相同的平面上，并且除了5.1声道的输出声道外，还包括ML60声道、ML90声道、ML135声道、MR60声道、MR90声道和MR135声道。就此而言，每个声道名称的第一个字母的标志M表示中间层，并且后面的数字表示关于中部声道的方位角。

下层330包括L0声道、LL45声道和LR45声道。就此而言，每个声道名称的第一个字母的标志L表示下层，并且后面的数字表示关于中部声道的方位角。

在22.2声道中，中间层称作水平声道，对应于方位角0°或180°的VOG声道、T0声道、T180声道、M180声道、L声道和C声道称作竖直声道。

当使用5.1声道系统再现22.2声道输入信号时，根据最通常的方法，可使用下混合表达来分配声道间的信号。可替代地，可执行用于提供虚拟高度感的渲染以使得5.1声道系统再现具有高度感的音频信号。

图4是根据实施方式的渲染器的主要部件的框图。

渲染器是将具有Nin个声道的多声道输入信号转换成具有Nout个声道的再现格式的下混合器，也称作格式转换器。就此而言，Nout<Nin。图4是根据下混合的渲染器配置的格式转换器的主要部件的框图。

编码的音频信号以比特流的格式输入至核心解码器110。输入至核心解码器110的信号通过适合于编码方案的解码器工具解码，并且输入至格式转换器125。

格式转换器125包括两个主要模块。第一主要模块是下混合配置单元1251，它执行负责诸如输入格式和输出格式的静态参数的初始化算法。第二主要模块是下混合单元1252，它基于通过使用初始化算法而获得的下混合参数来下混合混合器输出信号。

下混合配置单元1251生成下混合参数，该下混合参数是基于与输入声道信号对应的布局的混合器输出布局和与输出声道的布局对应的再现布局而被优化的。下混合器参数可以是下混合矩阵，并且由给定的输入格式和输出声道的可行的组合而确定。

就此而言，考虑到心理学音频，选择输出扬声器(输出声道)的算法通过包括在映射规则表中的最适合的映射规则被应用于每个输入声道。映射规则设计成将一个输入声道映射到一个输出扬声器或多个输出扬声器。

一个输入声道可映射到一个输出声道或者可平移到两个输出声道。例如VOG声道的输入声道可分配到多个输出声道。可选地，输入信号可根据频率平移到具有不同平移系数的多个输出声道，并且被代入式地渲染以给出氛围感。仅有诸如5.1声道的水平声道的输出声道需要具有虚拟高度(高)声道以使得给出氛围感，因而高度渲染被应用于输出声道。

根据可能以期望的输出格式被渲染的输出扬声器的列表选择每个输入声道的优化映射。生成的映射参数可不仅包括关于输入声道的下混合增益，还包括均衡器(音色滤波器)系数。

在生成下混合参数的过程期间，当输出声道超出标准布局时，例如，当输出声道不仅有高度偏差或方位偏差，还有距离偏差时，可基于此而增添更新或校正下混合参数的过程。

下混合单元1252根据用于确定渲染类型的参数确定渲染模式，并且根据确定的渲染模式下混合核心解码器110的混合器输出信号，其中，用于确定渲染类型的参数包括在核心解码器110的输出信号中。就此而言，用于确定渲染类型的参数可由编码多声道信号的编码器确定，并且可包括在由核心解码器110解码的多声道信号中。

用于确定渲染类型的参数可针对音频信号的每个帧来确定，并且可存储在帧的显示附加信息的域中。如果可能由渲染器渲染的渲染类型的数量是有限的，则用于确定渲染类型的参数可以是尽可能小的比特数，例如，如果显示有两个渲染类型，则可配置成具有1比特的标记。

下混合单元1252在频率范围内和杂化正交镜像滤波器(QMF)子带范围内执行下混合，以及为了防止信号由于梳齿形滤波器、声染色或信号调制的缺陷而导致恶化而执行相位对准和能量归一化。

相位对准是在下混合输入信号之前调整具有相关性但具有不同相位的输入信号的相位的过程。相位对准过程仅关于相关的时间-频率片对准相关声道而不需要改变输入信号的任何其它部分。在相位对准期间，由于相位校正间隔为了对准而迅速变化，应当注意防止缺陷。

如果执行相位对准过程，则可避免窄频谱间距，从而可改善输出信号的品质，其中，该窄频谱间距是由于有限频率分辨率而造成的并且不能通过能量归一化来补偿。另外，在能量保留归一化期间不需要放大信号，从而可降低调制缺陷。

在高度渲染中，为了渲染的多声道信号的精确同步，不对高频带的输入信号执行相位对准。

在下混合期间，执行能量归一化以保留输入能量，而当下混合矩阵自身执行能量标度时则不执行能量归一化。

图5示出根据实施方式基于渲染类型确定参数来选择渲染类型和下混合矩阵的选择器的配置。

根据实施方式，基于用于确定渲染类型的参数来确定渲染类型，以及根据确定的渲染类型执行渲染。如果用于确定渲染类型的参数是具有1比特的大小的rendering3DType标记，则当rendering3DType是1(TRUE)时选择器进行操作以执行3D渲染，以及当rendering3DType是0(FALSE)时选择器进行操作以执行2D渲染，以及选择器根据rendering3DType的值进行切换。

就此而言，M_DMX被选为用于3D渲染的下混合矩阵，而M_DMX2被选为用于2D渲染的下混合矩阵。下混合矩阵M_DMX和M_DMX2中的每个由图2的初始化单元121或者图4的下混合配置单元1251选择。M_DMX是用于空间高度渲染的基础下混合矩阵，该下混合矩阵包括非负实数的下混合系数(增益)。M_DMX的大小是(Nout×Nin)，其中，Nout表示输出声道的数量，Nin表示输入声道的数量。M_DMX2是用于音色高度渲染的基础下混合矩阵，该基础下混合矩阵包括非负实数的下混合系数(增益)。与M_DMX类似，M_DMX2的大小是(Nout×Nin)。

根据选择的渲染类型通过使用适合于每个渲染类型的下混合矩阵来为每个杂化QMF频率子带下混合输入信号。

图6示出根据实施方式的基于渲染类型确定参数确定渲染类型配置的语构(Syntax)。

与图5所示的方式相同，用于确定渲染类型的参数是具有1比特的大小的rendering3DType标记，并且RenderingTypeConfig()限定用于格式转换的适当的渲染类型。

rendering3DType可由编码器生成。就此而言，rendering3DType可基于音频信号的音频场景来确定。如果音频场景是宽带信号或者是非常不相关的信号(例如雨声或鼓掌声等)，则rendering3DType是FALSE，因此多声道信号通过使用用于2D渲染的下混合矩阵M_DMX2来下混合。在其它情况中，对于一般音频场景，rendering3DType是TRUE，因此多声道信号通过使用用于3D渲染的下混合矩阵M_DMX来下混合。

可替代地，可根据音频信号产生者(创建者)的意图来确定rendering3DType。通过使用用于2D渲染的下混合矩阵M_DMX2，创建者下混合设定为执行2D渲染的音频信号(帧)。在其它情况中，对于一般音频场景，rendering3DType是TRUE，因此创建者通过使用用于3D渲染的下混合矩阵M_DMX下混合音频信号(帧)。

就此而言，当执行3D渲染时，空间音色滤波和空间位置平移二者被执行，然而，当执行2D渲染时，仅执行空间音色滤波。

图7是根据实施方式渲染音频信号的方法的流程图。

如果由核心解码器110解码的多声道信号输入至格式转换器125或渲染器120，则基于输入声道和输出声道的标准布局来获得渲染参数的初始化值(操作710)。就此而言，获得的渲染参数的初始化值可根据可能由渲染器120渲染的渲染类型而不同地确定，并且可存储在音频信号再现系统的诸如只读存储器(ROM)的非易失性存储器中。

基于根据标准布局的输出声道的配置和根据高度渲染设定的输入声道的配置来计算高度渲染参数的初始化值，或者根据输入/输出声道之间的映射关系针对高度渲染参数的初始化值读取预存储的初始化值。高度渲染参数可包括待由图2的空间音色滤波单元1231使用的滤波器系数或待由图2的空间位置平移单元1232使用的平移系数。

就此而言，如果输入/输出声道的布局与全部标准布局一致，则可通过使用在操作710中获得的渲染参数的初始化值来执行渲染。然而，当用于渲染的设定高度值和输入声道的设定之间存在偏差，或者扬声器实际安装的布局和输出声道的标准布局之间存在偏差时，如果使用在操作710中获得的初始化值来进行渲染，则将出现以下现象：扭曲的或渲染的声音图像信号在不是原位置的位置上输出。

因此，基于输入/输出声道的标准布局与实际布局之间的偏差来更新渲染参数(操作720)。就此而言，更新的渲染参数可根据可能由渲染器120渲染的渲染类型而不同地确定。

更新的渲染参数可根据每个渲染类型而针对每个杂化QMF子带具有大小为Nin xNout的矩阵格式。Nin表示输入声道的数量。Nout表示输出声道的数量。就此而言，表示渲染参数的矩阵称作下混合矩阵。M_DMX表示用于3D渲染的下混合矩阵。M_DMX2表示用于2D渲染的下混合矩阵。

如果确定了下混合矩阵M_DMX和M_DMX2，则基于用于确定渲染类型的参数而确定适于当前帧的渲染类型(操作730)。

用于确定渲染类型的参数可包括在输入至核心解码器的比特流中，在编码器编码音频信号时即生成了该用于确定渲染类型的参数。可根据当前帧的音频场景的特性来确定用于确定渲染类型的参数。当音频信号有许多诸如鼓掌声或雨声的瞬时信号时，由于有很多瞬间和短暂的信号，音频场景具有声道之间低相关性的特性。

当声道之间存在非常不相关的信号或者在多个输入声道中存在无调的宽带信号时，对于每个声道，信号的级别是相似的，或者短区段的脉冲形状是重复的，如果多个声道的信号下混合至一个声道，则发生失相(phaseyness)现象和音色扭曲现象，失相现象是由于频率的互相干扰而发生偏移效果使得声音的音色改变的现象，而音色扭曲现象是一个声道的瞬时信号的数量增加使得产生声音白化。

在此情况下，执行作为2D渲染的音色高度渲染而不执行作为3D渲染的空间高度渲染可能更好。

因此，在正常情况下，作为分析音频场景的特性的结果，渲染类型可确定为3D渲染类型，而如果存在宽带信号或者在声道之间存在非常不相关的信号，则渲染类型可确定为2D渲染类型。

如果确定了适合于当前帧的渲染类型，则基于确定的渲染类型获得渲染参数(操作740)。基于获得的渲染参数渲染当前帧(操作750)。

如果确定的渲染类型是3D渲染类型，则存储下混合矩阵的存储单元可获得用于3D渲染的下混合矩阵M_DMX。下混合矩阵M_DMX通过对每个杂化QMF子带使用具有Nin×Nout的大小的矩阵将一个杂化QMF子带的Nin个输入声道的信号下混合至Nout个输出声道。

如果确定的渲染类型是2D渲染类型，则存储下混合矩阵的存储单元可获得用于2D渲染的下混合矩阵M_DMX2。下混合矩阵M_DMX2通过对每个杂化QMF子带使用具有Nin×Nout的大小的矩阵将一个杂化QMF子带的Nin个输入声道的信号下混合至Nout个输出声道。

对每个帧重复执行用于确定适于当前帧的渲染类型的过程(操作730)，基于确定的渲染类型获得渲染参数的过程(操作740)，以及基于获得的渲染参数渲染当前帧的过程(操作750)，直至由核心解码器解码的多声道信号的输入结束。

图8是根据实施方式的基于渲染类型渲染音频信号的方法的流程图。

在图8的实施方式中，增添了操作810，在操作810中根据输入/输出声道之间的关系确定高度渲染是否可行。

基于根据输入声道和再现布局的下混合规则的优先级确定高度渲染是否可行。

如果基于根据输入声道和再现布局的下混合规则的优先级不执行高度渲染，则获得用于非高度渲染的渲染参数(操作850)从而执行非高度渲染。

如果操作810中确定的结果是高度渲染可行，则根据高度渲染类型参数确定渲染类型(操作820)。如果高度渲染类型参数指示2D渲染，则渲染类型确定为2D渲染类型，并且获得用于2D渲染的2D渲染参数(操作830)。另外，如果高度渲染类型参数指示3D渲染，则渲染类型确定为3D渲染类型，并且获得用于3D渲染的3D渲染参数(操作840)。

通过上述过程获得的渲染参数是用于一个输入声道的渲染参数。通过对每个输入声道重复相同的过程来获得每个声道的渲染参数，并且每个声道的渲染参数用于获得全部输入声道的全部下混合矩阵(操作860)。下混合矩阵是用于通过将输入声道信号下混合至输出声道信号而渲染输入信号的矩阵，并且对于每个杂化QMF子带具有Nin×Nout的大小。

如果获得了下混合矩阵，则通过使用获得的下混合矩阵下混合输入声道信号(操作870)以生成输出信号。

如果对于解码的信号的每个帧存在高度渲染类型参数，则对每个帧重复执行图8的操作810至操作870的过程。如果对最后一帧的处理结束，则整个渲染过程结束。

就此而言，当执行非高度渲染时，在全部频带上执行有效的下混合。当执行高度渲染时，仅在低频带上执行相位对准，而不在高频带上执行相位对准。出于如上所述的为了渲染的多声道信号的精确同步的原因而不在高频带上执行相位对准。

图9是根据另一实施方式的基于渲染类型渲染音频信号的方法的流程图。

在图9的实施方式中增添了操作910，在操作910中确定输出声道是否是虚拟声道。如果输出声道不是虚拟声道，则由于不必执行高度渲染或虚拟渲染，所以基于有效下混合规则的优先级执行非高度渲染。因而，获得用于非高度渲染的渲染参数(操作960)从而执行非高度渲染。

如果输出声道是虚拟声道，则根据输入/输出声道之间的关系确定高度渲染是否可行(操作920)。基于根据输入声道和再现布局的下混合规则的优先级确定高度渲染是否可行。

如果基于根据输入声道和再现布局的下混合规则的优先级不执行高度渲染，则获得用于非高度渲染的渲染参数(操作960)从而执行非高度渲染。

如果操作920中确定的结果为高度渲染可行，则根据高度渲染类型参数确定渲染类型(操作930)。如果高度渲染类型参数指示2D渲染，则渲染类型确定为2D渲染类型，并且获得用于2D渲染的2D渲染参数(操作940)。另外，如果高度渲染类型参数指示3D渲染，则渲染类型确定为3D渲染类型，并且获得用于3D渲染的3D渲染参数(操作950)。

2D渲染和3D渲染分别与音色高度渲染和空间高度渲染一起使用。

通过上述过程获得的渲染参数是用于一个输入声道的渲染参数。通过对每个输入声道重复相同的过程来获得每个声道的渲染参数，并且每个声道的渲染参数用于获得全部输入声道的全部下混合矩阵(操作970)。下混合矩阵是用于通过将输入声道信号下混合至输出声道信号而渲染输入信号的矩阵，并且对于每个杂化QMF子带具有Nin×Nout的大小。

如果获得了下混合矩阵，则通过使用获得的下混合矩阵下混合输入声道信号(操作980)以生成输出信号。

如果对于解码的信号的每个帧存在高度渲染类型参数，则对每个帧重复执行图9的操作910至操作980的过程。如果对最后一帧的处理结束，则整个渲染过程结束。

本发明的上述实施方式可实现为可通过各种计算机装置执行的计算机指令，以及可记录在计算机可读记录介质上。计算机可读记录介质可包括程序命令、数据文件、数据结构或它们的组合。记录在计算机可读记录介质上的程序命令可针对本发明专门设计和构造，或者可以被计算机软件领域中的普通技术人员知晓和使用。计算机可读介质的示例包括诸如硬盘、软盘和磁带的磁性介质，诸如压缩CD-ROM和DVD的光学记录介质，诸如光磁盘的磁光介质，以及诸如ROM、RAM和闪存的、专门配置为存储和执行程序命令的硬件装置。程序命令的示例包括可由使用解译器的计算机执行的高级语言代码以及由编译器产生的机器语言代码。硬件装置可变成一个或多个软件模块以执行根据本发明的处理，反之亦然。

虽然参考诸如具体部件、有限的实施方式和附图的具体特征描述了本发明，但是这些特征仅提供用于帮助整体地理解本发明，而本发明不限于这些实施方式，并且本发明所属技术领域的普通技术人员可对本文描述的实施方式进行各种改变和修改。

因此，本发明构思不应仅由上述实施方式限定，并且所附权利要求、权利要求的等同物或者从权利要求等同地变化出的全部范围均属于本发明构思的范围。

Claims

1.用于渲染音频信号的方法，所述方法包括：

接收包括高度输入声道信号的多个输入声道信号以及附加信息；

确定与所述高度输入声道信号对应的输出声道是否是虚拟声道；

基于将所述输入声道信号映射至多个输出声道信号的预定表来确定高度渲染是否可行；

当与所述输入声道信号对应的输出声道是所述虚拟声道并且所述高度渲染可行时，获取高度渲染参数；

当与所述输入声道信号对应的输出声道不是所述虚拟声道时，获取非高度渲染参数；

基于所述高度渲染参数和所述非高度渲染参数中的至少一项来获取第一下混合矩阵和第二下混合矩阵；

使用根据所述附加信息选择的所述第一下混合矩阵和所述第二下混合矩阵中的一项将所述多个输入声道信号渲染成所述多个输出声道信号；

其中，所述渲染包括：

如果所述附加信息展现用于一般模式的渲染类型，则通过使用所述第一下混合矩阵对所述多个输入声道信号进行渲染；以及

如果所述附加信息展现用于包括高度不相关宽带信号的多个输入声道信号的渲染类型，则通过使用所述第二下混合矩阵对所述多个输入声道信号进行渲染，

其中，针对每一帧接收所述附加信息。

2.根据权利要求1所述的方法，其中，根据所述多个输出声道信号的布局是5.1声道布局或5.0声道布局中的一项。

3.用于渲染音频信号的设备，所述设备包括：

至少一个处理器，配置成：

确定与所述输入声道信号对应的输出声道是否是虚拟声道；

其中，所述处理器还配置成：

其中，针对每一帧接收所述附加信息。

4.用于渲染音频信号的设备，所述设备包括：

至少一个处理器，配置成：

接收包括高度输入声道信号的多个输入声道信号；

基于将所述高度输入声道信号映射至多个输出声道信号的预定表来确定高度渲染是否可行；

当与所述高度输入声道信号对应的输出声道是所述虚拟声道并且所述高度渲染可行时，获取高度渲染参数；

当与所述高度输入声道信号对应的输出声道不是所述虚拟声道时，获取非高度渲染参数；以及

基于所述高度渲染参数和所述非高度渲染参数中的至少一项来获取下混合矩阵，以将所述多个输入声道信号转换成所述多个输出声道信号，

其中，所述下混合矩阵包括用于3D渲染的第一下混合矩阵或用于2D渲染的第二下混合矩阵中的至少一项。

5.根据权利要求4所述的设备，所述处理器还配置成：

接收包括rendering3DType的比特流；以及

当所述rendering3DType为真值时，选择所述第一下混合矩阵，以及当所述rendering3DType为假值时，选择所述第二下混合矩阵。

6.根据权利要求4所述的设备，其中，根据所述多个输出声道信号的布局是5.1声道布局或5.0声道布局中的一项。