CN107690123B

CN107690123B - 音频提供方法

Info

Publication number: CN107690123B
Application number: CN201710950921.8A
Authority: CN
Inventors: 田相培; 金善民; 朴在夏; 孙尚模; 赵炫; 郑炫周
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-12-04
Filing date: 2013-12-04
Publication date: 2021-04-02
Anticipated expiration: 2033-12-04
Also published as: JP6843945B2; JP2017201815A; KR20150100721A; RU2695508C1; CA3031476A1; KR102037418B1; KR20170132902A; AU2016238969B2; AU2013355504B2; US20150350802A1; MX347100B; BR112015013154B1; JP2016503635A; US10149084B2; US10341800B2; CN104969576B; MX2019011755A; AU2018236694A1; US20180359586A1; CN104969576A

Abstract

提供一种音频提供方法。音频提供设备包括：对象渲染单元，通过使用关于对象音频信号的几何信息来渲染对象音频信号；声道渲染单元，将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号；混合单元，将渲染的对象音频信号与具有第二声道数量的音频信号进行混合。

Description

音频提供方法

本申请是申请日为2013年12月4日、申请号为201380072141.8、题为“音频提供设备和方法”的专利申请的分案申请。

技术领域

本发明构思涉及一种音频提供设备和方法，更具体地，涉及一种渲染和输出具有针对音频再现系统最佳的各种格式的音频信号的音频提供设备和方法。

背景技术

目前，在多媒体市场中正在使用各种音频格式。例如，音频提供设备提供从2声道音频格式到22.2声道音频格式的各种音频格式。具体地，正提供使用诸如在三维空间中表现声源的7.1声道、11.1声道和22.2声道的声道的音频系统。

然而，大部分当前提供的音频信号具有2.1声道格式或5.1声道格式，并且在三维空间中表现音源方面受限。另外，在家中建立用于再现7.1声道、11.1声道和22.2声道音频信号的音频系统是特别困难的。

因此，需要开发一种根据输入信号的格式和音频再现系统来主动地渲染音频信号的方法。

发明内容

技术问题

本发明构思提供一种音频提供方法和使用该方法的音频提供设备，其中，所述音频提供方法和音频提供设备通过对声道音频信号进行向上混合或向下混合来针对收听环境而优化声道音频信号，并根据几何信息渲染对象音频信号以提供针对收听环境而被优化的声像。

技术方案

根据本发明构思的一方面，提供了一种音频提供设备，包括：对象渲染单元，基于关于对象音频信号的几何信息来渲染对象音频信号；声道渲染单元，将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号；混合单元，将渲染的对象音频信号与具有第二声道数量的音频信号进行混合。

对象渲染单元可包括：几何信息分析器，将关于对象音频信号的几何信息转换为三维(3D)坐标信息；距离控制器，基于3D坐标信息产生距离控制信息；深度控制器，基于3D坐标信息产生深度控制信息；定位器，基于3D坐标信息产生用于对对象音频信号进行定位的定位信息；渲染器，基于距离控制信息、深度控制信息和定位信息来渲染对象音频信号。

距离控制器可获取对象音频信号的距离增益。随着对象音频信号的距离增大，距离控制器可使对象音频信号的距离增益减小，而随着对象音频信号的距离减小，距离控制器可使对象音频信号的距离增益增大。

深度控制器可基于对象音频信号的水平投射距离获取深度增益，深度增益可被表示为负矢量与正矢量之和，或者可被表示为负矢量与空矢量之和。

定位器可根据音频提供设备的扬声器布局来获取用于对对象音频信号进行定位的平移增益。

渲染器可基于对象音频信号的深度增益、平移增益和距离增益将对象音频信号渲染为多声道对象音频信号。

当对象音频信号为多个对象音频信号时，对象渲染单元可获取所述多个对象音频信号之中具有相关性的多个对象音频信号之间的相位差，并将具有相关性的多个对象音频信号之一移动获取的相位差以对具有相关性的多个对象音频信号进行组合。

当音频提供设备通过使用具有相同高度的多个扬声器来再现音频时，对象渲染单元可包括：虚拟滤波器，对对象音频信号的频谱特性进行校正并将虚拟高度信息添加到对象音频信号；虚拟渲染器，基于由虚拟滤波器提供的虚拟高度信息来渲染对象音频信号。

虚拟滤波器可具有包括多级的树结构。

当具有第一声道数量的音频信号的布局为二维(2D)布局时，声道渲染单元可将具有第一声道数量的音频信号向上混合为具有大于第一声道数量的第二声道数量的音频信号，具有第二声道数量的音频信号的布局可以是具有高度信息的三维(3D)布局，其中，所述高度信息不同于与具有第一声道数量的音频信号有关的高度信息。

当具有第一声道数量的音频信号的布局为三维(3D)布局时，声道渲染单元可将具有第一声道数量的音频信号向下混合为具有小于第一声道数量的第二声道数量的音频信号，具有第二声道数量的音频信号的布局可以是二维(2D)布局，其中，在二维布局中多个声道具有相同的高度分量。

从对象音频信号和具有第一声道数量的音频信号中选择的至少一个可包括用于确定是否对特定帧执行虚拟三维(3D)渲染的信息。

声道渲染单元可在将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号的操作中获取具有相关性的多个音频信号之间的相位差，并将具有相关性的多个音频信号之一移动获取的相位差以对具有相关性的多个音频信号进行组合。

混合单元可在将渲染的对象音频信号与具有第二声道数量的音频信号进行混合的同时获取具有相关性的多个音频信号之间的相位差，并将具有相关性的多个音频信号之一移动获取的相位差以对具有相关性的多个音频信号进行组合。

对象音频信号可包括关于对象音频信号的标识(ID)和类型信息中的至少一个，从而使用户能够对对象音频信号进行选择。

根据本发明构思的另一方面，提供了一种音频提供方法，包括：基于关于对象音频信号的几何信息来渲染对象音频信号；将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号；将渲染的对象音频信号与具有第二声道数量的音频信号进行混合。

渲染对象音频信号的步骤可包括：将关于对象音频信号的几何信息转换为三维(3D)坐标信息；基于3D坐标信息，产生距离控制信息；基于3D坐标信息，产生深度控制信息；基于3D坐标信息，产生用于对对象音频信号进行定位的定位信息；基于距离控制信息、深度控制信息和定位信息，渲染对象音频信号。

产生距离控制信息的步骤可包括：获取对象音频信号的距离增益；随着对象音频信号的距离增大，使对象音频信号的距离增益减小；随着对象音频信号的距离减小，使对象音频信号的距离增益增大。

产生深度控制信息的步骤可包括：基于对象音频信号的水平投射距离来获取深度增益，深度增益可被表示为负矢量与正矢量之和，或者可被表示为负矢量与空矢量之和。

产生定位信息的步骤可包括：根据音频提供设备的扬声器布局获取用于对对象音频信号进行定位的平移增益。

渲染步骤可包括：基于对象音频信号的深度增益、平移增益和距离增益，将对象音频信号渲染为多声道对象音频信号。

渲染对象音频信号的步骤可包括：当对象音频信号为多个对象音频信号时，获取所述多个对象音频信号之中具有相关性的多个对象音频信号之间的相位差，并将具有相关性的多个对象音频信号之一移动获取的相位差以对具有相关性的多个对象音频信号进行组合。

当音频提供设备通过使用具有相同高度的多个扬声器来再现音频时，渲染对象音频信号的步骤可包括：对对象音频信号的频谱特性进行校正并将虚拟高度信息添加到对象音频信号；基于由虚拟滤波器提供的虚拟高度信息来渲染对象音频信号。

获取步骤可包括：通过使用具有包括多级的树结构的虚拟滤波器来获取关于对象音频信号的虚拟高度信息。

将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号的步骤可包括：当具有第一声道数量的音频信号的布局为二维(2D)布局时，将具有第一声道数量的音频信号向上混合为具有大于第一声道数量的第二声道数量的音频信号，具有第二声道数量的音频信号的布局可以是具有高度信息的三维(3D)布局，其中，所述高度信息不同于与具有第一声道数量的音频信号有关的高度信息。

将具有第一声道数量的音频信号渲染为具有第二声道数量的音频信号的步骤可包括：当具有第一声道数量的音频信号的布局为三维(3D)布局时，将具有第一声道数量的音频信号向下混合为具有小于第一声道数量的第二声道数量的音频信号，具有第二声道数量的音频信号的布局可以是二维(2D)布局，其中，在二维布局中多个声道具有相同的高度分量。

有益效果

根据本发明的各种实施例，音频提供设备再现具有针对输出音频系统最佳的各种格式的音频信号。

附图说明

图1是示出根据本发明的示例性实施例的音频提供设备的配置的框图。

图2是示出根据本发明的示例性实施例的对象渲染单元的配置的框图。

图3是用于描述根据本发明的示例性实施例的对象音频信号的几何信息的示图。

图4是用于描述根据本发明的示例性实施例的基于对象音频信号的距离信息的距离增益的曲线图。

图5a和图5b是用于描述根据本发明的示例性实施例的基于对象音频信号的深度信息的深度增益的曲线图。

图6是示出根据本发明的另一示例性实施例的用于提供虚拟三维(3D)对象音频信号的对象渲染单元的配置的框图。

图7a和图7b是用于描述根据本发明的示例性实施例的虚拟滤波器的示图。

图8a到图8g是用于描述根据本发明的各种示例性实施例的音频信号的声道渲染的示图。

图9是用于描述根据本发明的示例性实施例的音频信号提供方法的流程图。

图10是示出根据本发明的另一示例性实施例的音频提供设备的配置的框图。

具体实施方式

以下，将参照附图来详细描述本发明。图1是示出是根据本发明的示例性实施例的音频提供设备100的配置的框图。如图1中所示，音频提供设备100包括输入单元110、解复用器120、对象渲染单元130、声道渲染单元140、混合单元150和输出单元160。

输入单元110可从各种源接收音频信号。在这种情况下，音频源可包括声道音频信号和对象音频信号。这里，声道音频信号是包括相应帧的背景声的音频信号，并且可具有第一声道数量(例如，5.1声道、7.1声道等)。另外，对象音频信号可以是具有运动的对象或相应帧中的重要对象的音频信号。对象音频信号的示例可包括语音、枪声等。对象音频信号可包括对象音频信号的几何信息。

解复用器120可对来自接收到的音频信号的声道音频信号和对象音频信号进行解复用。另外，解复用器120可将解复用的对象音频信号和声道音频信号分别输出到对象渲染单元130和声道渲染单元140。

对象渲染单元130可基于与接收到的对象音频信号有关的几何信息来渲染接收到的对象音频信号。在这种情况下，对象音频渲染单元130可根据音频提供设备100的扬声器布局来渲染接收到的对象音频信号。例如，当音频提供设备100的扬声器布局是具有相同高度(elevation)的二维(2D)布局时，对象渲染单元130可对接收到的对象音频信号进行二维渲染。另外，当音频提供设备100的扬声器布局是具有多个高度的3D布局时，对象渲染单元130可对接收到的对象音频信号进行三维渲染。另外，虽然音频提供设备100的扬声器布局是具有相同高度的2D布局，但是对象渲染单元130可将虚拟高度信息添加到接收到的对象音频信号，并对对象音频信号进行三维渲染。将参照图2到图7b详细描述对象渲染单元130。

图2是示出根据本发明的示例性实施例的对象渲染单元130的配置的框图。如图2中所示，对象渲染单元130可包括几何信息分析器131、距离控制器132、深度控制器133、定位器134和渲染器135。

几何信息分析器131可接收关于对象音频信号的几何信息并对几何信息进行分析。具体地，几何信息分析器131可将关于对象音频信号的几何信息转换为对于渲染所必需的3D坐标信息。例如，如图3中所示的几何信息分析器131可将接收到的对象音频信号“O”分析为坐标信息(r,θ,

)。这里，r表示收听者的位置与对象音频信号之间的距离，θ表示声像的方位角，

表示声像的俯仰角。

距离控制器132可基于3D坐标信息来产生距离控制信息。详细地，距离控制器132可基于通过由几何信息分析器131进行分析而获得的3D距离“r”来计算对象音频信号的距离增益。在这种情况下，距离控制器132可计算与3D距离“r”成反比的距离增益。也就是说，随着对象音频信号的距离增加，距离控制器132可减小对象音频信号的距离增益，而随着对象音频信号的距离减小，距离控制器132可增加对象音频信号的距离增益。另外，当位置更靠近于原点时，距离控制器132可设置一并不完全成反比的上限增益值，从而使距离增益不会发散。例如，距离控制器132可如以下等式(1)中所表现的来计算距离增益“d_g”：

也就是说，如图4中所示，距离控制器132可基于等式(1)将距离增益值“d_g”设置为1到3.3。

深度控制器133可基于3D坐标信息来产生深度控制信息。在这种情况下，深度控制器133可基于对象音频信号的水平投射距离“d”和收听者的位置来获取深度增益。

在这种情况下，深度控制器133可将深度增益表示为负矢量和正矢量之和。具体地，当在对象音频信号的3D坐标中r<1时，即，当对象音频信号位于由音频提供设备100所包括的扬声器构成的球体中时，正矢量被定义为(r,θ,

)，负矢量被定义为(r,θ+180,

)。为了定义对象音频信号，深度控制器133可计算正矢量的深度增益“v_p”以及负矢量的深度增益“v_n”，从而将对象音频信号的几何矢量表示为正矢量与负矢量之和。在这种情况下，正矢量的深度增益“v_p”以及负矢量的深度增益“v_n”可如以下的等式(2)中所表现的被计算：

也就是说，如图5a中所示，深度控制器133可在水平投射距离“d”为0到1的情况下计算正矢量的深度增益以及负矢量的深度增益。

进一步地，深度控制器133可将深度增益表示为正矢量与负矢量之和。详细地，当在平移增益与所有声道的位置的乘积之和收敛于0的情况下不存在方向时的平移增益可被定义为空矢量。具体地，深度控制器133可计算正矢量的深度增益“v_p”以及空矢量的深度增益“v_nll”，使得在水平投射距离“d”接近于0时，空矢量的深度增益被映射为1，而在水平投射距离“d”接近于1时，正矢量的深度增益被映射为1。在这种情况下，正矢量的深度增益“v_p”以及空矢量的深度增益“v_nll”可如以下的等式(3)中所表现的来计算：

也就是说，如图5b所示，深度控制器133可在水平投射距离“d”为0到1的情况下计算正矢量的深度增益以及空矢量的深度增益。

深度控制由深度控制器133执行，并且当水平投射距离接近于0时，可通过所有的扬声器输出声音。因此，在平移边界中发生的不连续性减少。

定位器134可基于3D坐标信息来产生用于对对象音频信号进行定位的定位信息。具体地，定位器134根据音频提供设备100的扬声器布局来计算用于对对象音频信号进行定位的平移增益。详细地，定位器134可选择用于对具有与对象音频信号的几何结构(geometry)的方向相同的方向的正矢量进行定位的三扬声器(triplet speaker)，并针对正矢量的三扬声器计算3D平移系数“g_p”。另外，当深度控制器133用正矢量和负矢量来表示深度增益时，定位器134可选择用于对具有与对象音频信号的轨迹方向相反的方向的负矢量进行定位的三扬声器，并针对负矢量的三扬声器计算3D平移系数“g_n”。

渲染器135可基于距离控制信息、深度控制信息以及定位信息来渲染对象音频信号。具体地，渲染器135可从距离控制器132接收距离增益“d_g”，从深度控制器133接收深度增益“v”，从定位器134接收平移增益“g”，并将距离增益“d_g”、深度增益“v”和平移增益“g”应用于对象音频信号以产生多声道对象音频信号。具体地，当对象音频信号的深度增益被表示为正矢量与负矢量之和时，渲染器135可如以下的等式(4)中所表现的来计算第m声道的最终增益“Gm”：

G_m＝d_gS(g_p,mSv_p+g_n,mSv_n) …(4)

其中，g_p,m表示当正矢量被定位时应用于m声道的平移系数，g_n,m表示当负矢量被定位时应用于m声道的平移系数。

此外，当对象音频信号的深度增益被表示为正矢量与空矢量之和时，渲染器135可如以下的等式(5)中所表现的计算第m声道的最终增益“Gm”：

G_m＝d_gS(g_p,mSv_p+g_nll,mSv_nll) …(5)

其中，g_p,m表示当正矢量被定位时应用于m声道的平移系数，g_n,m表示当空矢量被定位时应用于m声道的平移系数。此外，∑g_nll,m可变为0。

此外，渲染器135可将最终增益应用于对象音频信号“x”，从而如以下的等式(6)中所表现的来计算第m声道的对象音频信号的最终输出“Y_m”：

Y_m＝XsG_m …(6)

如上所述计算的对象音频信号的最终输出“Y_m”可被输出到混合单元150。

此外，当存在多个对象音频信号时，对象渲染单元130可计算所述多个对象音频信号之间的相位差，并将所述多个对象音频信号之一移动计算的相位差以组合所述多个对象音频信号。

详细地，在多个对象音频信号为相同的信号但在所述多个对象音频信号被输出时具有不同的相位的情况下，当所述多个对象音频信号按照原样被组合时，由于所述多个对象音频信号的重叠而导致音频信号失真。因此，对象渲染单元130可计算所述多个对象音频信号之间的相关性，并当相关性等于或大于预定值时，对象渲染单元130可计算所述多个对象音频信号之间的相位差，并将所述多个对象音频信号中的一个对象音频信号移动计算出的相位差以对所述多个对象音频信号进行组合。因此，当彼此相似的多个对象音频信号被输入时，可防止由于所述多个对象音频信号的组合而引起的失真。

在上述示例性实施例中，音频提供设备100的扬声器布局是具有不同的高度感的3D布局，但是这仅仅是示例性实施例。音频提供设备100的扬声器布局可以是具有相同高度值的2D布局。具体地，当音频提供设备100的扬声器布局是具有相同高度感的2D布局时，对象渲染单元130可将包括在上述的关于对象音频信号的几何信息中的

的值设置为0。

此外，音频提供设备100的扬声器布局可以是具有相同高度感的2D布局，但是音频提供设备100可通过使用2D扬声器布局来虚拟地提供3D对象音频信号。

以下，将参照图6和图7来描述用于提供虚拟3D对象音频信号的示例性实施例。

图6是示出根据本发明的另一示例性实施例的用于提供虚拟3D对象音频信号的对象渲染单元130’的配置的框图。如图6中所示，对象渲染单元130’包括虚拟滤波器136、3D渲染器137、虚拟渲染器128和混合器139。

3D渲染器137可通过使用以上参照图2到图5b描述的方法来渲染对象音频信号。在这种情况下，3D渲染器137可将能够通过音频提供设备100的实体扬声器输出的对象音频信号输出到混合器139，并输出提供不同的高度感的虚拟扬声器的虚拟平移增益“g_m,top”。

虚拟滤波器136是对对象音频信号的音色进行补偿的块。虚拟滤波器136可基于心理声学对输入的对象音频信号的频谱特性进行补偿，并将声像提供到虚拟扬声器的位置。在这种情况下，虚拟滤波器136可被实现为各种类型的滤波器，诸如头相关传输函数(HRTF)滤波器、双耳室脉冲响应(BRIR)滤波器等。

此外，当虚拟滤波器136的长度小于帧的长度时，可通过块卷积来应用虚拟滤波器136。

此外，当在诸如快速傅里叶(FFT)、改进离散余弦变换(MDCT)、正交镜像滤波器(QMF)的频域中执行渲染时，虚拟滤波器136可被用作乘法器。

当提供了多个虚拟顶层扬声器时，虚拟滤波器136可通过使用实体扬声器分布方程式和一个高度滤波器来产生多个虚拟顶层扬声器。

此外，当提供了多个虚拟顶层扬声器和虚拟后部扬声器时，虚拟滤波器136可通过使用实体扬声器的分布方程式和多个虚拟滤波器来产生多个虚拟顶层扬声器和虚拟后部扬声器，从而在不同的位置应用不同的频谱着色。

此外，如果使用诸如H1、H2、…、HN的N个频谱着色，则虚拟滤波器136可被设计成树结构以减少算术运算的数量。具体地，如图7a中所示，虚拟滤波器136可将用于识别共同高度的档位/尖峰设计为H0，并按照级联型式将K1到KN连接到HO，其中，K1到KN是通过从H1到HN减去H0的特性而获取的分量。另外，基于共同分量和频谱着色，虚拟滤波器136可具有包括图7b中所示的多级的树结构。

虚拟渲染器138是用于将虚拟声道表现为物理声道的渲染块。具体地，虚拟渲染器138可根据从虚拟滤波器136输出的虚拟声道分布方程式来产生输出到虚拟扬声器的对象音频信号，并将产生的虚拟扬声器的对象音频信号乘以虚拟平移增益“g_m,top”以对输出信号进行组合。在这种情况下，虚拟扬声器的位置可根据多个实体扁平锥形扬声器的分散程度而改变，其中，所述分散程度可被定义为虚拟声道分布方程式。

混合器139可将物理声道的对象音频信号与虚拟声道的对象音频信号进行混合。

因此，通过使用具有2D扬声器布局的音频提供设备100，对象音频信号可被表现为被定位在3D布局上。

再次参照图1，声道渲染单元140可将具有第一声道数量的声道音频信号渲染成具有第二声道数量的音频信号。在这种情况下，声道渲染单元140可基于扬声器布局将具有第一声道数量的声道音频信号改变为具有第二声道数量的音频信号。

具体地，当声道音频信号的布局与音频提供设备100的扬声器布局相同时，声道渲染单元140可在不用改变声道的情况下渲染声道音频信号。

此外，当声道音频信号的声道数量多于音频提供设备100的扬声器布局的声道数量时，声道渲染单元140可对声道音频信号进行向下混合以执行渲染。例如，当声道音频信号的声道为7.1声道而音频提供设备100的扬声器布局为5.1声道时，声道渲染单元140可将具有7.1声道的声道音频信号向下混合成5.1声道。

具体地，当对声道音频信号进行向下混合时，声道渲染单元140可确定声道音频信号的几何结构停止且没有任何变化的位置处的对象，并执行向下混合。另外，当将3D声道音频信号向下混合为2D信号时，如以上参照图6所述，声道渲染单元140可去除声道音频信号的高度分量，从而二维地向下混合声道音频信号或三维地向下混合声道音频信号以具有虚拟高度感。另外，声道渲染单元140可对除构成前向音频信号的左前声道、右前声道和中心声道之外的所有信号进行向下混合，从而实现具有右环绕声道和左环绕声道的信号。另外，声道渲染单元140可通过使用多声道向下混合等式来执行向下混合。

此外，当声道音频信号的声道数量小于音频提供设备100的扬声器布局的声道数量时，声道渲染单元140可对声道音频信号进行向上混合以执行渲染。例如，当声道音频信号的声道为7.1声道而音频提供设备100的扬声器布局为9.1声道时，声道渲染单元140可将具有7.1声道的声道音频信号向上混合为9.1声道。

具体地，当将2D声道音频信号向上混合为3D信号时，声道渲染单元140可基于前向声道和环绕声道之间的相关性来产生具有高度分量的顶层以执行向上混合，或者通过对声道的分析将声道划分为中心声道和周围声道以执行向上混合。

此外，在将具有第一声道数量的声道音频信号渲染为具有第二声道数量的声道音频信号的操作中，声道渲染单元140可计算具有相关性的多个音频信号之间的相位差，并将所述多个音频信号之一移动计算出的相位差以对所述多个音频信号进行组合。

对象音频信号和具有第一声道数量的声道音频信号中的至少一个可包括用于确定对特定帧是执行虚拟3D渲染还是2D渲染的引导信息。因此，对象渲染单元130和声道渲染单元140中的每一个可基于对象音频信号和声道音频信号中所包括的引导信息来执行渲染。例如，当允许对第一帧中的对象音频信号执行虚拟3D渲染的引导信息被包括在对象音频信号中时，对象渲染单元130和声道渲染单元140可对第一帧中的对象音频信号和声道音频信号执行虚拟3D渲染。另外，当允许对第二帧中的对象音频信号执行2D渲染的引导信息被包括在对象音频信号中时，对象渲染单元130和声道渲染单元140可对第二帧中的对象音频信号和声道音频信号执行2D渲染。

混合单元150可将从对象渲染单元130输出的对象音频信号与从声道渲染单元140输出的具有第二声道数量的声道音频信号进行混合。

此外，混合单元150可在将渲染的对象音频信号与具有第二声道数量的声道音频信号进行混合的同时计算具有相关性的多个音频信号之间的相位差，并将所述多个音频信号之一移动计算出的相位差以对所述多个音频信号进行组合。

输出单元160可输出从混合单元150输出的音频信号。在这种情况下，输出单元160可包括多个扬声器。例如，输出单元160可用诸如5.1声道、7.1声道、9.1声道、22.2声道等的扬声器来实现。

以下，将参照图8a到图8g来描述根据本发明的各种示例性实施例。

图8a是用于描述根据本发明的第一示例性实施例的渲染对象音频信号和声道音频信号的示图。

首先，音频提供设备100可接收9.1声道的声道音频信号和两个对象音频信号O1和O2。在这种情况下，9.1声道的声道音频信号可包括左前声道(FL)、右前声道(FR)、中前声道(FC)、低音声道(Lfe)、环绕左声道(SL)、环绕右声道(SR)、顶部左前声道(TL)、顶部右前声道(TR)、左后声道(BL)和右后声道(BR)。

音频提供设备100可配置有5.1声道的扬声器布局。也就是说，音频提供设备100可包括与右前声道、左前声道、中前声道、低音声道、环绕左声道和环绕右声道分别相应的多个扬声器。

音频提供设备100可对多个输入声道音频信号之中的与顶部左前声道、顶部右前声道、左后声道和右后声道分别相应的信号执行虚拟滤波，以执行渲染。

此外，音频提供设备100可对第一对象音频信号O1和第二对象音频信号O2执行虚拟3D渲染。

音频提供设备100可将具有左前声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号、具有虚拟渲染的左后声道和右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左前声道相应的扬声器。另外，音频提供设备100可对具有右前声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号、具有虚拟渲染的左后声道和右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右前声道相应的扬声器。另外，音频提供设备100可将与具有中前声道的声道音频信号输出到与中前声道相应的扬声器，将具有低音声道的声道音频信号输出到与低音声道相应的扬声器。另外，音频提供设备100可将具有环绕左声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号、具有虚拟渲染的左后声道和右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕左声道相应的扬声器。另外，音频提供设备100可将具有环绕右声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号、具有虚拟渲染的左后声道和右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕右声道相应的扬声器。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用5.1声道扬声器来建立9.1声道的虚拟3D音频环境。

图8b是用于描述根据本发明的第二示例性实施例的渲染对象音频信号和声道音频信号的示图。

首先，音频提供设备100可接收9.1声道的声道音频信号和两个对象音频信号O1和O2。

音频提供设备100可配置有7.1声道的扬声器布局。也就是说，音频提供设备100可包括与右前声道、左前声道、中前声道、低音声道、环绕左声道、环绕右声道、左后声道和右后声道分别相应的多个扬声器。

音频提供设备100可对多个输入声道音频信号之中的与顶部左前声道和顶部右前声道分别相应的信号执行虚拟滤波以执行渲染。

音频提供设备100可将具有左前声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左前声道相应的扬声器。另外，音频提供设备100可将具有右前声道的声道音频信号、具有虚拟渲染的左后声道和右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右前声道相应的扬声器。另外，音频提供设备100可将具有中前声道的声道音频信号输出到与中前声道相应的扬声器，并将具有低音声道的声道音频信号输出到与低音声道相应的扬声器。另外，音频提供设备100可将具有环绕左声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕左声道相应的扬声器。另外，音频提供设备100可将具有环绕右声道的声道音频信号、具有虚拟渲染的顶部左前声道和顶部右前声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕右声道相应的扬声器。另外，音频提供设备100可将具有左后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左后声道相应的扬声器。另外，音频提供设备100可将具有右后声道的声道音频信号与虚拟渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右后声道相应的扬声器。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用7.1声道的扬声器来建立9.1声道的虚拟3D音频环境。

图8c是用于描述根据本发明的第三示例性实施例的渲染对象音频信号和声道音频信号的示图。

音频提供设备100可配置有9.1声道的扬声器布局。也就是说，音频提供设备100可包括与右前声道、左前声道、中前声道、低音声道、环绕左声道、环绕右声道、左后声道、右后声道、顶部左前声道和顶部右前声道分别相应的多个扬声器。

此外，音频提供设备100可对第一对象音频信号O1和第二对象音频信号O2执行3D渲染。

音频提供设备100可将3D渲染的第一对象音频信号O1和第二对象音频信号O2与分别具有右前声道、左前声道、中前声道、低音声道、环绕左声道、环绕右声道、左后声道、右后声道、顶部左前声道和顶部右前声道的音频信号进行混合，并将混合的信号输出到相应的扬声器。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用9.1声道的扬声器来输出9.1声道的声道音频信号和9.1声道的对象音频信号。

图8d是用于描述根据本发明的第四示例性实施例的渲染对象音频信号和声道音频信号的示图。

音频提供设备100可配置有11.1声道的扬声器布局。也就是说，音频提供设备100可包括与右前声道、左前声道、中前声道、低音声道、环绕左声道、环绕右声道、左后声道、右后声道、顶部左前声道、顶部右前声道、顶部环绕左声道、顶部环绕右声道、顶部左后声道和顶部右后声道分别相应的多个扬声器。

此外，音频提供设备100可将3D渲染的第一对象音频信号O1和第二对象音频信号O2输出到与顶部环绕左声道、顶部环绕右声道、顶部左后声道和顶部右后声道中的每一个相应的扬声器。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用11.1声道的扬声器来输出9.1声道的声道音频信号和9.1声道的对象音频信号。

图8e是用于描述根据本发明的第五示例性实施例的渲染对象音频信号和声道音频信号的示图。

音频提供设备100可配置有5.1声道的扬声器布局。也就是说，音频提供设备可包括与右前声道、左前声道、中前声道、低音声道、环绕左声道和环绕右声道分别相应的多个扬声器。

音频提供设备100可对多个输入的声道音频信号之中的与顶部左前声道、顶部右前声道、左后声道和右后声道分别相应的信号执行2D渲染。

此外，音频提供设备100可对第一对象音频信号O1和第二对象音频信号O2执行2D渲染。

音频提供设备100可将具有左前声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号、具有2D渲染的左后声道和右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左前声道相应的扬声器。另外，音频提供设备100可将具有右前声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号、具有2D渲染的左后声道和右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右前声道相应的扬声器。另外，音频提供设备100可将具有中前声道的声道音频信号输出到与中前声道相应的扬声器，并将具有低音声道的声道音频信号输出到与低音声道相应的扬声器。另外，音频提供设备100可将具有环绕左声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号、具有2D渲染的左后声道和右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕左声道相应的扬声器。另外，音频提供设备100可将具有环绕右声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号、具有2D渲染的左后声道和右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕右声道相应的扬声器。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用5.1声道的扬声器来输出9.1声道的声道音频信号和9.1声道的对象音频信号。与图8a相比，根据本实施例的音频提供设备100可不将信号渲染为虚拟3D音频信号而是渲染为2D音频信号。

图8f是用于描述根据本发明的第六示例性实施例的渲染对象音频信号和声道音频信号的示图。

音频提供设备100可对多个输入的声道音频信号之中的与顶部左前声道和顶部右前声道分别相应的信号执行2D渲染。

音频提供设备100可将具有左前声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左前声道相应的扬声器。另外，音频提供设备100可将具有右前声道的声道音频信号、具有2D渲染的左后声道和右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右前声道相应的扬声器。另外，音频提供设备100可将具有中前声道的声道音频信号输出到与中前声道相应的扬声器，并将具有低音声道的声道音频信号输出到与低音声道相应的扬声器。另外，音频提供设备100可将具有环绕左声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕左声道相应的扬声器。另外，音频提供设备100可将具有环绕右声道的声道音频信号、具有2D渲染的顶部左前声道和顶部右前声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与环绕右声道相应的扬声器。另外，音频提供设备100可将具有左后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与左后声道相应的扬声器。另外，音频提供设备100可将具有右后声道的声道音频信号与2D渲染的第一对象音频信号O1和第二对象音频信号O2进行混合，并将混合的信号输出到与右后声道相应的扬声器。

通过执行上述声道渲染和对象渲染，音频提供设备100可通过使用7.1声道的扬声器来输出9.1声道的声道音频信号和9.1声道的对象音频信号。与图8b相比，根据本实施例的音频提供设备100可不将信号渲染为虚拟3D音频信号而是渲染为2D音频信号。

图8g是用于描述根据本发明的第七示例性实施例的渲染对象音频信号和声道音频信号的示图。

音频提供设备100可对多个输入的声道音频信号中的与顶部左前声道、顶部右前声道、左后声道和右后声道分别相应的信号进行二维向下混合以执行渲染。

通过执行上述的声道渲染和对象渲染，音频提供设备100可通过使用5.1声道的扬声器来输出9.1声道的声道音频信号和9.1声道的对象音频信号。与图8a相比，当确定声音质量比声道音频信号的声像更重要时，根据本实施例的音频提供设备100可仅将声道音频信号向下混合为2D信号并将对象音频信号渲染为虚拟3D信号。

首先，在操作S910，音频提供设备100接收音频信号。在这种情况下，音频信号可包括对象音频信号和具有第一声道数量的声道音频信号。

在操作S920，音频提供设备100对接收到的音频信号进行分离。详细地，音频提供设备100可将接收到的音频信号解复用为声道音频信号和对象音频信号。

在操作S930，音频提供设备100渲染对象音频信号。详细地，如以上参照图2到图5b所述，音频提供设备100可对对象音频信号进行二维渲染或三维渲染。另外，如以上参照图6到图7所述，音频提供设备100可将对象音频信号渲染为虚拟3D音频信号。

在操作S940，音频提供设备100将具有第一声道数量的声道音频信号渲染为第二声道数量。在这种情况下，音频提供设备100可对接收到的声道音频信号进行向下混合或向上混合以执行渲染。另外，音频提供设备100可在保持接收到的声道音频信号的声道数量的同时执行渲染。

在操作S950，音频提供设备100将渲染的对象音频信号与具有第二声道数量的声道音频信号进行混合。详细地，如图8a到图8g中所示，音频提供设备100可将渲染的对象音频信号与声道音频信号混合。

在操作S960，音频提供设备100输出混合的音频信号。

根据上述音频提供方法，音频提供设备100再现具有针对音频系统空间最佳的各种格式的音频信号。

以下，将参照图10描述本发明的另一示例性实施例。图10是示出根据本发明的另一示例性实施例的音频提供设备1000的配置的框图。如图10中所示，音频提供设备1000包括输入单元1010、解复用器1020、音频信号解码单元1030、附加信息解码单元1040、渲染单元1050、用户输入单元1060、接口1070和输出单元1080。

输入单元1010接收压缩的音频信号。在这种情况下，压缩的音频信号可包括附加信息以及压缩型的音频信号，其中，压缩型的音频信号包括声道音频信号和对象音频信号。

解复用器1020可将压缩的音频信号分离成音频信号和附加信息，将音频信号输出到音频信号解码单元1030，并将附加信息输出到附加信息解码单元1040。

音频信号解码单元1030对压缩型的音频信号进行解压缩，并将解压缩后的音频信号输出到渲染单元1050。音频信号包括多声道的声道音频信号和对象音频信号。在这种情况下，多声道的声道音频信号可以是诸如背景声和背景音乐的音频信号，对象音频信号可以是针对特定对象的音频信号，诸如语音、枪声等。

附加信息解码单元1040对关于接收到的音频信号的附加信息进行解码。在这种情况下，关于接收到的音频信号的附加信息可包括多条信息，诸如接收到的音频信号的声道数量、长度、增益值、平移增益(panning gain)、位置和角度。

渲染单元1050可基于接收到的附加信息和音频信号来执行渲染。在这种情况下，渲染单元1050可根据输入到用户输入单元1060的用户命令，通过使用以上参照图2到图8g描述的各种方法来执行渲染。例如，当接收到的音频信号是7.1声道的音频信号而音频提供设备1000的扬声器布局为5.1声道时，渲染单元1050可根据通过用户输入单元1060输入的用户命令将7.1声道的音频信号向下混合为2D的5.1声道的音频信号，以及将7.1声道的音频信号向下混合为3D的5.1声道的音频信号。另外，渲染单元1050可根据通过用户输入单元1060输入的用户命令，将声道音频信号渲染为2D信号，并将对象音频信号渲染为虚拟3D信号。

此外，渲染单元1050可根据用户命令和扬声器布局通过输出单元1080直接输出渲染的音频信号，但是可通过接口1070将音频信号和附加信息发送到外部装置。具体地，当音频提供设备1000具有超过7.1声道的扬声器布局时，渲染单元1050可通过接口1070将音频信号和附加信息中的至少一个发送到外部装置。在这种情况下，接口1070可被实现为诸如HDMI接口等的数字接口。外部装置可通过使用接收的音频信号和附加信息来执行渲染，并输出渲染的音频信号。

然而，如上所述，将音频信号和附加信息发送到外部装置的渲染单元1050仅仅是示例性实施例。渲染单元1050可通过使用音频信号和附加信息来渲染音频信号，并输出渲染的音频信号。

根据本发明的示例性实施例的对象音频信号可包括元数据，其中，所述元数据包括标识(ID)、类型信息或优先级信息。例如，对象音频信号可包括指示对象音频信号的类型是对话还是评论的信息。另外，当音频信号是广播音频信号时，对象音频信号可包括指示对象音频信号的类型是第一主播、第二主播、第一投手(caster)、第二投手还是背景声的信息。另外，当音频信号是音乐音频信号时，对象音频信号可包括指示对象音频信号的类型是第一歌手、第二歌手、第一乐器声还是第二乐器声的信息。另外，当音频信号是游戏音频信号时，对象音频信号可包括指示对象音频信号的类型是第一音效还是第二音效的信息。

渲染单元1050可分析包括在上述对象音频信号中的元数据，并根据对象音频信号的优先级来渲染对象音频信号。

此外，渲染单元1050可根据用户的选择移除特定的对象音频信号。例如，当音频信号是针对运动会的音频信号时，音频提供设备1000可显示用户界面(UI)，其中，UI将当前输入的对象音频信号的类型显示给用户。在这种情况下，对象音频信号可包括投手的语音、画外音、叫喊声等。当用于从多个对象音频信号之中移除投手的语音的用户命令通过用户输入单元1060被输入时，渲染单元1050可从所述多个对象音频信号之中移除投手的语音，并通过使用其它的对象音频信号来执行渲染。

此外，渲染单元1050可根据用户的选择针对特定的对象音频信号提高或降低音量。例如，当音频信号是包括在电影内容中的音频信号时，音频提供设备1000可显示UI，其中，该UI将当前输入的对象音频信号的类型显示给用户。在这种情况下，对象音频信号可包括第一主角的语音、第二主角的语音、炸弹声、飞机声等。当用于在多个对象音频信号之中提高第一主角的语音和第二主角的语音的音量并降低炸弹声和飞机声的音量的用户命令通过用户输入单元1060被输入时，渲染单元1050可提高第一主角的语音和第二主角的语音的音量，并降低炸弹声和飞机声的音量。

根据上述示例性实施例，用户操作期望的音频信号，因此建立了适合于用户的音频环境。

根据各种示例性实施例的音频提供方法可被实现为程序并可被提供给显示设备或输入设备。具体地，包括控制显示设备的方法的程序可被存储在非暂时性计算机可读记录介质中并被提供。

非暂时性计算机可读记录介质表示半永久地存储数据并可由装置读取的介质，而不是短时间地存储数据的介质，例如寄存器、高速缓冲存储器和内存。详细地，各种应用或程序可被存储在非暂时性计算机可读记录介质(诸如CD、DVD、硬盘、蓝光盘、USB存储器、存储卡或ROM)中。

虽然已经参照本发明构思的示例性实施例具体示出和描述了本发明构思，但是应理解，在不脱离权利要求的精神和范围的情况下可对其进行形式和细节上的各种修改。

Claims

1.一种音频提供方法，包括：

接收对象音频信号和包括高度输入声道信号的多个输入声道信号；

对所述多个输入声道信号中的相关输入声道信号之间的相位差进行对齐；

基于对象音频信号的位置信息和输出布局将对象音频信号转换为对象声道信号并且基于对齐的相位差、输入布局和输出布局将所述多个输入声道信号转换为多个输出声道信号，以提供高度感的声像；以及

将对象声道信号与所述多个输出声道信号进行混合，

其中，所述多个输出声道信号通过使用头相关传输函数和平移增益而被转换出，

其中，所述多个输入声道信号的输入布局是3D布局，所述多个输出声道信号的输出布局是2D布局。

2.如权利要求1所述的方法，

其中，输出布局是5.1声道信号。

3.如权利要求1所述的方法，

其中，所述多个输出声道信号包括用于再现所述高度输入声道信号的虚拟输出声道信号。

4.如权利要求1所述的方法，

其中，所述多个输入声道信号包括用于确定是否对特定帧执行虚拟3D渲染的信息。