CN103858447B

CN103858447B - 用于处理音频信号的方法和设备

Info

Publication number: CN103858447B
Application number: CN201280048236.1A
Authority: CN
Inventors: 金善民; 李英宇; 李允宰
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-07-29
Filing date: 2012-07-26
Publication date: 2016-12-07
Anticipated expiration: 2032-07-26
Also published as: JP5890523B2; EP2737727B1; KR20130014187A; JP2014522181A; US9554227B2; US20130028424A1; KR101901908B1; EP2737727A4; EP2737727A2; CN103858447A; WO2013019022A3; WO2013019022A2

Abstract

一种音频信号处理设备包括：索引估计单元，接收作为输入的三维图像信息，并基于该三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象的索引信息；以及呈现单元，用于基于索引信息沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象。

Description

用于处理音频信号的方法和设备

技术领域

与示例性实施例一致的方法和设备涉及一种用于处理音频信号的方法和设备，更具体地讲，涉及一种用于处理音频信号的、产生立体声的方法和设备。

背景技术

由于成像技术的发展，用户可看到3D立体图像。考虑到双眼视差，3D立体图像向左眼显露左视点图像数据，并向右眼显露右视点图像数据。用户可识别似乎真得要从屏幕跳出或返回到屏幕中的对象。

此外，随着成像技术的发展，用户对声音的兴趣增加，特别是，立体声得到了显著发展。在当前的立体声技术中，在用户周围放置多个扬声器，以使得用户可体验到在不同位置的定位和空间感（perspective）。例如，通过使用5.1声道音频系统获得立体声，其中，5.1声道音频系统用于输出通过使用六个扬声器而被划分为六个音频信号的音频信号。然而，在立体声技术中，可能没有向用户提供与图像对象的三维效果中的变化相应的立体声。

因此，需要一种用于产生与图像对象的三维效果中的变化相应的立体声的方法和设备。另外，重要的是增大音频对象的三维效果。因此，需要一种用于增大三维效果的方法和设备。

发明内容

技术问题

示例性实施例提供一种用于处理音频信号的方法和设备，该方法和设备产生与图像对象的三维效果的变化相应的立体声。

示例性实施例还提供一种用于处理音频信号的方法和设备，该方法和设备增大音频对象的三维效果。

问题的解决方案

根据示例性实施例的一方面，提供一种音频信号处理设备，该音频信号处理设备包括：索引估计单元，接收作为输入的三维图像信息，并基于该三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象的索引信息；以及呈现单元，用于基于该索引信息，沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象。

索引估计单元可产生索引信息，该索引信息包括沿向右方向和向左方向的声音扩展信息、沿向前方向和向后方向的深度信息、以及沿向上方向和向下方向的高度信息。

三维图像信息对于每一个图像帧可包括具有最大视差值和最小视差值中的至少一个的图像对象的位置信息、以及最大视差值或最小视差值中的至少一个。

当对于每一个帧可输入三维图像信息时，图像对象的位置信息可包括关于通过将与一个帧相应的一个屏幕划分为至少一个子帧而获得的子帧的信息。

可基于音频对象沿向右方向和向左方向的位置获得声音扩展信息，通过使用最大视差值和所述位置信息中的至少一个估计所述位置。

可基于音频对象沿向前方向和向后方向的深度值获得深度信息，通过使用最大视差值和/或最小视差值估计所述深度值。

可基于音频对象沿向上方向和向下方向的位置获得高度信息，通过使用最大视差值和所述位置信息中的至少一个估计所述位置。

在当音频对象和图像对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况下，索引估计单元可产生索引信息，以便减小音频对象的三维效果。

音频信号处理设备还可包括信号提取单元，该信号提取单元接收作为输入的立体声音频信号，提取该立体声音频信号中的右/左信号和中心声道信号，并将所提取的信号发送到呈现单元。

索引估计单元可包括：声源检测单元，接收作为音频信号的立体声音频信号、右/左信号和中心声道信号中的至少一个，分析输入音频信号的方向角度和用于每一个频段的能量中的至少一个，并基于第一分析结果区分效果声音和非效果声音；比较单元，确定音频对象是否对应于图像对象；以及索引产生单元，在当图像对象和音频对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况中的至少一种情况下，产生索引信息，以便减小音频对象的三维效果。

声源检测单元可接收立体声音频信号、右/左信号和中心声道信号中的至少一个，跟踪立体声音频信号中所包括的音频对象的方向角度，并基于跟踪结果区分效果声音和非效果声音。

当方向角度的变化等于或小于预定值时，或者当方向角度沿向右方向和向左方向收敛时，声音检测单元确定音频对象对应于效果声音。

当方向角度的变化等于或小于预定值时，或者当方向角度收敛到中心点时，声音检测单元可确定音频对象对应于静态声源。

声音检测单元可分析右/左信号与中心声道信号之间的高频区域的能量比，并且当右/左信号的能量比低于中心声道信号的能量比时，声音检测单元可确定音频对象对应于非效果声音。

声音检测单元可分析中心声道信号中语音频带频段与非语音频带频段之间的能量比，并且可基于第二分析结果确定音频对象是否对应于与非效果声音相应的语音信号。

三维图像信息可包括关于一个图像帧中所包括的每一个图像对象的视差值、该图像对象的位置信息和图像的深度图中的至少一个。

根据示例性实施例的另一方面，提供一种处理音频信号的方法，该方法包括：接收包括至少一个音频对象的音频信号和三维图像信息；基于该三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象的索引信息；并基于该索引信息，沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象。

产生索引信息的步骤可包括：基于所述至少一个音频对象沿向右方向和向左方向的位置产生沿向右方向和向左方向的索引信息，通过使用最大视差值和位置信息中的至少一个估计所述位置；基于所述至少一个音频对象沿向前方向和向后方向的深度值产生沿向前方向和向后方向的索引信息，通过使用最大视差值和最小视差值中的至少一个估计所述深度值；并基于所述至少一个音频对象沿向上方向和向下方向的位置产生沿向上方向和向下方向的索引信息，通过使用最大视差值和位置信息中的至少一个估计所述位置。

所述处理音频信号的方法还可包括确定所述至少一个音频对象是否对应于图像对象，其中，产生索引信息的步骤包括：当所述至少一个音频对象和图像对象彼此不对应时，产生索引信息，以便减小所述至少一个音频对象的三维效果。

所述处理音频信号的方法还可包括确定所述至少一个音频对象是否对应于非效果声音，其中，产生索引信息的步骤包括：当所述至少一个音频对象对应于非效果声音时，产生索引信息，以便减小所述至少一个音频对象的三维效果。

根据又一示例性实施例，提供一种处理音频信号的方法，该方法包括：接收与三维图像相应的音频信号；并基于关于该三维图像的三维效果信息将三维效果应用于音频信号。三维效果信息可包括关于该三维图像的深度信息和位置信息中的至少一个。

将三维效果应用于音频信号的步骤可包括：对音频信号进行处理以使得用户感觉到如同声源的位置被改变为对应于三维图像中所包括的对象的移动一样。此外，将三维效果应用于音频信号的步骤包括：基于指示三维图像的深度、向右和向左扩展以及高度的感觉中的至少一个的索引信息，沿多个方向呈现音频信号。

本发明的有益效果

根据示例性实施例的音频信号处理设备可产生具有使得与图像屏幕的三维效果中的变化相应的三维效果的音频信号。因此，当用户观看预定图像并且听音频时，用户可体验到最大三维效果。

另外，根据示例性实施例的音频信号处理设备可产生沿六个方向具有三维效果的音频对象，从而增大音频信号的三维效果。

附图说明

通过参照附图详细地描述示例性实施例，以上和其他特征将变得更清楚，其中：

图1是根据示例性实施例的音频信号处理设备的框图；

图2是根据另一示例性实施例的音频信号处理设备的框图；

图3是用于解释根据示例性实施例的音频信号处理设备中所使用的三维图像信息的示图；

图4A和图4B是用于解释根据示例性实施例的音频信号处理设备中所使用的三维图像信息的示图；

图5是用于解释根据示例性实施例的由音频信号处理设备产生的索引信息的示图；

图6是根据示例性实施例的通过修改图1的索引估计单元而获得的索引估计单元的框图；

图7A至图7C是用于解释根据示例性实施例的非效果声音的示图；

图8A至图8C是用于解释根据示例性实施例的效果声音的示图；

图9是用于解释根据示例性实施例的处理音频信号的方法的流程图；和

图10是根据示例性实施例的图9的方法的操作920的流程图。

具体实施方式

以下，将参照附图就示例性实施例对用于处理音频信号的方法和设备进行描述。当诸如“…中的至少一个”的表达在一列元件之后时，这些表达修饰整个元件列表，而不是修饰该列表的单个元件。

首先，为了方便描述，如下简要地定义在此使用的术语。

图像对象表示图像信号中所包括的对象、或者诸如人、动物、植物、背景等的主体。

音频对象表示音频信号中所包括的声音分量。各种音频对象可包括在一个音频信号中。例如，在通过记录乐团演奏而产生的音频信号中，包括从各种乐器（诸如吉他、小提琴、双簧管等）产生的各种音频对象。

声源是产生音频对象的对象（例如，乐器或人声乐团）。在本说明书中，实际产生音频对象的对象和识别用户产生音频对象的对象都表示声源。例如，当在用户看电影时苹果被从屏幕扔向用户时，在音频信号中可包括当苹果移动时所产生的音频（音频对象）。在这种情况下，当苹果被扔向用户时所产生的声音本身对应于音频对象。音频对象可通过记录当苹果被扔掷时实际所产生的声音来获得，或者可以是先前记录的被简单地再现的音频对象。然而，在任何一种情况下，用户识别苹果产生音频对象，因此，苹果可以是本说明书中所定义的声源。

三维图像信息包括三维地显示图像所需的信息。例如，三维图像信息可包括指示图像的深度的图像深度信息和指示图像对象在屏幕上的位置的位置信息中的至少一个。图像深度信息指示图像对象与参考位置之间的距离。参考位置可对应于显示装置的表面。详细地讲，图像深度信息可包括图像对象的视差。在这种情况下，视差是指左视点图像与右视点图像之间的距离，该距离对应于双眼视差。

图1是根据示例性实施例的音频信号处理设备100的框图。

参照图1，音频信号处理设备100包括索引估计单元110和呈现单元150。

索引估计单元110接收作为输入的三维图像信息，并基于该三维图像信息产生将应用于音频对象的索引信息。可逐次至少一个图像帧地输入三维图像信息。例如，24Hz图像每秒包括24个帧，每秒可对24个图像帧输入三维图像信息。另外，可对各个偶数个帧输入三维图像信息。在以上示例中，每秒可对各个12个图像帧输入三维图像信息。

在这种情况下，索引信息是用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象的信息。当索引信息被使用时，可沿六个方向（诸如向右方向、向左方向、向上方向、向下方向、向前方向和向后方向）中的最大方向对每一个音频对象表达三维效果。可将索引信息产生为对应于一个帧中所包括的至少一个音频对象。另外，可将索引信息产生为与一个帧中的代表音频对象匹配。

将参照图3至图5更详细地描述索引信息。

呈现单元150基于由索引估计单元110产生的索引信息，沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象。

此外，索引估计单元110可接收与三维图像相应的音频信号。

并且，呈现单元150可基于关于三维图像的三维效果信息将三维效果应用于在索引估计单元110中接收的音频信号。

图2是根据另一示例性实施例的音频信号处理设备200的框图。

参照图2，与图1的音频信号处理设备100相比，音频信号处理设备200还可包括信号提取单元280和混合单元290中的至少一个。索引估计单元210和呈现单元250分别对应于图1的索引估计单元110和呈现单元150，因此在此将不重复它们的描述。

信号提取单元280接收作为输入的立体声音频信号（Lin和Rin），并将这些立体声音频信号（Lin和Rin）划分为与右/左区域相应的右/左信号（S_R/S_L）和与中心区域相应的中心声道信号（S_C）。然后，从立体声音频信号划分的右/左信号（S_R/S_L）和中心声道信号（S_C）被发送到呈现单元250。在这种情况下，立体声音频信号可包括左声道（L-channel）音频信号（Lin）和右声道（R-channel）音频信号（Rin）。

详细地讲，信号提取单元280可通过使用L-channel音频信号（Lin）与R-channel音频信号（Rin）之间的相干函数和相似性函数来产生中心声道信号（S_C），并且可产生与L-channel音频信号（Lin）和R-channel音频信号（Rin）相应的右/左信号（S_R/S_L）。详细地讲，可通过从立体声音频信号（Lin和Rin）部分地或整个地减去中心声道信号（S_C）来产生右/左信号（S_R/S_L）。

索引估计单元210可基于三维图像信息来产生沿向右方向和向左方向的声音扩展(sound extension)信息、沿向前方向和向后方向的深度信息、以及沿向上方向和向下方向的高度信息中的至少一个作为索引信息。在这种情况下，声音扩展信息、深度信息和高度信息可被产生为与音频信号中所包括的音频对象匹配的值。输入到索引估计单元210以便产生索引信息的音频信号可包括由信号提取单元280产生的右/左信号（S_R/S_L）和中心声道信号（S_C）、以及立体声音频信号（Lin和Rin）中的至少一个。

输入到索引估计单元210的三维图像信息是用于将三维效果应用于三维帧中所包括的图像对象的信息。详细地讲，对于每一个图像帧，三维图像信息可包括最大视差值、最小视差值、以及具有最大视差值或最小视差值中的至少一个的图像对象的位置信息。另外，三维图像信息可包括图像帧中的图像对象（例如，主图像对象）的视差值和该主图像对象的位置信息中的至少一个。可替换地，三维图像信息可包含图像的深度图。

当对每一个帧输入三维图像信息时，图像对象的位置信息可包括关于通过将与一个帧相应的一个屏幕划分为至少一个子帧而获得的子帧的信息。以下将参照图3、图4和图5更详细地描述图像对象的位置信息。

图3是用于解释根据示例性实施例的音频信号处理设备中所使用的三维图像信息的示图。

图3显示与一个帧相应的屏幕300被划分为9个子帧的情况。图像对象的位置信息可被表示为关于所显示的子帧的信息。例如，子帧编号（例如，1至9）可被分配给各个子帧，并且与图像对象所在的区域相应的子帧编号可被设置为图像对象的位置信息。

详细地讲，当图像对象位于子帧3中时，图像对象的位置信息可用“子帧编号=3”表示。当图像对象位于跨子帧4、5、7和8时，图像对象的位置信息可用“子帧编号=4,5,7,8”表示。

图4A和图4B是用于解释根据示例性实施例的音频信号处理设备中所使用的三维图像信息的示图。

索引估计单元210接收作为输入的与各个连续帧相应的三维图像信息。图4A显示与连续帧之中的一个帧相应的图像。图4B显示连续帧之中的图4A的帧的后一帧的图像。图4A和图4B显示图3的帧被划分为16个子帧的情况。在图4A和图4B中所示的图像屏幕410和460中，x轴指示图像的向右方向和向左方向，y轴指示图像的向上方向和向下方向。另外，可通过使用值“x_y”来表示子帧。例如，图4的子帧423的位置值可用“3_3”表示。

随着视差增大，双眼视差增大，因此用户识别对象较近。随着视差缩小，双眼视差缩小，因此用户识别对象较远。例如，在二维图像的情况下，不存在双眼视差，因此深度值可以为0。另外，随着对象更加靠近用户，双眼视差增大，因此深度值可增大。

参照图4A，在与一个帧相应的图像屏幕410中，最大视差值可应用于图像对象421，应用于图像对象421的最大视差值可包括在三维图像信息中。另外，指示子帧423的位置的信息可包括在三维图像信息中，指示子帧423的位置的信息是具有最大视差值的图像对象421的位置信息，例如，“子帧编号=3_3”。

参照图4B，可在图像屏幕410被显示之后的时间点显示图像屏幕460。

在与后一帧相应的图像屏幕460中，最大视差值可应用于图像对象471，应用于图像对象471的最大视差值可包括在三维图像信息中。另外，指示子帧473的信息可包括在三维图像信息中，指示子帧473的信息是具有最大视差值的图像对象471的位置信息，例如，“子帧编号=2_2,2_3,3_2,3_3”。

图4A中所示的图像对象421可在后一时间点显示为图像对象471。也就是说，用户可通过连续显示的图像屏幕410和460观看到移动车辆的图像。因为作为图像对象471的车辆在移动时产生声音，所以作为图像对象471的车辆可以是声源。另外，当车辆移动时所产生的声音可对应于音频对象。

索引估计单元210可基于输入的三维图像信息产生与音频对象相应的索引信息。以下将参照图5详细描述索引信息。

图5是用于解释根据示例性实施例的由音频信号处理设备产生的索引信息的示图。

索引信息可包括声音扩展信息、深度信息和高度信息中的至少一个。声音扩展信息是用于沿图像屏幕的向右方向和向左方向将三维效果应用于音频对象的信息。深度信息是用于沿图像屏幕的向前方向和向后方向将三维效果应用于音频对象的信息。另外，高度信息是用于沿图像屏幕的向上方向和向下方向将三维效果应用于音频对象的信息。详细地讲，向右方向和向左方向可对应于x轴方向，向上方向和向下方向可对应于y轴方向，向前方向和向后方向可对应于z轴方向。

图5中所示的图像屏幕500对应于图4A中所示的图像屏幕410。另外，虚线所指示的图像对象530对应于图4B中所示的图像对象471。像图4A、图4B和图5中所示的情况下那样，当车辆在移动时产生声音时，一个帧中的音频对象对应于图像对象510。以下，将详细地描述当音频对象对应于图像对象时产生索引信息的操作。

可基于音频对象沿向右方向和向左方向的位置获得声音扩展信息，通过使用三维图像信息中所包括的最大视差值和图像对象的位置信息来估计该位置。

详细地讲，当三维图像信息包括图像对象510的最大视差值和位置信息时，索引估计单元210可通过使用三维图像信息来估计与图像对象510相应的音频对象沿向右方向和向左方向的位置。然后，可产生声音扩展信息，以便产生在所估计的位置处被识别的音频对象。例如，因为图像对象510沿向右方向和向左方向的位置是点X1，所以可产生声音扩展信息以便在点X1处产生音频对象。另外，可考虑图像对象510的最大视差值来确定图像对象510位于离用户有多近。因此，可产生声音扩展信息，以使得随着图像对象510更加靠近用户，音频输出或声音增大。

如图5中所示，当与音频对象相应的图像对象510在图像屏幕500的右边时，索引估计单元210可产生声音扩展信息，以使得与左声道的信号相比，右声道的信号可被放大和输出。

可基于音频对象沿向前方向和向后方向的深度值获得深度信息，通过使用三维图像信息中所包括的最大或最小视差值估计该深度值。

索引估计单元210可将音频对象的深度值设置为与图像对象的深度值成比例。

详细地讲，当三维图像信息包括图像对象510的最大或最小视差值时，索引估计单元210可通过使用该三维图像信息来估计深度信息，即，与图像对象510相应的音频对象的深度。另外，可产生深度信息，以便根据音频对象的所估计的深度来增大音频输出或声音。

可基于与图像对象510相应的音频对象沿向上方向和向下方向的位置获得高度信息，通过使用三维图像信息中所包括的最大视差值和位置信息来估计该位置。

详细地讲，当三维图像信息包括图像对象510的最大视差值和位置信息时，索引估计单元210可通过使用该三维图像信息来估计与图像对象510相应的音频对象沿向上方向和向下方向的位置。另外，可产生高度信息，以便产生在所估计的位置处被识别的音频对象。

例如，因为图像对象510沿向上方向和向下方向的位置是点Y1，所以可产生高度信息，以便在点Y1处产生音频对象。另外，可考虑图像对象510的最大视差值来确定图像对象510位于离用户有多近。因此，可产生高度信息，以使得随着图像对象510更加靠近用户，音频输出或声音增大。

对于右/左信号（S_R/S_L）和中心声道信号（S_C）中的每个，呈现单元250可将三维效果应用于音频信号中所包括的音频对象。详细地讲，呈现单元250可包括高度呈现单元251以及平移（panning）和深度控制单元253。

呈现单元250可基于由索引估计单元210产生的索引信息来产生包括音频对象的音频信号，以便将音频对象定向到预定高度。详细地讲，呈现单元250可基于索引信息中所包括的高度信息来产生音频信号，以便根据音频对象沿向上方向和向下方向的位置再现虚构的高度的感觉。

例如，当与音频对象相应的图像对象位于上侧部分时，呈现单元250可再现直到上侧部分的高度感。另外，当与音频对象相应的图像对象位于下侧部分时，呈现单元250可再现直到下侧部分的高度感。当图像对象连续地从图像屏幕的中间部分移动到上侧部分时，呈现单元250也可在图像屏幕的下侧部分上方再现虚构的高度感，以便强调高度感。

为了再现虚构的高度感，呈现单元250可通过使用头相关传输函数（HRTF）来呈现音频信号。

平移和深度控制单元253可基于由索引估计单元210产生的索引信息来产生包括音频对象的音频信号，以便将该音频对象定向到预定点并且具有预定深度。详细地讲，平移和深度控制单元253可产生音频信号，以使得沿向右方向和向左方向位于预定位置的用户可基于索引信息中所包括的声音扩展信息和深度信息来识别与深度值相应的音频输出或声音。

例如，当与图像对象510相应的音频对象的深度值高时，声音位于靠近用户。因此，在上述示例中，平移和深度控制单元253可增大音频输出。当与图像对象510相应的音频对象的深度值低时，声音远离用户。因此，在上述示例中，平移和深度控制单元253可调整音频信号的早期反射或混响，以使得用户可识别从远处产生的声音。

当平移和深度控制单元253基于声音扩展信息确定与图像对象相应的音频对象在图像屏幕500的右边或左边时，平移和深度控制单元253可呈现音频信号，以使得左声道的信号或右声道的信号可被放大和输出。

参照图5，包括图像对象530的另一帧被作为包括图像对象510的一个帧的后一帧输出。响应于此，呈现单元250呈现与连续音频帧相应的音频信号。在图5中，与图像对象510和530相应的车辆从图像屏幕500的右上部分移动到左下部分，相应地，音频对象也可从右上部分移动到左下部分。对于每一个帧，呈现单元250可沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向将三维效果应用于音频对象。因此，用户可识别当车辆沿方向512上从上侧部分移动到下侧部分时所产生的声音、当车辆沿方向511从向右部分移动到向左部分时所产生的声音、以及当车辆向前移动时所产生的声音。

图6是根据示例性实施例的通过修改图1的索引估计单元110而获得的索引估计单元610的示图。图6的索引估计单元610可对应于图1的索引估计单元110或图2的索引估计单元210，因此在此将不重复它的描述。因此，在当音频对象和图像对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况下，索引估计单元610可产生索引信息，以便减小音频对象的三维效果。

详细地讲，音频对象不对应于图像对象的情况对应于图像对象不产生任何声音的情况。像在图4A、图4B和图5中所示的示例中那样，当图像对象是车辆时，图像对象对应于产生声音的音频对象。另举一例，在一个人挥动他或她的手的图像中，图像对象对应于手。然而，因为当一个人挥动他或她的手时不产生声音，所以图像对象不对应于音频对象，索引估计单元610产生索引信息，以便最小化音频对象的三维效果。详细地讲，深度信息的深度值可被设置为基本偏移值，声音扩展信息可被设置为使得从右声道和左声道输出的音频信号可具有相同的振幅。另外，高度信息可被设置为使得在不考虑上侧部分和下侧部分的位置的情况下可输出与预定偏移高度相应的音频信号。

当音频对象是非效果声音时，可使用像在音频对象的位置几乎不变的情况下的静态声源。例如，人的语音、固定位置处的钢琴声音、背景声音等是静态声源，声源的位置没有显著变化。因此，对于非效果声音，可产生索引信息，以便最小化三维效果。将参照图7和图8详细地描述非效果声音和效果声音。

参照图6，索引估计单元210可包括声源检测单元620、比较单元630和索引产生单元640。

声源检测单元620可接收作为输入音频信号的立体声音频信号（Lin和Rin）、以及右/左信号（S_R/S_L）和中心声道信号（S_C）中的至少一个，可分析输入音频信号的方向角度或方向矢量以及用于每一个频段的能量中的至少一个，并且可基于分析结果区分效果声音和非效果声音。

比较单元630确定音频对象和图像对象是否彼此对应。

在当音频对象和图像对象彼此不对应时的情况和当音频对象是非效果声音时的情况之中的至少一个情况下，索引产生单元640产生索引信息，以便减小或最小化音频对象的三维效果。

图7A至图7C是用于解释根据示例性实施例的非效果声音的示图。图7A是用于解释产生非效果声音的音频对象、以及与该音频对象相应的平移角度和全局角度（global angle）的示图。图7B是显示随着时间流逝的与非效果声音相应的音频信号的波形变化的示图。图7C是显示根据帧号的非效果声音的全局角度变化的示图。

参照图7A，非效果声音的示例可包括人732的语音、乐器722和726的声音等。

以下，产生非效果声音的方向的角度可被称为平移角度。另外，非效果声音收敛的角度可被称为全局角度。参照图7A，当声源是从乐器722和726产生的音乐时，全局角度收敛到中心点C。也就是说，当用户收听作为乐器722的吉他的声音时，用户识别具有沿方向721从中心点C形成的平移角度的静态声源。另外，当用户收听作为乐器726的钢琴的声音时，用户识别具有沿方向725从中心点C形成的平移角度的静态声源。

可通过使用包括音频对象的音频信号的方向矢量来估计声源的平移角度和全局角度。平移角度和全局角度可由以下将描述的角度跟踪单元621或音频信号处理设备100或200的控制器（未显示）来估计。关于非效果声音，平移角度的变化和全局角度的变化小。

参照图7B，x轴指示音频信号的采样编号，y轴指示音频信号的波形。关于非效果声音，音频信号的振幅可在预定时间段内根据从乐器输出的声音的强度减小或增大。区域751可对应于当仪器输出具有高强度的声音时的音频信号的波形。

参照图7C，x轴指示音频信号的采样编号，y轴指示全局角度。参照图7C，非效果声音（诸如仪器的声音或语音）的全局角度的变化小。也就是说，因为声源是静态的，所以用户可识别不显著移动的音频对象。

图8A至图8C是用于解释根据示例性实施例的效果声音的示图。图8A是用于解释产生效果声音的音频对象、以及与该音频对象相应的平移角度和全局角度的示图。图8B是显示随着时间流逝的与效果声音相应的音频信号的波形变化的示图。图8C是显示根据帧号的效果声音的全局角度变化的示图。

参照图8A，效果声音的示例可以是当音频对象连续地移动时所产生的声音。例如，效果声音可以是在位于点811处的飞机沿预定方向813移动到点812时所产生的声音。也就是说，效果声音的示例可包括在音频对象（诸如飞机、车辆等）移动时所产生的声音。

参照图8A，关于效果声音（诸如在飞机移动时所产生的声音），全局角度沿方向813移动。也就是说，关于效果声音，全局角度朝着右侧周边和左侧周边移动，而不是朝着预定中心点移动。因此，当用户收听效果声音时，用户识别沿向右方向和向左方向移动的动态源。

参照图8B，x轴指示音频信号的采样编号，y轴指示该音频信号的波形。关于效果声音，所产生的声音的强度的变化小，音频信号的振幅的变化实时地发生。也就是说，与图7B中不同，不存在振幅全部增大或减小的时间段。

参照图8C，x轴指示音频信号的采样编号，y轴指示全局角度。参照图8C，效果声音的全局角度的变化大。也就是说，因为声源是动态的，所以用户可识别移动的音频对象。

详细地讲，声源检测单元620可接收作为输入的立体声音频信号（Lin和Rin），可跟踪这些立体声音频信号（Lin和Rin）中所包括的音频对象的方向角度，并且可基于跟踪结果区分效果声音和非效果声音。在这种情况下，方向角度可以是上述全局角度、上述平移角度等。

详细地讲，声源检测单元620可包括角度跟踪单元621和静态源检测单元623。

角度跟踪单元621跟踪连续音频帧中所包括的音频对象的方向角度。在这种情况下，方向角度可包括上述全局角度、上述平移角度以及前后角度中的至少一个。另外，跟踪结果可被发送到静态源检测单元623。

详细地讲，角度跟踪单元621可根据立体声音频信号中的L-channel的立体声音频信号与R-channel的立体声音频信号之间的能量比来跟踪沿向右方向和向左方向的方向角度。另外，角度跟踪单元621可根据右/左信号（S_R/S_L）与中心声道信号（S_C）的能量比来跟踪前后角度，前后角度是沿前后方向的方向角度。

静态源检测单元623可基于角度跟踪单元621的跟踪结果来区分非效果声音和效果声音。

详细地讲，当如图7A中所示角度跟踪单元621跟踪的方向角度收敛到中心点C时，或者当方向角度的变化等于或小于预定值时，静态源检测单元623可确定音频对象可对应于非效果声音。

另外，当如图8A中所示角度跟踪单元621跟踪的方向角度沿向右方向和向左方向收敛时，或者当方向角度的变化等于或大于预定值时，静态源检测单元623可确定音频对象可对应于效果声音。

静态源检测单元623可分析右/左信号（S_R/S_L）与中心声道信号（S_C）之间的高频区域的能量比。然后，当右/左信号（S_R/S_L）的能量比低于中心声道信号（S_C）的能量比时，静态源检测单元623可确定音频对象可对应于非效果声音。另外，当右/左信号（S_R/S_L）的能量比高于中心声道信号（S_C）的能量比时，静态源检测单元623可确定音频对象沿向右方向或向左方向移动，因此，静态源检测单元623可确定音频对象可对应于效果声音。

静态源检测单元623可分析中心声道信号（S_C）中的语音频带频段（frequency period）与非语音频带频段之间的能量比，并且可基于分析结果确定音频对象是否对应于与非效果声音相应的语音信号。

比较单元630根据角度跟踪单元621获得的方向来确定音频对象的向右或向左位置。然后，比较单元630将音频对象的位置与三维图像信息中所包括的图像对象的位置信息进行比较，并确定该位置是否对应于位置信息。比较单元630将关于图像对象的位置是否对应于音频对象的位置的信息发送到索引产生单元640。

索引产生单元640根据从声源检测单元620和比较单元630发送的结果来产生索引信息，以便在当音频对象是效果声音时的情况和当图像对象和音频对象彼此对应时的情况之中的至少一种情况下，增大沿上述六个方向施加于音频对象的三维效果。另外，在当音频对象是非效果声音时的情况和当图像对象和音频对象彼此不对应时的情况之中的至少一种情况下，索引产生单元640不将三维效果应用于音频对象，或者产生索引信息以便根据基本偏移值应用三维效果。

如上所述，根据示例性实施例的音频信号处理设备可产生具有使得与图像屏幕的三维效果中的变化相应的三维效果的音频信号。因此，当用户观看预定图像并听音频时，用户可体验到最大三维效果。

图9是用于解释根据示例性实施例的处理音频信号的方法的流程图。根据本示例性实施例的方法900的一些操作与参照图1至图8描述的音频信号处理设备的操作相同，因此在此将不重复它们的描述。另外，将参照图1、图2和图6的音频信号处理设备描述根据本示例性实施例的方法。

根据本示例性实施例的方法900可包括接收作为输入的包括至少一个音频对象的音频信号和三维图像信息（操作910）。操作910可由索引估计单元110和210执行。

在操作910中，基于输入的三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象的索引信息（操作920）。操作920可由索引估计单元110和210执行。

基于关于三维图像的三维效果信息，将三维效果应用于音频信号。详细地讲，基于在操作920中产生的索引信息，沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于音频对象（操作930）。操作930可由呈现单元150和250执行。

详细地讲，当再现音频信号时，可将三维效果应用于音频信号，以使得用户可感觉到如同声源的位置被改变为对应于三维图像中所包括的对象的移动一样。

图10是根据示例性实施例的图9的方法的操作920的流程图。操作920对应于图10的操作1020。以下，操作1020将被称为呈现音频信号的操作。

操作1020包括操作1021、1022和1023。

详细地讲，确定当前情况是否对应于当音频对象和图像对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况（操作1021）。操作1021可由索引估计单元110、210和610执行，更具体地讲，可由声源检测单元620和比较单元630中的至少一个执行。

作为操作1021中的确定结果，当当前情况对应于上述情况中的至少一种情况时，可产生索引信息，以便减小音频对象的三维效果（操作1022）。操作1021可由索引估计单元110、210和610执行，更具体地讲，可由索引产生单元640执行。

作为操作1021中的确定结果，当当前情况不对应于上述情况中的至少一种情况时，可产生索引信息，以使得音频对象可沿上述六个方向中的至少一个方向具有三维效果（操作1023）。操作1023可由索引估计单元110、210和610执行，更具体地讲，可由索引产生单元640执行。

尽管已经参照本发明的示例性实施例具体显示并描述了示例性实施例，但是本领域的普通技术人员将理解，可以在不脱离由权利要求书限定的示例性实施例的精神和范围的情况下在这些示例性实施例中进行形式和细节上的各种改变。

Claims

1.一种音频信号处理设备，包括：

索引估计单元，接收三维图像信息和包括至少一个音频对象的音频信号，并基于三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于所述至少一个音频对象的索引信息，其中，所述至少一个音频对象被改变以与包括在三维图像中的图像对象的运动相应；和

呈现单元，基于索引信息沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于所述至少一个音频对象，

其中，所述音频信号处理设备还包括：信号提取单元，接收立体声音频信号，提取立体声音频信号中的右/左信号和中心声道信号，并将提取的信号发送到索引估计单元，以进行分析来区分效果声音和非效果声音，

其中，效果声音包括在音频对象移动时所产生的声音，

其中，非效果声音包括来自于声源的位置未被显著改变的静态声源的声音，

其中，在当音频对象和图像对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况下，索引估计单元产生索引信息以便减小音频对象的三维效果。

2.根据权利要求1所述的音频信号处理设备，其中，索引估计单元产生索引信息，所述索引信息包括沿向右方向和向左方向的声音扩展信息、沿向前方向和向后方向的深度信息、以及沿向上方向和向下方向的高度信息。

3.根据权利要求1所述的音频信号处理设备，其中，三维图像信息对于每一个图像帧包括最小视差值、最大视差值、以及具有最大视差值和最小视差值中的至少一个的图像对象的位置信息中的至少一个。

4.根据权利要求3所述的音频信号处理设备，其中，当对于每一个帧输入三维图像信息时，图像对象的位置信息包括关于通过将与一个帧相应的一个屏幕划分为至少一个子帧而获得的子帧的信息。

5.根据权利要求4所述的音频信号处理设备，其中，基于音频对象沿向右方向和向左方向的位置获得声音扩展信息，其中，通过使用最大视差值和所述位置信息中的至少一个估计所述位置。

6.根据权利要求4所述的音频信号处理设备，其中，基于音频对象沿向前方向和向后方向的深度值获得深度信息，其中，通过使用最大视差值和最小视差值中的至少一个估计所述深度值。

7.根据权利要求4所述的音频信号处理设备，其中，基于音频对象沿向上方向和向下方向的位置获得高度信息，其中，通过使用最大视差值和所述位置信息中的至少一个估计所述位置。

8.根据权利要求1所述的音频信号处理设备，其中，信号提取单元还将提取的信号发送到呈现单元。

9.根据权利要求8所述的音频信号处理设备，其中，索引估计单元包括：

声源检测单元，接收作为音频信号的立体声音频信号、右/左信号和中心声道信号中的至少一个，分析以下项中的至少一个并基于第一分析结果区分效果声音和非效果声音：输入音频信号的方向角度和用于每一个频段的能量；

比较单元，确定音频对象是否对应于图像对象；和

索引产生单元，在当图像对象和音频对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况下，产生索引信息，以便减小音频对象的三维效果。

10.根据权利要求9所述的音频信号处理设备，其中，声源检测单元接收立体声音频信号、右/左信号和中心声道信号中的至少一个，跟踪立体声音频信号中包括的音频对象的方向角度，并基于跟踪结果区分效果声音和非效果声音。

11.根据权利要求10所述的音频信号处理设备，其中，当方向角度的变化等于或大于预定值时，或者当方向角度沿向右方向和向左方向收敛时，声源检测单元确定音频对象对应于效果声音。

12.根据权利要求10所述的音频信号处理设备，其中，当方向角度的变化等于或小于预定值时，或者当方向角度收敛到中心点时，声源检测单元确定音频对象对应于静态声源。

13.根据权利要求9所述的音频信号处理设备，其中，声源检测单元分析右/左信号与中心声道信号之间的高频区域的能量比，并且当右/左信号的能量比低于中心声道信号的能量比时，声源检测单元确定音频对象对应于非效果声音。

14.根据权利要求9所述的音频信号处理设备，其中，声源检测单元分析中心声道信号中的语音频段与非语音频段之间的能量比，并基于第二分析结果确定音频对象是否对应于与非效果声音相应的语音信号。

15.根据权利要求1所述的音频信号处理设备，其中，三维图像信息包括关于一个图像帧中包括的图像对象的视差值、图像对象的位置信息、以及图像的深度图中的至少一个。

16.一种处理音频信号的方法，所述方法包括：

接收包括至少一个音频对象的音频信号和三维图像信息；

基于三维图像信息产生用于沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于所述至少一个音频对象的索引信息，其中，所述至少一个音频对象被改变以与包括在三维图像中的图像对象的运动相应；和

基于索引信息，沿向右方向、向左方向、向上方向、向下方向、向前方向和向后方向中的至少一个方向将三维效果应用于所述至少一个音频对象，

其中，所述方法还包括：接收立体声音频信号，提取立体声音频信号中的右/左信号和中心声道信号，并将提取的信号发送到索引估计单元，以进行分析来区分效果声音和非效果声音，

其中，效果声音包括在音频对象移动时所产生的声音，

其中，产生索引信息的步骤包括：在当音频对象和图像对象彼此不对应时的情况和当音频对象对应于非效果声音时的情况之中的至少一种情况下，产生索引信息以便减小音频对象的三维效果。

17.根据权利要求16所述的方法，其中，索引信息包括沿向右方向和向左方向的声音扩展信息、沿向前方向和向后方向的深度信息、以及沿向上方向和向下方向的高度信息。

18.根据权利要求16所述的方法，其中，三维图像信息包括关于一个图像帧中包括的图像对象的最大视差值和最小视差值、图像对象的位置信息、以及图像的深度图中的至少一个。

19.根据权利要求18所述的方法，其中，产生索引信息的步骤包括：

基于所述至少一个音频对象沿向右方向和向左方向的位置产生沿向右方向和向左方向的索引信息，其中，通过使用最大视差值和所述位置信息中的至少一个估计所述至少一个音频对象沿向右方向和向左方向的位置；

基于所述至少一个音频对象沿向前方向和向后方向的深度值产生沿向前方向和向后方向的索引信息，其中，通过使用最大视差值和最小视差值中的至少一个估计所述深度值；和

基于所述至少一个音频对象沿向上方向和向下方向的位置产生沿向上方向和向下方向的索引信息，其中，通过使用最大视差值和所述位置信息中的至少一个估计所述至少一个音频对象沿向上方向和向下方向的位置。