CN107409264A

CN107409264A - 基于图像信息处理声音的方法和对应设备

Info

Publication number: CN107409264A
Application number: CN201580077494.6A
Authority: CN
Inventors: 郑炫周; 金善民; 金昌容
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2017-11-28
Anticipated expiration: 2035-01-16
Also published as: US10187737B2; KR101909132B1; CN107409264B; US20180014135A1; WO2016114432A1; KR20170085522A

Abstract

一种基于图像信息处理包括至少一个音频对象的音频信号的方法包括：获得音频信号和对应于音频信号的当前图像，将当前图像划分为至少一个块；获得至少一个块的运动信息，基于所述至少一个块的运动信息，生成索引信息，该索引信息包括用于在至少一个方向上给予至少一个音频对象三维(3D)效果的信息，以及基于索引信息处理音频对象，以使在至少一个方向上给予至少一个音频对象3D效果。

Description

基于图像信息处理声音的方法和对应设备

技术领域

一个或多个示例性实施例涉及基于图像信息处理声音的方法和设备。

背景技术

随着成像技术的发展，支持三维(3D)图像或超高清(UHD)图像的电视(TV)已经被研发并分售了。用于输出提供与图像匹配的氛围的音频信号的立体声技术也已经被研发出来。

根据当前的立体声音技术，多个扬声器位于用户周围，使得用户可以感受到氛围和定位。例如，通过使用5.1声道音频系统创建立体声，该5.1声道音频系统通过使用6个扬声器输出6个分离的音频信号。然而，由于立体声技术不考虑图像信息，所以难以输出提供与图像匹配的氛围的音频信号。

因此，需要根据与音频信号对应的图像信息来处理音频信号的方法和装置。

发明内容

技术方案

一个或多个示例性实施例包括基于图像信息处理音频信号的方法和设备。

发明的有益效果

根据示例性实施例，音频信号可以被处理成与基于平面图像和3D图像的信息的图像的运动相匹配。

附图说明

图1是示出根据示例性实施例的用于处理音频信号的设备的内部结构的框图。

图2是根据示例性实施例的处理音频信号的方法的流程图。

图3是示出根据示例性实施例的用于获得图像的运动信息的图像信号处理器的内部结构的框图。

图4是示出根据示例性实施例的运动矢量的视图。

图5是示出根据示例性实施例的确定索引信息的索引信息生成器的内部结构的框图。

图6是示出根据示例性实施例的基于运动矢量的分布来确定高度索引信息的示例的视图。

图7是示出根据示例性实施例的块的运动矢量的分布的视图。

图8是示出根据示例性实施例的块的运动矢量的视图。

图9是示出根据示例性实施例的用于从三维(3D)图像获得图像的运动信息的图像信号处理器的内部结构的框图。

图10是示出根据示例性实施例的从3D图像信息和图像的运动信息中的至少一个来生成索引信息的索引信息生成器的内部结构的框图。

图11是示出根据示例性实施例的基于索引信息来处理音频信号的音频信号渲染器的内部结构的框图。

图12是根据示例性实施例的基于图像信息来处理音频信号的方法的流程图。

图13和图14是示出根据示例性实施例的基于图像信息来处理音频信号的设备的内部结构的框图。

具体实施方式

根据一个或多个示例性实施例，一种基于图像信息处理包括至少一个音频对象的音频信号的方法包括：获得音频信号和对应于音频信号的当前图像；将当前图像划分为至少一个块；获得至少一个块的运动信息；基于所述至少一个块的运动信息，生成索引信息，该索引信息包括用于在至少一个方向上给予至少一个音频对象三维(3D)效果的信息；以及基于索引信息处理音频对象，以使在至少一个方向上给予至少一个音频对象3D效果。

索引信息的生成可以包括基于关于至少一个块的运动信息获取当前图像的运动信息，并且基于当前图像的运动信息生成索引信息。

获得至少一个块的运动信息可以包括：从被包括在当前图像的之前图像或当前图像的后续图像中的至少一个块中确定具有与当前图像的每个块的最小像素值差的块；并且基于之前图像或之后图像中的与当前图像的每个块相对应的块，获得当前图像的至少一个块的所述运动信息。

获取当前图像的运动信息可以包括：当至少一个块的运动信息包括运动矢量值时，根据一个或多个块的运动矢量值的分布获得至少一个代表值；以及获得包括所获得的代表值的当前图像的运动信息。

当前图像的运动信息还可以包括根据一个或多个块的运动矢量之间的差所确定的当前图像的运动信息的可靠性，其中，索引信息的生成包括：通过基于可靠性确定权重并将对当前图像的运动信息应用权重来确定索引信息。

索引信息可以是用于在向左的方向和向右的方向、向上的方向和向下的方向、以及向前的方向和向后的方向中的至少一个方向上给予至少一个音频对象3D效果的信息，并且可以包括在向左的方向和向右的方向上的声音平移索引，在向前的方向和向后的方向上的深度索引，以及在向上的方向和向下的方向上的高度索引。

索引信息的生成可以包括基于音频信号的级别(level)的变化来确定深度索引。

索引信息的生成可以包括基于块的运动矢量值的分布的特性来确定深度索引和高度索引中的至少一个。

当当前图像是包括同时捕获的多个图像的多视角图像时，可以基于多个图像中的至少一个图像的运动信息来确定索引信息。

该方法还可以包括：根据当前图像的划分区域，获得包括最大视差值、最小视差值和具有最大视差或最小视差的当前图像的位置信息中的至少一个的所述当前图像的视差信息，其中，确定索引信息包括基于当前图像的视差信息来确定在向前的方向或向后的方向上的深度索引向前的方向和向后的方向。

当音频信号不包括用于输出具有高度的音频信号的顶部声道时，该方法还可以包括基于包括在音频信号中的水平平面声道的信号来生成顶部声道的音频信号。

获取运动信息可以包括确定与至少一个音频对象相对应的图像的预定区域，并获得包含在图像的预定区域中的块的运动信息。

当至少一个音频对象和当前图像彼此不匹配且/或至少一个音频对象是非效果声音时，可以生成索引信息以减少至少一个音频对象的3D效果。

根据一个或多个示例性实施例，一种用于处理包括至少一个音频对象的音频信号的设备包括：接收器，用于获得音频信号和对应于音频信号的当前图像；控制器，用于将当前图像划分为至少一个块；获得至少一个块的运动信息；基于所述至少一个块的运动信息，生成索引信息，该索引信息包括用于在至少一个方向上给至少一个音频对象提供3D效果的信息；以及基于索引信息处理至少一个音频对象，以使在所述至少一个方向上给予至少一个音频对象3D效果；以及音频输出单元，用于输出包括所处理的至少一个音频对象的音频信号。

根据一个或多个示例性实施例，一种计算机可读记录介质在其上实现了用于执行该方法的程序。

根据一个或多个示例性实施例，一种计算机程序与硬件组合并执行该方法。

具体实施方式

将参考附图更全面地描述本发明的概念，附图中示出了本发明构思的示例性实施例。在描述本发明概念的同时，省略了可能模糊本发明构思的要点的相关公知功能或配置的详细描述。在附图中，相同的附图标记表示相同的元件。

为了以最好的方式描述本发明，在本说明书和所附权利要求书中使用的术语和词语不应被解释为限于常见含义或字典含义，而应被解释为与本发明的技术精神相匹配的含义和概念。因此，本说明书的附图中描述的示例性实施例和结构仅是本发明构思的示例性实施例，并且它们不代表本发明构思的整个技术概念和范围。因此，应当理解，可以有许多等同实施例和修改的实施例可以替代本说明书中描述的那些。

附图中的一些元素被夸大，省略或示意性地示出。附图中的元件的尺寸是任意显示的，因此示例性实施例不限于附图中的相对尺寸或间隔。

除非上下文另外指示，否则词语“包括”、或者诸如“包含”等的变化被理解为意味着“包括但不限于”，从而未被明确提及的其他元素也可以被包括。术语“单元”是指软件组件或者硬件组件，诸如，场可编程门阵列(FPGA)或者专用集成电路(ASIC)，并且执行特定功能，然而，术语“单元”不限于软件或者硬件。“单元”可以形成为位于可寻址存储介质中，或者可以形成为操作一个或多个处理器。因此，例如，术语“单元”可以指代诸如软件组件、面向对象的软件组件、类组件、和任务组件的组件，并且可以包括进程、功能、属性、程序、子程序、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表格阵列、或者变量。由组件和“单元”提供的功能可以与更少数量的组件和“单元”相关联，或者可以被划分为额外的组件和“单元”。

现在将参考附图更充分地描述本发明构思，以便让本领域普通技术人员能够毫无困难地执行本发明构思。然而，本发明的概念可以以许多不同的形式实现，并且不应被解释为限于本文阐述的示例性实施例；相反，提供这些实施例使得本公开将是彻底和完整的，并且将完全将本发明构思的概念传达给本领域普通技术人员。并且，附图中与详细描述不相关的部分被省略，以保证本发明构思清楚。附图中的相似的参考标号可以表示相似的元素。

图像对象是指包括在图像信号中的诸如对象、人、动物或植物的物体。

音频对象是指包括在音频信号中的每个声音要素(component)。各种音频对象可以被包括在一个音频信号中。例如，由诸如吉他、小提琴、双簧管的多种乐器产生的多个音频对象被包含在通过录制管弦乐队的现场表演而生成的音频信号中。

声源是指生成音频对象的对象(例如，乐器或人的声带)。实际生成音频对象的对象和被用户认为是生成音频对象的对象都被视为声源。例如，当用户观看电影并且苹果从图像平面飞向用户时，当苹果飞行时生成的声音可以被包括在音频信号中。当苹果飞行时生成的声音本身变成音频对象。音频对象可以是通过记录当苹果实际飞行时生成的声音而获得的声音，或者可以是通过简单地再现先前记录的音频对象而获得的声音。然而，在任一情况下，当用户识别出音频对象生成时，苹果本身也可以被包括在如本文所定义的声源中。

三维(3D)图像信息包括三维地显示图像所需的信息。例如，3D图像信息可以包括指示图像的深度的信息和指示图像对象在一个图像平面上的位置的位置信息中的至少一个。用于指示图像的深度的信息是指指示图像对象与参考位置之间的距离的信息。参考位置可以是输出图像的显示设备的表面。具体地，指示图像的深度的信息可以包括图像对象的视差。视差是指左眼图像和右眼图像之间的距离，即双眼视差。

现在将参考附图更全面地描述本发明的概念，附图中示出了本发明构思的示例性实施例。

图1是示出根据示例性实施例的用于处理音频信号的设备100的内部结构的框图。

根据示例性实施例的设备100可以从图像信号获得图像的运动信息，并且可以根据所获得的图像的运动信息来处理音频信号。具体地，设备100可以通过使用图像的运动信息处理音频信号以使音频信号与图像的运动匹配。

参考图1，用于基于图像信息来处理音频信号的设备100包括图像信号处理器110、索引信息生成器120、顶部声道(top channel)生成器130、以及音频信号渲染器140。在附图和示例性实施例中，包括在设备100中的元件可以在物理或逻辑上分离或集成。

图像信号处理器110可以从当前图像获得图像的运动信息。具体地，图像信号处理器110可以将当前图像划分为至少一个块，并且可以获得每个块的运动信息。块的运动信息可以包括指示块的运动方向和大小的运动矢量值。

图像信号处理器110可以从二维(2D)图像或3D图像获得图像的运动信息。当图像信号处理器110从3D图像获得图像的运动信息时，图像信号处理器110可以从左图像和右图像当中的至少一个平面图像获得图像的运动信息。

下面将参照图3至图5详细说明从当前图像的平面图像获得图像的运动信息的方法。

索引信息生成器120基于由图像信号处理器110获得的图像的运动信息生成索引信息。索引信息是用于在至少一个方向上给予音频对象3D效果的信息。例如，索引信息可以是用于在从向左的方向和向右的方向、向上的方法和向下的方向、以及向前的方向和向后的方向当中的至少一个方向上给予音频对象3D效果的信息。设备100可以通过使用索引信息在多达6个方向(即，向上方向、向下方向、向左方向、向右方向、向前方向和向后方向)上给每个音频对象创建3D效果。可以生成索引信息以对应于与当前图像相对应的至少一个音频对象。

以下将参照图5至图8详细说明生成索引信息的方法。

顶部声道生成器130可以基于输入音频信号的声道数和输出布局中的至少一个，改变输入音频信号的声道。具体地，当在输入音频信号中没有顶部声道时，也就是说，没有通过其输出具有高度的声音的声道，顶部声道生成器130可以从水平面上的声道生成顶部声道。

例如，当输入音频信号的声道是在向左的方向和向右的方向上输出声音的2个声道、或者在诸如中心方向、左前方向、右前方向、左后方向和右后方向的5个方向中输出声音的5个声道时，音频信号中不存在顶部声道。顶部声道生成器130可以通过将音频信号的一些现有声道分配到顶部声道来生成音频信号的顶部声道。

当通过2个声道输出声音时，顶部声道生成器130可以基于根据左声道和右声道的频率获得的平移角度值在向前方向上生成顶部声道。平移角度是指用于指示音频信号的方向性的在向左的方向和向右的方向上的角度。具体地，顶部声道生成器130可以通过在前向方向给顶部声道分配一个值来生成顶部声道，该值通过根据平移角度值和顶部声道的位置对左声道和右声道的音频信号应用权重而获得的值相加而获得。本示例性实施例不限于此，并且顶部声道生成器130可以通过使用各种方法中的任何一种来生成顶部声道。

当通过5个声道输出声音时，顶部声道生成器130可以基于根据左声道和右声道的频率获得的平移角度值在左前和右前方向上生成顶部声道。就像通过2个声道输出声音的情况一样，顶部声道生成器130可以通过在左前方向和右前方向给顶部声道分配一个值来生成顶部声道，该值通过根据平移角度值和顶部声道的位置对左声道和右声道的音频信号应用权重而获得的值相加而获得。本示例性实施例不限于此，并且顶部声道生成器130可以通过使用各种方法中的任何一种来生成顶部声道。

另外，当输入音频信号中没有左声道和右声道时，顶部声道生成器130可以根据输出声音的声道的布局从音频信号的现有声道生成左声道和右声道。

顶部声道生成器130是用于重新分配声道的元件，使得根据索引信息和要输出声音的声道的布局来渲染音频信号。因此，当不需要声道的重新分配时，设备100可以不包括顶部声道生成器130。

音频信号渲染器140基于索引信息渲染音频信号。具体地，音频信号渲染器140可以根据基于图像的运动信息所获得的索引信息给予每个音频对象3D效果，以使音频对象与当前图像的运动相匹配。

音频信号渲染器140可以根据索引信息来处理将要输出的音频信号的音频对象，就像音频对象根据每个声道沿着向上的方向和向下的方向、向左的方向和向右的方向、以及向前的方向和向后的方向中的至少一个方向移动似的。

下面将参照图11详细说明根据索引信息渲染音频信号的方法。

图2是根据示例性实施例的处理音频信号的方法的流程图。

参考图2，在操作S201中，设备100可以获得音频信号和对应于音频信号的当前图像。设备100可以处理对应于每个图像帧的音频信号。当图像具有24Hz的频率时，设备100可以以1/24秒的间隔区分音频信号，并且可以基于与音频信号的音频对象相对应的当前图像的运动信息来处理音频信号。

在操作S203中，设备100可以将在操作S201中获得的当前图像划分为至少一个块，并且在操作S205中，设备100可以获得至少一个块的运动信息。

具体地，设备100可以将当前图像之前或之后的图像划分成至少一个块，并且可以获得在之前或之后的图像中的与当前图像的每个块相对应的块。设备100可以使用绝对差值求和(matching sum of absolute differences，SAD)的方法，该方法通过比较块中包括的像素值之间的差来获得相应块。通过使用匹配的SAD方法，设备100可以确定另一图像(例如，当前图像之前或之后的图像)中的具有最小的值差的块作为与当前块匹配的块，该值差是通过将当前块的像素值之间的差值相加获得的。

接下来，设备100可以基于与当前图像的每个块匹配的块的位置来获得当前图像的每个块的运动矢量。

在操作S207中，设备100可以基于在操作S205中获得的至少一个块的运动信息，生成包括用于在至少一个方向上给音频信号的音频对象提供3D效果的信息的索引信息。例如，索引信息可以包括用于在向左的方向和向右的方向，向上的方向和向下的方向以及向前的方向和向后的方向中的至少一个方向上给予3D效果的信息。

在操作S209中，设备100可以基于在操作S207中生成的索引信息来处理音频对象，以便在至少一个方向上给予音频对象3D效果。

现在将详细说明基于图像的运动信息生成索引信息并基于索引信息处理音频对象的方法。

图3是示出根据示例性实施例的获得图像的运动信息的图像信号处理器310的内部结构的框图。图3中的图像信号处理器310对应于图1中的图像信号处理器110。

参考图3，图像信号处理器310包括运动矢量获取器311和运动信息获取器312。在附图和示例性实施例中，包括在图像信号处理器310中的元件可以在物理或逻辑上分离或集成。图3中的图像信号处理器310可以从平面图像获得图像的运动信息。

当图像是包含同时捕获的多个图像的多视角图像(例如，3D图像)时，设备100可以从同时捕获的多个图像中所选出的至少一个图像中获得与音频信号相对应的图像的运动信息。下面将参照图9详细说明获得包括同时捕获的多个图像的图像的运动信息的方法。

运动矢量获取器311可以获得输入当前图像的至少一个块的运动矢量信息。运动矢量信息可以包括通过使用匹配的SAD方法获得的(x，y)值。具体地，运动矢量获取器311可以通过使用匹配的SAD方法来获得之前或之后的图像中的与当前块匹配的块。接下来，运动矢量获取器311可以通过基于与当前块匹配的块的位置来获得当前块的运动方向和大小来获得当前块的块运动矢量(block motion vector，BMV)。

运动信息获取器312可以基于由运动矢量获取器311获得的至少一个块的运动矢量信息来获得图像的运动信息。运动信息获取器312可以从块的运动矢量信息获得图像的整个区域或预定区域的运动信息。

例如，图像的预定区域可以包括其中显示与音频对象相对应的图像对象的区域。设备100可以基于图像的预定区域或整个区域的运动信息来处理与图像的运动匹配的音频对象。

此外，运动信息获取器312可以将图像划分为至少一个子区域，并且可以基于每个子区域的运动信息来处理音频信号。

根据示例性实施例，当图像的预定区域包括其中显示图像对象的区域时，音频对象可以被处理以使其与图像对象的运动相匹配。由于图像的整个区域的运动可以表示拍摄图像的相机的运动方向，所以可以根据图像的整个区域的运动来处理音频信号以与相机的运动方向匹配。

图像的运动信息可以包括基于块的运动矢量值的分布而确定的值。例如，图像的运动信息可以包括根据一个或多个块的运动矢量值的分布而确定的全局运动矢量(globalmotion vector，GMV)以及GMV的可靠性。

可以将GMV确定为表示块的运动矢量值的分布的特征的代表值。例如，GMV可以被确定为运动矢量值的平均值、中值和模式(最常出现的值)之一。GMV可以基于被包括在图像的整个区域中的或与音频对象相对应的图像的预定区域中的块的运动矢量来确定。

GMV的可靠性表示图像的整个区域或对应于音频对象的图像对象的预定区域的运动的一致性。可以根据块的运动矢量之间的差来确定可靠性。因此，可以根据用于确定GMV的块的运动矢量值与GMV值的接近程度来确定可靠性值。也就是说，随着块的运动矢量值具有更接近GMV值的方向和大小，可以获得更高的可靠性值。相反，随着块的运动矢量值之间的差增加，可靠性值降低。

可靠性可以具有从0到1的取值范围，并且设备100可以根据可靠性值确定要应用于GMV的权重。下面将参考图5详细说明根据可靠性值来处理音频信号的方法。

此外，运动信息获取器312可以从图像中获得用于指示是否发生视频平移的视频平移索引。视频平移是指图像平面在图像中整体移动的情况。根据是否发生视频平移，视频平移索引可以具有从0到1的取值范围。设备100可以根据视频平移索引确定要应用于GMV的权重。根据示例性实施例，视频平移索引可以被选择性地用于处理音频信号的方法中。

图4是示出根据示例性实施例的块的运动矢量的视图。

参考图4，可以如矢量分布图420所示获得图像410中的每个块的运动矢量。背景区域中的运动矢量值接近于0，并且是显示了图像对象的区域中的有效值。设备100可以确定其中运动矢量具有有效值的区域作为显示与音频对象相对应的图像对象的区域。设备100可以通过获得图像对象被显示的图像的区域或图像的整个区域的GMV和可靠性来获得图像的运动信息。

当对应于音频对象的图像对象被确定为图像410中的足球时，设备100可以获得包括显示了足球的区域的GMV和可靠性的图像的运动信息。接下来，设备100可以根据图像的运动信息来处理与足球相对应的音频对象。

图5是示出根据示例性实施例的确定索引信息的索引信息生成器520的内部结构的框图。图5中的索引信息生成器520对应于图1的索引信息生成器120。

参考图5，索引信息生成器520包括索引预测器521、声音平移索引生成器522、加权函数523、高度索引生成器524和深度索引生成器525。在附图和示例性实施例中，包括在索引信息生成器520中的元件可以在物理或逻辑上分离或集成。

图5中的索引信息生成器520可以从平面图像生成可用于渲染音频信号的索引信息。索引信息生成器520可以生成声音平移索引、高度索引和深度索引中的至少一个。现在将详细说明索引信息生成器520的元件。

当音频对象和图像对象彼此不匹配和/或当音频对象是非效果声音时，索引预测器521可以确定是否生成索引信息以减少音频对象的3D效果。

当音频对象与图像对象不匹配时，可能意味着图像对象不生成声音。如果图像对象是车辆，则图像对象本身与生成声音的音频对象匹配。或者，在其中有一个人在挥动他/她的手的图像中，该图像中的图像对象变为人的手。然而，由于当人在挥动他/她的手时没有生成声音，因此图像对象和音频对象彼此不匹配，并且索引预测器521可以确定是否生成索引信息以最小化音频对象的3D效果。

具体地，可以将索引信息的深度信息的深度值设置为基准偏移值，并且可以设置声音平移信息，以使从左声道和右声道输出的音频信号的级别(level)相同。并且，高度信息可以被设置为在不考虑顶部和右侧位置的情况下输出对应于预定偏移高度的音频信号。

并且，当音频对象是非效果声音时，声源可以是静态声源，类似于其中音频对象的位置几乎不改变的情况。例如，人的声音、设置在固定位置的钢琴伴奏、或背景音乐是静态声源，并且生成声音的位置没有大的变化。因此，当音频对象是非效果声音时，索引信息生成器520可以生成索引信息以最小化3D效果。

索引预测器521可以跟踪包括在立体声音频信号中的音频对象的方向角度，并且可以基于跟踪的结果来区分效果声音和非效果声音。方向角度可以是全局角度、平移角度或前后角度。生成非效果声音的方向的角度可以称为平移角度。而且，非效果声音会聚的角度也可以称为全局角度。

包括在526中的声音平移索引生成器522、高度索引生成器524和深度索引525中的至少一个可以基于索引预测器521的确定结果来生成索引。具体地，包括在526中的声音平移索引生成器522、高度索引生成器524和深度索引525中的至少一个可以基于索引预测器521的确定结果，根据基准偏移值来生成向音频对象3D不给予效果或者给予3D效果的索引信息。

现在将详细说明包括在526中的声音平移索引生成器522、高度索引生成器524和深度索引525的生成索引的方法。

索引信息可以包括声音平移索引信息、深度索引信息和高度索引信息中的至少一个，其中，索引信息可以由索引信息生成器520生成。声音平移索引信息是用于在图像平面的向左的方向和向右的方向上给予音频对象3D效果的信息。深度索引信息是用于在图像平面的向前和向后方向上给予音频对象的3D效果的信息。并且，高度索引信息是用于在图像平面的向上的方向和向下的方向上给予音频对象3D效果的信息。索引信息生成器520可以生成包括用于在除去向上的方向和向下的方向、向前的方向和向后的方向和向左的方向和向右的方向的其他方向上给予音频对象3D效果的信息的索引。

声音平移索引生成器522产生索引信息，该索引信息是用于在向左的方向和向右的方向上给予每个音频对象3D效果的信息。声音平移索引生成器522可以生成声音平移索引信息，该声音平移索引信息与GMV_X值(即在向左的方向和向右的方向上的GMV的大小)成比例。声音平移索引信息可以包括当在左方向上运动发生时的负值和当在右方向上运动发生时的正值。

声音平移索引生成器522可以通过使用根据GMV的可靠性所确定的权重来生成声音平移索引信息。可以基于可靠性并通过使用权重函数523来获得权重。S形(sigmoid)函数或使用阈值的阶梯(step)函数可以被用作权重函数523。

高度索引生成器524生成索引信息，该索引信息是用于在向上方向和向下方向上给予每个音频对象3D效果的信息。高度索引生成器524可以生成高度索引信息，该高度索引信息与GMV_Y值(即在向上的方向和向下的方向上的GMV的大小)成比例。高度索引信息可以包括当在向上方向上运动发生时的正值和当在向下方向上运动发生时的负值。

高度索引生成器524可以通过使用根据GMV的可靠性确定的权重来生成声音平移索引信息。权重可以基于可靠性并通过使用权重函数523来获得。被声音平移索引生成器522使用的相同的权重值可以被高度索引生成器524使用。

此外，高度索引生成器524可以通过进一步考虑运动矢量的分布来确定高度索引。高度索引生成器524可以根据运动矢量的分布来确定音频信号的角度，并且可以根据所确定的角度来确定高度索引。高度索引生成器524可以基于GMV和可靠性生成高度索引，然后可以根据运动矢量的分布来重新确定高度索引。下面将参照图6详细说明基于运动矢量的分布来确定高度索引的方法。

深度索引生成器525生成索引信息，该索引信息是用于在向前方向和向后方向上给予每个音频对象3D效果的信息。深度索引生成器525可以基于运动矢量的分布和音频信号的级别的变化中的至少一个来生成索引信息。深度索引信息可以包括：例如当在向前方向上运动发生时的正值和当在向后方向上运动发生时的负值。

当基于运动矢量的分布而确定图像对象或图像平面在向前和向后方向上移动时，深度索引生成器525可以根据运动矢量的大小来确定深度索引信息。例如，当运动矢量被分布为在图像的一个点周围移动时，深度索引生成器525可以确定图像包括在向前和向后方向上的运动。下面将参照图7详细说明基于运动矢量的分布来确定深度索引信息的方法。

此外，当音频信号减小时，深度索引生成器525可以确定在向前方向上发生运动，并且当音频信号增加时，深度索引生成器525可以确定在向后方向上发生运动。因此，深度索引生成器525可以根据音频信号的级别的变化来确定深度索引信息。

参考图6所示，高度索引生成器524可以从图像610获得运动矢量的分布图620。运动矢量可以包括GMV或BMV。优选地，运动矢量可以包括BMV。

如630所示，高度索引生成器524可以从运动矢量的分布图620获得运动矢量的角度，并且可以确定运动矢量的分布的特性。运动矢量的角度可以指运动矢量的方向所汇聚的中心点。

如630所示，当运动矢量以三角形或梯形形状分布并且运动矢量的角度位于图像的上端点时，高度索引生成器524可以确定音频对象具有鸟瞰视野或高度。高度索引生成器524可以基于运动矢量的大小和方向来确定高度索引信息。

图7是示出根据示例性实施例的块的运动矢量的分布的视图。

参考图7所示，运动矢量的方向朝向聚焦中心(center of focus，COF)。当运动矢量的方向朝向COF时，深度索引生成器525可以确定发生缩小(zoom-out)，即，在向前方向上发生运动，并且可以根据运动矢量的大小来确定深度索引信息。

相反地，在运动矢量的分布图中，当运动矢量的方向远离COF时，深度索引生成器525可以确定发生了放大，即，在向后方向上发生运动，并且可以根据运动矢量的大小来确定深度索引信息。例如，深度索引生成器525可以基于运动矢量的分布来获得在向前或向后方向上的运动矢量的大小，并且可以基于运动矢量的大小来确定深度索引信息。

图8是示出根据示例性实施例的块的运动矢量的视图。

参考图8，810和820示出在上、下、左和右方向上的运动矢量值。830示出在向前和向后方向上的运动矢量值。

对应于平移的在向左的方向和向右的方向上的运动矢量值可以表示为p(u)。对应于倾斜(tilting)的在向上的方向和向下的方向上的运动矢量值可表示为t(u)。对应于缩放(zooming)的在向前的方向和向后的方向上的运动矢量值可以表示为z(u)。

图840是示出与平移P、倾斜T和缩放Z相对应的图像的运动信息的图形。在图形840的图像中，运动看起来经常在向左的方向和向右的方向和向前的方向和向后的方向上发生。

图9是示出根据示例性实施例的从3D图像获得图像的运动信息的图像信号处理器910的内部结构的框图。图9中的图像信号处理器910对应于图1和图3的图像信号处理器110和310。

参考图9，图像信号处理器910包括运动矢量获取器911、运动信息获取器912和3D图像信息获取器913。在附图和示例性实施例中，包括在图像信号处理器910中的元件可以在物理或逻辑上分离或集成。图3的图像信号处理器910可以从平面图像获得图像的运动信息。

与图3中的图像信号处理器310不同，图像信号处理器910可以包括获得3D图像信息的3D图像信息获取器913。根据示例性实施例的3D图像信息可以用于与图像的运动信息一起生成索引信息。

运动矢量获取器911和运动信息获取器912可以基于包括在多视角图像中的平面图像中的至少一个来获得块的运动矢量，并且可以获得图像的运动信息。当多视角图像是3D图像时，运动矢量获取器911和运动信息获取器912可以基于左图像和右图像之一来获得块的运动矢量，并且可以获得图像的运动信息。与图3中的运动矢量获取器311和运动信息获取器312相似的，运动矢量获取器911和运动信息获取器912可以获得块的运动矢量，并且可以获得图像的运动信息。

3D图像信息获取器913可以获得3D图像信息。3D图像信息可以包括当前图像的最大视差值、最小视差值、和具有最大或最小视差的图像对象的位置信息中的至少一个。并且，3D图像信息可以包括图像帧中的主图像对象的视差值和主图像对象的位置信息中的至少一个。可替换地，3D图像信息可以包括深度图。并且，当根据每个帧输入3D图像信息时，图像对象的位置信息可以包括关于通过将对应于一个帧的一个图像平面划分为至少一个而获得的子帧的信息。可以根据每个子帧来确定图像对象的最小和最大视差信息。

图10是示出根据示例性实施例的根据3D图像信息和图像的运动信息中的至少一个来生成索引信息的索引信息生成器1020的内部结构的框图。图10中的索引信息生成器1020对应于图1和图5的索引信息生成器120和520。并且，图10中的索引预测器1021、声音平移索引生成器1022、加权函数1023、高度索引生成器1024、以及深度索引生成器1025分别对应于图5中索引预测器521、声音平移索引生成器522、加权函数523、高度索引生成器524、以及深度索引生成器525。

参考图10，索引信息生成器1020包括索引预测器1021、声音平移索引生成器1022、加权函数1013、高度索引生成器1024和深度索引生成器1025。在附图和示例性实施例中，包括在索引信息生成器1020中的元件可以在物理或逻辑上分离或集成。

图10中的索引信息生成器1020可以基于3D图像信息和根据3D图像所获得的图像的运动信息来生成索引信息。索引信息生成器1020可以生成声音平移索引、高度索引和深度索引中的至少一个。现在将详细说明索引信息生成器1020中的元件。

当音频对象和图像对象彼此不匹配和/或音频对象是非效果声音时，索引预测器1021可以确定是否生成索引信息以减少音频对象的3D效果。

包括在1026中的声音平移索引生成器1022、高度索引生成器1024和深度索引生成器1025中的至少一个可以基于索引预测器1021的确定结果来生成索引。具体地，包括在1026中的索引生成器1022、1024和1025中的至少一个可以基于索引预测器1021的确定结果根据基准偏移值，生成向音频对象不给予3D效果或者给予3D效果的索引信息。

索引信息可以包括声音平移索引信息、深度索引信息和高度索引信息中的至少一个，其中，索引信息可以由索引信息生成器1020生成。现在将详细说明包括在1026中的声音平移索引生成器1022、高度索引生成器1024和深度索引生成器1025的生成索引的方法。

可以基于从平面图像获得的图像的运动信息来生成声音平移索引信息和高度索引信息。如上所述，图像的运动信息可以包括GMV、可靠性、块的运动矢量和视频平移索引。声音平移索引生成器1022和高度索引生成器1024可以以与图5中的声音平移索引生成器522和高度索引生成器524所使用的相同的方式生成索引。

深度索引生成器1025可以基于3D图像信息、音频信号的级别的变化和从平面图像获得的块的运动矢量中的至少一个来生成深度索引。当3D图像信息包括最大或最小视差信息时，深度索引生成器1025可以通过使用最大或最小视差信息估计音频对象在向前的方向和向后的方向上的深度信息。并且，深度索引生成器1025可以基于所估计的深度信息生成深度索引。

此外，深度索引生成器1025可以基于运动矢量的分布和音频信号的级别的变化来生成深度索引，如图5中的深度索引生成器525一样。具体地，深度索引生成器1025可以基于从平面图像获得的块的运动矢量的分布来确定是否发生放大或缩小，并且可以基于运动矢量值生成深度索引。

下面将参考图11详细说明根据索引信息来处理音频信号的方法。

图11是示出根据示例性实施例的基于索引信息来处理音频信号的音频信号渲染器1140的内部结构的框图。图11中的音频信号渲染器1140对应于图1中的音频信号渲染器140。

参考图11，音频信号渲染器1140包括深度渲染器1141、平移渲染器1142和高度渲染器1143。在附图和示例性实施例中，包括在音频信号渲染器1140中的元件可以在物理或逻辑上分离或集成。

图11的音频信号渲染器1140可以基于由索引信息生成器120、520或1020生成的索引信息来处理音频信号。可用于处理音频信号的索引信息可以包括声音平移索引、高度索引和深度索引中的至少一个。现在将详细说明音频信号渲染器1140中的元素。

深度渲染器1141可以基于深度索引在向前的方向和后向的方向给予音频对象3D效果。具体地，深度渲染器1141可以根据深度索引进行操作，使得音频对象被定位成在向前的方向和向后的方向上与图像的运动相匹配。

平移渲染器1142可以基于声音平移索引在向左的方向和向后的方向给予音频对象3D效果。具体地，平移渲染器1142可以根据平移索引进行操作，使得音频对象被定位成在向左的方向和向右的方向上与图像的运动相匹配。

高度渲染器1143可以基于高度索引在向上的方向和向下的方向给音频对象给予3D效果。高度渲染器1143可以包括头相关传输滤波器(head-related transfer filter，HRTF)处理器1144和混频器(mixer)1145，并且可以区分和处理顶部声道和水平平面声道的音频信号。

HRTF处理器1144将音频信号传递通过HRTF滤波器，该HRTF滤波器根据高度索引对应于高度角。随着高度索引值增加，可以输出对应于较高高度角的音频信号。HRTF滤波器可以通过使用其中路径的简单差(例如耳间的时间差ITD，即两只耳朵间声音到达时间的差，以及耳间的级别差(inter-aural time difference，ILD)，即两只耳朵间声音的级别的差)和路径上的复杂特性(例如来自头部的表面的衍射或来自耳朵的反射)根据声音到达方向而不同的一种现象使得能够感知立体声。HRTF处理器1144可以通过HRTF滤波器，通过使用布置在水平平面上的扬声器，来对从高于扬声器的高度生成的声音进行建模。

混频器1145可以根据输出扬声器混合和输出各声道的音频信号。现在将说明根据输出扬声器来混合音频信号的方法。

当输出扬声器是安装在通用数字TV上的立体声扬声器时，混频器1145可以根据高度索引对被HRTF处理的顶部声道的音频信号应用高权重，并且可以输出结果信号。也就是说，混合器1145可以操作，使得被HRTF处理的顶部声道的音频信号比当存在可以输出顶部声道的上部扬声器时更强烈地输出。

当输出扬声器是包括上部扬声器的4声道输出扬声器、或存在可以输出顶部声道的扬声器时，HRTF处理器1144可以不执行HRTF处理器。然而，混频器1145可以根据图像的运动信息，通过根据高度索引控制从每个扬声器输出的音频信号的增益来向音频信号给予高度。此外，为了向从上部扬声器输出的音频信号给予额外的高度，混频器1145可以输出被HRTF处理的音频信号。

在4声道输出数字电视(TV)中，扬声器可以位于电视的四个边缘左右，左下的扬声器和右侧的扬声器可以形成底层的声像(sound image)，左上的扬声器和右上的扬声器可以形成顶层的声像。混频器1145可以根据高度索引来控制应用到输出到底层的音频信号的增益和输出到顶层的音频信号的增益，以便定位顶层和底层的声像。

参考图12，在操作S201中，设备100可以获得音频信号和对应于音频信号的当前图像。

在操作S1203中，设备100可以将当前图像划分成至少一个块。在操作S1205中，设备100可以获得在操作S1203中获得的至少一个块的运动矢量。设备100可以通过使用匹配的SAD方法来获得块的运动矢量。

当当前图像是3D图像时，设备100可以将来自左图像和右图像中的至少一个平面图像分割成至少一个块，并且可以获得每个块的运动矢量。即使当当前图像是多视角图像而不是3D图像时，设备100也可以将来自同时捕获的多个图像中的至少一个平面图像划分为至少一个块，并且可以获得每个块的运动矢量。

在操作S1207中，设备100可以基于块的运动矢量获得图像的运动矢量和可靠性。具体地，设备100可以根据一个或多个块的运动矢量值的分布来获得图像的GMV和GMV的可靠性。设备100可以基于包含在图像的预定区域或图像的整个区域中的块的运动矢量值来获得GMV和可靠性。

在操作S1209中，确定当前图像是否为2D图像，即平面图像。当当前图像是2D图像时，设备100可能不能从当前图像获得指示图像的3D效果的视差信息，用于确定深度索引。因此，当在操作S1209中确定当前图像是2D图像时，该方法进行到操作S1211。在操作S1211中，设备100可以基于运动矢量的分布和音频信号的级别中的至少一个，而不是基于视差信息，来确定深度索引。

具体地，当运动矢量的分布对应于远离或朝向COF的放大或缩小时，可以确定在向前的方向和向后的方向上发生图像的运动。因此，设备100可以基于对应于放大或缩小的运动矢量的大小来生成深度索引。此外，设备100可以通过进一步考虑音频信号的级别的变化来生成深度索引。

相反，当当前图像是3D图像时，设备100可以从当前图像获得指示图像的3D效果的视差信息，用于确定深度索引。

当在操作S1209中确定当前图像是3D图像时，该方法进行到操作S1213。在操作S1213中，设备100从当前图像获得包括视差信息的3D图像信息。在操作S1215中，设备100可以基于在操作S1213中获得的3D图像信息生成深度索引。

此外，与在操作S1211一样，设备100可以基于运动矢量的分布和音频信号的级别中的至少一个来确定深度索引。在操作S1205中，可以从构成3D图像或多视角图像的平面图像中的至少一个获得运动矢量的分布。

在操作S1217中，设备100可以基于在操作S1205至S1207中获得的图像的运动信息和块的运动矢量的分布中的至少一个来生成高度索引和声音平移索引。图像的运动信息可以包括GMV和GMV的可靠性。

在操作S1219中，设备100可以根据在操作S1215或S1211、和S1217中获得的深度索引和声音平移索引来渲染音频信号。具体地，设备100可以根据深度索引和声音平移索引在向左的方法和向右的方向、以及向前的方向和向后的方向上向音频信号给予3D效果，使得音频信号与图像的运动相匹配。

在操作S1221中，设备100可以确定是否执行HRTF处理，以便在向上的方向和向下的方向上给予音频信号3D效果。设备100可以根据用于输出顶部声道的音频信号的上部扬声器是否包括在输出扬声器中来确定是否执行HRTF处理。此外，设备100可以通过进一步考虑是否需要对从上部扬声器输出的音频信号应用附加高度来确定是否执行HRTF处理。

当在操作S1221中确定要执行HRTF时，该方法进行到操作S1223。在操作S1223中，为了应用额外的高度至音频信号，设备100可以基于高度索引对顶部声道的音频信号执行HRTF处理。

当在操作S1221中确定不执行HRTF处理时，该方法进行到操作S1225。在操作S1225中，设备100可以通过基于高度索引调整顶部声道的音频信号的增益来向音频信号应用高度。

当用于输出顶部声道的音频信号的上部扬声器被包括在输出扬声器中时，设备100可以通过将顶部声道的音频信号的增益调整至与高度索引成比例来向音频信号应用高度。

在操作S1223中，设备100可以对音频信号执行HRTF处理，以便向从上部扬声器输出的音频信号应用额外的高度。

在操作S1227中，设备100可以根据输出扬声器，混合和输出声道的音频信号。

现在将参照图13和图14详细说明设备件1300和1400的元件。

图13和图14是示出根据示例性实施例的基于图像信息来处理音频信号的设备1300和1400的内部结构的框图。图13和图14中的设备1300和1400可以对应于图1中设备100。

图13和图14中的设备1300和1400可以应用于诸如移动电话、平板电脑、个人数字助理(PDA)、MP3播放器、信息亭、电子框架、导航系统、数字电视、手表、和诸如头戴显示器(HMD)的可穿戴设备的各种设备。

参考图13所示，设备1300可以包括接收器1330、控制器1370和扬声器1360。在附图和示例性实施例中，包括在设备1300中的元件可以在物理或逻辑上分离或集成。

接收器1330可以获得音频信号和对应于音频信号的当前图像。

控制器1370可以将在接收器1330中获得的当前图像划分为至少一个块，并可以基于至少一个块的运动信息生成索引信息。并且，控制器1370可以基于索引信息处理音频对象，以便在左、右、上、下、前、后方向中的至少一个方向上，给予包括在音频信号中的音频对象3D效果。

扬声器1360可以输出包括被处理的音频对象的音频信号，以便由控制器1370给出3D效果。

然而，并非图13的所有元件都是必需的。设备1300中可以包括更多的元件，或者设备1300中可以包括更少的元件。

例如，如图14所示，根据示例性实施例的设备1400还可以包括存储器1420，全球定位系统(GPS)芯片1425、通信单元1430、视频处理器1435、音频处理器1440、用户输入单元1445、麦克风单元1450、成像单元1455和运动检测器1465，而取代接收器1330、控制器1370和扬声器1360。接收器1330可以对应于通信单元1430，并且扬声器1360可以对应于扬声器单元1460。

现在将依次说明这些元件。

显示单元1410可以包括显示面板1411和控制显示面板1411的控制器(未示出)。显示面板1411的示例可以包括液晶显示器(LCD)、有机发光二极管(OLED)、有源矩阵OLED(AM-OLED)和等离子体显示面板(PDP)。显示面板1411可以是柔性的、透明的或可穿戴的。显示单元1410可以耦合到用户输入单元1445的触摸面板1447，并且可以被提供为触摸屏。例如，触摸屏可以包括集成模块，在该集成模块中，显示面板1411和触摸面板1447彼此堆叠的。

根据示例性实施例的显示单元1410可以在控制单元1470的控制下显示与通过扬声器单元1460输出的音频信号相对应的图像。可以由显示单元1410显示的图像的示例可以包括平面图像和3D图像。

存储器1420可以包括内部存储器(未示出)和外部存储器(未示出)中的至少一个。

内部存储器可以包括以下各项中的至少一个：例如，易失性存储器(例如，动态随机存取存储器(DRAM)、静态RAM(SRAM)或同步动态RAM(SDRAM))、非易失性存储器(例如，一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM或闪存ROM))、硬盘驱动器(HDD)和固态驱动器(SSD)。根据示例性实施例，控制单元1470可以将从非易失性存储器或其他元件中的至少一个接收的命令或数据加载到易失性存储器，然后可以处理命令或数据。此外，控制单元1470可以存储从在非易失性存储器中的其他元件接收或生成的数据。

外部存储器可以包括可以包括以下各项中的至少一个：例如紧凑型闪存(CF)、安全数字(SD)、微安全数字(micro-SD)、微型安全数字(mini-SD)、微型安全数字极限数字(xD)和记忆棒中。

存储器1420可以存储用于操作设备1400的各种程序和数据。根据示例性实施例，图像、对应于图像的音频信号和3D图像信息中的至少一个可以暂时地或永久地存储在存储器1420中。

控制单元1470可以控制显示单元1410在显示单元1410上显示存储在存储器1420中的信息的一部分。换句话说，控制单元1470可以在显示单元1410上显示存储在存储器1420中的图像。可替换地，当在显示单元1410的区域中发生用户的手势时，控制单元1470可以执行与用户的手势相对应的控制操作。

控制单元1470可以包括以下各项中的至少一个：RAM(Random-Access Memory，随机存取存储器)1471、只读存储器(ROM)1472、中央处理单元(CPU)1473，图形处理单元(GPU)1474和总线1475。RAM 1471、ROM 1472、CPU 1473和GPU 1474可以经由总线1475彼此连接。

CPU 1473访问存储器1420，并通过使用存储在存储器1420中的O/S(operationsystem，操作系统)来执行引导。CPU 1473通过使用存储在存储器1420中的各种程序、内容和数据来执行各种操作。

用于引导系统的命令集存储在ROM 1472中。例如，当开启命令被输入并且向设备1400提供电力时，CPU 1473可以通过根据存储在ROM 1472中的命令将存储在存储器1420中的O/S复制到RAM 1471来引导系统，并执行O/S。当引导完成时，CPU 1473通过将存储在存储器1420中的各种程序复制到RAM1471并执行复制的各种程序来执行各种操作。

当设备1400的引导完成时，GPU 1474在显示单元1410的区域上显示用户界面(UI)屏幕。具体地，GPU 1474可以生成包括诸如内容、图标和菜单的各种对象的UI屏幕。根据示例性实施例的UI屏幕可以用于输出图像和音频信号。GPU 1474根据UI画面的布局来计算诸如坐标值、形状、尺寸或颜色的属性值。GPU 1474可以基于所计算的属性值来生成具有包括对象的各种布局的UI屏幕。由GPU 1474生成的UI屏幕可以被提供给显示单元1410，并且可以显示在显示单元1410的每个区域中。

GPS芯片1425可以从GPS卫星接收GPS信号，并且可以计算设备1400的当前位置。当使用导航程序或需要用户的当前位置时，控制单元1470可以使用GPS芯片1425来计算用户的位置。

通信单元1430可以根据各种通信方法与各种外部设备进行通信。通信单元1430可以包括以下各项中的至少一个：WiFi芯片1431、蓝牙芯片1432、无线通信芯片1433和近场通信(NFC)芯片1434。控制单元1470可以通过使用通信单元1430与各种外部设备进行通信。例如，控制单元1470可以通过使用通信单元1430接收将要在显示单元1410上显示的图像和音频信号。

WiFi芯片1431和蓝牙芯片1432可以分别通过使用WiFi方法和蓝牙方法进行通信。当使用WiFi芯片1431或蓝牙芯片1432时，可以首先发送/接收诸如服务集标识符(SSID)和会话密钥的各种连接信息，然后可以通过使用各种连接信息来发送/接收各种信息。无线通信芯片1433是指根据诸如电气和电子工程师协会(IEEE)、ZigBee、第三代(3G)、第三代合作伙伴计划(3GPP)和长期演进(LTE)的各种通信标准进行通信的芯片。NFC芯片1434是指通过使用从诸如135kHz、13.56MHz、433MHz、860-960MHz和2.45GHz的各种射频识别(RF-ID)频带中使用13.56MHz的频带的NFC方法进行操作的芯片。

视频处理器1435可以处理通过通信单元1430接收的图像数据或存储在存储器1430中的图像数据。视频处理器1435可以对图像数据执行诸如解码、缩放、噪声滤波、帧速率转换或分辨率改变的各种图像处理。显示单元1410可以显示由视频处理器1435处理的图像数据。

音频处理器1440可以处理通过通信单元14360接收的音频数据或存储在存储器1420中的音频数据。音频处理器1440可以对音频数据执行诸如解码、放大和噪声滤波的各种处理。例如，音频处理器1440可以处理对应于显示在显示单元1410上的图像的音频数据。此外，根据示例性实施例，音频处理器1440可以通过执行用于基于图像信息给予音频信号3D效果的处理来输出音频数据。

当执行用于再现多媒体内容的程序时，控制单元1470可以驱动视频处理器1435和音频处理器1440再现多媒体内容。扬声器单元1460可以输出由音频处理器1440生成的音频数据。例如，控制单元1470可以通过使用视频处理器1435和音频处理器1440处理在显示单元1410上显示的多媒体内容。

用户输入单元1445可以从用户接收各种命令。用户输入单元1445可以包括以下各项中的至少一个：按键1446、触摸面板1447、以及笔识别面板1448。设备1400可以根据从按键1446、触摸面板1447、以及笔识别面板1448中的至少一个接收到的用户输入来输出图像和音频信号。

按键1446可以包括诸如机械按钮的各种按键以及形成在主体的外表面的各个部分(诸如前部、侧部、及后部)上的滚轮。

触摸面板1447可以检测用户的触摸输入，并且可以输出与所检测到的触摸信号相对应的触摸事件值。当触摸面板1447耦合到显示面板1411并且被提供为触摸屏(未示出)时，触摸屏可以包括使用电容方法，电阻方法和压电方法的各种触摸传感器中的任何一种。在电容法中，电介质被涂覆在触摸屏的表面上，并且当用户的身体部分触摸触摸屏的表面时，由用户的身体部分产生的微细电力被检测到，触摸坐标被计算。在电阻法中，假设垂直排列的两个电极板嵌入触摸屏中，当用户触摸触摸屏时，两个板在触摸点处相互接触，电流流动被检测到，触摸坐标被计算。在触摸屏上发生的触摸事件通常可以由人的手指产生，但是本示例性实施例不限于此，并且触摸事件可以由可能改变电容的导电材料产生。

笔识别面板1448可以使用诸如触控笔或数字笔的用于触摸的用户的笔来检测接近输入或触摸输入，并且可以输出笔接近事件或笔触摸事件。笔识别面板1448可以使用电磁共振(EMR)方法，并且可以通过在笔更靠近或接触时使用电磁场强度的变化来检测触摸输入或接近输入。具体地，笔识别面板1448可以包括具有网格结构的电磁感应线圈传感器(未示出)和电磁信号处理器(未示出)，其顺序地将具有预定频率的交流(AC)信号施加到电磁感应线圈传感器的环形线圈。当设置有谐振电路的笔位于笔识别面板1448的环形线圈周围时，从环形线圈发送的磁场基于在笔中设置的谐振电路中的互电磁感应产生电流。基于电流，可以从设置在笔中的谐振电路的线圈产生感应磁场，并且笔识别面板1448可以检测来自处于信号接收状态的环形线圈的感应磁场，因此可以检测笔的接近位置或触摸位置。笔识别面板1448可以设置在显示面板1411的下面以便具有足够大的面积去覆盖，例如显示面板1411的显示区域。

麦克风单元1450可以接收用户的语音或其他声音，并且可以将用户的语音或其他声音改变为音频数据。控制单元1470可以在呼叫操作中使用通过麦克风单元1450输入的用户的语音，或者可以将用户的语音改变为音频数据，并且可以将音频数据存储在存储器1420中。

成像单元1455可以根据用户的控制获得静止图像或运动图像。多个成像单元1455可以被设置为例如前置摄像机和后置摄像机。

当提供成像单元1455和麦克风单元1450时，控制单元1470可以根据由成像单元1455识别的用户的运动或通过麦克风单元1450输入的用户的语音来执行控制操作。例如，设备1400可以以运动控制模式或语音控制模式操作。当设备1400在运动控制模式下操作时，控制单元1470可以激活成像单元1455去拍摄用户，可以跟踪用户运动的变化，并且可以执行适当的控制操作。例如，控制单元1470可以根据由成像单元1455检测到的用户的运动输入来输出图像和音频信号。当设备1400在语音控制模式下操作时，控制单元1470可以分析通过麦克风单元1450输入的用户的语音，并且可以根据所分析的用户的语音在语音识别模式中执行控制操作。

运动检测器1465可以检测设备1400的主体的运动。设备1400可以在各个方向上旋转或倾斜。在这种情况下，运动检测器1465可以通过使用诸如地磁传感器、陀螺传感器和加速度传感器的各种传感器中的至少一个来检测诸如旋转方向，旋转角度和梯度的运动特性。例如，运动检测器1465可以通过检测设备1400的主体的运动来检测用户的输入，并且可以根据所接收到的用户的输入来输出图像和音频信号。

另外，尽管根据示例性实施例的图13和图14未示出，设备1400还可以包括可连接USB连接器的通用串行总线(USB)端口、连接到诸如耳机、鼠标、局域网(LAN)的各种外部终端的各种外部输入端口、接收和处理数字多媒体广播(digital multimediabroadcasting，DMB)信号的DMB芯片、以及各种传感器。

设备1400的元件的名称可以被改变。此外，根据本示例性实施例的设备1400可以包括元件中的至少一个，并且可以省略一些元件，或者可以进一步包括附加的其他元件。

根据示例性实施例的方法可以计算机可读记录介质上的计算机可读代码。计算机可读记录介质可以是能够存储由计算机系统读取的数据的任何记录装置。计算机可读记录介质包括能够存储能够被计算机系统读取的数据的任何存储设备。非瞬时性计算机可读记录介质的示例包括ROM、RAM、CDROM(Compact Disc Read-Only Memory,光盘只读存储器)、磁带、软盘、和光数据存储设备。

虽然通过使用特定术语并参考其示例性实施例已经特别示出和描述了本发明的概念，但是示例性实施例和术语仅仅被用于解释本发明的概念，并且不应如权利要求所定义的被解释为限制定义的发明概念的范围。示范性实施例应该被认为仅仅是描述性意义，而不是为了限制的目的。因此，本发明构思的范围不是由本发明构思的详细描述定义，而是由所附权利要求定义，并且所述范围内的所有差异将被理解为包括在本发明构思中。

Claims

1.一种基于图像信息处理包括至少一个音频对象的音频信号的方法，所述方法包括：

获得音频信号和对应于所述音频信号的当前图像；

将所述当前图像划分为至少一个块；

获得所述至少一个块的运动信息；

基于所述至少一个块的运动信息，生成索引信息，所述索引信息包括用于在至少一个方向上给予至少一个音频对象三维(3D)效果的信息；以及基于所述索引信息处理所述音频对象，以使在所述至少一个方向上给予所述音频对象所述3D效果。

2.如权利要求1所述的方法，其中，所述生成索引信息包括：

基于所述至少一个块的运动信息获得所述当前图像的运动信息，并且基于所述当前图像的运动信息生成所述索引信息。

3.如权利要求1所述的方法，其中，所述获得所述至少一个块的运动信息包括:

从被包括在所述当前图像的之前图像或所述当前图像的之后图像中至少一个块中确定具有与所述当前图像的每个块的最小像素值差的块；以及

基于所述之前图像或之后图像中的与所述当前图像的每个块相对应的块，获得所述当前图像的至少一个块的所述运动信息。

4.如权利要求1所述的方法，其中，所述获得所述当前图像的运动信息包括:

当所述至少一个块的运动信息包括运动矢量值，根据一个或多个块的运动矢量值的分布获得至少一个代表值；以及

获得包括所获得的代表值的所述当前图像的运动信息。

5.如权利要求4所述的方法，其中，所述当前图像的运动信息还包括根据所述一个或多个块的运动矢量之间的差所确定的所述当前图像的运动信息的可靠性，

其中，所述生成索引信息包括通过基于所述可靠性确定权重并对所述当前图像的运动信息应用所述权重来确定所述索引信息。

6.如权利要求1所述的方法，其中，索引信息是用于在向左的方向和向右的方向、向上的方向和向下的方向、以及向前的方向和向后的方向中的至少一个方向上给予所述至少一个音频对象3D效果的信息，并且包括在所述向左的方向和向右的方向上的声音平移(pan)索引、在所述向前的方向和向后的方向上的深度索引、以及在所述向上的方向和向下的方向上的高度索引。

7.如权利要求6所述的方法，其中，所述生成索引信息包括基于所述音频信号的级别变化确定所述深度索引。

8.如权利要求6所述的方法，其中，所述生成索引信息包括基于所述块的运动矢量值的分布的特性确定所述深度索引和所述高度索引中的至少一个。

9.如权利要求1所述的方法，其中，当所述当前图像是包括同时捕获的多个图像的多视角图像时，基于所述多个图像中的至少一个图像的运动信息来确定所述索引信息。

10.如权利要求9所述的方法，还包括根据所述当前图像的划分区域，获得包括最大视差值、最小视差值和具有最大视差或最小视差的所述当前图像的位置信息中的至少一个的所述当前图像的视差信息，

其中所述生成索引信息包括基于所述当前图像的视差信息确定在向前的方向或向后的方向上的深度索引。

11.如权利要求1所述的方法，还包括：当所述音频信息不包括用于输出具有高度的音频信号的顶部声道时，基于被包括在所述音频信息中的水平平面声道的信号，生成所述顶部声道的音频信号。

12.如权利要求1所述的方法，其中，当所述至少一个音频对象与所述当前图像相互不匹配且/或所述至少一个音频对象是非效果声音时，所述索引信息被生成以减少所述至少一个音频对象的3D效果。

13.一种处理包括至少一个音频对象的音频信号的设备，所述设备包括：

接收器，用于获得音频信号和对应于所述音频信号的当前图像；

控制器，用于将所述当前图像划分为至少一个块，获得所述至少一个块的运动信息，基于所述至少一个块的运动信息，生成索引信息，所述索引信息包括用于在至少一个方向上给予至少一个音频对象3D效果的信息，并基于所述索引信息处理所述音频对象，以使在所述至少一个方向上给予所述至少一个音频对象所述3D效果；以及

音频输出单元，用于输出包括所处理的至少一个音频对象的音频信号。

14.如权利要求13所述的设备，其中，当所述至少一个块的运动信息包括每个块的运动矢量值时，所述控制器根据一个或多个块的运动矢量值的分布获得至少一个代表值，并基于所述至少一个代表值生成所述索引信息。

15.如权利要求14所述的设备，其中，所述控制器基于所述当前图像的运动信息的可靠性确定权重，并对所述当前图像的运动信息应用所述权重，所述可靠性是根据所述一个或多个块的运动矢量之间的差确定的。