CN102812731A

CN102812731A - 用于再现三维声音的方法和设备

Info

Publication number: CN102812731A
Application number: CN2011800148342A
Authority: CN
Inventors: 赵镕春; 金善民
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2010-03-19
Filing date: 2011-03-17
Publication date: 2012-12-05
Anticipated expiration: 2031-03-17
Also published as: KR20110105715A; EP3026935A1; BR112012023504B1; EP2549777A4; US20130010969A1; WO2011115430A3; BR112012023504A2; RU2012140018A; CA2793720A1; US9622007B2; MY165980A; JP2013523006A; EP2549777A2; CN105933845A; WO2011115430A2; US20150358753A1; CN105933845B; MX2012010761A; AU2011227869A1; CN102812731B

Abstract

公开了一种再现立体声的方法，所述方法包括：获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；基于声音深度信息，将声音远近感提供给所述至少一个声音对象。

Description

用于再现三维声音的方法和设备

技术领域

本申请涉及一种用于再现立体声的方法和设备，更具体地讲，涉及一种用于再现将远近感(perspective)提供给声音对象的立体声的方法和设备。

背景技术

由于成像技术的发展，用户可观看3D立体图像。3D立体图像考虑双目视差而将左视点图像数据暴露给左眼并将右视点图像数据暴露给右眼。用户可通过3D图像技术识别看起来从屏幕真实跳出或向着屏幕的背面真实进入的对象。

此外，随着成像技术的发展，用户对声音的兴趣增加，具体地讲，立体声已得到明显发展。在立体声技术中，多个扬声器被布置在用户周围，使得用户可体验不同位置处的定位和远近感。然而，在立体声技术中，接近用户或变得离用户更远的图像对象可能不能被有效表现出，使得可能不能提供与3D图像对应的音效。

附图说明

图1是根据本发明的实施例的用于再现立体声的设备的框图；

图2是根据本发明的实施例的图1的声音深度信息获取单元的框图；

图3是根据本发明的另一实施例的图1的声音深度信息获取单元的框图；

图4是示出根据本发明的实施例的用于在确定单元中确定声音深度值的预定函数的曲线图；

图5是根据本发明的实施例的使用立体声信号提供立体声的远近感提供单元的框图；

图6A至图6D示出根据本发明的实施例的在图1的用于再现立体声的设备中提供立体声的过程；

图7是示出根据本发明的实施例的基于声音信号来检测声音对象的位置的方法的流程图；

图8A至图8D示出根据本发明的实施例的从声音信号检测声音对象的位置；

图9是示出根据本发明的实施例的再现立体声的方法的流程图。

发明内容

本发明提供了一种用于有效地再现立体声的方法和设备，具体地讲，提供了一种通过将远近感提供给声音对象来有效地表现接近用户或变得离用户更远的声音而再现立体声的方法和设备。

根据本发明的一方面，提供了一种再现立体声的方法，所述方法包括：获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；基于声音深度信息，将声音远近感提供给所述至少一个声音对象。

获取声音深度信息的步骤包括：获取组成图像信号的每个图像片段的最大深度值；基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。

获取声音深度值的步骤包括：当所述最大深度值小于第一阈值时，将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，将所述声音深度值确定为最大值。

获取声音深度值的步骤还包括：当所述最大深度值等于或大于第一阈值且小于第二阈值时，将所述声音深度值确定为与所述最大深度值成比例。

获取声音深度信息的步骤包括：获取关于图像信号中的所述至少一个图像对象的位置信息以及关于声音信号中的所述至少一个声音对象的位置信息；确定所述至少一个图像对象的位置是否与所述至少一个声音对象的位置匹配；基于确定的结果来获取声音深度信息。

获取声音深度信息的步骤包括：获取组成图像信号的每个图像片段的平均深度值；基于所述平均深度值，获取用于所述至少一个声音对象的声音深度值。

获取声音深度值的步骤包括：当所述平均深度值小于第三阈值时，将所述声音深度值确定为最小值。

获取声音深度值的步骤包括：当先前片段中的平均深度值与当前片段中的平均深度值之间的差小于第四阈值时，将所述声音深度值确定为最小值。

提供声音远近感的步骤包括：基于声音深度信息来控制声音对象的功率。

提供声音远近感的步骤包括：基于声音深度信息，控制按照声音对象被反射的方式而产生的反射信号的增益和延迟时间。

提供声音远近感的步骤包括：基于声音深度信息，控制声音对象的低频段分量的强度。

提供声音远近感的步骤包括：控制将通过第一扬声器输出的声音对象的相位与将通过第二扬声器输出的声音对象的相位之间的差。

所述方法还包括：通过左环绕扬声器和右环绕扬声器、左前扬声器和右前扬声器中的至少一个，输出提供有声音远近感的声音对象。

所述方法还包括：通过使用声音信号，使相位朝向扬声器的外部。

获取声音深度信息的步骤包括：基于所述至少一个图像对象的中的每一个的大小，确定用于所述至少一个声音对象的声音深度值。

获取声音深度信息的步骤包括：基于所述至少一个图像对象的分布，确定用于所述至少一个声音对象的声音深度值。

根据本发明的另一方面，提供了一种再现立体声的设备，所述设备包括：图像深度信息获取单元，用于获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；声音深度信息获取单元，用于基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；远近感提供单元，用于基于声音深度信息，将声音远近感提供给所述至少一个声音对象。

具体实施方式

在下文中，将参照附图更充分地描述本发明的一个或多个实施例。

首先，为了方便描述，如下简短定义在此使用的术语。

图像对象表示包括在图像信号中的对象或诸如人、动物、植物等的对象。

声音对象表示包括在声音信号中的声音分量。各种声音对象可包括在一个声音信号中。例如，在通过记录管弦乐队演奏而产生的声音信号中，包括有从各种乐器(诸如吉他、小提琴、双簧管等)产生的各种声音对象。

音源是产生声音对象的对象(例如，乐器或声带)。在本说明书中，实际产生声音对象的对象和识别用户产生声音对象的对象表示音源。例如，当在用户观看电影的同时苹果从屏幕被扔向用户时，在苹果移动时产生的声音(声音对象)可包括在声音信号中。可通过记录当苹果被扔出时实际产生的声音来获得声音对象，或者声音对象可以是被简单再现的预先记录的声音对象。然而，在每一种情况下，用户识别出苹果产生所述声音对象，并且因此，苹果可以是如在本说明书中定义的音源。

图像深度信息指示背景与参考位置之间的距离以及对象与参考位置之间的距离。参考位置可以是输出图像的显示装置的表面。

声音深度信息指示声音对象与参考位置之间的距离。更具体地讲，声音深度信息指示产生声音对象的位置(音源的位置)与参考位置之间的距离。

如上所述，当在用户观看电影的同时苹果从屏幕移向用户时，音源和用户之间的距离变得接近。为了有效表现苹果正在接近，可表现出与图像对象对应的声音对象的产生位置正逐渐变得更接近于用户，并且关于这一点的信息包括在声音深度信息中。参考位置可根据音源的位置、扬声器的位置、用户的位置等而改变。

声音远近感是用户关于声音对象体验到的感受之一。用户观看声音对象，使得用户可识别产生声音对象的位置，即，产生声音对象的音源的位置。这里，对用户识别出的音源与用户之间的距离的感受表示声音远近感。

图1是根据本发明的实施例的用于再现立体声的设备100的框图。

根据本发明的当前实施例的用于再现立体声的设备100包括图像深度信息获取单元110、声音深度信息获取单元120和远近感提供单元130。

图像深度信息获取单元110获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息。图像深度信息可以是指示组成图像对象或背景的像素的深度值的深度图。

声音深度信息获取单元120基于图像深度信息来获取指示声音对象与参考位置之间的距离的声音深度信息。可存在多种使用图像深度信息来产生声音深度信息的方法，在下文中，将描述两种产生声音深度信息的方法。然而，本发明不限于此。

例如，声音深度信息获取单元120可获取用于每个声音对象的声音深度值。声音深度信息获取单元120获取关于图像对象的位置信息以及关于声音对象的位置信息，并基于位置信息将图像对象与声音对象进行匹配。然后，基于图像深度信息以及匹配信息，可产生声音深度信息。将参照图2详细描述这样的示例。

作为另一示例，声音深度信息获取单元120可根据组成声音信号的声音片段来获取声音深度值。声音信号包括至少一个声音片段。这里，一个声音片段中的声音信号可具有相同的声音深度值。也就是说，在每个不同的声音对象中，可应用相同的声音深度值。声音深度信息获取单元120获取组成图像信号的每个图像片段的图像深度值。可通过按帧单元或按场景单元划分图像信号来获得图像片段。声音深度信息获取单元120获取每个图像片段中的代表性深度值(例如，最大深度值、最小深度值或平均深度值)并通过使用代表性深度值确定与图像片段对应的声音片段中的声音深度值。将参照图3详细描述这样的示例。

远近感提供单元130基于声音深度信息对声音信号进行处理，使得用户可感受声音远近感。远近感提供单元130可在与图像对象对应的声音对象被提取之后根据每个声音对象来提供声音远近感、根据包括在声音信号中的每个声道提供声音远近感，或者为所有的声音信号提供声音远近感。

远近感提供单元130执行以下四个任务i)、ii)、iii)和iv)中的至少一个，以便用户有效地感受声音远近感。然而，在远近感提供单元130中执行的四个任务仅是示例，本发明不限于此。

i)远近感提供单元130基于声音深度信息调整声音对象的功率。声音对象被产生得越接近用户，声音对象的功率增加得越多。

ii)远近感提供单元130基于声音深度信息调整反射信号的增益和延迟时间。用户听到不是由障碍反射的直接声音信号以及通过被障碍反射而产生的反射声音信号。反射声音信号具有比直接声音信号的强度更小的强度，并且与直接声音信号相比，通常被延迟了预定时间来接近用户。具体地讲，当声音对象被产生得接近用户时，反射声音信号与直接声音信号相比到达得较晚，并且反射声音信号的强度被明显降低。

iii)远近感提供单元130基于声音深度信息调整声音对象的低频段分量。当声音对象被产生得接近用户时，用户可明显地识别出低频段分量。

iv)远近感提供单元130基于声音深度信息调整声音对象的相位。随着将从第一扬声器输出的声音对象的相位和将从第二扬声器输出的声音对象的相位之间的差增加，用户识别出声音对象更加接近。

将参照图5详细描述远近感提供单元130的操作。

图2是根据本发明的实施例的图1的声音深度信息获取单元120的框图。

声音深度信息获取单元120包括第一位置获取单元210、第二位置获取单元220、匹配单元230和确定单元240。

第一位置获取单元210基于图像深度信息获取图像对象的位置信息。第一位置获取单元210可仅获取关于感测到图像信号中向左方和右方的移动或者向前方或后方的移动的图像对象的位置信息。

第一位置获取单元210基于下面的等式1来比较关于连续图像帧的深度图并识别深度值的改变增加的坐标。

[等式1]

{Diff}_{x, y}^{i} = I_{x, y}^{i} - I_{x, y}^{i + 1}

在等式1中，i指示帧的编号，x、y指示坐标。因此，Iⁱ _x，y指示在(x，y)坐标处的第i帧的深度值。

在针对所有坐标计算了DIffⁱ _x，y之后，第一位置获取单元210搜索DIffⁱ _x，y高于阈值的坐标。第一位置获取单元210将与DIffⁱ _x，y高于阈值的坐标对应的图像对象确定为其移动被感测到的图像对象，并且对应的坐标被确定为所述图像对象的位置。

第二位置获取单元220基于声音信号获取关于声音对象的位置信息。可存在多种通过第二位置获取单元220获取关于声音对象的位置信息的方法。

例如，第二位置获取单元220将主分量和环境分量与声音信号分离，将主分量与环境分量比较，从而获取关于声音对象的位置信息。此外，第二位置获取单元220比较声音信号的每个声道的功率，从而获取关于声音对象的位置信息。在该方法中，声音对象的左位置和右位置可被识别。

作为另一示例，第二位置获取单元220将声音信号划分为多个片段，在每个片段中计算每个频段的功率，并基于按照每个频段的功率确定公共频段。在本说明书中，公共频段表示在相邻片段中功率高于预定阈值的公共频段。例如，在当前片段中选择功率高于“A”的频段，在先前片段中选择功率高于“A”的频段(或者选择当前片段中功率在较高的第五等级内的频段，在先前片段中选择先前片段中功率在较高的第五等级内的频段)。然后，在先前片段和当前片段中被共同选择的频段被确定为公共频段。

对高于阈值的频段的限制在于获取具有大信号强度的声音对象的位置。因此，具有小信号强度的声音对象的影响被最小化，并且主要声音对象的影响被最大化。由于公共频段被确定，因此，可确定在先前片段中不存在的新声音信号是否在当前片段中被产生，或者在先前片段中存在的声音对象的特性(例如，产生位置)是否被改变。

当图像对象的位置被改变为显示装置的深度方向时，与所述图像对象对应的声音对象的功率被改变。在这种情况下，与所述声音对象对应的频段的功率被改变，因此可通过检查每个频段中的功率的改变来识别沿深度方向的声音对象的位置。

匹配单元230基于关于图像对象的位置信息以及关于声音对象的位置信息来确定图像对象和深度对象之间的关系。匹配单元230在图像对象的坐标与声音对象的坐标之间的差在阈值内时确定图像对象与声音对象匹配。另一方面，匹配单元230在图像对象的坐标与声音对象的坐标之间的差高于阈值时确定图像对象与声音对象不匹配。

确定单元240基于匹配单元230的确定来确定用于声音对象的声音深度值。例如，在被确定为与图像对象匹配的声音对象中，根据图像对象的深度值来确定声音深度值。在被确定为与图像对象不匹配的声音对象中，声音深度值被确定为最小值。当声音深度值被确定为最小值时，远近感提供单元130不将声音远近感提供给声音对象。

当图像对象和声音对象的位置彼此匹配时，确定单元240可在预定的异常环境下不将声音远近感提供给声音对象。

例如，当图像对象的大小低于阈值时，确定单元240可不将声音远近感提供给与图像对象对应的声音对象。由于具有非常小尺寸的图像对象对用户体验3D效果的影响轻微，因此确定单元240可不将声音远近感提供给对应声音对象。

图3是根据本发明的另一实施例的图1的声音深度信息获取单元120的框图。

根据本发明的当前实施例的声音深度信息获取单元120包括片段深度信息获取单元310和确定单元320。

片段深度信息获取单元310基于图像深度信息获取每个图像片段的深度信息。图像信号可被划分为多个片段。例如，可按照场景被转换的场景单元、按照图像帧单元或者GOP单元来划分图像信号。

片段深度信息获取单元310获取与每个片段对应的图像深度值。片段深度信息获取单元310可基于下面的等式2获取与每个片段对应的图像深度值。

[等式2]

{Depth}^{i} = E (\underset{x, y}{Σ} I_{x, y}^{i})

在等式2中，Iⁱ _x，y表示在(x，y)坐标处的第i帧的深度值。Depthⁱ是与第i帧对应的图像深度值并通过对第i帧中的所有像素的深度值进行平均而被获得。

等式2仅是示例，最大深度值、最小深度值或者与先前片段的改变明显较大的像素的深度值可被确定为片段的代表性深度值。

确定单元320基于每个片段的代表性深度值来确定用于与图像片段对应的声音片段的声音深度值。确定单元320根据输入每个片段的代表性深度值的预定函数来确定声音深度值。确定单元320可将输入值和输出值彼此为恒定比例的函数以及输出值根据输入值指数级增加的函数用作所述预定函数。在本发明的另一实施例中，根据输入值的范围而彼此不同的函数可被用作所述预定函数。稍后将参照图4描述用于确定声音深度值的确定单元320使用的预定函数的示例。

当确定单元320确定声音远近感不需要被提供给声音片段时，对应声音片段中的声音深度值可被确定为最小值。

确定单元320可根据下面的等式3来获取彼此相邻的第i图像帧和第i+1图像帧之间的深度值的差。

[等式3]

Diff_Depthⁱ＝Depthⁱ-Depthⁱ⁺¹

Diff_Depthⁱ指示第i帧中的平均图像深度值和第i+1帧中的平均图像深度值之间的差。

确定单元320根据下面的等式4来确定是否将声音远近感提供给与第i帧对应的声音片段。

[等式4]

R_F {lag}^{i} = \{\begin{matrix} 0, & if   Diff_D {epth}^{i} &GreaterEqual; th \\ 1, & else \end{matrix}

R_Flagⁱ是指示是否将声音远近感提供给与第i帧对应的声音片段的标记。当R_Flagⁱ具有值0时，声音远近感被提供给对应的声音片段，当R_Flagⁱ具有值1时，声音远近感不被提供给对应的声音片段。

当先前帧中的平均图像深度值与下一帧中的平均图像深度值之间的差较大时，可确定从屏幕跳出的图像对象有较高概率存在于下一帧中。因此，确定单元320可仅在Diff_Depthⁱ高于阈值时确定声音远近感被提供给与图像帧对应的声音片段。

确定单元320根据下面的等式5来确定是否将声音远近感提供给与第i帧对应的声音片段。

[等式5]

R_F {lag}^{i} = \{\begin{matrix} 0, & if   D {epth}^{i} &GreaterEqual; th \\ 1, & else \end{matrix}

即使先前帧中的平均图像深度值与下一帧中的平均图像深度值之间的差较大，但当下一帧中的平均图像深度值低于阈值时，看起来从屏幕跳出的图像对象有较高概率不存在于从下一帧中。因此，确定单元320可仅在Depthⁱ高于阈值(例如，图4中的28)时确定声音远近感被提供给与图像帧对应的声音片段。

图4是示出根据本发明的实施例的用于在确定单元240和320中确定声音深度值的预定函数的曲线图。

在图4中示出的预定函数中，横轴指示图像深度值并且纵轴指示声音深度值。图像深度值具有范围为0至255中的值。

当图像深度值大于或等于0且小于28时，声音深度值被确定为最小值。当声音深度值被设置为最小值时，声音远近感不被提供给声音对象或声音片段。

当图像深度值大于或等于28且小于124时，根据图像深度值的改变量的声音深度值的改变量恒定(即，斜率恒定)。根据实施例，根据图像深度值的声音深度值可以不是线性变化的，而是，根据图像深度值的声音深度值可以是指数变化或对数变化的。

在另一实施例中，当图像深度值大于或等于28且小于56时，用户可听到自然立体声的固定声音深度值(例如，58)可被确定为声音深度值。

当图像深度值大于或等于124时，声音深度值被确定为最大值。根据实施例，为了方便计算，声音深度值的最大值可被调节和使用。

图5是根据本发明的实施例的与使用立体声信号提供立体声的远近感提供单元130对应的远近感提供单元500的框图。

当输入信号是多声道声音信号时，本发明可在将输入信号下混频为立体声信号之后被应用。

快速傅里叶变换器(FFT)510对输入信号执行快速傅里叶变换。

快速傅里叶反变换器(IFFT)520对经过傅里叶变换的信号执行傅里叶反变换。

中心信号提取器530从立体声信号提取作为与中心声道对应的信号的中心信号(center signal)。中心信号提取器530将立体声信号中具有较大相关性的信号提取为中心声道信号。在图5中，假设声音远近感被提供给中心声道信号。然而，声音远近感可被提供给不是中心声道信号的其他声道信号，诸如左前声道信号和右前声道信号、左环绕声道信号和右环绕声道信号、特定声音对象或全部声音对象中的至少一个。

声场(sound stage)扩展单元550扩展声场。声场扩展单元550通过人为地将时间差或相位差提供给立体声信号，使声场朝向扬声器的外部。

声音深度信号获取单元560基于图像深度信息获取声音深度信息。

参数计算器570基于声音深度信息来确定将声音远近感提供给声音对象所需要的控制参数值。

程度(level)控制器571控制输入信号的强度。

相位控制器572控制输入信号的相位。

反射效果提供单元573对按照输入信号被墙壁等反射的方式而产生的反射信号建模。

近场效果提供单元574对在用户附近产生的声音信号建模。

混频器580对至少一个信号进行混频并将混频的信号输出到扬声器。

在下文中，将根据时间顺序描述用于再现立体声的远近感提供单元500的操作。

首先，当多声道声音信号被输入时，通过下混频器(未示出)将多声道声音信号转换为立体声信号。

FFT 510对立体声信号执行快速傅里叶变换，并随后将经过变换的信号输出到中心信号提取器530。

中心信号提取器530将经过变换的立体声信号彼此进行比较并将具有大相关性的信号输出为中心声道信号。

声音深度信息获取单元560基于图像深度信息获取声音深度信息。以上参照图2和图3描述了通过声音深度信息获取单元560来获取声音深度信息。更具体地讲，声音深度信息获取单元560将声音对象的位置与图像对象的位置进行比较，从而获取声音深度信息，或者使用图像信号中的每个片段的深度信息，从而获取声音深度信息。

参数计算器570基于索引值计算将被应用于用于提供声音远近感的模块的参数。

相位控制器572从中心声道信号复制两个信号，并根据由参数计算器570计算的参数而控制复制的两个信号中的至少一个信号的相位。当具有不同相位的声音信号通过左扬声器和右扬声器被再现时，产生模糊现象。当模糊现象加剧时，用户难以精确地识别产生声音对象的位置。在这一点，当控制相位的方法与提供远近感的另一方法被一起使用时，可使远近感提供效果最大化。

随着声音对象被产生的位置变得与用户更加接近(或者当所述位置快速接近用户时)，相位控制器572将复制的信号的相位差设置得更大。相位被控制的复制的信号通过IFFT 520被发送到反射效果提供单元573。

反射效果提供单元573对反射信号建模。当在远离用户处产生声音对象时，在没有被墙壁等反射的情况下而直接被发送到用户的直接声音与通过被墙壁等反射而产生的反射声音相似，并且不存在直接声音与反射声音到达的时间差。然而，当在用户附近产生声音对象时，直接声音和反射声音的强度彼此不同，并且直接声音和反射声音到达的时间差很大。因此，随着声音对象在用户附近产生，反射效果提供单元573明显降低反射信号的增益值，增加延迟时间或相对增加直接声音的强度。反射效果提供单元573将考虑了反射信号的中心声道信号发送到近场效果提供单元574。

近场效果提供单元574基于在参数计算器570中计算的参数来对在用户附近产生的声音对象建模。当声音对象在用户附近产生时，低频段分量增加。随着产生声音对象的位置与用户接近，近场效果提供单元574增加中心信号的低频段分量。

接收立体声输入信号的声场扩展单元550对立体声信号进行处理，使得声音相位朝向扬声器的外部。当扬声器的位置彼此充分远时，用户可真实地听到立体声。

声场扩展单元550将立体声信号转换为加宽立体声信号。声场扩展单元550可包括使左/右双耳合成(binaural synthesis)与串音消除器(crosstalkcanceller)卷积(convolute)的加宽滤波器、以及使加宽滤波器与左/右直接滤波器卷积的一个全景滤波器(panorama filter)。这里，加宽滤波器基于在预定位置测量的头部相关传递函数(HRTF)，通过针对任意位置的虚拟音源来构成立体声，并基于反映HRTF的滤波器系数来消除虚拟音源的串音。左/右直接滤波器控制信号特性，诸如原始立体声信号和消除了串音的虚拟音源之间的增益和延迟。

程度控制器571基于在参数计算器570中计算的声音深度值来控制声音对象的功率强度。随着声音对象在用户附近产生，程度控制器571可增加声音对象的大小。

混频器580将从程度控制器571发送的立体声信号与从近场效果提供单元574发送的中心信号进行混频，以将混频的信号输出到扬声器。

图6A至图6D示出根据本发明的实施例的在用于再现立体声的设备100中提供立体声的过程。

在图6A，根据本发明的实施例的立体声声音对象未被操作。

用户通过至少一个扬声器收听声音对象。当用户通过使用一个扬声器来再现单声道信号(mono signal)时，用户可能体验不到立体感，而当用户通过使用至少两个扬声器来再现立体声信号时，用户可体验立体感。

在图6B中，具有声音深度值“0”的声音对象被再现。在图4中，假设声音深度值为“0”至“1”。在被呈现为在用户附近产生的声音对象中，声音深度值增加。

由于声音对象的声音深度值是“0”，因此不执行用于将远近感提供给声音对象的任务。然而，随着声音相位面向扬声器的外部，用户可通过立体声信号体验立体感。根据实施例，使声音相位朝向扬声器的外部的技术被称为“加宽”技术。

通常，为了再现立体声信号，需要多个声道的声音信号。因此，当单声道信号被输入时，通过上混频产生与至少两个声道对应的声音信号。

在立体声信号中，通过左扬声器来再现第一声道的声音信号，通过右扬声器来再现第二声道的声音信号。用户可通过收听从每个不同位置产生的至少两个声音信号来体验立体感。

然而，当左扬声器与右扬声器彼此过于接近时，用户可识别出在相同的位置产生声音，因此可能不能体验立体感。在这种情况下，声音信号被处理，使得用户可识别出在扬声器的外部产生声音，而不是通过实际扬声器产生了声音。

在图6C中，具有声音深度值“0.3”的声音对象被再现。

由于声音对象的声音深度值大于0，与声音深度值“0.3”对应的远近感与加宽技术一起被提供给声音对象。因此，与图6B相比，用户可识别出在用户附近产生了声音对象。

例如，假设用户观看3D图像数据和被表现为看起来从屏幕跳出的图像对象。在图6C中，远近感被提供给与图像对象对应的声音对象，使得声音对象被处理为如同它接近用户。用户可视地感受图像跳出以及声音对象接近用户，从而真实地体验立体感。

在图6D中，具有声音深度值“1”的声音对象被再现。

由于声音对象的声音深度值大于0，因此与声音深度值“1”对应的远近感与加宽技术一起被提供给声音对象。由于图6D中的声音对象的声音深度值大于图6C中的声音对象的声音深度值，因此用户识别出与图6C中相比，与用户更加接近地产生声音对象。

图7是示出根据本发明的实施例的基于声音信号检测声音对象的位置的方法的流程图。

在操作S710，针对组成声音信号的多个片段中的每一个片段计算每个频段的功率。

在操作S720，基于每个频段的功率确定公共频段。

公共频段表示先前片段中的功率和当前片段中的功率均高于预定阈值的频段。这里，具有小功率的频段可与无意义的声音对象(诸如噪声)对应，因此，具有小功率的频段可从公共频段中排除。例如，在根据最高功率顺序地选择了预定数量的频段之后，可从选择的频段确定公共频段。

在操作S730，将先前片段中的公共频段的功率与当前片段中的公共频段的频率进行比较，并基于比较结果确定声音深度值。在当前片段中的公共频段的功率大于先前片段中的公共频段的功率时，确定与用户更接近地产生了与公共频段对应的声音对象。此外，当先前片段中的公共频段的功率与当前片段中的公共频段的功率相似时，确定声音对象没有紧密地接近用户。

图8a至图8d示出根据本发明的实施例的从声音信号检测声音对象的位置。

在图8a中，沿时间轴示出被划分为多个片段的声音信号。

在图8b至图8d中，第一片段801、第二片段802和第三片段803中的每个频段的功率被示出。在图8b至图8d中，第一片段801和第二片段802是先前片段，第三片段803是当前片段。

参照图8b和图8c，当假设在第一片段至第三片段中3000至4000Hz、4000至5000Hz以及5000至6000Hz频段的功率高于阈值时，3000至4000Hz、4000至5000Hz以及5000至6000Hz频段被确定为公共频段。

参照图8c至图8d，第二片段802中的3000至4000Hz以及4000至5000Hz频段的功率与第三片段803中的3000至4000Hz以及4000至5000Hz频段的功率相似。因此，与3000至4000Hz以及4000至5000Hz频段对应的声音对象的声音深度值被确定为“0”。

然而，第三片段803中的5000至6000Hz频段的功率与第二片段802中的5000至6000Hz频段的功率相比明显增加。因此，与5000至6000Hz频段对应的声音对象的声音深度值被确定为“0”。根据实施例，图像深度图可被参照以精确地确定声音对象的声音深度值。

例如，第三片段803中的5000至6000Hz频段的功率与第二片段802中的5000至6000Hz频段的功率相比明显增加。在某些情况下，与5000至6000Hz频段对应的声音对象被产生的位置与用户不接近，而是，在相同的位置仅功率增加。这里，当参照图像深度图，在与第三片段803对应的图像帧中存在从屏幕凸出的图像对象时，与5000至6000Hz频段对应的声音对象有较高概率对应于所述图像对象。在这种情况下，声音对象被产生得位置可能优选地逐渐变得与用户更加接近，因此声音对象的声音深度值被设置为“0”或更大。当在与第三片段803对应的图像帧中不存在从屏幕凸出的图像对象时，在相同的位置仅声音对象的功率增加，因此声音对象的声音深度值可被设置为“0”。

在操作S910，图像深度信息被获取。图像深度信息指示立体图像信号中的至少一个图像对象和背景与参考点之间的距离。

在操作S920，声音深度信息被获取。声音深度信息指示声音信号中的至少一个声音对象与参考点之间的距离。

在操作S930，基于声音深度信息，声音远近感被提供给所述至少一个声音对象。

本发明的实施例可被编写为计算机程序，并可在使用计算机可读记录介质执行程序的通用数字计算机中被实现。

计算机可读记录介质的示例包括磁存储介质(例如，ROM、软盘、硬盘等)、光记录介质(例如，CD-ROM或DVD)以及诸如载波(例如，通过互联网进行传输)的存储介质。

尽管已参照本发明的示例性实施例具体示出和描述了本发明，但本领域普通技术人员将理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可在此进行形式和细节上的各种改变。

Claims

1.一种再现立体声的方法，所述方法包括：

获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；

基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；

基于声音深度信息，将声音远近感提供给所述至少一个声音对象。

2.如权利要求1所述的方法，其中，获取声音深度信息的步骤包括：

获取组成图像信号的每个图像片段的最大深度值；

基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。

3.如权利要求2所述的方法，其中，获取声音深度值的步骤包括：当所述最大深度值小于第一阈值时，将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，将所述声音深度值确定为最大值。

4.如权利要求3所述的方法，其中，获取声音深度值的步骤还包括：当所述最大深度值等于或大于第一阈值且小于第二阈值时，将所述声音深度值确定为与所述最大深度值成比例。

5.如权利要求1所述的方法，其中，获取声音深度信息的步骤包括：

获取关于图像信号中的所述至少一个图像对象的位置信息以及关于声音信号中的所述至少一个声音对象的位置信息；

确定所述至少一个图像对象的位置是否与所述至少一个声音对象的位置匹配；

基于确定的结果来获取声音深度信息。

6.如权利要求1所述的方法，其中，获取声音深度信息的步骤包括：

获取组成图像信号的每个图像片段的平均深度值；

基于所述平均深度值，获取用于所述至少一个声音对象的声音深度值。

7.如权利要求6所述的方法，其中，获取声音深度值的步骤包括：

当所述平均深度值小于第三阈值时，将所述声音深度值确定为最小值。

8.如权利要求6所述的方法，其中，获取声音深度值的步骤包括：当先前片段中的平均深度值与当前片段中的平均深度值之间的差小于第四阈值时，将所述声音深度值确定为最小值。

9.如权利要求1所述的方法，其中，提供声音远近感的步骤包括：基于声音深度信息来控制声音对象的功率。

10.如权利要求1所述的方法，其中，提供声音远近感的步骤包括：基于声音深度信息，控制按照声音对象被反射的方式而产生的反射信号的增益和延迟时间。

11.如权利要求1所述的方法，其中，提供声音远近感的步骤包括：基于声音深度信息，控制声音对象的低频段分量的强度。

12.如权利要求1所述的方法，其中，提供声音远近感的步骤包括：控制将通过第一扬声器输出的声音对象的相位与将通过第二扬声器输出的声音对象的相位之间的差。

13.如权利要求1所述的方法，还包括：通过左环绕扬声器和右环绕扬声器、左前扬声器和右前扬声器中的至少一个，输出提供有声音远近感的声音对象。

14.如权利要求1所述的方法，还包括：通过使用声音信号，使相位朝向扬声器的外部。

15.如权利要求1所述的方法，其中，获取声音深度信息的步骤包括：基于所述至少一个图像对象的中的每一个的大小，确定用于所述至少一个声音对象的声音深度值。

16.如权利要求1所述的方法，其中，获取声音深度信息的步骤包括：基于所述至少一个图像对象的分布，确定用于所述至少一个声音对象的声音深度值。

17.一种再现立体声的设备，所述设备包括：

图像深度信息获取单元，用于获取指示图像信号中的至少一个图像对象与参考位置之间的距离的图像深度信息；

声音深度信息获取单元，用于基于图像深度信息，获取指示声音信号中的至少一个声音对象与参考位置之间的距离的声音深度信息；

远近感提供单元，用于基于声音深度信息，将声音远近感提供给所述至少一个声音对象。

18.如权利要求17所述的设备，其中，声音深度信息获取单元获取组成图像信号的每个图像片段的最大深度值，并基于所述最大深度值，获取用于所述至少一个声音对象的声音深度值。

19.如权利要求18所述的设备，其中，当所述最大深度值小于第一阈值时，声音深度信息获取单元将所述声音深度值确定为最小值，当所述最大深度值等于或大于第二阈值时，声音深度信息获取单元将所述声音深度值确定为最大值。

20.如权利要求18所述的方法，其中，当所述最大深度值等于或大于第一阈值且小于第二阈值时，所述声音深度值被确定为与所述最大深度值成比例。

21.一种其上包含有用于执行权利要求1至16的方法中的任意一种方法的计算机程序的计算机可读记录介质。