CN103686136A

CN103686136A - 多媒体处理系统及音频信号处理方法

Info

Publication number: CN103686136A
Application number: CN201210346471.9A
Authority: CN
Inventors: 柯杰斌
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2012-09-18
Filing date: 2012-09-18
Publication date: 2014-03-26

Abstract

本发明提供一种多媒体处理系统及音频信号处理方法，该多媒体处理系统包括：一深度分析器，用以接收一输入图像，并据以产生一深度图像；以及一音频处理单元，用以接收一输入音频信号及该深度图像，由该深度图像中检测一声音对象及其对应的一位置信息，其中该声音对象具有对应的一声音频率范围，其中当该位置信息超过一预定范围，该音频处理单元依据该位置信息对该输入音频信号中的该声音频率范围进行调整以产生一输出音频信号。

Description

多媒体处理系统及音频信号处理方法

技术领域

本发明涉及音频处理，尤其涉及使用立体图像的深度图像以处理音频信号的多媒体处理系统及音频处理方法。

背景技术

随着立体显示器的发展，立体图像的处理亦愈来愈重要。一般而言，立体图像的取得可通过几种方式，例如利用可得到深度图像的深度摄影机进行拍摄、由模拟人类双眼视觉的双摄影机进行拍摄、或是由二维图像经过适当的图像处理以得到立体图像。如图1A所示，由二维图像转换至立体图像的处理过程可约略分为几个步骤：图像缩小、边缘检测(edge detection)、线划追踪(line tracing)、深度指派(depth assignment)、深度图像放大及平滑化、横向偏移(lateral shifting)，当深度图像建立之后，即可与原本的二维图像结合以产生立体图像(stereoscopic image)。传统二维图像转换为立体图像的演算法亦可通过建立空间模型、边缘检测、计算消失点等方式，通过对一张或多张图像的分析来建立深度图像。

如图1B所示，视觉深度感知因素可分为生理因素及心理因素。一般而言，二维图像转换为立体图像的深度图往往是针对几项心理因素以进行演算法的运算。举例来说，在心理因素上往往会认为黄色物体、移动量大的物体或大物体的景深最浅，反过来说，在心理因素上亦会认为蓝色物体、移动量小的物体或小物体的景深最深，而且材质接近会视为景深相同。

更进一步，景深信息为立体显示技术中的关键，但传统立体显示技术往往只着重于如何产生正确景深的产生方式，但却鲜少利用景深信息以进一步处理立体图像及对应的音频信号。

发明内容

为了克服现有技术的缺陷，本发明提供一种多媒体处理系统，包括：一深度分析器，用以接收一输入图像，并据以产生一深度图像；以及一音频处理单元，用以接收一输入音频信号及该深度图像，由该深度图像中检测一声音对象及其对应的一位置信息，其中该声音对象具有对应的一声音频率范围，其中当该位置信息超过一预定范围，该音频处理单元依据该位置信息对该输入音频信号中的该声音频率范围进行调整以产生一输出音频信号。

本发明还提供一种音频信号处理方法，用于一多媒体处理系统，包括：接收一输入图像，并据以产生一深度图像；接收一输入音频信号及该深度图像，并由该深度图像中检测一声音对象及其对应的一位置信息，其中该声音对象具有对应的一声音频率范围；以及当该位置信息超过一预定范围，依据该位置信息对该输入音频信号中的该声音频率范围进行调整以产生一输出音频信号。

附图说明

图1A是显示将二维图像转换为立体图像的传统演算法的流程图。

图1B是显示视觉深度感知因素的示意图。

图2是显示依据本发明一实施例的多媒体处理系统200的方框图。

图3A～图3D是显示依据本发明一实施例中音频处理单元辨识主对象以调整声道比例的示意图。

图4A～图4F是显示依据本发明另一实施例中音频处理单元230辨识主对象以调整声道比例的示意图。

图5是显示依据本发明一实施例中音频处理单元所使用的特定声音频率的示意图。

图6是显示依据本发明一实施例的音频处理单元进行声音频率调整的一示意表格。

图7是显示依据本发明一实施例的音频信号处理方法的流程图。

图8是显示依据本发明一实施例中音频处理单元所检测的多国语言的频率范围的示意图。

其中，附图标记说明如下：

200～多媒体处理系统；

210～深度分析器；

220～视频处理单元；

230～音频处理单元；

310～主对象；

410、420～对象。

具体实施方式

图2是显示依据本发明一实施例的多媒体处理系统200的方框图。多媒体处理系统200包括一深度分析器210、一视频处理单元220及一音频处理单元230。深度分析器210用以接收一输入图像，并依据输入图像以取得一二维图像及其对应的深度图像。需注意的是，上述输入图像可为一二维图像、一三维图像，或是一立体图像(二维图像及其对应的深度图像)。换言之，若输入图像是立体图像，则可直接取得其深度图像。若输入图像仅为二维图像或三维图像，则需进一步计算其对应的深度图像。视频处理单元220接收来自深度分析器210的二维图像及对应的深度图像，并据以产生一输出图像。值得注意的是，深度分析器210所接收的输入图像可为二维图像、三维图像、或二维图像及其深度图像。又，视频处理单元220所产生的输出图像亦可为二维图像或立体图像。音频处理单元230接收一输入音频信号，并调整输入音频信号以产生一输出音频信号。在一实施例中，输入音频信号及输出音频信号可为单声道、2声道(立体声)，或是2.1声道、4.1声道、5.1声道、6.1声道或7.1声道等多声道的音频信号，且输出音频信号的声道数大于或等于输入音频信号的声道数。输入音频信号的各声道之间具有一强度比例、一延迟比例及一频率比例，且各声道亦具有其对应的音量，意即上述声音因素对应至左/右声道音量、左/右声道平衡、等化器(equalizer)、音场(sound field)等。

在一实施例中，音频处理单元230还由深度图像以检测主对象(mainobject)的深度图像，意即由深度产生器210所产生的深度图像中分析主对象的图像特征以取得其深度图像。举例来说，深度图像可分成静态深度图像及动态深度图像。静态深度图像可为深度图像中的特定深度值(例如灰阶值0、10、250)、绝对极值(absolute extrema)或区域相对极值(local extrema)。动态深度图像可分为移动信息及深度变化信息，其中移动信息是指在深度图像中的同深度分布的像素集合的特定位移向量，深度变化信息是指在深度图像中，相同坐标的像素或集合在不同时间的深度改变量。深度分析器210系可由深度变化信息中取得该主对象的坐标，其中坐标可为一维、二维或三维坐标，且坐标的数值可为一绝对值(例如(200,300,251))或相对值(例如2:3、40%或0.6等等)，意即取得坐标以表示该主对象在二维图像中的位置。又，主对象的坐标可包括对象大小的信息。

在另一实施例中，音频处理单元230将所检测出的主对象的坐标，转换为各声道之间的比例，意即音频处理单元230可取得主对象于二维图像中的位置，并进而调整各声道之间的相对关系。在又一实施例中，音频处理单元230可检测出主对象，并持续追踪对象移动时其坐标变化值，并根据坐标变化值以产生对应的各声道比例。

在又一实施例中，音频处理单元230除了由二维图像或深度图像中以辨识出主对象，还可选择性地接收外来的对象信息，其中对象信息包括主对象的坐标、位置、大小及区域，例如是大范围的像素移动或移动向量大幅变化，亦或是辨识出的人脸信息。音频处理单元230可依据对象信息，对输入音频信号的各声道进行调整，以产生输出音频信号。

图3A～图3D是显示依据本发明一实施例中音频处理单元230辨识主对象以调整声道比例的示意图。如图3A及图3B所示，音频处理单元230可依据对象信息以决定二维图像中的主对象310(例如新闻主播)的位置约在右边距离2/5画面宽度处，此时音频处理单元230将输入音频信号(例如2声道)中的左声道(L)及右声道(R)的比例调整为L：R=60%：40%。如图3C及图3D所示，音频处理单元230可由连续图像的深度图像中判断主对象320(例如新闻画面)的位置约在左边距离3/10画面宽度处，此时音频处理单元230可将输入音频信号(例如2声道)中的左声道(L)及右声道(R)的比例调整为L：R=32%：68%。值得注意的是，左声道及右声道的比例具有一对应关系，但上述实施例中的左右声道的比例并非绝对，可视情况调整。熟习本发明此领域的技艺者当了解，上述实施例仅说明音频处理单元230对声道调整的一方式，当不能以此限定本发明。

图4A～图4F是显示依据本发明另一实施例中音频处理单元230辨识主对象以调整声道比例的示意图。如图4A～图4C所示，对象410在拨放过程中逐渐放大至全屏幕。在图4A中，对象410位于左边距离2/5画面宽度处，音频处理单元230将左右声道的比例设定为L：R=2:3。在图4B中，对象410逐渐增大，此时音频处理单元230将左右声道的比例调整为L：R=2.2：2.8(意即L：R=45%：55%)。在图4C中，对象410已放大至全屏幕，此时音频处理单元230将左右声道的比例设定为L：R=2.5：2.5(意即L：R=50%：50%)。

如图4D～图4F所示，使用者选择显示器的显示界面(OSD)由English选至Reset。举例来说，对象420一开始在位置430，接着移动至位置440、450及460，若位置430、440、450及460的坐标分别为(300,500,200)、(200,500,200)、(200,300,150)及(200,200,200)，除了平面位置变化之外，对象420的深度亦有变化，音频处理单元可将对应的输入音频信号调整为左声道30%及2毫秒延迟、左声道40%及1.8秒延迟，以及左声道50%及1.6毫秒延迟。值得注意的是，为了维持输出音频信号与输出图像的同步性，音频处理单元230还包括一同步单元(图1中未示出)，用以执行音频及视频的同步处理，其可称为“对嘴(lip sync)”。

图5是显示依据本发明一实施例中音频处理单元所使用的特定声音频率的示意图。在一实施例中，音频处理单元230除了由深度图像中检测出一主对象及其对应的坐标之外，亦可将此主对象与输入音频信号中的一特定频率进行连结。在此实施例中，音频处理单元230所检测出的主对象亦可称为一声音对象(audio object)，意即具有一特定声音特征(audio feature)的对象。举例来说，特定声音特征可为人声、飞机声、钟声、狗叫声、雷声、鸟叫声、特定乐器(例如鼓、提琴、钢琴等等)，例如图5所示。特定声音特征亦可为特定样式(pattern)的泛音(harmonic overtone)或振幅(amplitude)，其可表示某对象所特有的声音特征。

在一实施例中，音频处理单元230检测声音对象的移动位置或移动速度是否超出预测范围。举例来说，将画面水平均分为5个区域，由左而右为区域A1～A5，若声音对象由区域A3移动至区域A2超过每秒30个像素，或是深度值的改变量超过每秒5阶深度，音频处理单元230则对输入音频信号进行调整。当声音对象未移动、移动量过小或移动过慢，音频处理单元230则不调整输入音频信号。

在另一实施例中，音频处理单元230可特别对人脸及对应人声频率(例如男声(50～250Hz)、女声(200～700Hz))进行独立调整。举例来说，音频处理单元230所接收的对象信息亦可包括人脸辨识后的结果(例如男性、女性或儿童)及其对应的位置，若音频处理单元230检测到画面中的人脸有移动，则音频处理单元230仅对输入音频信号中的人脸所对应的声音频率进行对应的调整，而其余的声音频率均维持不变。

图6是显示依据本发明一实施例的音频处理单元进行声音频率调整的一示意表格。在又一实施例中，如图6所示，音频处理单元230可对所检测出的声音对象，例如是人脸、大鼓(bass drum)及钟(bell)进行对应的调整。当音频处理单元230所检测出的声音对象为男性人脸，且画面为一男性一边讲话由远处走来，此时音频处理单元230将输入音频信号中的人脸对应的声音频率(例如100～300Hz)的音量逐渐增大，使用者可感受到左/右声道的人声逐渐变大。当音频处理单元230所检测出的声音对象为大鼓且其半径为120像素，且画面为鼓队从屏幕右边走到左边，此时音频处理单元230将大鼓的声音对应的频率（例如50～150Hz）及泛音(例如5～6KHz)增大其音量，使用者可感受到鼓声增大，且由右往左移动。若音频处理单元230由所接收到的对象信息中得知声音对象为一钟且位于画面右边，此时音频处理单元230将钟所对应声音频率(例如20～50Hz)的音量增大，使用者会感受到钟声在右声道的音量明显较大。

在又一实施例中，音频处理单元230还可接收来自深度分析器210所产生的二维图像及深度图像，并依据二维图像或深度图像以检测出声音对象。举例来说，音频处理单元230检测声音对象可为无针对性的比对、针对性比对或半针对性的比对。无针对性的比对是指音频处理单元230未事先针对特定图像内容，而是直接使用图像与图像比对的方式进行。针对性比对是指音频处理单元230直接于图像中搜寻具有特定图像特征的对象(例如人脸)。半针对性比对是指音频处理单元230检测图像中的潜在特征对象，特征对象于深度、轮廓或移动速度上有一特定趋势，音频处理单元230可分析特征对象，再用图像比对的方式得知特征对象的名称及对应的声音频率。图8是显示依据本发明一实施例中音频处理单元所检测的多国语言的频率范围的示意图。音频处理单元230亦可由对象信息中取得声音对象相关的系统设定或输入音频信号的相关设定，以得知目前显示器的语音设定或是可通过多国语言检测以得知输入音频信号中的语言的语系，如图8所示。

图7是显示依据本发明一实施例的音频信号处理方法的流程图。在步骤S700，音频处理单元230接收一输入音频信号。在步骤S710，音频处理单元230接收来自深度分析器210的深度图像。在步骤S720，音频处理单元230由深度图像中检测对象特征。接着，在步骤S730，音频处理单元判断是否检测到任何声音对象，若有，则执行步骤S740，若否，则回到步骤S710，持续接收深度图像。在步骤S740，音频处理单元230由该输入音频信号中取得该声音对象所对应的一声音频率范围。在步骤S750，音频处理单元230由深度图像中取得声音对象的位置信息(位置或位移量)。在步骤S760，音频处理单元230判断该位置信息是否超过一预定范围，若是，则执行步骤S770，若否，则回到S750，持续取得声音对象的位置信息。在步骤S770，音频处理单元230依据声音对象的位置信息以调整输入音频信号中该声音对象所对应的声音频率范围以产生一输出音频信号。在步骤S780，音频处理单元230输出上述输出音频信号。需注意的是，音频处理单元230持续接收来自深度分析器210的深度图像或是对象信息，当音频处理单元230判断在深度图像中并无声音对象存在，则音频处理单元230将不对输入音频信号进行调整，意即此时输出音频信号为输入音频信号。

综上所述，本发明可通过分析深度图像，可自由地调整深度图像中的目标对象在一场景中不同位置信息所对应的声音频率范围以产生一输出音频信号，借以真实地仿真目标对象在深度图像所在的该场景中实地调整位置所接收的音频信号及音量。

本发明的方法，或特定形态或其部分，可以以程序码的形态包含于实体媒体，如软盘、光盘片、硬盘、或是任何其他机器可读取(如电脑可读取)存储媒体，其中，当程序码被机器，如电脑载入且执行时，此机器变成用以参与本发明的装置或系统。本发明的方法、系统与装置也可以以程序码形态通过一些传送媒体，如电线或电缆、光纤、或是任何传输形态进行传送，其中，当程序码被机器，如电脑接收、载入且执行时，此机器变成用以参与本发明的装置或系统。当在一般用途处理器实作时，程序码结合处理器提供一操作类似于应用特定逻辑电路的独特装置。

惟以上所述者，仅为本发明的较佳实施例而已，当不能以此限定本发明实施的范围，即大凡依本发明权利要求及发明说明内容所作的简单的等效变化与修饰，皆仍属本发明专利涵盖的范围内。另外本发明的任一实施例或权利要求不须达成本发明所揭示的全部目的或优点或特点。此外，摘要部分和标题仅是用以辅助专利文件搜寻之用，并非用以限制本发明的权利范围。

Claims

1.一种多媒体处理系统，包括：

一深度分析器，用以接收一输入图像，并据以取得一深度图像；以及

一音频处理单元，用以接收一输入音频信号及该深度图像，由该深度图像中检测一声音对象及其对应的一位置信息，并由该输入音频信号中取得该声音对象所对应的一声音频率范围；

其中当该位置信息超过一预定范围，该音频处理单元依据该位置信息对该输入音频信号中的该声音频率范围进行调整以产生一输出音频信号。

2.如权利要求1所述的多媒体处理系统，其中该输入图像为一第一二维图像、一立体图像、或为一第二二维图像及对应的一第二深度图像。

3.如权利要求1所述的多媒体处理系统，其中该位置信息包括该声音对象的一位置或一位移量。

4.如权利要求3所述的多媒体处理系统，其中该音频处理单元依据该深度图像的一特定深度值、一绝对极值或一区域相对极值以由该深度图像中检测该声音对象及该位置信息。

5.如权利要求3所述的多媒体处理系统，其中该音频处理单元判断该深度图像中具有相同的一深度的多个像素为该声音对象，并计算该声音对象的该位移量。

6.如权利要求3所述的多媒体处理系统，其中该音频处理单元检测该深度图像中具有相同的一坐标的多个像素于不同时间的一深度改变量，并据以取得该声音对象的该位置信息。

7.如权利要求3所述的多媒体处理系统，其中该输入音频信号包括至少一声道，且该音频处理单元还依据该位置或该位移量以调整该输入音频信号中的各声道的音量比例。

8.如权利要求1所述的多媒体处理系统，其中该深度分析器还依据该输入图像以产生一二维图像，且该音频处理单元还由该二维图像中检测出该声音对象。

9.如权利要求1所述的多媒体处理系统，其中该音频处理单元还可接收外来的一对象信息，并依据该对象信息，对该输入音频信号中的该声音频率范围进行调整以产生一第二输出音频信号。

10.如权利要求9所述的多媒体处理系统，其中该对象信息包括一第二声音对象的坐标、位置、大小及区域。

11.如权利要求8所述的多媒体处理系统，其还包括：

一视频处理单元，用以接收该二维图像及该深度图像，并据以产生一输出图像。

12.如权利要求8所述的多媒体处理系统，其中该输出图像可为该二维图像或一立体图像。

13.一种音频信号处理方法，用于一多媒体处理系统，包括：

接收一输入图像，并据以产生一深度图像；

接收一输入音频信号及该深度图像，并由该深度图像中检测一声音对象及其对应的一位置信息；

由该输入音频信号中取得该声音对象所对应的一声音频率范围；以及

当该位置信息超过一预定范围，依据该位置信息对该输入音频信号中的该声音频率范围进行调整以产生一输出音频信号。

14.如权利要求13所述的音频信号处理方法，其中该输入图像为一第一二维图像、一立体图像、或为一第二二维图像及对应的一第二深度图像。

15.如权利要求13所述的音频信号处理方法，其中该位置信息包括该声音对象的一位置或一位移量。

16.如权利要求15所述的音频信号处理方法，其中检测该声音对象及该位置信息的步骤还包括：

依据该深度图像的一特定深度值、一绝对极值或一区域相对极值以由该深度图像中检测该声音对象及该位置信息。

17.如权利要求15所述的音频信号处理方法，其中检测该对象及该位置信息的步骤还包括：

判断该深度图像中具有相同的一深度的多个像素为该对象，并计算该声音对象的该位移量。

18.如权利要求15所述的音频信号处理方法，其中检测该声音对象及该位置信息的步骤还包括：

检测该深度图像中具有相同的一坐标的多个像素于不同时间的一深度改变量，并据以取得该声音对象的该位置信息。

19.如权利要求15所述的音频信号处理方法，其中该输入音频信号包括至少一声道，且该音频信号处理方法还包括：

依据该位置或该位移量以调整该输入音频信号中的各声道的音量比例。

20.如权利要求19所述的音频信号处理方法，还包括：

依据该输入图像以产生一二维图像；以及

由该二维图像中检测出该声音对象。

21.如权利要求13所述的音频信号处理方法，还包括：

取得外来的一对象信息；以及

依据该对象信息，对该输入音频信号中的该声音频率范围进行调整以产生一第二输出音频信号。

22.如权利要求21所述的音频信号处理方法，其中该对象信息包括一第二声音对象的坐标、位置、大小及区域。

23.如权利要求13所述的音频信号处理方法，还包括：

依据该输入图像以产生一二维图像；以及

依据该二维图像及该深度图像以产生一输出图像。

24.如权利要求23所述的音频信号处理方法，其中该输出图像可为该二维图像或一立体图像。