CN102342131A

CN102342131A - 带摄像机的扬声器、信号处理装置以及av系统

Info

Publication number: CN102342131A
Application number: CN2010800100777A
Authority: CN
Inventors: 阿部一任; 宫阪修二; 松本正治; 秋吉伸一; 藤田刚史; 山田周平
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2009-03-03
Filing date: 2010-02-26
Publication date: 2012-02-01
Also published as: WO2010100873A1; US20110316996A1; JP2010206451A

Abstract

AV系统具备具有摄像机(112)的带摄像机的扬声器(100)。摄像机(112)与扬声器主体(111)一体地设置，对扬声器主体(111)输出声音的方向进行拍摄。识别部(103)由摄像机(112)的图像识别收听者(P1)的位置，并检测扬声器主体(111)相对收听者(P1)的朝向。声音控制部(102)对所给予的声音信号进行信号处理，并且作为音响信号输出给扬声器主体(111)。

Description

带摄像机的扬声器、信号处理装置以及AV系统

技术领域

本发明涉及一种用于在AV(audio-visual：视听)系统中进行对收听者来说优选的音响再生的技术。

背景技术

声音的传播根据声源与收听者的位置关系、声源与收听者之间的环境不同而不同。因此，收听者感知声音传播的不同，能够对声源的位置、环境的印象进行察觉。例如，在声源位置固定在收听者的正面的情况下，若收听者将脸部朝向右侧则左侧的声音变得相对较大并且在时间上较早地到达外耳道，若收听者将脸部朝向左侧则右侧的声音变得相对较大并且在时间上较早地到达外耳道(两耳间级差、两耳间时间差)。此外，耳廓由其形状，根据声音的到来方向而给予到来的声音的频率特性不同的影响。因此，根据用两耳收听的声音的特性(频率特性)、用两耳收听的声音的变化，收听者能够比较清楚地察觉声源的存在。

外耳道入口与声源之间的传达特性被称为头部传达函数(HRTF、Head Related Transfer Function)，已知其对人类的声音定位(察觉声音是从哪里发出来的)给予较大的影响。利用该人类的声音定位能力，使用5.1ch、7.1ch等的多声道扬声器从而能够进行更加充满临场感的声音再生的家庭影院设备等AV系统，近年来在一般家庭中得到普及。

在这种AV系统中，一般推荐将扬声器朝向收听者配置在以收听者为中心的圆上的给定位置。但是，由于设置空间等的关系，各扬声器未必一定能够配置在推荐位置。在该情况下，产生如下那样的问题。

首先，存在内容制造者意图的那样的声音的再生变得困难的问题。例如，在扬声器的配置位置与推荐位置不同的情况下，收听者察觉的声音的到来方向变得未必与本来设想的方向一致。因此，不仅影响从该扬声器听到的声音，还影响与从其他扬声器发出的声音之间的平衡，所以收听者感觉到的声音的印象可能与内容制作者意图的印象发生很大地变化。

此外，即使在扬声器被配置在推荐位置的情况下，在收听者不在本来的推荐位置进行收听，或者从推荐位置发生了移动的情况下等，产生与上述同样的问题。

对于这样的问题，在专利文献1中公开了一种声音再生装置，其具备对多个扬声器和视听者的位置进行实时检测的位置检测部、和向多个扬声器输出声音信号的控制部。控制部根据来自位置检测部的检测结果，计算各扬声器相对视听者的位置关系，根据该计算结果设定对各扬声器的声音信号输出时刻，由此控制再生音。

此外，在专利文献2中公开了一种方法，其通过利用摄像机检测收听者的脸部朝向、人数，并根据利用摄像机得到的收听者的位置，转换用于音像控制的滤波器系数，由此控制再生音。

专利文献1：JP特开平6-311211号公报

专利文献2：JP特开2003-32776号公报

但是，在上述现有技术中，存在如下问题。

首先在专利文献1中，检测收听者与扬声器的相对位置关系，并基于此来控制声音信号的输出时刻。即，为了进行音响再生控制而考虑的仅是扬声器相对收听者的位置。此外，在专利文献2中也仅仅是根据利用摄像机得到的收听者的位置来对再生音进行控制。

与此相对，对音响再生给予影响的不仅是收听者和扬声器的位置关系。例如，扬声器相对于收听者的朝向也对听到声音的人给予较大的影响。这是因为扬声器的指向特性按每个频率而不同。原本，扬声器被设计为在由正面方向听到的声音中频率特性的平衡较好。然而，因为扬声器的指向特性按每个频率而不同，所以例如，相对于扬声器从侧面或后面听取声音时，频率特性的平衡变差，不能获得本来的扬声器的音响性能。

因此，为了实现最合适的音响再生，关于扬声器相对于收听者的朝向，也需要反映到音响再生的控制中。但是，若考虑到收听者在收听中进行移动，则优选能够实时取得与扬声器相对于收听者的朝向相关的信息，以能够动态地进行控制。

发明内容

本发明的目的是在AV系统中动态地反映扬声器相对于收听者的朝向的同时实现音响再生的控制。

第一发明是带摄像机的扬声器，其具备：扬声器主体；和摄像机，其与所述扬声器主体一体地设置，并对该扬声器主体输出声音的方向进行拍摄。

根据本发明，通过与扬声器主体一体设置的摄像机，能够取得扬声器主体输出声音的方向的图像。通过图像处理技术，能够从该图像识别收听者的位置，并且检测扬声器主体相对收听者的朝向。因此，通过利用该带摄像机的扬声器，能够动态地反映扬声器相对于收听者的朝向的同时实现音响再生的控制。

第二发明为所述第一发明所涉及的带摄像机的扬声器用的信号处理装置，具备：识别部，其将从所述摄像机输出的图像信号作为输入，根据所述图像信号表示的图像识别收听者的位置，并且基于所识别的收听者位置，检测所述扬声器主体相对所述收听者的朝向；和声音控制部，其对所给予的声音信号进行信号处理，并作为音响信号输出给所述扬声器主体。

根据本发明，根据由带摄像机的扬声器的摄像机所拍摄的图像，通过识别部，能够识别收听者的位置，并且检测扬声器主体相对收听者的朝向。因此，能够动态地反映扬声器相对于收听者的朝向，同时实现音响再生的控制。

第三发明为AV系统，具备：扬声器主体；摄像机，其与所述扬声器主体一体地设置，并且对该扬声器主体输出声音的方向进行拍摄；识别部，其将从所述摄像机输出的图像信号作为输入，根据所述图像信号表示的图像识别收听者的位置，并基于识别出的收听者位置，检测所述扬声器主体相对所述收听者的朝向；和声音控制部，其对所给予的声音信号进行信号处理，并作为音响信号输出给所述扬声器主体。

根据本发明，通过与扬声器主体一体设置的摄像机，能够取得扬声器主体输出声音的方向的图像。通过识别部能够从该图像识别收听者的位置，并且检测扬声器主体相对收听者的朝向。因此，能够动态地反映扬声器相对于收听者的朝向，同时实现音响再生的控制。

(发明效果)

根据本发明，通过利用带摄像机的扬声器，能够动态地反映扬声器相对于收听者的朝向，同时实现音响再生的控制，所以能够实现对收听者来说比较适当的音响再生。

附图说明

图1是实施方式1所涉及的AV系统的构成的一例。

图2是带摄像机的扬声器的外观的一例。

图3是用于说明识别部中的处理中的检测角度信息的处理的图。

图4是用于说明识别部中的处理中的检测距离信息的处理的图。

图5是表示扬声器的指向特性的一例的图表。

图6是均衡处理中的补正增益的数据表格的例子。

图7是用于说明距声源的距离与声音的衰减量的关系的图。

图8是用于衰减补正的补正增益的数据表格的例子。

图9是声音控制部内的处理模块的一例。

图10是实施方式2所涉及的AV系统的构成的一例。

图11是滤波器补正系数的数据表格的例子。

图12是实施方式3所涉及的AV系统的构成的一例。

图13是实施方式4所涉及的AV系统的构成的一例。

具体实施方式

以下，参照附图对本发明的实施方式详细地进行说明。

(实施方式1)

图1表示实施方式1所涉及的AV系统的构成的一例。在图1的AV系统中使用带摄像机的扬声器100，其具备：扬声器主体111、和与该扬声器主体111一体设置的摄像机112。摄像机112对扬声器主体111输出声音的方向进行拍摄。此外，该带摄像机的扬声器100用的信号处理装置104具备声音控制部102和识别部103。从摄像机112输出的图像信号被给予信号处理装置104的识别部103。AV再生装置101对AV内容进行再生，输出声音信号和映像信号。声音信号被给予信号处理装置104的声音控制部102。映像信号被送到显示器106。

在信号处理装置104中，识别部103根据从摄像机112输出的图像信号表示的图像识别收听者P1的位置，并基于所识别到的收听者位置，检测扬声器主体111相对收听者P1的朝向。例如，求出扬声器主体111的正面方向(图1的单点划线)与连接扬声器主体111和收听者P1的直线(图1的虚线)所成的角度θh。声音控制部102对被给予的声音信号进行信号处理，并作为音响信号输出给扬声器主体111。而且，在该信号处理中，根据由识别部103所检测到的扬声器主体111的朝向，进行基于预先测量的扬声器主体111的指向特性的输出信号的补正。例如，对每个频率的增益进行调整。

另外，虽然在图1中仅图示了一个带摄像机的扬声器100，但是在AV系统中通常配置多个扬声器。多个扬声器中的一部分或者全部可以是带摄像机的扬声器。此外，各信号的传输，可以利用有线进行，也可以利用无线进行。

图2是带摄像机的扬声器100的外观的一例。在图2的例子中，摄像机112在扬声器主体111之上被设置为朝向与扬声器主体111相同的朝向。扬声器通常大多被设置为朝向收听者的方向，所以通过图2所示的构成，摄像机112可以对收听者进行拍摄。

另外，带摄像机的扬声器中的摄像机的设置形态不局限于图2的示例，只要能够对收听者的姿态进行拍摄，也可以是其他设置形态。例如，可以是如下形态：将摄像机内置于扬声器前面部分等，并仅使镜头部分露出到外面。此外，若使用视角宽的镜头例如鱼眼镜头，则拍摄范围变宽，所以收听者进入摄像机视野的可能性变高，同时还能够扩大摄像机的设置位置的选择范围。例如，可以采用在扬声器上部的角落等露出镜头那样的设置。

此外，可以设置多个摄像机。由此，拍摄范围变宽，所以收听者进入摄像机视野的可能性变高。此外，通过使用由多个摄像机拍摄的信息，还可以期待提高收听者的位置的检测精度。

使用图3来说明识别部103中的处理。在图3中，在摄像机图像中含有收听者P1的脸部图像IP1。设摄像机112的水平方向的视角是2γ。识别部103使用图像识别技术，从摄像机图像检测脸部图像IP1。例如，对摄像机图像信号进行信号处理，通过边缘检测来检测轮廓，或者通过颜色检测来检测眼睛、毛发等的脸部的部分，由此能够检测脸部图像IP1。这样的脸部识别技术，近年来已被应用在数码摄像机等中，这里省略其详细的说明。

然后，求出检测到的脸部图像IP1在摄像机图像中的水平方向的位置。这里，设脸部图像IP1的中心位置处于从摄像机图像中心向左长度a的位置处(0＜a＜1、设摄像机图像的水平方向的幅度为2)。设摄像机112的正面方向(图3的单点划线)与连接摄像机112和收听者P1的直线(图3的虚线)所成的角度为θh时，若利用上面的a，则该角度θh可以用下式求出。

θh＝γ*a

若改变看法，则该角度θh表示扬声器主体111相对收听者P1的水平方向上的朝向(已知扬声器主体111的朝向和摄像机112的朝向的关系)。

另外，在脸部图像IP1被包含在摄像机图像的右半部分的情况下，也可以同样地检测角度θh。此外，通过同样的方法，还可以检测上下方向的角度θv。通过进行这种处理，识别部103能够检测扬声器主体相对收听者P1的朝向。

下面，使用图4来说明估计扬声器和收听者P1的距离L的方法的一例。图4(a)是示意性地表示在摄像机图像中人的脸部的尺寸根据距离而如何变化的图。在距离为10、11、12时，脸部的宽度分别为m0、m1、m2。图4(b)是表示检测出的脸部的宽度与距离L的关系的图表。预先在几个距离L测定图像上的脸部宽度，通过在测定点间划内插或外插的直线或者曲线，从而能够制作图4(b)所示的图表。识别部103例如使用数式近似等来预先存储图4(b)所示的关系，使用从图像所检测的脸部宽度来估计距离L。

另外，实际的用户不仅限于具有标准的头部大小的人，还有头部比标准大的人以及头部比标准小的人。因此，在图4(b)中，预先准备头部的大小为标准、大、小的3模式的图表。而且，通过测定或自己申报等来输入收听者的头部大小，并根据其大小来选择标准、大、小的任一个图表即可。当然，头部大小的分法不局限于3种，例如可以将头部的尺寸以1cm间隔来分组，并按照该组来制作图表。

作为估计扬声器和收听者P1的距离L的方法，除了这里所说明的方法以外，例如，还可以考虑：根据来自已知设置位置的2台摄像机的图像信息来进行计算的方法、根据利用摄像机的自动聚焦而检测到收听者的对焦位置来进行估计的方法等。

如上所述，识别部103使用从摄像机112输出的图像信号，能够检测收听者P1的位置信息(角度θh、θv和距离L)。尤其，摄像机112与扬声器主体111一体地被设置，所以能够简便地检测收听者P1相对扬声器主体111的位置。因此，与现有技术相比，能够进行更加适当的音响再生。

下面，对声音控制部102中的处理进行说明。如图1所示，声音控制部102对来自AV再生装置101的声音信号进行信号处理，并作为音响信号输出到扬声器主体111。然后，接受通过识别部103而检测到的收听者P1的位置信息(角度θh、θv和距离L)，进行与其相应的信号处理。

首先，说明方向信息θh、θv的利用方法。这里，通过在对声音信号的信号处理中使用该方向信息θh、θv，从而进行基于扬声器主体111的指向特性的输出信号的补正。即在本实施方式中，根据扬声器主体111相对收听者P1的朝向，基于扬声器主体111的指向特性，补正输出信号。

图5是表示某扬声器的指向特性的图表。分别在图5的(a)、(b)中，从圆的中心以放射线状扩展的轴表示声音的强度，用实线描绘每个方向的声音的强度即指向特性。图表的上侧是扬声器的正面方向(前方向)。指向特性根据要再生的声音的频率不同而不同。在(a)中描绘了200Hz、500Hz、1000Hz的指向特性，在(b)中描绘了2kHz、5kHz、10kHz的指向特性。

由图5可知，在扬声器的正面方向，声音变得最强，笼统地说，伴随朝向后方(从正面180度相反的方向)，声音变弱。此外该变化根据要再生的声音的频率不同而不同，在低频率时变化少，频率变高时变化变大。扬声器一般进行音质调整，使得在正面方向听取时声音的平衡变得最好。由图5所示的指向特性可知，在收听者的位置从扬声器的正面方向偏离时，收听的声音的频率特性从理想状态发生较大变化，声音的平衡变差。关于声音的相位特性也产生同样的问题。

因此，预先测定扬声器的指向特性，并计算对指向特性的影响进行补正的均衡(equalizer)，根据检测出的方向信息θh、θv、即扬声器主体相对收听者的朝向来进行均衡处理。据此，能够不取决于扬声器相对于收听者的朝向，实现平衡良好的再生。

使用图6来说明具体的均衡处理。图6是按距扬声器正面的角度以及频率的、声压级(方格中左边的数字)和均衡的补正增益(方格中右边的数字)的例子。单位分别是dB(分贝)。在图6的例子中，通过按角度以及频率设定对声压级的补正增益，无论收听者位于哪里，都可以收听到与位于扬声器的正面方向相同的声音。换言之，通过使用图6的补正增益，可以使各频率下的指向特性的图表为大致完美的圆。另外，图6是一例，例如，可以更细分地设定角度和频率。此外，在所检测出的角度不在数据中时，可以通过内插等来计算补正增益。

此外这里，对水平面上的指向特性进行了叙述，但是在环绕扬声器的球上定义扬声器的指向特性。因此，可以扩展图6，而分别针对水平方向上的角度θh和垂直方向上的角度θv来设定补正增益。据此，能够三维地进行与扬声器相对于收听者的朝向相应的指向特性的补正。

为了进行均衡处理，声音控制部102可以具备模拟滤波器、IIR滤波器、FIR滤波器等数字滤波器。此外例如，使用参量均衡器进行补正的情况下，可以与补正增益相配合地设定Q值(表示频率特性的峰值的锐度的值)。

下面，对距离信息L的利用方法进行说明。在从某一点发出声音时，声音向全方向传播，越扩大越衰减，但是该衰减量与距离的平方成反比。例如如图7所示，距声源的距离从r1到r2(＝r1×2)而变为2倍时，声压成为1/4(＝(1/2)²)，如r3(＝r1×4)那样变为4倍时，声压成为1/16(＝(1/4)²)。即，收听者远离扬声器时，收听者所察觉到的声音的声压相应变低。在该情况下，由于与来自其他扬声器的声压的关系，音量平衡变差，声音的定位等成为收听到与内容制造者意图的声音不同的声音，不优选。

因此，根据所检测到的距离信息L来进行从扬声器发出的声音的增益补正。据此，即使在收听者和扬声器的距离不是最合适的情况下，也能够实现平衡良好的再生。

另外，这里所说明的距离和衰减的关系，在理想的点声源(没有大小、没有指向性的理论声源)、并且理想的自由声场的情况下成立。实际上，声源不是点声源而具有大小，还有指向性。此外，声场也由于存在各种反射而不是自由声场。因此，对于实际的扬声器、再生环境，预先测定并保存如图8所示的按距离的补正增益即可。在检测到的距离L在数据中不存在时，通过内插近似等计算补正增益的近似值即可。

此外，还可以按频率来设定该补正增益。已知高频率分量的声音与低频率分量的声音相比，基于距离的衰减量较大。因此，通过按频率持有图8所示那样的数据表格，能够实现精度更高的声压补正。这种按频率的声压补正能够通过QMF滤波器组等的频带分割和增益设定来实现，一般使用IIR数字滤波器或FIR数字滤波器等。

此外，还可以使来自多个扬声器的声压级相匹配地进行补正。例如，在分别在到收听者的距离为图7所示的r1、r2、r3的位置处配置有扬声器的情况下，为了与距离r2的扬声器的音量匹配，降低距离r1的扬声器的音量并且提高距离r3的扬声器的音量。通过该补正，能够使从各个扬声器到达收听者的音量相匹配。当然，也可以以其他扬声器的音量为基准进行补正，还可以以全然不同的音量为基准。此外，在各扬声器的效率不同的情况下，还可以进行考虑了效率的音量调整。

如此，通过声音控制部102根据角度信息θh、θv和距离信息L来进行补正，即使在扬声器的朝向从收听者偏离的情况下，或者从扬声器到收听者的距离不是最合适的情况下，也能够实现比较良好的声音再生。

图9是声音控制部102内的处理模块的一例。在图9中，声音控制部102具备3个处理模块121、122、123，处理模块121进行如上所述的与角度信息相应的补正，处理模块122进行如上所述的与距离相应的增益补正。此外，处理模块123根据所检测到的距离来补正声音的输出时刻，使得来自多个扬声器的声音的时刻在收听者位置一致。

另外，这里，利用全频带或者每个频率的增益，实现了按角度以及距离的补正值，但是也可以分别作为补正用FIR滤波器来预先保持，并用于补正。通过使用FIR滤波器，还可以进行相位控制，可以进行精度更高的补正。

下面，针对摄像机112的图像拍摄、识别部103的检测处理、以及声音控制部102的补正，说明其动作时刻的一例。

例如，摄像机112总是进行拍摄，向识别部103持续输出图像信号。识别部103总是根据图像信号检测收听者的位置，并将收听者的位置信息实时地向声音控制部102持续输出。声音控制部102接收实时输出的位置信息，实时转换补正处理，持续补正音响信号。据此，即使在收听者的位置动态地发生变化的情况下，也能够实现追随其的声音控制。

在这种控制中，由于收听者的微小移动，补正处理也会被转换，但是有时候仅产生听觉上不能感知的程度的变化，那样的补正处理的转换在听觉上是没有意义的。因此，例如可以仅在识别部103针对收听者检测到了给定阈值以上的移动(角度或者距离的变化)时，向声音控制部102输出收听者的位置信息。

或者，还可以以某给定时间间隔来进行摄像机112的图像拍摄、识别部103的检测处理。据此，能够抑制系统的处理负荷。或者，也可以在用户通过遥控等使触发开关接通(ON)时，识别部103以及声音控制部102执行处理。据此，可以进一步抑制系统的处理负荷。

或者，还可以通过例如系统具备的测定模式的执行等来预先设定收听者的位置信息的初始值，使用由摄像机112所拍摄的图像信号来进行之后的伴随收听者的移动的动态补正。

另外，在本实施方式所示的补正用数据表格被存储在例如声音控制部102内的非易失性存储器等。

此外，实际的AV系统具备多个扬声器，所以通过将这里所说明的技术应用于各扬声器，从而能够对从各扬声器再生的各个声音进行与用户位置相应的控制。

(实施方式2)

图10表示实施方式2所涉及的AV系统的构成的一例。在图10中，对于与图1共同的构成要素标注与图1相同的符号，并在此省略其说明。

在图10的构成中，带摄像机的扬声器200的扬声器主体是由多个扬声器单元构成的阵列扬声器113。阵列扬声器通过增多扬声器单元的个数并且延长其长度，能够实现敏锐的指向特性(例如，参照西川等、“2次元デイジタルフイルタを用いた指向性アレ一スピ一力(使用了二维数字滤波器的指向性阵列扬声器)”、电子信息通信学会论文杂志A Vol.J78-ANo.11PP.1419-1428、1995年11月)。通过将该技术用于音响再生，可期待防止声音向不需要方向的扩散，但是为此需要使阵列扬声器113的指向性的峰值朝向收听者的方向。

在本实施方式中，在该阵列扬声器113上设置摄像机112，在信号处理装置204中，识别部103检测阵列扬声器113相对收听者的朝向。该检测能够与实施方式1同样地实现。然后，声音控制部202对声音信号进行信号处理，使得阵列扬声器113的指向性的峰值朝向收听者的方向，并且分别向各扬声器单元输出音响信号。

阵列扬声器113的指向性的峰值的朝向，例如，能够通过向各扬声器单元的音响信号上所附加的延迟和增益的设定，来简易地进行控制。例如，在想要使指向性的峰值的朝向稍微向右偏移时，可以针对左侧的扬声器单元，使音响信号的延迟变小并且提高增益，从而更早更大地输出声音。

此外，为了使阵列扬声器113的指向性的峰值更加精度良好地朝向收听者P1，可以利用如图11所示的、按角度保持了各扬声器单元的声音控制所用的FIR滤波器系数的数据表格。图11(a)示出按角度θh和扬声器单元的FIR滤波器系数Hx_y(x是角度θh、y是扬声器单元编号)。此外图11(b)是角度θh＝30°时的各扬声器单元的FIR滤波器系数的一例。例如，预先将图11所示那样的数据表格存储在声音控制部202内的非易失性存储器中，声音控制部202根据由识别部103所检测到的角度信息θh来从数据表格读出FIR滤波器系数，并实现声音控制。

另外，这里对在水平面的指向性控制进行了说明，但是通过使用沿垂直方向配置了扬声器单元的扬声器阵列，也同样能够实现与垂直方向上的角度信息θv相应的指向性控制。

此外，通过将扬声器单元配置为平面状，还可以实现与水平、垂直各自的角度信息相应的指向性控制。

此外，对于与距离信息L相应的控制，与实施方式1同样地，对向各扬声器单元的音响信号实施与距离相应的增益补正即可。

此外，在使用了阵列扬声器的情况下，能够进行所谓的局部再生，还可以将本实施方式应用于该局部再生的控制中。所谓局部再生，是指仅在某给定范围内再生声音，并且在离开该范围的位置处使音量急剧下降那样的再生。例如，通过摄像机112检测收听者P1的位置，在收听者P1处于所设想的范围外时，声音控制部202转换控制参数，控制局部再生的范围使其包含收听者P1的位置。

(实施方式3)

图12表示实施方式3所涉及的AV系统的构成的一例。在图12中，对与图1共同的构成要素标注与图1相同的符号，并在此省略其说明。

在图12的构成中，带摄像机的扬声器300具备用于改变扬声器主体111的朝向的可动机构114。该可动机构114例如通过电动式的转盘来实现。而且，信号处理装置304具备用于控制可动机构114的可动机构控制部301。识别部103将从图像信号检测出的收听者P1的位置信息输出给声音控制部102以及可动机构控制部301。可动机构控制部301接收收听者P1的位置信息，向可动机构114发送控制信号，使得扬声器主体111朝向收听者P1的方向。通过这种动作，能够动态地使扬声器主体111的朝向与收听者P1的位置相匹配。

如上那样的实际改变扬声器的朝向的控制，可以与实施方式1中所说明的扬声器的指向特性的补正处理组合来进行。具体而言，例如，可以进行如下控制：在表示扬声器主体111相对收听者P1的朝向的角度信息θh、θv为给定阈值以下时，利用指向特性的补正处理来对应，在超过给定阈值时，通过可动机构114来改变扬声器的朝向。在扬声器的朝向较大地偏离收听者时，为了补正指向特性，不得不给予较大的补正增益。但是使补正增益变大时，在数字信号中产生溢出(overflow)的问题，此外，由于扬声器本身的再生上限增益，声音有可能产生失真。因此，通过将本实施方式中的控制与指向特性补正相组合，能够避免这种问题。

此外，还可以将本实施方式应用于实施方式2中所示的阵列扬声器。即，可以在可动机构设置阵列扬声器，通过控制可动机构来改变阵列扬声器的朝向，从而实现指向性控制、面向局部再生的控制。

(实施方式4)

图13表示实施方式4所涉及的AV系统的构成的一例。在图13中，对与图1共同的构成要素标注与图1相同的符号，并在此省略其说明。

在图13的构成中，在信号处理装置404中，识别部403根据从摄像机112输出的图像信号表示的图像来识别各收听者P1、P2、P3的位置，并检测收听者的人数。而且，对收听者P1、P2、P3分别与实施方式1同样地检测位置信息。声音控制部402在通过识别部403检测到多个收听者P1、P2、P3时，利用扬声器主体111的朝向、以及收听者P1、P2、P3彼此的位置关系，来进行信号处理。例如，在从扬声器主体111来看多个收听者存在于给定角度的范围内时，对多个收听者的中心，进行指向特性控制。此外，在仅有一个收听者处于远离的位置的情况下，进行针对其他收听者的指向特性控制、或者不进行补正本身。如此，在存在多个收听者的情况下，通过进行与收听者彼此的位置关系相应的信号处理，可以实现比较适当的再生。

另外，在根据摄像机图像检测收听者的人数的情况下，例如在从扬声器来看多个收听者重叠的情况下，有可能将多个收听者识别为一个人。但是，即使在这样的情况下，若针对被识别为一个人的收听者进行指向特性控制，则在音质上也不会产生什么问题。即，在多个收听者被看做重叠的情况下，不需要严密地检测其人数，处理相应地变得简易。

另外，在上述各实施方式中，主要针对指向特性的补正进行了说明，此外例如也可以是如下结构：检测从扬声器观察的收听者的脸部朝向、扬声器与收听者间的距离，估计从该扬声器的头部传达函数，声音控制部进行控制。声音控制部预先存储与脸部朝向和距离相应的控制参数，并根据检测结果来转换控制参数从而进行再生。作为简便的补正的示例，有从扬声器到收听者的距离的补正。例如，在从某扬声器到收听者的距离比其他扬声器近的情况下，使发出声音的时刻延迟。据此，能够期待与扩大了扬声器距离的情况相同的效果。

产业上的可利用性

在本发明中，在AV系统中实现了对于收听者来说比较适当的音响再生，所以例如，对于提高家庭影院设备等的音响质量等是有用的。

符号说明

100、200、300带摄像机的扬声器

102、202、402声音控制部

103、403识别部

104、204、304、404信号处理装置

111扬声器主体

112摄像机

113阵列扬声器(扬声器主体)

114可动机构

301可动机构控制部

P1、P2、P3收听者

Claims

1.一种带摄像机的扬声器，其特征在于，具备：

扬声器主体；和

摄像机，其与所述扬声器主体一体地设置，并对该扬声器主体输出声音的方向进行拍摄。

2.根据权利要求1所述的带摄像机的扬声器，其特征在于，

所述扬声器主体是由多个扬声器单元构成的阵列扬声器。

3.根据权利要求1所述的带摄像机的扬声器，其特征在于，

具备用于改变所述扬声器主体的朝向的可动机构。

4.一种信号处理装置，是权利要求1所述的带摄像机的扬声器用的信号处理装置，具备：

识别部，其将从所述摄像机输出的图像信号作为输入，根据所述图像信号表示的图像识别收听者的位置，并且基于识别出的收听者位置，检测所述扬声器主体相对所述收听者的朝向；和

声音控制部，其对所给予的声音信号进行信号处理，并作为音响信号输出给所述扬声器主体。

5.根据权利要求4所述的信号处理装置，其特征在于，

所述声音控制部根据由所述识别部所检测到的所述扬声器主体的朝向，进行基于所述扬声器主体的指向特性的输出信号的补正。

6.根据权利要求4所述的信号处理装置，其特征在于，

所述扬声器主体是由多个扬声器单元构成的阵列扬声器，

所述声音控制部根据由所述识别部所检测到的所述扬声器主体的朝向，进行所述扬声器主体的局部再生的控制。

7.根据权利要求4所述的信号处理装置，其特征在于，

所述识别部能够检测收听者的人数，

在由所述识别部检测到多个收听者时，所述声音控制部根据由所述识别部所检测到的、所述扬声器主体的朝向和收听者彼此的位置关系，进行信号处理。

8.根据权利要求4所述的信号处理装置，其特征在于，

所述带摄像机的扬声器具备用于改变所述扬声器主体的朝向的可动机构，

该信号处理装置具备用于控制所述可动机构的可动机构控制部，

所述可动机构控制部根据由所述识别部所检测到的所述扬声器主体的朝向，控制所述可动机构。

9.一种AV系统，其具备：

扬声器主体；

摄像机，其与所述扬声器主体一体地设置，并且对该扬声器主体输出声音的方向进行拍摄；

识别部，其将从所述摄像机输出的图像信号作为输入，根据所述图像信号表示的图像识别收听者的位置，并基于识别出的收听者位置，检测所述扬声器主体相对所述收听者的朝向；和