CN104904236A

CN104904236A - 声音处理系统以及声音处理方法

Info

Publication number: CN104904236A
Application number: CN201380068876.3A
Authority: CN
Inventors: 泽裕隆; 重永信一; 德田肇道; 吉国信太郎; 渡边周一; 牧直史; 田坂浩一; 小野进; 藤本圭祐; 松尾正治郎; 福田铁平; 松本宏之; 泉昭年; 辻寿嗣; 林和典; 汤下良一
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2012-12-27
Filing date: 2013-12-27
Publication date: 2015-09-09
Anticipated expiration: 2033-12-27
Also published as: US20180115760A1; CN104904236B; EP2941013A4; EP2941013A1; WO2014103331A1; JP2014143678A; US20150350621A1; US10536681B2; EP2941013B1; US9826211B2; US20180115759A1; US10244219B2

Abstract

记录器(45)从使用者受理对希望重放的影像的指定。信号处理部(50)在记录器(45)中的影像的重放期间或者临时停止期间，如果针对显示有影像的显示器(63)的画面，经由操作部(55)而从用户受理了对声音强调的一个以上的指定部位的指定，则对声音数据进行强调处理即使用在记录器(45)中记录的声音数据，来强调从麦克风阵列(20)朝向与被指定的指定部位对应的位置的方向的声音数据。重放装置(60)使进行了强调处理的声音数据与影像数据同步而进行重放。

Description

声音处理系统以及声音处理方法

技术领域

本发明涉及重放被记录的影像数据以及声音数据的声音处理系统以及声音处理方法。

背景技术

以往，在工厂、商店(例如小卖部、银行)或者公共场所(例如图书馆)中设置的监视系统中，通过使用网络连接多个监视摄像机(例如云台摄像机、全方位摄像机)，来实现监视对象的周围的影像数据(包括静态图像以及动态图像。以下相同)的高画质化以及宽视场角化。

另外，在仅对影像进行监视的情况下得到的信息量总是有界限的，所以近年来还出现了通过除监视摄像机之外还配置麦克风来得到监视对象的周围的影像数据以及声音数据这样的监视系统。

作为得到监视对象的周围的声音数据的现有技术，公知一种音响处理装置，该音响处理装置具有获得摄像图像的摄像部以及收集声音数据的多个麦克风(收音部)，使用各麦克风所收集到的声音数据，来生成在从作为客户端的音响重放装置指定的预定的收音方向上具有指向性的声音数据(例如参照专利文献1)。

在专利文献1中，音响处理装置基于从经由网络而连接的客户端(音响重放装置)预先接受的预定的收音方向的控制命令，来对多个收音部(麦克风)所收集到的声音数据进行合成，生成在该方向上具有指向性的声音数据，将合成得到的声音数据发送到客户端(音响重放装置)。

现有技术文献

专利文献

专利文献1：日本特开2000-209689号公报

发明内容

发明所要解决的课题

在将专利文献1所示的音响处理装置应用于有人监视系统的情况下，音响处理装置当在监视对象的周围的摄影图像的记录中发生了某些意外事故时，能够立即从客户端(音响重放装置)接受收音方向的指定，生成在该收音方向上具有指向性的声音数据。

但是，在将专利文献1所示的音响处理装置应用于例如无人监视系统的情况下，假设在发生了意外事故之后，想要通过重放从意外事故的发生前起记录的影像数据以及声音数据来得到与意外事故相关的信息(例如声音数据)。在这种情况下，关于音响处理装置，由于发生了意外事故的场所不限于预先从客户端接受了指定的预定的收音方向，所以有可能难以得到在发生了意外事故的场所、即所期望的收音方向上具有指向性的声音数据。即，存在从被记录的影像数据以及声音数据中得不到与意外事故相关的有效的信息的可能性高的这样的课题。

本发明为了解决上述的以往的课题，其目的在于，提供一种强调地输出朝向与在显示有摄像得到的影像数据的显示画面中被指定的一个以上的指定部位对应的位置的指向方向的声音数据的声音处理系统以及声音处理方法。

用于解决课题的技术方案

本发明涉及一种声音处理系统，具备：至少一个摄像部，对影像进行摄像；显示部，显示通过所述摄像部进行摄像得到的影像数据；收音部，包括多个麦克风，使用所述麦克风来收集声音；声音输出部，对通过所述收音部收集到的声音数据进行声音输出；记录部，记录通过所述摄像部进行摄像得到的所述影像数据、以及通过所述收音部收集到的所述声音数据；重放部，将在所述记录部中记录的所述影像数据显示于所述显示部，并且使所述声音输出部对在所述记录部中记录的所述声音数据进行声音输出；操作部，受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及信号处理部，基于在所述记录部中记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。

另外，本发明涉及一种声音处理方法，具有如下步骤：在至少一个摄像部中对影像进行摄像；在包括多个麦克风的收音部中收集声音；将通过所述摄像部进行摄像得到的影像数据显示于显示部；记录通过所述摄像部进行摄像得到的影像数据以及通过所述收音部收集到的声音数据；将被记录的所述影像数据显示于所述显示部并且使声音输出部对被记录的所述声音数据进行声音输出；受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及基于被记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。

发明效果

根据本发明，能够强调地输出朝向与在显示有摄像得到的影像数据的显示画面中被指定的一个以上的指定部位对应的位置的指向方向的声音数据。

附图说明

图1(A)、(B)是示出各实施方式的声音处理系统的系统结构的框图。

图2(A)是麦克风阵列的外观图，(B)是第3实施方式中的麦克风阵列的外观图，(C)是示出麦克风阵列与摄像机的安装状态的图。

图3是使用麦克风阵列的指向性控制处理的原理的说明图。

图4是说明声音处理系统的记录时的动作次序的流程图。

图5是说明在指定一个以上的指定部位的情况下的、声音处理系统的重放时的动作次序的流程图。

图6是示出第1实施方式的声音处理系统的使用方式的一例的示意图，(A)是示出例如在室内的大厅的天花板上在相分离的位置设置1台摄像机与1台麦克风阵列的情形的图，(B)是示出将影像数据显示于显示器并在扬声器中对声音数据进行声音输出的情形的图。

图7是示出第2实施方式的声音处理系统的使用方式的一例的示意图，(A)是示出例如在室内的大厅的天花板设置了2台摄像机、位于2台摄像机的中间位置的1台麦克风阵列以及扬声器的情形的图，(B)是示出将通过摄像机10进行摄像得到的影像数据显示于显示器63并且在扬声器65中对声音数据进行声音输出的情形的图，(C)是示出将通过摄像机10A进行摄像得到的影像数据显示于显示器63并且在扬声器65中对声音数据进行声音输出的情形的图。

图8是示出第4实施方式的声音处理系统的使用方式的一例的示意图，(A)是示出在例如室内的大厅的天花板上，设置了1台摄像机、1台麦克风阵列以及扬声器的情形的图，(B)是在被显示于显示器的影像数据中指定了多个指定部位的情况下的声音处理系统的动作概要的说明图。

图9是示出声音处理系统的使用方式的一例的示意图，(A)是示出例如在室内的大厅的天花板设置了圆环型形状的麦克风阵列、与麦克风阵列一体地被嵌入的摄像机以及扬声器的情形的图，(B)是示出在摄像机10E摄像得到的影像数据中选择两个人物91、92的情形的图，(C)是示出将图像转换后的两个人物91、92的影像数据显示于显示器并且在扬声器65中对人物91、92的会话的声音数据进行声音输出的情形的图，(D)是示出在摄像机10E摄像得到的影像数据中选择两个人物93、94的情形的图，(E)是示出将图像转换后的两个人物93、94的影像数据显示于显示器并且在扬声器65中对人物93、94的会话的声音数据进行声音输出的情形的图。

图10(A)、(B)、(C)是其他麦克风阵列20D、20E、20F的外观图。

图11是在多个指定部位被指定的情况下的显示器63以及扬声器65的动作的示意图。

图12是各实施方式的麦克风阵列的框体构造的分解立体图。

图13(A)是图12所示的麦克风阵列的框体构造的俯视图，(B)是图13(A)的A-A剖视图。

图14是图13(B)的虚线范围的主要部件放大图。

图15(A)是示出将冲压金属盖固定于主框体的情形的立体图，(B)是示出将冲压金属盖固定于主框体的情形的剖视图。

图16是话筒安装构造的示意图。

图17是话筒基板的俯视图。

图18(A)是在多个话筒电路中设置一个纹波去除电路的话筒基板电路的图，(B)是针对多个话筒电路的各个而设置纹波去除电路的话筒基板电路的图。

图19(A)是不安装摄像机适配器而安装了全方位摄像机的麦克风阵列的框体构造的立体图，(B)是安装了室外用全方位摄像机以及摄像机适配器的麦克风阵列的框体构造的立体图。

图20是安装有室内用全方位摄像机的麦克风阵列的框体构造的分解立体图。

图21是安装有室外用全方位摄像机的麦克风阵列的框体构造的分解立体图。

图22(A)是安装有室外用全方位摄像机的麦克风阵列的框体构造的侧视图，(B)是图22(A)的B-B剖视图。

图23是图22的虚线范围的主要部件放大图。

图24是安装有盖的麦克风阵列的框体构造的分解立体图。

图25是使用安装模具来安装于天花板的框体构造的分解立体图。

图26(A)是被插入到基座钣金用固定孔之前的基座钣金侧固定引线的侧视图，(B)是被插入到基座钣金用固定孔的基座钣金侧固定引线的侧视图，(C)是被插入到基座钣金用固定孔的基座钣金侧固定引线的俯视图，(D)是移动到基座钣金用固定孔的小径孔的基座钣金侧固定引线的侧视图，(E)是移动到基座钣金用固定孔的小径孔的基座钣金侧固定引线的俯视图。

图27是在ECM用凹部中设置了锥形部的麦克风阵列的框体构造的剖视图。

图28是实施了风应对措施的麦克风阵列的框体构造的剖视图。

图29(A)是表示ECM用凹部的内径与深度的关系的麦克风阵列的框体构造的剖视图，(B)是ECM用凹部的内壁成为倾斜壁的麦克风阵列的框体构造的剖视图，(C)是ECM用凹部的内周角部成为R部的麦克风阵列的框体构造的剖视图。

图30(A)是表示不形成锥形部的ECM用凹部的等压面的说明图，(B)表示了形成了锥形部的ECM用凹部的等压面的说明图。

图31(A)是第4实施方式的声音处理系统的使用例的说明图，(B)是示出显示在第1指定部位的周围显示的第1识别形状、在第2指定部位的周围显示的第2识别形状的一例的情形、强调朝向与通过第1识别形状来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而从第1扬声器输出的情形、以及强调朝向与通过第2识别形状来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而从第2扬声器输出的情形的图。

图32是示出在显示有图31(B)所示的影像数据的状态下，根据向被显示于显示器的影像数据的显示区域外的点击操作，显示调整用操作框的情形的图。

图33(A)是第4实施方式的声音处理系统的使用例的说明图，(B)是示出显示在第1指定部位的周围显示的第1识别形状、在第2指定部位的周围显示的第2识别形状的一例的情形、强调朝向与通过第1识别形状来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而从第1扬声器输出的情形、以及强调朝向与通过第2识别形状来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而从第2扬声器输出的情形的图。

图34是示出在显示有图31(B)所示的影像数据的状态下，每当进行向被显示于显示器的影像数据的显示区域外的点击操作，切换地显示通过全方位摄像机进行摄像得到的影像数据与调整用操作框的情形的图。

图35是示出在显示有图31(B)所示的影像数据的状态下，根据向被显示于显示器的影像数据的显示区域外的点击操作，显示状态标示用框的情形的图。

图36(A)是第4实施方式的声音处理系统的使用例的说明图，(B)是示出显示在第1指定部位的周围显示的第1识别形状、在第2指定部位的周围显示的第2识别形状、在第3指定部位的周围显示的第3识别形状、在第4指定部位的周围显示的第4识别形状的一例的情形、以及从第1以及第2各扬声器输出强调了朝向与通过第1识别形状来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而得到的声音数据、强调了朝向与通过第2识别形状来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而得到的声音数据、强调了朝向与通过第3识别形状来确定的第3指定部位对应的第3声音位置的第3指向方向的声音而得到的声音数据的情形的图。

图37是示出在显示有图36(B)所示的影像数据的状态下，根据键盘的多个特定键的同时按下操作，显示调整用操作框的情形的图。

图38是示出在显示有图36(B)所示的影像数据的状态下，根据向被显示于显示器的影像数据的显示区域外的点击操作，显示调整用操作框的情形的图。

图39(A)是第4实施方式的声音处理系统的使用例的说明图，(B)是示出显示在第1指定部位的周围显示的第1识别形状、在第2指定部位的周围显示的第2识别形状、在第3指定部位的周围显示的第3识别形状、在第4指定部位的周围显示的第4识别形状的一例的情形、将强调了朝向与通过第1识别形状来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而得到的声音数据、强调了朝向与通过第2识别形状来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而得到的声音数据进行合成而从第1扬声器输出的情形、以及将强调了朝向与通过第3识别形状来确定的第3指定部位对应的第3声音位置的第3指向方向的声音而得到的声音数据从第2扬声器输出的情形的图。

图40的在显示有图39(B)所示的影像数据的状态下，根据向被显示于设置有触摸面板的显示器的影像数据的显示区域外的触摸，显示调整用操作框的情形的图。

具体实施方式

下面，参照附图，说明本发明的声音处理系统以及声音处理方法的各实施方式。各实施方式的声音处理系统应用于在工厂、公共施设(例如图书馆或者活动会场)或者商店(例如小卖部，银行)中设置的监视系统(包括有人监视系统以及无人监视系统)。

(第1实施方式)

图1(A)以及图1(B)是示出各实施方式的声音处理系统5A、5B的系统结构的框图。声音处理系统5A是包括监视用的摄像机10、10A、麦克风阵列20以及声音处理装置40的结构。摄像机10、10A、麦克风阵列20、声音处理装置40经由网络30而相互连接。

声音处理系统5B是包括监视用的摄像机10B、10C、麦克风阵列20A、记录器45A、以及PC(Personal Computer)70的结构。摄像机10B、10C、麦克风阵列20A、记录器45A、PC70经由网络30A而相互连接。

下面，主要说明声音处理系统5A的各部的动作，关于声音处理系统5B的各部的动作，说明与声音处理系统5A的动作不同的内容。

作为摄像部的摄像机10、10A是例如设置于活动会场的室内的天花板(例如参照图6)的监视摄像机，具有从经由网络30而连接的监视系统控制室(未图示)能够进行远程操作的云台功能、放大功能以及缩小功能，对作为监视对象的地点(场所)的周围的影像(包括静止画面以及动画。以下相同)进行摄像。摄像机10、10A将摄像得到的影像的数据(影像数据)，经由网络30而记录到记录器45中。

作为收音部的麦克风阵列20例如设置于活动会场的室内的天花板(例如参照图6)，是一样地设置了多个麦克风22(例如参照图2)的麦克风。麦克风阵列20使用各个麦克风22来收集作为监视对象的地点(场所)周围的声音，将通过各个麦克风22收集到的声音的数据(声音数据)经由网络而记录到记录器45中。麦克风阵列20的构造参照图2而在后面叙述。

声音处理装置40是包括记录器45、信号处理部50、操作部55、以及重放部60的结构。记录器45是包括用于控制记录器45中的数据的记录等各处理的控制部(未图示)以及用于储存影像数据以及声音数据的记录部(未图示)的结构。记录器45将通过摄像机10、10A进行摄像得到的影像数据、与通过麦克风阵列20收集到的声音数据对应起来地记录。

信号处理部50例如使用CPU(Central Processing Unit)、MPU(Micro Processing Unit)或者DSP(Digital Signal Processor)来构成，执行用于整体地统括声音处理装置40的各部的动作的控制处理、与其他各部之间的数据的输入输出处理、数据的运算(计算)处理以及数据的存储处理。

信号处理部50使用在记录器45中记录的声音数据，通过后述的声音数据的指向性控制处理，对通过各个麦克风收集到的各声音数据进行相加，对从麦克风阵列20的各麦克风22的位置向特定方向的声音(音量级)进行强调(放大)，从而生成形成了向特定方向的指向性的声音数据。另外，信号处理部50也可以使用从麦克风阵列20发送的声音数据，对从麦克风阵列20向特定方向(指向方向)的声音的音量级进行强调(放大)，从而生成形成了向特定方向的指向性的声音数据。此外，特定方向是指从麦克风阵列20朝向与从操作部55指定的预定的指定部位对应的位置的方向，是为了对声音数据的音量级进行强调(放大)而通过用户指定的方向。

信号处理部50在记录器45中记录的影像数据通过全方位摄像机(参照后述)进行了摄像的情况下，进行对在记录器45中记录的影像数据的坐标系(例如x轴、y轴、z轴中的2维或者3维的坐标转换)的转换处理，将转换处理后的影像数据显示于显示器63(参照图9(C)以及图9(E))。

操作部55例如与显示器63的画面对应地配置，使用能够通过用户的手指95或者手写笔进行输入操作的触摸面板或者触摸板来构成。操作部55根据用户的操作，将期望强调(放大)声音数据的音量级的一个以上的指定部位的坐标的数据输出到信号处理部50。此外，操作部55也可以使用鼠标或者键盘等定位设备来构成。

重放部60是包括显示器63以及扬声器65的结构，将在记录器45中记录的影像数据显示于显示器63，进而，使扬声器65对在记录器45中记录的声音数据进行声音输出。此外，显示器63以及扬声器65也可以做成与重放部60独立的结构。

作为显示部的显示器63显示通过摄像机10、10A进行摄像并记录到记录器45中的影像数据。

作为声音输出部的扬声器65对通过麦克风阵列20收集并记录到记录器45中的声音数据、或者基于该声音数据而通过信号处理部50进行向特定方向的强调处理而得到的声音数据进行声音输出。

在这里，声音处理装置40也可以构成为：记录器45与声音处理装置40中的其他各部是不同的装置(参照图1(B))。具体地说，图1(A)所示的声音处理装置40也可以构成为包括图1(B)所示的记录器45A、以及图1(B)所示的PC70。即，PC70使用通用的计算机来构成，是包括信号处理部71、具有显示器73和扬声器75的重放部72以及操作部78的结构。记录器45A以及PC70相当于声音处理系统5A中的声音处理装置40，实现相同的功能以及动作。

另外，摄像机10B、10C以及麦克风阵列20A的功能分别与声音处理系统5A中的摄像机10、10A以及麦克风阵列20的功能相同。

此外，声音处理系统5A、5B中设置的摄像机的台数是任意的。另外，也可以将网络30、30A相互连接，在声音处理系统5A-5B之间能够进行数据的转送。

图2(A)是麦克风阵列20的外观图。麦克风阵列20是包括在圆盘状的框体21中配置的多个麦克风22的结构。多个麦克风22沿着框体21的面地配置，沿着具有与框体21相同的中心的小的圆形以及大的圆形这两个同心圆形地配置。沿着小的圆形配置的多个麦克风22A具有相互的间隔窄、适于高的音域的特性。另一方面，沿着大的圆形配置的多个麦克风22B具有直径大、适于低的音域的特性。

图2(B)是示出第3实施方式中的麦克风阵列20C的外观和麦克风阵列20C与全方位摄像机10E(参照图9(A))的安装状态的图。图2(B)所示的麦克风阵列20C是包括在内侧形成了开口部21a的圆环型形状的框体21C、以及在该框体21C中同样地设置的多个麦克风22C的结构。多个麦克风22C相对于框体21C而沿着同心圆形地配置。

在图2(C)中，图9(A)所示的全方位摄像机10E以插入贯通过的状态来安装到框体21C的开口部21a的内侧。在本实施方式中，全方位摄像机10E是例如搭载了鱼眼镜头的摄像机，以对大厅的地板面的宽范围进行摄像的方式来安装。这样，全方位摄像机10E与麦克风阵列20C在与麦克风阵列20C的框体21C的中心共同的同轴上配置，所以能够使用同一坐标系。

图3是使用麦克风阵列20的指向性控制处理的原理的说明图。在图3中，简单说明采用延迟求和方式的指向性控制处理的原理。从声源80发出的声波相对于麦克风阵列20的各麦克风22a、22b、22c、…、22n-1、22n，以某个恒定的角度(入射角＝(90-θ))入射。相对于麦克风阵列20的框体21的面，声源80在预定角度θ的方向上配置。另外，麦克风22a、22b、22c、…、22n-1、22n之间的间隔恒定。

从声源80发出的声波最初到达麦克风22a而被收集，接着到达麦克风22b而被收集，陆续地被收集，最后到达麦克风22n而被收集。此外，关于从麦克风阵列20的各麦克风22a、22b、22c、…、22n-1、22n的位置朝向声源80的方向，例如如果设想声源80是人物的会话时的声音的情况或者是周围的音乐的情况，则能够认为相同于与为了对人物的会话时的声音或者周围的音乐的声音数据的音量级进行强调(放大)而从操作部55指定的预定的范围对应的方向。

在这里，在从声波到达麦克风22a、22b、22c、…、22n-1的时刻直到到达最后进行收集的麦克风22n时刻的期间，产生到达时间差τ1、τ2、τ3、…、τn-1。因此，在将通过各个麦克风22a、22b、22c、…、22n-1、22n收集到的声音数据直接相加的情况下，由于保持相位有偏差的状态来进行相加，所以声波的音量级整体地相互削弱。

此外，τ1是声波到达麦克风22a的时刻与声波到达麦克风22n的时刻的差分的时间，τ2是声波到达麦克风22b的时刻与声波到达麦克风22n的时刻的差分的时间，τn-1是声波到达麦克风22n-1的时刻与声波到达麦克风22n的时刻的差分的时间。

另一方面，在包括本实施方式的各实施方式中，信号处理部50是具有分别与麦克风22a、22b、22c、…、22n-1、22n的每个对应地设置的A/D转换器51a、51b、51c、…、51n-1、51n和延迟器52a、52b、52c、…、52n-1、52n以及加算器57的结构(参照图3)。

即，信号处理部50通过在A/D转换器51a、51b、51c、…、51n-1、51n中对通过各麦克风22a、22b、22c、…、22n-1、22n收集到的模拟的声音数据进行AD转换，来得到数字的声音数据。进而，信号处理部50在延迟器52a、52b、52c、…、52n-1、52n中提供与各个麦克风22a、22b、22c、…、22n-1、22n中的到达时间差对应的延迟时间而使相位一致，之后，在加算器57中将延迟处理后的声音数据相加。由此，信号处理部50能够生成强调了从各麦克风22a、22b、22c、…、22n-1、22n的设置位置起的预定角度θ的方向的声音数据的声音数据。例如在图3中，对延迟器52a、52b、53c、…、52n-1、52n设定的各延迟时间D1、D2、D3、…、Dn-1、Dn分别相当于到达时间差τ1、τ2、τ3、…、τn-1，通过数学式(1)来表示。

【数学式1】

D 1 = \frac{L 1}{V s} = \frac{{d \times (n - 1) \times c o s θ}}{V s}

D 2 = \frac{L 2}{V s} = \frac{{d \times (n - 2) \times c o s θ}}{V s}

D 3 = \frac{L 3}{V s} = \frac{{d \times (n - 3) \times c o s θ}}{V s}

…

D n - 1 = \frac{L n - 1}{V s} = \frac{{d \times 1 \times c o s θ}}{V s}

Dn＝0…(1)

L1是麦克风22a与麦克风22n中的声波到达距离之差。L2是麦克风22b与麦克风22n中的声波到达距离之差。L3是麦克风22c与麦克风22n中的声波到达距离之差。Ln-1麦克风22n-1与麦克风22n中的声波到达距离之差。Vs是声速。L1、L2、L3、…、Ln-1、Vs是已知的值。在图3中，对延迟器52n设定的延迟时间Dn为0(零)。

这样，信号处理部50通过变更对延迟器52a、52b、52c、…、52n-1、52n设定的延迟时间D1、D2、D3、…、Dn-1、Dn，从而能够使用在记录器45中记录的声音数据，来生成强调了以麦克风阵列20的设置位置为基准的任意的方向的声音数据而得到的声音数据，能够简单地进行声音处理系统5A、5B中的声音数据的指向性控制处理。

接着，说明本实施方式的声音处理系统5A、5B的记录时以及重放时的各动作。在这里，说明将声音处理系统5A应用于监视系统的情况。图4是说明声音处理系统5A的记录时的动作次序的流程图。

在图4中，通过来自例如处于监视系统控制室(未图示)中的用户的远程操作，摄像机10、10A开始对作为监视对象的地点(场所)的周围的影像的摄像(S1)。与由摄像机10、10A实施的摄像的开始同时或者大致同时地，麦克风阵列20开始对作为监视对象的地点(场所)的周围的声音的收音(S2)。摄像机10、10A将摄像得到的影像数据转送到经由网络30而连接的记录器45。麦克风阵列20将所收集到的声音数据转送到经由网络30而连接的记录器45。

记录器45将从摄像机10、10A转送的影像数据、与从麦克风阵列20转送的声音数据全部对应起来而储存并记录到记录介质中(S3)。通过来自用户的远程操作，来结束摄像机10、10A、麦克风阵列20以及记录器45的记录时的动作。

图5是说明在指定一个以上的指定部位的情况下的、声音处理系统5A、5B的重放时的动作次序的流程图。

在图5中，声音处理装置40的记录器45受理通过来自用户的直接的操作或者远程操作对希望重放的影像数据的指定(S11)。在影像数据的指定中，将例如被记录的日期时间以及摄像机的种类用作条件。重放部60重放与在步骤S11中被指定的条件相应的影像数据，并在显示器63的画面中显示。进而，重放部60还重放与被重放的影像数据对应起来地储存在记录器45中的声音数据，从扬声器65进行声音输出。

在这里，假设在重放部60进行重放的影像数据的重放期间或者临时停止期间，用户经由操作部55，在显示器63的画面中显示的影像数据中指定对声音(音量级)进行强调(放大)的一个以上的指定部位。信号处理部50根据用户的指定操作，受理在影像数据的内容中针对对声音(音量级)进行强调(放大)的一个以上的指定部位的指定(S12)。

下面，将经由操作部55，以麦克风阵列20、20A为基准，在对声音(音量级)进行强调(放大)的方向(指向方向)形成指向性，从而将通过用户指定的指定部位简记为“指定部位”。在步骤S12中，例如通过用户用手指95触摸显示器63的画面，来指定针对在显示器63的画面中显示的影像数据的指定部位、或者以被触摸到的指定部位为中心的预定的矩形的声音强调范围。

信号处理部50基于经由操作部55而被指定的一个以上的指定部位或者声音强调范围，计算从麦克风阵列20的各麦克风22的位置的中心位置朝向与一个以上的指定部位或者声音强调范围的例如中心对应的实际的现场的各位置(各声音位置)的方向(各指向方向)，来作为参照图3来说明的预定角度θ1、θ2、…、θn的方向、即对声音(音量级)进行强调(放大)的各方向(各指向方向)。进而，信号处理部50针对与通过当前重放部60重放的影像数据对应起来地储存在记录器45中的声音数据，生成在所计算出的预定角度θ1、θ2、…、θn下分别形成了指向性的声音数据、即对预定角度θ1、θ2、…、θn的声音(音量级)进行了强调(放大)的声音数据(S13)。

此外，在本实施方式中，信号处理部50生成或者合成在从麦克风阵列20的各麦克风22的位置的中心位置朝向与一个以上的指定部位或者声音强调范围的例如中心对应的各声音位置的方向上形成了指向性的声音数据，但进而，也可以对针对从朝向与一个以上的指定部位或者声音强调范围对应的各声音位置的方向(预定角度θ1、θ2、…、θn)较大地偏移的方向(例如从预定角度θ1、θ2、…、θn偏移±5度以上的方向)的声音数据进行压制处理。

重放部60将通过信号处理部50对朝向与一个以上的指定部位或者声音强调范围对应的各声音位置的方向的声音(音量级)进行了强调(放大)的各声音数据与根据步骤S11的指定而被显示于显示器63的影像数据同步地，从扬声器65进行声音输出(S14)。由此，声音处理装置40的重放时中的动作结束。

图6是示出第1实施方式的声音处理系统5A的使用方式的一例的示意图。图6(A)是示出例如在作为室内的活动会场的大厅的天花板85上在相分离的位置设置了1台摄像机10与1台麦克风阵列20的情形的图。

在图6(A)中，两个人物91、92站在大厅的地板87上进行会话。在稍微与两个人物91、92相分离的位置，相接于地板87上地放置了扬声器82，从扬声器82播放音乐。另外，摄像机10对处于作为对摄像机10预先设定的监视对象的地点(场所)的周围的人物91、92进行摄像。进而，麦克风阵列20收集整个大厅的声音。

图6(B)是示出将影像数据显示于显示器63并在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机10摄像得到的影像数据。另外，从扬声器65对两个人物91、92的会话或者大厅内的音乐进行声音输出。

假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物91、92的影像数据的中央附近。触摸点63a成为通过用户指定的指定部位。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中心对应的声音位置的指向方向(由图6(A)所示的符号e所示的方向)上形成了指向性的声音数据。

即，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中心对应的声音位置的指向方向的声音(音量级)进行强调(放大)而得到的声音数据。重放部60将信号处理部50生成的声音数据与摄像机10摄像得到的影像数据同步地从扬声器65进行声音输出。

其结果，通过用户指定的触摸点63a或者矩形范围63b中的声音数据被强调，从扬声器65以大的音量来对两个人物91、92的会话(例如参照图6(A)所示的“你好”)进行声音输出。另一方面，针对从与两个人物91、92相比被放置于与麦克风阵列20更接近的距离但不是通过用户指定的触摸点63a的扬声器82播放的音乐(参照图6(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物91、92的会话更小的音量来进行声音输出。

通过以上所述，在本实施方式中，声音处理系统5A或者5B在记录器45中记录的影像数据以及声音数据的重放期间，能够强调地输出针对通过用户指定的任意的重放时间的影像中的声音数据。由此，用户仅通过一边看在显示器63的画面中显示的影像数据，一边触摸希望强调声音数据的部位来进行指定，能够简单地强调该指定部位或者包括指定部位的指定范围(声音强调范围)中的声音数据并进行声音输出。这样，在本实施方式的声音处理系统5A或者5B中，用户能够在通过显示器63来目视通过摄像机10进行摄像得到的影像数据的同时，容易地得到自己所需的范围的声音信息。

例如，本实施方式的声音处理系统5A或者5B即使在发生了某些意外事故的情况下，在意外事故的发生后，通过生成在从麦克风阵列20的各麦克风22的位置朝向意外事故的发生地点的方向上形成了指向性的声音数据，也能够让用户确认意外事故的发生时间点下的会话或者声音。

另外，在本实施方式的声音处理系统5A或者5B中，摄像机10与麦克风阵列20设置于室内的大厅等的天花板85，所以能够监视大厅内的所有位置。

(第2实施方式)

在第1实施方式中，说明了在摄像机为1台情况下的声音处理系统5A的使用方式的一例。在第2实施方式中，说明在摄像机为多台(例如2台)的情况下的声音处理系统5C的使用方式的一例。

此外，在第2实施方式的声音处理系统5C中，除了摄像机为多台(例如2台)之外，具有与第1实施方式的声音处理系统5A或者5B相同的结构，所以通过针对与第1实施方式的声音处理系统5A或者5B相同的结构要素使用相同的符号，从而省略其说明。

图7是示出第2实施方式的声音处理系统5C的使用方式的一例的示意图。图7(A)是示出例如在室内的大厅的天花板85上设置了2台摄像机10、10A、位于2台摄像机10、10A的中间位置的1台麦克风阵列20以及扬声器83的情形的图。

另外，4个人物91、92、93、94站在大厅的地板87上，人物91与人物92进行会话，人物93与人物94进行会话。在这两组之间的位置处，将扬声器82放置在地板87上，播放音乐。另外，扬声器83设置于人物93与人物94的大致正上方的天花板85。

摄像机10从稍微与4个人物91、92、93、94相分离的位置对两个人物91、92进行摄像，麦克风阵列20设置于扬声器82的大致正上方的天花板85，收集整个大厅的声音。摄像机10A从稍微与4个人物91、92、93、94相分离的位置对人物93、94进行摄像。

图7(B)是示出将通过摄像机10进行摄像得到的影像数据显示于显示器63并在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机10摄像得到的影像数据。另外，从扬声器65对两个人物91、92的会话或者大厅内的音乐进行声音输出。

假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物91、92的影像数据的中央附近。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a或者矩形范围63b的中心对应的声音位置的指向方向(由图7(A)所示的符号e所示的方向)上形成了指向性的声音数据。

其结果，通过用户指定的触摸点63a或者矩形范围63b中的声音数据被强调，从扬声器65以大的音量来对两个人物91、92的会话(例如参照图7(A)所示的“你好”)进行声音输出。另一方面，针对从与两个人物91、92相比被放置于与麦克风阵列20更接近的距离但不被包含于通过用户指定的矩形范围63b内的扬声器82播放的音乐(参照图7(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物91、92的会话更小的音量来进行声音输出。

图7(C)是示出将通过摄像机10A进行摄像得到的影像数据显示于显示器63并且在扬声器65中对声音数据进行声音输出的情形的图。在显示器63的画面中，显示有摄像机10A摄像得到的影像数据。另外，从扬声器65对两个人物93、94的会话或者大厅内的音乐进行声音输出。

假设用户用手指95触摸了例如在显示器63的画面中显示的两个人物93、94的影像数据的中央附近。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63c或者矩形范围63d的中心对应的声音位置的指向方向(由图7(A)所示的符号f所示的方向)上形成了指向性的声音数据。

即，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63c或者矩形范围63d的中心对应的声音位置的指向方向的声音(音量级)进行强调(放大)而得到的声音数据。重放部60将信号处理部50生成的声音数据与摄像机10A摄像得到的影像数据同步地从扬声器65进行声音输出。

其结果，通过用户指定的触摸点63c或者矩形范围63d中的声音数据被强调，从扬声器65以大的音量来对两个人物91、92的会话(例如参照图7(A)所示的“嗨”)进行声音输出。另一方面，针对从与两个人物93、94相比被放置于与麦克风阵列20更接近的距离但不被包含于通过用户指定的矩形范围63d的扬声器82播放的音乐(参照图7(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物93、94的会话更小的音量来进行声音输出。

通过以上所述，在本实施方式中，声音处理系统5C在记录器45中记录的影像数据以及声音数据的重放期间，能够强调地输出通过用户指定的某一个摄像机10或者10A中的相对于针对影像数据而被指定的任意的重放时间的影像中的声音数据。由此，用户仅通过一边通过显示器63看摄像机10或者10A摄像得到的影像数据，一边触摸希望对声音(音量级)进行强调(放大)的部位而进行指定，能够简单地强调该被指定的指定部位或者包括该指定部位的指定范围中的声音数据并进行声音输出。这样，在本实施方式的声音处理系统5C中，用户能够在通过显示器63来目视通过摄像机10或者10A进行摄像得到的影像数据的同时，容易地得到自己所需的范围的声音信息。

另外，在本实施方式中，与第1实施方式相比，声音处理系统5C中的摄像机的设置台数也可以是多个，所以能够构筑不按照摄像机的台数来增加麦克风阵列的台数也行的、能够降低成本的声音处理系统5C，能够实现声音处理系统5C的空间节省。另外，声音处理系统5C仅通过针对已经设置有第1台摄像机10的声音处理系统5A或者5B，增设第2台摄像机10A，能够得到与第1实施方式的声音处理系统5A或者5B相同的动作以及效果，能够提高声音处理系统的扩展性。

(第3实施方式)

在第1以及第2各实施方式中，说明了摄像机与麦克风阵列被设置在天花板的不同的位置的声音处理系统5A或者5B的使用方式的一例。在第3实施方式中，说明全方位摄像机与麦克风阵列一体地设置在同轴上的声音处理系统5D的使用方式的一例。

此外，在第3实施方式的声音处理系统5D中，除了全方位摄像机与麦克风阵列一体地设置在同轴上之外，具有与第1实施方式的声音处理系统5A或者声音处理系统5B相同的结构，所以通过针对与第1实施方式的声音处理系统5A或者5B相同的结构要素使用相同的符号，从而省略其说明。

图9是示出声音处理系统5D的使用方式的一例的示意图。图9(A)是示出例如在室内的大厅的天花板85上设置了圆环型形状的麦克风阵列20C、与麦克风阵列20C一体地被装入的全方位摄像机10E以及扬声器83的情形的图。在图9(A)中，人物91、92、93、94的会话状况以及扬声器82、83的各动作状况设为与第2实施方式中的状况相同。

图9(B)是示出在全方位摄像机10E摄像得到的影像数据中选择两个人物91、92的情形的图。在图9(B)中，在显示器63的画面中，使用了全方位摄像机10E中的坐标系的影像数据、即全方位摄像机10E摄像得到的影像数据被直接显示。图9(C)是示出将图像转换后的两个人物91、92的影像数据显示于显示器并且在扬声器65中对人物91、92的会话的声音数据进行声音输出的情形的图。

假设用户用手指95触摸了例如在显示器63的画面中显示的4个人物91、92、93、94的影像数据的左上方附近的指定部位。信号处理部50除了与第2实施方式相同的动作之外，还从全方位摄像机10E摄像得到的宽范围的影像数据中，对包括通过用户指定的指定部位的符号g的范围的影像数据的坐标系进行转换处理。重放部60将信号处理部50对坐标系进行转换处理而得到的影像数据显示于显示器63(参照图9(C))。此外，范围g设为根据手指95的触摸点自动地生成。另外，省略关于信号处理部50中的与第2实施方式相同的动作的说明。

其结果，通过用户指定的范围g中的声音数据被强调，从扬声器65以大的音量来对两个人物91、92的会话(例如参照图9(A)所示的“你好”)进行声音输出。另一方面，针对从与两个人物91、92相比被放置于与麦克风阵列20C更近的距离但不被包含于通过用户指定的指定部位或者包括该指定部位的指定范围g的扬声器82播放的音乐(参照图9(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物91、92的会话更小的音量来进行声音输出。

图9(D)是示出在全方位摄像机10E摄像得到的影像数据中选择两个人物93、94的情形的图。在图9(D)中，在显示器63的画面中，使用了全方位摄像机10E中的坐标系的影像数据、即全方位摄像机10E摄像得到的影像数据被直接显示。图9(E)将图像转换后的两个人物93、94的影像数据显示于显示器并且在扬声器65中对人物93、94的会话的声音数据进行声音输出的情形的图。

假设用户用手指95触摸了例如显示器63的画面中显示的4个人物91、92、93、94的影像数据的右下方附近的指定部位。信号处理部50除了与第2实施方式相同的动作之外，还从全方位摄像机10E摄像得到的宽范围的影像数据中，对包括通过用户指定的指定部位的符号h的范围的影像数据的坐标系进行转换处理。重放部60将信号处理部50坐标系进行转换处理而得到的影像数据显示于显示器63(参照图9(E))。此外，范围h设为根据手指95的触摸点自动地生成。另外，省略关于信号处理部50中的与第2实施方式相同的动作的说明。

其结果，通过用户指定的范围h中的声音数据被强调，从扬声器65以大的音量来对两个人物93、94的会话(例如参照图9(A)所示的“嗨”)进行声音输出。另一方面，针对从与两个人物93、94相比被放置于与麦克风阵列20C更近的距离但不被包含于通过用户指定的指定部位或者包括该指定部位的指定范围h的扬声器82播放的音乐(参照图9(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物93、94的会话更小的音量来进行声音输出。

通过以上所述，在本实施方式中，声音处理系统5D将全方位摄像机10E与麦克风阵列20C配置在同轴上，所以能够使全方位摄像机10E与麦克风阵列20C的坐标系相同。由此，声音处理系统5D除了第1、第2各实施方式的效果之外，与第1、第2各实施方式相比还能够简化用于将通过全方位摄像机10E进行摄像得到的影像数据中的被摄体的位置与通过麦克风阵列20C收集的作为被摄体的人物的声音的方向对应起来的坐标系的转换处理，能够减轻使重放部60中的影像数据与声音数据同步的重放处理的负荷。

另外，声音处理系统5D将在通过用户指定的指定部位或者包括该指定部位的指定范围g或者指定范围h中包含的影像数据进行转换处理成与显示器63的画面尺寸相符合的影像数据，所以能够以纵横比对于显示器63来说自然的影像数据的显示方式来显示通过全方位摄像机10E进行摄像得到的影像数据。

另外，例如麦克风阵列的形状以及结构不限于上述的各实施方式的形状以及结构，也可以使用各种形状以及结构。图10(A)～(C)是其他麦克风阵列20D、20E、20F的外观图。

在图10(A)所示的麦克风阵列20D中，与图2所示的麦克风阵列20相比，圆盘状的框体21D的直径更小。在框体21D的表面，沿着圆形同样地配置了多个麦克风22D。各个麦克风22D的间隔短，所以麦克风阵列20D具有适于高的音域的特性。

另外，在图10(B)所示的麦克风阵列20E中，在具有矩形的框体21E的表面，沿着矩形同样地配置了多个麦克风22E。框体21E形成为矩形，所以即使在角落等位置，也容易设置麦克风阵列20E。

另外，在图10(C)所示的麦克风阵列20F中，在圆盘状的框体21F的表面，同样地纵横排列了多个麦克风22F。直线状地配置了多个麦克风22F，所以能够简化信号处理部50中的声音的强调处理。此外，也可以仅在纵向或者横向的1列，配置多个麦克风22F。

另外，在上述的各实施方式中，用户一边看显示于显示器63的影像数据，一边通过任意地用手指95触摸期望强调声音的指定部位或者包括该指定部位的指定范围来进行指定，但也可以例如预先将显示器63的画面分割成多个分区(例如，上下左右的4个分区)，选择某一个分区来作为希望强调声音的范围。

另外，在上述的各实施方式中，说明了摄像机对影像进行记录(录像)并且显示器显示被记录的影像数据的情况，但在摄像机以预定周期对静态图像进行摄像，显示器以预定间隔显示被摄像的静态图像的情况下，即在实时地对影像进行摄像并收集声音的情况下，也能够应用本发明。即，用户也能够指定在显示器的画面中显示的静态图像中的预定范围，强调其附近的声音。

另外，在上述的各实施方式中，通过用户用手指95触摸画面，来指定包括被手指95触摸到的触摸点的指定范围(例如椭圆、矩形的范围)，但也可以通过用户用手指95描绘圆、多边形等，来指定预定范围。

另外，在上述的各实施方式中，信号处理部50也可以从操作部55受理对多个指定部位或者包括各个指定部位的指定范围(声音强调范围)的指定。在这种情况下，信号处理部50根据被指定的各指定部位或者指定范围，进行声音数据的强调处理。图11是示出在指定了多个预定的指定部位或者指定范围(声音强调范围)的情况下的显示器63以及扬声器65的动作的示意图。此外，为了简化说明，声音处理系统所使用的摄像机以及麦克风阵列的动作状况设为与图6所示的摄像机10以及麦克风阵列20的动作状况相同。

在这种情况下，信号处理部50从扬声器65，根据对两个预定的不同的指定部位或者包括不同的指定部位的声音强调范围63E、63f的指定，生成在从麦克风阵列20的各麦克风22的位置朝向与两个人物91、92的中心对应的声音位置的指向方向上形成了指向性的各声音数据，进而，生成在从麦克风阵列20的各麦克风22的位置朝向与扬声器82的中心对应的声音位置的方向上形成了指向性的声音数据。

其结果，以大的音量来对两个人物91、92的会话(参照图11所示的“你好”)、以及从扬声器82播放的音乐(参照图11所示的“～”)这两者进行声音输出。由此，声音处理系统能够在一个显示器中强调两个部位以上的声音。

接着，参照图12～图30，说明上述的各实施方式中的麦克风阵列20的框体构造、麦克风阵列20的电路结构的一例。

(麦克风阵列的框体：四重的框体构造)

图12是上述的各实施方式的麦克风阵列20的框体构造的分解立体图。图13(A)是图12所示的麦克风阵列20的框体构造的俯视图。图13(B)是图13(A)的A-A剖视图。图14是图13(B)的虚线范围的主要部件放大图。

图12所示的麦克风阵列20的框体构造是主框体101、冲压金属盖103、话筒钣金105、基座钣金107沿着铅垂方向层叠而得到的结构。主框体101、冲压金属盖103、话筒钣金105、基座钣金107构成了有四层的耐撞击性框体109(vandal-resistant casing)。

主框体101例如以树脂作为材料而一体地成形。主框体101在环状底部111在同心圆上设置多个话筒敷设用孔113而形成为有底筒状。环状底部111的中央部成为摄像机安装空间115。主框体101的主框体外圆周壁117在图12所示的麦克风阵列20的框体构造中，具有最大外径。

冲压金属盖103例如以金属作为材料而成形为一体的环状。冲压金属盖103以覆盖主框体101的环状底部111的方式安装于主框体101。在冲压金属盖103中，穿通设置了用于使声波入射的大量贯通孔(省略图示)。冲压金属盖103的外圆周上，通过断面收缩加工等，来形成朝向主框体101地竖起的立起边缘部119。立起边缘部119被插入到在主框体101的下表面外圆周上形成的周向沟槽121(参照图14)。在立起边缘部119处，在圆周方向上以等间隔，多个弹性卡定爪123进一步朝向上方(图12或者图14的上方)地突出。

图15(A)是示出将冲压金属盖103固定于主框体101的情形的立体图。图15(B)是示出将冲压金属盖103固定于主框体101的情形的剖视图。弹性卡定爪123通过在周向沟槽121的内侧设置的卡定孔125a而旋转，从而卡定到爪卡定部125。通过将弹性卡定爪123卡定到爪卡定部125，从而将冲压金属盖103固定于主框体101。

话筒钣金105例如通过对金属板进行冲压加工来形成。话筒钣金105形成为将圆环形状在圆周方向上进行四等分而得到的形状。话筒钣金105通过话筒钣金固定螺钉(省略图示)来固定于主框体101。被固定于主框体101的话筒钣金105在与主框体101的环状底部111之间，以夹着保持话筒基板127的话筒框体129的状态来保持。

话筒框体129例如以树脂作为材料而一体地成形。话筒框体129形成为将圆环形状在圆周方向上进行四等分而得到的形状。在话筒基板127上，4个高音质小型驻极体电容式麦克风(ECM：ElectretCondenser Microphone)安装在同一面上。在话筒框体129中，以ECM131位于图14中的下方的状态，安装话筒基板127。在话筒基板127与话筒框体129之间，夹入了橡胶零件(参照图14)。话筒基板127针对话筒框体129安装一个。因此，在麦克风阵列20的整个框体构造中，安装共计4个话筒基板127，在麦克风阵列20的整个框体构造中，装备共计16个ECM131。

因此，在图12所示的麦克风阵列20的框体构造中，从底部的外侧，冲压金属盖103、主框体101、话筒框体129、话筒钣金105、基座钣金107依次朝向图12所示的上方地配置。这些多个部件构成对抗来自麦克风阵列20的图12所示的下方的外力(撞击力)的构造体。例如主框体101与话筒框体129不是一体结构而是独立结构，所以分散来自图12所示的下方的外力(撞击力)，基座钣金107能够防止主框体101以及话筒框体129的变形。由此，在施加了外力之后，也能够维持麦克风阵列20的收音时的形状，能够防止麦克风阵列20的收音时中的声学特性的劣化。

基座钣金107例如通过对金属的材料进行冲压加工(断面收缩加工)来一体地成形。基座钣金107具有环状顶板部133而形成为有底筒状。即，从环状底部111的外圆周，基座钣金外圆周壁135向下侧弯曲。该基座钣金外圆周壁135通过对大径的环状顶板部133的原料板进行断面收缩加工来得到。对基座钣金外圆周壁135进行了断面收缩加工的基座钣金107具有比其他结构部件更高的强度。

基座钣金107通过基座钣金固定螺钉(省略图示)来固定到主框体101。在基座钣金107处，在与话筒钣金105之间，配置例如安装了用于控制麦克风阵列20的处理的零件等的主基板139、以及例如安装了用于对麦克风阵列20的各部供给电源的零件等的电源基板141。主基板139与电源基板141在图12所示的麦克风阵列20的整个框体构造中，分别各设置一个。

从话筒钣金105，多个嵌合部143在圆周方向上以等间隔立起。嵌合部143由在半径方向上间隔开的一对夹持片(外侧夹持片145、内侧夹持片147)构成。嵌合部143在主框体外圆周壁117的内侧具有间隙149地配置。在嵌合部143处，嵌合基座钣金外圆周壁135。即，在图12所示的麦克风阵列20的框体构造中，从侧部的外侧，主框体外圆周壁117、间隙149、外侧夹持片145、基座钣金外圆周壁135、内侧夹持片147依次朝向半径方向内侧地配置。这些重叠的多个部件构成对抗来自麦克风阵列20的侧部的外力(撞击力)的构造体。

另外，存在从话筒钣金105立起并突出的抵挡部137，通常位于与基座钣金107相分离的位置，但在施加外力而主框体101变形的情况下，抵挡部137碰到基座钣金107，发挥作用以使得在主框体101中不产生大的畸变。

(ECM的直接附着构造)

图16是ECM的安装构造的示意图。在图12所示的麦克风阵列20的框体构造中，话筒基板127在话筒钣金105的下侧配置，主基板139和电源基板141在话筒钣金105的上侧配置。即，话筒基板127、与主基板139和电源基板141被配置成两层式的构造。在这里，关于4个话筒基板127，设为在绕圆周的一个方向上依次配置了第1话筒基板127、第2话筒基板127、第3话筒基板127、第4话筒基板127。在这种情况下，主基板139通过电源布线151而与第1话筒基板127、第4话筒基板127连接。第1话筒基板127与第2话筒基板127连接。第4话筒基板127与第3话筒基板127连接。

在话筒基板127的下表面侧，安装ECM131。在ECM131上，一对引线端子153突出。将各个引线端子153插入到话筒基板127的预定的电路中设置的端子引线插入孔(省略图示)，例如通过焊接来直接地连接固定ECM131。由此，实现了相对于话筒基板127的ECM131的薄厚化(低背化)。另外，通过将ECM131直接附着到话筒基板127，材料费用变得廉价。

(AD转变器配置)

图17是话筒基板127的俯视图。在图17所示的一个话筒基板127上，安装了4个ECM131。在话筒基板127的电路(话筒基板电路)中，与各个ECM131连接的线路长度之差使得声波信号产生相位差，其结果，该相位差变成指向角的偏差。因此，与各个ECM131连接的线路长度需要尽可能相等。

因此，在话筒基板127上，通过两个ECM131与一个AD转变器155的组合来构成了话筒基板电路。在话筒基板电路中，一个AD转变器155在两个ECM131之间与各个ECM131等距离地配置，从而针对AD转变器155与ECM131之间的模拟线路157，经由放大电路，以最短并且成为相同的线路长度的方式来进行布线。由此，话筒基板电路能够使得话筒基板127中的噪声信号的等级在各ECM中均等化，并且能够降低指向角的偏差。

(话筒基板电路)

图18(A)示出针对多个话筒电路159设置一个纹波去除电路161的话筒基板电路的图。图18(B)是针对多个话筒电路159的各个而设置纹波去除电路161的话筒基板电路的图。

在话筒基板127的话筒基板电路中，在配置了ECM的话筒电路159与电源基板141之间，设置纹波去除电路161。纹波去除电路161使直流信号通过但切掉特定频率的交流信号的滤波器。如图18(A)所示，在并联连接的4个话筒电路159与电源基板141之间，能够设置一个纹波去除电路161。在这种情况下，能够降低麦克风阵列20的制造成本。

另一方面，纹波去除电路161如图18(B)所示，也可以设置在4个话筒电路159的各个与电源基板141之间。在这种情况下，能够降低不同的ECM之间的信号流入，抑制所谓串音163。

(麦克风阵列与摄像机之间的构造上的间隙应对措施)

图19(A)是不安装摄像机适配器而安装了全方位摄像机的麦克风阵列20的框体构造的立体图。图19(B)是安装了室外用全方位摄像机165以及摄像机适配器的麦克风阵列20的框体构造的立体图。图20是安装室内用全方位摄像机167的麦克风阵列20的框体构造的分解立体图。图21是安装了室外用全方位摄像机165的麦克风阵列20的框体构造的分解立体图。图22(A)是安装了室外用全方位摄像机165的麦克风阵列20的框体构造的侧视图。图22(B)是图22(A)的B-B剖视图。图23是图22的主要部件放大图。

在麦克风阵列20的框体构造中，能够在中央部的摄像机安装空间115中，装入例如全方位摄像机。作为全方位摄像机，有室外用全方位摄像机165、室内用全方位摄像机167。如图19(A)所示，作为麦克风阵列20的框体构造，例如如果将室内用全方位摄像机167安装于摄像机安装空间115，则在麦克风阵列20的主框体101与室内用全方位摄像机167之间产生间隙169，可看到麦克风阵列20的内部。在可看到内部的状态下，不仅使得作为产品的美观恶化、有灰尘等进入，而且声音侵入到麦克风阵列20的内部空间，引起共振、反射等，成为声学上的性能的劣化的原因。

另外，作为全方位摄像机，根据用途、功能，有各种尺寸。针对各种全方位摄像机用途，准备尺寸不同的主框体101，这无法避免制造上的成本上升。将主框体101固定于一个尺寸，针对由于全方位摄像机的机型导致的间隙的差异，使用摄像机适配器来堵塞间隙，从而能够抑制制造成本。

因此，如图19(B)所示，例如在将室外用全方位摄像机165安装在摄像机安装空间115中的情况下，室外用摄像机适配器171安装在室外用全方位摄像机165的周围。另外，如图20所示，在将室内用全方位摄像机167安装在摄像机安装空间115中的情况下，室内用摄像机适配器173安装在室内用全方位摄像机167的周围。室内用摄像机适配器173例如以树脂作为材料而形成为筒状。在室内用摄像机适配器173的下端，形成用于将间隙隐蔽的凸缘175，凸缘175将在将室内用全方位摄像机167安装在摄像机安装空间115中的情况下产生的室内用全方位摄像机167与主框体101之间的间隙169隐蔽。

在室内用摄像机适配器173中，多个周壁弹性爪177在多个缺口179内，沿着圆周方向等间隔地形成。室内用摄像机适配器173将周壁弹性爪177卡定到室内用全方位摄像机167的摄像机框体181来安装。在基座钣金107处，图22所示的多个摄像机固定用钣金部183沿着圆周方向等间隔地形成。摄像机固定用钣金部183具有不倒翁形孔185并配置在摄像机安装空间115的上方。在摄像机框体181的上表面，突出设置了与摄像机固定用钣金部183的不倒翁形孔185配合的具有大径头部(省略图示)的配合引线(省略图示)。安装了室内用摄像机适配器173的室内用全方位摄像机167被插入到摄像机安装空间115并进行旋转，从而配合引线与不倒翁形孔185配合而限制掉落并进行支撑。在该旋转位置，室内用全方位摄像机167通过摄像机旋转限制螺钉(省略图示)而锁定到麦克风阵列20的主框体101等。另外，在室内用全方位摄像机167被锁定的状态下，对于周壁弹性爪177，主框体101的内周壁成为障碍，摄像机固定用钣金部183的卡定的解除被限制。

另一方面，在图21所示的室外用摄像机适配器171的外圆周上设置了前端成为自由端的卡口板187。在卡口板187的自由端形成了向半径方向内侧突出的适配器旋转限制爪189(参照图23)。适配器旋转限制爪189配合到在摄像机框体181形成的卡口配合槽191。其他构造与室内用摄像机适配器173相同。如果想要使被装入到摄像机安装空间115中的室外用摄像机适配器171旋转，则如图23所示，适配器旋转限制爪189配合到卡口配合槽191，旋转受到限制。即，室外用摄像机适配器171与室外用全方位摄像机165的相对旋转受到限制。此外，在室外用摄像机适配器171的凸缘175，形成工具插入槽193。室外用全方位摄像机165如果被压入到摄像机安装空间115中，则无法使其旋转。因此，能够在工具插入槽193中放入旋具等来使其旋转。

(在麦克风阵列与全方位摄像机独立使用时使用的盖)

图24是安装了盖195的麦克风阵列20的框体构造的分解立体图。麦克风阵列20与全方位摄像机也有时例如如图7(A)所示，一体地安装来使用，但也有时例如如图9(A)所示，独立地安装来使用。在这种情况下，摄像机安装空间115通过图24所示的盖195来堵塞。盖195例如以树脂作为材料而一体地成形。另外，盖195通过与金属制的盖用钣金197的卡定构造等而一体地组合。盖195通过与盖用钣金197组合，来使外力(撞击力)分散到盖用钣金197。由此，关于盖195，盖195自身的大的变形被抑制，能够防止裂缝等。盖195与盖用钣金197组合地插入到摄像机安装空间115，盖用钣金197配合到全方位摄像机固定用的摄像机固定用钣金部183，由此被支撑。在该状态下，盖195通过盖旋转止螺钉199而被旋转受限地固定于摄像机固定用钣金部183。

(安装模具)

图25是使用安装模具201来安装于天花板的麦克风阵列20的框体构造的分解立体图。图26(A)是被插入到基座钣金用固定孔203之前的基座钣金侧固定引线205的侧视图。图26(B)是被插入到基座钣金用固定孔203的基座钣金侧固定引线205的侧视图。图26(C)是被插入到基座钣金用固定孔203的基座钣金侧固定引线205的俯视图。图26(D)是移动到基座钣金用固定孔203的小径孔207的基座钣金侧固定引线205的侧视图。图26(E)是移动到基座钣金用固定孔203的小径孔207的基座钣金侧固定引线205的俯视图。

耐撞击性框体109(参照图12)使用安装模具201来安装到作为设置面的一例的天花板表面(省略图示)。即，安装模具201被固定于天花板表面，在该安装模具201处，安装器具有框体构造的耐撞击性框体109。

作为安装器具的一例的安装模具201如图25所示，具有圆形的模具基部。但是，安装器具不限定于金属制的安装模具201，安装器具的材质也可以是例如陶瓷等合成树脂(例如塑料或者弹性体)。在模具基部，穿通设置多个(例如3个)基座钣金用固定孔203。基座钣金用固定孔203被形成为将小径孔207与大径孔209连接的不倒翁形形状或者丝瓜形状。

另一方面，在与天花板表面相对的基座钣金107的表面，与基座钣金用固定孔203对应地突出设置基座钣金侧固定引线205。如图26(A)所示，基座钣金侧固定引线205在突出前端具有大径的引线头部211。大径的引线头部211能够插入到大径孔209，在小径孔207中，能够以脱离受到限制的方式来卡定。

接着，说明耐撞击性框体109的安装方法。

首先，为了在作为设置面的一例的天花板表面安装耐撞击性框体109，通过天花板固定螺钉(省略图示)来将安装模具201固定到天花板表面的预定位置。使耐撞击性框体109的位置同心圆状地对齐于被固定于天花板表面的安装模具201。

接着，如图26(B)以及图26(C)所示，将基座钣金侧固定引线205的大径的引线头部211插入到基座钣金用固定孔203的大径孔209(参照图26(B)以及图26(C))。

其后，如图26(D)以及图26(E)所示，使耐撞击性框体109旋转，使大径的引线头部211移动到小径孔207，从而将所有的基座钣金侧固定引线205同时地固定到基座钣金用固定孔203。在经由安装模具201而被固定于天花板表面的耐撞击性框体109的摄像机安装空间115中，如上所述，安装室外用全方位摄像机165、室内用全方位摄像机167。

这样，在麦克风阵列20的框体构造中，在通过安装模具201而被固定于天花板表面的耐撞击性框体109中，直接安装全方位摄像机。由此，麦克风阵列20的框体构造在固定了话筒钣金105的基座钣金107处，直接安装全方位摄像机，所以能够提高ECM131与全方位摄像机的位置精度。

(反射音的抑制)

图27是在ECM用凹部213中设置了锥形部223的麦克风阵列20的框体构造的剖视图。在麦克风阵列20的框体构造中，如图27所示，ECM用凹部213的内周面成为朝向ECM131而直径缩小的锥形部223。锥形部223的最小直径与插入有ECM131的缓冲材料217的圆形凸部的外径大致一致，最大直径与环状底部111的话筒敷设用孔113大致一致。形成有锥形部223的ECM用凹部213的气柱的共振点上升。另外，ECM用凹部213的内周面的反射波不朝向ECM131。进而，以在来自框体横向的声波中没有散乱的状态到达ECM131。由此，使用能够的音域扩宽，在麦克风阵列20的收音时的声学特性提高。另外，在冲压金属盖103与环状底部111之间，夹持了用于降低风噪音的无纺布221。

(风应对措施)

图28是实施了风应对措施的麦克风阵列20的框体构造的剖视图。麦克风阵列20的框体构造在话筒框体129中，与ECM131相应地形成多个ECM用凹部213。ECM用凹部213被形成为例如圆形状，在中心形成使ECM131显露出的透孔215。此外，ECM131例如在外圆周被缠绕橡胶等缓冲材料217而安装到话筒框体129中，ECM131的前端被插入到透孔215。ECM用凹部213与在环状底部111形成的话筒敷设用孔113呈同心圆状地配置。在该ECM用凹部213中，能够充填风应对措施用的吸音材料219。吸音材料219的表面被无纺布221覆盖。无纺布221被冲压金属盖103与环状底部111夹持。

接着，参照图29(A)～(C)，说明ECM用凹部213的变形例。图29(A)是表示ECM用凹部213的内径与深度的关系的麦克风阵列20的框体构造的剖视图。图29(B)是ECM用凹部213的内壁成为倾斜壁225的麦克风阵列20的框体构造的剖视图。图29(C)是ECM用凹部213的内周角部成为R部227的麦克风阵列20的框体构造的剖视图。

如图29(A)所示，ECM用凹部213的直径D与深度H优选为预定的关系。例如满足H/D<1/10的关系，从而在ECM用凹部213的共振频率附近峰值被抑制，所以不会对声学性能造成不良影响。

如图29(B)所示，ECM用凹部213也可以通过平坦的凹部底面229、锥形形状的倾斜壁225来形成。由此，能够使ECM用凹部213的共振频率高于使用频带，并且能够降低从ECM用凹部213的内周面朝向ECM131的反射波。

如图29(C)所示，ECM用凹部213也可以将内周角部设为R部227。由此，也能够使ECM用凹部213的共振频率高于使用频带，并且能够降低从ECM用凹部213的内周面朝向ECM131的反射波。

图30(A)是表示没有形成锥形部223的ECM用凹部213的等压面的说明图。图30(B)是表示形成了锥形部223的ECM用凹部213的等压面的说明图。

通过例如有限元法来对基于波动方程式的在空间中传播的声音进行解析，能够仿真ECM131的附近的声音。在这种情况下，在ECM用凹部213中没有设置锥形部223的模型中，如图30(A)所示，等压面的间隔在框体表面231与ECM部233处不同。另一方面，在ECM用凹部213中设置了锥形部223的模型中，如图30(B)所示，等压面的间隔在框体表面231与ECM部233处相同。由此，通过在ECM用凹部213中设置锥形部223，朝向ECM131，声波不发生散乱地到达。

接着，说明上述的各实施方式的麦克风阵列20的框体构造的作用。

在上述的各实施方式的麦克风阵列20的框体构造中，在形成为有底筒状的树脂制的主框体101中，固定了金属制的话筒钣金105、有底筒状的金属制的基座钣金107。在金属制的话筒钣金105处，在基座钣金107侧，抵挡部137立起。另外，在主框体101中，夹着主框体101在话筒钣金105的相反侧，固定了金属制的冲压金属盖103。

在上述的各实施方式的麦克风阵列20的框体构造中，来自外部的撞击能量通过使树脂制的主框体101变形而被吸收。主框体101的断裂强度以上的撞击能量通过使金属制的话筒钣金105变形而被吸收。进而，使话筒钣金105发生预定量以上的塑性变形的撞击能量经由抵挡部137而被施加到基座钣金107，最终，传递到安装有基座钣金107的建筑物躯干等。

另外，在上述的各实施方式的麦克风阵列20的框体构造中，将利用独立的部件制作的冲压金属盖103、主框体101、话筒钣金105、基座钣金107一体地固定并组装。因此，来自外部的撞击能量也通过这些部件之间的间隙149、基于互相摩擦的摩擦来被吸收而降低。

另外，在上述的各实施方式的麦克风阵列20的框体构造中，话筒基板127被冲压金属盖103与话筒钣金105夹着。主基板139以及电源基板141被话筒钣金105与基座钣金107夹着。即，话筒钣金105通过金属制的冲压金属盖103与金属制的话筒钣金105构成的导电性外壳而被电磁屏蔽。主基板139以及电源基板141通过金属制的话筒钣金105与金属制的基座钣金107构成的导电性外壳而被电磁屏蔽。

另外，在上述的各实施方式的麦克风阵列20的框体构造中，被树脂制的主框体101与金属制的话筒钣金105夹着的话筒框体129由树脂原材料制作。在话筒框体129中，固定了多个话筒。被固定于话筒框体129的话筒通过在主框体101的环状底部111开口的话筒敷设用孔113而向外部敞开。该话筒敷设用孔113通过覆盖环状底部111的冲压金属盖103来覆盖。

例如，当耐撞击性框体109被固定于天花板表面时，冲压金属盖103被配置于与地面相对的一侧。从地面侧对耐撞击性框体109施加的敲打等撞击首先施加到冲压金属盖103。金属制的冲压金属盖103通过弹性界限以上的撞击而发生塑性变形，吸收撞击能量。未通过冲压金属盖103的塑性变形而被吸收的撞击能量施加到主框体101的环状底部111。撞击能量使环状底部111变形，并且施加到话筒钣金105与基座钣金107。话筒框体129被话筒钣金固定，所以不被施加大的撞击能量。

如果此时的撞击能量为树脂制的主框体101的弹性界限以上，则主框体101产生白化、龟裂等，吸收该撞击能量。主框体101虽然产生白化、龟裂，但只要整体不被完全断裂，能够保持具有白化、龟裂的状态而恢复到原来的形状。即，主框体101即使产生白化、龟裂，对话筒的声学特性也不造成大的影响。另外，塑性变形的冲压金属盖103也由于开口率高，所以即使发生变形，对话筒的声学特性也不造成影响。因此，对抗来自外部的撞击，话筒的声学特性不易劣化。

此外，如果主框体101是铝制的，则通过来自冲压金属盖103的撞击，容易产生塑性变形。特别是在话筒周边形状塑性变形的情况下，声学特性劣化。因此，根据上述的各实施方式的麦克风阵列20的框体构造，能够抑制由这样的塑性变形导致的声学特性的劣化。

进而，在框体构造中，在主框体101的内侧，配置话筒钣金105。嵌合部143从话筒钣金105立起。嵌合部143在主框体外圆周壁117的内侧，具有间隙149地配置。该嵌合部143具有在半径方向(主框体外圆周壁117的厚度方向)上间隔开的一对夹持片。在嵌合部143的一对夹持片之间，插入基座钣金107的基座钣金外圆周壁135并镶嵌(嵌合)。即，在本框体构造中，耐撞击性框体109的侧部从外侧，按主框体外圆周壁117、间隙149、外侧夹持片145、基座钣金外圆周壁135、内侧夹持片147的顺序向内侧重叠而构成。

从侧部的外部对耐撞击性框体109施加的敲打等的撞击能量首先施加到主框体外圆周壁117。主框体外圆周壁117在间隙149之间发生弹性变形而吸收撞击能量。弹性界限以上的撞击能量施加到嵌合部143。施加到嵌合部143的撞击能量使外侧夹持片145、基座钣金外圆周壁135、内侧夹持片147弹性变形而被吸收。另外，施加到该嵌合部143的撞击能量也通过外侧夹持片145与基座钣金外圆周壁135、基座钣金外圆周壁135与内侧夹持片147的摩擦，被有效地吸收而降低。

因此，根据上述的各实施方式的麦克风阵列20的框体构造，能够提高耐撞击性。

(第4实施方式)

在第1～第3各实施方式中，设想当在显示器63、73中显示的影像数据中通过用户来指定了一个指定部位的情况下的声音处理系统的动作而进行了说明。在第4实施方式中，说明在同样地在显示器63、73中显示的影像数据中，通过用户来指定了不同的多个(例如两个)指定部位的情况下的声音处理系统的动作。本实施方式的声音处理系统的系统结构与图1(A)所示的声音处理系统5A的系统结构相同，所以参照声音处理系统5A的各部的符号来说明。

本实施方式的声音处理系统例如当在显示器63、73中显示的影像数据中通过用户来指定了两个指定部位的情况下，适当地区分被指定的两个指定部位，为了在视觉上向用户明确示出进行了区分的情况，针对每个指定部位，在各指定部位的周围显示不同的识别形状。进而，本实施方式的声音处理系统使用通过麦克风阵列20收集到的声音的声音数据，来在从麦克风阵列20朝向与各指定部位对应的声音位置的方向上分别形成指向性，依照与各识别形状对应起来而预先预定的方法进行声音输出。

图8是示出第4实施方式的声音处理系统5A的使用方式的一例的示意图。图8(A)是示出例如在室内的大厅的天花板85上设置了1台摄像机10、1台麦克风阵列20以及扬声器82的情形的图。图8(B)是当在显示于显示器63的影像数据中指定了多个指定部位的情况下的声音处理系统5A的动作概要的说明图。

在图8(A)中，两个人物91a、92a站在大厅的地板87进行会话。在与两个人物91a、92a稍微相分离的位置，扬声器82相接于地板87上地放置，从扬声器82播放音乐。另外，摄像机10对处于在作为对摄像机10预先设定的监视对象的地点(场所)的周围的人物91a、92a进行摄像。进而，麦克风阵列20收集整个大厅的声音。在显示器63的画面68中，显示有摄像机10摄像得到的影像数据。另外，从扬声器65对两个人物91、92的会话或者大厅内的音乐进行声音输出。

假设用户用手指95分别连续地触摸了例如在显示器63的画面68中显示的两个人物91a、92a的头上附近。触摸点63a1、63a2成为通过用户指定的多个指定部位。信号处理部50使用通过麦克风阵列20收集到的声音、即各麦克风22所收集到的各声音数据，来生成在从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a1、63a2对应的各声音位置的各指向方向(由图8(A)所示的符号e1、e2所示的方向)上形成了指向性的各声音数据并进行合成。

即，信号处理部50使用各麦克风22所收集到的各声音数据，来生成对从麦克风阵列20的各麦克风22的位置朝向与用户所指定的触摸点63a1、63a2对应的各声音位置的各指向方向的声音(音量级)进行强调(放大)而得到的声音数据并进行合成。重放部60使信号处理部50合成的声音数据与摄像机10摄像得到的影像数据同步而从扬声器65进行声音输出。

其结果，与通过用户指定的触摸点63a1、63a2对应的各声音位置的声音被强调，从扬声器65以大的音量来对两个人物91a、92a的会话(例如参照图8(A)所示的“你好”以及“嗨！”)进行声音输出。另一方面，对从与两个人物91a、92a相比被放置于与麦克风阵列20更接近的距离但不是通过用户指定的触摸点63a1、63a2的扬声器82播放的音乐(参照图8(A)所示的“～”)不是强调地进行声音输出，而是以比两个人物91a、92a的会话更小的音量来进行声音输出。

接着，参照图31～图40，详细说明在通过用户指定了多个指定部位的情况下，本实施方式的声音处理系统在显示于显示器63的影像数据中，针对每个指定部位在各指定部位的周围显示不同的识别形状在的例子、以及依照与各识别形状对应起来而预先预定的方法进行声音输出的例子。此外，为了容易理解本实施方式的图31～图40的说明，设想一体地装入了全方位摄像机10E与麦克风阵列20C的声音处理系统5D来说明(参照图9(A))，但在本实施方式的声音处理系统5D中，设为多个(例如两个)扬声器65L、65R被设置于声音处理装置40或者PC70。

图31(A)是示出第4实施方式的声音处理系统5D的使用例的说明图。图31(B)是示出显示在第1指定部位的周围显示的第1识别形状91M、在第2指定部位的周围显示的第2识别形状92M的一例的情形、强调朝向与通过第1识别形状91M来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而从第1扬声器65L输出的情形、以及强调朝向与通过第2识别形状92M来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而从第2扬声器65R输出的情形的图。

在图31(A)中，例如在室内的大厅的天花板85上，设置了圆环型形状的麦克风阵列20C、与麦克风阵列20C一体地被装入的全方位摄像机10E、以及扬声器83。另外，在图31(A)中，4个人物91a、92a、93a、94a站在大厅的地板87上进行会话，更具体地说，人物91a、92a进行会话，人物93a、94a进行会话。在与人物92a、93a稍微相分离的位置，扬声器82相接于地板87上地放置，从扬声器82播放音乐。另外，全方位摄像机10E对在预定的视野角内存在的人物91a、92a、93a、94a以及扬声器82进行摄像。进而，麦克风阵列20C收集整个大厅的声音。在显示器63的画面68中，显示有全方位摄像机10E摄像得到的影像数据。

(指定部位的指定方法和与指定方法对应起来的声音输出方法的组合)

下面，在本实施方式的声音处理系统5D中，关于用户的多个指定部位的指定方法、和与针对每个指定部位显示的识别形状对应起来的声音输出方法的组合，采用多个例子来进行说明。但是，以下的指定部位的指定方法与声音输出方法的组合只不过是一个例子，在各组合中，也可以使用其他指定部位的指定方法、声音输出方法来组合。

(第1指定方法和声音输出方法的组合)

第1指定方法是例如通过使用鼠标的左点击操作以及右点击操作来对指定部位进行指定的方法。第1声音输出方法是从一个扬声器对指定部位的一个声音数据进行声音输出，并从另一个扬声器对指定部位的另一个声音数据进行声音输出的简单立体声2ch(声道)输出方法。

假设用户连续地通过操作部55(例如鼠标)的左点击操作指定例如在显示器63的画面68(参照图31(B))中显示的人物91a的头上附近、进而通过操作部55(例如鼠标)的右点击操作指定人物92a的头上附近。通过左点击操作以及右点击操作指定的部位成为通过用户指定的多个指定部位。信号处理部50在多个指定部位被指定的情况下，为了适当地区分各指定部位，针对每个指定部位在各指定部位的周围显示不同的识别形状。

具体地说，信号处理部50在通过左点击操作指定的人物91a的周围，显示用于在视觉上明确示出人物91a被指定的情况的识别形状91M，同样地，在通过右点击操作指定的人物92a的周围，显示用于在视觉上明确示出人物92a被指定的情况的识别形状92M。识别形状91M、92M例如分别是绿色、红色的矩形，但颜色、形状不限定于绿色、红色、矩形。

另外，信号处理部50使用通过麦克风阵列20C收集到的声音的声音数据，来生成在从麦克风阵列20C的设置位置朝向与用户所指定的两个指定部位对应的各声音位置的各指向方向(由图31(A)所示的符号e1、e2所示的方向)上形成了指向性的各声音数据。重放部60与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65L对强调了通过识别形状91M来确定的第1指向方向(参照图31(A)所示的符号e1)的声音而得到的声音数据进行声音输出，从扬声器65R对强调了通过识别形状92M来确定的第2指向方向(参照图31(A)所示的符号e2)的声音而得到的声音数据进行声音输出。因此，从扬声器65L对人物91a的会话声音(“你好”)强调地进行声音输出，从扬声器65R对人物92a的会话声音(“嗨！”)强调地进行声音输出。

图32是示出在显示有图31(B)所示的影像数据的状态下，根据向被显示于显示器63的影像数据的显示区域外的点击操作，显示调整用操作框OPB的情形的图。例如，当在显示器63中显示有图31(B)所示的影像数据的情况下，假设用户通过操作部55(例如鼠标)，将光标MPT移动到影像数据的显示区域外之后进行点击操作(例如右点击操作)。信号处理部50根据用户的点击操作，将用于调整从扬声器65L或者65R进行声音输出的声音的参数(例如，音量级)的调整用操作框OPB显示于显示器63。此外，调整用操作框OPB例如设为用于音量级的调整来进行说明，但除此之外，也可以用于声音输出时的均衡器的设定的调整、有指向声音与无指向声音的切换的调整。

此外，在用户选择了第1识别形状91M的状态下，如果多次按下调整用操作框OPB的“+”按钮，则从扬声器65L进行声音输出的人物91a的会话声音进一步变大地进行声音输出。另一方面，在用户选择了第2识别形状的92M的状态下，如果多次按下调整用操作框OPB的“-”按钮，则从扬声器65R进行声音输出的人物92a的会话声音进一步变小地进行声音输出。

此外，第1识别形状91M、第2识别形状92M这两者都是实线，但是颜色不同，从而被区分开来，但例如也可以是颜色相同而通过实线与虚线来区分(参照图33(B))。图33(A)是第4实施方式的声音处理系统5D的使用例的说明图。图33(B)是示出显示在第1指定部位的周围显示的第1识别形状91N、在第2指定部位的周围显示的第2识别形状92N的一例的情形、强调朝向与通过第1识别形状91N来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而从第1扬声器65L输出的情形、以及强调朝向与通过第2识别形状92N来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而从第2扬声器65R输出的情形的图。

此外，图33(A)与图31(A)相同，所以省略图33(A)的说明。进而，在图31(B)中，识别形状91M、92M的颜色不同，两者都是实线，但在图33(B)中，除了识别形状91N、92N的颜色相同、并且一个(第1识别形状91N)为实线而另一个(第2识别形状92N)为虚线之外，图33(B)与图31(B)没有差别，所以也省略图33(B)的说明。

图34是在显示有图31(B)所示的影像数据的状态下，每当进行向被显示于显示器63的影像数据的显示区域外的点击操作时，切换地显示通过全方位摄像机10E进行摄像得到的影像数据和调整用操作框OPB的情形的图。例如，假设当在显示器63中显示有图31(B)所示的影像数据的情况下，用户通过操作部55(例如鼠标)，将光标MPT移动到影像数据的显示区域外之后进行点击操作(例如右点击操作)。信号处理部50根据用户的点击操作，将通过全方位摄像机10E进行摄像得到的影像数据的画面切换成调整用操作框OPB而显示于显示器63。

相反地，假设当在显示器63中显示有调整用操作框OPB的情况下，用户通过操作部55(例如鼠标)，将光标MPT移动到影像数据的显示区域外之后进行点击操作(例如右点击操作)。信号处理部50根据用户的点击操作，将调整用操作框OPB切换成通过全方位摄像机10E进行摄像得到的影像数据的画面而显示于显示器63。此外，将调整用操作框OPB和通过全方位摄像机10E进行摄像得到的影像数据的画面的切换说明成是通过在光标MPT的影像数据的显示区域外的点击操作来执行的，但不限定于点击操作，也可以通过预定的输入操作来执行。预定的输入操作是指例如用户同时按下键盘的不同的多个特定键的操作等。

图35是示出在显示有图31(B)所示的影像数据的状态下，根据向被显示于显示器63的影像数据的显示区域外的点击操作，显示状态标示用框IND的情形的图。例如，假设当在显示器63中显示有图31(B)所示的影像数据的情况下，用户通过操作部55(例如鼠标)，将光标MPT移动到影像数据的显示区域外之后进行点击操作(例如右点击操作)。信号处理部50根据用户的点击操作，将用于标示从扬声器65L或者65R进行声音输出的声音的参数(例如，音量级)的状态的状态标示用框IND显示于显示器63。

此外，用户无法针对状态标示用框IND进行操作，但如果通过用户指定被显示于显示器63的某一个识别形状，则通过状态标示用框IND来在视觉上明确示出与被指定的识别形状对应的人物的声音的音量级的内容。另外，为了变更状态标示用框IND的内容，例如通过用户在选择了第1识别形状91M的状态下，按下其他操作部(例如键盘)的特定键，从而在状态标示用框IND中，在视觉上明确示出将从扬声器65L进行声音输出的人物91a的会话声音的音量级增大或者减小的结果或者得到该结果的过程。此外，说明了状态标示用框IND例如对音量级的状态进行标示，但除此之外，也可以用于声音输出时的均衡器的设定内容、有指向声音与无指向声音的切换的状态的标示。另外，状态标示用框IND也可以始终显示在显示器63中。

(第2指定方法和声音输出方法的组合)

第2指定方法是通过例如键盘的数字键的按下操作与鼠标的左点击操作来对指定部位进行指定的方法。第2声音输出方法是从两者的扬声器对全部的指定部位的声音数据进行声音输出的合成单声道2ch(声道)输出方法。

图36(A)是第4实施方式的声音处理系统5D的使用例的说明图。图36(B)是示出显示在第1指定部位的周围显示的第1识别形状91K、在第2指定部位的周围显示的第2识别形状92K、在第3指定部位的周围显示的第3识别形状93K、在第4指定部位的周围显示的第4识别形状94K的一例的情形、以及从第1以及第2各扬声器65L、65R输出强调了朝向与通过第1识别形状91K来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而得到的声音数据、强调了朝向与通过第2识别形状92K来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而得到的声音数据、强调了朝向与通过第3识别形状93K来确定的第3指定部位对应的第3声音位置的第3指向方向的声音而得到的声音数据的情形的图。此外，图36(A)与图31(A)相同，所以省略图36(A)的说明。

假设用户连续地通过操作部55(例如键盘的数字“1”键的按下与鼠标的左点击)的同时操作指定例如在显示器63的画面68(参照图36(B))中显示的人物91a的头上附近，通过操作部55(例如键盘的数字“2”键的按下与鼠标的左点击)的同时操作指定人物92a的头上附近，通过操作部55(例如键盘的数字“3”键的按下与鼠标的左点击)的同时操作指定人物93a的头上附近，通过操作部55(例如键盘的数字“4”键的按下与鼠标的左点击)的同时操作指定人物94a的头上附近。通过数字键的按下和左点击的各操作指定的各部位成为通过用户指定的多个指定部位。信号处理部50在多个指定部位被指定的情况下，为了适当地区分各指定部位，针对每个指定部位，在各指定部位的周围显示不同的识别形状。

具体地说，信号处理部50在通过数字“1”键的按下操作与左点击操作指定的人物91a的周围，显示用于在视觉上明确示出人物91a被指定的情况的识别形状91K，在通过数字“2”键的按下操作与左点击操作指定的人物92a的周围，显示用于在视觉上明确示出人物92a被指定的情况的识别形状92K，在通过数字“3”键的按下操作与左点击操作指定的人物93a的周围，显示用于在视觉上明确示出人物93a被指定的情况的识别形状93K，在通过数字“4”键的按下操作与左点击操作指定的人物94a的周围，显示用于在视觉上明确示出人物94a被指定的情况的识别形状94K。识别形状91K、92K、93K、94K例如是黑色的矩形，但颜色、形状不限定于黑色、矩形。

另外，信号处理部50使用通过麦克风阵列20C收集到的声音的声音数据，来生成在从麦克风阵列20C的设置位置朝向与用户所指定的4个指定部位对应的各声音位置的各指向方向(由图36(A)所示的符号e1、e2、e3所示的方向)上形成了指向性的各声音数据并进行合成。重放部60与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65L、65R对将强调了通过识别形状91K来确定的第1指向方向(参照图36(A)所示的符号e1)的声音而得到的声音数据、强调了通过识别形状92K来确定的第2指向方向(参照图36(A)所示的符号e2)的声音而得到的声音数据以及强调了通过识别形状93K来确定的第3指向方向(参照图36(A)所示的符号e3)的声音而得到的声音数据进行合成而得到的声音数据进行声音输出。因此，人物91a的会话声音(“你好”)、人物92a的会话声音(“嗨！”)、人物93a的会话声音(“早上好！”)从扬声器65L、65R强调地进行声音输出。此外，在图36(A)中，图示了人物94a不发出声音的状态，所以从扬声器65L、65R对人物94a的会话声音没有强调地进行声音输出，但例如在人物94a发出声音的情况下，人物94a的会话声音也从扬声器65L、65R进行声音输出。

图37是示出在显示有图36(B)所示的影像数据的状态下，根据键盘的多个特定键的同时按下操作，显示调整用操作框OPB的情形的图。例如，假设当在显示器63中显示有图36(B)所示的影像数据的情况下，用户进行了操作部55(例如键盘的“Shift”键与数字“1”键)的同时按下操作。信号处理部50根据用户的同时按下操作，将用于调整从扬声器65L或者65R进行声音输出的声音的音量级的调整用操作框OPB显示于显示器63。

图39是示出在显示有图36(B)所示的影像数据的状态下，根据向被显示于显示器63的影像数据的显示区域外的点击操作，显示调整用操作框OPB的情形的图。例如，假设当在显示器63中显示有图36(B)所示的影像数据的情况下，用户通过操作部55(例如鼠标)，将光标MPT移动到影像数据的显示区域外之后进行点击操作(例如右点击操作)。信号处理部50根据用户的点击操作，将用于调整从扬声器65L或者65R进行声音输出的声音的音量级的调整用操作框OPB显示于显示器63。

(第3指定方法和声音输出方法的组合)

第3指定方法是通过用户利用手指或者手写笔来针对例如设置有触摸面板的显示器63、或者与触摸面板不同的触摸设备(例如触摸板)描绘不同的识别形状的操作来对指定部位进行指定的方法。第3声音输出方法是从一个扬声器对通过用户指定的一个或者多个指定部位的声音数据进行声音输出、同样地从另一个扬声器对通过用户指定的一个或者多个指定部位的声音数据进行声音输出的合成立体声2ch(声道)输出方法。下面，为了容易理解说明，设为通过用户针对设置有触摸面板的显示器63的描绘操作而对指定部位进行指定来进行说明。

图39(A)是第4实施方式的声音处理系统5D的使用例的说明图。图39(B)是示出显示在第1指定部位的周围显示的第1识别形状91L、在第2指定部位的周围显示的第2识别形状92L、在第3指定部位的周围显示的第3识别形状93L、在第4指定部位的周围显示的第4识别形状94L的一例的情形、将强调了朝向与通过第1识别形状91L来确定的第1指定部位对应的第1声音位置的第1指向方向的声音而得到的声音数据、强调了朝向与通过第2识别形状92L来确定的第2指定部位对应的第2声音位置的第2指向方向的声音而得到的声音数据进行合成而从第1扬声器65L输出的情形、以及从第2扬声器65R输出强调了朝向与通过第3识别形状93L来确定的第3指定部位对应的第3声音位置的第3指向方向的声音而得到的声音数据的情形的图。此外，图39(A)与图31(A)相同，所以省略图39(A)的说明。

假设用户例如通过在显示器63的画面68(参照图40(B))中显示的人物91a的头上附近的基于触摸以及拖动的圆形形状的描绘操作、人物92a的头上附近的基于触摸以及拖动的矩形形状的描绘操作、人物93a的头上附近的基于触摸以及拖动的三角形状的描绘操作、人物94a的头上附近的基于触摸以及拖动的六边形状的描绘操作，来分别连续地进行指定。通过基于触摸以及拖动的各形状的描绘操作指定的各部位成为通过用户指定的多个指定部位。信号处理部50在多个指定部位被指定的情况下，为了适当地区分各指定部位，针对每个指定部位，将通过不同的描绘操作来描绘的形状作为识别形状而显示于各指定部位的周围。

具体地说，信号处理部50在通过圆形形状的描绘操作指定的人物91a的周围，显示用于在视觉上明确示出人物91a被指定的情况的识别形状91L，在通过矩形形状的描绘操作指定的人物92a的周围，显示用于在视觉上明确示出人物92a被指定的情况的识别形状92L，在通过三角形状的描绘操作指定的人物93a的周围，显示用于在视觉上明确示出人物93a被指定的情况的识别形状93L，在通过六边形状的描绘操作指定的人物94a的周围，显示用于在视觉上明确示出人物94a被指定的情况的识别形状94L。识别形状91K、92K、93K、94K只不过是一个例子，不限定于各形状，在图39(B)中，各识别形状通过虚线来图示，但不限定于虚线，例如也可以通过实线来图示。

另外，信号处理部50使用通过麦克风阵列20C收集到的声音的声音数据，来生成在从麦克风阵列20C的设置位置朝向与用户所指定的4个指定部位对应的各声音位置的各指向方向(由图39(A)所示的符号e1、e2、e3所示的方向)上形成了指向性的各声音数据并进行合成。重放部60例如将在相对显示器63的中央的左侧的显示区域中描绘的识别形状91L、92L分组为一个声音输出组，与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65L对将强调了通过识别形状91L来确定的第1指向方向(参照图39(A)所示的符号e1)的声音而得到的声音数据、与强调了通过识别形状92L来确定的第2指向方向(参照图39(A)所示的符号e2)的声音而得到的声音数据进行合成而得到的声音数据进行声音输出。进而，重放部60例如将在相对显示器63的中央的右侧的显示区域中描绘的识别形状93L分组为一个声音输出组，与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65R对强调了通过识别形状93L来确定的第3指向方向(参照图39(A)所示的符号e3)的声音而得到的声音数据进行声音输出。因此，人物91a的会话声音(“你好”)、人物92a的会话声音(“嗨！”)从扬声器65L强调地进行声音输出，人物93a的会话声音(“早上好！”)从扬声器65R强调地进行声音输出。此外，在图36(A)中，图示了人物94a不发出声音的状态，所以从扬声器65L、65R对人物94a的会话声音没有强调地进行声音输出，但在例如人物94a发出声音的情况下，人物94a的会话声音也从扬声器65L、65R进行声音输出。

另外，在上述的说明中，说明了重放部60区分了在相对显示器63的中央的左侧的显示区域与右侧的显示区域中显示的识别形状的集合的基础上分别形成声音输出组的情况，但不限定于这种做方。例如，用户也可以任意指定声音输出组。例如，也可以将第1识别形状91L与第3识别形状93L指定为用于从扬声器65L进行声音输出的一个声音输出组，将第2识别形状92L指定为用于从扬声器65R进行声音输出的一个声音输出组。在这种情况下，重放部60与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65L对将强调了通过识别形状91L来确定的第1指向方向(参照图39(A)所示的符号e1)的声音而得到的声音数据、与强调了通过识别形状93L来确定的第3指向方向(参照图39(A)所示的符号e3)的声音而得到的声音数据进行合成而得到的声音数据进行声音输出。进而，重放部60与全方位摄像机10E摄像得到的影像数据同步地，从扬声器65R对强调了通过识别形状92L来确定的第2指向方向(参照图39(A)所示的符号e2)的声音而得到的声音数据进行声音输出。因此，人物91a的会话声音(“你好”)、人物93a的会话声音(“早上好！”)从扬声器65L强调地进行声音输出，人物92a的会话声音(“嗨！”)从扬声器65R强调地进行声音输出。

图40是示出在显示有图39(B)所示的影像数据的状态下，根据向被显示于设置有触摸面板的显示器63的影像数据的显示区域外的触摸，显示调整用操作框OPB的情形的图。例如，假设当在设置有触摸面板的显示器63中显示有图39(B)所示的影像数据的情况下，用户触摸了影像数据的显示区域外。信号处理部50根据用户的触摸，将用于调整从扬声器65L或者65R进行声音输出的声音的音量级的调整用操作框OPB显示于显示器63。

通过以上所述，在第4实施方式中，信号处理部50在用户针对被显示于显示器63的影像数据指定了不同的多个(例如两个部位)的指定部位的情况下，在影像数据中的不同的各指定部位，显示不同的识别形状(例如识别形状91L、92L)。

由此，声音处理系统5D在被显示于显示器63的影像数据中，能够区分地辨别通过用户指定的不同的多个指定部位，作为对于所区分的各指定部位而不同的识别形状，例如在一个指定部位的周围显示矩形的识别形状91L，在另一个指定部位的周围显示圆形的识别形状92L，从而能够在视觉上向用户明确示出区分地辨别了多个指定部位的情况。

另外，在声音处理系统5D中，设置例如两个扬声器，重放部60从第1扬声器65L对强调了从麦克风阵列20朝向与第1指定部位对应的位置(第1声音位置)的第1指向方向的声音而得到的第1声音数据进行声音输出，从第2扬声器65R对强调了从麦克风阵列20朝向与第2指定部位对应的位置(第2声音位置)的第2指向方向的声音而得到的第2声音数据进行声音输出。

由此，声音处理系统5D在例如设置了两个扬声器的情况下，能够针对每个指定部位，从各扬声器65L、65R独立地对强调了从麦克风阵列20朝向与各指定部位对应的声音位置的指向方向的声音而得到的各声音数据进行声音输出。

下面，说明上述的本发明的声音处理系统以及声音处理方法的结构，作用以及效果。

本发明的一种实施方式涉及一种声音处理系统，具备：至少一个摄像部，对影像进行摄像；显示部，显示通过所述摄像部进行摄像得到的影像数据；收音部，包括多个麦克风，使用所述麦克风来收集声音；声音输出部，对通过所述收音部收集到的声音数据进行声音输出；记录部，记录通过所述摄像部进行摄像得到的所述影像数据、以及通过所述收音部收集到的所述声音数据；重放部，将在所述记录部中记录的所述影像数据显示于所述显示部，并且使所述声音输出部对在所述记录部中记录的所述声音数据进行声音输出；操作部，受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及信号处理部，基于在所述记录部中记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。

根据该结构，声音处理系统根据在已经记录的影像数据的重放期间内来自操作部的对预定的指定部位的指定，使用麦克风阵列的各麦克风收集到的各声音数据，来在信号处理部中生成或者合成在从麦克风阵列朝向与一个以上的指定部位对应的位置的指向方向上形成了指向性的声音数据。

由此，声音处理系统在被记录的影像数据以及声音数据的重放期间内，能够强调地输出针对被指定的任意的重放时间的影像中的声音数据。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述重放部使所述声音输出部对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据进行声音输出。

由此，声音处理系统能够通过信号处理部，来对在从麦克风阵列朝向与一个以上的指定部位对应的位置的指向方向上形成了指向性的声音数据进行声音输出。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述摄像部是全方位摄像机，所述信号处理部根据在通过所述全方位摄像机进行摄像得到的所述影像数据被显示于所述显示部的期间内被指定的所述一个以上的指定部位，对包括所述一个以上的指定部位的影像数据的坐标系进行图像转换，所述重放部将所述图像转换后的影像数据显示于所述显示部，对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据进行声音输出。

根据该结构，声音处理系统能够容易地进行用于将通过全方位摄像机进行摄像得到的影像数据中的被摄体的位置、与通过麦克风阵列收集的作为被摄体的人物的声音的方向对应起来的坐标系的转换处理，能够减轻当在重放部中对通过摄像机进行摄像得到的影像数据与在朝向与一个以上的指定部位对应的位置的指向方向上形成了指向性的声音数据进行同步重放处理的情况下的处理负荷。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述摄像部与所述收音部在同轴上配置。

由此，声音处理系统被设置成在声音处理系统中的全方位摄像机与麦克风阵列具有相同的中心轴，所以能够使全方位摄像机10E与麦克风阵列20C的坐标系相同。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述摄像部与所述收音部被配置于室内的天花板。

由此，能够简化声音处理系统的设置。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部根据针对被显示于所述显示部的所述影像数据的不同的多个部位的指定，在所述影像数据中的各指定部位显示不同的识别形状。

根据该结构，信号处理部在针对被显示于显示器的影像数据，用户指定了不同的多个(例如两个部位)的指定部位的情况下，在影像数据中的不同的各指定部位，显示不同的识别形状。

由此，声音处理系统在被显示于显示器的影像数据中，能够区分地辨别通过用户指定的不同的多个指定部位，作为针对所区分的各指定部位而不同的识别形状，例如在一个指定部位的周围显示矩形的识别形状，在另一个指定部位的周围显示圆形的识别形状，从而能够在视觉上向用户明确示出区分地辨别了多个指定部位的情况。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述声音输出部包括第1声音输出部以及第2声音输出部，所述重放部从所述第1声音输出部对强调了从所述收音部朝向与第1指定部位对应的位置的第1指向方向的声音而得到的第1声音数据进行声音输出，从所述第2声音输出部对强调了从所述收音部朝向与第2指定部位对应的位置的第2指向方向的声音而得到的第2声音数据进行声音输出。

根据该结构，在声音处理系统中，设置例如两个扬声器，重放部从第1扬声器对强调了从麦克风阵列朝向与第1指定部位对应的位置(第1声音位置)的第1指向方向的声音而得到的第1声音数据进行声音输出，从第2扬声器对强调了从麦克风阵列朝向与第2指定部位对应的位置(第2声音位置)的第2指向方向的声音而得到的第2声音数据进行声音输出。

由此，声音处理系统在例如设置了两个扬声器的情况下，能够针对每个指定部位，从各扬声器独立地对强调了从麦克风阵列朝向与各指定部位对应的声音位置的指向方向的声音而得到的各声音数据进行声音输出。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述声音输出部包括第1声音输出部以及第2声音输出部，所述重放部从所述第1声音输出部对将强调了从所述收音部朝向与不同的多个指定部位对应的位置的不同的多个指向方向的声音而得到的声音数据进行合成而得到的声音数据进行声音输出，从所述第2声音输出部对强调了从所述收音部朝向与剩余的一个以上的指定部位对应的位置的剩余的一个以上的指向方向的声音而得到的声音数据进行声音输出或者合成声音输出。

根据该结构，在声音处理系统中，例如设置两个扬声器，重放部从第1扬声器对将强调了从麦克风阵列朝向与不同的多个指定部位对应的位置(例如第1、第2声音位置)的第1、第2指向方向的声音而得到的声音数据进行合成而得到的声音数据进行声音输出，进而，从第2扬声器对强调了从麦克风阵列朝向与剩余的一个以上的指定部位对应的位置(例如第3声音位置)的剩余的一个以上的指向方向的声音而得到的声音数据进行声音输出。

由此，声音处理系统在例如设置了两个扬声器的情况下，能够将强调了从麦克风阵列起的多个(例如两个)的指向方向的声音而得到的各声音数据合成而从一个扬声器进行声音输出，进而能够从另一个扬声器对强调了其他指向方向的声音而得到的声音数据进行声音输出。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述声音处理系统包括一个以上的所述声音输出部，所述重放部从一个以上的所述声音输出部对将强调了从所述收音部朝向与不同的多个指定部位对应的位置的不同的多个指向方向的声音而得到的声音数据进行合成而得到的声音数据进行声音输出。

根据该结构，在声音处理系统中，例如设置一个以上的扬声器，重放部从一个以上的扬声器对将强调了从麦克风阵列朝向与第1指定部位对应的位置(第1声音位置)的第1指向方向的声音而得到的第1声音数据、强调了从麦克风阵列朝向与第2指定部位对应的位置(第2声音位置)的第2指向方向的声音而得到的第2声音数据、强调了从麦克风阵列朝向与第3指定部位对应的位置(第3声音位置)的第3指向方向的声音而得到的第3声音数据进行合成而得到的声音数据进行声音输出。

由此，声音处理系统在例如设置了一个以上的扬声器的情况下，能够将强调了从麦克风阵列起的多个(例如3个)的指向方向的声音而得到的各声音数据合成而从扬声器进行声音输出，进而在设置了多个扬声器的情况下，能够同时对合成而得到的声音数据进行声音输出。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部根据预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作，显示从所述声音输出部进行声音输出的所述声音数据的参数调整操作用媒体。

根据该结构，声音处理系统通过预定的输入操作(例如鼠标的右点击操作)或者向被显示于显示器的影像数据的显示区域外的指定操作(例如鼠标的左点击操作)，能够简单地显示受理从扬声器进行声音输出的声音数据的参数(例如，音量级)的调整操作的调整操作用箱。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部始终、或者根据预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作，显示从所述声音输出部进行声音输出的所述声音数据的参数状态标示用媒体。

根据该结构，声音处理系统始终、或者通过预定的输入操作(例如鼠标的右点击操作)或者向被显示于显示器的影像数据的显示区域外的指定操作(例如鼠标的左点击操作)，能够简单地显示作为标示从扬声器进行声音输出的声音数据的参数(例如，音量级)的状态的指示器的状态标示用框。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部每当进行预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作时，切换成通过所述摄像部进行摄像得到的影像数据、或者从所述声音输出部进行声音输出的所述声音数据的参数调整操作用媒体并显示于所述显示部。

根据该结构，声音处理系统每当进行预定的输入操作或者向被显示于显示器的影像数据的显示区域外的指定操作(例如鼠标的左点击操作)时，能够简单地切换成受理通过摄像机进行摄像得到的影像数据、或者从扬声器进行声音输出的声音数据的参数(例如，音量级)的调整操作的调整操作用箱而进行显示。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部根据在中心包括被显示于所述显示部的所述影像数据的指定部位的预定形状的描绘操作，生成或者合成强调了从所述收音部朝向与所述指定部位对应的位置的指向方向的声音而得到的声音数据。

根据该结构，声音处理系统通过描绘在中心包括被显示于显示器的影像数据的指定部位的预定形状(例如矩形形状)的简单描绘操作(例如触摸操作与在进行了触摸操作的状态下的滑动操作)，能够生成或者合成强调了从麦克风阵列朝向与指定部位对应的位置的指向方向的声音而得到的声音数据。

另外，本发明的一种实施方式涉及一种声音处理系统，其中，所述信号处理部根据对在每个所述指定部位显示的所述识别形状的再指定，生成或者合成中止了从所述收音部朝向与显示有被再指定的所述识别形状的指定部位对应的位置的指向方向的声音的强调而得到的声音数据。

根据该结构，声音处理系统，如果在每个指定部位被显示的识别形状被再指定，则能够简单地生成或者合成中止了从麦克风阵列朝向与显示有被再指定的识别形状的指定部位对应的位置的指向方向的声音的强调的而得到声音数据。

另外，本发明的一种实施方式涉及一种声音处理方法，具有如下步骤：在至少一个摄像部中对影像进行摄像；在包括多个麦克风的收音部中收集声音；将通过所述摄像部进行摄像得到的影像数据显示于显示部；记录通过所述摄像部进行摄像得到的影像数据以及通过所述收音部收集到的声音数据；将被记录的所述影像数据显示于所述显示部并且使声音输出部对被记录的所述声音数据进行声音输出；受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及基于被记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。

根据该方法，声音处理系统在已经记录的影像数据的重放期间，根据来自操作部的对预定的指定部位的指定，使用麦克风阵列的各麦克风收集到的各声音数据，来在信号处理部中生成或者合成在从麦克风阵列朝向与一个以上的指定部位对应的位置的指向方向上形成了指向性的声音数据。

由此，声音处理系统在被记录的影像数据以及声音数据的重放期间，能够强调地输出针对被指定的任意的重放时间的影像中的声音数据。

以上，参照附图说明了各种实施方式，但本发明不限定于上述例子，这不言自明。只要是本领域技术人物员，就能够在权利要求书所记载的范畴内想到各种变更例或者修正例，这一点是明确的，并且关于这些变更例或者修正例，当然可理解为属于本发明的技术范围。

此外，本申请基于2012年12月27日申请的日本专利申请(日本特愿2012-285862)以及2013年12月5日申请的日本专利申请(日本特愿2013-252468)，作为参照而将其内容援引到本申请中。

产业上的可利用性

本发明作为强调地输出朝向与在显示有摄像得到的影像数据的显示画面中被指定的一个以上的指定部位对应的位置的指向方向的声音数据的声音处理系统以及声音处理方法是有用的。

标号说明

5A、5B、5C，5D 声音处理系统

10、10A、10B、10C 摄像机

10E 全方位摄像机

20、20A、20C、20D、20E、20F 麦克风阵列

22、22A、22B、22C，22D、22E、22F、22a、22b、22c、22n-1、22n 麦克风

30、30A 网络

40 声音处理装置

45、45A 记录器

50、71 信号处理部

51a、51b、51c、51n-1、51n A/D转换器

52a、52b、52c、52n-1、52n 延迟器

55、78 操作部

57 加算器

60、60A、60B 重放部

63、73 显示器

65、75、82、83 扬声器

101 主框体

103 冲压金属盖

105 话筒钣金

107 基座钣金

111 环状底部

113 话筒孔

117 主框体外圆周壁

127 话筒基板

129 话筒框体

133 环状顶板部

135 基座钣金外圆周壁

139 主基板

141 电源基板

143 嵌合部

145 外侧夹持片

147 内侧夹持片

149 间隙

权利要求书(按照条约第19条的修改)

1.一种声音处理系统，其特征在于，具备：

至少一个摄像部，对影像进行摄像；

显示部，显示通过所述摄像部进行摄像得到的影像数据；

收音部，包括多个麦克风，使用所述麦克风来收集声音；

声音输出部，对通过所述收音部收集到的声音数据进行声音输出；

记录部，记录通过所述摄像部进行摄像得到的所述影像数据以及通过所述收音部收集到的所述声音数据；

重放部，将在所述记录部中记录的所述影像数据显示于所述显示部，并且使所述声音输出部对在所述记录部中记录的所述声音数据进行声音输出；

操作部，受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及

信号处理部，基于在所述记录部中记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据，

所述重放部使所述声音输出部对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据，与被显示于所述显示部的所述影像数据同步地进行声音输出。

2.根据权利要求1所述的声音处理系统，其特征在于，

所述摄像部是全方位摄像机，

所述信号处理部根据在通过所述全方位摄像机进行摄像得到的所述影像数据被显示于所述显示部的期间内被指定的所述一个以上的指定部位，对包括所述一个以上的指定部位的影像数据的坐标系进行图像转换，

所述重放部将所述图像转换后的影像数据显示于所述显示部，对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据进行声音输出。

3.根据权利要求1所述的声音处理系统，其特征在于，

所述摄像部与所述收音部在同轴上配置。

4.根据权利要求1～3中的任一项所述的声音处理系统，其特征在于，

所述摄像部与所述收音部被配置于室内的天花板。

5.根据权利要求1所述的声音处理系统，其特征在于，

所述信号处理部根据针对被显示于所述显示部的所述影像数据的不同的多个部位的指定，在所述影像数据中的各指定部位显示不同的识别形状。

6.根据权利要求5所述的声音处理系统，其特征在于，

所述声音输出部包括第1声音输出部以及第2声音输出部，

所述重放部从所述第1声音输出部对强调了从所述收音部朝向与第1指定部位对应的位置的第1指向方向的声音而得到的第1声音数据进行声音输出，从所述第2声音输出部对强调了从所述收音部朝向与第2指定部位对应的位置的第2指向方向的声音而得到的第2声音数据进行声音输出。

7.根据权利要求5所述的声音处理系统，其特征在于，

所述声音输出部包括第1声音输出部以及第2声音输出部，

所述重放部从所述第1声音输出部对将强调了从所述收音部朝向与不同的多个指定部位对应的位置的不同的多个指向方向的声音而得到的声音数据进行合成而得到的声音数据进行声音输出，从所述第2声音输出部对强调了从所述收音部朝向与剩余的一个以上的指定部位对应的位置的剩余的一个以上的指向方向的声音而得到的声音数据进行声音输出或者合成声音输出。

8.根据权利要求5所述的声音处理系统，其特征在于，

所述声音处理系统包括一个以上的所述声音输出部，

所述重放部从一个以上的所述声音输出部对将强调了从所述收音部朝向与不同的多个指定部位对应的位置的不同的多个指向方向的声音而得到的声音数据进行合成而得到的声音数据进行声音输出。

9.根据权利要求5所述的声音处理系统，其特征在于，

所述信号处理部根据预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作，显示从所述声音输出部进行声音输出的所述声音数据的参数调整操作用媒体。

10.根据权利要求5所述的声音处理系统，其特征在于，

所述信号处理部始终显示从所述声音输出部进行声音输出的所述声音数据的参数状态标示用媒体，或者根据预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作，显示从所述声音输出部进行声音输出的所述声音数据的参数状态标示用媒体。

11.根据权利要求5所述的声音处理系统，其特征在于，

所述信号处理部每当进行预定的输入操作或者向被显示于所述显示部的所述影像数据的显示区域外的指定操作时，切换成通过所述摄像部进行摄像得到的影像数据或者从所述声音输出部进行声音输出的所述声音数据的参数调整操作用媒体并显示于所述显示部。

12.根据权利要求5所述的声音处理系统，其特征在于，

所述信号处理部根据在中心包括被显示于所述显示部的所述影像数据的指定部位的预定形状的描绘操作，生成或者合成强调了从所述收音部朝向与所述指定部位对应的位置的指向方向的声音而得到的声音数据。

13.根据权利要求5所述的声音处理系统，其特征在于，

所述信号处理部根据对在每个所述指定部位显示的所述识别形状的再指定，生成或者合成中止了从所述收音部朝向与显示有被再指定的所述识别形状的指定部位对应的位置的指向方向的声音的强调而得到的声音数据。

14.一种声音处理方法，其特征在于，具有如下步骤：

在至少一个摄像部中对影像进行摄像；

在包括多个麦克风的收音部中收集声音；

将通过所述摄像部进行摄像得到的影像数据显示于显示部；

记录通过所述摄像部进行摄像得到的影像数据以及通过所述收音部收集到的声音数据；

将被记录的所述影像数据显示于所述显示部并且使声音输出部对被记录的所述声音数据进行声音输出；

受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；

基于被记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据；以及

使所述声音输出部对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据，与被显示于所述显示部的所述影像数据同步地进行声音输出。

Claims

1.一种声音处理系统，其特征在于，具备：

至少一个摄像部，对影像进行摄像；

显示部，显示通过所述摄像部进行摄像得到的影像数据；

收音部，包括多个麦克风，使用所述麦克风来收集声音；

信号处理部，基于在所述记录部中记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。

2.根据权利要求1所述的声音处理系统，其特征在于，

所述重放部使所述声音输出部对强调了从所述收音部朝向与所述一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据进行声音输出。

3.根据权利要求1所述的声音处理系统，其特征在于，

所述摄像部是全方位摄像机，

4.根据权利要求1所述的声音处理系统，其特征在于，

所述摄像部与所述收音部在同轴上配置。

5.根据权利要求1～4中的任一项所述的声音处理系统，其特征在于，

所述摄像部与所述收音部被配置于室内的天花板。

6.根据权利要求1所述的声音处理系统，其特征在于，

7.根据权利要求6所述的声音处理系统，其特征在于，

所述声音输出部包括第1声音输出部以及第2声音输出部，

8.根据权利要求6所述的声音处理系统，其特征在于，

所述声音输出部包括第1声音输出部以及第2声音输出部，

9.根据权利要求6所述的声音处理系统，其特征在于，

所述声音处理系统包括一个以上的所述声音输出部，

10.根据权利要求6所述的声音处理系统，其特征在于，

11.根据权利要求6所述的声音处理系统，其特征在于，

12.根据权利要求6所述的声音处理系统，其特征在于，

13.根据权利要求6所述的声音处理系统，其特征在于，

14.根据权利要求6所述的声音处理系统，其特征在于，

15.一种声音处理方法，其特征在于，具有如下步骤：

在至少一个摄像部中对影像进行摄像；

在包括多个麦克风的收音部中收集声音；

将通过所述摄像部进行摄像得到的影像数据显示于显示部；

受理对被显示于所述显示部的所述影像数据的一个以上的指定部位的指定；以及

基于被记录的所述声音数据，生成或者合成强调了从所述收音部朝向与被指定的所述影像数据的一个以上的指定部位对应的位置的指向方向的声音而得到的声音数据。