CN105474667A

CN105474667A - 指向性控制装置、指向性控制方法、存储介质及指向性控制系统

Info

Publication number: CN105474667A
Application number: CN201480045464.2A
Authority: CN
Inventors: 重永信一; 泉昭年; 林和典; 德田肇道; 泽裕隆
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-05-09
Filing date: 2014-05-09
Publication date: 2016-04-06
Anticipated expiration: 2034-05-09
Also published as: JPWO2015170368A1; WO2015170368A1; JP6218090B2; CN105474667B

Abstract

指向性控制装置对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制。指向性形成部在从第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成声音的指向性。信息取得部取得根据监视对象物的移动而指定的与显示部的图像上的第二指定位置相关的信息。指向性形成部使用与取得的第二指定位置相关的信息，将声音的指向性切换为向与第二指定位置对应的监视对象物的方向。

Description

指向性控制装置、指向性控制方法、存储介质及指向性控制系统

技术领域

本发明涉及对声音的指向性进行控制的指向性控制装置、指向性控制方法、存储介质及指向性控制系统。

背景技术

以往，在工厂、店铺(例如小卖店、银行)或公共的场所(例如图书馆)的既定位置(例如顶棚面)设置的监视系统中，经由网络而连接1个以上的相机装置(例如PTZ(PanTiltZoom)相机装置或全方位相机装置)，实现监视对象范围的影像的图像数据(包括静止图像及活动图像。以下同样。)的广角化。

在使用了影像的监视中得到的信息量有限，因此除了1个以上的相机装置以外，还使用收容有多个麦克风的麦克风阵列装置，得到相机装置的视场角内存在的特定的监视对象物(例如人物)发出的声音数据的监视系统的要求迫切。而且，在这样的监视系统中，可认为在麦克风阵列装置对声音进行收音时也需要考虑人物的移动。

在此，作为通过将电视相机拍摄的图像映出的监视器电视画面上移动的从起点到终点的轨迹点的指定来描绘轨迹点而简化使用者的输入操作的在先技术，提出了例如专利文献1所示的电视相机的云台控制装置的方案。

专利文献1所示的电视相机的云台控制装置将设有摇摄及倾转驱动单元的云台上设置的电视相机拍摄到的图像映出在监视器电视上，在监视器电视的画面上输入自动摄影中的从移动起点到终点的轨迹点，将依次输入的轨迹点依次连接而求出连续的轨迹线，而且，依次读出轨迹线的从移动起点到终点的轨迹数据，以使数据读出点位于摄影画面的中心的方式执行自动摄影。由此，电视相机的云台控制装置通过在监视器电视的画面上输入轨迹点，能够以简单的输入操作得到摇摄及倾转驱动的轨迹数据，能够进行准确的驱动控制。

专利文献1：日本国特开平06-133189号公报

发明内容

然而，在专利文献1中，未公开对监视器电视映出的人物发出的声音进行收音的结构，存在例如即使将专利文献1的结构应用于上述的监视系统也难以高精度地对从移动起点到终点的轨迹点上的人物的声音进行收音的课题。

本发明为了解决上述的以往的课题，目的在于提供即使图像上的监视对象物移动也能进行追随而适当地形成对于监视对象物的声音的指向性并抑制监视者的监视业务的效率劣化的指向性控制装置、指向性控制方法、存储介质及指向性控制系统。

本发明涉及一种指向性控制装置，对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制，该指向性控制装置具备：指向性形成部，在从上述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成上述声音的指向性；及信息取得部，取得与根据上述监视对象物的移动而指定的上述显示部的图像上的第二指定位置相关的信息，上述指向性形成部使用由上述信息取得部取得的与上述第二指定位置相关的信息，将上述声音的指向性切换为向与上述第二指定位置对应的上述监视对象物的方向。

而且，本发明涉及一种指向性控制方法，是对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的指向性控制方法，该指向性控制方法包括以下步骤：在从上述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成上述声音的指向性；取得与根据上述监视对象物的移动而指定的上述显示部的图像上的第二指定位置相关的信息；及使用取得的与上述第二指定位置相关的信息，将上述声音的指向性切换为向与上述第二指定位置对应的上述监视对象物的方向。

而且，本发明涉及一种存储介质，存储有执行对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的处理的程序，上述存储介质存储有执行如下步骤的程序：在从上述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成上述声音的指向性；取得与根据上述监视对象物的移动而指定的上述显示部的图像上的第二指定位置相关的信息；及使用取得的与上述第二指定位置相关的信息，将上述声音的指向性切换为向与上述第二指定位置对应的上述监视对象物的方向。

此外，本发明涉及一种指向性控制系统，具备：拍摄部，对收音区域进行拍摄；第一收音部，包括多个麦克风且对上述收音区域的声音进行收音；及指向性控制装置，对由上述第一收音部收音到的声音的指向性进行控制，上述指向性控制装置具备：指向性形成部，在从上述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成上述声音的指向性；及信息取得部，取得与根据上述监视对象物的移动而指定的上述显示部的图像上的第二指定位置相关的信息，上述指向性形成部使用由上述信息取得部取得的与上述第二指定位置相关的信息，将上述声音的指向性切换为向与上述第二指定位置对应的上述监视对象物的方向。

发明效果

根据本发明，即使图像上的监视对象物移动，也能够追随并适当地形成对于监视对象物的声音的指向性，能够抑制监视者的监视业务的效率劣化。

附图说明

图1是表示第一实施方式的指向性控制系统的动作概要的说明图。

图2是表示第一实施方式的指向性控制系统的第一系统结构例的框图。

图3是表示第一实施方式的指向性控制系统的第二系统结构例的框图。

图4是表示手动追踪处理的操作例的说明图。

图5是在自动追踪处理中自动指定的追踪点出错的情况下通过手动追踪处理来变更追踪点的操作例的说明图。

图6是表示录像重放模式及慢动作重放模式中的慢动作重放处理的说明图。

图7是表示放大显示模式的放大显示处理的说明图。

图8(A)是表示放大显示模式的放大显示处理后的自动滚动处理的说明图，图8(B)是表示时刻t＝t1的追踪画面的图，图8(C)是表示时刻t＝t2的追踪画面的图。

图9(A)是说明第一实施方式的指向性控制系统的手动追踪处理的整体流程的第一例的流程图，图9(B)是说明第一实施方式的指向性控制系统的手动追踪处理的整体流程的第二例的流程图。

图10(A)是说明第一实施方式的指向性控制系统的自动追踪处理的整体流程的第一例的流程图，图10(B)是说明图10(A)所示的自动追踪处理的第一例的流程图。

图11(A)是说明图10(A)所示的自动追踪处理的第二例的流程图，图11(B)是说明图11(A)所示的追踪校正处理的一例的流程图。

图12是说明图10(A)所示的自动追踪处理的第三例的流程图。

图13(A)是说明图9(A)所示的追踪辅助处理的一例的流程图，图13(B)是说明图13(A)所示的自动滚动处理的一例的流程图。

图14(A)是表示图13(B)所示的自动滚动处理需要与否判定处理的一例的流程图，图14(B)是自动滚动处理需要与否判定处理中的滚动需要与否判定线的说明图。

图15(A)是说明图9(A)所示的追踪连线处理的一例的流程图，图15(B)是说明图15(A)所示的汇总连线处理的一例的流程图。

图16(A)是相对于一次的人物的移动而显示的追踪点间的动作路线上的与使用者的指定位置对应的收音声音的重放开始时刻PT的说明图，图16(B)是表示追踪列表的第一例的图。

图17(A)是基于多个同时指定的不同的追踪点间的动作路线上的与使用者的指定位置对应的收音声音的重放开始时刻PT的说明图，图17(B)是表示追踪列表的第二例的图。

图18(A)是基于多次指定的不同的追踪点间的动作路线上的与使用者的各指定位置对应的收音声音的重放开始时刻PT、PT’的说明图，图18(B)是表示追踪列表的第三例的图。

图19(A)是说明第一实施方式的指向性控制系统的使用了追踪列表的动作路线显示重放处理的整体流程的一例的流程图，图19(B)是说明图19(A)所示的重放开始时刻计算处理的一例的流程图。

图20是说明图19(A)所示的动作路线显示处理的一例的流程图。

图21(A)是说明图9(A)所示的声音输出处理的一例的流程图，图21(B)是说明图13(A)所示的图像隐私保护处理的一例的流程图。

图22(A)是表示与变声处理前的音调对应的声音信号的波形的一例的图，图22(B)是表示与变声处理后的音调对应的声音信号的波形的一例的图，图22(C)是向检测到的人物的脸部的轮廓内加入晕映的处理的说明图。

图23是表示第二实施方式的指向性控制系统的系统结构例的框图。

图24是表示用于拍摄显示于显示器装置上的图像的相机装置的自动切换处理的说明图。

图25是表示用于对监视对象物的声音进行收音的全方位麦克风阵列装置的自动切换处理的说明图。

图26是表示用于拍摄显示于显示器装置上的图像的相机装置的手动切换处理的说明图。

图27是表示用于对监视对象物的声音进行收音的全方位麦克风阵列装置的手动切换处理的说明图。

图28是表示用于对监视对象物的声音进行收音的最佳的全方位麦克风阵列装置的选择处理的说明图。

图29(A)是说明第二实施方式的指向性控制系统的相机装置的自动切换处理的一例的流程图，图29(B)是表示图29(A)所示的相机切换判定处理的一例的流程图。

图30(A)是说明第二实施方式的指向性控制系统的全方位麦克风阵列装置的自动切换处理的一例的流程图，图30(B)是表示图30(A)所示的麦克风切换判定处理的一例的流程图。

图31(A)是说明第二实施方式的指向性控制系统的相机装置的手动切换处理的一例的流程图，图31(B)是说明第二实施方式的指向性控制系统的全方位麦克风阵列装置的手动切换处理的一例的流程图。

图32(A)是说明第二实施方式的指向性控制系统的最佳的全方位麦克风阵列装置的选择处理的第一例的流程图，图32(B)是说明第二实施方式的指向性控制系统的最佳的全方位麦克风阵列装置的选择处理的第二例的流程图。

图33是说明第二实施方式的指向性控制系统的最佳的全方位麦克风阵列装置的选择处理的第三例的流程图。

图34是说明第一实施方式的变形例的指向性控制系统的基于多个同时指定的手动追踪处理的整体流程的一例的流程图。

图35是说明第一实施方式的变形例的指向性控制系统的多个监视对象物的自动追踪处理的一例的流程图。

图36(A)～图36(E)是全方位麦克风阵列装置的框体的外观图。

图37是全方位麦克风阵列装置在角度θ的方向上形成声音数据的指向性的延迟和方式的简单的说明图。

具体实施方式

以下，参照附图，说明本发明的指向性控制装置、指向性控制方法、存储介质及指向性控制系统的各实施方式。各实施方式的指向性控制系统被用作例如在工厂、公共设施(例如图书馆、活动会场)或店铺(例如小卖店、银行)设置的监视系统(包括有人监视系统及无人监视系统)。

另外，本发明也可以表现为用于使计算机即指向性控制装置执行通过指向性控制方法规定的动作的程序或者记录有使计算机执行通过指向性控制方法规定的动作的程序的计算机能够读取的记录介质。

(第一实施方式)

图1是表示第一实施方式的指向性控制系统100、100A的动作概要的说明图。图2是表示第一实施方式的指向性控制系统100的第一系统结构例的框图。图3是表示第一实施方式的指向性控制系统100A的第二系统结构例的框图。

关于指向性控制系统100、100A的具体的结构在后文叙述，首先，关于指向性控制系统100、100A的动作概要，参照图1简单地说明。

在图1中，相机装置C1对例如被用作监视系统的指向性控制系统100、100A的监视对象物(例如人物HM1)进行拍摄，将通过拍摄而得到的图像的数据向经由网络NW而连接的指向性控制装置3发送。

在包括本实施方式在内的各实施方式中，人物HM1可以静止也可以移动，但是作为移动的情况进行说明。人物HM1例如在追踪时刻t1从追踪位置A1(x1、y1、z0)直至追踪时刻t2移动到追踪位置A2(x2、y2、z0)。

在此，在移动的人物HM1由相机装置C1拍摄到的图像显示于显示器装置35的追踪画面TRW的情况下，追踪点是使用者在追踪画面TRW上指定了人物HM1的位置(即，追踪画面TRW上的位置)。将追踪位置及追踪时刻的数据与追踪点建立对应(例如参照后述的图16(B))。追踪位置是表示与指定了人物HM1的追踪画面TRW上的位置对应的实际空间上的位置的三维坐标。

而且，追踪画面TRW表示由相机装置(例如相机装置C1)拍摄到的图像显示于显示器装置35的画面(以下，称为“相机画面”)中的例如将人物HM1作为声音追踪处理(后述参照)的对象的监视对象物而映出的画面。在以下的各实施方式中，将人物HM1等未作为监视对象物而映出的画面记载为相机画面，将作为监视对象物而映出的画面记载为追踪画面，只要没有特别说明，就将相机画面与追踪画面加以区别地记载。

另外，在图1中，为了简化说明，设想同一人物HM1移动的情况进行说明，因此追踪点TP1、TP2处的追踪位置的z坐标相同。而且，即使人物HM1从追踪位置A1向追踪位置A2移动，也能够由相机装置C1进行拍摄，但是相机装置C1可以追踪人物HM1的移动而继续人物HM1的拍摄，也可以中止拍摄。

全方位麦克风阵列装置M1对人物HM1发出的声音进行收音，向经由网络NW而连接的指向性控制装置3发送收音声音的数据。

指向性控制装置3在作为监视对象物的人物HM1静止于追踪位置A1的情况下，在从全方位麦克风阵列装置M1向追踪位置A1的指向方向上形成收音声音的指向性。而且，指向性控制装置3在人物HM1从追踪位置A1移动到追踪位置A2的情况下，对收音声音的指向性进行切换而形成在从全方位麦克风阵列装置M1向追踪位置A2的指向方向上。

换言之，指向性控制装置3伴随着作为监视对象物的人物HM1的从追踪位置A1向追踪位置A2的移动，进行声音追踪处理，即，从全方位麦克风阵列装置M1向追踪位置A1的方向起，将收音声音的指向性追随控制成从全方位麦克风阵列装置M1向追踪位置A2的方向。

图2所示的指向性控制系统100是包括1个以上的相机装置C1、…、Cn、1个以上的全方位麦克风阵列装置M1、…、Mm、指向性控制装置3、记录器装置4的结构。n、m是1以上的整数，可以是相同数也可以是不同数，在以下的各实施方式中也同样。

相机装置C1、…、Cn、全方位麦克风阵列装置M1、…、Mm、指向性控制装置3、记录器装置4经由网络NW而相互连接。网络NW可以是有线网络(例如内联网、互联网)，也可以是无线网络(例如无线LAN(LocalAreaNetwork)、WiMAX(注册商标)、无线WAN(WideAreaNetwork))。在以下的本实施方式中，为了简化说明，作为设有1个相机装置C1及全方位麦克风阵列装置M1的结构进行说明。

以下，说明构成指向性控制系统100的各装置。另外，在包括本实施方式在内的各实施方式中，相机装置C1的框体与全方位麦克风阵列装置M1的框体分体地安装在不同的位置，但是相机装置C1的框体与全方位麦克风阵列装置M1的框体也可以一体地安装在同一位置。

作为拍摄部的一例的相机装置C1固定地设置于例如活动会场的顶棚面，具有作为监视系统中的监视相机的功能，通过来自与网络NW连接的监视控制室(未图示)的远距离操作，在预定的收音区域(例如活动会场内的既定区域)中，拍摄相机装置C1的预定视场角内的影像。另外，相机装置C1可以是具有PTZ功能的相机，也可以是能够对全方位进行拍摄的相机。另外，在相机装置C1是能够对全方位进行拍摄的相机的情况下，将表示收音区域的全方位的影像的图像数据(即，全方位图像数据)或者对全方位图像数据实施预定的变形校正处理并进行全景变换而生成的平面图像数据经由网络NW向指向性控制装置3或记录器装置4发送。

相机装置C1在显示于显示器装置35的图像数据之中由光标CSR或使用者的手指FG指定了任意位置时，从指向性控制装置3接收图像数据中的指定位置的坐标数据，算出从相机装置1到与指定位置对应的实际空间上的声音位置(以下，简称为“声音位置”)的距离、方向(包括水平角及垂直角。以下同样。)的数据而向指向性控制装置3发送。另外，相机装置C1中的距离、方向的数据计算处理是公知技术，因此省略说明。

作为收音部的一例的全方位麦克风阵列装置M1固定地设置于例如活动会场的顶棚面，至少包括将多个麦克风单元22、23(参照图36(A)～图36(E))以均等的间隔设置的麦克风部、对麦克风部的各麦克风单元22、23的动作进行控制的CPU(CentralProcessingUnit)。

全方位麦克风阵列装置M1当电源被接通时，对由麦克风单元内的麦克风元件收音到的声音的声音数据实施预定的声音信号处理(例如拉远处理、滤波处理、加法运算处理)，将通过预定的声音信号处理而得到的声音数据经由网络NW向指向性控制装置3或记录器装置4发送。

在此，关于全方位麦克风阵列装置M1的框体的外观，参照图36(A)～图36(E)进行说明。图36(A)～图36(E)是全方位麦克风阵列装置M1的框体的外观图。图36(A)～图36(E)所示的全方位麦克风阵列装置M1C、M1A、M1B、M1、M1D中，虽然外观及多个麦克风单元的配置位置不同，但是全方位麦克风阵列装置的功能相同。

图36(A)所示的全方位麦克风阵列装置M1C具有圆盘状的框体21。多个麦克风单元22、23呈同心圆状地配置于框体21。具体而言，多个麦克风单元22呈具有与框体21相同的中心的同心圆状且沿着框体21的圆周配置，多个麦克风单元23呈具有与框体21相同的中心的同心圆状且配置在框体21的内侧。各个麦克风单元22相互的间隔宽，直径大，且具有适合于低音域的特性。另一方面，各个麦克风单元23相互的间隔窄，直径小，具有适合于高音域的特性。

图36(B)所示的全方位麦克风阵列装置M1A具有圆盘状的框体21。在框体21上，多个麦克风单元22以均等的间隔沿着纵向和横向这两个方向呈十字状地配置，纵向的排列与横向的排列在框体21的中心处相交。全方位麦克风阵列装置M1A将多个麦克风单元22沿着纵向和横向这两个方向呈直线性地配置，因此能够降低形成声音数据的指向性的情况的运算量。另外，在图36(B)所示的全方位麦克风阵列装置M1A中，也可以仅沿纵向或横向的1列配置多个麦克风单元22。

图36(C)所示的全方位麦克风阵列装置M1B与图36(A)所示的全方位麦克风阵列装置M1C相比，具有直径小的圆盘状的框体21B。在框体21B上，多个麦克风单元22沿着框体21B的圆周以均等的间隔配置。图36(C)所示的全方位麦克风阵列装置M1B由于各个麦克风单元22的间隔短，因此具有适合于高音域的特性。

图36(D)所示的全方位麦克风阵列装置M1具有环形形状或圈形形状的框体21C，在框体21C的中心形成了具有预定的直径的开口部21a。在本实施方式的指向性控制系统100、100A中，使用例如图36(D)所示的全方位麦克风阵列装置M1。在框体21C中，多个麦克风单元22沿着框体21C的圆周方向以均等的间隔呈同心圆状地配置。

图36(E)所示的全方位麦克风阵列装置M1D具有矩形形状的框体21D。在框体21D上，多个麦克风单元22沿着框体21D的外周以均等的间隔配置。在图36(E)所示的全方位麦克风阵列装置M1D中，框体21D为矩形形状，因此即使在例如拐角或壁面处也能够简化全方位麦克风阵列装置M1D的设置。

全方位麦克风阵列装置M1的各麦克风单元22、23可以是无指向性麦克风，也可以是双指向性麦克风、单一指向性麦克风、锐指向性麦克风、超指向性麦克风(例如枪式麦克风)或它们的组合。

指向性控制装置3、3A可以是设置于例如监视控制室(未图示)的安置型的PC(PersonalComputer)，也可以是使用者能够便携的便携电话机、PDA(PersonalDigitalAssistant)、平板终端、智能手机等数据通信终端。

指向性控制装置3是至少包括通信部31、操作部32、存储器33、信号处理部34、显示器装置35、扬声器装置36的结构。信号处理部34至少包括指向方向计算部34a、输出控制部34b、追踪处理部34c。

通信部31接收从相机装置C1发送的图像数据或从全方位麦克风阵列装置M1发送的声音数据而向信号处理部34输出。

操作部32是用于将使用者的输入操作向信号处理部34通知的用户接口(UI：UserInterface)，例如是鼠标、键盘等指点器。而且，操作部32可以使用例如与显示器装置35的显示画面对应地配置且能够检测基于使用者的手指FG或指示笔的输入操作的触摸面板来构成。

操作部32将在显示于显示器装置35的图像数据(即，由相机装置C1拍摄到的图像数据)之中由基于使用者的鼠标操作的光标CSR或者使用者的手指FG指定的指定位置的坐标数据向信号处理部34输出。

存储器33例如使用RAM(RandomAccessMemory)构成，作为指向性控制装置3的各部的动作时的工作存储器发挥功能。而且，作为图像存储部或声音存储部的一例的存储器33使用例如硬盘或闪存来构成，对记录器装置4中存储的图像数据或声音数据、即在一定期间由相机装置C1拍摄到的图像数据或由全方位麦克风阵列装置M1收音到的声音数据进行存储。

而且，作为指定列表存储部的一例的存储器33存储追踪列表LST(例如参照图16(B))的数据，该追踪列表LST作为包括显示于显示器装置35的图像数据的追踪画面TRW上的全部指定位置及指定时刻(参照后述)的数据的指定列表的一例。

信号处理部34例如使用CPU(CentralProcessingUnit)、MPU(MicroProcessingUnit)或DSP(DigitalSignalProcessor)而构成，进行用于整体性地总括指向性控制装置3的各部的动作的控制处理、与其他各部之间的数据的输入输出处理、数据的运算(计算)处理及数据的存储处理。

指向方向计算部34a在计算指向方向坐标(θ_MAh，θ_MAv)时，若从操作部32取得由基于使用者的鼠标操作的光标CSR或使用者的手指FG指定的图像数据的指定位置的坐标数据，则从通信部31向相机装置C1发送坐标数据。指向方向计算部34a从通信部31取得从相机装置1的设置位置到与图像数据的指定位置对应的实际空间上的声音(声源)位置的距离、方向的数据。

指向方向计算部34a使用从相机装置C1的设置位置到声音位置的距离、方向的数据，算出从全方位麦克风阵列装置M1的设置位置朝向声音位置的指向方向坐标(θ_MAh，θ_MAv)。

而且，如本实施方式那样，在相机装置C1的框体与全方位麦克风阵列装置M1的框体分离且分体地安装的情况下，指向方向计算部34a使用事先算出的预定的校准参数的数据、从相机装置C1到声音位置(声源位置)的方向(水平角、垂直角)的数据，算出从全方位麦克风阵列装置M1到声音位置(声源位置)的指向方向坐标(θ_MAh，θ_MAv)。另外，校准是算出或取得指向性控制装置3的指向方向计算部34a为了算出指向方向坐标(θ_MAh，θ_MAv)所需的预定的校准参数的动作，具体的校准方法及校准参数的内容没有特别限定，例如能够以公知技术的范围实现。

而且，在以包围相机装置C1的框体的方式一体地安装全方位麦克风阵列装置M1的框体的情况下，可以使用从相机装置C1到声音位置(声源位置)的方向(水平角、垂直角)作为从全方位麦克风阵列装置2到声音位置的指向方向坐标(θ_MAh，θ_MAv)。

在此，指向方向坐标(θ_MAh，θ_MAv)中，θ_MAh表示从全方位麦克风阵列装置2的设置位置朝向声音位置的指向方向的水平角，θ_Mav表示从全方位麦克风阵列装置2的设置位置朝向声音位置的指向方向的垂直角。在以下的说明中，为了简化说明，使相机装置C1及全方位麦克风阵列装置M1的各水平角的基准方向(0度方向)一致。

输出控制部34b控制显示器装置35及扬声器装置36的动作。例如，作为显示控制部的一例的输出控制部34b根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，使从相机装置C1发送的图像数据显示于显示器装置35。作为声音输出控制部的一例的输出控制部34b在从记录器装置4取得了从全方位麦克风阵列装置2发送的声音数据或在一定期间由全方位麦克风阵列装置M1收音到的声音数据的情况下，根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，将声音数据向扬声器装置36输出。

而且，作为图像重放部的一例的输出控制部34b在从记录器装置4取得了一定期间由相机装置C1拍摄到的图像数据的情况下，根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，将图像数据在显示器装置35上重放。

而且，作为指向性形成部的一例的输出控制部34b使用从全方位麦克风阵列装置2发送的声音数据或从记录器装置4取得的声音数据，在由指向方向计算部34a算出的指向方向坐标(θ_MAh，θ_MAv)表示的指向方向上形成由全方位麦克风阵列装置2收音到的声音(收音声音)的指向性(波束)。

由此，指向性控制装置3能够相对地增大形成有指向性的指向方向上存在的监视对象物(例如人物HM1)发出的声音的音量等级，并能够抑制未形成指向性的方向的声音而相对地降低音量等级。

作为信息取得部的一例的追踪处理部34c取得与上述的声音追踪处理相关的信息。例如，追踪处理部34c在显示有由相机装置C1拍摄到的图像数据的显示器装置35的追踪画面TRW上，例如根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了新位置的情况下，取得与新指定的位置相关的信息。

在此，在与新指定的位置相关的信息中，除了包括表示在追踪画面TRW上指定的图像数据上的位置的坐标信息以外，还包括新指定的时刻(指定时刻)、在指定时刻指定的图像数据上的位置所对应的实际空间上的监视对象物(例如人物HM1)存在的声音位置(声源位置)的坐标信息或者从全方位麦克风阵列装置M1到该声音位置(声源位置)的距离信息。

而且，作为重放时刻计算部的一例的追踪处理部34c使用存储于存储器33的追踪列表LST的数据，根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，算出指定的动作路线上的位置的声音的重放时刻(参照后述)。

作为显示部的一例的显示器装置35使用例如LCD(LiquidCrystalDisplay)或有机EL(Electroluminescence)而构成，在输出控制部34b的控制下，显示由相机装置C1拍摄到的图像数据。

作为声音输出部的一例的扬声器装置36输出由全方位麦克风阵列装置M1收音到的声音的声音数据或者在指向方向坐标(θ_MAh，θ_MAv)表示的指向方向上形成有指向性的声音数据。另外，显示器装置35及扬声器装置36可以设为与指向性控制装置3不同的结构。

记录器装置4将由相机装置C1拍摄到的图像数据与由全方位麦克风阵列装置M1收音到的声音的声音数据建立对应地存储。

图3所示的指向性控制系统100A是包括1个以上的相机装置C1、…、Cn、1个以上的全方位麦克风阵列装置M1、…、Mm、指向性控制装置3A、记录器装置4的结构。在图3中，对于与图2的各部相同的结构及动作的各部，标注同一附图标记而简化或省略说明，对不同的内容进行说明。

指向性控制装置3A是至少包括通信部31、操作部32、存储器33、信号处理部34A、显示器装置35、扬声器装置36、图像处理部37的结构。信号处理部34A至少包括指向方向计算部34a、输出控制部34b、追踪处理部34c、声源检测部34d。

声源检测部34d从显示于显示器装置35的图像数据中，检测作为监视对象物的人物HM1发出的声音所对应的实际空间上的声音位置(声源位置)。例如，声源检测部34d将全方位麦克风阵列装置M1的收音区域分割成多个格子状区域，计测从全方位麦克风阵列装置M1对于各格子状区域的中心位置形成了指向性的声音的强度或音量等级。声源检测部34d在全部格子状区域之中，推定为在声音强度最强或音量等级最高的格子状区域存在声源。声源检测部34d的检测结果包括例如从全方位麦克风阵列装置M1到声音强度最强或音量等级最高的格子状区域的中心位置的距离信息。

图像处理部37根据信号处理部34的指示，对显示于显示器装置35的图像数据进行预定的图像处理(例如用于检测人物HM1的移动的VMD(VideoMotionDetector)处理、人物的脸部及脸部的朝向的检测处理、人物检测处理)，将图像处理结果向信号处理部34输出。

而且，图像处理部37根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，来检测显示于显示器装置35的监视对象物(例如人物HM1)的脸部的轮廓DTL，对脸部实施掩蔽处理。具体而言，图像处理部37算出包括检测到的脸部的轮廓DTL的矩形区域，进行向矩形区域内加入预定的晕映的处理(参照图22(C))。图22(C)是向检测到的人物的脸部的轮廓DTL内加入晕映的处理的说明图。图像处理部37将通过加入晕映的处理而生成的图像数据向信号处理部34输出。

图37是全方位麦克风阵列装置M1在角度θ的方向上形成声音数据的指向性的延迟和方式的简单的说明图。为了使说明便于理解，麦克风元件221～22n排列在直线上。在这种情况下，指向性成为面内的二维区域，但是为了在三维空间内形成指向性，只要将麦克风形成为二维排列而进行相同处理方法即可。

从声源80发出的声波对于全方位麦克风阵列装置M1的麦克风单元22、23内置的各麦克风元件221、222、223、…、22(n-1)、22n，以某一定的角度(入射角＝(90-θ)[度])入射。

声源80是例如全方位麦克风阵列装置M1的指向方向上存在的监视对象物(例如人物HM1)，相对于全方位麦克风阵列装置M1的框体21的面上，存在于预定角度θ的方向。而且，各麦克风元件221、222、223、…、22(n-1)、22n间的间隔d固定。

从声源80发出的声波首先到达麦克风元件221而被收音，接下来到达麦克风元件222而被收音，同样接连不断地被收音，最后到达麦克风元件22n而被收音。

另外，在例如声源80是监视对象物(例如人物HM1)发出的声音的情况下，从全方位麦克风阵列装置M1的各麦克风元件221、222、223、…、22(n-1)、22n的位置朝向声源80的方向与从全方位麦克风阵列装置2的各麦克风(麦克风元件)朝向使用者在显示器装置35上指定的指定位置所对应的声音位置(声源位置)的方向相同。

在此，声波从依次到达麦克风元件221、222、223、…、22(n-1)的时刻至到达最后的麦克风元件22n的时刻为止，产生到达时间差τ1、τ2、τ3、…、τ(n-1)。因此，在将各个麦克风元件221、222、223、…、22(n-1)、22n收音到的声音的声音数据直接相加的情况下，以相位错开的状态相加，因此声波的音量等级整体变弱。

另外，τ1是声波到达麦克风元件221的时刻与声波到达麦克风元件22n的时刻之差的时间，τ2是声波到达麦克风元件222的时刻与声波到达麦克风元件22n的时刻之差的时间，同样，τ(n-1)是声波到达麦克风元件22(n-1)的时刻与声波到达麦克风元件22n的时刻之差的时间。

在本实施方式中，全方位麦克风阵列装置M1是具有对应于各麦克风元件221、222、223、…、22(n-1)、22n而设置的A/D转换器241、242、243、…、24(n-1)、24n、延迟器251、252、253、…、25(n-1)、25n、加法运算器26的结构(参照图37)。

即，全方位麦克风阵列装置M1将各麦克风元件221、222、223、…、22(n-1)、22n收音到的模拟的声音数据在A/D转换器241、242、243、…、24(n-1)、24n中A/D转换成数字的声音数据。

而且，全方位麦克风阵列装置M1在延迟器251、252、253、…、25(n-1)、25n中，向各个麦克风元件221、222、223、…、22(n-1)、22n的到达时间差赋予对应的延迟时间而使全部声波的相位对齐之后，在加法运算器26中将延迟处理后的声音数据相加。由此，全方位麦克风阵列装置M1对于各麦克风元件221、222、223、…、22(n-1)、22n，在预定角度θ的方向上能够形成声音数据的指向性。

例如在图37中，延迟器251、252、253、…、25(n-1)、25n所设定的各延迟时间D1、D2、D3、…、D(n-1)、Dn分别相当于到达时间差τ1、τ2、τ3、…、τ(n-1)，由数学式(1)表示。

[数学式1]

D 1 = \frac{L 1}{V s} = \frac{{d \times (n - 1) \times c o s θ}}{V s}

D 2 = \frac{L 2}{V s} = \frac{{d \times (n - 2) \times c o s θ}}{V s}

D 3 = \frac{L 3}{V s} = \frac{{d \times (n - 3) \times c o s θ}}{V s}

，…，

D n - 1 = \frac{L n - 1}{V s} = \frac{{d \times 1 \times c o s θ}}{V s}

Dn＝0...(1)

L1是麦克风元件221与麦克风元件22n的声波到达距离之差。L2是麦克风元件222与麦克风元件22n的声波到达距离之差。L3是麦克风元件223与麦克风元件22n的声波到达距离之差，同样，L(n-1)是麦克风元件22(n-1)与麦克风元件22n的声波到达距离之差。Vs是声波的速度(声速)。L1、L2、L3、…、L(n-1)、Vs是已知的值。在图37中，延迟器25n所设定的延迟时间Dn为0(零)。

这样，全方位麦克风阵列装置M1通过变更延迟器251、252、253、…、25(n-1)、25n所设定的延迟时间D1、D2、D3、…、Dn-1、Dn，能够简易地形成麦克风单元22、23内置的各个麦克风元件221、222、223、…、22(n-1)、22n收音到的声音的声音数据的指向性。

另外，图37所示的指向性的形成处理的说明为了简化说明而以全方位麦克风阵列装置2进行的情况为前提来记载，对于其他全方位麦克风阵列装置(例如全方位麦克风阵列装置Mm)也同样能够应用。但是，在指向性控制装置3、3A的信号处理部34、34A的输出控制部34b是具有与全方位麦克风阵列装置M1的麦克风的个数相同的个数的A/D转换器241～24n及延迟器251～25n和1个加法运算器26的结构的情况下，指向性控制装置3、3A的信号处理部34、34A的输出控制部34b可以使用由全方位麦克风阵列装置M1的各麦克风元件收音到的声音的声音数据，进行图37所示的指向性的形成处理。

(各种模式、各种方法的说明)

在此，详细说明在包括本实施方式在内的各实施方式中共通的各种模式及各种方法。

在包括本实施方式在内的各实施方式中，存在如下的各种模式及各种方法。分别简单地进行说明。

(1)录像重放模式：接通/断开

(2)追踪模式：接通/断开

(3)追踪处理方法：手动/自动

(4)追踪对象数：单个/多个

(5)手动指定方法：点击操作/拖动操作

(6)慢动作重放模式：接通/断开

(7)放大显示模式：接通/断开

(8)声音隐私保护模式：接通/断开

(9)图像隐私保护模式：接通/断开

(10)连线模式：每次/汇总

(11)校正模式：接通/断开

(12)多个相机切换方法：自动/手动

(13)多个麦克风切换方法：自动/手动

(14)追踪点的上限设定模式：接通/断开

(1)录像重放模式使用于例如一定期间由相机装置C1拍摄到的影像的图像数据在拍摄后的某时刻使用者(例如监视者。以下同样)为了进行内容确认等进行重放的情况。另外，在录像重放模式为断开的情况下，相机装置C1实时地拍摄的影像的图像数据显示于显示器装置35。

(2)追踪模式使用于伴随着监视对象物(例如人物HM1)的移动而进行由全方位麦克风阵列装置M1收音到的声音的指向性的追随控制(声音追踪处理)的情况。

(3)追踪处理方法是通过监视对象物(例如人物HM1)的移动在进行由全方位麦克风阵列装置M1收音到的声音的指向性的追随控制(声音追踪处理)的情况下设定监视对象物的位置(例如显示器装置35的追踪画面TRW上的指定位置或实际空间上的位置)的方法，分为手动追踪处理和自动追踪处理。关于各自的详情在后文叙述。

(4)追踪对象数表示成为进行由全方位麦克风阵列装置M1收音到的声音的指向性的追随控制(声音追踪处理)的对象的监视对象物的个数，例如若是人物，则是1个人或多个人。

(5)手动指定方法表示在手动追踪处理(参照后述)中使用者在追踪画面TRW上指定追踪点的情况的方法，例如基于鼠标操作的光标CSR的点击操作或拖动操作、基于使用者的手指FG的触摸操作或触摸滑动操作对应于此。

(6)慢动作重放模式使用于以录像重放模式接通的情况为前提而以在显示器装置35上重放的图像数据的重放速度比初始值(例如通常值)小的速度值进行重放的情况。

(7)放大显示模式使用于将显示器装置35的追踪画面TRW上显示的监视对象物(例如人物HM1)放大显示的情况。

(8)声音隐私保护模式使用于由全方位麦克风阵列装置M1收音到的声音数据在扬声器装置36中被输出时进行用于使输出的声音是谁的确定变得困难的声音处理(例如变声处理)的情况。

(9)图像隐私保护模式使用于在放大显示模式接通的情况下进行用于使显示器装置35的追踪画面TRW上显示的监视对象物(例如人物HM1)是谁的确定变得困难的图像处理的情况。

(10)连线模式使用于将在监视对象物的移动过程中通过手动指定或自动指定而在追踪画面TRW上指定的指定位置(例如参照后述的点记号MR1)彼此进行连线的情况。若连线模式为每次，则在监视对象物的移动过程中每当指定位置被指定时，将相邻的点记号彼此连线。若连线模式为汇总，则在监视对象物的移动过程中得到的全部指定位置所对应的点记号与相邻的点记号之间汇总地连线。

(11)校正模式使用于在自动追踪处理中自动指定的指定位置从监视对象物的移动过程脱离等情况下从自动追踪处理切换为手动追踪处理的情况。

(12)多个相机切换方法使用于切换多个相机装置C1～Cn中的用于拍摄监视对象物的图像的相机装置的情况。关于多个相机切换方法的详情，在第二实施方式中进行说明。

(13)多个麦克风切换方法使用于切换多个全方位麦克风阵列装置M1～Mm中的用于对监视对象物发出的声音进行收音的全方位麦克风阵列装置的情况。关于多个麦克风切换方法的详情，在第二实施方式中进行说明。

(14)追踪点的上限设定模式使用于设定追踪点的上限值的情况。例如在追踪点的上限设定模式接通的情况下，若追踪点的个数达到上限值，则追踪处理部34c可以将全部追踪点清除(消去)，也可以将追踪点的个数达到上限值的情况显示在追踪画面TRW上。而且，若追踪点的个数达到上限值，则也可以执行多次声音追踪处理。

另外，为了指定上述的(1)～(14)的各种模式或各种方法，例如对于监视系统用的应用程序(未图示)中的预定的设定按钮或设定菜单、追踪画面TRW上显示的设定按钮或设定菜单，通过基于使用者的鼠标操作的光标CSR的点击操作或使用者的手指FG的触摸操作来决定。

接下来，关于指向性控制装置3、3A中的手动追踪处理的操作例，参照图4进行说明。图4是表示手动追踪处理的操作例的说明图。

在图4中，在显示器装置35显示的追踪画面TRW上示出作为监视对象物的人物HM1的移动过程，例如通过基于使用者的鼠标操作的光标CSR的点击操作或拖动操作，指定3个追踪点b1、b2、b3。

追踪处理部34c取得光标CSR指定了追踪点b1的追踪时刻t1、指定了追踪点b2的追踪时刻t2、指定了追踪点b3的追踪时刻t3的信息。而且，追踪处理部34c将表示追踪点b1的追踪画面TRW上的坐标信息或与该坐标信息对应的实际空间上的位置的三维坐标与追踪时刻t1的信息建立对应地保存于存储器33。而且，追踪处理部34c将表示追踪点b2的追踪画面TRW上的坐标信息或与该坐标信息对应的实际空间上的位置的三维坐标与追踪时刻t2的信息建立对应地保存于存储器33。而且，追踪处理部34c将表示追踪点b3的追踪画面TRW上的坐标信息或与该坐标信息对应的实际空间上的位置的三维坐标与追踪时刻t3的信息建立对应地保存于存储器33。

输出控制部34b在追踪画面TRW上的追踪点b1显示点记号MR1，在追踪画面TRW上的追踪点b2显示点记号MR2，而且，在追踪画面TRW上的追踪点b3显示点记号MR3。由此，输出控制部34b可以将移动中的人物HM1通过的追踪点作为轨迹而明确地显示在追踪画面TRW上。

而且，输出控制部34b将点记号MR1、MR2间连线而显示动作路线LN1，而且，将点记号MR2、MR3间连线而显示动作路线LN2。

接下来，关于指向性控制装置3、3A的校正模式的操作例，参照图5进行说明。图5是表示在自动追踪处理中自动指定的追踪点出错的情况下通过手动追踪处理来变更追踪点的操作例的说明图。

在图5的左侧的追踪画面TRW中，由图像处理部37或声源检测部34d自动指定的追踪点与人物HM1的移动过程的地点不同，通过点记号MR1、MR2W间的连线而显示出错的动作路线LNW。

在校正模式为接通的情况下，如图5的右侧的追踪画面TRW所示，从自动追踪处理切换为手动追踪处理，因此例如通过基于光标CSR的点击操作而指定正确的追踪点时，输出控制部34b将点记号MR1、MR2R间连线，将正确的动作路线LNR显示在追踪画面TRW上。

接下来，关于指向性控制装置3、3A的录像重放模式及慢动作重放模式的慢动作重放处理，参照图6进行说明。图6是表示录像重放模式及慢动作重放模式的慢动作重放处理的说明图。

在图6的上侧的追踪画面TRW中，例如人物HM1的移动快，因此无论是手动追踪处理还是自动追踪处理，人物HM1的指定都困难。在录像重放模式及慢动作重放模式为接通的情况下，例如通过使用者的手指FG对显示于显示器装置35的慢动作重放按钮进行触摸操作时，输出控制部34b以比重放速度的初始值(通常值)小的速度值，将表示人物HM1的移动过程的影像的图像数据在追踪画面TRW上进行慢动作重放(参照图6的下侧的追踪画面TRW)。

由此，输出控制部34b能够延缓追踪画面TRW上的人物HM1的移动，因此在手动追踪处理或自动追踪处理中能够简易地指定追踪点。另外，输出控制部34b在人物HM1的移动速度为预定值以上的情况下，可以不接受使用者的手指FG的触摸操作而进行慢动作重放处理。而且，慢动作重放时的重放速度可以是固定值，也可以根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而适当变更。

接下来，参照图7，说明指向性控制装置3、3A中的放大显示模式的放大显示处理。图7是表示放大显示模式的放大显示处理的说明图。

在图7的上侧的追踪画面TRW中，例如人物HM1的尺寸小，因此无论是手动追踪处理还是自动追踪处理，人物HM1的指定都困难。例如通过基于使用者的鼠标操作的光标CSR的点击操作，放大显示模式成为接通之后，若在人物HM1的位置(显示位置)进行点击操作，则输出控制部34b以点击的位置为中心，以预定倍率使追踪画面TRW放大显示(参照图7的下侧的追踪画面TRW)。由此，输出控制部34b能够将追踪画面TRW上的人物HM1放大显示，因此在手动追踪处理或自动追踪处理中能够简易地指定追踪点。

另外，输出控制部34b也可以是以点击的位置为中心，将追踪画面TRW的内容放大显示为另外的弹出画面(未图示)。由此，输出控制部34b例如通过使用者的简易的指定操作，使未放大显示的追踪画面TRW与放大显示的弹出画面对比而能够让使用者简易地指定监视对象物(人物HM1)。

而且，输出控制部34b例如可以在追踪点还未指定的情况下，以显示器装置35的中心为基准，将映出的相机画面的内容放大显示。由此，输出控制部34b例如通过使用者的简易的指定操作而在例如显示器装置35的中心附近映现出监视对象物(人物HM1)的情况下，能够让使用者简易地指定监视对象物。

而且，输出控制部34b可以在指定多个监视对象物的情况下，以追踪画面TRW上的多个指定位置的几何平均所对应的位置为中心进行放大显示。由此，输出控制部34b能够让使用者简易地选择追踪画面TRW上映出的多个监视对象物。

接下来，参照图8(A)、图8(B)及图8(C)，说明指向性控制装置3、3A的放大显示模式的放大显示处理后的自动滚动处理。图8(A)是表示放大显示模式的放大显示处理后的自动滚动处理的说明图。图8(B)是表示时刻t＝t1的追踪画面TRW的图。图8(C)是表示时刻t＝t2的追踪画面TRW的图。

在图8(A)中，在相机装置C1的拍摄区域C1RN内，示出作为监视对象物的人物HM1的从时刻t＝t1的位置向时刻t＝t2的位置的移动路径。例如将追踪画面TRW放大显示的结果是有时拍摄区域C1RN整体的图像无法映出在追踪画面TRW上。

输出控制部34b根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，沿着例如从时刻t＝t1到时刻t＝t2的人物HM1的移动路径，以将人物HM1始终显示于追踪画面TRW的中心的方式对追踪画面TRW进行自动滚动处理。由此，输出控制部34b通过放大显示的追踪画面TRW上映出的人物HM1的移动，以使用者的指定位置始终成为追踪画面TRW的中心的方式自动地滚动追踪画面TRW，因此即使在将追踪画面TRW放大显示的情况下，也能够防止使用者的人物HM1的指定位置从追踪画面TRW脱离，而且，能够简易地指定持续移动的追踪画面TRW上的人物HM1。

在图8(B)中，示出时刻t＝t1的追踪画面TRW，人物HM1显示于中心。该图的TP1表示在时刻t＝t1通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了人物HM1的追踪点。

同样，在图8(C)中，示出时刻t＝t2的追踪画面TRW，人物HM1显示于中心。该图的TP2表示在时刻t＝t2通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了人物HM1的追踪点。无论是图8(B)还是图8(C)，在自动滚动处理期间，作为监视对象物的人物HM1都显示于追踪画面TRW上的中心，因此使用者的选择变得容易。

接下来，参照图9(A)及图9(B)，说明本实施方式的指向性控制系统100的手动追踪处理的整体流程。图9(A)是说明第一实施方式的指向性控制系统100的手动追踪处理的整体流程的第一例的流程图。图9(B)是说明第一实施方式的指向性控制系统100的手动追踪处理的整体流程的第二例的流程图。

以下，为了避免说明的复杂化，参照图9(A)及图9(B)，先说明本实施方式的指向性控制系统100的手动追踪处理的整体流程，关于各个处理的详细的内容，参照后述的附图分别进行说明。对于图9(B)所示的动作中的与图9(A)所示的动作相同的内容，标注同一步骤编号而简化或省略说明，对不同的内容进行说明。在图9(A)及图9(B)中，示出指向性控制装置3的动作。

作为图9(A)的说明的前提，输出控制部34b在由相机装置C1拍摄到的作为监视对象物的人物HM1的图像被映出的显示器装置35的追踪画面TRW上，在从全方位麦克风阵列装置M1向通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定的位置所对应的人物HM1的位置(声音位置、声源位置)的方向上形成收音声音的指向性。另外，作为图9(B)的说明的前提也同样。

在图9(A)中，若追踪模式为断开(S1为“否”)，则图9(A)所示的手动追踪处理结束，但是在追踪模式为接通的情况下(S1为“是”)，追踪辅助处理开始(S2)。追踪辅助处理的详情参照图13(A)在后文叙述。

在步骤S2之后，在显示器装置35的追踪画面TRW上，通过基于使用者的鼠标操作的光标CSR的点击操作或使用者的手指FG的触摸操作来指定人物HM1的移动过程(移动路径)的追踪位置即追踪点(S3)。

追踪处理部34c将表示步骤S3中指定的追踪画面TRW上的指定位置所对应的实际空间上的位置的三维坐标及指定时刻分别作为追踪点的追踪位置及追踪时刻而建立对应地保存于存储器33，而且，经由输出控制部34b，在追踪画面TRW上的追踪点显示点记号(S4)。另外，点记号可以由追踪处理部34c显示，在以下的各实施方式中也同样。

输出控制部34b在从全方位麦克风阵列装置M1向步骤S3中指定的追踪点所对应的人物HM1的位置(声音位置、声源位置)的方向上形成收音声音的指向性(S5)。另外，在根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，通过人物HM1的移动过程(移动路径)的指定而追踪处理部34c取得追踪点的追踪位置及追踪时刻的数据即可的情况下，步骤S5的动作可以省略。换言之，输出控制部34b可以不将指向性切换为从全方位麦克风阵列装置M1向步骤S3中指定的追踪点所对应的人物HM1的位置(声音位置、声源位置)的方向，在以下的各实施方式中也同样。

在步骤S5之后，输出控制部34b进行追踪连线处理(S6)。追踪连线处理的详情参照图15(A)在后文叙述。在步骤S6之后，输出控制部34b从扬声器装置36输出在步骤S5中形成了指向性的收音声音(S7)。声音输出处理的详情参照图21(A)在后文叙述。在步骤S7之后，指向性控制装置3的动作返回到步骤S1，反复进行步骤S1～步骤S7的处理直至追踪模式成为断开为止。

在图9(B)中，在步骤S1之后，开始追踪辅助处理(S2)。追踪辅助处理的详情参照图13(A)在后文叙述。在步骤S2之后，在显示器装置35的追踪画面TRW上，人物HM1的移动过程(移动路径)的位置(即，追踪点)开始基于使用者的鼠标操作的光标CSR的拖动操作或使用者的手指FG的触摸滑动操作(S3A)。

在步骤S3A之后，在从上次的追踪点所对应的追踪位置及追踪时刻的数据的保存结束起未经过预定时间(例如几秒钟左右)的情况下(S8为“否”)，认为在步骤S3A中开始的拖动操作或触摸滑动操作未结束，指向性控制装置3的动作进入步骤S7。

另一方面，在步骤S3之后，在从上次的追踪点所对应的追踪位置及追踪时刻的数据的保存结束起经过了预定时间(例如几秒钟左右)的情况下(S8为“是”)，认为在步骤S3中开始的拖动操作或触摸滑动操作结束，指定新的追踪点。即，追踪处理部34c将表示拖动操作或触摸滑动操作结束时的指定位置所对应的实际空间上的位置的三维坐标及指定时刻分别作为新的追踪点的追踪位置及追踪时刻而建立对应地保存于存储器33，而且，经由输出控制部34b，在追踪画面TRW上的追踪点显示点记号(S4)。步骤S4以后的动作与图9(A)所示的步骤S4以后的动作相同，因此省略说明。

接下来，参照图10(A)及图10(B)、图11(A)及图11(B)、图12，说明本实施方式的指向性控制系统100A的自动追踪处理的整体流程。图10(A)是说明第一实施方式的指向性控制系统100A的自动追踪处理的整体流程的第一例的流程图。图10(B)是说明图10(A)所示的自动追踪处理的第一例的流程图。图11(A)是说明图10(A)所示的自动追踪处理的第二例的流程图。图11(B)是说明图11(A)所示的追踪校正处理的一例的流程图。图12是说明图10(A)所示的自动追踪处理的第三例的流程图。

而且，在图10(A)中也与图9(A)及图9(B)同样，为了避免说明的复杂化，参照图10(A)，先说明本实施方式的指向性控制系统100A的自动追踪处理的整体流程，关于各个处理的详细的内容，参照后述的附图分别进行说明。

对于图10(A)所示的动作中的与图9(A)或图9(B)所示的动作相同的内容，标注同一步骤编号而简化或省略说明，对不同的内容进行说明。在图10(A)中也示出指向性控制装置3的动作。

作为图10(A)的说明的前提，输出控制部34b在由相机装置C1拍摄到的作为监视对象物的人物HM1的图像被映出的显示器装置35的追踪画面TRW上，在从全方位麦克风阵列装置M1向使用声源检测部34d或图像处理部37的检测处理结果而自动指定的位置所对应的人物HM1的位置(声音位置、声源位置)的方向上形成收音声音的指向性。

在图10(A)中，在步骤S1之后，开始追踪辅助处理(S2)。追踪辅助处理的详情参照图13(A)在后文叙述。在步骤S2之后，进行自动追踪处理(S3B)。自动追踪处理的详情参照图10(B)、图11(A)及图12在后文叙述。在步骤S3B之后，输出控制部34b在从全方位麦克风阵列装置M1向步骤S3B中自动指定的追踪点所对应的人物HM1的位置(声音位置、声源位置)的方向上形成收音声音的指向性(S5)。步骤S5以后的动作与图9(A)所示的步骤S4以后的动作相同，因此省略说明。

在图10(B)中，图像处理部37通过进行公知的图像处理，在显示器装置35的追踪画面TRW上，判定作为监视对象物的人物HM1的检测的有无，在判定为检测到人物HM1的情况下，将判定结果(包括人物HM1的检测位置(例如已知的代表点)及检测时刻的数据)向信号处理部34的追踪处理部34c输出(S3B-1)。

或者，声源检测部34d通过进行公知的声源检测处理，在显示器装置35的追踪画面TRW上，判定作为监视对象物的人物HM1发出的声音(声源)的位置的检测的有无，在判定为检测到声源的位置的情况下，将判定结果(包括声源的检测位置及检测时刻的数据)向追踪处理部34c输出(S3B-1)。另外，为了简化步骤S3B-1的说明，设为在追踪画面TRW上不存在监视对象物的人物HM1以外的监视对象物而进行说明。

追踪处理部34c使用图像处理部37或声源检测部34d的判定结果，自动设定自动追踪处理的人物HM1的指定位置即追踪点(S3B-1)。追踪处理部34c将表示步骤S3B-1中自动指定的追踪画面TRW上的检测位置所对应的实际空间上的位置的三维坐标及检测时刻分别作为追踪点的追踪位置及追踪时刻而建立对应地保存于存储器33，而且，经由输出控制部34b，在追踪画面TRW上的追踪点显示点记号(S3B-2)。在步骤S3B-2之后，图10(B)所示的自动追踪处理结束，进入图10(A)所示的步骤S5。

在图11(A)中，在最初的追踪点(初始位置)已经被指定的情况下(S3B-3为“是”)，省略步骤S3B-4的动作。另一方面，在最初的追踪点未被指定的情况下(S3B-3为“否”)，在显示器装置35的追踪画面TRW上，通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作(例如点击操作、触摸操作)，指定人物HM1的移动过程(移动路径)的位置(即追踪点)(S3B-4)。

在最初的追踪点已经被指定的情况下，或者在步骤S3B-4中指定了最初的追踪点之后，追踪处理部34c使用以最初的追踪点为中心的图像处理部37或声源检测部34d的判定结果，自动指定如下的追踪点(S3B-5)。由此，追踪处理部34c例如通过使用者指定最初的追踪点，以追踪画面TRW上的最初的追踪点(初始位置)为中心，开始与人物HM1发出的声音(声源)的位置相关的信息或与人物HM1的位置相关的信息的检测处理，因此能够高速地进行各个检测处理。

追踪处理部34c将表示在步骤S3B-5中自动指定的追踪画面TRW上的检测位置所对应的实际空间上的位置的三维坐标及检测时刻分别作为追踪点的追踪位置及追踪时刻而建立对应地保存于存储器33，而且，经由输出控制部34b，在追踪画面TRW上的追踪点显示点记号(S3B-2)。

在步骤S3B-2之后，在未进行校正追踪点的操作的情况下(S3B-6为“否”)，图11(A)所示的自动追踪处理结束，进入图10(A)所示的步骤S5。

另一方面，在步骤S3B-2之后，例如在由于图像处理部37或声源检测部34d的判定结果出错而进行了校正与追踪点对应的追踪位置的操作的情况下(S3B-6为“是”)，进行图11(B)所示的追踪校正处理(S3B-7)。

在图11(B)中，在输出了在追踪画面TRW上移动的人物HM1发出的声音的情况下，通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而暂时中止声音的输出(S3B-7-1)。在步骤S3B-7-1之后，通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，校正模式成为接通，由此暂时性地从自动追踪处理向手动追踪处理转移，而且，指定正确的追踪点(S3B-7-2)。

输出控制部34b在步骤S3B-7-2中即将进行指定之前，将显示在追踪画面TRW上的出错的点记号消去(S3B-7-3)，在变更后的追踪点、即在步骤S3B-7-2中指定的追踪点显示点记号，使在步骤S3B-7-1中暂时中止的声音的输出再次开始(S3B-7-3)。而且，追踪处理部34c将步骤S3B-7-2中指定的位置覆写保存为追踪点(S3B-7-3)。在步骤S3B-7-3之后，图11(B)所示的追踪校正处理结束，进入图10(A)所示的步骤S5。

在图12中，图像处理部37通过进行公知的图像处理，在显示器装置35的追踪画面TRW上，判定作为监视对象物的人物HM1的检测的有无(S3B-8)。图像处理部37在判定为检测到人物HM1的情况下(S3B-9为“是”)，算出人物HM1的检测位置(例如已知的代表点)，而且，将检测时刻和检测位置的各数据作为判定结果向信号处理部34的追踪处理部34c输出(S3B-10)。

声源检测部34d通过进行公知的声源检测处理，在显示器装置35的追踪画面TRW上，判定作为监视对象物的人物HM1发出的声音(声源)的位置的检测的有无，在判定为检测到声源的位置的情况下，算出人物HM1的检测位置，而且，将检测时刻和检测位置的各数据作为判定结果向追踪处理部34c输出(S3B-11)。

追踪处理部34c将在步骤S3B-11中算出的追踪画面TRW上的声源的检测位置及检测时刻分别作为追踪点的追踪位置及追踪时刻而建立对应地保存于存储器33，而且，经由输出控制部34b在追踪画面TRW上的追踪点显示点记号(S3B-12)。

在步骤S3B-12之后，追踪处理部34c判定在步骤S3B-10中算出的人物HM1的检测位置与在步骤S3B-11中算出的声源的检测位置的距离是否为预定值以内(S3B-13)。在人物HM1的检测位置与声源的检测位置的距离为预定值内的情况下(S3B-13为“是”)，图12所示的自动追踪处理结束，进入图10(A)所示的步骤S5。

另一方面，在人物HM1的检测位置与声源的检测位置的距离不为预定值内的情况下(S3B-13为“否”)，进行图11(B)所示的追踪校正处理(S3B-7)。关于追踪校正处理，参照图11(B)进行说明，因此这里省略说明。在步骤S3B-7之后，图12所示的自动追踪处理结束，进入图10(A)所示的步骤S5。

由此，若通过声源的位置的检测处理或人物HM1的位置的检测处理而检测到的声源的位置与人物HM1的位置的距离为预定值以上，则追踪处理部34c能够容易地校正而取得例如追踪校正处理(参照图11(B))中的与通过使用者的位置的变更操作而指定的位置相关的信息作为与人物HM1的位置相关的信息。而且，若通过声源的位置的检测处理或人物HM1的位置的检测处理而检测到的声源的位置与人物HM1的位置的距离不为预定值以上，则追踪处理部34c不需要例如使用者的位置的变更操作，能够容易地取得声源的位置或人物HM1的位置作为与人物HM1的移动后的位置相关的信息。

接下来，关于指向性控制装置3、3A中的追踪辅助处理的详情，参照图13(A)进行说明。图13(A)是说明图9(A)所示的追踪辅助处理的一例的流程图。

在图13(A)中，在指向性控制装置3、3A的放大显示模式为断开的情况下(S2-1为“否”)，指向性控制装置3、3A的动作进入步骤S2-5。另一方面，在指向性控制装置3、3A的放大显示模式为接通的情况下(S2-1为“是”)，指向性控制装置3、3A进行图像隐私保护处理(S2-2)，而且，进行自动滚动处理(S2-3)。图像隐私保护处理的详情参照图21(B)在后文叙述。自动滚动处理的详情参照图13(B)、图14(A)及图14(B)在后文叙述。

在步骤S2-3之后，输出控制部34b以追踪画面TRW上的与最近的追踪点对应的追踪位置为中心，以预定倍率使追踪画面TRW的内容放大显示(S2-4)。在步骤S2-4之后，在指向性控制装置3、3A的录像重放模式及慢动作重放模式这两方为接通的情况下(S2-5为“是”)，输出控制部34b以比重放速度的初始值(通常值)小的速度值，使表示人物HM1的移动过程的影像的图像数据在追踪画面TRW上进行慢动作重放(S2-6)。

在步骤S2-6之后，或者指向性控制装置3、3A的录像重放模式及慢动作重放模式这两方不为接通的情况下(S2-5为“否”)，图13(A)所示的追踪辅助处理结束，进入图9(A)所示的步骤S3、图9(B)所示的步骤S3A、或者图10(A)所示的步骤S3B。

接下来，参照图13(B)、图14(A)及图14(B)，说明指向性控制装置3、3A的自动滚动处理的详情。图13(B)是说明图13(A)所示的自动滚动处理的一例的流程图。图14(A)是表示图13(B)所示的自动滚动处理需要与否判定处理的一例的流程图。图14(B)是自动滚动处理需要与否判定处理中的滚动需要与否判定线的说明图。

在图13(B)中，追踪处理部34c进行自动滚动处理需要与否判定处理(S2-3-1)。自动滚动处理需要与否判定处理的详情参照图14(A)在后文叙述。

在步骤S2-3-1之后，输出控制部34b在作为自动滚动处理需要与否判定处理结果而判定为需要自动滚动处理的情况下(S2-3-2为“是”)，对追踪画面TRW进行预定的自动滚动处理(S2-3-3)。例如，输出控制部34b根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，沿着追踪画面TRW上的人物HM1的移动路径，以使人物HM1始终显示于追踪画面TRW的中心的方式对追踪画面TRW进行自动滚动处理。由此，输出控制部34b即使在追踪画面TRW被进行了放大显示的情况下，也能够防止作为使用者的监视对象物的人物HM1的指定位置从追踪画面TRW脱离，而且，能够简易地指定持续移动的追踪画面TRW上的人物HM1。

另外，在步骤S2-3-1-1的时刻还未指定追踪点的情况下，输出控制部34b以使人物HM1始终显示于追踪画面TRW的中心的方式对追踪画面TRW进行自动滚动处理，在这种情况下，可以省略步骤S2-3-1所示的自动滚动处理需要与否判定处理。

而且，输出控制部34b在人物HM1超过后述的滚动判定线JDL而移动的情况下，向人物HM1的移动方向(例如超过了后述的滚动判定线JDL的方向)进行预定量的自动滚动处理。由此，输出控制部34b即使在追踪画面TRW被进行了放大显示的情况下，也能够防止作为使用者的监视对象物的人物HM1的指定位置从追踪画面TRW脱离。

而且，输出控制部34b在人物HM1超过后述的滚动判定线JDL而移动的情况下，以使通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定的位置(例如下一追踪点)成为追踪画面TRW的中心的方式对追踪画面TRW进行自动滚动处理。由此，输出控制部34b即使在追踪画面TRW被进行了放大显示的情况下，能够防止作为使用者的监视对象物的人物HM1的指定位置从追踪画面TRW脱离，而且，能够简易地指定持续移动的追踪画面TRW上的人物HM1。

在步骤S2-3-3之后，或者作为自动滚动处理需要与否判定处理结果而判定为不需要自动滚动处理的情况下(S2-3-2为“否”)，图13(B)所示的自动滚动处理结束，进入图13(A)所示的步骤S2-4。

在图14(A)中，追踪处理部34c判定与指定的追踪点TP1对应的追踪位置是否超过被放大显示的追踪画面XTRW的上下左右的任一滚动判定线JDL(S2-3-1-1)。

追踪处理部34c在判定为追踪位置未超过任一滚动判定线JDL的情况下(S2-3-1-1为“否”)，判定为不需要自动滚动处理(S2-3-1-2)。另一方面，追踪处理部34c在判定为追踪位置超过任一滚动判定线JDL的情况下(S2-3-1-1为“是”)，判定为需要自动滚动处理，而且，将相应的滚动判定线JDL的类别(例如，表示图14(B)所示的4个滚动判定线JDL中的任一滚动判定线JDL的信息)保存于存储器33(S2-3-1-3)。在步骤S2-3-1-2、S2-3-1-3之后，图14(A)所示的自动滚动处理需要与否判定处理结束，进入图13(B)所示的步骤S2-3-2。

接下来，参照图15(A)及图15(B)，说明指向性控制装置3、3A中的追踪连线处理的详情。图15(A)是说明图9(A)所示的追踪连线处理的一例的流程图。图15(B)是说明图15(A)所示的汇总连线处理的一例的流程图。

在图15(A)中，追踪处理部34c在追踪点已经被指定的情况下(S6-1为“是”)，判定连线模式是否为每次(S6-2)。输出控制部34b在判定为连线模式是每次的情况下(S6-2为“是”)，将之前刚指定的1个以上的追踪点与对应的最新的1个以上的追踪点进行连线并显示(S6-3)。由此，输出控制部34b在显示器装置35的追踪画面TRW上映出的人物HM1移动的情况下通过使用者的指定操作而指定的多个指定位置中，至少将当前指定位置与之前的指定位置进行连线并显示，因此能够明确地表示人物HM1的移动的一部分的轨迹。

另外，在步骤S6-3中，没有限定为追踪点1个个地被指定的单一指定的情况的动作，也包括多个追踪点同时被指定的情况的动作，在后述的步骤S6-4-3中也同样。

在步骤S6-3之后，或者还未指定追踪点的情况下(S6-1为“否”)，图15(A)所示的追踪连线处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S7。

而且，在判定为连线模式不是每次的情况下(S6-2为“否”)，进行汇总连线处理(S6-4)。关于汇总连线处理，参照图15(B)进行说明。

在图15(B)中，追踪处理部34c将保存于存储器33的追踪列表LST(例如参照图16(B))的数据依次读出(S6-4-1)。在判定为读出的数据为追踪点的起点的情况下(S6-4-2为“是”)，追踪处理部34c再次读出追踪列表LST(例如参照图16(B))的数据(S6-4-1)。

另一方面，在判定为读出的数据不是追踪点的起点的情况下(S6-4-2为“否”)，输出控制部34b使用读出的追踪列表的数据，将之前刚指定的1个以上的追踪点与对应的最新的1个以上的追踪点的各点记号彼此连线并显示(S6-4-3)。

在步骤S6-4-3之后，在连线至追踪点的终点的情况下(S6-4-4为“是”)，图15(B)所示的汇总连线处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S7。

另一方面，在步骤S6-4-3之后，在未连线至追踪点的终点的情况下(S6-4-4为“否”)，追踪处理部34c将保存于存储器33的追踪列表LST(例如参照图16(B))的数据依次读出，反复进行从步骤S6-4-1到步骤S6-4-4的动作，直至与追踪列表LST的全部追踪点对应的点记号彼此连线并显示为止。由此，输出控制部34b对于在显示器装置35的追踪画面TRW上映出的人物HM1移动的情况下通过使用者的指定操作而指定的多个指定位置的全部，将与各指定位置相邻的1个或2个指定位置连线并显示，因此能够明确地表示人物HM1的移动的全部轨迹。

图16(A)是相对于一次的人物HM1的移动而显示的追踪点间的动作路线上的使用者的指定位置P0所对应的收音声音的重放开始时刻PT的说明图。图16(B)是表示追踪列表的第一例的图。在图16(A)中，TP1、TP2、TP3、TP4也如图16(B)所示的追踪列表LST表示那样是在一次的人物HM1的移动中指定的追踪点。

在图16(B)中，按照各追踪点TP1(起点)、TP2、TP3、TP4(终点)，将表示追踪位置的坐标(x、y、z)与追踪时刻建立对应地保存。另外，为了简化说明，使表示追踪位置的坐标的z坐标值z0固定。

在图16(A)所示的追踪点间的动作路线上，若根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了指定位置P0，则追踪处理部34c提取指定位置P0的前后2个追踪点TP1、TP2，使用表示追踪点TP1、TP2的追踪位置的坐标及追踪时刻的数据，按照数学式(2)算出指定位置P0的重放开始时刻PT。

[数学式2]

P T = T 1 + {(T 2 - T 1) \times \frac{\sqrt{{(x 0 - x 1)}^{2} + {(y 0 - y 1)}^{2}}}{\sqrt{{(x 2 - x 1)}^{2} + {(y 2 - y 1)}^{2}}}} ... (2)

而且，输出控制部34b在将声音向扬声器装置36输出(重放)时，按照包括通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定的指定位置P0的追踪时刻的顺序，在相应的追踪位置所对应的指向方向上形成了指向性的基础上，将形成有指向性的声音输出(重放)。

图17(A)是基于多个同时指定的不同的追踪点间的动作路线上的与使用者的指定位置P0对应的收音声音的重放开始时刻PT的说明图。图17(B)是表示追踪列表LST的第二例的图。在图17(A)中，(TP11、TP21)、(TP12、TP22)、(TP13、TP23)、(TP14、TP24)也如图17(B)所示的追踪列表LST表示那样是例如在作为多个监视对象物的不同人物的移动中同时被指定的追踪点。

在图17(B)中，按照各追踪点(TP11、TP21)、(TP12、TP22)、(TP13、TP23)、(TP14、TP24)，将表示追踪位置的坐标(x、y、z)与追踪时刻建立对应地保存。追踪点(TP11、TP21)是起点，追踪点(TP14、TP24)是终点。另外，为了简化说明，将表示追踪位置的坐标的z坐标值z0设为固定。

在图17(A)所示的追踪点间的不同的动作路线上的任意位置，若根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了指定位置P0，则追踪处理部34c提取指定位置P0的前后2个追踪点TP11、TP12，使用表示追踪点TP11、TP12的追踪位置的坐标及追踪时刻的数据，按照数学式(3)算出指定位置P0的重放开始时刻PT。

[数学式3]

P T = T 1 + {(T 2 - T 1) \times \frac{\sqrt{{(x 0 - x 11)}^{2} + {(y 0 - y 11)}^{2}}}{\sqrt{{(x 12 - x 11)}^{2} + {(y 12 - y 11)}^{2}}}} ... (3)

图18(A)是基于多次指定的不同的追踪点间的动作路线上的与使用者的各指定位置P0、P0’对应的收音声音的重放开始时刻PT、PT’的说明图。图18(B)是表示追踪列表LST的第三例的图。在图18(A)中，(TP11、TP12、TP13、TP14)如图18(B)所示的追踪列表LST表示那样是例如在第一次的作为监视对象物的人物的移动中指定的追踪点。而且，在图18(A)中，(TP21、TP22、TP23)同样是例如在第二次的作为监视对象物的人物的移动中指定的追踪点。另外，第二次的作为监视对象物的人物可以是与第一次的作为监视对象物的人物相同的人物，也可以是不同的人物。

在图18(B)中，按照各追踪点TP11、TP12、TP13、TP14、TP21、TP22、TP23，将表示追踪位置的坐标(x、y、z)与追踪时刻建立对应地保存。追踪点TP11、TP21是起点，追踪点TP14、TP23是终点。另外，为了简化说明，将表示追踪位置的坐标的z坐标值z0设为固定。

在图18(A)所示的追踪点间的各动作路线上的任意位置，若根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了指定位置P0、P0’，则追踪处理部34c提取指定位置P0、P0’的前后2个追踪点(TP11、TP12)、(TP21、TP22)，使用表示追踪点(TP11、TP12)、(TP21、TP22)的追踪位置的坐标及追踪时刻的数据，按照数学式(4)、数学式(5)分别算出指定位置P0、P0’的重放开始时刻PT、PT’。在数学式(4)、数学式(5)中，指定位置P0的坐标是(x0、y0、z0)，指定位置P0’的坐标是(x0’、y0’、z0)。

[数学式4]

P T = T 11 + {(T 12 - T 11) \times \frac{\sqrt{{(x 0 - x 11)}^{2} + {(y 0 - y 11)}^{2}}}{\sqrt{{(x 12 - x 11)}^{2} + {(y 12 - y 11)}^{2}}}} ... (4)

[数学式5]

{PT}^{'} = T 21 + {(T 22 - T 21) \times \frac{\sqrt{{(x 0^{'} - x 21)}^{2} + {(y 0^{'} - y 21)}^{2}}}{\sqrt{{(x 22 - x 21)}^{2} + {(y 22 - y 21)}^{2}}}} ... (5)

另外，在图18(A)中，在第一次及第二次的各人物的移动中指定的追踪点的个数及追踪时刻可以不一致。而且，输出控制部34b将声音向扬声器装置36输出(重放)时，按照包括通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定的指定位置P0或指定位置P0’的追踪时刻的顺序，在相应的追踪位置所对应的指向方向上形成了指向性的基础上，将形成有指向性的声音输出(重放)。

接下来，主要关于录像重放模式为接通的指向性控制装置3、3A中的动作路线显示重放处理的整体流程，参照图19(A)进行说明。图19(A)是说明第一实施方式的指向性控制系统100、100A的使用了追踪列表LST的动作路线显示重放处理的整体流程的一例的流程图。

在图19(A)中，首先进行动作路线显示处理(S11)。动作路线显示处理的详情参照图20在后文叙述。在步骤S11之后，在步骤S11中显示的追踪点间的动作路线上，若根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定了指定位置P0(S12)，则进行重放开始时刻计算处理(S13)。重放开始时刻计算处理的详情参照图19(B)在后文叙述。

追踪处理部34c参照保存于存储器33的追踪列表LST，读出与步骤S13所示的重放开始时刻计算处理中算出的指定位置P0的重放开始时刻PT最接近的追踪时刻所对应的全部(也可以为1个)追踪位置的坐标(S14)。而且，输出控制部34b使用追踪处理部34c读出的追踪位置的坐标的数据，在从全方位麦克风阵列装置M1向全部(也可以为1个)追踪位置的方向上形成收音声音的指向性(S14)。由此，输出控制部34b根据使用者对于表示人物HM1的移动的轨迹的动作路线上任意指定的位置(任意指定位置)，能够在朝向任意指定位置的接下来指定的追踪位置的方向上事先形成声音的指向性。

输出控制部34b在步骤S14之后，从步骤S13中算出的重放开始时刻PT起，开始记录器装置4或存储器33中存储的收音声音的声音数据的重放(S15)。

在步骤S15之后，在从重放开始时刻PT起的预定时间内存在下一追踪时刻的情况下(S16为“是”)，输出控制部34b使用与下一追踪时刻对应的全部(也可以为1个)追踪位置的坐标的数据，在从全方位麦克风阵列装置M1向全部(也可以为1个)追踪位置的方向上形成收音声音的指向性(S17)。

在步骤S17之后，或者在从重放开始时刻PT起的预定时间内没有下一追踪时刻的情况下(S16为“否”)，进行声音输出处理(S7)。声音输出处理的详情参照图21(A)在后文叙述。在步骤S7之后，在与追踪点的终点对应的追踪时刻的声音输出处理结束的情况下(S18为“是”)，图19(A)所示的动作路线显示重放处理结束。由此，输出控制部34b能够明确地输出根据使用者的任意指定位置而算出的重放开始时刻的监视对象物发出的收音声音，在从重放开始时刻起的预定时间内存在下一指定位置的情况下，能够事先形成下一指定位置的声音的指向性。

另一方面，在步骤S7之后，在与追踪点的终点对应的追踪时刻的声音输出处理未结束的情况下(S18为“否”)，反复进行步骤S16到步骤S18的动作直至与追踪点的终点对应的追踪时刻的声音输出处理结束为止。

接下来，参照图19(B)，说明指向性控制装置3、3A的重放开始时刻计算处理的详情。图19(B)是说明图19(A)所示的重放开始时刻计算处理的一例的流程图。

在图19(B)中，追踪处理部34c读出保存于存储器33的追踪列表LST(例如参照图16(B))(S13-1)。追踪处理部34c从步骤S13-1中读出的追踪列表LST的数据中提取步骤S12中指定的指定位置P0的前后2个追踪点TP1、TP2(S13-2)。追踪处理部34c使用表示追踪点TP1、TP2的追踪位置的坐标及追踪时刻的数据，算出指定位置P0的重放开始时刻PT(S13-3，例如参照数学式(2))。在步骤S13-3之后，图19(B)所示的重放开始时刻计算处理结束，进入图19(A)所示的步骤S14。

接下来，参照图20，说明指向性控制装置3、3A的动作路线显示处理的详情。图20是说明图19(A)所示的动作路线显示处理的一例的流程图。

在图20中，追踪处理部34c将保存于存储器33的追踪列表LST(例如参照图16(B))的数据依次读出(S11-1)。在对于步骤S11-1中读出的全部追踪点而点记号彼此的连线结束的情况下(S11-2为“是”)，图20所示的动作路线显示处理结束，进入图19(A)所示的步骤S12。

另一方面，在对于步骤S11-1中读出的全部追踪点而点记号彼此的连线未结束的情况下(S11-2为“否”)，追踪处理部34c将追踪列表LST(例如参照图16(B))的数据依次读出。输出控制部34b在由追踪处理部34c读出的1个以上的追踪点处，按照各监视对象物而加以区别地显示点记号(S11-3)。

另外，在步骤S11-3中，虽然未特别图示，但是输出控制部34b根据例如基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作(例如鼠标的右点击操作及左点击操作、键盘的多个按键的同时按下、鼠标的点击操作及键盘的数字按键的同时按下、对于触摸面板的同时指定等)，以同一监视对象物能够识别的方式(例如同一记号、识别编号、记号及识别编号的组合、预定形状的框等)按照各监视对象物加以区别地显示点记号。在此所说的预定形状的框是例如矩形、圆形、三角形。除了以框的形状进行识别以外，也可以通过在框的线种(例如实线、虚线)、框的颜色、框上附记的编号等能够识别地显示。

在步骤S11-3之后，在判定为步骤11-3中读出的追踪点的数据为追踪点的起点的情况下(S11-4为“是”)，追踪处理部34c再次读出追踪列表LST(例如参照图16(B))的数据(S11-3)。

另一方面，在判定为步骤S11-3中读出的数据不是追踪点的起点的情况下(S11-4为“否”)，输出控制部34b使用读出的追踪列表的数据，将之前刚指定的1个以上的追踪点与对应的最新的1个以上的追踪点的各点记号彼此连线并显示(S11-5)。

在步骤S11-5之后，在连线至步骤S11-1中读出的追踪列表LST的追踪点的终点为止的情况下(S11-6为“是”)，进入步骤S11-2的动作。

另一方面，在步骤S11-5之后，在未连线至步骤S11-1中读出的追踪列表LST的追踪点的终点为止的情况下(S11-6为“否”)，反复进行步骤S11-3到步骤S11-6的动作直到连线至步骤S11-1中读出的追踪列表LST的追踪点的终点为止。

接下来，分别参照图21(A)及图21(B)、图22(A)～图22(C)，说明指向性控制装置3、3A的声音输出处理及图像隐私保护处理。图21(A)是说明图9(A)所示的声音输出处理的一例的流程图。图21(B)是说明图13(A)所示的图像隐私保护处理的一例的流程图。图22(A)是表示与变声处理前的音调对应的声音信号的波形的一例的图。图22(B)是表示与变声处理后的音调对应的声音信号的波形的一例的图。图22(C)是向检测到的人物的脸部的轮廓内加入晕映的处理的说明图。

在图21(A)中，输出控制部34b判定声音隐私保护模式是否为接通(S7-1)。输出控制部34b在判定为声音隐私保护模式是接通的情况下(S7-1为“是”)，对在扬声器装置36中输出的收音声音的数据实施变声处理(S7-2)。

在步骤S7-2之后，或者在判定为声音隐私保护模式是断开的情况下(S7-1为“否”)，输出控制部34b将收音声音直接从扬声器装置36输出(S7-3)。在步骤S7-3之后，图21(A)所示的声音输出处理结束，返回到图9(A)、图9(B)或图10(A)所示的步骤S1。

作为变声处理的一例，输出控制部34b增大或减小例如由全方位麦克风阵列装置M1收音到的声音的声音数据或者输出控制部34b自身形成了指向性的声音数据的波形的音调(例如参照图22(A)及图22(B))。由此，输出控制部34b例如通过使用者的简易的输入操作，对由全方位麦克风阵列装置M1实时地收音的声音进行变声处理并进行声音输出，因此人物HM1发出的声音是谁的声音难以分辨，由此能够有效地保护当前拍摄的人物HM1的声音上的隐私。而且，输出控制部34b例如通过使用者的简易的输入操作，对在一定期间由全方位麦克风阵列装置M1收音到的声音进行声音输出的情况下，对声音实施变声处理并进行声音输出，因此人物HM1发出的声音是谁的声音难以分辨，由此能够有效地保护人物HM1的声音上的隐私。

在图21(B)中，追踪处理部34c判定图像隐私保护模式是否为接通(S2-2-1)。图像处理部37在判定为图像隐私保护模式是接通的情况下(S2-2-1为“是”)，检测(提取)显示器装置35的追踪画面TRW上显示的人物HM1的脸部的轮廓DTL(S2-2-2)，对脸部的轮廓DTL实施掩蔽处理(S2-2-3)。具体而言，图像处理部37算出包括检测到的脸部的轮廓DTL的矩形区域，进行向矩形区域内加入预定的晕映的处理(参照图22(C))。图像处理部37将通过加入晕映的处理而生成的图像数据向输出控制部34b输出。

在步骤S2-2-3之后，或者判定为图像隐私保护模式是断开的情况下(S2-2-1为“否”)，输出控制部34b将从图像处理部37得到的图像数据显示于显示器装置35(S2-2-4)。

由此，图像处理部37例如通过使用者的简易的输入操作，对显示器装置35的追踪画面TRW上映出的作为监视对象物的人物HM1的一部分(例如脸部)进行掩蔽处理，因此监视对象物的人物HM1是谁难以分辨，由此能够有效地保护隐私。

另外，在监视对象物(例如人物HM1)出现于相机画面的时刻若指向性控制装置3、3A的图像隐私保护模式成为接通，则即使放大显示模式未成为接通，也可以进行图21(B)所示的图像隐私保护处理。

由此，在本实施方式的指向性控制系统100、100A中，指向性控制装置3、3A在从包括多个麦克风的全方位麦克风阵列装置M1向与对于显示器装置35的追踪画面TRW上的图像数据的指定位置对应的监视对象物(例如人物HM1)的方向上形成声音的指向性，而且，取得与指定了移动的监视对象物(例如人物HM1)的指定位置相关的信息(例如与追踪点对应的追踪位置及追踪时刻)。而且，指向性控制装置3、3A使用与对于显示器装置35的追踪画面TRW上的图像数据的指定位置相关的信息，追随声音的指向性并切换为向指定位置所对应的监视对象物(例如人物HM1)的方向。

由此，即使显示器装置35的追踪画面TRW上的图像数据映出的监视对象物(例如人物HM1)移动，指向性控制装置3、3A也将在朝向监视对象物(例如人物HM1)的移动前的位置的方向上形成的声音的指向性形成为朝向监视对象物(例如人物HM1)的移动后的位置的方向，因此，伴随着监视对象物(例如人物HM1)的移动而能够追随并适当地形成声音的指向性，能够抑制监视者的监视业务的效率劣化。

而且，指向性控制装置3、3A通过对显示器装置35的追踪画面TRW上映出的图像数据中移动的监视对象物(例如人物HM1)进行指定的简易的手动操作，能够容易地取得与监视对象物(例如人物HM1)的移动后的位置相关的准确的信息。

而且，指向性控制装置3A从显示器装置35的追踪画面TRW上映出的图像数据中，能够简易地检测监视对象物(例如人物HM1)发出的声音的声源及监视对象物(例如人物HM1)自身，因此能够容易地取得与声源的位置相关的信息或与监视对象物的位置相关的信息，作为与监视对象物(例如人物HM1)的移动后的位置相关的信息。

(第二实施方式)

在第二实施方式中，指向性控制装置3B对应于监视对象物(例如人物)的移动状况，在要超过相机装置的拍摄区域或全方位麦克风阵列装置的收音区域的情况下，将用于拍摄监视对象物的图像的相机装置切换为其他相机装置，或者将用于对监视对象物发出的声音进行收音的全方位麦克风阵列装置切换为其他全方位麦克风阵列装置。

另外，在本实施方式中，将用于拍摄成为声音追踪处理的对象的监视对象物(例如人物HM1)的图像的相机装置与用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置预先建立对应，与该建立对应相关的信息预先保存于指向性控制装置3B的存储器33。

图23是表示第二实施方式的指向性控制系统100B的系统结构例的框图。图23所示的指向性控制系统100B是包括1个以上的相机装置C1、…、Cn、1个以上的全方位麦克风阵列装置M1、…、Mm、指向性控制装置3B、记录器装置4的结构。在图23的各部的说明中，对于图2、图3所示的指向性控制系统100、100A表示的各部的结构及动作，标注同一附图标记而简化或省略说明，对不同的内容进行说明。

指向性控制装置3B可以是例如设置于监视控制室(未图示)的安置型的PC，也可以是使用者能够便携的便携电话机、PDA、平板终端、智能手机等数据通信终端。

指向性控制装置3B是至少包括通信部31、操作部32、存储器33、信号处理部34A、显示器装置35、扬声器装置36、图像处理部37、动作切换控制部38的结构。信号处理部34A至少包括指向方向计算部34a、输出控制部34b、追踪处理部34c、声源检测部34d。

动作切换控制部38基于追踪处理部34c取得的与监视对象物(例如人物)的移动状况相关的各种信息或数据，进行用于切换多个相机装置C1～Cn或多个全方位麦克风阵列装置M1～Mm中的、用于拍摄指向性控制系统100B的监视对象物的图像的相机装置或者用于对监视对象物发出的声音进行收音的全方位麦克风阵列装置的各种动作。

接下来，关于指向性控制装置3B的相机装置的自动切换处理，参照图24进行说明。图24是表示用于拍摄显示器装置35显示的图像的相机装置的自动切换处理的说明图。在图24中，为了简化说明，说明通过作为监视对象物的人物HM1从追踪位置A1移动到追踪位置A2而将用于拍摄人物HM1的图像的相机装置从相机装置C1切换为相机装置C2的例子。

追踪位置A1在相机装置C1的拍摄区域C1RN的范围内，且在预先决定的相机装置C1的切换判定线JC1的范围内。追踪位置A2在相机装置C2的拍摄区域C2RN的范围内，且在相机装置C1的切换判定线JC1的范围外。另外，虽然图示省略，但是追踪位置A1、A2在全方位麦克风阵列装置M1的收音区域内。

动作切换控制部38在人物HM1要超过相机装置C1的拍摄区域C1RN的情况下，经由通信部31及网络NW向相机装置C2通知将用于拍摄人物HM1的图像的相机装置从相机装置C1切换为相机装置C2的内容的信息。换言之，动作切换控制部38对相机装置C2指示相机装置C2的视场角内的范围的图像的拍摄准备。不过，在该时刻，在显示器装置35的追踪画面TRW上，显示由相机装置C1拍摄到的影像的图像数据。

例如，动作切换控制部38在人物HM1超过了相机装置C1的切换判定线JC1的情况下，经由通信部31及网络NW向相机装置C2通知将用于拍摄人物HM1的图像的相机装置从相机装置C1切换为相机装置C2的内容的信息。

动作切换控制部38使用相机装置C1计测的相机装置C1与人物HM1的距离信息，判定人物HM1是否超过了切换判定线JC1。更具体而言，动作切换控制部38在人物HM1存在于相机装置C1的视场角内且从相机装置C1到人物HM1的距离大于从相机装置C1到切换判定线JC1的距离(已知)的情况下，判定为人物HM1超过了切换判定线JC1。另外，动作切换控制部38预先已知从相机装置C1能够切换的相机装置(例如相机装置C2)，也预先已知从其他相机装置能够切换的相机装置。

动作切换控制部38在判定为超过了切换判定线JC1的人物HM1超过了相机装置C1的拍摄区域C1RN的情况下，将用于拍摄人物HM1的图像的相机装置从相机装置C1切换为相机装置C2。然后，在显示器装置35的追踪画面TRW上，显示由相机装置C2拍摄到的影像的图像数据(例如移动中的人物HM1的图像数据)。

由此，动作切换控制部38能够适应性地切换为将移动中的监视对象物(例如人物HM1)的图像可靠地映出的相机装置，能够简易地指定使用者的监视对象物(例如人物HM1)的图像。

接下来，关于指向性控制装置3B的全方位麦克风阵列装置的自动切换处理，参照图25进行说明。图25是表示用于对监视对象物(例如人物HM1)的声音进行收音的全方位麦克风阵列装置的自动切换处理的说明图。在图25中，为了简化说明，说明通过作为监视对象物的人物HM1从追踪位置A1向追踪位置A2移动而将用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置从全方位麦克风阵列装置M1切换为全方位麦克风阵列装置M2的例子。

追踪位置A1在全方位麦克风阵列装置M1的收音区域M1RN的范围内，且在预先决定的全方位麦克风阵列装置M1的切换判定线JM1的范围内。追踪位置A2在全方位麦克风阵列装置M2的收音区域M2RN的范围内，且在全方位麦克风阵列装置M1的切换判定线JM1的范围外。另外，虽然图示省略，但是追踪位置A1、A2在相机装置C1的拍摄区域内。

动作切换控制部38在人物HM1要超过全方位麦克风阵列装置M1的收音区域M1RN的情况下，经由通信部31及网络NW向全方位麦克风阵列装置M2通知将用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置从全方位麦克风阵列装置M1切换为全方位麦克风阵列装置M2的内容的信息。换言之，动作切换控制部38对于全方位麦克风阵列装置M2指示全方位麦克风阵列装置M2的收音区域内的声音的收音准备。

例如，动作切换控制部38在人物HM1超过了全方位麦克风阵列装置M1的切换判定线JM1的情况下，经由通信部31及网络NW向全方位麦克风阵列装置M2通知将用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置从全方位麦克风阵列装置M1切换为全方位麦克风阵列装置M2的内容的信息。

动作切换控制部38使用全方位麦克风阵列装置M1与人物HM1的距离信息，判定人物HM1是否超过了切换判定线JM1。更具体而言，动作切换控制部38在从全方位麦克风阵列装置M1到人物HM1的距离大于从全方位麦克风阵列装置M1到切换判定线JM1的距离(已知)的情况下，判定为人物HM1超过了切换判定线JM1。另外，动作切换控制部38预先已知从全方位麦克风阵列装置M1能够切换的全方位麦克风阵列装置(例如全方位麦克风阵列装置M2)，也预先已知从其他全方位麦克风阵列装置能够切换的全方位麦克风阵列装置。

动作切换控制部38在判定为超过了切换判定线JM1的人物HM1超过了全方位麦克风阵列装置M1的收音区域M1RN的情况下，将用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置M从全方位麦克风阵列装置M1切换为全方位麦克风阵列装置M2。

由此，动作切换控制部38能够适应性地切换成将移动中的监视对象物(例如人物HM1)发出的声音可靠地收音的全方位麦克风阵列装置，能够高精度地对监视对象物(例如人物HM1)发出的声音进行收音。

接下来，关于指向性控制装置3B的相机装置的手动切换处理，参照图26进行说明。图26是表示用于拍摄显示器装置35上显示的图像的相机装置的手动切换处理的说明图。在图26中，在显示器装置35上，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，将人物HM1的图像的拍摄中由当前使用中的相机装置C1拍摄到的图像的追踪画面TRW切换为包括相机装置C1的相机画面C1W、相机装置C1的周边的相机装置(例如8台相机装置)的相机画面的多相机画面。

与图24同样，在当前使用中的相机装置C1中，预先决定能够切换的相机装置，设为例如相机装置C2、C3、C4。在图26所示的多相机画面中，显示由相机装置C2、C3、C4拍摄到的相机画面C2W、C3W、C4W(参照图26所示的阴影)。人物HM1沿移动方向MV1移动。

使用者在考虑了作为监视对象物的人物HM1的移动方向MV1的基础上，对于图26所示的多相机画面，利用手指FG，对3个相机画面C2W、C3W、C4W中的任一相机画面(例如相机画面C3W)进行触摸操作。

动作切换控制部38根据使用者的手指FG的触摸操作，将用于拍摄人物HM1的图像的相机装置从当前使用中的相机装置C1切换为与成为触摸操作的对象的相机画面C3W对应的相机装置C3。

由此，动作切换控制部38通过使用者的简易的操作，能够适应性地切换为将移动中的监视对象物(例如人物HM1)的图像可靠地映出的相机装置，能够简易地指定使用者的监视对象物(例如人物HM1)的图像。

接下来，参照图27，说明指向性控制装置3B的全方位麦克风阵列装置的手动切换处理。图27是表示用于对监视对象物(例如人物HM1)的声音进行收音的全方位麦克风阵列装置的手动切换处理的说明图。在图27中，在追踪画面TRW上，作为监视对象物的人物HM1显示于中央。而且，从当前使用中的全方位麦克风阵列装置M1能够切换的全方位麦克风阵列装置设为在全方位麦克风阵列装置M1的周边设置的3台全方位麦克风阵列装置M2、M3、M4。

在图27中，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，在追踪画面TRW上，显示出表示从当前使用中的全方位麦克风阵列装置M1能够切换的全方位麦克风阵列装置M2、M3、M4的概略位置的记号M2R、M3R、M4R(参照图27所示的(1))。

使用者在考虑了与作为监视对象物的人物HM1的追踪点对应的追踪位置A1起的移动方向MV1的基础上，通过使用者的手指FG的触摸操作，选择3个记号中的任一记号(例如记号M3R)(参照图27所示的(2))。动作切换控制部38从当前使用中的全方位麦克风阵列装置M1向通过使用者的手指FG的触摸操作而选择的记号M3R所对应的全方位麦克风阵列装置M3，经由通信部31及网络NW，指示收音的开始(参照图27所示的(3))。

而且，输出控制部34b将指向性切换为从选择的记号M3R所对应的全方位麦克风阵列装置M3向当前时点的人物HM1的追踪位置的方向(参照图27所示的(4))。之后，通过输出控制部34b，将追踪画面TRW上显示的表示全方位麦克风阵列装置M2、M3、M4的概略位置的记号M2R、M3R、M4R消去。

由此，动作切换控制部38通过使用者对于追踪画面TRW上显示的记号M2R、M3R、M4R的简易的操作，能够适应性地切换为将移动中的监视对象物(例如人物HM1)发出的声音可靠地收音的全方位麦克风阵列装置M3，能够对应于人物HM1的移动方向MV1而高精度地对人物HM1发出的声音进行收音。

接下来，参照图28，说明指向性控制装置3B的最佳的全方位麦克风阵列装置的选择处理。图28是表示用于对监视对象物的声音进行收音的最佳的全方位麦克风阵列装置的选择处理的说明图。在图28的左上侧的显示器装置35上，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，一览显示指向性控制系统100B管辖的全部相机装置(例如9台相机装置)的相机画面。

在图28的左上侧的显示器装置35上一览显示的各相机画面中，映现作为声音追踪处理的对象的监视对象物(例如人物HM1)的相机画面是相机画面C1W、C2W、C3W。在这些相机画面C1W、C2W、C3W之中，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，选择人物HM1的映现最良好的相机画面C1W。

动作切换控制部38根据使用者的相机画面C1W的选择，选择并切换与相机画面C1W对应的相机装置C1作为用于拍摄人物HM1的图像的相机装置。由此，输出控制部34b将由与相机画面C1W对应的相机装置拍摄到的图像数据放大，显示在显示器装置35的追踪画面TRW1上(参照图28的左下侧)。

而且，输出控制部34b在追踪画面TRW1的四个角显示出表示与由动作切换控制部38选择的相机装置C1建立对应的全部全方位麦克风阵列装置的概略位置的记号M1R、M2R、M3R、M4R。另外，记号M1R、M2R、M3R、M4R的显示位置没有限定为追踪画面TRW1上的四个角。

此外，当通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而依次指定记号M1R、M2R、M3R、M4R时，输出控制部34b一边使一个个记号增强显示(例如闪亮Br)，一边对于各个记号，在从各记号所对应的全方位麦克风阵列装置向人物HM1的位置的方向上形成了指向性的基础上，将收音到的声音输出一定时间。

当使用者在输出一定时间的声音之中选择表示判断为最佳的全方位麦克风阵列装置的概略位置的记号(例如记号M3R)时，动作切换控制部38将与选择的记号M3R对应的全方位麦克风阵列装置M3选择并切换为用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置。

由此，动作切换控制部38在与选择的相机装置C5建立对应的多个全方位麦克风阵列装置M1、M2、M3、M4中能够将形成有不同的指向性的收音声音输出一定时间，因此通过使用者进行选择判断为最佳的收音声音的简易的操作，能够选择将移动中的监视对象物(例如人物HM1)发出的声音可靠地收音的最佳的全方位麦克风阵列装置M3，能够高精度地对监视对象物(例如人物HM1)发出的声音进行收音。

接下来，参照图29(A)，说明本实施方式的指向性控制系统100B的相机装置的自动切换处理。图29(A)是说明第二实施方式的指向性控制系统100B的相机装置的自动切换处理的一例的流程图。图29(A)所示的相机装置的自动切换处理详细地说明了图24所示的相机装置的自动切换处理的内容，例如，接在图10(B)所示的步骤S3B-1之后进行。

在图29(A)中，图像处理部37对显示器装置35的追踪画面TRW上映出的图像数据进行预定的图像处理，由此来检测监视对象物(例如人物HM1)的位置(即，追踪点)(S21)。在步骤S21之后，进行相机切换判定处理(S22)。相机切换判定处理的详情参照图29(B)在后文叙述。

在步骤S22之后，在通过动作切换控制部38将相机切换模式设定为接通的情况下(S23为“是”)，动作切换控制部38对于与当前使用中的相机装置(例如相机装置C1)建立对应的能够切换的全部相机装置，经由通信部31及网络NW，指示图像的拍摄(S24)。接受到了图像的拍摄的指示的全部相机装置开始图像的拍摄。另外，在多个相机切换方法为自动的情况下，相机切换模式为使用于是否切换相机装置的处理的控制用的标志。

动作切换控制部38使用当前使用中的相机装置C1计测到的相机装置C1与人物HM1的距离信息，判定在步骤S21中检测到的实际空间上的追踪位置A1所在的人物HM1是否超过了相机装置C1的拍摄区域C1RN(S25)。动作切换控制部38在判定为人物HM1超过了相机装置C1的拍摄区域C1RN的情况下(S25为“是”)，通过步骤S24的指示，将由与当前使用中的相机装置C1建立对应的能够切换的全部相机装置拍摄到的图像数据向图像处理部37输出。图像处理部37对从动作切换控制部38输出的全部图像数据进行预定的图像处理，由此判定作为监视对象物的人物HM1的检测的有无(S26)。图像处理部37将图像处理结果向动作切换控制部38输出。

动作切换控制部38使用图像处理部37的图像处理结果，能够进行作为监视对象物的人物HM1的检测，并且选择与步骤S21中检测到的实际空间上的追踪位置A1最接近的1个相机装置(例如相机装置C2)，将用于拍摄人物HM1的图像的相机装置从相机装置C1切换为相机装置C2(S27)。由此，输出控制部34b将显示器装置35显示的追踪画面TRW切换成由动作切换控制部38选择的相机装置C2的相机画面进行显示(S27)。

另一方面，在通过动作切换控制部38将相机切换模式设定为断开的情况下(S23为“否”)或者判定为人物HM1未超过相机装置C1的拍摄区域C1RN的情况下(S25为“否”)，图29(A)所示的相机装置的自动切换处理结束，进入图30(A)所示的全方位麦克风阵列装置的自动切换处理。

接下来，关于指向性控制装置3B的相机切换判定处理，参照图29(B)进行说明。图29(B)是表示图29(A)所示的相机切换判定处理的一例的流程图。

在图29(B)中，动作切换控制部38将指向性控制装置3B的相机切换模式设定为断开(S22-1)。动作切换控制部38使用当前使用中的相机装置C1计测到的相机装置C1与人物HM1的距离信息，判定步骤S21中检测到的追踪点所对应的实际空间上的追踪位置A1是否超过了当前使用中的相机装置C1的预定的切换判定线JC1(S22-2)。

动作切换控制部38在判定为步骤S21中检测到的追踪点所对应的实际空间上的追踪位置A1超过了当前使用中的相机装置C1的预定的切换判定线JC1的情况下(S22-2为“是”)，将相机切换模式设定为接通(自动)(S22-3)。

在步骤S22-3之后，或者判定为追踪位置A1未超过当前使用中的相机装置C1的预定的切换判定线JC1的情况下(S22-2为“否”)，图29(B)所示的相机切换判定处理结束，进入图29(A)所示的步骤S23。

接下来，参照图30(A)，说明本实施方式的指向性控制系统100B的全方位麦克风阵列装置的自动切换处理。图30(A)是说明第二实施方式的指向性控制系统100B的全方位麦克风阵列装置的自动切换处理的一例的流程图。图30(A)所示的全方位麦克风阵列装置的自动切换处理详细地说明了图25所示的全方位麦克风阵列装置的自动切换处理的内容，可以接在图29(A)所示的步骤S27之后进行，也可以是图29(A)所示的相机装置的自动切换处理在图30(A)所示的全方位麦克风阵列装置的自动切换处理之后进行。

在图30(A)中，声源检测部34d通过进行预定的声源检测处理，算出实际空间上的监视对象物(例如人物HM1)的位置(声源的位置)，或者算出表示与算出的声源的位置对应的图像数据上的位置的坐标(即，与追踪点对应的追踪位置A1的坐标)(S31)。在步骤S31之后，进行麦克风切换判定处理(S32)。麦克风切换判定处理的详情参照图30(B)在后文叙述。

在步骤S32之后，通过动作切换控制部38将麦克风切换模式设定为接通的情况下(S33为“是”)，动作切换控制部38对于与当前使用中的全方位麦克风阵列装置(例如全方位麦克风阵列装置M1)建立对应的能够切换的全部全方位麦克风阵列装置，经由通信部31及网络NW，指示人物HM1发出的声音的收音(S34)。接受到声音的收音的指示的全部全方位麦克风阵列装置开始声音的收音。另外，在多个麦克风切换方法为自动的情况下，麦克风切换模式是使用于是否切换全方位麦克风阵列装置的处理的控制用的标志。

动作切换控制部38使用声源检测部34d算出的当前使用中的全方位麦克风阵列装置M1与人物HM1的距离信息，判定人物HM1是否超过了全方位麦克风阵列装置M1的收音区域M1RN(S35)。声源检测部34d在判定为人物HM1超过了全方位麦克风阵列装置M1的收音区域M1RN的情况下(S35为“是”)，通过步骤S34的指示，基于由与当前使用中的全方位麦克风阵列装置M1建立对应的能够切换的全部全方位麦克风阵列装置收音到的声音的强度或音量等级，算出作为监视对象物的人物HM1的位置(声源的位置)(S36)。

动作切换控制部38使用声源检测部34d的声源检测结果，选择与当前使用中的全方位麦克风阵列装置M1建立对应的能够切换的全部全方位麦克风阵列装置中的、作为监视对象物的人物HM1的位置(声源的位置)与全方位麦克风阵列装置的距离的差异成为最小的一个全方位麦克风阵列装置(例如全方位麦克风阵列装置M2)，将用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置从全方位麦克风阵列装置M1切换为全方位麦克风阵列装置M2(S37)。由此，输出控制部34b将声音的指向性切换为从切换后的全方位麦克风阵列装置M2向步骤S36中算出的声源的位置的方向(S37)。

另一方面，在通过动作切换控制部38将麦克风切换模式设定为断开的情况下(S33为“否”)，或者判定为人物HM1未超过全方位麦克风阵列装置M1的收音区域M1RN的情况下(S35为“否”)，图30(A)所示的全方位麦克风阵列装置的自动切换处理结束，进入例如图10(B)所示的步骤S3B-2。另外，可以在图30(A)所示的全方位麦克风阵列装置的自动切换处理结束之后，开始图29(A)所示的相机装置的自动切换处理。

接下来，参照图30(B)，说明指向性控制装置3B的麦克风切换判定处理。图30(B)是表示图30(A)所示的麦克风切换判定处理的一例的流程图。

在图30(B)中，动作切换控制部38将麦克风切换模式设定为断开(S32-1)。动作切换控制部38使用当前使用中的全方位麦克风阵列装置M1和人物HM1的距离信息，判定步骤S31中算出的追踪位置A1是否超过了当前使用中的全方位麦克风阵列装置M1的预定的切换判定线JM1(S32-2)。

动作切换控制部38在判定为追踪位置A1超过了当前使用中的全方位麦克风阵列装置M1的预定的切换判定线JM1的情况下(S32-2为“是”)，将麦克风切换模式设定为接通(S32-3)。

在步骤S32-3之后，或者判定为追踪位置A1未超过当前使用中的全方位麦克风阵列装置M1的预定的切换判定线JM1的情况下(S32-2为“否”)，图30(B)所示的麦克风切换判定处理结束，进入图30(A)所示的步骤S33。

接下来，参照图31(A)，说明本实施方式的指向性控制系统100B的相机装置的手动切换处理。图31(A)是说明第二实施方式的指向性控制系统100B的相机装置的手动切换处理的一例的流程图。图31(A)所示的指向性控制系统100B的相机装置的手动切换处理接着图9(A)、图9(B)或图10(A)所示的步骤S1进行。

在图31(A)中，对于显示器装置35，在根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而输入用于切换相机装置的指示时(S41)，输出控制部34b在人物HM1的图像的拍摄中，将由当前使用中的相机装置C1拍摄到的图像的追踪画面TRW切换成包括相机装置C1的相机画面C1W和相机装置C1的周边的相机装置(例如8台相机装置)的相机画面的多相机画面(S42)。

在步骤S42中，对于显示器装置35上显示的多相机画面，使用者在考虑了作为监视对象物的人物HM1的移动方向MV1的基础上(参照图26)，例如利用手指FG通过触摸操作而选择任一相机画面(S43)。

动作切换控制部38根据使用者的手指FG的触摸操作，将用于拍摄人物HM1的图像的相机装置从当前使用中的相机装置C1切换为在步骤S43中成为触摸操作的对象的相机画面C3W所对应的相机装置C3(S44)。由此，图31(A)所示的相机装置的手动切换处理结束，进入图31(B)、图32(A)或图32(B)所示的步骤S45、S51、S61或S71中的任一步骤。

接下来，参照图31(B)，说明本实施方式的指向性控制系统100B的全方位麦克风阵列装置的手动切换处理。图31(B)是说明第二实施方式的指向性控制系统100B的全方位麦克风阵列装置的手动切换处理的一例的流程图。

在图31(B)中，当根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而输入用于切换全方位麦克风阵列装置的指示时(S45)，输出控制部34b在追踪画面TRW上显示出表示从当前使用中的全方位麦克风阵列装置M1能够切换的全方位麦克风阵列装置(例如，全方位麦克风阵列装置M2、M3、M4)的概略位置的记号(例如记号M2R、M3R、M4R)(S46)。

使用者在考虑了从作为监视对象物的人物HM1的追踪位置A1起的移动方向MV1的基础上，通过使用者的手指FG的触摸操作，选择3个记号中的任一记号(例如记号M3R)(S47，参照图27)。动作切换控制部38对于通过使用者的手指FG的触摸操作而从当前使用中的全方位麦克风阵列装置M1中选择的与记号M3R对应的全方位麦克风阵列装置M3，经由通信部31及网络NW而指示收音的开始(S47)。

输出控制部34b将指向性切换为从步骤S47中选择的记号M3R所对应的全方位麦克风阵列装置M3向当前时刻的人物HM1的追踪位置的方向(S48)。而且，输出控制部34b将表示追踪画面TRW上显示的全方位麦克风阵列装置M2、M3、M4的概略位置的记号M2R、M3R、M4R消去(S48)。

在步骤S48之后，图31(B)所示的全方位麦克风阵列装置的手动切换处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S2。另外，在图31(B)所示的全方位麦克风阵列装置的手动切换处理之后，可以进行图31(A)所示的相机装置的手动切换处理。

接下来，参照图32(A)、图32(B)及图33，说明本实施方式的指向性控制系统100B的最佳的全方位麦克风阵列装置的选择处理。图32(A)是说明第二实施方式的指向性控制系统100B的最佳的全方位麦克风阵列装置的选择处理的第一例的流程图。图32(B)是说明第二实施方式的指向性控制系统100B的最佳的全方位麦克风阵列装置的选择处理的第二例的流程图。图33是说明第二实施方式的指向性控制系统100B的最佳的全方位麦克风阵列装置的选择处理的第三例的流程图。

在图32(A)中，在显示器装置35显示的追踪画面TRW上，当根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定作为监视对象物的人物HM1的移动方向上的位置(与追踪点对应的追踪位置)时(S51)，将与该指定位置相关的信息(例如坐标)向动作切换控制部38输入(S52)。

动作切换控制部38算出从各全方位麦克风阵列装置到步骤S51中指定的指定位置所对应的实际空间上的位置为止的各距离、即从各全方位麦克风阵列装置到作为监视对象物的人物HM1的各距离(S53)。

动作切换控制部38选择得到步骤S53中算出的各距离之中的最小距离的全方位麦克风阵列装置，对信号处理部34进行指示，以对于由该选择的全方位麦克风阵列装置收音到的声音的声音数据形成指向性(S54)。

信号处理部34的输出控制部34b根据步骤S54的指示，在从步骤S54中由动作切换控制部38选择的全方位麦克风阵列装置向作为监视对象物的人物HM1的位置的方向上形成声音的指向性，并将形成了指向性的声音从扬声器装置36输出(S55)。

由此，动作切换控制部38通过使用者简易地指定表示监视对象物(例如人物HM1)的移动方向的位置，能够选择将移动中的监视对象物(例如人物HM1)发出的声音可靠地收音的最佳的全方位麦克风阵列装置，能够高精度地对监视对象物(例如人物HM1)发出的声音进行收音。

另外，在步骤S55之后，图32(A)所示的最佳的全方位麦克风阵列装置的选择处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S2。另外，在图32(A)所示的最佳的全方位麦克风阵列装置的选择处理之后，可以进行图31(A)所示的相机装置的手动切换处理。

在图32(B)中，在显示器装置35显示的追踪画面TRW上，当根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而指定作为监视对象物的人物HM1的移动方向上的位置(与追踪点对应的追踪位置)时(S61)，将与该指定位置相关的信息(例如坐标)向动作切换控制部38输入。

图像处理部37对由当前使用中的相机装置(例如相机装置C1)拍摄到的图像数据进行预定的图像处理，由此检测作为监视对象物的人物HM1的脸部的朝向(S62)。图像处理部37将作为监视对象物的人物HM1的脸部的朝向的检测结果向动作切换控制部38输出。

动作切换控制部38使用与步骤S61中指定的指定位置相关的信息(例如表示图像数据上的位置的坐标)和步骤S62中从图像处理部37得到的人物HM1的脸部的朝向的检测结果，算出人物HM1的脸部的朝向、指定位置、各全方位麦克风阵列装置的关系(S63)。例如，动作切换控制部38算出步骤S61中指定的图像数据上的指定位置所对应的监视对象物(例如人物HM1)的位置与各全方位麦克风阵列装置的距离。

动作切换控制部38选择在沿着监视对象物(例如人物HM1)的脸部的朝向的方向上(例如水平方向45度以内)且得到步骤S61中指定的图像数据上的指定位置所对应的监视对象物(例如人物HM1)的位置与各全方位麦克风阵列装置的距离的最小值的全方位麦克风阵列装置(S64)。此外，动作切换控制部38对信号处理部34进行指示，以对于由步骤S64中选择的全方位麦克风阵列装置收音到的声音的声音数据形成指向性(S64)。

信号处理部34的输出控制部34b根据步骤S64的指示，在从步骤S64中选择的全方位麦克风阵列装置向作为监视对象物的人物HM1的位置的方向上形成声音的指向性，并将形成了指向性的声音从扬声器装置36输出(S65)。

由此，动作切换控制部38通过监视对象物(例如人物HM1)的图像数据上的脸部的朝向及监视对象物(例如人物HM1)与各全方位麦克风阵列装置的距离，能够选择将移动中的监视对象物(例如人物HM1)发出的声音可靠地收音的最佳的全方位麦克风阵列装置，能够高精度地对监视对象物(例如人物HM1)发出的声音进行收音。

另外，在步骤S65之后，图32(B)所示的最佳的全方位麦克风阵列装置的选择处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S2。另外，在图32(B)所示的最佳的全方位麦克风阵列装置的选择处理之后，也可以进行图31(A)所示的相机装置的手动切换处理。

在图33中，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，输出控制部34b将指向性控制系统100B管辖的全部相机装置的相机画面在显示器装置35上进行一览显示(S71)。在显示器装置35上一览显示的各相机画面之中的映出作为声音追踪处理的对象的监视对象物(例如人物HM1)的相机画面中，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，选择人物HM1的映现最良好的相机画面C1W(S72)。

动作切换控制部38根据步骤S72的使用者的相机画面的选择，选择并切换与相机画面对应的相机装置作为用于拍摄人物HM1的图像的相机装置。由此，输出控制部34b将由与相机画面对应的相机装置拍摄到的图像数据放大，显示在显示器装置35的追踪画面TRW1上(S73，参照图28的左下侧)。

输出控制部34b将表示与由动作切换控制部38选择的相机装置建立对应的全部全方位麦克风阵列装置的概略位置的记号(例如图28所示的记号M1R、M2R、M3R、M4R)显示于追踪画面TRW1的四个角(S74)。

当通过基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作而依次指定记号M1R、M2R、M3R、M4R时(S75)，输出控制部34b将1个个记号进行增强显示(例如闪亮Br)，并且对于各个记号，在从各记号所对应的全方位麦克风阵列装置向人物HM1的位置的方向上形成了指向性的基础上，将收音到的声音输出一定时间(S76)。

当使用者在输出一定时间的声音之中选择表示判断为最佳的全方位麦克风阵列装置的概略位置的记号(例如记号M3R)时，动作切换控制部38将选择的记号M3R所对应的全方位麦克风阵列装置M3选择并切换为用于对人物HM1发出的声音进行收音的全方位麦克风阵列装置(S77)。

另外，在步骤S77之后，图33所示的最佳的全方位麦克风阵列装置的选择处理结束，进入图9(A)、图9(B)或图10(A)所示的步骤S2。另外，在图33所示的最佳的全方位麦克风阵列装置的选择处理之后，可以进行图31(A)所示的相机装置的手动切换处理。

(第一实施方式的变形例)

在上述的各实施方式中，主要是单一的监视对象物(例如人物HM1)在图像数据上映出的情况下，说明了与作为该单一的监视对象物的人物HM1的移动对应的声音追踪处理。

在第一实施方式的变形例(以下，称为“本变形例”)中，说明第一实施方式或第二实施方式中的多个监视对象物(例如多个人物)出现在追踪画面TRW上的情况下在相同时机或不同时机指定多个人物的情况下的指向性控制系统100的动作例。另外，本变形例的指向性控制系统的系统结构例与第一或第二实施方式的指向性控制系统100、100A、100B相同，因此简化或省略系统结构例的说明，对不同的内容进行说明。以下，为了简化说明，参照指向性控制系统100的系统结构例进行说明。

参照图34及图35，说明本变形例的指向性控制系统100的动作例。图34是说明第一实施方式的变形例的指向性控制系统100的基于多个同时指定的手动追踪处理的整体流程的一例的流程图。图35是说明第一实施方式的变形例的指向性控制系统100的多个监视对象物的自动追踪处理的一例的流程图。在图35中，使用指向性控制装置3A、3B。

另外，在图34中，步骤S1的追踪模式的判定处理、步骤S2的追踪辅助处理、步骤S6的追踪连线处理及步骤S7的声音输出处理分别是例如图9(A)所示的步骤S1的追踪模式的判定处理、步骤S2的追踪辅助处理、图9(A)所示的步骤S6的追踪连线处理及图9(A)所示的步骤S7的声音输出处理，因此省略它们的说明。

在图34中，若追踪模式为断开(S1为“否”)，则图34所示的基于多个同时指定的手动追踪处理结束，但是在追踪模式为接通的情况下(S1为“是”)，在显示器装置35的追踪画面TRW上，通过基于使用者的鼠标操作的光标CSR的点击操作或使用者的手指FG的触摸操作，将从当前扬声器装置36输出(重放)的声音暂时停止(S81)。在步骤S81之后，进行追踪辅助处理(S2)。

在步骤S2之后，根据基于使用者的鼠标操作的光标CSR或使用者的手指FG的输入操作，同时指定多个与作为监视对象物的多个人物的移动过程(移动路径)的追踪位置对应的追踪点(S82)。

追踪处理部34c按照步骤S82中指定的作为监视对象物的各人物，对与追踪画面TRW上的多个指定位置对应的实际空间上的位置及指定时刻进行区别，分别作为追踪点的追踪位置及追踪时刻而建立对应并保存于存储器33(S83)。此外，追踪处理部34c经由输出控制部34b，按照作为监视对象物的各人物，区别为追踪画面TRW上的追踪点而显示点记号(S83)。

输出控制部34b在从当前使用中的全方位麦克风阵列装置(例如全方位麦克风阵列装置)M1向步骤S82中同时指定的多个作为监视对象物的各人物的追踪位置所对应的各人物的实际空间上的位置(声音位置、声源位置)的方向上形成收音声音的指向性(S84)。在步骤S84之后，进行追踪连线处理(S6)。

在步骤S6之后，输出控制部34b使步骤S81中暂时停止的声音从扬声器装置36的输出(重放)再次开始(S85)。在步骤S85之后，进行声音输出处理(S7)。在步骤S7之后，反复进行步骤S81到步骤S7的动作(步骤S81、S2、S82、S83、S84、S6、S85、S7的动作)直至指向性控制装置3B的追踪模式成为断开为止。

在图35中，在步骤S3之后，指向性控制装置3A、3B的图像处理部37进行公知的图像处理，由此在显示器装置35的追踪画面TRW上判定作为监视对象物的人物的检测的有无，在判定为检测到多个人物的情况下，将判定结果(包括各人物的检测位置(例如已知的代表点)及检测时刻的数据)作为自动指定结果，向信号处理部34的追踪处理部34c输出(S91)。而且，声源检测部34d进行公知的声源检测处理，由此在显示器装置35的追踪画面TRW上判定作为监视对象物的人物发出的声音(声源)的位置的检测的有无，在判定为检测到多个声源的位置的情况下，将判定结果(包括声源的检测位置及检测时刻的数据)作为自动指定结果，向追踪处理部34c输出(S91)。

追踪处理部34c使用步骤S91之前的1个以上的自动指定结果的推移，算出多个作为监视对象物的各人物的移动向量，推定各人物的移动方向(S91)。

追踪处理部34c使用步骤S91中的多个作为监视对象物的人物的移动方向的推定结果，将自动指定的多个追踪点所对应的追踪位置与上次的各自动指定结果建立对应，作为一对追踪位置而保存于存储器33(S92)。追踪处理部34c按照作为监视对象物的各人物，对追踪画面TRW上的各人物的指定位置及指定时刻进行区别，分别作为追踪点的追踪位置及追踪时刻而建立对应并保存于存储器33(S92)。而且，追踪处理部34c经由输出控制部34b，按照作为监视对象物的各人物，区别为追踪画面TRW上的追踪位置而显示点记号(S92)。

由此，无论显示器装置35的追踪画面TRW上的图像数据上映出的多个监视对象物(例如人物)如何移动，本变形例的指向性控制装置3、3A、3B都能将朝向各人物的移动前的位置的方向上形成的声音的指向性形成为朝向各人物的移动后的位置的方向，因此伴随着各人物的移动而能够追随并适当地形成声音的指向性，能够抑制监视者的监视业务的效率劣化。

以下，说明上述的本发明的指向性控制装置、指向性控制方法、存储介质及指向性控制系统的结构、作用及效果。

本发明的一实施方式涉及一种指向性控制装置，对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制，该指向性控制装置具备：指向性形成部，在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；及信息取得部，取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息，所述指向性形成部使用由所述信息取得部取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

在该结构中，指向性控制装置在从包括多个麦克风的第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成声音的指向性，而且，取得与对移动的监视对象物进行了指定的第二指定位置相关的信息。而且，指向性控制装置使用与显示部的图像上的第二指定位置相关的信息，将声音的指向性切换为向与第二指定位置对应的监视对象物的方向。

由此，即使显示部的图像上映出的监视对象物移动，指向性控制装置也能将朝向监视对象物的移动前的位置的方向上形成的声音的指向性形成为朝向监视对象物的移动后的位置的方向，因此能够伴随着监视对象物的移动而追随并适当地形成声音的指向性，能够抑制监视者的监视业务的效率劣化。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述信息取得部根据对在所述显示部的图像上移动的所述监视对象物的指定操作，取得与所述第二指定位置相关的信息。

根据该结构，指向性控制装置通过在显示部映出的图像上指定移动的监视对象物的简易的操作，能够容易地取得与监视对象物的移动后的位置相关的准确的信息。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：声源检测部，从所述显示部的图像中检测与所述监视对象物对应的声源位置；及图像处理部，从所述显示部的图像中检测所述监视对象物，所述信息取得部取得与由所述声源检测部检测到的所述声源位置相关的信息或者与由所述图像处理部检测到的所述监视对象物的位置相关的信息，作为与所述第二指定位置相关的信息。

根据该结构，指向性控制装置从显示部映出的图像中能够简易地检测监视对象物发出的声音的声源及监视对象物自身，因此能够容易地取得与声源的位置相关的信息或者与监视对象物的位置相关的信息，作为与监视对象物的移动后的位置相关的信息。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述声源检测部以在所述显示部的图像上指定的初始位置为中心，开始与所述监视对象物对应的声源位置的检测处理，所述图像处理部以所述初始位置为中心，开始所述监视对象物的检测处理。

根据该结构，指向性控制装置例如通过使用者的指定操作，以显示部映出的图像上指定的初始位置(例如监视对象物的位置)为中心，开始与声源的位置相关的信息或者与监视对象物的位置相关的信息的检测处理，因此能够高速地进行声源的位置的检测处理或监视对象物的位置的检测处理。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述信息取得部根据与由所述声源检测部检测到的所述声源位置相关的信息或者与由所述图像处理部检测到的所述监视对象物的位置相关的信息的变更操作，取得与通过所述变更操作而指定的所述显示部的图像上的位置相关的信息，作为与所述第二指定位置相关的信息。

根据该结构，即使在通过声源的位置的检测处理或监视对象物的位置的检测处理而检测到的声源的位置或监视对象物的位置出错的情况下，指向性控制装置也能够容易地校正而取得例如与通过使用者的位置的变更操作在图像上指定的位置相关的信息，作为与监视对象物的移动后的位置相关的信息。

而且，本发明的一实施方式涉及指向性控制装置，其中，在由所述声源检测部检测到的所述声源位置与由所述图像处理部检测到的所述监视对象物的位置的距离为预定值以上的情况下，所述信息取得部根据与所述声源位置相关的信息或与所述监视对象物的位置相关的信息的变更操作，取得与通过所述变更操作而指定的所述显示部的图像上的位置相关的信息，作为与所述第二指定位置相关的信息。

根据该结构，若通过声源的位置的检测处理或监视对象物的位置的检测处理而检测到的声源的位置与监视对象物的位置的距离为预定值以上，则指向性控制装置例如通过使用者的位置的变更操作，能够容易地校正而取得与图像上指定的位置相关的信息，作为与监视对象物的移动后的位置相关的信息。而且，若通过声源的位置的检测处理或监视对象物的位置的检测处理而检测到的声源的位置与监视对象物的位置的距离不为预定值以上，则指向性控制装置不需要例如使用者的位置的变更操作，能够容易地取得声源的位置或监视对象物的位置作为与监视对象物的移动后的位置相关的信息。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：图像存储部，存储在一定期间拍摄到的图像；及图像重放部，将存储于所述图像存储部的所述图像在所述显示部重放，所述图像重放部通过预定的输入操作，以比重放速度的初始值小的速度值对所述图像进行重放。

根据该结构，在将拍摄了一定期间的图像作为影像在显示部重放的情况下，指向性控制装置通过使用者的预定的输入操作(例如慢动作重放的指示操作)，能够以比重放速度的初始值(例如影像的重放时使用的通常值)小的速度值进行慢动作重放。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备使拍摄到的图像显示于所述显示部的显示控制部，所述显示控制部根据向所述显示部的图像上的指定位置的指定，以所述指定位置为中心，以预定倍率使所述图像在同一画面上放大显示。

根据该结构，指向性控制装置例如通过使用者的简易的指定操作，以显示部映出的图像上的指定位置为中心，在同一画面内以预定倍率将图像放大显示，因此在同一画面上能够简化使用者的监视对象物的指定操作。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备使拍摄到的图像显示于所述显示部的显示控制部，所述显示控制部根据向所述显示部的图像上的指定位置的指定，以所述指定位置为中心，以预定倍率使所述图像在其他画面上放大显示。

根据该结构，指向性控制装置例如通过使用者的简易的指定操作，以显示部映出的图像上的指定位置为中心，在不同的画面内以预定倍率将图像放大显示，因此将未放大显示的画面与放大显示的画面对比而能够让使用者简易地指定监视对象物。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备使拍摄到的图像显示于所述显示部的显示控制部，所述显示控制部根据预定的输入操作，以所述显示部的中心为基准，以预定倍率对所述图像进行放大显示。

根据该结构，指向性控制装置例如通过使用者的简易的指定操作，以显示部的中心为基准，以预定倍率将图像放大显示，因此例如在显示部的中心附近映现监视对象物的情况下，能够让使用者简易地指定监视对象物。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述显示控制部根据所述监视对象物的移动，在所述图像被放大显示的画面上所述指定位置超过了预定的滚动判定线的情况下，使所述画面向超过了所述滚动判定线的方向滚动预定量。

根据该结构，在通过放大显示的画面上映出的监视对象物移动而使用者的指定位置超过了滚动判定线的情况下，指向性控制装置使画面向超过了滚动判定线的方向自动地滚动预定量，因此即使在画面被放大显示的情况下，也能够防止使用者的监视对象物的指定位置从画面脱离。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述显示控制部根据所述监视对象物的移动，在所述图像被放大显示的画面上所述指定位置超过了预定的滚动判定线的情况下，滚动所述画面以使所述指定位置成为中心。

根据该结构，在通过放大显示的画面上映出的监视对象物移动而使用者的指定位置超过了滚动判定线的情况下，指向性控制装置自动地滚动画面以使用者的指定位置成为画面的中心，因此即使在画面被放大显示的情况下，也能够防止使用者的监视对象物的指定位置从画面脱离，而且，能够简易地指定持续移动的画面上的监视对象物。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述显示控制部在所述图像被放大显示的画面上，滚动所述画面以使所述指定位置成为所述画面的中心。

根据该结构，指向性控制装置通过放大显示的画面上映出的监视对象物移动，自动地滚动画面以使用者的指定位置始终成为画面的中心，因此即使在画面被放大显示的情况下，也能够防止使用者的监视对象物的指定位置从画面脱离，而且，能够简易地指定持续移动的画面上的监视对象物。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述图像处理部根据预定的输入操作，对所述显示部的图像上的所述监视对象物的一部分进行掩蔽处理。

根据该结构，指向性控制装置例如通过使用者的简易的输入操作而对显示部的画面映出的监视对象物(例如人物)的一部分(例如脸部)进行掩蔽处理，因此监视对象物的人物是谁难以分辨，由此能够有效地保护隐私。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备使声音输出部输出由所述第一收音部收音到的声音的声音输出控制部，所述声音输出控制部根据预定的输入操作，对由所述第一收音部收音到的声音进行变声处理而使所述声音输出部输出。

根据该结构，指向性控制装置例如通过使用者的简易的输入操作，对由第一收音部实时收音的声音进行变声处理而进行声音输出，因此难以分辨监视对象物(例如人物)发出的声音是谁的声音，由此能够有效地保护当前拍摄的监视对象物的人物的声音上的隐私。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：声音存储部，存储由所述第一收音部在一定期间收音到的声音；及声音输出控制部，使声音输出部输出存储于所述声音存储部的所述声音，所述声音输出控制部根据预定的输入操作，对由所述第一收音部收音到的声音进行变声处理而使所述声音输出部输出。

根据该结构，在例如通过使用者的简易的输入操作而对由第一收音部在一定期间收音到的声音进行声音输出的情况下，指向性控制装置对声音实施变声处理而进行声音输出，因此难以分辨监视对象物(例如人物)发出的声音是谁的声音，由此能够有效地保护监视对象物的人物的声音上的隐私。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备显示控制部，该显示控制部在根据所述监视对象物的移动而指定的1个以上的所述显示部的图像上的指定位置显示预定的记号。

根据该结构，例如在进行了使用者指定显示部映出的监视对象物的指定操作的情况下，指向性控制装置在显示部的画面上指定的指定位置处显示预定的记号，因此能够将移动中的监视对象物通过的位置作为轨迹明确地表示。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备显示控制部，该显示控制部对根据所述监视对象物的移动而指定的所述显示部的图像上的2个以上的指定位置中的至少当前指定位置和前一个指定位置进行连线并显示。

根据该结构，指向性控制装置对在显示部的画面上映出的监视对象物移动的情况下通过使用者的指定操作而指定的多个指定位置中的、至少当前指定位置与前一个指定位置进行连线显示，因此能够明确地表示监视对象物的移动的一部分的轨迹。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备显示控制部，该显示控制部对于根据所述监视对象物的移动而指定的所述显示部的图像上的全部指定位置，显示对与各指定位置相邻的1个或2个指定位置进行连线而得到的动作路线。

根据该结构，指向性控制装置对于在显示部的画面上映出的监视对象物移动的情况下通过使用者的指定操作而指定的多个指定位置全部，将与各指定位置相邻的1个或2个指定位置连线并显示，因此能够明确地表示监视对象物的移动的全部轨迹。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：指定列表存储部，存储包括所述显示部的图像上的全部指定位置及指定时刻的数据的指定列表；及重放时刻计算部，根据对由所述显示控制部显示的所述全部指定位置进行连线的动作路线上的任意位置的指定，使用存储于所述指定列表存储部的所述指定列表，算出所述动作路线上的指定位置的所述声音的重放开始时刻，所述指向性形成部使用与由所述重放时刻计算部算出的所述声音的重放开始时刻最接近的所述指定时刻所对应的所述指定位置的数据，形成所述声音的指向性。

在该结构中，在监视对象物的移动中由使用者指定的全部指定位置连线并显示的情况下，指向性控制装置算出根据动作路线上的任意的使用者指定而指定的位置的收音声音的重放开始时刻，对应于与该重放时刻最接近的监视对象物的移动中指定的任一指定时刻而形成声音的指向性。

由此，指向性控制装置根据对于表示监视对象物的移动的轨迹的动作路线上使用者任意指定的位置(任意指定位置)，在朝向任意指定位置的接着指定的指定位置(追踪位置)的方向上能够事先形成声音的指向性。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：声音存储部，存储由所述第一收音部在一定期间收音到的声音；及声音输出控制部，使声音输出部输出存储于所述声音存储部的所述声音，所述声音输出控制部在由所述重放时刻计算部算出的所述声音的重放开始时刻，使所述声音输出部输出所述声音，在从所述声音的重放开始时刻起的预定时间内存在下一指定时刻的情况下，所述指向性形成部使用与所述下一指定时刻对应的所述指定位置的数据，形成所述声音的指向性。

在该结构中，指向性控制装置将根据动作路线上的任意的使用者指定而指定的位置的声音的重放开始时刻的声音重放，在从该声音的重放时刻起的预定时间内，在监视对象物的移动中存在由使用者指定的下一指定时刻的情况下，使用与下一指定时刻对应的指定位置的数据，形成声音的指向性。

由此，指向性控制装置能够明确地输出根据使用者的任意指定位置而算出的重放开始时刻的监视对象物发出的收音声音，在从重放开始时刻起的预定时间内存在下一指定位置的情况下，能够事先形成下一指定位置的声音的指向性。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备动作切换控制部，在所述监视对象物超过了与用于向所述显示部显示图像的第一拍摄部对应的预定的切换范围的情况下，该动作切换控制部将用于向所述显示部显示图像的拍摄部从所述第一拍摄部切换为第二拍摄部。

在该结构中，在移动中的监视对象物超过了与用于向显示部显示图像的第一拍摄部对应的预定的切换范围的情况下，指向性控制装置将用于向显示部显示图像的拍摄部从第一拍摄部切换为第二拍摄部。

由此，指向性控制装置能够适应性地切换为将移动中的监视对象物的图像可靠地映出的拍摄部，能够简易地指定使用者的监视对象物的图像。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备动作切换控制部，在所述监视对象物超过了与所述第一收音部对应的预定的切换范围的情况下，该动作切换控制部将用于对所述监视对象物的声音进行收音的收音部从所述第一收音部切换为第二收音部。

在该结构中，在移动中的监视对象物超过了与用于对监视对象物的声音进行收音的第一收音部对应的预定的切换范围的情况下，指向性控制装置将用于对监视对象物的声音进行收音的收音部从第一收音部切换为第二收音部。

由此，指向性控制装置能够适应性地切换为将移动中的监视对象物发出的声音可靠地收音的收音部，能够高精度地对监视对象物发出的声音进行收音。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：显示控制部，根据预定的输入操作，对由多个拍摄部拍摄到的各图像以不同的画面在所述显示部上进行一览显示；及动作切换控制部，根据通过所述显示控制部在所述显示部上一览显示的各画面中的、预定的能够选择的画面中的任一画面的选择操作，选择用于向所述显示部显示所述监视对象物的图像的拍摄部。

在该结构中，指向性控制装置将用于向显示部显示图像的拍摄部切换成使用者根据监视对象物的移动方向从显示部上一览显示的多个不同的画面中指定的画面所对应的拍摄部。

由此，指向性控制装置通过使用者的简易的操作，能够适应性地切换为将移动中的监视对象物的图像可靠地映出的拍摄部，能够简易地指定使用者的监视对象物的图像。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备：显示控制部，根据预定的输入操作，将表示能够从所述第一收音部切换的周围的多个收音部的概略位置的记号显示于所述显示部；及动作切换控制部，根据通过所述显示控制部显示于所述显示部的多个所述记号中的任一记号的选择操作，将用于对所述监视对象物的声音进行收音的收音部从所述第一收音部切换为与选择的所述记号对应的其他收音部。

在该结构中，指向性控制装置例如通过使用者的输入操作，将表示从第一收音部能够切换的周围的多个收音部的概略位置的记号显示于显示部，根据由使用者选择的任一记号，将用于对监视对象物的声音进行收音的收音部从第一收音部切换为与选择的记号对应的其他收音部。

由此，指向性控制装置通过使用者的简易的操作，能够适应性地切换为将移动中的监视对象物发出的声音可靠地收音的收音部，能够高精度地对监视对象物发出的声音进行收音。

而且，本发明的一实施方式涉及指向性控制装置，其中，所述动作切换控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，从包括所述第一收音部在内的多个收音部中选择距所述监视对象物的距离最近的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

在该结构中，指向性控制装置根据由选择的拍摄部拍摄到的监视对象物的图像上的位置指定，从包括第一收音部在内的多个收音部中选择距监视对象物的距离最近的收音部，作为用于对监视对象物的声音进行收音的收音部。

由此，指向性控制装置通过使用者简易地指定表示监视对象物的移动方向的位置，能够选择将移动中的监视对象物发出的声音可靠地收音的最佳的收音部，能够高精度地对监视对象物发出的声音进行收音。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备从所述显示部的图像中检测所述监视对象物的脸部的朝向的图像处理部，所述动作切换控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，在与由所述图像处理部检测到的所述监视对象物的脸部的朝向对应的方向上，从包括所述第一收音部在内的多个收音部中选择距所述监视对象物的距离最近的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

在该结构中，指向性控制装置根据由选择的拍摄部拍摄到的监视对象物的图像上的位置指定，选择存在于该图像上的监视对象物的脸部的朝向表示的方向上且包括第一收音部在内的多个收音部中距监视对象物的距离最近的收音部，作为用于对监视对象物的声音进行收音的收音部。

由此，指向性控制装置根据监视对象物的图像上的脸部的朝向及监视对象物与收音部的距离，能够选择将移动中的监视对象物发出的声音可靠地收音的最佳的收音部，能够高精度地对监视对象物发出的声音进行收音。

而且，本发明的一实施方式涉及指向性控制装置，其中，还具备使声音输出部输出由所述第一收音部收音到的声音的声音输出控制部，所述显示控制部使表示包括与由所述动作切换控制部选择的所述拍摄部建立对应的所述第一收音部在内的多个收音部的概略位置的记号显示于所述显示部，所述声音输出控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，将在从与显示于所述显示部的各记号对应的所述收音部向所述监视对象物的方向上形成了指向性的声音依次输出预定时间，所述动作切换控制部根据基于由所述声音输出控制部输出的声音的任一所述记号的选择操作，选择与所选择的记号对应的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

在该结构中，指向性控制装置将表示包括与选择的拍摄部建立对应的第一收音部的多个收音部的概略位置的记号显示于显示部，根据移动中的监视对象物的图像上的位置指定，将从各记号所对应的收音部向监视对象物的方向上形成了指向性的声音依次输出预定时间，此外，将与选择的任一记号对应的收音部选择为用于对监视对象物的声音进行收音的收音部。

由此，指向性控制装置能够将与选择的拍摄部建立对应的多个收音部中形成了不同指向性的收音声音输出一定时间，因此，通过使用者进行选择判断为最佳的收音声音的简易的操作，能够选择将移动中的监视对象物发出的声音可靠地收音的最佳的收音部，能够高精度地对监视对象物发出的声音进行收音。

而且，本发明的一实施方式涉及一种指向性控制方法，是对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的指向性控制方法，该指向性控制方法包括以下步骤：在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息；及使用取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

在该方法中，指向性控制装置在从包括多个麦克风的第一收音部向显示部的图像上的第一指定位置所对应的监视对象物的方向上形成声音的指向性，而且，取得与指定了移动的监视对象物的第二指定位置相关的信息。而且，指向性控制装置使用与显示部的图像上的第二指定位置相关的信息，将声音的指向性切换为向与第二指定位置对应的监视对象物的方向。

由此，即使显示部的图像上映出的监视对象物移动，指向性控制装置也将朝向监视对象物的移动前的位置的方向上形成的声音的指向性形成为朝向监视对象物的移动后的位置的方向，因此能够伴随着监视对象物的移动而追随并适当地形成声音的指向性，能够抑制监视者的监视业务的效率劣化。

而且，本发明的一实施方式涉及一种存储介质，存储有执行对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的处理的程序，所述存储介质存储有执行如下步骤的程序：在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息；及使用取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

存储于该存储介质的程序能够执行的指向性控制装置在从包括多个麦克风的第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成声音的指向性，而且，取得与对移动的监视对象物进行指定的第二指定位置相关的信息。而且，指向性控制装置使用与显示部的图像上的第二指定位置相关的信息，将声音的指向性切换为向与第二指定位置对应的监视对象物的方向。

而且，本发明的一实施方式涉及一种指向性控制系统，具备：拍摄部，对收音区域进行拍摄；第一收音部，包括多个麦克风且对所述收音区域的声音进行收音；及指向性控制装置，对由所述第一收音部收音到的声音的指向性进行控制，所述指向性控制装置具备：指向性形成部，在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；及信息取得部，取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息，所述指向性形成部使用由所述信息取得部取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

在该系统中，指向性控制装置在从包括多个麦克风的第一收音部向显示部的图像上的第一指定位置所对应的监视对象物的方向上形成声音的指向性，而且，取得与指定了移动的监视对象物的第二指定位置相关的信息。而且，指向性控制装置使用与显示部的图像上的第二指定位置相关的信息，将声音的指向性切换为向与第二指定位置对应的监视对象物的方向。

由此，在指向性控制系统中，即使显示部的图像上映出的监视对象物移动，指向性控制装置也将朝向监视对象物的移动前的位置的方向上形成的声音的指向性形成为朝向监视对象物的移动后的位置的方向，因此能够伴随着监视对象物的移动而追随并适当地形成声音的指向性，能够抑制监视者的监视业务的效率劣化。

以上，参照附图，说明了各种实施方式，但是本发明当然没有限定为上述例子。若是本领域技术人员，则在权利要求书记载的范畴内，当然能想到各种变更例或校正例，关于这些当然也属于本发明的技术范围。

工业实用性

本发明作为即使图像上的监视对象物移动也能追随并适当地形成对于监视对象物的声音的指向性并且抑制监视者的监视业务的效率劣化的指向性控制装置、指向性控制方法、存储介质及指向性控制系统是有用的。

附图标记说明

3、3A、3B指向性控制装置

4记录器装置

31通信部

32操作部

33存储器

34、34A信号处理部

34a指向方向计算部

34b输出控制部

34c追踪处理部

34d声源检测部

35显示器装置

36扬声器装置

37图像处理部

38动作切换控制部

100、100A、100B指向性控制系统

C1、Cn相机装置

C1RN、C2RN拍摄区域

JC1、JM1切换判定线

JDL滚动判定线

LN1、LN2、LNR、LNW追踪线

LST追踪列表

NW网络

M1、Mm全方位麦克风阵列装置

MR1、MR2、MR2W、MR2R、MR3点记号

TP1、TP2追踪点

TRW追踪画面

Claims

1.一种指向性控制装置，对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制，所述指向性控制装置具备：

指向性形成部，在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；及

信息取得部，取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息，

所述指向性形成部使用由所述信息取得部取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

2.根据权利要求1所述的指向性控制装置，其中，

所述信息取得部根据对在所述显示部的图像上移动的所述监视对象物的指定操作，取得与所述第二指定位置相关的信息。

3.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备：

声源检测部，从所述显示部的图像中检测与所述监视对象物对应的声源位置；及

图像处理部，从所述显示部的图像中检测所述监视对象物，

所述信息取得部取得与由所述声源检测部检测到的所述声源位置相关的信息或者与由所述图像处理部检测到的所述监视对象物的位置相关的信息，作为与所述第二指定位置相关的信息。

4.根据权利要求3所述的指向性控制装置，其中，

所述声源检测部以在所述显示部的图像上指定的初始位置为中心，开始与所述监视对象物对应的声源位置的检测处理，

所述图像处理部以所述初始位置为中心，开始所述监视对象物的检测处理。

5.根据权利要求3所述的指向性控制装置，其中，

所述信息取得部根据与由所述声源检测部检测到的所述声源位置相关的信息或者与由所述图像处理部检测到的所述监视对象物的位置相关的信息的变更操作，取得与通过所述变更操作而指定的所述显示部的图像上的位置相关的信息，作为与所述第二指定位置相关的信息。

6.根据权利要求3所述的指向性控制装置，其中，

在由所述声源检测部检测到的所述声源位置与由所述图像处理部检测到的所述监视对象物的位置的距离为预定值以上的情况下，所述信息取得部根据与所述声源位置相关的信息或与所述监视对象物的位置相关的信息的变更操作，取得与通过所述变更操作而指定的所述显示部的图像上的位置相关的信息，作为与所述第二指定位置相关的信息。

7.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备：

图像存储部，存储在一定期间拍摄到的图像；及

图像重放部，将存储于所述图像存储部的所述图像在所述显示部重放，

所述图像重放部通过预定的输入操作，以比重放速度的初始值小的速度值对所述图像进行重放。

8.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备使拍摄到的图像显示于所述显示部的显示控制部，

所述显示控制部根据向所述显示部的图像上的指定位置的指定，以所述指定位置为中心，以预定倍率使所述图像在同一画面上放大显示。

9.根据权利要求1所述的指向性控制装置，其中，

所述显示控制部根据向所述显示部的图像上的指定位置的指定，以所述指定位置为中心，以预定倍率使所述图像在其他画面上放大显示。

10.根据权利要求1所述的指向性控制装置，其中，

所述显示控制部根据预定的输入操作，以所述显示部的中心为基准，以预定倍率对所述图像进行放大显示。

11.根据权利要求8所述的指向性控制装置，其中，

所述显示控制部根据所述监视对象物的移动，在所述图像被放大显示的画面上所述指定位置超过了预定的滚动判定线的情况下，使所述画面向超过了所述滚动判定线的方向滚动预定量。

12.根据权利要求8所述的指向性控制装置，其中，

所述显示控制部根据所述监视对象物的移动，在所述图像被放大显示的画面上所述指定位置超过了预定的滚动判定线的情况下，滚动所述画面以使所述指定位置成为中心。

13.根据权利要求8所述的指向性控制装置，其中，

所述显示控制部在所述图像被放大显示的画面上，滚动所述画面以使所述指定位置成为所述画面的中心。

14.根据权利要求3所述的指向性控制装置，其中，

所述图像处理部根据预定的输入操作，对所述显示部的图像上的所述监视对象物的一部分进行掩蔽处理。

15.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备使声音输出部输出由所述第一收音部收音到的声音的声音输出控制部，

所述声音输出控制部根据预定的输入操作，对由所述第一收音部收音到的声音进行变声处理而使所述声音输出部输出。

16.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备：

声音存储部，存储由所述第一收音部在一定期间收音到的声音；及

声音输出控制部，使声音输出部输出存储于所述声音存储部的所述声音，

17.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备显示控制部，所述显示控制部在根据所述监视对象物的移动而指定的1个以上的所述显示部的图像上的指定位置显示预定的记号。

18.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备显示控制部，所述显示控制部对根据所述监视对象物的移动而指定的所述显示部的图像上的2个以上的指定位置中的至少当前指定位置和前一个指定位置进行连线并显示。

19.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备显示控制部，所述显示控制部对于根据所述监视对象物的移动而指定的所述显示部的图像上的全部指定位置，显示对与各指定位置相邻的1个或2个指定位置进行连线而得到的动作路线。

20.根据权利要求19所述的指向性控制装置，其中，

所述指向性控制装置还具备：

指定列表存储部，存储包括所述显示部的图像上的全部指定位置及指定时刻的数据的指定列表；及

重放时刻计算部，根据对由所述显示控制部显示的所述全部指定位置进行连线的动作路线上的任意位置的指定，使用存储于所述指定列表存储部的所述指定列表，算出所述动作路线上的指定位置的所述声音的重放开始时刻，

所述指向性形成部使用与由所述重放时刻计算部算出的所述声音的重放开始时刻最接近的所述指定时刻所对应的所述指定位置的数据，形成所述声音的指向性。

21.根据权利要求20所述的指向性控制装置，其中，

所述指向性控制装置还具备：

所述声音输出控制部在由所述重放时刻计算部算出的所述声音的重放开始时刻，使所述声音输出部输出所述声音，

在从所述声音的重放开始时刻起的预定时间内存在下一指定时刻的情况下，所述指向性形成部使用与所述下一指定时刻对应的所述指定位置的数据，形成所述声音的指向性。

22.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备动作切换控制部，在所述监视对象物超过了与用于向所述显示部显示图像的第一拍摄部对应的预定的切换范围的情况下，所述动作切换控制部将用于向所述显示部显示图像的拍摄部从所述第一拍摄部切换为第二拍摄部。

23.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备动作切换控制部，在所述监视对象物超过了与所述第一收音部对应的预定的切换范围的情况下，所述动作切换控制部将用于对所述监视对象物的声音进行收音的收音部从所述第一收音部切换为第二收音部。

24.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备：

显示控制部，根据预定的输入操作，对由多个拍摄部拍摄到的各图像以不同的画面在所述显示部上进行一览显示；及

动作切换控制部，根据通过所述显示控制部在所述显示部上一览显示的各画面中的、预定的能够选择的画面中的任一画面的选择操作，选择用于向所述显示部显示所述监视对象物的图像的拍摄部。

25.根据权利要求1所述的指向性控制装置，其中，

所述指向性控制装置还具备：

显示控制部，根据预定的输入操作，将表示能够从所述第一收音部切换的周围的多个收音部的概略位置的记号显示于所述显示部；及

动作切换控制部，根据通过所述显示控制部显示于所述显示部的多个所述记号中的任一记号的选择操作，将用于对所述监视对象物的声音进行收音的收音部从所述第一收音部切换为与选择的所述记号对应的其他收音部。

26.根据权利要求24所述的指向性控制装置，其中，

所述动作切换控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，从包括所述第一收音部在内的多个收音部中选择距所述监视对象物的距离最近的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

27.根据权利要求24所述的指向性控制装置，其中，

所述指向性控制装置还具备从所述显示部的图像中检测所述监视对象物的脸部的朝向的图像处理部，

所述动作切换控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，在与由所述图像处理部检测到的所述监视对象物的脸部的朝向对应的方向上，从包括所述第一收音部在内的多个收音部中选择距所述监视对象物的距离最近的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

28.根据权利要求24所述的指向性控制装置，其中，

所述显示控制部使表示包括与由所述动作切换控制部选择的所述拍摄部建立对应的所述第一收音部在内的多个收音部的概略位置的记号显示于所述显示部，

所述声音输出控制部根据由所述动作切换控制部所选择的所述拍摄部拍摄到的所述监视对象物的图像上的位置的指定，将在从与显示于所述显示部的各记号对应的所述收音部向所述监视对象物的方向上形成了指向性的声音依次输出预定时间，

所述动作切换控制部根据基于由所述声音输出控制部输出的声音的任一所述记号的选择操作，选择与所选择的记号对应的收音部，作为用于对所述监视对象物的声音进行收音的收音部。

29.一种指向性控制方法，是对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的指向性控制方法，所述指向性控制方法包括以下步骤：

在从所述第一收音部向与显示部的图像上的第一指定位置对应的监视对象物的方向上形成所述声音的指向性；

取得与根据所述监视对象物的移动而指定的所述显示部的图像上的第二指定位置相关的信息；及

使用取得的与所述第二指定位置相关的信息，将所述声音的指向性切换为向与所述第二指定位置对应的所述监视对象物的方向。

30.一种存储介质，存储有执行对由包括多个麦克风的第一收音部收音到的声音的指向性进行控制的指向性控制装置的处理的程序，所述存储介质存储有执行如下步骤的程序：

31.一种指向性控制系统，具备：

拍摄部，对收音区域进行拍摄；

第一收音部，包括多个麦克风且对所述收音区域的声音进行收音；及

指向性控制装置，对由所述第一收音部收音到的声音的指向性进行控制，

所述指向性控制装置具备：