JP2014143678A

JP2014143678A - 音声処理システム及び音声処理方法

Info

Publication number: JP2014143678A
Application number: JP2013252468A
Authority: JP
Inventors: Hirotaka Sawa; 裕隆澤; Shinichi Shigenaga; 信一重永; Tadamichi Tokuda; 肇道徳田; Shintaro Yoshikuni; 信太郎吉國; Shuichi Watanabe; 周一渡辺; Tadashi Maki; 直史牧; Koichi Tasaka; 浩一田坂; Susumu Ono; 進小野; Keisuke Fujimoto; 圭祐藤本; Shojiro Matsuo; 正治郎松尾
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2012-12-27
Filing date: 2013-12-05
Publication date: 2014-08-07
Also published as: CN104904236B; US10536681B2; EP2941013A4; US20180115760A1; US20180115759A1; WO2014103331A1; CN104904236A; US10244219B2; US20150350621A1; EP2941013A1; EP2941013B1; US9826211B2

Abstract

【課題】記録された映像データ及び音声データの再生中において、任意の再生時間に対する映像中の音声データを強調して出力する。
【解決手段】レコーダ４５は、使用者から再生したい映像の指定を受け付ける。信号処理部５０は、レコーダ４５で映像の再生中或いは一時停止中、映像が表示されたディスプレイ６３の画面に対し、操作部５５を介してユーザから音声強調の１つ以上の指定箇所の指定を受け付けると、音声データを強調処理、即ち、レコーダ４５に記録されている音声データを用いて、マイクアレイ２０から、指定された指定箇所に対応する位置に向かう方向の音声データを強調する。再生装置６０は、強調処理された音声データと映像データとを同期させて再生する。
【選択図】図１

Description

本発明は、記録された映像データ及び音声データを再生する音声処理システム及び音声処理方法に関する。

従来、工場、店舗（例えば小売店、銀行）或いは公共の場（例えば図書館）に設置される監視システムでは、ネットワークを用いて、複数の監視カメラ（例えばパンチルトカメラ、全方位カメラ）を接続することで、監視対象の周囲の映像データ（静止画像及び動画像を含む。以下同様）の高画質化及び広画角化が図られている。

また、映像だけの監視では得られる情報量がどうしても限界があるため、監視カメラの他にマイクロホンも配置することで、監視対象の周囲の映像データ及び音声データを得るという監視システムも、近年登場している。

監視対象の周囲の音声データを得る先行技術として、撮像画像を得る撮像部と、音声データを収音する複数のマイクロホン（収音部）とを有し、各マイクロホンが収音した音声データを用いて、クライアントとしてのサウンド再生装置から指定された所定の収音方向に指向性を有する音声データを生成するサウンド処理装置が知られている（例えば特許文献１参照）。

特許文献１では、サウンド処理装置は、複数の収音部（マイクロホン）が収音した音声データを、ネットワークを介して接続されているクライアント（サウンド再生装置）から予め受けた所定の収音方向の制御命令を基に合成して、同方向に指向性を有する音声データを生成し、合成された音声データをクライアント（サウンド再生装置）に送信する。

特開２０００−２０９６８９号公報

特許文献１に示すサウンド処理装置を有人監視システムに適用した場合には、サウンド処理装置は、監視対象の周囲の撮影画像の記録中に、何かしらのアクシデントが発生した時には、収音方向の指定をクライアント（サウンド再生装置）から直ぐに受け、同収音方向に指向性を有する音声データを生成できる。

しかし、特許文献１に示すサウンド処理装置を例えば無人監視システムに適用する場合において、アクシデントが発生した後に、アクシデントの発生前から記録されていた映像データ及び音声データを再生することでアクシデントに関する情報（例えば音声データ）を得たいとする。この場合では、サウンド処理装置は、アクシデントが発生した場所が予めクライアントから指定を受けた所定の収音方向とは限らないため、アクシデントが発生した場所、即ち所望の収音方向に指向性を有する音声データを得ることが困難となる可能性がある。即ち、記録された映像データ及び音声データからアクシデントに関する有効な情報を得られない可能性が高いという課題がある。

本発明は、上述した従来の課題を解決するために、撮像された映像データが表示された表示画面の中で指定された１つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力する音声処理システム及び音声処理方法を提供することを目的とする。

本発明は、映像を撮像する少なくとも１つの撮像部と、前記撮像部により撮像された映像データを表示する表示部と、複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、前記収音部により収音された音声データを音声出力する音声出力部と、前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付ける操作部と、前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える、音声処理システムである。

また、本発明は、少なくとも１つの撮像部において映像を撮像するステップと、複数のマイクロホンを含む収音部において音声を収音するステップと、前記撮像部により撮像された映像データを表示部に表示させるステップと、前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付けるステップと、記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、音声処理方法である。

本発明によれば、撮像された映像データが表示された表示画面の中で指定された１つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力することができる。

（Ａ）、（Ｂ）各実施形態の音声処理システムのシステム構成を示すブロック図（Ａ）マイクアレイの外観図、（Ｂ）第３の実施形態におけるマイクアレイの外観図、（Ｃ）マイクアレイとカメラとの取り付け状態とを示す図マイクアレイを用いた指向性制御処理の原理の説明図音声処理システムの記録時の動作手順を説明するフローチャート１つ以上の指定箇所を指定する場合における、音声処理システムの再生時の動作手順を説明するフローチャート第１の実施形態の音声処理システムの使用形態の一例を示す模式図、（Ａ）例えば屋内のホールの天井に１台のカメラと１台のマイクアレイとが離れた位置に設置された様子を示す図、（Ｂ）映像データがディスプレイに表示され、音声データがスピーカにおいて音声出力されている様子を示す図第２の実施形態の音声処理システムの使用形態の一例を示す模式図、（Ａ）例えば屋内のホールの天井に、２台のカメラと、２台のカメラの中間位置にある１台のマイクアレイと、スピーカとが設置された様子を示す図、（Ｂ）カメラ１０により撮像された映像データがディスプレイ６３に表示され、音声データがスピーカ６５において音声出力されている様子を示す図、（Ｃ）カメラ１０Ａにより撮像された映像データがディスプレイ６３に表示され、音声データがスピーカ６５において音声出力されている様子を示す図第４の実施形態の音声処理システムの使用形態の一例を示す模式図、（Ａ）例えば屋内のホールの天井に、１台のカメラと、１台のマイクアレイと、スピーカとが設置された様子を示す図、（Ｂ）ディスプレイに表示された映像データの中で複数の指定箇所が指定された場合の音声処理システムの動作概要の説明図音声処理システムの使用形態の一例を示す模式図、（Ａ）例えば屋内のホールの天井に、ドーナツ型形状のマイクアレイと、マイクアレイと一体として組み込まれたカメラと、スピーカとが設置された様子を示す図、（Ｂ）カメラ１０Ｅが撮像した映像データにおいて２人の人物９１，９２が選択される様子を示す図、（Ｃ）画像変換後の２人の人物９１，９２の映像データがディスプレイに表示され、人物９１，９２の会話の音声データがスピーカ６５において音声出力されている様子を示す図、（Ｄ）カメラ１０Ｅが撮像した映像データにおいて２人の人物９３，９４が選択される様子を示す図、（Ｅ）画像変換後の２人の人物９３，９４の映像データがディスプレイに表示され、人物９３，９４の会話の音声データがスピーカ６５において音声出力されている様子を示す図（Ａ）、（Ｂ）、（Ｃ）他のマイクアレイ２０Ｄ、２０Ｅ、２０Ｆの外観図複数の指定箇所が指定された場合のディスプレイ６３及びスピーカ６５の動作を示す模式図各実施形態のマイクアレイの筐体構造の分解斜視図（Ａ）図１２に示すマイクアレイの筐体構造の平面図、（Ｂ）図１３（Ａ）のＡ−Ａ断面図図１３（Ｂ）の点線範囲の要部拡大図（Ａ）パンチングメタルカバーをメイン筐体に固定する様子を示す斜視図、（Ｂ）パンチングメタルカバーをメイン筐体に固定する様子を示す断面図マイク取付構造の模式図マイク基板の平面図（Ａ）複数のマイク回路に１つのリップル除去回路が設けられるマイク基板回路の図、（Ｂ）複数のマイク回路のそれぞれにリップル除去回路が設けられるマイク基板回路の図（Ａ）カメラアダプタが取り付けられずに全方位カメラが取り付けられたマイクアレイの筐体構造の斜視図、（Ｂ）屋外用全方位カメラがカメラアダプタと共に取り付けられたマイクアレイの筐体構造の斜視図屋内用全方位カメラが取り付けられるマイクアレイの筐体構造の分解斜視図屋外用全方位カメラが取り付けられるマイクアレイの筐体構造の分解斜視図（Ａ）屋外用全方位カメラが取り付けられたマイクアレイの筐体構造の側面図、（Ｂ）図２２（Ａ）のＢ−Ｂ断面図図２２の点線範囲の要部拡大図蓋の取り付けられるマイクアレイの筐体構造の分解斜視図取付金具を用いて天井に取り付けられる筐体構造の分解斜視図（Ａ）ベース板金用固定穴に差し込まれる前のベース板金側固定ピンの側面図、（Ｂ）ベース板金用固定穴に差し込まれたベース板金側固定ピンの側面図、（Ｃ）ベース板金用固定穴に差し込まれたベース板金側固定ピンの平面図、（Ｄ）ベース板金用固定穴の小径穴に移動したベース板金側固定ピンの側面図、（Ｅ）ベース板金用固定穴の小径穴に移動したベース板金側固定ピンの平面図ＥＣＭ用凹部にテーパが設けられたマイクアレイの筐体構造の断面図風対策の施されたマイクアレイの筐体構造の断面図（Ａ）ＥＣＭ用凹部の内径と深さの関係を表したマイクアレイの筐体構造の断面図、（Ｂ）ＥＣＭ用凹部の内壁が傾斜壁となったマイクアレイの筐体構造の断面図、（Ｃ）ＥＣＭ用凹部の内周隅部がＲ部となったマイクアレイの筐体構造の断面図（Ａ）テーパを形成しないＥＣＭ用凹部の等圧面を表した説明図、（Ｂ）テーパを形成したＥＣＭ用凹部の等圧面を表した説明図（Ａ）第４の実施形態の音声処理システムの使用例の説明図、（Ｂ）第１の指定箇所の周囲に表示される第１の識別形状、第２の指定箇所の周囲に表示される第２の識別形状の一例を表示する様子と、第１の識別形状により特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調して第１のスピーカから出力する様子と、第２の識別形状により特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調して第２のスピーカから出力する様子とを示す図図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスが表示される様子を示す図（Ａ）第４の実施形態の音声処理システムの使用例の説明図、（Ｂ）第１の指定箇所の周囲に表示される第１の識別形状、第２の指定箇所の周囲に表示される第２の識別形状の一例を表示する様子と、第１の識別形状により特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調して第１のスピーカから出力する様子と、第２の識別形状により特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調して第２のスピーカから出力する様子とを示す図図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作毎に、全方位カメラにより撮像された映像データと調整用操作ボックスとを切り替えて表示する様子を示す図図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、状態標示用ボックスが表示される様子を示す図（Ａ）第４の実施形態の音声処理システムの使用例の説明図、（Ｂ）第１の指定箇所の周囲に表示される第１の識別形状、第２の指定箇所の周囲に表示される第２の識別形状、第３の指定箇所の周囲に表示される第３の識別形状、第４の指定箇所の周囲に表示される第４の識別形状の一例を表示する様子と、第１の識別形状により特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調した音声データと、第２の識別形状により特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調した音声データと、第３の識別形状により特定される第３の指定箇所に対応する第３の音声位置に向かう第３の指向方向の音声を強調した音声データとを、第１及び第２の各スピーカから出力する様子を示す図図３６（Ｂ）に示す映像データが表示されている状態において、キーボードの複数の特定キーの同時押下操作に応じて、調整用操作ボックスが表示される様子を示す図図３６（Ｂ）に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスが表示される様子を示す図（Ａ）第４の実施形態の音声処理システムの使用例の説明図、（Ｂ）第１の指定箇所の周囲に表示される第１の識別形状、第２の指定箇所の周囲に表示される第２の識別形状、第３の指定箇所の周囲に表示される第３の識別形状、第４の指定箇所の周囲に表示される第４の識別形状の一例を表示する様子と、第１の識別形状により特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調した音声データと、第２の識別形状により特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調した音声データとを合成して第１のスピーカから出力する様子と、第３の識別形状により特定される第３の指定箇所に対応する第３の音声位置に向かう第３の指向方向の音声を強調した音声データを第２のスピーカから出力する様子を示す図図３９（Ｂ）に示す映像データが表示されている状態において、タッチパネルが設けられたディスプレイに表示された映像データの表示領域外へのタッチに応じて、調整用操作ボックスが表示される様子を示す図

以下、本発明に係る音声処理システム及び音声処理方法の各実施形態について、図面を参照して説明する。各実施形態の音声処理システムは、工場、公共施設（例えば図書館又はイベント会場）、又は店舗（例えば小売店、銀行）に設置される監視システム（有人監視システム及び無人監視システムを含む）に適用される。

（第１の実施形態）
図１（Ａ）及び図１（Ｂ）は、各実施形態の音声処理システム５Ａ，５Ｂのシステム構成を示すブロック図である。音声処理システム５Ａは、監視用のカメラ１０，１０Ａと、マイクアレイ２０と、音声処理装置４０とを含む構成である。カメラ１０，１０Ａと、マイクアレイ２０と、音声処理装置４０とは、ネットワーク３０を介して相互に接続されている。

音声処理システム５Ｂは、監視用のカメラ１０Ｂ，１０Ｃと、マイクアレイ２０Ａと、レコーダ４５Ａと、ＰＣ（Personal Computer）７０とを含む構成である。カメラ１０Ｂ，１０Ｃと、マイクアレイ２０Ａと、レコーダ４５Ａと、ＰＣ７０とは、ネットワーク３０Ａを介して相互に接続されている。

以下、音声処理システム５Ａの各部の動作を主に説明し、音声処理システム５Ｂの各部の動作については音声処理システム５Ａの動作と異なる内容について説明する。

撮像部としてのカメラ１０，１０Ａは、例えばイベント会場の室内の天井（例えば図６参照）に設置される監視カメラであり、ネットワーク３０を介して接続された監視システム制御室（不図示）から遠隔操作が可能なパンチルト機能、ズームイン機能及びズームアウト機能を有し、監視対象の地点（場所）の周囲の映像（静止画及び動画を含む。以下同様）を撮像する。カメラ１０，１０Ａは、撮像した映像のデータ（映像データ）を、ネットワーク３０を介してレコーダ４５に記録する。

収音部としてのマイクアレイ２０は、例えばイベント会場の室内の天井（例えば図６参照）に設置され、複数のマイクロホン２２（例えば図２参照）が一様に設けられたマイクロホンである。マイクアレイ２０は、各々のマイクロホン２２を用いて、監視対象の地点（場所）周囲の音声を収音し、各々のマイクロホン２２により収音された音声のデータ（音声データ）を、ネットワークを介してレコーダ４５に記録する。マイクアレイ２０の構造は、図２を参照して後述する。

音声処理装置４０は、レコーダ４５と、信号処理部５０と、操作部５５と、再生部６０とを含む構成である。レコーダ４５は、レコーダ４５におけるデータの記録等の各処理を制御するための制御部（不図示）と、映像データ及び音声データを格納するための記録部（不図示）とを含む構成である。レコーダ４５は、カメラ１０，１０Ａにより撮像された映像データと、マイクアレイ２０により収音された音声データとを対応付けて記録する。

信号処理部５０は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor）を用いて構成され、音声処理装置４０の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を実行する。

信号処理部５０は、レコーダ４５に記録されている音声データを用いて、後述する音声データの指向性制御処理によって各々のマイクロホンにより収音された各音声データを加算し、マイクアレイ２０の各マイクロホン２２の位置から特定方向への音声（音量レベル）を強調（増幅）するために、特定方向への指向性を形成した音声データを生成する。また、信号処理部５０は、マイクアレイ２０から送信された音声データを用いて、マイクアレイ２０から特定方向（指向方向）への音声の音量レベルを強調（増幅）するために、特定方向への指向性を形成した音声データを生成しても良い。なお、特定方向とは、マイクアレイ２０から、操作部５５から指定された所定の指定箇所に対応する位置に向かう方向であり、音声データの音量レベルを強調（増幅）するためにユーザにより指定される方向である。

信号処理部５０は、レコーダ４５に記録された映像データが全方位カメラ（後述参照）によって撮像された場合には、レコーダ４５に記録された映像データの座標系（例えばｘ軸，ｙ軸，ｚ軸のうち２次元又は３次元の座標変換）の変換処理を行い、変換処理後の映像データをディスプレイ６３に表示させる（図９（Ｃ）及び図９（Ｅ）参照）。

操作部５５は、例えばディスプレイ６３の画面に対応して配置され、ユーザの指９５又はスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成される。操作部５５は、ユーザの操作に応じて、音声データの音量レベルの強調（増幅）を所望する１つ以上の指定箇所の座標のデータを信号処理部５０に出力する。なお、操作部５５は、マウス又はキーボード等のポインティングデバイスを用いて構成されても良い。

再生部６０は、ディスプレイ６３と、スピーカ６５とを含む構成であり、レコーダ４５に記録された映像データをディスプレイ６３に表示させ、更に、レコーダ４５に記録された音声データをスピーカ６５に音声出力させる。なお、ディスプレイ６３及びスピーカ６５は、再生部６０とは別々の構成としても良い。

表示部としてのディスプレイ６３は、カメラ１０，１０Ａによって撮像されてレコーダ４５に記録された映像データを表示する。

音声出力部としてのスピーカ６５は、マイクアレイ２０によって収音されてレコーダ４５に記録された音声データ、もしくはその音声データを基にして信号処理部５０にて特定方向への強調処理を行った音声データを音声出力する。

ここで、音声処理装置４０は、レコーダ４５と音声処理装置４０における他の各部とが異なる装置の構成としても良い（図１（Ｂ）参照）。具体的には、図１（Ａ）に示す音声処理装置４０は、図１（Ｂ）に示すレコーダ４５Ａと、図１（Ｂ）に示すＰＣ７０とを含む構成としても良い。即ち、ＰＣ７０は、汎用のコンピュータを用いて構成され、信号処理部７１と、ディスプレイ７３及びスピーカ７５を含む再生部７２と、操作部７８とを含む構成である。レコーダ４５Ａ及びＰＣ７０は、音声処理システム５Ａにおける音声処理装置４０に相当し、同様の機能及び動作を実現する。

また、カメラ１０Ｂ，１０Ｃ及びマイクアレイ２０Ａの機能は、それぞれ音声処理システム５Ａにおけるカメラ１０，１０Ａ及びマイクアレイ２０の機能と同一である。

なお、音声処理システム５Ａ，５Ｂに設置されるカメラの台数は、任意である。また、ネットワーク３０，３０Ａが相互に接続され、音声処理システム５Ａ−５Ｂの間においてデータの転送が可能でも良い。

図２（Ａ）は、マイクアレイ２０の外観図である。マイクアレイ２０は、円盤状の筐体２１に配置された複数のマイクロホン２２を含む構成である。複数のマイクロホン２２は、筐体２１の面に沿って配置され、筐体２１と同一の中心を有する小さい円状及び大きい円状の２個の同心円状に沿って配置されている。小さな円状に沿って配置された複数のマイクロホン２２Ａは、互いの間隔が狭く、高い音域に適した特性を有する。一方、大きな円状に沿って配置された複数のマイクロホン２２Ｂは、直径が大きく、低い音域に適した特性を有する。

図２（Ｂ）は、第３の実施形態におけるマイクアレイ２０Ｃの外観とマイクアレイ２０Ｃと全方位カメラ１０Ｅ（図９（Ａ）参照）との取り付け状態とを示す図である。図２（Ｂ）に示すマイクアレイ２０Ｃは、内側に開口部２１ａが形成されたドーナツ型形状の筐体２１Ｃと、同筐体２１Ｃに一様に設けられた複数のマイクロホン２２Ｃとを含む構成である。複数のマイクロホン２２Ｃは、筐体２１Ｃに対して同心円状に沿って配置されている。

図２（Ｃ）では、筐体２１Ｃの開口部２１ａの内側には、図９（Ａ）に示す全方位カメラ１０Ｅが挿通した状態で取り付けられる。本実施形態では、全方位カメラ１０Ｅは、例えば魚眼レンズを搭載したカメラであり、ホールの床面の広範囲を撮像するように取り付けられている。このように、全方位カメラ１０Ｅとマイクアレイ２０Ｃとは、マイクアレイ２０Ｃの筐体２１Ｃの中心を共通とした同軸上に配置されるので、同一の座標系を用いることが可能である。

図３は、マイクアレイ２０を用いた指向性制御処理の原理の説明図である。図３では、遅延和方式を用いた指向性制御処理の原理について簡単に説明する。音源８０から発した音波が、マイクアレイ２０の各マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎに対し、ある一定の角度（入射角＝（９０−θ）［度］）で入射するとする。マイクアレイ２０の筐体２１の面に対し、音源８０は所定角度θの方向に配置されているとする。また、マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎ間の間隔は一定である。

音源８０から発した音波は、最初にマイクロホン２２ａに到達して収音され、次にマイクロホン２２ｂに到達して収音され、次々に収音され、最後にマイクロホン２２ｎに到達して収音される。なお、マイクアレイ２０の各マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎの位置から音源８０に向かう方向は、例えば音源８０が人物の会話時の音声である場合又は周囲の音楽である場合を想定すれば、人物の会話時の音声又は周囲の音楽の音声データの音量レベルを強調（増幅）するために操作部５５から指定された所定の範囲に対応する方向と同じと考えることができる。

ここで、音波がマイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１に到達した時刻から最後に収音されたマイクロホン２２ｎに到達した時刻までには、到達時間差τ１，τ２，τ３，…，τｎ−１が生じる。このため、各々のマイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎにより収音された音声データがそのまま加算された場合には、位相がずれたまま加算されるため、音波の音量レベルが全体的に弱め合うことになってしまう。

なお、τ１は音波がマイクロホン２２ａに到達した時刻と音波がマイクロホン２２ｎに到達した時刻との差分の時間であり、τ２は音波がマイクロホン２２ｂに到達した時刻と音波がマイクロホン２２ｎに到達した時刻との差分の時間であり、τｎ−１は音波がマイクロホン２２ｎ−１に到達した時刻と音波がマイクロホン２２ｎに到達した時刻との差分の時間である。

一方、本実施形態を含む各実施形態では、信号処理部５０は、マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎ毎に対応して設けられたＡ／Ｄ変換器５１ａ，５１ｂ，５１ｃ，…，５１ｎ−１，５１ｎ及び遅延器５２ａ，５２ｂ，５２ｃ，…，５２ｎ−１，５２ｎと、加算器５７と、を有する構成である（図３参照）。

即ち、信号処理部５０は、各マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎにより収音されたアナログの音声データを、Ａ／Ｄ変換器５１ａ，５１ｂ，５１ｃ，…，５１ｎ−１，５１ｎにおいてＡＤ変換することでデジタルの音声データを得る。更に、信号処理部５０は、遅延器５２ａ，５２ｂ，５２ｃ，…，５２ｎ−１，５２ｎにおいて、各々のマイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎにおける到達時間差に対応する遅延時間を与えて位相を揃えた後、加算器５７において遅延処理後の音声データを加算する。これにより、信号処理部５０は、各マイクロホン２２ａ，２２ｂ，２２ｃ，…，２２ｎ−１，２２ｎの設置位置からの所定角度θの方向の音声データを強調した音声データを生成することができる。例えば図３では、遅延器５２ａ，５２ｂ，５３ｃ，…，５２ｎ−１，５２ｎに設定された各遅延時間Ｄ１，Ｄ２，Ｄ３，…，Ｄｎ−１，Ｄｎは、それぞれ到達時間差τ１，τ２，τ３，…，τｎ−１に相当し、数式（１）により示される。

Ｌ１は、マイクロホン２２ａとマイクロホン２２ｎにおける音波到達距離の差である。Ｌ２は、マイクロホン２２ｂとマイクロホン２２ｎにおける音波到達距離の差である。Ｌ３は、マイクロホン２２ｃとマイクロホン２２ｎにおける音波到達距離の差である。Ｌｎ−１は、マイクロホン２２ｎ−１とマイクロホン２２ｎにおける音波到達距離の差である。Ｖｓは音速である。Ｌ１，Ｌ２，Ｌ３，…，Ｌｎ−１，Ｖｓは既知の値である。図３では、遅延器５２ｎに設定される遅延時間Ｄｎは０（ゼロ）である。

このように、信号処理部５０は、遅延器５２ａ，５２ｂ，５２ｃ，…，５２ｎ−１，５２ｎに設定される遅延時間Ｄ１，Ｄ２，Ｄ３，…，Ｄｎ−１，Ｄｎを変更することで、レコーダ４５に記録された音声データを用いて、マイクアレイ２０の設置位置を基準とした任意の方向の音声データを強調した音声データを生成することができ、音声処理システム５Ａ，５Ｂにおける音声データの指向性制御処理が簡易に行える。

次に、本実施形態の音声処理システム５Ａ，５Ｂの記録時及び再生時の各動作を説明する。ここでは、音声処理システム５Ａが監視システムに適用された場合について説明する。図４は、音声処理システム５Ａの記録時の動作手順を説明するフローチャートである。

図４において、例えば監視システム制御室（不図示）にいるユーザからの遠隔操作により、カメラ１０，１０Ａは、監視対象の地点（場所）の周囲の映像の撮像を開始する（Ｓ１）。カメラ１０，１０Ａによる撮像の開始と同時又は略同時に、マイクアレイ２０は、監視対象の地点（場所）の周囲の音声の収音を開始する（Ｓ２）。カメラ１０，１０Ａは、撮像された映像データを、ネットワーク３０を介して接続されたレコーダ４５に転送する。マイクアレイ２０は、収音された音声データを、ネットワーク３０を介して接続されたレコーダ４５に転送する。

レコーダ４５は、カメラ１０，１０Ａから転送された映像データと、マイクアレイ２０から転送された音声データとを全て対応付けて記録媒体に格納して記録する（Ｓ３）。ユーザからの遠隔操作により、カメラ１０，１０Ａと、マイクアレイ２０とレコーダ４５との記録時の動作が終了する。

図５は、１つ以上の指定箇所を指定する場合における、音声処理システム５Ａ，５Ｂの再生時の動作手順を説明するフローチャートである。

図５において、音声処理装置４０のレコーダ４５は、ユーザからの直接的な操作或いは遠隔操作により再生したい映像データの指定を受け付ける（Ｓ１１）。映像データの指定には、例えば記録された日時及びカメラの種類が条件として用いられる。再生部６０は、ステップＳ１１において指定された条件に応じた映像データを再生し、ディスプレイ６３の画面に表示させる。更に、再生部６０は、再生された映像データに対応付けてレコーダ４５に格納されている音声データも再生し、スピーカ６５から音声出力させる。

ここで、再生部６０が再生している映像データの再生中或いは一時停止中に、ユーザが、操作部５５を介して、ディスプレイ６３の画面に表示されている映像データの中で音声（音量レベル）を強調（増幅）する１つ以上の指定箇所を指定したとする。信号処理部５０は、ユーザの指定操作に応じて、映像データの内容の中で音声（音量レベル）を強調（増幅）する１つ以上の指定箇所の指定を受け付ける（Ｓ１２）。

以下、操作部５５を介して、マイクアレイ２０，２０Ａを基準として、音声（音量レベル）を強調（増幅）する方向（指向方向）に指向性を形成するために、ユーザにより指定された指定箇所を「指定箇所」と略記する。ステップＳ１２では、例えばユーザが、ディスプレイ６３の画面を指９５でタッチすることで、ディスプレイ６３の画面に表示された映像データに対する指定箇所、又はタッチされた指定箇所を中心とする所定の矩形の音声強調範囲が指定されたとする。

信号処理部５０は、操作部５５を介して指定された１つ以上の指定箇所又は音声強調範囲を基に、マイクアレイ２０の各マイクロホン２２の位置の中心位置から１つ以上の指定箇所又は音声強調範囲の例えば中心に対応する実際の現場の各位置（各音声位置）に向かう方向（各指向方向）を、図３を参照して説明した所定角度θ１，θ２，…，θｎの方向、即ち、音声（音量レベル）を強調（増幅）する各方向（各指向方向）として算出する。更に、信号処理部５０は、現在再生部６０によって再生されている映像データと対応付けてレコーダ４５に格納されている音声データに対し、算出された所定角度θ１，θ２，…，θｎにそれぞれ指向性を形成した音声データ、即ち、所定角度θ１，θ２，…，θｎの音声（音量レベル）が強調（増幅）された音声データを生成する（Ｓ１３）。

なお、本実施形態では、信号処理部５０は、マイクアレイ２０の各マイクロホン２２の位置の中心位置から１つ以上の指定箇所又は音声強調範囲の例えば中心に対応する各音声位置に向かう方向に指向性を形成した音声データを生成又は合成するが、更に、１つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向（所定角度θ１，θ２，…，θｎ）から大きく外れる方向（例えば所定角度θ１，θ２，…，θｎから±５度以上外れる方向）に対する音声データを抑圧処理しても良い。

再生部６０は、信号処理部５０によって１つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向の音声（音量レベル）が強調（増幅）された各音声データを、ステップＳ１１の指定に応じてディスプレイ６３に表示されている映像データと同期させて、スピーカ６５から音声出力させる（Ｓ１４）。これにより、音声処理装置４０の再生時における動作は終了する。

図６は、第１の実施形態の音声処理システム５Ａの使用形態の一例を示す模式図である。図６（Ａ）は、例えば屋内のイベント会場としてのホールの天井８５に、１台のカメラ１０と１台のマイクアレイ２０とが離れた位置に設置された様子を示す図である。

図６（Ａ）では、２人の人物９１，９２がホールの床８７に立って会話をしている。２人の人物９１，９２から少し離れた位置には、スピーカ８２が床８７の上に接して載置されており、スピーカ８２から音楽が流れている。また、カメラ１０は、カメラ１０に予め設定された監視対象の地点（場所）の周囲にいる人物９１，９２を撮像している。更に、マイクアレイ２０は、ホール全体の音声を収音している。

図６（Ｂ）は、映像データがディスプレイ６３に表示され、音声データがスピーカ６５において音声出力されている様子を示す図である。ディスプレイ６３の画面には、カメラ１０が撮像した映像データが表示されている。また、スピーカ６５からは、２人の人物９１，９２の会話又はホール内の音楽が音声出力されている。

ユーザは、例えばディスプレイ６３の画面に表示された２人の人物９１，９２の映像データの中央付近を指９５でタッチしたとする。タッチ点６３ａはユーザにより指定された指定箇所となる。信号処理部５０は、マイクアレイ２０によって収音された音声、即ち各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ａ又は矩形範囲６３ｂの中心に対応する音声位置に向かう指向方向（図６（Ａ）に示す符号ｅで示される方向）に指向性を形成した音声データを生成する。

即ち、信号処理部５０は、各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ａ又は矩形範囲６３ｂの中心に対応する音声位置に向かう指向方向の音声（音量レベル）を強調（増幅）した音声データを生成する。再生部６０は、信号処理部５０が生成した音声データを、カメラ１０が撮像した映像データと同期させてスピーカ６５から音声出力させる。

この結果、ユーザによって指定されたタッチ点６３ａ又は矩形範囲６３ｂにおける音声データが強調され、スピーカ６５から２人の人物９１，９２の会話（例えば図６（Ａ）に示す「Ｈｅｌｌｏ」参照）が大きな音量によって音声出力される。一方、２人の人物９１，９２に比べ、マイクアレイ２０により近い距離に載置されているがユーザによって指定されたタッチ点６３ａではないスピーカ８２から流れている音楽（図６（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９１，９２の会話に比べて小さな音量によって音声出力される。

以上により、本実施形態では、音声処理システム５Ａ又は５Ｂは、レコーダ４５に記録された映像データ及び音声データの再生中において、ユーザによって指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、ディスプレイ６３の画面に表示された映像データを見ながら、音声データを強調したい箇所をタッチして指定するだけで、簡単にその指定箇所又は指定箇所を含む指定範囲（音声強調範囲）における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム５Ａ又は５Ｂでは、ユーザは、カメラ１０によって撮像された映像データをディスプレイ６３にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。

例えば、本実施形態の音声処理システム５Ａ又は５Ｂは、何かしらのアクシデントが発生した場合でも、アクシデントの発生後においても、マイクアレイ２０の各マイクロホン２２の位置からアクシデントの発生地点に向かう方向に指向性を形成した音声データを生成することで、アクシデントの発生時点における会話又は音声をユーザに確認させることができる。

また、本実施形態の音声処理システム５Ａ又は５Ｂは、カメラ１０とマイクアレイ２０とは、屋内のホール等の天井８５に設置されているので、ホール内の至る所を監視することが可能となる。

（第２の実施形態）
第１の実施形態では、カメラが１台である場合の音声処理システム５Ａの使用形態の一例を説明した。第２の実施形態では、カメラが複数台（例えば２台）である場合の音声処理システム５Ｃの使用形態の一例を説明する。

なお、第２の実施形態の音声処理システム５Ｃでは、カメラが複数台（例えば２台）であること以外は、第１の実施形態の音声処理システム５Ａ又は５Ｂと同一の構成を有するので、第１の実施形態の音声処理システム５Ａ又は５Ｂと同一の構成要素については同一の符号を用いることで、その説明を省略する。

図７は、第２の実施形態の音声処理システム５Ｃの使用形態の一例を示す模式図である。図７（Ａ）は、例えば屋内のホールの天井８５に、２台のカメラ１０，１０Ａと、２台のカメラ１０，１０Ａの中間位置にある１台のマイクアレイ２０と、スピーカ８３とが設置された様子を示す図である。

また、ホールの床８７には、４人の人物９１，９２，９３，９４が立っており、人物９１と人物９２とが会話しており、人物９３と人物９４とが会話している。これら２組の間の位置には、スピーカ８２が床８７の上に載置されており、音楽が流れている。また、スピーカ８３は、人物９３と人物９４とのほぼ真上の天井８５に設置されている。

カメラ１０は、４人の人物９１，９２，９３，９４から少し離れた位置から２人の人物９１，９２を撮像しており、マイクアレイ２０は、スピーカ８２のほぼ真上の天井８５に設置されており、ホール全体の音声を収音している。カメラ１０Ａは、４人の人物９１，９２，９３，９４から少し離れた位置から人物９３，９４を撮像している。

図７（Ｂ）は、カメラ１０により撮像された映像データがディスプレイ６３に表示され、音声データがスピーカ６５において音声出力されている様子を示す図である。ディスプレイ６３の画面には、カメラ１０が撮像した映像データが表示されている。また、スピーカ６５からは、２人の人物９１，９２の会話又はホール内の音楽が音声出力されている。

ユーザは、例えばディスプレイ６３の画面に表示された２人の人物９１，９２の映像データの中央付近を指９５でタッチしたとする。信号処理部５０は、マイクアレイ２０によって収音された音声、即ち各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ａ又は矩形範囲６３ｂの中心に対応する音声位置に向かう指向方向（図７（Ａ）に示す符号ｅで示される方向）に指向性を形成した音声データを生成する。

この結果、ユーザによって指定されたタッチ点６３ａ又は矩形範囲６３ｂにおける音声データが強調され、スピーカ６５から２人の人物９１，９２の会話（例えば図７（Ａ）に示す「Ｈｅｌｌｏ」参照）が大きな音量によって音声出力される。一方、２人の人物９１，９２に比べ、マイクアレイ２０により近い距離に載置されているがユーザによって指定された矩形範囲６３ｂに含まれないスピーカ８２から流れている音楽（図７（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９１，９２の会話に比べて小さな音量によって音声出力される。

図７（Ｃ）は、カメラ１０Ａにより撮像された映像データがディスプレイ６３に表示され、音声データがスピーカ６５において音声出力されている様子を示す図である。ディスプレイ６３の画面には、カメラ１０Ａが撮像した映像データが表示されている。また、スピーカ６５からは、２人の人物９３，９４の会話又はホール内の音楽が音声出力されている。

ユーザは、例えばディスプレイ６３の画面に表示された２人の人物９３，９４の映像データの中央付近を指９５でタッチしたとする。信号処理部５０は、マイクアレイ２０によって収音された音声、即ち各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ｃ又は矩形範囲６３ｄの中心に対応する音声位置に向かう指向方向（図７（Ａ）に示す符号ｆで示される方向）に指向性を形成した音声データを生成する。

即ち、信号処理部５０は、各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ｃ又は矩形範囲６３ｄの中心に対応する音声位置に向かう指向方向の音声（音量レベル）を強調（増幅）した音声データを生成する。再生部６０は、信号処理部５０が生成した音声データを、カメラ１０Ａが撮像した映像データと同期させてスピーカ６５から音声出力させる。

この結果、ユーザによって指定されたタッチ点６３ｃ又は矩形範囲６３ｄにおける音声データが強調され、スピーカ６５から２人の人物９１，９２の会話（例えば図７（Ａ）に示す「Ｈｉ」参照）が大きな音量によって音声出力される。一方、２人の人物９３，９４に比べ、マイクアレイ２０により近い距離に載置されているがユーザによって指定された矩形範囲６３ｄに含まれないスピーカ８２から流れている音楽（図７（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９３，９４の会話に比べて小さな音量によって音声出力される。

以上により、本実施形態では、音声処理システム５Ｃは、レコーダ４５に記録された映像データ及び音声データの再生中において、ユーザによって指定されたいずれかのカメラ１０又は１０Ａにおける映像データに対して指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、カメラ１０又は１０Ａが撮像した映像データをディスプレイ６３で見ながら、音声（音量レベル）を強調（増幅）したい箇所をタッチして指定するだけで、簡単にその指定された指定箇所又はその指定箇所を含む指定範囲における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム５Ｃでは、ユーザは、カメラ１０又は１０Ａによって撮像された映像データをディスプレイ６３にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。

また、本実施形態では第１の実施形態に比べて、音声処理システム５Ｃにおけるカメラの設置台数が複数でも良いため、カメラの台数に合わせてマイクアレイの台数を増やさなくて済み、コストの低減が可能な音声処理システム５Ｃを構築でき、音声処理システム５Ｃの省スペースを図ることができる。また、音声処理システム５Ｃは、１台目のカメラ１０が既に設置された音声処理システム５Ａ又は５Ｂに対し、２台目のカメラ１０Ａを増設するだけで第１の実施形態の音声処理システム５Ａ又は５Ｂと同様な動作及び効果を得ることができ、音声処理システムの拡張性を向上できる。

（第３の実施形態）
第１及び第２の各実施形態では、カメラとマイクアレイとが天井の異なる場所に設置されている音声処理システム５Ａ又は５Ｂの使用形態の一例を説明した。第３の実施形態では、全方位カメラとマイクアレイとが一体として同軸上に設置された音声処理システム５Ｄの使用形態の一例を説明する。

なお、第３の実施形態の音声処理システム５Ｄでは、全方位カメラとマイクアレイとが一体として同軸上に設置されたこと以外は、第１の実施形態の音声処理システム５Ａ又は音声処理システム５Ｂと同一の構成を有するので、第１の実施形態の音声処理システム５Ａ又は５Ｂと同一の構成要素については同一の符号を用いることで、その説明を省略する。

図９は、音声処理システム５Ｄの使用形態の一例を示す模式図である。図９（Ａ）は、例えば屋内のホールの天井８５に、ドーナツ型形状のマイクアレイ２０Ｃと、マイクアレイ２０Ｃと一体として組み込まれた全方位カメラ１０Ｅと、スピーカ８３とが設置された様子を示す図である。図９（Ａ）では、人物９１，９２，９３，９４の会話状況と、スピーカ８２，８３の各動作状況は第２の実施形態における状況と同じとする。

図９（Ｂ）は、全方位カメラ１０Ｅが撮像した映像データにおいて２人の人物９１，９２が選択される様子を示す図である。図９（Ｂ）では、ディスプレイ６３の画面には、全方位カメラ１０Ｅにおける座標系が用いられた映像データ、即ち全方位カメラ１０Ｅが撮像した映像データがそのまま表示されている。図９（Ｃ）は、画像変換後の２人の人物９１，９２の映像データがディスプレイに表示され、人物９１，９２の会話の音声データがスピーカ６５において音声出力されている様子を示す図である。

ユーザは、例えばディスプレイ６３の画面に表示された４人の人物９１，９２，９３，９４の映像データの左上付近の指定箇所を指９５でタッチしたとする。信号処理部５０は、第２の実施形態と同様の動作に加え、全方位カメラ１０Ｅが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号ｇの範囲の映像データの座標系を変換処理する。再生部６０は、信号処理部５０が座標系を変換処理した映像データを、ディスプレイ６３に表示させる（図９（Ｃ）参照）。なお、範囲ｇは、指９５のタッチ点から自動的に生成されるとする。また、信号処理部５０における第２の実施形態と同様の動作の説明は省略する。

この結果、ユーザによって指定された範囲ｇにおける音声データが強調され、スピーカ６５から２人の人物９１，９２の会話（例えば図９（Ａ）に示す「Ｈｅｌｌｏ」参照）が大きな音量によって音声出力される。一方、２人の人物９１，９２に比べ、マイクアレイ２０Ｃにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲ｇに含まれないスピーカ８２から流れている音楽（図９（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９１，９２の会話に比べて小さな音量によって音声出力される。

図９（Ｄ）は、全方位カメラ１０Ｅが撮像した映像データにおいて２人の人物９３，９４が選択される様子を示す図である。図９（Ｄ）では、ディスプレイ６３の画面には、全方位カメラ１０Ｅにおける座標系が用いられた映像データ、即ち全方位カメラ１０Ｅが撮像した映像データがそのまま表示されている。図９（Ｅ）は、画像変換後の２人の人物９３，９４の映像データがディスプレイに表示され、人物９３，９４の会話の音声データがスピーカ６５において音声出力されている様子を示す図である。

ユーザは、例えばディスプレイ６３の画面に表示された４人の人物９１，９２，９３，９４の映像データの右下付近の指定箇所を指９５でタッチしたとする。信号処理部５０は、第２の実施形態と同様の動作に加え、全方位カメラ１０Ｅが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号ｈの範囲の映像データの座標系を変換処理する。再生部６０は、信号処理部５０が座標系を変換処理した映像データを、ディスプレイ６３に表示させる（図９（Ｅ）参照）。なお、範囲ｈは、指９５のタッチ点から自動的に生成されるとする。また、信号処理部５０における第２の実施形態と同様の動作の説明は省略する。

この結果、ユーザによって指定された範囲ｈにおける音声データが強調され、スピーカ６５から２人の人物９３，９４の会話（例えば図９（Ａ）に示す「Ｈｉ」参照）が大きな音量によって音声出力される。一方、２人の人物９３，９４に比べ、マイクアレイ２０Ｃにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲ｈに含まれないスピーカ８２から流れている音楽（図９（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９３，９４の会話に比べて小さな音量によって音声出力される。

以上により、本実施形態では、音声処理システム５Ｄは、全方位カメラ１０Ｅとマイクアレイ２０Ｃとは同軸上に配置されているので、全方位カメラ１０Ｅとマイクアレイ２０Ｃとの座標系を同一にすることができる。これにより、音声処理システム５Ｄは、第１，第２の各実施形態の効果に加え、全方位カメラ１０Ｅにより撮像された映像データにおける被写体の位置とマイクアレイ２０Ｃにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を第１，第２の各実施形態に比べて容易化でき、再生部６０における映像データと音声データとを同期した再生処理の負荷を軽減できる。

また、音声処理システム５Ｄは、ユーザにより指定された指定箇所若しくはその指定箇所を含む指定範囲ｇ又は指定範囲ｈに含まれる映像データが、ディスプレイ６３の画面サイズに合わせた映像データに変換処理するので、全方位カメラ１０Ｅにより撮像された映像データを、縦横比がディスプレイ６３にとって自然な映像データの表示形態にて表示することができる。

また、例えばマイクアレイの形状及び構成は、上述した各実施形態のものに限られず、種々の形状及び構成を用いても良い。図１０（Ａ）〜（Ｃ）は、他のマイクアレイ２０Ｄ、２０Ｅ、２０Ｆの外観図である。

図１０（Ａ）に示すマイクアレイ２０Ｄでは、図２に示すマイクアレイ２０に比べ、円盤状の筐体２１Ｄの径が小さい。筐体２１Ｄの面に、複数のマイクロホン２２Ｄが円状に沿って一様に配置されている。各々のマイクロホン２２Ｄの間隔が短くなるので、マイクアレイ２０Ｄは、高い音域に適した特性を有する。

また、図１０（Ｂ）に示すマイクアレイ２０Ｅでは、矩形を有する筐体２１Ｅの面に、複数のマイクロホン２２Ｅが矩形に沿って一様に配置されている。筐体２１Ｅが矩形に形成されているので、コーナー等の場所であってもマイクアレイ２０Ｅを設置し易くなる。

また、図１０（Ｃ）に示すマイクアレイ２０Ｆでは、円盤状の筐体２１Ｆの面に、複数のマイクロホン２２Ｆが縦横に一様に配列されている。複数のマイクロホン２２Ｆが直線状に配置されているので、信号処理部５０における音声の強調処理が簡易化できる。なお、縦方向又は横方向の１列だけに、複数のマイクロホン２２Ｆが配置されても良い。

また、上述した各実施形態では、ユーザがディスプレイ６３に表示されている映像データを見ながら音声の強調を所望する指定箇所又はその指定箇所を含む指定範囲を任意に指９５でタッチにより指定したが、例えば予めディスプレイ６３の画面を複数の区画（例えば、上下左右の４区画）に分割しておき、いずれか１つの区画を選択して音声を強調したい範囲としても良い。

また、上述した各実施形態では、カメラは映像を記録（録画）し、ディスプレイは記録された映像データを表示する場合を説明したが、カメラは所定周期で静止画像を撮像し、ディスプレイは、所定間隔で撮像される静止画像を表示する場合、即ちリアルタイムに映像を撮像して音声を収音する場合においても本発明は適用可能である。即ち、ユーザは、ディスプレイの画面に表示された静止画像中の所定範囲を指定し、その付近の音声を強調させることもできる。

また、上述した各実施形態では、ユーザが指９５で画面をタッチすることで、指９５がタッチされたタッチ点を含む指定範囲（例えば楕円や矩形の範囲）が指定されたが、ユーザが指９５で円や多角形等を描くことで所定範囲が指定されても良い。

また、上述した各実施形態では、信号処理部５０は、複数の指定箇所又は各々の指定箇所を含む指定範囲（音声強調範囲）の指定を、操作部５５から受け付けても良い。この場合では、信号処理部５０は、指定された各指定箇所又は指定範囲に応じて、音声データの強調処理を行う。図１１は、所定の指定箇所又は指定範囲（音声強調範囲）が複数指定された場合のディスプレイ６３及びスピーカ６５の動作を示す模式図である。なお、説明を簡単にするために、音声処理システムが用いられたカメラ及びマイクアレイの動作状況は図６に示すカメラ１０及びマイクアレイ２０の動作状況と同様とする。

この場合、信号処理部５０は、スピーカ６５から、２つの所定の異なる指定箇所又は異なる指定箇所を含む音声強調範囲６３ｅ、６３ｆの指定に応じて、マイクアレイ２０の各マイクロホン２２の位置から２人の人物９１，９２の中心に対応する音声位置に向かう指向方向に指向性を形成した各音声データを生成し、更に、マイクアレイ２０の各マイクロホン２２の位置からスピーカ８２の中心に対応する音声位置に向かう方向に指向性を形成した音声データを生成する。

この結果、２人の人物９１，９２の会話（図１１に示す「Ｈｅｌｌｏ」参照）と、スピーカ８２から流れる音楽（図１１に示す「♪〜」参照）との両方が大きな音量によって音声出力される。これにより、音声処理システムは、１つのディスプレイにおいて２箇所以上の音声を強調させることができる。

次に、上述した各実施形態におけるマイクアレイ２０の筐体構造、マイクアレイ２０の回路構成の一例について、図１２〜図３０を参照して説明する。

（マイクアレイの筐体：４重の筐体構造）
図１２は、上述した各実施形態のマイクアレイ２０の筐体構造の分解斜視図である。図１３（Ａ）は、図１２に示すマイクアレイ２０の筐体構造の平面図である。図１３（Ｂ）は、図１３（Ａ）のＡ−Ａ断面図である。図１４は、図１３（Ｂ）の点線範囲の要部拡大図である。

図１２に示すマイクアレイ２０の筐体構造は、メイン筐体１０１と、パンチングメタルカバー１０３と、マイク板金１０５と、ベース板金１０７とが鉛直方向に沿って積層された構成である。メイン筐体１０１、パンチングメタルカバー１０３、マイク板金１０５、ベース板金１０７は、４層となった耐衝撃性筐体１０９（バンダル・レジスタント・ケーシング：vandal-resistant casing）を構成している。

メイン筐体１０１は、例えば樹脂を材料として一体に成形される。メイン筐体１０１は、環状底部１１１に複数のマイク敷設用穴１１３が同心円上に設けられて有底筒状に形成される。環状底部１１１の中央部は、カメラ取付空間１１５となる。メイン筐体１０１は、メイン筐体外周壁１１７が、図１２に示すマイクアレイ２０の筐体構造において、最大外径を有する。

パンチングメタルカバー１０３は、例えば金属を材料として一体の環状に成形される。パンチングメタルカバー１０３は、メイン筐体１０１の環状底部１１１を覆うようにメイン筐体１０１に取り付けられる。パンチングメタルカバー１０３には、音波を入射させるための多数の貫通孔（図示略）が穿設されている。パンチングメタルカバー１０３の外周にはメイン筐体１０１に向かって立ち上がる起立縁部１１９が絞り加工等によって形成される。起立縁部１１９は、メイン筐体１０１の下面外周に形成される周溝１２１（図１４参照）に挿入される。起立縁部１１９には、円周方向の等間隔で複数の弾性係止爪１２３が更に上方（図１２又は図１４の上方）に向かって突出している。

図１５（Ａ）は、パンチングメタルカバー１０３をメイン筐体１０１に固定する様子を示す斜視図である。図１５（Ｂ）は、パンチングメタルカバー１０３をメイン筐体１０１に固定する様子を示す断面図である。弾性係止爪１２３は、周溝１２１の奥側に設けられている係止孔１２５ａを通して回転することで、爪係止部１２５に係止される。パンチングメタルカバー１０３は、弾性係止爪１２３を爪係止部１２５に係止することで、メイン筐体１０１に固定される。

マイク板金１０５は、例えば金属板をプレス加工することにより形成される。マイク板金１０５は、円環形状を周方向に四等分した形状で形成される。マイク板金１０５は、マイク板金固定ネジ（図示略）によってメイン筐体１０１に固定される。メイン筐体１０１に固定されたマイク板金１０５は、メイン筐体１０１の環状底部１１１との間に、マイク基板１２７を保持したマイク筐体１２９を挟んだ状態で保持する。

マイク筐体１２９は、例えば樹脂を材料として一体に成形される。マイク筐体１２９は、円環形状を周方向に四等分した形状で形成される。マイク基板１２７には、４つの高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：Electret Condenser Microphone）が同一面上に取り付けられている。マイク筐体１２９には、ＥＣＭ１３１が図１４中の下方にある状態で、マイク基板１２７が取り付けられる。マイク基板１２７とマイク筐体１２９との間にゴム部品が挟みこまれている（図１４参照）。マイク基板１２７は、マイク筐体１２９に対して１つ取り付けられる。従って、マイクアレイ２０の筐体構造全体では、合計４つのマイク基板１２７が取り付けられ、マイクアレイ２０の筐体構造全体では、合計１６個のＥＣＭ１３１が装備される。

従って、図１２に示すマイクアレイ２０の筐体構造では、底部の外側から、パンチングメタルカバー１０３、メイン筐体１０１、マイク筐体１２９、マイク板金１０５、ベース板金１０７が順に、図１２に示す上方向に向かって配置されている。これらの複数の部材は、マイクアレイ２０の図１２に示す下方向からの外力（衝撃力）に対抗する構造体を構成している。例えばメイン筐体１０１とマイク筐体１２９とが一体構成でなく別体構成となっているので、図１２に示す下方向からの外力（衝撃力）を分散し、ベース板金１０７がメイン筐体１０１及びマイク筐体１２９の変形を防ぐことができる。これにより、外力が加わった後でも、マイクアレイ２０の収音時の形状維持が可能となり、マイクアレイ２０の収音時における音響特性の劣化を防ぐことができる。

ベース板金１０７は、例えば金属の材料をプレス加工（絞り加工）することにより一体に成形される。ベース板金１０７は、環状天板部１３３を有して有底筒状に形成される。即ち、環状底部１１１の外周からはベース板金外周壁１３５が下側に曲げられている。このベース板金外周壁１３５は、大径の環状天板部１３３の素板を絞り加工することにより得られる。ベース板金外周壁１３５が絞り加工されたベース板金１０７は、他の構成部材よりも高い強度を有している。

ベース板金１０７は、メイン筐体１０１にベース板金固定ネジ（図示略）によって固定される。ベース板金１０７には、マイク板金１０５との間に、例えばマイクアレイ２０の処理を制御するための部品等が実装されたメイン基板１３９と、例えばマイクアレイ２０の各部に電源を供給するための部品等が実装された電源基板１４１とが配置される。メイン基板１３９と電源基板１４１は、図１２に示すマイクアレイ２０の筐体構造の全体で、それぞれが１つずつ設けられる。

マイク板金１０５からは、複数の嵌合部１４３が円周方向に等間隔で起立している。嵌合部１４３は、半径方向に離間する一対の挟持片（外側挟持片１４５、内側挟持片１４７）からなる。嵌合部１４３は、メイン筐体外周壁１１７の内側で間隙１４９を有して配置される。嵌合部１４３には、ベース板金外周壁１３５が嵌合される。つまり、図１２に示すマイクアレイ２０の筐体構造では、側部の外側から、メイン筐体外周壁１１７、間隙１４９、外側挟持片１４５、ベース板金外周壁１３５、内側挟持片１４７が順に、半径方向内側に向かって配置されている。これらの重ねられた複数の部材は、マイクアレイ２０の側部からの外力（衝撃力）に対抗する構造体を構成している。

また、マイク板金１０５からは、起立して突出した当り止め部１３７があり、通常はベース板金１０７とは離れた位置にあるが、外力が加わってメイン筐体１０１が変形した場合、当り止め部１３７がベース板金１０７に当り、メイン筐体１０１に大きなひずみが生じないように働く。

（ＥＣＭの直付構造）
図１６は、ＥＣＭの取付構造の模式図である。図１２に示すマイクアレイ２０の筐体構造では、マイク基板１２７がマイク板金１０５の下側に配置され、メイン基板１３９及び電源基板１４１がマイク板金１０５の上側に配置される。つまり、マイク基板１２７と、メイン基板１３９及び電源基板１４１とは、２階建ての構造となって配置されている。ここで、４つのマイク基板１２７は、円周回りの一方向で第１のマイク基板１２７、第２のマイク基板１２７、第３のマイク基板１２７、第４のマイク基板１２７が順に配置されているとする。この場合、メイン基板１３９は、第１のマイク基板１２７と、第４のマイク基板１２７に電源配線１５１によって接続されている。第１のマイク基板１２７は、第２のマイク基板１２７に接続されている。第４のマイク基板１２７は、第３のマイク基板１２７に接続されている。

マイク基板１２７の下面側には、ＥＣＭ１３１が取り付けられる。ＥＣＭ１３１には、一対のピン端子１５３が突出される。ＥＣＭ１３１は、それぞれのピン端子１５３が、マイク基板１２７の所定の回路に設けられた端子ピン挿入孔（図示略）に挿入され、例えば半田によって直接に接続固定される。これにより、マイク基板１２７に対するＥＣＭ１３１の薄厚化（低背化）を実現している。また、ＥＣＭ１３１のマイク基板１２７への直付けにより材料費を安価としている。

（ＡＤＣコンバータ配置）
図１７は、マイク基板１２７の平面図である。図１７に示す１つのマイク基板１２７には、４つのＥＣＭ１３１が取り付けられている。マイク基板１２７の回路（マイク基板回路）では、それぞれのＥＣＭ１３１に接続される線路長の差は音波信号における位相差を生じさせ、結果的に、この位相差が指向角のズレとなってくる。このため、それぞれのＥＣＭ１３１に接続される線路長は、できるだけ等しくする必要がある。

そこで、マイク基板１２７では、２つのＥＣＭ１３１と１つのＡＤコンバータ１５５との組合せによりマイク基板回路が構成されている。マイク基板回路は、１つのＡＤコンバータ１５５が２つのＥＣＭ１３１の間に、それぞれのＥＣＭ１３１から等距離で配置されることで、ＡＤコンバータ１５５とＥＣＭ１３１との間のアナログ線路１５７を増幅回路を経由して最短でかつ同じ線路長となるように配線している。これにより、マイク基板回路は、マイク基板１２７におけるノイズ信号のレベルを各ＥＣＭにおいて均等にでき、かつ指向角のズレを低減できる。

（マイク基板回路）
図１８（Ａ）は、複数のマイク回路１５９に対して１つのリップル除去回路１６１が設けられるマイク基板回路の図を示す。図１８（Ｂ）は、複数のマイク回路１５９のそれぞれにリップル除去回路１６１が設けられるマイク基板回路の図である。

マイク基板１２７のマイク基板回路には、ＥＣＭが配置されたマイク回路１５９と電源基板１４１との間に、リップル除去回路１６１が設けられる。リップル除去回路１６１は、直流信号は通過させるが、特定周波数の交流信号をカットするフィルタである。リップル除去回路１６１は、図１８（Ａ）に示すように、並列接続した４つのマイク回路１５９と電源基板１４１の間に、１つ設けることができる。この場合、マイクアレイ２０の製造コストの低減が可能となる。

一方、リップル除去回路１６１は、図１８（Ｂ）に示すように、４つそれぞれのマイク回路１５９と電源基板１４１の間に設けてもよい。この場合、異なるＥＣＭ間の信号流入が低減され、所謂クロストーク１６３の抑制が可能となる。

（マイクアレイとカメラとの間の構造的な隙間対策）
図１９（Ａ）は、カメラアダプタが取り付けられずに全方位カメラが取り付けられたマイクアレイ２０の筐体構造の斜視図である。図１９（Ｂ）は、屋外用全方位カメラ１６５がカメラアダプタと共に取り付けられたマイクアレイ２０の筐体構造の斜視図である。図２０は、屋内用全方位カメラ１６７が取り付けられるマイクアレイ２０の筐体構造の分解斜視図である。図２１は、屋外用全方位カメラ１６５が取り付けられるマイクアレイ２０の筐体構造の分解斜視図である。図２２（Ａ）は、屋外用全方位カメラ１６５が取り付けられたマイクアレイ２０の筐体構造の側面図である。図２２（Ｂ）は、図２２（Ａ）のＢ−Ｂ断面図である。図２３は、図２２の要部拡大図である。

マイクアレイ２０の筐体構造において、中央部のカメラ取付空間１１５に、例えば全方位カメラを組み込むことかできる。全方位カメラには、屋外用全方位カメラ１６５と、屋内用全方位カメラ１６７とがある。図１９（Ａ）に示すように、マイクアレイ２０の筐体構造として、例えば屋内用全方位カメラ１６７がカメラ取付空間１１５に取り付けられると、マイクアレイ２０のメイン筐体１０１と屋内用全方位カメラ１６７との間に隙間１６９が生じ、マイクアレイ２０の内部が見えてしまう。内部が見える状態は、製品としての見栄えの悪化やごみなどの進入だけでなく、マイクアレイ２０の内部空間に音が侵入して、共鳴や反射などを起こし、音響的な性能の劣化の原因となってしまう。

また、全方位カメラには用途や機能によって様々なサイズがある。それぞれの全方位カメラ用に、サイズの異なるメイン筐体１０１を準備することは、製造上のコストアップが避けられない。メイン筐体１０１をひとつのサイズに固定して、全方位カメラの機種による隙間の違いを、カメラアダプタを用いて隙間を塞ぐことで、製造コストを抑えることが可能になる。

そこで、図１９（Ｂ）に示すように、例えば屋外用全方位カメラ１６５がカメラ取付空間１１５に取り付けられる場合には、屋外用カメラアダプタ１７１が、屋外用全方位カメラ１６５の周囲に取り付けられる。また、図２０に示すように、屋内用全方位カメラ１６７がカメラ取付空間１１５に取り付けられる場合には、屋内用カメラアダプタ１７３が、屋内用全方位カメラ１６７の周囲に取り付けられる。屋内用カメラアダプタ１７３は、例えば樹脂を材料として筒状に形成される。屋内用カメラアダプタ１７３の下端には隙間隠し用のフランジ１７５が形成され、フランジ１７５は屋内用全方位カメラ１６７をカメラ取付空間１１５に取り付けた場合に生じる屋内用全方位カメラ１６７とメイン筐体１０１との間の隙間１６９を隠す。

屋内用カメラアダプタ１７３には複数の周壁弾性爪１７７が、複数の切り込み１７９内に、円周方向に沿って等間隔に形成される。屋内用カメラアダプタ１７３は、周壁弾性爪１７７を屋内用全方位カメラ１６７のカメラ筐体１８１に係止して取り付けられる。ベース板金１０７には、図２２に示す複数のカメラ固定用板金部１８３が円周方向に沿って等間隔で形成されている。カメラ固定用板金部１８３は、ダルマ穴１８５を有してカメラ取付空間１１５の上方に配置される。カメラ筐体１８１の上面には、カメラ固定用板金部１８３のダルマ穴１８５に係合する大径頭部（図示略）を有する係合ピン（図示略）が突設されている。屋内用カメラアダプタ１７３が取り付けられた屋内用全方位カメラ１６７は、カメラ取付空間１１５に挿入され、回転されることで、係合ピンがダルマ穴１８５に係合して落下が規制されて支持される。この回転位置で、屋内用全方位カメラ１６７は、カメラ回転規制ネジ（図示略）によってマイクアレイ２０のメイン筐体１０１等にロックされる。また、屋内用全方位カメラ１６７がロックされた状態では、周壁弾性爪１７７は、メイン筐体１０１の内周壁が邪魔となって、カメラ固定用板金部１８３の係止の解除が規制される。

一方、図２１に示す屋外用カメラアダプタ１７１の外周には、先端が自由端となったバヨネット板１８７が設けられている。バヨネット板１８７の自由端には、半径方向内側に突出するアダプタ回転規制爪１８９（図２３参照）が形成されている。アダプタ回転規制爪１８９は、カメラ筐体１８１に形成されるバヨネット係合溝１９１に係合する。他の構造は、屋内用カメラアダプタ１７３と同様である。カメラ取付空間１１５に組み込まれた屋外用カメラアダプタ１７１を回転させようとすると、図２３に示すように、アダプタ回転規制爪１８９がバヨネット係合溝１９１に係合して、回転が規制される。つまり、屋外用カメラアダプタ１７１と屋外用全方位カメラ１６５との相対回転が規制される。なお、屋外用カメラアダプタ１７１のフランジ１７５には、工具挿入溝１９３が形成される。屋外用全方位カメラ１６５は、カメラ取付空間１１５に押し込まれると、回転させる手段が無くなる。そこで、工具挿入溝１９３にドライバー等を入れて回すことが可能となっている。

（マイクアレイと全方位カメラとの別体使用時に用いられる蓋）
図２４は、蓋１９５の取り付けられるマイクアレイ２０の筐体構造の分解斜視図である。マイクアレイ２０と全方位カメラとは、例えば図７（Ａ）に示すように一体的に取り付けられて使用される場合もあるが、例えば図９（Ａ）に示すように別体で取り付けられて使用される場合もある。この場合、カメラ取付空間１１５は、図２４に示す蓋１９５によって塞がれる。蓋１９５は、例えば樹脂を材料として一体に成形される。また、蓋１９５は、金属製の蓋用板金１９７との係止構造等によって一体に組み合わせられる。蓋１９５は、蓋用板金１９７と組み合わされることで、外力（衝撃力）を蓋用板金１９７へ分散させる。これにより、蓋１９５は、蓋１９５自身の大きな変形が抑制されて、割れ等が防止される。蓋１９５は、蓋用板金１９７と組み合わされて、カメラ取付空間１１５へ挿入され、蓋用板金１９７が、全方位カメラ固定用のカメラ固定用板金部１８３に係合することで支持される。この状態で、蓋１９５は、蓋回転止ネジ１９９によってカメラ固定用板金部１８３に回転止めされて固定される。

（取付金具）
図２５は、取付金具２０１を用いて天井に取り付けられるマイクアレイ２０の筐体構造の分解斜視図である。図２６（Ａ）は、ベース板金用固定穴２０３に差し込まれる前のベース板金側固定ピン２０５の側面図である。図２６（Ｂ）は、ベース板金用固定穴２０３に差し込まれたベース板金側固定ピン２０５の側面図である。図２６（Ｃ）は、ベース板金用固定穴２０３に差し込まれたベース板金側固定ピン２０５の平面図である。図２６（Ｄ）は、ベース板金用固定穴２０３の小径穴２０７に移動したベース板金側固定ピン２０５の側面図である。図２６（Ｅ）は、ベース板金用固定穴２０３の小径穴２０７に移動したベース板金側固定ピン２０５の平面図である。

耐衝撃性筐体１０９（図１２参照）は、取付金具２０１を用いて設置面の一例としての天井面（図示略）に取り付けられる。即ち、取付金具２０１は、天井面に固定され、この取付金具２０１に、筐体構造を有する耐衝撃性筐体１０９が取り付けられる。

取付具の一例としての取付金具２０１は、図２５に示すように、円形の金具基部を有する。ただし、取付具は金属製の取付金具２０１に限定されず、取付具の材質は例えばセラミックスでも合成樹脂（例えばプラスチックまたはエラストマ）でもよい。金具基部には、ベース板金用固定穴２０３が複数（例えば３個）穿設される。ベース板金用固定穴２０３は、小径穴２０７と大径穴２０９とが接続されたダルマ形状またはヘチマ形状に形成されている。

一方、天井面と対面するベース板金１０７の面には、ベース板金用固定穴２０３に対応してベース板金側固定ピン２０５が突設される。図２６（Ａ）に示すように、ベース板金側固定ピン２０５は、突出先端に大径のピン頭部２１１を有する。大径のピン頭部２１１は、大径穴２０９に挿入可能となり、小径穴２０７には離脱が規制されて係止可能となっている。

次に、耐衝撃性筐体１０９の取り付け方法を説明する。
先ず、設置面の一例としての天井面に耐衝撃性筐体１０９を取り付けるには、取付金具２０１を天井面の所定位置に天井固定ネジ（図示略）によって固定する。天井面に固定された取付金具２０１に、耐衝撃性筐体１０９を同心円状に位置合わせする。

次に、図２６（Ｂ）及び図２６（Ｃ）に示すように、ベース板金側固定ピン２０５の大径のピン頭部２１１をベース板金用固定穴２０３の大径穴２０９に挿入する（図２６（Ｂ）及び図２６（Ｃ）参照）。

その後、図２６（Ｄ）及び図２６（Ｅ）に示すように、耐衝撃性筐体１０９を回転して、大径のピン頭部２１１を小径穴２０７に移動することで、全てのベース板金側固定ピン２０５がベース板金用固定穴２０３に同時に固定される。取付金具２０１を介して天井面に固定された耐衝撃性筐体１０９のカメラ取付空間１１５には、上述したようにして、屋外用全方位カメラ１６５や屋内用全方位カメラ１６７が、取り付けられる。

このように、マイクアレイ２０の筐体構造では、取付金具２０１によって天井面に固定された耐衝撃性筐体１０９に、全方位カメラが直接取り付けられる。これにより、マイクアレイ２０の筐体構造は、マイク板金１０５の固定されているベース板金１０７に、全方位カメラが直接取り付けられるので、ＥＣＭ１３１と全方位カメラの位置精度を向上させることができる。

（反射音の抑制）
図２７は、ＥＣＭ用凹部２１３にテーパ２２３が設けられたマイクアレイ２０の筐体構造の断面図である。マイクアレイ２０の筐体構造は、図２７に示すように、ＥＣＭ用凹部２１３の内周面が、ＥＣＭ１３１に向かって縮径されるテーパ２２３となっている。テーパ２２３は、最小径がＥＣＭ１３１の挿入される緩衝材２１７の円形凸部の外径と略一致し、最大径が環状底部１１１のマイク敷設用穴１１３と略一致する。テーパ２２３が形成されたＥＣＭ用凹部２１３は、気柱の共振点が上がる。また、ＥＣＭ用凹部２１３の内周面の反射波がＥＣＭ１３１に向かわなくなる。更に、筐体横方向からの音波に乱れが無い状態でＥＣＭ１３１に届くようになる。これにより、使用可能な音域が広がり、マイクアレイ２０の収音時における音響特性が向上する。また、パンチングメタルカバー１０３と環状底部１１１の間には、風騒音を低減させるための不織布２２１が挟持されている。

（風対策）
図２８は、風対策の施されたマイクアレイ２０の筐体構造の断面図である。マイクアレイ２０の筐体構造は、マイク筐体１２９に、複数のＥＣＭ用凹部２１３がＥＣＭ１３１に応じて形成される。ＥＣＭ用凹部２１３は、例えば円形状に形成され、中心にＥＣＭ１３１を表出させる透孔２１５が形成される。なお、ＥＣＭ１３１は、例えば外周にゴム等の緩衝材２１７が巻かれてマイク筐体１２９に取り付けられ、ＥＣＭ１３１の先端が透孔２１５に挿入される。ＥＣＭ用凹部２１３は、環状底部１１１に形成されるマイク敷設用穴１１３と同心円状に配置される。このＥＣＭ用凹部２１３には、風対策用の吸音材２１９を充填できる。吸音材２１９の表面は、不織布２２１によって覆う。不織布２２１は、パンチングメタルカバー１０３と環状底部１１１とに挟持されている。

次に、ＥＣＭ用凹部２１３の変形例を、図２９（Ａ）〜（Ｃ）を参照して説明する。図２９（Ａ）は、ＥＣＭ用凹部２１３の内径と深さとの関係を表したマイクアレイ２０の筐体構造の断面図である。図２９（Ｂ）は、ＥＣＭ用凹部２１３の内壁が傾斜壁２２５となったマイクアレイ２０の筐体構造の断面図である。図２９（Ｃ）は、ＥＣＭ用凹部２１３の内周隅部がＲ部２２７となったマイクアレイ２０の筐体構造の断面図である。

図２９（Ａ）に示すように、ＥＣＭ用凹部２１３の直径Ｄと深さＨは、所定の関係となることが好ましい。例えばＨ／Ｄ＜１／１０の関係を満たすことで、ＥＣＭ用凹部２１３の共振周波数近傍でピークが抑えられるため、音響性能に悪影響を与えなくなる。

図２９（Ｂ）に示すように、ＥＣＭ用凹部２１３は、平坦な凹部底面２２９と、テーパ状の傾斜壁２２５とによって形成されてもよい。これによって、ＥＣＭ用凹部２１３の共振周波数を使用周波数帯域よりも高く出来るとともに、ＥＣＭ用凹部２１３の内周面からＥＣＭ１３１へ向かう反射波を低減させることができる。

図２９（Ｃ）に示すように、ＥＣＭ用凹部２１３は、内周隅部をＲ部２２７としてもよい。これによっても、ＥＣＭ用凹部２１３の共振周波数を使用周波数帯域よりも高く出来るとともに、ＥＣＭ用凹部２１３の内周面からＥＣＭ１３１へ向かう反射波を低減させることができる。

図３０（Ａ）は、テーパ２２３を形成しないＥＣＭ用凹部２１３の等圧面を表した説明図である。図３０（Ｂ）は、テーパ２２３を形成したＥＣＭ用凹部２１３の等圧面を表した説明図である。

ＥＣＭ１３１の近傍の音は、例えば波動方程式による空間を伝わる音を有限要素法で解析することによってシミュレーションすることができる。この場合、ＥＣＭ用凹部２１３にテーパ２２３を設けないモデルでは、図３０（Ａ）に示すように、等圧面の間隔が、筐体表面２３１とＥＣＭ部２３３で異なる。一方、ＥＣＭ用凹部２１３にテーパ２２３を設けたモデルでは、図３０（Ｂ）に示すように、等圧面の間隔が、筐体表面２３１とＥＣＭ部２３３で同じとなる。これにより、ＥＣＭ用凹部２１３にテーパ２２３が設けられることで、ＥＣＭ１３１に向かって音波が乱れることなく届くことになる。

次に、上述した各実施形態のマイクアレイ２０の筐体構造の作用を説明する。
上述した各実施形態のマイクアレイ２０の筐体構造では、有底筒状に形成される樹脂製のメイン筐体１０１に、金属製のマイク板金１０５と、有底筒状の金属製のベース板金１０７が固定される。金属製のマイク板金１０５には、ベース板金１０７側に当り止め部１３７が起立している。また、メイン筐体１０１には、メイン筐体１０１を挟んでマイク板金１０５の反対側に、金属製のパンチングメタルカバー１０３が固定される。

上述した各実施形態のマイクアレイ２０の筐体構造は、外部からの衝撃エネルギーが、樹脂製のメイン筐体１０１を変形させることによって吸収される。メイン筐体１０１の破壊強度以上の衝撃エネルギーは、金属製のマイク板金１０５を変形させることによって吸収される。更に、マイク板金１０５を所定量以上に塑性変形させる衝撃エネルギーは、当り止め部１３７を介してベース板金１０７に加えられ、最終的にはベース板金１０７が取り付けられる建物躯体等へ逃がされる。

また、上述した各実施形態のマイクアレイ２０の筐体構造では、別体の部材で作られるパンチングメタルカバー１０３、メイン筐体１０１、マイク板金１０５、ベース板金１０７が、一体に固定されて組み立てられる。このため、外部からの衝撃エネルギーは、これら部材間の間隙１４９、擦れ合いによる摩擦によっても吸収されて低減される。

また、上述した各実施形態のマイクアレイ２０の筐体構造は、マイク基板１２７が、パンチングメタルカバー１０３とマイク板金１０５に挟まれている。メイン基板１３９及び電源基板１４１が、マイク板金１０５とベース板金１０７に挟まれている。つまり、マイク板金１０５は、金属製のパンチングメタルカバー１０３と金属製のマイク板金１０５とが構成する導電性外殻によって電磁シールドされる。メイン基板１３９及び電源基板１４１は、金属製のマイク板金１０５と金属製のベース板金１０７とが構成する導電性外殻によって電磁シールドされる。

また、上述した各実施形態のマイクアレイ２０の筐体構造では、樹脂製のメイン筐体１０１と金属製のマイク板金１０５によって挟まれるマイク筐体１２９が、樹脂素材で作られている。マイク筐体１２９には、複数のマイクが固定される。マイク筐体１２９に固定されたマイクは、メイン筐体１０１の環状底部１１１に開口するマイク敷設用穴１１３を通して外部に開放される。このマイク敷設用穴１１３は、環状底部１１１を覆うパンチングメタルカバー１０３によって覆われる。

例えば、耐衝撃性筐体１０９が天井面に固定されると、パンチングメタルカバー１０３は、地面に対面する側に配置される。地面側より耐衝撃性筐体１０９に加えられる打撃等の衝撃は、先ず、パンチングメタルカバー１０３に加わる。金属製のパンチングメタルカバー１０３は、弾性限界以上の衝撃によって塑性変形し、衝撃エネルギーを吸収する。パンチングメタルカバー１０３の塑性変形によって吸収されなかった衝撃エネルギーは、メイン筐体１０１の環状底部１１１に加わる。衝撃エネルギーは、環状底部１１１を変形させるとともに、マイク板金１０５とベース板金１０７に加わる。マイク筐体１２９はマイク板金に止められているため、大きな衝撃エネルギーは加わらない。

このときの衝撃エネルギーが、樹脂製のメイン筐体１０１の弾性限界以上であると、メイン筐体１０１は、白化や亀裂等を生じさせ、その衝撃エネルギーを吸収する。メイン筐体１０１は、白化や亀裂が生じるが、全体が完全に破壊されない限り、白化や亀裂を有したまま元の形状に復元される。つまり、メイン筐体１０１は、白化や亀裂が生じていてもマイクの音響特性に大きな影響を及ぼさない。また、塑性変形したパンチングメタルカバー１０３も、開口率が高いため、変形してもマイクの音響特性に影響を及ぼさない。このため、外部からの衝撃に対抗し、マイクの音響特性が劣化しにくい。

なお、メイン筐体１０１がアルミ製であると、パンチングメタルカバー１０３からの衝撃によって塑性変形が生じ易くなる。特にマイク周辺形状が塑性変形した場合には、音響特性が劣化する。従って、上述した各実施形態のマイクアレイ２０の筐体構造によれば、このような塑性変形による音響特性の劣化が抑制される。

更に、筐体構造では、メイン筐体１０１の内側に、マイク板金１０５が配置される。マイク板金１０５からは、嵌合部１４３が起立する。嵌合部１４３は、メイン筐体外周壁１１７の内側で、間隙１４９を有して配置される。この嵌合部１４３は、半径方向（メイン筐体外周壁１１７の厚み方向）に離間する一対の挟持片を有する。嵌合部１４３の一対の挟持片の間には、ベース板金１０７のベース板金外周壁１３５が挿入して嵌められ（嵌合され）る。つまり、本筐体構造では、耐衝撃性筐体１０９の側部が、外側より、メイン筐体外周壁１１７、間隙１４９、外側挟持片１４５、ベース板金外周壁１３５、内側挟持片１４７の順で内側に重ねられて構成されている。

側部の外方より耐衝撃性筐体１０９に加えられる打撃等の衝撃エネルギーは、先ず、メイン筐体外周壁１１７に加わる。メイン筐体外周壁１１７は、間隙１４９の間を弾性変形して衝撃エネルギーを吸収する。弾性限界以上の衝撃エネルギーは、嵌合部１４３に加わる。嵌合部１４３に加わる衝撃エネルギーは、外側挟持片１４５、ベース板金外周壁１３５、内側挟持片１４７を弾性変形させて吸収される。また、この嵌合部１４３に加わる衝撃エネルギーは、外側挟持片１４５とベース板金外周壁１３５、ベース板金外周壁１３５と内側挟持片１４７の摩擦によっても効果的に吸収されて低減される。

従って、上述した各実施形態のマイクアレイ２０の筐体構造によれば、耐衝撃性を向上させることができる。

（第４の実施形態）
第１〜第３の各実施形態では、ディスプレイ６３，７３に表示された映像データにおいて、ユーザにより１つの指定箇所が指定された場合の音声処理システムの動作を想定して説明した。第４の実施形態では、同様にディスプレイ６３，７３に表示された映像データにおいて、ユーザにより異なる複数（例えば２つ）の指定箇所が指定された場合の音声処理システムの動作について説明する。本実施形態の音声処理システムのシステム構成は図１（Ａ）に示す音声処理システム５Ａのシステム構成と同一であるため、音声処理システム５Ａの各部の符号を参照して説明する。

本実施形態の音声処理システムは、例えばディスプレイ６３，７３に表示された映像データにおいてユーザにより２つの指定箇所が指定された場合、指定された２つの指定箇所を適正に区別し、区別したことをユーザに対して視覚的に明示するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する。更に、本実施形態の音声処理システムは、マイクアレイ２０により収音された音声の音声データを用いて、マイクアレイ２０から各指定箇所に対応する音声位置に向かう方向に指向性をそれぞれ形成し、各識別形状に対応付けて予め規定された方法に従って、音声出力する。

図８は、第４の実施形態の音声処理システム５Ａの使用形態の一例を示す模式図である。図８（Ａ）は、例えば屋内のホールの天井８５に、１台のカメラ１０と、１台のマイクアレイ２０と、スピーカ８２とが設置された様子を示す図である。図８（Ｂ）は、ディスプレイ６３に表示された映像データの中で複数の指定箇所が指定された場合の音声処理システム５Ａの動作概要の説明図である。

図８（Ａ）では、２人の人物９１ａ，９２ａがホールの床８７に立って会話をしている。２人の人物９１ａ，９２ａから少し離れた位置には、スピーカ８２が床８７の上に接して載置されており、スピーカ８２から音楽が流れている。また、カメラ１０は、カメラ１０に予め設定された監視対象の地点（場所）の周囲にいる人物９１ａ，９２ａを撮像している。更に、マイクアレイ２０は、ホール全体の音声を収音している。ディスプレイ６３の画面６８には、カメラ１０が撮像した映像データが表示されている。また、スピーカ６５からは、２人の人物９１，９２の会話又はホール内の音楽が音声出力されている。

ユーザは、例えばディスプレイ６３の画面６８に表示された２人の人物９１ａ，９２ａの頭上付近を指９５でそれぞれ連続的にタッチしたとする。タッチ点６３ａ１，６３ａ２はユーザにより指定された複数の指定箇所となる。信号処理部５０は、マイクアレイ２０によって収音された音声、即ち各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ａ１，６３ａ２に対応する各音声位置に向かう各指向方向（図８（Ａ）に示す符号ｅ１，ｅ２で示される方向）に指向性を形成した各音声データを生成して合成する。

即ち、信号処理部５０は、各マイクロホン２２が収音した各音声データを用いて、マイクアレイ２０の各マイクロホン２２の位置から、ユーザが指定したタッチ点６３ａ１，６３ａ２に対応する各音声位置に向かう各指向方向の音声（音量レベル）を強調（増幅）した音声データを生成して合成する。再生部６０は、信号処理部５０が合成した音声データを、カメラ１０が撮像した映像データと同期させてスピーカ６５から音声出力させる。

この結果、ユーザによって指定されたタッチ点６３ａ１，６３ａ２に対応する各音声位置における音声が強調され、スピーカ６５から２人の人物９１ａ，９２ａの会話（例えば図８（Ａ）に示す「Ｈｅｌｌｏ」及び「Ｈｉ！」参照）が大きな音量によって音声出力される。一方、２人の人物９１ａ，９２ａに比べ、マイクアレイ２０により近い距離に載置されているがユーザによって指定されたタッチ点６３ａ１，６３ａ２ではないスピーカ８２から流れている音楽（図８（Ａ）に示す「♪〜」参照）は強調して音声出力されず、２人の人物９１ａ，９２ａの会話に比べて小さな音量によって音声出力される。

次に、ユーザにより複数の指定箇所が指定された場合に、本実施形態の音声処理システムが、ディスプレイ６３に表示された映像データの中で、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する例、及び各識別形状に対応付けて予め規定された方法に従って音声出力する例について、図３１〜図４０を参照して詳細に説明する。なお、本実施形態の図３１〜図４０の説明を分かり易くするために、全方位カメラ１０Ｅとマイクアレイ２０Ｃとが一体として組み込まれた音声処理システム５Ｄを想定して説明する（図９（Ａ）参照）が、本実施形態の音声処理システム５Ｄでは複数（例えば２つ）のスピーカ６５Ｌ，６５Ｒが音声処理装置４０又はＰＣ７０に設けられているとする。

図３１（Ａ）は、第４の実施形態の音声処理システム５Ｄの使用例の説明図である。図３１（Ｂ）は、第１の指定箇所の周囲に表示される第１の識別形状９１Ｍ、第２の指定箇所の周囲に表示される第２の識別形状９２Ｍの一例を表示する様子と、第１の識別形状９１Ｍにより特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調して第１のスピーカ６５Ｌから出力する様子と、第２の識別形状９２Ｍにより特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調して第２のスピーカ６５Ｒから出力する様子とを示す図である。

図３１（Ａ）では、例えば屋内のホールの天井８５に、ドーナツ型形状のマイクアレイ２０Ｃと、マイクアレイ２０Ｃと一体として組み込まれた全方位カメラ１０Ｅと、スピーカ８３とが設置されている。また、図３１（Ａ）では、４人の人物９１ａ，９２ａ，９３ａ，９４ａがホールの床８７に立って会話をしており、より具体的には人物９１ａ，９２ａが会話をしており、人物９３ａ，９４ａが会話をしている。人物９２ａ，９３ａから少し離れた位置には、スピーカ８２が床８７の上に接して載置されており、スピーカ８２から音楽が流れている。また、全方位カメラ１０Ｅは、所定の視野角内に存在する人物９１ａ，９２ａ，９３ａ，９４ａ及びスピーカ８２を撮像している。更に、マイクアレイ２０Ｃは、ホール全体の音声を収音している。ディスプレイ６３の画面６８には、全方位カメラ１０Ｅが撮像した映像データが表示されている。

（指定箇所の指定方法と指定方法に対応付けられた音声出力方法との組み合わせ）
以下、本実施形態の音声処理システム５Ｄにおいて、ユーザの複数の指定箇所の指定方法と、指定箇所毎に表示される識別形状に対応付けられた音声出力方法との組み合わせについて、複数の例を用いて説明する。但し、以下の指定箇所の指定方法と音声出力方法との組み合わせはあくまで一例であり、各組み合わせにおいて他の指定箇所の指定方法や音声出力方法が用いて組み合わされても良い。

（第１の指定方法及び音声出力方法の組み合わせ）
第１の指定方法は、例えばマウスを用いた左クリック操作及び右クリック操作により、指定箇所を指定する方法である。第１の音声出力方法は、指定箇所の一方の音声データを一方のスピーカから音声出力し、指定箇所の他方の音声データを他方のスピーカから音声出力する単純ステレオ２ｃｈ（チャンネル）出力方法である。

ユーザは、例えばディスプレイ６３の画面６８（図３１（Ｂ）参照）に表示された人物９１ａの頭上付近を操作部５５（例えばマウス）の左クリック操作により、更に、人物９２ａの頭上付近を操作部５５（例えばマウス）の右クリック操作により、それぞれ連続的に指定したとする。左クリック操作及び右クリック操作により指定された箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部５０は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。

具体的には、信号処理部５０は、左クリック操作により指定された人物９１ａの周囲に、人物９１ａが指定されたことを視覚的に明示するための識別形状９１Ｍを表示させ、同様に、右クリック操作により指定された人物９２ａの周囲に、人物９２ａが指定されたことを視覚的に明示するための識別形状９２Ｍを表示させる。識別形状９１Ｍ，９２Ｍは、例えばそれぞれ緑色，赤色の矩形であるが、色や形状は緑色、赤色、矩形に限定されない。

また、信号処理部５０は、マイクアレイ２０Ｃによって収音された音声の音声データを用いて、マイクアレイ２０Ｃの設置位置から、ユーザが指定した２つの指定箇所に対応する各音声位置に向かう各指向方向（図３１（Ａ）に示す符号ｅ１，ｅ２で示される方向）に指向性を形成した各音声データを生成する。再生部６０は、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９１Ｍにより特定される第１の指向方向（図３１（Ａ）に示す符号ｅ１参照）の音声を強調した音声データをスピーカ６５Ｌから音声出力し、識別形状９２Ｍにより特定される第２の指向方向（図３１（Ａ）に示す符号ｅ２参照）の音声を強調した音声データをスピーカ６５Ｒから音声出力する。従って、人物９１ａの会話音声（「Ｈｅｌｌｏ」）はスピーカ６５Ｌから強調されて音声出力され、人物９２ａの会話音声（「Ｈｉ！」）はスピーカ６５Ｒから強調されて音声出力される。

図３２は、図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイ６３に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスＯＰＢが表示される様子を示す図である。例えば、ディスプレイ６３に図３１（Ｂ）に示す映像データが表示されている場合に、ユーザが、操作部５５（例えばマウス）により、カーソルＭＰＴを映像データの表示領域外に移動させてからクリック操作（例えば右クリック操作）したとする。信号処理部５０は、ユーザのクリック操作に応じて、スピーカ６５Ｌ又は６５Ｒから音声出力される音声のパラメータ（例えば、音量レベル）を調整するための調整用操作ボックスＯＰＢを、ディスプレイ６３に表示させる。なお、調整用操作ボックスＯＰＢは、例えば音量レベルの調整に用いられるとして説明しているが、他には、音声出力時のイコライザの設定の調整や、有指向音声と無指向音声との切り替えの調整に用いられても良い。

なお、ユーザが第１の識別形状９１Ｍを選択した状態で、調整用操作ボックスＯＰＢの「＋」ボタンを複数回押下すると、スピーカ６５Ｌから音声出力されている人物９１ａの会話音声が更に大きく音声出力される。一方、ユーザが第２の識別形状の９２Ｍを選択した状態で、調整用操作ボックスＯＰＢの「−」ボタンを複数回押下すると、スピーカ６５Ｒから音声出力されている人物９２ａの会話音声が更に小さく音声出力される。

なお、第１の識別形状９１Ｍ、第２の識別形状９２Ｍは、両方とも実線であるが、色が異なることで区別されていたが、例えば色は同じであって実線と点線とにより区別されても良い（図３３（Ｂ）参照）。図３３（Ａ）は、第４の実施形態の音声処理システム５Ｄの使用例の説明図である。図３３（Ｂ）は、第１の指定箇所の周囲に表示される第１の識別形状９１Ｎ、第２の指定箇所の周囲に表示される第２の識別形状９２Ｎの一例を表示する様子と、第１の識別形状９１Ｎにより特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調して第１のスピーカ６５Ｌから出力する様子と、第２の識別形状９２Ｎにより特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調して第２のスピーカ６５Ｒから出力する様子とを示す図である。

なお、図３３（Ａ）は図３１（Ａ）と同様であるため、図３３（Ａ）の説明は割愛する。更に、図３１（Ｂ）では識別形状９１Ｍ，９２Ｍの色が異なっており両方とも実線であったが、図３３（Ｂ）では識別形状９１Ｎ，９２Ｎの色は同一であって、更に一方（第１の識別形状９１Ｎ）が実線であり他方（第２の識別形状９２Ｎ）が点線であること以外は、図３３（Ｂ）と図３１（Ｂ）との違いは無いので、図３３（Ｂ）の説明も割愛する。

図３４は、図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイ６３に表示された映像データの表示領域外へのクリック操作毎に、全方位カメラ１０Ｅにより撮像された映像データと調整用操作ボックスＯＰＢとを切り替えて表示する様子を示す図である。例えば、ディスプレイ６３に図３１（Ｂ）に示す映像データが表示されている場合に、ユーザが、操作部５５（例えばマウス）により、カーソルＭＰＴを映像データの表示領域外に移動させてからクリック操作（例えば右クリック操作）したとする。信号処理部５０は、ユーザのクリック操作に応じて、全方位カメラ１０Ｅにより撮像された映像データの画面を調整用操作ボックスＯＰＢに切り替えてディスプレイ６３に表示させる。

反対に、ディスプレイ６３に調整用操作ボックスＯＰＢが表示されている場合に、ユーザが、操作部５５（例えばマウス）により、カーソルＭＰＴを映像データの表示領域外に移動させてからクリック操作（例えば右クリック操作）したとする。信号処理部５０は、ユーザのクリック操作に応じて、調整用操作ボックスＯＰＢを、全方位カメラ１０Ｅにより撮像された映像データの画面に切り替えてディスプレイ６３に表示させる。なお、調整用操作ボックスＯＰＢと全方位カメラ１０Ｅにより撮像された映像データの画面との切り替えは、カーソルＭＰＴの映像データの表示領域外におけるクリック操作により実行されると説明したが、クリック操作に限定されず、所定の入力操作により実行されても良い。所定の入力操作とは、例えばユーザがキーボードの異なる複数の特定キーを同時に押下した操作等である。

図３５は、図３１（Ｂ）に示す映像データが表示されている状態において、ディスプレイ６３に表示された映像データの表示領域外へのクリック操作に応じて、状態標示用ボックスＩＮＤが表示される様子を示す図である。例えば、ディスプレイ６３に図３１（Ｂ）に示す映像データが表示されている場合に、ユーザが、操作部５５（例えばマウス）により、カーソルＭＰＴを映像データの表示領域外に移動させてからクリック操作（例えば右クリック操作）したとする。信号処理部５０は、ユーザのクリック操作に応じて、スピーカ６５Ｌ又は６５Ｒから音声出力されている音声のパラメータ（例えば、音量レベル）の状態を標示するための状態標示用ボックスＩＮＤを、ディスプレイ６３に表示させる。

なお、ユーザは状態標示用ボックスＩＮＤに対して操作することはできないが、ディスプレイ６３に表示されたいずれかの識別形状がユーザにより指定されると、指定された識別形状に対応する人物の音声の音量レベルの内容が状態標示用ボックスＩＮＤにより視覚的に明示される。また、状態標示用ボックスＩＮＤの内容を変更するためには、例えばユーザが、第１の識別形状９１Ｍを選択した状態で、他の操作部（例えばキーボード）の特定キーを押下することで、スピーカ６５Ｌから音声出力されている人物９１ａの会話音声の音量レベルを大きく又は小さくした結果又はその結果に至る過程が状態標示用ボックスＩＮＤにおいて視覚的に明示される。なお、状態標示用ボックスＩＮＤは、例えば音量レベルの状態を標示するとして説明しているが、他には、音声出力時のイコライザの設定内容や、有指向音声と無指向音声との切り替えの状態の標示に用いられても良い。また、状態標示用ボックスＩＮＤは、ディスプレイ６３において常に表示されても良い。

（第２の指定方法及び音声出力方法の組み合わせ）
第２の指定方法は、例えばキーボードの数字キーの押下操作とマウスの左クリック操作とにより、指定箇所を指定する方法である。第２の音声出力方法は、全ての指定箇所の音声データを両方のスピーカから音声出力する合成モノラル２ｃｈ（チャンネル）出力方法である。

図３６（Ａ）は、第４の実施形態の音声処理システム５Ｄの使用例の説明図である。図３６（Ｂ）は、第１の指定箇所の周囲に表示される第１の識別形状９１Ｋ、第２の指定箇所の周囲に表示される第２の識別形状９２Ｋ、第３の指定箇所の周囲に表示される第３の識別形状９３Ｋ、第４の指定箇所の周囲に表示される第４の識別形状９４Ｋの一例を表示する様子と、第１の識別形状９１Ｋにより特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調した音声データと、第２の識別形状９２Ｋにより特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調した音声データと、第３の識別形状９３Ｋにより特定される第３の指定箇所に対応する第３の音声位置に向かう第３の指向方向の音声を強調した音声データとを、第１及び第２の各スピーカ６５Ｌ，６５Ｒから出力する様子を示す図である。なお、図３６（Ａ）は図３１（Ａ）と同様であるため、図３６（Ａ）の説明は割愛する。

ユーザは、例えばディスプレイ６３の画面６８（図３６（Ｂ）参照）に表示された人物９１ａの頭上付近を操作部５５（例えばキーボードの数字「１」キーの押下とマウスの左クリック）の同時操作、人物９２ａの頭上付近を操作部５５（例えばキーボードの数字「２」キーの押下とマウスの左クリック）の同時操作、人物９３ａの頭上付近を操作部５５（例えばキーボードの数字「３」キーの押下とマウスの左クリック）の同時操作、人物９４ａの頭上付近を操作部５５（例えばキーボードの数字「４」キーの押下とマウスの左クリック）の同時操作により、それぞれ連続的に指定したとする。数字キーの押下と左クリックの各操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部５０は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。

具体的には、信号処理部５０は、数字「１」キーの押下操作と左クリック操作により指定された人物９１ａの周囲に、人物９１ａが指定されたことを視覚的に明示するための識別形状９１Ｋを表示させ、数字「２」キーの押下操作と左クリック操作により指定された人物９２ａの周囲に、人物９２ａが指定されたことを視覚的に明示するための識別形状９２Ｋを表示させ、数字「３」キーの押下操作と左クリック操作により指定された人物９３ａの周囲に、人物９３ａが指定されたことを視覚的に明示するための識別形状９３Ｋを表示させ、数字「４」キーの押下操作と左クリック操作により指定された人物９４ａの周囲に、人物９４ａが指定されたことを視覚的に明示するための識別形状９４Ｋを表示させる。識別形状９１Ｋ，９２Ｋ，９３Ｋ，９４Ｋは、例えば黒色の矩形であるが、色や形状は黒色、矩形に限定されない。

また、信号処理部５０は、マイクアレイ２０Ｃによって収音された音声の音声データを用いて、マイクアレイ２０Ｃの設置位置から、ユーザが指定した４つの指定箇所に対応する各音声位置に向かう各指向方向（図３６（Ａ）に示す符号ｅ１，ｅ２，ｅ３で示される方向）に指向性を形成した各音声データを生成して合成する。再生部６０は、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９１Ｋにより特定される第１の指向方向（図３６（Ａ）に示す符号ｅ１参照）の音声を強調した音声データと、識別形状９２Ｋにより特定される第２の指向方向（図３６（Ａ）に示す符号ｅ２参照）の音声を強調した音声データと、識別形状９３Ｋにより特定される第３の指向方向（図３６（Ａ）に示す符号ｅ３参照）の音声を強調した音声データとを合成した音声データを、スピーカ６５Ｌ，６５Ｒから音声出力する。従って、人物９１ａの会話音声（「Ｈｅｌｌｏ」）、人物９２ａの会話音声（「Ｈｉ！」）、人物９３ａの会話音声（「Ｇｏｏｄｍｏｒｎｉｎｇ！」）はスピーカ６５Ｌ，６５Ｒから強調されて音声出力される。なお、図３６（Ａ）では人物９４ａは声を出していない状態が図示されているので、スピーカ６５Ｌ，６５Ｒから人物９４ａの会話音声は強調して音声出力されていないが、例えば人物９４ａが声を出している場合には、人物９４ａの会話音声もスピーカ６５Ｌ，６５Ｒから音声出力される。

図３７は、図３６（Ｂ）に示す映像データが表示されている状態において、キーボードの複数の特定キーの同時押下操作に応じて、調整用操作ボックスＯＰＢが表示される様子を示す図である。例えば、ディスプレイ６３に図３６（Ｂ）に示す映像データが表示されている場合に、ユーザが、操作部５５（例えばキーボードの「Ｓｈｉｆｔ」キーと数字「１」キー）の同時押下操作を行ったとする。信号処理部５０は、ユーザの同時押下操作に応じて、スピーカ６５Ｌ又は６５Ｒから音声出力される音声の音量レベルを調整するための調整用操作ボックスＯＰＢを、ディスプレイ６３に表示させる。

図３９は、図３６（Ｂ）に示す映像データが表示されている状態において、ディスプレイ６３に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスＯＰＢが表示される様子を示す図である。例えば、ディスプレイ６３に図３６（Ｂ）に示す映像データが表示されている場合に、ユーザが、操作部５５（例えばマウス）により、カーソルＭＰＴを映像データの表示領域外に移動させてからクリック操作（例えば右クリック操作）したとする。信号処理部５０は、ユーザのクリック操作に応じて、スピーカ６５Ｌ又は６５Ｒから音声出力される音声の音量レベルを調整するための調整用操作ボックスＯＰＢを、ディスプレイ６３に表示させる。

（第３の指定方法及び音声出力方法の組み合わせ）
第３の指定方法は、例えばタッチパネルが設けられたディスプレイ６３、又はタッチパネルとは異なるタッチデバイス（例えばタッチパッド）に対するユーザの指若しくはスタイラスペンによる異なる識別形状の描画操作により、指定箇所を指定する方法である。第３の音声出力方法は、ユーザにより指定された１つ又は複数の指定箇所の音声データを一方のスピーカから音声出力し、同様にユーザにより指定された１つ又は複数の指定箇所の音声データを他方のスピーカから音声出力する合成ステレオ２ｃｈ（チャンネル）出力方法である。以下、説明を分かり易くするために、タッチパネルが設けられたディスプレイ６３に対するユーザの描画操作により、指定箇所が指定されるとして説明する。

図３９（Ａ）は、第４の実施形態の音声処理システム５Ｄの使用例の説明図である。図３９（Ｂ）は、第１の指定箇所の周囲に表示される第１の識別形状９１Ｌ、第２の指定箇所の周囲に表示される第２の識別形状９２Ｌ、第３の指定箇所の周囲に表示される第３の識別形状９３Ｌ、第４の指定箇所の周囲に表示される第４の識別形状９４Ｌの一例を表示する様子と、第１の識別形状９１Ｌにより特定される第１の指定箇所に対応する第１の音声位置に向かう第１の指向方向の音声を強調した音声データと、第２の識別形状９２Ｌにより特定される第２の指定箇所に対応する第２の音声位置に向かう第２の指向方向の音声を強調した音声データとを合成して第１のスピーカ６５Ｌから出力する様子と、第３の識別形状９３Ｌにより特定される第３の指定箇所に対応する第３の音声位置に向かう第３の指向方向の音声を強調した音声データを第２のスピーカ６５Ｒから出力する様子を示す図である。なお、図３９（Ａ）は図３１（Ａ）と同様であるため、図３９（Ａ）の説明は割愛する。

ユーザは、例えばディスプレイ６３の画面６８（図４０（Ｂ）参照）に表示された人物９１ａの頭上付近のタッチ及びドラッグによる丸形状の描画操作、人物９２ａの頭上付近のタッチ及びドラッグによる矩形形状の描画操作、人物９３ａの頭上付近のタッチ及びドラッグによる三角形状の描画操作、人物９４ａの頭上付近のタッチ及びドラッグによる六角形状の描画操作により、それぞれ連続的に指定したとする。タッチ及びドラッグによる各形状の描画操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部５０は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる描画操作により描かれた形状を識別形状として各指定箇所の周囲に表示させる。

具体的には、信号処理部５０は、丸形状の描画操作により指定された人物９１ａの周囲に、人物９１ａが指定されたことを視覚的に明示するための識別形状９１Ｌを表示させ、矩形形状の描画操作により指定された人物９２ａの周囲に、人物９２ａが指定されたことを視覚的に明示するための識別形状９２Ｌを表示させ、三角形状の描画操作により指定された人物９３ａの周囲に、人物９３ａが指定されたことを視覚的に明示するための識別形状９３Ｌを表示させ、六角形状の描画操作により指定された人物９４ａの周囲に、人物９４ａが指定されたことを視覚的に明示するための識別形状９４Ｌを表示させる。識別形状９１Ｋ，９２Ｋ，９３Ｋ，９４Ｋは、あくまで一例であり各形状に限定されず、図３９（Ｂ）では各識別形状は点線により図示されているが、点線に限定されず、例えば実線により図示されても良い。

また、信号処理部５０は、マイクアレイ２０Ｃによって収音された音声の音声データを用いて、マイクアレイ２０Ｃの設置位置から、ユーザが指定した４つの指定箇所に対応する各音声位置に向かう各指向方向（図３９（Ａ）に示す符号ｅ１，ｅ２，ｅ３で示される方向）に指向性を形成した各音声データを生成して合成する。再生部６０は、例えばディスプレイ６３の中央から左側の表示領域において描画された識別形状９１Ｌ，９２Ｌを１つの音声出力グループとしてグルーピングし、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９１Ｌにより特定される第１の指向方向（図３９（Ａ）に示す符号ｅ１参照）の音声を強調した音声データと、識別形状９２Ｌにより特定される第２の指向方向（図３９（Ａ）に示す符号ｅ２参照）の音声を強調した音声データとを合成した音声データを、スピーカ６５Ｌから音声出力する。更に、再生部６０は、例えばディスプレイ６３の中央から右側の表示領域において描画された識別形状９３Ｌを１つの音声出力グループとしてグルーピングし、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９３Ｌにより特定される第３の指向方向（図３９（Ａ）に示す符号ｅ３参照）の音声を強調した音声データを、スピーカ６５Ｒから音声出力する。従って、人物９１ａの会話音声（「Ｈｅｌｌｏ」）、人物９２ａの会話音声（「Ｈｉ！」）はスピーカ６５Ｌから強調されて音声出力され、人物９３ａの会話音声（「Ｇｏｏｄｍｏｒｎｉｎｇ！」）はスピーカ６５Ｒから強調されて音声出力される。なお、図３６（Ａ）では人物９４ａは声を出していない状態が図示されているので、スピーカ６５Ｌ，６５Ｒから人物９４ａの会話音声は強調して音声出力されていないが、例えば人物９４ａが声を出している場合には、人物９４ａの会話音声もスピーカ６５Ｌ，６５Ｒから音声出力される。

また、上述した説明では、再生部６０が、ディスプレイ６３の中央からの左側の表示領域と右側の表示領域とに表示されている識別形状の集合を区分した上で音声出力グループをそれぞれ形成する場合を説明したが、このやり方に限定されない。例えば、ユーザが音声出力グループを任意に指定しても良い。例えば、第１の識別形状９１Ｌと第３の識別形状９３Ｌとがスピーカ６５Ｌから音声出力させるための１つの音声出力グループとして指定され、第２の識別形状９２Ｌがスピーカ６５Ｒから音声出力させるための１つの音声出力グループとして指定されても良い。この場合、再生部６０は、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９１Ｌにより特定される第１の指向方向（図３９（Ａ）に示す符号ｅ１参照）の音声を強調した音声データと、識別形状９３Ｌにより特定される第３の指向方向（図３９（Ａ）に示す符号ｅ３参照）の音声を強調した音声データとを合成した音声データを、スピーカ６５Ｌから音声出力する。更に、再生部６０は、全方位カメラ１０Ｅが撮像した映像データと同期させて、識別形状９２Ｌにより特定される第２の指向方向（図３９（Ａ）に示す符号ｅ２参照）の音声を強調した音声データを、スピーカ６５Ｒから音声出力する。従って、人物９１ａの会話音声（「Ｈｅｌｌｏ」）、人物９３ａの会話音声（「Ｇｏｏｄｍｏｒｎｉｎｇ！」）はスピーカ６５Ｌから強調されて音声出力され、人物９２ａの会話音声（「Ｈｉ！」）はスピーカ６５Ｒから強調されて音声出力される。

図４０は、図３９（Ｂ）に示す映像データが表示されている状態において、タッチパネルが設けられたディスプレイ６３に表示された映像データの表示領域外へのタッチに応じて、調整用操作ボックスＯＰＢが表示される様子を示す図である。例えば、タッチパネルが設けられたディスプレイ６３に図３９（Ｂ）に示す映像データが表示されている場合に、ユーザが、映像データの表示領域外をタッチしたとする。信号処理部５０は、ユーザのタッチに応じて、スピーカ６５Ｌ又は６５Ｒから音声出力される音声の音量レベルを調整するための調整用操作ボックスＯＰＢを、ディスプレイ６３に表示させる。

以上により、第４の実施形態では、信号処理部５０は、ディスプレイ６３に表示された映像データに対して、ユーザが異なる複数（例えば２箇所）の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状（例えば識別形状９１Ｌ，９２Ｌ）を表示させる。

これにより、音声処理システム５Ｄは、ディスプレイ６３に表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状９１Ｌを表示し、他方の指定箇所の周囲に丸の識別形状９２Ｌを表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。

また、音声処理システム５Ｄには、例えば２つのスピーカが設けられ、再生部６０は、マイクアレイ２０から第１の指定箇所に対応する位置（第１の音声位置）に向かう第１の指向方向の音声を強調した第１の音声データを第１のスピーカ６５Ｌから音声出力させ、マイクアレイ２０から第２の指定箇所に対応する位置（第２の音声位置）に向かう第２の指向方向の音声を強調した第２の音声データを第２のスピーカ６５Ｒから音声出力させる。

これにより、音声処理システム５Ｄは、例えば２つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイ２０から各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカ６５Ｌ，６５Ｒから独立して音声出力させることができる。

以下、上述した本発明に係る音声処理システム及び音声処理方法の構成、作用及び効果を説明する。

本発明の一実施形態は、映像を撮像する少なくとも１つの撮像部と、前記撮像部により撮像された映像データを表示する表示部と、複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、前記収音部により収音された音声データを音声出力する音声出力部と、前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付ける操作部と、前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える音声処理システムである。

この構成によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから１つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。

これにより、音声処理システムは、記録された映像データ及び音声データの再生中に、指定された任意の再生時間に対する映像中の音声データを強調して出力できる。

また、本発明の一実施形態は、前記再生部が、前記収音部から、前記１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを前記音声出力部に音声出力させる、音声処理システムである。

これにより、音声処理システムは、信号処理部によって、マイクアレイから１つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを音声出力することができる。

また、本発明の一実施形態は、前記撮像部は全方位カメラであり、前記信号処理部は、前記全方位カメラにより撮像された前記映像データが前記表示部に表示されている間に指定された前記１つ以上の指定箇所に応じて、前記１つ以上の指定箇所を含む映像データの座標系を画像変換し、前記再生部は、前記画像変換後の映像データを前記表示部に表示させ、前記収音部から、前記１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを音声出力させる、音声処理システムである。

この構成によれば、音声処理システムは、全方位カメラにより撮像された映像データにおける被写体の位置とマイクアレイにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を容易に行うことができ、カメラにより撮像された映像データと１つ以上の指定箇所に対応する位置に向かう指向方向に指向性が形成された音声データとを再生部において同期再生処理する場合の処理負荷を軽減できる。

また、本発明の一実施形態は、前記撮像部と前記収音部とが、同軸上に配置される、音声処理システムである。

これにより、音声処理システムは、音声処理システムにおける全方位カメラとマイクアレイとが同一の中心軸を有するように設置されるので、全方位カメラ１０Ｅとマイクアレイ２０Ｃとの座標系を同一にすることができる。

また、本発明の一実施形態は、前記撮像部と前記収音部とが、室内の天井に配置される、音声処理システムである。

これにより、音声処理システムの設置が簡易化できる。

また、本発明の一実施形態は、前記信号処理部は、前記表示部に表示された前記映像データに対して異なる複数箇所の指定に応じて、前記映像データにおける各指定箇所に異なる識別形状を表示させる、音声処理システムである。

この構成によれば、信号処理部は、ディスプレイに表示された映像データに対して、ユーザが異なる複数（例えば２箇所）の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状を表示させる。

これにより、音声処理システムは、ディスプレイに表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状を表示し、他方の指定箇所の周囲に丸の識別形状を表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。

また、本発明の一実施形態は、前記音声出力部が、第１の音声出力部と、第２の音声出力部とを含み、前記再生部が、前記収音部から第１の指定箇所に対応する位置に向かう第１の指向方向の音声を強調した第１の音声データを前記第１の音声出力部から音声出力させ、前記収音部から第２の指定箇所に対応する位置に向かう第２の指向方向の音声を強調した第２の音声データを前記第２の音声出力部から音声出力させる、音声処理システムである。

この構成によれば、音声処理システムには例えば２つのスピーカが設けられ、再生部は、マイクアレイから第１の指定箇所に対応する位置（第１の音声位置）に向かう第１の指向方向の音声を強調した第１の音声データを第１のスピーカから音声出力させ、マイクアレイから第２の指定箇所に対応する位置（第２の音声位置）に向かう第２の指向方向の音声を強調した第２の音声データを第２のスピーカから音声出力させる。

これにより、音声処理システムは、例えば２つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイから各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカから独立して音声出力させることができる。

また、本発明の一実施形態は、前記音声出力部が、第１の音声出力部と、第２の音声出力部とを含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを前記第１の音声出力部から音声出力させ、前記収音部から残りの１つ以上の指定箇所に対応する位置に向かう残りの１つ以上の指向方向の音声を強調した音声データを前記第２の音声出力部から音声出力又は合成音声出力させる、音声処理システムである。

この構成によれば、音声処理システムには例えば２つのスピーカが設けられ、再生部は、マイクアレイから異なる複数の指定箇所に対応する位置（例えば第１，第２の各音声位置）に向かう第１，第２の各指向方向の音声を強調した音声データが合成された音声データを第１のスピーカから音声出力させ、更に、マイクアレイから残りの１つ以上の指定箇所に対応する位置（例えば第３の音声位置）に向かう残りの１つ以上の指向方向の音声を強調した音声データを第２のスピーカから音声出力させる。

これにより、音声処理システムは、例えば２つのスピーカが設けられている場合に、マイクアレイから複数（例えば２つ）の指向方向の音声を強調した各音声データを合成して一方のスピーカから音声出力でき、更に他の指向方向の音声を強調した音声データを他方のスピーカから音声出力できる。

また、本発明の一実施形態は、１つ以上の前記音声出力部を含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを、１つ以上の前記音声出力部から音声出力させる、音声処理システムである。

この構成によれば、音声処理システムには例えば１つ以上のスピーカが設けられ、再生部は、マイクアレイから第１の指定箇所に対応する位置（第１の音声位置）に向かう第１の指向方向の音声を強調した第１の音声データと、マイクアレイから第２の指定箇所に対応する位置（第２の音声位置）に向かう第２の指向方向の音声を強調した第２の音声データと、マイクアレイから第３の指定箇所に対応する位置（第３の音声位置）に向かう第３の指向方向の音声を強調した第３の音声データとが合成された音声データを、１つ以上のスピーカから音声出力させる。

これにより、音声処理システムは、例えば１つ以上のスピーカが設けられている場合に、マイクアレイから複数（例えば３つ）の指向方向の音声を強調した各音声データを合成してスピーカから音声出力でき、更に複数のスピーカが設けられている場合には合成された音声データを同時に音声出力できる。

また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体を表示する、音声処理システムである。

この構成によれば、音声処理システムは、所定の入力操作（例えばマウスの右クリック操作）又はディスプレイに表示された映像データの表示領域外への指定操作（例えばマウスの左クリック操作）により、スピーカから音声出力されている音声データのパラメータ（例えば、音量レベル）の調整操作を受け付ける調整操作用ボックスを簡易に表示することができる。

また、本発明の一実施形態は、前記信号処理部が、常に、若しくは所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ状態標示用媒体を表示する、音声処理システムである。

この構成によれば、音声処理システムは、常に、若しくは所定の入力操作（例えばマウスの右クリック操作）又はディスプレイに表示された映像データの表示領域外への指定操作（例えばマウスの左クリック操作）により、スピーカから音声出力されている音声データのパラメータ（例えば、音量レベル）の状態を標示するインジケータとしての状態標示用ボックスを簡易に表示することができる。

また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作毎に、前記撮像部により撮像された映像データ、又は前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体に切り替えて前記表示部に表示させる、音声処理システムである。

この構成によれば、音声処理システムは、所定の入力操作又はディスプレイに表示された映像データの表示領域外への指定操作（例えばマウスの左クリック操作）毎に、カメラにより撮像された映像データ、又はスピーカから音声出力されている音声データのパラメータ（例えば、音量レベル）の調整操作を受け付ける調整操作用ボックスを簡易に切り替えて表示することができる。

また、本発明の一実施形態は、前記信号処理部が、前記表示部に表示された前記映像データの指定箇所を中心に含む所定形状の描画操作に応じて、前記収音部から前記指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する、音声処理システムである。

この構成によれば、音声処理システムは、ディスプレイに表示された映像データの指定箇所を中心に含む所定形状（例えば矩形形状）を描く簡易な描画操作（例えばタッチ操作とタッチ操作した状態でのスライド操作）により、マイクアレイから指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成することができる。

また、本発明の一実施形態は、前記信号処理部が、前記指定箇所毎に表示された前記識別形状の再指定に応じて、前記収音部から再指定された前記識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを生成又は合成する、音声処理システムである。

この構成によれば、音声処理システムは、指定箇所毎に表示された識別形状が再指定されると、マイクアレイから再指定された識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを簡易に生成又は合成することができる。

また、本発明の一実施形態は、少なくとも１つの撮像部において映像を撮像するステップと、複数のマイクロホンを含む収音部において音声を収音するステップと、前記撮像部により撮像された映像データを表示部に表示させるステップと、前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付けるステップと、記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、音声処理方法である。

この方法によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから１つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

本発明は、撮像された映像データが表示された表示画面の中で指定された１つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力する音声処理システム及び音声処理方法として有用である。

５Ａ、５Ｂ、５Ｃ、５Ｄ音声処理システム
１０、１０Ａ、１０Ｂ、１０Ｃカメラ
１０Ｅ全方位カメラ
２０、２０Ａ、２０Ｃ、２０Ｄ、２０Ｅ、２０Ｆマイクアレイ
２２、２２Ａ、２２Ｂ、２２Ｃ、２２Ｄ、２２Ｅ、２２Ｆ、２２ａ、２２ｂ、２２ｃ、２２ｎ−１、２２ｎマイクロホン
３０、３０Ａネットワーク
４０音声処理装置
４５、４５Ａレコーダ
５０、７１信号処理部
５１ａ、５１ｂ、５１ｃ、５１ｎ−１、５１ｎＡ／Ｄ変換器
５２ａ、５２ｂ、５２ｃ、５２ｎ−１、５２ｎ遅延器
５５、７８操作部
５７加算器
６０、６０Ａ、６０Ｂ再生部
６３、７３ディスプレイ
６５、７５、８２、８３スピーカ
１０１メイン筐体
１０３パンチングメタルカバー
１０５マイク板金
１０７ベース板金
１１１環状底部
１１３マイク穴
１１７メイン筐体外周壁
１２７マイク基板
１２９マイク筐体
１３３環状天板部
１３５ベース板金外周壁
１３９メイン基板
１４１電源基板
１４３嵌合部
１４５外側挟持片
１４７内側挟持片
１４９間隙

Claims

映像を撮像する少なくとも１つの撮像部と、
前記撮像部により撮像された映像データを表示する表示部と、
複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、
前記収音部により収音された音声データを音声出力する音声出力部と、
前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、
前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、
前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付ける操作部と、
前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える、
音声処理システム。
請求項１に記載の音声処理システムであって、
前記再生部は、前記収音部から、前記１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを前記音声出力部に音声出力させる、
音声処理システム。
請求項１に記載の音声処理システムであって、
前記撮像部は全方位カメラであり、
前記信号処理部は、前記全方位カメラにより撮像された前記映像データが前記表示部に表示されている間に指定された前記１つ以上の指定箇所に応じて、前記１つ以上の指定箇所を含む映像データの座標系を画像変換し、
前記再生部は、前記画像変換後の映像データを前記表示部に表示させ、前記収音部から、前記１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを音声出力させる、
音声処理システム。
請求項１に記載の音声処理システムであって、
前記撮像部と前記収音部とが、同軸上に配置される、
音声処理システム。
請求項１〜４のうちいずれか一項に記載の音声処理システムであって、
前記撮像部と前記収音部とが、室内の天井に配置される、
音声処理システム。
請求項１に記載の音声処理システムであって、
前記信号処理部は、前記表示部に表示された前記映像データに対して異なる複数箇所の指定に応じて、前記映像データにおける各指定箇所に異なる識別形状を表示させる、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記音声出力部は、第１の音声出力部と、第２の音声出力部とを含み、
前記再生部は、
前記収音部から第１の指定箇所に対応する位置に向かう第１の指向方向の音声を強調した第１の音声データを前記第１の音声出力部から音声出力させ、
前記収音部から第２の指定箇所に対応する位置に向かう第２の指向方向の音声を強調した第２の音声データを前記第２の音声出力部から音声出力させる、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記音声出力部は、第１の音声出力部と、第２の音声出力部とを含み、
前記再生部は、
前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを前記第１の音声出力部から音声出力させ、
前記収音部から残りの１つ以上の指定箇所に対応する位置に向かう残りの１つ以上の指向方向の音声を強調した音声データを前記第２の音声出力部から音声出力又は合成音声出力させる、
音声処理システム。
請求項６に記載の音声処理システムであって、
１つ以上の前記音声出力部を含み、
前記再生部は、
前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを、１つ以上の前記音声出力部から音声出力させる、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記信号処理部は、
所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体を表示する、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記信号処理部は、
常に、若しくは所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ状態標示用媒体を表示する、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記信号処理部は、
所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作毎に、前記撮像部により撮像された映像データ、又は前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体に切り替えて前記表示部に表示させる、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記信号処理部は、
前記表示部に表示された前記映像データの指定箇所を中心に含む所定形状の描画操作に応じて、前記収音部から前記指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する、
音声処理システム。
請求項６に記載の音声処理システムであって、
前記信号処理部は、
前記指定箇所毎に表示された前記識別形状の再指定に応じて、前記収音部から再指定された前記識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを生成又は合成する、
音声処理システム。
少なくとも１つの撮像部において映像を撮像するステップと、
複数のマイクロホンを含む収音部において音声を収音するステップと、
前記撮像部により撮像された映像データを表示部に表示させるステップと、
前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、
記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、
前記表示部に表示された前記映像データの１つ以上の指定箇所の指定を受け付けるステップと、
記録された前記音声データを基に、前記収音部から、指定された前記映像データの１つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、
音声処理方法。