JP2022010300A

JP2022010300A - 映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システム

Info

Publication number: JP2022010300A
Application number: JP2021185733A
Authority: JP
Inventors: 真彦宮田; Masahiko Miyata; 祐樹杉原; Yuki Sugihara; 潤小林; Jun Kobayashi; 智大島田; Tomohiro Shimada
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-09-18
Filing date: 2021-11-15
Publication date: 2022-01-14
Anticipated expiration: 2039-08-28
Also published as: JPWO2020059447A1; JP7303862B2; WO2020059447A1; JP6979536B2

Abstract

【課題】観察対象が出す音声を適切に認識できる映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システムを提供する。【解決手段】観察対象エリア内を定位置から撮影するカメラ（１０）からの映像をディスプレイ（１１２）に表示する。ディスプレイ（１１２）に表示された映像内で位置の指定を受け付けて、観察対象を設定する。設定された観察対象と観察対象エリア内に離散的に配置された複数のマイクロフォン（Ｍｉｊ）との位置関係を算出する。算出結果に基づいて、観察対象から発せられる音声が各マイクロフォン（Ｍｉｊ）に到達するまでの到達時間を算出する。算出結果に基づいて、各マイクロフォン（Ｍｉｊ）からの音声信号を同時化し、重ね合わせて強調処理して、スピーカ（１１４）から出力する。【選択図】図１

Description

本発明は、映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システムに係り、特に、複数の集音部からの映像音声信号を処理する映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システムに関する。

定位置に設置したカメラを使用して対象を観察するシステムにおいて、対象がどのような音を出しているのかを知りたいと考えるユーザは多い。この場合、カメラと共にマイクロフォンを設置して撮影が行われる。しかし、複数の音源が存在する場合、マイクロフォンで集音した音声から対象の音のみ認識するのは難しい。

この課題に対して、従来、マイクロフォンアレイを使用したシステムが知られている（たとえば、特許文献１～３等）。マクロフォンアレイを使用したシステムでは、マイクロフォンアレイから取得される音声信号を処理することで指向性を制御する。

特開2008-271157号公報特開2016-39407号公報特開2018-23137号公報

しかしながら、マクロフォンアレイを使用したシステムでは、方向に関する選択性しか制御できないため、たとえば、観察対象エリアが広範囲にわたる場合などには、目的とする対象の音声を適切に認識できない場合がある。また、障害物が存在する場合などにも、目的とする対象の音声を適切に認識できない場合がある。

本発明は、このような事情に鑑みてなされたもので、観察対象が出す音声を適切に認識できる映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システムを提供することを目的とする。

上記課題を解決するための手段は、次のとおりである。

（１）第１エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、第１エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、を備えた音声信号処理装置。

本態様によれば、第１エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第１エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。

（２）記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を更に備え、記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、上記（１）の音声信号処理装置。

本態様によれば、音声信号の遅延に合わせて、映像信号が記録される。これにより、ずれなく映像と音声を記録できる。

（３）音声強調処理部は、観察対象から最も離れた集音部で集音される音声信号を基準に、各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記（１）又は（２）の音声信号処理装置。

本態様によれば、観察対象から最も離れた集音部で集音される音声信号を基準に、各集音部からの音声信号が同時化される。

（４）観察対象を中心とする半径Ｒの範囲に第２エリアを設定する第２エリア設定部を更に備え、位置関係算出部は、第２エリア内で観察対象と各集音部との位置関係を算出し、音声到達時間算出部は、第２エリア内で観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出し、音声強調処理部は、観察対象を中心とする半径Ｒの位置で仮想的に集音される音声信号を基準に、第２エリア内の各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記（１）又は（２）の音声信号処理装置。

本態様によれば、仮想的な観察エリア（第２エリア）が設定されて、強調処理が行われる。これにより、処理を簡素化できる。

（５）観察対象の移動を追跡する追跡部を更に備え、第２エリア設定部は、第２エリアを観察対象の移動に追従させる、上記（４）の音声信号処理装置。

本態様によれば、観察対象の移動に追従して、第２エリアが設定される。

（６）第２エリア設定部は、半径Ｒの位置に音声が到達する時間分遅延させて、第２エリアを観察対象の移動に追従させる、上記（５）の音声信号処理装置。

本態様によれば、観察対象の移動に対して、第２エリアが遅れて追従する。これにより、観察対象が移動している場合でも、ドップラー効果などの音の周波数変化を発生させずに音を収集できる。

（７）第２エリアのサイズを調整する第２エリアサイズ調整部を更に備えた、上記（４）から（６）のいずれか一の音声信号処理装置。

本態様によれば、第２エリアのサイズを調整できる。

（８）各集音部への音声の到達時間の補正情報が記憶された補正情報記憶部と、補正情報記憶部に記憶された補正情報に基づいて、音声到達時間算出部で算出される音声の到達時間を補正する音声到達時間補正部と、を更に備え、音声強調処理部は、音声到達時間補正部による補正後の到達時間の情報に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記（１）から（７）のいずれか一の音声信号処理装置。

本態様によれば、位置関係に基づいて算出された音声の到達時間が、補正情報に基づいて補正される。これにより、実際の状況に則した正確な時間を求めることができる。

（９）補正情報は、第１エリア内の各位置で発生させた音声の各集音部への到達時間の実測値に基づいて設定される、上記（８）の音声信号処理装置。

本態様によれば、実測値に基づいて、補正情報が設定される。

（１０）補正情報記憶部には、周波数ごとの補正情報が記憶され、音声到達時間補正部は、観察対象が発する音声の周波数に応じた補正情報に基づいて、音声到達時間算出部で算出される音声の到達時間を補正する、上記（８）又は（９）の音声信号処理装置。

本態様によれば、周波数ごとの補正情報が用意される。

（１１）位置関係算出部は、撮影部から得られる情報に基づいて、第１エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する、上記（１）から（１０）のいずれか一の音声信号処理装置。

本態様によれば、撮影部から得られる情報に基づいて、第１エリア内における観察対象の位置を特定することにより、観察対象と各集音部との位置関係が算出される。

（１２）位置関係算出部は、撮影部から得られる情報に基づいて、撮影部に対する観察対象の方向及び距離を求め、得られた撮影部に対する観察対象の方向及び距離の情報に基づいて、第１エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する、上記（１１）の音声信号処理装置。

本態様によれば、撮影部から得られる情報に基づいて、撮影部に対する観察対象の方向及び距離を求めることにより、観察対象の位置が特定される。

（１３）観察対象の大きさよりも広い間隔で集音部が配置される、上記（１）から（１２）のいずれか一の音声信号処理装置。

本態様によれば、観察対象の大きさよりも広い間隔で集音部が配置される。

（１４）位置関係算出部で算出可能な位置の分解能よりも広い間隔で集音部が配置される、上記（１）から（１２）のいずれか一の音声信号処理装置。

本態様によれば、位置関係算出部で算出可能な位置の分解能よりも広い間隔で集音部が配置される。

（１５）観察対象からの音声が少なくとも３つの集音部で集音される間隔で集音部が配置される、上記（１）から（１２）のいずれか一の音声信号処理装置。

本態様によれば、観察対象からの音声が少なくとも３つの集音部で集音される間隔で集音部が配置される。

（１６）第１エリア内に離散的に配置された複数の集音部から音声信号を取得するステップと、第１エリア内を定位置から撮影する撮影部から映像信号を取得するステップと、撮影部で撮影された映像を表示部に表示するステップと、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定するステップと、観察対象と各集音部との位置関係を算出するステップと、位置関係の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出するステップと、音声の到達時間の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理するステップと、を含む音声信号処理方法。

（１７）強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録するステップを更に含む、上記（１６）の音声信号処理方法。

（１８）第１エリア内に離散的に配置された複数の集音部から音声信号を取得する機能と、第１エリア内を定位置から撮影する撮影部から映像信号を取得する機能と、撮影部で撮影された映像を表示部に表示する機能と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する機能と、観察対象と各集音部との位置関係を算出する機能と、位置関係の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する機能と、音声の到達時間の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する機能と、をコンピュータに実現させる音声信号処理プログラム。

（１９）強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録する機能を更に含む、上記（１８）の音声信号処理プログラム。

（２０）第１エリア内に離散的に配置された複数の集音部と、各集音部から音声信号を取得する音声信号取得部と、第１エリア内を定位置から撮影する撮影部と、撮影部から映像信号を取得する映像信号取得部と、映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、を備えた音声信号処理システム。

（２１）記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を更に備え、記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、上記（２０）の音声信号処理システム。

（２２）撮影部と、撮影部から出力される映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、第１エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、定位置から第１エリア内を撮影した場合に、撮影部から得られる情報に基づいて、第１エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を備えた撮影装置。

本発明によれば、観察対象が出す音声を適切に認識できる。

本発明が適用された観察システムの概略構成図カメラ及び複数のマイクロフォンのレイアウトの一例を示す平面図映像音声信号処理装置のハードウェアの概略構成を示すブロック図映像音声信号処理装置が有する機能のブロック図観察対象の選択画面の一例を示す図各マイクロフォンへの音声の到達時間の算出の概念図音声信号の強調処理の概念図観察する場合の映像音声信号処理装置の動作手順を示すフローチャート観察する場合の映像音声信号処理装置の動作手順を示すフローチャート記録済みの映像を再生する場合の映像音声信号処理装置の動作手順を示すフローチャート音声を強調処理して記録する場合の記録処理に係わる機能のブロック図仮想観察位置の概念図仮想観察エリア内のマイクロフォンを用いた強調処理の概念図第３の実施の形態の映像音声信号処理装置が有する機能のブロック図音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャート音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャート仮想観察エリアの追従の概念図第４の実施の形態の映像音声信号処理装置が有する機能のブロック図第５の実施の形態の映像音声信号処理装置が有する機能のブロック図補正情報の取得の一例を示す概念図

以下、添付図面に従って本発明を実施するための好ましい形態について詳説する。

［第１の実施の形態］
［構成］
図１は、本発明が適用された観察システムの概略構成図である。

この観察システム１は、所定の観察対象エリア（第１エリア）において、観察対象をカメラ１０で撮影して観察するシステムとして構成され、観察対象を撮影するカメラ１０と、観察対象エリア内の音声を集音する複数のマイクロフォンＭｉｊ（ｉ＝１、２、３、ｊ＝１、２、３、４、５）と、カメラ１０からの映像信号及び複数のマイクロフォンＭｉｊからの音声信号を処理する映像音声信号処理装置１００と、を備える。観察システム１は、音声信号処理システムの一例である。

図２は、カメラ及び複数のマイクロフォンのレイアウトの一例を示す平面図である。

カメラ１０は、リモコン雲台１４を介して、定位置に設置される。リモコン雲台１４は、遠隔操作により、カメラ１０をパンニング及びチルティングさせる。カメラ１０は、ビデオカメラであり、レンズ１２を通した映像を撮像素子に結像させ、映像信号として出力する。本実施の形態では、デジタルの映像信号を出力する。カメラ１０は、ＡＥ（Automatic Exposure；自動露出）、ＡＦ（Auto Focus；自動焦点合せ）、ＡＷＢ（Auto white balance；オートホワイトバランス）等の一般的なビデオカメラの機能を有する。また、カメラ１０は、光学式のズーム機能を有する。カメラ１０は、撮影部の一例である。後述するように、カメラ１０及びリモコン雲台１４は、映像音声信号処理装置１００によって遠隔操作される。

マイクロフォンＭｉｊは、図２に破線で示す観察対象エリアＺ１内に離散的に配置される。複数のマイクロフォンＭｉｊを観察対象エリアＺ１内に離散的に配置することにより、観察対象エリアＺ１内の音声を満遍なく集音できる。図２に示す例では、矩形の観察対象エリアＺ１内に複数のマイクロフォンＭｉｊを、前後方向（図２においてｙ軸方向）及び左右方向（図２においてｘ軸方向）に一定の間隔で配置している。各マイクロフォンＭｉｊは、無指向性（全指向性）のマイクロフォンで構成される。マイクロフォンＭｉｊは、集音部の一例である。なお、各マイクロフォンＭｉｊの位置は固定である。したがって、カメラ１０に対する各マイクロフォンＭｉｊの位置も固定であり、その位置関係は、事前に求めることができる。カメラ１０と各マイクロフォンＭｉｊとの位置関係は、たとえば、カメラ１０を原点とする空間座標によって特定される。この関係は既知である。

図３は、映像音声信号処理装置のハードウェアの概略構成を示すブロック図である。

映像音声信号処理装置１００は、音声処理装置の一例である。映像音声信号処理装置１００は、パーソナルコンピュータ等のコンピュータで構成される。この映像音声信号処理装置１００を構成するコンピュータは、コンピュータ本体１１０と、表示部としてのディスプレイ１１２、音声出力部としてのスピーカ１１４、並びに、操作部としてのキーボード１１６及びマウス１１８等を備える。

コンピュータ本体１１０は、ＣＰＵ（Central Processing Unit；中央処理装置）１２０、ＩＰＬ（Initial Program Loader）の他、各種プログラム及び各種データを記憶するＲＯＭ（Read Only Memory）１２２、ＣＰＵ１２０のワークエリアとして使用されるＲＡＭ（Random Access Memory）１２４、ディスプレイ１１２に表示する画像データを記憶するＶＲＡＭ（Video Random Access Memory；画像メモリ）１２６、記憶部としてのＨＤＤ（Hard Disk Drive）１２８、ＤＶＤ－ＲＯＭ（ＤＶＤ：Digital Versatile Disc）等の光学ディスクの読み出しを行う光学ドライブ１３０を備える。ＯＳ（Operating System）の他、各種プログラム及び各種データは、ＨＤＤ１２８に記憶される。

また、コンピュータ本体１１０は、ディスプレイ１１２が接続されて、ディスプレイ１１２に映像信号を出力する映像出力インターフェイス（interface , Ｉ／Ｆ）１３２、スピーカ１１４が接続されて、スピーカ１１４に音声信号を出力する音声出力インターフェイス１３４、キーボード１１６が接続されて、キーボード１１６からの操作信号が入力されるキーボードインターフェイス１３６、及び、マウス１１８が接続されて、マウス１１８からの操作信号が入力されるマウスインターフェイス１３８等を備える。

更に、コンピュータ本体１１０は、複数のマイクロフォンＭｉｊが接続されて、各マイクロフォンＭｉｊからの音声信号が入力される音声入力インターフェイス１４０、カメラ１０が接続されて、カメラ１０からの映像信号が入力される映像入力インターフェイス１４２、及び、カメラ１０が接続されて、カメラ１０と通信するカメラ通信インターフェイス１４４等を備える。

音声入力インターフェイス１４０は、各マイクロフォンＭｉｊを接続する複数の端子（不図示）を備える。また、音声入力インターフェイス１４０は、端子を介して各マイクロフォンＭｉｊから入力されるアナログの音声信号をデジタルの音声信号に変換するアナログデジタルコンバータ（不図示）を含む。音声入力インターフェイス１４０は、音声信号取得部の一例である。

映像入力インターフェイス１４２は、カメラ１０を接続する端子を備える。上記のように、カメラ１０はデジタルの映像信号を出力する。したがって、映像入力インターフェイス１４２には、デジタルの映像信号が入力される。映像入力インターフェイス１４２は、映像信号取得部の一例である。

カメラ通信インターフェイス１４４は、カメラ１０と接続されて、カメラ１０との間で相互に通信する。映像音声信号処理装置１００は、このカメラ通信インターフェイス１４４を介してカメラ１０と通信し、カメラ１０に制御信号を送信する。たとえば、ズーム、フォーカス、パンニング及びチルティング等の制御信号を送信する。また、映像音声信号処理装置１００は、このカメラ通信インターフェイス１４４を介してカメラ１０と通信し、カメラ１０から設定情報を受信する。たとえば、設定されている焦点距離の情報、フォーカスレンズの位置に基づく被写体距離の情報、絞りの設定情報等を取得する。

図４は、映像音声信号処理装置が有する機能のブロック図である。

映像音声信号処理装置１００は、表示制御部１１０Ａ、観察対象設定部１１０Ｂ、位置関係算出部１１０Ｃ、音声到達時間算出部１１０Ｄ、音声強調処理部１１０Ｅ、音声出力制御部１１０Ｆ、記録制御部１１０Ｇ、再生制御部１１０Ｈ及びカメラ制御部１１０Ｉ等の機能を有する。これらの機能は、映像音声信号処理装置１００を構成するコンピュータ本体１１０が、所定の制御プログラム（音声信号処理プログラム）を実行することにより実現される。

表示制御部１１０Ａは、映像入力インターフェイス１４２を介してカメラ１０から取得される映像信号が表わす映像をディスプレイ１１２に表示させる。これにより、カメラ１０で捉えた映像がディスプレイ１１２に表示される。

観察対象設定部１１０Ｂは、ディスプレイ１１２に表示された映像内で位置の指定を受け付けて、観察対象を設定する。位置の指定は、操作部であるキーボード１１６及びマウス１１８によって行われる。図５は、観察対象の選択画面の一例を示す図である。同図に示すように、カメラ１０で撮影された映像に重ねてカーソルＣを表示し、そのカーソルＣの位置をキーボード１１６又はマウス１１８の操作で移動させて、観察対象Ｏｊを選択する。なお、図５に示す例では、カーソルＣを矩形の枠で表示しているが、カーソルＣの形状は、これに限定されるものではない。

位置関係算出部１１０Ｃは、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する。この際、位置関係算出部１１０Ｃは、カメラ１０に対する観察対象の位置を特定して、観察対象と各マイクロフォンＭｉｊの位置関係を算出する。上記のように、カメラ１０と各マイクロフォンＭｉｊとの位置関係は既知である。したがって、カメラ１０に対する観察対象の位置が分かれば、観察対象と各マイクロフォンＭｉｊとの位置関係も求めることができる。

カメラ１０に対する観察対象Ｏｊの位置は、カメラ１０から得られる情報に基づいて算出される。本実施の形態では、カメラ１０から得られる情報に基づいて、カメラ１０に対する観察対象Ｏｊの方向及びカメラ１０から観察対象Ｏｊまでの距離を求め、得られた方向と距離の情報に基づいて、カメラ１０に対する観察対象Ｏｊの位置を特定する。

カメラ１０に対する観察対象Ｏｊの方向は、パン及びチルトの設定情報と、画面内における観察対象Ｏｊの位置の情報とに基づいて算出される。画面内における観察対象Ｏｊの位置は、画面の中心に対する観察対象Ｏｊの位置を画像から算出して取得する。すなわち、撮影光軸の向きをパン及びチルトの設定情報から取得し、撮影光軸に対する観察対象Ｏｊの位置から観察対象Ｏｊの方向を算出する。

カメラ１０から観察対象までの距離は、観察対象Ｏｊに焦点を合わせた際の被写体距離の情報から取得する。被写体距離の情報は、カメラ１０から取得する。カメラ１０は、フォーカスレンズの位置から被写体距離を求める。

カメラ１０に対する観察対象Ｏｊの位置は、カメラ１０を原点とする空間座標によって特定される。上記のように、カメラ１０に対する各マイクロフォンＭｉｊの位置もカメラ１０を原点とする空間座標によって特定される。したがって、当該空間座標上で観察対象Ｏｊの位置が特定されれば、観察対象Ｏｊと各マイクロフォンＭｉｊとの位置関係も特定される。なお、カメラ１０に対する各マイクロフォンＭｉｊの位置関係の情報は、あらかじめＨＤＤ１２８に記憶される。

音声到達時間算出部１１０Ｄは、位置関係算出部１１０Ｃで算出された観察対象Ｏｊと各マイクロフォンＭｉｊとの位置関係に基づいて、観察対象から発せられる音声が、各マイクロフォンＭｉｊに到達するまでの時間（到達時間）を算出する。

図６は、各マイクロフォンへの音声の到達時間の算出の概念図である。

同図に示すように、観察対象Ｏｊと各マイクロフォンＭｉｊとの間の距離Ｄｉｊ（ｉ＝１、２、３、ｊ＝１、２、３、４、５）を個別に求め、各マイクロフォンＭｉｊへの音声の到達時間Ｔｉｊ（ｉ＝１、２、３、ｊ＝１、２、３、４、５）を個別に算出する。

音声強調処理部１１０Ｅは、音声到達時間算出部１１０Ｄによる各マイクロフォンＭｉｊへの音声の到達時間Ｔｉｊの算出結果に基づいて、音声の強調処理を行う。具体的には、各マイクロフォンＭｉｊへの音声の到達時間Ｔｉｊに基づいて、各マイクロフォンＭｉｊからの音声信号を同時化し、重ね合わせて強調処理する。以下、この強調処理について説明する。

図７は、音声信号の強調処理の概念図である。

ここでは、説明を簡単にするため、２つのマイクロフォンからの音声信号を処理する場合を例に説明する。

２つのマイクロフォンＭ１、Ｍ２は、音源ＳＳからの距離Ｄ１、Ｄ２が異なる。この場合、２つのマイクロフォンＭ１、Ｍ２は、距離の差（Ｄ１－Ｄ２）の分だけ、音源ＳＳからの音の到達時間に差が生じる。具体的には、音源ＳＳからの距離が遠いマイクロフォンＭ１は、音源ＳＳからの距離が近いマイクロフォンＭ２に対して、到達時間差δだけ、音源ＳＳからの音が遅延して到達する。強調処理では、この遅延を補償するように、一方のマイクロフォンＭ２（音が速く到達する方のマイクロフォン）の信号を遅延させ、その遅延させた信号を他方のマイクロフォンＭ１（音が遅延して到達するマイクロフォン）の信号に加算する。すなわち、遅延により同時化し、双方の信号の位相を一致させて、加算する。位相が一致した信号を加算することにより、目的の信号が強調される。その一方で不要な信号が抑制される。このように強調処理することにより、目的の音声、すなわち、観察対象から発する音声を強調でき、その他の音声（ノイズ等）を抑制できる。

３以上のマイクロフォンが備えられている場合は、音源から最も離れたマイクロフォン、すなわち、音源からの音声の到達時間が最も遅いマイクロフォンに合わせて、音声信号を同時化し、位相を一致させる。

音声出力制御部１１０Ｆは、音声強調処理部１１０Ｅで強調処理された音声信号をスピーカ１１４から出力させる。

記録制御部１１０Ｇは、操作部からの記録指示に基づいて、カメラ１０から入力された映像信号、及び、マイクロフォンＭｉｊから入力された音声信号をＨＤＤ１２８に記録する。なお、記録制御部１１０Ｇが行う映像信号及び音声信号の記録処理は、音声信号を強調処理する場合としない場合とで異なる。音声信号を強調処理しない場合、各マイクロフォンＭｉｊからの音声信号を映像信号に関連付けて個別に記録する。したがって、この場合、マイクロフォンＭｉｊの数だけ音声信号が記録される。一方、音声信号を強調処理する場合、強調処理後の音声信号が映像信号に関連付けられて記録される。

再生制御部１１０Ｈは、操作部からの再生指示に基づいて、ＨＤＤ１２８に記録された映像信号及び音声信号の再生処理を行う。すなわち、ＨＤＤ１２８から映像信号及び音声信号を読み出し、ディスプレイ１１２及びスピーカ１１４から出力させる。再生制御部１１０Ｈは、操作部から再生を希望する映像信号の選択を受け付けて再生処理を行う。選択された映像信号に複数の音声信号が関連付けられて記録されている場合は、更に、再生を希望する音声信号の選択を受け付けて再生処理を行う。

カメラ制御部１１０Ｉは、操作部からの入力に基づいて、カメラ１０を制御する。たとえば、操作部からズームの指示を受け付けて、カメラ１０をズームさせたり、操作部からフォーカスエリアの選択を受け付けて、選択されたエリアに焦点を合わさせたり、操作部からパンニング又はチルティングの指示を受け付けて、カメラ１０をパンニング又はチルティングさせたりする。なお、観察対象が選択された場合には、選択された観察対象にフォーカスエリアが設定され、カメラ１０の焦点が合わせられる。

［観察する場合の動作（音声信号処理方法）］
図８及び図９は、観察する場合の映像音声信号処理装置の動作手順を示すフローチャートである。

図８に示すように、まず、カメラ１０から出力される映像信号を取り込み、カメラ１０で捉えた映像をディスプレイ１１２に表示させる（ステップＳ１０）。ユーザ（観察者）は、このディスプレイ１１２に表示される映像を見て、観察対象エリア内を観察する。ユーザは、必要に応じて操作部（キーボード１１６及びマウス１１８）を操作し、カメラ１０を遠隔操作する。

映像音声信号処理装置１００は、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する（ステップＳ１１）。

観察対象の音声を強調させる指示なし、と判定すると、映像音声信号処理装置１００は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する（ステップＳ１２）。

記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う（ステップＳ１３）。この場合、観察対象エリア内の各マイクロフォンＭｉｊから個別に音声信号を取り込み、映像信号に関連付けて、ＨＤＤ１２８に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置１００は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する（ステップＳ１４）。

記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する（ステップＳ１５）。ステップＳ１２において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する（ステップＳ１５）。

観察の終了の指示なし、と判定すると、ステップＳ１１に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する（ステップＳ１１）。一方、観察終了の指示あり、と判定すると、処理を終了する。

ステップＳ１１において、観察対象の音声を強調させる指示あり、と判定すると、図９に示すように、観察対象を設定する処理を行う（ステップＳ２０）。観察対象の設定は、ディスプレイ１１２に表示された映像内で位置の指定を受け付けることにより行われる。

観察対象が設定されると、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する（ステップＳ２１）。上記のように、観察対象と各マイクロフォンＭｉｊとの位置関係は、カメラ１０から得られる情報に基づいて算出する。具体的には、まず、カメラ１０から得られる情報に基づいて、カメラ１０に対する観察対象の方向及びカメラ１０から観察対象までの距離を求める。次に、求めた方向と距離の情報に基づいて、カメラ１０に対する観察対象の位置を特定する。カメラ１０と各マイクロフォンＭｉｊとの位置関係は既知なので、カメラ１０に対する観察対象の位置が特定されることにより、観察対象と各マイクロフォンＭｉｊとの位置関係が特定される。より具体的には、空間座標上での観察対象と各マイクロフォンＭｉｊとの位置関係が特定される。

次に、算出された観察対象と各マイクロフォンＭｉｊとの位置関係の情報に基づいて、各マイクロフォンＭｉｊへの音の到達時間を算出する（ステップＳ２２）。

次に、算出された各マイクロフォンＭｉｊへの音の到達時間の情報に基づいて、音声の強調処理を行う（ステップＳ２３）。上記のように、音声の強調処理は、まず、到達時間が最も遅いマイクロフォンに合わせて、各マイクロフォンＭｉｊの音声信号を同時化し、各マイクロフォンＭｉｊの音声信号の位相を一致させる。その後、各マイクロフォンＭｉｊの音声信号を重ね合わせる。これにより、観察対象からの音声が強調され、その他の音声（ノイズ等）が抑制される。

強調処理された音声は、スピーカ１１４から出力される。ユーザ（観察者）は、このスピーカ１１４から出力される音声を聞くことで、観察対象が出す音を聞くことができる。この後、映像音声信号処理装置１００は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する（ステップＳ２４）。

記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う（ステップＳ２５）。映像音声信号処理装置１００は、強調処理された音声信号を映像信号に関連付けて、ＨＤＤ１２８に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置１００は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する（ステップＳ２６）。

記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する（ステップＳ２７）。ステップＳ２４において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する（ステップＳ２７）。

観察の終了の指示なし、と判定すると、図８に示すように、ステップＳ１１に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する（ステップＳ１１）。一方、観察終了の指示あり、と判定すると、処理を終了する。

このように、本実施の形態の映像音声信号処理装置１００によれば、必要に応じて観察対象の音声を強調して聞くことができ、また、記録することができる。観察対象の音声を集音するマイクロフォンＭｉｊは、観察対象エリア内の複数箇所に離散して設置されるため、観察対象がどこに存在していても、その音声を捉えることができ、かつ、必要に応じて強調して聞くことができる。

［記録済みの映像を再生する場合］
図１０は、記録済みの映像を再生する場合の映像音声信号処理装置の動作手順を示すフローチャートである。

まず、再生する映像の選択を受け付ける処理を行う（ステップＳ３０）。再生する映像の選択は、たとえば、ＨＤＤ１２８に記録されている映像の一覧をディスプレイ１１２に表示し、その中から１つをユーザに選択させることにより行う。

再生する映像が選択されると、選択された映像に複数の音声が関連付けて記録されているか否かを判定する（ステップＳ３１）。複数の音声が関連付けられて記録されていると判定すると、再生する音声の選択を受け付ける処理を行う（ステップＳ３２）。再生する音声の選択は、映像の選択と同様に、たとえば、関連付けられている音声の一覧をディスプレイ１１２に表示し、その中から１つをユーザに選択させることにより行う。選択後、再生処理を行う（ステップＳ３３）。また、ステップＳ３１において、複数の音声が関連付けられて記録されていないと判定した場合は、そのまま再生処理を行う（ステップＳ３３）。

再生処理は、映像については、選択された映像の映像信号をＨＤＤ１２８から読み出し、ディスプレイ１１２に出力させることにより行われる。また、音声については、対象の音声信号をＨＤＤ１２８から読み出し、スピーカ１１４から出力させることにより行われる。

この後、操作部からの指示に基づいて、再生終了の指示の有無を判定する（ステップＳ３４）。再生終了の指示なし、と判定すると、ステップＳ３０に戻り、再生する映像の選択を受け付ける処理を行う（ステップＳ３０）。一方、再生終了の指示あり、と判定すると、処理を終了する。

［第２の実施の形態］
音声の強調処理を行うと、映像と音声にズレが生じ得る。具体的には、映像に対して音声が遅延する事態が生じ得る。このため、本実施の形態の映像音声信号処理装置１００は、音声を強調処理して記録する場合に、映像と音声にずれが生じないように、映像を音声に合わせて記録する。

図１１は、音声を強調処理して記録する場合の記録処理に係わる機能のブロック図である。

記録制御部１１０Ｇは、音声強調処理部１１０Ｅから強調処理された音声信号を取得し、ＨＤＤ１２８に記録する。この音声信号は、強調処理により、映像信号から遅延する。記録制御部１１０Ｇは、強調処理により遅延する音声信号に合わせて、映像信号を遅延させて、ＨＤＤ１２８に記録する。

記録制御部１１０Ｇは、音声到達時間算出部１１０Ｄから各マイクロフォンＭｉｊへの音声の到達時間の情報を取得して、映像信号に対する音声信号の遅延量を求める。すなわち、音声強調処理部１１０Ｅでは、音声の到達時間が最も遅いマイクロフォンに合わせて、音声信号の同時化が行われるので、音声の到達時間が最も遅いマイクロフォンへの音声の到達時間が分かれば、映像信号に対する音声信号の遅延量が分かる。

記録制御部１１０Ｇは、音声信号が遅延する分だけ、映像信号を遅延させて、ＨＤＤ１２８に記録する。これにより、強調処理した場合であっても、ずれのない映像信号及び音声信号をＨＤＤ１２８に記録できる。

［第３の実施の形態］
［概要］
本実施の形態の映像音声信号処理装置１００は、強調処理を行う際に、仮想的に設定した観察位置（仮想観察位置）を基準に強調処理を行う。

図１２は、仮想観察位置の概念図である。

同図に示すように、仮想観察位置ＩＰは、観察対象Ｏｊを中心とする半径Ｒの円の円周上に設定される。この仮想観察位置ＩＰを構成する半径Ｒの円の内側のエリアを仮想観察エリアＺ２とすると、強調処理は、その仮想観察エリアＺ２内のマイクロフォンを対象に行われる。図１２に示す例では、４つのマイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２が仮想観察エリアＺ２内のマイクロフォンである。この仮想観察エリアＺ２内のマイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２を対象に観察対象Ｏｊとの位置関係を算出し、各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２への音声の到達時間を算出して、強調処理を行う。

図１３は、仮想観察エリア内のマイクロフォンを用いた強調処理の概念図である。

観察対象と各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２との位置関係から、観察対象と各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２と間の距離Ｄ１１、Ｄ１２、Ｄ２１、Ｄ２２を求め、各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２への音声の到達時間を算出する。そして、仮想観察位置ＩＰを基準に各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２からの音声信号を同時化し、重ね合わせる。これにより、音源である観察対象の音声が強調される。同時化の際には、仮想観察位置ＩＰとの音声の到達時間差δ１１、δ１２、δ２１、δ２２を求め、求めた到達時間差δ１１、δ１２、δ２１、δ２２に基づいて、各マイクロフォンＭ１１、Ｍ１２、Ｍ２１、Ｍ２２からの音声信号を同時化する。

このように、仮想観察位置を設定することで、音源から最も離れたマイクロフォンを特定する必要がなくなり、同時化の際の処理を簡素化できる。

［構成］
図１４は、第３の実施の形態の映像音声信号処理装置が有する機能のブロック図である。

同図に示すように、第３の実施の形態の映像音声信号処理装置１００は、仮想観察エリア設定部１１０Ｊの機能を更に有する。

仮想観察エリア設定部１１０Ｊは、観察対象設定部１１０Ｂで設定された観察対象の位置を基準に仮想観察エリアを設定する。仮想観察エリアは、観察対象を基準として、半径Ｒの範囲に設定される。Ｒは、あらかじめ定められた値である。仮想観察エリアは、第２エリアの一例であり、仮想観察エリア設定部１１０Ｊは、第２エリア設定部の一例である。仮想観察エリアの外周が、仮想観察位置とされる。

仮想観察エリア設定部１１０Ｊで設定される仮想観察エリアの情報は、位置関係算出部１１０Ｃ、音声到達時間算出部１１０Ｄ及び音声強調処理部１１０Ｅに加えられる。

位置関係算出部１１０Ｃは、仮想観察エリア内のマイクロフォンＭｉｊを対象に、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する。

音声到達時間算出部１１０Ｄは、仮想観察エリア内のマイクロフォンＭｉｊを対象に、観察対象から発せられる音声が、各マイクロフォンＭｉｊに到達するまでの時間（到達時間）を算出する。

音声強調処理部１１０Ｅは、仮想観察エリア内のマイクロフォンＭｉｊを対象に、音声の強調処理を行う。具体的には、仮想観察エリア内のマイクロフォンＭｉｊを対象に、各マイクロフォンＭｉｊへの音声の到達時間、及び、仮想観察位置への音声の到達時間（既知）に基づいて、各マイクロフォンＭｉｊからの音声信号を同時化し、重ね合わせて強調処理する。同時化は、仮想観察位置を基準にして行う。

［作用］
以下、本実施の形態の映像処理装置で対象を観察する場合について説明する。なお、音声の強調処理をしない場合の動作については、上記第１の実施の形態と同じなので、ここでは、音声の強調処理を行う場合についてのみ説明する。

図１５及び図１６は、音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャートである。

図１５に示すように、まず、仮想観察位置の設定がオフされているか否かを判定する（ステップＳ４０）。仮想観察位置の設定のオン、オフは、たとえば、動作環境の設定画面で行う。

ステップＳ４０において、仮想観察位置の設定がオフされている、と判定すると、仮想観察位置の設定を行わずに、強調処理を行う。すなわち、観察対象エリア内のすべてのマイクロフォンＭｉｊからの信号を対象に強調処理を行う。

まず、観察対象の設定を行う（ステップＳ４１）。観察対象が設定されると、次に、観察対象エリア内のすべてのマイクロフォンＭｉｊを対象に、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する（ステップＳ４２）。次に、算出された観察対象と各マイクロフォンＭｉｊとの位置関係の情報に基づいて、観察対象エリア内の各マイクロフォンＭｉｊへの音の到達時間を算出する（ステップＳ４３）。次に、算出された各マイクロフォンＭｉｊへの音の到達時間の情報に基づいて、観察対象エリア内の各マイクロフォンＭｉｊからの音声信号を強調処理する（ステップＳ４４）。これにより、観察対象からの音声が強調され、その他の音声が抑制される。この後、映像音声信号処理装置１００は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する（ステップＳ４５）。記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う（ステップＳ４６）。映像音声信号処理装置１００は、強調処理された音声信号を映像信号に関連付けて、ＨＤＤ１２８に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置１００は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する（ステップＳ４７）。記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する（ステップＳ４８）。ステップＳ２４において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する（ステップＳ４８）。観察の終了の指示なし、と判定すると、図８に示すように、ステップＳ１１に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する（ステップＳ１１）。一方、観察終了の指示あり、と判定すると、処理を終了する。

ステップＳ４０において、仮想観察位置の設定がオンされている、と判定すると、仮想観察位置を設定して、強調処理を行う。

図１６に示すように、まず、観察対象の設定を行う（ステップＳ５０）。次に、仮想観察エリアを設定する（ステップＳ５１）。仮想観察エリアは、観察対象を中心とする半径Ｒの範囲に設定する。次に、仮想観察エリア内のマイクロフォンＭｉｊを対象に、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する（ステップＳ５２）。次に、算出された観察対象と各マイクロフォンＭｉｊとの位置関係の情報に基づいて、仮想観察エリア内の各マイクロフォンＭｉｊへの音の到達時間を算出する（ステップＳ５３）。次に、算出された仮想観察エリア内の各マイクロフォンＭｉｊへの音の到達時間及び仮想観察位置への音の到達時間（既知）の情報に基づいて、仮想観察エリア内の各マイクロフォンＭｉｊからの音声信号を強調処理する（ステップＳ５４）。これにより、観察対象からの音声が強調され、その他の音声が抑制される。この後、映像音声信号処理装置１００は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する（ステップＳ５５）。記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う（ステップＳ５６）。映像音声信号処理装置１００は、強調処理された音声信号を映像信号に関連付けて、ＨＤＤ１２８に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置１００は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する（ステップＳ５７）。記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する（ステップＳ５８）。ステップＳ２４において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する（ステップＳ５８）。観察の終了の指示なし、と判定すると、図８に示すように、ステップＳ１１に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する（ステップＳ１１）。一方、観察終了の指示あり、と判定すると、処理を終了する。

このように、本実施の形態の映像音声信号処理装置１００によれば、仮想観察位置を設定し、その仮想観察位置を基準にして、強調処理を行うので、処理を簡素化できる。また、これにより、処理の負荷を軽減できる。更に、強調処理によって音声が遅延する量は、常に一定となるので、映像と合わせる処理も容易にできる。

［変形例］
上記実施の形態では、観察対象を中心とする半径Ｒの位置に仮想観察位置を設定しているが、この半径Ｒの値をユーザが自由に設定できるようにしてもよい。これにより、状況に応じて、適切に音声の強調処理を行うことができる。

半径Ｒの値の設定は、たとえば、動作環境の設定画面で行う。あるいは、ディスプレイ１１２にカメラ１０からの映像と共に半径Ｒの入力ウインドウを表示し、適時、半径Ｒの値を入力できるように構成する。この半径Ｒの値を設定することにより、仮想観察位置が設定され、かつ、仮想観察エリアが設定される。この半径Ｒの値を設定する手段は、第２エリアサイズ調整部の一例である。

［第４の実施の形態］
本実施の形態の映像音声信号処理装置１００は、観察対象が移動する場合に、仮想観察エリアを観察対象の移動に追従させる。

図１７は、仮想観察エリアの追従の概念図である。

観察対象Ｏｊが、初期位置Ｐ１から位置Ｐ２を経て位置Ｐ３に移動する場合、仮想観察エリアＺ２も、観察対象Ｏｊの移動に追従して、実線で示す初期位置から破線で示す位置を経て一点破線で示す位置に移動する。

図１８は、第４の実施の形態の映像音声信号処理装置が有する機能のブロック図である。

同図に示すように、第４の実施の形態の映像音声信号処理装置１００は、観察対象の移動を追跡する追跡部１１０Ｋの機能を更に有する。

追跡部１１０Ｋは、カメラ１０から取得される映像を解析して、観察対象設定部１１０Ｂで設定された観察対象の移動を追跡し、その位置を検出する。画像解析による追跡には、公知の手法が採用される。たとえば、映像から観察対象の形状を把握し、後に続く画像からその形状を抽出することによって、観察対象の移動を追跡する。

仮想観察エリア設定部１１０Ｊは、追跡部１１０Ｋで検出される観察対象の位置に基づいて、仮想観察エリアを設定する。したがって、観察対象が移動した場合には、新たに仮想観察エリアを設定する。これにより、観察対象の移動に追従して、仮想観察エリアが移動する。

位置関係算出部１１０Ｃは、仮想観察エリア設定部１１０Ｊで設定された仮想観察エリア内のマイクロフォンＭｉｊを対象に、観察対象と各マイクロフォンＭｉｊとの位置関係を算出する。

音声到達時間算出部１１０Ｄは、仮想観察エリア設定部１１０Ｊで設定された仮想観察エリア内のマイクロフォンＭｉｊを対象に、観察対象から発せられる音声が、各マイクロフォンＭｉｊに到達するまでの時間（到達時間）を算出する。

音声強調処理部１１０Ｅは、仮想観察エリア設定部１１０Ｊで設定された仮想観察エリア内のマイクロフォンＭｉｊを対象に、音声の強調処理を行う。具体的には、仮想観察エリア内のマイクロフォンＭｉｊを対象に、各マイクロフォンＭｉｊへの音声の到達時間、及び、仮想観察位置への音声の到達時間（既知）に基づいて、各マイクロフォンＭｉｊからの音声信号を同時化し、重ね合わせて強調処理する。同時化は、仮想観察位置を基準にして行う。

このように、本実施の形態の映像音声信号処理装置１００によれば、観察対象が移動する場合に、仮想観察エリアを観察対象の移動に追従させることができる。これにより、観察対象が移動する場合であっても、仮想観察位置を用いた音声の強調処理を行うことができる。

［変形例］
上記の例では、画面内で観察対象の移動を追跡する場合を例に説明したが、カメラ１０がパンニング及び／又はチルティングの機能を備えている場合には、観察対象を追尾しながら、観察対象の移動を追跡してもよい。

また、仮想観察エリアを観察対象の移動に追従させる場合には、観察対象の移動に対して、一定の遅れをもって追従させることがより好ましい。具体的には、仮想観察位置として設定される半径Ｒの位置に音声が到達する時間分遅延させて、仮想観察エリアを追従させる。たとえば、半径Ｒの位置に音声が到達する時間をＴＲ秒とすると、観察対象の移動からＴＲ秒後に仮想観察エリアを移動させる。したがって、たとえば、図１７に示す例において、位置Ｐ１にいた観察対象ＯｊがＴＲ秒後に位置Ｐ２に移動した場合、仮想観察エリアは、位置Ｐ１を中心とする半径Ｒの範囲に設定される。また、位置Ｐ２にいた観察対象ＯｊがＴＲ秒後に位置Ｐ３に移動した場合、仮想観察エリアは、位置Ｐ２を中心とする半径Ｒの範囲に設定される。このように、観察対象の移動に対して、仮想観察エリアの移動を遅延させることにより、観察対象が移動している場合でも、ドップラー効果などの音の周波数変化を発生させずに音を収集できる。

［第５の実施の形態］
上記のように、各マイクロフォンＭｉｊへの音の到達時間は、観察対象と各マイクロフォンとの位置関係に基づいて、計算により求められる。しかし、観察対象とマイクロフォンとの間に障害物が存在すると、計算値（理論値）と実測値との間にずれが生じる。本実施の形態の映像音声信号処理装置１００は、音声到達時間算出部１１０Ｄで算出される音声到達時間を補正し、計算値と実測値とのずれを補償する。

［構成］
図１９は、第５の実施の形態の映像音声信号処理装置が有する機能のブロック図である。

同図に示すように、第５の実施の形態の映像音声信号処理装置１００は、音声到達時間算出部１１０Ｄで算出される音声の到達時間を補正する音声到達時間補正部１１０Ｌの機能を更に有する。

音声到達時間補正部１１０Ｌは、あらかじめ用意された補正情報に基づいて、音声到達時間算出部１１０Ｄで算出される各マイクロフォンＭｉｊへの音声到達時間（計算値）を補正する。補正情報は、実測値との差分として用意され、観察対象エリア内の位置ごとに求められる。

図２０は、補正情報の取得の一例を示す概念図である。

同図に示すように、観察対象エリアＺ１を複数の区域Ａ（ｘｎ，ｙｎ）に分割し、各マイクロフォンＭｉｊへの実際の音の到達時間を区域Ａ（ｘｎ，ｙｎ）ごとに計測する。実際に得られた音の到達時間（実測値）と、計算により求めた音の到達時間（計算値）との差分を補正情報として取得する。

補正情報は、分割した各区域Ａ（ｘｎ，ｙｎ）について、マイクロフォンＭｉｊごとに求められる。求めた補正情報は、ＨＤＤ１２８に格納される。ＨＤＤ１２８は、補正情報記憶部の一例である。

［作用］
本実施の形態の映像音声信号処理装置１００において、音声を強調処理する場合、補正後の各マイクロフォンＭｉｊへの音声到達時間の情報に基づいて、強調処理が行われる。

まず、位置関係算出部１１０Ｃにおいて、観察対象と各マイクロフォンＭｉｊとの位置関係が算出される。次に、算出された観察対象と各マイクロフォンＭｉｊとの位置関係の情報に基づいて、音声到達時間算出部１１０Ｄで各マイクロフォンＭｉｊへの音の到達時間が算出される。算出された各マイクロフォンＭｉｊへの音声到達時間（計算値）の情報は、音声到達時間補正部１１０Ｌに加えられる。音声到達時間補正部１１０Ｌは、ＨＤＤ１２８に格納された補正情報を用いて、各マイクロフォンＭｉｊへの音声到達時間（計算値）を補正する。具体的には、まず、観察対象の位置に基づいて、ＨＤＤ１２８から各マイクロフォンＭｉｊに対する補正情報を取得する。すなわち、観察対象が存在する区域Ａ（ｘｎ，ｙｎ）を特定し、その区域Ａ（ｘｎ，ｙｎ）の用意された補正情報を取得する。次に、取得した補正情報に基づいて、各マイクロフォンＭｉｊへの音声到達時間（計算値）を補正する。補正された音声到達時間の情報は、音声強調処理部１１０Ｅに加えられる。音声強調処理部１１０Ｅは、補正後の各マイクロフォンＭｉｊへの音声到達時間の情報に基づいて、強調処理を行う。

このように、本実施の形態の映像音声信号処理装置１００では、計算により求められる各マイクロフォンＭｉｊへの音の到達時間を実際の音の到達時間に基づいて補正するので、観察対象エリア内に障害物が存在する場合などでも、観察対象からの音声を適切に強調処理できる。

なお、仮想観察位置を設定して強調処理する場合には、仮想観察位置についても、その音声到達時間を補正することが好ましい。

［変形例］
各マイクロフォンＭｉｊへの実際の音声到達時間は、観察対象が出す音の周波数によっても変わる。したがって、補正情報は、周波数ごとに用意することが好ましい。たとえば、可聴帯域内で複数の帯域に分割し、分割した帯域ごとに補正情報を用意して、ＨＤＤ１２８に格納する。補正の際には、観察対象が発する音声の周波数を特定し、その周波数に適合する補正情報を取得して、音声到達時間を補正する。

［その他の実施の形態］
［撮影部の変形例］
撮影部による撮影形態は、観察対象エリア内を実質的に一定位置から撮影する形態であればよい。したがって、たとえば、ユーザが一定位置から手持ちで撮影する形態であってもよい。また、撮影の形態は、観察対象エリアの上方から俯瞰して撮影する形態であってもよい。また、複数の撮影部によって、複数箇所から撮影する形態であってもよい。

［集音部の変形例］
集音部は、観察対象エリア内での位置が特定できればよい。したがって、任意の配置形態を採用でき、観察対象エリア内に広範囲に配置できる。なお、配置の際には、次の点を考慮することが好ましい。

第１に、観察対象の大きさよりも広い間隔で配置する。空気を伝搬せずに、音が集音されるのを避けるためである。

第２に、観察対象との位置関係を算出する際の位置の分解能よりも広い間隔で配置する。たとえば、上記実施の形態のように、カメラ１０で撮影された映像から観察対象の位置を特定して、各マイクロフォン（集音部）との位置関係を算出する場合、映像から算出可能な位置の分解のよりも広い間隔で各マイクロフォン（集音部）を配置する。配置された集音部間どの位置に観察対象が存在するのかを切り分けできるようにするためである。

第３に、観察対象からの音声が、少なくとも３つの集音部で集音される位置関係で配置する。音の重ね合わせにより強調処理を行うためである。

［観察対象と各集音部との位置関係の算出方法の変形例］
上記実施の形態では、カメラ（撮影部）から得られる情報に基づいて、観察対象と各マイクロフォン（集音部）との位置関係を算出する構成としているが、観察対象と各マイクロフォン（集音部）との位置関係を算出する方法は、これに限定されるものではない。別途、観察対象の位置を検出する手段を設けて、観察対象と各マイクロフォン（集音部）との位置関係を算出してもよい。

また、撮影部から得られる情報に基づいて、観察対象と各集音部との位置関係を算出する場合、撮影部と観察対象との間の距離は、測距計、ＴＯＦカメラ（ＴＯＦ：Time Of Flight）等の測距手段を用いて計測してもよい。

なお、上記実施の形態のように、カメラ（撮影部）から得られる情報に基づいて、観察対象と各マイクロフォン（集音部）との位置関係を算出することにより、構成を簡素化できる。

また、各集音部の位置については、事前に求められていればよく、その計測手法については、特に限定されない。カメラからの情報に基づいて、計測してもよい。

［各集音部からの音声信号の取得方法及び撮影部からの映像信号の取得方法の変形例］
映像音声信号処理装置（音声処理装置）が、各マイクロフォン（集音部）から音声信号を取得する方法については、特に限定されない。有線であってもよいし、また、無線であってもよい。また、ネットワークを介して取得する形態であってもよい。

カメラから（撮影部）から映像信号を取得する方法についても同様である。有線であってもよいし、また、無線であってもよい。また、ネットワークを介して取得してもよい。

［映像音声信号処理装置の機能を備えた撮影装置］
上記実施の形態では、映像音声信号処理装置が、カメラから取得した映像信号及びマイクロフォンから取得した音声信号を処理する例で説明したが、映像音声信号処理装置の機能をカメラ（撮影装置）に搭載してもよい。この場合、カメラ（撮影装置）に備えられたコンピュータが、所定のプログラムを実行することにより、観察対象設定部、音声信号取得部、位置関係算出部、音声到達時間算出部、音声強調処理部、記録制御部等の機能を実現する。また、カメラ（撮影装置）に備えられた撮影レンズ及び撮像素子が撮影部として機能し、ディスプレイが表示部として機能する。また、カメラ（撮影装置）に備えられた画像記憶用のメモリが、記憶部として機能する。

［音声処理装置の機能］
音声処理装置の機能は、各種のプロセッサ（processor）を用いて実現できる。各種のプロセッサには、例えばソフトウェア（プログラム）を実行して各種の機能を実現する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）が含まれる。また、上記各種のプロセッサには、画像処理に特化したプロセッサであるＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）も含まれる。更に、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上記各種のプロセッサに含まれる。

各部の機能は１つのプロセッサにより実現されてもよいし、同種又は異種の複数のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ、又はＣＰＵとＧＰＵの組み合わせ）で実現されてもよい。また、複数の機能を１つのプロセッサで実現してもよい。複数の機能を１つのプロセッサで構成する例としては、第１に、画像処理装置本体、サーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、システム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。更に、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。これらの電気回路は、論理和、論理積、論理否定、排他的論理和、及びこれらを組み合わせた論理演算を用いて上記の機能を実現する電気回路であってもよい。

上記のプロセッサあるいは電気回路がソフトウェア（プログラム）を実行する際は、実行するソフトウェアのプロセッサ（コンピュータ）読み取り可能なコードをＲＯＭ（Read Only Memory）等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、画像の入力、解析、表示制御等を実行するためのプログラムを含む。ＲＯＭではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばＲＡＭ（Random Access Memory）が一時的記憶領域として用いられ、また例えば不図示のＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）に記憶されたデータを参照することもできる。

１観察システム
１０カメラ
１２レンズ
１４リモコン雲台
１００映像音声信号処理装置
１１０コンピュータ本体
１１０Ａ表示制御部
１１０Ｂ観察対象設定部
１１０Ｃ位置関係算出部
１１０Ｄ音声到達時間算出部
１１０Ｅ音声強調処理部
１１０Ｆ音声出力制御部
１１０Ｇ記録制御部
１１０Ｈ再生制御部
１１０Ｉカメラ制御部
１１０Ｊ仮想観察エリア設定部
１１０Ｋ追跡部
１１０Ｌ音声到達時間補正部
１１２ディスプレイ
１１４スピーカ
１１６キーボード
１１８マウス
１２０ＣＰＵ
１２８ＨＤＤ
１３０光学ドライブ
１３４音声出力インターフェイス
１３６キーボードインターフェイス
１３８マウスインターフェイス
１４０音声入力インターフェイス
１４２映像入力インターフェイス
１４４カメラ通信インターフェイス
Ｃカーソル
ＩＰ仮想観察位置
Ｍｉｊマイクロフォン
Ｏｊ観察対象
ＳＳ音源
Ｚ１観察対象エリア
Ｚ２仮想観察エリア
Ｓ１０～Ｓ２７観察する場合の映像音声信号処理装置の動作手順
Ｓ３０～Ｓ３４記録済みの映像を再生する場合の映像音声信号処理装置の動作手順
Ｓ４０～Ｓ５８音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順

Claims

第１エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、
前記第１エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、
前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
前記撮影部を制御して、前記観察対象設定部で設定された前記観察対象に焦点を合わせる制御部と、
前記撮影部から得られる情報に基づいて、前記撮影部に対する前記観察対象の方向及び距離を求め、得られた前記撮影部に対する前記観察対象の方向及び距離の情報に基づいて、前記第１エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する位置関係算出部であって、前記撮影部に対する前記観察対象の方向を、前記撮影部で撮影された画像内での前記観察対象の位置から求め、かつ、前記撮影部に対する前記観察対象の距離の情報を、前記撮影部で前記観察対象に焦点を合わせた際の被写体距離の情報から取得する位置関係算出部と、
前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
を備え、
前記集音部は前記位置関係算出部で算出可能な位置の分解能よりも広い間隔で配置される、
映像音声信号処理装置。
前記音声強調処理部は、前記観察対象から最も離れた前記集音部で集音される音声信号を基準に、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
請求項１に記載の映像音声信号処理装置。
前記観察対象を中心とする半径Ｒの範囲に第２エリアを設定する第２エリア設定部を更に備え、
前記位置関係算出部は、前記第２エリア内で前記観察対象と各前記集音部との位置関係を算出し、
前記音声到達時間算出部は、前記第２エリア内で前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出し、
前記音声強調処理部は、前記観察対象を中心とする半径Ｒの位置で仮想的に集音される音声信号を基準に、前記第２エリア内の各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
請求項１に記載の映像音声信号処理装置。
前記観察対象の移動を追跡する追跡部を更に備え、
前記第２エリア設定部は、前記第２エリアを前記観察対象の移動に追従させる、
請求項３に記載の映像音声信号処理装置。
前記第２エリア設定部は、半径Ｒの位置に音声が到達する時間分遅延させて、前記第２エリアを前記観察対象の移動に追従させる、
請求項４に記載の映像音声信号処理装置。
前記第２エリアのサイズを調整する第２エリアサイズ調整部を更に備えた、
請求項３から５のいずれか１項に記載の映像音声信号処理装置。
各前記集音部への音声の到達時間の補正情報が記憶された補正情報記憶部と、
前記補正情報記憶部に記憶された補正情報に基づいて、前記音声到達時間算出部で算出される音声の到達時間を補正する音声到達時間補正部と、
を更に備え、
前記音声強調処理部は、前記音声到達時間補正部による補正後の到達時間の情報に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
請求項１、２、３、４、５又は６に記載の映像音声信号処理装置。
前記補正情報は、前記第１エリア内の各位置で発生させた音声の各前記集音部への到達時間の実測値に基づいて設定される、
請求項７に記載の映像音声信号処理装置。
前記補正情報記憶部には、周波数ごとの前記補正情報が記憶され、
前記音声到達時間補正部は、前記観察対象が発する音声の周波数に応じた前記補正情報に基づいて、前記音声到達時間算出部で算出される音声の到達時間を補正する、
請求項７又は８に記載の映像音声信号処理装置。
前記撮影部が、パンニング及び／又はチルティングの機能を備える場合、前記位置関係算出部は、パン及び／又はチルトの設定情報と、前記撮影部で撮影された画像内での前記観察対象の位置の情報とに基づいて、前記撮影部に対する前記観察対象の方向を求める、
請求項１、２、３、４、５、６、７、８又は９に記載の映像音声信号処理装置。
前記観察対象の大きさよりも広い間隔で前記集音部が配置される、
請求項１、２、３、４、５、６、７、８、９又は１０に記載の映像音声信号処理装置。
前記観察対象からの音声が少なくとも３つの前記集音部で集音される間隔で前記集音部が配置される、
請求項１、２、３、４、５、６、７、８、９又は１０に記載の映像音声信号処理装置。
第１エリア内に離散的に配置された複数の集音部から音声信号を取得するステップと、
前記第１エリア内を定位置から撮影する撮影部から映像信号を取得するステップと、
前記撮影部で撮影された映像を表示部に表示するステップと、
前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定するステップと、
前記撮影部を制御して、設定された前記観察対象に焦点を合わせるステップと、
前記撮影部から得られる情報に基づいて、前記撮影部に対する前記観察対象の方向及び距離を求め、得られた前記撮影部に対する前記観察対象の方向及び距離の情報に基づいて、前記第１エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出するステップであって、前記撮影部に対する前記観察対象の方向を、前記撮影部で撮影された画像内での前記観察対象の位置から求め、かつ、前記撮影部に対する前記観察対象の距離の情報を、前記撮影部で前記観察対象に焦点を合わせた際の被写体距離の情報から取得するステップと、
前記位置関係の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出するステップと、
音声の到達時間の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理するステップと、
を含み、
前記集音部が、前記位置関係を算出する際の位置の分解能よりも広い間隔で配置される、
映像音声信号処理方法。
第１エリア内に離散的に配置された複数の集音部と、
各前記集音部から音声信号を取得する音声信号取得部と、
前記第１エリア内を定位置から撮影する撮影部と、
前記撮影部から映像信号を取得する映像信号取得部と、
前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
前記撮影部を制御して、前記観察対象設定部で設定された前記観察対象に焦点を合わせる制御部と、
前記撮影部から得られる情報に基づいて、前記撮影部に対する前記観察対象の方向及び距離を求め、得られた前記撮影部に対する前記観察対象の方向及び距離の情報に基づいて、前記第１エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する位置関係算出部であって、前記撮影部に対する前記観察対象の方向を、前記撮影部で撮影された画像内での前記観察対象の位置から求め、かつ、前記撮影部に対する前記観察対象の距離の情報を、前記撮影部で前記観察対象に焦点を合わせた際の被写体距離の情報から取得する位置関係算出部と、
前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
を備え、
前記集音部は前記位置関係算出部で算出可能な位置の分解能よりも広い間隔で配置される、
映像音声信号処理システム。
前記制御部は、ズームの指示を受け付けて、前記撮影部のズームを制御する、
請求項１に記載の映像音声信号処理装置。
前記制御部は、パンニング及び／又はチルティングの指示を受け付けて、前記撮影部のパンニング及び／又はチルティングを制御する、
請求項１に記載の映像音声信号処理装置。
第１エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、
前記第１エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、
前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
前記撮影部を制御して、前記観察対象設定部で設定された前記観察対象に焦点を合わせる制御部と、
前記撮影部から得られる情報に基づいて、前記撮影部に対する前記観察対象の方向及び距離を求め、得られた前記撮影部に対する前記観察対象の方向及び距離の情報に基づいて、前記第１エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する位置関係算出部であって、前記撮影部に対する前記観察対象の方向を、前記撮影部で撮影された画像内での前記観察対象の位置から求め、かつ、前記撮影部に対する前記観察対象の距離の情報を、前記撮影部で前記観察対象に焦点を合わせた際の被写体距離の情報から取得する位置関係算出部と、
前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
を備えた映像音声信号処理装置。
第１エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、
前記第１エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、
前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
位置関係算出部と、
前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
を備え、
前記集音部は前記位置関係算出部で算出可能な位置の分解能よりも広い間隔で配置される、
映像音声信号処理装置。