JP2005295181A

JP2005295181A - 音声情報生成装置

Info

Publication number: JP2005295181A
Application number: JP2004106942A
Authority: JP
Inventors: Tsukimi Wakabayashi; つきみ若林; Takuma Suzuki; 琢磨鈴木
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2004-03-31
Filing date: 2004-03-31
Publication date: 2005-10-20

Abstract

【課題】動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成する。
【解決手段】音声情報生成装置は、１系統以上の映像情報を入力する入力手段（111）と、入力した前記映像情報を１フレーム以上記憶する蓄積手段（112）と、１系統以上の音声情報を入力する入力手段（114）と、入力した前記音声情報を記憶する蓄積手段（115）と、前記蓄積手段に記憶された前記映像情報を解析して前記映像情報中の動き物体の情報を検出する画像解析手段（113,27）と、前記音声情報に対して、前記画像解析手段（113,27）により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段（116）とを備える。
【選択図】図１

Description

本発明は、例えばイベント会場や展示施設等における出演者や展示物などの動きに応じた音声情報を生成し提供する音声情報生成装置に関する。

近年、ゲーム映像などに高臨場感を与える音像定位処理が行われている。左右２チャンネルの信号系の音声信号に、それぞれ時間遅延及び振幅調整を施すことにより、各信号系間に時間差及び振幅差を発生させて、収録音や合成音の方向感や距離感を調整し、任意の位置に音像を定位させ、あたかもその位置に音源が存在するかのように視聴者に感じさせるバーチャルソース方式が知られている。

また、収録現場の音場を再現する方法として、ダミーヘッドマイクによってバイノーラル録音された音声をヘッドホンで再生するバイノーラルシステムが知られている。また、バイノーラル録音により録音された音声をスピーカで良好に再生する方法として、デジタルフィルターを用いてクロストークをキャンセルしたトランスオーラル方式も知られている。

このようなバーチャルソース方式及びトランスオーラル方式を組み合わせて立体音声を生成する立体音声生成方法が開示されている（特許文献１参照）。

一方、画像信号から被写体の動きを検出し、動き検出データを出力する画像監視装置が開示されている（例えば、特許文献２参照）。
特開２０００−３３３２９７号公報特開平１１−３９４９５号公報

特許文献１に記載の技術によれば、ダミーヘッドマイクで収録した音声を元の位置に定位することや、特定の音源について指定した任意の位置に音像を定位することはできるものの、現実の空間を実際に動き回る物体（以下「動き物体」という）について、その動き物体を音源として音像を定位することは考慮されていない。

また、ダミーヘッドマイクで収録した音声を元にして収録空間全体の音場を再現することはできるが、複数の音源の混在する収録現場で、動き回る特定の音源の音声を収録し再現することはできない。

例えば、一般的なコンサート会場では、各楽器やパート毎に集音マイクが設置され、ボーカル担当者はハンドマイクを持って、ステージ上を移動しながら歌唱を行う。ボーカル担当者の移動に合わせてボーカル音声を定位しようとする場合、ダミーヘッドマイクをステージ正面に設置すると、伴奏楽器の音や観客の声援等が大きく、ボーカル音声を十分に集音できない。一方、ボーカル担当者が持つハンドマイクでボーカル音声を集音することはできるものの、移動する音源（ボーカル担当者）を定位するための位置情報が欠けているため、音像を再現することはできない。

本発明は、以上のような問題を鑑みてなされたものであり、動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成することができる音声情報生成装置を提供することを目的とする。

上記課題を解決するために、本発明に係る音声情報生成装置の特徴は、（ａ）入力映像情報を１フレーム以上記憶する蓄積手段と、（ｂ）入力音声情報を記憶する第１の蓄積手段と、（ｃ）前記第１の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、（ｄ）前記入力音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えることにある。

このような構成によれば、入力映像情報中から動き物体の動きや位置などの情報を検出し、検出した情報に基づいて音像を定位するため、動き回る人や物などの音源に対しても音像を定位することができ、臨場感の高い音声情報を生成することができる。

本発明によれば、動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成することができる音声情報生成装置を提供することができる。

以下、図面を参照しながら、本発明の実施形態について詳しく説明する。尚、各図面を通じて同一もしくは同等の部位や構成要素には、同一もしくは同等の参照符号を付し、その説明を省略もしくは簡略化する。

本発明に係る音声生成装置は、例えば、映像音声情報を記憶再生、編集、配信する各種装置やナレーション装置等、音声情報を生成し提示する各種装置として実施することができる。以下、本発明に係る音声生成装置を、情報配信システムにおける情報配信装置や端末装置として実施する例を説明する。

［第１の実施例］
《情報配信システムの構成及び処理動作》
図１は、情報配信システムの構成例を示すシステム構成図であり、情報配信装置１０２（音声生成装置）と端末装置１０４とは、通信手段１０５を通じて接続される。また、１系統以上の高精細カメラ１０１、１系統以上のマイク１０３が、情報配信装置１０２にそれぞれ接続される。

情報配信装置１０２は、高精細カメラ１０１の撮影信号を取り込んでデジタルデータに変換する画像入力インタフェース（Ｉ／Ｆ）１１１と、その画像データが所定量（少なくとも１フレーム以上）蓄積される画像メモリ１１２と、スイッチのＯＮ／ＯＦＦ等の動作設定や画像解析判定閾値等の動作条件のパラメータ等を入力するための操作部１２０と、操作部１２０からの入力を受け付ける設定入力インタフェース（Ｉ／Ｆ）１２１と、操作部１２０から入力されるパラメータを記憶するパラメータ記憶部１２２と、画像メモリ１１２に蓄積された画像データを解析する画像解析部１１３と、入力した映像情報を送信するために符号化する送信映像符号化部１１７を備えている。また、画像解析部１１３は、パラメータ記憶部１２２に記憶されたパラメータに基づいて、映像情報中の所定の変化（例えば被写体の動きなど）を検出する動き検出装置２７を含んでいる。

更に、情報配信装置１０２は、マイク１０３からの音声信号を取り込んでデジタルデータに変換する音声入力インタフェース（Ｉ／Ｆ）１１４と、その音声データが所定量蓄積される音声メモリ１１５と、音声データに音像定位を施す音像定位処理部１１６と、音声データを送信するため符号化する送信音声符号化部１１８を備えている。更にまた、情報配信装置１０２は、符号化された画像データ及び音声データを、通信手段１０５を通じて端末装置１０４に送信する通信制御部１１９などを備え、上記各部は図示しない制御部により制御される。

一方、端末装置１０４は、情報配信装置１０２から通信手段１０５を通じて、映像及び音声の符号化されたデータを受信する通信制御部１２３と、受信した映像符号化データを復号して再生する再生部１２４、映像・音声を表示する表示部１２５などから構成され、上記各部は図示しない制御部により制御される。表示部１２５には、高精細ディスプレイと２台のスピーカ１２９が含まれる。

尚、端末装置１０４を複数台設置し、情報配信装置１０２からマルチキャスト配信を行っても良い。

以上のように構成された情報配信システムの処理動作の概略を説明する。

情報配信装置１０２側では、高精細カメラ１０１は、撮影エリア全体が入るように設置され、撮影された映像データは、画像入力Ｉ／Ｆ１１１により取り込まれ、画像メモリ１１２に記憶される。

操作部１２０より入力された、映像データから検出すべき動き物体に関するパラメータは、設定入力Ｉ／Ｆ１２１で設定情報データ化され、パラメータ記憶部１２２に記憶される。

操作部１２０より動作開始指示が入力されると、情報配信装置１０２は情報配信処理動作を開始し、画像解析部１１３は、画像メモリ１１２に記憶された画像を解析し、パラメータ記憶部１２２に記憶されているパラメータに基づいて、動き検出装置２７により検出された映像情報中の所定の変化から、検出すべき動き物体に関する情報を検出する。

一方、音声入力Ｉ／Ｆ１１４は、マイク１０３により収集された音声をデジタルデータとして取り込み、音声メモリ１１５に記憶する。音像定位処理部１１６は、画像解析部１１３で解析された動き物体に関する情報を基に、入力音声の音源の位置を判定し、音像を定位する。送信音声符号化部１１８は、音声メモリ１１５の音声データを送信用に符号化する。

通信制御部１１９は、端末装置１０４毎の送信映像及び音声の符号化データを、各端末装置１０４に通信手段１０５を通じて送信する。

端末装置１０４側では、通信制御部１２３が情報配信装置１０２から送信される映像及び音声の符号化データを受信する。再生部１２４は、受信した符号化映像データを復号再生し、表示部１２５に出力する。

《動き検出装置の構成及び処理動作》
以上、本実施例における情報配信システムの構成及び処理動作の概要について説明したが、音像定位処理部１１６において、音像の位置や動き等の情報に基づいて音像を定位するためには、撮影映像中の動き物体（例えば、出演者）に関する情報（例えば、動き物体の種類、位置、サイズ、動き方向、動き速度、動き量等）を、いかにして検出するかが重要である。本実施例における画像解析部１１３は、動き検出装置２７を用いてデータ処理を効果的に行い、予め設定されたパラメータに基づいて撮影映像中の動き物体の動き（例えば、位置、大きさ、形状、移動量等）を検出する。

動き検出装置２７は、図２に示すようなマイクロコンピュータ回路により構成されており、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、Ｉ／Ｏポート３４が、アドレスバス・データバスによって接続されている。

ＲＯＭ３２には、予め動き検出プログラムが格納されており、ＲＡＭ３３には、ワークエリアとともに、少なくとも撮影映像１フレーム分の画像データを記憶する領域、動き判定のための閾値データ等のパラメータを記憶する領域、動き検出処理過程で得られる各種データを記憶する領域、動き検出情報を記憶する領域などが確保されている。

また、Ｉ／Ｏポート３４は、画像メモリ１１２の画像データと設定パラメータの入力を受け付けるとともに、検出結果である動き検出情報を音像定位処理部１１６に出力する。そして、音像定位処理部１１６は、動き検出情報に基づいて音源の位置を定位する。

図３は、動き検出装置２７のＣＰＵ３１が、ＲＯＭ３２に格納されている動き検出プログラムに基づいて実行する動き検出処理の処理手順を例示している。情報配信システムが稼働状態にあるときには、高精細カメラ１０１が撮影した映像の画像データが、画像入力Ｉ／Ｆ１１１によって取り込まれ画像メモリ１１２に書き込まれる。また、操作部１２０から入力された動き判定閾値等のパラメータが、予めパラメータ記憶部１２２に格納されているものとする。

まず、操作部１２０から情報配信装置１０２の動作開始指示（スイッチＯＮ）がなされると、情報配信装置１０２内の図示しない制御部が、動き検出装置２７を起動する（ステップＳ１１）。動き検出装置２７は、パラメータ記憶部１２２に格納されているパラメータデータを、Ｉ／Ｏポート３４を介してＲＡＭ３３内に読み込むとともに、以降のデータ処理のための初期設定を実行する（ステップＳ１２）。

初期設定が完了すると、動き検出装置２７は、画像メモリ１１２から画像データ（画像フレーム：F(X) のデータ）を１フレームずつＲＡＭ３３に取り込む（ステップＳ１３〜Ｓ１４）。そして、動き検出装置２７は、ＲＡＭ３３に展開した画像データに基づいて画像分割・輝度情報処理を実行する（ステップＳ１５）。

図４は、画像分割・輝度情報処理（ステップＳ１５）の詳細な処理手順例を示している。

動き検出装置２７は、先ず、ＲＡＭ３３に取り込まれた画像フレーム：F(X) のデータを、図５に示すように水平方向と垂直方向に均等区分し、m×n個の方形状のブロック：B(X)ij ［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］に分割する（ステップＳ３１）。この場合、当然に各分割ブロック：B(X)ij には、水平・垂直方向の区分数に応じて多数の画素が含まれている。

分割ブロック：B(X)ij の設定が完了すると、動き検出装置２７は、各分割ブロック：B(X)ij 毎に全画素の輝度値を加算し（ステップＳ３３）、その加算値をブロック内に含まれている画素数で除算することで、分割ブロック：B(X)ij についての輝度平均値：BLav(X)ij を求め、求めた輝度平均値：BLav(X)ij をＲＡＭ３３にセーブ（保存）する（ステップＳ３４）。

また、本実施例においては、輝度平均値：BLav(X)ij を求めていく順序が、水平方向に整列した分割ブロック：B(X)ij について、最上段の水平方向の分割ブロック：B(X)ij 群［i = 1、j = 1, 2, 3, …,n］の左端から開始して右方向へ順次移行し、一段の処理が完了する度にその下の段へ移行する方式に設定されており、最終的に最下段の右端の分割ブロック：B(X)mn の輝度平均値を求めた段階で、１フレーム分の処理が完了する（ステップＳ３２〜Ｓ３８）。

そして、上記１フレーム分の一連の処理が完了すると、動き検出装置２７は、１フレーム分の分割ブロック：B(X)ij の輝度平均値：BLav(X)ij を全て加算する。（ステップＳ３９）そして、動き検出装置２７は、その加算値：ΣB(X)ij を分割ブロックの数：m×n で除算することにより、フレーム全体の輝度平均値：FLav(X) を算出し、算出したフレーム全体の輝度平均値：FLav(X) をＲＡＭ３３にセーブして、画像分割・輝度情報処理を完了する（ステップＳ４０）。

再び図３に戻って、動き検出装置２７は、前フレームの輝度情報処理に係るデータがＲＡＭ３３に格納されているか否かを判別する（ステップＳ１６）。判別の結果、前フレームの輝度情報処理に係るデータがＲＡＭ３３に格納されていない場合、つまり、現画像フレームが先頭の画像フレーム：F(1) である場合、動き検出装置２７は、現フレームの情報を前フレームの情報としてＲＡＭ３３にセーブする（ステップＳ２２）。

一方、現フレームが２番目以降のフレーム：F(X)［X≧2］である場合には、直前の画像フレーム：F(X-1) の輝度情報処理に係るデータが既にＲＡＭ３３にセーブされている。

ここでは、現フレームが２番目以降のフレーム：F(X)［X≧2］であるものとして、次の動きブロック検出処理（ステップＳ１７）の処理手順例を説明する。

図６は、動きブロック検出処理（ステップＳ１７）の詳細な処理手順を例示している。

まず、この段階では、前フレーム：F(X-1) と現フレーム：F(X) について画像分割・輝度情報処理（ステップＳ１５）が実行されているため、図２に例示するように、ＲＡＭ３３には以下のデータがセーブされている。

（ａ）前フレーム：F(X-1) の各分割ブロック：B(X-1)ij［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］に係る輝度平均値：FLav(X-1) ij［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］と、前フレーム：F(X-1) 全体の輝度平均値：FLav(X-1)。

（ｂ）現フレーム：F(X) の各分割ブロック：B(X)ij［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］に係る輝度平均値：FLav(X) ij［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］と、現フレーム：F(X) 全体の輝度平均値：FLav(X)。

動きブロック検出処理（ステップＳ１７）では、動き検出装置２７は、最初に現フレーム：F(X) 全体と前フレーム：F(X-1) 全体の各輝度平均値の差：ΔFlav(x) = Flav(x) - Flav(x-1) を演算し、演算結果をＲＡＭ３３に一旦セーブする（ステップＳ４１）。

次に、動き検出装置２７は、現フレーム：F(X) の各分割ブロック：B(X)ij に係る輝度平均値と、その分割ブロック：B(X)ij と対応する位置にある前フレーム：F(X-1) の分割ブロック：B(X-1)ijに係る輝度平均値との差：ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij を演算する（ステップＳ４３）。

更に、動き検出装置２７は、その分割ブロックに係る輝度平均値の差から、ステップＳ４１で求めたフレーム全体に係る輝度平均値の差を差し引いた値：ΔBlav(x)ij -ΔFlav(x) を演算し（ステップＳ４４）、その演算値を絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜に変換する（ステップＳ４５）。

そして、この動きブロック検出処理では、ステップＳ４５で求めた絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜を、分割ブロック：B(x)ij が動きを含む分割ブロックであるか否かの判定対象とする（ステップＳ４６）。

具体的には、ＲＡＭ３３には設定パラメータとして、前記絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜と比較するための閾値：Th0 が格納されており、動き検出装置２７は、｜ΔBlav(x)ij -ΔFlav(x)｜＞ Th0 の場合には「分割ブロック：B(x)ij は動きを含む分割ブロックである」と判定し（ステップＳ４７）、逆に、動き検出装置２７は、｜ΔBlav(x)ij -ΔFlav(x)｜ ≦ Th0 の場合には「分割ブロック：B(x)ij は動きを含まない分割ブロックである」と判定する（ステップＳ４８）。

ステップＳ４６〜Ｓ４８における分割ブロック：B(x)ij についての動き判定情報は、ＲＡＭ３３にセーブされる（ステップＳ４９）。

図７は、ステップＳ４９において、分割ブロックに対する動き判定情報がＲＡＭ３３にセーブされる際の形式を示している。分割ブロック：B(x)ij に対する動き判定情報をＲＡＭ３３にセーブする際には、「“1”：動きあり」「“0”：動きなし」のような２値データではなく、ポイント加算方式による多値データとしてセーブする。例えば、図７（ａ）に示す○印の分割ブロックに動きが検出された場合、図７（ｂ）に示すように、動きが検出された分割ブロック：B(x)ij にポイント“8”を加算し、その周囲の８つの分割ブロック：：B(x)I-1j-1、B(x)I-1j、B(x)I-1j+1、B(x)Ij-1、B(x)Ij+1、B(x)I+1j-1、B(x)I+1j、B(x)I+1j+1 に、それぞれポイント“1”を加算する。これを全ての分割ブロックに対して適用すると、隣接するブロックに動きがある場合は、そのブロックに該当する動き判定情報のポイントが高くなることから、動きブロックの隣接度合いを表すことができる。動きを含む分割ブロックのうち、隣接する分割ブロックも動きを含む分割ブロックは、図７（ｃ）における○印の分割ブロックである。

ところで、ステップＳ４３〜Ｓ４９の一連の動きブロック検出処理は、画像フレーム：F(X) の各分割ブロック：B(x)ij について順次実行されるが、その実行順序は上記輝度情報処理（ステップＳ３２〜Ｓ３８）における処理順序と同様であり、分割ブロック：B(x)11 から開始して分割ブロック：B(x)mn で終了する（ステップＳ４２〜ステップＳ５２）。

図３のフローチャートに戻って、動き検出装置２７は、ＲＡＭ３３にセーブされた分割ブロック：B(x)ij の動き判定情報を基に、動き領域候補を抽出する（ステップＳ１８）。

図８は、動き領域候補抽出処理（ステップＳ１８）の詳細な処理手順を例示している。

まず、動き検出装置２７は、現フレーム：F(X) に動きを含む分割ブロックがあるか否かを判定し、動きを含む分割ブロックがない場合は処理を終了する（ステップＳ８１）。逆に、動きを含む分割ブロックがある場合には、分割ブロックのインデックスI,j を初期化し（ステップＳ８２）、先頭のブロックから順に、分割ブロック：B(x)ij の動き判定情報のポイントデータMij を取り込んで（ステップＳ８３）、ポイントデータMij とパラメータに設定されている閾値Th4（詳細は後述）とを比較する（ステップＳ８４）。

ステップＳ８４の判定の結果、ポイントデータMij ≦ 閾値Th4 の場合は、次のブロックに移行し、ポイントデータMij ＞閾値Th4 の場合は、動き領域候補と見なして動き領域候補に登録する（ステップＳ８５〜Ｓ８９）。具体的は、動き検出装置２７は、処理済みの隣接する分割ブロックが既に動き領域候補として登録されているか否かを判定し（ステップＳ８５）、動き領域候補として登録されている隣接ブロックがある場合は、分割ブロック：B(x)ij を隣接する動き領域候補の要素として追加登録する（ステップＳ８７）。逆に、動き領域候補として登録されている隣接ブロックがない場合は、動き検出装置２７は、分割ブロック：B(x)ij を動き検出候補として新規に登録する（ステップＳ８６）。そして、動き検出装置２７は、動き領域候補の動きブロック数に分割ブロック：B(x)ij の分を“1”加算し（ステップＳ８７），動き領域候補の動きブロックの中心位置情報に分割ブロック：B(x)ij の分を加算して（ステップＳ８８）、次のブロックに移行する（ステップＳ９０，Ｓ９１，Ｓ９２，Ｓ９３）。

全ての分割ブロックについて、以上の処理が完了すると、動き検出装置２７は、各動き領域候補における動きブロックの中心位置の合計を動きブロック数で除算して、動きブロックの中心位置の平均を算出する（ステップＳ９４）。

そして、動き検出装置２７は、各動き領域候補を動き領域候補の重要度順にソートしてＲＡＭ３３にセーブする（ステップＳ９５）。ここで、動き領域候補の重要度は、動き領域候補のサイズ（動き領域候補に含まれる動きブロック数）及び／または動き領域候補の位置（動き検出エリアの注目度）を基に判定する。

ところで、上記閾値Th4は、動きブロックを隣接する動き領域候補の要素として追加するか否かを判定するための閾値である。例えば、入力画像にノイズ要素が多い場合は、この閾値Th4を高く設定することで、孤立した動きブロックを動き領域候補から除外しする。一方、例えば、背景と動き物体の輝度差にばらつきがあり、動きブロックの判定が一定しない場合には、閾値Th4を低く設定することで、まとまった動き領域候補として抽出する。このように、使用する場面により適当な閾値Th4を使い分けることで、目的の動きを精度良く検出することができる。

再度、図３のフローチャートに戻って、次に動き検出装置２７は、ＲＡＭ３３にセーブした動き領域候補と前フレームまでの動き領域候補との対応付けを行う（ステップＳ１９）。

図９は、動き領域候補の対応付け処理（ステップＳ１９）の詳細な処理手順を例示している。

動き検出装置２７は、現フレーム：F(X) に動き領域候補があるか否かを判別し（ステップＳ１０１）、現フレームの動き領域候補がなければ、前フレーム：F(X-1) までの動き領域候補に対して保留処理を実行する（ステップＳ１１０〜Ｓ１１３）。尚、図９において、変数ｉは前フレームまでの動き領域候補のインデックス、変数ｐは前フレームまでの動き領域候補の数である。

ここで、動き領域候補が設定されたフレームの次のフレームに、対応する動き領域候補がなかった場合、動き物体が一時的に速度をゆるめたり、停止したりした可能性がある。そこで、所定のフレーム数分については、動き領域候補を削除せずに保留する処理を行う。具体的には、各領域毎に保留フレーム数をカウンタにセットし、次フレームに対応する動き領域候補がなければ、カウンタから１ずつ減算し、カウンタが０になった時点で動き領域候補から削除する。

一方、現フレーム：F(X) に動き領域候補があれば（ステップＳ１０１）、動き検出装置２７は、インデックスｉを初期化し（ステップＳ１０２）、全ての動き領域候補について（ステップＳ１０３，Ｓ１０８）、前フレームまでの動き領域候補Ki に対応する現フレームの動き領域候補を探索する（ステップＳ１０４）。具体的には、前フレームまでの動き領域候補を用いて、前フレームでの動きブロック位置の平均と、前フレームと前々フレーム間の動きブロック位置の平均の変位とを取り出して加算し、現フレームでの動きブロック位置の平均の推定値とする。この推定位置を基準に、所定の距離以内で最も近い位置に動きブロック位置の平均をもつ現フレームの動き領域候補を、対応する現フレームの動き領域候補とする。

そして、動き検出装置２７は、現フレームの動き領域候補があるか否かを判別し（ステップＳ１０５）、現フレームの動き領域候補がなければ、動き領域候補保留処理を実行する（ステップＳ１０６）。逆に、現フレームの動き領域候補があれば、前フレームまでの動き領域候補情報を更新する（ステップＳ１０７）。具体的には、現在の動き領域候補の位置（動きブロックの中心位置の平均）、前フレームと現フレームとの間の位置の変位量、動き領域候補が検出されてからの総変位量、動き領域のサイズを更新し、保留フレームの数を所定の値にセットする。

現フレームの動き領域候補の中で前フレームまでの動き領域候補に対応付かなかったものは、新規の動き領域候補として前フレームまでの動き領域候補に追加し（ステップＳ１０９）、前フレームまでの動き領域候補情報をＲＡＭ３３にセーブする（ステップＳ１１４）。

再び、図３のフローチャートに戻って、動き検出装置２７は、ＲＡＭ３３にセーブされている動き領域候補の対応付け情報を用いて、有効な動き領域の有無を判定する（ステップＳ２０）。

図１０は、動き領域判定処理（ステップＳ２０）の詳細な処理手順を例示している。

まず、動き検出装置２７は、パラメータで予め設定されている動き領域判定基準を取り出し（ステップＳ１２１）、動き領域候補のインデックスｉを初期化する（ステップＳ１２２）。そして、全ての動き領域候補について（ステップＳ１２３，Ｓ１２６）、各動き領域候補Ki の情報を取り出して（ステップＳ１２４）、動き領域判定基準に基づいて動き領域候補Ki が検出対象の動き領域であるか否かを判定する（ステップＳ１２５）。全動き領域候補について判定が完了すると、動き検出装置２７は、動き領域判定結果をＲＡＭ３３にセーブする（ステップＳ１２７）。

再び、図３のフローチャートに戻って、動き検出装置２７は、ＲＡＭ３３にセーブされている動き領域候補の動き領域判定情報を、音像定位処理部１１６に出力する（ステップＳ２１）。

更に、動き検出装置２７は、ＲＡＭ３３にセーブされている現フレーム：F(X) に係る輝度平均値：BLav(X)ij［i = 1, 2, 3, …,m、j = 1, 2, 3, …,n］と、フレーム全体の輝度平均値：FLav(X) とを、前フレームに係るそれらの情報に上書きして保存することによりデータの更新を行う（ステップＳ２２）。

そして、動き検出装置２７に対して動作停止指示（スイッチＯＦＦ）の指示がなければ（ステップＳ２３）、画像メモリ１１２から次の画像フレーム：F(X+1) のデータを取り込み、上記の同様の処理手順で、フレーム：F(X+1) の各分割ブロック：B(X+1)ij について動きを含むか否かの判定処理を実行し、動きブロックについて動き領域候補を抽出し、前フレームまでの動き領域候補との対応付け及び動き領域に判定を実行する。以降についても同様にして、画像メモリ１１２に順次書き込まれていく画像フレームに対して、動き領域の検出処理を行う（ステップＳ２３→Ｓ２４→Ｓ１４〜Ｓ２２）。

以上説明した処理の結果、画像メモリ１１２に書き込まれた画像フレーム中に、検出対象の動きを含む領域が存在するか否かの判定情報が、常に音像定位処理部１１６に出力され、動きを含む領域がある場合には、その領域の位置情報出力される。従って、音像定位処理部１１６は、動きを含む領域があると判定された画像フレームについてのみ、音源位置の判定を実行することができ、音像定位処理部１１６は、高精細カメラ１０１の撮影映像に特段の動きがない状態の画像フレームについては、一定のパラメータで音像定位を改めて行うようにすることができる。

ところで、本実施例による動きブロック検出処理（ステップＳ１７）においては、現フレーム：F(X) の分割ブロックに係る輝度平均値：Blav(x)ij と、前フレーム：F(X-1) の対応する位置にある分割ブロックに係る輝度平均値：Blav(x-1)ij の差：ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij から、各フレームに係る全体の各輝度平均値の差：ΔFlav(x) = Flav(x) - Flav(x-1) を差し引いた値の絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜を、設定された閾値：Th0 と比較することにより、現フレーム：F(X) に動きを含む分割ブロックがあるか否かを判定している。

すなわち、特許文献２に記載の技術のように、単に、フレーム間における対応した分割ブロック同士の輝度値または色データの平均値の差分に基づいて、動きを検出するのではなく、本実施例による動きブロック検出処理（ステップＳ１７）においては、分割ブロック同士の輝度平均値の差分と、各フレームに係る全体の輝度平均値の差との相対的差分を判定対象としている。

ここで、撮影画面領域の照明状態が変化した場合を想定してみると、その変化が影響した分割ブロック同士の輝度平均値の差：ΔBlav(x)ij が絶対値として大きくなるが、同時に前後の各画像フレーム全体の輝度平均値の差：ΔFlav(x) も絶対値として大きくなり、且つその＋／−方向へ増大する傾向は同一である。

従って、本実施例による動きブロック検出処理（ステップＳ１７）において判定対象となる絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜は、照明状態の変化による影響が及ばない値となり、照明状態の変化を分割ブロック内の動きとして検出しないことになる。従って、照明の変化による影響を受けずに、一定の閾値Th0 を適用することで、正確で安定的な動きブロック検出処理をおこなうことができる。

また、判定対象となる絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜は、分割ブロック：B(X)ij、B(X)ij の輝度平均値：Blav(x)ij、Blav(x-1)ij や、画像フレーム：F(X)、F(X-1)の全体的輝度平均値：FLav(X)、FLav(X-1)に基づいて算出されるため、画像フレーム：F(X)、F(X-1)中にフリッカー等のノイズが混在していても、その画素に係る大きな輝度値は平準化されてほとんど影響を及ぼさない。

更に、本実施例による画像分割・輝度情報処理（ステップＳ１５）では、画素の輝度を予め分割ブロック：B(X)ij 単位で平均かしておくため、後続の動きブロック検出処理（ステップＳ１７）のための演算量を削減できる。

尚、閾値：Th0 の値は、動き検出の感度を左右するが、例えば、８ビットで量子化された画像データの輝度値を“0”〜“255”で表現した場合、閾値：Th0 は、約“50”に設定することが可能である。

特許文献２に記載の動き検出方法によると、照明の変化が動き判定に影響を与えてしまうために、動き検出のための閾値を小さい値に設定することができず、必然的に検出感度を低下せざるを得ないが、本実施例による動きブロック検出処理で用いる閾値：Th0≒50 は、判定方式の相違を考慮して相対化してみても、特許文献２に記載の検出方法で用いられる閾値よりも相当に小さいレベルになるため、高い検出感度を実現することができる。

尚、本実施例における動き検出のための閾値は、以下に説明するように、閾値を２段階に設定し適用することにより、検出部分の輝度に応じて、より安定的な検出を行うようにしても良い。

図１１は、本実施例における動き検出のための閾値の設定値を例示している。閾値：Th1、Th2、Th3 は、図１１に示すようなテーブルデータとして、予めパラメータ記憶部１２２に格納されている。操作部１２０から「高」「中」「低」のいずれかの感度が選択されると、動き検出装置２７は、選択された感度に応じた３種類の閾値：Th1、Th2、Th3 を動き検出処理（ステップＳ１７）の中で適用する。尚、図１１に例示した各閾値は、先に説明した閾値：Th0 の場合と同様に、８ビットで量子化された画像データの輝度値を“0”〜“255”で表現した場合を基準に設定している。

図１２は、図１１に示した閾値：Th1、Th2、Th3 を用いて、動き検出装置２７が実行する動き検出処理（ステップＳ１７）の処理手順例を示している。

動き検出装置２７は、現フレーム：F(X) 全体と前フレーム：F(X-1) 全体の各輝度平均値の差：ΔFlav(x) = Flav(x) - Flav(x-1) を演算し、演算結果をＲＡＭ３３に一旦セーブする（ステップＳ６１）。次に、現フレーム：F(X) の各分割ブロック：B(X)ij に係る輝度平均値と、その分割ブロック：B(X)ij と対応する位置にある前フレーム：F(X-1) の分割ブロック：B(X-1)ijに係る輝度平均値との差：ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij を演算する（ステップＳ６３）。更に、その分割ブロックに係る輝度平均値の差から、ステップＳ６１で求めたフレーム全体に係る輝度平均値の差を差し引いた値：ΔBlav(x)ij -ΔFlav(x) を演算し（ステップＳ６４）、その演算値を絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜に変換する（ステップＳ６５）。以上のステップＳ６１〜ステップＳ６５の処理は、図６におけるステップＳ４１〜ステップＳ４５の処理と同様である。

動き検出装置２７は、次に、現フレーム：F(X) の各分割ブロック：B(X)ij に係る輝度平均値：BLav(X) ij と、前フレーム：F(X-1) の各分割ブロック：B(X-1)ij に係る輝度平均値：BLav(X-1) ij を、それぞれ閾値：Th1と比較する（ステップＳ６６，Ｓ６７）。

そして、輝度平均値：BLav(X) ij、BLav(X-1) ij のいずれか一方もしくは両方が閾値：Th1より大きい場合は、判定閾値として閾値：Th2 を適用し（ステップＳ６８）、輝度平均値：BLav(X) ij、BLav(X-1) ij の双方とも閾値：Th1より小さい場合は、判定閾値として閾値：Th3 を適用する（ステップＳ６９）。

従って、次のステップＳ７０の判定処理では、｜ΔBlav(x)ij -ΔFlav(x)｜＞適用閾値（閾値：Th2 または Th3）の場合には「分割ブロック：B(x)ij は動きを含む分割ブロックである」と判定され、｜ΔBlav(x)ij -ΔFlav(x)｜ ≦ 適用閾値（閾値：Th2 または Th3）の場合には「分割ブロック：B(x)ij は動きを含まない分割ブロックである」と判定される。

例えば、操作部１２０から「中」レベルの感度が選択されたケースを例にとると、輝度平均値：BLav(X) ij、BLav(X-1) ij のいずれか一方もしくは両方が“128”より大きい場合は、｜ΔBlav(x)ij -ΔFlav(x)｜＞ “70” である場合に「分割ブロック：B(x)ij は動きを含む分割ブロックである」と判定され、輝度平均値：BLav(X) ij、BLav(X-1) ij の双方が“128”より小さい場合は、｜ΔBlav(x)ij -ΔFlav(x)｜＞ “35” である場合に「分割ブロック：B(x)ij は動きを含む分割ブロックである」と判定されることになる。

このように、本実施例においては、判定対象データである絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜にたいして、２つの閾値：Th2、Th3 を設けておき、２つの閾値：Th2、Th3 のうちのいずれを適用するかを決定するための閾値：Th1 を設けている。そして、現フレーム：F(X) の各分割ブロック：B(X)ij に係る輝度平均値：BLav(X) ij と、前フレーム：F(X-1) の各分割ブロック：B(X-1)ij に係る輝度平均値：BLav(X-1) ij を、それぞれ中間輝度値（閾値：Th1）と比較し、輝度平均値：BLav(X) ij，BLav(X-1) ij のいずれか一方もしくは両方が中間輝度値（閾値：Th1）より大きい場合は、判定閾値として高い閾値：Th2 を適用し、輝度平均値：BLav(X) ij，BLav(X-1) ij の双方とも中間輝度値（閾値：Th1）より小さい場合は、判定閾値として低い閾値：Th3 を適用している。

これは、一般に、輝度平均値：BLav(X) ij，BLav(X-1) ij の少なくとも一方が中間輝度値（閾値：Th1）より大きい場合には、判定対象データである絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜も大きくなり、輝度平均値：BLav(X) ij，BLav(X-1) ij の双方とも中間輝度値（閾値：Th1）より小さい場合は、絶対値：｜ΔBlav(x)ij -ΔFlav(x)｜も小さくなる傾向があるという経験則に基づくものである。このように、それぞれの場合に対応して閾値を可変適用することで、動きブロックの検出処理に係る判定条件の均等化を図ることができるとともに、正確で安定した検出動作を実現できる。

本実施例において、音源として検出すべき対象の動き情報を、予めパラメータ記憶部１２２に設定しておくことにより、音源の動きを精度良く捉えることができる。

《音像定位処理部の構成及び処理動作》
次に、動き検出結果を基に動き物体を音源として音像の定位を行う音像定位処理部１１６の構成及び処理動作について説明する。

図１３（ａ）に示すように、音像定位処理部１１６は、音源位置判定部１４１、頭部伝達関数記憶部１４２、パラメータ設定部１４３、畳み込み処理部１４４などを備えている。

音源位置判定部１４１は、動き検出結果の動き情報に基づいて、集音した音源に対応づける動き物体及びその３次元位置を判定する。

ここで、動き検出結果の動き情報に基づいて、音源として検出すべき動き物体の種類と状況等を推定する処理について、詳細に説明する。

音源位置判定部１４１は、動き検出装置２７で取得した動き領域を、撮影領域を移動する動き物体と仮定して動き情報を解析し、動き物体の種類と状況を推定する。動き領域の形状、位置、大きさ、動き量等の情報と、予め登録された動き物体の種類毎の登録情報とを照合し、撮影領域での動き物体の種類を推定する。

図１４は、動き解析処理の概略の流れを例示している。

まず、撮影映像内の動き物体の属するエリアを判定する（ステップＳ２０１）。カメラで斜め上から撮影する場合は、通常画像中の動き物体の最下端が、物体が接地している平面上の位置と推定される。まず、動き領域の最下端の座標を基に、所属するエリアを判定する。エリアは、カメラ設置時に撮影エリア内の平面の連続性及び操作者の必要とする分類レベルを基に設定する。

図１５（ａ）は、エリア設定の例を示しており、一般者が通行できる共通エリアＡ１、施設入口への通路エリアＢ１、通常立ち入り禁止の植裁エリアＣ１，Ｃ２の各エリアは、縁石またはブロック等で仕切られている。

初期設定時に、背景画像解析部（図示せず）は、画像メモリ１１２の画像を基に画像のエッジ情報を抽出し、エリア境界の候補を作成し、情報配信装置１０２の操作者に提示する。操作者は、操作部１２０よりエリア設定を修正・指定し、各エリアの情報取得対象となる物体の種類と動き及びパターンを、パラメータ記憶部１２２に登録する。エリア毎に、例えば車や人、動物の有無や流れ等、情報取得すべき動き物体の種類や動き方向、動き物体の画面上での映り方が異なる（図１５（ｂ））。

エリア毎に撮影対象とする動き物体の画面上で想定される大きさ及び形状を、予めテンプレートとしてパラメータ記憶部１２２に登録しておく。更に、各物体のエリア内で想定し得る動き及び撮影対象とすべき動きに関して、動き方向や動き量、動き継続時間や停止時間等を登録しておく。

動き検出された物体の属するエリアが決まれば、エリア毎に登録された動き物体のテンプレート情報を取り出す（ステップＳ２０２）。個々のエリアが広い場合は、動き物体の大きさや形状は、同一エリア内でも動き物体の位置により変化することが想定されるため、物体の位置により基準とする大きさや形状データを変換する計算式をパラメータ記憶部１２２内に格納しておき、検出された動き物体の位置における各登録物体の大きさや形状の基準値を求める。

ここで検出された動き物体が、それまでの画像フレームで既に動き物体として推定されている領域であれば（ステップＳ２０３）、その物体のテンプレートと照合し（ステップＳ２０４）、検出された動き物体がその物体のテンプレートとマッチすれば（ステップＳ２０５）、同じ物体であると推定する（ステップＳ２０７）。逆に、検出された動き物体がその物体のテンプレートとマッチしない場合（ステップＳ２０５）、新たに動き物体を推定するためにテンプレートの検索処理を実行する（ステップＳ２０６）。

テンプレートの検索処理（ステップＳ２０６）では、登録されたテンプレート情報を検索し、検出された動き物体の種類を推定する。動き物体の動き情報を登録されている各物体のテンプレートと比較し、登録情報に最も良く適合する種類の物体であると推定する。物体の推定には、大きさ、形状、動き方向、…というように項目毎に絞り込んでも良いし、適合する項目毎に候補物体にポイントを与え、最もポイントの高い物体であると推定しても良い。後者の場合には、項目を満たす必須度を基にポイントに重み付けをする。初めの動き情報で物体を推定できない場合は、複数フレームにわたる動き情報を用いて物体を推定する。

動き物体が推定されれば、その物体の動きが情報取得すべき対象であるか否かを判定する（ステップＳ２０７）。動きの方向、動き量、位置、動き継続時間あるいは停止時間等の動き情報が、その物体に関して予め登録された情報取得すべき動きのパターンと一致すれば、そのパターン情報が取り出される。解析が終われば、動き物体に関する情報を保存する（ステップＳ２０８）。ある時点では情報取得の動きを見出せない物体についても情報を保存し、情報取得すべき動きを開始したときに直ちに対応できるようにする。

エリア毎の情報取得すべき、あるいは無視すべき動き物体の初期設定に当たっては、予め情報配信装置１０２内に動き物体の種類及びそれぞれの動き物体に想定される動き情報に関するテンプレートを用意し、操作者がこれらを選択し組み合わせることにより、設定するようにしても良い。システム設置時に、人がエリアを実際に歩き、入力画像から検出した人の動き情報を基に、画面上の人に関する動き情報をそのエリアの人の動きに関する標準値として設定し、これを基準に各物体のテンプレートを補正しても良い。

予め情報配信装置１０２内に用意する動き物体のテンプレートは、実際の画像データを元に作成する。図１６にテンプレートの一例を示す。図１６（ａ）に示すように、実際の物体は、同じ種類でも大きさや形状にばらつきがあるため、物体の推定は、テンプレートに一定の範囲を設定し、テンプレートと物体の動き情報の一致度合いを評価することにより行う。大きさ情報には、動き領域に外接する矩形の縦横サイズまたは動き領域内の動きブロック数を用い、形状情報には、動き領域の縦横比及び領域中の動きブロックの分布を用いる。これらに加えて、テンプレートの回転の可能性を用いても良いし、物体の形状に対する動き方向の関係も物体を推定する要素となる。例えば、図１６（ｂ）のように、人間と大型の犬は、斜め上から撮影した画像では同程度の大きさの縦長形状の動きとして検出され得る。ここで、それぞれの動き方向を考慮した場合、人間は立っている位置から各方向に移動することが想定されるのに対し、犬は体の前方向の一定範囲にのみ移動することが想定されるため、左右に動いた場合は、それは人間であると推定される。

また、物体の移動に連れて、カメラからの相対位置が変化することによる動き領域の大きさ・形状も物体を推定する要素となる。例えば、カメラに対して、図１７（ａ）の位置に人間と犬がいる場合では、人間も犬も同じ程度の大きさの動き領域であるが、図１７（ｂ）の位置に移動した場合、縦方向のサイズが人間は大きく、犬は小さくなり、明らかな差が現れる。

動き領域の大きさや形状、動き方向、動き領域内のブロック分布、等の変動量や変動周期も評価要素となる。人や動物のように、手足を動かし重心移動しながら移動する物体では、検出される動き領域の形状や動き方向が変動するが、車のような無生物では一定の形状と動きを保って移動する。

図１８を例に取ると、図１８（ａ）における物体Ａは、大きさや形状及び動き方向から人であると推定されるが、物体Ｂは大きさや形状及び動き方向のみからは、犬にも旅行用のキャリーバックにも推定され得る。この例では、動き領域の形状や動き方向の変動割合が所定の閾値より大きい場合（図１８（ｂ））、犬のような動物と推定し、所定の閾値より小さい場合（図１８（ｃ））、キャリーバックのような一定の形状と移動機能を備えた物体であると推定できる。

尚、設置環境により、塀等で動き物体の下部が隠れることが予めわかっているような場合には、塀で隠れる部分について動き物体のテンプレートを調整しても良い。

また、複数台のカメラを用い、各カメラで撮影された画像上の動き領域の位置と、カメラの撮影位置とを基に、物体の３次元位置を精度良く求めても良い。

このように、音源位置判定部１４１では、動き検出結果を基に、集音した音源と対応づける動き物体及びその３次元位置を判定する。

音源となる動き物体が既知の面上を移動する場合は、撮影画像上で物体が面に接する位置と面の情報とから、物体の３次元位置を求めることができる。例えば、ステージ上を音源が移動し、カメラが上から俯瞰するように撮影する場合は、動き検出によって得られた画面上の音源の位置とステージ上の構造物（例えば階段等）の配置図を照合することにより、音源の３次元位置を求めることができる。

一方、音源となる動き物体が既知の面と接しない場合、例えば、ステージにゴンドラやクレーンを用いる演出の場合や、プールのイルカに水中マイクをつけて撮影するような場合には、複数台のカメラを用い、各カメラで撮影された画像上の音源の位置とカメラの撮影位置とを基に、音源の３次元位置を求める。例えば、図１９に示すように、ステージに対しカメラ(1)とカメラ(2)の位置から撮影したそれぞれの画像に写る人物の位置(A2)及び(B2)から、実際のステージ上での人物の位置(C2)を求める。

図２０に示すように、複数の動き物体S1,S2を音源とする場合は、スタート時に音源の位置と、対応する集音マイクの識別番号を関係づけて設定し、音源毎の動きを検出して音像を生成し、合成する。あるいは、各マイクに画像処理で識別可能な識別情報を予め付与しておき、その識別情報を音源と対応付けても良い。

多数の動き物体が入れ替わり動き回るような場合には、各物体を識別する必要が生じるため、上述の動き検出装置２７で検出された動き領域に対し、対象となる動き物体の識別処理を行う。予め主成分分析を用いて撮影場面に存在し得る動き物体の種類毎に特徴量データを作成しておき、動き領域部分の画像データを切り出し、この画像データの特徴量と対象となる動き物体の種類毎の特徴量データとを比較することにより、動き領域を動き物体の種類に当てはめても良い。予め対象となる動き物体の特徴量を音源（マイク）の対応付けを、パラメータ記憶部１２２に登録しておくことにより、適切な音源を選択でき、音源の動きに応じた音像の生成が可能となる。

音源の位置が決めれば、パラメータ設定部１４３は、音源の方向を基に頭部伝達関数記憶部１４２に記憶されている伝達関数を選択し、伝達関数の重み付けを設定する。また、パラメータ設定部１４３は、音源からの距離情報パラメータを設定する。パラメータの更新は、音源に所定の動きがあったときに行い、新たな位置での音像定位に供する。

畳み込み処理部１４４は、畳み込み処理により音像を定位する。

図２１は、２台のスピーカを用いて音像を定位する例を示している。図２１において、関数fl(t)、fr(t)は、音源位置から左右の耳への伝達関数、関数hl1(t)、hr1(t)は、スピーカ１から左右の耳への伝達関数、関数hl2(t)、hr2(t)は、スピーカ２から左右の耳への伝達関数である。音源から発する音をS(t) とすると、式１及び式２を満たすL1(t)、L2(t) を各スピーカから出力すれば良い。

L1(t)×hl1(t) + L2(t)×hl2(t) = S(t)×fl(t) (1)
L1(t)×hr1(t) + L2(t)×hr2(t) = S(t)×fr(t) (2)
畳み込み処理部１４４は、これらの特性を基に、任意の位置の音源について音像を定位させる畳み込み演算処理行う。

図２２に示すように、畳み込み処理部１４４は、各音源に対する畳み込み演算処理ユニット１４４ａ，１４４ｂ，…，１４４ｍで構成される。

図２３は、畳み込み演算処理ユニット１４４ａの構成例を示している。畳み込み演算処理ユニット１４４ａは、可変利得増幅器１５１、定位方向処理器１５２ａ，１５２ｂ，１５２ｃ，１５２ｄ、クロスフェード器１５３ａ，１５３ｂ、頭部演算処理器１５４ａ，１５４ｂ，１５４ｃ，１５４ｄ、極性反転器１５５ａ，１５５ｂ、加算器１５６ａ，１５６ｂ、両耳間時間差器１５７ａ，１５７ｂ、及び残響処理器１５８ａ，１５８ｂなどにより構成される。

まず、音源１５０より集音した音声信号が入力されると、可変利得増幅器１５１により適当な音量レベルの信号に設定される。次に、定位方向処理器１５２ａ，１５２ｂ，１５２ｃ，１５２ｄにより、音源位置判定部１４１にて判定された音源の定位方向に沿った伝達関数が畳み込まれる。

ここで、頭部伝達関数記憶部１４２に記憶される水平面内における伝達関数を、例えば、15度おき、即ち m=24（360/15=24）とすると、右側用伝達関数としては、fr0(t)-fr23(t) が存在し、左側用伝達関数として、fl0(t)-fl23(t) が存在している。

ここで、定位方向を56度とするときには、それぞれの定位方向処理器１５２ａ，１５２ｃには、45度方向の fr3(t) と fl3(t) の関数が用いられる。また、定位方向処理器１５２ｂ，１５２ｄには、60度方向の fr4(t) と fl4(t) の関数が用いられて、音源に定位方向伝達関数が畳み込まれる。

それぞれの演算結果は、後述のクロスフェード器１５３ａ，１５３ｂに供給されて所定の比率の信号として加算合成される。そして、次に頭部演算処理器１５４ａ，１５４ｂ，１５４ｃ，１５４ｄに供給され、頭部と両耳の位置関係により生じる特性の乱れ及び両耳間のクロストークの補正がなされる。

更に、極性反転器１５５ａ，１５５ｂで、両耳間のクロストークに係る信号の位相反転がなされる。次の加算器１５６ａ，１５６ｂでは、供給される信号の加算が行われる。

両耳間時間差器１５７ａ，１５７ｂでは、定位方向が視聴者の正中面と異なる位置にあるときには、左右の耳に到来する音響信号に時間差が生じるため、その遅延時間差を付与する。この両耳間時間差器１５７ａ，１５７ｂを用いることにより、定位方向処理器１５２ａ，１５２ｂ，１５２ｃ，１５２ｄにおける信号処理は、遅延時間に係る演算を省略できる。

残響処理器１５８ａ，１５８ｂでは、音響が反射面のある空間内に定位される場合に、それで生じる残響音を付加する。

以上、畳み込み演算処理ユニット１４４ａの構成とその処理動作について説明したが、図２２に示した畳み込み処理部１４４は、複数の畳み込み演算処理ユニット１４４ａ〜１４４ｍによって構成されており、複数の音源を定位させた立体音場定位信号を生成することができる。

また、所定の動きがあったときに、適用する伝達関数を更新し、新たな位置での音像定位が可能である。また、図２４に例示するように、動きが継続しているときには、所定の割合で伝達関数をクロスフェードしながら音像定位することで、音源の移動を表現できる。

本実施例では、複数音源の合成に関しては、元音声の音量及び音源の位置関係を基に合成の割合を決定するが、端末装置１０４側から音源の合成比率や音源位置の調整等を指定可能な構成にしても良い。

また、本実施例では、情報配信装置１０２で配信する映像音声情報を生成し、通信手段１０５を通じて端末装置１０４に配信する構成としているが、情報記録装置と再生装置という構成にし、情報記録装置側で映像音声データを記録媒体に記録し、再生装置で記録媒体の映像音声データを再生するようにしても良い。

［第２の実施例］
次に第２の実施例について説明する。第１の実施例との相違は、図２５に示すように、端末装置１０４側で音像定位処理を行うことにある。尚、映像情報からの音源の動きを検出する処理は、第１の実施例と同様である。

情報配信装置１０２では、音源位置設定部１２６において各音源の位置情報を決定し、映像や各音声の音声情報とともに端末装置１０４に送信する。

端末装置１０４では、情報配信装置１０２から受信した各音源の位置情報を基に、音像定位処理部１２８において第１の実施例と同様の処理手順で音像定位を行い、音声出力する。

音像定位処理部１２８の構成は、図１３（ｂ）に例示するように、第１の実施例における音像定位処理部１１６の構成から音源位置判定部１４１を除いた構成であり、頭部伝達関数記憶部１４２、パラメータ設定部１４３、畳み込み処理部１４４を備えている。

音像定位処理部１２８は、情報配信装置１０２から受信した音声情報及び音源位置情報に加え、指定入力部１２７から、音源の合成比率、音源位置の調整などを指定して、視聴者の好みの音像を生成することもできる。例えば、複数名のメンバーが出演するコンサート映像で、贔屓のメンバーの音声を主に聴きたいといった場合に、そのメンバーに対応する音源の比率を高くする等の指定が可能である。

［第３の実施例］
図２６は、第３の実施例における情報配信装置１０７の構成例を示しており、例えば展示施設等の各コーナーでの解説用ナレーション装置として用いることもできる。本実施形態における「情報配信装置１０７」は、「情報提示装置」と呼ぶにふさわしいが、第１及び第２の実施例との対比理解を容易にするため、便宜的に「情報配信装置」と称することとする。

情報配信装置１０７には、高精細カメラ１０１、高精細ディスプレイの表示装置１２５及びスピーカ１２９が接続される。情報配信装置１０７は、高精細カメラ１０１の撮影映像を取り込んでデジタルデータに変換する画像入力Ｉ／Ｆ１１１と、その画像データが所定量（少なくとも１フレーム以上）蓄積される画像メモリ１１２と、スイッチのＯＮ／ＯＦＦ等の動作設定や画像解析判定閾値等の動作条件のパラメータ等を入力するための操作部１２０と、操作部１２０からの入力を受け付ける設定入力インタフェース（Ｉ／Ｆ）１２１と、操作部１２０から入力されるパラメータを記憶するパラメータ記憶部１２２と、パラメータ記憶部１２２に記憶されるパラメータを基に画像メモリ１１２に蓄積された画像データを解析する画像解析部１１３と、入力した映像情報を表示装置１２５に出力する画像出力Ｉ／Ｆ１３０を備えている。また、画像解析部１１３は、パラメータ記憶部１２２に記憶されたパラメータに基づいて、映像情報中の所定の変化（例えば被写体の動きなど）を検出する動き検出装置２７を含んでいる。

更に、情報配信装置１０７は、予め選択されたナレーション等の音声データをその識別情報とともに格納する音声データベース（Ｄ／Ｂ）１３１と、音声データに音像定位を施す音像定位処理部１１６と、音声データをスピーカ１２９に出力するための音声出力Ｉ／Ｆ１３２を備えている。

次に、情報配信装置１０７の処理動作について説明する。尚、映像情報を入力し、映像情報からの動き検出等の処理は、第１及び第２の実施例と同様である。

動き検出装置２７により位置が検出された音源について、音像定位処理部１１６は音像定位処理を施す。音像定位処理部１１６の構成は、図１３（ａ）に示したように、音源位置判定部１４１、頭部伝達関数記憶部１４２、パラメータ設定部１４３、畳み込み処理部１４４からなる。

音源位置判定部１４１は、動き検出結果を基に動き物体及びその３次元位置を判定し、該動き物体に対応する音声情報を音声データベース１３１から選択する。音声情報の選択に当たっては、動き情報に加え、時刻、天候、気温等の情報を図示しない情報取得手段により取得し、音声情報選択の条件に用いても良い。

そして、第１の実施例と同様に、パラメータ設定部１４３がパラメータ設定処理を行い、畳み込み処理部１４４が畳み込み処理を行って、音声出力Ｉ／Ｆ１３２から音声を左右のスピーカ１２９に出力し、画像出力Ｉ／Ｆ１３０から映像を表示装置１２９に出力する。

一例として、動物園の白くまコーナーにおいて、白くまの動きに合わせたナレーション音声を提示する場合を示す。

図２７（ａ）に例示するように、白くまがプールで泳いでいるときには、白くまの泳ぎに関する習性のナレーションを音像定位して出力する。その日の気温や気象条件等により、複数のバーションを設けておき、その場により適したナレーションを出力するようにしても良い。図２７（ｂ）に例示するように、白くまが餌場に向かっているときには、白くまの食性に関するナレーションを音像定位して出力する。時刻や季節等に応じて複数のバージョンを設けておき、その場により適したナレーションを出力するようにしても良い。

白くまの位置に音像定位することにより、観客の目を白くまに注目させることができる上、ナレーションの台詞を１人称にすることで、白くまがその場で話しているかのように観客に感じさせることができ、解説音声を親しみやすく興味深いものにすることができる。

来場者が白くまを良く観ようと顔の向きを変えた場合でも、最適な音場を提示するためにヘッドホンタイプのナレーション装置の形態で、音声を提示しても良い。ヘッドホンの向きや傾きの情報を取得して定位位置を補正する。尚、ヘッドホンを用いる場合は、クロストークのキャンセル処理は不要となる。

以上説明したように、本実施形態における情報配信装置によれば、映像情報中から動き物体の動きや位置などの情報を検出し、検出した情報に基づいて音像を定位するため、動き回る人や物などの音源に対しても音像を定位することができ、臨場感の高い音声情報を生成することができる。これにより、視聴者の心理的満足度や情報理解度を高めることができる。

また、動き物体の動きや位置などの情報に基づいて生成される音声を、該動き物体の動きや位置などの映像とともに視聴することで、より一層情報理解度を高めることができる。

更に、例えば視覚障害者においても、イベント会場等における出演者の動き等、会場の雰囲気を音声情報から感じ取ることができる。

また、上記各実施例における生成された音声を、高精細カメラを用いて収録した高精細大画面映像を合わせて視聴することにより、いっそう臨場感の高い映像・音声を鑑賞することができる。

以上、本発明の実施の形態を詳細に説明したが、本発明は、その精神または主要な特徴から逸脱することなく、他の色々な形で実施することができる。

例えば、動物や乳幼児等の映像にナレーションを付ける際に、本発明に係る音声情報生成装置を用いて、動物や乳幼児等の動きに応じた臨場感のあるナレーション音声付きの映像ソフトを制作することができる。

また、高精細カメラ及び高精細大画面ディスプレイの普及に伴い、コンサート収録映像もボーカルやソロ塩蔵者のズーム主体の映像から、客席の視点でステージ全体の雰囲気を味わう臨場感のある映像が提供可能となる。音声においても、本発明に係る音声情報生成装置を用いて、収録映像中の演奏者の動きに合わせて音像を定位することにより、高臨場感の映像音声鑑賞手段を提供することができる。

従って、前述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。

尚、本実施形態において、更に以下の情報配信装置を開示する。

請求項１または請求項２に記載の音声情報生成装置において、前記画像解析手段が検出する前記動き物体の情報は、前記動き物体の種類、位置、形状、サイズ、動き方向、動き速度、動き量のうちの少なくとも１つを含むことを特徴とする音声情報生成装置。

前記音声情報生成装置において、前記音声情報の系統毎に音像定位のためのパラメータを指定する手段を備え、前記音像定位処理手段は、前記動き物体の情報及び前記パラメータに基づき、前記動き物体を音源として音像を定位することを特徴とする音声情報生成装置。

第１の実施例における情報配信システムの構成例を示す概略ブロック図である。図１に示す情報配信システムにおいて情報配信装置に含まれる動き検出装置のシステム回路構成例を示す概略図である。図２に示す動き検出装置が実行する動き検出処理の処理手順を例示するフローチャートである。図３に示す動き検出処理のうち、画像分割・輝度情報処理の処理手順例を示すフローチャートである。画像フレームをブロックに分割した状態を模式化した図である。図３に示す動き検出処理のうち、動きブロック検出処理の処理手順例を示すフローチャートである。図６に示す動きブロック検出処理において、ＲＡＭに保存される動き判定情報を説明するための模式図である。図３に示す動き検出処理のうち、動き領域候補抽出処理の処理手順例を示すフローチャートである。図３に示す動き検出処理のうち、動き領域候補の対応付け処理の処理手順例を示すフローチャートである。図３に示す動き検出処理のうち、動き領域判定処理の処理手順例を示すフローチャートである。図２に示す動き検出装置が動きを検出するために用いる閾値の一例を示す図である。図１１に示す閾値を適用して実行される動きブロック検出処理の処理手順例を示すフローチャートである。音像定位処理部の構成例を示す概略ブロック図である。図１３に示す音像定位処理部による音声解析処理の処理手順例を示すフローチャートである。図１４に示す音声解析処理によるエリア判定処理について説明するための図である。動き物体のテンプレートについて説明するための図である。動き物体の動き領域について説明するための図である。動き領域の変動について説明するための図である。動き物体の３次元位置決定処理について説明するための図である。複数音源に対する音像定位について説明するための図である。音像定位について説明するための図である。図１３に示す音像定位処理部に含まれる畳み込み処理部の構成例を示す概略図である。図２２に示す畳み込み処理部に含まれる畳み込み演算処理ユニットの処理構成例を示す概略図である。クロスフェード処理について説明するための図である。第２の実施例における情報配信システムの構成例を示す概略ブロック図である。第３の実施例における情報配信システムの構成例を示す概略ブロック図である。動き物体とナレーションの対応付けを説明するための図である。

符号の説明

２７…動き検出装置
３１…ＣＰＵ
３２…ＲＯＭ
３３…ＲＡＭ
３４…Ｉ／Ｏポート
１０１…高精細カメラ
１０２…情報配信装置
１０３…マイク
１０４…端末装置
１０５…通信手段
１０７…情報配信装置
１１１…画像入力Ｉ／Ｆ
１１２…画像メモリ
１１３…画像解析部
１１４…音声入力Ｉ／Ｆ
１１５…音声メモリ
１１６…音像定位処理部
１１７…送信映像符号化部
１１８…送信音声符号化部
１１９…通信制御部
１２０…操作部
１２１…設定入力Ｉ／Ｆ
１２２…パラメータ記憶部
１２３…通信制御部
１２５…表示装置
１２５…表示部
１２６…音源位置設定部
１２７…指定入力部
１２８…音像定位処理部
１２９…スピーカ
１３０…画像出力Ｉ／Ｆ
１３１…音声データベース
１３２…音声出力Ｉ／Ｆ
１４１…音源位置判定部
１４２…頭部伝達関数記憶部
１４３…パラメータ設定部
１４４…畳み込み処理部
１４４ａ，１４４ｂ，１４４ｍ…畳み込み演算処理ユニット
１５０…音源
１５１…可変利得増幅器
１５２ａ，１５２ｂ，１５２ｃ，１５２ｄ…定位方向処理器
１５３ａ，１５３ｂ…クロスフェード器
１５４ａ，１５４ｂ，１５４ｃ，１５４ｄ…頭部演算処理器
１５５ａ，１５５ｂ…極性反転器
１５６ａ，１５６ｂ…加算器
１５７ａ，１５７ｂ…両耳間時間差器
１５８ａ，１５８ｂ…残響処理器

Claims

入力映像情報を１フレーム以上記憶する蓄積手段と、
入力音声情報を記憶する第１の蓄積手段と、
前記第１の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、
前記入力音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えること
を特徴とする音声情報生成装置。
入力映像情報を１フレーム以上記憶する第１の蓄積手段と、
入力音声情報または選択音声情報を、該音声情報を識別する識別情報とともに記憶する第２の蓄積手段と、
前記第１の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、
前記識別情報に基づいて前記第２の蓄積手段に記憶された前記音声情報を選択し、選択した前記音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えること
を特徴とする音声情報生成装置。