JP2005295181A - 音声情報生成装置 - Google Patents

音声情報生成装置 Download PDF

Info

Publication number
JP2005295181A
JP2005295181A JP2004106942A JP2004106942A JP2005295181A JP 2005295181 A JP2005295181 A JP 2005295181A JP 2004106942 A JP2004106942 A JP 2004106942A JP 2004106942 A JP2004106942 A JP 2004106942A JP 2005295181 A JP2005295181 A JP 2005295181A
Authority
JP
Japan
Prior art keywords
information
motion
sound
image
moving object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004106942A
Other languages
English (en)
Inventor
Tsukimi Wakabayashi
つきみ 若林
Takuma Suzuki
琢磨 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2004106942A priority Critical patent/JP2005295181A/ja
Publication of JP2005295181A publication Critical patent/JP2005295181A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】 動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成する。
【解決手段】 音声情報生成装置は、1系統以上の映像情報を入力する入力手段(111)と、入力した前記映像情報を1フレーム以上記憶する蓄積手段(112)と、1系統以上の音声情報を入力する入力手段(114)と、入力した前記音声情報を記憶する蓄積手段(115)と、前記蓄積手段に記憶された前記映像情報を解析して前記映像情報中の動き物体の情報を検出する画像解析手段(113,27)と、前記音声情報に対して、前記画像解析手段(113,27)により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段(116)とを備える。
【選択図】 図1

Description

本発明は、例えばイベント会場や展示施設等における出演者や展示物などの動きに応じた音声情報を生成し提供する音声情報生成装置に関する。
近年、ゲーム映像などに高臨場感を与える音像定位処理が行われている。左右2チャンネルの信号系の音声信号に、それぞれ時間遅延及び振幅調整を施すことにより、各信号系間に時間差及び振幅差を発生させて、収録音や合成音の方向感や距離感を調整し、任意の位置に音像を定位させ、あたかもその位置に音源が存在するかのように視聴者に感じさせるバーチャルソース方式が知られている。
また、収録現場の音場を再現する方法として、ダミーヘッドマイクによってバイノーラル録音された音声をヘッドホンで再生するバイノーラルシステムが知られている。また、バイノーラル録音により録音された音声をスピーカで良好に再生する方法として、デジタルフィルターを用いてクロストークをキャンセルしたトランスオーラル方式も知られている。
このようなバーチャルソース方式及びトランスオーラル方式を組み合わせて立体音声を生成する立体音声生成方法が開示されている(特許文献1参照)。
一方、画像信号から被写体の動きを検出し、動き検出データを出力する画像監視装置が開示されている(例えば、特許文献2参照)。
特開2000−333297号公報 特開平11−39495号公報
特許文献1に記載の技術によれば、ダミーヘッドマイクで収録した音声を元の位置に定位することや、特定の音源について指定した任意の位置に音像を定位することはできるものの、現実の空間を実際に動き回る物体(以下「動き物体」という)について、その動き物体を音源として音像を定位することは考慮されていない。
また、ダミーヘッドマイクで収録した音声を元にして収録空間全体の音場を再現することはできるが、複数の音源の混在する収録現場で、動き回る特定の音源の音声を収録し再現することはできない。
例えば、一般的なコンサート会場では、各楽器やパート毎に集音マイクが設置され、ボーカル担当者はハンドマイクを持って、ステージ上を移動しながら歌唱を行う。ボーカル担当者の移動に合わせてボーカル音声を定位しようとする場合、ダミーヘッドマイクをステージ正面に設置すると、伴奏楽器の音や観客の声援等が大きく、ボーカル音声を十分に集音できない。一方、ボーカル担当者が持つハンドマイクでボーカル音声を集音することはできるものの、移動する音源(ボーカル担当者)を定位するための位置情報が欠けているため、音像を再現することはできない。
本発明は、以上のような問題を鑑みてなされたものであり、動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成することができる音声情報生成装置を提供することを目的とする。
上記課題を解決するために、本発明に係る音声情報生成装置の特徴は、(a)入力映像情報を1フレーム以上記憶する蓄積手段と、(b)入力音声情報を記憶する第1の蓄積手段と、(c)前記第1の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、(d)前記入力音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えることにある。
このような構成によれば、入力映像情報中から動き物体の動きや位置などの情報を検出し、検出した情報に基づいて音像を定位するため、動き回る人や物などの音源に対しても音像を定位することができ、臨場感の高い音声情報を生成することができる。
本発明によれば、動き回る物体についてもその物体を音源として音像を定位し、より臨場感の高い音声情報を生成することができる音声情報生成装置を提供することができる。
以下、図面を参照しながら、本発明の実施形態について詳しく説明する。尚、各図面を通じて同一もしくは同等の部位や構成要素には、同一もしくは同等の参照符号を付し、その説明を省略もしくは簡略化する。
本発明に係る音声生成装置は、例えば、映像音声情報を記憶再生、編集、配信する各種装置やナレーション装置等、音声情報を生成し提示する各種装置として実施することができる。以下、本発明に係る音声生成装置を、情報配信システムにおける情報配信装置や端末装置として実施する例を説明する。
[第1の実施例]
《情報配信システムの構成及び処理動作》
図1は、情報配信システムの構成例を示すシステム構成図であり、情報配信装置102(音声生成装置)と端末装置104とは、通信手段105を通じて接続される。また、1系統以上の高精細カメラ101、1系統以上のマイク103が、情報配信装置102にそれぞれ接続される。
情報配信装置102は、高精細カメラ101の撮影信号を取り込んでデジタルデータに変換する画像入力インタフェース(I/F)111と、その画像データが所定量(少なくとも1フレーム以上)蓄積される画像メモリ112と、スイッチのON/OFF等の動作設定や画像解析判定閾値等の動作条件のパラメータ等を入力するための操作部120と、操作部120からの入力を受け付ける設定入力インタフェース(I/F)121と、操作部120から入力されるパラメータを記憶するパラメータ記憶部122と、画像メモリ112に蓄積された画像データを解析する画像解析部113と、入力した映像情報を送信するために符号化する送信映像符号化部117を備えている。また、画像解析部113は、パラメータ記憶部122に記憶されたパラメータに基づいて、映像情報中の所定の変化(例えば被写体の動きなど)を検出する動き検出装置27を含んでいる。
更に、情報配信装置102は、マイク103からの音声信号を取り込んでデジタルデータに変換する音声入力インタフェース(I/F)114と、その音声データが所定量蓄積される音声メモリ115と、音声データに音像定位を施す音像定位処理部116と、音声データを送信するため符号化する送信音声符号化部118を備えている。更にまた、情報配信装置102は、符号化された画像データ及び音声データを、通信手段105を通じて端末装置104に送信する通信制御部119などを備え、上記各部は図示しない制御部により制御される。
一方、端末装置104は、情報配信装置102から通信手段105を通じて、映像及び音声の符号化されたデータを受信する通信制御部123と、受信した映像符号化データを復号して再生する再生部124、映像・音声を表示する表示部125などから構成され、上記各部は図示しない制御部により制御される。表示部125には、高精細ディスプレイと2台のスピーカ129が含まれる。
尚、端末装置104を複数台設置し、情報配信装置102からマルチキャスト配信を行っても良い。
以上のように構成された情報配信システムの処理動作の概略を説明する。
情報配信装置102側では、高精細カメラ101は、撮影エリア全体が入るように設置され、撮影された映像データは、画像入力I/F111により取り込まれ、画像メモリ112に記憶される。
操作部120より入力された、映像データから検出すべき動き物体に関するパラメータは、設定入力I/F121で設定情報データ化され、パラメータ記憶部122に記憶される。
操作部120より動作開始指示が入力されると、情報配信装置102は情報配信処理動作を開始し、画像解析部113は、画像メモリ112に記憶された画像を解析し、パラメータ記憶部122に記憶されているパラメータに基づいて、動き検出装置27により検出された映像情報中の所定の変化から、検出すべき動き物体に関する情報を検出する。
一方、音声入力I/F114は、マイク103により収集された音声をデジタルデータとして取り込み、音声メモリ115に記憶する。音像定位処理部116は、画像解析部113で解析された動き物体に関する情報を基に、入力音声の音源の位置を判定し、音像を定位する。送信音声符号化部118は、音声メモリ115の音声データを送信用に符号化する。
通信制御部119は、端末装置104毎の送信映像及び音声の符号化データを、各端末装置104に通信手段105を通じて送信する。
端末装置104側では、通信制御部123が情報配信装置102から送信される映像及び音声の符号化データを受信する。再生部124は、受信した符号化映像データを復号再生し、表示部125に出力する。
《動き検出装置の構成及び処理動作》
以上、本実施例における情報配信システムの構成及び処理動作の概要について説明したが、音像定位処理部116において、音像の位置や動き等の情報に基づいて音像を定位するためには、撮影映像中の動き物体(例えば、出演者)に関する情報(例えば、動き物体の種類、位置、サイズ、動き方向、動き速度、動き量等)を、いかにして検出するかが重要である。本実施例における画像解析部113は、動き検出装置27を用いてデータ処理を効果的に行い、予め設定されたパラメータに基づいて撮影映像中の動き物体の動き(例えば、位置、大きさ、形状、移動量等)を検出する。
動き検出装置27は、図2に示すようなマイクロコンピュータ回路により構成されており、CPU31、ROM32、RAM33、I/Oポート34が、アドレスバス・データバスによって接続されている。
ROM32には、予め動き検出プログラムが格納されており、RAM33には、ワークエリアとともに、少なくとも撮影映像1フレーム分の画像データを記憶する領域、動き判定のための閾値データ等のパラメータを記憶する領域、動き検出処理過程で得られる各種データを記憶する領域、動き検出情報を記憶する領域などが確保されている。
また、I/Oポート34は、画像メモリ112の画像データと設定パラメータの入力を受け付けるとともに、検出結果である動き検出情報を音像定位処理部116に出力する。そして、音像定位処理部116は、動き検出情報に基づいて音源の位置を定位する。
図3は、動き検出装置27のCPU31が、ROM32に格納されている動き検出プログラムに基づいて実行する動き検出処理の処理手順を例示している。情報配信システムが稼働状態にあるときには、高精細カメラ101が撮影した映像の画像データが、画像入力I/F111によって取り込まれ画像メモリ112に書き込まれる。また、操作部120から入力された動き判定閾値等のパラメータが、予めパラメータ記憶部122に格納されているものとする。
まず、操作部120から情報配信装置102の動作開始指示(スイッチON)がなされると、情報配信装置102内の図示しない制御部が、動き検出装置27を起動する(ステップS11)。動き検出装置27は、パラメータ記憶部122に格納されているパラメータデータを、I/Oポート34を介してRAM33内に読み込むとともに、以降のデータ処理のための初期設定を実行する(ステップS12)。
初期設定が完了すると、動き検出装置27は、画像メモリ112から画像データ(画像フレーム:F(X) のデータ)を1フレームずつRAM33に取り込む(ステップS13〜S14)。そして、動き検出装置27は、RAM33に展開した画像データに基づいて画像分割・輝度情報処理を実行する(ステップS15)。
図4は、画像分割・輝度情報処理(ステップS15)の詳細な処理手順例を示している。
動き検出装置27は、先ず、RAM33に取り込まれた画像フレーム:F(X) のデータを、図5に示すように水平方向と垂直方向に均等区分し、m×n個の方形状のブロック:B(X)ij [i = 1, 2, 3, …,m、j = 1, 2, 3, …,n]に分割する(ステップS31)。この場合、当然に各分割ブロック:B(X)ij には、水平・垂直方向の区分数に応じて多数の画素が含まれている。
分割ブロック:B(X)ij の設定が完了すると、動き検出装置27は、各分割ブロック:B(X)ij 毎に全画素の輝度値を加算し(ステップS33)、その加算値をブロック内に含まれている画素数で除算することで、分割ブロック:B(X)ij についての輝度平均値:BLav(X)ij を求め、求めた輝度平均値:BLav(X)ij をRAM33にセーブ(保存)する(ステップS34)。
また、本実施例においては、輝度平均値:BLav(X)ij を求めていく順序が、水平方向に整列した分割ブロック:B(X)ij について、最上段の水平方向の分割ブロック:B(X)ij 群[i = 1、j = 1, 2, 3, …,n]の左端から開始して右方向へ順次移行し、一段の処理が完了する度にその下の段へ移行する方式に設定されており、最終的に最下段の右端の分割ブロック:B(X)mn の輝度平均値を求めた段階で、1フレーム分の処理が完了する(ステップS32〜S38)。
そして、上記1フレーム分の一連の処理が完了すると、動き検出装置27は、1フレーム分の分割ブロック:B(X)ij の輝度平均値:BLav(X)ij を全て加算する。(ステップS39)そして、動き検出装置27は、その加算値:ΣB(X)ij を分割ブロックの数:m×n で除算することにより、フレーム全体の輝度平均値:FLav(X) を算出し、算出したフレーム全体の輝度平均値:FLav(X) をRAM33にセーブして、画像分割・輝度情報処理を完了する(ステップS40)。
再び図3に戻って、動き検出装置27は、前フレームの輝度情報処理に係るデータがRAM33に格納されているか否かを判別する(ステップS16)。判別の結果、前フレームの輝度情報処理に係るデータがRAM33に格納されていない場合、つまり、現画像フレームが先頭の画像フレーム:F(1) である場合、動き検出装置27は、現フレームの情報を前フレームの情報としてRAM33にセーブする(ステップS22)。
一方、現フレームが2番目以降のフレーム:F(X)[X≧2]である場合には、直前の画像フレーム:F(X-1) の輝度情報処理に係るデータが既にRAM33にセーブされている。
ここでは、現フレームが2番目以降のフレーム:F(X)[X≧2] であるものとして、次の動きブロック検出処理(ステップS17)の処理手順例を説明する。
図6は、動きブロック検出処理(ステップS17)の詳細な処理手順を例示している。
まず、この段階では、前フレーム:F(X-1) と現フレーム:F(X) について画像分割・輝度情報処理(ステップS15)が実行されているため、図2に例示するように、RAM33には以下のデータがセーブされている。
(a)前フレーム:F(X-1) の各分割ブロック:B(X-1)ij[i = 1, 2, 3, …,m、j = 1, 2, 3, …,n] に係る輝度平均値:FLav(X-1) ij[i = 1, 2, 3, …,m、j = 1, 2, 3, …,n]と、前フレーム:F(X-1) 全体の輝度平均値:FLav(X-1)。
(b)現フレーム:F(X) の各分割ブロック:B(X)ij[i = 1, 2, 3, …,m、j = 1, 2, 3, …,n] に係る輝度平均値:FLav(X) ij[i = 1, 2, 3, …,m、j = 1, 2, 3, …,n]と、現フレーム:F(X) 全体の輝度平均値:FLav(X)。
動きブロック検出処理(ステップS17)では、動き検出装置27は、最初に現フレーム:F(X) 全体と前フレーム:F(X-1) 全体の各輝度平均値の差:ΔFlav(x) = Flav(x) - Flav(x-1) を演算し、演算結果をRAM33に一旦セーブする(ステップS41)。
次に、動き検出装置27は、現フレーム:F(X) の各分割ブロック:B(X)ij に係る輝度平均値と、その分割ブロック:B(X)ij と対応する位置にある前フレーム:F(X-1) の分割ブロック:B(X-1)ijに係る輝度平均値との差:ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij を演算する(ステップS43)。
更に、動き検出装置27は、その分割ブロックに係る輝度平均値の差から、ステップS41で求めたフレーム全体に係る輝度平均値の差を差し引いた値:ΔBlav(x)ij -ΔFlav(x) を演算し(ステップS44)、その演算値を絶対値:|ΔBlav(x)ij -ΔFlav(x)| に変換する(ステップS45)。
そして、この動きブロック検出処理では、ステップS45で求めた絶対値:|ΔBlav(x)ij -ΔFlav(x)| を、分割ブロック:B(x)ij が動きを含む分割ブロックであるか否かの判定対象とする(ステップS46)。
具体的には、RAM33には設定パラメータとして、前記絶対値:|ΔBlav(x)ij -ΔFlav(x)|と比較するための閾値:Th0 が格納されており、動き検出装置27は、|ΔBlav(x)ij -ΔFlav(x)| > Th0 の場合には「分割ブロック:B(x)ij は動きを含む分割ブロックである」と判定し(ステップS47)、逆に、動き検出装置27は、|ΔBlav(x)ij -ΔFlav(x)| ≦ Th0 の場合には「分割ブロック:B(x)ij は動きを含まない分割ブロックである」と判定する(ステップS48)。
ステップS46〜S48における分割ブロック:B(x)ij についての動き判定情報は、RAM33にセーブされる(ステップS49)。
図7は、ステップS49において、分割ブロックに対する動き判定情報がRAM33にセーブされる際の形式を示している。分割ブロック:B(x)ij に対する動き判定情報をRAM33にセーブする際には、「“1”:動きあり」「“0”:動きなし」のような2値データではなく、ポイント加算方式による多値データとしてセーブする。例えば、図7(a)に示す○印の分割ブロックに動きが検出された場合、図7(b)に示すように、動きが検出された分割ブロック:B(x)ij にポイント“8”を加算し、その周囲の8つの分割ブロック::B(x)I-1j-1、B(x)I-1j、B(x)I-1j+1、B(x)Ij-1、B(x)Ij+1、B(x)I+1j-1、B(x)I+1j、B(x)I+1j+1 に、それぞれポイント“1”を加算する。これを全ての分割ブロックに対して適用すると、隣接するブロックに動きがある場合は、そのブロックに該当する動き判定情報のポイントが高くなることから、動きブロックの隣接度合いを表すことができる。動きを含む分割ブロックのうち、隣接する分割ブロックも動きを含む分割ブロックは、図7(c)における○印の分割ブロックである。
ところで、ステップS43〜S49の一連の動きブロック検出処理は、画像フレーム:F(X) の各分割ブロック:B(x)ij について順次実行されるが、その実行順序は上記輝度情報処理(ステップS32〜S38)における処理順序と同様であり、分割ブロック:B(x)11 から開始して分割ブロック:B(x)mn で終了する(ステップS42〜ステップS52)。
図3のフローチャートに戻って、動き検出装置27は、RAM33にセーブされた分割ブロック:B(x)ij の動き判定情報を基に、動き領域候補を抽出する(ステップS18)。
図8は、動き領域候補抽出処理(ステップS18)の詳細な処理手順を例示している。
まず、動き検出装置27は、現フレーム:F(X) に動きを含む分割ブロックがあるか否かを判定し、動きを含む分割ブロックがない場合は処理を終了する(ステップS81)。逆に、動きを含む分割ブロックがある場合には、分割ブロックのインデックスI,j を初期化し(ステップS82)、先頭のブロックから順に、分割ブロック:B(x)ij の動き判定情報のポイントデータMij を取り込んで(ステップS83)、ポイントデータMij とパラメータに設定されている閾値Th4(詳細は後述)とを比較する(ステップS84)。
ステップS84の判定の結果、ポイントデータMij ≦ 閾値Th4 の場合は、次のブロックに移行し、ポイントデータMij > 閾値Th4 の場合は、動き領域候補と見なして動き領域候補に登録する(ステップS85〜S89)。具体的は、動き検出装置27は、処理済みの隣接する分割ブロックが既に動き領域候補として登録されているか否かを判定し(ステップS85)、動き領域候補として登録されている隣接ブロックがある場合は、分割ブロック:B(x)ij を隣接する動き領域候補の要素として追加登録する(ステップS87)。逆に、動き領域候補として登録されている隣接ブロックがない場合は、動き検出装置27は、分割ブロック:B(x)ij を動き検出候補として新規に登録する(ステップS86)。そして、動き検出装置27は、動き領域候補の動きブロック数に分割ブロック:B(x)ij の分を“1”加算し(ステップS87),動き領域候補の動きブロックの中心位置情報に分割ブロック:B(x)ij の分を加算して(ステップS88)、次のブロックに移行する(ステップS90,S91,S92,S93)。
全ての分割ブロックについて、以上の処理が完了すると、動き検出装置27は、各動き領域候補における動きブロックの中心位置の合計を動きブロック数で除算して、動きブロックの中心位置の平均を算出する(ステップS94)。
そして、動き検出装置27は、各動き領域候補を動き領域候補の重要度順にソートしてRAM33にセーブする(ステップS95)。ここで、動き領域候補の重要度は、動き領域候補のサイズ(動き領域候補に含まれる動きブロック数)及び/または動き領域候補の位置(動き検出エリアの注目度)を基に判定する。
ところで、上記閾値Th4は、動きブロックを隣接する動き領域候補の要素として追加するか否かを判定するための閾値である。例えば、入力画像にノイズ要素が多い場合は、この閾値Th4を高く設定することで、孤立した動きブロックを動き領域候補から除外しする。一方、例えば、背景と動き物体の輝度差にばらつきがあり、動きブロックの判定が一定しない場合には、閾値Th4を低く設定することで、まとまった動き領域候補として抽出する。このように、使用する場面により適当な閾値Th4を使い分けることで、目的の動きを精度良く検出することができる。
再度、図3のフローチャートに戻って、次に動き検出装置27は、RAM33にセーブした動き領域候補と前フレームまでの動き領域候補との対応付けを行う(ステップS19)。
図9は、動き領域候補の対応付け処理(ステップS19)の詳細な処理手順を例示している。
動き検出装置27は、現フレーム:F(X) に動き領域候補があるか否かを判別し(ステップS101)、現フレームの動き領域候補がなければ、前フレーム:F(X-1) までの動き領域候補に対して保留処理を実行する(ステップS110〜S113)。尚、図9において、変数iは前フレームまでの動き領域候補のインデックス、変数pは前フレームまでの動き領域候補の数である。
ここで、動き領域候補が設定されたフレームの次のフレームに、対応する動き領域候補がなかった場合、動き物体が一時的に速度をゆるめたり、停止したりした可能性がある。そこで、所定のフレーム数分については、動き領域候補を削除せずに保留する処理を行う。具体的には、各領域毎に保留フレーム数をカウンタにセットし、次フレームに対応する動き領域候補がなければ、カウンタから1ずつ減算し、カウンタが0になった時点で動き領域候補から削除する。
一方、現フレーム:F(X) に動き領域候補があれば(ステップS101)、動き検出装置27は、インデックスiを初期化し(ステップS102)、全ての動き領域候補について(ステップS103,S108)、前フレームまでの動き領域候補Ki に対応する現フレームの動き領域候補を探索する(ステップS104)。具体的には、前フレームまでの動き領域候補を用いて、前フレームでの動きブロック位置の平均と、前フレームと前々フレーム間の動きブロック位置の平均の変位とを取り出して加算し、現フレームでの動きブロック位置の平均の推定値とする。この推定位置を基準に、所定の距離以内で最も近い位置に動きブロック位置の平均をもつ現フレームの動き領域候補を、対応する現フレームの動き領域候補とする。
そして、動き検出装置27は、現フレームの動き領域候補があるか否かを判別し(ステップS105)、現フレームの動き領域候補がなければ、動き領域候補保留処理を実行する(ステップS106)。逆に、現フレームの動き領域候補があれば、前フレームまでの動き領域候補情報を更新する(ステップS107)。具体的には、現在の動き領域候補の位置(動きブロックの中心位置の平均)、前フレームと現フレームとの間の位置の変位量、動き領域候補が検出されてからの総変位量、動き領域のサイズを更新し、保留フレームの数を所定の値にセットする。
現フレームの動き領域候補の中で前フレームまでの動き領域候補に対応付かなかったものは、新規の動き領域候補として前フレームまでの動き領域候補に追加し(ステップS109)、前フレームまでの動き領域候補情報をRAM33にセーブする(ステップS114)。
再び、図3のフローチャートに戻って、動き検出装置27は、RAM33にセーブされている動き領域候補の対応付け情報を用いて、有効な動き領域の有無を判定する(ステップS20)。
図10は、動き領域判定処理(ステップS20)の詳細な処理手順を例示している。
まず、動き検出装置27は、パラメータで予め設定されている動き領域判定基準を取り出し(ステップS121)、動き領域候補のインデックスiを初期化する(ステップS122)。そして、全ての動き領域候補について(ステップS123,S126)、各動き領域候補Ki の情報を取り出して(ステップS124)、動き領域判定基準に基づいて動き領域候補Ki が検出対象の動き領域であるか否かを判定する(ステップS125)。全動き領域候補について判定が完了すると、動き検出装置27は、動き領域判定結果をRAM33にセーブする(ステップS127)。
再び、図3のフローチャートに戻って、動き検出装置27は、RAM33にセーブされている動き領域候補の動き領域判定情報を、音像定位処理部116に出力する(ステップS21)。
更に、動き検出装置27は、RAM33にセーブされている現フレーム:F(X) に係る輝度平均値:BLav(X)ij[i = 1, 2, 3, …,m、j = 1, 2, 3, …,n]と、フレーム全体の輝度平均値:FLav(X) とを、前フレームに係るそれらの情報に上書きして保存することによりデータの更新を行う(ステップS22)。
そして、動き検出装置27に対して動作停止指示(スイッチOFF)の指示がなければ(ステップS23)、画像メモリ112から次の画像フレーム:F(X+1) のデータを取り込み、上記の同様の処理手順で、フレーム:F(X+1) の各分割ブロック:B(X+1)ij について動きを含むか否かの判定処理を実行し、動きブロックについて動き領域候補を抽出し、前フレームまでの動き領域候補との対応付け及び動き領域に判定を実行する。以降についても同様にして、画像メモリ112に順次書き込まれていく画像フレームに対して、動き領域の検出処理を行う(ステップS23→S24→S14〜S22)。
以上説明した処理の結果、画像メモリ112に書き込まれた画像フレーム中に、検出対象の動きを含む領域が存在するか否かの判定情報が、常に音像定位処理部116に出力され、動きを含む領域がある場合には、その領域の位置情報出力される。従って、音像定位処理部116は、動きを含む領域があると判定された画像フレームについてのみ、音源位置の判定を実行することができ、音像定位処理部116は、高精細カメラ101の撮影映像に特段の動きがない状態の画像フレームについては、一定のパラメータで音像定位を改めて行うようにすることができる。
ところで、本実施例による動きブロック検出処理(ステップS17)においては、現フレーム:F(X) の分割ブロックに係る輝度平均値:Blav(x)ij と、前フレーム:F(X-1) の対応する位置にある分割ブロックに係る輝度平均値:Blav(x-1)ij の差:ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij から、各フレームに係る全体の各輝度平均値の差:ΔFlav(x) = Flav(x) - Flav(x-1) を差し引いた値の絶対値:|ΔBlav(x)ij -ΔFlav(x)|を、設定された閾値:Th0 と比較することにより、現フレーム:F(X) に動きを含む分割ブロックがあるか否かを判定している。
すなわち、特許文献2に記載の技術のように、単に、フレーム間における対応した分割ブロック同士の輝度値または色データの平均値の差分に基づいて、動きを検出するのではなく、本実施例による動きブロック検出処理(ステップS17)においては、分割ブロック同士の輝度平均値の差分と、各フレームに係る全体の輝度平均値の差との相対的差分を判定対象としている。
ここで、撮影画面領域の照明状態が変化した場合を想定してみると、その変化が影響した分割ブロック同士の輝度平均値の差:ΔBlav(x)ij が絶対値として大きくなるが、同時に前後の各画像フレーム全体の輝度平均値の差:ΔFlav(x) も絶対値として大きくなり、且つその+/−方向へ増大する傾向は同一である。
従って、本実施例による動きブロック検出処理(ステップS17)において判定対象となる絶対値:|ΔBlav(x)ij -ΔFlav(x)|は、照明状態の変化による影響が及ばない値となり、照明状態の変化を分割ブロック内の動きとして検出しないことになる。従って、照明の変化による影響を受けずに、一定の閾値Th0 を適用することで、正確で安定的な動きブロック検出処理をおこなうことができる。
また、判定対象となる絶対値:|ΔBlav(x)ij -ΔFlav(x)|は、分割ブロック:B(X)ij、B(X)ij の輝度平均値:Blav(x)ij、Blav(x-1)ij や、画像フレーム:F(X)、F(X-1)の全体的輝度平均値:FLav(X)、FLav(X-1)に基づいて算出されるため、画像フレーム:F(X)、F(X-1)中にフリッカー等のノイズが混在していても、その画素に係る大きな輝度値は平準化されてほとんど影響を及ぼさない。
更に、本実施例による画像分割・輝度情報処理(ステップS15)では、画素の輝度を予め分割ブロック:B(X)ij 単位で平均かしておくため、後続の動きブロック検出処理(ステップS17)のための演算量を削減できる。
尚、閾値:Th0 の値は、動き検出の感度を左右するが、例えば、8ビットで量子化された画像データの輝度値を“0”〜“255”で表現した場合、閾値:Th0 は、約“50”に設定することが可能である。
特許文献2に記載の動き検出方法によると、照明の変化が動き判定に影響を与えてしまうために、動き検出のための閾値を小さい値に設定することができず、必然的に検出感度を低下せざるを得ないが、本実施例による動きブロック検出処理で用いる閾値:Th0≒50 は、判定方式の相違を考慮して相対化してみても、特許文献2に記載の検出方法で用いられる閾値よりも相当に小さいレベルになるため、高い検出感度を実現することができる。
尚、本実施例における動き検出のための閾値は、以下に説明するように、閾値を2段階に設定し適用することにより、検出部分の輝度に応じて、より安定的な検出を行うようにしても良い。
図11は、本実施例における動き検出のための閾値の設定値を例示している。閾値:Th1、Th2、Th3 は、図11に示すようなテーブルデータとして、予めパラメータ記憶部122に格納されている。操作部120から「高」「中」「低」のいずれかの感度が選択されると、動き検出装置27は、選択された感度に応じた3種類の閾値:Th1、Th2、Th3 を動き検出処理(ステップS17)の中で適用する。尚、図11に例示した各閾値は、先に説明した閾値:Th0 の場合と同様に、8ビットで量子化された画像データの輝度値を“0”〜“255”で表現した場合を基準に設定している。
図12は、図11に示した閾値:Th1、Th2、Th3 を用いて、動き検出装置27が実行する動き検出処理(ステップS17)の処理手順例を示している。
動き検出装置27は、現フレーム:F(X) 全体と前フレーム:F(X-1) 全体の各輝度平均値の差:ΔFlav(x) = Flav(x) - Flav(x-1) を演算し、演算結果をRAM33に一旦セーブする(ステップS61)。次に、現フレーム:F(X) の各分割ブロック:B(X)ij に係る輝度平均値と、その分割ブロック:B(X)ij と対応する位置にある前フレーム:F(X-1) の分割ブロック:B(X-1)ijに係る輝度平均値との差:ΔBlav(x)ij = Blav(x)ij - Blav(x-1)ij を演算する(ステップS63)。更に、その分割ブロックに係る輝度平均値の差から、ステップS61で求めたフレーム全体に係る輝度平均値の差を差し引いた値:ΔBlav(x)ij -ΔFlav(x) を演算し(ステップS64)、その演算値を絶対値:|ΔBlav(x)ij -ΔFlav(x)| に変換する(ステップS65)。以上のステップS61〜ステップS65の処理は、図6におけるステップS41〜ステップS45の処理と同様である。
動き検出装置27は、次に、現フレーム:F(X) の各分割ブロック:B(X)ij に係る輝度平均値:BLav(X) ij と、前フレーム:F(X-1) の各分割ブロック:B(X-1)ij に係る輝度平均値:BLav(X-1) ij を、それぞれ閾値:Th1と比較する(ステップS66,S67)。
そして、輝度平均値:BLav(X) ij、BLav(X-1) ij のいずれか一方もしくは両方が閾値:Th1より大きい場合は、判定閾値として閾値:Th2 を適用し(ステップS68)、輝度平均値:BLav(X) ij、BLav(X-1) ij の双方とも閾値:Th1より小さい場合は、判定閾値として閾値:Th3 を適用する(ステップS69)。
従って、次のステップS70の判定処理では、|ΔBlav(x)ij -ΔFlav(x)| > 適用閾値(閾値:Th2 または Th3)の場合には「分割ブロック:B(x)ij は動きを含む分割ブロックである」と判定され、|ΔBlav(x)ij -ΔFlav(x)| ≦ 適用閾値(閾値:Th2 または Th3)の場合には「分割ブロック:B(x)ij は動きを含まない分割ブロックである」と判定される。
例えば、操作部120から「中」レベルの感度が選択されたケースを例にとると、輝度平均値:BLav(X) ij、BLav(X-1) ij のいずれか一方もしくは両方が“128”より大きい場合は、|ΔBlav(x)ij -ΔFlav(x)| > “70” である場合に「分割ブロック:B(x)ij は動きを含む分割ブロックである」と判定され、輝度平均値:BLav(X) ij、BLav(X-1) ij の双方が“128”より小さい場合は、|ΔBlav(x)ij -ΔFlav(x)| > “35” である場合に「分割ブロック:B(x)ij は動きを含む分割ブロックである」と判定されることになる。
このように、本実施例においては、判定対象データである絶対値:|ΔBlav(x)ij -ΔFlav(x)|にたいして、2つの閾値:Th2、Th3 を設けておき、2つの閾値:Th2、Th3 のうちのいずれを適用するかを決定するための閾値:Th1 を設けている。そして、現フレーム:F(X) の各分割ブロック:B(X)ij に係る輝度平均値:BLav(X) ij と、前フレーム:F(X-1) の各分割ブロック:B(X-1)ij に係る輝度平均値:BLav(X-1) ij を、それぞれ中間輝度値(閾値:Th1)と比較し、輝度平均値:BLav(X) ij,BLav(X-1) ij のいずれか一方もしくは両方が中間輝度値(閾値:Th1)より大きい場合は、判定閾値として高い閾値:Th2 を適用し、輝度平均値:BLav(X) ij,BLav(X-1) ij の双方とも中間輝度値(閾値:Th1)より小さい場合は、判定閾値として低い閾値:Th3 を適用している。
これは、一般に、輝度平均値:BLav(X) ij,BLav(X-1) ij の少なくとも一方が中間輝度値(閾値:Th1)より大きい場合には、判定対象データである絶対値:|ΔBlav(x)ij -ΔFlav(x)|も大きくなり、輝度平均値:BLav(X) ij,BLav(X-1) ij の双方とも中間輝度値(閾値:Th1)より小さい場合は、絶対値:|ΔBlav(x)ij -ΔFlav(x)|も小さくなる傾向があるという経験則に基づくものである。このように、それぞれの場合に対応して閾値を可変適用することで、動きブロックの検出処理に係る判定条件の均等化を図ることができるとともに、正確で安定した検出動作を実現できる。
本実施例において、音源として検出すべき対象の動き情報を、予めパラメータ記憶部122に設定しておくことにより、音源の動きを精度良く捉えることができる。
《音像定位処理部の構成及び処理動作》
次に、動き検出結果を基に動き物体を音源として音像の定位を行う音像定位処理部116の構成及び処理動作について説明する。
図13(a)に示すように、音像定位処理部116は、音源位置判定部141、頭部伝達関数記憶部142、パラメータ設定部143、畳み込み処理部144などを備えている。
音源位置判定部141は、動き検出結果の動き情報に基づいて、集音した音源に対応づける動き物体及びその3次元位置を判定する。
ここで、動き検出結果の動き情報に基づいて、音源として検出すべき動き物体の種類と状況等を推定する処理について、詳細に説明する。
音源位置判定部141は、動き検出装置27で取得した動き領域を、撮影領域を移動する動き物体と仮定して動き情報を解析し、動き物体の種類と状況を推定する。動き領域の形状、位置、大きさ、動き量等の情報と、予め登録された動き物体の種類毎の登録情報とを照合し、撮影領域での動き物体の種類を推定する。
図14は、動き解析処理の概略の流れを例示している。
まず、撮影映像内の動き物体の属するエリアを判定する(ステップS201)。カメラで斜め上から撮影する場合は、通常画像中の動き物体の最下端が、物体が接地している平面上の位置と推定される。まず、動き領域の最下端の座標を基に、所属するエリアを判定する。エリアは、カメラ設置時に撮影エリア内の平面の連続性及び操作者の必要とする分類レベルを基に設定する。
図15(a)は、エリア設定の例を示しており、一般者が通行できる共通エリアA1、施設入口への通路エリアB1、通常立ち入り禁止の植裁エリアC1,C2の各エリアは、縁石またはブロック等で仕切られている。
初期設定時に、背景画像解析部(図示せず)は、画像メモリ112の画像を基に画像のエッジ情報を抽出し、エリア境界の候補を作成し、情報配信装置102の操作者に提示する。操作者は、操作部120よりエリア設定を修正・指定し、各エリアの情報取得対象となる物体の種類と動き及びパターンを、パラメータ記憶部122に登録する。エリア毎に、例えば車や人、動物の有無や流れ等、情報取得すべき動き物体の種類や動き方向、動き物体の画面上での映り方が異なる(図15(b))。
エリア毎に撮影対象とする動き物体の画面上で想定される大きさ及び形状を、予めテンプレートとしてパラメータ記憶部122に登録しておく。更に、各物体のエリア内で想定し得る動き及び撮影対象とすべき動きに関して、動き方向や動き量、動き継続時間や停止時間等を登録しておく。
動き検出された物体の属するエリアが決まれば、エリア毎に登録された動き物体のテンプレート情報を取り出す(ステップS202)。個々のエリアが広い場合は、動き物体の大きさや形状は、同一エリア内でも動き物体の位置により変化することが想定されるため、物体の位置により基準とする大きさや形状データを変換する計算式をパラメータ記憶部122内に格納しておき、検出された動き物体の位置における各登録物体の大きさや形状の基準値を求める。
ここで検出された動き物体が、それまでの画像フレームで既に動き物体として推定されている領域であれば(ステップS203)、その物体のテンプレートと照合し(ステップS204)、検出された動き物体がその物体のテンプレートとマッチすれば(ステップS205)、同じ物体であると推定する(ステップS207)。逆に、検出された動き物体がその物体のテンプレートとマッチしない場合(ステップS205)、新たに動き物体を推定するためにテンプレートの検索処理を実行する(ステップS206)。
テンプレートの検索処理(ステップS206)では、登録されたテンプレート情報を検索し、検出された動き物体の種類を推定する。動き物体の動き情報を登録されている各物体のテンプレートと比較し、登録情報に最も良く適合する種類の物体であると推定する。物体の推定には、大きさ、形状、動き方向、…というように項目毎に絞り込んでも良いし、適合する項目毎に候補物体にポイントを与え、最もポイントの高い物体であると推定しても良い。後者の場合には、項目を満たす必須度を基にポイントに重み付けをする。初めの動き情報で物体を推定できない場合は、複数フレームにわたる動き情報を用いて物体を推定する。
動き物体が推定されれば、その物体の動きが情報取得すべき対象であるか否かを判定する(ステップS207)。動きの方向、動き量、位置、動き継続時間あるいは停止時間等の動き情報が、その物体に関して予め登録された情報取得すべき動きのパターンと一致すれば、そのパターン情報が取り出される。解析が終われば、動き物体に関する情報を保存する(ステップS208)。ある時点では情報取得の動きを見出せない物体についても情報を保存し、情報取得すべき動きを開始したときに直ちに対応できるようにする。
エリア毎の情報取得すべき、あるいは無視すべき動き物体の初期設定に当たっては、予め情報配信装置102内に動き物体の種類及びそれぞれの動き物体に想定される動き情報に関するテンプレートを用意し、操作者がこれらを選択し組み合わせることにより、設定するようにしても良い。システム設置時に、人がエリアを実際に歩き、入力画像から検出した人の動き情報を基に、画面上の人に関する動き情報をそのエリアの人の動きに関する標準値として設定し、これを基準に各物体のテンプレートを補正しても良い。
予め情報配信装置102内に用意する動き物体のテンプレートは、実際の画像データを元に作成する。図16にテンプレートの一例を示す。図16(a)に示すように、実際の物体は、同じ種類でも大きさや形状にばらつきがあるため、物体の推定は、テンプレートに一定の範囲を設定し、テンプレートと物体の動き情報の一致度合いを評価することにより行う。大きさ情報には、動き領域に外接する矩形の縦横サイズまたは動き領域内の動きブロック数を用い、形状情報には、動き領域の縦横比及び領域中の動きブロックの分布を用いる。これらに加えて、テンプレートの回転の可能性を用いても良いし、物体の形状に対する動き方向の関係も物体を推定する要素となる。例えば、図16(b)のように、人間と大型の犬は、斜め上から撮影した画像では同程度の大きさの縦長形状の動きとして検出され得る。ここで、それぞれの動き方向を考慮した場合、人間は立っている位置から各方向に移動することが想定されるのに対し、犬は体の前方向の一定範囲にのみ移動することが想定されるため、左右に動いた場合は、それは人間であると推定される。
また、物体の移動に連れて、カメラからの相対位置が変化することによる動き領域の大きさ・形状も物体を推定する要素となる。例えば、カメラに対して、図17(a)の位置に人間と犬がいる場合では、人間も犬も同じ程度の大きさの動き領域であるが、図17(b)の位置に移動した場合、縦方向のサイズが人間は大きく、犬は小さくなり、明らかな差が現れる。
動き領域の大きさや形状、動き方向、動き領域内のブロック分布、等の変動量や変動周期も評価要素となる。人や動物のように、手足を動かし重心移動しながら移動する物体では、検出される動き領域の形状や動き方向が変動するが、車のような無生物では一定の形状と動きを保って移動する。
図18を例に取ると、図18(a)における物体Aは、大きさや形状及び動き方向から人であると推定されるが、物体Bは大きさや形状及び動き方向のみからは、犬にも旅行用のキャリーバックにも推定され得る。この例では、動き領域の形状や動き方向の変動割合が所定の閾値より大きい場合(図18(b))、犬のような動物と推定し、所定の閾値より小さい場合(図18(c))、キャリーバックのような一定の形状と移動機能を備えた物体であると推定できる。
尚、設置環境により、塀等で動き物体の下部が隠れることが予めわかっているような場合には、塀で隠れる部分について動き物体のテンプレートを調整しても良い。
また、複数台のカメラを用い、各カメラで撮影された画像上の動き領域の位置と、カメラの撮影位置とを基に、物体の3次元位置を精度良く求めても良い。
このように、音源位置判定部141では、動き検出結果を基に、集音した音源と対応づける動き物体及びその3次元位置を判定する。
音源となる動き物体が既知の面上を移動する場合は、撮影画像上で物体が面に接する位置と面の情報とから、物体の3次元位置を求めることができる。例えば、ステージ上を音源が移動し、カメラが上から俯瞰するように撮影する場合は、動き検出によって得られた画面上の音源の位置とステージ上の構造物(例えば階段等)の配置図を照合することにより、音源の3次元位置を求めることができる。
一方、音源となる動き物体が既知の面と接しない場合、例えば、ステージにゴンドラやクレーンを用いる演出の場合や、プールのイルカに水中マイクをつけて撮影するような場合には、複数台のカメラを用い、各カメラで撮影された画像上の音源の位置とカメラの撮影位置とを基に、音源の3次元位置を求める。例えば、図19に示すように、ステージに対しカメラ(1)とカメラ(2)の位置から撮影したそれぞれの画像に写る人物の位置(A2)及び(B2)から、実際のステージ上での人物の位置(C2)を求める。
図20に示すように、複数の動き物体S1,S2を音源とする場合は、スタート時に音源の位置と、対応する集音マイクの識別番号を関係づけて設定し、音源毎の動きを検出して音像を生成し、合成する。あるいは、各マイクに画像処理で識別可能な識別情報を予め付与しておき、その識別情報を音源と対応付けても良い。
多数の動き物体が入れ替わり動き回るような場合には、各物体を識別する必要が生じるため、上述の動き検出装置27で検出された動き領域に対し、対象となる動き物体の識別処理を行う。予め主成分分析を用いて撮影場面に存在し得る動き物体の種類毎に特徴量データを作成しておき、動き領域部分の画像データを切り出し、この画像データの特徴量と対象となる動き物体の種類毎の特徴量データとを比較することにより、動き領域を動き物体の種類に当てはめても良い。予め対象となる動き物体の特徴量を音源(マイク)の対応付けを、パラメータ記憶部122に登録しておくことにより、適切な音源を選択でき、音源の動きに応じた音像の生成が可能となる。
音源の位置が決めれば、パラメータ設定部143は、音源の方向を基に頭部伝達関数記憶部142に記憶されている伝達関数を選択し、伝達関数の重み付けを設定する。また、パラメータ設定部143は、音源からの距離情報パラメータを設定する。パラメータの更新は、音源に所定の動きがあったときに行い、新たな位置での音像定位に供する。
畳み込み処理部144は、畳み込み処理により音像を定位する。
図21は、2台のスピーカを用いて音像を定位する例を示している。図21において、関数fl(t)、fr(t)は、音源位置から左右の耳への伝達関数、関数hl1(t)、hr1(t)は、スピーカ1から左右の耳への伝達関数、関数hl2(t)、hr2(t)は、スピーカ2から左右の耳への伝達関数である。音源から発する音をS(t) とすると、式1及び式2を満たすL1(t)、L2(t) を各スピーカから出力すれば良い。
L1(t)×hl1(t) + L2(t)×hl2(t) = S(t)×fl(t) (1)
L1(t)×hr1(t) + L2(t)×hr2(t) = S(t)×fr(t) (2)
畳み込み処理部144は、これらの特性を基に、任意の位置の音源について音像を定位させる畳み込み演算処理行う。
図22に示すように、畳み込み処理部144は、各音源に対する畳み込み演算処理ユニット144a,144b,…,144mで構成される。
図23は、畳み込み演算処理ユニット144aの構成例を示している。畳み込み演算処理ユニット144aは、可変利得増幅器151、定位方向処理器152a,152b,152c,152d、クロスフェード器153a,153b、頭部演算処理器154a,154b,154c,154d、極性反転器155a,155b、加算器156a,156b、両耳間時間差器157a,157b、及び残響処理器158a,158bなどにより構成される。
まず、音源150より集音した音声信号が入力されると、可変利得増幅器151により適当な音量レベルの信号に設定される。次に、定位方向処理器152a,152b,152c,152dにより、音源位置判定部141にて判定された音源の定位方向に沿った伝達関数が畳み込まれる。
ここで、頭部伝達関数記憶部142に記憶される水平面内における伝達関数を、例えば、15度おき、即ち m=24(360/15=24)とすると、右側用伝達関数としては、fr0(t)-fr23(t) が存在し、左側用伝達関数として、fl0(t)-fl23(t) が存在している。
ここで、定位方向を56度とするときには、それぞれの定位方向処理器152a,152cには、45度方向の fr3(t) と fl3(t) の関数が用いられる。また、定位方向処理器152b,152dには、60度方向の fr4(t) と fl4(t) の関数が用いられて、音源に定位方向伝達関数が畳み込まれる。
それぞれの演算結果は、後述のクロスフェード器153a,153bに供給されて所定の比率の信号として加算合成される。そして、次に頭部演算処理器154a,154b,154c,154dに供給され、頭部と両耳の位置関係により生じる特性の乱れ及び両耳間のクロストークの補正がなされる。
更に、極性反転器155a,155bで、両耳間のクロストークに係る信号の位相反転がなされる。次の加算器156a,156bでは、供給される信号の加算が行われる。
両耳間時間差器157a,157bでは、定位方向が視聴者の正中面と異なる位置にあるときには、左右の耳に到来する音響信号に時間差が生じるため、その遅延時間差を付与する。この両耳間時間差器157a,157bを用いることにより、定位方向処理器152a,152b,152c,152dにおける信号処理は、遅延時間に係る演算を省略できる。
残響処理器158a,158bでは、音響が反射面のある空間内に定位される場合に、それで生じる残響音を付加する。
以上、畳み込み演算処理ユニット144aの構成とその処理動作について説明したが、図22に示した畳み込み処理部144は、複数の畳み込み演算処理ユニット144a〜144mによって構成されており、複数の音源を定位させた立体音場定位信号を生成することができる。
また、所定の動きがあったときに、適用する伝達関数を更新し、新たな位置での音像定位が可能である。また、図24に例示するように、動きが継続しているときには、所定の割合で伝達関数をクロスフェードしながら音像定位することで、音源の移動を表現できる。
本実施例では、複数音源の合成に関しては、元音声の音量及び音源の位置関係を基に合成の割合を決定するが、端末装置104側から音源の合成比率や音源位置の調整等を指定可能な構成にしても良い。
また、本実施例では、情報配信装置102で配信する映像音声情報を生成し、通信手段105を通じて端末装置104に配信する構成としているが、情報記録装置と再生装置という構成にし、情報記録装置側で映像音声データを記録媒体に記録し、再生装置で記録媒体の映像音声データを再生するようにしても良い。
[第2の実施例]
次に第2の実施例について説明する。第1の実施例との相違は、図25に示すように、端末装置104側で音像定位処理を行うことにある。尚、映像情報からの音源の動きを検出する処理は、第1の実施例と同様である。
情報配信装置102では、音源位置設定部126において各音源の位置情報を決定し、映像や各音声の音声情報とともに端末装置104に送信する。
端末装置104では、情報配信装置102から受信した各音源の位置情報を基に、音像定位処理部128において第1の実施例と同様の処理手順で音像定位を行い、音声出力する。
音像定位処理部128の構成は、図13(b)に例示するように、第1の実施例における音像定位処理部116の構成から音源位置判定部141を除いた構成であり、頭部伝達関数記憶部142、パラメータ設定部143、畳み込み処理部144を備えている。
音像定位処理部128は、情報配信装置102から受信した音声情報及び音源位置情報に加え、指定入力部127から、音源の合成比率、音源位置の調整などを指定して、視聴者の好みの音像を生成することもできる。例えば、複数名のメンバーが出演するコンサート映像で、贔屓のメンバーの音声を主に聴きたいといった場合に、そのメンバーに対応する音源の比率を高くする等の指定が可能である。
[第3の実施例]
図26は、第3の実施例における情報配信装置107の構成例を示しており、例えば展示施設等の各コーナーでの解説用ナレーション装置として用いることもできる。本実施形態における「情報配信装置107」は、「情報提示装置」と呼ぶにふさわしいが、第1及び第2の実施例との対比理解を容易にするため、便宜的に「情報配信装置」と称することとする。
情報配信装置107には、高精細カメラ101、高精細ディスプレイの表示装置125及びスピーカ129が接続される。情報配信装置107は、高精細カメラ101の撮影映像を取り込んでデジタルデータに変換する画像入力I/F111と、その画像データが所定量(少なくとも1フレーム以上)蓄積される画像メモリ112と、スイッチのON/OFF等の動作設定や画像解析判定閾値等の動作条件のパラメータ等を入力するための操作部120と、操作部120からの入力を受け付ける設定入力インタフェース(I/F)121と、操作部120から入力されるパラメータを記憶するパラメータ記憶部122と、パラメータ記憶部122に記憶されるパラメータを基に画像メモリ112に蓄積された画像データを解析する画像解析部113と、入力した映像情報を表示装置125に出力する画像出力I/F130を備えている。また、画像解析部113は、パラメータ記憶部122に記憶されたパラメータに基づいて、映像情報中の所定の変化(例えば被写体の動きなど)を検出する動き検出装置27を含んでいる。
更に、情報配信装置107は、予め選択されたナレーション等の音声データをその識別情報とともに格納する音声データベース(D/B)131と、音声データに音像定位を施す音像定位処理部116と、音声データをスピーカ129に出力するための音声出力I/F132を備えている。
次に、情報配信装置107の処理動作について説明する。尚、映像情報を入力し、映像情報からの動き検出等の処理は、第1及び第2の実施例と同様である。
動き検出装置27により位置が検出された音源について、音像定位処理部116は音像定位処理を施す。音像定位処理部116の構成は、図13(a)に示したように、音源位置判定部141、頭部伝達関数記憶部142、パラメータ設定部143、畳み込み処理部144からなる。
音源位置判定部141は、動き検出結果を基に動き物体及びその3次元位置を判定し、該動き物体に対応する音声情報を音声データベース131から選択する。音声情報の選択に当たっては、動き情報に加え、時刻、天候、気温等の情報を図示しない情報取得手段により取得し、音声情報選択の条件に用いても良い。
そして、第1の実施例と同様に、パラメータ設定部143がパラメータ設定処理を行い、畳み込み処理部144が畳み込み処理を行って、音声出力I/F132から音声を左右のスピーカ129に出力し、画像出力I/F130から映像を表示装置129に出力する。
一例として、動物園の白くまコーナーにおいて、白くまの動きに合わせたナレーション音声を提示する場合を示す。
図27(a)に例示するように、白くまがプールで泳いでいるときには、白くまの泳ぎに関する習性のナレーションを音像定位して出力する。その日の気温や気象条件等により、複数のバーションを設けておき、その場により適したナレーションを出力するようにしても良い。図27(b)に例示するように、白くまが餌場に向かっているときには、白くまの食性に関するナレーションを音像定位して出力する。時刻や季節等に応じて複数のバージョンを設けておき、その場により適したナレーションを出力するようにしても良い。
白くまの位置に音像定位することにより、観客の目を白くまに注目させることができる上、ナレーションの台詞を1人称にすることで、白くまがその場で話しているかのように観客に感じさせることができ、解説音声を親しみやすく興味深いものにすることができる。
来場者が白くまを良く観ようと顔の向きを変えた場合でも、最適な音場を提示するためにヘッドホンタイプのナレーション装置の形態で、音声を提示しても良い。ヘッドホンの向きや傾きの情報を取得して定位位置を補正する。尚、ヘッドホンを用いる場合は、クロストークのキャンセル処理は不要となる。
以上説明したように、本実施形態における情報配信装置によれば、映像情報中から動き物体の動きや位置などの情報を検出し、検出した情報に基づいて音像を定位するため、動き回る人や物などの音源に対しても音像を定位することができ、臨場感の高い音声情報を生成することができる。これにより、視聴者の心理的満足度や情報理解度を高めることができる。
また、動き物体の動きや位置などの情報に基づいて生成される音声を、該動き物体の動きや位置などの映像とともに視聴することで、より一層情報理解度を高めることができる。
更に、例えば視覚障害者においても、イベント会場等における出演者の動き等、会場の雰囲気を音声情報から感じ取ることができる。
また、上記各実施例における生成された音声を、高精細カメラを用いて収録した高精細大画面映像を合わせて視聴することにより、いっそう臨場感の高い映像・音声を鑑賞することができる。
以上、本発明の実施の形態を詳細に説明したが、本発明は、その精神または主要な特徴から逸脱することなく、他の色々な形で実施することができる。
例えば、動物や乳幼児等の映像にナレーションを付ける際に、本発明に係る音声情報生成装置を用いて、動物や乳幼児等の動きに応じた臨場感のあるナレーション音声付きの映像ソフトを制作することができる。
また、高精細カメラ及び高精細大画面ディスプレイの普及に伴い、コンサート収録映像もボーカルやソロ塩蔵者のズーム主体の映像から、客席の視点でステージ全体の雰囲気を味わう臨場感のある映像が提供可能となる。音声においても、本発明に係る音声情報生成装置を用いて、収録映像中の演奏者の動きに合わせて音像を定位することにより、高臨場感の映像音声鑑賞手段を提供することができる。
従って、前述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
尚、本実施形態において、更に以下の情報配信装置を開示する。
請求項1または請求項2に記載の音声情報生成装置において、前記画像解析手段が検出する前記動き物体の情報は、前記動き物体の種類、位置、形状、サイズ、動き方向、動き速度、動き量のうちの少なくとも1つを含むことを特徴とする音声情報生成装置。
前記音声情報生成装置において、前記音声情報の系統毎に音像定位のためのパラメータを指定する手段を備え、前記音像定位処理手段は、前記動き物体の情報及び前記パラメータに基づき、前記動き物体を音源として音像を定位することを特徴とする音声情報生成装置。
第1の実施例における情報配信システムの構成例を示す概略ブロック図である。 図1に示す情報配信システムにおいて情報配信装置に含まれる動き検出装置のシステム回路構成例を示す概略図である。 図2に示す動き検出装置が実行する動き検出処理の処理手順を例示するフローチャートである。 図3に示す動き検出処理のうち、画像分割・輝度情報処理の処理手順例を示すフローチャートである。 画像フレームをブロックに分割した状態を模式化した図である。 図3に示す動き検出処理のうち、動きブロック検出処理の処理手順例を示すフローチャートである。 図6に示す動きブロック検出処理において、RAMに保存される動き判定情報を説明するための模式図である。 図3に示す動き検出処理のうち、動き領域候補抽出処理の処理手順例を示すフローチャートである。 図3に示す動き検出処理のうち、動き領域候補の対応付け処理の処理手順例を示すフローチャートである。 図3に示す動き検出処理のうち、動き領域判定処理の処理手順例を示すフローチャートである。 図2に示す動き検出装置が動きを検出するために用いる閾値の一例を示す図である。 図11に示す閾値を適用して実行される動きブロック検出処理の処理手順例を示すフローチャートである。 音像定位処理部の構成例を示す概略ブロック図である。 図13に示す音像定位処理部による音声解析処理の処理手順例を示すフローチャートである。 図14に示す音声解析処理によるエリア判定処理について説明するための図である。 動き物体のテンプレートについて説明するための図である。 動き物体の動き領域について説明するための図である。 動き領域の変動について説明するための図である。 動き物体の3次元位置決定処理について説明するための図である。 複数音源に対する音像定位について説明するための図である。 音像定位について説明するための図である。 図13に示す音像定位処理部に含まれる畳み込み処理部の構成例を示す概略図である。 図22に示す畳み込み処理部に含まれる畳み込み演算処理ユニットの処理構成例を示す概略図である。 クロスフェード処理について説明するための図である。 第2の実施例における情報配信システムの構成例を示す概略ブロック図である。 第3の実施例における情報配信システムの構成例を示す概略ブロック図である。 動き物体とナレーションの対応付けを説明するための図である。
符号の説明
27…動き検出装置
31…CPU
32…ROM
33…RAM
34…I/Oポート
101…高精細カメラ
102…情報配信装置
103…マイク
104…端末装置
105…通信手段
107…情報配信装置
111…画像入力I/F
112…画像メモリ
113…画像解析部
114…音声入力I/F
115…音声メモリ
116…音像定位処理部
117…送信映像符号化部
118…送信音声符号化部
119…通信制御部
120…操作部
121…設定入力I/F
122…パラメータ記憶部
123…通信制御部
125…表示装置
125…表示部
126…音源位置設定部
127…指定入力部
128…音像定位処理部
129…スピーカ
130…画像出力I/F
131…音声データベース
132…音声出力I/F
141…音源位置判定部
142…頭部伝達関数記憶部
143…パラメータ設定部
144…畳み込み処理部
144a,144b,144m…畳み込み演算処理ユニット
150…音源
151…可変利得増幅器
152a,152b,152c,152d…定位方向処理器
153a,153b…クロスフェード器
154a,154b,154c,154d…頭部演算処理器
155a,155b…極性反転器
156a,156b…加算器
157a,157b…両耳間時間差器
158a,158b…残響処理器

Claims (2)

  1. 入力映像情報を1フレーム以上記憶する蓄積手段と、
    入力音声情報を記憶する第1の蓄積手段と、
    前記第1の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、
    前記入力音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えること
    を特徴とする音声情報生成装置。
  2. 入力映像情報を1フレーム以上記憶する第1の蓄積手段と、
    入力音声情報または選択音声情報を、該音声情報を識別する識別情報とともに記憶する第2の蓄積手段と、
    前記第1の蓄積手段に記憶された前記入力映像情報を解析して前記入力映像情報中の動き物体の情報を検出する画像解析手段と、
    前記識別情報に基づいて前記第2の蓄積手段に記憶された前記音声情報を選択し、選択した前記音声情報に対して、前記画像解析手段により検出された前記動き物体の情報に基づき、前記動き物体を音源として音像を定位する音像定位処理手段とを備えること
    を特徴とする音声情報生成装置。

JP2004106942A 2004-03-31 2004-03-31 音声情報生成装置 Pending JP2005295181A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004106942A JP2005295181A (ja) 2004-03-31 2004-03-31 音声情報生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004106942A JP2005295181A (ja) 2004-03-31 2004-03-31 音声情報生成装置

Publications (1)

Publication Number Publication Date
JP2005295181A true JP2005295181A (ja) 2005-10-20

Family

ID=35327630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004106942A Pending JP2005295181A (ja) 2004-03-31 2004-03-31 音声情報生成装置

Country Status (1)

Country Link
JP (1) JP2005295181A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253555A (ja) * 2008-04-03 2009-10-29 Sony Corp 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
WO2013105413A1 (ja) * 2012-01-11 2013-07-18 ソニー株式会社 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ
CN107454511A (zh) * 2012-08-31 2017-12-08 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
WO2018116368A1 (ja) * 2016-12-20 2018-06-28 ヤマハ株式会社 演奏音提供装置および記録媒体
JP2019193163A (ja) * 2018-04-26 2019-10-31 シャープ株式会社 コンテンツ出力装置
WO2020066644A1 (en) 2018-09-26 2020-04-02 Sony Corporation Information processing device, information processing method, program, and information processing system
WO2020066649A1 (en) 2018-09-26 2020-04-02 Sony Corporation Information processing device, information processing method, program, and information processing system
WO2021250847A1 (ja) * 2020-06-11 2021-12-16 日本電信電話株式会社 物体識別装置、物体識別方法、及び物体識別プログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4557035B2 (ja) * 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
US8249305B2 (en) 2008-04-03 2012-08-21 Sony Corporation Information processing apparatus, information processing method, program, and recording medium
JP2009253555A (ja) * 2008-04-03 2009-10-29 Sony Corp 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
WO2013105413A1 (ja) * 2012-01-11 2013-07-18 ソニー株式会社 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ
JPWO2013105413A1 (ja) * 2012-01-11 2015-05-11 ソニー株式会社 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ
US9510126B2 (en) 2012-01-11 2016-11-29 Sony Corporation Sound field control device, sound field control method, program, sound control system and server
US11277703B2 (en) 2012-08-31 2022-03-15 Dolby Laboratories Licensing Corporation Speaker for reflecting sound off viewing screen or display surface
CN107454511A (zh) * 2012-08-31 2017-12-08 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
CN107454511B (zh) * 2012-08-31 2024-04-05 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
WO2018116368A1 (ja) * 2016-12-20 2018-06-28 ヤマハ株式会社 演奏音提供装置および記録媒体
JP2019193163A (ja) * 2018-04-26 2019-10-31 シャープ株式会社 コンテンツ出力装置
WO2020066649A1 (en) 2018-09-26 2020-04-02 Sony Corporation Information processing device, information processing method, program, and information processing system
CN112771891A (zh) * 2018-09-26 2021-05-07 索尼公司 信息处理设备、信息处理方法、程序和信息处理系统
KR20210065099A (ko) 2018-09-26 2021-06-03 소니그룹주식회사 정보 처리 장치, 정보 처리 방법, 프로그램, 및 정보 처리 시스템
WO2020066644A1 (en) 2018-09-26 2020-04-02 Sony Corporation Information processing device, information processing method, program, and information processing system
US11546713B2 (en) 2018-09-26 2023-01-03 Sony Corporation Information processing device, information processing method, program, and information processing system
CN112771891B (zh) * 2018-09-26 2023-05-02 索尼公司 信息处理设备、信息处理方法、程序和信息处理系统
WO2021250847A1 (ja) * 2020-06-11 2021-12-16 日本電信電話株式会社 物体識別装置、物体識別方法、及び物体識別プログラム

Similar Documents

Publication Publication Date Title
US11528576B2 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
US7876914B2 (en) Processing audio data
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
CN112165590A (zh) 视频的录制实现方法、装置及电子设备
JP6216169B2 (ja) 情報処理装置、情報処理方法
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
KR20190094166A (ko) 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
JP5868991B2 (ja) 動画記録中の音声のオーディオ信号再生を向上させる方法およびアセンブリ
JP2019087973A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2005295181A (ja) 音声情報生成装置
JP2001169309A (ja) 情報記録装置および情報再生装置
CN114286275A (zh) 一种音频处理方法及装置、存储介质
KR101747800B1 (ko) 입체음향 생성 장치 및 이를 이용한 입체 컨텐츠 생성 시스템
WO2010061791A1 (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
JP6664456B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
JP2012027340A (ja) カラオケ装置及びカラオケ歌唱者の静止画出力方法
JP2006081128A (ja) 撮影システム、カラオケシステム、撮影方法
JP3734805B2 (ja) 情報記録装置
JP7456492B2 (ja) 音声処理装置、音声処理システム、音声処理方法及びプログラム
JP2022007108A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2003032515A (ja) カメラワークシミュレータ及びシミュレーション方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106