JP4934158B2 - 映像音声処理装置、映像音声処理方法、映像音声処理プログラム - Google Patents
映像音声処理装置、映像音声処理方法、映像音声処理プログラム Download PDFInfo
- Publication number
- JP4934158B2 JP4934158B2 JP2009033169A JP2009033169A JP4934158B2 JP 4934158 B2 JP4934158 B2 JP 4934158B2 JP 2009033169 A JP2009033169 A JP 2009033169A JP 2009033169 A JP2009033169 A JP 2009033169A JP 4934158 B2 JP4934158 B2 JP 4934158B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- conversation
- gaze
- virtual space
- azimuth angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Digital Computer Display Output (AREA)
- Closed-Circuit Television Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Description
図1は、実施例1に係る映像音声処理装置100の構成例を示す。映像音声処理システム10は、映像音声処理装置100、観測装置20、出力装置40、記憶装置60及びユーザインターフェイス装置70を有する。
観測装置20は、映像取得装置21及び音声取得装置30を備える。例えば、全方位カメラとマイクロフォンアレーを統合した全方位カメラマイクシステムである。図3は、全方位カメラマイクシステムの構成例を示す。
映像取得装置21は、複数の人物が会話をしている状況を画像として撮影して出力する装置であり、例えば、全方位カメラ等である。全方位カメラは、ほぼ全周の領域が撮影範囲となるカメラである。例えば、全方位カメラは、2台のカメラ23A及び23Bからなり、各カメラは、魚眼レンズ25A、25Bを搭載する。この魚眼レンズ25A及び25Bは、おおよそ半球の領域をカバーできる。そのため、2台のカメラ23A及び23Bを互いに反対方向を向くように配置することでほぼ全周の領域を撮影することができる。カメラは一定の周期で画像を撮影する。例えばカメラとして、デジタルカメラを用い、画像サイズ2448×512画素を持つ画像を出力し、映像音声処理装置100とIEEE1394b規格にて接続する構成としてもよい。
音声取得装置30は、会話中に発せられる人物の声を収録して、電気信号として出力する装置である。例えば、マイクロフォンアレー等である。マイクロフォンアレーは複数の無指向性のマイク31A,31B及び31Cにより構成される。例えば、カメラ23A及び23Bの上部に、一辺4cmの三角形の頂点に各マイクが配置される構成としてもよい。
出力装置40は、映像表示装置41及び音声再生装置50を備える。映像表示装置41は、例えば、プロジェクターやディスプレイ等であり、映像f’を表示する。音声再生装置50は、例えば、モノラルスピーカやステレオスピーカ、サラウンドスピーカ等であり、音声m’を再生する。
記憶装置60は、観測される映像f、音声m及び推定される会話状態等を記憶することができ、また、記憶されたデータを読み出して映像音声処理装置100に対して出力することができる。記憶装置60は、例えば、ハードディスク装置や固体メモリ等である。
図4は、実施例1に係る映像音声処理装置100の構成例を、図5は、処理フロー例を示す。実施例1に係る映像音声処理装置を説明する。
入力手段101は、映像音声処理装置100が、映像音声処理装置100の外部にある別のシステムや装置から情報を入力または受信することを可能にするための任意の適切な手段である。したがって、入力手段101は、ハードウェア(例えば、モデム、DSLモデム、コネクタ、バス、ポート、シリアルポート、IEEE1394ポート、USBポート、ネットワークカードなど)、ソフトウェア(通信ソフトウェア、ネットワークソフトウェアなど)、ファームウェア、または、それらの組み合わせを含んでよい。同様に、出力手段102は、映像音声処理装置100が、映像音声処理装置100の外部にある別のシステムや装置へ出力または送信することを可能にするための任意の適切な手段である。
制御部105は、各処理を制御する。
顔位置姿勢推定手段110は、映像fを用いて、パノラマ画像f1を生成する。顔位置姿勢推定手段110は、そのパノラマ画像f1から会話参加者の顔の位置及び姿勢を推定する(s110)。顔位置姿勢推定手段110は、映像取得手段21から得られる映像fを直接に、または間接的に、入力され、パノラマ画像f1及び顔の位置及び姿勢を出力する。例えば、非特許文献2、3記載の方法により、顔の位置及び姿勢を推定してもよい。但し、他の方法により、顔位置及び姿勢を推定してもよい。なお、時刻tにおける会話参加者iの顔の位置及び姿勢を顔状態ベクトルsi,t=[xi,t,yi,t,rx i,t,ry i,t,rz i,t]として表す。但し、xi,t,yi,tを顔の中心の画像座標、rx i,t,ry i,t,rz i,tを画像座標xi,t,yi,tの各軸及び画像座標系に直交する軸まわりの回転角を表す。なお顔の姿勢は、仮想カメラに正対する方向を(rx i,t,ry i,t,rz i,t)=(0,0,0)とする。図6は、回転角rx i,t,ry i,t,rz i,tを説明するための図である。以下、一例を示す。本実施例では、顔状態ベクトルを推定する手段として、画像上での顔追跡法を利用する。この方法では、初期時刻t0において、各会話参加者Piの正面顔の輝度分布を顔テンプレートとして記憶しておき、その後の各時刻tの入力画像とそのテンプレートとの照合により、顔追跡を行う。照合は、顔テンプレートの輝度と入力画面の輝度との差分(以下「照合誤差」という)に基づく処理であり、照合誤差が最も小さくなるテンプレートの状態を探索することにより実現される。
視線方向推定手段120は、顔状態ベクトルsiから視線方向giを推定する(s120)。視線方向推定手段120は、顔位置姿勢推定手段110から少なくともx座標上の位置xiと、y軸周りの回転角ry iを入力され、視線方向gi及び方位角αiを出力する。例えば、非特許文献2、3記載の方法により、視線方向を推定してもよい。但し、他の方法により、視線方向を推定してもよい。本実施例では、頭部方向により、視線方向を近似的に推定する。なお、視線方向は、誰が誰に視線も向けているか、または、誰の方も見ていないか、という対人視線方向のことを指し、gi=jは会話参加者iの視線方向が他の会話参加者jに向いていることを表す。なお、会話参加者iの視線方向が他の全ての会話参加者の何れにも向いていない場合等は、gi=0としてもよい。また、時刻については、顔状態ベクトル、視線方向ともに同時刻tにおける処理であり、表記を省略している。
この角度ry i,jを用いて、会話参加者iが他の会話参加者jに視線をむけているときの顔の回転角ry iの尤度関数を定義する。
N(・|μ,σ2)は、平均μ=k・ry i,j、分散σ2のガウス分布を表す。kは定数を表し、本実施例では1である。図11は、ガウス分布の例を示す。会話参加者P1がP2を見ているときのガウス分布を線12とし、会話参加者P1がP3を見ているときのガウス分布を線13として表している。また、会話参加者P1が誰も見ていないときは、一様分布を用い、線9として表している。このような尤度関数を用いて最尤法により、会話参加者の視線方向giを推定する。
発話推定手段130は、音声を用いて、発話の有無及び到来方向を推定する(s130)。発話推定手段130は、音声取得装置30から得られる音声mを直接的または間接的に入力され、発話の有無及び到来方向を出力する。例えば、非特許文献2、3記載の方法により、発話の有無及び到来方向を推定してもよい。但し、他の方法により、発話の有無及び到来方向を推定してもよい。
会話状態推定手段140は、顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する(s140)。会話状態推定手段140は、視線方向推定手段140からαi,giを、発話推定手段130から発話の有無及び到来方向を入力され、会話状態を出力する。例えば、非特許文献2、3記載の方法により、会話状態を推定してもよい。但し、他の方法により、会話状態を推定してもよい。
仮想空間映像生成手段160は、パノラマ画像f1と顔位置xi,yiから、会話参加者画像f3iを切り出し、切り出した会話参加者画像f3iを部分平面f4iに射影し、部分平面f4iを実際の会話参加者Piの配置と対応するように配置する。なお、その際、仮想空間上のX−Y水平面に、水平面と部分平面f4iが所定の角度γを成すように配置する。さらに、制御パラメータUを用いて、仮想空間上のカメラ(以下「仮想カメラ」という)の視点を制御し、この視点における仮想空間映像f’を生成する(s160)。例えば、非特許文献2、3記載の方法により、仮想空間を生成してもよい。但し、他の方法により、仮想空間を生成してもよい。なお、仮想空間映像f’は、後述する仮想カメラ視点制御部150で求めた制御パラメータUを用いて制御される仮想カメラの視点を用いて生成する。なお、制御パラメータUの理解を容易にするために、処理手順とは異なるが、仮想カメラ視点制御手段160の処理内容より先に仮想空間映像生成手段160を説明する。
仮想カメラ視点制御手段150は、会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、方位角及び注視度を用いて、仮想カメラの視点を制御する制御パラメータを求める(s150)。
方位角及び注視度取得手段152は、会話状態Hのうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める(s152)。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、カメラ位置と注視点を決定する3つの制御パラメータφ、ρ、qx’を制御するパラメータである。注視度は、例えば、0から1の範囲の値をとり、注視度0の場合、図14(b)のように会話参加者全員の顔画像、及び、顔の姿勢や発話の有無等を表す各種情報を仮想空間映像f’に含めることを意図して、仮想カメラは、仮想空間上のZ軸上に位置し、そこから真下を向くように配置される。つまり、俯瞰図を映し出すように配置される。また、注視度1の場合、特定の会話参加者の顔画像が大きく映像中にしめるような位置に仮想カメラが配置される。注視度と制御パラメータUの関係は、制御パラメータ取得手段154において詳しく説明する。方位角θは、人物の選択を制御するパラメータである。方位角θは、仮想空間の原点に対する仮想カメラの方位角であり、例えば、中心に表示したい会話参加者の方位角をαとするとθ=α+πとなる。
投票カウント手段156は、視線方向giを用いて、投票数cntを各会話参加者cnti毎に計算し、蓄積部158に出力する(s156)。なお、投票数とは、他の会話参加者から受けている視線の数であり、視線方向giから求められる。各会話参加者iの視線方向が誰に向かっているかをカウントすることで得られる。例えば、図14(b)において、会話参加者P3は、他の会話参加者から視線を受けているためcnt3=4、会話参加者P4はP3から視線を受けているため、cnt4=1、他の会話参加者はcnti=0となる。
蓄積部158は、所定の時間に得られる会話状態及び投票数を蓄積する。
取得方法選択手段157は、E個の取得手段から1つの取得手段を選択する(s157)。さらに、取得方法選択手段157は、選択した取得手段に対し処理を指示する信号を出力する。また、蓄積部158に対し、必要な情報を選択した取得手段に対し出力するように指示する信号を出力する。取得方法の選択及び切替ルールとしては、イベント生起のタイミング(例えば、利用者等が取得方法を選択した場合等)で切り替える方式や、一定時間毎に切り替える方式、ランダムに切り替える方式等が考えられる。
取得手段159eは、視線方向giか発話の有無viか投票数cntiのうちの少なくとも一つと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s159)。例えば、取得手段としては、以下のような方法が考えられる。但し、下記の方法に限定するものではなく、他の方法により注視度β及び仮想カメラの方位角θを求めてもよい。
図18は、取得手段1591の処理フロー例を示す。取得手段159eは、投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1591)。
θ=αmax+π
なお、中心人物不在の場合(最も他の会話参加者の視線が集中している会話参加者が2人以上いる場合)(s1591c)、現状を維持する。つまり、現時刻tの値として一つ前βt−1,θt−1の値を出力する。なお、出力省略してもよいし、変更がない旨の特定の信号を出力してもよい。
αS1−αS2≧π ⇒ sub=2π−(αS1−αS2)
αS1−αS2<π ⇒ sub=αS1−αS2
subは、2人の方位角をαS1、αS2の角度差(0≦sub≦π)を表し、subが大きければ大きいほど、注視度βが小さくなるように求める(以下、「ツーショット処理A」という)。図22は、ツーショット処理Aを行った場合の仮想空間映像f’の例を示す。これは、subが大きい場合には、二人の距離が離れており、仮想カメラ内に収めるためには、注視度を下げる必要があるためである。例えば以下のように求める。
β=0.6 if π/4≦sub<π/2
β=0.4 if π/2≦sub<3π/4
β=0.2 if 3π/4≦sub<π
また、最も他の会話参加者の視線が集中している会話参加者が2人以上いる場合には、その会話参加者をを交代で仮想空間映像f’の中央に表示するようにθ、βを求めてもよい。
図23は、取得手段1592の処理フロー例を示す。取得手段1592は、視線方向gi及び投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1592)。中心人物不在の場合(s1592a)、現状を維持する(s1592b)。中心人物が存在する場合、取得手段1592は、所定時間T2の中心人物の視線方向gmax=(gmax,t−T2,gmax,t−T2+1,…,gmax,t)を蓄積部158から取得する(s1592c)。なお、gmax,tは時刻tにおける中心人物の視線方向を表す。中心人物の視線方向を他の会話参加者毎にカウントする(s1592d)。つまり、所定時間T2内に、何回、gmax=1となるかカウントし、gmax=2となるかカウントし、…、gmax=Nとなるかカウントする。このカウントして得られた値の中で最大値MAXと、カウントして得られた値の平均値AVを求める(s1592e)。最大値MAXと平均値AVの差を求め、この差が閾値以下の場合には(s1592f)、俯瞰ショット処理を行う(s1592g)。閾値以上の場合には、現状を維持する(s1592h)。
図24は、取得手段1593の処理フロー例を示す。取得手段1593は、発話の有無vi及び投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1593)。中心人物不在の場合(s1593a)、現状を維持する(s1593b)。中心人物が存在する場合、取得手段1593は、中心人物以外の会話参加者の発話の有無vi(但し、vmaxを除く)を取得する(s1593c)。中心人物以外の会話参加者の発話がない場合(s1593d)、現状を維持する(s1593e)。中心人物以外の会話参加者の発話がある場合、さらに、gJ=maxが成り立つか否かを判定する(s1593f)。但し、Jは話し手であり、gJ=maxは、話し手が中心人物を見ていることを表す。gJ=maxが成り立たない場合には、現状を維持する(s1593e)。成り立つ場合、その話し手Jと中心人物が仮想空間映像f’内に納まり、中心人物を画面中央寄りに表示するように、中心人物を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める(以下「ツーショット処理B」という)(s1593g)。2人の方位角をαS1、αS2として(但し、αS1≧αS2)、ツーショット処理Bでは、仮想カメラの方位角θを以下のように求める。
max=αS2 ⇒ θ=π+{(αmax+αJ)/2}−k
但し、kは所定の値(例えば、k=10π/360)である。なお、所定の値に対し、二つの投票数の差SUB(≧0)を反映させてもよい。つまり、kに代え、+k・SUBまたは−k・SUBを加える。注視度βについては、ツーショット処理Aと同様の方法により求める。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を、図25(b)は、各会話参加者の視線方向の例を示す。なお、この例の場合、会話参加者P1が中心人物である。このような処理を行うことによって、中心人物以外の話し手が、中心人物に対して相槌や返事をしている場合に、その会話構造を仮想空間映像f’に納めることができる。なお、取得する発話の有無vi(但し、vmaxを除く)は、蓄積部158から所定時間T3分取得し(vi=(vi,t−T3,vi,t−T3+1,…,vi,t))、所定時間T3内で一定時間以上、発話がある場合に、上記処理を行う構成としてもよい。これにより、発話の誤検出の場合等に仮想カメラ視点が変わるのを防ぐことができる。
図26は、取得手段1594の処理フロー例を示す。取得手段1594は、取得手段1592と同様に、視線方向gi及び投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1594)。中心人物不在の場合(s1594a)、現状を維持する(s1594b)。中心人物が存在する場合、取得手段1594は、所定時間T4の中心人物の視線方向gmax=(gmax,t−T4,gmax,t−T4+1,…,gmax,t)を蓄積部158から取得する(s1594c)。中心人物の視線方向を他の会話参加者毎にカウントする(s1594d)。このカウントして得られた値の中で最大値MAXが、会話参加者毎のカウントの和SUMに対する割合MAX/SUMが閾値(例えば、0.8)以上の場合(s1594e)、その会話参加者と中心人物が仮想空間映像f’内に納まるように、最大値となった会話参加者と中心人物を対象として、中心人物を画面中央寄りに表示するようにツーショット処理Bを行う(s1593f)。閾値未満の場合、現状を維持する(s1593g)。
図27は、取得手段1595の処理フロー例を示す。取得手段1595は、視線方向giと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1595)。取得手段1595は、所定時間T5の全ての会話参加者の視線方向gi=(gi,t−T5,gi,t−T5+1,…,gi,t)を蓄積部158から取得する。会話参加者の内、特定の会話参加者S1の視線方向gS1を他の会話参加者毎にカウントする。このカウントして得られた値の中で最大値MAXS1を用いて、会話参加者毎のカウントの和SUMS1に対する割合MAXS1/SUMS1を求め、この割合が閾値(例えば、0.9)以上の場合、会話参加者S1は最大値となった会話参加者(例えば、S2とする)を凝視していたとみなす。同様の処理を全ての会話参加者に対して行う。そして、会話参加者S2の割合MAXS2/SUMS2が閾値(例えば、0.9)以上の場合、S1とS2の間に相互凝視が存在しているとみなす。取得手段1595は、相互凝視が存在しているか否か判定し、一組の相互凝視が存在している場合(s1595a)、二者S1,S2の画面上での顔の位置が平行になるようにツーショット処理Aを行う(s1595b)。なお、ツーショット処理Aにより生成された仮想空間映像の例を図22に示す。相互凝視が存在していない場合や二組以上の相互凝視が存在する場合、現状を維持する(s1595c)。但し、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合には、中心人物が存在するか否かを判定し、取得手段1591〜1954を組み合わせてθ、βを取得する構成としてもよい。
図28は、取得手段1596の処理フロー例を示す。取得手段1596は、視線方向giと投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1596)。取得手段1596は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合(s1596a)、現状を維持する(s1596c)。一組の相互凝視が存在している場合、取得手段1596は、cntS1とcntS2を比較し(s1596b)、値が大きいほうの会話参加者を画面中央寄りに表示するように、ツーショット処理Bを行う(s1596d)。2人の方位角をαS1、αS2として(但し、αS1≧αS2)、ツーショット処理Bでは、仮想カメラの方位角θを以下のように求める。
cntS1<cntS2 ⇒ θ=π+{(αS1+αS2)/2}−k
cntS1=cntS2 ⇒ θ=π+{(αS1+αS2)/2}
但し、kは所定の値(例えば、k=10π/360)である。なお、所定の値に対し、二つの投票数の差SUB(≧0)を反映させてもよい。つまり、kに代え、+k・SUBまたは−k・SUBを加える。注視度βについては、ツーショット処理Aと同様の方法により求める。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を、図25(b)は、各会話参加者の視線方向の例を示す。
図29は、取得手段1597の処理フロー例を示す。取得手段1597は、視線方向giと発話の有無viと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1597)。取得手段1597は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合(s1597a)、現状を維持する(s1597c)。一組の相互凝視が存在している場合、取得手段1597は、蓄積部158から相互凝視を行う会話参加者S1、S2の所定時間T6分の発話の有無viを取得し(vS1=(vS1,t−T6,vS1,t−T6+1,…,vS1,t)、vS2=(vS2,t−T6,vS2,t−T6+1,…,vS2,t))(s1597b)、所定時間T6内での発話の割合を算出する(s1597d)。ツーショット処理Bと同様に、割合が大きいほうの会話参加者を画面中央寄りに表示するように、割合の大きい参加会話者を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める(以下「ツーショット処理B’」という。)(s1597e)。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を示す。
図30は、取得手段1598の処理フロー例を示す。取得手段1598は、視線方向giと発話の有無viと投票数cnti、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1598)。取得手段1598は、複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように方位角及び注視度を求める。
図31は、取得手段1599の処理フロー例を示す。取得手段1599は、視線方向gi、発話の有無vi、投票数cntiと、方位角αiを用いて、注視度β及び仮想カメラの方位角θを求める(s1599)。
<制御パラメータ取得方法切替部180>
ユーザインターフェース装置70から所定の信号が入力された場合、制御パラメータ取得方法切替部180は、取得方法選択手段157を停止、または、動作させる制御信号を出力する。ユーザインターフェース装置70から入力される所定の信号は、停止または動作をユーザが選択した場合に入力される信号であってもよい。また、制御パラメータ取得方法切替部180は、ユーザがユーザインターフェース装置70を操作すると出力される信号を所定の信号とし、ユーザが操作すると、取得方法選択手段157が停止する制御信号を自動的に出力し、ユーザが操作をやめると、取得方法選択手段157が動作する制御信号を自動的に出力する構成としてもよい。このような構成とすることで、ユーザは、簡易に自動映像音声生成と手動映像音声生成を切り替えることができるようになる。なお、取得方法選択手段157が停止すると、取得手段159eは方位角θ及び注視度βを求めなくなる。代わって、ユーザインターフェース装置70から入力される方位角θ、注視度βを制御パラメータ取得手段154へ出力する。
制御パラメータ取得手段154は、方位角θ及び注視度βを用いて、仮想カメラの視点を制御する制御パラメータUを求める(s154)。
連続的パラメータ生成手段154aは、方位角及び注視度取得手段152で求められた注視度βと方位角θを用いて、時間的に、連続して変化する新たな注視度βと方位角θを生成する。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、方位角θは、人物の選択を制御するパラメータである。よって、例えば、時刻t−1においてβ=1,θ=πであり(ワンショット処理時)、時刻tにおいてβ=0,θ=0に変化した場合(俯瞰処理)、画面が不連続にワンショット画像から俯瞰画像に切り替わり、視聴者が会話の構造を見失う可能性がある。そこで、例えば、βが1から0に変化する場合、1回の処理で行える変化量の最大値を予め定めておき(例えば、Δβとする)、βを1から0にΔβづつ減少させて、時間的に連続してβを変化させる。方位角θについても同様の処理を行うことができる。このような処理を行うことで、仮想カメラの視点は徐々に変化していき、視聴者は会話構造等を見失いづらくなる。また、このような構成とすることで、視聴者に対して、浮遊効果、躍動感を与えることができる。さらに、仮想カメラ視点を時間的に連続して変化させることで、視聴者に対して、特定の会話参加者に対して注意を向けさせることができる。なお、変化量をCとしたとき、一回の処理で行う変化量をΔβとした場合に、所定の時間(例えば、2秒)をN等分し、Δβ=C/Nとすることで、同様に時間的に連続して、制御パラメータを更新することができ、かつ、仮想カメラ視点の変化にかかる時間を所定時間に納めることができる。変化量が大きいときには、一回の処理で大きくパラメータが更新され、変化量が小さいときには、一回の処理で小さくパラメータが更新される。
一部制御パラメータ算出手段154bは、新たな注視度βを用いて、制御パラメータの一部、φ、ρ、qx’を算出する。例えば以下の式により、求める。
φmaxは、φの最大値を表し、これに、β(0≦β≦1)を乗じて、φを求める。φthは閾値であり、βが一定値以上になるまで、ρは小さくならない。図32は、注視度βと制御パラメータの関係を示す図である。注視度βを段階的に変化させたときの仮想カメラの位置と注視点の位置をX’−Z平面上の線分として表している。なお、線分の一端にある楕円がカメラの位置を、他端が注視点Qを表す。注視度βを変化させることにより、仮想カメラ位置及び注視点Qを制御できることがわかる。この図に示すように、注視度0の場合には、カメラ視点が俯瞰ショットになり、注視度が1に近づくにつれ、視点が下がるとともに、視線が横向きになる。さらに、βが一定値以上となると、部分平面に近づく。これにより、注視度が高い場合には、視聴者は、会話参加者の視点におりて、より没入感、臨場感のあるシーンを生成することができる。
図33は、仮想空間調整手段166の構成例を示す。仮想空間調整手段166は、仮想空間音声生成手段170において、仮想空間上に配置される会話参加者の部分平面f4を調整するパラメータを生成する(s166)。仮想空間調整手段166は、γ生成手段166aと切り出しサイズ変更手段166bを有する。
図34は、仮想空間音声生成手段170の構成例を示す。仮想空間音声生成手段170は、音声強調手段172と再生制御部174を有する。
b=sin(Δαj)・(β・k1+k2)
とする。但し、k1,k2は必要とされる性能及び仕様に基づいて適宜設定される係数である。画面の中心に対する相対的な方位角Δαjによって、左右のバランスが決まり、注視度βによって、左右のバランスの効果を変更する。このように左右のバランスを求めることによって、画面中心に対して右に位置する人物の声は、右のスピーカーから大きく聞こえるように仮想空間音声m’を生成することができる。また、特定の会話参加者がワンショット映像が生成される場合には(注視度1)、左右のバランスの効果は大きくなり、よりはっきりと左右どちらから音声が出力されているのかわかる。これにより、ワンショット映像で、他の会話参加者の顔が見えない場合でも、話し手の判別がしやすくなる。
v=cos(Δαj)・(β・k3)+k4
但し、k1,k2は必要とされる性能及び仕様に基づいて適宜設定される係数である。
注視度0の場合、つまり仮想空間画像g’が俯瞰画像となる場合、各人のボリュームは均等に調整される。注視度が大きければ大きいほど、画面中央の人物に近い会話参加者のボリュームは大きく、左右に離れるにつれてボリュームが小さくなるように調整される。そのため、会話の音声を聞き取りやすく再生することが可能である。特に複数の会話参加者の声がオーバーラップするような場面において、注視度の高い人物の声のみを強調して再生することができ、会話の内容理解が促進される。なお、この方法以外で音声の再生を制御することも可能である。さらに、上記制御方法は、3チャネル以上のサラウンド音声再生にも容易に拡張できる。
図35は、本実施例における映像音声処理装置100のハードウェア構成を例示したブロック図である。
上述のように、プログラム領域14a,16aには、本実施例の映像音声処理装置100の各処理を実行するための各プログラムが格納される。映像音声処理プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
CPU11(図35)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
102 出力手段 103 記憶手段
105 制御手段 110 顔位置姿勢推定手段
120 視線方向推定手段 130 発話推定手段
140 会話状態推定手段 150 想カメラ視点制御手段
160 仮想空間映像生成手段 166 仮想空間調整手段
170 仮想空間音声生成手段
Claims (10)
- 観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置であって、
前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定手段と、
前記顔の位置及び姿勢から視線方向を推定する視線方向推定手段と、
前記音声を用いて、発話の有無及び到来方向を推定する発話推定手段と、
前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定手段と、
前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御手段と、
前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成手段と、
を有することを特徴とする映像音声処理装置。 - 請求項1記載の映像音声処理装置であって、
前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成手段も有する、
ことを特徴とする映像音声処理装置。 - 請求項1または2記載の映像音声処理装置であって、
前記仮想カメラ視点制御手段は、
会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得手段と、
前記方位角及び注視度取得手段において求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成手段と、
を備える、
ことを特徴とする映像音声処理装置。 - 請求項3記載の映像音声処理装置であって、
前記方位角及び注視度取得手段は、1以上の取得手段を有し、
(A)複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得手段と、
(B)二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得手段と、
(C)複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得手段の何れか、または、(A)〜(C)の少なくとも2つを組み合せることにより前記方位角及び前記注視度を求める、
ことを特徴とする映像音声処理装置。 - 請求項1から4記載の映像音声処理装置であって、
前記仮想カメラの方位角と前記会話状態に含まれる各会話参加者の顔の位置及び注視度に基づき、仮想空間音声の左右のバランス及び音量を制御し、前記音声を用いて仮想空間音声を生成する仮想空間音声生成手段も有する、
ことを特徴とする映像音声処理装置。 - 観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理方法であって、
前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定ステップと、
前記顔の位置及び姿勢から視線方向を推定する視線方向推定ステップと、
前記音声を用いて、発話の有無及び到来方向を推定する発話推定ステップと、
前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定ステップと、
前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御ステップと、
前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成ステップと、
を有することを特徴とする映像音声処理方法。 - 請求項6記載の映像音声処理方法であって、
前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成ステップも有する、
ことを特徴とする映像音声処理方法。 - 請求項6または7記載の映像音声処理方法であって、
前記仮想カメラ視点制御ステップは、
会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得ステップと、
前記方位角及び注視度取得ステップにおいて求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成ステップと、
を備える、
ことを特徴とする映像音声処理方法。 - 請求項8記載の映像音声処理方法であって、
前記方位角及び注視度取得ステップは、1以上の取得ステップを有し、
(A)複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得ステップと、
(B)二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得ステップと、
(C)複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得ステップの何れか、または、(A)〜(C)の少なくとも2つを組み合せることにより前記方位角及び前記注視度を求める、
ことを特徴とする映像音声処理方法。 - 請求項1から5記載の何れかの映像音声処理として、コンピュータを機能させるための映像音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009033169A JP4934158B2 (ja) | 2009-02-16 | 2009-02-16 | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009033169A JP4934158B2 (ja) | 2009-02-16 | 2009-02-16 | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191544A JP2010191544A (ja) | 2010-09-02 |
JP4934158B2 true JP4934158B2 (ja) | 2012-05-16 |
Family
ID=42817553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009033169A Active JP4934158B2 (ja) | 2009-02-16 | 2009-02-16 | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4934158B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7521328B2 (ja) | 2020-08-26 | 2024-07-24 | トヨタ自動車株式会社 | コミュニケーションシステム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6000609B2 (ja) * | 2012-04-12 | 2016-09-28 | キヤノン株式会社 | 被検体情報取得装置およびその制御方法 |
JP5987694B2 (ja) * | 2013-01-08 | 2016-09-07 | コニカミノルタ株式会社 | 会議用表示システム及び同システムにおけるカメラ映像の表示方法並びに表示制御プログラム |
JP6646967B2 (ja) | 2015-07-31 | 2020-02-14 | キヤノン株式会社 | 制御装置、再生システム、補正方法、及び、コンピュータプログラム |
CN106155326A (zh) | 2016-07-26 | 2016-11-23 | 北京小米移动软件有限公司 | 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备 |
JP6860178B1 (ja) * | 2019-12-27 | 2021-04-14 | Necプラットフォームズ株式会社 | 映像処理装置及び映像処理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0970031A (ja) * | 1995-09-01 | 1997-03-11 | Nec Eng Ltd | テレビ会議システム |
JPH11331827A (ja) * | 1998-05-12 | 1999-11-30 | Fujitsu Ltd | テレビカメラ装置 |
JP2000165831A (ja) * | 1998-11-30 | 2000-06-16 | Nec Corp | 多地点テレビ会議システム |
JP2003244669A (ja) * | 2002-02-14 | 2003-08-29 | Matsushita Electric Ind Co Ltd | 視線検出機能を有するテレビ会議システム |
JP4804801B2 (ja) * | 2005-06-03 | 2011-11-02 | 日本電信電話株式会社 | 会話構造推定方法、プログラム、および記録媒体 |
-
2009
- 2009-02-16 JP JP2009033169A patent/JP4934158B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7521328B2 (ja) | 2020-08-26 | 2024-07-24 | トヨタ自動車株式会社 | コミュニケーションシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2010191544A (ja) | 2010-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995902B2 (en) | Facial signature methods, systems and software | |
JP7110502B2 (ja) | 深度を利用した映像背景減算法 | |
US11736801B2 (en) | Merging webcam signals from multiple cameras | |
Busso et al. | Smart room: Participant and speaker localization and identification | |
Otsuka et al. | A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker diarization | |
JP4934158B2 (ja) | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム | |
US20190222806A1 (en) | Communication system and method | |
US9936163B1 (en) | System and method for mirror utilization in meeting rooms | |
WO2022110591A1 (zh) | 基于连麦直播的直播画面处理方法、装置及电子设备 | |
US11042767B2 (en) | Detecting spoofing talker in a videoconference | |
Chen et al. | Novel-view acoustic synthesis | |
CN114520888A (zh) | 影像撷取系统 | |
JP2007235969A (ja) | 映像記録システム、プログラム及び記録媒体 | |
CN109934150B (zh) | 一种会议参与度识别方法、装置、服务器和存储介质 | |
JP2011097447A (ja) | コミュニケーションシステム | |
Chen et al. | Sound to visual: Hierarchical cross-modal talking face video generation | |
JP2017108240A (ja) | 情報処理装置、及び情報処理方法 | |
Pingali et al. | Audio-visual tracking for natural interactivity | |
US20230122149A1 (en) | Asymmetric communication system with viewer position indications | |
JP3954439B2 (ja) | 映像記録システム、プログラム及び記録媒体 | |
TWI799048B (zh) | 環景影像會議系統及方法 | |
JP2020115609A (ja) | 音声録音装置及びその制御方法、並びにプログラム | |
Adachi et al. | Tablet system for sensing and visualizing statistical profiles of multi-party conversation | |
Canton-Ferrer et al. | Multimodal real-time focus of attention estimation in smartrooms | |
US20220301261A1 (en) | Device and method for identifying and outputting 3d objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101214 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4934158 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |