JP4934158B2 - 映像音声処理装置、映像音声処理方法、映像音声処理プログラム - Google Patents

映像音声処理装置、映像音声処理方法、映像音声処理プログラム Download PDF

Info

Publication number
JP4934158B2
JP4934158B2 JP2009033169A JP2009033169A JP4934158B2 JP 4934158 B2 JP4934158 B2 JP 4934158B2 JP 2009033169 A JP2009033169 A JP 2009033169A JP 2009033169 A JP2009033169 A JP 2009033169A JP 4934158 B2 JP4934158 B2 JP 4934158B2
Authority
JP
Japan
Prior art keywords
video
conversation
gaze
virtual space
azimuth angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009033169A
Other languages
English (en)
Other versions
JP2010191544A (ja
Inventor
和弘 大塚
弾 三上
淳司 大和
健太郎 石塚
雅清 藤本
章子 荒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009033169A priority Critical patent/JP4934158B2/ja
Publication of JP2010191544A publication Critical patent/JP2010191544A/ja
Application granted granted Critical
Publication of JP4934158B2 publication Critical patent/JP4934158B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Digital Computer Display Output (AREA)
  • Closed-Circuit Television Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は映像取得装置及び音声取得装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置、映像音声処理方法及び映像音声処理プログラムに関する。
会議やミーティングの状況を全方位カメラやマイクフォンアレイで撮影、収録した映像及び音声を処理する映像音声処理システムとして特許文献1が従来技術として知られている。このシステムでは、全方位カメラとマイクロフォンアレイを用いて、会話の状況を撮影し、話し手の音声を強調して出力したり、話し手の顔画像と音声との対応付けを行う機能が実現されている。なお、会話に参加しているものを「会話参加者」、発話している会話参加者を「話し手」、話し手以外の会話参加者を「聞き手」、話し手が話しかけている特定の聞き手を「相手」、生成された映像音声を視聴するものを「視聴者」という。
また、、全方位カメラを用いたシステムにおいては、得られる画像のゆがみを取るために360度の範囲を持つパノラマ画像へと展開を行い、その画像そのものをディスプレイ等に表示する方法(以下「全体画面法」という)も一般的である。また、パノラマ画像中から会話参加者の画像のみを切り出して、全員を表示する方法(以下「マルチ画面法」)も一般的な従来技術として知られている。
会話参加者の顔画像をカット編集を用いて切り替えて表示する映像処理方法として非特許文献1が従来技術として知られている。この方法では、より多くの会話参加者が注目する人物がその時点の会話において重要であるという仮定のもと、会話参加者の視線が最も集まる人物(以下「中心人物」という)の顔画像を時間的に切り替えて表示する。そのため、従来の音声に基づく会話参加者画像の提示方法とは異なり、話し手だけでなく聞き手の画像も選択される場合がある。これにより、相手が誰であるか視聴者にうまく伝達されることを期待している。
会話参加者の位置関係を視聴者が理解しやすくなる映像音声処理方法として、非特許文献2及び3が従来技術として知られている。STCTracker(Sparse Template Condensation Tracker:疎テンプレートコンデンセーション追跡法)により全周画像上の会話参加者の顔の位置と方向を推定する手法と、マイクからの音声信号から話し手の位置を特定する手法(音声区間検出と音声到来方向推定を組み合わせる手法)とを組み合わせることにより会話参加者の位置関係を推定し、会話シーンを俯瞰するパノラマ画像を円柱に投影する。
特開2004−32782号公報
竹前嘉修、大塚和弘、武川直樹、「対面の複数人対話を撮影対象とした対話参加者の視線に基づく映像切替え方法とその効果」、情報処理学会論文誌、社団法人情報処理学会、Vol.46、No.7(20050715)、pp.1752-1767 K. Otsuka, S. Araki, K. Ishizuka, M. Fujimoto, M. Heinrich, and J. Yamato, "A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization", Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008),pp257-264 大塚和弘、荒木章子、石塚健太郎、藤本雅清、大和淳司、「多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 〜 マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合」、情報処理学会研究報告、情報処理学会、2008.11.27・28、2008(115)、p55-62
しかしながら、特許文献1記載の従来技術は、撮影した映像・音声を視聴者に提示するための映像生成の手段としては、会話参加者が話すときにその話し手の画像を切り出して表示するといった単純な処理に限定されているため、視聴者は会話参加者の位置関係を把握するのが困難である。結果として、「誰が誰に話しかけているか」、「誰が誰に応答しているか」といった会話の構造や内容を理解しづらい。よって、視聴者が会話の構造等を理解しやすくするという課題がある。
また、他の一般的な従来技術は、全体画面法の場合、会話参加者の顔領域が画像上では小さく表示されるため、顔の表情や視線等が非言語情報が読み取りにくいという問題がある。よって、非言語情報を読み取りやすくするという課題がある。また、マルチ画面法の場合、非言語情報を読み取りやすくなるが、会話参加者が多い場合には、視聴者は、会話参加者全員が表示された画面から話し手及び聞き手が誰なのか判断しなければならず、結果として会話の構造等を理解しづらく、特許文献1と同様の課題がある。
非特許文献1記載の従来技術も、特に4人以上の会話の場合、視聴者は会話参加者の位置関係を把握するのが困難であり、会話参加者間の対話の様子を理解する映像として適切ではない。よって、特許文献1と同様の課題がある。さらに、処理する映像を取得するために、全体ショットに対し1台のカメラを必要とするのに加え、バストショット用に会話参加者1人に対し1台のカメラが必要となるという問題がある。また、会話参加者の視線方向を評定者が判断するため、自動化されたシステムではなく、実利用に向いた方法ではない。
非特許文献2及び3記載の従来技術は、会話シーンを俯瞰するパノラマ画像を円柱に投影するため、会話の構造等を理解しやすいが、画面上に会話参加者の顔を大きく表示する場合と比較すると、非言語情報が読み取りにくいという問題がある。但し、非特許文献2及び3記載の従来技術は、視聴者が、手動でカメラの視点を変更し、映像を生成することができる。この場合には、特定の会話参加者の顔の画像を大きく表示することもでき上記問題は生じない。しかし、手動操作によって、視聴者は会話に集中できず、結果として、会話内容が理解しにくいという問題がある。よって、自動的にカメラの視点が切り替わっていくようにするという課題がある。
上記の課題を解決するために、本発明の映像音声処理技術は、観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する。映像を用いて、パノラマ画像を生成し、パノラマ画像から会話参加者の顔の位置及び姿勢を推定する。顔の位置及び姿勢から視線方向を推定する。音声を用いて、発話の有無及び到来方向を推定する。顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する。会話状態のうち少なくとも一部を用いて、仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、方位角及び注視度を用いて、仮想カメラの視点を制御する制御パラメータを求める。パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、水平面と部分平面が所定の角度γを成すように配置し、制御パラメータを用いて、仮想カメラの視点の仮想空間映像を生成する。
本発明は、自動的に仮想カメラの視点を制御するため、非言語情報を読み取りやすく、会話の構造等を理解しやすいという効果を奏する。
実施例1に係る映像音声処理装置100の構成例を示す図。 会話参加者の配置例を示す図。 全方位カメラマイクシステムの構成例を示す図。 実施例1に係る映像音声処理装置100の構成例を示す図。 映像音声処理装置100の処理フロー例を示す図。 回転角r i,t,r i,t,r i,tを説明するための図。 顔位置姿勢推定手段110の構成例を示す図。 図8は、パノラマ画像f1の例を示す図。 顔テンプレートFの例を示す図。 視線方向を推定する方法を説明するための図。 ガウス分布の例を示す図。 発話推定手段130の構成例を示す図。 会話参加者画像f3を切り出す方法を説明するための図。 (a)は、X−Y水平面に部分平面f4を配置する例示す図。(b)は、仮想空間の例を示す図。 仮想カメラの視点を説明するための図。 仮想カメラ視点制御手段150の構成例を示す図。 仮想カメラ視点制御手段150の処理フロー例を示す図。 取得手段1591の処理フロー例を示す図。 ワンショット処理を行った場合、かつ、注視度が大きい場合の仮想空間映像f’の例を示す図。 ワンショット処理を行った場合、かつ、注視度が中程度場合の仮想空間映像f’の例を示す図。 俯瞰処理を行った場合の仮想空間映像f’の例を示す図。 ツーショット処理Aを行った場合の仮想空間映像f’の例を示す図。 取得手段1592の処理フロー例を示す図。 取得手段1593の処理フロー例を示す図。 (a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を示す図、(b)は、各会話参加者の視線方向の例を示す図。 取得手段1594の処理フロー例を示す図。 取得手段1595の処理フロー例を示す図。 取得手段1596の処理フロー例を示す図。 取得手段1597の処理フロー例を示す図。 取得手段1598の処理フロー例を示す図。 取得手段1599の処理フロー例を示す図。 注視度βと制御パラメータの関係を示す図。 仮想空間調整手段166の構成例を示す図。 仮想空間音声生成手段170の構成例を示す図。 本実施例における映像音声処理装置100のハードウェア構成を例示したブロック図。
以下、本発明の実施の形態について、詳細に説明する。
[映像音声処理システム10]
図1は、実施例1に係る映像音声処理装置100の構成例を示す。映像音声処理システム10は、映像音声処理装置100、観測装置20、出力装置40、記憶装置60及びユーザインターフェイス装置70を有する。
映像音声処理装置100は、観測装置20から得られる映像f及び音声mを用いて、3次元仮想空間上に表示する仮想空間映像f’及び仮想空間音声m’を生成する。生成された映像f’及び音声m’は、例えば、出力装置40において、表示及び再生される。
図2は、会話参加者の配置例を示す。この例では、5人の会話参加者Pi(i=1,2,…,Nであり、Nは会話参加者の人数、本実施例では、N=5)が丸テーブルの周りに着席し、会話をしている状況である。丸テーブルの中心をXY座標の原点とし、観測装置20が配置される。原点から各会話参加者への距離はほぼ一定とみなし、会話参加者の位置はX軸を基準として方位角αとして表される。
[観測装置20]
観測装置20は、映像取得装置21及び音声取得装置30を備える。例えば、全方位カメラとマイクロフォンアレーを統合した全方位カメラマイクシステムである。図3は、全方位カメラマイクシステムの構成例を示す。
<映像取得装置21>
映像取得装置21は、複数の人物が会話をしている状況を画像として撮影して出力する装置であり、例えば、全方位カメラ等である。全方位カメラは、ほぼ全周の領域が撮影範囲となるカメラである。例えば、全方位カメラは、2台のカメラ23A及び23Bからなり、各カメラは、魚眼レンズ25A、25Bを搭載する。この魚眼レンズ25A及び25Bは、おおよそ半球の領域をカバーできる。そのため、2台のカメラ23A及び23Bを互いに反対方向を向くように配置することでほぼ全周の領域を撮影することができる。カメラは一定の周期で画像を撮影する。例えばカメラとして、デジタルカメラを用い、画像サイズ2448×512画素を持つ画像を出力し、映像音声処理装置100とIEEE1394b規格にて接続する構成としてもよい。
<音声取得装置30>
音声取得装置30は、会話中に発せられる人物の声を収録して、電気信号として出力する装置である。例えば、マイクロフォンアレー等である。マイクロフォンアレーは複数の無指向性のマイク31A,31B及び31Cにより構成される。例えば、カメラ23A及び23Bの上部に、一辺4cmの三角形の頂点に各マイクが配置される構成としてもよい。
[出力装置40]
出力装置40は、映像表示装置41及び音声再生装置50を備える。映像表示装置41は、例えば、プロジェクターやディスプレイ等であり、映像f’を表示する。音声再生装置50は、例えば、モノラルスピーカやステレオスピーカ、サラウンドスピーカ等であり、音声m’を再生する。
[記憶装置60及びユーザインターフェイス装置70]
記憶装置60は、観測される映像f、音声m及び推定される会話状態等を記憶することができ、また、記憶されたデータを読み出して映像音声処理装置100に対して出力することができる。記憶装置60は、例えば、ハードディスク装置や固体メモリ等である。
ユーザインターフェイス装置70は、視聴者等のユーザが仮想カメラの視点を制御できる装置である。例えば、マウスや3次元マウス、ジョイスティック、タッチパッド等である。一般に、3次元の仮想空間上で後述する仮想カメラの視点を操作しようと考えた場合、仮想カメラの位置及び姿勢を制御する各パラメータ分の6自由度を操作しなければならず、ユーザの負担が大きい。本実施例では、仮想カメラの方位角と注視度により、仮想カメラの位置及び姿勢を制御することができる。そのため、ユーザは、直感的、かつ、容易に視点を制御することができ、より会話の内容に集中することができる。
なお、本実施例は発明の内容を限定するものではない。例えば、映像音声処理装置100は、観測装置から得られる映像f及び音声mを用いるが、必ずしも観測装置20から直接、映像f及び音声mを入力されなくともよく、記憶装置60や映像音声処理装置100内の記憶手段に記憶されている映像f及び音声mや、通信回線を通じて他の端末から受信した映像f及び音声mを用いて、3次元仮想空間上に表示する映像f’及び音声m’を生成してもよい。同様に、映像音声処理装置100は、生成した映像f’及び音声m’を必ずしも出力装置40に出力しなくともよく、映像音声処理装置100内の記憶手段に記憶しておいていもよいし、記憶装置60に出力してもよいし、通信回線を通じて他の端末に送信してもよい。また、生成する際に用いられる情報、及び、入出力される情報は、必要に応じて映像音声処理装置100内の記憶手段に記憶してもよいし、記憶装置60に記憶してもよい。また、後述する仮想カメラ視点を制御するパラメータは、映像音声処理装置100が求めた値でもよいし、ユーザインターフェイス装置70から入力された値を用いてもよい。
[映像音声処理装置100]
図4は、実施例1に係る映像音声処理装置100の構成例を、図5は、処理フロー例を示す。実施例1に係る映像音声処理装置を説明する。
映像音声処理装置100は、入力手段101、出力手段102、記憶手段103、制御手段105、顔位置姿勢推定手段110、視線方向推定手段120、発話推定手段130、会話状態推定手段140、仮想カメラ視点制御手段150、仮想空間映像生成手段160、仮想空間調整手段166、仮想空間音声生成手段170を有する。
<入力手段101、出力手段102、記憶手段103及び制御手段105>
入力手段101は、映像音声処理装置100が、映像音声処理装置100の外部にある別のシステムや装置から情報を入力または受信することを可能にするための任意の適切な手段である。したがって、入力手段101は、ハードウェア(例えば、モデム、DSLモデム、コネクタ、バス、ポート、シリアルポート、IEEE1394ポート、USBポート、ネットワークカードなど)、ソフトウェア(通信ソフトウェア、ネットワークソフトウェアなど)、ファームウェア、または、それらの組み合わせを含んでよい。同様に、出力手段102は、映像音声処理装置100が、映像音声処理装置100の外部にある別のシステムや装置へ出力または送信することを可能にするための任意の適切な手段である。
記憶手段103は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶手段103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
制御部105は、各処理を制御する。
<顔位置姿勢推定手段110>
顔位置姿勢推定手段110は、映像fを用いて、パノラマ画像f1を生成する。顔位置姿勢推定手段110は、そのパノラマ画像f1から会話参加者の顔の位置及び姿勢を推定する(s110)。顔位置姿勢推定手段110は、映像取得手段21から得られる映像fを直接に、または間接的に、入力され、パノラマ画像f1及び顔の位置及び姿勢を出力する。例えば、非特許文献2、3記載の方法により、顔の位置及び姿勢を推定してもよい。但し、他の方法により、顔位置及び姿勢を推定してもよい。なお、時刻tにおける会話参加者iの顔の位置及び姿勢を顔状態ベクトルsi,t=[xi,t,yi,t,r i,t,r i,t,r i,t]として表す。但し、xi,t,yi,tを顔の中心の画像座標、r i,t,r i,t,r i,tを画像座標xi,t,yi,tの各軸及び画像座標系に直交する軸まわりの回転角を表す。なお顔の姿勢は、仮想カメラに正対する方向を(r i,t,r i,t,r i,t)=(0,0,0)とする。図6は、回転角r i,t,r i,t,r i,tを説明するための図である。以下、一例を示す。本実施例では、顔状態ベクトルを推定する手段として、画像上での顔追跡法を利用する。この方法では、初期時刻t0において、各会話参加者Piの正面顔の輝度分布を顔テンプレートとして記憶しておき、その後の各時刻tの入力画像とそのテンプレートとの照合により、顔追跡を行う。照合は、顔テンプレートの輝度と入力画面の輝度との差分(以下「照合誤差」という)に基づく処理であり、照合誤差が最も小さくなるテンプレートの状態を探索することにより実現される。
図7は、顔位置姿勢推定手段110の構成例を示す。顔位置姿勢推定手段110は、パノラマ展開部111とパーティクルフィルタリング部112と初期化部113を有する。
パノラマ展開部111は、時刻tにおいて得られた映像fをパノラマ画像f1へと変換する。例えば、魚眼レンズの射影方式は等距離射影(通称f・θ)である。この方式では、世界座標系上の一点が画像平面上に投影されるとき、その画像中心からの距離は入射角θに比例する。各カメラ23A、23Bにて得られた映像fは、魚眼レンズ25A、25B特有の歪みが含まれる。上記射影方式に基づき、この歪みを取り除いたパノラマ画像f1へと変換する。このパノラマ画像f1は、横軸がカメラを基準とした方位角αに対応し、縦軸が実空間の鉛直方向に対応した画像である。図8は、パノラマ画像f1の例を示す。図8では、カメラ23A、23Bで撮影された映像を上下に並べた合成画像である。以後の処理では、簡略化のため、この合成画像を用いる。
初期化部113は、顔検出部117、特徴抽出部118を備える。初期化部113は、パノラマ画像f1を用いて、各会話参加者毎に顔テンプレートFiを生成する。図9は、顔テンプレートFの例を示す。この顔テンプレートFは、疎テンプレートと呼ばれ、複数の離散的な画素Dj(以下「注目点」と呼ぶ、図9中の黒丸部部である、j=1,2,…,Jであり、Jは注目点の個数)の集合により構成される。顔テンプレートは、各注目点Diのx,y座標及び輝度値bjにより記述され、顔の位置及び姿勢を含んだ情報である。
初期化部113内の顔検出部117は、パノラマ画像f1を入力され、パノラマ画像f1中から正面顔領域f2i(図6参照)を検出し、特徴抽出部118へ出力する。
特徴抽出部118は、顔領域f2i上において顔部品のエッジを抽出し、抽出したエッジの近傍にランダムに注目点Djを配置する。さらに、特徴抽出部118は、注目点の座標とその座標における画像の輝度値の組の集合を顔テンプレートFiとしてを出力する。
パーティクルフィルタリング部112は、予測部114、更新部115、平均化部116を備える。パーティクルフィルタリング部112は、顔テンプレートFiを用いて、パーティクルフィルタと呼ばれる手法により、顔追跡を実現する。なお、パーティクルフィルタでは、推定したい対象の状態の確率分布をパーティクルと呼ばれるサンプルの集合として表す。各パーティクルは、その属性として対象の状態の仮説と、重みの組として表される。この重み付きパーティクルの集合を各時刻において更新することで対象の状態が逐次的に推定される。各会話参加者iの各時刻tにおける顔状態ベクトル、つまり顔テンプレートの状態がパーティクルの状態に相当する。
更新部115は、時刻tにおけるパーティクルの集合C(C=(c1,c2,…,ck,…,cK)であり、ckは各パーティクルを表す。k=1,2,…,Kであり、Kはパーティクルの個数)の各パーティクルckについて、現時刻tのパノラマ画像f1との照合誤差を計算する。より照合誤差の小さいパーティクルに対し、高い重みを与え、パーティクルの集合Cを更新しC’とする。
平均化部116は、パーティクルC’kの状態と重みより計算される代表値(例えば、重み付き平均値)として、各会話参加者iの顔状態ベクトルsi,tが計算される。
予測部114は、各時刻tにおいて得られたパーティクル集合C’から次時刻t+1におけるパーティクル集合Ct+1を予測する。なお、この予測は、現時刻tから次時刻t+1までの間に対象となる顔状態ベクトルが変わりえる範囲を考慮して行われる。
<視線方向推定手段120>
視線方向推定手段120は、顔状態ベクトルsから視線方向gを推定する(s120)。視線方向推定手段120は、顔位置姿勢推定手段110から少なくともx座標上の位置xと、y軸周りの回転角r を入力され、視線方向g及び方位角αを出力する。例えば、非特許文献2、3記載の方法により、視線方向を推定してもよい。但し、他の方法により、視線方向を推定してもよい。本実施例では、頭部方向により、視線方向を近似的に推定する。なお、視線方向は、誰が誰に視線も向けているか、または、誰の方も見ていないか、という対人視線方向のことを指し、g=jは会話参加者iの視線方向が他の会話参加者jに向いていることを表す。なお、会話参加者iの視線方向が他の全ての会話参加者の何れにも向いていない場合等は、g=0としてもよい。また、時刻については、顔状態ベクトル、視線方向ともに同時刻tにおける処理であり、表記を省略している。
視線方向推定手段120は、x座標上の位置xを用いてカメラに対する会話参加者の方位角αを求める。各会話参加者iの顔状態ベクトルs=[x,y,r ,r ,r ]のxは、画像上での座標であるため、カメラに対する方位角αを求める。なお、「顔の位置」とは、x座標上の位置xであってもよいし、カメラに対する方位角αであってもよい。図3のカメラ23Aの画像について、α=π(1−x/W)として計算でき、カメラ23Bの画像について、α=π(2−x/W)として計算できる。なお、Wは画像の横幅であり、180度の範囲に一致する。
さらに、視線方向推定手段120は、α及び画像座標のy軸周りの回転角r を用いて、会話参加者iの視線方向gを推定する。図10は、視線方向を推定する方法を説明するための図である。会話参加者iの顔が他の会話参加者jの方向に真っ直ぐ向けられているときの会話参加者iの回転角をr i,jと表す。r i,jは、以下のように表すことができる。
i,j=tan−1[1/tan((α+α)/2)]
この角度r i,jを用いて、会話参加者iが他の会話参加者jに視線をむけているときの顔の回転角r の尤度関数を定義する。
L(r |g=j):=N(r |k・r i,j,σ
N(・|μ,σ)は、平均μ=k・r i,j、分散σのガウス分布を表す。kは定数を表し、本実施例では1である。図11は、ガウス分布の例を示す。会話参加者P1がP2を見ているときのガウス分布を線12とし、会話参加者P1がP3を見ているときのガウス分布を線13として表している。また、会話参加者P1が誰も見ていないときは、一様分布を用い、線9として表している。このような尤度関数を用いて最尤法により、会話参加者の視線方向gを推定する。
なお、視線方向を推定する方法として、パノラマ画像f1から直接各会話参加者の眼球の位置を計測し、y軸周りの回転角r と併せて利用し、視線方向を推定する方法等を用いてもよい。
<発話推定手段130>
発話推定手段130は、音声を用いて、発話の有無及び到来方向を推定する(s130)。発話推定手段130は、音声取得装置30から得られる音声mを直接的または間接的に入力され、発話の有無及び到来方向を出力する。例えば、非特許文献2、3記載の方法により、発話の有無及び到来方向を推定してもよい。但し、他の方法により、発話の有無及び到来方向を推定してもよい。
図12は、発話推定手段130の構成例を示す。発話推定手段130は、周波数領域変換手段131、到来方向推定手段133、音声区間検出手段135、クラスタリング手段137及び閾値処理手段139を備える。
周波数領域変換手段131は、時間領域の音声信号mを、短時間フーリエ変換等により周波数領域の信号Mに変換する。
音声区間検出手段135は、周波数領域の信号Mを用いて、発話活動の検出(人の声と雑音との判別)を行い、発話の有無を出力する。例えば、具体的な手法としては、MUSCLE−VAD(Multi Stream Combination of Likelihood Evolution of VAD)を用いることができる。この方法は、発話・非発話の弁別器として2種類の方法を組み合わせたものである。一つの方法は、PARADEと呼ばれる信号の周期成分と非周期成分との比率に基づく方法である。もう一つの方法は、SKT(Switching Kalman Filter:スイッチングカルマンフィルタ)を用いた方法である。PARADEは、突発的なノイズに対して頑健である。SKTは、定常ノイズと非定常ノイズの双方に対して頑健である。よってこれら2つの方法を用いたMUSCLE−VADは、幅広い種類のノイズに対して頑健であることが知られている。
到来方向推定手段133は、周波数領域の信号Mを用いて、音声の到来方向(DOA)を推定し、出力する。例えば、具体的な手法としてTFDOA(Time-freqency domain DOA:時間周波数領域DOA)法を用いることができる。
クラスタリング手段137は、発話の有無とDOAを用いて、発話があるとされる時間において、到来方向のクラスタリングを行う。各クラスタが各々会話参加者に対応するため、各会話参加者の発話の有無が推定できる。
閾値処理手段139は、前時刻t−1までに得られたクラスタの中心の到来方向と現時刻tで得られた到来方向との距離(方位角の差)が、閾値以上の場合には、新たな話者として検出する。このような構成とすることで、オンラインクラスタリングにおいて、新たな話者を検出し、会話参加者数が未知の場合にも発話検出が可能となる。
<会話状態推定手段140>
会話状態推定手段140は、顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する(s140)。会話状態推定手段140は、視線方向推定手段140からα,gを、発話推定手段130から発話の有無及び到来方向を入力され、会話状態を出力する。例えば、非特許文献2、3記載の方法により、会話状態を推定してもよい。但し、他の方法により、会話状態を推定してもよい。
会話状態推定手段140は、カメラに対する方位角αと発話の到来方向から話し手を推定し、顔の位置、視線方向、発話の有無及び到来方向を統合した会話状態H={α,g,v}を出力する。但し、vは、会話参加者iの発話の有無を表す。例えば、発話がある場合には、v=1とし、発話がない場合には、v=0とする。
<仮想空間映像生成手段160>
仮想空間映像生成手段160は、パノラマ画像f1と顔位置x,yから、会話参加者画像f3を切り出し、切り出した会話参加者画像f3を部分平面f4に射影し、部分平面f4を実際の会話参加者Piの配置と対応するように配置する。なお、その際、仮想空間上のX−Y水平面に、水平面と部分平面f4が所定の角度γを成すように配置する。さらに、制御パラメータUを用いて、仮想空間上のカメラ(以下「仮想カメラ」という)の視点を制御し、この視点における仮想空間映像f’を生成する(s160)。例えば、非特許文献2、3記載の方法により、仮想空間を生成してもよい。但し、他の方法により、仮想空間を生成してもよい。なお、仮想空間映像f’は、後述する仮想カメラ視点制御部150で求めた制御パラメータUを用いて制御される仮想カメラの視点を用いて生成する。なお、制御パラメータUの理解を容易にするために、処理手順とは異なるが、仮想カメラ視点制御手段160の処理内容より先に仮想空間映像生成手段160を説明する。
図13は、会話参加者画像f3を切り出す方法を説明するための図である。仮想空間映像生成手段160は、まずパノラマ画像f1上から会話参加者Piの顔を含む部分領域である参加者画像f3を切り出す。参加者画像f3は、顔の中心の画像座標x,yを中心付近に含むように四つの頂点(p00,p01,p10,p11)をもつ長方形の領域であり、各時刻毎に決定される。図14(a)は、X−Y水平面に部分平面f4を配置する例を、図14(b)は、仮想空間の例を示す。参加者画像f3を仮想空間上の矩形上の部分平面f4に射影する。パノラマ画像f1の頂点(p00,p01,p10,p11)に対応する仮想空間上の頂点を同じ記号(p00,p01,p10,p11)で表している。この部分平面f4は、仮想空間上の地平面(X−Y平面)にその底辺を接地している。但し、必ずしも地平面でなくともよく、X−Y平面の水平面に各部分平面f4が接地していればよい。各部分平面f4は、原点Oを中心とする円周に線分p1011の中点が接するように配置する。円周上の位置は、方位角αにより定まる。さらに、各部分平面f4は、地平面(X−Y平面)と所定の角度γ(例えば、75度)をなすように傾斜して配置される。各会話参加者Piについて、上記処理を行うことで、実空間上での配置関係を反映した仮想空間を生成することができる。図14(b)は、仮想空間のX−Y平面を上部より見下ろした構図となっている。Z軸は、手前に伸びている。この場合、必要な情報は、パノラマ画像f1と顔位置情報x,yであり、顔位置姿勢推定手段110から直接または間接的に入力される。方位角αは計算により求めてもよい。
仮想空間映像生成手段160では、さらに、各参加者のカメラに対する顔の位置α(方位角)、視線方向g、発話の有無v、顔の姿勢r 、r 、r 、最も他の会話参加者の視線が集中している会話参加者k(以下「中心人物」という)等の情報を併せて描画することができる。図14(b)中、円αは顔の位置α(方位角)を、矢印gは視線方向gを、黒丸vは発話の有無を、円αから伸びる線分は顔の姿勢r 、r 、r を、円αの輪kは、複数の会話参加者の視線が集中している会話参加者kを表す。なお、各情報を表示する場合には、各情報(顔状態ベクトルや会話状態)を顔位置姿勢推定手段110や会話状態推定手段150から直接または間接的に入力される。
仮想空間映像生成手段160は、制御パラメータUを用いて制御される仮想カメラの視点における仮想空間映像f’を生成する。制御パラメータUは後述する仮想カメラ視点制御手段150において、求められる。図15は、仮想カメラの視点を説明するための図である。仮想カメラの位置Cを記述するために、原点O’の角座標系(θ−φ−ρ)を用いる。原点O’は、仮想空間上の点(0,0,H)である。θはX軸となす角、φはZ軸となす角、ρは原点O’からの距離を表す。仮想カメラの姿勢を記述するために、原点Cのカメラ座標系(C,C,C)を用いる。ここで、仮想カメラの姿勢を決定するために、仮想的な注視点Qを用いる。カメラ座標系のC軸は、仮想カメラの光軸であり、仮想カメラの位置Cと注視点Qを結んだ直線上に位置する。カメラ座標系のC軸は、仮想空間上のX−Y平面に平行に位置する。注視点Qは、仮想空間のZ軸の値を所定の値qとする。注視点Qを仮想空間上のX−Y平面上に射影した点Q’との距離をqx’とすると、点Qは、仮想カメラの位置Cと注視点Qを結んだ直線上に位置するため、qx’により一意に定まる。
この仮想空間映像f’の生成には、中心射影を用いる。つまり仮想空間上の対象(画像や記号)上の各点とカメラ位置Cとを結ぶ直線と投影面f5の交点が計算され、その交点の輝度値、色合いが対応する対象の各点のそれに応じて決定される。この投影面f5上の輝度値や色合いの分布が仮想空間映像f’となる。
<仮想カメラ視点制御手段150>
仮想カメラ視点制御手段150は、会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、方位角及び注視度を用いて、仮想カメラの視点を制御する制御パラメータを求める(s150)。
図16は、仮想カメラ視点制御手段150の構成例を示す。図17は、仮想カメラ視点制御手段150の処理フロー例を示す。仮想カメラ視点制御手段150は、方位角及び注視度取得手段152及び制御パラメータ取得手段154を有する。
<方位角及び注視度取得手段152>
方位角及び注視度取得手段152は、会話状態Hのうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める(s152)。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、カメラ位置と注視点を決定する3つの制御パラメータφ、ρ、qx’を制御するパラメータである。注視度は、例えば、0から1の範囲の値をとり、注視度0の場合、図14(b)のように会話参加者全員の顔画像、及び、顔の姿勢や発話の有無等を表す各種情報を仮想空間映像f’に含めることを意図して、仮想カメラは、仮想空間上のZ軸上に位置し、そこから真下を向くように配置される。つまり、俯瞰図を映し出すように配置される。また、注視度1の場合、特定の会話参加者の顔画像が大きく映像中にしめるような位置に仮想カメラが配置される。注視度と制御パラメータUの関係は、制御パラメータ取得手段154において詳しく説明する。方位角θは、人物の選択を制御するパラメータである。方位角θは、仮想空間の原点に対する仮想カメラの方位角であり、例えば、中心に表示したい会話参加者の方位角をαとするとθ=α+πとなる。
方位角及び注視度取得手段152は、投票数カウント手段156、取得方法選択手段157、蓄積部158、取得手段1591,1592,…,159E(Eは方位角及び注視度取得手段158が備える取得手段の個数を表し、E≧1)、制御パラメータ取得方法切替部180を備える。但し、方位角及び注視度取得手段152は、取得手段159e(e=1,2,…,E)の処理内容によっては、投票数カウント手段156、取得方法選択手段157、蓄積部158を備えなくともよい。
<投票カウント手段156及び蓄積部158>
投票カウント手段156は、視線方向gを用いて、投票数cntを各会話参加者cnt毎に計算し、蓄積部158に出力する(s156)。なお、投票数とは、他の会話参加者から受けている視線の数であり、視線方向gから求められる。各会話参加者iの視線方向が誰に向かっているかをカウントすることで得られる。例えば、図14(b)において、会話参加者P3は、他の会話参加者から視線を受けているためcnt=4、会話参加者P4はP3から視線を受けているため、cnt=1、他の会話参加者はcnt=0となる。
蓄積部158は、所定の時間に得られる会話状態及び投票数を蓄積する。
<取得方法選択手段157>
取得方法選択手段157は、E個の取得手段から1つの取得手段を選択する(s157)。さらに、取得方法選択手段157は、選択した取得手段に対し処理を指示する信号を出力する。また、蓄積部158に対し、必要な情報を選択した取得手段に対し出力するように指示する信号を出力する。取得方法の選択及び切替ルールとしては、イベント生起のタイミング(例えば、利用者等が取得方法を選択した場合等)で切り替える方式や、一定時間毎に切り替える方式、ランダムに切り替える方式等が考えられる。
<取得手段159e>
取得手段159eは、視線方向gか発話の有無vか投票数cntのうちの少なくとも一つと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s159)。例えば、取得手段としては、以下のような方法が考えられる。但し、下記の方法に限定するものではなく、他の方法により注視度β及び仮想カメラの方位角θを求めてもよい。
取得手段1591〜1594は、少なくとも投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める。取得手段1591〜1594は、複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように方位角及び注視度を求める。投票数cntを用いて、中心人物maxを求め、中心人物の行動に着目して処理を行う。また、最も他の会話参加者の視線が集中している会話参加者が1人の場合に、その会話参加者を中心人物maxという。最も他の会話参加者の視線が集中している会話参加者が2人以上いる場合には(つまり、投票数が同じ場合)、中心人物不在として処理する。
<取得手段1591>
図18は、取得手段1591の処理フロー例を示す。取得手段159eは、投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1591)。
取得手段1591は、中心人物が存在する場合(s1591a)、中心人物maxが仮想空間映像f’の中央に表示されるように仮想カメラの方位角θを求め、中心人物maxの投票数cntmaxの大きさが大きければ大きいほど、注視度βが大きくなるように求める(以下「ワンショット処理」という)(s1591b)。図19は、ワンショット処理を行った場合、かつ、注視度が大きい場合の仮想空間映像f’の例を、図20は、ワンショット処理を行った場合、かつ、注視度が中程度場合の仮想空間映像f’の例を示す。例えば、以下の式によって、β、θを求める。
β=cntmax/(N−1)
θ=αmax+π
なお、中心人物不在の場合(最も他の会話参加者の視線が集中している会話参加者が2人以上いる場合)(s1591c)、現状を維持する。つまり、現時刻tの値として一つ前βt−1,θt−1の値を出力する。なお、出力省略してもよいし、変更がない旨の特定の信号を出力してもよい。
また、最も他の会話参加者の視線が集中している会話参加者が3人以上いる場合以下のような処理を行ってもよい。β=0とし、θについては、現時刻tの値として一つ前θt−1の値を保持する方法(以下、「俯瞰処理」という)などが考えられる。図21は、俯瞰処理を行った場合の仮想空間映像f’の例を示す。
また、最も他の会話参加者の視線が集中している会話参加者が2人の場合には、以下のような方法も考えられる。この2人の方位角をαS1、αS2として(但し、αS1≧αS2)、仮想カメラの方位角θを以下のように求める。
θ=π+{(αS1+αS2)/2}
αS1−αS2≧π ⇒ sub=2π−(αS1−αS2
αS1−αS2<π ⇒ sub=αS1−αS2
subは、2人の方位角をαS1、αS2の角度差(0≦sub≦π)を表し、subが大きければ大きいほど、注視度βが小さくなるように求める(以下、「ツーショット処理A」という)。図22は、ツーショット処理Aを行った場合の仮想空間映像f’の例を示す。これは、subが大きい場合には、二人の距離が離れており、仮想カメラ内に収めるためには、注視度を下げる必要があるためである。例えば以下のように求める。
β=0.8 if 0≦sub<π/4
β=0.6 if π/4≦sub<π/2
β=0.4 if π/2≦sub<3π/4
β=0.2 if 3π/4≦sub<π
また、最も他の会話参加者の視線が集中している会話参加者が2人以上いる場合には、その会話参加者をを交代で仮想空間映像f’の中央に表示するようにθ、βを求めてもよい。
<取得手段1592>
図23は、取得手段1592の処理フロー例を示す。取得手段1592は、視線方向g及び投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1592)。中心人物不在の場合(s1592a)、現状を維持する(s1592b)。中心人物が存在する場合、取得手段1592は、所定時間T2の中心人物の視線方向gmax=(gmax,t−T2,gmax,t−T2+1,…,gmax,t)を蓄積部158から取得する(s1592c)。なお、gmax,tは時刻tにおける中心人物の視線方向を表す。中心人物の視線方向を他の会話参加者毎にカウントする(s1592d)。つまり、所定時間T2内に、何回、gmax=1となるかカウントし、gmax=2となるかカウントし、…、gmax=Nとなるかカウントする。このカウントして得られた値の中で最大値MAXと、カウントして得られた値の平均値AVを求める(s1592e)。最大値MAXと平均値AVの差を求め、この差が閾値以下の場合には(s1592f)、俯瞰ショット処理を行う(s1592g)。閾値以上の場合には、現状を維持する(s1592h)。
このような処理を行うことで、中心人物が他の会話参加者を満遍なく見る場合、または、視線を逸らしている場合には、他の参加者の顔が仮想空間映像f’に納まる。これにより、中心人物が複数の会話参加者に対して均等に情報伝達を試みている状況等を映像化することができる。
<取得手段1593>
図24は、取得手段1593の処理フロー例を示す。取得手段1593は、発話の有無v及び投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1593)。中心人物不在の場合(s1593a)、現状を維持する(s1593b)。中心人物が存在する場合、取得手段1593は、中心人物以外の会話参加者の発話の有無v(但し、vmaxを除く)を取得する(s1593c)。中心人物以外の会話参加者の発話がない場合(s1593d)、現状を維持する(s1593e)。中心人物以外の会話参加者の発話がある場合、さらに、g=maxが成り立つか否かを判定する(s1593f)。但し、Jは話し手であり、g=maxは、話し手が中心人物を見ていることを表す。g=maxが成り立たない場合には、現状を維持する(s1593e)。成り立つ場合、その話し手Jと中心人物が仮想空間映像f’内に納まり、中心人物を画面中央寄りに表示するように、中心人物を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める(以下「ツーショット処理B」という)(s1593g)。2人の方位角をαS1、αS2として(但し、αS1≧αS2)、ツーショット処理Bでは、仮想カメラの方位角θを以下のように求める。
max=αS1 ⇒ θ=π+{(αmax+α)/2}+k
max=αS2 ⇒ θ=π+{(αmax+α)/2}−k
但し、kは所定の値(例えば、k=10π/360)である。なお、所定の値に対し、二つの投票数の差SUB(≧0)を反映させてもよい。つまり、kに代え、+k・SUBまたは−k・SUBを加える。注視度βについては、ツーショット処理Aと同様の方法により求める。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を、図25(b)は、各会話参加者の視線方向の例を示す。なお、この例の場合、会話参加者P1が中心人物である。このような処理を行うことによって、中心人物以外の話し手が、中心人物に対して相槌や返事をしている場合に、その会話構造を仮想空間映像f’に納めることができる。なお、取得する発話の有無v(但し、vmaxを除く)は、蓄積部158から所定時間T3分取得し(v=(vi,t−T3,vi,t−T3+1,…,vi,t))、所定時間T3内で一定時間以上、発話がある場合に、上記処理を行う構成としてもよい。これにより、発話の誤検出の場合等に仮想カメラ視点が変わるのを防ぐことができる。
<取得手段1594>
図26は、取得手段1594の処理フロー例を示す。取得手段1594は、取得手段1592と同様に、視線方向g及び投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1594)。中心人物不在の場合(s1594a)、現状を維持する(s1594b)。中心人物が存在する場合、取得手段1594は、所定時間T4の中心人物の視線方向gmax=(gmax,t−T4,gmax,t−T4+1,…,gmax,t)を蓄積部158から取得する(s1594c)。中心人物の視線方向を他の会話参加者毎にカウントする(s1594d)。このカウントして得られた値の中で最大値MAXが、会話参加者毎のカウントの和SUMに対する割合MAX/SUMが閾値(例えば、0.8)以上の場合(s1594e)、その会話参加者と中心人物が仮想空間映像f’内に納まるように、最大値となった会話参加者と中心人物を対象として、中心人物を画面中央寄りに表示するようにツーショット処理Bを行う(s1593f)。閾値未満の場合、現状を維持する(s1593g)。
このように処理を行うことによって、中心人物が特定の他の会話参加者に対して話し掛ける場合、その他の会話参加者の反応等を仮想空間映像f’に納めることができる。
ある一人の会話参加者が、他の会話参加者に話し掛ける場合、他の会話参加者の視線が話し手に集中するとい性質があるため、視線パターンを検出することで、この場面を検出できる。中心人物が存在する場合に、取得手段1951〜1954を用いて、その状況を明確に映像化することができる。中心人物の顔表情やジェスチャなど非言語情報を分かりやすく映すとともに、中心人物が注目している他の会話参加者の反応や場の雰囲気等を適宜切り替えて映すことができる。また、取得手段1951〜1954は適宜組み合わせて利用することができる。
以下、説明する取得手段1595〜1597は、二人の会話参加者の視線が相互に互いを見ている場合には、二人の会話参加者を仮想カメラの視野に収めるように方位角及び注視度を求める。会話参加者のうち特定の二者i,jが互いに見る場合(以下「視線交差」または「相互凝視」という)、その二者間に閉じたインタラクションが生じている可能性が高い性質を利用する。この場合、視線パターンの中に相互凝視が存在し、それが、一定時間持続する場合に、この手段を用いる。この場合、これら二者を画面内に納めるように仮想カメラの方位角と注視度の制御を行う。具体的な手段としては、以下のいずれか、または、組み合わせが利用できる。
<取得手段1595>
図27は、取得手段1595の処理フロー例を示す。取得手段1595は、視線方向gと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1595)。取得手段1595は、所定時間T5の全ての会話参加者の視線方向g=(gi,t−T5,gi,t−T5+1,…,gi,t)を蓄積部158から取得する。会話参加者の内、特定の会話参加者S1の視線方向gS1を他の会話参加者毎にカウントする。このカウントして得られた値の中で最大値MAXS1を用いて、会話参加者毎のカウントの和SUMS1に対する割合MAXS1/SUMS1を求め、この割合が閾値(例えば、0.9)以上の場合、会話参加者S1は最大値となった会話参加者(例えば、S2とする)を凝視していたとみなす。同様の処理を全ての会話参加者に対して行う。そして、会話参加者S2の割合MAXS2/SUMS2が閾値(例えば、0.9)以上の場合、S1とS2の間に相互凝視が存在しているとみなす。取得手段1595は、相互凝視が存在しているか否か判定し、一組の相互凝視が存在している場合(s1595a)、二者S1,S2の画面上での顔の位置が平行になるようにツーショット処理Aを行う(s1595b)。なお、ツーショット処理Aにより生成された仮想空間映像の例を図22に示す。相互凝視が存在していない場合や二組以上の相互凝視が存在する場合、現状を維持する(s1595c)。但し、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合には、中心人物が存在するか否かを判定し、取得手段1591〜1954を組み合わせてθ、βを取得する構成としてもよい。
<取得手段1596>
図28は、取得手段1596の処理フロー例を示す。取得手段1596は、視線方向gと投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1596)。取得手段1596は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合(s1596a)、現状を維持する(s1596c)。一組の相互凝視が存在している場合、取得手段1596は、cntS1とcntS2を比較し(s1596b)、値が大きいほうの会話参加者を画面中央寄りに表示するように、ツーショット処理Bを行う(s1596d)。2人の方位角をαS1、αS2として(但し、αS1≧αS2)、ツーショット処理Bでは、仮想カメラの方位角θを以下のように求める。
cntS1>cntS2 ⇒ θ=π+{(αS1+αS2)/2}+k
cntS1<cntS2 ⇒ θ=π+{(αS1+αS2)/2}−k
cntS1=cntS2 ⇒ θ=π+{(αS1+αS2)/2}
但し、kは所定の値(例えば、k=10π/360)である。なお、所定の値に対し、二つの投票数の差SUB(≧0)を反映させてもよい。つまり、kに代え、+k・SUBまたは−k・SUBを加える。注視度βについては、ツーショット処理Aと同様の方法により求める。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を、図25(b)は、各会話参加者の視線方向の例を示す。
<取得手段1597>
図29は、取得手段1597の処理フロー例を示す。取得手段1597は、視線方向gと発話の有無vと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1597)。取得手段1597は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合(s1597a)、現状を維持する(s1597c)。一組の相互凝視が存在している場合、取得手段1597は、蓄積部158から相互凝視を行う会話参加者S1、S2の所定時間T6分の発話の有無viを取得し(vS1=(vS1,t−T6,vS1,t−T6+1,…,vS1,t)、vS2=(vS2,t−T6,vS2,t−T6+1,…,vS2,t))(s1597b)、所定時間T6内での発話の割合を算出する(s1597d)。ツーショット処理Bと同様に、割合が大きいほうの会話参加者を画面中央寄りに表示するように、割合の大きい参加会話者を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める(以下「ツーショット処理B’」という。)(s1597e)。図25(a)は、ツーショット処理Bを行った場合の仮想空間映像f’の例を示す。
取得手段1595〜1597を用いることにより、2人の会話参加者がインタラクションを行う場面を明瞭に映像化することができる。特に、取得手段1596及び1597は、通常の映画映像でよく用いられる肩越しショットの模擬と考えることができる。
<取得手段1598>
図30は、取得手段1598の処理フロー例を示す。取得手段1598は、視線方向gと発話の有無vと投票数cnt、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1598)。取得手段1598は、複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように方位角及び注視度を求める。
取得手段1598は、中心人物が存在しない場合(s1598a)、現状を維持する(s1598b)。中心人物maxが存在する場合、取得手段1598は、所定時間T7分の中心人物の視線方向gmax、及び、発話の有無vを蓄積部158から取得する(s1598c)。所定時間T7内で中心人物の視線方向が特定の会話参加者J1からJ2に変化し、かつ、変化後にvJ2が発話をしている場合(s1598d)、会話参加者J2のワンショット処理、または、会話参加者J2を画面中央寄りとして中心人物とのツーショット処理を行う(s1598f)。その他の場合、現状を維持する(s1598e)。これは、中心人物が他の会話参加者に対して発話を促すよう他者の方向をみる場面に相当する。そして、このような状況は、話し手の交代の場面に相当する。この場面では、中心人物の視線方向の変化と、新たな視線の対象の発話の有無に連動して注視度及び仮想カメラの方位角を求める。
以上、取得手段1591〜1598は、単独で使用することもできるし、組み合わせて新たな手段とすることもできる。組み合わせた場合の取得手段1599について説明する。
<取得手段1599>
図31は、取得手段1599の処理フロー例を示す。取得手段1599は、視線方向g、発話の有無v、投票数cntと、方位角αを用いて、注視度β及び仮想カメラの方位角θを求める(s1599)。
取得手段1599は、中心人物が存在し(s1599a)、かつ、中心人物の投票数と2番目に大きい投票数の差が閾値Th1よりも大きく(s1599b)、かつ、中心人物の投票数が閾値Th2よりも大きく(s1599c)、中心人物以外の発話がある(s1599e)場合には、取得手段1593を用いて、θ、βを求める(s1599l)。よって、応答者と中心人物のツーショット処理が行われる。ツーショット処理Bを用い、中心人物が画面中央寄りに表示されるようにする。中心人物以外の発話がない(s1599e)場合には、取得手段1591を用いて処理を行う(s1599m)。よって、中心人物の大きなワンショット処理が行われる。投票数の大きな中心人物に特に注目して、なおかつ、他の参加者の発話についても対応することができる。
取得手段1599は、中心人物が存在し(s1599a)、かつ、中心人物の投票数と2番目に大きい投票数の差が閾値Th1よりも大きく(s1599b)、かつ、中心人物の投票数が閾値Th2よりも小さい場合には(s1599c)、取得手段1591を用いて、ワンショット処理を行う(s1599f)。この際、中心人物の投票数は閾値Th2より小さいため、俯瞰処理を行われた場合の映像に近い仮想空間映像f’を得ることができる。
取得手段1599は、中心人物が存在し(s1599a)、かつ、中心人物の投票数と2番目に大きい投票数の差が閾値Th1よりも小さい場合(s1599b)、取得手段1594を用いて、θ、βを求める(s1599d)。中心人物が他の会話参加者を凝視している場合には、中心人物と凝視される会話参加者のツーショット処理Aを行い、中心人物が誰に対しても凝視していない場合には、現状を維持する。
取得手段1599は、中心人物が存在せず(s1599a)、かつ、相互凝視が存在しない場合(s1599g)、俯瞰処理を行う(s1599h)。俯瞰映像を見ることで、分かりづらい会話構造を理解できるようにすることができる。
取得手段1599は、中心人物が存在せず(s1599a)、かつ、相互凝視が存在し、(s1599g)、相互凝視している二者の投票差が閾値Th3よりも大きい場合(s1599i)、取得手段1596を用いてツーショット処理Bを行う(s1599j)。投票数が大きい会話参加者を画面中央寄りに表示し、会話の構造を理解しやすくすることができる。
取得手段1599は、中心人物が存在せず(s1599a)、かつ、相互凝視が存在し(s1599g)、かつ、相互凝視している二者の投票差が閾値Th3よりも小さく(s1599i)、かつ、一方のみが発話している場合(s1599n)、取得手段1597を用いてツーショット処理B’を行う(s1599k)。発話の割合が大きい会話参加者を画面中央寄りに表示し、会話の構造を理解しやすくすることができる。相互凝視している二者がともに発話している場合、取得手段1595を用いて、ツーショット処理Aを行う(s1599o)。このような場合、バランスよく両者を表示することができる。
取得手段1599以外にも、上記手段を組み合わせることで、方位角θ及び注視度βを求めることができる。
<制御パラメータ取得方法切替部180>
ユーザインターフェース装置70から所定の信号が入力された場合、制御パラメータ取得方法切替部180は、取得方法選択手段157を停止、または、動作させる制御信号を出力する。ユーザインターフェース装置70から入力される所定の信号は、停止または動作をユーザが選択した場合に入力される信号であってもよい。また、制御パラメータ取得方法切替部180は、ユーザがユーザインターフェース装置70を操作すると出力される信号を所定の信号とし、ユーザが操作すると、取得方法選択手段157が停止する制御信号を自動的に出力し、ユーザが操作をやめると、取得方法選択手段157が動作する制御信号を自動的に出力する構成としてもよい。このような構成とすることで、ユーザは、簡易に自動映像音声生成と手動映像音声生成を切り替えることができるようになる。なお、取得方法選択手段157が停止すると、取得手段159eは方位角θ及び注視度βを求めなくなる。代わって、ユーザインターフェース装置70から入力される方位角θ、注視度βを制御パラメータ取得手段154へ出力する。
<制御パラメータ取得手段154>
制御パラメータ取得手段154は、方位角θ及び注視度βを用いて、仮想カメラの視点を制御する制御パラメータUを求める(s154)。
制御パラメータ取得手段154は、連続的パラメータ生成手段154aと一部制御パラメータ算出手段154bを有する。
<連続的パラメータ生成手段154a>
連続的パラメータ生成手段154aは、方位角及び注視度取得手段152で求められた注視度βと方位角θを用いて、時間的に、連続して変化する新たな注視度βと方位角θを生成する。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、方位角θは、人物の選択を制御するパラメータである。よって、例えば、時刻t−1においてβ=1,θ=πであり(ワンショット処理時)、時刻tにおいてβ=0,θ=0に変化した場合(俯瞰処理)、画面が不連続にワンショット画像から俯瞰画像に切り替わり、視聴者が会話の構造を見失う可能性がある。そこで、例えば、βが1から0に変化する場合、1回の処理で行える変化量の最大値を予め定めておき(例えば、Δβとする)、βを1から0にΔβづつ減少させて、時間的に連続してβを変化させる。方位角θについても同様の処理を行うことができる。このような処理を行うことで、仮想カメラの視点は徐々に変化していき、視聴者は会話構造等を見失いづらくなる。また、このような構成とすることで、視聴者に対して、浮遊効果、躍動感を与えることができる。さらに、仮想カメラ視点を時間的に連続して変化させることで、視聴者に対して、特定の会話参加者に対して注意を向けさせることができる。なお、変化量をCとしたとき、一回の処理で行う変化量をΔβとした場合に、所定の時間(例えば、2秒)をN等分し、Δβ=C/Nとすることで、同様に時間的に連続して、制御パラメータを更新することができ、かつ、仮想カメラ視点の変化にかかる時間を所定時間に納めることができる。変化量が大きいときには、一回の処理で大きくパラメータが更新され、変化量が小さいときには、一回の処理で小さくパラメータが更新される。
さらに、連続的パラメータ生成手段154aは、仮想カメラの視点に変化が生じた後、一定時間は視点を静止させるような制御を行ってもよい。例えば、連続的パラメータ生成手段154aは、出力する制御パラメータが、一時刻前t−1の比べ変化した場合には、一定時間、新たな異なるβを一部制御パラメータ算出手段154bには出力しないようにする。なお、本実施例は発明の内容を限定するものではない。例えば、連続的パラメータ生成手段154aを有さずとも、自動的に仮想カメラの視点を制御するため、非言語情報を読み取りやすく、会話の構造等を理解しやすいという効果を奏する。
<一部制御パラメータ算出手段154b>
一部制御パラメータ算出手段154bは、新たな注視度βを用いて、制御パラメータの一部、φ、ρ、qx’を算出する。例えば以下の式により、求める。
Figure 0004934158
但し、A>0,B>0,C>0,φth>0,φmax>0は必要とされる性能及び仕様に基づいて適宜設定される係数である。
φmaxは、φの最大値を表し、これに、β(0≦β≦1)を乗じて、φを求める。φthは閾値であり、βが一定値以上になるまで、ρは小さくならない。図32は、注視度βと制御パラメータの関係を示す図である。注視度βを段階的に変化させたときの仮想カメラの位置と注視点の位置をX’−Z平面上の線分として表している。なお、線分の一端にある楕円がカメラの位置を、他端が注視点Qを表す。注視度βを変化させることにより、仮想カメラ位置及び注視点Qを制御できることがわかる。この図に示すように、注視度0の場合には、カメラ視点が俯瞰ショットになり、注視度が1に近づくにつれ、視点が下がるとともに、視線が横向きになる。さらに、βが一定値以上となると、部分平面に近づく。これにより、注視度が高い場合には、視聴者は、会話参加者の視点におりて、より没入感、臨場感のあるシーンを生成することができる。
図19、図20、図21は、このようにカメラ視点を制御して、仮想空間映像生成手段160で生成された画像や記号を映像化した例である。ここでは、同一時刻のシーンの3つの異なる注視度の場合について映像化している。図19は、注視度が0の場合である。会話参加者全員の顔画像、及び、各種情報が俯瞰的に映像化される。図20は、注視度が中程度(例えば、β=0.5)の場合である。注視度が大きくなると次第にカメラの視点位置が下降し、さらにβが一定値以上になると、会話参加者にカメラが接近する。注視度1の場合には、ある一人の会話参加者の顔画像が大きく表示される。
<仮想空間調整手段166>
図33は、仮想空間調整手段166の構成例を示す。仮想空間調整手段166は、仮想空間音声生成手段170において、仮想空間上に配置される会話参加者の部分平面f4を調整するパラメータを生成する(s166)。仮想空間調整手段166は、γ生成手段166aと切り出しサイズ変更手段166bを有する。
γ生成手段166aは、注視度βを用いて、仮想空間上の水平面(X−Y平面と平行な面)と部分平面の成す角γを生成する(s166a)。γ生成手段166aは、注視度が大きいほど、直角に近い角γを生成する。角γを注視度βの関数として制御する。例えば、注視度βが0の場合に、角γは75度、注視度βが1の場合に、角γは90度とし、その間を滑らかに接続するように制御される。よって、γ生成手段166aは、注視度βを入力として、角γを出力する。角γは、仮想空間映像生成手段160に入力され、仮想空間映像生成手段160では、角γを用いて、仮想空間上の水平面(X−Y平面と平行な面)と部分平面が角度γを成すように配置する。このような制御を行うことにより、注視点βが大きくなり、降りてきた仮想カメラ視点に対して、部分平面が正対するように制御することができる。
切り出しサイズ変更手段166bは、注視度βを用いて、部分平面f4に射影するパノラマ画像の会話参加者画像を切り出す際のサイズを制御するパラメータεを生成する(s166b)。切り出しサイズ変更手段166bは、注視度が大きいほど、パノラマ画像の会話参加者画像を切り出す際のサイズを大きくするパラメータεを生成する。パラメータεを注視度βの関数として制御する。例えば、注視度βが1の場合には、人物の胸や肩まで入るような大きいサイズを切り出す。注視度βが0の場合には、顔が大きく写るように小さいサイズを切り出す。仮想空間映像生成手段160では、パラメータεの値に応じて、切り出す際のパノラマ画像上の頂点(p00,p01,p10,p11)の各頂点間の距離を変更する。
このように部分平面を調整することにより、俯瞰シーンの場合に会話参加者全員の顔画像をわかりやすく提示できる。さらに、特定の会話参加者に注視する場合には、より実世界にいる他の会話参加者の視点から見える映像に近い映像を生成することができる。
<仮想空間音声生成手段170>
図34は、仮想空間音声生成手段170の構成例を示す。仮想空間音声生成手段170は、音声強調手段172と再生制御部174を有する。
音声強調手段172は、発話の有無及び到来方向を用いて、音声mに対し強調処理を行う(s170、s172)。音声強調手段172は、強調処理を行った音声m1を再生制御部174に出力する。例えば、SN比最大化ビーム形成に基づく音声強調技術が利用できる。但し、他の方法により、音声強調処理を行ってもよい。
再生制御部174は、仮想カメラの方位角θと会話状態に含まれる各会話参加者の顔の位置(方位角α)及びに注視度に基づき、仮想空間音声の左右のバランス及び音量を制御し、音声mを用いて生成された音声m1から仮想空間音声m’を生成する(s170、s174)。例えば、ステレオスピーカーから出力される各会話参加者の音声の左右バランスを制御する方法等が考えられる。
仮想カメラの視点の方位角θ、会話参加者jの方位角αとすると、映像化される画面の中心に対する会話参加者jの相対的な方位角は、Δα=α−θ+πとなる。ステレオ再生の左右のバランスをbとし、例えば、−1≦b≦+1とし、−1が左を、+1が右に対応する。このとき、
b=sin(Δα)・(β・k+k
とする。但し、k,kは必要とされる性能及び仕様に基づいて適宜設定される係数である。画面の中心に対する相対的な方位角Δαによって、左右のバランスが決まり、注視度βによって、左右のバランスの効果を変更する。このように左右のバランスを求めることによって、画面中心に対して右に位置する人物の声は、右のスピーカーから大きく聞こえるように仮想空間音声m’を生成することができる。また、特定の会話参加者がワンショット映像が生成される場合には(注視度1)、左右のバランスの効果は大きくなり、よりはっきりと左右どちらから音声が出力されているのかわかる。これにより、ワンショット映像で、他の会話参加者の顔が見えない場合でも、話し手の判別がしやすくなる。
また、ボリューム(音量)をvとし、例えば、0≦v≦1とする。このとき、
v=cos(Δα)・(β・k)+k
但し、k,kは必要とされる性能及び仕様に基づいて適宜設定される係数である。
注視度0の場合、つまり仮想空間画像g’が俯瞰画像となる場合、各人のボリュームは均等に調整される。注視度が大きければ大きいほど、画面中央の人物に近い会話参加者のボリュームは大きく、左右に離れるにつれてボリュームが小さくなるように調整される。そのため、会話の音声を聞き取りやすく再生することが可能である。特に複数の会話参加者の声がオーバーラップするような場面において、注視度の高い人物の声のみを強調して再生することができ、会話の内容理解が促進される。なお、この方法以外で音声の再生を制御することも可能である。さらに、上記制御方法は、3チャネル以上のサラウンド音声再生にも容易に拡張できる。
<ハードウェア構成>
図35は、本実施例における映像音声処理装置100のハードウェア構成を例示したブロック図である。
図35に例示するように、この例の映像音声処理装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、映像音声処理装置100としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。
なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
<プログラム構成>
上述のように、プログラム領域14a,16aには、本実施例の映像音声処理装置100の各処理を実行するための各プログラムが格納される。映像音声処理プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
<ハードウェアとプログラムとの協働>
CPU11(図35)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図4は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される映像音声処理装置100の機能構成を例示したブロック図である。
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、入力手段101、出力手段102、記憶手段103、制御手段105、顔位置姿勢推定手段110、視線方向推定手段120、発話推定手段130、会話状態推定手段140、仮想カメラ視点制御手段150、仮想空間映像生成手段160、仮想空間調整手段166、仮想空間音声生成手段170、CPU11に映像処理プログラムを実行させることにより構成されるものである。また、本形態の映像音声処理装置100は、制御部105の制御のもと各処理を実行する。
100 映像音声処理手段 101 入力手段
102 出力手段 103 記憶手段
105 制御手段 110 顔位置姿勢推定手段
120 視線方向推定手段 130 発話推定手段
140 会話状態推定手段 150 想カメラ視点制御手段
160 仮想空間映像生成手段 166 仮想空間調整手段
170 仮想空間音声生成手段

Claims (10)

  1. 観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置であって、
    前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定手段と、
    前記顔の位置及び姿勢から視線方向を推定する視線方向推定手段と、
    前記音声を用いて、発話の有無及び到来方向を推定する発話推定手段と、
    前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定手段と、
    前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御手段と、
    前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成手段と、
    を有することを特徴とする映像音声処理装置。
  2. 請求項1記載の映像音声処理装置であって、
    前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成手段も有する、
    ことを特徴とする映像音声処理装置。
  3. 請求項1または2記載の映像音声処理装置であって、
    前記仮想カメラ視点制御手段は、
    会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得手段と、
    前記方位角及び注視度取得手段において求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成手段と、
    を備える、
    ことを特徴とする映像音声処理装置。
  4. 請求項3記載の映像音声処理装置であって、
    前記方位角及び注視度取得手段は、1以上の取得手段を有し、
    (A)複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得手段と、
    (B)二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得手段と、
    (C)複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得手段の何れか、または、(A)〜(C)の少なくとも2つを組み合せることにより前記方位角及び前記注視度を求める、
    ことを特徴とする映像音声処理装置。
  5. 請求項1から4記載の映像音声処理装置であって、
    前記仮想カメラの方位角と前記会話状態に含まれる各会話参加者の顔の位置及び注視度に基づき、仮想空間音声の左右のバランス及び音量を制御し、前記音声を用いて仮想空間音声を生成する仮想空間音声生成手段も有する、
    ことを特徴とする映像音声処理装置。
  6. 観測装置から得られる映像及び音声を用いて、3次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理方法であって、
    前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定ステップと、
    前記顔の位置及び姿勢から視線方向を推定する視線方向推定ステップと、
    前記音声を用いて、発話の有無及び到来方向を推定する発話推定ステップと、
    前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定ステップと、
    前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ(以下「仮想カメラ」という)の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御ステップと、
    前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成ステップと、
    を有することを特徴とする映像音声処理方法。
  7. 請求項6記載の映像音声処理方法であって、
    前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成ステップも有する、
    ことを特徴とする映像音声処理方法。
  8. 請求項6または7記載の映像音声処理方法であって、
    前記仮想カメラ視点制御ステップは、
    会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得ステップと、
    前記方位角及び注視度取得ステップにおいて求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成ステップと、
    を備える、
    ことを特徴とする映像音声処理方法。
  9. 請求項8記載の映像音声処理方法であって、
    前記方位角及び注視度取得ステップは、1以上の取得ステップを有し、
    (A)複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得ステップと、
    (B)二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得ステップと、
    (C)複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得ステップの何れか、または、(A)〜(C)の少なくとも2つを組み合せることにより前記方位角及び前記注視度を求める、
    ことを特徴とする映像音声処理方法。
  10. 請求項1から5記載の何れかの映像音声処理として、コンピュータを機能させるための映像音声処理プログラム。
JP2009033169A 2009-02-16 2009-02-16 映像音声処理装置、映像音声処理方法、映像音声処理プログラム Active JP4934158B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009033169A JP4934158B2 (ja) 2009-02-16 2009-02-16 映像音声処理装置、映像音声処理方法、映像音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009033169A JP4934158B2 (ja) 2009-02-16 2009-02-16 映像音声処理装置、映像音声処理方法、映像音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2010191544A JP2010191544A (ja) 2010-09-02
JP4934158B2 true JP4934158B2 (ja) 2012-05-16

Family

ID=42817553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009033169A Active JP4934158B2 (ja) 2009-02-16 2009-02-16 映像音声処理装置、映像音声処理方法、映像音声処理プログラム

Country Status (1)

Country Link
JP (1) JP4934158B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7521328B2 (ja) 2020-08-26 2024-07-24 トヨタ自動車株式会社 コミュニケーションシステム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6000609B2 (ja) * 2012-04-12 2016-09-28 キヤノン株式会社 被検体情報取得装置およびその制御方法
JP5987694B2 (ja) * 2013-01-08 2016-09-07 コニカミノルタ株式会社 会議用表示システム及び同システムにおけるカメラ映像の表示方法並びに表示制御プログラム
JP6646967B2 (ja) 2015-07-31 2020-02-14 キヤノン株式会社 制御装置、再生システム、補正方法、及び、コンピュータプログラム
CN106155326A (zh) 2016-07-26 2016-11-23 北京小米移动软件有限公司 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备
JP6860178B1 (ja) * 2019-12-27 2021-04-14 Necプラットフォームズ株式会社 映像処理装置及び映像処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0970031A (ja) * 1995-09-01 1997-03-11 Nec Eng Ltd テレビ会議システム
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2000165831A (ja) * 1998-11-30 2000-06-16 Nec Corp 多地点テレビ会議システム
JP2003244669A (ja) * 2002-02-14 2003-08-29 Matsushita Electric Ind Co Ltd 視線検出機能を有するテレビ会議システム
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7521328B2 (ja) 2020-08-26 2024-07-24 トヨタ自動車株式会社 コミュニケーションシステム

Also Published As

Publication number Publication date
JP2010191544A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
US11995902B2 (en) Facial signature methods, systems and software
JP7110502B2 (ja) 深度を利用した映像背景減算法
US11736801B2 (en) Merging webcam signals from multiple cameras
Busso et al. Smart room: Participant and speaker localization and identification
Otsuka et al. A realtime multimodal system for analyzing group meetings by combining face pose tracking and speaker diarization
JP4934158B2 (ja) 映像音声処理装置、映像音声処理方法、映像音声処理プログラム
US20190222806A1 (en) Communication system and method
US9936163B1 (en) System and method for mirror utilization in meeting rooms
WO2022110591A1 (zh) 基于连麦直播的直播画面处理方法、装置及电子设备
US11042767B2 (en) Detecting spoofing talker in a videoconference
Chen et al. Novel-view acoustic synthesis
CN114520888A (zh) 影像撷取系统
JP2007235969A (ja) 映像記録システム、プログラム及び記録媒体
CN109934150B (zh) 一种会议参与度识别方法、装置、服务器和存储介质
JP2011097447A (ja) コミュニケーションシステム
Chen et al. Sound to visual: Hierarchical cross-modal talking face video generation
JP2017108240A (ja) 情報処理装置、及び情報処理方法
Pingali et al. Audio-visual tracking for natural interactivity
US20230122149A1 (en) Asymmetric communication system with viewer position indications
JP3954439B2 (ja) 映像記録システム、プログラム及び記録媒体
TWI799048B (zh) 環景影像會議系統及方法
JP2020115609A (ja) 音声録音装置及びその制御方法、並びにプログラム
Adachi et al. Tablet system for sensing and visualizing statistical profiles of multi-party conversation
Canton-Ferrer et al. Multimodal real-time focus of attention estimation in smartrooms
US20220301261A1 (en) Device and method for identifying and outputting 3d objects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120217

R150 Certificate of patent or registration of utility model

Ref document number: 4934158

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350