JP4934158B2

JP4934158B2 - 映像音声処理装置、映像音声処理方法、映像音声処理プログラム

Info

Publication number: JP4934158B2
Application number: JP2009033169A
Authority: JP
Inventors: 和弘大塚; 弾三上; 淳司大和; 健太郎石塚; 雅清藤本; 章子荒木
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-16
Filing date: 2009-02-16
Publication date: 2012-05-16
Anticipated expiration: 2029-02-16
Also published as: JP2010191544A

Description

本発明は映像取得装置及び音声取得装置から得られる映像及び音声を用いて、３次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置、映像音声処理方法及び映像音声処理プログラムに関する。

会議やミーティングの状況を全方位カメラやマイクフォンアレイで撮影、収録した映像及び音声を処理する映像音声処理システムとして特許文献１が従来技術として知られている。このシステムでは、全方位カメラとマイクロフォンアレイを用いて、会話の状況を撮影し、話し手の音声を強調して出力したり、話し手の顔画像と音声との対応付けを行う機能が実現されている。なお、会話に参加しているものを「会話参加者」、発話している会話参加者を「話し手」、話し手以外の会話参加者を「聞き手」、話し手が話しかけている特定の聞き手を「相手」、生成された映像音声を視聴するものを「視聴者」という。

また、、全方位カメラを用いたシステムにおいては、得られる画像のゆがみを取るために３６０度の範囲を持つパノラマ画像へと展開を行い、その画像そのものをディスプレイ等に表示する方法（以下「全体画面法」という）も一般的である。また、パノラマ画像中から会話参加者の画像のみを切り出して、全員を表示する方法（以下「マルチ画面法」）も一般的な従来技術として知られている。

会話参加者の顔画像をカット編集を用いて切り替えて表示する映像処理方法として非特許文献１が従来技術として知られている。この方法では、より多くの会話参加者が注目する人物がその時点の会話において重要であるという仮定のもと、会話参加者の視線が最も集まる人物（以下「中心人物」という）の顔画像を時間的に切り替えて表示する。そのため、従来の音声に基づく会話参加者画像の提示方法とは異なり、話し手だけでなく聞き手の画像も選択される場合がある。これにより、相手が誰であるか視聴者にうまく伝達されることを期待している。

会話参加者の位置関係を視聴者が理解しやすくなる映像音声処理方法として、非特許文献２及び３が従来技術として知られている。STCTracker（Sparse Template Condensation Tracker：疎テンプレートコンデンセーション追跡法）により全周画像上の会話参加者の顔の位置と方向を推定する手法と、マイクからの音声信号から話し手の位置を特定する手法（音声区間検出と音声到来方向推定を組み合わせる手法）とを組み合わせることにより会話参加者の位置関係を推定し、会話シーンを俯瞰するパノラマ画像を円柱に投影する。

特開２００４−３２７８２号公報

竹前嘉修、大塚和弘、武川直樹、「対面の複数人対話を撮影対象とした対話参加者の視線に基づく映像切替え方法とその効果」、情報処理学会論文誌、社団法人情報処理学会、Vol.46、No.7(20050715)、pp.1752-1767 K. Otsuka, S. Araki, K. Ishizuka, M. Fujimoto, M. Heinrich, and J. Yamato, "A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization", Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008),pp257-264 大塚和弘、荒木章子、石塚健太郎、藤本雅清、大和淳司、「多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築〜マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合」、情報処理学会研究報告、情報処理学会、2008.11.27・28、2008(115)、p55-62

しかしながら、特許文献１記載の従来技術は、撮影した映像・音声を視聴者に提示するための映像生成の手段としては、会話参加者が話すときにその話し手の画像を切り出して表示するといった単純な処理に限定されているため、視聴者は会話参加者の位置関係を把握するのが困難である。結果として、「誰が誰に話しかけているか」、「誰が誰に応答しているか」といった会話の構造や内容を理解しづらい。よって、視聴者が会話の構造等を理解しやすくするという課題がある。

また、他の一般的な従来技術は、全体画面法の場合、会話参加者の顔領域が画像上では小さく表示されるため、顔の表情や視線等が非言語情報が読み取りにくいという問題がある。よって、非言語情報を読み取りやすくするという課題がある。また、マルチ画面法の場合、非言語情報を読み取りやすくなるが、会話参加者が多い場合には、視聴者は、会話参加者全員が表示された画面から話し手及び聞き手が誰なのか判断しなければならず、結果として会話の構造等を理解しづらく、特許文献１と同様の課題がある。

非特許文献１記載の従来技術も、特に４人以上の会話の場合、視聴者は会話参加者の位置関係を把握するのが困難であり、会話参加者間の対話の様子を理解する映像として適切ではない。よって、特許文献１と同様の課題がある。さらに、処理する映像を取得するために、全体ショットに対し１台のカメラを必要とするのに加え、バストショット用に会話参加者１人に対し１台のカメラが必要となるという問題がある。また、会話参加者の視線方向を評定者が判断するため、自動化されたシステムではなく、実利用に向いた方法ではない。

非特許文献２及び３記載の従来技術は、会話シーンを俯瞰するパノラマ画像を円柱に投影するため、会話の構造等を理解しやすいが、画面上に会話参加者の顔を大きく表示する場合と比較すると、非言語情報が読み取りにくいという問題がある。但し、非特許文献２及び３記載の従来技術は、視聴者が、手動でカメラの視点を変更し、映像を生成することができる。この場合には、特定の会話参加者の顔の画像を大きく表示することもでき上記問題は生じない。しかし、手動操作によって、視聴者は会話に集中できず、結果として、会話内容が理解しにくいという問題がある。よって、自動的にカメラの視点が切り替わっていくようにするという課題がある。

上記の課題を解決するために、本発明の映像音声処理技術は、観測装置から得られる映像及び音声を用いて、３次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する。映像を用いて、パノラマ画像を生成し、パノラマ画像から会話参加者の顔の位置及び姿勢を推定する。顔の位置及び姿勢から視線方向を推定する。音声を用いて、発話の有無及び到来方向を推定する。顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する。会話状態のうち少なくとも一部を用いて、仮想空間上のカメラ（以下「仮想カメラ」という）の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、方位角及び注視度を用いて、仮想カメラの視点を制御する制御パラメータを求める。パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、水平面と部分平面が所定の角度γを成すように配置し、制御パラメータを用いて、仮想カメラの視点の仮想空間映像を生成する。

本発明は、自動的に仮想カメラの視点を制御するため、非言語情報を読み取りやすく、会話の構造等を理解しやすいという効果を奏する。

実施例１に係る映像音声処理装置１００の構成例を示す図。会話参加者の配置例を示す図。全方位カメラマイクシステムの構成例を示す図。実施例１に係る映像音声処理装置１００の構成例を示す図。映像音声処理装置１００の処理フロー例を示す図。回転角ｒ^ｘ _ｉ，ｔ，ｒ^ｙ _ｉ，ｔ，ｒ^ｚ _ｉ，ｔを説明するための図。顔位置姿勢推定手段１１０の構成例を示す図。図８は、パノラマ画像ｆ１_ｔの例を示す図。顔テンプレートＦの例を示す図。視線方向を推定する方法を説明するための図。ガウス分布の例を示す図。発話推定手段１３０の構成例を示す図。会話参加者画像ｆ３_ｉを切り出す方法を説明するための図。（ａ）は、Ｘ−Ｙ水平面に部分平面ｆ４_ｉを配置する例示す図。（ｂ）は、仮想空間の例を示す図。仮想カメラの視点を説明するための図。仮想カメラ視点制御手段１５０の構成例を示す図。仮想カメラ視点制御手段１５０の処理フロー例を示す図。取得手段１５９１の処理フロー例を示す図。ワンショット処理を行った場合、かつ、注視度が大きい場合の仮想空間映像ｆ’の例を示す図。ワンショット処理を行った場合、かつ、注視度が中程度場合の仮想空間映像ｆ’の例を示す図。俯瞰処理を行った場合の仮想空間映像ｆ’の例を示す図。ツーショット処理Ａを行った場合の仮想空間映像ｆ’の例を示す図。取得手段１５９２の処理フロー例を示す図。取得手段１５９３の処理フロー例を示す図。（ａ）は、ツーショット処理Ｂを行った場合の仮想空間映像ｆ’の例を示す図、（ｂ）は、各会話参加者の視線方向の例を示す図。取得手段１５９４の処理フロー例を示す図。取得手段１５９５の処理フロー例を示す図。取得手段１５９６の処理フロー例を示す図。取得手段１５９７の処理フロー例を示す図。取得手段１５９８の処理フロー例を示す図。取得手段１５９９の処理フロー例を示す図。注視度βと制御パラメータの関係を示す図。仮想空間調整手段１６６の構成例を示す図。仮想空間音声生成手段１７０の構成例を示す図。本実施例における映像音声処理装置１００のハードウェア構成を例示したブロック図。

以下、本発明の実施の形態について、詳細に説明する。

［映像音声処理システム１０］
図１は、実施例１に係る映像音声処理装置１００の構成例を示す。映像音声処理システム１０は、映像音声処理装置１００、観測装置２０、出力装置４０、記憶装置６０及びユーザインターフェイス装置７０を有する。

映像音声処理装置１００は、観測装置２０から得られる映像ｆ及び音声ｍを用いて、３次元仮想空間上に表示する仮想空間映像ｆ’及び仮想空間音声ｍ’を生成する。生成された映像ｆ’及び音声ｍ’は、例えば、出力装置４０において、表示及び再生される。

図２は、会話参加者の配置例を示す。この例では、５人の会話参加者Ｐｉ（ｉ＝１，２，…，Ｎであり、Ｎは会話参加者の人数、本実施例では、Ｎ＝５）が丸テーブルの周りに着席し、会話をしている状況である。丸テーブルの中心をＸＹ座標の原点とし、観測装置２０が配置される。原点から各会話参加者への距離はほぼ一定とみなし、会話参加者の位置はＸ軸を基準として方位角αとして表される。

［観測装置２０］
観測装置２０は、映像取得装置２１及び音声取得装置３０を備える。例えば、全方位カメラとマイクロフォンアレーを統合した全方位カメラマイクシステムである。図３は、全方位カメラマイクシステムの構成例を示す。

＜映像取得装置２１＞
映像取得装置２１は、複数の人物が会話をしている状況を画像として撮影して出力する装置であり、例えば、全方位カメラ等である。全方位カメラは、ほぼ全周の領域が撮影範囲となるカメラである。例えば、全方位カメラは、２台のカメラ２３Ａ及び２３Ｂからなり、各カメラは、魚眼レンズ２５Ａ、２５Ｂを搭載する。この魚眼レンズ２５Ａ及び２５Ｂは、おおよそ半球の領域をカバーできる。そのため、２台のカメラ２３Ａ及び２３Ｂを互いに反対方向を向くように配置することでほぼ全周の領域を撮影することができる。カメラは一定の周期で画像を撮影する。例えばカメラとして、デジタルカメラを用い、画像サイズ２４４８×５１２画素を持つ画像を出力し、映像音声処理装置１００とＩＥＥＥ１３９４ｂ規格にて接続する構成としてもよい。

＜音声取得装置３０＞
音声取得装置３０は、会話中に発せられる人物の声を収録して、電気信号として出力する装置である。例えば、マイクロフォンアレー等である。マイクロフォンアレーは複数の無指向性のマイク３１Ａ，３１Ｂ及び３１Ｃにより構成される。例えば、カメラ２３Ａ及び２３Ｂの上部に、一辺４ｃｍの三角形の頂点に各マイクが配置される構成としてもよい。

［出力装置４０］
出力装置４０は、映像表示装置４１及び音声再生装置５０を備える。映像表示装置４１は、例えば、プロジェクターやディスプレイ等であり、映像ｆ’を表示する。音声再生装置５０は、例えば、モノラルスピーカやステレオスピーカ、サラウンドスピーカ等であり、音声ｍ’を再生する。

［記憶装置６０及びユーザインターフェイス装置７０］
記憶装置６０は、観測される映像ｆ、音声ｍ及び推定される会話状態等を記憶することができ、また、記憶されたデータを読み出して映像音声処理装置１００に対して出力することができる。記憶装置６０は、例えば、ハードディスク装置や固体メモリ等である。

ユーザインターフェイス装置７０は、視聴者等のユーザが仮想カメラの視点を制御できる装置である。例えば、マウスや３次元マウス、ジョイスティック、タッチパッド等である。一般に、３次元の仮想空間上で後述する仮想カメラの視点を操作しようと考えた場合、仮想カメラの位置及び姿勢を制御する各パラメータ分の６自由度を操作しなければならず、ユーザの負担が大きい。本実施例では、仮想カメラの方位角と注視度により、仮想カメラの位置及び姿勢を制御することができる。そのため、ユーザは、直感的、かつ、容易に視点を制御することができ、より会話の内容に集中することができる。

なお、本実施例は発明の内容を限定するものではない。例えば、映像音声処理装置１００は、観測装置から得られる映像ｆ及び音声ｍを用いるが、必ずしも観測装置２０から直接、映像ｆ及び音声ｍを入力されなくともよく、記憶装置６０や映像音声処理装置１００内の記憶手段に記憶されている映像ｆ及び音声ｍや、通信回線を通じて他の端末から受信した映像ｆ及び音声ｍを用いて、３次元仮想空間上に表示する映像ｆ’及び音声ｍ’を生成してもよい。同様に、映像音声処理装置１００は、生成した映像ｆ’及び音声ｍ’を必ずしも出力装置４０に出力しなくともよく、映像音声処理装置１００内の記憶手段に記憶しておいていもよいし、記憶装置６０に出力してもよいし、通信回線を通じて他の端末に送信してもよい。また、生成する際に用いられる情報、及び、入出力される情報は、必要に応じて映像音声処理装置１００内の記憶手段に記憶してもよいし、記憶装置６０に記憶してもよい。また、後述する仮想カメラ視点を制御するパラメータは、映像音声処理装置１００が求めた値でもよいし、ユーザインターフェイス装置７０から入力された値を用いてもよい。

［映像音声処理装置１００］
図４は、実施例１に係る映像音声処理装置１００の構成例を、図５は、処理フロー例を示す。実施例１に係る映像音声処理装置を説明する。

映像音声処理装置１００は、入力手段１０１、出力手段１０２、記憶手段１０３、制御手段１０５、顔位置姿勢推定手段１１０、視線方向推定手段１２０、発話推定手段１３０、会話状態推定手段１４０、仮想カメラ視点制御手段１５０、仮想空間映像生成手段１６０、仮想空間調整手段１６６、仮想空間音声生成手段１７０を有する。

＜入力手段１０１、出力手段１０２、記憶手段１０３及び制御手段１０５＞
入力手段１０１は、映像音声処理装置１００が、映像音声処理装置１００の外部にある別のシステムや装置から情報を入力または受信することを可能にするための任意の適切な手段である。したがって、入力手段１０１は、ハードウェア（例えば、モデム、ＤＳＬモデム、コネクタ、バス、ポート、シリアルポート、ＩＥＥＥ１３９４ポート、ＵＳＢポート、ネットワークカードなど）、ソフトウェア（通信ソフトウェア、ネットワークソフトウェアなど）、ファームウェア、または、それらの組み合わせを含んでよい。同様に、出力手段１０２は、映像音声処理装置１００が、映像音声処理装置１００の外部にある別のシステムや装置へ出力または送信することを可能にするための任意の適切な手段である。

記憶手段１０３は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶手段１０３に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
制御部１０５は、各処理を制御する。

＜顔位置姿勢推定手段１１０＞
顔位置姿勢推定手段１１０は、映像ｆを用いて、パノラマ画像ｆ１を生成する。顔位置姿勢推定手段１１０は、そのパノラマ画像ｆ１から会話参加者の顔の位置及び姿勢を推定する（ｓ１１０）。顔位置姿勢推定手段１１０は、映像取得手段２１から得られる映像ｆを直接に、または間接的に、入力され、パノラマ画像ｆ１及び顔の位置及び姿勢を出力する。例えば、非特許文献２、３記載の方法により、顔の位置及び姿勢を推定してもよい。但し、他の方法により、顔位置及び姿勢を推定してもよい。なお、時刻ｔにおける会話参加者ｉの顔の位置及び姿勢を顔状態ベクトルｓ_ｉ，ｔ＝［ｘ_ｉ，ｔ，ｙ_ｉ，ｔ，ｒ^ｘ _ｉ，ｔ，ｒ^ｙ _ｉ，ｔ，ｒ^ｚ _ｉ，ｔ］として表す。但し、ｘ_ｉ，ｔ，ｙ_ｉ，ｔを顔の中心の画像座標、ｒ^ｘ _ｉ，ｔ，ｒ^ｙ _ｉ，ｔ，ｒ^ｚ _ｉ，ｔを画像座標ｘ_ｉ，ｔ，ｙ_ｉ，ｔの各軸及び画像座標系に直交する軸まわりの回転角を表す。なお顔の姿勢は、仮想カメラに正対する方向を（ｒ^ｘ _ｉ，ｔ，ｒ^ｙ _ｉ，ｔ，ｒ^ｚ _ｉ，ｔ）＝（０，０，０）とする。図６は、回転角ｒ^ｘ _ｉ，ｔ，ｒ^ｙ _ｉ，ｔ，ｒ^ｚ _ｉ，ｔを説明するための図である。以下、一例を示す。本実施例では、顔状態ベクトルを推定する手段として、画像上での顔追跡法を利用する。この方法では、初期時刻ｔ０において、各会話参加者Ｐｉの正面顔の輝度分布を顔テンプレートとして記憶しておき、その後の各時刻ｔの入力画像とそのテンプレートとの照合により、顔追跡を行う。照合は、顔テンプレートの輝度と入力画面の輝度との差分（以下「照合誤差」という）に基づく処理であり、照合誤差が最も小さくなるテンプレートの状態を探索することにより実現される。

図７は、顔位置姿勢推定手段１１０の構成例を示す。顔位置姿勢推定手段１１０は、パノラマ展開部１１１とパーティクルフィルタリング部１１２と初期化部１１３を有する。

パノラマ展開部１１１は、時刻ｔにおいて得られた映像ｆ_ｔをパノラマ画像ｆ１_ｔへと変換する。例えば、魚眼レンズの射影方式は等距離射影（通称ｆ・θ）である。この方式では、世界座標系上の一点が画像平面上に投影されるとき、その画像中心からの距離は入射角θに比例する。各カメラ２３Ａ、２３Ｂにて得られた映像ｆは、魚眼レンズ２５Ａ、２５Ｂ特有の歪みが含まれる。上記射影方式に基づき、この歪みを取り除いたパノラマ画像ｆ１_ｔへと変換する。このパノラマ画像ｆ１_ｔは、横軸がカメラを基準とした方位角αに対応し、縦軸が実空間の鉛直方向に対応した画像である。図８は、パノラマ画像ｆ１_ｔの例を示す。図８では、カメラ２３Ａ、２３Ｂで撮影された映像を上下に並べた合成画像である。以後の処理では、簡略化のため、この合成画像を用いる。

初期化部１１３は、顔検出部１１７、特徴抽出部１１８を備える。初期化部１１３は、パノラマ画像ｆ１を用いて、各会話参加者毎に顔テンプレートＦｉを生成する。図９は、顔テンプレートＦの例を示す。この顔テンプレートＦは、疎テンプレートと呼ばれ、複数の離散的な画素Ｄｊ（以下「注目点」と呼ぶ、図９中の黒丸部部である、ｊ＝１，２，…，Ｊであり、Ｊは注目点の個数）の集合により構成される。顔テンプレートは、各注目点Ｄｉのｘ，ｙ座標及び輝度値ｂｊにより記述され、顔の位置及び姿勢を含んだ情報である。

初期化部１１３内の顔検出部１１７は、パノラマ画像ｆ１を入力され、パノラマ画像ｆ１中から正面顔領域ｆ２ｉ（図６参照）を検出し、特徴抽出部１１８へ出力する。

特徴抽出部１１８は、顔領域ｆ２ｉ上において顔部品のエッジを抽出し、抽出したエッジの近傍にランダムに注目点Ｄｊを配置する。さらに、特徴抽出部１１８は、注目点の座標とその座標における画像の輝度値の組の集合を顔テンプレートＦｉとしてを出力する。

パーティクルフィルタリング部１１２は、予測部１１４、更新部１１５、平均化部１１６を備える。パーティクルフィルタリング部１１２は、顔テンプレートＦｉを用いて、パーティクルフィルタと呼ばれる手法により、顔追跡を実現する。なお、パーティクルフィルタでは、推定したい対象の状態の確率分布をパーティクルと呼ばれるサンプルの集合として表す。各パーティクルは、その属性として対象の状態の仮説と、重みの組として表される。この重み付きパーティクルの集合を各時刻において更新することで対象の状態が逐次的に推定される。各会話参加者ｉの各時刻ｔにおける顔状態ベクトル、つまり顔テンプレートの状態がパーティクルの状態に相当する。

更新部１１５は、時刻ｔにおけるパーティクルの集合Ｃ_ｔ（Ｃ_ｔ＝（ｃ１_ｔ，ｃ２_ｔ，…，ｃｋ_ｔ，…，ｃＫ_ｔ）であり、ｃｋ_ｔは各パーティクルを表す。ｋ＝１，２，…，Ｋであり、Ｋはパーティクルの個数）の各パーティクルｃｋ_ｔについて、現時刻ｔのパノラマ画像ｆ１_ｔとの照合誤差を計算する。より照合誤差の小さいパーティクルに対し、高い重みを与え、パーティクルの集合Ｃ_ｔを更新しＣ’_ｔとする。

平均化部１１６は、パーティクルＣ’ｋ_ｔの状態と重みより計算される代表値（例えば、重み付き平均値）として、各会話参加者ｉの顔状態ベクトルｓ_ｉ，ｔが計算される。

予測部１１４は、各時刻ｔにおいて得られたパーティクル集合Ｃ’_ｔから次時刻ｔ＋１におけるパーティクル集合Ｃ_ｔ＋１を予測する。なお、この予測は、現時刻ｔから次時刻ｔ＋１までの間に対象となる顔状態ベクトルが変わりえる範囲を考慮して行われる。

＜視線方向推定手段１２０＞
視線方向推定手段１２０は、顔状態ベクトルｓ_ｉから視線方向ｇ_ｉを推定する（ｓ１２０）。視線方向推定手段１２０は、顔位置姿勢推定手段１１０から少なくともｘ座標上の位置ｘ_ｉと、ｙ軸周りの回転角ｒ^ｙ _ｉを入力され、視線方向ｇ_ｉ及び方位角α_ｉを出力する。例えば、非特許文献２、３記載の方法により、視線方向を推定してもよい。但し、他の方法により、視線方向を推定してもよい。本実施例では、頭部方向により、視線方向を近似的に推定する。なお、視線方向は、誰が誰に視線も向けているか、または、誰の方も見ていないか、という対人視線方向のことを指し、ｇ_ｉ＝ｊは会話参加者ｉの視線方向が他の会話参加者ｊに向いていることを表す。なお、会話参加者ｉの視線方向が他の全ての会話参加者の何れにも向いていない場合等は、ｇ_ｉ＝０としてもよい。また、時刻については、顔状態ベクトル、視線方向ともに同時刻ｔにおける処理であり、表記を省略している。

視線方向推定手段１２０は、ｘ座標上の位置ｘ_ｉを用いてカメラに対する会話参加者の方位角α_ｉを求める。各会話参加者ｉの顔状態ベクトルｓ_ｉ＝［ｘ_ｉ，ｙ_ｉ，ｒ^ｘ _ｉ，ｒ^ｙ _ｉ，ｒ^ｚ _ｉ］のｘ_ｉは、画像上での座標であるため、カメラに対する方位角α_ｉを求める。なお、「顔の位置」とは、ｘ座標上の位置ｘ_ｉであってもよいし、カメラに対する方位角α_ｉであってもよい。図３のカメラ２３Ａの画像について、α_ｉ＝π（１−ｘ_ｉ／Ｗ）として計算でき、カメラ２３Ｂの画像について、α_ｉ＝π（２−ｘ_ｉ／Ｗ）として計算できる。なお、Ｗは画像の横幅であり、１８０度の範囲に一致する。

さらに、視線方向推定手段１２０は、α_ｉ及び画像座標のｙ軸周りの回転角ｒ^ｙ _ｉを用いて、会話参加者ｉの視線方向ｇ_ｉを推定する。図１０は、視線方向を推定する方法を説明するための図である。会話参加者ｉの顔が他の会話参加者ｊの方向に真っ直ぐ向けられているときの会話参加者ｉの回転角をｒ^ｙ _ｉ，ｊと表す。ｒ^ｙ _ｉ，ｊは、以下のように表すことができる。

ｒ^ｙ _ｉ，ｊ＝ｔａｎ^−１［１／ｔａｎ（（α_ｉ＋α_ｊ）／２）］
この角度ｒ^ｙ _ｉ，ｊを用いて、会話参加者ｉが他の会話参加者ｊに視線をむけているときの顔の回転角ｒ^ｙ _ｉの尤度関数を定義する。

Ｌ（ｒ^ｙ _ｉ｜ｇ_ｉ＝ｊ）:=Ｎ（ｒ^ｙ _ｉ｜ｋ・ｒ^ｙ _ｉ，ｊ，σ^２）
Ｎ（・｜μ，σ^２）は、平均μ＝ｋ・ｒ^ｙ _ｉ，ｊ、分散σ^２のガウス分布を表す。ｋは定数を表し、本実施例では１である。図１１は、ガウス分布の例を示す。会話参加者Ｐ１がＰ２を見ているときのガウス分布を線１２とし、会話参加者Ｐ１がＰ３を見ているときのガウス分布を線１３として表している。また、会話参加者Ｐ１が誰も見ていないときは、一様分布を用い、線９として表している。このような尤度関数を用いて最尤法により、会話参加者の視線方向ｇ_ｉを推定する。

なお、視線方向を推定する方法として、パノラマ画像ｆ１から直接各会話参加者の眼球の位置を計測し、ｙ軸周りの回転角ｒ^ｙ _ｉと併せて利用し、視線方向を推定する方法等を用いてもよい。

＜発話推定手段１３０＞
発話推定手段１３０は、音声を用いて、発話の有無及び到来方向を推定する（ｓ１３０）。発話推定手段１３０は、音声取得装置３０から得られる音声ｍを直接的または間接的に入力され、発話の有無及び到来方向を出力する。例えば、非特許文献２、３記載の方法により、発話の有無及び到来方向を推定してもよい。但し、他の方法により、発話の有無及び到来方向を推定してもよい。

図１２は、発話推定手段１３０の構成例を示す。発話推定手段１３０は、周波数領域変換手段１３１、到来方向推定手段１３３、音声区間検出手段１３５、クラスタリング手段１３７及び閾値処理手段１３９を備える。

周波数領域変換手段１３１は、時間領域の音声信号ｍを、短時間フーリエ変換等により周波数領域の信号Ｍに変換する。

音声区間検出手段１３５は、周波数領域の信号Ｍを用いて、発話活動の検出（人の声と雑音との判別）を行い、発話の有無を出力する。例えば、具体的な手法としては、ＭＵＳＣＬＥ−ＶＡＤ（Multi Stream Combination of Likelihood Evolution of VAD）を用いることができる。この方法は、発話・非発話の弁別器として２種類の方法を組み合わせたものである。一つの方法は、ＰＡＲＡＤＥと呼ばれる信号の周期成分と非周期成分との比率に基づく方法である。もう一つの方法は、ＳＫＴ（Switching Kalman Filter：スイッチングカルマンフィルタ）を用いた方法である。ＰＡＲＡＤＥは、突発的なノイズに対して頑健である。ＳＫＴは、定常ノイズと非定常ノイズの双方に対して頑健である。よってこれら２つの方法を用いたＭＵＳＣＬＥ−ＶＡＤは、幅広い種類のノイズに対して頑健であることが知られている。

到来方向推定手段１３３は、周波数領域の信号Ｍを用いて、音声の到来方向（ＤＯＡ）を推定し、出力する。例えば、具体的な手法としてＴＦＤＯＡ（Time-freqency domain DOA:時間周波数領域ＤＯＡ）法を用いることができる。

クラスタリング手段１３７は、発話の有無とＤＯＡを用いて、発話があるとされる時間において、到来方向のクラスタリングを行う。各クラスタが各々会話参加者に対応するため、各会話参加者の発話の有無が推定できる。

閾値処理手段１３９は、前時刻ｔ−１までに得られたクラスタの中心の到来方向と現時刻ｔで得られた到来方向との距離（方位角の差）が、閾値以上の場合には、新たな話者として検出する。このような構成とすることで、オンラインクラスタリングにおいて、新たな話者を検出し、会話参加者数が未知の場合にも発話検出が可能となる。

＜会話状態推定手段１４０＞
会話状態推定手段１４０は、顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する（ｓ１４０）。会話状態推定手段１４０は、視線方向推定手段１４０からα_ｉ，ｇ_ｉを、発話推定手段１３０から発話の有無及び到来方向を入力され、会話状態を出力する。例えば、非特許文献２、３記載の方法により、会話状態を推定してもよい。但し、他の方法により、会話状態を推定してもよい。

会話状態推定手段１４０は、カメラに対する方位角α_ｉと発話の到来方向から話し手を推定し、顔の位置、視線方向、発話の有無及び到来方向を統合した会話状態Ｈ_ｉ＝｛α_ｉ，ｇ_ｉ，ｖ_ｉ｝を出力する。但し、ｖ_ｉは、会話参加者ｉの発話の有無を表す。例えば、発話がある場合には、ｖ_ｉ＝１とし、発話がない場合には、ｖ_ｉ＝０とする。

＜仮想空間映像生成手段１６０＞
仮想空間映像生成手段１６０は、パノラマ画像ｆ１と顔位置ｘ_ｉ，ｙ_ｉから、会話参加者画像ｆ３_ｉを切り出し、切り出した会話参加者画像ｆ３_ｉを部分平面ｆ４_ｉに射影し、部分平面ｆ４_ｉを実際の会話参加者Ｐｉの配置と対応するように配置する。なお、その際、仮想空間上のＸ−Ｙ水平面に、水平面と部分平面ｆ４_ｉが所定の角度γを成すように配置する。さらに、制御パラメータＵを用いて、仮想空間上のカメラ（以下「仮想カメラ」という）の視点を制御し、この視点における仮想空間映像ｆ’を生成する（ｓ１６０）。例えば、非特許文献２、３記載の方法により、仮想空間を生成してもよい。但し、他の方法により、仮想空間を生成してもよい。なお、仮想空間映像ｆ’は、後述する仮想カメラ視点制御部１５０で求めた制御パラメータＵを用いて制御される仮想カメラの視点を用いて生成する。なお、制御パラメータＵの理解を容易にするために、処理手順とは異なるが、仮想カメラ視点制御手段１６０の処理内容より先に仮想空間映像生成手段１６０を説明する。

図１３は、会話参加者画像ｆ３_ｉを切り出す方法を説明するための図である。仮想空間映像生成手段１６０は、まずパノラマ画像ｆ１上から会話参加者Ｐｉの顔を含む部分領域である参加者画像ｆ３_ｉを切り出す。参加者画像ｆ３_ｉは、顔の中心の画像座標ｘ_ｉ，ｙ_ｉを中心付近に含むように四つの頂点（ｐ_００，ｐ_０１，ｐ_１０，ｐ_１１）をもつ長方形の領域であり、各時刻毎に決定される。図１４（ａ）は、Ｘ−Ｙ水平面に部分平面ｆ４_ｉを配置する例を、図１４（ｂ）は、仮想空間の例を示す。参加者画像ｆ３_ｉを仮想空間上の矩形上の部分平面ｆ４_ｉに射影する。パノラマ画像ｆ１の頂点（ｐ_００，ｐ_０１，ｐ_１０，ｐ_１１）に対応する仮想空間上の頂点を同じ記号（ｐ_００，ｐ_０１，ｐ_１０，ｐ_１１）で表している。この部分平面ｆ４_ｉは、仮想空間上の地平面（Ｘ−Ｙ平面）にその底辺を接地している。但し、必ずしも地平面でなくともよく、Ｘ−Ｙ平面の水平面に各部分平面ｆ４_ｉが接地していればよい。各部分平面ｆ４_ｉは、原点Ｏを中心とする円周に線分ｐ_１０ｐ_１１の中点が接するように配置する。円周上の位置は、方位角α_ｉにより定まる。さらに、各部分平面ｆ４_ｉは、地平面（Ｘ−Ｙ平面）と所定の角度γ（例えば、７５度）をなすように傾斜して配置される。各会話参加者Ｐｉについて、上記処理を行うことで、実空間上での配置関係を反映した仮想空間を生成することができる。図１４（ｂ）は、仮想空間のＸ−Ｙ平面を上部より見下ろした構図となっている。Ｚ軸は、手前に伸びている。この場合、必要な情報は、パノラマ画像ｆ１と顔位置情報ｘ_ｉ，ｙ_ｉであり、顔位置姿勢推定手段１１０から直接または間接的に入力される。方位角α_ｉは計算により求めてもよい。

仮想空間映像生成手段１６０では、さらに、各参加者のカメラに対する顔の位置α_ｉ（方位角）、視線方向ｇ_ｉ、発話の有無ｖ_ｉ、顔の姿勢ｒ^ｘ _ｉ、ｒ^ｙ _ｉ、ｒ^ｚ _ｉ、最も他の会話参加者の視線が集中している会話参加者ｋ（以下「中心人物」という）等の情報を併せて描画することができる。図１４（ｂ）中、円α_ｉは顔の位置α_ｉ（方位角）を、矢印ｇ_ｉは視線方向ｇ_ｉを、黒丸ｖ_ｉは発話の有無を、円α_ｉから伸びる線分は顔の姿勢ｒ^ｘ _ｉ、ｒ^ｙ _ｉ、ｒ^ｚ _ｉを、円α_ｉの輪ｋは、複数の会話参加者の視線が集中している会話参加者ｋを表す。なお、各情報を表示する場合には、各情報（顔状態ベクトルや会話状態）を顔位置姿勢推定手段１１０や会話状態推定手段１５０から直接または間接的に入力される。

仮想空間映像生成手段１６０は、制御パラメータＵを用いて制御される仮想カメラの視点における仮想空間映像ｆ’を生成する。制御パラメータＵは後述する仮想カメラ視点制御手段１５０において、求められる。図１５は、仮想カメラの視点を説明するための図である。仮想カメラの位置Ｃを記述するために、原点Ｏ’の角座標系（θ−φ−ρ）を用いる。原点Ｏ’は、仮想空間上の点（０，０，Ｈ）である。θはＸ軸となす角、φはＺ軸となす角、ρは原点Ｏ’からの距離を表す。仮想カメラの姿勢を記述するために、原点Ｃのカメラ座標系（Ｃ_ｘ，Ｃ_ｙ，Ｃ_ｚ）を用いる。ここで、仮想カメラの姿勢を決定するために、仮想的な注視点Ｑを用いる。カメラ座標系のＣ_ｚ軸は、仮想カメラの光軸であり、仮想カメラの位置Ｃと注視点Ｑを結んだ直線上に位置する。カメラ座標系のＣ_ｘ軸は、仮想空間上のＸ−Ｙ平面に平行に位置する。注視点Ｑは、仮想空間のＺ軸の値を所定の値ｑ_ｚとする。注視点Ｑを仮想空間上のＸ−Ｙ平面上に射影した点Ｑ’との距離をｑ_ｘ’とすると、点Ｑは、仮想カメラの位置Ｃと注視点Ｑを結んだ直線上に位置するため、ｑ_ｘ’により一意に定まる。

この仮想空間映像ｆ’の生成には、中心射影を用いる。つまり仮想空間上の対象（画像や記号）上の各点とカメラ位置Ｃとを結ぶ直線と投影面ｆ５の交点が計算され、その交点の輝度値、色合いが対応する対象の各点のそれに応じて決定される。この投影面ｆ５上の輝度値や色合いの分布が仮想空間映像ｆ’となる。

＜仮想カメラ視点制御手段１５０＞
仮想カメラ視点制御手段１５０は、会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、方位角及び注視度を用いて、仮想カメラの視点を制御する制御パラメータを求める（ｓ１５０）。

図１６は、仮想カメラ視点制御手段１５０の構成例を示す。図１７は、仮想カメラ視点制御手段１５０の処理フロー例を示す。仮想カメラ視点制御手段１５０は、方位角及び注視度取得手段１５２及び制御パラメータ取得手段１５４を有する。

＜方位角及び注視度取得手段１５２＞
方位角及び注視度取得手段１５２は、会話状態Ｈのうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める（ｓ１５２）。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、カメラ位置と注視点を決定する３つの制御パラメータφ、ρ、ｑ_ｘ’を制御するパラメータである。注視度は、例えば、０から１の範囲の値をとり、注視度０の場合、図１４（ｂ）のように会話参加者全員の顔画像、及び、顔の姿勢や発話の有無等を表す各種情報を仮想空間映像ｆ’に含めることを意図して、仮想カメラは、仮想空間上のＺ軸上に位置し、そこから真下を向くように配置される。つまり、俯瞰図を映し出すように配置される。また、注視度１の場合、特定の会話参加者の顔画像が大きく映像中にしめるような位置に仮想カメラが配置される。注視度と制御パラメータＵの関係は、制御パラメータ取得手段１５４において詳しく説明する。方位角θは、人物の選択を制御するパラメータである。方位角θは、仮想空間の原点に対する仮想カメラの方位角であり、例えば、中心に表示したい会話参加者の方位角をαとするとθ＝α＋πとなる。

方位角及び注視度取得手段１５２は、投票数カウント手段１５６、取得方法選択手段１５７、蓄積部１５８、取得手段１５９１，１５９２，…，１５９Ｅ（Ｅは方位角及び注視度取得手段１５８が備える取得手段の個数を表し、Ｅ≧１）、制御パラメータ取得方法切替部１８０を備える。但し、方位角及び注視度取得手段１５２は、取得手段１５９ｅ（ｅ＝１，２，…，Ｅ）の処理内容によっては、投票数カウント手段１５６、取得方法選択手段１５７、蓄積部１５８を備えなくともよい。

＜投票カウント手段１５６及び蓄積部１５８＞
投票カウント手段１５６は、視線方向ｇ_ｉを用いて、投票数ｃｎｔを各会話参加者ｃｎｔ_ｉ毎に計算し、蓄積部１５８に出力する（ｓ１５６）。なお、投票数とは、他の会話参加者から受けている視線の数であり、視線方向ｇ_ｉから求められる。各会話参加者ｉの視線方向が誰に向かっているかをカウントすることで得られる。例えば、図１４（ｂ）において、会話参加者Ｐ３は、他の会話参加者から視線を受けているためｃｎｔ_３＝４、会話参加者Ｐ４はＰ３から視線を受けているため、ｃｎｔ_４＝１、他の会話参加者はｃｎｔ_ｉ＝０となる。
蓄積部１５８は、所定の時間に得られる会話状態及び投票数を蓄積する。

＜取得方法選択手段１５７＞
取得方法選択手段１５７は、Ｅ個の取得手段から１つの取得手段を選択する（ｓ１５７）。さらに、取得方法選択手段１５７は、選択した取得手段に対し処理を指示する信号を出力する。また、蓄積部１５８に対し、必要な情報を選択した取得手段に対し出力するように指示する信号を出力する。取得方法の選択及び切替ルールとしては、イベント生起のタイミング（例えば、利用者等が取得方法を選択した場合等）で切り替える方式や、一定時間毎に切り替える方式、ランダムに切り替える方式等が考えられる。

＜取得手段１５９ｅ＞
取得手段１５９ｅは、視線方向ｇ_ｉか発話の有無ｖ_ｉか投票数ｃｎｔ_ｉのうちの少なくとも一つと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９）。例えば、取得手段としては、以下のような方法が考えられる。但し、下記の方法に限定するものではなく、他の方法により注視度β及び仮想カメラの方位角θを求めてもよい。

取得手段１５９１〜１５９４は、少なくとも投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める。取得手段１５９１〜１５９４は、複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように方位角及び注視度を求める。投票数ｃｎｔ_ｉを用いて、中心人物ｍａｘを求め、中心人物の行動に着目して処理を行う。また、最も他の会話参加者の視線が集中している会話参加者が１人の場合に、その会話参加者を中心人物ｍａｘという。最も他の会話参加者の視線が集中している会話参加者が２人以上いる場合には（つまり、投票数が同じ場合）、中心人物不在として処理する。

＜取得手段１５９１＞
図１８は、取得手段１５９１の処理フロー例を示す。取得手段１５９ｅは、投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９１）。

取得手段１５９１は、中心人物が存在する場合（ｓ１５９１ａ）、中心人物ｍａｘが仮想空間映像ｆ’の中央に表示されるように仮想カメラの方位角θを求め、中心人物ｍａｘの投票数ｃｎｔ_ｍａｘの大きさが大きければ大きいほど、注視度βが大きくなるように求める（以下「ワンショット処理」という）（ｓ１５９１ｂ）。図１９は、ワンショット処理を行った場合、かつ、注視度が大きい場合の仮想空間映像ｆ’の例を、図２０は、ワンショット処理を行った場合、かつ、注視度が中程度場合の仮想空間映像ｆ’の例を示す。例えば、以下の式によって、β、θを求める。

β＝ｃｎｔ_ｍａｘ／（Ｎ−１）
θ＝α_ｍａｘ＋π
なお、中心人物不在の場合（最も他の会話参加者の視線が集中している会話参加者が２人以上いる場合）（ｓ１５９１ｃ）、現状を維持する。つまり、現時刻ｔの値として一つ前β_ｔ−１，θ_ｔ−１の値を出力する。なお、出力省略してもよいし、変更がない旨の特定の信号を出力してもよい。

また、最も他の会話参加者の視線が集中している会話参加者が３人以上いる場合以下のような処理を行ってもよい。β＝０とし、θについては、現時刻ｔの値として一つ前θ_ｔ−１の値を保持する方法（以下、「俯瞰処理」という）などが考えられる。図２１は、俯瞰処理を行った場合の仮想空間映像ｆ’の例を示す。

また、最も他の会話参加者の視線が集中している会話参加者が２人の場合には、以下のような方法も考えられる。この２人の方位角をα_Ｓ１、α_Ｓ２として（但し、α_Ｓ１≧α_Ｓ２）、仮想カメラの方位角θを以下のように求める。

θ＝π＋｛（α_Ｓ１＋α_Ｓ２）／２｝
α_Ｓ１−α_Ｓ２≧π ⇒ ｓｕｂ＝２π−（α_Ｓ１−α_Ｓ２）
α_Ｓ１−α_Ｓ２＜π ⇒ ｓｕｂ＝α_Ｓ１−α_Ｓ２
ｓｕｂは、２人の方位角をα_Ｓ１、α_Ｓ２の角度差（０≦ｓｕｂ≦π）を表し、ｓｕｂが大きければ大きいほど、注視度βが小さくなるように求める（以下、「ツーショット処理Ａ」という）。図２２は、ツーショット処理Ａを行った場合の仮想空間映像ｆ’の例を示す。これは、ｓｕｂが大きい場合には、二人の距離が離れており、仮想カメラ内に収めるためには、注視度を下げる必要があるためである。例えば以下のように求める。

β＝０．８ｉｆ０≦ｓｕｂ＜π／４
β＝０．６ｉｆ π／４≦ｓｕｂ＜π／２
β＝０．４ｉｆ π／２≦ｓｕｂ＜３π／４
β＝０．２ｉｆ３π／４≦ｓｕｂ＜π
また、最も他の会話参加者の視線が集中している会話参加者が２人以上いる場合には、その会話参加者をを交代で仮想空間映像ｆ’の中央に表示するようにθ、βを求めてもよい。

＜取得手段１５９２＞
図２３は、取得手段１５９２の処理フロー例を示す。取得手段１５９２は、視線方向ｇ_ｉ及び投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９２）。中心人物不在の場合（ｓ１５９２ａ）、現状を維持する（ｓ１５９２ｂ）。中心人物が存在する場合、取得手段１５９２は、所定時間Ｔ２の中心人物の視線方向ｇ_ｍａｘ＝（ｇ_{ｍａｘ，ｔ−Ｔ２}，ｇ_{ｍａｘ，ｔ−Ｔ２＋１}，…，ｇ_{ｍａｘ，ｔ}）を蓄積部１５８から取得する（ｓ１５９２ｃ）。なお、ｇ_{ｍａｘ，ｔ}は時刻ｔにおける中心人物の視線方向を表す。中心人物の視線方向を他の会話参加者毎にカウントする（ｓ１５９２ｄ）。つまり、所定時間Ｔ２内に、何回、ｇ_ｍａｘ＝１となるかカウントし、ｇ_ｍａｘ＝２となるかカウントし、…、ｇ_ｍａｘ＝Ｎとなるかカウントする。このカウントして得られた値の中で最大値ＭＡＸと、カウントして得られた値の平均値ＡＶを求める（ｓ１５９２ｅ）。最大値ＭＡＸと平均値ＡＶの差を求め、この差が閾値以下の場合には（ｓ１５９２ｆ）、俯瞰ショット処理を行う（ｓ１５９２ｇ）。閾値以上の場合には、現状を維持する（ｓ１５９２ｈ）。

このような処理を行うことで、中心人物が他の会話参加者を満遍なく見る場合、または、視線を逸らしている場合には、他の参加者の顔が仮想空間映像ｆ’に納まる。これにより、中心人物が複数の会話参加者に対して均等に情報伝達を試みている状況等を映像化することができる。

＜取得手段１５９３＞
図２４は、取得手段１５９３の処理フロー例を示す。取得手段１５９３は、発話の有無ｖ_ｉ及び投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９３）。中心人物不在の場合（ｓ１５９３ａ）、現状を維持する（ｓ１５９３ｂ）。中心人物が存在する場合、取得手段１５９３は、中心人物以外の会話参加者の発話の有無ｖ_ｉ（但し、ｖ_ｍａｘを除く）を取得する（ｓ１５９３ｃ）。中心人物以外の会話参加者の発話がない場合（ｓ１５９３ｄ）、現状を維持する（ｓ１５９３ｅ）。中心人物以外の会話参加者の発話がある場合、さらに、ｇ_Ｊ＝ｍａｘが成り立つか否かを判定する（ｓ１５９３ｆ）。但し、Ｊは話し手であり、ｇ_Ｊ＝ｍａｘは、話し手が中心人物を見ていることを表す。ｇ_Ｊ＝ｍａｘが成り立たない場合には、現状を維持する（ｓ１５９３ｅ）。成り立つ場合、その話し手Ｊと中心人物が仮想空間映像ｆ’内に納まり、中心人物を画面中央寄りに表示するように、中心人物を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める（以下「ツーショット処理Ｂ」という）（ｓ１５９３ｇ）。２人の方位角をα_Ｓ１、α_Ｓ２として（但し、α_Ｓ１≧α_Ｓ２）、ツーショット処理Ｂでは、仮想カメラの方位角θを以下のように求める。

ｍａｘ＝α_Ｓ１ ⇒ θ＝π＋｛（α_ｍａｘ＋α_Ｊ）／２｝＋ｋ
ｍａｘ＝α_Ｓ２ ⇒ θ＝π＋｛（α_ｍａｘ＋α_Ｊ）／２｝−ｋ
但し、ｋは所定の値（例えば、ｋ＝１０π／３６０）である。なお、所定の値に対し、二つの投票数の差ＳＵＢ（≧０）を反映させてもよい。つまり、ｋに代え、＋ｋ・ＳＵＢまたは−ｋ・ＳＵＢを加える。注視度βについては、ツーショット処理Ａと同様の方法により求める。図２５（ａ）は、ツーショット処理Ｂを行った場合の仮想空間映像ｆ’の例を、図２５（ｂ）は、各会話参加者の視線方向の例を示す。なお、この例の場合、会話参加者Ｐ１が中心人物である。このような処理を行うことによって、中心人物以外の話し手が、中心人物に対して相槌や返事をしている場合に、その会話構造を仮想空間映像ｆ’に納めることができる。なお、取得する発話の有無ｖ_ｉ（但し、ｖ_ｍａｘを除く）は、蓄積部１５８から所定時間Ｔ３分取得し（ｖ_ｉ＝（ｖ_{ｉ，ｔ−Ｔ３}，ｖ_{ｉ，ｔ−Ｔ３＋１}，…，ｖ_ｉ，ｔ））、所定時間Ｔ３内で一定時間以上、発話がある場合に、上記処理を行う構成としてもよい。これにより、発話の誤検出の場合等に仮想カメラ視点が変わるのを防ぐことができる。

＜取得手段１５９４＞
図２６は、取得手段１５９４の処理フロー例を示す。取得手段１５９４は、取得手段１５９２と同様に、視線方向ｇ_ｉ及び投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９４）。中心人物不在の場合（ｓ１５９４ａ）、現状を維持する（ｓ１５９４ｂ）。中心人物が存在する場合、取得手段１５９４は、所定時間Ｔ４の中心人物の視線方向ｇ_ｍａｘ＝（ｇ_{ｍａｘ，ｔ−Ｔ４}，ｇ_{ｍａｘ，ｔ−Ｔ４＋１}，…，ｇ_{ｍａｘ，ｔ}）を蓄積部１５８から取得する（ｓ１５９４ｃ）。中心人物の視線方向を他の会話参加者毎にカウントする（ｓ１５９４ｄ）。このカウントして得られた値の中で最大値ＭＡＸが、会話参加者毎のカウントの和ＳＵＭに対する割合ＭＡＸ／ＳＵＭが閾値（例えば、０．８）以上の場合（ｓ１５９４ｅ）、その会話参加者と中心人物が仮想空間映像ｆ’内に納まるように、最大値となった会話参加者と中心人物を対象として、中心人物を画面中央寄りに表示するようにツーショット処理Ｂを行う（ｓ１５９３ｆ）。閾値未満の場合、現状を維持する（ｓ１５９３ｇ）。

このように処理を行うことによって、中心人物が特定の他の会話参加者に対して話し掛ける場合、その他の会話参加者の反応等を仮想空間映像ｆ’に納めることができる。

ある一人の会話参加者が、他の会話参加者に話し掛ける場合、他の会話参加者の視線が話し手に集中するとい性質があるため、視線パターンを検出することで、この場面を検出できる。中心人物が存在する場合に、取得手段１９５１〜１９５４を用いて、その状況を明確に映像化することができる。中心人物の顔表情やジェスチャなど非言語情報を分かりやすく映すとともに、中心人物が注目している他の会話参加者の反応や場の雰囲気等を適宜切り替えて映すことができる。また、取得手段１９５１〜１９５４は適宜組み合わせて利用することができる。

以下、説明する取得手段１５９５〜１５９７は、二人の会話参加者の視線が相互に互いを見ている場合には、二人の会話参加者を仮想カメラの視野に収めるように方位角及び注視度を求める。会話参加者のうち特定の二者ｉ，ｊが互いに見る場合（以下「視線交差」または「相互凝視」という）、その二者間に閉じたインタラクションが生じている可能性が高い性質を利用する。この場合、視線パターンの中に相互凝視が存在し、それが、一定時間持続する場合に、この手段を用いる。この場合、これら二者を画面内に納めるように仮想カメラの方位角と注視度の制御を行う。具体的な手段としては、以下のいずれか、または、組み合わせが利用できる。

＜取得手段１５９５＞
図２７は、取得手段１５９５の処理フロー例を示す。取得手段１５９５は、視線方向ｇ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９５）。取得手段１５９５は、所定時間Ｔ５の全ての会話参加者の視線方向ｇ_ｉ＝（ｇ_{ｉ，ｔ−Ｔ５}，ｇ_{ｉ，ｔ−Ｔ５＋１}，…，ｇ_ｉ，ｔ）を蓄積部１５８から取得する。会話参加者の内、特定の会話参加者Ｓ１の視線方向ｇ_Ｓ１を他の会話参加者毎にカウントする。このカウントして得られた値の中で最大値ＭＡＸ_Ｓ１を用いて、会話参加者毎のカウントの和ＳＵＭ_Ｓ１に対する割合ＭＡＸ_Ｓ１／ＳＵＭ_Ｓ１を求め、この割合が閾値（例えば、０．９）以上の場合、会話参加者Ｓ１は最大値となった会話参加者（例えば、Ｓ２とする）を凝視していたとみなす。同様の処理を全ての会話参加者に対して行う。そして、会話参加者Ｓ２の割合ＭＡＸ_Ｓ２／ＳＵＭ_Ｓ２が閾値（例えば、０．９）以上の場合、Ｓ１とＳ２の間に相互凝視が存在しているとみなす。取得手段１５９５は、相互凝視が存在しているか否か判定し、一組の相互凝視が存在している場合（ｓ１５９５ａ）、二者Ｓ１，Ｓ２の画面上での顔の位置が平行になるようにツーショット処理Ａを行う（ｓ１５９５ｂ）。なお、ツーショット処理Ａにより生成された仮想空間映像の例を図２２に示す。相互凝視が存在していない場合や二組以上の相互凝視が存在する場合、現状を維持する（ｓ１５９５ｃ）。但し、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合には、中心人物が存在するか否かを判定し、取得手段１５９１〜１９５４を組み合わせてθ、βを取得する構成としてもよい。

＜取得手段１５９６＞
図２８は、取得手段１５９６の処理フロー例を示す。取得手段１５９６は、視線方向ｇ_ｉと投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９６）。取得手段１５９６は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合（ｓ１５９６ａ）、現状を維持する（ｓ１５９６ｃ）。一組の相互凝視が存在している場合、取得手段１５９６は、ｃｎｔ_Ｓ１とｃｎｔ_Ｓ２を比較し（ｓ１５９６ｂ）、値が大きいほうの会話参加者を画面中央寄りに表示するように、ツーショット処理Ｂを行う（ｓ１５９６ｄ）。２人の方位角をα_Ｓ１、α_Ｓ２として（但し、α_Ｓ１≧α_Ｓ２）、ツーショット処理Ｂでは、仮想カメラの方位角θを以下のように求める。

ｃｎｔ_Ｓ１＞ｃｎｔ_Ｓ２ ⇒ θ＝π＋｛（α_Ｓ１＋α_Ｓ２）／２｝＋ｋ
ｃｎｔ_Ｓ１＜ｃｎｔ_Ｓ２ ⇒ θ＝π＋｛（α_Ｓ１＋α_Ｓ２）／２｝−ｋ
ｃｎｔ_Ｓ１＝ｃｎｔ_Ｓ２ ⇒ θ＝π＋｛（α_Ｓ１＋α_Ｓ２）／２｝
但し、ｋは所定の値（例えば、ｋ＝１０π／３６０）である。なお、所定の値に対し、二つの投票数の差ＳＵＢ（≧０）を反映させてもよい。つまり、ｋに代え、＋ｋ・ＳＵＢまたは−ｋ・ＳＵＢを加える。注視度βについては、ツーショット処理Ａと同様の方法により求める。図２５（ａ）は、ツーショット処理Ｂを行った場合の仮想空間映像ｆ’の例を、図２５（ｂ）は、各会話参加者の視線方向の例を示す。

＜取得手段１５９７＞
図２９は、取得手段１５９７の処理フロー例を示す。取得手段１５９７は、視線方向ｇ_ｉと発話の有無ｖ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９７）。取得手段１５９７は、相互凝視が存在していない場合や二組以上の相互凝視が存在する場合（ｓ１５９７ａ）、現状を維持する（ｓ１５９７ｃ）。一組の相互凝視が存在している場合、取得手段１５９７は、蓄積部１５８から相互凝視を行う会話参加者Ｓ１、Ｓ２の所定時間Ｔ６分の発話の有無ｖｉを取得し（ｖ_Ｓ１＝（ｖ_{Ｓ１，ｔ−Ｔ６}，ｖ_{Ｓ１，ｔ−Ｔ６＋１}，…，ｖ_Ｓ１，ｔ）、ｖ_Ｓ２＝（ｖ_{Ｓ２，ｔ−Ｔ６}，ｖ_{Ｓ２，ｔ−Ｔ６＋１}，…，ｖ_Ｓ２，ｔ））（ｓ１５９７ｂ）、所定時間Ｔ６内での発話の割合を算出する（ｓ１５９７ｄ）。ツーショット処理Ｂと同様に、割合が大きいほうの会話参加者を画面中央寄りに表示するように、割合の大きい参加会話者を画面中央寄りに位置させる正の数または負の数を加え、仮想カメラの方位角θを求める（以下「ツーショット処理Ｂ’」という。）（ｓ１５９７ｅ）。図２５（ａ）は、ツーショット処理Ｂを行った場合の仮想空間映像ｆ’の例を示す。

取得手段１５９５〜１５９７を用いることにより、２人の会話参加者がインタラクションを行う場面を明瞭に映像化することができる。特に、取得手段１５９６及び１５９７は、通常の映画映像でよく用いられる肩越しショットの模擬と考えることができる。

＜取得手段１５９８＞
図３０は、取得手段１５９８の処理フロー例を示す。取得手段１５９８は、視線方向ｇ_ｉと発話の有無ｖ_ｉと投票数ｃｎｔ_ｉ、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９８）。取得手段１５９８は、複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように方位角及び注視度を求める。

取得手段１５９８は、中心人物が存在しない場合（ｓ１５９８ａ）、現状を維持する（ｓ１５９８ｂ）。中心人物ｍａｘが存在する場合、取得手段１５９８は、所定時間Ｔ７分の中心人物の視線方向ｇ_ｍａｘ、及び、発話の有無ｖ_ｉを蓄積部１５８から取得する（ｓ１５９８ｃ）。所定時間Ｔ７内で中心人物の視線方向が特定の会話参加者Ｊ１からＪ２に変化し、かつ、変化後にｖ_Ｊ２が発話をしている場合（ｓ１５９８ｄ）、会話参加者Ｊ２のワンショット処理、または、会話参加者Ｊ２を画面中央寄りとして中心人物とのツーショット処理を行う（ｓ１５９８ｆ）。その他の場合、現状を維持する（ｓ１５９８ｅ）。これは、中心人物が他の会話参加者に対して発話を促すよう他者の方向をみる場面に相当する。そして、このような状況は、話し手の交代の場面に相当する。この場面では、中心人物の視線方向の変化と、新たな視線の対象の発話の有無に連動して注視度及び仮想カメラの方位角を求める。

以上、取得手段１５９１〜１５９８は、単独で使用することもできるし、組み合わせて新たな手段とすることもできる。組み合わせた場合の取得手段１５９９について説明する。

＜取得手段１５９９＞
図３１は、取得手段１５９９の処理フロー例を示す。取得手段１５９９は、視線方向ｇ_ｉ、発話の有無ｖ_ｉ、投票数ｃｎｔ_ｉと、方位角α_ｉを用いて、注視度β及び仮想カメラの方位角θを求める（ｓ１５９９）。

取得手段１５９９は、中心人物が存在し（ｓ１５９９ａ）、かつ、中心人物の投票数と２番目に大きい投票数の差が閾値Ｔｈ１よりも大きく（ｓ１５９９ｂ）、かつ、中心人物の投票数が閾値Ｔｈ２よりも大きく（ｓ１５９９ｃ）、中心人物以外の発話がある（ｓ１５９９ｅ）場合には、取得手段１５９３を用いて、θ、βを求める（ｓ１５９９ｌ）。よって、応答者と中心人物のツーショット処理が行われる。ツーショット処理Ｂを用い、中心人物が画面中央寄りに表示されるようにする。中心人物以外の発話がない（ｓ１５９９ｅ）場合には、取得手段１５９１を用いて処理を行う（ｓ１５９９ｍ）。よって、中心人物の大きなワンショット処理が行われる。投票数の大きな中心人物に特に注目して、なおかつ、他の参加者の発話についても対応することができる。

取得手段１５９９は、中心人物が存在し（ｓ１５９９ａ）、かつ、中心人物の投票数と２番目に大きい投票数の差が閾値Ｔｈ１よりも大きく（ｓ１５９９ｂ）、かつ、中心人物の投票数が閾値Ｔｈ２よりも小さい場合には（ｓ１５９９ｃ）、取得手段１５９１を用いて、ワンショット処理を行う（ｓ１５９９ｆ）。この際、中心人物の投票数は閾値Ｔｈ２より小さいため、俯瞰処理を行われた場合の映像に近い仮想空間映像ｆ’を得ることができる。

取得手段１５９９は、中心人物が存在し（ｓ１５９９ａ）、かつ、中心人物の投票数と２番目に大きい投票数の差が閾値Ｔｈ１よりも小さい場合（ｓ１５９９ｂ）、取得手段１５９４を用いて、θ、βを求める（ｓ１５９９ｄ）。中心人物が他の会話参加者を凝視している場合には、中心人物と凝視される会話参加者のツーショット処理Ａを行い、中心人物が誰に対しても凝視していない場合には、現状を維持する。

取得手段１５９９は、中心人物が存在せず（ｓ１５９９ａ）、かつ、相互凝視が存在しない場合（ｓ１５９９ｇ）、俯瞰処理を行う（ｓ１５９９ｈ）。俯瞰映像を見ることで、分かりづらい会話構造を理解できるようにすることができる。

取得手段１５９９は、中心人物が存在せず（ｓ１５９９ａ）、かつ、相互凝視が存在し、（ｓ１５９９ｇ）、相互凝視している二者の投票差が閾値Ｔｈ３よりも大きい場合（ｓ１５９９ｉ）、取得手段１５９６を用いてツーショット処理Ｂを行う（ｓ１５９９ｊ）。投票数が大きい会話参加者を画面中央寄りに表示し、会話の構造を理解しやすくすることができる。

取得手段１５９９は、中心人物が存在せず（ｓ１５９９ａ）、かつ、相互凝視が存在し（ｓ１５９９ｇ）、かつ、相互凝視している二者の投票差が閾値Ｔｈ３よりも小さく（ｓ１５９９ｉ）、かつ、一方のみが発話している場合（ｓ１５９９ｎ）、取得手段１５９７を用いてツーショット処理Ｂ’を行う（ｓ１５９９ｋ）。発話の割合が大きい会話参加者を画面中央寄りに表示し、会話の構造を理解しやすくすることができる。相互凝視している二者がともに発話している場合、取得手段１５９５を用いて、ツーショット処理Ａを行う（ｓ１５９９ｏ）。このような場合、バランスよく両者を表示することができる。

取得手段１５９９以外にも、上記手段を組み合わせることで、方位角θ及び注視度βを求めることができる。
＜制御パラメータ取得方法切替部１８０＞
ユーザインターフェース装置７０から所定の信号が入力された場合、制御パラメータ取得方法切替部１８０は、取得方法選択手段１５７を停止、または、動作させる制御信号を出力する。ユーザインターフェース装置７０から入力される所定の信号は、停止または動作をユーザが選択した場合に入力される信号であってもよい。また、制御パラメータ取得方法切替部１８０は、ユーザがユーザインターフェース装置７０を操作すると出力される信号を所定の信号とし、ユーザが操作すると、取得方法選択手段１５７が停止する制御信号を自動的に出力し、ユーザが操作をやめると、取得方法選択手段１５７が動作する制御信号を自動的に出力する構成としてもよい。このような構成とすることで、ユーザは、簡易に自動映像音声生成と手動映像音声生成を切り替えることができるようになる。なお、取得方法選択手段１５７が停止すると、取得手段１５９ｅは方位角θ及び注視度βを求めなくなる。代わって、ユーザインターフェース装置７０から入力される方位角θ、注視度βを制御パラメータ取得手段１５４へ出力する。

＜制御パラメータ取得手段１５４＞
制御パラメータ取得手段１５４は、方位角θ及び注視度βを用いて、仮想カメラの視点を制御する制御パラメータＵを求める（ｓ１５４）。

制御パラメータ取得手段１５４は、連続的パラメータ生成手段１５４ａと一部制御パラメータ算出手段１５４ｂを有する。

＜連続的パラメータ生成手段１５４ａ＞
連続的パラメータ生成手段１５４ａは、方位角及び注視度取得手段１５２で求められた注視度βと方位角θを用いて、時間的に、連続して変化する新たな注視度βと方位角θを生成する。注視度βは、俯瞰処理からワンショット処理まで視点の変化を制御するパラメータであり、方位角θは、人物の選択を制御するパラメータである。よって、例えば、時刻ｔ−１においてβ＝１，θ＝πであり（ワンショット処理時）、時刻ｔにおいてβ＝０，θ＝０に変化した場合（俯瞰処理）、画面が不連続にワンショット画像から俯瞰画像に切り替わり、視聴者が会話の構造を見失う可能性がある。そこで、例えば、βが１から０に変化する場合、１回の処理で行える変化量の最大値を予め定めておき（例えば、Δβとする）、βを１から０にΔβづつ減少させて、時間的に連続してβを変化させる。方位角θについても同様の処理を行うことができる。このような処理を行うことで、仮想カメラの視点は徐々に変化していき、視聴者は会話構造等を見失いづらくなる。また、このような構成とすることで、視聴者に対して、浮遊効果、躍動感を与えることができる。さらに、仮想カメラ視点を時間的に連続して変化させることで、視聴者に対して、特定の会話参加者に対して注意を向けさせることができる。なお、変化量をＣとしたとき、一回の処理で行う変化量をΔβとした場合に、所定の時間（例えば、２秒）をＮ等分し、Δβ＝Ｃ／Ｎとすることで、同様に時間的に連続して、制御パラメータを更新することができ、かつ、仮想カメラ視点の変化にかかる時間を所定時間に納めることができる。変化量が大きいときには、一回の処理で大きくパラメータが更新され、変化量が小さいときには、一回の処理で小さくパラメータが更新される。

さらに、連続的パラメータ生成手段１５４ａは、仮想カメラの視点に変化が生じた後、一定時間は視点を静止させるような制御を行ってもよい。例えば、連続的パラメータ生成手段１５４ａは、出力する制御パラメータが、一時刻前ｔ−１の比べ変化した場合には、一定時間、新たな異なるβを一部制御パラメータ算出手段１５４ｂには出力しないようにする。なお、本実施例は発明の内容を限定するものではない。例えば、連続的パラメータ生成手段１５４ａを有さずとも、自動的に仮想カメラの視点を制御するため、非言語情報を読み取りやすく、会話の構造等を理解しやすいという効果を奏する。

＜一部制御パラメータ算出手段１５４ｂ＞
一部制御パラメータ算出手段１５４ｂは、新たな注視度βを用いて、制御パラメータの一部、φ、ρ、ｑ_ｘ’を算出する。例えば以下の式により、求める。

但し、Ａ＞０，Ｂ＞０，Ｃ＞０，φ_ｔｈ＞０，φ_ｍａｘ＞０は必要とされる性能及び仕様に基づいて適宜設定される係数である。
φ_ｍａｘは、φの最大値を表し、これに、β（０≦β≦１）を乗じて、φを求める。φ_ｔｈは閾値であり、βが一定値以上になるまで、ρは小さくならない。図３２は、注視度βと制御パラメータの関係を示す図である。注視度βを段階的に変化させたときの仮想カメラの位置と注視点の位置をＸ’−Ｚ平面上の線分として表している。なお、線分の一端にある楕円がカメラの位置を、他端が注視点Ｑを表す。注視度βを変化させることにより、仮想カメラ位置及び注視点Ｑを制御できることがわかる。この図に示すように、注視度０の場合には、カメラ視点が俯瞰ショットになり、注視度が１に近づくにつれ、視点が下がるとともに、視線が横向きになる。さらに、βが一定値以上となると、部分平面に近づく。これにより、注視度が高い場合には、視聴者は、会話参加者の視点におりて、より没入感、臨場感のあるシーンを生成することができる。

図１９、図２０、図２１は、このようにカメラ視点を制御して、仮想空間映像生成手段１６０で生成された画像や記号を映像化した例である。ここでは、同一時刻のシーンの３つの異なる注視度の場合について映像化している。図１９は、注視度が０の場合である。会話参加者全員の顔画像、及び、各種情報が俯瞰的に映像化される。図２０は、注視度が中程度（例えば、β＝０．５）の場合である。注視度が大きくなると次第にカメラの視点位置が下降し、さらにβが一定値以上になると、会話参加者にカメラが接近する。注視度１の場合には、ある一人の会話参加者の顔画像が大きく表示される。

＜仮想空間調整手段１６６＞
図３３は、仮想空間調整手段１６６の構成例を示す。仮想空間調整手段１６６は、仮想空間音声生成手段１７０において、仮想空間上に配置される会話参加者の部分平面ｆ４を調整するパラメータを生成する（ｓ１６６）。仮想空間調整手段１６６は、γ生成手段１６６ａと切り出しサイズ変更手段１６６ｂを有する。

γ生成手段１６６ａは、注視度βを用いて、仮想空間上の水平面（Ｘ−Ｙ平面と平行な面）と部分平面の成す角γを生成する（ｓ１６６ａ）。γ生成手段１６６ａは、注視度が大きいほど、直角に近い角γを生成する。角γを注視度βの関数として制御する。例えば、注視度βが０の場合に、角γは７５度、注視度βが１の場合に、角γは９０度とし、その間を滑らかに接続するように制御される。よって、γ生成手段１６６ａは、注視度βを入力として、角γを出力する。角γは、仮想空間映像生成手段１６０に入力され、仮想空間映像生成手段１６０では、角γを用いて、仮想空間上の水平面（Ｘ−Ｙ平面と平行な面）と部分平面が角度γを成すように配置する。このような制御を行うことにより、注視点βが大きくなり、降りてきた仮想カメラ視点に対して、部分平面が正対するように制御することができる。

切り出しサイズ変更手段１６６ｂは、注視度βを用いて、部分平面ｆ４に射影するパノラマ画像の会話参加者画像を切り出す際のサイズを制御するパラメータεを生成する（ｓ１６６ｂ）。切り出しサイズ変更手段１６６ｂは、注視度が大きいほど、パノラマ画像の会話参加者画像を切り出す際のサイズを大きくするパラメータεを生成する。パラメータεを注視度βの関数として制御する。例えば、注視度βが１の場合には、人物の胸や肩まで入るような大きいサイズを切り出す。注視度βが０の場合には、顔が大きく写るように小さいサイズを切り出す。仮想空間映像生成手段１６０では、パラメータεの値に応じて、切り出す際のパノラマ画像上の頂点（ｐ_００，ｐ_０１，ｐ_１０，ｐ_１１）の各頂点間の距離を変更する。

このように部分平面を調整することにより、俯瞰シーンの場合に会話参加者全員の顔画像をわかりやすく提示できる。さらに、特定の会話参加者に注視する場合には、より実世界にいる他の会話参加者の視点から見える映像に近い映像を生成することができる。

＜仮想空間音声生成手段１７０＞
図３４は、仮想空間音声生成手段１７０の構成例を示す。仮想空間音声生成手段１７０は、音声強調手段１７２と再生制御部１７４を有する。

音声強調手段１７２は、発話の有無及び到来方向を用いて、音声ｍに対し強調処理を行う（ｓ１７０、ｓ１７２）。音声強調手段１７２は、強調処理を行った音声ｍ１を再生制御部１７４に出力する。例えば、ＳＮ比最大化ビーム形成に基づく音声強調技術が利用できる。但し、他の方法により、音声強調処理を行ってもよい。

再生制御部１７４は、仮想カメラの方位角θと会話状態に含まれる各会話参加者の顔の位置（方位角α_ｉ）及びに注視度に基づき、仮想空間音声の左右のバランス及び音量を制御し、音声ｍを用いて生成された音声ｍ１から仮想空間音声ｍ’を生成する（ｓ１７０、ｓ１７４）。例えば、ステレオスピーカーから出力される各会話参加者の音声の左右バランスを制御する方法等が考えられる。

仮想カメラの視点の方位角θ、会話参加者ｊの方位角α_ｊとすると、映像化される画面の中心に対する会話参加者ｊの相対的な方位角は、Δα_ｊ＝α_ｊ−θ＋πとなる。ステレオ再生の左右のバランスをｂとし、例えば、−１≦ｂ≦＋１とし、−１が左を、＋１が右に対応する。このとき、
ｂ＝ｓｉｎ（Δα_ｊ）・（β・ｋ_１＋ｋ_２）
とする。但し、ｋ_１，ｋ_２は必要とされる性能及び仕様に基づいて適宜設定される係数である。画面の中心に対する相対的な方位角Δα_ｊによって、左右のバランスが決まり、注視度βによって、左右のバランスの効果を変更する。このように左右のバランスを求めることによって、画面中心に対して右に位置する人物の声は、右のスピーカーから大きく聞こえるように仮想空間音声ｍ’を生成することができる。また、特定の会話参加者がワンショット映像が生成される場合には（注視度１）、左右のバランスの効果は大きくなり、よりはっきりと左右どちらから音声が出力されているのかわかる。これにより、ワンショット映像で、他の会話参加者の顔が見えない場合でも、話し手の判別がしやすくなる。

また、ボリューム（音量）をｖとし、例えば、０≦ｖ≦１とする。このとき、
ｖ＝ｃｏｓ（Δα_ｊ）・（β・ｋ_３）＋ｋ_４
但し、ｋ_１，ｋ_２は必要とされる性能及び仕様に基づいて適宜設定される係数である。
注視度０の場合、つまり仮想空間画像ｇ’が俯瞰画像となる場合、各人のボリュームは均等に調整される。注視度が大きければ大きいほど、画面中央の人物に近い会話参加者のボリュームは大きく、左右に離れるにつれてボリュームが小さくなるように調整される。そのため、会話の音声を聞き取りやすく再生することが可能である。特に複数の会話参加者の声がオーバーラップするような場面において、注視度の高い人物の声のみを強調して再生することができ、会話の内容理解が促進される。なお、この方法以外で音声の再生を制御することも可能である。さらに、上記制御方法は、３チャネル以上のサラウンド音声再生にも容易に拡張できる。

＜ハードウェア構成＞
図３５は、本実施例における映像音声処理装置１００のハードウェア構成を例示したブロック図である。

図３５に例示するように、この例の映像音声処理装置１００は、それぞれＣＰＵ（Central Processing Unit）１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ（Read Only Memory）１５、ＲＡＭ（Random Access Memory）１６及びバス１７を有している。

この例のＣＰＵ１１は、制御部１１ａ、演算部１１ｂ及びレジスタ１１ｃを有し、レジスタ１１ｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１２は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部１３は、データが出力される出力インターフェース等である。補助記憶装置１４は、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、映像音声処理装置１００としてコンピュータを機能させるためのプログラムが格納されるプログラム領域１４ａ及び各種データが格納されるデータ領域１４ｂを有している。また、ＲＡＭ１６は、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域１６ａ及び各種データが格納されるデータ領域１６ｂを有している。また、バス１７は、ＣＰＵ１１、入力部１２、出力部１３、補助記憶装置１４、ＲＯＭ１５及びＲＡＭ１６を通信可能に接続する。

なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。

＜プログラム構成＞
上述のように、プログラム領域１４ａ，１６ａには、本実施例の映像音声処理装置１００の各処理を実行するための各プログラムが格納される。映像音声処理プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。

＜ハードウェアとプログラムとの協働＞
ＣＰＵ１１（図３５）は、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１４のプログラム領域１４ａに格納されている上述のプログラムをＲＡＭ１６のプログラム領域１６ａに書き込む。同様にＣＰＵ１１は、補助記憶装置１４のデータ領域１４ｂに格納されている各種データを、ＲＡＭ１６のデータ領域１６ｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１６上のアドレスがＣＰＵ１１のレジスタ１１ｃに格納される。ＣＰＵ１１の制御部１１ａは、レジスタ１１ｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１６上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１１ｂに順次実行させ、その演算結果をレジスタ１１ｃに格納していく。

図４は、このようにＣＰＵ１１に上述のプログラムが読み込まれて実行されることにより構成される映像音声処理装置１００の機能構成を例示したブロック図である。

ここで、記憶部１０３は、補助記憶装置１４、ＲＡＭ１６、レジスタ１１ｃ、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、入力手段１０１、出力手段１０２、記憶手段１０３、制御手段１０５、顔位置姿勢推定手段１１０、視線方向推定手段１２０、発話推定手段１３０、会話状態推定手段１４０、仮想カメラ視点制御手段１５０、仮想空間映像生成手段１６０、仮想空間調整手段１６６、仮想空間音声生成手段１７０、ＣＰＵ１１に映像処理プログラムを実行させることにより構成されるものである。また、本形態の映像音声処理装置１００は、制御部１０５の制御のもと各処理を実行する。

１００映像音声処理手段１０１入力手段
１０２出力手段１０３記憶手段
１０５制御手段１１０顔位置姿勢推定手段
１２０視線方向推定手段１３０発話推定手段
１４０会話状態推定手段１５０想カメラ視点制御手段
１６０仮想空間映像生成手段１６６仮想空間調整手段
１７０仮想空間音声生成手段

Claims

観測装置から得られる映像及び音声を用いて、３次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理装置であって、
前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定手段と、
前記顔の位置及び姿勢から視線方向を推定する視線方向推定手段と、
前記音声を用いて、発話の有無及び到来方向を推定する発話推定手段と、
前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定手段と、
前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ（以下「仮想カメラ」という）の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御手段と、
前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成手段と、
を有することを特徴とする映像音声処理装置。
請求項１記載の映像音声処理装置であって、
前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成手段も有する、
ことを特徴とする映像音声処理装置。
請求項１または２記載の映像音声処理装置であって、
前記仮想カメラ視点制御手段は、
会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得手段と、
前記方位角及び注視度取得手段において求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成手段と、
を備える、
ことを特徴とする映像音声処理装置。
請求項３記載の映像音声処理装置であって、
前記方位角及び注視度取得手段は、１以上の取得手段を有し、
（Ａ）複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得手段と、
（Ｂ）二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得手段と、
（Ｃ）複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得手段の何れか、または、（Ａ）〜（Ｃ）の少なくとも２つを組み合せることにより前記方位角及び前記注視度を求める、
ことを特徴とする映像音声処理装置。
請求項１から４記載の映像音声処理装置であって、
前記仮想カメラの方位角と前記会話状態に含まれる各会話参加者の顔の位置及び注視度に基づき、仮想空間音声の左右のバランス及び音量を制御し、前記音声を用いて仮想空間音声を生成する仮想空間音声生成手段も有する、
ことを特徴とする映像音声処理装置。
観測装置から得られる映像及び音声を用いて、３次元仮想空間上に表示する仮想空間映像及び仮想空間音声を生成する映像音声処理方法であって、
前記映像を用いて、パノラマ画像を生成し、該パノラマ画像から会話参加者の顔の位置及び姿勢を推定する顔位置姿勢推定ステップと、
前記顔の位置及び姿勢から視線方向を推定する視線方向推定ステップと、
前記音声を用いて、発話の有無及び到来方向を推定する発話推定ステップと、
前記顔の位置、視線方向、発話の有無及び到来方向を用いて、会話参加者の映像と音声を対応付け会話状態を推定する会話状態推定ステップと、
前記会話状態のうち少なくとも一部を用いて、前記仮想空間上のカメラ（以下「仮想カメラ」という）の注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求め、該方位角及び前記注視度を用いて、前記仮想カメラの視点を制御する制御パラメータを求める仮想カメラ視点制御ステップと、
前記パノラマ画像と顔位置から、会話参加者画像を切り出し、切り出した会話参加者画像を部分平面に射影し、該部分平面を実際の会話参加者の配置と対応するように仮想空間上の水平面に、該水平面と前記部分平面が所定の角度γを成すように配置し、前記制御パラメータを用いて、前記仮想カメラの視点を制御し、該視点における仮想空間映像を生成する仮想空間映像生成ステップと、
を有することを特徴とする映像音声処理方法。
請求項６記載の映像音声処理方法であって、
前記注視度を用いて、注視度が大きいほど、直角に近い角γを生成するγ生成ステップも有する、
ことを特徴とする映像音声処理方法。
請求項６または７記載の映像音声処理方法であって、
前記仮想カメラ視点制御ステップは、
会話状態のうち少なくとも一部を用いて、仮想カメラの注視の度合いである注視度、及び、仮想空間の原点に対する仮想カメラの方位角を求める方位角及び注視度取得ステップと、
前記方位角及び注視度取得ステップにおいて求められた前記注視度と前記方位角を用いて、時間的に、連続して変化する新たな注視度と方位角を生成する連続的パラメータ生成ステップと、
を備える、
ことを特徴とする映像音声処理方法。
請求項８記載の映像音声処理方法であって、
前記方位角及び注視度取得ステップは、１以上の取得ステップを有し、
（Ａ）複数の会話参加者の視線が一人の会話参加者に集中している場合には、その会話参加者が仮想カメラの視野中央寄りに表示されるように前記方位角及び前記注視度を求める取得ステップと、
（Ｂ）二人の会話参加者の視線が相互に互いを見ている場合には、該二人の会話参加者を仮想カメラの視野に収めるように前記方位角及び前記注視度を求める取得ステップと、
（Ｃ）複数の会話参加者の視線を集めている会話参加者の視線方向が変化した場合には、その視線の先にいる会話参加者を視野に納めるように前記方位角及び前記注視度を求める取得ステップの何れか、または、（Ａ）〜（Ｃ）の少なくとも２つを組み合せることにより前記方位角及び前記注視度を求める、
ことを特徴とする映像音声処理方法。
請求項１から５記載の何れかの映像音声処理として、コンピュータを機能させるための映像音声処理プログラム。