JP5656809B2

JP5656809B2 - 会話映像表示システム

Info

Publication number: JP5656809B2
Application number: JP2011254857A
Authority: JP
Inventors: 大塚　和弘; 和弘大塚; 史朗熊野; 弾三上; 昌史松田; 淳司大和
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-22
Filing date: 2011-11-22
Publication date: 2015-01-21
Anticipated expiration: 2031-11-22
Also published as: JP2013110630A

Description

この発明は複数の人物が会話をしている場面を撮影した画像を他の場所において映像として表示をする会話映像表示システムに関する。

従来、複数の人物が会話をしている場面を映像として、他の場所の視聴者に対して提示する技術として、以下の技術がよく知られている。

テレビジョンや映画においては、複数の人物の会話場面を、各人物の顔のアップショットやバストショット、複数人物を含む俯瞰ショットなどを撮影可能とすべく、異なる角度、位置に設置された複数の固定カメラもしくは三脚上に設置されたパンやチルトなどのカメラワークが可能なカメラにより撮影し、その後カット編集などの映像編集によって時系列上に異なる視点で撮られた人物の映像を配置することで一続きの映像を制作し、それをディスプレイ装置や映写装置などにより表示し、その表示された映像を視聴者が視聴するという一連の方法論、技術、装置が確立している。しかしながら、ここで用いられる撮影や映像編集は、人間の高度な経験や技術、感性、演出意図によりなされるものであり、自動化や実時間化は困難とされている。

一方、電気通信の分野ではテレビ会議システム、映像会議システム、デスクトップカンファレンスシステム、テレプレゼンスシステムと呼ばれるシステムが知られている（例えば、非特許文献１参照）。これらはビデオカメラにより各人物の顔を含めた画像を撮影し、それを遠隔地点に伝送し、ディスプレイ上に表示するシステムであり、各地点で双方向的に撮影、伝送、表示の回路を組むことにより、遠隔地点間での会話を可能とする。

しかしながら、これらシステムでは、ある人物Ａが画面上に表示された遠隔地の人物Ｂに視線を向けても、この人物Ｂがみている人物Ａの映像からはそれが読み取れないという問題、いわゆる視線不一致の問題が避けられない。これは対面状況の会話ではあり得ない現象であり、著しい不自然さを感じ、適切な会話の理解を阻害する要因として知られている。

また、会話人物が３人以上の場合には、さらに問題は深刻であり、誰が誰に向かって話しかけている、問いかけているのかが映像から読み取れず、適切な会話の理解はさらに困難となる。これは視線を手がかりとしたアドレッシング行為が機能不全を起こしていることに他ならない。

また、典型的なシステムでは、画面に表示される人物の顔は小さく、また多人数の場合、表示される人物画像の配置にも一貫性がなく、視線不一致の問題に加えて人物の存在感、実在感が乏しく、これも対面状況の会話とは異なる不自然感を生み、適切な会話の理解を阻害する要因としてあげられる。

近年、高解像度カメラ、高解像度・大画面ディスプレイを用いたシステム（テレプレゼンスシステムと一部では呼ばれている）が販売されているが、高解像度化、大画面化により一見、遠隔人物の存在感は増しているように感じるが、それゆえ視線不一致の問題が顕著に感じられることが問題として指摘されている。

これらの視線不一致の問題、視線によるアドレッシング行為が正しく遠隔人物に伝達されないという問題に対して、ディスプレイ配置を工夫することにより解決を試みたシステムが提案されている。非特許文献２では、遠隔地の各人物をそれぞれ個別のディスプレイにて表示し、そのディスプレイの配置を実際の会話場面に近くなるように円周上に配置するシステムが提案されている。また、非特許文献３に記載されたシステムでは、複数の大型ディスプレイを円筒状、円環上に配置して、人物の周囲を覆うようにし、それを複数の地点に設置して、各ディスプレイ対面に設置されたカメラからの映像を各ディスプレイに表示している。複数地点の会話人物はディスプレイを背にして円周上に立ち、会話を行う。これにより、複数地点感で一つの空間を共有することになり、ある地点のある人物の向いている方向が他地点の人物からも分かりやすいと言われている。

このようなディスプレイの空間配置により、ある程度視線によるアドレッシング行為が伝達されうると考えられるが、一方、ディスプレイが空間中に分散配置されることにより、人物の視野内に全てのディスプレイが収まらなくなり、視野外のディスプレイに表示される人物の画像やその人物の振る舞いが分かりにくくなるといった問題がある。また、視聴者は頻繁に頭部を振って状況を確認する必要があり、必ずしも従来型のテレビ会議システムと比べて、円滑な会話が可能とはいえないことが指摘されている。

また、近年、より自然に近い実在感を生み、自然な会話を志向したシステムとして、テ
レプレゼンスロボットが開発されている（例えば、非特許文献４参照）。このテレプレゼンスロボットは典型的には車輪など位置の移動を可能とする筐体をもつロボットの顔にあたる部分にディスプレイを埋め込み、そこに遠隔地の人物の顔を表示する。また、そのディスプレイに近い部分にカメラが設置されており、遠隔地の人物は画像を通じてロボットが位置する場所の様子を把握することができる。また、ロボットの操作により、ロボットの位置や姿勢を制御することができる。旧来の映像会議システムと比べて、より高い実在感を生み、自然なコミュニケーションが可能になると言われている。しかしながら、ロボットの機械としての存在感が突出し、その人らしさが感じにくいという問題やロボット操作という本来会話とは異なる部分での負荷がユーザにかかるという問題が指摘されている。

Conti,J.,"Technology telepresence - I see live people",Engineering Management Journal,2007年6/7月,p.12-15 Sellen,A.J.,"Speech patterns in video-mediated conversations" In Proc. CHI’92,1992年,p.49-59 Hirata,K.,Kaji,K.,Harada,Y.,Yamashita,N.,and Aoyagi,S.,"t-Room:Remote collaboration apparatus enhancing spatio-temporal experiences",In Proc.CSCW’08,2008年 Guizzo,E.,"When my avatar went to work",IEEE Spectrum,2010年,p.26-50

この発明の目的は、複数の人物が会話をする場面や会話の内容、人物の動作、仕草などを別の場所にいる人物が分かりやすく理解できるように会話場面の映像を表示する会話映像表示システムを提供することにある。特に、会話をしている人物間において、誰が誰を見ているかという視線方向及び誰が誰に話しかけている、問いかけているかというアドレッシングの方向が分かりやすく理解できるようなシステムの提供を目的とする。また、現実の会話の場の空気や雰囲気がより伝わりやすいよう、人物の実在感、存在感の再現もあわせて目的とする。

請求項１の発明によれば、会話の画像及びその会話の各人物の頭部姿勢データを入力とし、入力された画像及び頭部姿勢データを処理して会話の状況を映像表示する会話映像表示システムは、前記各人物の位置関係と対応するように配置された複数のスクリーンと、各スクリーンに前記各人物毎の画像を投影する映像投影装置と、スクリーンの姿勢を制御するアクチュエータと、スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、頭部姿勢データをもとにアクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、入力された画像上における前記各人物の顔の領域を検出する顔位置検出手段と、入力された画像中の顔位置検出手段によって検出された顔の領域を中心とした領域を、その顔の人物の画像が投影されるスクリーンの姿勢及びそのスクリーンと映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を映像投影装置に出力する画像写像生成手段とを有する。

請求項２の発明によれば、会話の画像を入力とし、入力された画像を処理して会話の状況を映像表示する会話映像表示システムは、前記各人物の位置関係と対応するように配置された複数のスクリーンと、各スクリーンに前記各人物毎の画像を投影する映像投影装置と、スクリーンの姿勢を制御するアクチュエータと、入力された画像上における前記各人物の顔の領域及び頭部姿勢を検出する視覚的顔追跡手段と、スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、視覚的顔追跡手段で検出された頭部姿勢をもとにアクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、入力された画像中の視覚的顔追跡手段で検出された顔の領域を中心とした領域を、その顔の人物の画像が投影されるスクリーンの姿勢及びそのスクリーンと映像投影装置との位置関係に応じて写像し、顔の領域が写像された画像を映像投影装置に出力する画像写像生成手段とを有する。

請求項３の発明では請求項２の発明において、視覚的顔追跡手段は予め入力された前記各人物の画像から正面顔画像のテンプレートを作成し、そのテンプレートを並進及び回転させてテンプレート中の画素の輝度と、その画素と対応する入力された画像中の画素の輝度との輝度差を求め、その輝度差が最小になるテンプレートの位置及び姿勢を顔の領域及び頭部姿勢とする。

請求項４の発明では請求項１乃至３のいずれかの発明において、アクチュエータはスクリーンを鉛直軸周りに回転させる。

請求項５の発明では請求項１乃至３のいずれかの発明において、アクチュエータはスクリーンを鉛直軸周り及びスクリーン板面と平行な水平軸周りの双方に回転させる。

請求項６の発明では請求項１乃至５のいずれかの発明において、スクリーンは背面投影スクリーンとされる。

請求項７の発明では請求項１乃至６のいずれかの発明において、映像投影手段に入力する画像から、人物領域以外の背景領域を除去する背景画像除去手段を有する。

この発明によれば、スクリーンに投影される画像の人物の頭の動きと、物理的なスクリーンの動きの相乗効果がうまれ、視聴者がより分かりやすく、会話をしている人物の頭部姿勢とその変化を理解することができ、それにより会話をしている人物が視線を向けている別の人物が分かりやすく理解できる。

また、この動的な映像投影及び会話をしている人物の実際の位置を模したスクリーン配置により、会話をしている人物のより高い存在感を感じることができる。特に、背景画像除去を行う場合、人物像があたかも目の前の空間に浮かんだように見え、より高い実在感を視聴者は感じることが可能である。これらの効果により、他地点の会話の様子、内容を視聴者はより分かりやすく理解することができる。

この発明による会話映像表示システムの一実施例の機能構成を示すブロック図。（ａ）は会話をしている人物の位置とカメラ配置の一例を説明するための図、（ｂ）はプロジェクタとスクリーンと視聴者の位置関係を説明するための図。（ａ）はプロジェクタ、アクチュエータに支持されたスクリーン、スピーカの配置関係を示す図、（ｂ）はアクチュエータの詳細を示す図。（ａ）は実際の会話場面を示す図、（ｂ）は会話状況の映像表示例を示す図（背景画像除去を行っていない場合）、（ｃ）は会話状況の映像表示例を示す図（背景画像除去を行っている場合）。（ａ）はカメラにより撮影された画像の一例を示す図、（ｂ）は顔位置検出手段によって検出された顔領域及び頭部姿勢を顔面上のメッシュとして示す図、（ｃ）は背景画像除去手段により背景が除去された画像を示す図、（ｄ）は画像写像生成手段により生成された画像を示す図。（ａ）はアクチュエータを駆動制御する制御信号の生成の様子を説明するための図、（ｂ）は（ａ）の一部を拡大した図、（ｃ）は（ｂ）の区間における速度成分を示す図。画像写像生成手段における写像操作に関係する座標系の関連を説明するための図。この発明による会話映像表示システムの他の実施例の機能構成を示すブロック図。

この発明の実施形態を図面を参照して実施例により説明する。

図１はこの発明による会話映像表示システムの一実施例の構成を、会話を行っている側に設置される機器と共に示したものである。会話を行っている側（会話現場）には、カメラ１０１とマイクロホン１０２と頭部姿勢計測装置１０３が設置される。

会話映像表示システム２００はデータ処理部３００と出力部４００からなる。データ処理部３００は顔位置検出手段３０１、画像写像生成手段３０２、制御信号生成手段３０３、背景画像除去手段３０４から構成される。出力部４００は映像投影装置４０１、アクチュエータ４０２、スクリーン４０３、スピーカ４０４から構成される。

カメラ１０１には例えばデジタルビデオカメラを用いる。会話を行う人物（以下、会話人物と言う）毎に一台のカメラ１０１を割り当て、正面からの顔画像が得られる位置にカメラ１０１を設置する。

マイクロホン１０２には例えばピンマイクロホンを用いる。ピンマイクロホンは各会話人物に装着される。

頭部姿勢計測装置１０３には例えば磁気式センサシステムを用いる。

顔位置検出手段３０１はカメラ１０１にて撮影された画像を入力として、画像上における会話人物の顔の領域を検出する。

画像写像生成手段３０２はカメラ１０１にて撮影されて入力された画像中の、顔位置検出手段３０１によって検出された人物の顔の領域を中心とした領域を、スクリーン４０３に投影される画像に歪みが生じないように、その顔の人物の画像が投影されるスクリーン４０３と映像投影装置４０１との位置関係及びアクチュエータ４０２によって制御されるスクリーン４０３の姿勢に応じて写像（マッピング）を行うことで、映像投影装置４０１に出力する画像を生成する。

制御信号生成手段３０３はスクリーン４０３の姿勢を、そのスクリーン４０３に投影される画像中の人物の頭部姿勢と同期して変化させるべく、頭部姿勢計測装置１０３により計測された会話人物の頭部姿勢データを入力として、アクチュエータ４０２を駆動制御する制御信号を生成する。

背景画像除去手段３０４はカメラ１０１にて撮影された画像を入力とし、画像上の人物領域以外の背景領域の除去を行った画像を生成する。

映像投影装置４０１は画像写像生成手段３０２により生成された画像をスクリーン４０３に投影する。映像投影装置４０１には例えば液晶プロジェクタなどを用いることができる。

スクリーン４０３は映像投影装置４０１により投射された画像を投影する平面スクリーンである。スクリーン４０３には例えば透明アクリル板に拡散材を配合した正方形または長方形のパネルを用いることができる。スクリーン４０３は下端部分がアクチュエータ４０２により支持され、その姿勢がアクチュエータ４０２により制御される。

アクチュエータ４０２はスクリーン４０３を支持し、かつその姿勢を動的に制御する。アクチュエータ４０２は人物の首振り方向の頭部運動を模した動きをスクリーン４０３に与えるよう、鉛直軸周りの回転運動（以下、パン運動と言う）を生成するモータを有する。また、加えて、この例では人物の頷き方向の頭部運動を模した動きをスクリーン４０３に与えるよう、スクリーン面（スクリーン板面）と平行な水平軸周りの回転運動（以下、チルト運動と言う）を生成するモータを有する。

スピーカ４０４はマイクロホン１０２で集音された会話人物の音声を再生する。スピーカ４０４は例えば各会話人物の位置関係と対応するように配置されて各会話人物毎の画像が投影されるスクリーン４０３の前方に配置される。

以下、具体的な会話状況を例に説明する。

この例では図２（ａ）に示したような配置で着席している４人の人物が会話を行う状況を例とする。なお、映像表示された会話の状況を視聴する人物を視聴者とする。ここでは１人の視聴者を例にとり説明を行うが、視聴者は１人に限らず、複数であってもよい。

図２（ｂ）は映像投影装置（以下、プロジェクタと言う）４０１、スクリーン４０３及び視聴者の位置関係を示したものである。図２（ａ）の会話人物１〜４の位置関係に合わせて、プロジェクタ４０１_１〜４０１_４及びスクリーン４０３_１〜４０３_４が配置される。この例では会話人物１の映像がプロジェクタ４０１_１とスクリーン４０３_１により表示される。また、視聴者から見てプロジェクタ４０１_１〜４０１_４はスクリーン４０３_１〜４０３_４の背後の床面にそれぞれ設置され、背面投影によりスクリーン４０３_１〜４０３_４上に画像が投影される。なお、この例ではスクリーン４０３_１〜４０３_４に囲まれるように円形のテーブル１０が配置されている。そのため、視聴者から見てプロジェクタ４０１_１〜４０１_４の投影光が直接目に入らないため、投影光による不快感は抑制される。

図３はプロジェクタ４０１、スクリーン４０３、アクチュエータ４０２、スピーカ４０４の位置関係を示したものである。スクリーン４０３は、その下端部分がアクチュエータ４０２により支持され、アクチュエータ４０２はこの例では詳細図示を省略しているが、三脚に搭載支持されるものとなっている。

図３（ｂ）はアクチュエータ４０２の外観の一例を示したものである。このアクチュエータ４０２はパン運動とチルト運動の両方を行うことができるよう、下部にパン運動用の回転モータを有し、上部にチルト運動用の回転モータを有している。

図４は、この会話映像表示システム２００を動作させた時の様子を示したものである。図４（ａ）に示した実際の会話場面が図４（ｃ）のように映像として表示される。なお、図４（ｂ）は背景画像除去手段３０４を具備しない構成とし、背景除去を行わない場合の映像を示したものである。図４（ｂ），（ｃ）は共にほぼ視聴者の視点から撮影されたものであり、他の場所の会話の様子が目の前に再現され、従来の単一の平面ディスプレイによる映像と比較して、実際の会話を目の前で見ているような感覚を感じることができる。

この発明による会話映像表示システムの原理は、バイオロジカルモーション及び心的帰属と呼ばれる人の知覚の性質に基づく。バイオロジカルモーションは、光点群の運動のみから人の運動の種別、性別、個人性などの属性が知覚できる現象である。心的帰属とは、複数の単純な幾何図形の運動を観測したとき、それらの動きを人間の動きとして見立て、複数の図形の動きを人間の社会的行動に当てはめて意味づけをする知覚の傾向を指す。この性質により視聴者はスクリーンの動きを人の頭の動きとして見立てることができ、そこから視線の遷移など会話中の行動を読み取ることが可能となる。さらにはスクリーンの物理的な運動と投影された画像上での人物の頭部運動が同期することにより、会話人物の頭部運動をより明瞭に知覚することができる。頭部の運動は、会話中の視線の遷移（視線をある人物から別の人物に移す）に伴って典型的に発生し、人はこの発明による会話映像表示システムにより、より明瞭に会話人物の視線とその変化を読み取ることが可能となる。

また、人の視覚は周辺視野において動きに敏感であるという性質があり、それにより視聴者の周辺視野に位置する会話人物の動作をスクリーンの物理的運動からより敏感に察知することができ、それにより中心視野と周辺視野を合わせた広い視野に映る複数人物の動作から、それら人物間のインタラクションをより明瞭に読み取ることができる。例えば、ある人物が誰に対して話しかけているかということをより明瞭かつ正確に読み取ることについて、この発明による会話映像表示システムは効果を発揮する。

また、透明あるいは半透明の拡散スクリーンを用いることにより、視聴者はスクリーン越しに部屋の背景を見ることができ、その背景と投影された人物像の重なりにより、その人物があたかも目の前にいるかのような印象を持つことができる。加えて、画像から背景除去を行うことにより、さらにその印象は強まる。

以下、各部について、さらに詳細に説明する。

図２（ａ）に示した会話人物の位置に対して、カメラ１０１は各会話人物１〜４に個別のカメラ１０１_１〜１０１_４を割り当て、各会話人物１〜４の正面から顔及び上半身を撮影するよう、図２（ａ）に示したように配置される。図２（ａ）ではカメラ１０１_１により会話人物１の映像が撮影される。なお、各会話人物１〜４に個別のカメラ１０１_１〜１０１_４を割り当てる代わりに、広角レンズあるいは魚眼レンズを装着したカメラにより複数の会話人物の画像を一度に撮影するような構成も採用可能である。図５（ａ）は個別のカメラ１０１_１〜１０１_４で撮影された各会話人物１〜４の画像の一例を図示したものである。

マイクロホン１０２は各会話人物について一台のピンマイクロホンを割り当て、それぞれ胸部に装着する。なお、マイクロホンアレーを会話人物の配置の中央に配置して、一つのマイクロホンアレーで同時に複数の会話人物の音声を集音することも可能である。

頭部姿勢計測装置１０３には磁気式センサシステムを用いる。このシステムは磁気を発生させる発信器と、各会話人物の頭部に装着され、発信器により生成された磁界の強度を計測する受信器から構成される。発信器はデカルト座標系にそって直交する３軸について、それぞれコイルを配置した構成で、一定強度の交流磁界を発生させる。受信器も直交する３軸にコイルが配置され、それぞれにおいて磁界強度が計測される。各軸のコイルにより計測された磁界の強度及びその強度の差により、発信器に対する受信器の３次元相対座標及び受信器の３軸周りの回転角度が算出される。受信器はヘアバンドなどにより会話人物の頭部に固定される。

顔位置検出手段３０１はカメラ１０１にて撮影された画像を入力として、画像上における会話人物の顔の領域を検出し、その座標値を出力する。顔位置検出手段３０１には後述する視覚的顔追跡手段を用いることができる。図５（ｂ）は視覚的顔追跡手段により、各人物の顔の位置及びその姿勢を推定した結果の例を顔面上に図示したメッシュとして表したものである。なお、視覚的顔追跡手段以外の手段を用いることもできる。

背景画像除去手段３０４はカメラ１０１で撮影された画像を入力とし、画像上の人物領域以外の背景領域の除去を行った画像を生成する。その方法としては例えば背景差分法を使用することができる。この方法は人物を含まない背景のみの画像を用いて、カメラ１０１により撮影されて入力される画像と、この背景画像とを比較することにより、人物領域のみからなる画像を生成する。具体的には入力画像のある画素の輝度Ｉ（ｘ，ｙ）と背景画像の同じ座標の輝度Ｊ（ｘ，ｙ）を比較して、その差分の絶対値｜Ｉ（ｘ，ｙ）−Ｊ（ｘ，ｙ）｜がある閾値以下の場合にその画素を背景と見なして輝度０に置き換える操作を行う。この操作を全ての画素に対して実施する。また、その後、部分的な欠損などを補正するために、モルフォルジカル演算と呼ばれる操作を施す。この操作の例としては人物領域を１画素分周囲に拡張する操作あるいは収縮させる操作を用いることができる。図５（ｃ）は背景除去した各会話人物の画像を示したものである。

制御信号生成手段３０３は頭部姿勢計測装置１０３により計測された会話人物の頭部姿勢を入力として、アクチュエータ４０２を駆動制御する制御信号を生成する。スクリーン４０３を会話人物の顔面と見立て、スクリーン４０３を支持するアクチュエータ４０２により、スクリーン４０３の姿勢を時間的に変化させることで、会話人物の頭部運動を正確に再現する。その場合、アクチュエータ４０２の物理的、機械的特性を考慮するため、頭部姿勢計測装置１０３により計測された頭部姿勢の時系列データについて変形操作を加えることで、アクチュエータ４０２に入力する制御信号を生成する。なお、以下ではパン運動（首振り方向の運動）について説明を行うが、一部を除き、チルト運動（頷き方向の運動）の制御信号生成も同様の処理により行うことができる。

パン運動については頭部姿勢を表す鉛直軸周りの頭部回転角計測値の時系列θが入力されたとして説明する。なお、人物の体に対して正面を向く方向を０度とする。また、この実施例ではアクチュエータ４０２の制御は速度コマンドの指示によりなされるものとする。制御信号生成手段３０３は、頭部姿勢の計測値時系列θについて、ダウンサンプリング、振幅のシフト及びスケーリング、時間差分の計算、始動時の速度の制約付加、最大速度の制約付加などを行う。

具体的な手順の例としては、まず、入力された計測値時系列θについて、ダウンサンプリングが行われる。ダウンサンプリングは例えば１／２とされる。次に、人物正面方向が０度となるような値のシフトが行われる。その後、一定の定数（例えば０．４）を用いて振幅値のスケーリングが行われる。このスケーリングはスクリーン４０３に対する入射光の角度を制限し、視聴者からスクリーン４０３が見える範囲に運動を制限するために行われる。その後、時系列に対して時間差分の計算が行われて、各時刻の速度成分が計算される。次に、その速度成分の局所的極大値（以下、ピーク値と言う）が検出され、その時刻を中心として、その前後の時刻について速度がゼロになる（接近する）時刻を探索する。そうして得られた区間（以下、ピーク区間と言う）について、その区間における角度の変化量（移動量）を保存しつつ、立ち上がり時の速度に一定値を与え、さらに最大速度が既定値を超えないように制約を課した信号を生成する。また、ピーク区間に挟まれた時間区間には速度０を与える。

このようにして生成された制御信号及びその元になった計測値の一例を図６に示す。図６（ａ）は約５．２分に相当する会話中の時系列を示したものであり、図６（ｂ）は図６（ａ）中の破線で挟んだ区間を拡大して示したものである。また、図６（ｃ）は図６（ｂ）の区間における速度成分を示したものである。この例では、始動時の速度は±５［ｄｅｇ／ｓｅｃ］、最大速度は±５０［ｄｅｇ／ｓｅｃ］に設定されている。図６より微小振動が抑制され、またアクチュエータ４０２の最大速度を超える部分についても制約が課された信号が生成されていることが分かる。なお、ダウンサンプリングについては必ずしも行う必要はない。

チルト運動についてもパン運動と同様の手順により制御信号が生成される。パン運動と異なる点としては、各ピーク区間以外の時刻については常にスクリーン４０３の面が鉛直線に沿った角度（０度とする）に回帰する点である。そのような制御信号を生成するために、上記のピーク区間検出の後、ピーク値が正負連続する区間のみを残し、他の区間は速度０と設定する。また、連続する複数のピーク区間において、最終的な到達角度が０度になるよう、速度が正の運動区間の移動量と負の区間の移動量が等しくなるように、連続区間の最後の区間の速度に対してスケーリングが施される。

画像写像生成手段３０２はスクリーン４０３に投影される画像に歪みが生じないように、映像投影装置４０１とスクリーン４０３との位置関係及びスクリーン４０３の姿勢に応じて、そのスクリーン４０３に投影される画像中の人物の顔の領域を中心とした領域の写像（マッピング）を行うことで、映像投影装置４０１へ入力する画像を生成する。

このマッピングは、入力された画像の座標値と、投影される画像の座標値との間の関係性についての数式に基づく。投影される画像の各画素について、対応する入力画像の座標値を計算し、その座標値から輝度を取得し、投影画像の画素の輝度に設定する操作を行うことで実施できる。図５（ｄ）には、このようにして各会話人物の図５（ｃ）に示した画像に対し、写像により生成された画像の例を示す。

このマッピングの計算式は以下のように導出することができる。明瞭性のため、関連する複数のマッピングに分解して記述する。なお、以下においては英字の大文字（Ｘ，Ｙ，Ｚを除く）はベクトルもしくは行列を表し、小文字はスカラーを表すものとする。

マッピングは、スクリーン座標系上の１点Ｑからアクチュエータ座標系の１点Ｐ_ＰＴＵへの変換、アクチュエータ座標系の１点Ｐ_ＰＴＵからプロジェクタ座標系の１点Ｐ_ｐｒｏｊへの変換、プロジェクタ座標系の１点Ｐ_ｐｒｏｊから画像座標系の１点Ｐ_ｉｍｇへの変換及び画像座標系の１点Ｐ_ｉｍｇからウィンドウ座標系の１点Ｗへの変換から構成される。

Ｑ→Ｐ_ＰＴＵ→Ｐ_ｐｒｏｊ→Ｐ_ｉｍｇ→Ｗ（１）
但し、ウィンドウ座標系とは投影画像を生成する計算機上のフレームバッファ（あるいはウィンドウシステムを採用するＯＳ上における画像表示窓）の座標系のことである。

図７にこれら座標系の関係性を図示する。

ここで、スクリーン座標系の点Ｑを、Ｑ：＝［ｑ_ｘ，ｑ_ｙ］^Ｔと定義する。Ｔは転置を表す。まず、スクリーン座標系の点Ｑからアクチュエータ座標系の点Ｐ_ＰＴＵ＝［ｘ_ＰＴＵ，ｙ_ＰＴＵ，ｚ_ＰＴＵ］^Ｔへの変換は、
Ｐ_ＰＴＵ＝Ｒ_θ・Ｒ_φ・［ｑ_ｘ＋Δｘ，ｑ_ｙ＋Δｙ，Δｚ］^Ｔ（２）
のように記述することができる。但し、Ｒ_θは鉛直軸Ｙ’周りの回転角（パン回転角）θの回転を表す３×３の回転行列を表す。また、Ｒ_φは水平軸Ｘ’周りの回転角（チルト回転角）φの回転を表す３×３の回転行列を表す。（Δｘ，Δｙ，Δｚ）はアクチュエータ座標系の原点からスクリーン座標系の原点への並進成分を表す。

アクチュエータ座標系からプロジェクタ座標系への変換は、回転と並進からなる線形変換として、

のように記述することができる。但し、｛ｒ_ｉ，ｊ｜ｉ＝１，２，３；ｊ＝１，２，３｝とｔ_Ｘ，ｔ_Ｙ，ｔ_Ｚはそれぞれ回転及び並進を表す係数である。これら係数はキャリブレーションにより決定される。

プロジェクタ４０１の投影が透視投影であることを前提として、プロジェクタ座標系から画像座標系への変換は、
Ｐ_ｉｍｇ＝［ｘ_ｉｍｇ，ｙ_ｉｍｇ］^Ｔ
＝（ｆ／ｚ_ｐｒｏｊ）・［ｘ_ｐｒｏｊ，ｙ_ｐｒｏｊ］^Ｔ（４）
のように記述することができる。但し、ｆはプロジェクタ４０１の焦点距離である。

最後に、画像座標系からウィンドウ座標系への変換は、
Ｗ＝［ｗ_ｘ，ｗ_ｙ］^Ｔ＝［ｘ_ｉｍｇ＋ｃ_ｘ，−ｙ_ｉｍｇ＋ｃ_ｙ］^Ｔ（５）
のように記述することができる。但し、（ｃ_ｘ，ｃ_ｙ）はウィンドウ座標系の原点から画像座標系の原点への並進成分を表す。これは典型的なプロジェクタ４０１の光学系がシフトレンズを採用していることに対応する。

上記の式（１）〜（５）における未知の係数については、キャリブレーションを行うことで、この発明による会話映像表示システムの使用に際し、その事前に計算される。このキャリブレーションは複数のスクリーン姿勢の組（パン回転角θとチルト回転角φ）について、スクリーン４０３の４つの角それぞれについて、対応するウィンドウ座標系上の座標値を目視及びマウス操作により取得する。その後、その既知の姿勢の組に対して、式（１）〜（５）により計算されるウィンドウ座標系上の座標値と、実際に取得された座標値との差をコスト関数とした最適化を行うことにより、未知係数が計算される。

次に、この発明による会話映像表示システムの他の実施例の構成を、図８を参照して説明する。

この例では、会話映像表示システム２００’のデータ処理部３００’は図１に示した会話映像表示システム２００のデータ処理部３００における顔位置検出手段３０１に代え、視覚的顔追跡手段３０５を有するものとなっている。視覚的顔追跡手段３０５はカメラ１０１によって撮影されて入力された画像上における各人物の顔の領域と頭部姿勢を検出する。従って、この例では会話現場において会話人物の頭部姿勢を計測する頭部姿勢計測装置１０３は不要となる。

視覚的顔追跡手段３０５は、会話映像表示システム２００’の使用開始時に、カメラ１０１により撮影されて予め入力された画像から各人物の正面顔画像を記録してテンプレートを作成し、以後、そのテンプレートを逐次、カメラ１０１より入力される画像上にて照合、追跡を行う。その時、テンプレートに対して、画像上での並進及び３軸周りの回転が施された変形テンプレートが計算され、その変形プレート中の画素の輝度と、その画素と対応する入力された画像中の画素の輝度との輝度差を計算し、輝度差が最小になる画像上でのテンプレートの位置及び姿勢をもって、対象とする会話人物の顔領域の位置及び頭部姿勢とする。

視覚的顔追跡手段３０５で検出された会話人物の顔の領域の座標値は画像写像生成手段３０２に入力され、また会話人物の頭部姿勢は制御信号生成手段３０３に入力される。

この視覚的顔追跡手段３０５は前述したように、顔位置検出手段３０１として用いることができる。

なお、上述した実施例におけるデータ処理部３００，３００’は、会話人物の人数に対応して複数存在する構成としてもよく、また一台によって会話人物全員の画像等の処理を行う構成としてもよい。

Claims

会話の画像及びその会話の各人物の頭部姿勢データを入力とし、入力された画像及び頭部姿勢データを処理して前記会話の状況を映像表示する会話映像表示システムであって、
前記各人物の位置関係と対応するように配置された複数のスクリーンと、
前記各スクリーンに前記各人物毎の画像を投影する映像投影装置と、
前記スクリーンの姿勢を制御するアクチュエータと、
前記スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、前記頭部姿勢データをもとに前記アクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、
前記入力された画像上における前記各人物の顔の領域を検出する顔位置検出手段と、
前記入力された画像中の、前記顔位置検出手段によって検出された顔の領域を中心とした領域を、その顔の人物の画像が投影される前記スクリーンの姿勢及びそのスクリーンと前記映像投影装置との位置関係に応じて、スクリーンに投影される画像に歪みを生じないよう、画像を生成するための写像関数のパラメータを、前記スクリーンの姿勢、及び、そのスクリーンと前記映像投影装置との位置関係に応じて逐次的に計算し、その写像関数を用いて、顔の領域の写像画像を生成し、前記映像投影装置に出力する画像写像生成手段とを有することを特徴とする会話映像表示システム。
会話の画像を入力とし、入力された画像を処理して前記会話の状況を映像表示する会話映像表示システムであって、
前記会話の各人物の位置関係と対応するように配置された複数のスクリーンと、
前記各スクリーンに前記各人物毎の画像を投影する映像投影装置と、
前記スクリーンの姿勢を制御するアクチュエータと、
前記入力された画像上における前記各人物の顔の領域及び頭部姿勢を検出する視覚的顔追跡手段と、
前記スクリーンの姿勢を、そのスクリーンに投影される画像中の人物の頭部姿勢と同期して変化させるべく、前記視覚的顔追跡手段で検出された頭部姿勢をもとに前記アクチュエータを駆動制御する制御信号を生成する制御信号生成手段と、
前記入力された画像中の、前記視覚的顔追跡手段で検出された顔の領域を中心とした領域を、その顔の人物の画像が投影される前記スクリーンの姿勢及びそのスクリーンと前記映像投影装置との位置関係に応じて、スクリーンに投影される画像に歪みを生じないよう、画像を生成するための写像関数のパラメータを、前記スクリーンの姿勢、及び、そのスクリーンと前記映像投影装置との位置関係に応じて逐次的に計算し、その写像関数を用いて、顔の領域の写像画像を生成し、前記映像投影装置に出力する画像写像生成手段とを有することを特徴とする会話映像表示システム。
請求項１または２に記載の会話映像表示システムにおいて、
前記映像投影装置に入力する画像から、人物領域以外の背景領域を除去する背景画像除去手段を有し、
前記スクリーンが透明、あるいは半透明の拡散スクリーンであること
を特徴とする会話映像表示システム。
請求項２記載の会話映像表示システムにおいて、
前記視覚的顔追跡手段は予め入力された前記各人物の画像から正面顔画像のテンプレートを作成し、そのテンプレートを並進及び回転させてテンプレート中の画素の輝度と、その画素と対応する前記入力された画像中の画素の輝度との輝度差を求め、その輝度差が最小になるテンプレートの位置及び姿勢を前記顔の領域及び頭部姿勢とすることを特徴とする会話映像表示システム。
請求項１乃至４記載のいずれかの会話映像表示システムにおいて、
前記アクチュエータは前記スクリーンを鉛直軸周りに回転させることを特徴とする会話映像表示システム。
請求項１乃至４記載のいずれかの会話映像表示システムにおいて、
前記アクチュエータは前記スクリーンを鉛直軸周り及びスクリーン板面と平行な水平軸周りの双方に回転させることを特徴とする会話映像表示システム。
請求項１乃至６記載のいずれかの会話映像表示システムにおいて、
前記スクリーンは背面投影スクリーンとされていることを特徴とする会話映像表示システム。