JP2016192688A

JP2016192688A - 映像表示システム及び映像表示方法

Info

Publication number: JP2016192688A
Application number: JP2015071764A
Authority: JP
Inventors: 康夫高橋; Yasuo Takahashi; 吏中野; Tsukasa Nakano; 貴司折目; Takashi Orime; 雄一郎竹内; Yuichiro Takeuchi; 暦本　純一; Junichi Rekimoto; 純一暦本; 宮島　靖; Yasushi Miyajima; 靖宮島
Original assignee: Sony Corp; Daiwa House Industry Co Ltd
Current assignee: Sony Corp; Daiwa House Industry Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2016-11-10
Anticipated expiration: 2035-03-31
Also published as: JP6461679B2; WO2016159166A1

Abstract

【課題】カメラの設置高さとディスプレイに映し出されるユーザの目の高さとが異なっている場合に、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感を向上させる。
【解決手段】カメラにより撮像されたユーザの映像を取得し、当該映像を所定数の映像片に分割した際の該映像片毎にカメラから映像片中の対象物までの間の距離を示した距離データを取得し、ユーザの映像及び距離データを用いたレンダリング処理を実行することによってユーザの三次元映像を生成する映像表示システムにおいて、ユーザの目の高さを検知し、検知した目の高さとカメラの設置高さが異なるとき、双方の高さの差及びカメラとユーザとの間の距離に基づいて、検知した目の高さにある仮想的な視点から見たときのユーザの三次元映像を取得するためのレンダリング処理を実行する。
【選択図】図１６

Description

本発明は、映像表示システム及び映像表示方法に係り、特に、遠隔地に居る対話相手の映像を対話者側のディスプレイに表示させる映像表示システム及び映像表示方法に関する。

互いに離れた空間に居るユーザ同士がお互いの映像を見ながら対話することを実現する通信システム（以下、映像表示システム）は、既に知られている。同システムでは、一方のユーザ側から映像の映像データが送信され、他方のユーザ側で当該映像データを受信して展開する。これにより、一方のユーザの映像が他方のユーザ側のディスプレイに表示されるようになる。この結果、ディスプレイにてお互いの映像を見ているユーザ同士は、あたかも相手と対面しているかのように感じるようになる。

また、上記の映像表示システムの中には、テクスチャマッピング等を利用して撮像映像を三次元化して表示するシステムが存在する（例えば、特許文献１参照）。このように三次元化された映像（以下、三次元映像）を表示することで、ディスプレイに相手の映像を表示しながら行う対話の臨場感を一層向上させることが可能となる。

さらに、上記の映像表示システムの中には、対話の臨場感をより一層高める目的から、ディスプレイを見ている者の目線とディスプレイに映し出された者の目線とを一致させることが可能なシステムが存在する（例えば、特許文献１乃至３参照）。具体的に説明すると、特許文献１及び２に記載のシステムでは、目線の位置が一致するようにカメラの設置位置が予め適当に決められている。また、特許文献３に記載のシステムでは、ディスプレイに映し出される者の映像を撮像するカメラの位置を、ディスプレイを見ている者の目の高さに応じて上下動させることで両者の目線を一致させる。

特開２０１４−８６７７４号公報特開２０００−３２４２０号公報特表２０１４−５２２６２２号公報

しかしながら、特許文献１及び２に記載のシステムでは、目線の位置が一致するようにカメラの設置位置を決めるので、目線の高さが制限されてしまうことになる。つまり、撮像カメラの設置位置が固定されているため、その設置位置とは異なる高さに目線がある者にとっては利用し難いシステムとなる（具体的には、目線の位置が一致しなくなる）。一方、特許文献３に記載のシステムでは、ディスプレイを見ている者の目の高さに応じてカメラの位置を調整可能であるため、様々な目の高さに対応し得るものの、カメラ位置の調整機構を設ける必要があるため、システム構築コストが割高となってしまう。

また、映像表示システムを用いた対話の臨場感について更なる向上を図るためには、ディスプレイを見ている者の動き（特に顔の動き）やディスプレイに映っている者の位置の変化に追従させるように、ディスプレイの映像を切り替える必要がある。具体的に説明すると、ディスプレイを見ている者の顔が横移動したとき、その者が対話相手と実際に対面している場面で顔を横に動かしたときの見え方、を反映して表示映像を変えるのが望ましい。

また、カメラの被写体がカメラから離れるほど、ディスプレイに写る当該被写体の映像の表示サイズは、より小さくなってしまう。ところが、実際に対面しながら対話を行っている場面において、その当事者のうちの一方の者に対して他方の者が多少離れたときの当該他方の者の姿（大きさ）は、上記一方の者の見え方（見た目）では殆ど変化しないように見える。このような見え方を考慮し、被写体とカメラとの間の距離、すなわち奥行距離が変化したときには当該被写体の映像の表示サイズを調整するのが望ましい。

そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、ディスプレイに映し出されるユーザの目の高さと撮像装置の設置高さとが異なる場合において、ディスプレイに上記ユーザの映像を表示させながら行われる対話の臨場感を向上させることが可能な映像表示システム及び映像表示方法を提供することである。
また、本発明の他の目的は、ディスプレイに映し出されるユーザの映像を見ている第二のユーザの顔が横移動したときに、実際の見え方を反映してディスプレイの表示映像を変化させることである。さらに、本発明の第三の目的は、ディスプレイに映し出されるユーザの映像の表示サイズを、当該ユーザと撮像装置との間の距離が変化した際に適切に調整することである。

前記課題は、本発明の映像表示システムによれば、（Ａ）撮像装置により撮像されたユーザの映像を取得する映像取得部と、（Ｂ）前記映像を所定数の映像片に分割した際の該映像片毎に、前記撮像装置から前記映像片中の対象物との間の距離を示した距離データを取得する距離データ取得部と、（Ｃ）前記ユーザの映像及び前記距離データを用いたレンダリング処理を実行することによって前記ユーザの三次元映像を生成する三次元映像生成部と、（Ｄ）前記ユーザの目の高さを検知する高さ検知部と、を有し、（Ｅ）前記撮像装置が設置されている高さ及び前記高さ検知部が検知した前記目の高さの双方が異なるとき、前記三次元映像生成部は、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、前記高さ検知部が検知した前記目の高さにある仮想的な視点から見たときの前記ユーザの前記三次元映像を取得するための前記レンダリング処理を実行することにより解決される。

上記の構成によれば、撮像装置により撮像されたユーザの映像、及び、当該ユーザの映像について取得した距離データを用いたレンダリング処理を実行することでユーザの三次元映像を生成する。また、ユーザの目の高さと、撮像装置が設置されている高さと、が異なる場合には、ユーザの目の高さと同じ高さにある仮想的な視点から見たときのユーザの三次元映像を取得するように、レンダリング処理を実行する。このように３ＤＣＧ技術としてのレンダリング処理によって、上記ユーザの目の高さと同じ高さから仮想的に見たユーザの三次元映像を得ることで、双方の高さが異なる場合にも、ディスプレイを見ている者の目線とディスプレイに映し出される者の目線とを合わせることが可能となる。これにより、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感を向上させることが可能となる。

また、上記の映像表示システムにおいて、前記映像取得部は、前記撮像装置により撮像された前記ユーザの映像、及び、前記撮像装置により撮像された背景の映像をそれぞれ取得し、前記距離データ取得部は、前記ユーザの映像及び前記背景の映像のそれぞれについて、前記距離データを取得し、前記三次元映像生成部は、前記ユーザの映像及び当該ユーザの映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記ユーザの前記三次元映像を生成すると共に、前記背景の映像及び当該背景の映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記背景の前記三次元映像を生成し、前記ユーザの前記三次元映像と前記背景の前記三次元映像とを合成し、前記背景の手前に前記ユーザが位置した合成映像をディスプレイに表示させる合成映像表示部を有すると、好適である。
上記の構成では、ユーザの三次元映像及び背景の三次元映像を合成し、背景の手前にユーザが位置した合成映像を表示する。このような奥行感を有する合成映像が表示されることで、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感がより向上することになる。

また、上記の映像表示システムにおいて、前記映像取得部は、前記撮像装置により撮像された前景の映像を更に取得し、前記距離データ取得部は、前記前景の映像についての前記距離データを更に取得し、前記三次元映像生成部は、前記前景の映像及び当該前景の映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記前景の前記三次元映像を更に生成し、前記合成映像表示部は、前記ユーザの前記三次元映像と前記背景の前記三次元映像と前記前景の前記三次元映像とを合成し、前記背景の手前に前記ユーザが位置し、かつ、前記ユーザの手前に前記前景が位置している前記合成映像を前記ディスプレイに表示させると、より好適である。
上記の構成では、ユーザの三次元映像及び背景の三次元映像に加えて、前景の三次元映像を更に合成し、ユーザの手前に前景が位置した合成映像を表示する。これにより、より一層奥行感を有する合成映像が表示されるようになる。この結果、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感が一段と向上することになる。

また、上記の映像表示システムにおいて、前記距離データに基づいて、前記撮像装置と前記ユーザとの間の距離が変化したかどうかを判定する判定部を備え、前記撮像装置が前記ユーザの映像を撮像している間に、前記撮像装置と前記ユーザとの間の距離が変化したと前記判定部が判定したとき、前記合成映像表示部は、前記合成映像における前記ユーザの映像の表示サイズを、前記撮像装置と前記ユーザとの間の距離が変化する前の前記表示サイズとなるように調整すると、更に好適である。
上記の構成によれば、撮像装置とユーザとの間の距離、すなわち奥行距離が変化したとしても、ディスプレイには、変化前の表示サイズのままでユーザの三次元映像が表示されることになる。すなわち、ユーザの奥行距離が変化した場合、変化後の合成映像は、実際にユーザと対面して当該ユーザを見たときの見え方（すなわち、自らの視覚を通じて認識したユーザの大きさ）を反映した表示サイズにてユーザの三次元映像を表示したものとなる。この結果、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感がより一層向上することになる。

また、上記の映像表示システムにおいて、前記ディスプレイに表示された前記合成映像を見る第二のユーザの顔が前記ディスプレイの幅方向に移動したことを検知する顔移動検知部を有し、該顔移動検知部が前記顔の移動を検知したとき、前記合成映像表示部は、前記ディスプレイに表示されている前記合成映像を、前記顔移動検知部が前記顔の移動を検知する前の状態から遷移させる遷移処理を実行し、該遷移処理では、前記合成映像における前記ユーザの前記三次元映像の表示位置、及び、前記背景の前記三次元映像の中で前記合成映像中に含まれる範囲のうちの一方を、他方のずれ量よりも大きいずれ量だけ前記幅方向に沿ってずらした状態へ前記合成映像を遷移させると、より一層好適である。
上記の構成によれば、ユーザの映像及び背景の映像を合成して得られる合成映像において、ユーザの映像及び背景の映像のそれぞれの表示位置や表示サイズ等を個別に調整することが可能である。そして、第二のユーザの顔が横移動したときには、ユーザの三次元映像の表示位置、及び、背景の三次元映像の中で合成映像中に含まれる範囲のうちの一方を、他方のずれ量よりも大きいずれ量だけ横方向にずらした状態へ合成映像を遷移させることとしている。これにより、第二のユーザの顔が横移動した後のディスプレイには、移動後の顔の位置から実際にユーザと対面して当該ユーザを見たときの見え方、を再現した映像が表示されるようになる。この結果、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感が、更に向上することとなる。

また、上記の映像表示システムにおいて、前記映像取得部は、互いに異なる撮像方向にて前記ユーザの映像を撮像する複数の前記撮像装置により撮像された前記ユーザの映像を、前記撮像装置別に取得し、前記距離データ取得部は、前記ユーザの映像についての前記距離データを前記撮像装置別に取得し、前記三次元映像生成部は、前記撮像装置別に取得された前記ユーザの映像と、前記撮像装置別に取得された前記距離データと、に基づいて、前記撮像装置別の前記ユーザの三次元映像片を生成する映像片生成工程と、前記ユーザの前記三次元映像を生成するために、前記撮像装置別の前記ユーザの前記三次元映像片の各々を、当該各々に含まれる共通の映像領域同士が重なり合うように結合する結合工程と、を行い、前記映像片生成工程において前記ユーザの目を含む部分の前記三次元映像片を生成する際、前記双方が異なるときには、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、前記仮想的な視点から見たときの前記三次元映像片を取得するための前記レンダリング処理を実行すると、尚好適である。
上記の構成によれば、互いに撮像方向が異なる複数の撮像装置によってユーザの映像を撮像する場合に、撮像装置別に三次元映像片を生成し、最終的に三次元映像片同士を結合してユーザの三次元映像を取得する。一方、撮像装置別に生成される三次元映像片のうち、ユーザの目を含む部分の三次元映像片を生成する際には、ユーザの目の高さにある仮想的な視点から見たときの三次元映像を取得するためのレンダリング処理を実行する。これにより、三次元映像片同士を結合してなるユーザの三次元映像をディスプレイに表示すれば、当該ユーザの目線とディスプレイを見ている者の目線とを合わせることが可能となる。

また、上記の映像表示システムにおいて、前記撮像方向が基準面の法線方向と異なるとき、前記三次元映像生成部は、前記映像片生成工程において、前記撮像方向にて撮像した映像に基づいて生成した前記ユーザの前記三次元映像片を、前記法線方向から仮想的に見た場合の前記三次元映像片へ変換すると、益々好適である。
上記の構成では、基準方向の法線方向と異なる撮像方向にてユーザの映像を撮像し、その映像から三次元映像片を生成する場合に、上記の撮像方向にて撮像した映像に基づいて生成したユーザの三次元映像片を、上記の法線方向から仮想的に見た場合の三次元映像片へ変換する。そして、変換後の三次元映像片を用いてユーザの三次元映像を取得する。このようにして得られた三次元映像は、上記の法線方向から見たときの映像となっており、ディスプレイに表示した際には適切に表示されるようになる。具体的に説明すると、ユーザの三次元映像中、三次元映像片同士を結合した部分付近が屈曲しているかのように見えてしまうのを抑制することが可能となる。

また、前述した課題は、本発明の映像表示方法によれば、（Ａ）コンピュータが、撮像装置により撮像されたユーザの映像を取得することと、（Ｂ）コンピュータが、前記映像を所定数の映像片に分割した際の該映像片毎に、前記撮像装置から前記映像片中の対象物との間の距離を示した距離データを取得することと、（Ｃ）コンピュータが、前記ユーザの映像及び前記距離データを用いたレンダリング処理を実行することによって前記ユーザの三次元映像を生成することと、（Ｄ）コンピュータが、前記ユーザの目の高さを検知することと、を有し、（Ｅ）前記撮像装置が設置されている高さ及び検知した前記目の高さの双方が異なるとき、コンピュータは、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、検知した前記目の高さにある仮想的な視点から見たときの前記ユーザの前記三次元映像を取得するための前記レンダリング処理を実行することにより解決される。
上記の方法によれば、ユーザの目の高さと撮像装置の設置高さとが異なっていても、ディスプレイを見ている者の目線とディスプレイに映し出される者（すなわち、ユーザ）の目線とを合わせることが可能となる。これにより、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感を向上させることが可能となる。

本発明の映像表示システム及び映像表示方法によれば、ユーザの目の高さと撮像装置の設置高さとが異なっていても、ディスプレイを見ている者（すなわち、第二のユーザ）の目線とディスプレイに映し出される者（すなわち、ユーザ）の目線とを合わせることが可能である。また、第二のユーザの顔が横移動したときに、ディスプレイに表示されている映像を、移動後の顔の位置から実際にユーザと対面して当該ユーザを見たときの見え方を再現した映像へ遷移させることが可能である。さらに、また、撮像装置とユーザとの間の距離（奥行距離）が変化した際、ディスプレイに表示されている合成映像中、ユーザの三次元映像の表示サイズを、奥行距離変化前の表示サイズとなるように調整する。これにより、ユーザと実際に対面して当該対話相手を見たときに感じる大きさ（すなわち、ユーザが自分の視覚を通じて認識する対話相手の大きさ）にてユーザの三次元映像を表示することが可能となる。
以上の作用により、本発明の映像表示システムや映像表示方法によれば、ディスプレイにユーザの映像を表示させながら行われる対話の臨場感（リアリティ）を向上させることが可能となる。

本発明の一実施形態に係る映像表示システムの構成を示した図である。各ユーザの部屋内に設置されたシステム構成機器の配置位置を示した図である。図３の（Ａ）及び（Ｂ）は、本発明のディスプレイの一例を示した図である。映像合成の手順についての説明図である。実映像から人物映像を抽出する手順についての説明図である。三次元映像を生成する手順についての説明図である。各ユーザが保有するホームサーバの構成を機能面から示した図である。ユーザの三次元映像について目線の高さを合わせる手順についての説明図であり、（Ａ）は、実際のカメラ位置から撮像したときの映像を、（Ｂ）は、カメラとユーザの目線との位置関係を、（Ｃ）は、仮想的なカメラ位置から撮像したときの映像を、それぞれ示している。従来の映像表示システムの構成例を示した図であり、ディスプレイを見ている者の移動に連動して表示映像が変化する様子を図示している。第二のユーザの顔が横移動した状況を模式的に示した図である。ユーザ、背景及び前景の各々の奥行距離についての説明図である。遷移処理を実行したときの合成映像の変化を示した説明図であり、（Ａ）は、遷移処理前の合成映像を、（Ｂ）は、遷移処理後の合成映像を、それぞれ示している。従来の映像表示システムの構成例を示した図であり、ユーザの奥行距離に応じて当該ユーザの映像の表示サイズが変わる様子を図示している。映像表示サイズの調整についての説明図であり、（Ａ）は、ユーザの奥行距離が変化する前の合成映像を、（Ｂ）は、奥行距離が変化した後にサイズ調整が行われた段階の合成映像を、それぞれ示している。映像表示フローの流れを示した図である（その１）。映像表示フローの流れを示した図である（その２）。人物の三次元映像を取得する手順を示した図である。複数のカメラにてユーザの映像を撮像する様子を模式的に示した図である。カメラ別に生成した三次元映像片と、三次元映像片同士を結合してなる三次元映像と、を示した図である。変形例において人物の三次元映像を取得する手順を示した図である。第二の遷移処理に関する説明図であり、（Ａ）が第二の遷移処理前の合成映像を、（Ｂ）が第二の遷移処理後の合成映像を、それぞれ示している。

以下、本発明の一実施形態（以下、本実施形態）について図面を参照しながら説明する。本実施形態に係る映像表示システム（以下、本システムＳ）は、互いに離れた部屋に居るユーザ同士が互いの姿（映像）を見ながら対話するために用いられる。より具体的に説明すると、各ユーザが居る部屋内には映像表示器としてのディスプレイが設置されており、このディスプレイに相手の映像が映し出される（表示される）。これにより、各ユーザは、ディスプレイをガラス（例えば、窓ガラスやドアガラス）と見立て、あたかもガラス越しに相手と対面しながら対話しているように感じる。

なお、本システムＳは、各ユーザが各自の自宅に居るときに利用されることになっている。つまり、本システムＳは、各ユーザが自宅に居ながらにして対話相手と対話（擬似的な対面対話であって、以下、単に「対面対話」という）を行うために利用される。ただし、これに限定されるものではなく、本システムＳは、ユーザが自宅以外の場所、例えば、集会所や商業施設、あるいは学校の教室や学習塾、病院等の公共施設、会社や事務所等に居るときに用いられてもよい。また、同じ建物内で互いに離れた部屋に居る者同士が対面対話するために本システムＳを用いてもよい。

以降、本システムＳについて分かり易く説明するために、二人のユーザが本システムＳを利用して対面対話するケースを例に挙げて説明することとし、一方のユーザをＡさん、他方のユーザをＢさんとする。また、以下では、Ｂさん側の視点、すなわち、Ａさんの映像を見る立場から本システムＳの構成等を説明することとする。つまり、Ａさんが「ユーザ」に相当し、Ｂさんが「第二のユーザ」に相当する。ただし、「ユーザ」及び「第二のユーザ」は、映像を見る者及び見られる者の関係に応じて切り替わる相対的な概念である。したがって、Ａさんの視点を基準としたときには、Ｂさんが「ユーザ」に相当し、Ａさんが「第二のユーザ」に相当することとなる。

＜＜本システムの基本構成＞＞
先ず、本システムＳの基本構成について説明する。本システムＳは、二人のユーザ（すなわち、Ａさん及びＢさん）がお互いの映像を見ながら対面対話をするために用いられ、より具体的には、各ユーザに対して対話相手の等身大の映像を表示し、対話相手の音声を再生するものである。このような視聴覚的効果を得るために、各ユーザは、通信ユニット１００を保有している。つまり、本システムＳは、各ユーザが保有する通信ユニット１００によって構成されている。

次に、図１を参照しながら通信ユニット１００の構成について説明する。図１は、本システムＳの構成、より具体的には各通信ユニット１００の構成を示した図である。各通信ユニット１００は、ホームサーバ１、撮像装置としてのカメラ２、集音装置としてのマイク３、赤外線センサ４、映像表示器としてのディスプレイ５、及び、スピーカ６を主な構成機器として有する。これらの機器のうち、カメラ２、マイク３、赤外線センサ４、ディスプレイ５及びスピーカ６は、各ユーザの自宅における所定部屋（例えば、対面対話を行う際に利用する部屋）内に配置されている。

ホームサーバ１は、本システムＳの中枢をなす装置であり、コンピュータ、具体的にはホームゲートウェイを構成するサーバコンピュータからなる。このホームサーバ１の構成については公知であり、ＣＰＵ、ＲＯＭやＲＡＭ等のメモリ、通信用インタフェース及びハードディスクドライブ等によって構成されている。

また、ホームサーバ１には、対面対話の実現に必要なデータ処理を実行するためのプログラム（以下、対話用プログラム）がインストールされている。この対話用プログラムには、三次元映像表示用のプログラムが組み込まれている。このプログラムは、三次元コンピュータグラフィックス（以下、３ＤＣＧ）により三次元映像を構築して表示するためのプログラムであり、所謂レンダラーである。また、上記の３ＤＣＧレンダラーは、複数の三次元映像を合成する機能を有する。そして、複数の三次元映像を合成してなる映像、すなわち、合成映像がディスプレイ５に表示されると、合成された個々の三次元映像がディスプレイ５の奥行方向において互いに異なる位置に配置されているように映る。

また、ホームサーバ１は、インターネット等の外部通信ネットワークＧＮを介して通信機器と通信可能な状態で接続されている。つまり、Ａさんが保有する通信ユニット１００に属するホームサーバ１は、外部通信ネットワークＧＮを介して、Ｂさんが保有する通信ユニット１００に属するホームサーバ１と通信し、両サーバ間で各種データの送受信を行う。なお、ホームサーバ１が送受信するデータは、対面対話に必要なデータであり、例えば、各ユーザの映像を示す映像データや音声を示す音声データである。

カメラ２は、公知のネットワークカメラであり、撮像範囲（画角）内にある被写体の映像を撮像する。ここで、「映像」とは、連続している複数のフレーム画像（ＲＧＢ画像）の集合体によって構成されるものであるが、以下の説明では、フレーム画像の集合体を含む他、個々のフレーム画像をも含むものとする。また、本実施形態では、カメラ２の撮像範囲が固定されている。このため、カメラ２は、その起動中、常に当該カメラ２が設置された空間の所定領域の映像を撮像することになる。

カメラ２は、撮像映像を示す信号（映像信号）を、当該カメラ２が所属する通信ユニット１００と同一のユニットに属するホームサーバ１に対して出力する。なお、カメラ２の設置台数については、特に制限されるものではないが、本実施形態ではコスト面を考慮し、各通信ユニット１００においてカメラ２を１台のみ備えることとした。

また、カメラ２のレンズは、ディスプレイ５における表示画面の形成面に面している。ここで、形成面を構成するディスプレイ５のパネル（厳密には、タッチパネル５ａであり、鏡面部分に相当）は、透明なガラスによって構成されている。したがって、カメラ２は、図２に示すように、パネル越しで当該パネルの前に位置する人物の映像を撮像することになる。図２は、本システムＳの構成機器としてＡさん及びＢさんのそれぞれの部屋内に配置されている各種機器の配置位置を示した図である。なお、カメラ２の配置位置については、ディスプレイ５から離れた位置であってもよい。

ここで、被写体である人物がディスプレイ５の前方位置でディスプレイ５から所定距離だけ離れているとき、カメラ２は、当該人物の顔から足までの全身像を撮像することが可能である。「全身像」とは、起立姿勢での全身像であってもよく、あるいは着座姿勢での全身像であってもよい。また、「全身像の映像」には、前方に配置された物によって身体の一部分が隠れた状態の映像が含まれる。

なお、本システムＳにおいて、カメラ２は、床面から約１ｍ上がった高さに設置されている。このため、ディスプレイ５の前方位置に立つ人物の身長（厳密には、目の高さ）がカメラ２の設置位置よりも高くなっているとき、カメラ２は、被写体である人物の顔を下方から撮像することになる。ここで、カメラ２が設置される高さ（換言すると、鉛直方向におけるカメラ２の位置）については特に制限されるものではなく、任意の高さに設定可能である。

マイク３は、マイク３が設置された部屋内の音声を集音し、その音声信号をホームサーバ１（厳密には、マイク３が所属する通信ユニット１００と同一のユニットに属するホームサーバ１）に対して出力する。なお、本実施形態において、マイク３は、図２に示すようにディスプレイ５の直上位置に設置されている。

赤外線センサ４は、所謂デプスセンサであり、赤外線方式にて計測対象物（対象物に相当）の深度を計測するためのセンサである。具体的に説明すると、赤外線センサ４は、計測対象物に向けて発光部４ａから赤外線を照射し、その反射光を受光部４ｂにて受光することにより深度を計測する。より具体的に説明すると、赤外線センサ４の発光部４ａ及び受光部４ｂは、ディスプレイ５における表示画面の形成面に面している。その一方で、形成面を構成するディスプレイ５のタッチパネル５ａのうち、赤外線センサ４の直前位置にある部分には、赤外線が透過することが可能なフィルムが貼られている。発光部４ａから照射された後に計測対象物にて反射された赤外光は、上記のフィルムを通過した上で受光部４ｂにて受光される。

なお、本システムＳでは、「深度」として、カメラ２（厳密には、カメラ２のレンズ表面）から計測対象物までの距離、すなわち、奥行距離を計測することとしている。このため、本システムＳでは、赤外線センサ４の受光部４ｂによる受光位置が、ディスプレイ５の奥行方向（厳密には、表示画面の法線方向）において、カメラ２のレンズの表面位置と同一位置となるように設定されている。

また、本システムＳでは、深度の計測結果を、カメラ２が撮像した映像を所定数の映像片（画素）に分割した際の当該画素毎に得る。そして、画素毎に得た深度の計測結果を映像単位でまとめると、その映像についての深度データ（距離データに相当）が得られるようになる。この深度データは、カメラ２の撮像映像（厳密には、各フレーム画像）について画素別に赤外線センサ４の計測結果、すなわち深度を規定したものである。つまり、映像についての深度データとは、当該映像のデプスマップであり、当該深度データのうち、カメラ２が撮像した映像中にある対象物の映像と対応する画素群、には当該対象物の奥行距離（深度の値）が規定されている。具体的に説明すると、後述する図５のように、背景の映像と、その前方の映像とでは奥行距離が異なるため、それぞれに対応する画素は、同図に示すように明らかに異なるようになる。なお、図５中、黒抜きの画素は、背景映像と対応し、斜線ハッチングの画素は、背景よりも前方に在る物の映像と対応し、白抜きの画素は、さらに前方に在る人物の映像と対応している。

以上のような深度データを利用することで、映像の中から人物の映像を抽出することが可能である。なお、深度データを利用した人物映像の抽出方法については、後述する。また、本システムＳでは、深度データから人物の位置を特定することが可能である。ただし、これに限定されるものではなく、例えば、位置検知用のセンサが赤外線センサ４とは別に設置されており、かかる位置検知用のセンサの検知結果から人物の位置を特定してもよい。

スピーカ６は、ホームサーバ１が音声データを展開することで再生される音声（再生音）を発するものであり、公知のスピーカによって構成されている。なお、本実施形態において、スピーカ６は、図２に示すように、ディスプレイ５の横幅方向においてディスプレイ５を挟む位置に複数（図２では４個）設置されている。

ディスプレイ５は、映像の表示画面を形成するものである。具体的に説明すると、ディスプレイ５は、透明なガラスによって構成されたパネルを有し、当該パネルの前面に表示画面を形成する。なお、本システムＳにおいて、上記のパネルは、タッチパネル５ａであり、ユーザが行う操作（タッチ操作）を受け付ける。

さらに、上記のパネルは、人の全身映像を表示するのに十分なサイズを有している。そして、本システムＳによる対面対話では、上記のパネルの前面に形成された表示画面に、対話相手の全身映像が等身大のサイズで表示されることになっている。つまり、Ｂさん側のディスプレイ５には、Ａさんの全身映像を等身大サイズにて表示することが可能である。これにより、表示画面を見ているＢさんは、あたかもＡさんと会っている感覚、特に、ガラス越しで対面している感覚を感じるようになる。

さらにまた、本システムＳのディスプレイ５は、通常時には部屋内に配置された家具、具体的には姿見として機能し、対面対話時にのみ表示画面を形成するものとなっている。以下、図３の（Ａ）及び（Ｂ）を参照しながらディスプレイ５の構成について詳しく説明する。図３の（Ａ）及び（Ｂ）は、本システムＳで用いられているディスプレイ５の構成例を示した図であり、（Ａ）が非対話時の状態を、（Ｂ）が対面対話時の状態をそれぞれ示している。

ディスプレイ５が有するタッチパネル５ａは、対面対話が行われる部屋内に配置された姿見の一部分、具体的には鏡面部分を構成する。そして、上記のタッチパネル５ａは、図３の（Ａ）に示すように、対話が行われていない非対話時、すなわち映像が表示されていない間には表示画面を形成しない。すなわち、本システムＳのディスプレイ５は、非対話時には姿見としての外観を現すことになる。一方、対面対話が開始されると、上記のタッチパネル５ａは、その前面に表示画面を形成する。これにより、ディスプレイ５は、図３の（Ｂ）に示すように、タッチパネル５ａの前面にて対話相手及びその背景の映像を表示するようになる。

ちなみに、表示画面のオンオフは、ホームサーバ１が赤外線センサ４の計測結果に応じて切り替えることになっている。より詳しく説明すると、対面対話を開始するにあたってユーザがディスプレイ５の正面位置に立つと、カメラ２が上記ユーザを含んだ映像（以下、実映像）を撮像すると共に、赤外線センサ４が深度を計測する。これにより、実映像についての深度データが取得され、ホームサーバ１は、当該深度データに基づいてユーザとカメラ２との間の距離、すなわち奥行距離を特定する。そして、上記の奥行距離が所定距離以下であるとき、ホームサーバ１は、ディスプレイ５を制御してタッチパネル５ａの前面に表示画面を形成させる。この結果、それまで姿見として機能していたディスプレイ５のタッチパネル５ａが映像表示用のスクリーンとして機能するようになる。反対に、上記の奥行距離が所定の距離以上となると、ホームサーバ１がディスプレイ５を制御し、それまで形成されていた表示画面をオフするようになる。これにより、ディスプレイ５は、再び姿見として機能するようになる。

以上のように、本システムＳでは、ディスプレイ５が非対話時には姿見として利用される。これにより、非対話時には表示画面の存在が気付かれ難くなる。その一方で、対面対話時には、表示画面が形成されて対話相手の映像が表示されるようになり、ユーザは、あたかも対話相手とガラス越しに対話しているような視覚的演出効果を得るようになる。なお、映像表示スクリーンと姿見とを兼用する構成については、例えば国際公開第２００９／１２２７１６号に記載された構成のように公知の構成が利用可能である。また、ディスプレイ５については、姿見として兼用される構成に限定されるものではない。ディスプレイ５として用いられる機器については、対話相手の全身映像を表示するのに十分なサイズを有しているものであればよい。そして、非対話時に表示画面の存在を気付き難くする観点からは、対面対話用の部屋内に設置された家具や建築材料であって鏡面部分を有するものが好適であり、例えば扉（ガラス戸）や窓（ガラス窓）をディスプレイ５として利用してもよい。なお、ディスプレイ５については、扉や窓等の建築材料若しくは姿見等の家具として兼用されるものに限定されず、起動中、表示画面を常時形成する通常の表示器であってもよい。

＜＜映像合成について＞＞
本システムＳを用いた対面対話では、Ｂさん側のディスプレイ５にＡさんの映像及びその背景の映像が表示され、Ａさん側のディスプレイ５にＢさんの映像及びその背景の映像が表示される。ここで、各ディスプレイ５に表示される人物映像及び背景映像は、カメラ２が同時に撮像したものではなく、異なるタイミングで撮像されたものとなっている。すなわち、各ディスプレイ５には、異なるタイミングで撮像された人物映像及び背景映像を合成した合成映像が表示されることになる。また、本システムＳでは、人物映像及び背景映像に加えて、前景の映像を更に合成した合成映像を表示することとしている。

以下、映像合成の手順について図４を参照しながら概説する。図４は、映像合成の手順についての説明図である。なお、以下の説明では、Ａさんの映像、背景映像及び前景映像を合成するケースを具体例に挙げて説明することとする。

合成される映像のうち、背景映像（図４中、記号Ｐｂにて表記）は、Ａさんが対面対話を行う際に利用する部屋のうち、カメラ２の撮像範囲内にある領域の映像である。そして、本実施形態では、Ａさんが上記部屋に居ないときにカメラ２が背景映像を撮像することになっている。すなわち、背景映像は、単独で撮像されることになっている。なお、背景映像の撮像タイミングについては、Ａさんが上記の部屋に居ない期間内であれば任意に設定することが可能である。

一方、人物映像（具体的にはＡさんの映像であって、図４中、記号Ｐｕにて表記）は、Ａさんが上記部屋内、厳密にはカメラ２の撮像範囲内に居るときに撮像される。ここで、カメラ２が撮像する映像（すなわち、実映像）には、人物映像の他に背景映像及び前景映像が含まれている。そして、本システムＳでは、実映像の中から人物映像を抽出して用いることとしている。実映像の中から人物映像を抽出する方法については特に限定されるものではないが、一例としては、上述した深度データに用いて人物映像を抽出する方法が挙げられる。以下、図５を参照しながら、深度データを用いた人物映像の抽出方法について説明する。図５は、撮像映像から人物映像を抽出する手順についての説明図である。なお、図５では、図示の都合上、深度データを構成する画素が実際の画素よりも粗くなっている。

カメラ２が映像を撮像している期間中、赤外線センサ４が、カメラ２の画角内にある計測対象物の深度を計測する。この結果、実映像についての深度データが得られる。実映像についての深度データとは、実映像を構成するフレーム画像を所定数の画素に分割したときの当該画素毎に赤外線センサ４の計測結果、すなわち深度を規定したものである。なお、実映像についての深度データでは、図５に示すように、人物映像に属する画素（図中、白抜きの画素）とそれ以外の映像に属する画素（図中、黒抜きの画素や斜線ハッチングの画素）とでは明らかに深度が異なる。

そして、深度データ及びカメラ２の撮像映像（厳密には、撮像映像におけるＡさんの顔の映像の位置を特定するための情報）に基づいてＡさんの骨格モデルを特定する。骨格モデルとは、図５に示すようにＡさんの骨格（具体的には身体中、頭部、肩、肘、手首、上半身中心、腰、膝、足首）に関する位置情報を簡易的にモデル化したものである。なお、骨格モデルを取得する方法については、公知の方法が利用可能であり、例えば、特開２０１４−１５５６９３号公報や特開２０１３−１１６３１１号公報に記載された発明において採用されている方法と同様の方法を利用してもよい。

そして、骨格モデルを特定した後、当該骨格モデルに基づいて実映像の中から人物映像を抽出する。本明細書では、骨格モデルに基づいて実映像の中から人物映像を抽出する技法に関する詳細については説明を省略するが、大まかな手順を説明すると、特定した骨格モデルに基づいて深度データ中、Ａさんの人物映像に属する画素群を特定する。その後、特定した画素群と対応する領域を実映像の中から抽出する。このような手順によって抽出された映像が実映像中のＡさんの人物映像に該当する。

また、本システムＳでは、前景映像（図４中、記号Ｐｆにて表記）を、人物映像の場合と同様に実映像の中から抽出して用いることとしている。実映像の中から前景映像を抽出する方法については特に限定されるものではないが、一例を挙げて説明すると、人物映像と同様に深度データを用いて前景映像を抽出する方法が考えられる。具体的に説明すると、実映像についての深度データ中、人物映像に属する画素よりも奥行距離が小さい画素群を特定する。そして、実映像中、特定した画素群と対応する部分の映像を前景映像として抽出してくることになる。

以上までに説明してきた手順により実映像から人物映像及び前景映像を抽出した後、背景映像、人物映像及び前景映像を合成する。具体的に説明すると、カメラ２が撮像した背景映像中、実際にディスプレイ５に表示される部分の映像（図４中、破線にて囲まれた範囲であって、以下、表示範囲）を設定する。ここで、表示範囲は、カメラ２が撮像した背景映像のうち、合成映像中に含まれる部分に相当する。なお、表示範囲の大きさについては、ディスプレイ５の大きさに応じて決定される。また、本実施形態において、初期（デフォルト）の表示範囲は、背景映像の中央部分に設定されている。ただし、初期の表示範囲については特に限定されるものではなく、背景映像の中央部分以外の部分でもよい。

そして、背景映像における上記の表示範囲と、抽出された人物映像と、抽出された前景映像を合成して合成映像（図４中、記号Ｐｍにて表記）を取得する。この結果、Ｂさん側のディスプレイ５には、図４に示すように、背景の手前にＡさんが位置し、かつ、Ａさんの手前に前景が位置した映像が表示されるようになる。

以上のように本システムＳではディスプレイ５の表示映像として合成映像を表示する。そして、合成映像を表示する構成では、人物映像、背景映像及び前景映像の各々について、表示位置や表示サイズ等を個別に調整することが可能となる。具体的に説明すると、例えば、人物映像であるＡさんの映像の表示サイズについては、背景映像や前景映像の表示サイズを変えずに調整することが可能である。

なお、本システムＳでは、Ａさんの映像の表示サイズをＡさんの実際のサイズ（等身大サイズ）と一致するように調整する。この結果、Ｂさん側のディスプレイ５にはＡさんの映像が等身大サイズにて表示されるようになり、本システムＳを用いた対面対話の臨場感がより一層向上する。ただし、人物映像の表示サイズについては、等身大サイズに限定されるものではない。ここで、等身大サイズとは、カメラ２の前方位置でカメラ２から所定距離（具体的には、後述する図１０Ｂ中の距離ｄ１であり、以下、基準距離）だけ離れた位置にいるときに撮像された人物映像をそのままのサイズにて表示したときのサイズを意味する。また、上記の基準距離ｄ１については、予め設定されており、ホームサーバ１のメモリに記憶されている。

＜＜三次元映像の生成について＞＞
本システムＳにおいて、ディスプレイ５には三次元映像が表示されることになっている。より具体的に説明すると、前節にて説明したように、ディスプレイ５には、背景映像、人物映像及び前景映像を合成した合成映像が表示されることになっているが、合成される各映像は、三次元化された映像（三次元映像）となっている。この三次元映像は、カメラ２が撮像した２次元映像（具体的には、ＲＧＢ形式のフレーム画像からなる映像）と、その映像についての深度データと、を用いて３ＤＣＧによるレンダリング処理を実行することで得られる。ここで、レンダリング処理とは、厳密にはサーフェスレンダリング方式の映像表示処理であり、仮想的に設定された視点から見た際の三次元映像を生成するための処理である。

そして、本システムＳでは、レンダリング処理としてテクスチャマッピングを採用した処理を実行する。以下、図６を参照しながら、三次元映像を生成する手順について説明する。図６は、三次元映像を生成する手順についての説明図である。なお、図中のメッシュモデルは、図示の都合上、実際のメッシュサイズよりも粗くなっている。また、以下では、Ａさんの三次元映像を生成するケースを例に挙げて説明することとする。

カメラ２が撮像したＡさんの映像（厳密には、実映像から抽出されたＡさんの映像）は、二次元映像であり、テクスチャマッピングにおいてテクスチャとして用いられる。一方、Ａさんの映像を含む実映像について取得された深度データ（すなわち、デプスマップ）は、三次元映像の骨格をなすメッシュモデルを構築するために用いられる。ここで、メッシュモデルは、ポリゴンメッシュにて人物（Ａさん）を表現したものである。なお、深度データ（デプスマップ）からメッシュモデルを構築する方法については、公知の方法を利用することが可能である。

そして、メッシュモデルが得られた後、図６に示すように、当該メッシュモデルにテクスチャとしての二次元映像（具体的にはＡさんの映像）を貼り付けることで立体的なＡさんの映像、すなわち、奥行感を有する三次元映像を生成することが可能となる。このようなテクスチャマッピングにて三次元映像が生成され、さらに移動や回転等のプロセッシングを行うことで視点を変えたときの三次元映像を取得することが可能となる。これにより、Ａさんの顔を下方から見たときの三次元映像や、Ａさんの顔を側方から見たときの三次元映像を取得することも可能となる。

また、背景や前景についても、人物の場合と同様の手順により、三次元映像を生成することが可能である。つまり、カメラ２が撮像した背景映像と、背景映像について取得された深度データと、を用いてテクスチャマッピングによるレンダリング処理を実行することで、背景の三次元映像が取得される。また、カメラ２が撮像した前景映像（厳密には、実映像から抽出した前景映像）と、前景映像について取得された深度データ（厳密には、前景映像を含む実映像についての深度データ）と、を用いてテクスチャマッピングによるレンダリング処理を実行することで、前景の三次元映像が取得される。

なお、本システムＳでは、テクスチャマッピングを利用しているが、三次元映像を取得するためのレンダリング処理については、テクスチャマッピングを利用したものに限られず、例えばバンプマッピングを利用したレンダリング処理であってもよい。

また、深度データにおいては、欠損部分、すなわち、何らかの理由によって深度の計測結果が得られない画素が生じる虞がある。特に、人物映像と背景映像との境界付近（エッジ付近）では欠損部分が発生し易い。このように欠損部分が生じた場合には、欠損部分の位置が特定できるのであれば、テクスチャマッピングにおいて当該欠損部分に対してテクスチャである二次元映像をそのまま貼ればよい。あるいは、その周辺の映像を貼ってもよい。また、深度データを構成する画素のうち、人物映像と対応している画素群において、そのエッジ付近に欠損部分が生じた場合には、テクスチャマッピングにおいて上記の画素群よりも一回り大きい画素群を抽出し、当該画素群に対応する二次元映像を貼ればよい。

＜＜ホームサーバの機能について＞＞
次に、ホームサーバ１の機能、特に、映像表示処理に関する機能について説明する。なお、Ａさん側のホームサーバ１及びＢさん側のホームサーバ１の双方は、同様の機能を有しており、対面対話の実施にあたり双方向通信して同様のデータ処理を実行する。このため、以下では、一方のホームサーバ１（例えば、Ｂさん側のホームサーバ１）の機能のみを説明することとする。

ホームサーバ１は、同装置のＣＰＵが対話用プログラムを実行することでホームサーバ１としての機能を発揮し、具体的には、対面対話に関する一連のデータ処理を実行する。ここで、図７を参照しながら、ホームサーバ１の構成をその機能面、特に映像表示機能の観点から説明する。図７は、ホームサーバ１の構成を機能面から示した図である。

ホームサーバ１は、図７に示すように、データ送信部１１、データ受信部１２、背景映像記憶部１３、第１深度データ記憶部１４、実映像記憶部１５、人物映像抽出部１６、骨格モデル記憶部１７、第２深度データ記憶部１８、前景映像抽出部１９、高さ検知部２０、三次元映像生成部２１、合成映像表示部２２、判定部２３及び顔移動検知部２４を備える。これらのデータ処理部は、それぞれ、ホームサーバ１のハードウェア機器（具体的には、ＣＰＵ、メモリ、通信用インタフェース及びハードディスクドライブ等）がソフトウェアとしての対話用プログラムと協働することによって実現される。以下、各データ処理部について説明する。

データ送信部１１は、Ｂさん側のカメラ２が撮像した映像の信号をデジタル化し、映像データとしてＡさん側のホームサーバ１へ送信する。ここで、データ送信部１１が送信する映像データの種類は、２種類に分類される。一つは、背景映像の映像データであり、具体的には、背景に相当する部屋内にＢさんが居ないときに撮像された同室の映像（厳密には、カメラ２の撮像範囲内にある領域の映像）を示すデータである。もう一つは、実映像の映像データであり、Ｂさんが上記部屋に在室している間に撮像された映像、より具体的にはＢさん及びその背景や前景の映像を示すデータである。

また、データ送信部１１は、背景映像の映像データを送信するにあたり、赤外線センサ４の計測結果に基づいて、背景映像についての深度データを生成し、当該深度データを背景映像の映像データとともに送信する。この深度データは、背景の三次元映像を取得するためのレンダリング処理を実行する際に用いられると共に、背景とカメラ２との間の距離（奥行距離）を特定する際にも用いられる。同様に、データ送信部１１は、実映像の映像データを送信するにあたり、赤外線センサ４の計測結果に基づいて、実映像についての深度データを生成し、当該深度データを実映像の映像データとともに送信する。この深度データは、実映像から人物映像（具体的にはＢさんの映像）や前景映像を抽出する際に用いられる。また、上記の深度データは、Ｂさんの三次元映像を取得するためのレンダリング処理、及び、前景の三次元映像を取得するためのレンダリング処理のそれぞれの実行時に用いられる。さらに、上記の深度データは、Ｂさんとカメラ２との間の距離（奥行距離）を特定する際にも用いられる。

データ受信部１２は、Ａさん側のホームサーバ１から送信されてくる各種データを受信する。データ受信部１２が受信するデータの中には、背景映像の映像データ及び背景映像についての深度データ、並びに、実映像の映像データ及び実映像についての深度データが含まれている。ここで、データ受信部１２が受信する背景映像の映像データは、背景に相当する部屋内にＡさんが居ないときに撮像された同室の映像を示すデータである。このようにデータ受信部１２は、背景映像の映像データを受信することで、Ａさん側のカメラ２が撮像した背景の映像を取得する。かかる意味で、データ受信部１２は、映像取得部に該当すると言える。

また、データ受信部１２が受信する背景映像についての深度データは、背景の三次元映像を取得するためのレンダリング処理を実行する際に用いられると共に、背景とカメラ２との間の距離（奥行距離）を特定する際にも用いられる。なお、以下では、データ受信部１２が受信する背景映像についての深度データを「第１深度データ」と呼ぶこととする。

また、データ受信部１２が受信する実映像の映像データは、Ａさんが上記部屋に在室している間に撮像されたＡさん、背景及び前景の映像を示すデータである。また、データ受信部１２が受信する実映像についての深度データは、実映像からＡさんの映像や前景映像を抽出する際に用いられる。また、上記の深度データは、Ａさんの三次元映像を取得するためのレンダリング処理、及び、前景の三次元映像を取得するためのレンダリング処理のそれぞれの実行時に用いられる。さらに、上記の深度データは、Ａさんとカメラ２との間の距離（奥行距離）、及び、前景とカメラ２との間の距離（奥行距離）を特定する際にも用いられる。なお、以下では、データ受信部１２が受信する実映像についての深度データを「第２深度データ」と呼ぶこととする。

以上のようにデータ受信部１２は、第１深度データと第２深度データとをＡさん側のホームサーバ１から受信することで、背景映像についての深度データ、人物映像についての深度データ、及び前景映像についての深度データをそれぞれ取得する。かかる意味で、データ受信部１２は、距離データである深度データを取得する距離データ取得部に該当すると言える。

背景映像記憶部１３は、データ受信部１２が受信した背景映像の映像データを記憶する。第１深度データ記憶部１４は、データ受信部１２が受信した背景映像についての深度データ、すなわち、第１深度データを記憶する。実映像記憶部１５は、データ受信部１２が受信した実映像の映像データを記憶する。

人物映像抽出部１６は、データ受信部１２が受信した実映像の映像データを展開し、当該実映像から人物映像（すなわち、Ａさんの映像）を抽出する。骨格モデル記憶部１７は、人物映像抽出部１６が人物映像を抽出する際に用いる骨格モデル（具体的には、Ａさんの骨格モデル）を記憶する。第２深度データ記憶部１８は、データ受信部１２が受信した実映像についての深度データ、すなわち第２深度データを記憶する。

人物映像抽出部１６は、実映像からＡさんの映像を抽出するにあたり、実映像記憶部１５から実映像を、第２深度データ記憶部１８から実映像についての第２深度データを、それぞれ読み出す。そして、人物映像抽出部１６は、読み出した第２深度データ及びカメラ２の撮像映像からＡさんの骨格モデルを特定する。特定されたＡさんの骨格モデルは、骨格モデル記憶部１７に記憶される。その後、人物映像抽出部１６は、骨格モデル記憶部１７からＡさんの骨格モデルを読み出し、当該骨格モデルに基づいて実映像から人物映像、すなわちＡさんの映像を抽出する。このように人物映像抽出部１６は、実映像から人物映像を抽出することで、Ａさん側のカメラ２が撮像したＡさんの映像を取得する。かかる意味で、人物映像抽出部１６は、映像取得部に該当すると言える。

前景映像抽出部１９は、データ受信部１２が受信した実映像の映像データを展開し、当該実映像から前景映像を抽出する。具体的に説明すると、前景映像抽出部１９は、実映像から前景映像を抽出するにあたり、実映像記憶部１５から実映像を、第２深度データ記憶部１８から当該実映像についての第２深度データを、それぞれ読み出す。そして、前景映像抽出部１９は、読み出した第２深度データ中、前景映像と対応する画素群を抽出する。ここで、前景映像と対応する画素群とは、人物映像抽出部１６によって第２深度データから抽出された画素群（すなわち、人物映像と対応する画素群）よりも奥行距離が小さい画素群のことである。その後、前景映像抽出部１９は、実映像記憶部１５から読み出した実映像中、上記の画素群と対応する部分の映像を前景映像として抽出する。このように前景映像抽出部１９は、実映像から前景映像を抽出することで、Ａさん側のカメラ２が撮像した前景映像を取得する。かかる意味で、前景映像抽出部１９は、映像取得部に該当すると言える。

高さ検知部２０は、Ａさん側のホームサーバ１から受信したデータに基づいて、Ａさんの目の高さを検知する。具体的に説明すると、高さ検知部２０は、第２深度データ記憶部１８から第２深度データを読み出し、読み出した第２深度データ中、人物映像と対応する画素群を抽出する。その後、高さ検知部２０は、抽出した画素群の中から目に相当する画素を特定し、その特定した画素の位置から目の高さを割り出す。そして、目の高さに関する検知結果については、三次元映像生成部２１に引き渡され、三次元映像生成部２１は、当該検知結果に応じた三次元映像（特に、人物の三次元映像）を生成するようになる。かかる内容については、次節にて詳しく説明する。

なお、目の高さを特定する方法については、特に制限されるものではなく、公知の方法を利用することが可能である。具体的に説明すると、本システムＳでは第２深度データに基づいて目の高さを検知することとしたが、これに限定されず、例えば、Ａさんの映像を含む実映像を解析して目の高さを検知してもよい。

三次元映像生成部２１は、３ＤＣＧのレンダリング処理を実行して三次元映像を取得する。具体的に説明すると、三次元映像生成部２１は、背景映像記憶部１３に記憶された背景映像と、第１深度データ記憶部１４に記憶された背景映像についての第１深度データと、を用いたレンダリング処理を実行して背景の三次元映像を生成する。なお、三次元映像生成部２１は、背景の三次元映像を生成する際、背景映像記憶部１３に記憶された背景映像のうち、直近で取得された背景映像を用いることになっている。同様に、第１深度データ記憶部１４に記憶された第１深度データについても、直近で取得された第１深度データを用いることになっている。

また、三次元映像生成部２１は、人物映像抽出部１６が抽出した人物映像（具体的にはＡさんの映像）と、第２深度データ記憶部１８に記憶された第２深度データ（厳密には、第２深度データ中、人物映像と対応する画素群のデータ）とを用いたレンダリング処理を実行して人物（Ａさん）の三次元映像を生成する。同様に、三次元映像生成部２１は、前景映像抽出部１９が抽出した前景映像と、第２深度データ記憶部１８に記憶された第２深度データ（厳密には、第２深度データ中、前景映像に相当する画素群のデータ）とを用いたレンダリング処理を実行して前景の三次元映像を生成する。なお、本システムＳでは、上述したように、レンダリング処理としてテクスチャマッピングを採用した処理を実行する。

合成映像表示部２２は、三次元映像生成部２１によって生成された背景、人物及び前景のそれぞれの三次元映像を合成し、その合成映像をＢさん側のディスプレイ５に表示させる。なお、合成映像表示部２２は、三次元映像生成部２１によって生成された背景の三次元映像の中から合成映像の中に含める映像、すなわち、表示範囲を選定する。そして、合成映像表示部２２は、選定した表示範囲の手前にＡさんが位置し、且つＡさんの手前に前景が位置した合成映像を、Ｂさん側のディスプレイ５に表示させる。

判定部２３は、合成映像表示部２２が合成映像をディスプレイ５に表示している期間中（換言すると、Ａさん側のカメラ２がＡさんの映像を撮像している期間中）、Ａさん側のカメラ２とＡさんと間の距離（すなわち、Ａさんの奥行距離）が変化したかどうかを判定する。かかる判定は、第２深度データ記憶部１８に記憶された第２深度データに基づいて行われる。そして、奥行距離が変化したと判定部２３が判定すると、その判定結果が合成映像表示部２２に引き渡され、合成映像表示部２２は、当該判定結果に応じた合成映像をディスプレイ５に表示させる。かかる内容については、次節にて詳しく説明する。

顔移動検知部２４は、赤外線センサ４の計測結果に基づいて、Ｂさん側のカメラ２が撮像した実映像についての深度データを生成するとともに、当該深度データから、Ｂさんの顔の横移動の有無を検知する。具体的に説明すると、合成映像表示部２２によって合成映像がディスプレイ５に表示されている期間中、顔移動検知部２４は、上記の深度データからＢさんの映像に相当する画素群を特定し、当該画素群の位置の変化を監視する。そして、顔移動検知部２４は、当該画素群の位置の変化を認識したとき、Ｂさんの顔が横移動したことを検知する。なお、横移動とは、Ｂさんの顔がＢさん側のディスプレイ５に対して左右方向（ディスプレイ５の幅方向）に移動することである。

Ｂさんの顔が横移動したことの検知結果については、合成映像表示部２２に引き渡され、合成映像表示部２２は、当該検知結果に応じた合成映像をディスプレイ５に表示させる。かかる内容については、次節にて詳しく説明する。

＜＜対面対話の臨場感を向上させるためのプロセスについて＞＞
本システムＳでは、同システムを用いた対面対話の臨場感を向上させるために、各ユーザの目線や顔の位置に応じて、ディスプレイ５に表示させる映像やその表示サイズを調整・変更することとしている。具体的には、下記（Ｒ１）〜（Ｒ３）の映像表示プロセスを行う。
（Ｒ１）目線高さ合わせ用のプロセス
（Ｒ２）顔移動時のプロセス
（Ｒ３）奥行距離変化時のプロセス

以下、上記３つの映像表示プロセスの各々について個別に説明することとする。なお、以下では、Ａさんの三次元映像を含む合成映像をＢさん側のディスプレイ５にて表示するケースを例に挙げて説明することとする。

＜目線高さ合わせ用のプロセスについて＞
本システムＳでは、前述したように、カメラ２が床から約１ｍの高さに設置されている。したがって、Ａさんの身長次第では、Ａさんの目の高さとカメラ２が設置されている高さとが異なってしまう。かかる場合、Ｂさん側のディスプレイ５に表示されるＡさんの映像が、実際にＡさんと対面した場合に見えるＡさんの姿（像）とは異なったものとなる。

具体的に説明すると、Ａさんの目の高さがカメラ２の設置高さよりも高くなっている場合、そのカメラ２は、Ａさんの顔の映像を下方から撮像することになる。この間、Ａさんは、Ａさん側のディスプレイ５を正面視しているため、Ａさんの目線は正面を向いていることになる。以上の状況下では、図８の（Ａ）に示すように、Ｂさん側のディスプレイ５に表示されるＡさんの映像（厳密には三次元映像であるが、図８の（Ａ）では簡略化して図示）が、Ａさんの顔を仰視したような映像となってしまう。図８は、目線高さ合わせ用のプロセスについての説明図であり、図中の（Ａ）は、実際のカメラ位置から撮像したＡさんの映像を示している。

以上のようにＡさんの顔を仰視したような映像がディスプレイ５に表示された場合、その表示映像においてＡさんの顔は、図８の（Ａ）に示すように、目線が正面を向いておらず幾分上方を向いた状態で映し出されることになる。かかる場合には、ディスプレイ５に表示されたＡさんの目線と、ディスプレイ５を見ているＢさんの目線と、を一致させ難くなり、対面対話の臨場感が損なわれてしまう虞がある。

そこで、本システムＳでは、Ａさんの目の高さとカメラ２の設置高さとが異なるとき、ディスプレイ５に表示されるＡさんの目線とディスプレイ５を見ているＢさんの目線とを一致させるために、目線高さ合わせ用のプロセスを行うこととしている。当該プロセスについて説明すると、３ＤＣＧのレンダリング処理を実行し、Ａさんの目の高さと同じ高さにある仮想的な視点から見たＡさんの三次元映像を取得することとしている。具体的に説明すると、目線高さ合わせ用のプロセスを行うにあたり、Ｂさん側のホームサーバ１（厳密には、前述の高さ検知部２０）がＡさんの目の高さを検知する。一方、Ｂさん側のホームサーバ１は、Ａさん側のカメラ２が設置されている高さに関する情報を記憶している。そして、Ａさんの目の高さ及びＡさん側のカメラ２の設置高さの双方が異なっているとき、Ｂさん側のホームサーバ１（厳密には、前述の三次元映像生成部２１）は、検知した目の高さにある仮想的な視点から見たときのＡさんの三次元映像を取得するためのレンダリング処理を実行する。

上記のレンダリング処理について図８の（Ｂ）を参照しながら説明する。図８の（Ｂ）は、カメラ２とＡさんの目線との位置関係を示した図である。Ｂさん側のホームサーバ１は、Ａさんの目の高さ及びＡさん側のカメラ２の設置高さの双方が異なっているとき、当該双方の差（図８の（Ｂ）では記号Ｈにて表記）を特定する。また、Ｂさん側のホームサーバ１は、記憶されている第２深度データに基づいて、ＡさんとＡさん側のカメラ２との間の距離（すなわち、Ａさんの奥行距離であり、図８の（Ｂ）では記号Ｌにて表記）を特定する。その上で、Ｂさん側のホームサーバ１は、検知したＡさんの目の高さと同じ高さに設置された仮想的なカメラ（図８の（Ｂ）において破線にて示す）の撮像方向と、実際のカメラ２の撮像方向と、の間の相違を特定する。具体的には、下記の式（１）にて求められる角度αを上記の相違として算出する。
α＝ａｒｃｔａｎ（Ｈ／Ｌ）（１）

そして、Ｂさん側のホームサーバ１は、角度αの算出結果を用いて、上記の仮想的なカメラから撮像したＡさんの映像（三次元映像）を取得するためのレンダリング処理を実行する。具体的には、カメラ２が撮像したＡさんの映像（厳密には、実映像から抽出したＡさんの映像）と、実映像についての深度データである第２深度データと、を用いたテクスチャマッピングを行い、さらに、算出した角度αに相当する高さだけ視点を変位させる映像処理を行う。これにより、仮想的なカメラから撮像したときのＡさんの三次元映像、換言すると、図８の（Ｃ）のように目線が正面を向いたＡさんの三次元映像が取得されるようになる。図８の（Ｃ）は、仮想的なカメラ位置から撮像したＡさんの映像を示している。

その後、Ｂさん側のホームサーバ１（厳密には、前述の合成映像表示部２２）は、上記の手順により取得したＡさんの三次元映像と、背景及び前景のそれぞれの三次元映像とを合成し、その合成映像をＢさん側のディスプレイ５に表示させる。

＜顔移動時のプロセスについて＞
ＡさんとＢさんとが実際に対面している場面においてＢさんの顔が横移動したとき、Ｂさんの視界（Ｂさんの目に映る像）は、顔移動に伴って変化する。このような顔移動に伴う見え方の変化を映像表示システムで再現するには、ディスプレイ５に表示される映像を、ディスプレイ５を見ている者の顔の移動に連動させて変化させる必要がある。このため、従来の映像表示システムでは、図９に示すように、ディスプレイ５を見ている者（例えば、Ｂさん）の顔が横移動すると、ディスプレイ５に表示されている映像が鉛直軸を中心に回転するように切り替わるようになっていた。具体的には、同図に示すように、表示映像として、左部と右部との間で奥行距離が異なった映像がディスプレイ５に表示されていた。図９は、従来の映像表示システムの構成例を示した図であり、ディスプレイ５を見ているＢさんの移動に連動して表示映像が変化する様子を図示している。

しかしながら、ＡさんとＢさんが実際に対面して対話を行っている場面においてＢさんの顔が横移動したとき、Ｂさんが見ているＡさんの姿は、上記のように回転することはなく、水平移動するに過ぎない。また、図９に図示の映像表示システムでは、Ｂさんの顔が横移動したときに、Ａさんの映像及び背景映像の双方を同じ回転量（回転角度）だけ回転させることとしている。このため、図９に図示の映像表示システムでは、Ｂさんの顔が横移動した際にディスプレイ５に表示されているＡさんの映像が、実際に対面しているときの見え方とは異なる映像となってしまう。

これに対して、本システムＳでは、Ｂさんの顔が横移動した際に顔移動時のプロセスを行うこととし、実際にＡさんと対面してＡさんを見ているときの見え方を正確に反映して、ディスプレイ５に表示される映像（合成映像）を遷移させることとしている。以下、顔移動時のプロセスについて図１０Ａ、図１０Ｂ及び図１１を参照しながら説明する。図１０Ａは、Ｂさんの顔が横移動した状況を模式的に示した図である。図１０Ｂは、Ａさん、背景及び前景の各々の奥行距離についての説明図である。図１１は、後述の遷移処理を実行したときの合成映像の変化を示した説明図であり、（Ａ）は、遷移処理前の合成映像を、（Ｂ）は、遷移処理後の合成映像を、それぞれ示している。

なお、以下では、当初ディスプレイ５の略中央位置に立っていたＢさんが横移動したケースを例に挙げて説明することとする。また、以下の説明中、ディスプレイ５の幅方向（すなわち、左右方向）において互いに反対向きである２つの向きの一方を「第一向き」と呼び、他方を「第二向き」と呼ぶ。ここで、第一向きと第二向きの関係は、相対的なものであり、左右方向における一方の向きを第一向きとしたときに、他方の向きが第二向きとなる。したがって、ディスプレイ５を正面視したときに左向きを第一向きとしたときには、右向きが第二向きとなり、反対に、右向きを第一向きとしたときには、左向きが第二向きとなる。

Ｂさん側のホームサーバ１（厳密には、前述の顔移動検知部２４）は、Ｂさん側のディスプレイ５に合成映像を表示している間、Ｂさんの顔の移動の有無を検知する。そして、Ｂさんの顔の横移動を検知すると、Ｂさん側のホームサーバ１は、移動の向き及び移動量を同時に検知する。さらに、Ｂさん側のホームサーバ１（厳密には、前述の合成映像表示部２２）は、Ｂさんの顔移動に関する検知結果に応じて遷移処理を実行する。遷移処理とは、Ｂさん側のディスプレイ５に表示されている合成映像を、Ｂさんの顔の横移動を検知する前の状態から遷移させる処理である。具体的には、合成映像におけるＡさんの三次元映像及び前景の三次元映像の表示位置、並びに、背景の三次元映像の中で合成映像中に含まれる範囲（すなわち、表示範囲）の双方を左右方向にずらした状態へ合成映像を遷移させる。

遷移処理について詳しく説明すると、本処理では、先ず、合成映像におけるＡさんの三次元映像及び前景の三次元映像の表示位置、並びに、背景の三次元映像の表示範囲の各々についてずれ量を設定する。ここで、Ｂさんの顔が第一向きに移動量ｘだけ移動した場合を想定すると、各々のずれ量は、Ｂさんの顔の移動量ｘと、カメラ２とその被写体（Ａさんとその背景及び前景）との間の距離（すなわち、奥行距離）と、に応じて設定される。なお、本システムＳでは、ずれ量を設定するにあたり、Ｂさんの顔の移動量ｘを移動角度に換算する。移動角度とは、Ｂさんの視線ラインの変化量を角度にて示したものである。また、視線ラインとは、Ｂさんの両眼の中央位置からディスプレイ５の中心に向かう仮想直線である。

図１０Ａを参照しながら説明すると、一点鎖線にて図示したラインが、Ｂさんの顔が移動する前の視線ラインに相当し、二点鎖線にて図示したラインが、移動後の視線ラインに相当する。そして、両視線ラインがなす鋭角、すなわち、図１０Ａ中の角度θが移動角度に相当する。なお、Ｂさんの顔が移動する前の視線ラインについては、図１０Ａに示すように、ディスプレイ５の表示画面の法線方向に沿ったラインとなっているものとする。

また、ずれ量を設定するにあたっては、Ａさん、背景（例えば、壁）、前景（例えば、Ａさんの前にある箱）の各々の奥行距離を特定する。ここで、対面対話中、Ａさんの奥行距離は、図１０Ｂに示すように、Ａさん側のカメラ２から基準距離ｄ１だけ離れた位置に維持されるものとする。一方、背景である部屋の壁の奥行距離は、図１０Ｂに示すように、Ａさん側のカメラ２から距離ｄｗだけ離れている。この距離ｄｗは、当然ながら、Ａさんの奥行距離である基準距離ｄ１よりも長い距離となっている。また、前景であるＡさんの前方に置かれた箱の奥行距離は、図１０Ｂに示すように、Ａさん側のカメラ２から距離ｄｆだけ離れている。この距離ｄｆは、当然ながら、Ａさんの奥行距離である基準距離ｄ１よりも短い距離となっている。

そして、移動角度θ、並びにＡさん、背景及び前景の各々の奥行距離ｄ１、ｄｗ、ｄｆが特定された後、合成映像におけるＡさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び背景の三次元映像の表示範囲の各々に対してずれ量を設定する。具体的に説明すると、Ａさんの三次元映像の表示位置に対するずれ量をｔ１とすると、当該ずれ量ｔ１は、下記の式（２）によって算出される。
ｔ１＝ｄ１×ｓｉｎθ （２）

また、背景の三次元映像の表示範囲に対するずれ量をｔ２とすると、当該ずれ量ｔ２は、下記の式（３）によって算出される。
ｔ２＝ｄｗ×ｓｉｎθ （３）

また、前景の三次元映像の表示位置に対するずれ量をｔ３とすると、当該ずれ量ｔ３は、下記の式（４）によって算出される。
ｔ３＝ｄｆ×ｓｉｎθ （４）

上記のずれ量ｔ１、ｔ２、ｔ３を設定した後には、Ａさんの三次元映像の表示位置をずれ量ｔ１だけ、背景の三次元映像の表示範囲をずれ量ｔ２だけ、前景の三次元映像の表示位置をずれ量ｔ３だけ、それぞれ第二向きにずらした状態へ合成映像を遷移させる。これにより、Ｂさん側のディスプレイ５には、当初、図１１の（Ａ）に図示した合成映像が表示されていたところ、Ｂさんの顔の横移動に連動して、合成映像が図１１の（Ｂ）に図示した状態へ徐々に遷移するようになる。

以上までに説明したように、本システムＳでは、Ｂさん側のディスプレイ５に合成映像が表示されている期間中にＢさんの顔が第一向きへ移動すると、合成映像におけるＡさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び背景の三次元映像の表示範囲が、ともに第二向きにずれるようになる。また、Ａさんの三次元映像の表示位置に対するずれ量ｔ１よりも、背景の三次元映像の表示範囲に対するずれ量ｔ２の方が大きくなっている。また、Ａさんの三次元映像の表示位置に対するずれ量ｔ１よりも、前景の三次元映像の表示位置に対するずれ量ｔ３の方が小さくなっている。このようにＡさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び背景の三次元映像の表示範囲を、それぞれ互いに異なるずれ量だけずらした状態に合成映像を遷移させることにより、Ｂさん側のディスプレイ５には、Ｂさんが移動後の顔の位置から実際にＡさんを見たときの見え方を反映した映像が表示されるようになる。

分かり易く説明すると、仮にＢさんが実際にＡさんと対面して対話している場合、Ｂさんの顔が横移動すると、移動後のＢさんの位置から見えるものは、当初の位置からずれた位置にあるように見える。ここで、Ｂさんに対してより近くにあるものほど小さなずれ量だけ当初の位置からずれた位置に見えるようになり、より遠くにあるものほど大きなずれ量だけ当初の位置からずれた位置に見えるようになる。本システムＳでは、以上のような見え方を再現すべく、Ｂさんの顔が横移動したことを検知したとき、Ａさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び背景映像の表示範囲をそれぞれ異なるずれ量だけずらすように合成映像を遷移させる。この際、Ａさんの三次元映像の表示位置に対するずれ量ｔ１よりも、背景の三次元映像の表示範囲に対するずれ量ｔ２の方が大きくなっている。この結果、遷移処理後の合成映像では、背景のうち、当初の合成映像（Ｂさんの顔が移動する前の合成映像）では表示されていなかった範囲の映像を見ること、いわゆる覗き込みが可能となる。

＜奥行距離変化時のプロセスについて＞
対面対話の実行時、Ａさんは、通常、Ａさん側のカメラ２から基準距離ｄ１だけ離れた位置に立っている。このとき、カメラ２が撮像したＡさんの映像をディスプレイ５にて表示すると、当該映像は図１２に示すように等身大サイズで表示される。一方、Ａさんが上記の位置よりも後方に移動したとき、カメラ２の撮像映像をそのままのサイズにてディスプレイ５にて表示すると、当該映像は、図１２に示すように等身大サイズよりも幾分小さいサイズで表示されるようになる。このような表示サイズの変化は、カメラ２のレンズの光学的特性に起因して不可避的に生じる。なお、図１２は、従来の映像表示システムの構成例を示した図であり、Ａさんの奥行距離が大きくなるほどディスプレイ５に表示されるＡさんの映像の表示サイズが小さくなる様子を図示している。

しかし、ＢさんとＡさんとが実際に対面している場面においてＡさんがＢさんに対して多少近接又は離間したとしても、Ａさんの姿（大きさ）は、Ｂさんから見たときの見え方（見た目）では殆ど変化しないように見える。そこで、本システムＳでは、Ａさんの奥行距離が変化したときの実際の見え方を再現すべく、奥行距離変化時のプロセスを行うようにしている。これにより、Ｂさん側のディスプレイ５に表示されるＡさんの映像（厳密には三次元映像）の表示サイズは、Ａさんの奥行距離が変化した後にも等身大サイズのままで維持されるようになる。

以下、奥行距離変化時のプロセスについて説明する。なお、以下では、Ａさんの奥行距離が基準距離ｄ１から、基準距離ｄ１よりも大きい距離ｄ２に変化したケースを想定して説明することとする。奥行距離変化時のプロセスは、Ｂさん側のディスプレイ５に合成映像が表示されている期間（換言すると、Ａさん側のカメラ２がＡさんの映像を撮像している期間）においてＡさんの奥行距離が変化したときに行われる。具体的には、Ｂさん側のホームサーバ１（厳密には、前述の判定部２３）が、上記期間中、奥行距離の変化の有無を判定する。そして、奥行距離が変化したと判定したとき、Ｂさん側のホームサーバ１は、これをトリガーとして奥行距離変化時のプロセスを開始する。

奥行距離変化時のプロセスにおいて、Ｂさん側のホームサーバ１（厳密には、合成映像表示部２２）は、合成映像におけるＡさんの三次元映像の表示サイズを調整する調整処理を実行する。調整処理では、先ず、変化後の奥行距離ｄ２を特定する。その後、特定した変化後の奥行距離ｄ２に基づき、奥行方向においてＡさんの位置が変化する前の表示サイズ、すなわち、等身大サイズとなるようにＡさんの映像の表示サイズを調整する。具体的に説明すると、Ａさんの奥行距離がｄ１からｄ２へ変化したとき、調整処理では、Ａさんの映像の表示サイズ（厳密には、映像の縦サイズ及び横サイズの各々）に奥行距離の比（ｄ１／ｄ２）に乗じて上記表示サイズを補正する。

その後、Ｂさん側のホームサーバ１は、サイズ補正されたＡさんの三次元映像と、背景及び前景の三次元映像とを合成し、その合成映像をディスプレイ５に表示させる。これにより、図１３（Ａ）及び（Ｂ）に示すように、Ａさんの奥行距離が変化したとしても、当該奥行距離が変化する前の表示サイズにてＡさんの映像が表示されるようになる。このようにＡさんの奥行距離が変化したときに、実際にＡさんと対面しているときの見え方を反映してＡさんの三次元映像の表示サイズを調整する結果、本システムＳを用いた対面対話の臨場感（リアル感）がより一層向上することとなる。なお、図１３は、調整処理の実行結果についての説明図であり、同図の（Ａ）は、奥行距離が変化する前の合成映像を、同図の（Ｂ）は、奥行距離の変化後に調整処理が行われた合成映像を、それぞれ示している。また、図１３の（Ｂ）には、表示サイズの比較のために、奥行距離が変化した後であって調整処理が行われる前段階のＡさんの映像を破線にて示している。

＜＜映像表示フローについて＞＞
次に、本システムＳを用いた対面対話のうち、映像表示に係る一連のデータ処理、すなわち映像表示フローについて、その流れを説明する。ここで、以下に説明する映像表示フォローにおいては本発明の映像表示方法が適用されている。すなわち、以下では、本発明の映像表示方法に関する説明として、当該映像表示方法を適用した映像表示フローの流れを説明することとする。換言すると、以下に述べる映像表示フロー中の各ステップは、本発明の映像表示方法の構成要素に相当する。

なお、以下では、Ａさんの三次元映像を含む合成映像をＢさん側のディスプレイ５にて表示するケースを例に挙げて説明する。ちなみに、Ｂさんの三次元映像を含む合成映像をＡさん側のディスプレイ５に表示する際の手順についても、下記の手順と略同様となる。

映像表示フローは、コンピュータであるＢさん側のホームサーバ１が、図１４及び１５に示す各ステップを実施することにより進行する。図１４及び１５は、映像表示フローの流れを示す図である。具体的に説明すると、先ず、Ｂさん側のホームサーバ１が、Ａさん側のホームサーバ１と通信することで背景映像の映像データ及び背景映像についての深度データ（第１深度データ）を受信する（Ｓ００１）。これにより、Ｂさん側のホームサーバ１は、背景映像として、Ａさんが対面対話を行う際に利用する部屋の映像を取得する。これと同時に、Ｂさん側のホームサーバ１は、背景とカメラ２との距離を示すデータ（距離データ）としての第１データを取得する。なお、本ステップＳ００１は、Ａさん側のカメラ２が背景映像のみを撮像している間、すなわち、対面対話が行われる部屋にＡさんが居ない期間中に行われる。また、取得した背景映像及び第１深度データについては、Ｂさん側のホームサーバ１のハードディスクドライブ等に記憶される。

そして、Ｂさん側のホームサーバ１は、記憶された背景映像及び第１深度データのうち、直近で取得された背景映像及び第１深度データを読み出し、これらを用いたレンダリング処理としてテクスチャマッピングによる処理を実行する。これにより、Ｂさん側のホームサーバ１は、背景の三次元映像を取得する（Ｓ００２）。

一方、Ａさんが対面対話用の部屋に入室して対面対話を開始すると、同室内に設置されたカメラ２が、Ａさんとその背景及び前景を含む映像、すなわち、実映像を撮像する。そして、Ａさん側のホームサーバ１が、カメラ２が撮像した実映像の映像データを送信し、Ｂさん側のホームサーバ１が当該映像データを受信する。これにより、Ｂさん側のホームサーバ１は、上記の実映像を取得する。また、Ａさん側のホームサーバ１は、実映像の映像データの送信と同時に、実映像についての深度データ（第２深度データ）を送信し、Ｂさん側のホームサーバ１が当該第２深度データを受信する。これにより、Ｂさん側のホームサーバ１は、上記の第２深度データを、実映像とセットにした状態で取得する（Ｓ００３）。なお、取得した実映像及び第２深度データについては、Ｂさん側のホームサーバ１のハードディスクドライブ等に記憶される。

その後、Ｂさん側のホームサーバ１は、取得した実映像から人物映像、具体的にはＡさんの映像を抽出する（Ｓ００４）。具体的に説明すると、Ｂさん側のホームサーバ１は、前ステップＳ００２で取得した第２深度データと、カメラ２の撮像映像と、に基づいてＡさんの骨格モデルを特定した上で、当該骨格モデルに基づいて実映像からＡさんの映像を抽出する。

そして、Ｂさん側のホームサーバ１は、前ステップＳ００４にて抽出されたＡさんの映像と第２深度データとを用いたレンダリング処理を実行し、具体的にはテクスチャマッピングによる処理を実行する。これにより、Ｂさん側のホームサーバ１は、人物（Ａさん）の三次元映像を取得する（Ｓ００５）。

また、Ｂさん側のホームサーバ１は、第２深度データに基づいて、ステップＳ００３にて取得した実映像から前景映像を抽出する（Ｓ００６）。その後、Ｂさん側のホームサーバ１は、抽出された前景映像と第２深度データとを用いたテクスチャマッピングによるレンダリング処理を実行する。これにより、Ｂさん側のホームサーバ１は、前景の三次元映像を取得する（Ｓ００７）。

Ａさん及び前景の各々の三次元映像を取得した後、Ｂさん側のホームサーバ１は、これらの三次元映像と、ステップＳ００２にて取得した背景の三次元映像中の所定範囲内にある映像（表示範囲）と、を合成する（Ｓ００８）。そして、Ｂさん側のホームサーバ１は、Ｂさん側のディスプレイ５に合成映像を表示させる（Ｓ００９）。これにより、Ｂさん側のディスプレイ５には、背景の三次元映像よりも手前位置にＡさんの三次元映像が等身大サイズにて表示され、また、Ａさんの三次元映像よりも手前位置に前景の三次元映像が表示されるようになる。

ここで、以上までに述べた映像表示フローに係る一連のステップのうち、人物の三次元映像を取得するステップＳ００５について、図１６を参照しながら、より詳細に説明する。図１６は、人物の三次元映像を取得する手順を示した図である。本ステップＳ００５では、先ず、前ステップＳ００４にて抽出されたＡさんの映像と第２深度データとを用いたテクスチャマッピングを行う（Ｓ０１１）。これにより、Ａさんの三次元映像として、Ａさん側のカメラ２が設置されている位置から見た映像が取得される。

次に、Ｂさん側のホームサーバ１が記憶している第１深度データに基づいて、Ａさんの目の高さを検知する（Ｓ０１２）。その後、Ｂさん側のホームサーバ１は、検知したＡさんの目の高さとＡさん側のカメラ２の設定高さとを対比する（Ｓ０１３）。そして、双方の高さが異なる場合、Ｂさん側のホームサーバ１は、目線高さ合わせ用のプロセスを行う（Ｓ０１４）。同プロセスにおいて、Ｂさん側のホームサーバ１は、検知したＡさんの目の高さと同じ高さにある仮想的な視点から見たＡさんの三次元映像を取得するためのレンダリング処理を行う。厳密には、ステップＳ０１１にて取得した三次元映像に対して、前述した式（１）にて算出した角度αに相当する高さだけ視点を変位させる映像処理を施す。これにより、上記の仮想的な視点から見たＡさんの三次元映像、すなわち、目線が正面を向いたＡさんの三次元映像を取得することが可能となる（Ｓ０１５）。

一方、検知したＡさんの目の高さとＡさん側のカメラ２の設定高さとが一致している場合、Ｂさん側のホームサーバ１は、ステップＳ０１１にて取得した三次元映像を、そのままの状態で以降のステップに用いる。

ところで、映像表示フローにおいて、Ｂさん側のホームサーバ１は、Ｂさん側のカメラ２が撮像した実映像（Ｂさん、背景及び前景の映像）を取得すると共に、赤外線センサ４からの計測結果に基づいて上記実映像の深度データ（第２深度データ）を取得する。かかる深度データに基づいて、Ｂさん側のホームサーバ１は、Ｂさん側のディスプレイ５に合成映像が表示されている期間中にＢさんの顔が横移動したか否かを判定する（Ｓ０２１）。そして、Ｂさんの顔が横移動したと判定した場合、Ｂさん側のホームサーバ１は、当該顔の移動の向き及び移動量を、移動前の深度データ及び移動後の深度データに基づいて特定する（Ｓ０２２）。

さらに、Ｂさん側のホームサーバ１は、ステップＳ００３で取得した第２深度データに基づいて、Ａさん、背景及び前景の各々の奥行距離を特定する（Ｓ０２３）。その後、Ｂさん側のホームサーバ１は、ステップＳ０２２及びＳ０２３において特定した各値に基づいて、次のステップＳ０２５で実行する遷移処理において用いるずれ量を算出する（Ｓ０２４）。より具体的に説明すると、本ステップＳ０２４では、合成映像におけるＡさんの三次元映像の表示位置に対するずれ量ｔ１、背景の三次元映像の中で合成映像の中に含まれる範囲（表示範囲）に対するずれ量ｔ２、及び、合成映像における前景の三次元映像の表示位置に対するずれ量ｔ３を、それぞれ、既述の式（２）〜（４）に従って算出する。

そして、Ｂさん側のホームサーバ１は、ずれ量を算出した後に遷移処理を実行する（Ｓ０２５）。この遷移処理の実行により、ディスプレイ５に表示されている合成映像が、Ｂさんの顔の横移動を検知する前の状態から遷移する。具体的に説明すると、Ｂさんの顔が第一向きに横移動したことを検知したとき、Ｂさん側のホームサーバ１は、遷移処理において、合成映像におけるＡさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び、背景の三次元映像の表示範囲を、それぞれ前ステップＳ０２４で算出したずれ量だけ第二向きにずらした状態へ合成映像を遷移させる。この際、Ａさんの三次元映像の表示位置に対するずれ量よりも、背景の三次元映像の表示範囲に対するずれ量の方がより大きくなっている。また、Ａさんの三次元映像の表示位置に対するずれ量よりも、前景の三次元映像の表示位置に対するずれ量の方がより小さくなっている。

遷移処理が完了すると、Ｂさん側のホームサーバ１は、遷移処理後の合成映像、すなわち、Ａさんの三次元映像の表示位置、前景の三次元映像の表示位置、及び背景の三次元映像の表示範囲を当初の状態からずらした状態の合成映像をディスプレイ５に表示させる（Ｓ０２６）。これにより、ディスプレイ５には、横移動後のＢさんの顔の位置から見たときの見え方を再現した映像が表示されるようになる。なお、前述したように、遷移処理後の合成映像では、Ａさんの三次元映像の表示位置に対するずれ量よりも、背景の三次元映像の表示範囲に対するずれ量の方が大きくなっている。このため、Ｂさんは、背景の三次元映像のうち、当初ディスプレイ５に表示されていなかった映像を左右に顔を動かして覗き見ることが可能となる。

また、Ｂさん側のホームサーバ１は、ステップＳ００３で取得した第２深度データに基づいて、Ｂさん側のディスプレイ５に合成映像が表示されている期間中にＡさんの奥行距離が変化したか否かを判定する（Ｓ０２７）。そして、Ａさんの奥行距離が変化したと判定したとき、Ｂさん側のホームサーバ１は、変化後の第２深度データに基づいて、変化後の奥行距離を特定する（Ｓ０２８）。その後、Ｂさん側のホームサーバ１は、特定した変化後の奥行距離に応じて、Ａさんの三次元映像の表示サイズを調整する（Ｓ０２９）。この際、Ｂさん側のホームサーバ１は、奥行距離変化後のＡさんの三次元映像が奥行距離変化前の表示サイズ、すなわち等身大サイズにて表示されるように表示サイズを調整する。表示サイズの調整が完了した後、Ｂさん側のホームサーバ１は、サイズ調整後のＡさんの三次元映像と、背景及び前景のそれぞれの三次元映像とを合成し、その合成映像をディスプレイ５に表示させる（Ｓ０３０）。これにより、Ａさんの奥行距離が変化した後にも、引き続き、ディスプレイ５に表示されるＡさんの三次元映像が等身大サイズで表示されるようになる。

＜＜映像表示システムの変形例＞＞
上述した本システムＳの構成では、各ユーザの映像を撮像するカメラ２が一台ずつ設けられていることとした。すなわち、上記の実施形態では、単一のカメラ２にてユーザの映像を撮像し、ディスプレイ５には、単一のカメラ２にて撮像された映像を元にした三次元映像を表示することとした。これに対して、互いに撮像方向から異なる複数のカメラ２にてユーザの映像を撮像すれば、より多くの視点からユーザの映像を取得することが可能となる。この結果、カメラ２の撮像映像を用いたレンダリング処理によって生成されるユーザの三次元映像については、単一のカメラ２のみでは視認され得ない死角領域をより少なくし、三次元映像を見る際の視点（仮想的な視点）の設定位置に対する自由度についても高くなる。

以下、複数のカメラ２によってユーザの映像を撮像する構成（以下、変形例）を説明することとする。なお、以下の説明では、先に説明した構成と同様の構成についての説明を省略し、異なる構成のみについて説明することとする。また、以下では、Ａさんの映像を上下２台のカメラ２にて撮像するケースを例に挙げて説明することとする。なお、カメラ２の台数、設置箇所及びそれぞれの撮像方向については、以下に説明する内容に限定されず、任意に設定することが可能である。

変形例では、図１７に示すように、Ａさんの映像を上下２台のカメラ２にて撮像する。図１７は、上下２台のカメラ２にてＡさんの映像を撮像する様子を模式的に示した図である。また、上下２台のカメラ２は、それぞれ、互いに異なる位置にてＡさんの映像を撮像する。具体的に説明すると、上側のカメラ２は、Ａさんの身長よりも幾分高い位置に設置されており、下側のカメラ２は、床面よりも若干上方に設置されている。

また、変形例では、ディスプレイ５の映像表示画面（厳密にはタッチパネル５ａの前面）を基準面としており、上下２台のカメラ２のそれぞれの撮像方向は、基準面の法線方向に対して鉛直方向に傾いている。撮像方向とは、カメラ２のレンズの光軸方向のことであり、上側のカメラ２の撮像方向は、Ａさんに近付くにつれて下降する方向に設定されている。つまり、上側のカメラ２は、Ａさんの身体を上方から撮像する。他方、下側のカメラ２の撮像方向は、Ａさんに近付くにつれて上昇する方向に設定されている。つまり、下側のカメラ２は、Ａさんの身体を下方から撮像する。

また、変形例に係る対面対話において、Ａさんは、上記の基準位置から基準距離ｄ１だけ離れた位置に立っている。かかる位置にＡさんが立っているとき、上側のカメラ２は、Ａさんの頭部から腰部までの映像（以下、上半身映像）を撮像し、下側のカメラ２は、Ａさんの足から腹部までの映像（以下、下半身映像）を撮像する。さらに、変形例では、カメラ２毎に赤外線センサ４が設けられている。これにより、上下２台のカメラ２の各々が撮像する映像（実映像）について、深度データ（厳密には第２深度データ）を個別に取得することが可能となる。

一方、変形例において、Ｂさん側のホームサーバ１は、カメラ２別にＡさんの映像を取得する。具体的に説明すると、Ａさん側のホームサーバ１は、上側のカメラ２が撮像した上半身映像を含む実映像の映像データと、下側のカメラ２が撮像した下半身映像を含む実映像の映像データと、を送信する。Ｂさん側のホームサーバ１は、これらの映像データを取得し、それぞれの映像データが示す実映像の中からＡさんの映像、具体的には上半身映像や下半身映像を抽出する。

また、変形例において、Ｂさん側のホームサーバ１は、各カメラ２が撮像した実映像についての深度データを、Ａさん側のホームサーバ１からカメラ別に受信する。すなわち、変形例において、Ｂさん側のホームサーバ１は、Ａさんの上半身映像や下半身映像を含む実映像についての深度データを、カメラ別に取得することになる。さらに、変形例において、Ｂさん側のホームサーバ１（厳密には、三次元映像生成部２１）は、カメラ別に取得した実映像及び深度データに基づいて、カメラ別の三次元映像片を生成する工程、すなわち映像片生成工程を行う。

具体的に説明すると、映像片生成工程において、Ｂさん側のホームサーバ１は、上側のカメラ２が撮像した実映像から得られるＡさんの上半身映像と、上側のカメラ２が撮像した実映像についての深度データと、を用いてレンダリング処理を行う。これにより、上側のカメラ２の撮像方向から見た三次元映像片、具体的には、図１８に図示したＡさんの上半身の三次元映像片が取得される。同様に、映像片生成工程において、Ｂさん側のホームサーバ１は、下側のカメラ２が撮像した実映像から得られるＡさんの下半身映像と、下側のカメラ２が撮像した実映像についての深度データと、を用いたレンダリング処理を行う。これにより、下側のカメラ２の撮像方向から見た三次元映像片、具体的には、図１８に図示したＡさんの下半身の三次元映像片が取得される。図１８は、カメラ別に生成した三次元映像片と、後述する結合工程において生成されるＡさんの三次元映像と、を示した図である。

また、変形例では、Ａさんの目を含む部分の映像を撮像するカメラ２（すなわち、上側のカメラ２）の設置高さとＡさんの目の高さとが異なっている。このために、変形例では、上述の映像片生成工程中、Ａさんの目を含む部分の三次元映像片（具体的には、上半身の三次元映像片）を生成する際に、前述の目線高さ合わせ用のプロセスを行うことになっている。つまり、変形例では、Ａさんの目の高さにある仮想的な視点から見たときの上半身の三次元映像片を取得するためのレンダリング処理を実行する。以下、図１９を参照しながら、変形例においてＡさんの三次元映像を取得する手順について説明する。図１９は、変形例においてＡさんの三次元映像を取得する手順を示した図である。

変形例に係る映像表示フローにおいて、Ｂさん側のホームサーバ１は、Ａさんの三次元映像を生成するにあたり、先ず、映像片生成工程を行う（Ｓ０４１）。映像片生成工程において、Ｂさん側のホームサーバ１は、テクスチャマッピングによるレンダリング処理を実行することで、Ａさんの上半身及び下半身のそれぞれの三次元映像片を生成する（Ｓ０４２、Ｓ０４３）。具体的に説明すると、Ｂさん側のホームサーバ１は、映像片生成工程中、上半身の三次元映像片を生成する際に、上側のカメラ２から見た上半身の三次元映像片を生成する。その後、Ｂさん側のホームサーバ１は、上側のカメラ２の設置高さとＡさんの目の高さとの差を特定すると共に、Ａさんと上側のカメラ２との間の距離（奥行距離）を特定する。さらに、Ｂさん側のホームサーバ１は、これらの特定結果に基づき、その後に行う映像処理で用いる回転角度αを求める。そして、Ｂさん側のホームサーバ１は、前ステップで生成された上半身の三次元映像片に対して、回転角度αに相当する高さだけ視点を変位させる映像処理を施す。これにより、Ａさんの上半身の三次元映像片として、Ａさんの目の高さにある仮想的な視点から見たときの三次元映像片が取得されるようになる。すなわち、目線が正面を向いたＡさんの上半身の三次元映像片が取得される。

また、Ｂさん側のホームサーバ１は、映像片生成工程中、下半身の三次元映像片を生成するにあたり、下側のカメラ２が撮像した実映像から得られる三次元映像片に対して映像回転処理を実行する。具体的に説明すると、下側のカメラ２は、基準面であるディスプレイ５の表示画面の法線方向とは異なる撮像方向からＡさんの下半身の映像を撮像する。そして、Ｂさん側のホームサーバ１は、下側のカメラ２が撮像した実映像（すなわち、上記の撮像方向にて撮像された映像）と、当該実映像についての深度データと、を用いたテクスチャマッピングを行い、Ａさんの下半身の三次元映像片を生成する。この段階で生成される三次元映像片は、下側のカメラ２の撮像方向から見たときの三次元映像片である。

一方、Ｂさん側のホームサーバ１は、下側のカメラ２の撮像方向から見たときの三次元映像片に対して映像回転処理を実行する。この映像回転処理は、下側のカメラ２の撮像方向から見たときの三次元映像片を、基準面であるディスプレイ５の表示画面の法線方向から仮想的に見た場合の三次元映像片へ変換させるための処理である。具体的には、上記の法線方向に対する下側のカメラ２の撮像方向の傾き度合いを角度（傾き角度）にて特定し、当該傾き角度だけ、三次元映像片を回転させる。これにより、Ａさんの下半身の三次元映像片として、基準面の法線方向から見たときの三次元映像片が取得されるようになる。なお、上記の映像回転処理は、公知の映像処理によって実現される。

上半身及び下半身の各々の三次元映像片を取得した後、Ｂさん側のホームサーバ１は、Ａさんの三次元映像を生成するために上記三次元映像片同士を結合する結合工程を行う（Ｓ０４４）。この結合工程では、上半身及び下半身の各々の三次元映像片を、当該各々の三次元映像片に含まれる共通の映像領域（具体的には、Ａさんの腹部の映像を示す領域）同士が重なり合うように結合する。なお、映像片の結合に際して、上半身の三次元映像片のうち、腹部より下の映像を切り捨て、下半身の三次元映像片のうち、腹部より上の映像を切り捨てる。

そして、結合工程が完了した時点でＡさんの三次元映像が完成する（Ｓ０４５）。かかる三次元映像は、図１８に示すようにＡさんを正面（換言すると、基準面の法線方向）から見たときの三次元映像となっている。その後、Ｂさん側のホームサーバ１（厳密には、合成映像表示部２２）は、上記の手順により得られたＡさんの三次元映像と、背景及び前景のそれぞれの三次元映像と、を合成し、その合成映像をディスプレイ５に表示させる。この際、Ａさんの三次元映像中、三次元映像片の結合部分付近の映像（具体的には、腹部付近）が違和感なく表示されることとなる。

分かり易く説明すると、上側のカメラ２が撮像した実映像及びその深度データをそのまま用いて取得した上半身の三次元映像片と、下側のカメラ２が撮像した実映像及びその深度データをそのまま用いて取得した下半身の三次元映像片と、を単に結合させたとする。この場合に得られるＡさんの三次元映像をディスプレイ５に表示させると、当該三次元映像中、三次元映像片同士を結合した部分付近が屈曲しているかのように見えてしまう（つまり、直立姿勢に対してやや前屈しているかのように見えてしまう）。これに対して、本変形例では、上半身の三次元映像片を生成する際に目線高さ合わせ用のプロセスを行っている。また、下半身の三次元映像片を生成する際には、深度データを基準面の法線方向から見た映像についてのデータに変換し、変換後の深度データに基づいて三次元映像片を生成する。これにより、三次元映像片同士を結合することで取得されるＡさんの三次元映像については、三次元映像片同士の結合部分付近が屈曲して見えるような違和感を抑制することが可能となる。

なお、本変形例では、複数のカメラ２（具体的には２台のカメラ２）が上下に並んで配置されていることとしたが、これに限定されるものではない。例えば、２台のカメラ２が左右に並んで配置されていてもよい。かかる場合にも上記と同様の手順にて、三次元映像片（具体的には、左半身及び右半身のそれぞれの三次元映像片）を生成し、三次元映像片同士を結合してＡさんの三次元映像を生成することになる。

＜＜その他の実施形態＞＞
上記の実施形態では、本発明の映像表示システム及び映像表示方法について具体例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。

また、上記の実施形態では、本システムＳを通じて二人のユーザ（ＡさんとＢさん）が対面対話をするケースを例に挙げて説明したが、これに限定されるものではなく、同時に対面対話をすることが可能な人数については三人以上であってもよい。

また、上記の実施形態では、映像表示に係る一連の工程、厳密にはユーザ（例えばＡさん）及びその背景や前景の各々について三次元映像を生成して当該三次元映像同士を合成する工程が、第二のユーザ（例えばＢさん）側のホームサーバ１によって実施されることとした。ただし、これに限定されるものではなく、上記一連の工程が、ユーザ（Ａさん）側のホームサーバ１によって実施されてもよい。

また、上記の実施形態では、背景映像として、背景に相当する空間内にユーザが居ないときに撮像した当該空間の映像を用いることとした。ただし、これに限定されるものではなく、例えば、カメラ２がユーザとその背景を同時に撮像したときの映像、すなわち、実映像から人物映像及び背景映像をそれぞれ分離し、分離された背景映像を用いてもよい。かかる場合には、背景映像のうち、人物映像と重なっている部分の映像が欠落しているので、補完を行う必要がある。これに対して、ユーザが居ないときに撮像した背景映像を用いれば、上記のような映像の欠落がないため、映像補完を行う必要がない分、より容易に背景映像を取得することが可能となる。

また、上記の実施形態では、第二のユーザの顔の移動を検知した場合に実行される遷移処理において、合成映像におけるユーザの三次元映像の表示位置、及び、背景の三次元映像において合成映像中に含まれる範囲（表示範囲）の双方をずらすこととした。ただし、これに限定されるものではなく、ユーザの三次元映像の表示位置及び背景の三次元映像の表示範囲のうちの一方のみをずらし、他方については固定する（ずらさない）こととしてもよい。

また、上記の実施形態では、遷移処理において、前景の三次元映像の表示位置、Ａさんの三次元映像の表示位置、背景の三次元映像の表示範囲の順でずれ量が大きくなることとした。ただし、ずれ量の大小関係については、上記の大小関係と異なっていてもよい。すなわち、背景の三次元映像の表示範囲、Ａさんの三次元映像の表示位置、前景映像の表示位置の順で、ずれ量が大きくなってもよい。より具体的に説明すると、Ｂさん側のディスプレイ５に当初、図２０の（Ａ）に図示した合成映像が表示されているときに、Ｂさんの顔が横移動すると、第二の遷移処理が実行され、この結果、合成映像が図２０の（Ｂ）に図示した状態へ徐々に遷移するようになる。図２０は、第二の遷移処理に関する説明図であり、（Ａ）が第二の遷移処理前の合成映像を、（Ｂ）が第二の遷移処理後の合成映像を、それぞれ示している。

ところで、先に説明した遷移処理（すなわち、図１１に図示した遷移処理）と、図２０に図示した第二の遷移処理と、では、ディスプレイ５を見ているＢさんの視線の向き、厳密には視線が向いている対象が異なっている。分かり易く説明すると、仮にＢさんがＡさんと実際に対面している場合、Ｂさんの視線がＡさんに向いた状態でＢさんの顔が横移動すると、Ｂさんに対してより遠くにあるものほど大きなずれ量だけ当初の位置からずれた位置に見えるようになる。このような見え方を再現するため、先に説明した遷移処理、すなわち、図１１に図示した遷移処理では、前景の三次元映像の表示位置、Ａさんの三次元映像の表示位置、背景の三次元映像の表示範囲の順でずれ量が大きくなっている。これに対して、Ｂさんの視線がＡさんの背景に向いた状態でＢさんの顔が横移動すると、Ｂさんに対してより近くにあるものほど大きくずれ量だけ当初の位置からずれた位置に見えるようになる。このような見え方を再現するため、第二の遷移処理では、背景の三次元映像の表示範囲、Ａさんの三次元映像の表示位置、前景映像の表示位置の順で、ずれ量が大きくなっている。

なお、遷移処理の実行モードについては、背景の三次元映像の表示範囲のずれ量を最も大きくするモード（先に説明した遷移処理に相当）と、前景の三次元映像の表示位置のずれ量を最も大きくするモード（第二の遷移処理に相当）と、の間で切り替え自在としてもよい。かかる場合には、遷移処理が、そのときのＢさんの視線の向きに応じて適切に実行されるようになる。

１ホームサーバ
２カメラ（撮像装置）
３マイク
４赤外線センサ
４ａ発光部
４ｂ受光部
５ディスプレイ
５ａタッチパネル
６スピーカ
１１データ送信部
１２データ受信部
１３背景映像記憶部
１４第１深度データ記憶部
１５実映像記憶部
１６人物映像抽出部
１７骨格モデル記憶部
１８第２深度データ記憶部
１９前景映像抽出部
２０高さ検知部
２１三次元映像生成部
２２合成映像表示部
２３判定部
２４顔移動検知部
１００通信ユニット
ＧＮ外部通信ネットワーク
Ｓ本システム

Claims

撮像装置により撮像されたユーザの映像を取得する映像取得部と、
前記映像を所定数の映像片に分割した際の該映像片毎に、前記撮像装置から前記映像片中の対象物との間の距離を示した距離データを取得する距離データ取得部と、
前記ユーザの映像及び前記距離データを用いたレンダリング処理を実行することによって前記ユーザの三次元映像を生成する三次元映像生成部と、
前記ユーザの目の高さを検知する高さ検知部と、を有し、
前記撮像装置が設置されている高さ及び前記高さ検知部が検知した前記目の高さの双方が異なるとき、前記三次元映像生成部は、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、前記高さ検知部が検知した前記目の高さにある仮想的な視点から見たときの前記ユーザの前記三次元映像を取得するための前記レンダリング処理を実行することを特徴とする映像表示システム。
前記映像取得部は、前記撮像装置により撮像された前記ユーザの映像、及び、前記撮像装置により撮像された背景の映像をそれぞれ取得し、
前記距離データ取得部は、前記ユーザの映像及び前記背景の映像のそれぞれについて、前記距離データを取得し、
前記三次元映像生成部は、前記ユーザの映像及び当該ユーザの映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記ユーザの前記三次元映像を生成すると共に、前記背景の映像及び当該背景の映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記背景の前記三次元映像を生成し、
前記ユーザの前記三次元映像と前記背景の前記三次元映像とを合成し、前記背景の手前に前記ユーザが位置した合成映像をディスプレイに表示させる合成映像表示部を有することを特徴とする請求項１に記載の映像表示システム。
前記映像取得部は、前記撮像装置により撮像された前景の映像を更に取得し、
前記距離データ取得部は、前記前景の映像についての前記距離データを更に取得し、
前記三次元映像生成部は、前記前景の映像及び当該前景の映像について取得された前記距離データを用いた前記レンダリング処理を実行することによって前記前景の前記三次元映像を更に生成し、
前記合成映像表示部は、前記ユーザの前記三次元映像と前記背景の前記三次元映像と前記前景の前記三次元映像とを合成し、前記背景の手前に前記ユーザが位置し、かつ、前記ユーザの手前に前記前景が位置している前記合成映像を前記ディスプレイに表示させることを特徴とする請求項２に記載の映像表示システム。
前記距離データに基づいて、前記撮像装置と前記ユーザとの間の距離が変化したかどうかを判定する判定部を備え、
前記撮像装置が前記ユーザの映像を撮像している間に、前記撮像装置と前記ユーザとの間の距離が変化したと前記判定部が判定したとき、前記合成映像表示部は、前記合成映像における前記ユーザの映像の表示サイズを、前記撮像装置と前記ユーザとの間の距離が変化する前の前記表示サイズとなるように調整することを特徴とする請求項２又は３に記載の映像表示システム。
前記ディスプレイに表示された前記合成映像を見る第二のユーザの顔が前記ディスプレイの幅方向に移動したことを検知する顔移動検知部を有し、
該顔移動検知部が前記顔の移動を検知したとき、前記合成映像表示部は、前記ディスプレイに表示されている前記合成映像を、前記顔移動検知部が前記顔の移動を検知する前の状態から遷移させる遷移処理を実行し、該遷移処理では、前記合成映像における前記ユーザの前記三次元映像の表示位置、及び、前記背景の前記三次元映像の中で前記合成映像中に含まれる範囲のうちの一方を、他方のずれ量よりも大きいずれ量だけ前記幅方向に沿ってずらした状態へ前記合成映像を遷移させることを特徴とする請求項２乃至４のいずれか一項に記載の映像表示システム。
前記映像取得部は、互いに異なる撮像方向にて前記ユーザの映像を撮像する複数の前記撮像装置により撮像された前記ユーザの映像を、前記撮像装置別に取得し、
前記距離データ取得部は、前記ユーザの映像についての前記距離データを前記撮像装置別に取得し、
前記三次元映像生成部は、
前記撮像装置別に取得された前記ユーザの映像と、前記撮像装置別に取得された前記距離データと、に基づいて、前記撮像装置別の前記ユーザの三次元映像片を生成する映像片生成工程と、
前記ユーザの前記三次元映像を生成するために、前記撮像装置別の前記ユーザの前記三次元映像片の各々を、当該各々に含まれる共通の映像領域同士が重なり合うように結合する結合工程と、
を行い、前記映像片生成工程において前記ユーザの目を含む部分の前記三次元映像片を生成する際、前記双方が異なるときには、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、前記仮想的な視点から見たときの前記三次元映像片を取得するための前記レンダリング処理を実行することを特徴とする請求項２乃至５のいずれか一項に記載の映像表示システム。
前記撮像方向が基準面の法線方向と異なるとき、前記三次元映像生成部は、前記映像片生成工程において、前記撮像方向にて撮像した映像に基づいて生成した前記ユーザの前記三次元映像片を、前記法線方向から仮想的に見た場合の前記三次元映像片へ変換することを特徴とする請求項６に記載の映像表示システム。
コンピュータが、撮像装置により撮像されたユーザの映像を取得することと、
コンピュータが、前記映像を所定数の映像片に分割した際の該映像片毎に、前記撮像装置から前記映像片中の対象物との間の距離を示した距離データを取得することと、
コンピュータが、前記ユーザの映像及び前記距離データを用いたレンダリング処理を実行することによって前記ユーザの三次元映像を生成することと、
コンピュータが、前記ユーザの目の高さを検知することと、を有し、
前記撮像装置が設置されている高さ及び検知した前記目の高さの双方が異なるとき、コンピュータは、前記双方の差及び前記撮像装置と前記ユーザとの間の距離に基づいて、検知した前記目の高さにある仮想的な視点から見たときの前記ユーザの前記三次元映像を取得するための前記レンダリング処理を実行することを特徴とする映像表示方法。