JP2005065051A

JP2005065051A - 撮像装置

Info

Publication number: JP2005065051A
Application number: JP2003294638A
Authority: JP
Inventors: Ikoku Go; 偉国呉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-08-18
Filing date: 2003-08-18
Publication date: 2005-03-10
Anticipated expiration: 2023-08-18
Also published as: JP4461739B2

Abstract

【課題】システム全体を複雑化させることなく、よりリアルで臨場感のある遠隔対話を実現する。
【解決手段】撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像し、撮像した各画像から撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離し、分離した各前景画像領域間において撮影対象と関連させつつ画素位置毎に対応付けを行い、各カメラに対する撮影対象の相対的な位置関係を示す相対位置情報を生成し、互いに対応付けされた画素位置並びにその輝度成分から、生成した相対位置情報に応じて新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求め、求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する。
【選択図】図２

Description

本発明は、例えばテレビ会議システム或いはテレビ電話システム等に適用され、ネットワークを介して画像を双方向で送受信する通信システム、送受信する画像を撮像して、ユーザの視線方向に応じてこれを再構成する撮像装置及び方法、画像処理装置及び方法に関する。

テレビ電話システムやテレビ会議システム等に代表されるように、複数のユーザが互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムが提案されている。このようなシステムでは、相手の表示像をディスプレイ上に表示するとともに、当該ディスプレイを視認するユーザを撮影対象として撮像し、得られた画像信号を公衆回線、専用回線等のネットワークを介して相手側の端末装置へ送信することにより、双方のユーザに対し臨場感を持たせることが可能となる。

従来におけるテレビ会議システムでは、例えば図１９に示すように、ディスプレイ８１の中心付近に写し出される相手の表示像を視認するユーザを、ディスプレイ８１上部にあるカメラ８２により撮像するため、ユーザが下を向いた状態の画像が相手側のディスプレイ８１上に表示されることになる。このため、実際にディスプレイを視認するユーザ間において視線が不一致の状態で対話がなされることになり、互いに違和感を与えてしまうという問題がある。

理想的には、図２０に示すように、相手の表示像が写し出されるディスプレイ８１の中心付近にカメラ８２を設置すれば、双方のユーザの視線を一致させた状態で対話を実現することができる。しかしながら、かかるディスプレイ８１の中心付近にカメラ８２を設置することは物理的に困難である。

このような視線不一致に関する問題点を解決すべく、例えばハーフミラーを用いてカメラの向きと表示画面を合わせるテレビ電話装置（例えば、特許文献１参照。）、光透過状態と光散乱状態を制御できるスクリーンとプロジェクタを用いて時系列で表示と撮像を行う画像表示／制御装置（例えば、特許文献２参照。）、ホログラムスクリーンとプロジェクタを用いることにより、表示と撮像の双方を同時に実現できる撮像機能付き表示装置（例えば、特許文献３参照。）が提案されている。

また、視線と顔の位置に応じて相手側のカメラの光軸を制御することにより、表示画面と視線を一致させる双方向通信システム、端末装置及び制御方法が提案されている（例えば、特許文献４参照。）。

また、ディスプレイの両側に配置された複数のカメラにより撮影された入力画像に基づいて被写体の３次元情報を抽出し、抽出した３次元情報と受信者の視点位置に関する情報に応じて被写体の出力画像を再構成し、これを相手側のディスプレイへ表示させる画像処理装置が提案されている（例えば、特許文献５参照。）。この画像処理装置では、一直線上に配置された複数のカメラ映像から生成されたエピポーラ平面画像を用いて画面中心の仮想視点カメラ映像を合成することにより、利用者の視線を一致させて臨場感の高いコミュニケーションを実現することができる。

また、観察者の視点位置に合わせた画像を入力された画像群より切り替えて表示し、観察者の視点位置に応じた画像を表示する画像処理方法及びその装置（例えば、特許文献６参照。）も提案されている。この画像処理方法等においても、対応点の探索を容易化すべく、同様にエピポーラ平面画像を用いることができる。

また、ＴＶ会議で互いの視線を一致させるべく、画面の左右に設置された２台のカメラで撮影した画像に基づいて３次元位置情報を生成する画像通信装置（例えば、特許文献７参照。）も提案されている。この画像通信装置は、例えば図２１に示すように、カメラ９１,９２により同じ被写体を撮像する。撮像された画像は、ビデオ信号処理部９３,９４にて所定の処理が施された上で対応点抽出部９５及び法線ベクトル抽出部９６へ送られる。対応点抽出部９５では、各カメラ９１,９２で撮像された画像につき互いに対応点を抽出し、また法線ベクトル抽出部９６は、法線ベクトルを抽出する。３次元構造処理部９７は、対応点抽出部９５及び法線ベクトル抽出部９６で抽出された情報を使い、被写体のおおよその３次元位置情報を算出する。座標変換部９８は、算出された被写体の構造情報を用いて、当該被写体を指定の方向へ向かせ、これを通信相手に送信する。

特開昭６１−６５６８３号公報特開平４−１１４８５号公報特開平９−１６８１４１号公報特開２０００−８３２２８号公報特開２００１−５２１７７号公報特開平７−２９６１３９号公報特開平７−９９６４４号公報

しかしながら、上述した従来のシステムでは、実際にディスプレイを視認するユーザ間において視線を一致させた状態で対話を実現することができるが、ハーフミラーやホログラムスクリーン、更にはプロジェクタ等のような特殊装置を使用する必要があり、簡易で安価なシステムを構成することができないという問題点があった。

また、例えば特許文献５等のようにエピポーラ平面画像を生成する場合には、少なくとも４台のカメラをディスプレイの両側に配設する必要があり、また被写体の３次元情報をその都度抽出する必要があるため、システム全体が複雑化してしまうという問題点があった。

特に近年において、ブロードバンドネットワーク技術の進歩に伴い、このテレビ電話システムやテレビ会議システムに対するニーズがますます高くなる中、ディスプレイを視認するユーザの視線方向を常時抽出することにより、細かい動きや表情までを正確に捉えた、よりリアルで臨場感のある遠隔対話を実現する必要がある。

そこで本発明は上述した問題点を解決すべく案出されたものであり、その目的とするところは、システム全体を複雑化させることなく、よりリアルで臨場感のある遠隔対話を実現することができる通信システム、撮像装置及び方法、画像処理装置及び方法を提供することにある。

上述した問題点を解決するために、本発明では、撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像し、撮像した各画像から上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離し、分離した各前景画像領域間において上記撮影対象と関連させつつ画素位置毎に対応付けを行い、各カメラに対する撮影対象の相対的な位置関係を示す相対位置情報を生成し、互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求め、求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する。

即ち、本発明を適用した撮像装置は、撮影対象を互いに異なる角度から撮像する少なくとも２台のカメラを含む撮像手段と、上記撮像手段における各カメラにより撮像された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、上記画像分離手段により分離された各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、上記生成された相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信手段とを備える。

また、本発明を適用した撮像方法は、撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像する撮像ステップと、上記撮像ステップにおいて各カメラにより撮像した各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離ステップと、上記画像分離ステップにおいて分離した各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチングステップと、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成ステップと、上記マッチングステップにおいて互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、上記画像生成ステップにおいて求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信ステップとを有する。

また、本発明を適用した画像処理装置は、撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像することにより生成された各画像を処理する画像処理装置において、上記生成された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、上記画像分離手段により分離された各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、上記生成された相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信手段とを備える。

また、本発明を適用した画像処理方法は、撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像することにより生成された各画像を処理する画像処理方法において、上記生成された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離ステップと、上記画像分離ステップにおいて分離した各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチングステップと、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成ステップと、上記マッチングステップにおいて互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、上記画像生成ステップにおいて求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信ステップとを有する。

また、本発明を適用した通信システムは、ネットワークを介して画像を双方向で送受信する通信システムにおいて、上記ネットワークを介して相手側から受信した画像を互いに表示するための表示装置と、上記各表示装置を視認するユーザを撮影対象とし、少なくとも２台のカメラにより互いに異なる角度からこれを撮像する撮像装置と、
上記各カメラにより撮像された各画像から上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、上記画像分離手段により分離された各前景画像領域間において上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から上記生成された相対位置情報に応じて新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を上記ネットワークを介して送信する送信手段とを有する画像処理装置とを備える。

本発明では、撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像し、撮像した各画像から上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離し、分離した各前景画像領域間において上記撮影対象と関連させつつ画素位置毎に対応付けを行い、各カメラに対する撮影対象の相対的な位置関係を示す相対位置情報を生成し、互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求め、求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する。

これにより、システム全体を複雑化させることなくね対話するユーザ間において常時視線を一致させたビジュアルコミュニケーションを実現することができ、よりリアルで臨場感のある遠隔対話を実現することができる。

以下、本発明の実施を実施するための最良の形態について図面を参照しながら詳細に説明する。

本発明を適用した通信システム１は、例えば図１に示すように、Ａ地点のユーザａと、Ｂ地点のユーザｂとの間で、互いに離れた場所から相手の表示像を視認しながら遠隔対話するシステムである。

Ａ地点には、撮影対象としてのユーザａを互いに異なる角度から撮像するカメラ１１ａ、カメラ１２ａと、Ｂ地点側で撮像されたユーザｂの画像をユーザａに対して表示するためのディスプレイ５ａと、カメラ１１ａ,１２ａより撮像された各画像Ｐａ１,Ｐａ２に基づいて仮想視点画像Ｉｍａを生成し、これをネットワーク７を介してＢ地点へ送信する端末装置２ａが配設されている。

Ｂ地点には、撮影対象としてのユーザｂを互いに異なる角度から撮像するカメラ１１ｂ、カメラ１２ｂと、Ａ地点側で撮像されたユーザａの画像をユーザｂに対して表示するためのディスプレイ５ｂと、カメラ１１ｂ,１２ｂより撮像された各画像Ｐｂ１,Ｐｂ２に基づいて仮想視点画像Ｉｍｂを生成し、これをネットワーク７を介してＡ地点へ送信する端末装置２ｂが配設されている。

なお、この端末装置２ａ,２ｂにより生成される上記仮想視点画像Ｉｍａ,Ｉｍｂは、相手の表示像が写し出されるディスプレイ５ａ,５ｂの中心付近において仮想的に設置された仮想カメラにより撮像される画像に相当する。

カメラ１１ａ,１１ｂは、それぞれユーザａ,ｂ側から見てディスプレイ５ａ,５ｂの左側面に設置されてなり、カメラ１２a,１２ｂは、それぞれユーザａ,ｂ側から見てディスプレイの右側面に設置されてなる。このカメラ１１、１２は、撮影方向、撮影画角が固定された状態で設置されるが、各ユーザａ,ｂからの入力される情報に基づき、これらを自在に変更するようにしてもよい。ちなみに、この通信システム１では、ユーザの視線の高さに合わせて設置された２台のカメラにより撮影対象を撮像する場合を例に挙げて説明をする。

ディスプレイ５ａ,５ｂは、それぞれネットワーク７を介して相手側地点から供給される仮想視点画像Ｉｍｂ,Ｉｍａに基づく画像を、例えば液晶表示面を介して表示する。このディスプレイ５ａ,５ｂにおける液晶表示面は、多数の液晶表示素子等からなり、各仮想視点画像Ｉｍｂ,Ｉｍａに基づく出力信号に応じて液晶表示素子を光変調させてユーザに表示する画像を作り出す。

端末装置２ａ,２ｂは、通常、パーソナルコンピュータ（ＰＣ）等の電子機器で構成される。これらの端末装置２ａ,２ｂは、ネットワーク７を介して互いに通信するための機能を備え、相手側からの要求に応じて画像や音声を送信する。なお、端末装置２ａ,２ｂの構成については後において詳細に説明をする。

ネットワーク７は、例えば端末装置２と電話回線を介して接続されるインターネット網を始め、ＴＡ／モデムと接続されるＩＳＤＮ（Integrated Services Digital Network）／Ｂ（broadband）−ＩＳＤＮ等のように、情報の双方向送受信を可能とした公衆通信網である。ちなみにこの通信システム１を、一定の狭いエリア内で運用する場合には、このネットワーク７を、ＬＡＮ（Local Area Network）で構成してもよい。さらにこのネットワーク７は、動画像を送信する場合には、インターネットプロトコル（ＩＰ）に基づき、例えばＭＰＥＧ（Moving Picture Experts Group）データを始めとする動画像がある一つのチャネルから継続的に送信される。また静止画像を送信する場合には、動画像を送信するチャネルとは別のチャネルから一定時間毎に送信されることになる。なお、このネットワーク７には、さらに図示しないネットワークサーバを接続してもよい。この図示しないネットワークサーバは、例えばインターネット情報を管理し、端末装置２による要求を受けて、自身に格納してある所定の情報を送信する。

次に、端末装置２の構成について、端末装置２ａを例にとり図２を用いて説明をする。端末装置２ａは、接続されたカメラ１１ａより画像Ｐａ１が供給される第１の画像補正部２１と、接続されたカメラ部１１ｂより画像Ｐａ２が供給される第２の画像補正部２２と、第１の画像補正部２１,第２の画像補正部２２に対して所定の処理を施すカメラキャリブレーション部２３と、第１の画像補正部２１,第２の画像補正部２２にそれぞれ接続される第１の分離部２４,第２の分離部２５と、この第１の分離部２４,第２の分離部２５にそれぞれ接続される第１の特徴抽出部２６,第２の特徴抽出部２７とを備えている。

また、この端末装置２は、第１の特徴抽出部２６,第２の特徴抽出部２７から、それぞれ図中Ｄ１、Ｄ２を介して接続されるマッチング部２９と、各カメラ１１ａ,１２ａに対するユーザａの相対的な位置関係を示す相対位置情報を生成する情報生成部３０と、マッチング部２９並びに情報生成部３０にそれぞれ接続されてなり、上記仮想視点画像Ｉｍａを生成する仮想視点画像生成部３１と、背景画像Ｂｃｘを生成するための背景画像生成部３２と、上記背景画像生成部３２により生成された背景画像Ｂｃｘ上に、上記仮想視点画像生成部３１により生成された仮想視点画像Ｉｍａを合成した合成画像Ｃｏａを生成する画像合成部３３と、カメラ１１ａ,１２ａ並びに画像合成部３３にそれぞれ接続されてなる出力選択部３５とを備えている。

第１の画像補正部２１は、カメラ１１ａから供給される画像Ｐａ１を、カメラキャリブレーション部２３から送信される制御情報に基づいて補正する。また、第２の画像補正部２２は、カメラ１２ａから供給される画像Ｐａ２を、カメラキャリブレーション部２３から送信される制御情報に基づいて補正する。

この各画像補正部２１,２２は、少なくとも上記カメラ１１ａ,１２ａの幾何学的な位置関係に基づいて各画像Ｐａ１,Ｐａ２を補正する。このカメラ１１ａ,１２ａの幾何学的な位置関係は、上述したカメラキャリブレーション部２３から送信される制御情報においてパラメータ化されていてもよい。このとき、カメラキャリブレーション部２３は、同様にカメラ１１ａ,１２ａの各レンズにおける色収差や歪み、光軸のずれをパラメータ化し、これらを各画像補正部２２,２３に送信するようにしてもよい。

ちなみに、カメラキャリブレーション部２３は、これらのパラメータを図示しないＲＯＭやＲＡＭへ格納しておくことにより、状況に応じて随時これらを参照することができ、高速な補正処理を実現することができる。またカメラキャリブレーション部２３は、上記カメラ１１ａ,１２ａから画像Ｐａ１,Ｐａ２が供給される度にこれらのパラメータを求めることにより、各画像補正部２２,２３において精度の高い補正処理を実現することができる。

なお、本発明を適用した端末装置２ａでは、この画像補正部２１,２２並びにカメラキャリブレーション部２３からなる構成を省略してもよい。

第１の分離部２４は、第１の画像補正部２１により補正された画像Ｐａ１から、前景画像領域Ｆｒ１と、その背景画像Ｂｃ１とをそれぞれ分離する。ちなみにこの前景画像領域Ｆｒ１は、ユーザａを構成する顔や上半身等が含まれている画像領域を抽出したものであり、背景画像Ｂｃ１は、画像Ｐａ１から前景画像領域を除いた画像である。なおこの背景画像は、ユーザａが存在しない場合において、同一の撮影方向,撮影画角によりカメラ１１ａを介して撮像を行った結果得られる画像に相当する。

第２の分離部２５は、第１の分離部２４と同様に、第２の画像補正部２２により補正された画像Ｐａ２から、前景画像領域Ｆｒ２と、その背景画像Ｂｃ２とをそれぞれ分離する。

ちなみに、第１の分離部２４,第２の分離部２５は、例えば各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度に基づいて、或いは各カメラに対する被写体の距離に基づいて、これらの前景画像領域と背景画像とを分離する。

第１の特徴抽出部２６は、第１の分離部２４により分離された前景画像領域Ｆｒ１につき、前景画像領域Ｆｒ２との間で対応をとるための特徴点を抽出する。この特徴点は、例えばユーザａの顔や眼鏡、ネクタイの一部等、画素間で対応を取る上で好適な部分を抽出するようにしてもよい。また、第２の特徴抽出部２７においても同様にして、第２の分離部２５により分離された前景画像領域Ｆｒ２につき、前景画像領域Ｆｒ１との間で対応をとるための特徴点を抽出する。

マッチング部２９は、第１の特徴抽出部２６により特徴点が抽出された前景画像領域Ｆｒ１と、第２の特徴抽出部２７により特徴点が抽出された前景画像領域Ｆｒ２とがそれぞれ供給される。マッチング部２９は、これら供給された前景画像領域Ｆｒ１、Ｆｒ２につき、互いに対応付けを行う。この対応付けは、ユーザａの顔を構成する同一の箇所を特徴点として抽出した場合にはかかる箇所にある画素位置と輝度成分を各前景画像領域Ｆｒ１、Ｆｒ２間で抽出して、対応をとるようにする。

例えば図３に示すように、前景画像領域Ｆｒ１上にある画素位置Ｐ１１に対して、前景画像領域Ｆｒ２上において同一の箇所に存在する画素位置Ｐ１１’をその対応点として特定する。同様に、前景画像領域Ｆｒ１上にある画素位置Ｐ１２に対して、前景画像領域Ｆｒ２上において同一の箇所に存在する画素位置Ｐ１２’をその対応点として特定する。

即ち、このマッチング部２９では、第１の分離部２４,第２の分離部２５により分離された各前景画像領域Ｆｒ１,Ｆｒ２間において、撮影対象と関連させつつ、画素位置毎に対応付けを行う。ちなみにマッチング部２９は、この対応付けにつき特徴抽出部２６,２７により抽出された特徴点のみについて実行してもよいし、前景画像領域Ｆｒ１、Ｆｒ２を構成する全ての画素に対して実行してもよい。

情報生成部３０は、生成する上記相対位置情報を、ユーザａのディスプレイ５ａに対する視線方向に基づいて生成してもよい。かかる場合において情報生成部３０は、カメラ１１ａ,１２ａから供給される画像Ｐａ１,Ｐａ２からユーザａの視線方向を取得し、これに基づいて相対位置情報を生成する。これにより、いわば仮想カメラの撮影方向をユーザａの視線方向に合わせ込むことと同様の処理を実現することができる。また情報生成部３０は、図示しないキーボードやマウス等の操作部を介して入力された情報に基づき、相対位置情報を生成するようにしてもよい。この操作部はユーザにより操作されるため、ユーザの意思に応じてこれら相対位置情報を任意に生成することができ、ひいては、仮想カメラの撮像方向を左右カメラ（１１ａ,１２ａまたは１１ｂ,１２ｂ）の間に任意に設定することができる。

仮想視点画像生成部３１は、マッチング部２９により互いに対応付けされた画素位置並びにその輝度成分がそれぞれ入力される。また、仮想視点画像生成部３１は、互いに対応付けされた画素位置並びにその輝度成分から、情報生成部３０より生成された相対位置情報に応じて、新たに生成すべき仮想視点画像Ｉｍａを構成する画素位置並びにその輝度成分を求める。仮想視点画像生成部３１は、求めた画素位置並びにその輝度成分により構成される仮想視点画像Ｉｍａを画像合成部３３へ供給する。

背景画像生成部３２は、仮想視点画像Ｉｍａと合成するための背景画像Ｂｃｘを生成する。この背景画像生成部３２は、この生成する背景画像Ｂｃｘとして、例えばＣＧ等で作成した特定の背景画を用いてもよいし、また第１の分離部２４,第２の分離部２５によりそれぞれ分離された背景画像Ｂｃ１,Ｂｃ２の一部を利用してもよい。生成された背景画像Ｂｃｘは、画像合成部３３において仮想視点画像生成部３１により生成された仮想視点画像Ｉｍａと合成されることになる。

出力選択部３５は、画像合成部３３により合成された合成画像Ｃｏａ、カメラ１１ａ,１２ａにより生成された画像Ｐａ１,Ｐａ２がそれぞれ供給される。この出力選択部３５は、通常、合成画像Ｃｏａのみをネットワーク７を介して端末装置２ｂへ送信するが、図示しない操作部を介して入力された情報に応じて画像Ｐａ１,Ｐａ２,合成画像Ｃｏａの何れか１つ又は２つを送信してもよいし、或いはこれらの画像全てを送信してもよい。ちなみに、この出力選択部３５は、ネットワークを介して合成画像Ｃｏａを送信するための機能をも備えている。

なお、端末装置２において、この出力選択部３５の構成を省略してもよい。かかる場合において、カメラ１１ａ,１２ａにより生成された画像Ｐａ１,Ｐａ２並びに画像合成部３３において合成された合成画像Ｃｏａ全てが相手側の端末装置へ送信されることになる。

次に、この端末装置２における具体的な動作につき説明をする。

撮影対象としてのユーザａは、カメラ１１ａ並びにカメラ１２ａにより互いに異なる角度から撮影される。その結果、カメラ１１ａ,カメラ１２ａにより生成される画像Ｐａ１,Ｐａ２上のユーザａの視線方向、顔の向き等は、例えば図４に示すように互いに異なる状態となる。

このカメラ１１ａ,カメラ１２ａからの画像Ｐａ１,Ｐａ２は、図５に示すように、第１の画像補正部２１、第２の画像補正部２２によりそれぞれ補正された後、第１の分離部２４、第２の分離部２５へ供給される。

第１の分離部２４,第２の分離部２５は、各カメラ１１ａ,１２ａに対する被写体の距離に基づいて、これらの前景画像領域と背景画像とを分離する場合において、先ず、第１の画像補正部２１により補正された画像Ｐａ１,Ｐａ２上の各被写体につき、各カメラ１１ａ,１２ａに対する距離を識別する。この距離の識別については、画像Ｐａ１,Ｐａ２上の各被写体における各カメラ１１ａ,１２ａに対する距離を示す距離情報（以下、これらをそれぞれDepth情報(1), Depth情報(2)という。）に基づいて行う。第１の分離部２４,第２の分離部２５は、画像Ｐａ１,Ｐａ２上の各被写体につき、Depth情報(1), Depth情報(2)の分布を算出する。通常、撮影対象としてのユーザａを構成する画像領域については、カメラ１１ａ,カメラ１１ｂから近距離にある旨のDepth情報(1), Depth情報(2)がそれぞれ算出され、またユーザａの背後にあるオフィス等の風景については、カメラ１１ａ,カメラ１１ｂから遠距離にある旨のDepth情報(1), Depth情報(2)がそれぞれ算出されることになる。

第１の分離部２４,第２の分離部２５は、算出したDepth情報(1), Depth情報(2)に基づき、ユーザａを含む画像領域を識別し、これらを前景画像領域Ｆｒ１,Ｆｒ２として背景画像Ｂｃ１,Ｂｃ２と分離する。図６(a)(b)は、第１の分離部２４,第２の分離部２５においてそれぞれ分離された前景画像領域Ｆｒ１,Ｆｒ２を示している。この図６に示されるように、前景画像領域Ｆｒ１,Ｆｒ２は、あたかもユーザａを構成する画像領域のみ切り出した画像として構成される。かかる場合において、背景画像Ｂｃ１,Ｂｃ２は、この前景画像領域Ｆｒ１,Ｆｒ２が切り出されたオフィス風景のみで構成されることになる。

前景画像領域Ｆｒ１,Ｆｒ２は、第１の特徴抽出部２６、第２の特徴抽出部２７において、特徴点が抽出された後、マッチング部２９において上述の如く撮影対象と関連させつつ、画素位置毎に対応付けされる。本発明を適用した端末装置２ａでは、それぞれ背景画像から分離した前景画像領域Ｆｒ１,Ｆｒ２間においてマッチングを行うことができる。これにより、ユーザａを構成する画素位置につき、背景画像Ｂｃ１,Ｂｃ２を構成する輝度成分を取り除いた状態でマッチングを行うことができるため、当該マッチングの精度を向上させることができる。ちなみに、このマッチング部２９におけるマッチング処理を高速に行うべく、以下の図７に示されるような多解像度マッチングを実行してもよい。

この多解像度マッチングでは、先ずステップＳ１１において、各カメラ１１ａ,１２ａにより異なる方向から撮影対象を撮像することにより、画像Ｐａ１,Ｐａ２を生成する。次にステップＳ１２において、第１の分離部２４,第２の分離部２５によりそれぞれ前景画像領域Ｆｒ１,Ｆｒ２が分離される。ここまでは、上述した手順と同様であるが、第１の分離部２４,第２の分離部２５は、ステップＳ１３において、前景画像領域Ｆｒ１,Ｆｒ２につき更に低解像度化した低解像度画像Ｌｐ１、Ｌｐ２をそれぞれ生成する。

次にステップＳ１４へ移行し、マッチング部２９は、低解像度画像Ｌｐ１、Ｌｐ２につき互いに対応付けを行う。このステップＳ１４における対応付けについても、上述と同様に、撮影対象と関連させつつ、画素位置毎に対応付けを行う。例えば図７に示すように低解像度画像Ｌｐ１上にある画素位置Ｐ１に対して、低解像度画像Ｌｐ２上において同一の箇所に存在する画素位置Ｐ１’をその対応点として特定する。同様に、低解像度画像Ｌｐ１上にある画素位置Ｐ２に対して、低解像度画像Ｌｐ２上において同一の箇所に存在する画素位置Ｐ２’をその対応点として特定する。

次にステップＳ１５へ移行し、マッチング部２９は、低解像度画像Ｌｐ１、Ｌｐ２につき行った対応付けに基づき、前景画像領域Ｆｒ１,Ｆｒ２間において、撮影対象と関連させつつ、画素位置毎に対応付けを行う。このステップＳ１５へ移行する際には、ステップＳ１４における対応付けにより、前景画像領域Ｆｒ１,Ｆｒ２を構成する一部の画素につき両者間で互いに対応付けがとれている状態となっている。このため、マッチング部２９は、ステップＳ１４において対応付けがなされた画素の位置関係に基づいて、前景画像領域Ｆｒ１,Ｆｒ２を構成する残りの画素につき対応付けを行えば足りるため、マッチング処理の迅速化を図ることができ、ひいては、前景画像領域Ｆｒ１、Ｆｒ２を構成する全ての画素の対応付けを高速に行うことが可能となる。

上述の如く対応付けされた画素位置は、その輝度成分と共に、仮想視点画像生成部３１へ出力される。この仮想視点画像生成部３１には、情報生成部３０により生成された相対位置情報も供給される。

図８は、この相対位置情報をユーザのディスプレイ５ａに対する視線方向に基づいて生成する手順を示している。

先ず、この図８に示すステップＳ２１において、カメラ１１ａ,１２ａは、互いに異なる方向から撮影対象としてのユーザａを撮像する。次にステップＳ２２へ移行し、カメラ１１ａ,１２ａは、これら撮像した画像Ｐａ１,Ｐａ２をそれぞれ情報生成部３０へ送信する。情報生成部３０は、受信した画像Ｐａ１,Ｐａ２からユーザａの画像領域を抽出する。

次にステップＳ２３へ移行し、情報生成部３０は、ユーザａの画像領域から更に両目を構成する画像領域を抽出する。次にステップＳ２４へ移行し、情報生成部３０は、両目を構成する画像領域から、瞳部分を抽出し、これらにつき目の画像領域に対する相対的な位置を識別する。ちなみに、瞳部分の抽出や両目を構成する画像領域の抽出は、輝度成分を判別することにより実行してもよい。

次にステップＳ２５へ移行し、情報生成部３０は、ステップＳ２４において識別した相対的な瞳位置に応じて、ユーザａの視線方向並びに視線位置を推定する。情報生成部３０は、仮想カメラの撮影方向が、この推定した視線方向並びに視線位置に合致するような相対位置情報を生成して、これを仮想視点画像生成部３１へ出力する。これにより、ユーザａがいかなる方向からディスプレイ５ａを視認していたとしても、ユーザｂは、ユーザａが常時正面を向いている画像を視認することができる。換言すれば、ユーザａとユーザｂとの間で視線方向を常時一致させてディスプレイ５を通じた対話を実現することができる。

また情報生成部３０は、例えば図９(a)に示すように、ディスプレイ５ａの側面において設置されているカメラ１１ａ、１２ａの光学中心を結ぶ直線距離がＢであり、仮想カメラの光学中心（以下、仮想視点という。）とカメラ１１ａとの距離をＤとした場合であり、かつカメラ１１ａ、１２ａ並びに仮想カメラの撮影方向が、全て正面を向いていると仮定した場合に、以下の式（１）に基づいて相対位置情報としてのｋを生成することができる。
ｋ＝Ｄ／Ｂ・・・・・・・・（１）
情報生成部３０は、図示しない操作部を介して入力される情報に応じて距離Ｄを決定することができ、また状況に応じて任意にこの距離Ｄを決定することができる。

このような相対位置情報としてのｋが供給される仮想視点画像生成部３１は、以下に説明する方法に基づいて仮想視点画像Ｉｍａを生成してもよい。例えばマッチング部２９において、図９(b)に示すように、前景画像領域Ｆｒ１上にある画素位置Ｐ１１に対して、前景画像領域Ｆｒ２上において同一の箇所に存在する画素位置Ｐ１１’をその対応点として特定されていた場合に、かかる画素位置Ｐ１１の座標を（ｘ１,ｙ１）とし、また画素位置Ｐ１１’の座標を（ｘ２,ｙ２）とする。仮想視点画像生成部３１は、かかる画素位置Ｐ１１、Ｐ１１’に対応する仮想視点画像Ｉｍａ上の画素位置の座標（ｘｔ,ｙｔ）を、相対位置情報としてのｋに基づいて以下の式（２）により決定することができる。
（ｘｔ,ｙｔ）＝（１−ｋ）×（ｘ１,ｙ１）＋ｋ×（ｘ２,ｙ２）・・・（２）
また画素位置Ｐ１１、Ｐ１１’における輝度成分をそれぞれＪ１１, Ｊ１１’としたときに、かかる仮想視点画像Ｉｍａ上の画素位置Ｐｈにおける輝度成分Ｐｔを以下の式（３）により決定することができる。

Ｐｔ＝（１−ｋ）×Ｊ１１＋ｋ×Ｊ１１’ ・・・（３）
このように仮想視点画像生成部３１は、仮想視点画像Ｉｍａを構成する各画素の座標並びにその輝度成分につき、相対位置情報としてのｋに応じて決定することができる。ここでｋは、仮想カメラにおける仮想視点がカメラ１１ａに近くなるにつれて小さくなり、また仮想視点がカメラ１２ａに近くなるにつれて大きくなる。

このため、式（２）に基づいて決定される座標（ｘｔ,ｙｔ）は、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の座標を（ｘ１,ｙ１）に近づき、また仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１２の座標を（ｘ２,ｙ２）に近づくことになる。このため座標（ｘｔ,ｙｔ）を、仮想カメラの位置に応じて自在に決定することができるため、仮想視点画像Ｉｍａ上に表示させるユーザａの位置を自在に変化させることができる。

また、式（３）に基づいて決定される輝度成分Ｐｔは、仮想視点がカメラ１１ａに近づくにつれて画素位置Ｐ１１の輝度成分Ｊ１１に近づき、仮想視点がカメラ１２ａに近づくにつれて画素位置Ｐ１１’の輝度成分Ｊ１１’に近づくことになる。即ち、仮想カメラの位置に応じて、仮想視点画像Ｉｍａ上のユーザａを構成する画素を輝度成分Ｊ１１、又は輝度成分Ｊ１１’に近づけることができる。

特に、カメラ１１ａとカメラ１２ａは互いに撮影方向が異なるため、前景画像領域Ｆｒ１上にある画素位置Ｐ１１と、これに対応する前景画像領域Ｆｒ２上にある画素位置Ｐ１１’との間では、輝度成分が互いに異なる。この互いに異なる輝度成分の何れか一方を最小値とし、他方が最大値となるようにして、相対位置情報としてのｋに応じて輝度成分Ｐｔを線形に増減させることにより、仮想カメラの位置に応じて仮想視点画像Ｉｍａ上に表示させるユーザａを構成する画素の輝度成分を決定することが可能となる。

例えば、画素位置Ｐ１１と画素位置Ｐ１１’とが、互いにユーザａが着用している眼鏡の縁の部分を捉えている場合に、これらは互いに異なる撮影方向で撮像されているため、その輝度成分は異なる。これらの輝度成分をそれぞれ最小値又は最大値として割り当て、ｋに応じて輝度成分Ｐｔを線形に増減させることにより、輝度成分Ｐｔを決定する。この決定した輝度成分Ｐｔが、新たに生成すべき仮想視点画像Ｉｍａにおける眼鏡の縁を示す輝度成分に相当することになる。

また、本発明を適用した端末装置２ａでは、背景画像を構成する輝度成分を取り除いた前景画像領域Ｆｒ１,Ｆｒ２を構成する輝度成分Ｊ１１,Ｊ１１’のみ用いて輝度成分Ｐｔを決定することができる。これにより、輝度成分Ｐｔを高精度に決定することができるため、ユーザａの細かい表情や動きまでを正確に捉えた高画質の仮想視点画像Ｉｍａを作り出すことが可能となる。

上述のようにして画素位置Ｐｈにおける座標（ｘｔ,ｙｔ）並びにその輝度成分Ｐｔを順次決定することにより、生成した仮想視点画像Ｉｍａの例を図１０に示す。表示されるユーザａの視線方向、顔の向き等は互いに異なっていた前景画像領域Ｆｒ１,Ｆｒ２に対して、ユーザａの顔、視線方向が常時正面を向いている状態にある仮想視点画像Ｉｍａを作り出すことが可能となる。

生成された仮想視点画像Ｉｍａは、図１１に示すように画像合成部３３へ送信され、背景画像Ｂｃｘと合成されることになる。背景画像生成部３２は、この合成すべき背景画像Ｂｃｘを、画像Ｐａ１から分離した背景画像Ｂｃ１と、画像Ｐａ２から分離した背景画像Ｂｃ２に基づいて生成する。仮想視点画像Ｉｍａと背景画像Ｂｃｘとを合成した結果得られる合成画像Ｃｏａは、出力選択部３５へ供給される。

ちなみに背景画像生成部３２は、例えば図１２に示すように、背景画像Ｂｃ１と背景画像Ｂｃ２の一部のみ利用することにより、背景画像Ｂｃｘを生成してもよい。かかる場合において背景画像生成部３２は、画像Ｐａ１から分離した背景画像Ｂｃ１、画像Ｐａ２から分離した背景画像Ｂｃ２から一部の画像領域を抽出し、或いはこれらを圧縮して互いに貼り合わせ、一枚の背景画像Ｂｃｘを生成する。ちなみに貼り合わせる際にできる画像の境界線は、後に画像合成部３３において仮想視点画像Ｉｍａと合成する際にユーザａの画像と重なるため、相手側のディスプレイ５ｂに表示されることがなくなり、ユーザｂに対して視覚的な不自然さを与えることがなくなる。

また、上述したマッチングや仮想視点画像Ｉｍａの生成を精度よく実行すべく、前景画像領域Ｆｒ１,Ｆｒ２と背景画像Ｂｃ１,Ｂｃ２を分離するが、かかる場合においても分離した背景画像Ｂｃ１,Ｂｃ２に応じた背景画像Ｂｃｘを生成することができる。従って、ユーザａがある特定のオフィスに居る場合に、それに応じた背景画像Ｂｃｘを作り出して合成することができ、かかる特定のオフィスに居るユーザａと対話をするものと予想しているユーザｂにとって、何ら違和感を与えることがなくなる。

なお、画像合成部３３は、合成画像Ｃｏａを生成する際において、画像Ｐａ１,Ｐａ２上に表示されるユーザａの画像の相対的な位置関係を正確に識別することにより、仮想視点画像Ｉｍａと背景画像Ｂｃｘとを継ぎ目無く合成するようにしてもよい。

画像合成部３３において合成された合成画像Ｃｏａは、出力選択部３５へ供給される。この出力選択部３５において、相手側の端末装置２ｂへ送信する旨が選択された合成画像Ｃｏａは、ネットワーク７へ送出される。そして相手側の端末装置２ｂへ送信された合成画像Ｃｏａは、端末装置２ｂにおける制御の下、ディスプレイ５ｂ上へ表示されることになる。ユーザｂは、ディスプレイ５ｂに表示される合成画像Ｃｏａ上のユーザａを視認しつつ対話をすることになるが、ユーザａの顔、視線方向は常時正面を向いている状態にあるため、あたかも画面中央付近に設置された仮想カメラで撮像されたような画像を視認しているような感覚を味わうことができる。ユーザａについても同様にディスプレイ５ａに表示される合成画像Ｃｏａ上のユーザｂを視認しつつ対話をすることになるが、常時正面を向いているユーザｂを視認することができる。即ち、この通信システム１では、いわば対話するユーザ間において常時視線を一致させたビジュアルコミュニケーションを実現することができ、よりリアルで臨場感のある遠隔対話を実現することができる。

特にこの通信システム１では、少なくとも２台のカメラ１１,１２をディスプレイ５
の両側に配設すれば足り、また被写体の３次元情報をその都度抽出する必要もなくなるため、システム全体が複雑化することがなくなるという利点もある。

また、この通信システム１では、ハーフミラーやホログラムスクリーン、更にはプロジェクタ等のような特殊装置を用いる必要もなく、簡易で安価なシステムを構成することができる。

なお、上述した実施の形態では、画像合成部３３において生成した合成画像Ｃｏａをネットワーク７を介して相手側の端末装置２ｂへ送信する場合を例に挙げて説明をしたが、かかる場合に限定されるものではなく、例えば、仮想視点画像生成部３１において生成された仮想視点画像Ｉｍａをそのまま端末装置２ｂへ送信してもよい。また、仮想視点画像生成部３１における処理結果のみをネットワーク７を介して端末装置２ｂへ送信してもよい。これにより、送信するデータ量を減らすことができるとともに、相手側のユーザｂは、好きなＣＧ画像又は事前に送られてきた背景画像を合成することができるため、よりバリエーションに富んだ対話をシステムを提供することが可能となる。また、今までのテレビ電話システムと違って、何らかの理由によって見せたくない個人のプライベートの映像を送信しなくて済み、セキュリティやプライベートの点においても、効果的である。

なお上述した実施の形態では、第１の分離部２４,第２の分離部２５において、カメラ１１ａ,１２ａに対する距離情報に基づいて前景画像領域と背景画像とを分離する場合につき説明したが、かかる場合に限定されるものではなく、例えば各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度に基づいてこれを分離してもよい。

かかる場合において第１の分離部２４,第２の分離部２５は、撮影対象としてのユーザａの色相並びに彩度の分布特性に応じた基準値を予め決定する。そして、各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度を上記基準値との関係において画素位置毎に識別し、識別した結果に応じて前景画像領域Ｆｒ１,Ｆｒ２とその背景画像Ｂｃ１,Ｂｃ２とをそれぞれ分離する。

図１３は、ユーザａの色相並びに彩度の分布特性に応じた基準値を決定する手順を示している。

先ずステップＳ３１において、各カメラ１１ａ,１２ａにより撮影対象としてのユーザａをそれぞれ撮像する。撮像された画像は、第１の分離部２４,第２の分離部２５に順次供給される。

次にステップＳ３２へ移行し、第１の分離部２４,第２の分離部２５は、撮像した画像からユーザａの顔の部分を示す画像領域を抽出する。この画像領域については、ユーザａの顔が大きな領域（例えば、９０％以上）を占めるように抽出する。このステップＳ３２において、第１の分離部２４,第２の分離部２５は、ユーザａの顔を構成する画素か否かを判別する場合に、ＲＧＢ又はＹＵＶに基づいて実行してもよい。

次にステップＳ３３へ移行し、第１の分離部２４,第２の分離部２５は、抽出した画像領域から色相と彩度を算出する。この色相と彩度の算出については、抽出した画像領域を構成する全ての画素について実行してもよいし、一部の画素のみに対して実行してもよい。

次にステップＳ３４へ移行し、ステップＳ３３において算出した色相、彩度の分布を計算する。ちなみに抽出した画像領域は、ユーザａの顔が大半を占めるものであるため、このステップＳ３４において計算される色相、彩度の分布は、肌色を中心としたものとなる。

次にステップＳ３５へ移行し、第１の分離部２４,第２の分離部２５は、ステップＳ３４において計算した色相、彩度の分布から、上述の基準値を決定する。ちなみに、この基準値は、ユーザａの顔の色（肌色）に基づくものである。ここで、カメラ１１ａにより撮像された画像Ｐａ１における色相の基準値をＨＵＥ１±ＨＲｅｇ１、彩度の基準値をＳＡＴ１±ＳＲｅｇ１とする。また、カメラ１２ａにより撮像された画像Ｐａ２における色相の基準値をＨＵＥ２±ＨＲｅｇ２、彩度の基準値をＳＡＴ２±ＳＲｅｇ２とする。

次に、上述の如く決定した基準値との関係において各カメラ１１ａ,１２ａにより撮像された各画像の色相並びに彩度を識別しつつ、画像を分離する手順につき図１４を用いて説明をする。

先ずステップＳ４１において、各カメラ１１ａ,１２ａにより撮影対象としてのユーザａをそれぞれ撮像する。

次にステップＳ４２へ移行し、各カメラ１１ａ,１２ａにより撮影された撮影対象を示す画像Ｐａ１,Ｐａ２を生成し、これらにつき画像補正部２４,２５において補正処理を施した後、第１の分離部２４,第２の分離部２５へそれぞれ送信する。

次にステップＳ４３へ移行し、第１の分離部２４,第２の分離部２５は、送信された画像Ｐａ１,Ｐａ２につき、それぞれ色相と彩度を算出する。ここで、カメラ１１ａにより撮像された画像Ｐａ１につき抽出した色相をＨｕｅ１とし、彩度をＳａｔｕ１とする。また、カメラ１２ａにより撮像された画像Ｐａ２につき抽出した色相をＨｕｅ２とし、彩度をＳａｔｕ２とする。このステップ４３において、送信された画像Ｐａ１,Ｐａ２を構成する全ての或いは一部の画素につき、色相と彩度を算出した後、ステップＳ４４,４５へ移行する。

ステップＳ４４において第１の分離部２４は、ステップＳ４３において画像Ｐａ１を構成する全ての或いは一部の画素毎に算出した各色相Ｈｕｅ１につき、色相の基準値ＨＵＥ１±ＨＲｅｇ１と比較する。またかかる画素につき算出した彩度Ｓａｔｕ１につき、彩度の基準値ＳＡＴ１±ＳＲｅｇ１と比較する。その結果、ＨＵＥ１−ＨＲｅｇ１＜Ｈｕｅ１＜ＨＵＥ１＋ＨＲｅｇ１であり、かつＳＡＴ１−ＳＲｅｇ１＜Ｓａｔｕ１＜ＳＡＴ１＋ＳＲｅｇ１であるものと判別された場合には、ステップＳ４５へ移行し、それ以外の場合にはステップＳ４６へ移行する。

ステップＳ４５へ移行した場合において、第１の分離部２４は、基準値との間で判別した画素につき、画素値を“１”に設定する。またステップＳ４６へ移行した場合において、第１の分離部２４は、基準値との間で判別した画素につき画素値を“０”に設定する。

第１の分離部２４は、このステップＳ４４〜ステップＳ４６までの処理を、ステップＳ４３において色相Ｈｕｅ１、彩度Ｓａｔｕ１を算出した画素全てにつき行う。これにより、色相の基準値をＨＵＥ１±ＨＲｅｇ１並びに彩度の基準値をＳＡＴ１±ＳＲｅｇ１に入る全ての画素につき、画素値として“１”が割り当てられ、それ以外の画素につき画素値として“０”が割り当てられる。これらの各基準値は、ユーザａの顔の色（肌色）に基づくものであるため、ユーザａの顔を構成する画素につき、画素値として“１”が割り当てられ、それ以外の画素につき画素値として“０”が割り当てられることになる。

次にステップＳ４７へ移行し、第１の分離部２４は、画素値として“１”が割り当てられた画素からユーザａの顔を構成する画像領域の大きさや、当該画像領域の中心に位置する画素位置等の情報を取得する。

次にステップＳ４８へ移行し、第１の分離部２４は、ステップＳ４７において取得した情報に基づき、ユーザａの顔を構成する画像領域を前景画像領域Ｆｒ１として分離する。このステップＳ４８において第１の分離部２４は、前景画像領域Ｆｒ１を、例えば長方形状又は楕円形状に分離してもよい。

なお、第２の分離部２５における画像領域を抽出するまでの処理についても、第１の分離部Ｓ２４のステップＳ４４〜Ｓ４８における処理と同様となる。即ち、ステップＳ４９において第２の分離部２５は、ステップＳ４３において画像Ｐａ２を構成する全ての或いは一部の画素毎に算出した各色相Ｈｕｅ２につき、色相の基準値ＨＵＥ２±ＨＲｅｇ２と比較する。またかかる画素につき算出した彩度Ｓａｔｕ２につき、彩度の基準値ＳＡＴ２±ＳＲｅｇ２と比較する。その結果、ＨＵＥ２−ＨＲｅｇ２＜Ｈｕｅ２＜ＨＵＥ２＋ＨＲｅｇ２であり、かつＳＡＴ２−ＳＲｅｇ２＜Ｓａｔｕ２＜ＳＡＴ２＋ＳＲｅｇ２であるものと判別された場合には、ステップＳ５０へ移行し、それ以外の場合にはステップＳ５１へ移行する。

ステップＳ５０へ移行した場合において、第２の分離部２５は、基準値との間で判別した画素につき、画素値を“１”に設定する。またステップＳ５１へ移行した場合において、第２の分離部２５は、基準値との間で判別した画素につき画素値を“０”に設定する。

これ以降についても同様にして、第２の分離部２５は、画素値として“１”が割り当てられた画素からユーザａの顔を構成する画像領域の大きさや、当該画像領域の中心に位置する画素位置等の情報を取得し（ステップＳ５２）、更にユーザａの顔を構成する前景画像領域を分離する（ステップＳ５３）。

図１５は、ステップＳ４８,Ｓ５３において、第１の分離部２４,第２の分離部２５により分離された前景画像領域を示している。互いに異なる撮影方向により撮像された画像Ｐａ１,Ｐａ２を、上述の如く各画像の色相並びに彩度に基づいて図１５に示すような長方形状の前景画像領域Ｆｒ１,Ｆｒ２に分離する。これらの分離された前景画像領域Ｆｒ１,Ｆｒ２から仮想視点画像Ｉｍａを同様に作り出すことが可能となる。

また、第１の分離部２４,第２の分離部２５は、更に各カメラ１１,１２により撮像された各画像Ｐａ１,Ｐａ２から、予め取得された背景画像を差し引くことにより、上記前景画像領域Ｆｒ１,Ｆｒ２を分離してもよい。

図１６は、背景画像を予め取得する手順を示している。

先ずステップＳ６１において、カメラ１１ａ,カメラ１２ａは、背景画像の撮像を行う。このステップＳ６１では、ユーザがディスプレイ５ａの前に着席する前に、ディスプレイ５ａの側面に設置されたカメラ１１ａ,カメラ１２ａにより撮像を実行する。

次にステップＳ６２へ移行し、ステップＳ６１において、カメラ１１ａ,カメラ１２ａにより撮像された各背景画像BackImg1, BackImg2を取得し、図示しないメモリ等に保存しておく。

図１７は、各カメラ１１ａ,１２ａにより撮像された各画像Ｐａ１,Ｐａ２から、予め取得された背景画像BackImg1, BackImg2を差し引く手順につき示している。

先ずステップＳ７１において、カメラ１１ａ、カメラ１２ａにより撮影対象としてのユーザａをそれぞれ撮像する。

次にステップＳ７２へ移行し、各カメラ１１ａ,１２ａにより撮影された撮影対象を示す画像Ｐａ１,Ｐａ２を生成する。これらの各画像Ｐａ１,Ｐａ２は、画像補正部２４,２５において補正処理が施された後、第１の分離部２４,第２の分離部２５へそれぞれ送信される。

次にステップＳ７３,Ｓ７４へ移行し、各画像Ｐａ１,Ｐａ２から背景画像BackImg1, BackImg2を差し引く。次にステップＳ７５へ移行し、第１の分離部２４,第２の分離部２５は、ステップＳ７３,Ｓ７４においてそれぞれ差し引かれた結果得られる前景画像領域Ｌｒ１,Ｌｒ２を分離する。このとき、更にステップＳ７６へ移行し、分離した前景画像領域Ｌｒ１,Ｌｒ２からユーザａを構成する画像領域をフィルタ処理を用いることにより抽出してもよい。

このように予め取得された背景画像を差し引くことによっても前景画像領域Ｌｒ１,Ｌｒ２を分離することができ、これらに基づいて仮想視点画像Ｉｍａを作り出すことが可能となる。

なお、上述した実施の形態では、図１８(a)に示すように、ユーザの視線の高さに合わせて設置された２台のカメラにより撮影対象を撮像する場合を例に挙げて説明をしたが、かかる場合に限定されるものではなく、３台以上のカメラをディスプレイの側面に設置して、これを撮像してもよい。

図１８(b)は、ディスプレイ５ａの側面において４台のカメラ６１〜６４を設置する例を示している。このように互いに異なる４方向からユーザａを撮像することにより、仮にユーザの視線の高さが微妙に変化する場合であっても、細かい視線の動きを検出することができ、常時視線を一致させた状態で対話を実現することが可能となる。

なお、本発明を適用した端末装置２とカメラ１１,１２とを一体化させた撮像装置として適用してもよいことは勿論である。

本発明を適用した通信システムの概略を示す図である。端末装置の構成につき説明するための図である。マッチング部における対応付けにつき説明するための図である。互いに異なる撮影方向により撮像された各画像を示す図である。カメラから分離部までの動作につき説明するための図である。抽出された前景画像領域について示す図である。多解像度マッチングにつき説明するためのフローチャートである。情報生成部においてユーザの視線を抽出する場合につき説明するためのフローチャートである。仮想視点画像の各座標、輝度成分の算出方法につき説明するための図である。生成した仮想視点画像の例を示す図である。合成画像を生成するまでの手順を示す図である。背景画像の合成方法につき説明するための図である。ユーザの色相並びに彩度の分布特性に応じた基準値を決定する手順を示すフローチャートである。各カメラにより撮像された各画像の色相並びに彩度を識別しつつ、画像を分離する手順を示すフローチャートである。各カメラにより撮像された各画像の色相並びに彩度を識別しつつ、分離された画像を示す図である。背景画像を予め取得する手順を示す図である。各カメラにより撮像された各画像Ｐａ１,Ｐａ２から、予め取得された背景画像BackImg1, BackImg2を差し引く手順につき示す図である。３台以上のカメラをディスプレイの側面に設置する場合につき説明するための図である。従来におけるテレビ会議システムにつき説明するための図である。従来におけるテレビ会議システムにおける問題点につき説明するための図である。画面の左右に設置された２台のカメラで撮影した画像に基づいて３次元位置情報を生成する画像通信装置につき説明するための図である。

符号の説明

１通信システム、２端末装置、５ディスプレイ、７ネットワーク、１１,１２カメラ、２１第１の画像補正部、２２第２の画像補正部、２３カメラキャリブレーション部、２４第１の分離部、２５第２の分離部、２６第１の特徴抽出部、２７第２の特徴抽出部、２９マッチング部、３０情報生成部、３１仮想視点画像生成部、３２背景画像生成部、３３画像合成部、３５出力選択部

Claims

撮影対象を互いに異なる角度から撮像する少なくとも２台のカメラを含む撮像手段と、
上記撮像手段における各カメラにより撮像された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、
上記画像分離手段により分離された各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、
上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、
上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、上記生成された相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、
上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信手段とを備えること
を特徴とする撮像装置。
上記撮像手段は、上記撮影対象として画面を視認するユーザを撮像し、
上記情報生成手段は、上記撮像手段により撮像されたユーザの上記画面に対する視線方向に基づいて上記相対位置情報を生成すること
を特徴とする請求項１記載の撮像装置。
上記情報生成手段は、外部入力された情報に基づいて上記相対位置情報を生成すること
を特徴とする請求項１記載の撮像装置。
少なくとも上記各カメラ間の幾何学的な位置関係に基づき、上記撮像手段により撮像された画像を補正する画像補正手段をさらに備えること
を特徴とする請求項１記載の撮像装置。
上記画像分離手段は、上記撮影対象の色相並びに彩度の分布特性に応じた基準値を予め決定し、上記撮像手段における各カメラにより撮像された各画像の色相並びに彩度を上記基準値との関係において画素位置毎に識別し、上記識別した結果に応じて上記前景画像領域とその背景画像とをそれぞれ分離すること
を特徴とする請求項１記載の撮像装置。
上記画像分離手段は、上記撮像手段における各カメラにより撮像された各画像から、予め取得された背景画像を差し引くことにより、上記前景画像領域を分離すること
を特徴とする請求項１記載の撮像装置。
上記画像分離手段は、各カメラに対する被写体の距離を識別し、識別した距離に基づいて上記前景画像領域とその背景画像とをそれぞれ分離すること
を特徴とする請求項１記載の撮像装置。
上記マッチング手段は、上記各前景画像領域から解像度を下げた参照用画像をそれぞれ生成し、上記生成した各参照用画像間において上記撮影対象と関連させつつ画素位置毎に対応付けを行い、上記参照用画像間の対応付けに基づいて上記各前景画像領域間における上記対応付けを行うこと
を特徴とする請求項１記載の撮像装置。
上記撮像手段は、光学中心を結ぶ直線距離がＢである第１のカメラと第２のカメラとを含み、
上記画像分離手段は、上記第１のカメラにより撮像された画像から前景画像領域Ｔ１を分離し、また上記第２のカメラにより撮像された画像から前景画像領域Ｔ２を分離し、
上記情報生成手段は、上記第１のカメラに対する仮想視点の距離をＤとしたとき、上記相対位置情報としてｋ（＝Ｄ／Ｂ）を生成し、
上記画像生成手段は、上記マッチング手段により互いに対応付けされた前景画像領域Ｔ１における画素位置（ｘ１,ｙ１）,前景画像領域Ｔ２における画素位置（ｘ２,ｙ２）並びにその輝度成分Ｊ１,Ｊ１’から、上記仮想視点画像を構成する画素位置（ｘｔ,ｙｔ）並びにその輝度成分Ｐｔを以下の式
（ｘｔ,ｙｔ）＝（１−ｋ）×（ｘ１,ｙ１）＋ｋ×（ｘ２,ｙ２）
Ｐｔ＝（１−ｋ）×Ｊ１＋ｋ×Ｊ１’
に基づいて求めること
を特徴とする請求項１記載の撮像装置。
上記仮想視点画像とその背景画像とを合成する画像合成手段をさらに備え、
上記送信手段は、上記画像合成手段により合成された画像を外部へ送信すること
を特徴とする請求項１記載の撮像装置。
上記仮想視点画像と合成する背景画像を、上記画像分離手段により分離された各背景画像に基づいて作成する背景画像作成手段をさらに備えること
を特徴とする請求項１０記載の撮像装置。
上記背景画像作成手段は、外部入力された情報に基づいて上記作成する背景画像の解像度を変化させること
を特徴とする請求項１１記載の撮像装置。
上記送信手段は、上記撮像手段における各カメラにより撮像された各画像、上記画像合成手段により合成された画像の何れか或いは全てを、外部入力された情報に応じて送信すること
を特徴とする請求項１０記載の撮像装置。
外部から受信した仮想視点画像を表示画面上へ表示させる表示制御手段をさらに備えること
を特徴とする請求項１記載の撮像装置。
外部から受信した仮想視点画像とその背景画像とを合成する画像合成手段をさらに備え、
上記表示制御手段は、上記画像合成手段により合成された画像を上記表示画面上へ表示させること
を特徴とする請求項１４記載の撮像装置。
撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像する撮像ステップと、
上記撮像ステップにおいて各カメラにより撮像した各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離ステップと、
上記画像分離ステップにおいて分離した各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチングステップと、
上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成ステップと、
上記マッチングステップにおいて互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、
上記画像生成ステップにおいて求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信ステップとを有すること
を特徴とする撮像方法。
撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像することにより生成された各画像を処理する画像処理装置において、
上記生成された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、
上記画像分離手段により分離された各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、
上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、
上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から、上記生成された相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、
上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信手段とを備えること
を特徴とする画像処理装置。
撮影対象を少なくとも２台のカメラにより互いに異なる角度から撮像することにより生成された各画像を処理する画像処理方法において、
上記生成された各画像から、上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離ステップと、
上記画像分離ステップにおいて分離した各前景画像領域間において、上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチングステップと、
上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成ステップと、
上記マッチングステップにおいて互いに対応付けされた画素位置並びにその輝度成分から、上記生成した相対位置情報に応じて、新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成ステップと、
上記画像生成ステップにおいて求めた画素位置並びにその輝度成分により構成される仮想視点画像を外部へ送信する送信ステップとを有すること
を特徴とする画像処理方法。
ネットワークを介して画像を双方向で送受信する通信システムにおいて、
上記ネットワークを介して相手側から受信した画像を互いに表示するための表示装置と、
上記各表示装置を視認するユーザを撮影対象とし、少なくとも２台のカメラにより互いに異なる角度からこれを撮像する撮像装置と、
上記各カメラにより撮像された各画像から上記撮影対象を含む前景画像領域とその背景画像とをそれぞれ分離する画像分離手段と、上記画像分離手段により分離された各前景画像領域間において上記撮影対象と関連させつつ画素位置毎に対応付けを行うマッチング手段と、上記各カメラに対する上記撮影対象の相対的な位置関係を示す相対位置情報を生成する情報生成手段と、上記マッチング手段により互いに対応付けされた画素位置並びにその輝度成分から上記生成された相対位置情報に応じて新たに生成すべき仮想視点画像を構成する画素位置並びにその輝度成分を求める画像生成手段と、上記画像生成手段により求められた画素位置並びにその輝度成分により構成される仮想視点画像を上記ネットワークを介して送信する送信手段とを有する画像処理装置とを備えること
を特徴とする通信システム。
上記画像処理装置は、上記仮想視点画像とその背景画像とを合成する画像合成手段をさらに有し、
上記送信手段は、上記画像合成手段により合成された画像を上記ネットワークを介して送信すること
を特徴とする請求項１９記載の通信システム。
上記画像処理装置は、上記ネットワークを介して相手側から受信した仮想視点画像とその背景画像とを合成する画像合成手段とをさらに有すること
を特徴とする請求項１９記載の通信システム。