JP2013242835A

JP2013242835A - 画像コミュニケーションシステム、画像生成装置及びプログラム

Info

Publication number: JP2013242835A
Application number: JP2012129333A
Authority: JP
Inventors: Noriko Mizuguchi; 紀子水口; Takuma Matsumura; 択磨松村; Naoki Matsubara; 直樹松原; Daiki Shimizu; 大樹清水; Hiroshi Nonaka; 洋志野中
Original assignee: NTT Docomo Inc; Nippon Control System Corp
Current assignee: NTT Docomo Inc; Nippon Control System Corp
Priority date: 2012-05-21
Filing date: 2012-05-21
Publication date: 2013-12-05
Anticipated expiration: 2032-05-21
Also published as: JP5894505B2

Abstract

【課題】距離画像センサで被写体を撮影して得られた被写体の形状データを用いて被写体の画像を表示する場合に、距離画像センサにより撮影されていない部分において画像が不自然になるのを抑制する技術を提供すること。
【解決手段】画像コミュニケーションシステムは、所定のオブジェクトを含む被写体を撮影した動画データであって画素毎の距離情報を含む動画データから、オブジェクトに対応する画素を抽出する抽出部と、オブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを読み出す立体モデル読出し部と、オブジェクトに対応する画素の距離情報を用いて、読み出された立体モデルを変形することで、オブジェクトの立体モデルを生成する立体モデル生成部と、生成された立体モデルに基づいてオブジェクトの画像を生成する画像生成部と、生成されたオブジェクトの画像と他の画像とを合成して合成画像を生成する合成部とを有する。
【選択図】図７

Description

本発明は、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ：ＡＲ）を用いたコミュニケーションに関する。

ＡＲ技術による合成画像を通信ネットワークを介して配信する技術がある（例えば、特許文献１参照）。合成画像を得るための方法としては、クロマキー合成（ブルーバック合成）のように特定色の背景を利用して撮影を行うものや、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）によって得られた実在しない画像（アバタなど）を合成するものなどが知られている。

また、撮影範囲内の物体（人なども含む）の表面形状を表すデータ（形状データ）を取得することが可能な距離画像センサ（距離画像カメラ、レンジファインダ、３次元撮像装置などとも呼ばれる）が知られている。距離画像センサは、各画素の画素値が撮影範囲内の物体の対応する部分までの距離を表す距離画像を出力する。例えば、特許文献２には、一つの撮像装置にて、被計測物に対して奥行方向の距離情報と被計測物（面）の色情報を取得可能とする（即ち、立体カラー撮像が可能な）３次元撮像装置が開示されている。近年、距離画像センサによる距離画像の生成を高速化し、距離画像を動画像として出力する試みがなされている。

特開２００４−３４１６４２号公報特開２０１１−１２８０２４号公報

このような距離画像センサの利用方法として、距離画像センサが出力する距離画像から距離画像に含まれる特定の被写体（例えば人）の形状データを抽出して立体モデルを生成し、立体モデルに基づき描画される被写体の画像を、別のカメラで撮影した実空間の画像（背景画像と言うこともある）や予め形成された仮想空間の画像と合成して合成画像を生成し、生成した合成画像を表示機能を有する端末装置に配信することが考えられる。

このとき、表示された合成画像を見ているユーザによる端末装置に対する操作に応じて、合成画像内に表示された被写体の向きを変えられるようにする（即ち、ユーザの操作に応じて立体モデルに基づき描画される被写体の画像を変える）ことが考えられるが、距離画像センサによって撮影されていない被写体の部分は、形状データがない（即ち、モデル化されていない）ため、そのような部分は描画を行うことができず、結果として、被写体の画像が、被写体の一部（距離画像センサによって撮影されていない部分）が欠落した不自然なものとなることがある。

そこで、本発明は、距離画像センサで被写体を撮影することで得られた被写体の形状データを用いて被写体の画像を表示する場合に、距離画像センサにより撮影されていない部分において被写体の画像が不自然になるのを抑制する技術を提供することを目的とする。

本発明の一側面によると、第１端末で撮影された所定のオブジェクトの画像を他の画像と合成した合成画像を第２端末に表示させる画像コミュニケーションシステムであって、前記所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データから、前記所定のオブジェクトに対応する画素を抽出する抽出部と、前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す立体モデル読出し部と、前記抽出部により抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記立体モデル読出し部により前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する立体モデル生成部と、前記立体モデル生成部により生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する画像生成部と、前記画像生成部により生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する合成部と、を有することを特徴とする画像コミュニケーションシステムが提供される。

好ましい態様において、前記立体モデル生成部は、生成した立体モデルを前記記憶部に記憶させ、前記立体モデル読出し部は、前記立体モデル生成部により以前に生成された立体モデルが、前記所定のオブジェクトに関連付けて前記記憶部に記憶されている場合、当該以前に生成された立体モデルを読出し、前記記憶部に前記立体モデル生成部により以前に生成された立体モデルが前記所定のオブジェクトに関連付けて前記記憶部に記憶されていない場合、予め形成されて前記記憶部に記憶された立体モデルである既製立体モデルを前記記憶部から読み出してもよい。

更に好ましい態様において、前記立体モデル読出し部は、前記立体モデル生成部により以前に生成された立体モデルが、前記所定のオブジェクトに関連付けて前記記憶部に記憶されている場合において、以前に生成された立体モデルに基づき生成される前記所定のオブジェクトの画像と、前記動画データから抽出される前記所定のオブジェクトの画像との相違が予め定められた基準より大きい場合、前記既製立体モデルを前記記憶部から読み出してもよい。

別の好ましい態様において、前記他の画像は、前記第２端末により撮影された画像であってよい。

さらに別の好ましい態様において、前記抽出部、前記立体モデル読出し部、前記立体モデル生成部、前記画像生成部、及び前記合成部の少なくとも一つが、前記第１端末及び前記第２端末と通信可能で前記第１端末及び前記第２端末とは別体の装置に含まれてもよい。

また、本発明の別の側面によると、第１端末で撮影された所定のオブジェクトの画像を他の画像と合成した合成画像を第２端末に表示させる画像生成装置であって、前記所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データを前記第１端末から受信する受信部と、前記受信部により受信された動画データから、前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す立体モデル読出し部と、前記抽出部により抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記立体モデル読出し部により前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する立体モデル生成部と、前記立体モデル生成部により生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する画像生成部と、前記画像生成部により生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する合成部と、前記合成部により合成された合成画像を前記第２端末に送信する送信部とを備える画像生成装置が提供される。

また、本発明の更に別の側面によると、コンピュータに、所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データを受信する第１ステップと、前記受信された動画データから、前記所定のオブジェクトに相当する画素を抽出する第２ステップと、前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す第３ステップと、前記第２ステップで抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する第４ステップと、前記第４ステップにおいて生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する第５ステップと、前記第５ステップにおいて生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する第６ステップと、前記第６ステップにおいて合成された合成画像を送信する第７ステップとを実行させるためのプログラムが提供される。

本発明によれば、距離画像センサで被写体を撮影することで得られた被写体の形状データを用いて被写体の画像を表示する場合に、距離画像センサにより撮影されていない部分において被写体の画像が不自然になるのを抑制することができる。

通信システムの全体構成を示すブロック図ユーザ端末のハードウェア構成を示すブロック図ＡＲ動画生成装置及び接続管理装置のハードウェア構成を示すブロック図ＡＲ動画生成装置及び接続管理装置の機能構成を示すブロック図動画データが表す映像を説明するための模式図オブジェクトの抽出原理を説明するための図モデリング部の機能構成を示すブロック図既製立体モデルの一例を示す模式図部分特定部の動作の一例を説明するための模式図データ置換部により既製立体モデルの一部を部分立体モデルで置き換えることにより得られた立体モデルを例示する模式図ＡＲ動画生成装置が実行する処理を示すフローチャート通信システムの各装置における処理を示すシーケンスチャート変形例に係るモデリング部の動作を説明する模式図

［実施形態］
図１は、本発明の一実施形態である通信システム１０の全体構成を示すブロック図である。通信システム１０は、ユーザ間で音声とＡＲ動画によるリアルタイムなコミュニケーションを実現するための情報処理システムであり、本発明に係る画像コミュニケーションシステムの一例である。本実施形態において、ＡＲ動画とは、複数のユーザによって撮影された映像を互いに合成した動画をいい、ＡＲ技術を用いて生成されるものである。なお、ここでいうリアルタイムとは、目的とする処理があらかじめ決められた時間までに終了することを意味し、当該時間が比較的短時間であるものを意味する。通信システム１０は、ＡＲ動画生成装置１００と、接続管理装置２００と、ユーザ端末３００と、ネットワーク４００とを備える。

ＡＲ動画生成装置１００は、複数のユーザ端末３００から動画データを受信し、これらを合成した合成動画データを生成及び送信するサーバ装置である。接続管理装置２００は、ユーザ端末３００間の接続（ここでは呼接続）を管理し、発話や終話を制御するサーバ装置である。接続管理装置２００による管理には、コミュニケーションのリアルタイム性を確保するための処理が含まれる。なお、ＡＲ動画生成装置１００と接続管理装置２００とは、ネットワーク４００によらずに、これとは異なる通信回線で互いに接続されていてもよい。

ユーザ端末３００は、通信システム１０によってコミュニケーションを行うユーザが使用する通信端末である。ユーザ端末３００は、通信システム１０のための専用の通信端末であってもよいし、本実施形態のコミュニケーションを行うために必要な周辺機器をスマートフォンやパーソナルコンピュータに取り付けたものであってもよい。なお、ユーザ端末３００は、実際にはネットワーク４００に多数接続されていてもよいが、図１ではコミュニケーションを行う二者の端末のみが図示されている。以下においては、これらの端末を区別する必要がある場合には、「ユーザ端末３００ａ」、「ユーザ端末３００ｂ」と表記するものとする。

ネットワーク４００は、音声や動画などのデータを送受信するためのネットワークである。ネットワーク４００は、音声を送受信するための通信回線と動画を送受信するための通信回線を別異に構成したものであってもよいが、そうでなくともよい。また、ネットワーク４００は、パケット交換方式と回線交換方式のいずれの方式の通信回線を用いたものであってもよい。

図２は、ユーザ端末３００のハードウェア構成を示すブロック図である。ユーザ端末３００は、制御部３１０と、記憶部３２０と、通信部３３０と、第１撮影部３４０と、第２撮影部３５０と、表示部３６０と、音声入出力部３７０と、操作部３８０とを備える。図２に示す構成のことを、以下においては「標準構成」という。

制御部３１０は、ユーザ端末３００の動作を制御する手段である。制御部３１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算処理装置やメモリを備え、所定のプログラムを実行することによって動画の撮影やデータ通信などを制御する。

記憶部３２０は、データを記憶する手段である。記憶部３２０は、補助記憶装置に相当し、例えば、ハードディスクやフラッシュメモリを含んで構成される。記憶部３２０は、ユーザ端末３００（自装置）のリソースに関するリソース情報を記憶している。ここにおいて、リソース情報とは、ユーザ端末３００がどのようなリソースを有しているかを示すデータをいう。ここでいうリソースは、ハードウェア的なリソースとソフトウェア的なリソースの双方を含み得る。リソース情報は、例えば、ユーザ端末３００の識別情報（機種名など）、ＣＰＵの処理能力、第１撮影部３４０や第２撮影部３５０の性能（画素数など）、表示部３６０の性能（表示解像度など）、対応しているコーデック、コミュニケーションに必要なソフトウェアのバージョン情報などを示す。

通信部３３０は、ネットワーク４００を介してデータを送受信する手段である。通信部３３０による通信は、無線・有線のいずれであってもよい。また、通信部３３０は、ユーザ端末３００の一部が外付けの周辺機器によって構成される場合に当該周辺機器と通信を行う構成を含んでもよい。

第１撮影部３４０及び第２撮影部３５０は、いずれも被写体を撮影して動画データを出力する手段である。第１撮影部３４０及び第２撮影部３５０により出力される動画データは、被写体の各画素の色を表す色情報を少なくとも含んでいる。また、第１撮影部３４０は、ユーザを含む被写体を撮影するために用いられ、第２撮影部３５０は、所定の形状のマーカ（ＡＲマーカ）を含む被写体を撮影するために用いられる。このマーカは、後述するように、第２撮影部３５０によって撮影された映像において３次元座標系を定義するのに用いられる。さらに、第１撮影部３４０は、距離画像センサを含んで構成される。一方、第２撮影部３５０は、通常のイメージセンサ、すなわち距離情報を出力しないイメージセンサであってもよい。

距離画像センサとは、各画素の距離情報を出力することができるイメージセンサである。距離画像センサには、あらかじめ決められたパターンの光を照射し、その反射光の歪みによってセンサと被写体との距離を測定する「パターン照射方式」と、被写体に対して光を照射し、光が被写体に反射して戻ってくるまでの所要時間によってセンサと被写体との距離を測定する「ＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式」とがあるが、第１撮影部３４０にはいずれの方式が用いられてもよい。

第１撮影部３４０は、このような距離画像センサと通常のイメージセンサとを備え、色情報と距離情報とを出力する。距離画像センサとイメージセンサは、同じ方向を撮影し、距離画像センサの画素とイメージセンサの画素との対応付けがあらかじめ得られているものとする。また、第１撮影部３４０として、例えば特許文献２に記載されたような、一つのセンサ（撮像装置）で各画素毎の距離画像と色情報とを取得可能なイメージセンサ（撮像装置）を用いてもよい。

表示部３６０は、画像を表示する手段である。表示部３６０は、ユーザ端末３００に備わる液晶等のディスプレイであってもよいし、ユーザ端末３００とは別体のテレビのようなディスプレイであってもよい。また、表示部３６０は、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）のようにユーザに装着される構成であってもよい。

音声入出力部３７０は、音声を入力及び出力する手段である。音声入出力部３７０は、スピーカやマイクロホンを備える。音声入出力部３７０は、音声の入出力をステレオ・モノラルのいずれで行ってもよい。
操作部３８０は、ユーザの操作を受け付ける手段である。操作部３８０は、キーパッド（キーボード）や、表示部３６０のディスプレイに重ねて設けられるタッチスクリーンを備える。

なお、ユーザ端末３００は、これらの構成を全て備えるものを標準構成とするが、後述するように、当該構成の一部を有しない端末であっても、本実施形態のコミュニケーションを（制限付きで）行うことが可能である。また、ユーザ端末３００は、表示解像度などの個々のリソースが一致していなくてもよい。

図３は、ＡＲ動画生成装置１００及び接続管理装置２００のハードウェア構成を示すブロック図である。ＡＲ動画生成装置１００は、制御部１１０と、記憶部１２０と、通信部１３０とを備える。また、接続管理装置２００は、制御部２１０と、記憶部２２０と、通信部１３０とを備える。制御部１１０、１２０は、自装置（ＡＲ動画生成装置１００又は接続管理装置２００）の動作を制御する手段である。また、記憶部１２０、２２０は、データを記憶する手段であり、通信部１３０、２３０は、データを送受信する手段である。通信部１３０、２３０は、ネットワーク４００と通信するほか、ネットワーク４００を介さずに互いに通信することも可能である。ＡＲ動画生成装置１００の記憶部１２０には、後に詳述するように、被写体となる各ユーザの立体モデルを生成するときに用いられる既製立体モデル、及び、各ユーザの前回の通話までに生成された立体モデルが格納される。

図４は、ＡＲ動画生成装置１００及び接続管理装置２００の機能構成を示すブロック図である。ＡＲ動画生成装置１００及び接続管理装置２００は、所定のプログラムを実行することにより、図４に示す機能を実現させる。接続管理装置２００の制御部２１０は、送受信部２１１及びデータ授受部２１２として機能する。また、ＡＲ動画生成装置１００の制御部１１０は、合成制御部１１０ａ及び同期制御部１１０ｂとして機能する。

送受信部２１１は、音声メッセージを送受信する手段である。送受信部２１１は、ユーザ端末３００ａから送信された音声メッセージをユーザ端末３００ｂに送信し、ユーザ端末３００ｂから送信された音声メッセージをユーザ端末３００ａに送信する。また、送受信部２１１は、音声メッセージを送受信するために必要な接続管理を行い、必要に応じて、音量や音質の制御を行う。

データ授受部２１２は、ＡＲ動画生成装置１００との間でデータを授受する手段である。データ授受部２１２は、各ユーザ端末３００ａ、３００ｂからリソース情報を取得し、ＡＲ動画生成装置１００に回線情報と共に供給する。回線情報は、ユーザ端末３００ａ、３００ｂのそれぞれが使用している通信回線に関する情報であって、通信回線の伝達能力（転送帯域など）を示す。回線情報は、ユーザの通信事業者との契約内容によって異なる場合もあるし、通信回線の実際の利用状況（混雑の度合い）などによっても異なり得る。また、データ授受部２１２は、後述するＡＲ動画生成装備１００の解析部１１８による被写体の変化の解析結果を受信する。

合成制御部１１０ａは、映像の合成を制御する手段である。合成制御部１１０ａは、より詳細には、第１受信部１１１ａ、１１１ｂと、第２受信部１１２ａ、１１２ｂと、抽出部１１３ａ、１１３ｂと、モデリング部１１９ａ、１１９ｂと、生成部１１４ａ、１１４ｂと、送信部１１５ａ、１１５ｂとを備える。

なお、第１受信部１１１ａ、第２受信部１１２ａ、抽出部１１３ａ、モデリング部１１９ａ、生成部１１４ａ及び送信部１１５ａは、それぞれ、ユーザ端末３００ａに合成動画データを送信するための構成である。一方、第１受信部１１１ｂ、第２受信部１１２ｂ、抽出部１１３ｂ、モデリング部１１９ｂ、生成部１１４ｂ及び送信部１１５ｂは、それぞれ、ユーザ端末３００ｂに合成動画データを送信するための構成である。例えば、第１受信部１１１ａと第１受信部１１１ｂとは、動画データを受信する端末が異なるだけであって、実行する動作自体には相違がない。同様に、第２受信部１１２ａ、１１２ｂ、抽出部１１３ａ、１１３ｂ、モデリング部１１９ａ、１１９ｂ、生成部１１４ａ、１１４ｂ及び送信部１１５ａ、１１５ｂの各組み合わせも、処理対象とするデータが異なるだけで、実行可能な処理には相違がないものである。

第１受信部１１１ａ、１１１ｂは、第１撮影部３４０から出力された動画データを受信する手段である。すなわち、第１受信部１１１ａ、１１１ｂは、通信部１３０を介して受信されるデータのうち、第１撮影部３４０から出力された動画データを選択的に取得する。第１受信部１１１ａは、この動画データをユーザ端末３００ｂから取得し、第１受信部１１１ｂは、この動画データをユーザ端末３００ａから取得する。第１受信部１１１ａ、１１１ｂが受信する動画データは、距離情報を含む動画データである。

第２受信部１１２ａ、１１２ｂは、第２撮影部３５０にから出力された動画データを受信する手段である。すなわち、第２受信部１１２ａ、１１２ｂは、通信部１３０を介して受信されるデータのうち、第２撮影部３５０から出力された動画データを選択的に取得する。第２受信部１１２ａは、この動画データをユーザ端末３００ａから取得し、第２受信部１１２ｂは、この動画データをユーザ端末３００ｂから取得する。第２受信部１１２ａ、１１２ｂが受信する動画データは、その映像中にマーカを少なくとも含み、当該マーカによって定義される３次元の座標系の情報を含む動画データである。

以下においては、説明の便宜上、第１撮影部３４０により撮影された動画データを「第１動画データ」といい、第２撮影部３５０により撮影された動画データを「第２動画データ」という。つまり、第１動画データは距離情報を含み、第２動画データは（座標系を特定可能な）マーカの画像を含む。

抽出部１１３ａ、１１３ｂは、第１受信部１１１ａ、１１１ｂにより受信された第１動画データから、所定のオブジェクトに相当する画素（または、これらの画素により構成される画像）を抽出する手段である。抽出部１１３ａ、１１３ｂは、第１動画データの距離情報に基づき、センサとの距離が所定の条件を満たす画素を抽出し、当該画素の色情報と距離情報を特定する。ここにおいて、所定の条件は、センサとの距離について設定された閾値によって定まる。閾値は、距離の上限のみが設定されていてもよいし、上限と下限の双方が設定されていてもよい。尚、抽出された所定のオブジェクトに対応する画素により構成される画像であって、各画素の画素値が距離情報を表す画像を所定のオブジェクトの距離画像と言うことがある。

モデリング部１１９ａ、１１９ｂは、抽出部１１３ａ、１１３ｂにより抽出された画素の距離情報及び色情報を用いて、所定のオブジェクト（本例では、各ユーザ端末３００ａ、３００ｂのユーザの首から上の部分）の立体モデルを生成する。モデリング部１１９ａ、１１９ｂによるユーザの立体モデルの生成については、後に詳述する。

生成部１１４ａ、１１４ｂは、第１受信部１１１ａ、１１１ｂにより受信された第１動画データと第２受信部１１２ａ、１１２ｂにより受信された第２動画データとに基づいて、合成動画データを生成する手段である。生成部１１４ａ、１１４ｂは、第２受信部１１２ａ、１１２ｂにより受信された第２動画データが表す映像からマーカを検出し、検出したマーカの形状と実際のマーカの形状との相違（すなわち歪み）に基づいて傾きを特定することで、マーカの位置と傾きによって規定される３次元の座標系を特定する。更に、生成部１１４ａ、１１４ｂは、モデリング部１１９ａ、１１９ｂにより生成されたユーザの立体モデルに応じた画像を、当該立体モデルの座標系がマーカの座標系に一致するようにして描画（レンダリング）し、描画した画像を第２動画データが表す映像（以下、背景映像と言うこともある）に合成する。このとき、描画した画像がマーカ上に位置するようにする。

即ち、生成部１１４ａ、１１４ｂは、モデリング部１１９ａ、１１９ｂによって生成されるユーザの立体モデルの傾きや向きが、第２動画データが表す映像の座標系と対応するようにして合成動画データを生成する。具体的には、生成部１１４ａ、１１４ｂは、第２動画データについてマーカによって定義される座標系の上下方向とモデリング部１１９ａ、１１９ｂによって生成されるユーザの立体モデルの上下方向が一致し、且つ、当該座標系によって示される前後方向とユーザの立体モデルの前後方向が一致するようにして、第２動画データが表す映像と立体モデルに基づいて生成される映像とを合成する。

また、生成部１１４ａ、１１４ｂは、これらの映像を合成するときに、タイミングの調整やエフェクト等の画像処理を行ってもよい。例えば、生成部１１４ａ、１１４ｂは、第１動画データと第２動画データの受信タイミングに時間差がある場合に、その時間差が少なくなるように合成時のタイミングを調整する。また、ここでいう画像処理は、映像に対して何らかの画像を重畳する処理であってもよいし、合成する２つの映像の明るさや色合いを合わせる処理であってもよい。

送信部１１５ａ、１１５ｂは、生成部１１４ａ、１１４ｂにより生成された合成動画データをユーザ端末３００ａ、３００ｂに送信する手段である。送信部１１５ａは、合成動画データをユーザ端末３００ａに送信し、送信部１１５ｂは、合成動画データをユーザ端末３００ｂに送信する。このようにすることで、ユーザ端末３００ａ、３００ｂのユーザは、自身が送信した第２動画データ（マーカを撮影した動画データ）によって表される背景映像に対して相手方のユーザのオブジェクト（顔、上半身など）の映像が合成された動画を見ることができるようになる。

同期制御部１１０ｂは、合成動画データの再生と音声メッセージの再生とを同期させるための処理を実行する手段である。例えば、同期制御部１１０ｂは、回線情報の変化に追従するように、合成動画データの圧縮方式を異ならせることができる。また、同期制御部１１０ｂは、送受信部２１１が音声メッセージを合成動画データに合わせて再生するために必要なデータを接続管理装置２００に供給することもできる。同期制御部１１０ｂは、より詳細には、データ授受部１１６と、判断部１１７と、解析部１１８とを含んで構成される。

データ授受部１１６は、接続管理装置２００との間でデータを授受する手段である。データ授受部１１６は、接続管理装置２００から回線情報及びリソース情報を取得し、接続管理装置２００に後述する解析部１１８による被写体の変化の解析結果を示す情報を供給する。尚、各ユーザ端末３００のリソース情報は、ユーザ端末３００が他のユーザ端末３００と通信を行うべくネットワーク４００に接続されるとき、ネットワーク４００を介して接続管理装置２００に送信され、接続管理装置２００からＡＲ動画生成装置のデータ授受部１１６に供給される。データ授受部１１６に供給された各ユーザ端末３００のリソース情報を、ＡＲ動画生成装置の記憶部１２０に格納してもよい。その場合、ユーザ端末３００は、前回ネットワーク４００に接続したときと変更があったリソース情報のみを送信し、接続管理装置２００を介してリソース情報を受信したＡＲ動画生成装置１００では、受信したリソース情報に基づいて、記憶部１２０に記憶された各ユーザ端末３００のリソース情報を更新する。

判断部１１７は、回線情報又はリソース情報に基づいて、ユーザ端末３００ａとユーザ端末３００ｂとが合成動画データによるコミュニケーションを行うことができるか否かを端末毎に判断する手段である。例えば、合成制御部１１０ａは、ユーザ端末３００ａとユーザ端末３００ｂの一方の通信回線が合成動画データのリアルタイムな再生に必要な品質を満たしていないと判断部１１７によって判断される場合には、当該一方についての合成動画データを生成せずに、他方の合成動画データのみを生成及び送信する。また、合成制御部１１０ａは、リソース情報に基づき、ユーザ端末３００が第１撮影部３４０を備えていないと判断部１１７によって判断される場合には、合成動画データの生成を行わないようにすることも可能である。

解析部１１８は、第１受信部１１１ａ、１１１ｂにより受信された第１動画データにおける被写体の変化を解析し、その解析結果を表す情報を生成する手段である。同期制御部１１０ｂは、解析部１１８により生成された情報をデータ授受部１１６を介して接続管理装置２００に供給する。解析部１１８は、例えば、被写体であるユーザの移動を解析する。あるいは、解析部１１８は、周知の顔認識技術（例えば、笑顔を検出する技術）を用いて、被写体であるユーザの表情の変化を解析してもよい。また、解析部１１８は、ユーザの変化に限らず、被写体全体の変化（例えば、明るさの変化）を解析により求めてもよい。

通信システム１０の構成は、以上のとおりである。この構成のもと、ユーザは、ユーザ端末３００を用いて他のユーザとリアルタイムなコミュニケーションを行う。ここでいうコミュニケーションは、音声と映像とを用いたものであり、例えば、いわゆるテレビ電話のようなものである。ただし、本実施形態のコミュニケーションは、ＡＲ技術によって合成された映像を利用可能である点において従来のテレビ電話と異なっている。

このようなコミュニケーションを実現するために、ユーザ端末３００においては、被写体が異なる２種類の動画データが撮影及び送信される。動画データの一つは、上述した第１動画データであり、ユーザが自身を撮影して得られるものである。また、もう一つの動画データは、上述した第２動画データであり、ユーザがマーカを含む空間（背景）を撮影して得られるものである。

ＡＲ動画生成装置１００は、これらの動画データを受信し、合成動画データを生成及び送信する。ＡＲ動画生成装置１００は、一方のユーザ端末３００から送信され、マーカを被写体に含む第２動画データと、他方のユーザ端末３００から送信され、当該他方のユーザを被写体に含む第１動画データとを用いて合成動画データを生成し、これを当該一方のユーザ端末３００に送信する。すなわち、ＡＲ動画生成装置１００は、マーカを映した動画をあるユーザから受信し、これを背景に用いて、他のユーザを映した映像をここに合成する。このとき、ＡＲ動画生成装置１００は、第１動画データ他のユーザに相当する所定のオブジェクトの画素を抽出し、抽出した画素の距離情報及び色情報を用いてオブジェクト（ユーザ）の立体モデルを生成し、生成した立体モデルに基づいて描画された画像を背景に重ね合わせる。

図５は、本実施形態において送受信される動画データが表す映像を説明するための模式図である。ここにおいて、映像Ｖ１ａ、Ｖ２ａ、Ｖ３ａは、それぞれ、ユーザ端末３００ａにより送受信される動画データが表す映像であり、映像Ｖ１ｂ、Ｖ２ｂ、Ｖ３ｂは、それぞれ、ユーザ端末３００ｂにより送受信される動画データが表す映像であるとする。また、映像Ｖ１ａ、Ｖ１ｂが第１動画データ、映像Ｖ２ａ、Ｖ２ｂが第２動画データ、映像Ｖ３ａ、Ｖ３ｂが合成動画データに、それぞれ相当する。

なお、図５において、Ｍａ、Ｍｂは、それぞれマーカを示している。マーカＭａ、Ｍｂは、あらかじめ決められた形状の画像が印刷等によって表面に形成した小片であり、ユーザが好きな場所に配置することが可能である。マーカＭａ、Ｍｂに形成された画像は、他の背景部分との識別が容易であり、かつ、座標系や傾きの特定が容易なように構成されていれば、どのようなパターンの画像であってもよい。

図５に示すように、ユーザ端末３００ａにおいて表示される映像Ｖ３ａは、ユーザ端末３００ｂからの第１動画データ（映像Ｖ１ｂを表す動画データ）に含まれる距離情報及び色情報を用いて生成されたユーザ端末３００ｂのユーザ（オブジェクト）の立体モデルに基づいて生成された映像と、ユーザ端末３００ａからの第２動画データによって表される映像（Ｖ２ａ）とを合成して得られる映像である。一方、ユーザ端末３００ｂにおいて表示される映像Ｖ３ｂは、ユーザ端末３００ａからの第１動画データ（映像Ｖ１ａを表す動画データ）に含まれる距離情報及び色情報を用いて生成されたユーザ端末３００ａのユーザ（オブジェクト）の立体モデルに基づいて生成された映像と、ユーザ端末３００ｂからの第２動画データ（Ｖ２ｂ）とを合成して得られる映像である。

なお、図５に示すように、映像Ｖ３ａ、Ｖ３ｂに含まれる、背景映像Ｖ２ａ、Ｖ２ｂと合成されるオブジェクト（この場合、ユーザの上半身）の映像は、映像Ｖ１ａ、Ｖ１ｂに含まれるオブジェクトの映像と等しい倍率である必要はなく、拡大・縮小などを適宜に行ってよい。例えば、マーカＭａ、Ｍｂの第２撮影部３５０からの距離が遠い場合は、合成映像Ｖ３ａ、Ｖ３ｂ中のオブジェクトの映像の大きさを小さくし、マーカＭａ、Ｍｂの第２撮影部３５０からの距離が近い場合は、合成映像Ｖ３ａ、Ｖ３ｂ中のオブジェクトの映像の大きさを大きくしてよい。尚、マーカＭａ、Ｍｂの第２撮影部３５０からの距離は、第２撮影部３５０により得られた映像Ｖ２ａ、Ｖ２ｂ中のマーカＭａ、Ｍｂの大きさから求められる。

図６は、所定のオブジェクトに相当する画素の抽出原理を説明するための図である。距離画像センサによって得られる距離情報は、図中の破線の矢印によって示すように、各画素について得られる。ここにおいて、図中のＴｈで示した閾値を設定し、距離情報により表される距離がこの閾値よりも小さい画素を抽出するようにすれば、被写体のうちのユーザ（所定のオブジェクト）に相当する部分の画素が選択され、ユーザ以外の部分（ユーザの背後の壁など）に相当する画素は除外されるようにすることができる。

なお、この閾値は、あらかじめ設定されており、例えばユーザが距離画像センサから１ｍ以内の場所で会話するようにしてもよいし、複数の選択肢の中からユーザが選択できるようになっていてもよい。あるいは、閾値は、抽出部１１３ａ、１１３ｂによって動的に設定されてもよい。例えば、抽出部１１３ａ、１１３ｂは、第１動画データに含まれる色情報に基づいてユーザの位置（顔など）を推定し、この推定結果に基づいて閾値を設定することも可能である。

上述したように、モデリング部１１９ａ、１１９ｂは、抽出部１１３ａ、１１３ｂにより抽出された画素の距離情報等を用いて、所定のオブジェクト（本例では、各ユーザ端末３００ａ、３００ｂのユーザ）の立体モデルを生成する。以下、モデリング部１１９ａ、１１９ｂの機能についてより詳細に説明する。尚、モデリング部１１９ａ、１１９ｂは処理対象とするデータが異なるだけで、実行可能な処理には相違がないので、以下の説明において、特に両者を区別する必要がない場合、単にモデリング部１１９と言う。合成制御部１１０ａの他の機能部についても同様である。

図７は、モデリング部１１９の機能構成を示すブロック図である。モデリング部１１９は、部分立体モデル生成部１１９１と、立体モデル読出し部１１９２と、部分特定部１１９３と、データ置換部１１９４とを有する。部分立体モデル生成部１１９１、部分特定部１１９３、及びデータ置換部１１９４は、本発明の立体モデル生成部に対応する。

部分立体モデル生成部１１９１は、ユーザ端末３００を用いたユーザ間のコミュニケーションが開始され、一方のユーザ端末３００から送信される第１動画データから抽出部１１３によりオブジェクト（ユーザ）に対応する画素の抽出がなされると、抽出部１１３により抽出された画素の距離情報や色情報から、ユーザの一部の立体モデルである部分立体モデルを生成する。部分立体モデル生成部１１９１により立体モデルが生成されるユーザの一部は、第１撮影部により撮影された部分である。

尚、本実施形態において、オブジェクト（本例ではユーザ）の立体モデルは、任意の公知の技術に基づくものであってよい。例えば、立体モデルは、オブジェクトの３次元形状を表す複数の点の位置（座標）を示すデータを含むものとすることができる。これらの点を結ぶと複数の多角形（ポリゴン）が形成されるので、そのような立体モデルは、複数のポリゴンの集合として、オブジェクトの３次元形状を表すと言うこともできる。オブジェクトの３次元形状を表す複数の点（またはポリゴン）の数が多いほど、オブジェクトの形状を精確に表すことができるが、その分、データ量が大きくなり処理に長時間を要する。そのため、それらの点を、オブジェクトの構造上の特徴を示す部分（例えば、オブジェクトが人の顔の場合、目、耳、鼻、口、眉毛など）を表す点（特徴点と言う）に絞り、特徴点の座標によりオブジェクトの形状を表すことが考えられる。特徴点の数や位置は、対象となるオブジェクトの形状の複雑さや、求められているモデル化の精度等に応じて適宜決められる。また、立体モデルを構成するポリゴンにテクスチャの貼り付けを行うなどの公知の技術を用いて、モデル化の対象となるオブジェクトの各部の色や質感の表現の向上を図ってもよい。その場合、立体モデルはテクスチャ貼り付け等を行うのに必要な情報も含む。

立体モデル読出し部１１９２は、抽出部１１３により第１動画データから対応する画素の抽出がなされたユーザに対し既に生成された立体モデルが記憶部１２０に記憶されているか判定し、記憶されている場合、その立体モデルを記憶部１２０から読み出して部分特定部１１９３に供給する。一方、当該ユーザに対し生成された立体モデルが記憶部１２０に記憶されていない場合、当該ユーザに対応付けられた予め生成された立体モデル（以下、既製立体モデルと言う）を記憶部１２０から読み出して、読出した既製立体モデルを当該ユーザの立体モデルとして部分特定部１１９３に供給する。

図８は、既製立体モデルの一例を示す模式図である。この例では、既製立体モデルは、マネキンのようにディテールが実際の人よりも単純化された立体モデルである。本実施形態において、一つの既製立体モデルを全ユーザに対して共通に割り当ててもよいし、あるいは、例えば、性別、年齢、髪型、人種などの様々な属性の組合せに応じて複数の既製立体モデルを予め生成し、各ユーザ毎に対応付けられる既製立体モデルを設定してもよい。その場合、記憶部１２０には、例えば、ユーザの識別情報（ユーザＩＤ）と、既製立体モデルの識別情報（モデルＩＤ）とを対応付けるテーブルが記憶される。

各ユーザに対応付けられる既製立体モデルは、各ユーザの外観に極力近い外観を表していることが好ましく、各ユーザに対応付けられる既製立体モデルをユーザが選択可能としてもよい。具体的には、ユーザによるユーザ端末３００の所定の操作に応じて、既製立体モデルを選択するためのメニュー画面を表示するのに必要なデータをＡＲ動画生成装置１００からユーザ端末３００に送信し、ユーザ端末３００に表示されたメニュー画面からユーザが選択した既製立体モデルを示す情報を、ユーザ端末３００からＡＲ動画生成装置１００に送信するようにしてもよい。あるいは、各ユーザに対応する既存立体モデルを、各ユーザの属性（性別、年齢など）に基づいて、ＡＲ動画生成装置１００が自動的に選択してもよい。

部分特定部１１９３は、立体モデル読出し部１１９２から供給された立体モデルのうち、部分立体モデル生成部１１９１により生成された部分立体モデルで置き換える（または更新する）部分を特定する。以下、部分特定部１１９３の具体的な動作の一例を図９を参照して説明する。

図９は、部分特定部１１９３の動作の一例を説明するための模式図である。部分特定部１１９３は、立体モデル読出し部１１９２から供給された立体モデルを様々な方向から見た場合に得られる候補画像（図８（ａ）〜（ｃ））を生成する。各候補画像は、各画素毎の距離情報を含む距離画像であってもよいし、各画素毎の色情報を含む画像であってもよいし、あるいは、各画素毎の距離情報と色情報の両方を含む画像であってもよい。

続いて、部分特定部１１９３は、各候補画像における距離情報や色情報に基づいて公知の顔認識機能を用いてオブジェクト（ユーザ）の特徴部（例えば、目、耳、鼻など）の位置を特定する。また、同様に、抽出部１１３により抽出されたユーザの撮影画像（図８（ｄ））において認識される特徴部の位置を特定する。そして、部分特定部１１９３は、各候補画像における特徴部の配置パターンと、抽出部１１３により抽出されたユーザの撮影画像における特徴部の配置パターンとを比較し、特徴部の配置パターンが撮影画像に最も類似する候補画像を特定する。図示した例では、立体モデルを左側面から見た場合に得られる図８（ａ）の候補画像における特徴部の配置パターンが、図８（ｄ）に示す抽出部１１３により抽出されたユーザの撮影画像における特徴部の配置パターンに最も類似しているので、図８（ａ）の候補画像が特定される。そして、部分特定部１１９３は、特定された候補画像に現れる立体モデルの部分を、部分立体モデル生成部１１９１により生成された部分立体モデルで置き換える部分として特定する。尚、候補画像は３つに限らず、より多くてもよい。また、立体モデルを横から見た場合に得られる画像だけでなく、斜めのアングルで見た場合に得られる画像を含んでもよい。

データ置換部１１９４は、立体モデル読出し部１１９２により読み出された立体モデルのうち、部分特定部１１９３により特定された部分を、部分立体モデル生成部１１９１により生成された部分立体モデルで置き換えることにより、立体モデル読出し部１１９２により記憶部１２０から読み出された立体モデルを変形し、表示されるオブジェクト（本例ではユーザ）の画像を描画するのに用いられる立体モデルを生成する。上述したように、部分立体モデル生成部１１９１により生成される部分立体モデルは、距離画像センサを有する第１撮影部３４０によりオブジェクト（ユーザ）を撮影することにより得られる第１動画データから抽出部１１３により抽出された画素の距離情報に基づいて生成されるので、部分立体モデルで置き換えられた立体モデルの部分（即ち、第１撮影部３４０により撮影されたオブジェクトの部分に対応する立体モデルの部分）は、現実のオブジェクトの外観をリアルタイムに反映したデータを含むこととなる。一方、第１撮影部３４０により撮影されていないオブジェクトの部分に対応する立体モデルの部分は、既製立体モデルのデータを含むこととなる。

図１０は、データ置換部１１９４により既製立体モデル（図８）の一部を部分立体モデルで置き換えることにより得られた立体モデルを例示する模式図である。図示されている例では、人の右正面部分の撮影データ（距離画像）に基づいて得られた部分立体モデルによって、既製立体モデルの右正面部分が置き換えられている。一方、距離画像に基づく立体モデルデータのない左側頭部及び後頭部は、既製立体モデルのデータにより表されている。従って、図１０に示す立体モデルに基づいて描画される画像を用いて形成された合成映像が表示されているとき、ユーザによるユーザ端末３００の操作によって画像内のオブジェクトが回転され、左側頭部及び後頭部が描画される場合、それらの部分は既製立体モデルのデータにより描画されることとなる。これにより、既製立体モデルのデータがない場合（即ち、左側頭部や後頭部が描画されない場合）と比べて、表示されるオブジェクトの画像が不自然になるのが抑制される。

尚、上述したように、立体モデル読出し部１１９２は、抽出部１１３により第１動画データから対応する画素の抽出がなされたユーザに対し既に生成された（即ち、一部が部分立体モデルで置き換えられた）立体モデルが記憶部１２０に記憶されている場合、その立体モデルを記憶部１２０から読み出して部分特定部１１９３に供給する。従って、既に生成された立体モデルに対し更に、新たに第１撮影部３４０で撮影されたオブジェクトの部分に対応する部分立体モデルによるデータの置き換えがなされる。その結果、被写体の向きが変わり第１撮影部３４０で撮影された部分が増えるに従い、撮影データ（距離画像）に基づく部分立体モデルで置き変えられた立体モデルの部分が増え、立体モデルがモデル化対象のオブジェクトにより近づいていく。

こうして生成された立体モデルは、上述したように、生成部１１４によって描画され、第２動画データが表す映像と合成され、送信部１１５を通じてユーザ端末３００に送信される。

ユーザは、このようにして合成された映像を見ながら相手のユーザと会話することで、あたかも自分のそば（背景として撮影している位置）に相手のユーザがいるような感覚でコミュニケーションを行うことができる。これにより、ユーザは、リアリティのあるコミュニケーションをリアルタイムに行うことが可能になる。また、相手のユーザのユーザ端末の第１撮影部で撮影されておらず形状データ（立体モデルデータ）が得られていない相手のユーザの部分については、相手のユーザに関連付けられた既製立体モデルのデータに基づいて画像が形成されるため、そのような既製立体モデルのデータを用いない場合と比べて画像が不自然になるのが抑制される。また、第１撮影部で撮影されるオブジェクトの部分が増えるにつれ、距離画像に基づく形状データにより表される立体モデルの部分が拡張され、モデル化対象のオブジェクトに立体モデルをより近づけることができる。

通信システム１０においては、このような映像をユーザ端末３００に表示可能にするために、ＡＲ動画生成装置１００が合成動画データを生成及び送信する。ＡＲ動画生成装置１００は、リソース情報や回線情報を参照し、必要な合成動画データを生成する。例えば、ＡＲ動画生成装置１００は、ユーザ端末３００のリソースや通信回線の状況に応じて、合成動画データの圧縮方式や転送レートを決定する。また、ＡＲ動画生成装置１００は、リソース情報や回線情報に基づいて、合成動画データを生成するか否かを判断することも可能である。例えば、ＡＲ動画生成装置１００は、合成動画データの送信に十分な転送帯域が確保されていない場合や、そもそもユーザ端末３００が合成動画データを再生する機能を有しない場合などには、合成動画データを送信しないか、合成動画データよりもデータ量が少ない代替的なデータを送信する、といったことが可能である。

図１１は、ＡＲ動画生成装置１００が合成動画データを生成するときに実行する処理を示すフローチャートである。ＡＲ動画生成装置１００の制御部１１０は、まず最初に、リソース情報と回線情報の少なくともいずれかを用いて、合成動画データの生成態様を判定する（ステップＳａ１）。このとき、制御部１１０は、合成動画データの生成の可否や、合成動画データを生成するときの圧縮方式や転送レートなどを、合成動画データの送信対象であるユーザ端末３００のそれぞれについて判定する。

その後、制御部１１０は、ステップＳａ１の判定結果に応じた処理を実行する。制御部１１０は、一方のユーザ端末３００であるユーザ端末３００ａについて、合成動画データを生成するか否か判断し（ステップＳａ２）、合成動画データを生成すると判定した場合には合成動画データを生成する一方、そうでなければ生成を行わない（ステップＳａ３）。また、合成動画データを生成する場合、制御部１１０は、ステップＳａ１の判定結果に応じて（すなわち回線情報やリソース情報に応じて）、合成動画データの圧縮方式や転送レートなどを異ならせる。

続いて、制御部１１０は、他方のユーザ端末３００であるユーザ端末３００ｂについても同様に、合成動画データを生成するか否かの判断（ステップＳａ４）と合成動画データの生成（ステップＳａ５）とを実行する。そして、制御部１１０は、生成した合成動画データを通信部１３０に供給することにより、合成動画データをユーザ端末３００ａ、３００ｂのそれぞれに送信する（ステップＳａ６）。

ＡＲ動画生成装置１００は、このような処理を実行することで、ユーザ端末３００ａとユーザ端末３００ｂのそれぞれに応じた品質の合成動画データを生成することが可能である。また、ＡＲ動画生成装置１００は、送信する必要がない合成動画データの生成を省略することが可能であり、自装置のリソースを効率的に使用して処理を進めることができる。

図１２は、通信システム１０の各装置における処理を示すシーケンスチャートである。なお、図１２に示す例は、ユーザ端末３００ａ、３００ｂの双方に合成動画データを送信する場合、すなわち、図１１のステップＳａ２、Ｓａ４のいずれの判断も「ＹＥＳ」となる場合のものである。また、図１２においては、図示の便宜上、ＡＲ動画生成装置１００を２つ示し、ユーザ端末３００ａに合成動画データを送信するための構成とユーザ端末３００ｂに合成動画データを送信するための構成とを分けているが、実際には同一の装置で同時並行的に処理が行われてもよい。

まず、ユーザ端末３００ａとユーザ端末３００ｂとは、接続管理装置２０を介して、呼接続を確立する（ステップＳｂ１）。例えば、ユーザは、電話番号やこれに代替するもの（ユーザアカウントなど）を用いてコミュニケーションの相手を指定し、発話を開始することができる。

呼接続が確立すると、接続管理装置２０は、ユーザ端末３００ａ、３００ｂに接続情報を送信する（ステップＳｂ２）。接続情報は、ユーザ端末３００ａとユーザ端末３００ｂとが接続されたときに送信される情報であって、コミュニケーションの相手に関する情報などを含んでいる。例えば、接続情報には、呼接続以降にシステム内部で呼を識別するために用いられる呼識別情報などが含まれる。また、接続情報は、上述した回線情報やリソース情報を含んでもよい。なお、回線情報やリソース情報を接続情報に含む場合、ユーザ端末３００は、第１動画データや第２動画データを送信するか否かを接続情報に基づいて判断してもよい。このようにすれば、図１１に示した判定の一部をユーザ端末３００で行うことが可能になる。

また、ユーザ端末３００ａ、３００ｂは、呼接続が確立すると、映像の撮影を開始する（ステップＳｂ３）。すなわち、ユーザ端末３００ａ、３００ｂは、第１撮影部３４０及び第２撮影部３５０を起動し、動画データを送信できる状態にする。そして、ユーザ端末３００ａ、３００ｂは、第１動画データと第２動画データを、ＡＲ動画生成装置１００にそれぞれ送信する（ステップＳｂ４、Ｓｂ５）。ＡＲ動画生成装置１００は、第１動画データ及び第２動画データを受信すると、合成動画データを生成し（ステップＳｂ６）、ユーザ端末３００ａ、３００ｂに送信する（ステップＳｂ７）。

以上のとおり、本実施形態によれば、一方のユーザが撮影した背景に対して他方のユーザの映像を合成し、合成した映像を用いながら音声メッセージをやり取りすることが可能になる。また、本実施形態においては、動画データの合成をＡＲ動画生成装置１００が行うため、ユーザ端末３００においてポリゴンデータのレンダリングのような比較的負荷が高い処理を実行する必要がない。

また、本実施形態において、ＡＲ動画生成装置１００は、合成動画データの生成態様をリソース情報や回線情報に応じて異ならせることができる。これにより、ＡＲ動画生成装置１００は、遅延するおそれがより少ない態様でデータ転送を行ったり、無駄な処理の実行を省略したりすることが可能である。また、ＡＲ動画生成装置１００は、一方のユーザ端末３００のみが距離画像センサを備え、他方のユーザ端末３００には距離画像センサが備わっていない場合であれば、当該他方のユーザ端末３００に送信する合成動画データのみを生成することができ、このような態様でのコミュニケーションも実現可能である。

［変形例］
本発明は、上述した実施形態の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせてもよい。

上記実施形態では、部分特定部１１９３により特定された立体モデルの部分全部を、第１撮影部３４０の撮影データに基づいて部分立体モデル生成部１１９１により生成された部分立体モデルで置き換えたが、本発明はこれに限定されない。例えば、動画ではなく静止画としてオブジェクトを表示すればよく、既に撮影データに基づく部分立体モデルで置換されている部分を新たに更新する必要がない場合、部分特定部１１９３により特定された立体モデルの部分のうち、まだ撮影データに基づく部分立体モデルで置きかえられていない部分のみを部分立体モデルで置き換えてもよい。

図１３は、本変形例に基づく、モデリング部１１９の動作を説明する模式図である。図１３（ａ）は、ユーザの顔の立体モデルを斜め上から見たとき得られる画像であり、立体モデルのうち既に撮影データに基づく部分立体モデルで置換されている部分が網がけで示されている。また、図中の矢印は顔の正面方向を示す。尚、立体モデルのうち既製立体モデルのデータを含む部分は図示を省略した。図１３（ｂ）では、距離画像センサを有する第１撮影部３４０により新たに撮影されたユーザの画像がハッチングによりを示されている。この例では、ユーザの左側の頭部の画像が撮影されている。

本例において、部分特定部１１９３は、図１３（ａ）に示される立体モデルから得られた画像と、図１３（ｂ）に示される撮影データに基づく画像とを比較し、これらの画像に含まれるオブジェクトの特徴部（本例では、ユーザの目及び鼻）の配置パターンに基づいて、これらの画像の向きが揃うように、一方の画像を回転する。回転する角度は、特徴部の配置パターンが極力近くなるように特定される。本例では、図中矢印で示すように、立体モデルから得られた画像と撮影データから得られた画像では、顔の正面方向が９０度ずれており、撮影データから得られた画像を９０度左に回転させた場合に、符号Ａで示した部分において特徴部の配置パターンの類似度が高くなるので、回転角度として９０度が特定される。

立体モデルから得られた画像と撮影データから得られた画像との向きを揃えた後、部分特定部１１９３は、立体モデルのうち、まだ撮影データに基づく部分立体モデルで置換されておらず、且つ、図１３（ｂ）に示した画像に表れるオブジェクトの部分に対応する部分を特定し、特定した部分を示す情報を、部分立体モデル生成部１１９１に供給する。部分立体モデル生成部１１９１は、撮影データから得られた画像のオブジェクトに対応する画素のうち、部分特定部１１９３により特定された立体モデルの部分に対応する画素（符号Ｂで示した）の距離情報及び色情報から、これらの画素に対応するオブジェクトの部分の立体モデルを生成する。

データ置換部１１９４は、部分特定部１１９３で特定された立体モデルの部分を、部分立体モデル生成部１１９１により生成された部分立体モデル（符号Ｂで示した部分の立体モデル）で置換することで、立体モデルを更新する。

このように、既に撮影データに基づく部分立体モデルで置換された立体モデルの部分の置換を行わず、新たに撮影データに基づく部分立体モデルが得られた部分のみ当該部分立体モデルで置換することにより、置換するデータ量を減らし処理を高速化することができる。

（２）本発明は、二者に限らず、三者以上のコミュニケーションにも適用可能である。この場合において、各ユーザのユーザ端末３００が距離画像センサを備えていてもよいが、特定の一のユーザのみが距離画像センサで自身を撮影する態様も可能である。例えば、第１ユーザ、第２ユーザ、第３ユーザという３名のユーザがコミュニケーションを行う場合において、第１ユーザのみが距離画像センサで自身を撮影し、第２ユーザと第３ユーザは背景のみを撮影する、といった態様でコミュニケーションを行うことも可能である。この場合、ＡＲ動画生成装置１００は、撮影された第１ユーザに相当する画像を抽出し、これを第２ユーザ側で撮影された第２動画データに合成する処理と、第３ユーザ側で撮影された第２動画データに合成する処理とを実行し、第２ユーザと第３ユーザのそれぞれに応じた合成動画データを生成する。

このようにすれば、第２ユーザにあっては、自身が撮影している背景に第１ユーザの映像が重畳された映像を視聴可能である一方、第３ユーザにあっては、自身が撮影している背景に第１ユーザの映像が重畳された映像（すなわち、第１ユーザの映像は重畳されているが、第２ユーザが視聴している映像とは異なる映像）を視聴可能である。
なお、このような態様においては、第１ユーザのユーザ端末３００は第２撮影部３５０を備えていなくてもよく、また、第２ユーザ及び第３ユーザのユーザ端末３００は第１撮影部３４０を備えていなくてもよい。

（３）上述したように、通信システム１０においては、音声メッセージの音量又は音質の変化に応じて合成動画データの映像を変化させたり、あるいは第１動画データの映像の変化に応じて音声メッセージの音量又は音質を変化させることが可能である。具体的な例としては、以下のようなものがある。

例えば、ＡＲ動画生成装置１００は、ユーザ端末３００ａに対して送信する合成動画データに関して、抽出されたオブジェクトを合成する場合において、ユーザ端末３００ｂから送信された音声メッセージの音量が大きくなったときには、当該オブジェクトを拡大する一方、当該音声メッセージの音量が小さくなったときには、当該オブジェクトを縮小するようにしてもよい。また、ＡＲ動画生成装置１００は、音声メッセージにノイズが生じるなどして音質が悪化した場合に、合成動画データが表す映像にも（意図的な）ノイズを付加したり、あるいは画質を劣化させたりしてもよい。このようにすれば、合成される映像と音声との間に感覚的な連動性を与えることが可能である。

また、接続管理装置２００は、ＡＲ動画生成装置１００から被写体の変化を表す情報に基づいて、抽出されたオブジェクトの大きさの変化や、距離情報の変化や、あるいは被写体全体の明るさの変化などを認識することが可能である。接続管理装置２００は、このようにして認識された映像の変化に応じて、例えば、オブジェクトの大きさやその距離の変化に合わせて音量を変化させたり、被写体が明るいときと暗いときとで音質を異ならせたりしてもよい。また、接続管理装置２００は、被写体であるユーザの表情の変化に応じて音質や音量を異ならせてもよい。さらに、接続管理装置２００は、音声メッセージがマルチチャネル（例えばステレオ）のデータの場合であれぱ、所定のオブジェクトが抽出された位置の変化に応じて音像定位を制御し、例えば、被写体であるユーザの移動に追従するように音量やディレイを調整してもよい。

（４）抽出部１１３、モデリング部１１９、及び生成部１１４に相当する機能の少なくとも一部を、合成制御部１１０ａではなく、各ユーザ端末３００で行うものとしてもよい。例えば、各ユーザ端末３００は、他のユーザ端末３００から距離情報を含む第１動画データを受信し、受信した第１動画データによって表される映像に含まれる所望の被写体の立体モデルを生成し、この立体モデルに基づいて描画される被写体の映像を、自身の第２撮影部３５０によって撮影されたマーカを含む映像と合成し、合成された映像を表示してもよい。あるいは、各ユーザ端末３００は、自身の第１撮影部３４０により得られた距離情報を含む第１動画データから所望の被写体の立体モデルを生成し、この立体モデルに基づいて描画される被写体の映像を、他のユーザ端末３００から受信したマーカを含む映像と合成し、合成された映像を表すデータを他のユーザ端末３００に送信してもよい。これらの場合、所望の被写体の立体モデルを生成する際に用いられる既製立体モデル及び生成された立体モデルを、ＡＲ動画生成装置１００の記憶部１２０ではなく、立体モデルを生成する各ユーザ端末３００の記憶部３２０に記憶するとよい。

あるいは、生成部１１４をユーザ端末３００に設け、既製立体モデル及び撮影データに含まれる距離情報等を反映するべく立体モデルの一部を置換するためのデータ（置換データ）をＡＲ動画生成装置１００からユーザ端末３００に送信し、ユーザ端末３００の生成部１１４で、既製立体モデル及び置換データを用いて、撮影データに含まれる距離情報等を反映した立体モデルを生成し、この立体モデルを用いて画像の描画及び合成を行ってもよい。

（５）上述した実施形態では、立体モデル読出し部１１９２は、通話相手となるユーザに対し生成された立体モデルが記憶部１２０に既に記憶されているか判定し、記憶されている場合、その立体モデルを記憶部１２０から読み出して、部分特定部１１９３に供給し、当該ユーザに対し生成された立体モデルが記憶部１２０に記憶されていない場合、当該ユーザに対応付けられた既製立体モデルを記憶部１２０から読み出して、読出した既製立体モデルを当該ユーザの立体モデルとして部分特定部１１９３に供給したが、本発明はこれに限定されない。立体モデル読出し部１１９２は、通話相手となるユーザに対し生成された立体モデルが記憶部１２０に既に記憶されている場合において、当該立体モデルに基づき生成される所定のオブジェクトの画像と、通話相手となるユーザのユーザ端末３００から受信した第１動画データから抽出される所定のオブジェクトの画像との相違が予め定められた基準より大きい場合、当該ユーザに関連付けられた既製立体モデルを記憶部１２０から読み出して、部分特定部１１９３に供給してもよい。これにより、例えば、前回の通話から数ヶ月経過している場合など、通話相手のユーザの外観（髪型など）が大幅に変わっている場合に、前に生成されたそのユーザの立体モデルを用いると、距離画像データが反映された部分と、前に生成された立体モデルのデータによって表される部分とで表示画像が大きく異なり、不自然さがかえって増大するのを防止することができる。

（６）ＡＲ動画生成装置１００は、抽出したオブジェクトに所定の画像を付加し、これを背景に合成することも可能である。ここでいう所定の画像とは、例えば、ユーザの顔や身体に装着する装飾品を模した画像（サングラス、洋服など）である。このようにすれば、ユーザの顔や身体の一部を隠した映像を表示することが可能になる。また、ＡＲ動画生成装置１００は、第２動画データが送信されてこなかった場合や、第２動画データの転送に遅延が生じている場合を判断し、このような場合に予め生成された背景画像（例えば、仮想空間の一部を表す画像）とオブジェクトの画像を合成してもよい。なお、これらの画像を表示するための画像データは、あらかじめＡＲ動画生成装置１００や接続管理装置２００に記憶されていてもよいし、ユーザ端末３００がコミュニケーションを開始するときに接続管理装置２００に送信してもよい。

（７）上記実施形態では、モデリング部１１９により生成されたユーザの立体モデルを、各ユーザに関連付けて記憶部１２０に記憶し、その後当該ユーザの立体モデルを生成する必要が生じた場合に記憶部１２０に記憶された前に生成された立体モデルを利用できるようにしたが、本発明はこれに限定されない。例えば、各ユーザ毎に、各ユーザの通話相手となったユーザに対し生成された立体モデルを記憶部１２０に記憶してもよい。この場合、例えば、ユーザＡとユーザＢとの通話においてユーザＡによる視聴用に生成されたユーザＢの立体モデルは、ユーザＣとユーザＢとの通話においてユーザＣによる視聴用に生成さたユーザＢの立体モデルとは区別して記憶部１２０に記憶され、ユーザＡとユーザＢとの通話において生成されたユーザＢの立体モデルは、その後に、ユーザＣとユーザＢとの通話においてユーザＢの立体モデルを生成する際には利用されないようにすることができる。

（８）色情報の画素のサイズと距離情報の画素のサイズ、すなわち両者の解像度は、必ずしも一致していなくてもよい。例えば、距離情報の１画素は、色情報の４画素（縦２画素×横２画素）に相当していてもよい。この場合の距離情報は、色情報の４画素分について同一の値であるとしてもよいが、隣り合う画素の距離情報を参照して適当な補間処理を実行して算出されてもよい。

（９）本発明において抽出されるオブジェクトは、距離情報が所定の条件を満たすものであればどのようなものであってもよく、必ずしもユーザである必要はない。例えば、ユーザは、自身に代えて、人形や、飼育しているペットを撮影し、これを合成対象の映像とすることも可能である。

（１０）ＡＲ動画生成装置１００及び接続管理装置２００は、別体の装置として構成されるのではなく、一体に構成されてもよい。また、本発明は、音声メッセージに代えて、アキストメッセージを交換するものであってもよい。このようにすれば、チャットのようなコミュニケーションにも本発明を適用することが可能である。この場合において、ＡＲ動画生成装置１００は、音量や音質に代えて、文字のサイズや文字装飾（フォント、下線、色など）に応じて、あるいは特定の文字（感嘆符など）の有無に応じて映像を異ならせることも可能である。

（１１）本発明は、ＡＲ動画生成装置やこれを備える画像コミュニケーションシステムとしてだけではなく、ＡＲ動画生成装置が実行するプログラムや、合成した動画を用いたコミュニケーション方法として把握することも可能である。また、このプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。

制御部の機能を実現するプログラムは、磁気記録媒体（磁気テープ、磁気ディスク（ＨＤＤ、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ））など）、光記録媒体（光ディスク（ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ））など）、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供し、記憶部にインストールしてもよい。また、通信回線を介してダウンロードして記憶部にインストールしてもよい。

１０…通信システム、１００…ＡＲ動画生成装置、１１０…制御部、１１１ａ、１１１ｂ…第１受信部、１１２ａ、１１２ｂ…第２受信部、１１３ａ、１１３ｂ…抽出部、１１４ａ、１１４ｂ…生成部、１１５ａ、１１５ｂ…送信部、１１６…データ授受部、１１７…判断部、１１８…解析部、１１９ａ、１１９ｂ…モデリング部、記憶部…１２０、通信部…１３０、２００…接続管理装置、２１０…制御部、２１１…送受信部、２１２…データ授受部、２２０…記憶部、１３０…通信部、３００、３００ａ、３００ｂ…ユーザ端末、３１０…制御部、３２０…記憶部、３３０…通信部、３４０…第１撮影部、３５０…第２撮影部、３６０…表示部、３７０…音声入出力部、３８０…操作部、４００…ネットワーク、１１９１…部分立体モデル生成部、１１９２…立体モデル読出し部、１１９３…部分特定部、１１９４…データ置換部

Claims

第１端末で撮影された所定のオブジェクトの画像を他の画像と合成した合成画像を第２端末に表示させる画像コミュニケーションシステムであって、
前記所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データから、前記所定のオブジェクトに対応する画素を抽出する抽出部と、
前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す立体モデル読出し部と、
前記抽出部により抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記立体モデル読出し部により前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する立体モデル生成部と、
前記立体モデル生成部により生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する画像生成部と、
前記画像生成部により生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する合成部と、
を有することを特徴とする画像コミュニケーションシステム。
前記立体モデル生成部は、生成した立体モデルを前記記憶部に記憶させ、
前記立体モデル読出し部は、前記立体モデル生成部により以前に生成された立体モデルが、前記所定のオブジェクトに関連付けて前記記憶部に記憶されている場合、当該以前に生成された立体モデルを読出し、前記記憶部に前記立体モデル生成部により以前に生成された立体モデルが前記所定のオブジェクトに関連付けて前記記憶部に記憶されていない場合、予め形成されて前記記憶部に記憶された立体モデルである既製立体モデルを前記記憶部から読み出す
ことを特徴とする請求項１に記載の画像コミュニケーションシステム。
前記立体モデル読出し部は、前記立体モデル生成部により以前に生成された立体モデルが、前記所定のオブジェクトに関連付けて前記記憶部に記憶されている場合において、以前に生成された立体モデルに基づき生成される前記所定のオブジェクトの画像と、前記動画データから抽出される前記所定のオブジェクトの画像との相違が予め定められた基準より大きい場合、前記既製立体モデルを前記記憶部から読み出す
ことを特徴とする請求項２に記載の画像コミュニケーションシステム。
前記他の画像は、前記第２端末により撮影された画像である
ことを特徴とする請求項１乃至３のいずれか１項に記載の画像コミュニケーションシステム。
前記抽出部、前記立体モデル読出し部、前記立体モデル生成部、前記画像生成部、及び前記合成部の少なくとも一つが、前記第１端末及び前記第２端末と通信可能で前記第１端末及び前記第２端末とは別体の装置に含まれる
ことを特徴とする請求項１乃至４のいずれか１項に記載の画像コミュニケーションシステム。
第１端末で撮影された所定のオブジェクトの画像を他の画像と合成した合成画像を第２端末に表示させる画像生成装置であって、
前記所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データを前記第１端末から受信する受信部と、
前記受信部により受信された動画データから、前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す立体モデル読出し部と、
前記抽出部により抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記立体モデル読出し部により前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する立体モデル生成部と、
前記立体モデル生成部により生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する画像生成部と、
前記画像生成部により生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する合成部と、
前記合成部により合成された合成画像を前記第２端末に送信する送信部と
を備える画像生成装置。
コンピュータに、
所定のオブジェクトを含む被写体を撮影した動画データであって、当該被写体の画素毎の距離情報を含んだ動画データを受信する第１ステップと、
前記受信された動画データから、前記所定のオブジェクトに相当する画素を抽出する第２ステップと、
前記所定のオブジェクトに関連付けて記憶部に記憶された予め形成された立体モデルを前記記憶部から読み出す第３ステップと、
前記第２ステップで抽出された前記所定のオブジェクトに対応する画素の距離情報を用いて、前記記憶部から読み出された立体モデルを変形することで、前記所定のオブジェクトの立体モデルを生成する第４ステップと、
前記第４ステップにおいて生成された立体モデルに基づいて、前記所定のオブジェクトの画像を生成する第５ステップと、
前記第５ステップにおいて生成された前記所定のオブジェクトの画像と、他の画像とを合成して合成画像を生成する第６ステップと、
前記第６ステップにおいて合成された合成画像を送信する第７ステップと
を実行させるためのプログラム。