JP6599183B2

JP6599183B2 - 画像表示システム及び画像表示方法

Info

Publication number: JP6599183B2
Application number: JP2015180010A
Authority: JP
Inventors: 吏中野; 貴司折目; 康夫高橋; 純一暦本; 雄一郎竹内; 潤渡辺; 直紀永井
Original assignee: Sony Corp; Sony Network Communications Inc; Daiwa House Industry Co Ltd
Current assignee: Sony Corp; Sony Network Communications Inc; Daiwa House Industry Co Ltd
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2019-10-30
Anticipated expiration: 2035-09-11
Also published as: JP2017055355A; WO2017043662A1

Description

本発明は、画像表示システム及び画像表示方法に係り、特に、ユーザの映像を構成するフレーム画像について、その画像データの伝送負荷を軽減することが可能な画像表示システム及び画像表示方法に関する。

ＩＣＴ（情報通信技術）を利用した画像表示システムは既に知られている。かかるシステムは、例えば、互いに離れた空間に居るユーザ同士が対話する際に利用される。このようなケースにおいて、各ユーザは、スクリーン等の表示器に表示された対話相手の画像（より具体的には、複数のフレーム画像からなる映像）を見ながら、当該対話相手を話すことが可能である。これにより、表示器を通じて対話相手を見ているユーザは、当該対話相手と実際に対面しているときと同じ雰囲気（臨場感）の中で対話することが可能となる。

一方、対話の臨場感は、表示器に表示される対話相手の画像が高画質であるほど向上する。しかし、その反面、対話相手の画像が高画質になるほど、当該対話相手側から送られてくる画像データのデータ容量が大きくなってしまい、当該画像データの送受信に係る負荷（通信負荷）が大きくなってしまう。このような問題に対する方策としては、例えば、送信対象の画像データを、当該画像データが示す画像の一部分の画質を他の部分の画質よりも低画質となるように構成することが考えられる（特許文献１参照）。かかる構成であれば、均一に高画質となった画像のデータ（画像データ）に比してデータ容量を削減できるので、データ伝送負荷を軽減することが可能となる。

特開２００２−２７４２５号公報

ところで、送信対象とする画像のうち、低画質化する部分については、画像表示システムを用いた対話の臨場感を損なわないように適切に設定される必要がある。つまり、送信対象とする画像の一部分が低画質になっていても上記の対話において遜色がないように、低画質化する部分の選定を適切に行わなければならない。

そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、送信対象の画像の一部を低画質化することで画像データの伝送負荷を軽減する構成において、低画質化の対象とする部分を適切に選定することが可能な画像表示システムを提供することである。同様に、本発明の他の目的は、送信対象の画像の一部を低画質化することで画像データの伝送負荷を軽減する際に、低画質化の対象とする部分を適切に選定することが可能な画像表示方法を提供することである。

前記課題は、本発明の画像表示システムによれば、（Ａ）第一ユーザを撮影する撮像装置と、（Ｂ）該撮像装置が撮像した前記第一ユーザの映像を構成するフレーム画像を取得する第一コンピュータと、（Ｃ）前記フレーム画像を取得するために前記第一コンピュータと通信する第二コンピュータと、（Ｄ）該第二コンピュータが取得した前記フレーム画像を、前記第一ユーザとは異なる場所に居る第二ユーザに対して表示する表示器と、（Ｅ）該表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との位置関係及び前記第二ユーザの姿勢のうち、少なくとも一つの内容に関する情報を前記第二コンピュータに提供する情報提供装置と、を有し、（Ｆ）前記第一コンピュータは、（ｆ１）前記第二コンピュータが前記情報から特定した前記少なくとも一つの内容を取得する処理と、（ｆ２）前記第一コンピュータが今回取得した前記フレーム画像のうち、前記表示器に表示される領域の画像データを生成して前記第二コンピュータに向けて送信する処理と、を実行し、前記領域の前記画像データを生成する際には、前記領域の画像中、前記表示器において前記少なくとも一つの内容に応じて決まる範囲に表示される第一画像よりも該第一画像とは異なる範囲に表示される第二画像が低画質となるように前記領域の前記画像データを生成し、（Ｇ）前記第二コンピュータは、前記領域の前記画像データを受信すると、該画像データの受信前に前記表示器に表示された前記フレーム画像中、前記領域と対応した位置に前記領域の画像を配置させることで構成された前記フレーム画像を、前記表示器に表示させることにより解決される。

以上のように構成された画像表示システムによれば、表示器の前に第二ユーザが居る状態で第二ユーザと表示器との位置関係及び第二ユーザの姿勢のうち、少なくとも一つの内容を取得する。そして、第一コンピュータが今回取得したフレーム画像のうち、表示器に表示される領域の画像データを生成する際には、当該領域の画像中、表示器において上記の内容に応じて決まる範囲に表示される第一画像よりも第一画像とは異なる範囲に表示される第二画像が低画質となるように領域の前記画像データを生成する。このような構成であれば、領域の画像の一部を低画質化することで当該領域の画像データの伝送負荷を軽減することが可能となる。また、領域の画像中、低画質化する部分（第二画像）については、第二ユーザと表示器との位置関係や第二ユーザの姿勢に応じて適切に選定することが可能となる。

また、本発明の画像表示システムについて好適な構成を述べると、前記第一コンピュータは、前記少なくとも一つの内容から前記第二ユーザの中心視野領域と対応する前記範囲を特定する処理を実行するとよい。
上記の構成では、領域の画像中、第二ユーザの中心視野領域と対応する範囲以外の画像を低画質化することになる。これは、中心視野領域以外の画像が視覚的に認識され難い画像であるため、当該画像の画質が比較的低かったとしても、第二ユーザが感じる対話の臨場感に及ぶ影響が小さいことを反映している。このため、上記の構成によれば、画像表示システムを用いた対話の臨場感を損なわずに、データ伝送負荷を効果的に軽減することが可能となる。なお、かかる効果は、上記の領域が広域になるほど有効に発揮されることとなる。

また、本発明の画像表示システムについてより好適な構成を述べると、前記第一コンピュータは、前記フレーム画像中の背景画像を示す背景画像データを、前記背景画像以外の画像データと分けて生成して前記第二コンピュータに向けて送信する処理を実行し、前記第一コンピュータが前記背景画像データを送信する処理を実行する頻度は、前記第一コンピュータが前記撮像装置から前記フレーム画像を取得する頻度よりも少ないとよい。
上記の構成では、フレーム画像中の背景画像を示す背景画像データを、背景画像以外の画像データと分けて生成して第二コンピュータに向けて送信する。また、背景画像データの送信頻度は、第一コンピュータが撮像装置からフレーム画像を取得する頻度よりも少なくなっている。これは、一般に背景画像での変化が少ないことを反映している。すなわち、背景画像の画像データについては送信回数がより少なく済む。このため、上記の構成のように背景画像データの送信頻度をフレーム画像の取得頻度よりも少なくすることで、データ伝送負荷をより軽減することが可能となる。

また、本発明の画像表示システムについて更に好適な構成を述べると、前記第二ユーザの身体各部の位置に関する計測対象値を計測する計測装置を有し、前記第一コンピュータは、前回の前記フレーム画像の取得時から今回の前記フレーム画像の取得時までの期間中における前記計測対象値の計測結果の変化に基づいて、前記身体各部のうち、前記期間中に動いた被特定部分を特定する処理と、前記第一コンピュータが今回取得した前記フレーム画像における前記第一ユーザの人物画像のうち、前記被特定部分を含む前記領域を抽出する処理と、を更に実行し、抽出した前記領域の前記画像データを生成する際、前記領域の画像中の前記第一画像よりも前記第二画像が低画質となるように前記領域の前記画像データを生成するとよい。
上記の構成では、第一ユーザの身体各部の位置に関する計測対象値の計測結果の変化に基づいて、第一ユーザの身体中、前回のフレーム画像の取得時から今回のフレーム画像の取得時までの期間中に動いた部分（すなわち、被特定部分）を特定する。これにより、被特定部分をより的確に特定することが可能となる。また、第一コンピュータは、今回取得したフレーム画像における第一ユーザの人物画像から被特定部分を含む領域を抽出し、当該領域の画像データを第二コンピュータに向けて送信する。この際、領域の画像中の第一画像よりも第二画像が低画質となるように領域の画像データを生成する。これにより、データ伝送負荷を一段と軽減することが可能となる。

また、本発明の画像表示システムについて尚一層好適な構成を述べると、前記第一コンピュータは、前記被特定部分を特定する処理において、前記期間中における前記計測対象値の計測結果の変化に基づいて、前記第一ユーザの骨格において複数設定された設定部位のうち、前記期間中に動いた前記設定部位を特定し、該設定部位を少なくとも含むように前記被特定部分を特定するとよい。
上記の構成では、第一ユーザの骨格において複数設定された設定部位について動きの有無を見ることで被特定部分を特定することが可能となる。このような構成であれば、被特定部分を特定するにあたり、各設定部位における動きの有無を確認すればよいので、より容易に被特定部分を特定することが可能となる。

また、本発明の画像表示システムについて殊更好適な構成を述べると、前記表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との間の距離を計測する距離計測装置を有し、前記第一コンピュータは、前記第二コンピュータから前記距離の計測結果を取得し、前記距離が予め設定された大きさ以上であるときには、前記第一コンピュータが今回取得した前記フレーム画像における前記第一ユーザの人物画像の画質を所定の画質まで低下させ、低下後の画質の前記人物画像を示す低画質人物画像データを生成して前記第二コンピュータに向けて送信するとよい。
上記の構成では、第二ユーザと表示器との間の距離が予め設定された大きさ以上であるとき、第一ユーザの人物画像の画質を低下させ、低下後の画質の人物画像を示すデータ（低画質人物画像データ）を生成して第二コンピュータに向けて送信する。これは、上記の距離が設定値よりも大きくなったとき、表示器に表示されている画像の画質が多少低下したとしても、第二ユーザが感じる対話の臨場感に及ぶ影響が小さいことを反映している。このため、上記の構成によれば、対話の臨場感を確保しつつ、データ伝送負荷を軽減することが可能となる。

また、前述した課題は、本発明の画像表示方法によれば、撮像装置が撮像した第一ユーザの映像を構成するフレーム画像を取得する第一コンピュータと、前記フレーム画像を取得するために前記第一コンピュータと通信する第二コンピュータと、を用いて、該第二コンピュータが取得した前記フレーム画像を表示器により前記第一ユーザとは異なる場所に居る第二ユーザに対して表示する画像表示方法であって、（Ａ）前記表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との位置関係及び前記第二ユーザの姿勢のうち、少なくとも一つの内容に関する情報を情報提供装置が前記第二コンピュータに提供することと、（Ｂ）前記第一コンピュータが、前記第二コンピュータが前記情報から特定した前記少なくとも一つの内容を取得する処理を実行することと、（Ｃ）前記第一コンピュータが、今回取得した前記フレーム画像のうち、前記表示器に表示される領域の画像データを生成して前記第二コンピュータに向けて送信する処理を実行することと、（Ｄ）前記第二コンピュータが、前記領域の前記画像データを受信すると、該画像データの受信前に前記表示器に表示された前記フレーム画像中、前記領域と対応した位置に前記領域の画像を配置させることで構成された前記フレーム画像を、前記表示器に表示させることと、を有し、（Ｅ）前記領域の前記画像データを生成する際、前記第一コンピュータは、前記領域の画像中、前記表示器において前記少なくとも一つの内容に応じて決まる範囲に表示される第一画像よりも該第一画像とは異なる範囲に表示される第二画像が低画質となるように前記領域の前記画像データを生成することにより解決される。
上記の方法によれば、領域の画像の一部を低画質化することで当該領域の画像データの伝送負荷が軽減される。また、領域の画像中、低画質化する部分（第二画像）については、第二ユーザと表示器との位置関係や第二ユーザの姿勢に関する情報に応じて適切に選定されるようになる。

本発明の画像表示システム及び画像表示方法によれば、第一コンピュータが今回取得したフレーム画像中、表示器に表示させる領域の画像の画像データを生成する際、領域の画像の一部を低画質化して上記画像データを生成する。これにより、領域の画像データの伝送負荷が軽減されることになる。また、領域の画像中、低画質化する部分（第二画像）については、第二ユーザと表示器との位置関係や第二ユーザの姿勢に応じて適切に選定されるようになる。この結果、よりスムーズな画像データの送受信を実現しつつ、第一ユーザの人物画像を表示器に表示しながら行われる対話の臨場感（リアル感）を確保することが可能となる。

本発明の一実施形態に係る画像表示システムの概念図を示す図である。画像表示システムを構成する通信ユニットの機器構成を示す図である。撮像装置が撮像した映像のフレーム画像と深度データとを示す図である。本発明の一実施形態において用いられる表示器の状態を示す図であり、図中の（Ａ）には非対話時における状態を、（Ｂ）には対話時の状態をそれぞれ示している。背景画像及び人物画像の分離及び合成についての説明図である。図６の（Ａ）、（Ｂ）及び（Ｃ）は、低画質化処理についての説明図である。図７の（Ａ）、（Ｂ）、（Ｃ）及び（Ｄ）は、画像の切り出しに関する説明図である。画質調整処理についての説明図である。対話通信フローの流れを示した図である。通信前処理の流れを示した図である。現在情報通知処理の流れを示した図である。画像加工送信処理の流れを示した図である。切り出し領域の選定処理の流れを示した図である。切り出し領域の算出処理の流れを示した図である。画質調整処理の流れを示した図である。表示映像の再構築処理の流れを示した図である。

以下、本発明の一実施形態（以下、本実施形態）について説明する。なお、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。

＜＜本実施形態に係る画像表示システムの用途＞＞
先ず、本実施形態に係る画像表示システム（以下、本システムＳ）について、その用途を概説する。本システムＳは、互いに離れた場所に居るユーザ同士が互いの姿を見ながら対話するために用いられる。つまり、本システムＳを用いた対話（以下、対話通信）において、各ユーザは、実際に対話相手と会って話をしているような感覚を感じるようになる。以下の説明では、上記の視覚的効果を臨場感（リアル感）と呼ぶこととする。

なお、本実施形態の対話通信は、各ユーザが各自宅の所定の部屋（自分の部屋）内に居るときに行われるものである。ただし、これに限定されるものではなく、ユーザが自宅以外の場所、例えば、集会所や商業施設、あるいは学校の教室や学習塾、病院等の公共施設、会社や事務所等に居るときに本システムＳによる対話通信が行われてもよい。また、同じ建物内に居るユーザが当該建物内の異なる部屋に居るときに対話通信が行われてもよい。
以上のように本システムＳは、互いに異なる場所に居る者同士が相手の顔を見ながら対話するシチュエーションにおいて幅広く利用することが可能である。

以下、ユーザであるＡさんとＢさんとが対話通信を行うケースを例に挙げて説明する。また、以下では、Ｂさん側の視点（換言すると、Ａさんの姿を見る立場）から説明することとする。かかるケースにおいて、Ａさんが「第一ユーザ」に相当し、Ｂさんが「第二ユーザ」に相当する。ここで、「第一ユーザ」及び「第二ユーザ」は、画像を見る者及び見られる者の関係に応じて切り替わる相対的な概念であり、Ａさん側の視点を基準としたときにはＢさんが「第一ユーザ」に相当し、Ａさんが「第二ユーザ」に相当することとなる。

Ａさん及びＢさんの双方は、対話通信を行うにあたり、各自の部屋に入室する。具体的に説明すると、各自の部屋にはミラー型の表示器（詳しくは図２に図示のディスプレイ５）が配置されている。Ａさん及びＢさんは、対話通信を行う上で、表示器の正面位置まで移動する。この際、本システムＳが起動していると対話通信が開始される。なお、システム起動タイミングについては、特に限定されるものではなく、好適なタイミングであれば上記の内容と異なるタイミングであってもよい。

対話通信が開始されると、Ｂさん側の表示器にＡさんの画像が表示される。この画像は、Ａさん側に設けられたカメラ２（撮像装置に相当）が撮像した画像であり、厳密に説明すると、当該カメラ２が撮像したＡさんの映像を構成するフレーム画像である。すなわち、Ｂさん側の表示器に表示される画像は、一定の速度（具体的には、フレーム画像の取得速度に相当する速度）にて切り替わるようになる。これにより、表示器にはＡさんの連続画像、すなわち映像が表示されるようになり、Ｂさんは、あたかもＡさんと対面しているような感じ（臨場感）を感じるようになる。

ちなみに、Ｂさん側の表示器には、Ａさんの全身画像が等身大で表示されることになっている。具体的に説明すると、表示器は、前述したようにミラー型のディスプレイ５によって構成されており、一般的な姿見と同様の形状・サイズとなっており、Ａさんの全身映像を等身大で表示するのに適した形状及びサイズとなっている。このような構成により、Ｂさんは、表示器に映る等身大のＡさんを見るようになり、あたかもガラス越しにＡさんと会っている感じを感じるようになる。

＜＜本実施形態に係る画像表示システムの構成について＞＞
次に、本システムＳについてその具体的構成を説明する。本システムＳは、Ａさんの自宅及びＢさんの自宅の双方に用意された情報通信用のユニット（以下、通信ユニット）によって構成されている。具体的に説明すると、Ａさんの自宅においてＡさんにより利用される第一通信ユニット１００Ａと、Ｂさんの自宅においてＢさんにより利用される第二通信ユニット１００Ｂによって本システムＳが構成されている。以下、第一通信ユニット１００Ａ及び第二通信ユニット１００Ｂのそれぞれの構成について説明する。

なお、「第一通信ユニット１００Ａ」及び「第二通信ユニット１００Ｂ」は、前述した第一ユーザ及び第二ユーザの関係に付随して決まる概念であり、Ａさんを第一ユーザとして見た場合、Ａさんが利用する通信ユニットが第一通信ユニット１００Ａに該当し、Ｂさんが利用する通信ユニットが第二通信ユニット１００Ｂに該当する。反対に、Ａさんを第二ユーザとして見た場合には、Ｂさんが利用する通信ユニットが第一通信ユニット１００Ａに該当し、Ａさんが利用する通信ユニットが第二通信ユニット１００Ｂに該当する。

第一通信ユニット１００Ａ及び第二通信ユニット１００Ｂは、略同様のメカ構成となっており、具体的に説明すると、図１に示すように、いずれのユニットにもホームサーバ１とカメラ２とマイク３と赤外線センサ４とディスプレイ５とスピーカ６とが搭載されている。これらの機器のうち、カメラ２、マイク３、赤外線センサ４、ディスプレイ５及びスピーカ６は、各ユーザの自宅における各自の部屋（対面対話を行う際に入室する部屋）内に配置されている。図１は、本システムＳの構成を示す概念図である。

ホームサーバ１は、本システムＳの中枢をなす装置であり、ＣＰＵ、ＲＯＭやＲＡＭ等のメモリ、通信用インタフェース及びハードディスクドライブ等を有するコンピュータである。なお、第一通信ユニット１００Ａが有するホームサーバ１は、第一コンピュータに相当し、第二通信ユニット１００Ｂが有するホームサーバ１は、第二コンピュータに相当する。

また、ホームサーバ１には、対話通信用のプログラムがインストールされている。このプログラムがＣＰＵに実行されることで、ホームサーバ１が後述する対話通信機能を発揮するようになる。また、ホームサーバ１同士は、インターネット等の外部通信ネットワークＧＮを介して通信可能に接続されており、互いに各種データの送受信を行う。ここで、ホームサーバ１が送受信するデータは、対話通信に必要なデータであり、例えば、各種画像の画像データや音声データである。

カメラ２は、撮像範囲（画角）内にある被写体の映像を撮像する撮像装置であり、本実施形態では公知のネットワークカメラによって構成されている。また、カメラ２は、ユーザ（Ａさん、Ｂさん）がディスプレイ５の前に立っているときに当該ユーザの全身像を撮像する。すなわち、第一通信ユニット１００Ａが有するカメラ２は、Ａさんの部屋内に設置されたディスプレイ５の前にＡさんが立っているとき、Ａさん及びその周辺を撮像する。同様に、第二通信ユニット１００Ｂが有するカメラ２は、Ｂさんの部屋内に設置されたディスプレイ５の前にＢさんが立っているとき、Ｂさん及びその周辺を撮像する。

なお、本実施形態では、図２に示すように、カメラ２のレンズがディスプレイ５の表示画面５ａに面している。ここで、表示画面５ａを構成するディスプレイ５の鏡面パネルは、透明なガラスによって構成されている。したがって、カメラ２は、ディスプレイ５の前に立っているユーザを上記の鏡面パネル越しで撮像することになる。図２は、各通信ユニットの機器構成を示す図であり、各機器の配置位置についての説明図である。ただし、カメラ２の配置位置は、図２に図示の位置に限定されるものではなく、ディスプレイ５から離れた位置でもよい。

ちなみに、ユーザがディスプレイ５の前に立っていないとき、カメラ２は、当該カメラ２が設置された部屋の内部空間（厳密には、カメラ２の画角内にある範囲）を撮像することになっている。この際に撮像された映像のフレーム画像は、「背景画像」として利用されることになっている。

そして、カメラ２の撮像映像を構成するフレーム画像は、データ化されてホームサーバ１（厳密には、同じ通信ユニットに属するホームサーバ１）に伝送される。

マイク３は、ユーザの話し声等、マイク３が設置された部屋内で発生する音を集音する装置である。そして、マイク３は、集音した音を示す音声信号をホームサーバ１（厳密には、同じ通信ユニットに属するホームサーバ１）に対して出力する。なお、本実施形態では、図２に示すようにディスプレイ５の直上位置にマイクが設置されている。

赤外線センサ４は、所謂デプスセンサであり、赤外線方式にて計測対象物の深度を計測するセンサである。具体的に説明すると、赤外線センサ４は、計測対象物に向けて発光部４ａから赤外線を照射し、その反射光を受光部４ｂにて受光することにより深度を計測する。ここで、「深度」とは、基準位置から計測対象物までの距離（すなわち、奥行距離）のことである。ちなみに、本実施形態では、ディスプレイ５の表示画面５ａ（前面）の位置が基準位置として設定されている。つまり、赤外線センサ４は、深度として、表示画面５ａの法線方向における計測対象物と表示画面５ａとの間の距離を計測する。ただし、基準位置については、上記の位置に限定されず、任意の位置に設定することが可能である。

また、深度の計測結果は、カメラ２が撮像した映像のフレーム画像を所定数の画素に分割した際の当該画素毎に得られる。そして、画素毎に得た深度の計測結果をフレーム画像単位でまとめることで、図３に図示の深度データが得られるようになる。この深度データは、フレーム画像について画素別に深度の計測結果を示すデータであり、図３に図示するように、深度の計測結果に応じて各画素の色・濃淡を設定して得られるビットマップデータとなっている。図３は、フレーム画像と当該フレーム画像についての深度データとを示す図である。

深度データについてより詳しく説明すると、深度データは、カメラ２の撮像映像を構成するフレーム画像の各々について取得されることになっている。また、図３に示すように、深度データ中、フレーム画像において奥側に位置する被写体の画像に属する画素（図中、黒塗りの画素）と、手前側に位置する被写体の画像に属する画素（図中、白塗りの画素）とでは、当然ながら深度の計測結果が異なってくる。このような性質を利用すれば、深度データを構成する画素のうち、背景画像に属する画素と人物画像に属する画素とを区別、分離することが可能となる。

以上の赤外線センサ４がＡさんの部屋及びＢさんの部屋の双方に設置されている。つまり、Ａさんの部屋に設置されたディスプレイ５の前にＡさんが立つと、第一通信ユニット１００Ａの赤外線センサ４がＡさんの身体各部について深度を計測するようになる。すなわち、第一通信ユニット１００Ａの赤外線センサ４は、Ａさんの身体各部の位置に関する計測対象値として深度を計測する計測装置に相当する。

同様に、Ｂさんの部屋に設置されたディスプレイ５の前にＢさんが立つと、第二通信ユニット１００Ｂの赤外線センサ４がＢさんの身体各部について深度を計測するようになる。すなわち、第二通信ユニット１００Ｂの赤外線センサ４は、ディスプレイ５の前にＢさんが居る状態で深度、換言すると、Ｂさんとディスプレイ５との間の距離を計測する距離計測装置に相当する。

なお、身体各部の位置に関する計測対象値を計測する装置（計測装置）については、赤外線センサ４に限定されるものではなく、例えば、ユーザに装着されて身体各部の位置を直接計測するセンサ（モーションキャプチャ用のセンサ）であってもよい。また、ディスプレイ５との間の距離を計測する方法については、赤外線センサ４を用いる方法に限定されるものではなく、例えば、ユーザの立ち位置をセンサ等にて検知し、その検知結果からディスプレイ５との間の距離を計測してもよい。あるいは、カメラ２の撮影映像を解析することで当該距離を割り出してもよい。

スピーカ６は、ホームサーバ１が受信した音声データを展開することで再生される音声（再生音）を発する装置である。具体的に説明すると、第一通信ユニット１００Ａのホームサーバ１は、第二通信ユニット１００Ｂのホームサーバ１から音声データを受信すると、当該音声データを展開し、Ｂさんの部屋で集音された音声をスピーカ６によって再生させる。他方、第二通信ユニット１００Ｂのホームサーバ１は、第一通信ユニット１００Ａのホームサーバ１から音声データを受信すると、当該音声を展開し、Ａさんの部屋で集音された音声をスピーカ６によって再生させる。なお、本実施形態では、図２に示すように、スピーカ６がディスプレイ５の横幅方向においてディスプレイ５を挟む位置に複数（図２では４個）設置されている。

ディスプレイ５は、ホームサーバ１が取得したフレーム画像を表示画面５ａにて画像を表示する表示器である。より具体的に説明すると、第一通信ユニット１００Ａが有するディスプレイ５は、第一通信ユニット１００Ａのホームサーバ１が取得したフレーム画像をＡさんに対して表示する。他方、第二通信ユニット１００Ｂが有するディスプレイ５は、第二通信ユニット１００Ｂのホームサーバ１が取得したフレーム画像をＢさんに対して表示する。

また、本実施形態に係るディスプレイ５は、前述したように、ミラー型の表示器によって構成されている。さらに、本実施形態に係るディスプレイ５は、通常時には、図４の（Ａ）に示すように部屋内に配置された家具、具体的には姿見として機能する。つまり、非対話時（対話通信を行っていないとき）には、ディスプレイ５の表示画面５ａにフレーム画像が表示されないため、同表示画面５ａが鏡面として機能する。一方、対話時（対話通信を行っているとき）には、図４の（Ｂ）に示すように、表示画面５ａにフレーム画像が表示（再生）されるようになる。図４の（Ａ）及び（Ｂ）は、本実施形態に係るディスプレイ５の構成例を示した図であり、（Ａ）が非対話時の状態を、（Ｂ）が対話時の状態をそれぞれ示している。

以上のように本実施形態に係るディスプレイ５は、非対話時には姿見として利用され、対面時には表示画面５ａにてフレーム画像を表示するようになる。これにより、非対話時には表示画面５ａの存在が気付かれ難くなる。その一方で、対話時には、あたかも対話相手とガラス越しに対面しているような視覚的演出効果をユーザに感じさせるようになる。

なお、画像の表示器と姿見とを兼用する構成については、例えば国際公開第２００９／１２２７１６号に記載された構成のように公知の構成が利用可能である。また、ディスプレイ５については、姿見として兼用される構成に限定されるものではない。ディスプレイ５として用いられる機器については、対話相手の全身画像を表示するのに十分なサイズを有しているものであればよい。そして、非対話時に表示画面５ａの存在を気付き難くする観点からは、部屋内に設置された他の家具や建築材料であって鏡面部を有するものが好適であり、例えば扉（ガラス戸）や窓（ガラス窓）をディスプレイ５として利用してもよい。なお、ディスプレイ５については、家具や建築材料として兼用されるものに限定されず、起動中、表示画面５ａを常時形成する通常の表示器であってもよい。

＜＜ホームサーバの機能について＞＞
次に、各通信ユニットのホームサーバ１が具備する対話通信機能について説明する。なお、以下では、対話通信機能のうち、画像表示に関する機能のみを説明することとし、音声再生に関する機能等については説明を省略することとする。また、以下では、説明を分かり易くするため、Ａさん側（つまり、第一通信ユニット１００Ａ）から配信されてくる画像をＢさん側（つまり、第二通信ユニット１００Ｂ）にて表示するケースを例に挙げて説明する。なお、付言しておくと、以下に説明する内容は、視点を変えた場合にも成立することになる。つまり、以下の説明中、第一通信ユニット１００Ａのホームサーバ１の機能については、第二通信ユニット１００Ｂのホームサーバ１にも具備されており、第二通信ユニット１００Ｂのホームサーバ１の機能については、第一通信ユニット１００Ａのホームサーバ１にも具備されている。

第一通信ユニット１００Ａのホームサーバ１は、画像配信側のサーバとして機能し、具体的には下記（１）〜（５）の機能を具備している。
（１）フレーム画像取得機能
（２）骨格モデル特定機能
（３）現在情報特定・通知機能
（４）相手方視野推定機能
（５）画像加工・送信機能

また、第二通信ユニット１００Ｂのホームサーバ１は、画像表示側のサーバとして機能し、具体的には下記（６）の機能を具備している。
（６）表示画像再構築機能
以下、各機能について詳細に説明する。

（フレーム画像取得機能）
第一通信ユニット１００Ａのホームサーバ１は、同ユニットに属するカメラ２のフレームレートに相当する間隔で、当該カメラ２が撮像したフレーム画像を取得する。より具体的に説明すると、Ａさんが部屋（厳密には、対話通信の際に入室する部屋）内でディスプレイ５の前方に居るとき、カメラ２は、Ａさん及びその背景を撮像する。このため、ホームサーバ１は、Ａさんの人物画像とその背景画像を含むフレーム画像を取得することになる。一方、Ａさんが部屋内に居ないとき、ホームサーバ１は、背景画像（部屋の内部空間の画像）のみからなるフレーム画像を取得することになる。

なお、第一通信ユニット１００Ａのホームサーバ１は、フレーム画像を取得する際、当該フレーム画像についての深度データを取得する。フレーム画像についての深度データは、前述したように、当該フレーム画像を所定の画素にて分割した際の各画素について深度の計測結果を示すものであり、具体的には図３に図示したビットマップデータによって構成されている。

（骨格モデル特定機能）
第一通信ユニット１００Ａのホームサーバ１は、前述したように、フレーム画像を取得する都度、当該フレーム画像についての深度データを取得する。そして、ホームサーバ１は、フレーム画像（厳密には、フレーム画像中のＡさんの人物画像）と当該フレーム画像についての深度データに基づいて、Ａさんの骨格モデルを特定する。具体的に説明すると、Ａさんの人物画像を含むフレーム画像についての深度データでは、図３に示すように、人物画像に属する画素（図３中、白抜きの画素）と、それ以外の画像に属する画素（図３中、黒抜きの画素や斜線ハッチングの画素）とでは、明らかに深度が異なっている。このような特徴を利用して、ホームサーバ１は、深度データ中、人物画像に属する画素を抽出する。その上で、ホームサーバ１は、抽出した画素からＡさんの骨格モデルを特定する。

骨格モデルは、図３に示すように、人間の骨格、特に頭部、肩、肘、手、脚、腰、股関節、膝、足に関する位置情報を簡易的にモデル化したものである。ここで、骨格モデルにおいて設定された上記の部位は、本発明の「設定部位」に相当する。また、当該設定部位の中には、第一ユーザの上半身の体軸上にある部位が含まれており、具体的には、頭部及び腰が該当する。ちなみに、骨格モデルを特定する方法については、公知の方法（例えば、特開２０１４−１５５６９３号公報や特開２０１３−１１６３１１号公報に記載の方法）が利用可能である。

そして、第一通信ユニット１００Ａのホームサーバ１は、深度データを取得する都度、換言すると、フレーム画像を取得する都度、骨格モデルを特定する。これにより、骨格モデルとして表されるＡさんの身体各部の位置変化、より具体的には骨格モデルにおいて設定された複数の設定部位の各々について、動き（変位）の有無を検出することが可能となる。

また、第一通信ユニット１００Ａのホームサーバ１は、図３に示すように、あるフレーム画像についての深度データから特定した骨格モデルに基づき、当該あるフレーム画像の中から人物画像を抽出することが可能である。なお、本明細書では、骨格モデルに基づいてフレーム画像の中から人物画像を抽出する方法については説明を省略するが、大まかな手順を述べると、特定した骨格モデルに基づいて深度データ中、人物画像に属する画素群を特定する。その後、特定した画素群と対応する領域をフレーム画像の中から抽出する。かかる手順によって抽出された画像がフレーム画像中の人物画像に該当する。

（現在情報特定・通知機能）
第一通信ユニット１００Ａのホームサーバ１は、対話通信においてＡさんの現在の状態に関する情報（以下、現在情報）を特定し、当該現在情報を第二通信ユニット１００Ｂのホームサーバ１に向けて送信する。ここで、「現在情報」とは、ディスプレイ５の前に居る状態のＡさんとディスプレイ５との位置関係、及び、Ａさんの姿勢のうち、少なくとも一つに関する内容のことであり、本実施形態では、Ａさんとディスプレイ５との間の距離（奥行距離）、Ａさんの身長、及び、Ａさんの顔の向きである。なお、現在情報として特定される内容については、上記内容に限定されるものではなく、他の情報、例えばＡさんの視線の向きや顔の位置（垂直方向及び水平方向の両方向における位置）が含まれてもよい。

各現在情報の特定方法について説明すると、Ａさんとディスプレイ５との間の距離については、Ａさんがディスプレイ５の前に立っている状態で赤外線センサ４が計測した際の深度の計測結果、すなわち、深度データから特定することが可能である。つまり、第一通信ユニット１００Ａのホームサーバ１は、赤外線センサ４の計測結果に基づいてＡさんとディスプレイ５との間の距離を特定する。換言すると、赤外線センサ４は、Ａさんとディスプレイ５との間の距離に関する情報として、深度の計測結果をホームサーバ１に提供する情報提供装置に該当すると言える。

Ａさんの身長については、上記の方法により特定したＡさんとディスプレイ５との間の距離と、深度データから特定した骨格モデルと、に基づいて特定することが可能である。より具体的に説明すると、第一通信ユニット１００Ａのホームサーバ１は、骨格モデル上でのＡさんの身長（以下、モデル上の身長）を割り出す。また、ホームサーバ１は、Ａさんとディスプレイ５との間の距離から、実際のＡさんの身長に対するモデル上の身長の比率を算出する。そして、ホームサーバ１は、割り出したモデル上の身長、及び、算出した比率に基づいてＡさんの身長（実際の身長）を特定する。

Ａさんの顔の向きは、Ａさんがディスプレイ５の前に立っている状態でカメラ２が撮像した際のフレーム画像から特定することが可能である。より具体的に説明すると、第一通信ユニット１００Ａのホームサーバ１は、上記のフレーム画像に対して公知の画像解析処理を適用し、Ａさんの顔の向きを特定する。換言すると、カメラ２は、Ａさんの姿勢（顔の向き）に関する情報として、Ａさんの人物画像を含むフレーム画像をホームサーバ１に提供する情報提供装置に該当すると言える。

第一通信ユニット１００Ａのホームサーバ１は、上記３つの現在情報を特定した後、これらを第二通信ユニット１００Ｂのホームサーバ１に通知する。一方、現在情報の特定及び通知は、第二通信ユニット１００Ｂのホームサーバ１においても同様に行われる。すなわち、第二通信ユニット１００Ｂのホームサーバ１は、Ｂさんがディスプレイ５の前に居る状態において、Ｂさんとディスプレイ５との間の距離、Ｂさんの身長及びＢさんの顔の向きを特定し、これらを第一通信ユニット１００Ａのホームサーバ１に通知する。なお、第二通信ユニット１００Ｂの赤外線センサ４は、情報提供装置として、Ｂさんとディスプレイ５との間の距離に関する情報、より具体的には深度の計測結果をホームサーバ１に提供する。また、第二通信ユニット１００Ｂのカメラ２は、情報提供装置として、Ｂさんの姿勢（顔の向き）に関する情報、より具体的にはＢさんの人物画像を含むフレーム画像をホームサーバ１に提供する。

そして、第一通信ユニット１００Ａのホームサーバ１は、第二通信ユニット１００Ｂのホームサーバ１がＢさんの現在情報を通知することで、当該現在情報（すなわち、第二通信ユニット１００Ｂのホームサーバ１が赤外線センサ４やカメラ２からの提供情報に基づいて特定した内容）を取得するようになる。

（相手方視野推定機能）
第一通信ユニット１００Ａのホームサーバ１は、取得したＢさんの現在情報に基づいて、Ｂさんの視野と対応する領域、より具体的には中心視野領域と対応する範囲を推定する。より具体的に説明すると、ホームサーバ１は、Ｂさんの身長及び顔の向きに関する情報からＢさんの目線の高さ（目線高さ）及び向き（目線向き）を割り出す。そして、ホームサーバ１は、上記の目線高さから上記の目線向きに向かって延出する仮想線を基準にして所定の角度（視野角）分だけ拡がった範囲を特定する。かかる範囲がＢさんの中心視野領域と対応する範囲（以下、単に中心視野領域と言う）に相当する。

第一通信ユニット１００Ａのホームサーバ１は、上記の方法によりＢさんの中心視野領域を推定した後、その推定結果を示す位置を記憶する。ここで、「推定結果を示す位置」とは、第二通信ユニット１００Ｂが有するディスプレイ５の表示画面５ａに対するＢさんの中心視野領域の相対位置のことである。

以上のように本実施形態では、対話相手の中心視野領域を、対話相手の身長及び顔の向きに基づいて適切に推定することが可能である。なお、中心視野領域を推定する方法としては、上記の方法に限定されるものではなく、中心視野領域を推定するのに好適な方法である限り、他の方法を採用してもよい。

（画像加工・送信機能）
第一通信ユニット１００Ａのホームサーバ１は、第二通信ユニット１００Ｂのディスプレイ５にＢさんの人物画像を含むフレーム画像を表示させるために、第二通信ユニット１００Ｂのホームサーバ１に向けて画像データを送信する。ここで、送信される画像データについて説明すると、対話通信の臨場感を確保する目的から原則として高画質な画像データを送信することとしている。一方、高画質な画像データであるほど、データ伝送時における送信負荷（以下、データ伝送負荷）が大きくなる。このため、第一通信ユニット１００Ａのホームサーバ１は、データ伝送負荷を軽減すべく、カメラ２から取得したフレーム画像に対して所定の加工処理を行い、処理後の画像のデータ（画像データ）を送信することとしている。

以下、データ伝送負荷を軽減するための加工処理について図５乃至８を参照しながら説明する。図５は、フレーム画像の背景画像及び人物画像を分離する処理についての説明図である。図６の（Ａ）、（Ｂ）及び（Ｃ）は、低画質化処理についての説明図であり、図中の（Ａ）は、Ｂさんとディスプレイ５との位置関係を示し、（Ｂ）は、Ｂさんがディスプレイ５に近い位置に居るときの当該ディスプレイ５の表示画像を示し、（Ｃ）は、Ｂさんがディスプレイ５から離れた位置に居るときの当該ディスプレイ５の表示画像を示している。図７の（Ａ）、（Ｂ）、（Ｃ）及び（Ｄ）は、フレーム画像の中から選択された画像の切り出しに関する説明図であり、図中の（Ａ）は、前回のフレーム画像と今回のフレーム画像とを対比した図であり、（Ｂ）は、前回の骨格モデルと今回の骨格モデルとを対比した図であり、（Ｃ）は、今回のフレーム画像の中から送信対象として切り出される画像を示す図であり、（Ｄ）は、切り出された画像を用いて表示画像を再構築する手順を示す図である。図８は、画質調整処理についての説明図である。

先ず、図５を参照しながら画像分離処理について説明する。第一通信ユニット１００Ａのホームサーバ１は、対話通信が開始されると、カメラ２から順次送られてくるフレーム画像（撮像画像）を取得する。そして、取得したフレーム画像中にＡさんの人物画像及びその背景画像が含まれているとき、ホームサーバ１は、図５に示すようにフレーム画像から人物画像を抽出し、当該人物画像と背景画像とを分離する。その上で、ホームサーバ１は、人物画像の画像データのみ送信する。

一方、背景画像の画像データについては、背景画像以外の画像データと分けて生成され、第二通信ユニット１００Ｂのホームサーバ１に向けて送信されることになっている。なお、本実施形態では、背景画像データの送信処理の実行頻度が第一通信ユニット１００Ａのホームサーバ１がカメラ２からフレーム画像を取得する頻度よりも少なくなっている。

より具体的に説明すると、第一通信ユニット１００Ａのホームサーバ１は、対話通信の開始直後や後述する通信前処理において、背景画像のみからなるフレーム画像をカメラ２から取得する。かかるフレーム画像の取得後、ホームサーバ１は、当該フレーム画像の画像データを背景画像の画像データとして送信する。以降、対話通信が終了するまでの間、ホームサーバ１が背景画像の画像データを送信することはない。このように背景画像の画像データの送信を対話通信の開始時等に限定しているのは、一般に背景画像における変化が少ないことを反映しているためである。

そして、ホームサーバ１は、対話通信の開始時に背景画像の画像データを一回送信すると、それ以降はフレーム画像中の人物画像の画像データのみを送信することとし、背景画像の画像データについては送信しない。これにより、フレーム画像全体の画像データ（すなわち、人物画像及び背景画像の双方の画像データ）を送信する場合に比して、データ伝送負荷を軽減することが可能となる。

なお、分離された背景画像と人物画像とは、第二通信ユニット１００Ｂのホームサーバ１によって再合成される。より具体的に説明すると、第二通信ユニット１００Ｂのホームサーバ１は、第一通信ユニット１００Ａのホームサーバ１が対話通信時等に送信した背景画像の画像データと、その後に送信されてくる人物画像の画像データと、をそれぞれ受信して展開し、両画像を合成した画像（合成画像）を構築する。かかる合成画像は、第一通信ユニット１００Ａのホームサーバ１がカメラ２から取得した時点でのフレーム画像、すなわち、人物画像と背景画像とに分離される前のフレーム画像と略一致する。

第二通信ユニット１００Ｂのホームサーバ１は、以上のように背景画像及び人物画像を合成することで、新たなフレーム画像を取得する。そして、新たに取得したフレーム画像は、今回の表示画像としてディスプレイ５に表示されるようになる。

次に、図６の（Ａ）、（Ｂ）及び（Ｃ）を参照しながら低画質化処理について説明する。第一通信ユニット１００Ａのホームサーバ１は、前述したように、カメラ２から取得したフレーム画像の中からＡさんの人物画像を抽出し、当該人物画像のデータを送信する。一方、第一通信ユニット１００Ａのホームサーバ１は、Ｂさんの現在情報として、Ｂさんとディスプレイ５との間の距離を第二通信ユニット１００Ｂのホームサーバ１から取得する。

そして、Ｂさんとディスプレイ５との間の距離が閾値未満であるとき（例えば、図６の（Ａ）において記号ｄ１にて示す距離であるとき）、第一通信ユニット１００Ａのホームサーバ１は、抽出した人物画像をそのままの画質で表示する画像データを生成し、当該画像データを第二通信ユニット１００Ｂのホームサーバ１に向けて送信する。ここで、閾値は、低画質化処理の実行の有無を判定する際の基準値であり、上記の距離に関して予め設定された大きさの値となっている。なお、閾値の具体的な値については、特に限定されるものではないが、低画質化処理の実行の有無を判定するのに好適な値に設定されるのが望ましい。

一方で、Ｂさんとディスプレイ５との間の距離が閾値以上であるとき（例えば、図６の（Ａ）において記号ｄ２にて示す距離であるとき）、第一通信ユニット１００Ａのホームサーバ１は、抽出した人物画像に対して低画質化処理を実行する。この低画質化処理では、抽出した人物画像の画質を所定の画質まで低下させ、低下後の画質の人物画像を示す画像データ（以下、低画質人物画像データ）を生成する。ここで、「画質を低下させる」とは、解像度を下げることを意味する。また、上述した「所定の画質」については、少なくとも第一通信ユニット１００Ａのホームサーバ１がカメラ２から取得した時点でのフレーム画像の画質、すなわち、原画像の画質よりも低い画質に設定されることとし、望ましくは、対話通信の臨場感を損なわない程度の画質に設定されるとよい。

そして、低画質人物画像データは、生成後、第二通信ユニット１００Ｂのホームサーバ１に向けて送信される。このときのデータ送信負荷は、画質を低下された分だけ軽減されることになる。

以上のように、Ｂさんとディスプレイ５との間の距離が閾値以上であるときと、当該距離が閾値未満であるときとで、第一通信ユニット１００Ａのホームサーバ１が配信する人物画像の画質が異なってくる。このため、第二通信ユニット１００Ｂのディスプレイ５に表示されるフレーム画像（すなわち、人物画像と背景画像との合成画像）中の人物画像の画質についても、上記の距離に応じて変わることになる。具体的に説明すると、Ｂさんとディスプレイ５との間の距離が閾値未満である場合には、図６の（Ｂ）に示すように、ディスプレイ５の表示画像中の人物画像は、第一通信ユニット１００Ａのホームサーバ１がカメラ２から取得したフレーム画像（原画像）中の人物画像と略同じ画質となっている。

一方で、Ｂさんとディスプレイ５との間の距離が閾値以上である場合には、図６の（Ｃ）に示すように、ディスプレイ５の表示画像中の人物画像が、第一通信ユニット１００Ａのホームサーバ１がカメラ２から取得したフレーム画像中の人物画像に比べて幾分低画質（低解像度）となる。ただし、この場合、表示画像中の人物画像の画質が低下していても、ディスプレイ５を見ているＢさんは、ディスプレイ５から離れているので、画質低下による違和感を然程感じない。つまり、上記の距離が閾値以上であれば、人物画像に対して低画質化処理を実行して低画質人物画像データを第二通信ユニット１００Ｂのホームサーバ１に向けて送信したとしても、対話通信の臨場感（リアル感）が損なわれない。これにより、表示画像中の人物画像の画質を低下させながらも対話通信の臨場感を確保しつつ、データ伝送負荷を画質低下の分だけ軽減することが可能となる。

次に、図７の（Ａ）、（Ｂ）、（Ｃ）及び（Ｄ）を参照しながら画像の切り出しについて説明する。第一通信ユニット１００Ａのホームサーバ１は、前述したように、カメラ２から取得したフレーム画像の中からＡさんの人物画像を抽出する。その後、ホームサーバ１は、抽出した人物画像の画像データを生成することになる。この際、Ｂさんとディスプレイ５との間の距離が閾値未満であるときには、上述したように、原画像と同じ画質となるように人物画像の画像データを生成することになる。かかる画像データは、より高画質となっている分、より大きなデータ伝送負荷を生じさせることになる。

一方で、図７の（Ａ）に示すように、連続して取得される２つのフレーム画像（前回のフレーム画像と今回のフレーム画像）を対比すると、フレーム画像中の人物画像には、フレーム画像間で異なる部分と、フレーム画像間で共通する部分とがある。つまり、上記２つのフレーム画像のうち、今回取得したフレーム画像中の人物画像には、前回取得したフレーム画像から動いた部分と、動いていない部分とが存在する。

そして、第一通信ユニット１００Ａのホームサーバ１は、今回取得したフレーム画像中の人物画像のうち、動いた部分の画像を切り出し、切り出した画像の画像データを生成して第二通信ユニット１００Ｂのホームサーバ１に向けて送信することとしている。ここで、「動いた部分の画像」とは、Ａさんの身体各部のうち、前回のフレーム画像の取得時から今回のフレーム画像の取得時までの期間中に動いた部分の画像のことである。

以上のように、本実施形態では、今回取得したフレーム画像中の人物画像のうち、動いた部分の画像データを第二通信ユニット１００Ｂのホームサーバ１に向けて送信することとしている。これにより、送信される人物画像の画像データについて、当該人物画像中の動いていない部分の画像データの分だけ削減することが可能となる。この結果、人物画像の画像データを送信する際のデータ送信負荷を一段と軽減することが可能となる。

ところで、動いた部分の画像データを生成するにあたっては、Ａさんの身体各部のうち、前回のフレーム画像の取得時から今回のフレーム画像の取得時までの期間中に動いた部分（以下、被特定部分）を特定する必要がある。そして、本実施形態では、被特定部分を特定する際に、上記の期間中における第一通信ユニット１００Ａの赤外線センサ４の計測結果の変化に基づいて被特定部分を特定することとしている。

より具体的に説明すると、図７の（Ｂ）に示すように、前回取得したフレーム画像についての深度データ、及び、今回取得したフレーム画像についての深度データの各々から骨格モデルを特定する。そして、２つの骨格モデルを対比することで被特定部分を特定する。ちなみに、図７の（Ｂ）に図示のケースでは、手及び肘が被特定部分として特定されることになる。なお、被特定部分を特定する際の具体的手順については、後述することとする。

以上のように本実施形態では、フレーム画像におけるＡさんの人物画像中、被特定部分（すなわち、Ａさんの身体において動いた部分）を特定する際に、２つの骨格モデルを対比して骨格モデル間の相違（変化）から被特定部分を特定する。この結果、被特定部分が適切且つ的確に特定されるようになる。

被特定部分の特定後、第一通信ユニット１００Ａのホームサーバ１は、今回取得したフレーム画像におけるＡさんの人物画像のうち、被特定部分を含む領域（以下、切り出し領域、若しくは切り出し画像とも呼ぶ）を抽出する。具体的に説明すると、ホームサーバ１は、前回のフレーム画像の取得時から今回のフレーム画像の取得時までの期間中に動いた設定部位を含むように切り出し領域を抽出する。図７の（Ｂ）のケースを例に挙げて説明すると、手及び肘が被特定部分として特定された場合、ホームサーバ１は、図７の（Ｃ）に示すように、Ａさんの人物画像中、手から肘までの範囲（すなわち、手及び前腕部分）の画像を切り出し領域として抽出する。

また、本実施形態において、第一通信ユニット１００Ａのホームサーバ１は、上記の手順により抽出した領域に加え、Ａさんの顔全体を含む領域（すなわち、頭部画像）も切り出し領域として抽出することになっている。これは、対話通信においてＡさんの顔の表情や口の動きが変化し易いことを反映しているためである。

以上のようにして領域抽出（切り出し領域の選定）が行われると、その後、第一通信ユニット１００Ａのホームサーバ１は、抽出した領域の画像データを生成し、第二通信ユニット１００Ｂのホームサーバ１に向けて送信する。なお、切り出し領域の画像データには、当該領域の表示位置（厳密には、フレーム画像に対する相対位置）を示す表示位置データが組み込まれている。

一方、第二通信ユニット１００Ｂのホームサーバ１は、切り出し領域の画像データを受信すると、当該画像データを展開することで得られる画像（すなわち、切り出し画像）を、前回表示したフレーム画像に合成することで今回表示するフレーム画像を取得する。ここで、「前回表示したフレーム画像」とは、切り出し領域の画像データを受信する直前にディスプレイ５に表示されていたフレーム画像（表示画像）のことである。

より詳しく説明すると、第二通信ユニット１００Ｂのホームサーバ１は、受信した画像データ中の表示位置データを解析して、切り出し領域と対応した位置（すなわち、切り出し画像の表示位置）を特定する。その上で、ホームサーバ１は、図７の（Ｄ）に示すように、前回表示したフレーム画像におけるＡさんの人物画像のうち、特定した切り出し領域の位置に切り出し画像を重ね合わせる。この結果、同図に示すように、今回表示するフレーム画像（厳密には、フレーム画像におけるＡさんの人物画像）が得られるようになる。

次に、図８を参照しながら画質調整処理について説明する。第一通信ユニット１００Ａのホームサーバ１は、以上までに説明してきたように、カメラ２が撮像したフレーム画像中、Ａさんの人物画像や当該人物画像中の一部分の画像（以下、これらをまとめて送信画像という）について画像データを生成する。一方、第一通信ユニット１００Ａのホームサーバ１は、前述したように、Ｂさんの中心視野領域を推定する。

そして、第一通信ユニット１００Ａのホームサーバ１は、送信画像に対して画質調整処理を実行する。この画像調整処理では、送信画像中、ディスプレイ５の表示画面５ａにおいてＢさんの中心視野領域内に表示される画像（第一画像）よりも中心視野領域以外の領域に表示される画像（第二画像）を低画質化する。なお、「第一画像よりも第二画像を低画質化する」とは、第一画像の解像度よりも第二画像の解像度を低くすることである。また、第二画像の画質を低下させる際の度合い（低下度合い）については、特に限定されるものではないが、ディスプレイ５に画質低下後の第二画像を表示した際にＢさんが違和感を感じない程度に設定されているとよい。

また、画像調整処理において、第一通信ユニット１００Ａのホームサーバ１は、送信画像の画像データとして、第一画像よりも第二画像が低画質となるように当該送信画像の画像データを生成し、第二通信ユニット１００Ｂのホームサーバ１に向けて送信する。

上記の送信画像の画像データが第二通信ユニット１００Ｂのホームサーバ１に受信されると、第二通信ユニット１００Ｂのディスプレイ５に当該送信画像を含むフレーム画像が表示されるようになる。かかる表示画像中、Ｂさんの中心視野領域内に表示される第一画像（図８中、ハッチングが施された部分）は、より高画質な画像となっているのに対し、中心視野領域以外（すなわち、周辺視野領域内）に表示される第二画像は、より低画質な画像となっている。このような表示画像であっても、中心視野領域以外に表示される画像（第二画像）は視覚的に認識され難くなっているため、ディスプレイ５を見ているＢさんは、違和感を然程感じることがない。つまり、表示画像において画質が異なる部分が存在していても、中心視野領域に表示される部分が高画質であれば、対話通信の臨場感（リアル感）に及ぶ影響が小さくなる。したがって、本実施形態では、表示画像中の第二画像の画質を低下させながらも対話通信の臨場感を確保しつつ、データ伝送負荷を画質低下の分だけ軽減することが可能となる。

また、送信画像中、低画質化する範囲（すなわち、第二画像）を選定するにあたり、Ｂさんの中心視野領域を推定することになるが、本実施形態では前述したように、Ｂさんの身長及び顔の向きに基づいて中心視野領域を推定することになっている。これにより、Ｂさんの中心視野領域が適切に推定されるようになり、この結果、Ｂさんの中心視野領域に応じて決まる第二画像についても、Ａさんの人物画像の中から適切な範囲が選定されるようになる。

（表示画像再構築機能）
第二通信ユニット１００Ｂのホームサーバ１は、第一通信ユニット１００Ａのホームサーバ１から送信されてくる画像データを受信し、当該画像を展開して得られる画像をディスプレイ５に表示する。ここで、第一通信ユニット１００Ａのホームサーバ１から送信されてくる画像データについて述べると、前述したように、背景画像の画像データと人物画像の画像データとが別々に送信されることになっている。このため、第二通信ユニット１００Ｂのホームサーバ１は、それぞれの画像データを受信し、当該画像データを展開した上で背景画像と人物画像とを合成する。このようにして第二通信ユニット１００Ｂのホームサーバ１は、第一通信ユニット１００Ａのホームサーバ１から受信した各画像（受信画像）を再構築し、今回ディスプレイ５に表示するフレーム画像（表示画像）を取得する。

また、第二通信ユニット１００Ｂのホームサーバ１は、人物画像中の一部分の画像データ（すなわち、切り出し領域の画像データ）を受信した場合、前回表示したフレーム画像のうち、切り出し画像と対応した位置に当該切り出し画像を重ね合わせることで、今回表示するＡさんの人物画像を取得する。

そして、第二通信ユニット１００Ｂのホームサーバ１は、取得したフレーム画像をディスプレイ５に表示させる。この際、第二通信ユニット１００Ｂのホームサーバ１は、フレーム画像中のＡさんの人物画像の表示サイズをＡさんの実際のサイズ（等身大サイズ）となるように調整する。具体的に説明すると、第二通信ユニット１００Ｂのホームサーバ１は、第一通信ユニット１００Ａのホームサーバ１から取得したＡさんの現在情報のうち、Ａさんとディスプレイ５との間の距離及びＡさんの距離に応じて、Ａさんの人物画像の表示サイズを調整する。

＜＜本実施形態に係る画像表示システムを用いた対話の流れ＞＞
次に、本システムＳを用いて行われるユーザ間の対話、すなわち、対話通信の具体的な流れ（以下、対話通信フロー）について、図９乃至１６を参照しながら説明する。図９は、対話通信フローの流れを示した図である。図１０は、通信前処理の流れを示した図である。図１１は、現在情報通知処理の流れを示した図である。図１２は、画像加工送信処理の流れを示した図である。図１３は、切り出し領域の選定処理の流れを示した図である。図１４は、切り出し領域の算出処理の流れを示した図である。図１５は、画質調整処理の流れを示した図である。図１６は、表示映像の再構築処理の流れを示した図である。

ところで、以下に説明する対話通信フローでは、本発明の画像表示方法が採用されている。すなわち、本発明の画像表示方法は、本システムＳの各機器、特に第一通信ユニット１００Ａ及び第二通信ユニット１００Ｂの各々のホームサーバ１（第一コンピュータ及び第二コンピュータに相当）が各自の機能を発揮することで実現される。

先ず、対話通信フローの大まかな流れについて図９を参照しながら説明すると、対話通信フローの開始に際して通信前処理が実行される（Ｓ００１）。通信前処理は、対話通信の開始の可否を判定するために実行される処理であり、対話通信フローの開始前、例えば、Ａさん又はＢさんが部屋（厳密には、対話通信を行う際に居る部屋）に入室した時点で実行される。

通信前処理の実行後に対話通信が開始されると、その後、現在情報通知処理（Ｓ００２）、相手方現在情報の受信（Ｓ００３）、画像加工送信処理（Ｓ００４）、相手方画像の受信（Ｓ００５）、及び表示画像の再構築処理（Ｓ００６）が実行される。これらの処理は、第一通信ユニット１００Ａ及び第二通信ユニット１００Ｂの双方のホームサーバ１において実行され、対話通信が終了するまで繰り返し実行される（Ｓ００７）。そして、Ａさん又はＢさんが対話通信において当該対話通信を終了する動作を行うと、かかる終了動作を本システムＳが受け付け、その結果、対話通信が終了する。

次に、対話通信フローにおける各処理Ｓ００１〜Ｓ００７の流れについて説明する。なお、Ａさん側の通信ユニット（すなわち、第一通信ユニット１００Ａ）で実行される処理の流れと、Ｂさん側の通信ユニット（すなわち、第二通信ユニット１００Ｂ）で実行される処理の流れとは略同様である。このため、以下では、後述する表示画像の再構築処理を除き、第一通信ユニット１００Ａで行われる処理の流れのみを説明することし、表示画像の再構築処理については、第二通信ユニット１００Ｂで行われる処理の流れを説明することとする。

はじめに、通信前処理について図１０を参照しながら説明する。通信前処理は、カメラ２が設置されている部屋を当該カメラ２が撮像して部屋内の撮像画像（フレーム画像）を、ホームサーバ１が取得するところから始まる（Ｓ０１１）。この際、ホームサーバ１は、フレーム画像と共に当該フレーム画像についての深度データを取得する（Ｓ０１２）。

そして、ホームサーバ１は、前ステップＳ０１１、Ｓ０１２で取得したフレーム画像及び深度データに基づいて、ディスプレイ５の前にＡさんが居るかどうかを判定する（Ｓ０１３）。ディスプレイ５の前にＡさんが居ると判定した場合、ホームサーバ１は、相手方のホームサーバ１が同様の判定結果（すなわち、Ｂさんがディスプレイ５の前に居るという判定結果）を得るまで待機する。そして、双方のホームサーバ１が上記の判定結果を得た時点で通信開始可能となり（Ｓ０１４）、かかる時点で通信前処理が終了する。

一方、ディスプレイ５の前にＡさんが居ないと判定した場合、ホームサーバ１は、背景画像の更新時間に至っているかどうかを判定する（Ｓ０１５）。背景画像の更新に至っていると判定した場合、ホームサーバ１は、前ステップＳ０１１で取得したフレーム画像の画像データを相手方のホームサーバ１に向けて送信する（Ｓ０１６）。この際に送信される画像データは、Ａさんが映っておらず部屋内のみが映っている画像、すなわち背景画像の画像データとなっている。

以上のように、ホームサーバ１は、通信前処理においてディスプレイ５の前にＡさんが居ない間、背景画像の更新時間に至る度に背景画像の画像データを送信する。なお、背景画像の更新周期（時間間隔）については、特に限定されるものではなく、任意に設定することが可能である。

次に、現在情報通知処理について図１１を参照しながら説明する。現在情報通知処理は、Ａさんがディスプレイ５の前に居る状態で行われ、かかる状態におけるＡさんの位置や姿勢を現在情報として相手方のホームサーバ１に通知する。具体的に説明すると、現在情報通知処理において、ホームサーバ１は、Ａさんが映っているフレーム画像と共に取得した深度データに基づいて、Ａさんとディスプレイ５との間の距離を計算する（Ｓ０２１）。また、ホームサーバ１は、上記の深度データ及びフレーム画像からＡさんの骨格モデルを特定する（Ｓ０２２）。また、ホームサーバ１は、ステップＳ０２１で計算した距離の計算結果と、ステップＳ０２２で特定した骨格モデルからＡさんの身長を計算する（Ｓ０２３）。さらに、ホームサーバ１は、取得したフレーム画像中、Ａさんの人物画像からＡさんの顔の向きを特定する（Ｓ０２４）。

そして、ホームサーバ１は、以上までのステップにより得られた現在情報、すなわち、Ａさんとディスプレイとの間の距離、Ａさんの身長及びＡさんの顔の向きを相手方のホームサーバ１に通知する（Ｓ０２５）。かかる時点で現在情報通知処理が終了する。

次に、相手方現在情報の受信について説明する。ホームサーバ１は、相手方のホームサーバ１との通信を通じて、当該相手方のホームサーバ１が通知した相手方現在情報（すなわち、Ｂさんの現在情報）を取得する。具体的に説明すると、ホームサーバ１は、Ｂさんとディスプレイ５との間の距離、Ｂさんの身長及びＢさんの顔の向きを示すデータを、相手方のホームサーバ１から受信する。

次に、画像加工送信処理について図１２を参照しながら説明する。画像加工送信処理は、ホームサーバ１がカメラ２からフレーム画像を取得する度に実行され、同処理では、取得したフレーム画像あるいは当該フレーム画像中の一部分の画像データを相手方のホームサーバ１に送信する。そして、画像加工送信処理において送信される画像データの種類は、対話通信開始後の経過時間や取得したＢさんの現在情報等に応じて変化する。

具体的に説明すると、対話通信の開始直後には、背景画像の画像データが送信されることになっている（Ｓ０３１、Ｓ０３２）。この際に送信される背景画像の画像データは、通信開始の事前段階（例えば、前述の通信前処理）にホームサーバ１が予め取得していたフレーム画像、より詳細には、Ａさんがディスプレイ５の前に移動してくる前にカメラ２が撮像した際のフレーム画像を示す画像データである。

なお、背景画像の画像データは、通信開始直後に送信されると、それ以降、対話通信が終了するまで送られないことになっている。すなわち、背景画像の画像データを送信する処理については、ホームサーバ１がカメラ２からフレーム画像を取得する頻度よりも少ない頻度にて実行される。この結果、対話通信中、通信開始直後に背景画像の画像データを一回送信してからは、背景画像の画像データを送信せずに済み、その分、データ伝送負荷が軽減されるようになる。

一方、背景画像の画像データを送信した後には、専らＡさんの人物画像の画像データが送信されることになる。つまり、背景画像の画像データの送信後、ホームサーバ１は、カメラ２から取得したフレーム画像からＡさんの人物画像を抽出する（Ｓ０３３）。その後、ホームサーバ１は、取得したＢさんの現在情報のうち、Ｂさんとディスプレイ５との間の距離に基づいて以降の処理内容を決定する。

具体的に説明すると、ホームサーバ１は、Ｂさんとディスプレイ５との間の距離が閾値以上であるかどうかを判定する（Ｓ０３４）。かかる判定において上記の距離が閾値以上であるとき、ホームサーバ１は、ステップＳ０３３で抽出したＡさんの人物画像に対して低画質化処理を実行する（Ｓ０３５）。これにより、抽出されたＡさんの人物画像の画質が所定の画質（解像度）まで低下されるようになる。そして、ホームサーバ１は、低下後の画質の人物画像を示す画像データすなわち、低画質人物画像データを生成して相手方のホームサーバ１に向けて送信する（Ｓ０３６）。この際に送信される低画質人物画像データは、Ａさんの人物画像、より厳密にはＡさんの全身画像を低下後の画質にて表示するデータとなっている。

以上のようにＢさんとディスプレイ５との間の距離が閾値以上であるときに、Ｂさんに対して表示されるＡさんの人物画像がより低画質な画像となるように低画質人物画像データを生成する。そして、ホームサーバ１は、生成した低画質人物画像データを相手方のホームサーバ１に向けて送信する。このように低画質人物画像データを送信することにより、画質低下の分だけ、データ伝送負荷が軽減されるようになる。

一方、Ｂさんとディスプレイ５との間の距離が閾値未満である場合、ホームサーバ１は、Ａさんの人物画像の中から一部の領域を切り出し、当該切り出し領域の画像データを送信することになっている。これに際して、ホームサーバ１は、Ａさんの人物画像の中からどの領域を切り出すかを選定する処理、すなわち、切り出し領域の選定処理を実行する（Ｓ０３７）。

切り出し領域の選定処理の手順について図１３を参照しながら説明すると、本処理では、先ず、Ａさんの体軸上にある設定部位、具体的には頭と腰についてそれぞれの変位量を計算する（Ｓ１０１）。ここで、「変位量」とは、ホームサーバ１が前回のフレーム画像取得時点から今回のフレーム画像取得時点までの期間（以下、画像取得間期間）における移動量のことである。そして、本実施形態では、現在情報通知処理において特定したＡさんの骨格モデルの変化（具体的には、前回のフレーム画像取得時に特定した骨格モデルと、今回のフレーム画像取得時に特定した骨格モデルとの差分）から上記の変位量を計算することとしている。

変位量の計算後、ホームサーバ１は、頭及び腰のうち、少なくとも一方の変位量が閾値以上であるかどうかを判定する（Ｓ１０２）。ここで、「閾値」とは、切り出し領域の選定用に設定された値であり、骨格モデル中の各設定部位が画像取得間期間中に動いたかどうかを判定する際の基準値となっている。なお、閾値の具体的な値については、特に限定されるものではないが、切り出し領域を適切に選定する上で好適な値に設定されていることが望ましい。

そして、頭及び腰のうち、少なくとも一方の変位量が閾値以上であるとき、ホームサーバ１は、さらに各足の変位量を計算する（Ｓ１０３）。その後、ホームサーバ１は、各足の変位量が閾値以上であるかどうかを判定する（Ｓ１０４）。かかる判定において少なくとも一方の足の変位量が閾値以上であると判定した場合、ホームサーバ１は、Ａさんの人物画像中、上半身画像及び下半身画像、すなわち全身画像を切り出す（Ｓ１０５）。反対に、２つの足の変位量がいずれも閾値未満であると判定した場合、ホームサーバ１は、Ａさんの人物画像中、上半身画像を切り出す（Ｓ１０６）。

以上のように本実施形態では、頭及び腰のうち、少なくともいずれか一方の変位量が閾値以上であるとき、Ａさんの人物画像の中から上半身画像を切り出すこととしている。これは、頭及び腰の少なくともいずれか一方が動いていれば、体軸、すなわち上半身が動いて変位していると想定されるためである。そして、上半身画像という単位で切り出し領域の選定を行えば、その選定に係る処理をより簡易的に実行することが可能となる。

一方、頭及び腰の変位量がいずれも閾値未満であるとき、ホームサーバ１は、四肢（２つの手及び２つの足）のそれぞれについて変位量を計算する（Ｓ１０７）。そして、ホームサーバ１は、四肢それぞれの変位量が閾値以上であるかを判定する（Ｓ１０８）。かかる判定において、いずれの変位量も閾値未満であると判定した場合、ホームサーバ１は、Ａさんの人物画像の中から頭部画像を切り出す（Ｓ１０９）。

これに対し、少なくとも一つの変位量が閾値以上であると判定した場合、ホームサーバ１は、切り出し領域を更に細かく決めるための処理として、切り出し領域の算出処理を実行する（Ｓ１１０）。切り出し領域の算出処理の手順について図１４を参照しながら説明すると、本処理では、先ず、既に変位量を計算した設定部位（すなわち、頭、腰及び四肢）以外の設定部位について変位量を計算する（Ｓ１２１）。より具体的に説明すると、ホームサーバ１は、四肢のうち、変位量の閾値以上となった部位を特定し、当該部位と隣接する設定部位について変位量を計算する。なお、「ある部位と隣接する設定部位」とは、骨格モデルにおいて複数設定された設定部位のうち、ある部位の隣に位置する設定部位、より厳密には、ある部位とは体軸に近い側で隣り合う設定部位のことである。

そして、ホームサーバ１は、計算した変位量が閾値以上であるかどうかを判定する（Ｓ１２２）。かかる判定において変位量が閾値以上であると判定したとき、ホームサーバ１は、変位量が閾値以上であると判定された設定部位（以下、該当部位）について、前回のフレーム画像における座標と、今回のフレーム画像における座標と、を記憶する（Ｓ１２３）。ここで、「前回のフレーム画像における座標」とは、ホームサーバ１がカメラ２から前回取得したフレーム画像に対する該当部位の相対位置を表す座標（二次元座標）のことであり、「今回のフレーム画像における座標」とは、ホームサーバ１がカメラ２から今回取得したフレーム画像に対する該当部位の相対位置を表す座標（二次元座標）のことである。

その後、ホームサーバ１は、該当部位と隣接する設定部位が有るかどうかを判定し（Ｓ１２４）、該当部位と隣接する設定部位が有る場合には、その設定部位について変位量を計算し（Ｓ１２５）、その計算結果が閾値以上であるかを判定する（Ｓ１２６）。かかる判定において変位量が閾値以上であると判定したとき、ホームサーバ１は、変位量が閾値以上であると判定された設定部位（すなわち、新たに該当部位となる設定部位）について、前回のフレーム画像における座標と今回のフレーム画像における座標とを記憶する（Ｓ１２３）。

以後、ホームサーバ１は、新たに該当部位となった設定部位と隣接する設定部位について、変位量の計算（Ｓ１２５）、閾値との対比（Ｓ１２６）及び座標の記憶（Ｓ１２３）を繰り返す。そして、変位量が閾値未満となる設定部位、すなわち動いていない設定部位まで達した時点で、ホームサーバ１は、それまで記憶していた座標を読み出し、各座標のＸ成分及びＹ成分をそれぞれ特定する。その上で、ホームサーバ１は、成分毎に最大値及び最小値を特定する（Ｓ１２７）。その後、ホームサーバ１は、各成分の最小値及び最大値により規定される領域（具体的には、各成分の最小値及び最大値を頂点座標とする矩形領域）を切り出し領域とする（Ｓ１２８）。

以上までに説明してきた一連のステップＳ１２１〜Ｓ１２８は、すべての設定部位について処理が完了するまで繰り返して行われる（Ｓ１２９）。そして、未処理の設定部位が無くなった時点で、ホームサーバ１は、切り出し領域の算出処理を終了する。

切り出し領域の選定処理についての説明に戻ると、切り出し領域の算出処理が実行されたとき、ホームサーバ１は、当該算出処理において算出（決定）された領域の画像及び頭部画像をＡさんの人物画像中から切り出す（Ｓ１１１）。
そして、以上までに説明してきた手順により切り出し領域が選定された時点で、ホームサーバ１は、切り出し領域の選定処理を終了する。

以上のように本実施形態では、Ｂさんとディスプレイ５との間の距離が閾値未満である場合、ホームサーバ１は、Ａさんの人物画像の中から一部の領域を切り出し、当該領域の画像データのみを相手方のホームサーバ１に送信する。これにより、Ａさんの人物画像全体の画像データを送信する場合に比して、データ送信負荷が軽減されるようになる。また、切り出される領域としては、Ａさんの身体中、前回のフレーム画像取得時から今回のフレーム画像取得時までの期間（画像取得間期間）中に動いた設定部位を含む領域と、頭部画像とが選定されることになっている。

一方、本実施形態では、画像取得間期間中に動いた設定部位を特定する際、骨格モデルの変化（具体的には、前回の骨格モデルと今回の骨格モデルとの差分）に基づいて特定している。これにより、Ａさんの身体中、画像取得間期間中に動いた部分（被特定部分）を適切且つ的確に特定することが可能となる。

また、本実施形態では、画像取得間期間中における動きの有無を設定部位単位で確認することになっている。この結果、Ａさんの身体中、画像取得間期間中に動いた部分（被特定部分）を容易に特定することが可能となる。また、本実施形態では、画像取得間期間中における各設定部位の動きの有無を確認する上で、各設定部位について画像取得間期間中の変位量を計算し、当該変位量の計算結果が閾値以上であるか否かの判定を行うことになっている。このような手順であれば、画像取得間期間中に動いた部分をより一層容易に特定することが可能となる。

さらに、本実施形態では、切り出し領域の算出処理において、ある設定部位について変位量と閾値との対比（判定）を行った次には、ある設定部位の隣に位置する設定部位について判定を行うことになっている。そして、切り出し領域を選定する際には、画像取得間期間中に動いた設定部位（該当部位）すべてが含まれるような領域を選定する。具体的に説明すると、各該当部位について前回のフレーム画像における座標と、今回のフレーム画像における座標とを求める。また、該当部位毎に求めた上記座標のＸ成分及びＹ成分について最大値と最小値とを特定する。そして、特定した各成分の最大値及び最小値により規定される領域を切り出し領域として選定する。

以上のような手順にて切り出し領域を選定することにより、Ａさんの人物画像中、画像取得間期間中に動いた部分の画像が適切に選定されるようになる。さらに、当該切り出し画像を前回の表示画像（フレーム画像）に重ね合わせて今回の表示画像を構成することにより、ホームサーバ１が今回取得したフレーム画像（厳密には、当該フレーム画像中、Ａさんの人物画像）を適切に再現することが可能となる。

画像加工送信処理についての説明に戻ると、切り出し領域の選定後、ホームサーバ１は、当該切り出し領域の画像データ（すなわち、送信対象の画像データ）のデータ容量を確認する。そして、ホームサーバ１は、データ容量が設定値以上であるかどうかを判定する（Ｓ０３９）。ここで、「設定値」とは、送信画像に対する画質調整処理の実行の有無を決めるための基準値として予め設定された値である。なお、設定値の具体的な値については、特に限定されるものではないが、画質調整処理の実行の有無を適切に判定する上で好適な値に設定されるのが望ましい。

上記の判定においてデータ容量が設定値未満である場合、ホームサーバ１は、切り出し領域の画像（切り出し画像）に対して画質調整処理を行うことなく、当該切り出し領域の画像データを相手方のホームサーバ１に向けて送信する（Ｓ０４０）。一方、上記の判定においてデータ容量が設定値以上である場合、ホームサーバ１は、切り出し画像に対して画質調整処理を実行する（Ｓ０４１）。画質調整処理の終了後、ホームサーバ１は、画質調整処理が施された切り出し画像（すなわち、画質調整済み画像）を表示させる画像データを生成し、相手方のホームサーバ１に向けて送信する（Ｓ０４２）。

画質調整処理の手順について図１５を参照しながら説明すると、本処理では、先ず、取得したＢさんの現在情報、具体的にはＢさんの身長及びＢさんの顔の向きからＢさんの中心視野領域を推定する（Ｓ１３１）。その後、ホームサーバ１は、送信対象である切り出し画像のデータがＡさんの全身画像のデータであるかどうかを判別する（Ｓ１３２）。

切り出し画像のデータが全身画像のデータである場合（分かり易くは、切り出し領域の選定処理でステップＳ１０５に至った場合）、ホームサーバ１は、当該切り出し画像中、ディスプレイ５の表示画面５ａに表示した際にＢさんの中心視野領域内に位置する画像（第一画像）よりも中心視野領域以外の領域に表示される画像（第二画像）を低画質化する（Ｓ１３３）。

一方、切り出し画像のデータが全身画像のデータでない場合、ホームサーバ１は、その切り出し画像を選択する（Ｓ１３４）。そして、ホームサーバ１は、選択した切り出し画像中、ディスプレイ５の表示画面５ａに表示した際にＢさんの中心視野領域以外の領域に表示される画像（第二画像）があるかどうかを判定する（Ｓ１３５）。かかる判定において、選択した切り出し画像中に第二画像に相当する部分が存在すると判定した場合、ホームサーバ１は、Ｂさんの中心視野領域内に表示される画像（第一画像）に対して第二画像を低画質化する（Ｓ１３３）。

その後、ホームサーバ１は、未処理の切り出し画像が残っているどうかを判定し（Ｓ１３６）、未処理の切り出し画像に対して画像選択（Ｓ１３４）、第二画像の有無の判定（Ｓ１３５）及び第二画像の低画質化（Ｓ１３３）を繰り返す。そして、未処理の切り出し画像が無くなった時点で、ホームサーバ１は、画質調整処理を終了する。

以上のように本実施形態では、送信する切り出し画像の画像データの容量が設定値以上であるとき、切り出し画像の一部を低画質化する画質調整処理を実行する。これにより、処理後の切り出し画像の画像データが処理前の画像データよりも小さくなり、当該画像データの伝送負荷が軽減される。なお、かかる効果は、Ａさんの人物画像の中から切り出された領域（すなわち、切り出し領域）が広くなるほど、有効に発揮されることとなる。

また、切り出し画像中、低画質化する部分（第二画像）を選ぶにあたってＢさんの中心視野領域を推定する。そして、切り出し画像中、ディスプレイ５の表示画面５ａにおいて推定したＢさんの中心視野領域から外れた領域（周辺視野領域）に表示される部分の画質を所定の画質まで低下させる。これは、周辺視野領域内にある画像が視覚的に認識され難く、当該画像の画質が多少低かったとしても、表示画像を見る者が感じる対話通信の臨場感に及ぶ影響が小さいことを反映している。以上の結果、切り出し画像中、画質を低下させる部分（第二画像）が適切に選定されるようになるため、対話通信の臨場感が損なわれることなくデータ伝送負荷を効果的に軽減することが可能となる。

そして、ホームサーバ１は、各種画像データの送信を終えた時点で画像加工送信処理を終了する。

次に、表示映像の再構築処理について図１６を参照しながら説明する。本処理は、第二通信ユニット１００Ｂのホームサーバ１が第一通信ユニット１００Ａのホームサーバ１から受信した画像データを展開して得られる各画像を再構築し、今回ディスプレイ５に表示させる画像（フレーム画像）を取得する処理である。

より具体的に説明すると、第二通信ユニット１００Ｂのホームサーバ１は、対話通信の開始直後に背景画像の画像データを受信する（Ｓ０５１でＮｏ）。それ以降、第二通信ユニット１００Ｂのホームサーバ１は、Ａさんの人物画像の画像データを受信する（Ｓ０５１でＹｅｓ）。この際に受信した画像データがＡさんの全身画像のデータである場合（Ｓ０５２でＹｅｓ）、ホームサーバ１は、Ａさんの現在情報（具体的にはＡさんの身長）に応じて上記の全身画像の表示サイズを、Ａさんの実際のサイズ（等身大サイズ）となるように調整する（Ｓ０５４）。その後、ホームサーバ１は、既に取得済みの背景画像と今回取得したＡさんの人物画像とを合成することにより、今回ディスプレイ５に表示するフレーム画像（表示画像）を取得する（Ｓ０５５）。

一方、第一通信ユニット１００Ａのホームサーバ１から受信した画像データがＡさんの人物画像の一部（すなわち、切り出し画像）の画像データである場合（Ｓ０５２でＮｏ）、第二通信ユニット１００Ｂのホームサーバ１は、上記の画像データを用いてＡさんの人物画像を再構築する。

詳しく説明すると、第二通信ユニット１００Ｂのホームサーバ１は、今回受信した画像データが示す画像（切り出し画像）と、前回ディスプレイ５に表示したＡさんの人物画像と、を重ね合わせる（Ｓ０５３）。この際、ホームサーバ１は、今回受信した画像データに組み込まれた表示位置データを解析して切り出し画像の表示位置を特定し、前回ディスプレイ５に表示したＡさんの人物画像において上記の表示位置に切り出し画像を重ね合わせる。なお、特定される切り出し画像の表示位置は、切り出し領域の画像データの受信直前にディスプレイ５に表示されたフレーム画像（すなわち、前回の表示画像）中、切り出し領域と対応した位置、つまり切り出し領域として選定された矩形領域と対応した位置となっている。

以上のように、第二通信ユニット１００Ｂのホームサーバ１は、切り出し画像と前回表示されたＡさんの人物画像とを用いて、今回ディスプレイ５に表示するＡさんの人物画像を再構築（取得）する。その後、第二通信ユニット１００Ｂのホームサーバ１は、上述した手順と同様の手順にてＡさんの人物画像の表示サイズを調整し、その上で、背景画像と今回取得したＡさんの人物画像とを合成して今回の表示画像を取得する（Ｓ０５５）。

そして、第二通信ユニット１００Ｂのホームサーバ１は、今回取得したフレーム画像（表示画像）をディスプレイ５に表示させる（Ｓ０５６）。かかる時点で、ホームサーバ１は、表示映像の再構築処理を終了する。

以上までに説明してきた一連の処理については、対話通信が終了するまで繰り返し実行される。これにより、データ伝送の負荷を効果的に軽減しつつ、臨場感（リアル感）がある対話通信が実現されるようになる。

１ホームサーバ
２カメラ（撮像装置，情報提供装置）
３マイク
４赤外線センサ（計測装置，情報提供装置，距離計測装置）
５ディスプレイ（表示器）
５ａ表示画面
６スピーカ
１００Ａ第一通信ユニット
１００Ｂ第二通信ユニット
ＧＮ外部ネットワーク
Ｓ本システム（画像表示システム）

Claims

第一ユーザを撮影する撮像装置と、
該撮像装置が撮像した前記第一ユーザの映像を構成するフレーム画像を取得する第一コンピュータと、
前記フレーム画像を取得するために前記第一コンピュータと通信する第二コンピュータと、
該第二コンピュータが取得した前記フレーム画像を、前記第一ユーザとは異なる場所に居る第二ユーザに対して表示する表示器と、
該表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との位置関係及び前記第二ユーザの姿勢のうち、少なくとも一つの内容に関する情報を前記第二コンピュータに提供する情報提供装置と、を有し、
前記第一コンピュータは、
前記第二コンピュータが前記情報から特定した前記少なくとも一つの内容を取得する処理と、
前記第一コンピュータが今回取得した前記フレーム画像のうち、前記表示器に表示される領域の画像データを生成して前記第二コンピュータに向けて送信する処理と、を実行し、前記領域の前記画像データを生成する際には、前記領域の画像中、前記表示器において前記少なくとも一つの内容に応じて決まる範囲に表示される第一画像よりも該第一画像とは異なる範囲に表示される第二画像が低画質となるように前記領域の前記画像データを生成し、
前記第二コンピュータは、前記領域の前記画像データを受信すると、該画像データの受信前に前記表示器に表示された前記フレーム画像中、前記領域と対応した位置に前記領域の画像を配置させることで構成された前記フレーム画像を、前記表示器に表示させることを特徴とする画像表示システム。
前記第一コンピュータは、前記少なくとも一つの内容から前記第二ユーザの中心視野領域と対応する前記範囲を特定する処理を実行することを特徴とする請求項１に記載の画像表示システム。
前記第一コンピュータは、前記フレーム画像中の背景画像を示す背景画像データを、前記背景画像以外の画像データと分けて生成して前記第二コンピュータに向けて送信する処理を実行し、
前記第一コンピュータが前記背景画像データを送信する処理を実行する頻度は、前記第一コンピュータが前記撮像装置から前記フレーム画像を取得する頻度よりも少ないことを特徴とする請求項１又は２に記載の画像表示システム。
前記第二ユーザの身体各部の位置に関する計測対象値を計測する計測装置を有し、
前記第一コンピュータは、
前回の前記フレーム画像の取得時から今回の前記フレーム画像の取得時までの期間中における前記計測対象値の計測結果の変化に基づいて、前記身体各部のうち、前記期間中に動いた被特定部分を特定する処理と、
前記第一コンピュータが今回取得した前記フレーム画像における前記第一ユーザの人物画像のうち、前記被特定部分を含む前記領域を抽出する処理と、を更に実行し、抽出した前記領域の前記画像データを生成する際、前記領域の画像中の前記第一画像よりも前記第二画像が低画質となるように前記領域の前記画像データを生成することを特徴とする請求項１乃至３のいずれか一項に記載の画像表示システム。
前記第一コンピュータは、前記被特定部分を特定する処理において、前記期間中における前記計測対象値の計測結果の変化に基づいて、前記第一ユーザの骨格において複数設定された設定部位のうち、前記期間中に動いた前記設定部位を特定し、該設定部位を少なくとも含むように前記被特定部分を特定することを特徴とする請求項４に記載の画像表示システム。
前記表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との間の距離を計測する距離計測装置を有し、
前記第一コンピュータは、前記第二コンピュータから前記距離の計測結果を取得し、前記距離が予め設定された大きさ以上であるときには、前記第一コンピュータが今回取得した前記フレーム画像における前記第一ユーザの人物画像の画質を所定の画質まで低下させ、低下後の画質の前記人物画像を示す低画質人物画像データを生成して前記第二コンピュータに向けて送信することを特徴とする請求項１乃至５のいずれか一項に記載の画像表示システム。
撮像装置が撮像した第一ユーザの映像を構成するフレーム画像を取得する第一コンピュータと、前記フレーム画像を取得するために前記第一コンピュータと通信する第二コンピュータと、を用いて、該第二コンピュータが取得した前記フレーム画像を表示器により前記第一ユーザとは異なる場所に居る第二ユーザに対して表示する画像表示方法であって、
前記表示器の前に前記第二ユーザが居る状態で前記第二ユーザと前記表示器との位置関係及び前記第二ユーザの姿勢のうち、少なくとも一つの内容に関する情報を情報提供装置が前記第二コンピュータに提供することと、
前記第一コンピュータが、前記第二コンピュータが前記情報から特定した前記少なくとも一つの内容を取得する処理を実行することと、
前記第一コンピュータが、今回取得した前記フレーム画像のうち、前記表示器に表示される領域の画像データを生成して前記第二コンピュータに向けて送信する処理を実行することと、
前記第二コンピュータが、前記領域の前記画像データを受信すると、該画像データの受信前に前記表示器に表示された前記フレーム画像中、前記領域と対応した位置に前記領域の画像を配置させることで構成された前記フレーム画像を、前記表示器に表示させることと、を有し、
前記領域の前記画像データを生成する際、前記第一コンピュータは、前記領域の画像中、前記表示器において前記少なくとも一つの内容に応じて決まる範囲に表示される第一画像よりも該第一画像とは異なる範囲に表示される第二画像が低画質となるように前記領域の前記画像データを生成することを特徴とする画像表示方法。