JP2014209778A

JP2014209778A - 情報処理装置および情報処理方法

Info

Publication number: JP2014209778A
Application number: JP2014131108A
Authority: JP
Inventors: 祐介阪井; Yusuke Sakai; 真生近藤; Masao Kondo
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2014-11-06

Abstract

【課題】コンテンツ画像を表示している間に、遠隔地とネットワーク接続中であるかをユーザに把握させる情報処理装置および方法を提供する。【解決手段】情報処理装置２５０は、通信対象装置のユーザを表すユーザ画像を受信する通信部２１２と、ユーザ画像を含む第１の表示画面からコンテンツ画像を含む第２の表示画面への切替えを制御する表示制御部２１０と、を備える。第２の表示画面は、通信対象装置とネットワーク接続中であることを示す表示を含む。【選択図】図２

Description

本発明は、情報処理装置および情報処理方法に関する。

従来、遠隔地にいるユーザ同士の交流に用いる装置として、電話、いわゆるテレビ電話、ビデオ会議システムなどが存在する。また、パーソナルコンピュータなどを用いてインターネットに接続し、テキストチャット、映像と音声を伴うビデオチャットなどを行う方法もある。

このような中、電子機器などの装置の高機能化や多機能化がますます進み、例えば、テレビジョン受像機では、ネットワーク通信機能を備え、放送局から番組の映像および音声コンテンツを受信して表示するのみならず、他の受像機との間で各種情報をやりとりすることが可能となっている。

例えば、特許文献１には、テレビジョン受像機においてユーザがテレビジョン放送の番組コンテンツを視聴する際に、登録された他のユーザに関する情報（例えば、他のユーザの映像、他のユーザのサムネイル画像、他のユーザが視聴しているコンテンツの名称、チャンネル、映像など）を、番組コンテンツと並行して表示する技術が開示されている。

特開２００６−５０３７０号公報

上記技術に関連し、コンテンツ画像を表示している間に、遠隔地とネットワーク接続中であるかをユーザに把握させるための工夫が求められた。

上記課題を解決するために、本発明のある観点によれば、通信対象装置のユーザを表すユーザ画像を受信する通信部と、前記ユーザ画像を含む第１の表示画面からコンテンツ画像を含む第２の表示画面への切替えを制御する制御部と、を備え、前記第２の表示画面は、前記通信対象装置とネットワーク接続中であることを示す表示を含む、情報処理装置が提供される。

前記制御部は、前記第１の表示画面から前記第２の表示画面への切替えを、前記第１の表示画面をフレームアウトさせながら、前記第２の表示画面をフレームインさせることで行ってもよい。

前記制御部は、前記第１の表示画面を所定方向に移動させながら前記フレームアウトさせつつ、前記第２の表示画面を前記所定方向に移動させながらフレームンインさせてもよい。

また、上記課題を解決するために、本発明の別の観点によれば、通信対象装置のユーザを表すユーザ画像を受信することと、前記ユーザ画像を含む第１の表示画面からコンテンツ画像を含む第２の表示画面への切替えを制御することと、を含み、前記第２の表示画面は、前記通信対象装置とネットワーク接続中であることを示す表示を含む、情報処理方法が提供される。

以上説明したように本発明によれば、コンテンツ画像を表示している間に、遠隔地とネットワーク接続中であるかをユーザに把握させることができる。

本発明の実施の形態における表示システムの一例を説明するための説明図である。本発明の第１の実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。図２における情報処理装置のハードウェア構成の一例を説明するための説明図である。図２における情報処理装置が実行する表示処理のフローチャートである。図４の表示処理におけるステップＳ１１４で実行されるユーザ表示処理のフローチャートである。（Ａ）〜（Ｄ）は、本発明の第１の実施例について説明するための説明図である。（Ａ）〜（Ｄ）は、本発明の第１の実施例について説明するための説明図である。（Ａ）〜（Ｄ）は、本発明の第２の実施例について説明するための説明図である。（Ａ）〜（Ｄ）は、本発明の第３の実施例について説明するための説明図である。（Ａ）および（Ｂ）は、本発明の第４の実施例について説明するための説明図である。（Ａ）〜（Ｅ）は、本発明の第５の実施例について説明するための説明図である。（Ａ）および（Ｂ）は、本発明の第６の実施例について説明するための説明図である。（Ａ）〜（Ｌ）は、本発明の第７の実施例について説明するための説明図である。本発明の第２の実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．表示システム
２．情報処理装置の機能構成（第１の実施の形態）
３．情報処理装置のハードウェア構成
４．表示処理
５．実施例
６．情報処理装置の機能構成（第２の実施の形態）

［１．表示システム］
まず、本発明の実施の形態における表示システムについて説明する。図１は、本実施の形態における表示システムの一例を説明するための説明図である。図１は、表示システムを正面から見た正面図である。

図１において、表示システム１００は、例えば、表示装置１０２と、撮像装置１０４とを備える。

表示装置１０２は、駆動信号に基づいて静止画像または動画像を表示することができる。例えば、表示装置１０２は、液晶によって静止画像または動画像を表示する。なお、表示装置１０２は、有機ＥＬ（エレクトロルミネセンス）のような自発光型の表示デバイスによって静止画像または動画像を表示してもよい。

撮像装置１０４は、表示装置１０２の上方中央部に設けられていて、表示装置１０２の表示方向における被写体を撮像することができる。撮像装置１０４は、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサによって静止画像または動画像の撮像を行うものであってもよく、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサによって静止画像または動画像の撮像を行うものであってもよい。

なお、本実施の形態では、撮像装置１０４が表示装置１０２の上方中央部に設けられているが、撮像装置１０４が設けられる場所は表示装置１０２の上方中央部に限られない。例えば、撮像装置１０４は、表示装置１０２の下方中央部などに設けられてもよい。また、本実施の形態では、撮像装置１０４が１つだけ設けられているが、撮像装置１０４の数は１つに限られない。例えば、撮像装置１０４は、２つ以上設けられてもよい。また、本実施の形態では、表示装置１０２と撮像装置１０４とが一体となっているが、表示装置１０２と撮像装置１０４とは別体となってもよい。

なお、表示システム１００には、表示装置１０２の前方のユーザの有無を検知するセンサ（図示しない）や、リモートコントローラ（図示しない）からの赤外線や無線等による制御信号を受信可能な信号受信部（図示しない）が設けられていてもよい。制御信号は、本発明の操作信号の一例である。また、上記センサは、表示装置１０２と表示装置１０２の前方のユーザとの間の距離を検出できるものであってもよい。また、表示システム１００には、周囲の音を取得可能な例えばマイクロフォンなどの音声取得手段が設けられていてもよい。

本実施の形態における表示装置１０２は、後述するように、静止画像または動画像のコンテンツや、図４の表示処理において情報処理装置２００により生成された表示画像の表示を行うことができる。

また、本実施の形態における撮像装置１０４は、図２における表示装置１０２の表示画面を見ているユーザＡ，Ｂの静止画像または動画像を撮像することができる。

［２．情報処理装置の機能構成（第１の実施の形態）］
次に、本発明の第１の実施の形態に係る情報処理装置の機能構成について説明する。図２は、本実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。なお、図２には、本実施の形態に係る情報処理装置としての情報処理装置２００へ撮像画像を伝達し、また情報処理装置２００から表示装置１０２を駆動するための信号を受信する表示システム１００と、表示システム１００および情報処理装置２００のユーザとしてのユーザＡ，Ｂとが示されている。さらに、図２には、情報処理装置２００が接続可能な通信ネットワーク８００と、通信ネットワーク８００に接続可能な通信サーバ３００や他の情報処理装置５００，７００と、他の情報処理装置５００へ撮像画像を伝達し、また他の情報処理装置５００から信号を受信する他の表示システム４００と、他の表示システム４００および他の情報処理装置５００のユーザとしてのユーザＣ，Ｄと、他の情報処理装置７００へ撮像画像を伝達し、また他の情報処理装置７００から信号を受信する他の表示システム６００と、他の表示システム６００および他の情報処理装置７００のユーザとしてのユーザＥ，Ｆとが示されている。他の表示システム４００，６００は、表示システム１００と同様の構成を有するため、詳細な説明は省略する。また、他の情報処理装置５００，７００は、情報処理装置２００と同様の構成を有するため、詳細な説明は省略する。他の情報処理装置５００，７００は、本発明の通信対象装置の一例である。

図２において、情報処理装置２００は、例えば、画像入力部２０２と、顔認識部２０４と、表示画像生成部２０６と、出力部２０８と、表示制御部２１０と、通信部２１２と、音声入力部２１４と、音声認識部２１６と、操作信号入力部２１８と、行動認識部２２０と、記憶部２２２とを備える。

画像入力部２０２は、本発明の入力部の一例であり、撮像装置１０４が撮像により生成した撮像画像を受信する。そして、画像入力部２０２は、受信した（入力された）撮像画像を通信部２１２へ伝達する。なお、画像入力部２０２は、受信した撮像画像を顔認識部２０４や表示画像生成部２０６へ伝達してもよい。

顔認識部２０４は、本発明の認識部の一例であり、通信部２１２が受信した他の情報処理装置５００，７００からの撮像画像を受信して、受信した撮像画像から他の情報処理装置５００，７００のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置５００，７００のユーザ、すなわちユーザＣ，ＤおよびユーザＥ，Ｆを認識する。他の情報処理装置５００，７００からの撮像画像は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、顔認識部２０４は、受信した撮像画像からユーザの顔の部分を検出して、検出したユーザの顔の部分からユーザの顔の情報（以下、「ユーザ顔情報」という。）を算出して、算出したユーザ顔情報と、記憶部２２２に記憶されている予め算出されたユーザ毎のユーザ顔情報２２３とを比較することにより、撮像画像に写っているユーザを認識する。撮像画像に写るという行為は、本発明の表現の一例である。なお、顔認識部２０４は、さらに、撮像画像に写っているユーザの性別や年齢などを認識してもよい。そして、顔認識部２０４は、他の情報処理装置５００，７００のユーザの認識の結果を表示画像生成部２０６へ伝達する。また、顔認識部２０４は、画像入力部２０２からの撮像画像を受信して、受信した撮像画像から情報処理装置２００のユーザの顔を認識することにより、情報処理装置２００のユーザ、すなわちユーザＡ，Ｂを認識してもよい。画像入力部２０２からの撮像画像は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、顔認識部２０４は、情報処理装置２００のユーザの認識の結果を表示画像生成部２０６や通信部２１２へ伝達してもよい。

また、顔認識部２０４は、他の情報処理装置５００，７００からの撮像画像から他の情報処理装置５００，７００のユーザの顔の表情を認識してもよい。顔の表情を変化させるという行為は、本発明の表現の一例である。そして、顔認識部２０４は、他の情報処理装置５００，７００のユーザの顔の表情の認識の結果を表示画像生成部２０６へ伝達してもよい。なお、顔認識部２０４は、画像入力部２０２からの撮像画像から情報処理装置２００のユーザの顔の表情を認識してもよい。そして、顔認識部２０４は、情報処理装置２００のユーザの顔の表情の認識の結果を表示画像生成部２０６や通信部２１２へ伝達してもよい。

表示画像生成部２０６は、本発明の制御部の一例であり、顔認識部２０４から他の情報処理装置５００，７００のユーザの認識の結果を受信し、通信部２１２が受信した他の表示システム４００において撮像された撮像画像や他の表示システム６００において撮像された撮像画像を受信する。そして、表示画像生成部２０６は、受信した他の情報処理装置５００，７００のユーザの認識の結果に基づいて、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。表示画像の詳細については後述する。なお、表示画像生成部２０６は、表示画像におけるユーザ画像を、受信した他の表示システム４００において撮像された撮像画像や他の表示システム６００において撮像された撮像画像からユーザの顔の部分を切り出して生成してもよい。また、表示画像生成部２０６は、表示画像におけるユーザ画像を、例えばユーザを表したキャラクタ画像としてもよい。そして、表示画像生成部２０６は、生成した表示画像を表示制御部２１０へ伝達する。

また、表示画像生成部２０６は、画像入力部２０２から表示システム１００において撮像された撮像画像を受信し、顔認識部２０４から情報処理装置２００のユーザの認識の結果や他の情報処理装置５００，７００のユーザの認識の結果を受信し、通信部２１２が受信した他の表示システム４００において撮像された撮像画像や他の表示システム６００において撮像された撮像画像を受信した場合には、受信した情報処理装置２００のユーザおよび他の情報処理装置５００，７００のユーザの認識の結果に基づいて、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。

また、表示画像生成部２０６は、通信部２１２が他の表示システム４００において撮像された撮像画像からのユーザの認識の結果や、他の表示システム６００において撮像された撮像画像からのユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部２０４による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。この場合、上述した顔認識部２０４は、他の情報処理装置５００，７００からの撮像画像からユーザの認識を行わなくてもよい。

また、表示画像生成部２０６は、顔認識部２０４からさらに他の情報処理装置５００，７００のユーザの顔の表情の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザの顔の表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部２０６は、あるユーザの顔の表情が笑っている表情に変化したと認識した場合は、当該ユーザを表したユーザ画像があたかも飛び跳ねているように表示させた表示画像を生成する。

また、表示画像生成部２０６は、顔認識部２０４からさらに情報処理装置２００のユーザの顔の表情の認識の結果を受信した場合には、受信した情報処理装置２００のユーザの表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成してもよい。

また、表示画像生成部２０６は、通信部２１２が他の表示システム４００において撮像された撮像画像からのユーザの顔の表情の認識の結果や、他の表示システム６００において撮像された撮像画像からのユーザの顔の表情の認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部２０４による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、表示画像生成部２０６は、音声認識部２１６から他の情報処理装置５００，７００のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザのうちの話者のユーザの認識の結果にさらに基づいて、上記表示画像においてさらに、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部２０６は、話者のユーザを表したユーザ画像が拡大されるように表示させた表示画像を生成する。

また、表示画像生成部２０６は、音声認識部２１６からさらに情報処理装置２００のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した情報処理装置２００のユーザのうちの話者のユーザの認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。

また、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された音声からの話者のユーザの認識の結果や、他の情報処理装置７００において入力された音声からの話者のユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部２１６による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、表示画像生成部２０６は、音声認識部２１６からさらに他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部２０６は、さらに話者のユーザを表したユーザ画像からの吹き出しの中に話している内容の文字画像が表示される表示画像を生成する。

また、表示画像生成部２０６は、音声認識部２１６からさらに情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。

また、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された音声からの話者のユーザが話している内容の認識の結果や、他の情報処理装置７００において入力された音声からの話者のユーザが話している内容の認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部２１６による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、表示画像生成部２０６は、行動認識部２２０から他の情報処理装置５００，７００のユーザの行動の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部２０６は、操作者のユーザを表したユーザ画像からの吹き出しの中に操作者のユーザが表示させたいコンテンツ画像が表示される表示画像を生成する。

また、表示画像生成部２０６は、行動認識部２２０からさらに情報処理装置２００のユーザの行動の認識の結果を受信した場合には、受信した情報処理装置２００のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。

また、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置７００において入力された操作信号からのユーザの行動の結果を受信した場合には、それらの認識の結果を受信して、行動認識部２２０による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

出力部２０８は、表示制御部２１０から表示装置１０２を駆動するための信号を受信し、受信した信号を表示装置１０２に伝達する。また、出力部２０８は、通信部２１２が受信した他の情報処理装置５００，７００において入力された音声を受信した場合には、受信した音声を表示システム１００のスピーカ（図示しない）などに伝達してもよい。

表示制御部２１０は、本発明の制御部の一例であり、表示画像生成部２０６から表示画像を受信する。また、表示制御部２１０には静止画像または動画像のコンテンツが供給される。そして、表示制御部２１０は、表示装置１０２の表示画面に、表示画像生成部２０６が生成した表示画像を表示させるための信号を出力部２０８に伝達する。また、表示制御部２１０は、表示装置１０２の表示画面に、コンテンツを表示させるための信号を出力部２０８に伝達してもよい。

通信部２１２は、通信サーバ３００から通信ネットワーク８００を経由して他の表示システム４００において撮像された撮像画像や他の情報処理装置５００において入力された音声や操作信号を受信する。また、通信部２１２は、通信サーバ３００から通信ネットワーク８００を経由して他の表示システム６００において撮像された撮像画像や他の情報処理装置７００において入力された音声や操作信号を受信する。なお、通信部２１２は、他の表示システム４００において撮像された撮像画像や他の情報処理装置５００において入力された音声や操作信号を他の情報処理装置５００から通信ネットワーク８００を経由して直接的に受信することもできる。同様に、通信部２１２は、他の表示システム６００において撮像された撮像画像や他の情報処理装置７００において入力された音声や操作信号を他の情報処理装置７００から通信ネットワーク８００を経由して直接的に受信することもできる。

また、通信部２１２は、通信サーバ３００から通信ネットワーク８００を経由して他の表示システム４００において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置５００において入力された音声からの認識の結果や操作信号からの認識の結果、他の表示システム６００において撮像された撮像画像からのユーザの認識の結果、他の情報処理装置７００において入力された音声からの認識の結果や操作信号からの認識の結果を受信してもよい。なお、通信部２１２は、他の表示システム４００において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置５００において入力された音声からの認識の結果や操作信号からの認識の結果を他の情報処理装置５００から通信ネットワーク８００を経由して直接的に受信することもできる。同様に、通信部２１２は、他の表示システム６００において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置７００において入力された音声からの認識の結果や操作信号からの認識の結果を他の情報処理装置７００から通信ネットワーク８００を経由して直接的に受信することもできる。

また、通信部２１２は、画像入力部２０２からの撮像画像や音声入力部２１４からの音声、操作信号入力部２１８からの操作信号を受信し、受信した撮像画像や音声、操作信号を通信ネットワーク８００を経由して通信サーバ３００に送信してもよい。さらに、通信部２１２は、顔認識部２０４から表示システム１００において撮像された撮像画像からのユーザの認識の結果や、音声認識部２１６から情報処理装置２００に入力された音声からの認識の結果、行動認識部２２０から情報処理装置２００に入力された操作信号からの認識の結果を受信し、受信したそれらの認識の結果を通信ネットワーク８００を経由して通信サーバ３００に送信してもよい。なお、通信部２１２は、受信した撮像画像や音声、操作信号、撮像画像からのユーザの認識の結果、音声からの認識の結果、操作信号からの認識の結果を通信ネットワーク８００を経由して他の情報処理装置５００，７００に直接的に送信することもできる。

音声入力部２１４は、本発明の入力部の一例であり、例えば、情報処理装置２００のユーザとしてのユーザＡ，Ｂからの音声を受信する。そして、音声入力部２１４は、受信した（入力された）音声を通信部２１２へ伝達する。また、音声入力部２１４は、受信した音声を音声認識部２１６へ伝達してもよい。

音声認識部２１６は、本発明の認識部の一例であり、通信部２１２が受信した他の情報処理装置５００，７００からの音声を受信して、受信した音声から他の情報処理装置５００，７００のユーザのうちの話者のユーザを認識する。発話するという行為は、本発明の表現の一例である。他の情報処理装置５００，７００からの音声は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、音声認識部２１６は、受信した音声から特徴を抽出してユーザの音声の情報（以下、「ユーザ音声情報」という。）を生成し、生成したユーザ音声情報と、記憶部２２２に記憶されている予め生成されたユーザ毎のユーザ音声情報２２４とを比較することにより、話者のユーザを認識する。そして、音声認識部２１６は、他の情報処理装置５００，７００のユーザのうちの話者のユーザの認識の結果を表示画像生成部２０６へ伝達する。また、音声認識部２１６は、音声入力部２１４からの音声を受信して、受信した音声から情報処理装置２００のユーザのうちの話者のユーザを認識してもよい。音声入力部２１４からの音声は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、音声認識部２１６は、情報処理装置２００のユーザのうちの話者のユーザの認識の結果を表示画像生成部２０６や通信部２１２へ伝達してもよい。

また、音声認識部２１６は、他の情報処理装置５００，７００からの音声から他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容を認識してもよい。例えば、音声認識部２１６は、受信した音声を解析することにより、ユーザが話している内容を文字データとして取り出して認識する。そして、音声認識部２１６は、他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容の認識の結果を表示画像生成部２０６へ伝達してもよい。また、音声認識部２１６は、音声入力部２１４からの音声から情報処理装置２００のユーザのうちの話者のユーザが話している内容を認識してもよい。そして、音声認識部２１６は、情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果を表示画像生成部２０６や通信部２１２へ伝達してもよい。

操作信号入力部２１８は、本発明の入力部の一例であり、例えば、情報処理装置２００のユーザとしてのユーザＡ，Ｂによる、例えばリモートコントローラ（図示しない）を使用して送信された操作信号を受信する。そして、操作信号入力部２１８は、受信した（入力された）操作信号を通信部２１２へ伝達する。また、操作信号入力部２１８は、受信した操作信号を行動認識部２２０へ伝達してもよい。

行動認識部２２０は、本発明の認識部の一例であり、通信部２１２が受信した他の情報処理装置５００，７００からの操作信号を受信して、受信した操作信号から他の情報処理装置５００，７００のユーザの行動を認識する。行動を起こすという行為は、本発明の表現の一例である。他の情報処理装置５００，７００からの操作信号は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、行動認識部２２０は、受信した操作信号から当該操作信号に含まれている操作者のユーザの機器の情報（以下、「ユーザ機器情報」という。）を抽出し、抽出したユーザ機器情報と、記憶部２２２に記憶されている予め生成されたユーザ毎のユーザ機器情報２２６とを比較することにより、操作者のユーザを認識する。また、例えば、行動認識部２２０は、受信した操作信号から当該操作信号に含まれている操作内容の情報を抽出して、操作者の操作内容を認識する。例えば、行動認識部２２０は、操作内容の情報に含まれている操作者のユーザが表示画面に表示させたいコンテンツの情報（以下、「ユーザコンテンツ情報」という。）と、記憶部２２２に記憶されている予め記憶されたユーザコンテンツ情報２２５とを比較することにより、操作者のユーザが表示画面に表示させたいコンテンツを認識する。そして、行動認識部２２０は、他の情報処理装置５００，７００のユーザの行動の認識の結果を表示画像生成部２０６へ伝達する。また、行動認識部２２０は、操作信号入力部２１８からの操作信号を受信して、受信した操作信号から情報処理装置２００のユーザの行動を認識してもよい。操作信号入力部２１８からの操作信号は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、行動認識部２２０は、情報処理装置２００のユーザの行動の認識の結果を表示画像生成部２０６や通信部２１２へ伝達してもよい。

記憶部２２２は、他の情報処理装置５００，７００や情報処理装置２００のユーザの顔の情報としてのユーザ顔情報２２３と、他の情報処理装置５００，７００や情報処理装置２００のユーザの音声の情報としてのユーザ音声情報２２４と、他の情報処理装置５００，７００や情報処理装置２００のユーザのコンテンツの情報としてのユーザコンテンツ情報２２５と、他の情報処理装置５００，７００や情報処理装置２００のユーザが使用する機器の情報としてのユーザ機器情報２２６とを記憶する。

なお、本発明の通信対象装置のユーザの表現に係る所定の信号は、上述した他の情報処理装置５００，７００からの撮像画像や音声、操作信号に限られず、他の情報処理装置５００，７００からの他の情報処理装置５００，７００のユーザが行為を行うことによって生成された信号であればよい。また、本発明の情報処理装置のユーザの表現に係る所定の信号は、上述した情報処理装置２００に入力された撮像画像や音声、操作信号に限られず、情報処理装置２００のユーザが行為を行うことによって生成された信号であればよい。

［３．情報処理装置のハードウェア構成］
次に、図２における情報処理装置２００のハードウェア構成について説明する。図３は、図２における情報処理装置２００のハードウェア構成の一例を説明するための説明図である。

図３において、情報処理装置２００は、例えば、ＭＰＵ２３０と、ＲＯＭ２３２と、ＲＡＭ２３４と、記録媒体２３６と、入出力インタフェース２３８と、操作入力デバイス２４０と、表示デバイス２４２と、通信インタフェース２４４とを備える。また、情報処理装置２００は、例えば、データの伝送路としてのバス２４６で各構成要素間を接続する。

ＭＰＵ２３０は、ＭＰＵ（Micro Processing Unit）や、画像処理などの各種機能を実現するための複数の回路が集積された集積回路などで構成され、情報処理装置２００全体を制御する制御部（図示しない）として機能する。また、ＭＰＵ２３０は、情報処理装置２００において、顔認識部２０４、表示画像生成部２０６、表示制御部２１０、音声認識部２１６および行動認識部２２０としての役目を果たす。

ＲＯＭ２３２は、ＭＰＵ２３０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。ＲＡＭ２３４は、例えば、ＭＰＵ２３０により実行されるプログラムなどを一時的に記憶する。

記録媒体２３６は、記憶部２２２として機能し、例えば、ユーザ顔情報やユーザ音声情報、ユーザコンテンツ情報、ユーザ機器情報などの様々なデータ（またはデータベース）や、アプリケーションなどを記憶する。ここで、記録媒体２３６としては、例えば、ハードディスクなどの磁気記録媒体や、ＥＥＰＲＯＭ（Electrically Erasable and Programmable Read Only Memory）、フラッシュメモリ（flash memory）、ＭＲＡＭ（Magnetoresistive Random Access Memory）、ＦｅＲＡＭ（Ferroelectric Random Access Memory）、ＰＲＡＭ（Phase change Random Access Memory）などの不揮発性メモリ（nonvolatile memory）が挙げられる。また、情報処理装置２００は、情報処理装置２００から着脱可能な記録媒体２３６を備えることもできる。

入出力インタフェース２３８は、例えば、操作入力デバイス２４０や、表示デバイス２４２を接続する。また、入出力インタフェース２３８は、画像入力部２０２、出力部２０８、音声入力部２１４および操作信号入力部２１８としての役目を果たすこともできる。操作入力デバイス２４０は、操作部（図示しない）として機能し、また、表示デバイス２４２は、後述する図１５における表示部２５４として機能する。ここで、入出力インタフェース２３８としては、例えば、ＵＳＢ（Universal Serial Bus）端子や、ＤＶＩ（Digital Visual Interface）端子、ＨＤＭＩ（High-Definition Multimedia Interface）端子、各種処理回路などが挙げられる。また、操作入力デバイス２４０は、例えば、情報処理装置２００上に備えられ、情報処理装置２００の内部で入出力インタフェース２３８と接続される。操作入力デバイス２４０としては、例えば、ボタン、方向キー、ジョグダイヤルなどの回転型セレクタ、あるいは、これらの組み合わせなどが挙げられる。また、表示デバイス２４２は、例えば、情報処理装置２００上に備えられ、情報処理装置２００の内部で入出力インタフェース２３８と接続される。表示デバイス２４２としては、例えば、液晶ディスプレイ（Liquid Crystal Display；ＬＣＤ）や有機ＥＬディスプレイ（organic ElectroLuminescence display。または、ＯＬＥＤディスプレイ（Organic Light Emitting Diode display）ともよばれる。）などが挙げられる。なお、入出力インタフェース２３８が、情報処理装置２００の外部装置としての操作入力デバイス（例えば、キーボードやマウスなど）や、表示デバイス（例えば、表示装置１０２などの外部表示デバイス）、撮像デバイス（例えば、撮像装置１０４など）などの外部デバイスと接続することもできることは、言うまでもない。また、表示デバイス２４２は、例えばタッチスクリーンなど、表示とユーザ操作とが可能なデバイスであってもよい。

通信インタフェース２４４は、情報処理装置２００が備える通信手段であり、ネットワーク８００を経由して（あるいは、直接的に）、例えば通信サーバ３００や、他の情報処理装置５００，７００などの外部装置と無線／有線で通信を行うための通信部２１２として機能する。ここで、通信インタフェース２４４としては、例えば、通信アンテナおよびＲＦ回路（無線通信）や、ＩＥＥＥ８０２．１５．１ポートおよび送受信回路（無線通信）、ＩＥＥＥ８０２．１１ｂポートおよび送受信回路（無線通信）、あるいはＬＡＮ端子および送受信回路（有線通信）などが挙げられる。

なお、本実施の形態に係る情報処理装置２００のハードウェア構成は、図３に示す構成に限られない。例えば、情報処理装置２００は、音声出力部（図示しない）の役目を果たす、ＤＳＰ（Digital Signal Processor）と、増幅器（アンプ）やスピーカなどから構成される音声出力デバイスとを備えてもよい。

また、情報処理装置２００は、例えば、図１５における撮像部２５２の役目を果たす、レンズ／撮像素子と信号処理回路とから構成される撮像デバイスを備えていてもよい。上記の場合には、情報処理装置２００は、自装置が生成した撮像画像を処理することができる。ここで、レンズ／撮像素子は、例えば、光学系のレンズと、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を複数用いたイメージセンサとで構成される。信号処理回路は、例えば、ＡＧＣ（Automatic Gain Control）回路やＡＤＣ（Analog to Digital Converter）を備え、撮像素子により生成されたアナログ信号をデジタル信号（画像データ）に変換し、各種信号処理を行う。信号処理回路が行う信号処理としては、例えば、ＷｈｉｔｅＢａｌａｎｃｅ補正処理、補間処理、色調補正処理、ガンマ補正処理、ＹＣｂＣｒ変換処理、エッジ強調処理、およびコーディング処理などが挙げられる。

また、情報処理装置２００は、例えば、図３に示す操作入力デバイス２４０や表示デバイス２４２を備えない構成であってもよい。

［４．表示処理］
次に、図２における情報処理装置２００が実行する表示処理について説明する。図４は、図２における情報処理装置２００が実行する表示処理のフローチャートである。

図４において、まず、情報処理装置２００において、例えば、ユーザＡによりユーザＣ，ＤやユーザＥ，Ｆとのネットワーク接続が指示されると、通信部２１２は、通信ネットワーク８００を経由して通信サーバ３００と通信可能な状態となる（ステップＳ１００）。なお、ステップＳ１００では、通信部２１２は、通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００と通信可能な状態となってもよい。

次いで、通信部２１２は、画像入力部２０２を経由して受信した表示システム１００における撮像装置１０４が撮像により生成した撮像画像を通信ネットワーク８００を経由して通信サーバ３００に送信する（ステップＳ１０２）。なお、ステップＳ１０２では、通信部２１２は、顔認識部２０４から受信した情報処理装置２００のユーザの認識の結果や情報処理装置２００のユーザの顔の表情の認識の結果を通信ネットワーク８００を経由して通信サーバ３００に送信してもよい。また、ステップＳ１０２では、通信部２１２は、撮像画像やユーザの認識の結果、ユーザの顔の表情の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００に送信してもよい。

次いで、通信部２１２は、音声入力部２１４を経由して受信した情報処理装置２００に入力された音声を通信ネットワーク８００を経由して通信サーバ３００に送信する（ステップＳ１０４）。なお、ステップＳ１０４では、通信部２１２は、音声認識部２１６から受信した情報処理装置２００のユーザのうちの話者のユーザの認識の結果や情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果を通信ネットワーク８００を経由して通信サーバ３００に送信してもよい。また、ステップＳ１０４では、通信部２１２は、音声や話者のユーザの認識の結果、話者のユーザが話している内容の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００に送信してもよい。

次いで、通信部２１２は、操作信号入力部２１８を経由して受信した情報処理装置２００に入力された操作信号を通信ネットワーク８００を経由して通信サーバ３００に送信する（ステップＳ１０６）。なお、ステップＳ１０６では、通信部２１２は、行動認識部２２０から受信した情報処理装置２００のユーザの行動の認識の結果を通信ネットワーク８００を経由して通信サーバ３００に送信してもよい。また、ステップＳ１０６では、通信部２１２は、操作信号やユーザの行動の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００に送信してもよい。

次いで、通信部２１２は、他の情報処理装置５００から送信された、表示システム４００において撮像された撮像画像を通信サーバ３００から受信する。さらに、通信部２１２は、他の情報処理装置７００から送信された、表示システム６００において撮像された撮像画像を通信サーバ３００から受信する（ステップＳ１０８）。なお、ステップＳ１０８では、他の情報処理装置５００から送信された、表示システム４００において撮像された撮像画像からのユーザの認識の結果やユーザの顔の表情の認識の結果、また、他の情報処理装置７００から送信された、表示システム６００において撮像された撮像画像からのユーザの認識の結果やユーザの顔の表情の認識の結果を通信サーバ３００から受信してもよい。また、ステップＳ１０８では、通信部２１２は、撮像画像やユーザの認識の結果、ユーザの顔の表情の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００から受信してもよい。

次いで、通信部２１２は、他の情報処理装置５００から送信された、他の情報処理装置５００において入力された音声を通信サーバ３００から受信する。さらに、通信部２１２は、他の情報処理装置７００から送信された、他の情報処理装置７００において入力された音声を通信サーバ３００から受信する（ステップＳ１１０）。なお、ステップＳ１１０では、他の情報処理装置５００から送信された、他の情報処理装置５００において入力された音声からの話者のユーザの認識の結果や話者のユーザが話している内容の認識の結果、また、他の情報処理装置７００から送信された、他の情報処理装置７００において入力された音声からの話者のユーザの認識の結果や話者のユーザが話している内容の認識の結果を通信サーバ３００から受信してもよい。また、ステップＳ１１０では、通信部２１２は、音声や話者のユーザの認識の結果、話者のユーザが話している内容の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００から受信してもよい。

次いで、通信部２１２は、他の情報処理装置５００から送信された、他の情報処理装置５００において入力された操作信号を通信サーバ３００から受信する。さらに、通信部２１２は、他の情報処理装置７００から送信された、他の情報処理装置７００において入力された操作信号を通信サーバ３００から受信する（ステップＳ１１２）。なお、ステップＳ１１２では、他の情報処理装置５００から送信された、他の情報処理装置５００において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置７００から送信された、他の情報処理装置７００において入力された操作信号からのユーザの行動の認識の結果を通信サーバ３００から受信してもよい。また、ステップＳ１１２では、通信部２１２は、操作信号やユーザの行動の認識の結果を通信ネットワーク８００を経由して直接的に他の情報処理装置５００，７００から受信してもよい。

次いで、情報処理装置２００は、後述する図５のユーザ表示処理を実行して（ステップＳ１１４）、表示装置１０２の表示画面に、例えば、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示されるようにして、本処理を終了する。

図５は、図４の表示処理におけるステップＳ１１４で実行されるユーザ表示処理のフローチャートである。

図５において、まず、顔認識部２０４は、通信部２１２が受信した他の情報処理装置５００，７００からの撮像画像を受信して、受信した撮像画像から他の情報処理装置５００，７００のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置５００，７００のユーザ、すなわちユーザＣ，ＤおよびユーザＥ，Ｆを認識する（ステップＳ２００）。また、ステップＳ２００では、顔認識部２０４は、受信した撮像画像から他の情報処理装置５００，７００のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置５００，７００のユーザ、すなわちユーザＣ，ＤおよびユーザＥ，Ｆの顔の表情を認識してもよい。また、ステップＳ２００では、顔認識部２０４は、画像入力部２０２からの撮像画像を受信して、受信した撮像画像から情報処理装置２００のユーザの顔を検出し、当該顔の検出結果に基づいて、情報処理装置２００のユーザ、すなわちユーザＡ，Ｂを認識してもよく、情報処理装置２００のユーザ、すなわちユーザＡ，Ｂの顔の表情を認識してもよい。

次いで、音声認識部２１６は、通信部２１２が受信した他の情報処理装置５００，７００からの音声を受信して、受信した音声から他の情報処理装置５００，７００のユーザのうちの話者のユーザを認識する（ステップＳ２０２）。また、ステップＳ２０２では、音声認識部２１６は、通信部２１２が受信した他の情報処理装置５００，７００からの音声を受信して、受信した音声から他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容を認識してもよい。また、ステップＳ２０２では、音声認識部２１６は、音声入力部２１４からの音声を受信して、受信した音声から情報処理装置２００のユーザのうちの話者のユーザを認識してもよく、話者のユーザが話している内容を認識してもよい。

次いで、行動認識部２２０は、通信部２１２が受信した他の情報処理装置５００，７００からの操作信号を受信して、受信した操作信号から他の情報処理装置５００，７００のユーザの行動を認識する（ステップＳ２０４）。また、ステップＳ２０４では、操作信号入力部２１８からの操作信号を受信して、受信した操作信号から情報処理装置２００のユーザの行動を認識してもよい。

次いで、表示画像生成部２０６は、顔認識部２０４から他の情報処理装置５００，７００のユーザの認識の結果を受信し、通信部２１２が受信した他の表示システム４００において撮像された撮像画像や他の表示システム６００において撮像された撮像画像を受信する。そして、表示画像生成部２０６は、受信した他の情報処理装置５００，７００のユーザの認識の結果に基づいて、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する（ステップＳ２０６）。

また、ステップＳ２０６では、表示画像生成部２０６は、画像入力部２０２から表示システム１００において撮像された撮像画像を受信し、顔認識部２０４から情報処理装置２００のユーザの認識の結果や他の情報処理装置５００，７００のユーザの認識の結果を受信し、通信部２１２が受信した他の表示システム４００において撮像された撮像画像や他の表示システム６００において撮像された撮像画像を受信した場合には、受信した情報処理装置２００のユーザおよび他の情報処理装置５００，７００のユーザの認識の結果に基づいて、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、通信部２１２が他の表示システム４００において撮像された撮像画像からのユーザの認識の結果や、他の表示システム６００において撮像された撮像画像からのユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部２０４による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、ステップＳ２０６では、表示画像生成部２０６は、顔認識部２０４からさらに他の情報処理装置５００，７００のユーザの顔の表情の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザの顔の表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、顔認識部２０４からさらに情報処理装置２００のユーザの顔の表情の認識の結果を受信した場合には、受信した情報処理装置２００のユーザの表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、通信部２１２が他の表示システム４００において撮像された撮像画像からのユーザの顔の表情の認識の結果や、他の表示システム６００において撮像された撮像画像からのユーザの顔の表情の認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部２０４による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、ステップＳ２０６では、表示画像生成部２０６は、音声認識部２１６から他の情報処理装置５００，７００のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザのうちの話者のユーザの認識の結果にさらに基づいて、上記表示画像においてさらに、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、音声認識部２１６からさらに情報処理装置２００のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した情報処理装置２００のユーザのうちの話者のユーザの認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された音声からの話者のユーザの認識の結果や、他の情報処理装置７００において入力された音声からの話者のユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部２１６による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、ステップＳ２０６では、表示画像生成部２０６は、音声認識部２１６からさらに他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、音声認識部２１６からさらに情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した情報処理装置２００のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された音声からの話者のユーザが話している内容の認識の結果や、他の情報処理装置７００において入力された音声からの話者のユーザが話している内容の認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部２１６による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

また、ステップＳ２０６では、表示画像生成部２０６は、行動認識部２２０から他の情報処理装置５００，７００のユーザの行動の認識の結果を受信した場合には、受信した他の情報処理装置５００，７００のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、行動認識部２２０からさらに情報処理装置２００のユーザの行動の認識の結果を受信した場合には、受信した情報処理装置２００のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。

また、ステップＳ２０６では、表示画像生成部２０６は、通信部２１２が他の情報処理装置５００において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置７００において入力された操作信号からのユーザの行動の結果を受信した場合には、それらの認識の結果を受信して、行動認識部２２０による認識の結果に代えて通信部２１２から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。

次いで、表示制御部２１０は、表示画像生成部２０６から表示画像を受信して、表示装置１０２の表示画面に、受信した表示画像を表示させるための信号を出力部２０８に伝達する。そして、出力部２０８は、受信した表示画像を表示させるための信号を表示装置１０２に伝達する。これにより、表示装置１０２の表示画面には、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像や、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される（ステップＳ２０８）。そして、本処理を終了する。

図４の表示処理によれば、表示装置１０２の表示画面には、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像が表示される。これにより、情報処理装置２００のユーザは、例えば他の情報処理装置５００のユーザが複数存在する場合においても、表示装置１０２の表示画面には、ユーザ毎に他の情報処理装置５００のユーザを表したユーザ画像が表示されるため、他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができる。

また、図４の表示処理によれば、表示装置１０２の表示画面には、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示される表示画像が表示される。これにより、情報処理装置２００のユーザは、上述した他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができるとともに、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができる。

また、図４の表示処理によれば、表示装置１０２の表示画面には、他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される。これにより、情報処理装置２００のユーザは、上述した他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができるとともに、例えば他の情報処理装置５００のユーザが複数存在する場合においても、表示装置１０２の表示画面には、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示されるため、他の情報処理装置５００のいずれのユーザが表現を行ったのかを確実に把握することができる。

また、図４の表示処理によれば、表示装置１０２の表示画面には、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される。これにより、情報処理装置２００のユーザは、上述した他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができ、上述したあたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、他の情報処理装置５００のいずれのユーザが表現を行ったのかを確実に把握することができる。

［５．実施例］
次に、本発明の実施例について説明する。図６（Ａ）〜図６（Ｄ）および図７（Ａ）〜図７（Ｄ）は、本発明の第１の実施例について説明するための説明図である。本第１の実施例では、図２における情報処理装置２００において、例えば、ユーザＡによりユーザＣ，Ｄとのネットワーク接続が指示されて、図２における表示装置１０２の表示画面および表示システム４００における表示画面に、情報処理装置２００および他の情報処理装置５００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。

まず、情報処理装置２００は、図６（Ａ）に示す撮像画像および図６（Ｂ）に示す撮像画像を受信して、上述した顔認識により情報処理装置２００のユーザＡ，Ｂおよび他の情報処理装置５００のユーザＣ，Ｄを認識する。そして、情報処理装置２００は、図６（Ｃ）に示すように、表示装置１０２の表示画面に、情報処理装置２００のユーザＡを表したユーザ画像１１０と、情報処理装置２００のユーザＢを表したユーザ画像１１２と、他の情報処理装置５００のユーザＣを表したユーザ画像１１４と、他の情報処理装置５００のユーザＤを表したユーザ画像１１６とがユーザ毎に表示される表示画像を表示する。同様に、他の情報処理装置５００は、図６（Ｄ）に示すように、表示システム４００における表示装置４０２の表示画面に、情報処理装置２００のユーザＡを表したユーザ画像４１０と、情報処理装置２００のユーザＢを表したユーザ画像４１２と、他の情報処理装置５００のユーザＣを表したユーザ画像４１４と、他の情報処理装置５００のユーザＤを表したユーザ画像４１６とがユーザ毎に表示される表示画像を表示する。

次いで、図７（Ａ）に示すように、ユーザＤによる表現として、例えば、「富士山が見たい。」との発話が行われると、他の情報処理装置５００は、その音声を受信して、上述した音声認識により他の情報処理装置５００のユーザのうちの話者のユーザＤおよび話者のユーザＤが話している内容を認識する。そして、他の情報処理装置５００は、図７（Ｂ）に示すように、表示装置４０２の表示画面に、話者のユーザＤを表したユーザ画像４１６からの吹き出し４１８の中に話している内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。同様に、情報処理装置２００は、図示はしないが、表示装置１０２の表示画面に、話者のユーザＤを表したユーザ画像１１６からの吹き出し（図示しない）の中に話している内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。

また、図７（Ａ）に示すように、ユーザＤによる表現として、例えば、リモートコントローラを使用した「富士山が見たい。」との文字データの送信が行われると、他の情報処理装置５００は、その操作信号を受信して、上述した行動認識により他の情報処理装置５００のユーザのうちの操作者のユーザＤおよび操作者の操作内容とを認識する。そして、他の情報処理装置５００は、図７（Ｂ）に示すように、表示装置４０２の表示画面に、操作者のユーザＤを表したユーザ画像４１６からの吹き出し４１８の中に操作者の操作内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。同様に、情報処理装置２００は、図示はしないが、表示装置１０２の表示画面に、操作者のユーザＤを表したユーザ画像１１６からの吹き出し（図示しない）の中に操作者の操作内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。

次いで、図７（Ｃ）に示すように、ユーザＢによる表現として、例えば、リモートコントローラを使用した「富士山のコンテンツ」の表示要求の送信が行われると、情報処理装置２００は、その操作信号を受信して、上述した行動認識により情報処理装置２００のユーザのうちの操作者のユーザＢおよび操作者の操作内容とを認識する。そして、情報処理装置２００は、図７（Ｄ）に示すように、表示装置１０２の表示画面に、操作者のユーザＢを表したユーザ画像１１２からの吹き出し１１８の中に操作者のユーザＢが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像が表示される表示画像を表示する。同様に、他の情報処理装置５００は、図示はしないが、表示装置４０２の表示画面に、操作者のユーザＢを表したユーザ画像４１２からの吹き出し（図示しない）の中に操作者のユーザＢが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像が表示される表示画像を表示する。このとき、他の情報処理装置５００は、情報処理装置２００から操作者のユーザＢが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像を受信してもよく、例えば通信ネットワーク８００を経由して他の装置から当該コンテンツ画像を受信してもよい。

本第１の実施例によれば、情報処理装置２００および他の情報処理装置５００のユーザは、情報処理装置２００や他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができ、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、情報処理装置２００および他の情報処理装置５００のいずれのユーザが表現を行ったのかを確実に把握することができる。

図８（Ａ）〜図８（Ｄ）は、本発明の第２の実施例について説明するための説明図である。本第２の実施例では、図２における情報処理装置２００において、例えば、ユーザＡによりユーザＣ，Ｄとのネットワーク接続が指示されて、ユーザＣ，Ｄとのネットワーク接続の途中でユーザＡが退席した場合について説明する。

図８（Ａ）および図８（Ｂ）に示すように、ユーザＣ，Ｄとのネットワーク接続の途中でユーザＡが退席した場合には、図８（Ｃ）および図８（Ｄ）に示すように、表示装置１０２の表示画面には、ユーザＡの退席と同時に情報処理装置２００のユーザＡを表したユーザ画像１２０が消去される表示画像が表示される。同様に、表示システム４００の表示装置４０２の表示画面にも、図示はしないが、ユーザＡの退席と同時に情報処理装置２００のユーザＡを表したユーザ画像（図示しない）が消去される表示画像が表示される。

本第２の実施例によれば、表示装置４０２の表示画面に表示される表示画像において、ユーザＡの退席と同時に情報処理装置２００のユーザＡを表したユーザ画像１２０が消去されるので、他の情報処理装置５００のユーザは、情報処理装置２００のユーザＡの退席を確実に把握することができる。

図９（Ａ）〜図９（Ｄ）は、本発明の第３の実施例について説明するための説明図である。本第３の実施例では、図２における情報処理装置２００において、例えば、ユーザＡによりユーザＣ，Ｄとのネットワーク接続が指示されて、ユーザＣ，Ｄとのネットワーク接続の途中でユーザＡの顔の表情が笑っている表情に変化した場合について説明する。

図９（Ａ）〜図９（Ｄ）に示すように、ユーザＣ，Ｄとのネットワーク接続の途中でユーザＡの顔の表情が笑っている表情に変化した場合には、表示装置１０２の表示画面には、顔の表情が笑っている表情に変化したユーザＡを表したユーザ画像１３０があたかも飛び跳ねているように表示させた表示画像が表示される。同様に、表示システム４００の表示装置４０２の表示画面にも、図示はしないが、顔の表情が笑っている表情に変化したユーザＡを表したユーザ画像（図示しない）があたかも飛び跳ねているように表示させた表示画像が表示される。

本第３の実施例によれば、表示装置４０２の表示画面に表示される表示画像において、顔の表情が笑っている表情に変化したユーザＡを表したユーザ画像１３０があたかも飛び跳ねているように表示されるので、他の情報処理装置５００のユーザは、情報処理装置２００のユーザＡの顔の表情が笑っている表情に変化したことを確実に把握することができる。

図１０（Ａ）および図１０（Ｂ）は、本発明の第４の実施例について説明するための説明図である。本第４の実施例では、図２における情報処理装置２００において、例えば、ユーザＡによりユーザＣ，Ｄとのネットワーク接続が指示されて、図２における表示装置１０２の表示画面および表示システム４００における表示画面に、情報処理装置２００および他の情報処理装置５００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。

図１０（Ａ）および図１０（Ｂ）に示すように、情報処理装置２００は、上述した顔認識により情報処理装置２００のユーザＡ，Ｂおよび他の情報処理装置５００のユーザＣ，Ｄを認識するとともに、情報処理装置２００のユーザＡ，Ｂおよび他の情報処理装置５００のユーザＣ，Ｄの性別を認識して、表示装置１０２の表示画面に、情報処理装置２００のユーザＡを表したユーザ画像１４０と、情報処理装置２００のユーザＢを表したユーザ画像１４４と、他の情報処理装置５００のユーザＣを表したユーザ画像１４２と、他の情報処理装置５００のユーザＤを表したユーザ画像１４６とがユーザ毎および性別毎に表示される表示画像を表示する。同様に、図示はしないが、他の情報処理装置５００は、上述した顔認識により情報処理装置２００のユーザＡ，Ｂおよび他の情報処理装置５００のユーザＣ，Ｄを認識するとともに、情報処理装置２００のユーザＡ，Ｂおよび他の情報処理装置５００のユーザＣ，Ｄの性別を認識して、表示装置４０２の表示画面に、情報処理装置２００のユーザＡを表したユーザ画像（図示しない）と、情報処理装置２００のユーザＢを表したユーザ画像（図示しない）と、他の情報処理装置５００のユーザＣを表したユーザ画像（図示しない）と、他の情報処理装置５００のユーザＤを表したユーザ画像（図示しない）とがユーザ毎および性別毎に表示される表示画像を表示する。

本第４の実施例によれば、情報処理装置２００および他の情報処理装置５００のユーザは、情報処理装置２００や他の情報処理装置５００のいずれのユーザの性別についても確実に把握することができる。

図１１（Ａ）〜図１１（Ｅ）は、本発明の第５の実施例について説明するための説明図である。本第５の実施例では、図２における他の情報処理装置５００において、例えば、ユーザＣによりユーザＡ，Ｂとのネットワーク接続が指示されて、図２における表示システム４００における表示画面に、他の情報処理装置５００の表示画像生成部（図示しない）が生成した表示画像４２０が表示されている際に、表示システム４００における表示画面にコンテンツ画像４３０を表示させる場合について説明する。

図１１（Ａ）〜図１１（Ｅ）に示すように、表示システム４００における表示画面に、表示画像４２０が表示されている際に、コンテンツ画像４３０を表示させる場合には、表示画像４２０をフェードアウトさせながら表示画像４２０を徐々に右方向にずらし、また、左方向からコンテンツ画像４３０を右方向にずらして、コンテンツ画像４３０を表示させる。そして、図１１（Ｅ）に示すように、表示システム４００における表示画面に、ネットワーク接続中であることを示す表示４４０を表示させる。

本第５の実施例によれば、他の情報処理装置５００のユーザは、ユーザＡ，Ｂとのネットワーク接続中であることを確実に把握することができる。

図１２（Ａ）および図１２（Ｂ）は、本発明の第６の実施例について説明するための説明図である。本第６の実施例では、図２における情報処理装置２００において、例えば、ユーザＡによりユーザＣとのネットワーク接続が指示されて、図２における表示装置１０２の表示画面に、コンテンツ画像と表示画像生成部２０６が生成した表示画像とを重畳表示させる場合について説明する。

図１２（Ａ）および図１２（Ｂ）に示すように、表示装置１０２の表示画面に、コンテンツ画像と表示画像生成部２０６が生成した表示画像とを重畳表示させる場合には、ユーザ画像１５０，１５２を徐々に表示画面の画面外に移動させる。そして、図１２（Ｂ）に示すように、ユーザ画像１５０，１５２で表されたユーザが発話などの表現を行った場合に、ユーザ画像１５０，１５２の移動先に相当する位置から、例えば波紋表現を行うようにする。

本第６の実施例によれば、情報処理装置２００のユーザは、コンテンツ画像の全体を見ることができるとともに、ユーザＣとのネットワーク接続中であることを確実に把握することができる。

図１３（Ａ）〜図１３（Ｌ）は、本発明の第７の実施例について説明するための説明図である。本第７の実施例では、図２における情報処理装置７００において、例えば、ユーザＥによりユーザＡ，ＢおよびユーザＣ，Ｄとのネットワーク接続が指示されて、図２における表示システム６００における表示画面に、情報処理装置２００および他の情報処理装置５００，７００のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。

図１３（Ａ）〜図１３（Ｌ）に示すように、表示システム６００における表示画面には、情報処理装置２００および他の情報処理装置５００，７００のユーザがコンテンツを共有する領域としての共有コンテンツ領域Ａ１と、他の情報処理装置７００のユーザＥ，Ｆのコンテンツを表した領域としてのユーザ別コンテンツ領域Ａ２とが設定される。そして、例えばユーザＥにより共有コンテンツ領域Ａ１に表示させるコンテンツとしてコンテンツ画像６０２が選択されると、共有コンテンツ領域Ａ１におけるユーザＥに対応する位置としての下側の領域にコンテンツ画像６０２に対応するコンテンツ画像６０４が表示されて徐々に拡大される（図１３（Ｂ）〜図１３（Ｄ））。また、例えばユーザＡにより共有コンテンツ領域Ａ１に表示させるコンテンツとしてコンテンツ画像（図示しない）が選択されると、ユーザＡを表したユーザ画像が拡大されるとともに、共有コンテンツ領域Ａ１におけるユーザＡに対応する位置としての右下側の領域にユーザＡが選択したコンテンツ画像（図示しない）に対応するコンテンツ画像６０６が表示されて徐々に拡大される（図１３（Ｆ）〜図１３（Ｈ））。また、例えばユーザＣにより共有コンテンツ領域Ａ１に表示させるコンテンツとしてコンテンツ画像（図示しない）が選択されると、ユーザＣを表したユーザ画像が拡大されるとともに、共有コンテンツ領域Ａ１におけるユーザＣに対応する位置としての左上側の領域にユーザＣが選択したコンテンツ画像（図示しない）に対応するコンテンツ画像６０８が表示されて徐々に拡大される（図１３（Ｊ）〜図１３（Ｌ））。このとき、図１３（Ｋ）に示すように、ユーザＡが選択したコンテンツ画像６０６をフェードアウトさせるようにしてもよい。

本第７の実施例によれば、他の情報処理装置７００のユーザは、情報処理装置２００や他の情報処理装置５００のいずれのユーザの存在についても確実に把握することができ、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、情報処理装置２００および他の情報処理装置５００のいずれのユーザが表現を行ったのかを確実に把握することができる。

［６．情報処理装置の機能構成（第２の実施の形態）］
次に、本発明の第２の実施の形態に係る情報処理装置の機能構成について説明する。図１４は、本実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。本実施の形態における情報処理装置としての情報処理装置２５０は、撮像部２５２と、表示部２５４とを備えている点が、上述した第１の実施の形態と異なるのみであるので、重複した構成、作用については説明を省略し、以下に異なる構成、作用についての説明を行う。

なお、図１４には、情報処理装置２５０のユーザとしてのユーザＡ，Ｂと、情報処理装置２５０が接続可能な通信ネットワーク８００と、通信ネットワーク８００に接続可能な通信サーバ３００や他の情報処理装置５５０，７５０と、他の情報処理装置５５０のユーザとしてのユーザＣ，Ｄと、他の情報処理装置７５０のユーザとしてのユーザＥ，Ｆとが示されている。他の情報処理装置５５０，７５０は、情報処理装置２５０と同様の構成を有するため、詳細な説明は省略する。他の情報処理装置５５０，７５０は、本発明の通信対象装置の一例である。

図１３において、情報処理装置２５０は、例えば、撮像部２５２と、顔認識部２０４と、表示画像生成部２０６と、表示部２５４と、表示制御部２１０と、通信部２１２と、音声入力部２１４と、音声認識部２１６と、操作信号入力部２１８と、行動認識部２２０と、記憶部２２２とを備える。

撮像部２５２は、表示部２５４の表示画面を見ているユーザＡ，Ｂの静止画像または動画像を撮像することができる。そして、撮像部２５２は、撮像により生成した撮像画像を通信部２１２や、顔認識部２０４、表示画像生成部２０６に伝達することができる。

表示部２５４は、例えば、情報処理装置２５０および他の情報処理装置５５０，７５０のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像を表示することができる。

本実施の形態によれば、情報処理装置２５０が上述した図４の表示処理を実行することにより、上述した第１の実施の形態と同様の効果を奏することができる。さらに、本実施の形態によれば、例えば、図２に示す表示システム１００を別途用意する必要をなくすことができ、簡易に実施することができるようになる。

また、本発明の目的は、上述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ等）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。

この場合、記憶媒体から読み出されたプログラムコード自体が上述した各実施の形態の機能を実現することになり、そのプログラムコードおよび該プログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ等の光ディスク、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、上述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれる。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれる。

以上、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、通信サーバ３００において、他の情報処理装置５００，７００からの撮像画像から他の情報処理装置５００，７００のユーザやユーザの表情を認識するようにしてもよい。また、通信サーバ３００において、他の情報処理装置５００，７００からの音声から他の情報処理装置５００，７００のユーザのうちの話者のユーザや話者のユーザの話している内容を認識するようにしてもよい。また、通信サーバ３００において、他の情報処理装置５００，７００からの操作信号から他の情報処理装置５００，７００のユーザの行動を認識するようにしてもよい。

また、情報処理装置２００は、コンテンツを他の情報処理装置５００，７００に送信して、ユーザ間でコンテンツを共有するようにしてもよい。

１００表示システム
１０２表示装置
１０４撮像装置
２００情報処理装置
２０２画像入力部
２０４顔認識部
２０６表示画像生成部
２０８出力部
２１０表示制御部
２１２通信部
２１４音声入力部
２１６音声認識部
２１８操作信号入力部
２２０行動認識部
２２２記憶部
３００通信サーバ
４００，６００他の表示システム
５００，７００他の情報処理装置
８００通信ネットワーク

Claims

通信対象装置のユーザを表すユーザ画像を受信する通信部と、
前記ユーザ画像を含む第１の表示画面からコンテンツ画像を含む第２の表示画面への切替えを制御する制御部と、
を備え、
前記第２の表示画面は、前記通信対象装置とネットワーク接続中であることを示す表示を含む、情報処理装置。
前記制御部は、前記第１の表示画面から前記第２の表示画面への切替えを、前記第１の表示画面をフレームアウトさせながら、前記第２の表示画面をフレームインさせることで行う、請求項１に記載の情報処理装置。
前記制御部は、前記第１の表示画面を所定方向に移動させながら前記フレームアウトさせつつ、前記第２の表示画面を前記所定方向に移動させながらフレームンインさせる、請求項２に記載の情報処理装置。
通信対象装置のユーザを表すユーザ画像を受信することと、
前記ユーザ画像を含む第１の表示画面からコンテンツ画像を含む第２の表示画面への切替えを制御することと、
を含み、
前記第２の表示画面は、前記通信対象装置とネットワーク接続中であることを示す表示を含む、情報処理方法。