以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.表示システム
2.情報処理装置の機能構成(第1の実施の形態)
3.情報処理装置のハードウェア構成
4.表示処理
5.実施例
6.情報処理装置の機能構成(第2の実施の形態)
[1.表示システム]
まず、本発明の実施の形態における表示システムについて説明する。図1は、本実施の形態における表示システムの一例を説明するための説明図である。図1は、表示システムを正面から見た正面図である。
図1において、表示システム100は、例えば、表示装置102と、撮像装置104とを備える。
表示装置102は、駆動信号に基づいて静止画像または動画像を表示することができる。例えば、表示装置102は、液晶によって静止画像または動画像を表示する。なお、表示装置102は、有機EL(エレクトロルミネセンス)のような自発光型の表示デバイスによって静止画像または動画像を表示してもよい。
撮像装置104は、表示装置102の上方中央部に設けられていて、表示装置102の表示方向における被写体を撮像することができる。撮像装置104は、CCD(Charge Coupled Device)イメージセンサによって静止画像または動画像の撮像を行うものであってもよく、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサによって静止画像または動画像の撮像を行うものであってもよい。
なお、本実施の形態では、撮像装置104が表示装置102の上方中央部に設けられているが、撮像装置104が設けられる場所は表示装置102の上方中央部に限られない。例えば、撮像装置104は、表示装置102の下方中央部などに設けられてもよい。また、本実施の形態では、撮像装置104が1つだけ設けられているが、撮像装置104の数は1つに限られない。例えば、撮像装置104は、2つ以上設けられてもよい。また、本実施の形態では、表示装置102と撮像装置104とが一体となっているが、表示装置102と撮像装置104とは別体となってもよい。
なお、表示システム100には、表示装置102の前方のユーザの有無を検知するセンサ(図示しない)や、リモートコントローラ(図示しない)からの赤外線や無線等による制御信号を受信可能な信号受信部(図示しない)が設けられていてもよい。制御信号は、本発明の操作信号の一例である。また、上記センサは、表示装置102と表示装置102の前方のユーザとの間の距離を検出できるものであってもよい。また、表示システム100には、周囲の音を取得可能な例えばマイクロフォンなどの音声取得手段が設けられていてもよい。
本実施の形態における表示装置102は、後述するように、静止画像または動画像のコンテンツや、図4の表示処理において情報処理装置200により生成された表示画像の表示を行うことができる。
また、本実施の形態における撮像装置104は、図2における表示装置102の表示画面を見ているユーザA,Bの静止画像または動画像を撮像することができる。
[2.情報処理装置の機能構成(第1の実施の形態)]
次に、本発明の第1の実施の形態に係る情報処理装置の機能構成について説明する。図2は、本実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。なお、図2には、本実施の形態に係る情報処理装置としての情報処理装置200へ撮像画像を伝達し、また情報処理装置200から表示装置102を駆動するための信号を受信する表示システム100と、表示システム100および情報処理装置200のユーザとしてのユーザA,Bとが示されている。さらに、図2には、情報処理装置200が接続可能な通信ネットワーク800と、通信ネットワーク800に接続可能な通信サーバ300や他の情報処理装置500,700と、他の情報処理装置500へ撮像画像を伝達し、また他の情報処理装置500から信号を受信する他の表示システム400と、他の表示システム400および他の情報処理装置500のユーザとしてのユーザC,Dと、他の情報処理装置700へ撮像画像を伝達し、また他の情報処理装置700から信号を受信する他の表示システム600と、他の表示システム600および他の情報処理装置700のユーザとしてのユーザE,Fとが示されている。他の表示システム400,600は、表示システム100と同様の構成を有するため、詳細な説明は省略する。また、他の情報処理装置500,700は、情報処理装置200と同様の構成を有するため、詳細な説明は省略する。他の情報処理装置500,700は、本発明の通信対象装置の一例である。
図2において、情報処理装置200は、例えば、画像入力部202と、顔認識部204と、表示画像生成部206と、出力部208と、表示制御部210と、通信部212と、音声入力部214と、音声認識部216と、操作信号入力部218と、行動認識部220と、記憶部222とを備える。
画像入力部202は、本発明の入力部の一例であり、撮像装置104が撮像により生成した撮像画像を受信する。そして、画像入力部202は、受信した(入力された)撮像画像を通信部212へ伝達する。なお、画像入力部202は、受信した撮像画像を顔認識部204や表示画像生成部206へ伝達してもよい。
顔認識部204は、本発明の認識部の一例であり、通信部212が受信した他の情報処理装置500,700からの撮像画像を受信して、受信した撮像画像から他の情報処理装置500,700のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置500,700のユーザ、すなわちユーザC,DおよびユーザE,Fを認識する。他の情報処理装置500,700からの撮像画像は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、顔認識部204は、受信した撮像画像からユーザの顔の部分を検出して、検出したユーザの顔の部分からユーザの顔の情報(以下、「ユーザ顔情報」という。)を算出して、算出したユーザ顔情報と、記憶部222に記憶されている予め算出されたユーザ毎のユーザ顔情報223とを比較することにより、撮像画像に写っているユーザを認識する。撮像画像に写るという行為は、本発明の表現の一例である。なお、顔認識部204は、さらに、撮像画像に写っているユーザの性別や年齢などを認識してもよい。そして、顔認識部204は、他の情報処理装置500,700のユーザの認識の結果を表示画像生成部206へ伝達する。また、顔認識部204は、画像入力部202からの撮像画像を受信して、受信した撮像画像から情報処理装置200のユーザの顔を認識することにより、情報処理装置200のユーザ、すなわちユーザA,Bを認識してもよい。画像入力部202からの撮像画像は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、顔認識部204は、情報処理装置200のユーザの認識の結果を表示画像生成部206や通信部212へ伝達してもよい。
また、顔認識部204は、他の情報処理装置500,700からの撮像画像から他の情報処理装置500,700のユーザの顔の表情を認識してもよい。顔の表情を変化させるという行為は、本発明の表現の一例である。そして、顔認識部204は、他の情報処理装置500,700のユーザの顔の表情の認識の結果を表示画像生成部206へ伝達してもよい。なお、顔認識部204は、画像入力部202からの撮像画像から情報処理装置200のユーザの顔の表情を認識してもよい。そして、顔認識部204は、情報処理装置200のユーザの顔の表情の認識の結果を表示画像生成部206や通信部212へ伝達してもよい。
表示画像生成部206は、本発明の制御部の一例であり、顔認識部204から他の情報処理装置500,700のユーザの認識の結果を受信し、通信部212が受信した他の表示システム400において撮像された撮像画像や他の表示システム600において撮像された撮像画像を受信する。そして、表示画像生成部206は、受信した他の情報処理装置500,700のユーザの認識の結果に基づいて、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。表示画像の詳細については後述する。なお、表示画像生成部206は、表示画像におけるユーザ画像を、受信した他の表示システム400において撮像された撮像画像や他の表示システム600において撮像された撮像画像からユーザの顔の部分を切り出して生成してもよい。また、表示画像生成部206は、表示画像におけるユーザ画像を、例えばユーザを表したキャラクタ画像としてもよい。そして、表示画像生成部206は、生成した表示画像を表示制御部210へ伝達する。
また、表示画像生成部206は、画像入力部202から表示システム100において撮像された撮像画像を受信し、顔認識部204から情報処理装置200のユーザの認識の結果や他の情報処理装置500,700のユーザの認識の結果を受信し、通信部212が受信した他の表示システム400において撮像された撮像画像や他の表示システム600において撮像された撮像画像を受信した場合には、受信した情報処理装置200のユーザおよび他の情報処理装置500,700のユーザの認識の結果に基づいて、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。
また、表示画像生成部206は、通信部212が他の表示システム400において撮像された撮像画像からのユーザの認識の結果や、他の表示システム600において撮像された撮像画像からのユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部204による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。この場合、上述した顔認識部204は、他の情報処理装置500,700からの撮像画像からユーザの認識を行わなくてもよい。
また、表示画像生成部206は、顔認識部204からさらに他の情報処理装置500,700のユーザの顔の表情の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザの顔の表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部206は、あるユーザの顔の表情が笑っている表情に変化したと認識した場合は、当該ユーザを表したユーザ画像があたかも飛び跳ねているように表示させた表示画像を生成する。
また、表示画像生成部206は、顔認識部204からさらに情報処理装置200のユーザの顔の表情の認識の結果を受信した場合には、受信した情報処理装置200のユーザの表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成してもよい。
また、表示画像生成部206は、通信部212が他の表示システム400において撮像された撮像画像からのユーザの顔の表情の認識の結果や、他の表示システム600において撮像された撮像画像からのユーザの顔の表情の認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部204による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、表示画像生成部206は、音声認識部216から他の情報処理装置500,700のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザのうちの話者のユーザの認識の結果にさらに基づいて、上記表示画像においてさらに、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部206は、話者のユーザを表したユーザ画像が拡大されるように表示させた表示画像を生成する。
また、表示画像生成部206は、音声認識部216からさらに情報処理装置200のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した情報処理装置200のユーザのうちの話者のユーザの認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。
また、表示画像生成部206は、通信部212が他の情報処理装置500において入力された音声からの話者のユーザの認識の結果や、他の情報処理装置700において入力された音声からの話者のユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部216による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、表示画像生成部206は、音声認識部216からさらに他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部206は、さらに話者のユーザを表したユーザ画像からの吹き出しの中に話している内容の文字画像が表示される表示画像を生成する。
また、表示画像生成部206は、音声認識部216からさらに情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。
また、表示画像生成部206は、通信部212が他の情報処理装置500において入力された音声からの話者のユーザが話している内容の認識の結果や、他の情報処理装置700において入力された音声からの話者のユーザが話している内容の認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部216による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、表示画像生成部206は、行動認識部220から他の情報処理装置500,700のユーザの行動の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。例えば、表示画像生成部206は、操作者のユーザを表したユーザ画像からの吹き出しの中に操作者のユーザが表示させたいコンテンツ画像が表示される表示画像を生成する。
また、表示画像生成部206は、行動認識部220からさらに情報処理装置200のユーザの行動の認識の結果を受信した場合には、受信した情報処理装置200のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。
また、表示画像生成部206は、通信部212が他の情報処理装置500において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置700において入力された操作信号からのユーザの行動の結果を受信した場合には、それらの認識の結果を受信して、行動認識部220による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
出力部208は、表示制御部210から表示装置102を駆動するための信号を受信し、受信した信号を表示装置102に伝達する。また、出力部208は、通信部212が受信した他の情報処理装置500,700において入力された音声を受信した場合には、受信した音声を表示システム100のスピーカ(図示しない)などに伝達してもよい。
表示制御部210は、本発明の制御部の一例であり、表示画像生成部206から表示画像を受信する。また、表示制御部210には静止画像または動画像のコンテンツが供給される。そして、表示制御部210は、表示装置102の表示画面に、表示画像生成部206が生成した表示画像を表示させるための信号を出力部208に伝達する。また、表示制御部210は、表示装置102の表示画面に、コンテンツを表示させるための信号を出力部208に伝達してもよい。
通信部212は、通信サーバ300から通信ネットワーク800を経由して他の表示システム400において撮像された撮像画像や他の情報処理装置500において入力された音声や操作信号を受信する。また、通信部212は、通信サーバ300から通信ネットワーク800を経由して他の表示システム600において撮像された撮像画像や他の情報処理装置700において入力された音声や操作信号を受信する。なお、通信部212は、他の表示システム400において撮像された撮像画像や他の情報処理装置500において入力された音声や操作信号を他の情報処理装置500から通信ネットワーク800を経由して直接的に受信することもできる。同様に、通信部212は、他の表示システム600において撮像された撮像画像や他の情報処理装置700において入力された音声や操作信号を他の情報処理装置700から通信ネットワーク800を経由して直接的に受信することもできる。
また、通信部212は、通信サーバ300から通信ネットワーク800を経由して他の表示システム400において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置500において入力された音声からの認識の結果や操作信号からの認識の結果、他の表示システム600において撮像された撮像画像からのユーザの認識の結果、他の情報処理装置700において入力された音声からの認識の結果や操作信号からの認識の結果を受信してもよい。なお、通信部212は、他の表示システム400において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置500において入力された音声からの認識の結果や操作信号からの認識の結果を他の情報処理装置500から通信ネットワーク800を経由して直接的に受信することもできる。同様に、通信部212は、他の表示システム600において撮像された撮像画像からのユーザの認識の結果や、他の情報処理装置700において入力された音声からの認識の結果や操作信号からの認識の結果を他の情報処理装置700から通信ネットワーク800を経由して直接的に受信することもできる。
また、通信部212は、画像入力部202からの撮像画像や音声入力部214からの音声、操作信号入力部218からの操作信号を受信し、受信した撮像画像や音声、操作信号を通信ネットワーク800を経由して通信サーバ300に送信してもよい。さらに、通信部212は、顔認識部204から表示システム100において撮像された撮像画像からのユーザの認識の結果や、音声認識部216から情報処理装置200に入力された音声からの認識の結果、行動認識部220から情報処理装置200に入力された操作信号からの認識の結果を受信し、受信したそれらの認識の結果を通信ネットワーク800を経由して通信サーバ300に送信してもよい。なお、通信部212は、受信した撮像画像や音声、操作信号、撮像画像からのユーザの認識の結果、音声からの認識の結果、操作信号からの認識の結果を通信ネットワーク800を経由して他の情報処理装置500,700に直接的に送信することもできる。
音声入力部214は、本発明の入力部の一例であり、例えば、情報処理装置200のユーザとしてのユーザA,Bからの音声を受信する。そして、音声入力部214は、受信した(入力された)音声を通信部212へ伝達する。また、音声入力部214は、受信した音声を音声認識部216へ伝達してもよい。
音声認識部216は、本発明の認識部の一例であり、通信部212が受信した他の情報処理装置500,700からの音声を受信して、受信した音声から他の情報処理装置500,700のユーザのうちの話者のユーザを認識する。発話するという行為は、本発明の表現の一例である。他の情報処理装置500,700からの音声は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、音声認識部216は、受信した音声から特徴を抽出してユーザの音声の情報(以下、「ユーザ音声情報」という。)を生成し、生成したユーザ音声情報と、記憶部222に記憶されている予め生成されたユーザ毎のユーザ音声情報224とを比較することにより、話者のユーザを認識する。そして、音声認識部216は、他の情報処理装置500,700のユーザのうちの話者のユーザの認識の結果を表示画像生成部206へ伝達する。また、音声認識部216は、音声入力部214からの音声を受信して、受信した音声から情報処理装置200のユーザのうちの話者のユーザを認識してもよい。音声入力部214からの音声は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、音声認識部216は、情報処理装置200のユーザのうちの話者のユーザの認識の結果を表示画像生成部206や通信部212へ伝達してもよい。
また、音声認識部216は、他の情報処理装置500,700からの音声から他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容を認識してもよい。例えば、音声認識部216は、受信した音声を解析することにより、ユーザが話している内容を文字データとして取り出して認識する。そして、音声認識部216は、他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容の認識の結果を表示画像生成部206へ伝達してもよい。また、音声認識部216は、音声入力部214からの音声から情報処理装置200のユーザのうちの話者のユーザが話している内容を認識してもよい。そして、音声認識部216は、情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果を表示画像生成部206や通信部212へ伝達してもよい。
操作信号入力部218は、本発明の入力部の一例であり、例えば、情報処理装置200のユーザとしてのユーザA,Bによる、例えばリモートコントローラ(図示しない)を使用して送信された操作信号を受信する。そして、操作信号入力部218は、受信した(入力された)操作信号を通信部212へ伝達する。また、操作信号入力部218は、受信した操作信号を行動認識部220へ伝達してもよい。
行動認識部220は、本発明の認識部の一例であり、通信部212が受信した他の情報処理装置500,700からの操作信号を受信して、受信した操作信号から他の情報処理装置500,700のユーザの行動を認識する。行動を起こすという行為は、本発明の表現の一例である。他の情報処理装置500,700からの操作信号は、本発明の通信対象装置のユーザの表現に係る所定の信号の一例である。例えば、行動認識部220は、受信した操作信号から当該操作信号に含まれている操作者のユーザの機器の情報(以下、「ユーザ機器情報」という。)を抽出し、抽出したユーザ機器情報と、記憶部222に記憶されている予め生成されたユーザ毎のユーザ機器情報226とを比較することにより、操作者のユーザを認識する。また、例えば、行動認識部220は、受信した操作信号から当該操作信号に含まれている操作内容の情報を抽出して、操作者の操作内容を認識する。例えば、行動認識部220は、操作内容の情報に含まれている操作者のユーザが表示画面に表示させたいコンテンツの情報(以下、「ユーザコンテンツ情報」という。)と、記憶部222に記憶されている予め記憶されたユーザコンテンツ情報225とを比較することにより、操作者のユーザが表示画面に表示させたいコンテンツを認識する。そして、行動認識部220は、他の情報処理装置500,700のユーザの行動の認識の結果を表示画像生成部206へ伝達する。また、行動認識部220は、操作信号入力部218からの操作信号を受信して、受信した操作信号から情報処理装置200のユーザの行動を認識してもよい。操作信号入力部218からの操作信号は、本発明の情報処理装置のユーザの表現に係る所定の信号の一例である。そして、行動認識部220は、情報処理装置200のユーザの行動の認識の結果を表示画像生成部206や通信部212へ伝達してもよい。
記憶部222は、他の情報処理装置500,700や情報処理装置200のユーザの顔の情報としてのユーザ顔情報223と、他の情報処理装置500,700や情報処理装置200のユーザの音声の情報としてのユーザ音声情報224と、他の情報処理装置500,700や情報処理装置200のユーザのコンテンツの情報としてのユーザコンテンツ情報225と、他の情報処理装置500,700や情報処理装置200のユーザが使用する機器の情報としてのユーザ機器情報226とを記憶する。
なお、本発明の通信対象装置のユーザの表現に係る所定の信号は、上述した他の情報処理装置500,700からの撮像画像や音声、操作信号に限られず、他の情報処理装置500,700からの他の情報処理装置500,700のユーザが行為を行うことによって生成された信号であればよい。また、本発明の情報処理装置のユーザの表現に係る所定の信号は、上述した情報処理装置200に入力された撮像画像や音声、操作信号に限られず、情報処理装置200のユーザが行為を行うことによって生成された信号であればよい。
[3.情報処理装置のハードウェア構成]
次に、図2における情報処理装置200のハードウェア構成について説明する。図3は、図2における情報処理装置200のハードウェア構成の一例を説明するための説明図である。
図3において、情報処理装置200は、例えば、MPU230と、ROM232と、RAM234と、記録媒体236と、入出力インタフェース238と、操作入力デバイス240と、表示デバイス242と、通信インタフェース244とを備える。また、情報処理装置200は、例えば、データの伝送路としてのバス246で各構成要素間を接続する。
MPU230は、MPU(Micro Processing Unit)や、画像処理などの各種機能を実現するための複数の回路が集積された集積回路などで構成され、情報処理装置200全体を制御する制御部(図示しない)として機能する。また、MPU230は、情報処理装置200において、顔認識部204、表示画像生成部206、表示制御部210、音声認識部216および行動認識部220としての役目を果たす。
ROM232は、MPU230が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。RAM234は、例えば、MPU230により実行されるプログラムなどを一時的に記憶する。
記録媒体236は、記憶部222として機能し、例えば、ユーザ顔情報やユーザ音声情報、ユーザコンテンツ情報、ユーザ機器情報などの様々なデータ(またはデータベース)や、アプリケーションなどを記憶する。ここで、記録媒体236としては、例えば、ハードディスクなどの磁気記録媒体や、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリ(nonvolatile memory)が挙げられる。また、情報処理装置200は、情報処理装置200から着脱可能な記録媒体236を備えることもできる。
入出力インタフェース238は、例えば、操作入力デバイス240や、表示デバイス242を接続する。また、入出力インタフェース238は、画像入力部202、出力部208、音声入力部214および操作信号入力部218としての役目を果たすこともできる。操作入力デバイス240は、操作部(図示しない)として機能し、また、表示デバイス242は、後述する図15における表示部254として機能する。ここで、入出力インタフェース238としては、例えば、USB(Universal Serial Bus)端子や、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)端子、各種処理回路などが挙げられる。また、操作入力デバイス240は、例えば、情報処理装置200上に備えられ、情報処理装置200の内部で入出力インタフェース238と接続される。操作入力デバイス240としては、例えば、ボタン、方向キー、ジョグダイヤルなどの回転型セレクタ、あるいは、これらの組み合わせなどが挙げられる。また、表示デバイス242は、例えば、情報処理装置200上に備えられ、情報処理装置200の内部で入出力インタフェース238と接続される。表示デバイス242としては、例えば、液晶ディスプレイ(Liquid Crystal Display;LCD)や有機ELディスプレイ(organic ElectroLuminescence display。または、OLEDディスプレイ(Organic Light Emitting Diode display)ともよばれる。)などが挙げられる。なお、入出力インタフェース238が、情報処理装置200の外部装置としての操作入力デバイス(例えば、キーボードやマウスなど)や、表示デバイス(例えば、表示装置102などの外部表示デバイス)、撮像デバイス(例えば、撮像装置104など)などの外部デバイスと接続することもできることは、言うまでもない。また、表示デバイス242は、例えばタッチスクリーンなど、表示とユーザ操作とが可能なデバイスであってもよい。
通信インタフェース244は、情報処理装置200が備える通信手段であり、ネットワーク800を経由して(あるいは、直接的に)、例えば通信サーバ300や、他の情報処理装置500,700などの外部装置と無線/有線で通信を行うための通信部212として機能する。ここで、通信インタフェース244としては、例えば、通信アンテナおよびRF回路(無線通信)や、IEEE802.15.1ポートおよび送受信回路(無線通信)、IEEE802.11bポートおよび送受信回路(無線通信)、あるいはLAN端子および送受信回路(有線通信)などが挙げられる。
なお、本実施の形態に係る情報処理装置200のハードウェア構成は、図3に示す構成に限られない。例えば、情報処理装置200は、音声出力部(図示しない)の役目を果たす、DSP(Digital Signal Processor)と、増幅器(アンプ)やスピーカなどから構成される音声出力デバイスとを備えてもよい。
また、情報処理装置200は、例えば、図15における撮像部252の役目を果たす、レンズ/撮像素子と信号処理回路とから構成される撮像デバイスを備えていてもよい。上記の場合には、情報処理装置200は、自装置が生成した撮像画像を処理することができる。ここで、レンズ/撮像素子は、例えば、光学系のレンズと、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を複数用いたイメージセンサとで構成される。信号処理回路は、例えば、AGC(Automatic Gain Control)回路やADC(Analog to Digital Converter)を備え、撮像素子により生成されたアナログ信号をデジタル信号(画像データ)に変換し、各種信号処理を行う。信号処理回路が行う信号処理としては、例えば、White Balance補正処理、補間処理、色調補正処理、ガンマ補正処理、YCbCr変換処理、エッジ強調処理、およびコーディング処理などが挙げられる。
また、情報処理装置200は、例えば、図3に示す操作入力デバイス240や表示デバイス242を備えない構成であってもよい。
[4.表示処理]
次に、図2における情報処理装置200が実行する表示処理について説明する。図4は、図2における情報処理装置200が実行する表示処理のフローチャートである。
図4において、まず、情報処理装置200において、例えば、ユーザAによりユーザC,DやユーザE,Fとのネットワーク接続が指示されると、通信部212は、通信ネットワーク800を経由して通信サーバ300と通信可能な状態となる(ステップS100)。なお、ステップS100では、通信部212は、通信ネットワーク800を経由して直接的に他の情報処理装置500,700と通信可能な状態となってもよい。
次いで、通信部212は、画像入力部202を経由して受信した表示システム100における撮像装置104が撮像により生成した撮像画像を通信ネットワーク800を経由して通信サーバ300に送信する(ステップS102)。なお、ステップS102では、通信部212は、顔認識部204から受信した情報処理装置200のユーザの認識の結果や情報処理装置200のユーザの顔の表情の認識の結果を通信ネットワーク800を経由して通信サーバ300に送信してもよい。また、ステップS102では、通信部212は、撮像画像やユーザの認識の結果、ユーザの顔の表情の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700に送信してもよい。
次いで、通信部212は、音声入力部214を経由して受信した情報処理装置200に入力された音声を通信ネットワーク800を経由して通信サーバ300に送信する(ステップS104)。なお、ステップS104では、通信部212は、音声認識部216から受信した情報処理装置200のユーザのうちの話者のユーザの認識の結果や情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果を通信ネットワーク800を経由して通信サーバ300に送信してもよい。また、ステップS104では、通信部212は、音声や話者のユーザの認識の結果、話者のユーザが話している内容の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700に送信してもよい。
次いで、通信部212は、操作信号入力部218を経由して受信した情報処理装置200に入力された操作信号を通信ネットワーク800を経由して通信サーバ300に送信する(ステップS106)。なお、ステップS106では、通信部212は、行動認識部220から受信した情報処理装置200のユーザの行動の認識の結果を通信ネットワーク800を経由して通信サーバ300に送信してもよい。また、ステップS106では、通信部212は、操作信号やユーザの行動の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700に送信してもよい。
次いで、通信部212は、他の情報処理装置500から送信された、表示システム400において撮像された撮像画像を通信サーバ300から受信する。さらに、通信部212は、他の情報処理装置700から送信された、表示システム600において撮像された撮像画像を通信サーバ300から受信する(ステップS108)。なお、ステップS108では、他の情報処理装置500から送信された、表示システム400において撮像された撮像画像からのユーザの認識の結果やユーザの顔の表情の認識の結果、また、他の情報処理装置700から送信された、表示システム600において撮像された撮像画像からのユーザの認識の結果やユーザの顔の表情の認識の結果を通信サーバ300から受信してもよい。また、ステップS108では、通信部212は、撮像画像やユーザの認識の結果、ユーザの顔の表情の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700から受信してもよい。
次いで、通信部212は、他の情報処理装置500から送信された、他の情報処理装置500において入力された音声を通信サーバ300から受信する。さらに、通信部212は、他の情報処理装置700から送信された、他の情報処理装置700において入力された音声を通信サーバ300から受信する(ステップS110)。なお、ステップS110では、他の情報処理装置500から送信された、他の情報処理装置500において入力された音声からの話者のユーザの認識の結果や話者のユーザが話している内容の認識の結果、また、他の情報処理装置700から送信された、他の情報処理装置700において入力された音声からの話者のユーザの認識の結果や話者のユーザが話している内容の認識の結果を通信サーバ300から受信してもよい。また、ステップS110では、通信部212は、音声や話者のユーザの認識の結果、話者のユーザが話している内容の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700から受信してもよい。
次いで、通信部212は、他の情報処理装置500から送信された、他の情報処理装置500において入力された操作信号を通信サーバ300から受信する。さらに、通信部212は、他の情報処理装置700から送信された、他の情報処理装置700において入力された操作信号を通信サーバ300から受信する(ステップS112)。なお、ステップS112では、他の情報処理装置500から送信された、他の情報処理装置500において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置700から送信された、他の情報処理装置700において入力された操作信号からのユーザの行動の認識の結果を通信サーバ300から受信してもよい。また、ステップS112では、通信部212は、操作信号やユーザの行動の認識の結果を通信ネットワーク800を経由して直接的に他の情報処理装置500,700から受信してもよい。
次いで、情報処理装置200は、後述する図5のユーザ表示処理を実行して(ステップS114)、表示装置102の表示画面に、例えば、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示されるようにして、本処理を終了する。
図5は、図4の表示処理におけるステップS114で実行されるユーザ表示処理のフローチャートである。
図5において、まず、顔認識部204は、通信部212が受信した他の情報処理装置500,700からの撮像画像を受信して、受信した撮像画像から他の情報処理装置500,700のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置500,700のユーザ、すなわちユーザC,DおよびユーザE,Fを認識する(ステップS200)。また、ステップS200では、顔認識部204は、受信した撮像画像から他の情報処理装置500,700のユーザの顔を検出し、当該顔の検出結果に基づいて、他の情報処理装置500,700のユーザ、すなわちユーザC,DおよびユーザE,Fの顔の表情を認識してもよい。また、ステップS200では、顔認識部204は、画像入力部202からの撮像画像を受信して、受信した撮像画像から情報処理装置200のユーザの顔を検出し、当該顔の検出結果に基づいて、情報処理装置200のユーザ、すなわちユーザA,Bを認識してもよく、情報処理装置200のユーザ、すなわちユーザA,Bの顔の表情を認識してもよい。
次いで、音声認識部216は、通信部212が受信した他の情報処理装置500,700からの音声を受信して、受信した音声から他の情報処理装置500,700のユーザのうちの話者のユーザを認識する(ステップS202)。また、ステップS202では、音声認識部216は、通信部212が受信した他の情報処理装置500,700からの音声を受信して、受信した音声から他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容を認識してもよい。また、ステップS202では、音声認識部216は、音声入力部214からの音声を受信して、受信した音声から情報処理装置200のユーザのうちの話者のユーザを認識してもよく、話者のユーザが話している内容を認識してもよい。
次いで、行動認識部220は、通信部212が受信した他の情報処理装置500,700からの操作信号を受信して、受信した操作信号から他の情報処理装置500,700のユーザの行動を認識する(ステップS204)。また、ステップS204では、操作信号入力部218からの操作信号を受信して、受信した操作信号から情報処理装置200のユーザの行動を認識してもよい。
次いで、表示画像生成部206は、顔認識部204から他の情報処理装置500,700のユーザの認識の結果を受信し、通信部212が受信した他の表示システム400において撮像された撮像画像や他の表示システム600において撮像された撮像画像を受信する。そして、表示画像生成部206は、受信した他の情報処理装置500,700のユーザの認識の結果に基づいて、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する(ステップS206)。
また、ステップS206では、表示画像生成部206は、画像入力部202から表示システム100において撮像された撮像画像を受信し、顔認識部204から情報処理装置200のユーザの認識の結果や他の情報処理装置500,700のユーザの認識の結果を受信し、通信部212が受信した他の表示システム400において撮像された撮像画像や他の表示システム600において撮像された撮像画像を受信した場合には、受信した情報処理装置200のユーザおよび他の情報処理装置500,700のユーザの認識の結果に基づいて、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、通信部212が他の表示システム400において撮像された撮像画像からのユーザの認識の結果や、他の表示システム600において撮像された撮像画像からのユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部204による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、ステップS206では、表示画像生成部206は、顔認識部204からさらに他の情報処理装置500,700のユーザの顔の表情の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザの顔の表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、顔認識部204からさらに情報処理装置200のユーザの顔の表情の認識の結果を受信した場合には、受信した情報処理装置200のユーザの表情の認識の結果にさらに基づいて、上記表示画像においてさらに、顔の表情が変化したユーザを表したユーザ画像と、顔の表情とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、通信部212が他の表示システム400において撮像された撮像画像からのユーザの顔の表情の認識の結果や、他の表示システム600において撮像された撮像画像からのユーザの顔の表情の認識の結果を受信した場合には、それらの認識の結果を受信して、顔認識部204による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、ステップS206では、表示画像生成部206は、音声認識部216から他の情報処理装置500,700のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザのうちの話者のユーザの認識の結果にさらに基づいて、上記表示画像においてさらに、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、音声認識部216からさらに情報処理装置200のユーザのうちの話者のユーザの認識の結果を受信した場合には、受信した情報処理装置200のユーザのうちの話者のユーザの認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、通信部212が他の情報処理装置500において入力された音声からの話者のユーザの認識の結果や、他の情報処理装置700において入力された音声からの話者のユーザの認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部216による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、ステップS206では、表示画像生成部206は、音声認識部216からさらに他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、音声認識部216からさらに情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果を受信した場合には、受信した情報処理装置200のユーザのうちの話者のユーザが話している内容の認識の結果にさらに基づいて、話者のユーザを表したユーザ画像と、発話した旨および話している内容とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、通信部212が他の情報処理装置500において入力された音声からの話者のユーザが話している内容の認識の結果や、他の情報処理装置700において入力された音声からの話者のユーザが話している内容の認識の結果を受信した場合には、それらの認識の結果を受信して、音声認識部216による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
また、ステップS206では、表示画像生成部206は、行動認識部220から他の情報処理装置500,700のユーザの行動の認識の結果を受信した場合には、受信した他の情報処理装置500,700のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、行動認識部220からさらに情報処理装置200のユーザの行動の認識の結果を受信した場合には、受信した情報処理装置200のユーザの行動の認識の結果にさらに基づいて、操作者のユーザを表したユーザ画像と、操作内容とが対応付けされて表示される表示画像を生成する。
また、ステップS206では、表示画像生成部206は、通信部212が他の情報処理装置500において入力された操作信号からのユーザの行動の認識の結果や、他の情報処理装置700において入力された操作信号からのユーザの行動の結果を受信した場合には、それらの認識の結果を受信して、行動認識部220による認識の結果に代えて通信部212から受信したそれらの認識の結果に基づいて、表示画像を生成するようにしてもよい。
次いで、表示制御部210は、表示画像生成部206から表示画像を受信して、表示装置102の表示画面に、受信した表示画像を表示させるための信号を出力部208に伝達する。そして、出力部208は、受信した表示画像を表示させるための信号を表示装置102に伝達する。これにより、表示装置102の表示画面には、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像や、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される(ステップS208)。そして、本処理を終了する。
図4の表示処理によれば、表示装置102の表示画面には、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像が表示される。これにより、情報処理装置200のユーザは、例えば他の情報処理装置500のユーザが複数存在する場合においても、表示装置102の表示画面には、ユーザ毎に他の情報処理装置500のユーザを表したユーザ画像が表示されるため、他の情報処理装置500のいずれのユーザの存在についても確実に把握することができる。
また、図4の表示処理によれば、表示装置102の表示画面には、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示される表示画像が表示される。これにより、情報処理装置200のユーザは、上述した他の情報処理装置500のいずれのユーザの存在についても確実に把握することができるとともに、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができる。
また、図4の表示処理によれば、表示装置102の表示画面には、他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される。これにより、情報処理装置200のユーザは、上述した他の情報処理装置500のいずれのユーザの存在についても確実に把握することができるとともに、例えば他の情報処理装置500のユーザが複数存在する場合においても、表示装置102の表示画面には、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示されるため、他の情報処理装置500のいずれのユーザが表現を行ったのかを確実に把握することができる。
また、図4の表示処理によれば、表示装置102の表示画面には、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される。これにより、情報処理装置200のユーザは、上述した他の情報処理装置500のいずれのユーザの存在についても確実に把握することができ、上述したあたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、他の情報処理装置500のいずれのユーザが表現を行ったのかを確実に把握することができる。
[5.実施例]
次に、本発明の実施例について説明する。図6(A)〜図6(D)および図7(A)〜図7(D)は、本発明の第1の実施例について説明するための説明図である。本第1の実施例では、図2における情報処理装置200において、例えば、ユーザAによりユーザC,Dとのネットワーク接続が指示されて、図2における表示装置102の表示画面および表示システム400における表示画面に、情報処理装置200および他の情報処理装置500のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。
まず、情報処理装置200は、図6(A)に示す撮像画像および図6(B)に示す撮像画像を受信して、上述した顔認識により情報処理装置200のユーザA,Bおよび他の情報処理装置500のユーザC,Dを認識する。そして、情報処理装置200は、図6(C)に示すように、表示装置102の表示画面に、情報処理装置200のユーザAを表したユーザ画像110と、情報処理装置200のユーザBを表したユーザ画像112と、他の情報処理装置500のユーザCを表したユーザ画像114と、他の情報処理装置500のユーザDを表したユーザ画像116とがユーザ毎に表示される表示画像を表示する。同様に、他の情報処理装置500は、図6(D)に示すように、表示システム400における表示装置402の表示画面に、情報処理装置200のユーザAを表したユーザ画像410と、情報処理装置200のユーザBを表したユーザ画像412と、他の情報処理装置500のユーザCを表したユーザ画像414と、他の情報処理装置500のユーザDを表したユーザ画像416とがユーザ毎に表示される表示画像を表示する。
次いで、図7(A)に示すように、ユーザDによる表現として、例えば、「富士山が見たい。」との発話が行われると、他の情報処理装置500は、その音声を受信して、上述した音声認識により他の情報処理装置500のユーザのうちの話者のユーザDおよび話者のユーザDが話している内容を認識する。そして、他の情報処理装置500は、図7(B)に示すように、表示装置402の表示画面に、話者のユーザDを表したユーザ画像416からの吹き出し418の中に話している内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。同様に、情報処理装置200は、図示はしないが、表示装置102の表示画面に、話者のユーザDを表したユーザ画像116からの吹き出し(図示しない)の中に話している内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。
また、図7(A)に示すように、ユーザDによる表現として、例えば、リモートコントローラを使用した「富士山が見たい。」との文字データの送信が行われると、他の情報処理装置500は、その操作信号を受信して、上述した行動認識により他の情報処理装置500のユーザのうちの操作者のユーザDおよび操作者の操作内容とを認識する。そして、他の情報処理装置500は、図7(B)に示すように、表示装置402の表示画面に、操作者のユーザDを表したユーザ画像416からの吹き出し418の中に操作者の操作内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。同様に、情報処理装置200は、図示はしないが、表示装置102の表示画面に、操作者のユーザDを表したユーザ画像116からの吹き出し(図示しない)の中に操作者の操作内容の文字画像、すなわち「富士山が見たい。」との画像が表示される表示画像を表示する。
次いで、図7(C)に示すように、ユーザBによる表現として、例えば、リモートコントローラを使用した「富士山のコンテンツ」の表示要求の送信が行われると、情報処理装置200は、その操作信号を受信して、上述した行動認識により情報処理装置200のユーザのうちの操作者のユーザBおよび操作者の操作内容とを認識する。そして、情報処理装置200は、図7(D)に示すように、表示装置102の表示画面に、操作者のユーザBを表したユーザ画像112からの吹き出し118の中に操作者のユーザBが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像が表示される表示画像を表示する。同様に、他の情報処理装置500は、図示はしないが、表示装置402の表示画面に、操作者のユーザBを表したユーザ画像412からの吹き出し(図示しない)の中に操作者のユーザBが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像が表示される表示画像を表示する。このとき、他の情報処理装置500は、情報処理装置200から操作者のユーザBが表示させたいコンテンツ画像、すなわち「富士山のコンテンツ」の画像を受信してもよく、例えば通信ネットワーク800を経由して他の装置から当該コンテンツ画像を受信してもよい。
本第1の実施例によれば、情報処理装置200および他の情報処理装置500のユーザは、情報処理装置200や他の情報処理装置500のいずれのユーザの存在についても確実に把握することができ、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、情報処理装置200および他の情報処理装置500のいずれのユーザが表現を行ったのかを確実に把握することができる。
図8(A)〜図8(D)は、本発明の第2の実施例について説明するための説明図である。本第2の実施例では、図2における情報処理装置200において、例えば、ユーザAによりユーザC,Dとのネットワーク接続が指示されて、ユーザC,Dとのネットワーク接続の途中でユーザAが退席した場合について説明する。
図8(A)および図8(B)に示すように、ユーザC,Dとのネットワーク接続の途中でユーザAが退席した場合には、図8(C)および図8(D)に示すように、表示装置102の表示画面には、ユーザAの退席と同時に情報処理装置200のユーザAを表したユーザ画像120が消去される表示画像が表示される。同様に、表示システム400の表示装置402の表示画面にも、図示はしないが、ユーザAの退席と同時に情報処理装置200のユーザAを表したユーザ画像(図示しない)が消去される表示画像が表示される。
本第2の実施例によれば、表示装置402の表示画面に表示される表示画像において、ユーザAの退席と同時に情報処理装置200のユーザAを表したユーザ画像120が消去されるので、他の情報処理装置500のユーザは、情報処理装置200のユーザAの退席を確実に把握することができる。
図9(A)〜図9(D)は、本発明の第3の実施例について説明するための説明図である。本第3の実施例では、図2における情報処理装置200において、例えば、ユーザAによりユーザC,Dとのネットワーク接続が指示されて、ユーザC,Dとのネットワーク接続の途中でユーザAの顔の表情が笑っている表情に変化した場合について説明する。
図9(A)〜図9(D)に示すように、ユーザC,Dとのネットワーク接続の途中でユーザAの顔の表情が笑っている表情に変化した場合には、表示装置102の表示画面には、顔の表情が笑っている表情に変化したユーザAを表したユーザ画像130があたかも飛び跳ねているように表示させた表示画像が表示される。同様に、表示システム400の表示装置402の表示画面にも、図示はしないが、顔の表情が笑っている表情に変化したユーザAを表したユーザ画像(図示しない)があたかも飛び跳ねているように表示させた表示画像が表示される。
本第3の実施例によれば、表示装置402の表示画面に表示される表示画像において、顔の表情が笑っている表情に変化したユーザAを表したユーザ画像130があたかも飛び跳ねているように表示されるので、他の情報処理装置500のユーザは、情報処理装置200のユーザAの顔の表情が笑っている表情に変化したことを確実に把握することができる。
図10(A)および図10(B)は、本発明の第4の実施例について説明するための説明図である。本第4の実施例では、図2における情報処理装置200において、例えば、ユーザAによりユーザC,Dとのネットワーク接続が指示されて、図2における表示装置102の表示画面および表示システム400における表示画面に、情報処理装置200および他の情報処理装置500のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。
図10(A)および図10(B)に示すように、情報処理装置200は、上述した顔認識により情報処理装置200のユーザA,Bおよび他の情報処理装置500のユーザC,Dを認識するとともに、情報処理装置200のユーザA,Bおよび他の情報処理装置500のユーザC,Dの性別を認識して、表示装置102の表示画面に、情報処理装置200のユーザAを表したユーザ画像140と、情報処理装置200のユーザBを表したユーザ画像144と、他の情報処理装置500のユーザCを表したユーザ画像142と、他の情報処理装置500のユーザDを表したユーザ画像146とがユーザ毎および性別毎に表示される表示画像を表示する。同様に、図示はしないが、他の情報処理装置500は、上述した顔認識により情報処理装置200のユーザA,Bおよび他の情報処理装置500のユーザC,Dを認識するとともに、情報処理装置200のユーザA,Bおよび他の情報処理装置500のユーザC,Dの性別を認識して、表示装置402の表示画面に、情報処理装置200のユーザAを表したユーザ画像(図示しない)と、情報処理装置200のユーザBを表したユーザ画像(図示しない)と、他の情報処理装置500のユーザCを表したユーザ画像(図示しない)と、他の情報処理装置500のユーザDを表したユーザ画像(図示しない)とがユーザ毎および性別毎に表示される表示画像を表示する。
本第4の実施例によれば、情報処理装置200および他の情報処理装置500のユーザは、情報処理装置200や他の情報処理装置500のいずれのユーザの性別についても確実に把握することができる。
図11(A)〜図11(E)は、本発明の第5の実施例について説明するための説明図である。本第5の実施例では、図2における他の情報処理装置500において、例えば、ユーザCによりユーザA,Bとのネットワーク接続が指示されて、図2における表示システム400における表示画面に、他の情報処理装置500の表示画像生成部(図示しない)が生成した表示画像420が表示されている際に、表示システム400における表示画面にコンテンツ画像430を表示させる場合について説明する。
図11(A)〜図11(E)に示すように、表示システム400における表示画面に、表示画像420が表示されている際に、コンテンツ画像430を表示させる場合には、表示画像420をフェードアウトさせながら表示画像420を徐々に右方向にずらし、また、左方向からコンテンツ画像430を右方向にずらして、コンテンツ画像430を表示させる。そして、図11(E)に示すように、表示システム400における表示画面に、ネットワーク接続中であることを示す表示440を表示させる。
本第5の実施例によれば、他の情報処理装置500のユーザは、ユーザA,Bとのネットワーク接続中であることを確実に把握することができる。
図12(A)および図12(B)は、本発明の第6の実施例について説明するための説明図である。本第6の実施例では、図2における情報処理装置200において、例えば、ユーザAによりユーザCとのネットワーク接続が指示されて、図2における表示装置102の表示画面に、コンテンツ画像と表示画像生成部206が生成した表示画像とを重畳表示させる場合について説明する。
図12(A)および図12(B)に示すように、表示装置102の表示画面に、コンテンツ画像と表示画像生成部206が生成した表示画像とを重畳表示させる場合には、ユーザ画像150,152を徐々に表示画面の画面外に移動させる。そして、図12(B)に示すように、ユーザ画像150,152で表されたユーザが発話などの表現を行った場合に、ユーザ画像150,152の移動先に相当する位置から、例えば波紋表現を行うようにする。
本第6の実施例によれば、情報処理装置200のユーザは、コンテンツ画像の全体を見ることができるとともに、ユーザCとのネットワーク接続中であることを確実に把握することができる。
図13(A)〜図13(L)は、本発明の第7の実施例について説明するための説明図である。本第7の実施例では、図2における情報処理装置700において、例えば、ユーザEによりユーザA,BおよびユーザC,Dとのネットワーク接続が指示されて、図2における表示システム600における表示画面に、情報処理装置200および他の情報処理装置500,700のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像が表示される場合について説明する。
図13(A)〜図13(L)に示すように、表示システム600における表示画面には、情報処理装置200および他の情報処理装置500,700のユーザがコンテンツを共有する領域としての共有コンテンツ領域A1と、他の情報処理装置700のユーザE,Fのコンテンツを表した領域としてのユーザ別コンテンツ領域A2とが設定される。そして、例えばユーザEにより共有コンテンツ領域A1に表示させるコンテンツとしてコンテンツ画像602が選択されると、共有コンテンツ領域A1におけるユーザEに対応する位置としての下側の領域にコンテンツ画像602に対応するコンテンツ画像604が表示されて徐々に拡大される(図13(B)〜図13(D))。また、例えばユーザAにより共有コンテンツ領域A1に表示させるコンテンツとしてコンテンツ画像(図示しない)が選択されると、ユーザAを表したユーザ画像が拡大されるとともに、共有コンテンツ領域A1におけるユーザAに対応する位置としての右下側の領域にユーザAが選択したコンテンツ画像(図示しない)に対応するコンテンツ画像606が表示されて徐々に拡大される(図13(F)〜図13(H))。また、例えばユーザCにより共有コンテンツ領域A1に表示させるコンテンツとしてコンテンツ画像(図示しない)が選択されると、ユーザCを表したユーザ画像が拡大されるとともに、共有コンテンツ領域A1におけるユーザCに対応する位置としての左上側の領域にユーザCが選択したコンテンツ画像(図示しない)に対応するコンテンツ画像608が表示されて徐々に拡大される(図13(J)〜図13(L))。このとき、図13(K)に示すように、ユーザAが選択したコンテンツ画像606をフェードアウトさせるようにしてもよい。
本第7の実施例によれば、他の情報処理装置700のユーザは、情報処理装置200や他の情報処理装置500のいずれのユーザの存在についても確実に把握することができ、あたかも同じ場所でコミュニケーションを行っているような臨場感、一体感、または親近感などを得ることができ、さらに、情報処理装置200および他の情報処理装置500のいずれのユーザが表現を行ったのかを確実に把握することができる。
[6.情報処理装置の機能構成(第2の実施の形態)]
次に、本発明の第2の実施の形態に係る情報処理装置の機能構成について説明する。図14は、本実施の形態に係る情報処理装置の機能構成の一例を説明するための説明図である。本実施の形態における情報処理装置としての情報処理装置250は、撮像部252と、表示部254とを備えている点が、上述した第1の実施の形態と異なるのみであるので、重複した構成、作用については説明を省略し、以下に異なる構成、作用についての説明を行う。
なお、図14には、情報処理装置250のユーザとしてのユーザA,Bと、情報処理装置250が接続可能な通信ネットワーク800と、通信ネットワーク800に接続可能な通信サーバ300や他の情報処理装置550,750と、他の情報処理装置550のユーザとしてのユーザC,Dと、他の情報処理装置750のユーザとしてのユーザE,Fとが示されている。他の情報処理装置550,750は、情報処理装置250と同様の構成を有するため、詳細な説明は省略する。他の情報処理装置550,750は、本発明の通信対象装置の一例である。
図13において、情報処理装置250は、例えば、撮像部252と、顔認識部204と、表示画像生成部206と、表示部254と、表示制御部210と、通信部212と、音声入力部214と、音声認識部216と、操作信号入力部218と、行動認識部220と、記憶部222とを備える。
撮像部252は、表示部254の表示画面を見ているユーザA,Bの静止画像または動画像を撮像することができる。そして、撮像部252は、撮像により生成した撮像画像を通信部212や、顔認識部204、表示画像生成部206に伝達することができる。
表示部254は、例えば、情報処理装置250および他の情報処理装置550,750のユーザを表したユーザ画像がユーザ毎に表示され、表現を行ったユーザを表したユーザ画像と、表現の内容とが対応付けされて表示される表示画像を表示することができる。
本実施の形態によれば、情報処理装置250が上述した図4の表示処理を実行することにより、上述した第1の実施の形態と同様の効果を奏することができる。さらに、本実施の形態によれば、例えば、図2に示す表示システム100を別途用意する必要をなくすことができ、簡易に実施することができるようになる。
また、本発明の目的は、上述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。
この場合、記憶媒体から読み出されたプログラムコード自体が上述した各実施の形態の機能を実現することになり、そのプログラムコードおよび該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、上述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれる。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって上述した各実施の形態の機能が実現される場合も含まれる。
以上、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、通信サーバ300において、他の情報処理装置500,700からの撮像画像から他の情報処理装置500,700のユーザやユーザの表情を認識するようにしてもよい。また、通信サーバ300において、他の情報処理装置500,700からの音声から他の情報処理装置500,700のユーザのうちの話者のユーザや話者のユーザの話している内容を認識するようにしてもよい。また、通信サーバ300において、他の情報処理装置500,700からの操作信号から他の情報処理装置500,700のユーザの行動を認識するようにしてもよい。
また、情報処理装置200は、コンテンツを他の情報処理装置500,700に送信して、ユーザ間でコンテンツを共有するようにしてもよい。