JP2024088982A

JP2024088982A - 情報処理装置、情報処理システム、制御プログラムおよび制御方法

Info

Publication number: JP2024088982A
Application number: JP2022204073A
Authority: JP
Inventors: 昇吾西口; 崇志三上; 浩石黒
Original assignee: Individual
Current assignee: Individual
Filing date: 2022-12-21
Publication date: 2024-07-03

Abstract

【課題】対話相手のアバターまたはアバターの操作者と親密に関わる情報処理装置、情報処理システム、制御プログラム及び制御方法を提供する。
【解決手段】情報処理システムにおいて、ユーザ端末は、アバター画像１０２の操作者と対話する場合に、対話画面１００を表示する。対話画面は、アバター画像１０２、窓部画像１０４及び枠画像１０６を含む。枠画像は、表示装置３０の背後を背面カメラで撮影した背後の映像の前面に窓部画像を重ねることで生成される。また、アバター画像は、窓部画像の前面に表示される。通常の大きさでは、アバター画像は窓部画像の範囲に収まる。また、操作者の指示に従って、アバター画像は拡大され、表示装置の背後の場景と同じ色又は模様の枠画像の前面に重なって表示される。つまり、アバターが窓画像に表示されたシーンから飛び出し、ユーザはユーザと同じ空間にアバターが存在するような錯覚を起こす。
【選択図】図６

Description

この発明は、情報処理装置、情報処理システム、制御プログラムおよび制御方法に関し、特にたとえば、アバターの画像または対話相手の画像を表示してユーザと対話する、情報処理装置、情報処理システム、制御プログラムおよび情報処理方法に関する。

この種の情報処理装置の一例が特許文献１に開示される。この特許文献１に開示されるコミュニケーションシステムでは、テレイグジスタンスモードが設定された状態で、オペレータ端末は、オペレータの表情およびジェスチャを座標データに変換し、応答音声データと共に応対端末へ送信する。応対端末は、オペレータ端末から送られた座標データに基づいてアバターを生成することで、オペレータの表情およびジェスチャがアバターの表情および仕草に反映されたキャラクタ応対情報を生成し、ユーザに向けて表示する。

この種の情報処理装置の他の例が非特許文献１および非特許文献２に開示される。非特許文献１および非特許文献２に開示されるＷｅｂ会議システムまたはオンライン会議システムでは、複数の人間が自身の端末の表示装置に会議の他の参加者の映像を表示して、会話することができる。

特開２０２１－５６９４０号

https://zoomgov.com/jp-jp/meetings.html https://www.microsoft.com/ja-jp/microsoft-teams/group-chat-software

上記の特許文献１では、応対端末において、表示部の画面は２次元であり、アバター画像が３次元ＣＧ画像データを用いて生成されたとしても、アバターは平面的に表示されるため、キャラクタ応対情報に基づくアバター画像が表示部に表示されたとしても、ユーザはアバターと同じ空間に居るように感じることはできず、アバターと親密に関わることが難しい。

また、非特許文献１および非特許文献２では、会議の参加者の映像を表示するが、特許文献１と同様に、各参加者が使用する端末のディスプレイの画面は２次元であり、他の参加者の映像は平面的に表示されるため、１対１で対話する場合であっても、参加者は他の参加者と同じ空間に居るように感じることはできず、他の参加者と親密に関わることが難しい。

それゆえに、この発明の主たる目的は、新規な、情報処理装置、情報処理システム、制御プログラムおよび制御方法を提供することである。

また、この発明の他の目的は、対話相手であるアバターまたはアバターの操作者と親密に関わることができる、情報処理装置、情報処理システム、制御プログラムおよび制御方法を提供することである。

第１の発明は、対話相手の端末と通信可能に接続される情報処理装置であって、表示装置、表示装置の背後を撮影するカメラ、カメラで撮影された表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示手段、アバターの画像または対話相手の画像を枠画像の前面に表示装置に表示する対話相手表示手段、およびアバターの画像または対話相手の画像を枠画像に重なる大きさに拡大する拡大手段を備える、情報処理装置である。

第２の発明は、第１の発明に従属し、対話相手の端末からの指示または通知を受信する受信手段、拡大手段は、受信手段によって拡大指示を受信したことに応じて、アバターの画像または対話相手の画像を枠画像に重なる大きさに拡大する。

第３の発明は、第２の発明に従属し、受信手段によって戻す指示を受信したことに応じて、アバターの画像または対話相手の画像を元の大きさに戻す復元手段をさらに備える。

第４の発明は、第２の発明に従属し、対話相手の端末にアバターの画像または対話相手の画像を拡大することを要求する拡大要求手段、拡大手段は、拡大要求手段によって要求されたことに応じて、受信手段によって承諾通知を受信した場合に、アバターの画像または対話相手の画像を拡大し、受信手段によって拒否通知を受信した場合に、アバターの画像または対話相手の画像を拡大しない。

第５の発明は、第３の発明に従属し、対話相手の端末にアバターの画像または対話相手の画像を元の大きさに戻すことを要求する復元要求手段、復元手段は、復元要求手段によって要求されたことに応じて、受信手段によって承諾通知を受信した場合に、アバターの画像または対話相手の画像を元の大きさに戻し、受信手段によって拒否通知を受信した場合に、アバターの画像または対話相手の画像を元に戻さない。

第６の発明は、対話相手の端末と通信可能に接続される情報処理装置を備える、情報処理システムであって、情報処理装置は、表示装置、表示装置の背後を撮影するカメラ、カメラで撮影された表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示手段、アバターの画像または対話相手の画像を枠画像の前面に表示装置に表示する対話相手表示手段、対話相手の端末からの拡大指示を受信する受信手段、および受信手段によって拡大指示を受信したことに応じて、アバターの画像または対話相手の画像を枠画像に重なる大きさに拡大する拡大手段を備え、対話相手の端末は、対話相手の操作を検出する操作検出手段、および操作検出手段によってアバターの画像を拡大する拡大指示を検出した場合に、拡大指示を情報処理装置に送信する送信手段を備える、情報処理システムである。

第７の発明は、表示装置、および表示装置の背後を撮影するカメラを備え、対話相手の端末と通信可能に接続される情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、カメラで撮影された表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示ステップ、アバターの画像または対話相手の画像を枠画像の前面に表示装置に表示する対話相手表示ステップ、およびアバターの画像または対話相手の画像を枠画像に重なる大きさに拡大する拡大ステップを実行させる、制御プログラムである。

第８の発明は、表示装置、および表示装置の背後を撮影するカメラを備え、対話相手の端末と通信可能に接続される情報処理装置の制御方法であって、カメラで撮影された表示装置の背後の映像を用いて枠画像を当該表示装置に表示するステップ、アバターの画像または対話相手の画像を枠画像の前面に表示装置に表示するステップ、およびアバターの画像または対話相手の画像を枠画像に重なる大きさに拡大するステップを含む、制御方法である。

この発明によれば、対話相手であるアバターまたはアバターの操作者と親密に関わることができる。

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例の情報処理システムを示す図である。図２は図１に示すユーザ端末の電気的な構成の一例を示すブロック図である。図３は図１に示す操作者端末の電気的な構成の一例を示すブロック図である。図４は図１に示すユーザ端末の表示装置に表示される対話画面の一例および表示装置が配置されている状態の一例を示す図である。図５は図１に示すユーザ端末が配置されている状態を横から見た場合の一例を示す図である。図６は図４に示す対話画面の他の例を示す図である。図７は図１に示す操作者端末の表示装置に表示される操作者側画面の一例を示す図である。図８は図２に示すユーザ端末のＲＡＭのメモリマップの一例を示す図である。図９は図３に示す操作者端末のＲＡＭのメモリマップの一例を示す図である。図１０は図２に示すユーザ端末のＣＰＵの制御処理の一例の一部を示すフロー図である。図１１は図２に示すユーザ端末のＣＰＵの制御処理の一例の他の一部であって、図１０に後続するフロー図である。図１２は図３に示す操作者端末のＣＰＵの制御処理の一例の一部を示すフロー図である。図１３は図３に示す操作者端末のＣＰＵの制御処理の一例の他の一部であって、図１２に後続するフロー図である。図１４は第２実施例のユーザ端末の表示装置に表示される対話画面の一例および表示装置が配置されている状態の一例を示す図である。図１５は第２実施例の操作者端末の表示装置に表示される拡大諾否画面の一例を示す図である。図１６は図１４に示す対話画面の他の例を示す図である。図１７は第２実施例の操作者端末の表示装置に表示される引っ込み諾否画面の一例を示す図である。図１８は第２実施例のユーザ端末のＣＰＵの制御処理の一例の一部を示すフロー図である。図１９は第２実施例のユーザ端末のＣＰＵの制御処理の一例の他の一部であって、図１８に後続するフロー図である。図２０は第２実施例の操作者端末のＣＰＵの制御処理の一例の一部を示すフロー図である。図２１は第２実施例の操作者端末のＣＰＵの制御処理の一例の他の一部であって、図２０に後続するフロー図である。図２２は第３実施例のユーザ端末のＣＰＵの制御処理の一例の一部を示すフロー図である。図２３は第３実施例のユーザ端末のＣＰＵの制御処理の一例の他の一部であって、図２２に後続するフロー図である。図２４は第３実施例の操作者端末のＣＰＵの制御処理の一例の一部を示すフロー図である。

＜第１実施例＞
図１を参照して、この第１実施例の情報処理システム１０はユーザ端末１２を含み、ユーザ端末１２は、ネットワーク１４を介して、操作者端末１６に通信可能に接続される。

一例として、Web Real-Time Communication (WebRTC)の技術によって、ユーザ端末１２と操作者端末１６がＰ２Ｐ(Peer to Peer)通信を行い、Ｗｅｂブラウザを介して映像または／および音声をリアルタイムに送受信することができる。

図示は省略するが、ＷｅｂＲＴＣは、複数のサーバを組み合わせて利用することが可能である。具体的には、ＷｅｂＲＴＣを利用するための複数のサーバには、シグナリングサーバ、スタン（ＳＴＵＮ）サーバ及びターン（ＴＵＲＮ）サーバ等が含まれる。詳細な説明は省略するが、シグナリングサーバは、ＷｅｂＲＴＣによる通信相手に関する情報を取得するためのサーバである。また、スタンサーバおよびターンサーバは通信相手が異なるネットワークに存在している場合にいわゆるＮＡＴ（Network Address Translation）越えをするためのサーバである。

この第１実施例では、１台のユーザ端末１２および１台の操作者端末１６を示すが、実際には、複数のユーザ端末１２および複数の操作者端末１６がネットワーク１４に接続されており、そのうちのビデオ通話またはＷｅｂ会議を行うことが設定された１台のユーザ端末１２および１台の操作者端末１６が通信可能に接続される。

ユーザ端末１２はユーザによって使用され、操作者端末１６は操作者によって使用される。この第１実施例では、操作者のアバターに対応するアバターの画像がユーザ端末１２の表示装置３０に表示され、アバターを通してユーザと操作者が対話する。操作者は、アバターを操作してユーザと対話する。つまり、ユーザは、操作者端末１６の操作者によって提供されるアバターを用いた対話サービスを使用する者である。

ユーザ端末１２は、情報処理装置であり、汎用のノート型ＰＣ、デスクトップ型ＰＣ、タブレット端末またはスマートフォンを用いることができる。

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

操作者端末１６は、ユーザ端末１２とは異なる他の情報処理装置であり、一例として、汎用のノート型ＰＣまたはデスクトップ型ＰＣであるが、スマートフォンまたはタブレットＰＣなどの他の汎用の端末を用いることもできる。

図２は図１に示したユーザ端末１２の電気的な構成の一例を示すブロック図である。図２に示すように、ユーザ端末１２はＣＰＵ２０を含み、ＣＰＵ２０は、内部バスを介して、ＲＡＭ２２、通信インタフェース（以下、「通信Ｉ／Ｆ」という）２４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）２６に接続される。

ＣＰＵ２０は、ユーザ端末１２の全体的な制御を司る。ただし、ＣＰＵ２０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。

ＲＡＭ２２は、主記憶装置であり、ＣＰＵ２０のワーク領域またはバッファ領域として使用される。図示は省略するが、ユーザ端末１２には、補助記憶装置として、ＨＤＤおよびＲＯＭが設けられる。ただし、ＨＤＤに代えて、または、ＨＤＤに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ２４は、ＣＰＵ２０の制御の下、ネットワーク１４を介して、操作者端末１６などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うための有線インタフェースである。ただし、通信Ｉ／Ｆ２４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ２６には、入力装置２８、表示装置３０、マイク３２、スピーカ３４、前面カメラ３６および背面カメラ３８が接続されている。入力装置２８は、キーボードおよびコンピュータマウスである。さらに、タッチパネルが設けられる場合もある。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。

表示装置３０は、一例として、液晶表示装置である。マイク３２は、汎用の収音マイクである。スピーカ３４は、汎用のステレオスピーカである。前面カメラ３６および背面カメラ３８は、それぞれ、汎用のＣＣＤカメラである。

また、入出力Ｉ／Ｆ２６は、入力装置２８から入力された操作データ（または、操作情報）をＣＰＵ２０に出力するとともに、ＣＰＵ２０によって生成された画像データを表示装置３０に出力して、画像データに対応する画面または画像を表示装置３０に表示させる。ただし、外部のコンピュータ（たとえば、操作者端末１６）から受信した画像データがＣＰＵ２０によって出力される場合もある。

また、入出力Ｉ／Ｆ２６は、マイク３２で検出されたユーザの音声をデジタルの音声データ（以下、「ユーザ音声データ」という）に変換してＣＰＵ２０に出力したり、ＣＰＵ２０によって出力される音声データをアナログの音声信号に変換してスピーカ３４から出力させたり、前面カメラ３６で撮影（検出）されたユーザを含む映像の映像データ（以下、「ユーザ映像データ」という）をＣＰＵ２０に出力したり、背面カメラ３８で撮影(検出)された表示装置３０の背後の映像の映像データ（以下、「背後映像データ」という）をＣＰＵ２０に出力したりする。

ただし、この第１実施例では、ＣＰＵ２０から出力される音声データは、操作者端末１６から受信した操作者の音声データまたは操作者の音声をアバターの音声に変換した音声データである。以下、これらの音声データを操作者音声データと呼ぶことにする。

また、ユーザを含む映像は一例として動画像である。背後の映像は動画像または静止画像である。後述するように、この第１実施例では、背後の映像は、表示装置３０に表示される枠画像１０６に用いられる。したがって、この枠画像１０６は、表示装置３０の背後の場景と同じ色または同じ模様であり、背後の場景に溶け込む。据置型の表示装置３０が使用される場合には、基本的に背後の場景が変化することはないため、背後の映像は静止画像にすることができる。可搬型（携帯型）の表示装置３０（ユーザ端末１２）が使用される場合には、背後の場景が変化することがあるため、背後の映像は動画像にした方がよいと考えられる。

なお、図２に示すユーザ端末１２の電気的な構成は一例であり、限定される必要はない。

また、ユーザ端末１２がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、この第１実施例では、そのような通話は行わないため、図示は省略してある。

図３は図１に示した操作者端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者端末１６はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、ＲＡＭ５２、通信Ｉ／Ｆ５４および入出力Ｉ／Ｆ５６に接続される。

ＣＰＵ５０は、操作者端末１６の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。

ＲＡＭ５２は、主記憶装置であり、ＣＰＵ５０のワーク領域またはバッファ領域として使用される。図示は省略するが、操作者端末１６には、補助記憶装置として、ＨＤＤおよびＲＯＭが設けられる。ただし、ＨＤＤに代えて、または、ＨＤＤに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

通信Ｉ／Ｆ５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、操作者端末１６などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うための有線インタフェースである。ただし、通信Ｉ／Ｆ５４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

入出力Ｉ／Ｆ５６には、入力装置５８、表示装置６０、マイク６２、スピーカ６４およびカメラ６６が接続されている。入力装置５８は、キーボードおよびコンピュータマウスである。さらに、タッチパネルが設けられる場合もある。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。

表示装置６０は、一例として、液晶表示装置である。マイク６２は、汎用の収音マイクである。スピーカ６４は、汎用のステレオスピーカである。カメラ６６は、汎用のＣＣＤカメラである。

ただし、操作者端末１６として、スマートフォンまたはタブレットＰＣが用いられる場合には、入力装置５８は、タッチパネルおよびハードウェアのボタンである。

また、入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力し、また、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画面を表示装置６０に表示させる。ただし、外部のコンピュータ（たとえば、ユーザ端末１２）から受信した画像データがＣＰＵ５０によって出力される場合もある。ユーザ端末１２から受信した画像データは、ユーザ映像データである。

また、入出力Ｉ／Ｆ５６は、マイク６２で検出された操作者の音声をデジタルの音声データに変換してＣＰＵ５０に出力したり、ＣＰＵ５０によって出力される音声データをアナログの音声信号に変換してスピーカ６４から出力させたり、カメラ６６で撮影（検出）された操作者の映像の映像データ（以下、「操作者映像データ」という）をＣＰＵ５０に出力したりする。ただし、この第１実施例では、ＣＰＵ５０から出力される音声データは、ユーザ端末１２から受信したユーザ音声データである。また、操作者の映像は動画像である。

なお、図３に示す操作者端末１６の電気的な構成は一例であり、限定される必要はない。

また、操作者端末１６がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、この第１実施例では、そのような通話は行わないため、図示は省略してある。

以下、この第１実施例の情報処理システム１０の動作について説明する。このような情報処理システム１０では、ユーザ端末１２のユーザと、操作者端末１６の操作者が、このユーザ端末１２およびこの操作者端末１６を用いてビデオ通話またはＷｅｂ会議を行う。

図４はビデオ通話またはＷｅｂ会議（または、オンライン会議）を行う場合にユーザ端末１２の表示装置３０に表示される対話画面１００の一例および表示装置３０が配置されている状態を表示装置３０の正面側から見た場合の一例を示す。また、図５はユーザ端末１２（表示装置３０）が配置されている状態を表示装置３０の横方向から見た場合の一例を示す。ただし、図４および図５では、壁および机の一部を図示してある。

図４および図５に示すように、一例として、ユーザ端末１２の表示装置３０はユーザの部屋内に配置された机の上に配置され、表示装置３０の背後にはこのユーザの部屋の壁が設けられる。一例として、壁には、縦縞模様の壁紙が貼り付けられているものとする。また、表示装置３０の中央の上端部に、マイク３２内蔵またはマイク３２付きの前面カメラ３６が配置される。背面カメラ３８は、表示装置３０の表示部の背面側の中心またはほぼ中心であり、表示部を支持する支持部の少し上方に配置される。図５ではユーザの一部を示すが、一例として、ユーザは、表示装置３０に対面する位置に座って、この表示装置３０に表示されたアバターまたはアバターの操作者と対話する。

なお、図４および図５では、ユーザ端末１２の本体、入力装置２８およびスピーカ３４は省略するが、これらも表示装置３０の近傍または周辺に配置される。ただし、ユーザ端末１２の本体は、ＣＰＵ２０、ＲＡＭ２２、通信Ｉ／Ｆ２４および入出力Ｉ／Ｆ２６などを筐体に収納した装置のことである。

また、図５に示す前面カメラ３６および背面カメラ３８の配置位置は一例であり、限定される必要はない。前面カメラ３６は、ユーザの顔を撮影できる位置であれば、他の位置でもよい。また、背面カメラ３８は、表示装置３０の背後の場景を撮影できる位置であれば、他の位置でもよい。

また、図４に示すように、対話画面１００には、アバター画像１０２、窓部画像１０４および枠画像１０６が含まれる。枠画像１０６は、表示装置３０の背後を背面カメラ３８で撮影した映像（動画または静止画）の前面に、所定の大きさおよび形状の窓部画像１０４を、各々の中心を合わせて重ねることで表示される。一例として、表示装置３０の背後の映像（以下、「背後映像」という）は表示装置３０の横長の長方形の表示部（または、表示面）の全範囲に表示される。また、一例として、窓部画像１０４は、横長の長方形であり、表示装置３０の表示面の大きさの３分の２の大きさである。この実施例では、窓部画像１０４を白色で示してあるが、実際には、仮想の部屋などのシーンが窓部画像１０４として表示される。

アバター画像１０２は、窓部画像１０４の前面に表示される。図４に示す対話画面１００では、アバター画像１０２は、窓部画像１０４の範囲内に収まる大きさ（以下、「通常の大きさ」という）で表示される。図４に示すように、アバター画像１０２は、その頭部から腰部までが窓部画像１０４の範囲内に収まっている。後述するように、アバター画像１０２を所定の倍率で拡大した場合に、アバター画像１０２が窓部画像１０４からはみ出すように、通常の大きさは設定される。一例として、通常の大きさは、アバター画像１０２の縦の長さが窓部画像１０４の縦の長さの９５％の長さになるように、設定される。したがって、アバターは、窓部画像１０４に表示された仮想の部屋などのシーンに存在するように見える。

この第１実施例では、表示装置３０に表示されるアバターの動作および音声は、操作者端末１６の操作者の動作および音声に基づいて制御される。動作は、身振り手振り、顔の向きおよび顔の表情を含む。操作者の動作は、操作者端末１６のカメラ６６で撮影された操作者の映像から検出される。操作者の音声は、マイク６２で検出される。

操作者端末１６では、操作者の動作に基づいてアバターの動作を制御するための動作データが生成され、操作者の音声に基づいてアバターの発話（音声の出力）を制御するための音声データが生成される。動作データは、アバターの身振り手振り、顔の向きおよび顔の表情を制御するための各部位の位置および向きの情報（データ）である。具体的には、動作データは、顔の各部位すなわち眉毛、眼（上瞼、下瞼）、鼻および口（上唇、下唇）の位置（座標データ）と、顔の向き、手、腕、肩、腰、膝および足首の位置（座標データ）と、手首および足首の向きについての情報である。ただし、アバターの腰から下を表示しない場合には、膝および足首の位置および向きについての情報は動作データに含めなくてもよい。また、音声データは、操作者の音声をアバターの音声に変換した音声のデータである。ただし、音声データは、操作者の音声のデータをそのまま用いることもできる。

なお、操作者の動作に基づいてアバターの動作を制御するための動作データは、一例として、MediaPipe Holisticのような画像処理ライブラリを用いて生成することができる。他の例では、背景技術の特開２０２１－５６９４０号に開示された方法を用いることもできる。

ユーザ端末１２では、動作データに従ってアバター画像１０２を変化させる。したがって、アバターは動作される。また、ユーザ端末１２は、受信した操作者音声データをスピーカ３４に出力する。つまり、ユーザ端末１２は、操作者端末１６からの指示に従って表示装置３０に表示されるアバター画像１０２(アバター)を制御する。ただし、操作者端末１６からの指示は、動作データのみ、または、動作データおよび操作者音声データである。

一方、ユーザを含む映像が前面カメラ３６で撮影され、前面カメラ３６で撮影された映像に対応する映像データすなわちユーザ映像データはユーザ端末１２から操作者端末１６に送信される。また、ユーザの音声はマイク３２で検出され、マイク３２で検出された音声に対応する音声データすなわちユーザ音声データはユーザ端末１２から操作者端末１６に送信される。ユーザ映像データは、操作者端末１６の表示装置６０に出力され、ユーザ音声データは、操作者端末１６のスピーカ６４から出力される。したがって、操作者はユーザの様子を見たり聞いたりしながら、アバターを制御することができる。

また、ユーザとアバター（または、操作者）が対話中に、ユーザまたはアバターの呼び掛け（または、依頼）により、アバターをユーザ側に飛び出させることができる。ユーザの呼び掛けに操作者が承諾し、または、操作者の呼び掛けにユーザが承諾すると、操作者はアバターを飛び出させることを指示する。つまり、操作者端末１６からユーザ端末１２にアバターを飛び出させることの指示（以下、「飛び出し指示」という）が送信される。

ユーザ端末１２は、アバターの飛び出し指示を受信すると、アバター画像１０２を所定の倍率で拡大して表示する。図６は拡大されたアバター画像１０２を含む対話画面１００の一例を示す。この第１実施例では、アバター画像１０２は、通常の大きさの１．５倍の大きさに拡大される。このように拡大する所定の倍率を１．５倍に設定するのは、窓部画像１０４の大きさを背後映像の大きさの３分の２にしているためであり、窓部画像１０４の範囲に収まる通常の大きさのアバター画像１０２を窓部画像１０４からはみ出す大きさにするためである。したがって、拡大する所定の倍率は、アバター画像１０２の大きさまたは／および窓部画像１０４の大きさに応じて適宜設定される。

図６からも分かるように、拡大されたアバター画像１０２は窓部画像１０４からはみ出し、枠画像１０６の前面に表示されている。このため、表示装置３０の表示面は２次元であるが、アバター（アバター画像１０２）が窓部画像１０４に表示されたシーン（または、表示装置３０）から飛び出し、ユーザはユーザの部屋すなわちユーザと同じ空間にアバターが存在するような錯覚を起こす。また、この第１実施例では、枠画像１０６は表示装置３０の背後を撮影した映像を用いれ表示され、表示装置３０の枠画像１０６の部分が壁と同じ色または同じ模様である。このため、対話画面１００のうちの少なくとも枠画像１０６の部分が表示装置３０の背後の場景に溶け込み、ユーザはアバターがユーザ自身と同じ空間に存在することをより強く感じることができる。したがって、アバターに対するユーザの親密度が高くされる。つまり、ユーザは対話相手であるアバターまたは操作者と親密に関わることができる。

図４および図６では、分かり易く示すために、縞模様の壁紙が壁に貼り付けられ、その縞模様と枠画像１０６の縞模様がぴったり合うようにこの枠画像１０６が表示される例を示してあるが、多少ずれていても壁紙と枠画像１０６は同じ模様であるため、ユーザはアバターがユーザ自身と同じ空間に存在するような錯覚を起こす。また、一般的には、壁の色は単色であることが多いため、アバターがユーザ自身と同じ空間に存在するような錯覚をユーザに起こさせ易いと考えられる。

なお、据置型の表示装置３０を用いる場合には、壁と表示装置３０の距離または／および背面カメラ３８の画角を調整するなどして、壁紙と枠画像１０６の模様をぴったり合うように調整することができる。また、据置型の表示装置３０が壁際に置かれる場合、背面カメラ３８と壁との距離は大抵短くなるため、広角のカメラを使用して、撮影される映像の歪みが補正される。さらに、暗い場所での撮影になる場合には、背面カメラ３８として高感度のカメラを用いたり、照明を当てたりすることも考えられる。

また、アバターが飛び出している状態で、ユーザとアバター（または、操作者）が対話中に、ユーザまたはアバターの呼び掛け（または、依頼）により、アバターをユーザ側から引っ込めさせることもできる。ユーザの呼び掛けに操作者が承諾し、または、操作者の呼び掛けにユーザが承諾すると、操作者はアバターを引っ込めさせることを指示する。つまり、操作者端末１６からユーザ端末１２にアバターを引っ込めさせることの指示（以下、「引っ込み指示」という）が送信される。

ユーザ端末１２は、アバターの引っ込み指示を受信すると、アバター画像１０２を通常の大きさで表示する。したがって、図４に示したように、アバター画像１０２は、窓部画像１０４の範囲に収まる通常の大きさで表示される。

図７は操作者端末１６の表示装置６０に表示される操作者側画面２００の一例を示す。図７に示すように、操作者側画面２００は、画面の中央の少し上方に表示領域２０２を含む。また、操作者側画面２００には、画面の右上部に、ボタン画像２１０が設けられ、画面の下端部に、ボタン画像２１２およびボタン画像２１４が横並びで設けられる。

表示領域２０２は、ユーザ映像データを出力する領域である。ボタン画像２１０は、ユーザとの対話を終了するためのアイコンである。ボタン画像２１２は、ユーザ端末１２にアバターの飛び出し指示を送信するためのアイコンである。ボタン画像２１４は、ユーザ端末１２にアバターの引っ込み指示を送信するためのアイコンである。

なお、ボタン画像２１２は、アバターが飛び出している場合には、オンできない状態にされてもよい。また、ボタン画像２１４は、アバターが飛び出していない場合には、オンできない状態にされてもよい。ボタン画像２１２、２１４をオンできない状態には、ボタン画像２１２、２１４を非表示することが含まれる。

図８はユーザ端末１２に内蔵されるＲＡＭ２２のメモリマップ３００の一例を示す。図８に示すように、ＲＡＭ２２は、プログラム記憶領域３０２およびデータ記憶領域３０４を含む。プログラム記憶領域３０２には、この第１実施例のユーザ端末１２で実行される制御プログラムが記憶されている。

ユーザ端末１２で実行される制御プログラムは、メイン処理プログラム３０２ａ、操作検出プログラム３０２ｂ、通信プログラム３０２ｃ、画像生成プログラム３０２ｄ、画像出力プログラム３０２ｅ、撮影プログラム３０２ｆ、アバター制御プログラム３０２ｇ、音声検出プログラム３０２ｈおよび音声出力プログラム３０２ｉなどを含む。

メイン処理プログラム３０２ａは、この第１実施例のユーザ端末１２の制御処理のメインルーチンを実行するためのプログラムである。

操作検出プログラム３０２ｂは、ユーザの操作に従って入力装置２８から入力される操作データ３０４ａを検出し、データ記憶領域３０４に記憶するためのプログラムである。

通信プログラム３０２ｃは、外部の機器、この第１実施例では、操作者端末１６と通信（データ等の送信および受信）するためのプログラムである。

画像生成プログラム３０２ｄは、表示装置３０に表示するための画面（１００など）の全部または一部に対応する画像データを、画像生成データ３０４ｂを用いて生成するためのプログラムである。

画像出力プログラム３０２ｅは、画像生成プログラム３０２ｄに従って生成した画像データを表示装置３０に出力するためのプログラムである。したがって、画像データに対応する画面が表示装置３０に表示される。

撮影プログラム３０２ｆは、前面カメラ３６に撮影処理を実行させ、前面カメラ３６から入力されるユーザ映像データ３０４ｃをデータ記憶領域３０４に記憶するためのプログラムである。また、撮影プログラム３０２ｆは、背面カメラ３８に撮影処理を実行させ、背面カメラ３８から入力される背後映像データ３０４ｄをデータ記憶領域３０４に記憶するためのプログラムである。

アバター制御プログラム３０２ｇは、動作データ３０４ｆまたは反応データ５０４ｇを用いて、アバターを動作させるためのプログラムである。

音声検出プログラム３０２ｈは、マイク３２から入力されるユーザの音声を検出し、検出した音声に対応するユーザ音声データ３０４ｅをデータ記憶領域３０４に記憶するためのプログラムである。

音声出力プログラム３０２ｉは、操作者端末１６から受信した操作者音声データ３０４ｇをスピーカ３４に出力するためのプログラムである。したがって、操作者音声データ３０４ｇに対応する音声がスピーカ３４から出る。

図示は省略するが、プログラム記憶領域３０２には、ユーザ端末１２のオペレーティングシステム、ミドルウェアの他に、ブラウザ、本願の制御プログラム以外の他のアプリケーション・プログラムも記憶される。

また、データ記憶領域３０４には、操作データ３０４ａ、画像生成データ３０４ｂ、ユーザ映像データ３０４ｃ、背後映像データ３０４ｄ、ユーザ音声データ３０４ｅ、動作データ３０４ｆおよび操作者音声データ３０４ｇなどが記憶される。

操作データ３０４ａは、操作検出プログラム３０２ｂに従って検出されたユーザの操作のデータである。操作データ３０４ａは、ＣＰＵ２０の処理に使用されると、データ記憶領域３０４から消去される。

画像生成データ３０４ｂは、ユーザ端末１２の表示装置３０に表示される画面を生成するためのデータであり、アバター画像１０２を生成するためのデータを含む。

ユーザ映像データ３０４ｃは、前面カメラ３６で撮影された映像のデータである。このユーザ映像データ３０４ｃは、基本的には、ユーザを含む映像のデータであるが、ユーザが席を離れるなどして前面カメラ３６の撮影範囲外に出た場合には、映像にユーザが含まれない場合もある。ユーザ映像データ３０４ｃは、ＣＰＵ２０によって操作者端末１６に送信されると、データ記憶領域３０４から消去される。

背後映像データ３０４ｄは、背面カメラ３８で撮影された表示装置３０の背後映像のデータである。背後映像データ３０４ｄは、ＣＰＵ２０の処理に使用されると、データ記憶領域３０４から消去される。

ユーザ音声データ３０４ｅは、マイク３２で検出されたユーザの音声のデータである。ユーザ音声データ３０４ｅは、ＣＰＵ２０によって操作者端末１６に送信されると、データ記憶領域３０４から消去される。

動作データ３０４ｆは、操作者端末１６から受信した動作データである。動作データ３０４ｆは、ＣＰＵ２０の処理に使用されると、データ記憶領域３０４から消去される。操作者音声データ３０４ｇは、操作者端末１６から受信した操作者音声データである。操作者音声データ３０４ｇは、ＣＰＵ２０によってスピーカ３４に出力されると、データ記憶領域３０４から消去される。

また、データ記憶領域３０４には、飛び出しフラグ３０４ｈが設けられる。飛び出しフラグ３０４ｈは、アバターを飛び出させるかどうかを判断するためのフラグである。アバターを飛び出させる場合には、飛び出しフラグ３０４ｈはオンされ、アバターを飛び出させない場合および飛び出したアバターを引っ込めさせる場合には、飛び出しフラグ３０４ｈはオフされる。

図示は省略するが、データ記憶領域３０４には、制御処理を実行するために必要な他のデータが記憶されたり、制御処理を実行するために必要なタイマ（カウンタ）および他のフラグが設けられたりする。

図９は操作者端末１６に内蔵されるＲＡＭ５２のメモリマップ４００の一例を示す。図９に示すように、ＲＡＭ５２は、プログラム記憶領域４０２およびデータ記憶領域４０４を含む。プログラム記憶領域４０２には、この第１実施例の操作者端末１６で実行される制御プログラムが記憶されている。

操作者端末１６で実行される制御プログラムは、メイン処理プログラム４０２ａ、操作検出プログラム４０２ｂ、通信プログラム４０２ｃ、画像生成プログラム４０２ｄ、画像出力プログラム４０２ｅ、撮影プログラム４０２ｆ、動作データ生成プログラム４０２ｇ、音声検出プログラム４０２ｈおよび音声出力プログラム４０２ｉなどを含む。

メイン処理プログラム４０２ａは、この第１実施例の操作者端末１６の制御処理のメインルーチンを実行するためのプログラムである。

操作検出プログラム４０２ｂは、操作者の操作に従って入力装置５８から入力される操作データ４０４ａを検出し、データ記憶領域４０４に記憶するためのプログラムである。

通信プログラム４０２ｃは、外部の機器、この第１実施例では、ユーザ端末１２と通信するためのプログラムである。

画像生成プログラム４０２ｄは、表示装置６０に表示するための画面に対応する画像データを、画像生成データ４０４ｂを用いて生成するためのプログラムである。ただし、図７に示したような操作者側画面２００に対応する画像データを生成する場合には、ユーザ映像データ４０４ｆも用いられる。

画像出力プログラム４０２ｅは、画像生成プログラム４０２ｄに従って生成した画像データを表示装置６０に出力するためのプログラムである。したがって、画像データに対応する画面が表示装置６０に表示される。

撮影プログラム４０２ｆは、カメラ６６に撮影処理を実行させ、カメラ６６から入力される操作者映像データ４０４ｃをデータ記憶領域４０４に記憶するためのプログラムである。

動作データ生成プログラム４０２ｇは、操作者映像データ４０４ｃから操作者の動作を検出し、アバターの動作を制御するための動作データ４０４ｅを生成するためのプログラムである。

音声検出プログラム４０２ｈは、マイク６２から入力される操作者の音声を検出し、検出した音声に対応する操作者音声データ４０４ｄをデータ記憶領域４０４に記憶するためのプログラムである。

音声出力プログラム４０２ｉは、ユーザ端末１２から受信したユーザ音声データ４０４ｇをスピーカ６４に出力するためのプログラムである。したがって、ユーザ音声データ４０４ｇに対応する音声がスピーカ６４から出る。

図示は省略するが、プログラム記憶領域４０２には、操作者端末１６のオペレーティングシステム、ミドルウェアの他に、ブラウザ、本願の制御プログラム以外の他のアプリケーション・プログラムも記憶される。

また、データ記憶領域４０４には、操作データ４０４ａ、画像生成データ４０４ｂ、操作者映像データ４０４ｃ、操作者音声データ４０４ｄ、動作データ４０４ｅ、ユーザ映像データ４０４ｆおよびユーザ音声データ４０４ｇなどが記憶される。

操作データ４０４ａは、操作検出プログラム４０２ｂに従って検出された操作者の操作のデータである。この操作データ４０４ａには、ユーザ端末１２に送信される飛び出し指示および引っ込み指示も含まれる。操作データ４０４ａは、ＣＰＵ５０の処理に使用されたり、ＣＰＵ５０によってユーザ端末１２に送信されたりすると、データ記憶領域４０４から消去される。

画像生成データ４０４ｂは、操作者端末１６の表示装置６０に表示される画面を生成するために用いられるデータである。

操作者映像データ４０４ｃは、カメラ６６で撮影された映像のデータである。この操作者映像データ４０４ｃは、基本的には、操作者を含む映像のデータであるが、操作者が席を離れるなどしてカメラ６６の撮影範囲外に出た場合には、映像に操作者が含まれない場合もある。操作者映像データ４０４ｃは、ＣＰＵ５０の処理に使用されると、データ記憶領域４０４から消去される。

操作者音声データ４０４ｄは、マイク６２で検出された操作者の音声のデータである。操作者音声データ４０４ｄは、ＣＰＵ５０によってユーザ端末１２に送信されると、データ記憶領域４０４から消去される。

動作データ４０４ｅは、アバターの動作を制御するためのデータ、この第１実施例では、アバターの身振り手振り、顔の向きおよび顔の表情を制御するための各部位の位置および向きの情報（データ）である。具体的には、動作データ４０４ｅは、上述したように、顔の各部位すなわち眉毛、眼（上瞼、下瞼）、鼻および口（上唇、下唇）の位置と、顔の向きと、手、腕、肩、腰、膝および足首の位置と、手首および足首の向きについての情報である。動作データ４０４ｅは、ＣＰＵ５０の処理に使用されると、データ記憶領域４０４から消去される。

ユーザ映像データ４０４ｆは、ユーザ端末１２から受信したユーザ映像データである。ユーザ映像データ４０４ｆは、ＣＰＵ５０の処理に使用されると、データ記憶領域４０４から消去される。ユーザ音声データ４０４ｇは、ユーザ端末１２から受信したユーザ音声データである。ユーザ音声データ４０４ｇは、ＣＰＵ５０によってスピーカ６４に出力されると、データ記憶領域４０４から消去される。

図示は省略するが、データ記憶領域４０４には、制御処理を実行するために必要な他のデータが記憶されたり、制御処理を実行するために必要なタイマ（カウンタ）およびフラグが設けられたりする。

図１０および図１１は、ユーザ端末１２のＣＰＵ２０の制御処理を示すフロー図である。図示は省略するが、ＣＰＵ２０は、制御処理と並行して、操作データの検出処理を実行して操作データを記憶する処理したり、前面カメラ３６に撮影処理を実行させてユーザ映像データを記憶する処理を実行するとともに、背面カメラ３８に撮影処理を実行させて背後映像データを記憶する処理を実行したり、音声の検出処理を実行してユーザ音声データを記憶する処理を実行したり、操作者端末１６から送信されるデータ等を受信および記憶する処理を実行したりする。以下、図１０および図１１を参照しながらＣＰＵ２０の制御処理について説明するが、重複する内容については簡単に説明することにする。

図１０に示すように、ユーザ端末１２のＣＰＵ２０は、制御処理を開始すると、ステップＳ１で、操作者端末１６と接続状態を確立し、ステップＳ３で、図４に示したような対話画面１００を表示装置３０に表示する。制御処理を開始した当初では、動作データを受信していないため、一例として、直立したアバター画像１０２が表示される。また、このとき、アバターはユーザに挨拶する動作（および発話）を行ってもよい。

次のステップＳ５では、制御処理の終了かどうかを判断する。ここでは、ＣＰＵ２０は、ユーザ端末１２のユーザによって制御処理を終了する指示が入力されたかどうかを判断する。

ステップＳ５で“ＹＥＳ”であれば、つまり、制御処理の終了であれば、制御処理を終了する。一方、ステップＳ５で“ＮＯ”であれば、つまり、制御処理の終了でなければ、ステップＳ７で、操作者端末１６からデータを受信したかどうかを判断する。ここでは、ＣＰＵ２０は、操作者映像データ、または、操作者映像データおよび操作者音声データを受信したかどうかを判断する。

ステップＳ７で“ＮＯ”であれば、つまり、操作者端末１６からデータを受信していなければ、図１１に示すステップＳ１９に進む。一方、ステップＳ７で“ＹＥＳ”であれば、つまり、操作者端末１６からデータを受信すれば、ステップＳ９で、飛び出しフラグ３０４ｈがオンであるかどうかを判断する。

ステップＳ９で“ＹＥＳ”であれば、つまり、飛び出しフラグ３０４ｈがオンであれば、図１１に示すステップＳ１９に進む。一方、ステップＳ９で“ＮＯ”であれば、つまり、飛び出しフラグ３０４ｈがオフであれば、ステップＳ１１で、
操作者音声データ３０４ｇが有るかどうかを判断する。

ステップＳ１１で“ＹＥＳ”であれば、つまり、操作者音声データ３０４ｇが有れば、ステップＳ１３で、操作者音声データ３０４ｇをスピーカ３４に出力し、ステップＳ１５で、操作者音声データ３０４ｇの出力に合わせて、動作データに従う動作を行うアバターの画像データを通常の大きさで生成し、表示装置３０に出力して、ステップＳ１９に進む。したがって、アバター画像１０２が更新され、対話画面１００に表示された通常の大きさのアバターは、身振り手振りを行なったり、顔の向きを変化させたりしながら、ユーザに向けて話し掛ける。このとき、アバター画像１０２は、スピーカ３４から出力される音声にリップシンクされる。以下、音声データに合わせてアバターを動作させる場合について同じである。また、一例として、アバター画像１０２が更新されるときに、背後映像データも更新され、これによって、枠画像１０６も更新される。このことは、ステップＳ１７、Ｓ２３およびＳ２５についても同じである。

一方、ステップＳ１１で“ＮＯ”であれば、つまり、操作者音声データ３０４ｇが無ければ、ステップＳ１７で、動作データに従う動作を行うアバターの画像データを通常の大きさで生成し、表示装置３０に出力して、ステップＳ１９に進む。したがって、アバター画像１０２が更新され、対話画面１００に表示された通常の大きさのアバターは、身振り手振りを行なったり、顔の向きを変化させたりする。

図１１に示すように、ステップＳ１９では、操作者音声データ３０４ｇが有るかどうかを判断する。ステップＳ１９で“ＹＥＳ”であれば、ステップＳ２１で、操作者音声データ３０４ｇをスピーカ３４に出力し、ステップＳ２３で、操作者音声データ３０４ｇの出力に合わせて、動作データに従う動作を行うアバターの画像データを拡大した大きさで生成し、表示装置３０に出力して、ステップＳ２７に進む。したがって、アバター画像１０２が更新され、対話画面１００に表示された拡大された大きさのアバターは、身振り手振りを行なったり、顔の向きを変化させたりしながら、ユーザに向けて話し掛ける。

一方、ステップＳ１９で“ＮＯ”であれば、ステップＳ２５で、動作データに従う動作を行うアバターの画像データを拡大した大きさで生成し、表示装置３０に出力して、ステップＳ２７に進む。したがって、アバター画像１０２が更新され、対話画面１００に表示された拡大された大きさのアバターは、身振り手振りを行なったり、顔の向きを変化させたりする。

ステップＳ２７では、音声の入力が有るかどうかを判断する。ステップＳ２７で“ＹＥＳ”であれば、つまり、音声の入力が有れば、ステップＳ２９で、ユーザ映像データ３０４ｃとユーザ音声データ３０４ｅを操作者端末１６に送信して、ステップＳ３３に進む。一方、ステップＳ２７で“ＮＯ”であれば、つまり、音声の入力が無ければ、ステップＳ３１で、ユーザ映像データ３０４ｃを操作者端末１６に送信して、ステップＳ３３に進む。

ステップＳ３３では、操作者から飛び出し指示があるかどうかを判断する。ステップＳ３３で“ＹＥＳ”であれば、つまり、操作者から飛び出し指示が有れば、ステップＳ３５で、飛び出しフラグ３０４ｈをオンして、ステップＳ５に戻る。一方、ステップＳ３３で“ＮＯ”であれば、つまり、操作者から飛び出し指示が無ければ、ステップＳ３７で、操作者から引っ込み指示があるかどうかを判断する。

ステップＳ３７で“ＹＥＳ”であれば、つまり、操作者から引っ込み指示が有れば、ステップＳ３９で、飛び出しフラグ３０４ｈをオフして、ステップＳ５に戻る。一方、ステップＳ３７で“ＮＯ”であれば、つまり、操作者から引っ込み指示が無ければ、ステップＳ５に戻る。

図１２および図１３は、操作者端末１６のＣＰＵ５０の制御処理を示すフロー図である。図示は省略するが、ＣＰＵ５０は、制御処理と並行して、操作データの検出処理を実行して操作データを記憶する処理したり、カメラ６６に撮影処理を実行させて操作者映像データを記憶する処理を実行したり、音声の検出処理を実行して操作者音声データを記憶する処理を実行したり、ユーザ端末１２から送信されるデータ等を受信および記憶する処理を実行したりする。以下、操作者端末１６のＣＰＵ５０の制御処理について説明するが、重複する内容については簡単に説明することにする。

図１２に示すように、ＣＰＵ５０は、制御処理を開始すると、ステップＳ１０１で、ユーザ端末１２との接続状態を確立し、ステップＳ１０３で、図７に示したような操作者側画面２００を表示装置６０に表示する。制御処理を開始した当初では、ユーザ映像データを受信していないため、表示領域２０２には、ユーザの映像は表示されない。

次のステップＳ１０５では、制御処理の終了かどうかを判断する。ここでは、ＣＰＵ５０は、操作者から制御処理の終了を指示されたかどうかを判断する。ステップＳ１０５で“ＹＥＳ”であれば、つまり、制御処理の終了であれば、制御処理を終了する。一方、ステップＳ１０５で“ＮＯ”であれば、つまり、制御処理の終了でなければ、ステップＳ１０７で、操作者映像データ４０４ｃから動作データ４０４ｅを生成し、ステップＳ１０９で、音声の入力が有るかどうかを判断する。

ステップＳ１０９で“ＮＯ”であれば、つまり、音声の入力が無ければ、ステップＳ１１１で、ステップＳ１０７で生成した動作データ４０４ｅをユーザ端末１２に送信して、図１３に示すステップＳ１１５に進む。一方、ステップＳ１０９で“ＹＥＳ”であれば、つまり、音声の入力が有れば、ステップＳ１１３で、ステップＳ１０７で生成した動作データ４０４ｅと操作者音声データ４０４ｄをユーザ端末１２に送信して、ステップＳ１１５に進む。

図１３に示すステップＳ１１５では、ユーザ端末１２からデータを受信したかどうかを判断する。ここでは、ＣＰＵ５０は、ユーザ映像データ、または、ユーザ映像データおよびユーザ音声データを受信したかどうかを判断する。

ステップＳ１１５で“ＮＯ”であれば、つまり、ユーザ端末１２からデータを受信していなければ、ステップＳ１２３に進む。一方、ステップＳ１１５で“ＹＥＳ”であれば、つまり、ユーザ端末１２からデータを受信すれば、ステップＳ１１７で、ユーザ音声データ４０４ｇが有るかどうかを判断する。

ステップＳ１１７で“ＹＥＳ”であれば、つまり、ユーザ音声データ４０４ｇが有れば、ステップＳ１１９で、ユーザ映像データ４０４ｆおよびユーザ音声データ４０４ｇを出力して、ステップＳ１２３に進む。したがって、ユーザの映像が表示装置６０に表示され、ユーザの音声がスピーカ６４から出力される。

一方、ステップＳ１１７で“ＮＯ”であれば、つまり、ユーザ音声データ４０４ｇが無ければ、ステップＳ１２１で、ユーザ映像データ４０４ｆを出力して、ステップＳ１２３に進む。したがって、ユーザの映像が表示装置６０に表示される。

ステップＳ１２３では、飛び出し指示の入力が有るかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２１２がオンされたかどうかを判断する。ステップＳ１２３で“ＹＥＳ”であれば、つまり、飛び出し指示の入力が有れば、ステップＳ１２５で、ユーザ端末１２に飛び出し指示を送信して、ステップＳ１０５に戻る。

一方、ステップＳ１２３で“ＮＯ”であれば、つまり、飛び出し指示が無ければ、ステップＳ１２７で、引っ込み指示の入力が有るかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２１４がオンされたかどうかを判断する。

ステップＳ１２７で“ＹＥＳ”であれば、つまり、引っ込み指示の入力が有れば、ステップＳ１２９で、ユーザ端末１２に引っ込み指示を送信して、ステップＳ１０５に戻る。一方、ステップＳ１２７で“ＮＯ”であれば、つまり、引っ込み指示が無ければ、ステップＳ１０５に戻る。

第１実施例によれば、枠画像は表示装置の背後を撮影した映像であり、少なくとも枠画像の部分が表示装置の背後の場景に溶け込むため、ユーザはアバターがユーザ自身と同じ空間に存在することをより強く感じることができる。したがって、アバターに対するユーザの親密度が高くされる。つまり、ユーザは対話相手であるアバターまたは操作者と親密に関わることができる。

なお、第１実施例では、操作者端末でアバターの動作データを生成し、動作データをユーザ端末に送信して、ユーザ端末でアバター画像を生成するようにしたが、操作者端末でアバター画像を生成して、アバター画像をユーザ端末に送信するようにしてもよい。

また、この第１実施例では、操作者を撮影した映像データから生成した動作データを用いてアバターの動作を制御するようにしたが、これに限定される必要はない。アバターに実行させる一連の動作に対応する動作データを予め用意しておき、操作者がボタン操作などで指示した一連の動作に対応する動作データをユーザ端末に送信して、アバターの動作を制御するようにしてもよい。一連の動作の例としては、お辞儀して元の姿勢（たとえば、直立の状態）に戻る動作、辺りを見渡すように顔の向きを左右に数回動かして元の姿勢に戻る動作、右手または／および左手を胴体の前で振ってから元の姿勢に戻る動作、右手または／および左手を挙げてから元の姿勢に戻る動作などである。

また、この第１実施例では、操作者の音声に基づいて、アバターに発話させるようにしたが、発話する内容の音声データを予め用意しておき、操作者がボタン操作などで指示した発話する内容に対応する音声データをユーザ端末に送信して、アバターの発話を制御するようにしてもよい。

ただし、アバターの一連の動作に対応する動作データとともに発話する内容の音声データを１つのボタンに設定しておき、動作データと音声データを一度にユーザ端末に送信するようにしてもよい。

さらに、この第１実施例では、操作者端末の表示装置にユーザ映像データを出力するようにしたが、操作者端末にもアバターを表示するようにしてもよい。かかる場合には、操作者端末の表示装置にも背面カメラを設けてその背後映像を撮影するとともに、ユーザ端末の前面カメラで撮影されたユーザ映像データから動作データを生成して操作者端末に送信し、操作者の表示装置に、対話画面と同妃に、枠画像、窓部画像およびアバター画像を表示するようにしてもよい。この場合、ユーザ端末の表示装置に表示された対話画面にも、飛び出し指示のボタン画像および引っ込み指示のボタン画像が設けられ、ユーザの操作によって、操作者端末側に飛び出し指示または引っ込み指示が送信され、これに応じて、操作者端末側のアバター画像が拡大されたり通常の大きさにされたりする。

さらにまた、この第１実施例では、操作者がボタン画像をオンすることにより、アバターを飛び出させたり、引っ込めさせたりしたが、ボタン操作に限定される必要はない。ユーザと操作者が対話している時間をカウントし、所定時間経過するごとに、アバターを飛び出させたり、引っ込めさせたりすることもできる。ただし、アバターを飛び出させている時間と、引っ込めさせている時間は異なる長さでもよい。また、操作者またはユーザが所定の言葉を発したことに応じて、アバターを飛び出させたり、引っ込めさせたりすることもできる。この場合、所定の言葉が操作者端末に予め登録され、操作者端末で、操作者およびユーザの音声が音声認識され、操作者またはユーザが所定の言葉を発したかどうかが判断される。たとえば、操作者が「そっちに行くね」と発話したり、ユーザが「こっちにおいで」と発話したりすると、アバターが飛び出す（つまり、拡大される）。また、たとえば、操作者が「部屋に戻るね」と発話したり、ユーザが「出て行って」と発話したりすると、アバターが引っ込む（つまり、元の大きさにされる）。これらは一例であり、他の条件で、アバターが飛び出したり、引っ込められたりしてもよい。ただし、ボタン操作に代えて、所定時間の経過、所定の言葉を発したことおよび他の条件のいずれか１つが採用されてもよいし、ボタン操作、所定時間の経過、所定の言葉を発したことおよび他の条件のうちのいずれか２つ以上が複合的に採用されてよい。たとえば、ボタン操作または所定時間の経過に応じて、アバターを飛び出させたり、引っ込めさせたりすることができる。

＜第２実施例＞
第２実施例の情報処理システム１０は、ユーザの操作によってアバターの飛び出しおよび引っ込みを依頼し、これを操作者の操作によって諾否することで、アバターの飛び出しおよび引っ込みを制御するようにした以外は、第１実施例と同じであるため、異なる内容について説明し、重複する説明については省略することにする。

図１４は第２実施例の対話画面１００の一例および表示装置３０が配置されている状態を表示装置３０の正面側から見た場合の一例を示す。図１４に示す対話画面１００では、左下部にボタン画像１１０がさらに設けられる。ボタン画像１１０は枠画像１０６の前面に設けられる。ただし、第２実施例では、ボタン画像１１０の背景は無色透明にされる。したがって、ボタン画像１１０も表示装置３０の背後の色または模様と同じである。このため、ボタン画像１１０は枠画像１０６に溶け込んでいる。

また、ボタン画像１１０は、アバターの飛び出し（すなわち、「アバター画像１０２の大きさを拡大すること」）を操作者に依頼または要求するためのアイコンである。ボタン画像１１０がオンされると、飛び出し要求がユーザ端末１２から操作者端末１６に送信される。

操作者端末１６は、ユーザ端末１２から飛び出し要求を受信すると、操作者側画面２００としてアバターの拡大することを承諾するかどうかを指示するための画面（拡大諾否画面）が表示装置６０に表示される。

拡大諾否画面の一例が図１５に示される。拡大諾否画面では、ボタン画像２１２およびボタン画像２１４に代えて、ボタン画像２２２およびボタン画像２２４が設けられる。また、表示領域２０２と、ボタン画像２２２およびボタン画像２２４の間に、飛び出し要求があったことと、飛び出しを承諾するかどうかを通知するためのメッセージ２２０が表示される。

ボタン画像２２２は、アバターの飛び出しを承諾することをユーザに通知（以下、「飛び出し承諾通知」という）するためのアイコンである。ボタン画像２２２がオンされると、飛び出し承諾通知がユーザ端末１２に送信される。また、ボタン画像２２４は、アバターの飛び出しを拒否することをユーザに通知（以下、「飛び出し拒否通知」という）するためのアイコンである。ボタン画像２２４がオンされると、飛び出し拒否通知がユーザ端末１２に送信される。

ユーザ端末１２は、飛び出し承諾通知を受信すると、アバターを飛び出させる。したがって、通常の大きさのアバターが拡大される。また、ユーザ端末１２は、飛び出し拒否通知を受信すると、アバターを飛び出させない。したがって、通常の大きさのアバターがそのまま表示される。このとき、飛び出し要求を拒否されたことのメッセージが対話画面１００に表示される。つまり、飛び出し拒否がユーザに報知される。ただし、アバターの大きさが変化しないことで、ユーザは飛び出し要求が拒否されたことを知ることができるため、操作者端末１６から飛び出し拒否通知は送信されなくてもよい。この場合、飛び出し拒否がユーザに報知されることもない。

図１６は第２実施例の拡大されたアバター画像１０２を含む対話画面１００の一例を示す。図１６に示す対話画面１００では、ボタン画像１１０に代えて、ボタン画像１１２が設けられる。ボタン画像１１２は枠画像１０６の前面に設けられる。ただし、第２実施例では、ボタン画像１１２の背景は無色透明にされる。したがって、ボタン画像１１２も表示装置３０の背後の色または模様と同じである。このため、ボタン画像１１２は枠画像１０６に溶け込んでいる。

また、ボタン画像１１２は、アバターの引っ込み（すなわち、アバター画像１０２の大きさを元の通常の大きさに戻すこと）を操作者に依頼または要求するためのアイコンである。ボタン画像１１２がオンされると、引っ込み要求がユーザ端末１２から操作者端末１６に送信される。

操作者端末１６は、ユーザ端末１２から引っ込み要求を受信すると、操作者側画面２００としてアバターを引っ込めることを承諾するかどうかを指示するための画面（引っ込み諾否画面）が表示装置６０に表示される。

引っ込み諾否画面の一例が図１７に示される。引っ込み諾否画面では、拡大諾否画面におけるメッセージ２２０に代えて、表示領域２０２とボタン画像２２２およびボタン画像２２４の間に、引っ込みの要求があったことと、引っ込みを承諾するかどうかを通知するためのメッセージ２３０が表示される。

引っ込み諾否画面においては、ボタン画像２２２は、アバターの引っ込みを承諾することをユーザに通知（以下、「引っ込み承諾通知」という）するためのアイコンである。ボタン画像２２２がオンされると、引っ込み承諾通知がユーザ端末１２に送信される。また、ボタン画像２２４は、アバターの引っ込みを拒否することをユーザに通知（以下、「引っ込み拒否通知」という）するためのアイコンである。ボタン画像２２４がオンされると、引っ込み拒否通知がユーザ端末１２に送信される。

ユーザ端末１２は、引っ込み承諾通知を受信すると、アバターを引っ込めさせる。したがって、拡大されたアバターが通常の大きさに戻される。また、ユーザ端末１２は、引っ込み拒否通知を受信すると、アバターを引っ込めさせない。したがって、拡大されたアバターがそのまま表示される。このとき、引っ込み要求を拒否されたことのメッセージが対話画面１００に表示される。つまり、引っ込み拒否がユーザに報知される。ただし、アバターの大きさが変化しないことで、ユーザは引っ込み要求が拒否されたことを知ることができるため、操作者端末１６から引っ込み拒否通知は送信されなくてもよい。この場合、引っ込み拒否がユーザに報知されることもない。

図１８および図１９は第２実施例のユーザ端末１２の制御処理の一部を示すフロー図である。第２実施例のユーザ端末１２の制御処理では、第１実施例のユーザ端末１２の制御処理のステップＳ３３－Ｓ３９に代えて、ステップＳ５１－Ｓ７３が実行される。

図１８に示すように、ＣＰＵ２０は、ステップＳ２９またはＳ３１の処理を実行すると、ステップＳ５１で、飛び出し要求が有るかどうかを判断する。ここでは、ＣＰＵ２０は、ボタン画像１１０がオンされたかどうかを判断する。

ステップＳ５１で“ＹＥＳ”であれば、つまり、飛び出し要求が有れば、ステップＳ５３で、飛び出し要求を操作者端末１６に送信して、図１９に示すステップＳ５９に進む。

一方、ステップＳ５１で“ＮＯ”であれば、つまり、飛び出し要求が無ければ、ステップＳ５５で、引っ込み要求が有るかどうかを判断する。ここでは、ＣＰＵ２０は、ボタン画像１２０がオンされたかどうかを判断する。

ステップＳ５５で“ＹＥＳ”であれば、つまり、引っ込み要求が有れば、ステップＳ５７で、引っ込み要求を操作者端末１６に送信して、ステップＳ５９に進む。一方、ステップＳ５５で“ＮＯ”であれば、つまり、引っ込み要求が無ければ、ステップＳ５９に進む。

図１９に示すように、ステップＳ５９では、飛び出し承諾通知が有るかどうかを判断する。ステップＳ５９で“ＹＥＳ”であれば、つまり、飛び出し承諾通知が有れば、ステップＳ６１で、飛び出しフラグ３０４ｈをオンして、ステップＳ６７に進む。

一方、ステップＳ５９で“ＮＯ”であれば、つまり、飛び出し承諾通知が無ければ、ステップＳ６３で、飛び出し拒否通知が有るかどうかを判断する。ステップＳ６３で“ＹＥＳ”であれば、つまり、飛び出し拒否通知が有れば、ステップＳ６５で、飛び出し拒否をユーザに報知して、ステップＳ６７に進む。一方、ステップＳ６３で“ＮＯ”であれば、つまり、飛び出し拒否通知が無ければ、ステップＳ６７に進む。

ステップＳ６７では、引っ込み承諾通知が有るかどうかを判断する。ステップＳ６７で“ＹＥＳ”であれば、つまり、引っ込み承諾通知が有れば、ステップＳ６９で、飛び出しフラグ３０４ｈをオフして、図１０に示したように、ステップＳ５に戻る。

一方、ステップＳ６７で“ＮＯ”であれば、つまり、引っ込み承諾通知が無ければ、ステップＳ７１で、引っ込み拒否通知が有るかどうかを判断する。ステップＳ７１で“ＹＥＳ”であれば、つまり、引っ込み拒否通知が有れば、ステップＳ７３で、引っ込み拒否をユーザに報知して、ステップＳ５に戻る。一方、ステップＳ７１で“ＮＯ”であれば、つまり、引っ込み拒否通知が無ければ、ステップＳ５に戻る。

図２０および図２１は第２実施例の操作者端末１６のＣＰＵ５０の制御処理の一部を示すフロー図である。第２実施例の操作者端末１６のＣＰＵ５０の制御処理では、第１実施例の操作者端末１６の制御処理のステップＳ１２３－Ｓ１２９に代えて、ステップＳ１５１－Ｓ１７３が実行される。

図２０に示すように、ＣＰＵ５０は、ステップＳ１２９またはＳ１３１の処理を実行すると、ステップＳ１５１で、飛び出し要求が有るかどうかを判断する。ここでは、ＣＰＵ５０は、ユーザ端末１２からの飛び出し要求が有るかどうかを判断する。

ステップＳ１５１で“ＮＯ”であれば、つまり、飛び出し要求が無ければ、図２１に示すステップＳ１６３に進む。一方、ステップＳ１５１で“ＹＥＳ”であれば、つまり、飛び出し要求が有れば、ステップＳ１５３で、図１５に示したような飛び出し諾否画面を表示装置６０に表示して、ステップＳ１５５に進む。

ステップＳ１５５では、飛び出しの承諾であるかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２２２がオンされたかどうかを判断する。ステップＳ１５５で“ＹＥＳ”であれば、つまり、飛び出しの承諾であれば、ステップＳ１５７で、ユーザ端末１２に飛び出し承諾通知を送信して、図１２に示したように、ステップＳ１０５に戻る。

一方、ステップＳ１５５で“ＮＯ”であれば、つまり、飛び出しの承諾でなければ、ステップＳ１５９で、飛び出しの拒否であるかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２２４がオンされたかどうかを判断する。ステップＳ１５９で“ＮＯ”であれば、つまり、飛び出しの拒否でなければ、ステップＳ１５５に戻る。

一方、ステップＳ１５９で“ＹＥＳ”であれば、つまり、飛び出しの拒否であれば、ステップＳ１６１で、ユーザ端末１２に飛び出し拒否通知を送信して、ステップＳ１０５に戻る。

図２１に示すように、ステップＳ１６３では、引っ込み要求が有るかどうかを判断する。ここでは、ＣＰＵ５０は、ユーザ端末１２からの引っ込み要求が有るかどうかを判断する。

ステップＳ１６３で“ＮＯ”であれば、つまり、引っ込み要求が無ければ、図１２に示したように、ステップＳ１０５に進む。一方、ステップＳ１６３で“ＹＥＳ”であれば、つまり、引っ込み要求が有れば、ステップＳ１６５で、図１７に示したような引っ込み諾否画面を表示装置６０に表示して、ステップＳ１６７に進む。

ステップＳ１６７では、引っ込みの承諾であるかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２２２がオンされたかどうかを判断する。ステップＳ１６７で“ＹＥＳ”であれば、つまり、引っ込みの承諾であれば、ステップＳ１６９で、ユーザ端末１２に引っ込み承諾通知を送信して、ステップＳ１０５に戻る。

一方、ステップＳ１６７で“ＮＯ”であれば、つまり、引っ込みの承諾でなければ、ステップＳ１７１で、引っ込みの拒否であるかどうかを判断する。ここでは、ＣＰＵ５０は、ボタン画像２２４がオンされたかどうかを判断する。ステップＳ１７１で“ＮＯ”であれば、つまり、引っ込みの拒否でなければ、ステップＳ１６７に戻る。

一方、ステップＳ１７１で“ＹＥＳ”であれば、つまり、引っ込みの拒否であれば、ステップＳ１７３で、ユーザ端末１２に引っ込み拒否通知を送信して、ステップＳ１０５に戻る。

第２実施例においても、第１実施例と同様に、ユーザは対話相手であるアバターまたは操作者と親密に関わることができる。

また、第２実施例によれば、ユーザの操作によって飛び出しおよび引っ込みを要求するので、ユーザの好みに応じてアバターを飛び出させたり元に戻したりすることを要求することができる。

さらに、第２実施例によれば、ユーザの操作によって飛び出しおよび引っ込みが要求されても、その諾否は操作者によって決定されるため、アバターの飛び出しおよび引っ込みは操作者によって制御することができる。

なお、第２実施例では、第１実施例で説明した操作者から飛び出し指示または引っ込み指示を送信することに代えて、ユーザから飛び出し要求または引っ込み要求を送信し、これに応じて、操作者から飛び出しの諾否または引っ込みの諾否を通知するようにしたが、これらの両方が実行されてもよい。かかる場合には、ユーザ端末１２のＣＰＵ２０は、図１０および図１１に示した制御処理に加えて、ステップＳ３５およびＳ３９の処理に後続して、ステップＳ５１－Ｓ７３の処理が実行される。また、操作者端末１６のＣＰＵ５０は、図１２および図１３に示した制御処理に加えて、ステップＳ１２５およびＳ１２９の処理に後続して、ステップＳ１５１－１７３の処理が実行される。

＜第３実施例＞
第３実施例の情報処理システム１０は、アバター画像１０２に代えて、操作者の画像を表示するようにした以外は、第１実施例と同じであるため、異なる内容について説明し、重複する説明については省略することにする。

第３実施例では、アバター画像１０２に代えて、操作者の画像を表示するため、操作者端末１６からユーザ端末１２に操作者映像データが送信される。したがって、操作者端末１６で、操作者映像データから動作データを生成する必要はない。

また、ユーザ端末１２では、操作者映像データを受信すると、操作者の映像から人物（この実施例では、操作者）の画像を切り取り、切り取った人物（すなわち、操作者）の画像を通常の大きさまたは拡大した大きさで表示する。操作者の画像を通常の大きさで表示するか、拡大した大きさで表示するかは、アバター画像１０２を表示する場合と同様に、飛び出しフラグ３０４ｈに応じて決定される。また、第３実施例では、操作者映像から人物の画像を切り取った残りの画像が窓部画像１０４として表示される。ただし、第１実施例と同様に、仮想の部屋などのシーンが窓部画像１０４として表示されてもよい。

図２２および図２３は第３実施例のユーザ端末１２の制御処理のフロー図である。図２２および図２３では、図１０および図１１に示した制御処理において、ステップＳ７とＳ９の間でステップＳ２０１が実行され、ステップＳ１５に代えてステップＳ２０３が実行され、ステップＳ１７に代えてステップＳ２０５が実行される。また、ステップＳ２３に代えてステップＳ２０７が実行され、ステップＳ２５に代えてステップＳ２０９が実行される。

具体的には、ステップＳ７で“ＹＥＳ”であれば、ステップＳ２０１で、操作者映像データから人物の画像データを切り出す（または、切り抜く）。また、ステップＳ１１で“ＹＥＳ”であれば、ステップＳ１３で、操作者音声データを出力し、ステップＳ２０３で、通常の大きさで人物の画像データを出力して、ステップＳ２７に進む。一方、ステップＳ１１で“ＮＯ”であれば、ステップＳ２０５で、通常の大きさで人物の画像データを出力して、ステップＳ２７に進む。

また、図２３に示すように、ステップＳ１９で“ＹＥＳ”であれば、ステップＳ２１で、操作者音声データを出力し、ステップＳ２０７で、拡大した大きさで人物の画像データを出力して、ステップＳ２７に進む。一方、ステップＳ１９で“ＮＯ”であれば、ステップＳ２０９で、拡大した大きさで人物の画像データを出力して、ステップＳ２７に進む。

図２４は第３実施例の操作者端末１６のＣＰＵ５０の制御処理の一部を示すフロー図である。第３実施例の操作者端末１６のＣＰＵ５０の制御処理では、第１実施例の操作者端末１６の制御処理のステップＳ１１１に代えてステップＳ３０１が実行され、Ｓ１１３に代えてステップＳ３０３が実行される。

図２４に示すように、ステップＳ１０９で“ＮＯ”であれば、ステップＳ３０１で、操作者映像データをユーザ端末１２に送信して、図１３に示したステップＳ１１５に進む。一方、ステップＳ１０９で“ＹＥＳ”であれば、ステップＳ３０３で、操作者映像データと操作者音声データ４０４ｄをユーザ端末１２に送信して、ステップＳ１１５に進む。

第３実施例においても、第１実施例と同様に、ユーザは対話相手である操作者と親密に関わることができる。

なお、第３実施例における変更は、第２実施例にも適用することができる。また、第３実施例における変更は、操作者から飛び出し指示または引っ込み指示を送信する（第１実施例）ことに加えて、ユーザから飛び出し要求または引っ込み要求を送信し、これに応じて、操作者から飛び出しの諾否または引っ込みの諾否を通知する（第２実施例）ようにした例にも、適用することができる。

なお、上述の各実施例では、ユーザ端末と操作者端末がＰ２Ｐ通信するようにしたが、ネットワーク上に設けたサーバを介して通信するようにしてもよい。

また、上述の各実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

さらに、上述の各実施例で挙げた各種の画面、具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。

１０ …情報処理システム
１２ …ユーザ端末
１４ …ネットワーク
１６ …操作者端末
２０、５０ …ＣＰＵ
２２、５２ …ＲＡＭ
２４、５４ …通信Ｉ／Ｆ
２６、５６ …入出力Ｉ／Ｆ
２８、５８ …入力装置
３０、６０ …表示装置
３２、６２ …マイク
３４、６４ …スピーカ
３６、３８、６６ …カメラ

Claims

対話相手の端末と通信可能に接続される情報処理装置であって、
表示装置、
前記表示装置の背後を撮影するカメラ、
前記カメラで撮影された前記表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示手段、
アバターの画像または対話相手の画像を前記枠画像の前面に前記表示装置に表示する対話相手表示手段、および
前記アバターの画像または前記対話相手の画像を前記枠画像に重なる大きさに拡大する拡大手段を備える、情報処理装置。
前記対話相手の端末からの指示または通知を受信する受信手段、
前記拡大手段は、前記受信手段によって拡大指示を受信したことに応じて、前記アバターの画像または前記対話相手の画像を前記枠画像に重なる大きさに拡大する、請求項１記載の情報処理装置。
前記受信手段によって戻す指示を受信したことに応じて、前記アバターの画像または前記対話相手の画像を元の大きさに戻す復元手段をさらに備える、請求項２記載の情報処理装置。
前記対話相手の端末に前記アバターの画像または前記対話相手の画像を拡大することを要求する拡大要求手段、
前記拡大手段は、前記拡大要求手段によって要求されたことに応じて、前記受信手段によって承諾通知を受信した場合に、前記アバターの画像または前記対話相手の画像を拡大し、前記受信手段によって拒否通知を受信した場合に、前記アバターの画像または前記対話相手の画像を拡大しない、請求項２記載の情報処理装置。
前記対話相手の端末に前記アバターの画像または前記対話相手の画像を元の大きさに戻すことを要求する復元要求手段、
前記復元手段は、前記復元要求手段によって要求されたことに応じて、前記受信手段によって承諾通知を受信した場合に、前記アバターの画像または前記対話相手の画像を元の大きさに戻し、前記受信手段によって拒否通知を受信した場合に、前記アバターの画像または前記対話相手の画像を元に戻さない、請求項３記載の情報処理装置。
対話相手の端末と通信可能に接続される情報処理装置を備える、情報処理システムであって、
前記情報処理装置は、
表示装置、
前記表示装置の背後を撮影するカメラ、
前記カメラで撮影された前記表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示手段、
アバターの画像または対話相手の画像を前記枠画像の前面に前記表示装置に表示する対話相手表示手段、
前記対話相手の端末からの拡大指示を受信する受信手段、および
前記受信手段によって拡大指示を受信したことに応じて、前記アバターの画像または前記対話相手の画像を前記枠画像に重なる大きさに拡大する拡大手段を備え、
前記対話相手の端末は、
前記対話相手の操作を検出する操作検出手段、および
前記操作検出手段によって前記アバターの画像を拡大する拡大指示を検出した場合に、前記拡大指示を前記情報処理装置に送信する送信手段を備える、情報処理システム。
表示装置、および前記表示装置の背後を撮影するカメラを備え、対話相手の端末と通信可能に接続される情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
前記カメラで撮影された前記表示装置の背後の映像を用いて枠画像を当該表示装置に表示する枠画像表示ステップ、
アバターの画像または対話相手の画像を前記枠画像の前面に前記表示装置に表示する対話相手表示ステップ、および
前記アバターの画像または前記対話相手の画像を前記枠画像に重なる大きさに拡大する拡大ステップを実行させる、制御プログラム。
表示装置、および前記表示装置の背後を撮影するカメラを備え、対話相手の端末と通信可能に接続される情報処理装置の制御方法であって、
前記カメラで撮影された前記表示装置の背後の映像を用いて枠画像を当該表示装置に表示するステップ、
アバターの画像または対話相手の画像を前記枠画像の前面に前記表示装置に表示するステップ、および
前記アバターの画像または前記対話相手の画像を前記枠画像に重なる大きさに拡大するステップを含む、制御方法。