JP2021071632A

JP2021071632A - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP2021071632A
Application number: JP2019198779A
Authority: JP
Inventors: 祐介阪井; Yusuke Sakai; 忠道下河原; Tadamichi Shimokawara
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Also published as: US20210136323A1; US11412178B2

Abstract

【課題】円滑なコミュニケーションを図る。【解決手段】複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、コミュニケーションを補助する補助処理を行う。本技術は、例えば、遠隔の地点を接続するテレプレゼンスシステムに適用することができる。【選択図】図３

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、円滑なコミュニケーションを図ることができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。

場面解析アルゴリズムに則り場面の変転を察するとともに、その変転に見合うよう撮影管理アルゴリズムに則り動画撮影セッティングを修正し、ローカル環境及びそこにいる人物の動画像の撮影、送信、表示又は録画動作に対しプライバシ保護セッティングを適用してその動作を管制する動画通信システムが提案されている（例えば、特許文献１を参照）。

また、異なるメーカや異なる機種の端末装置を接続でき、音声及び字幕付き画像の議事録作成を可能にするとともに該議事録作成に際して、会議参加者（話者）の言語を特定言語に限定する必要の無いテレビ会議システムが提案されている（例えば、特許文献２を参照）。

特表2010-529738号公報特開2013-201505号公報

ところで、テレプレゼンスシステムは、遠隔地にいるユーザどうしが対面しているような感覚を享受することができるコミュニケーションのツールとして注目されている。

テレプレゼンスシステムについては、通常の認知機能を有するユーザのみならず、認知機能が衰えた高齢者等のユーザであっても、円滑なコミュニケーションを図ることができることが要請される。

本技術は、このような状況に鑑みてなされたものであり、円滑なコミュニケーションを図ることができるようにするものである。

本技術の情報処理装置、又は、プログラムは、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える情報処理装置、又は、そのような情報処理装置としてコンピュータを機能させるためのプログラムである。

本技術の情報処理方法は、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む情報処理方法である。

本技術においては、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理が行われる。

情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本技術を適用したテレプレゼンスシステムの一実施の形態の構成例を示す図である。テレプレゼンス装置１１Ａの構成例を示すブロック図である。信号処理部５１の構成例を示すブロック図である。テレプレゼンス装置１１の使用例を説明する斜視図である。テレプレゼンスシステム１０の処理の例を説明するフローチャートである。テレプレゼンスシステム１０を用いたコミュニケーションの様子の例を示す図である。テレプレゼンスシステム１０を用いたコミュニケーションの様子の他の例を示す図である。テレプレゼンスシステム１０で表示される空間を説明する図である。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

＜本技術を適用したテレプレゼンスシステム＞

図１は、本技術を適用したテレプレゼンスシステムの一実施の形態の構成例を示す図である。

テレプレゼンスシステム１０は、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行う。

図１において、テレプレゼンスシステム１０は、テレプレゼンス装置１１Ａ及び１１Ｂ、並びに、サーバ１２を有する。

テレプレゼンス装置１１Ａは、ある地点Ａに配置され、地点Ａにおいて、画像を撮影するとともに、音を集音し、地点Ｂのテレプレゼンス装置１１Ｂに送信（伝送）する。

また、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂから送信される、そのテレプレゼンス装置１１Ｂで撮影された画像、及び、集音された音を受信して提示する（画像を表示し、音を出力する）。これにより、テレプレゼンス装置１１Ａでは、例えば、地点Ａの空間と地点Ｂの空間とが直接繋がっているかのように、地点Ｂの空間が表示される。

テレプレゼンス装置１１Ｂは、地点Ａと異なる地点Ｂに配置され、テレプレゼンス装置１１Ａと同様の処理を行う。

すなわち、テレプレゼンス装置１１Ｂは、地点Ｂにおいて、画像を撮影するとともに、音を集音し、地点Ａのテレプレゼンス装置１１Ａに送信する。

また、テレプレゼンス装置１１Ｂは、テレプレゼンス装置１１Ａから送信される、そのテレプレゼンス装置１１Ａで撮影された画像、及び、集音された音を受信して提示する。これにより、テレプレゼンス装置１１Ｂでは、例えば、地点Ａの空間と地点Ｂの空間とが直接繋がっているかのように、地点Ａの空間が表示される。

ここで、テレプレゼンス装置１１Ａ及び１１Ｂを区別する必要がない場合、テレプレゼンス装置１１とも記載する。

サーバ１２は、必要に応じて、テレプレゼンス装置１１の制御や、テレプレゼンス装置１１が必要とする情報を、テレプレゼンス装置１１に提供する。

なお、図１のテレプレゼンスシステム１０では、地点ＡとＢとの２地点で、画像及び音の双方向通信が行われるが、画像及び音の双方向通信は、地点Ａ及びＢの他、地点Ａ及びＢに、さらに他の地点Ｃを加えた３地点や、４地点以上で行うことができる。

以下では、説明を簡単にするため、テレプレゼンスシステム１０は、地点ＡとＢとの２地点で、画像及び音の双方向通信を行うこととする。

テレプレゼンスシステム１０は、遠隔地の複数の地点としての、例えば、地点Ａ及びＢの画像及び音をリアルタイムでやりとりし、地点Ａ及びＢのユーザに、あたかも近接した空間にいるかのような感覚を享受させることで、インタラクティブな環境を提供する。

テレプレゼンスシステム１０は、例えば、地点Ａ及びＢそれぞれのユーザどうしのインタラクションのコンテクストに応じて、コミュニケーションを補助する補助処理を行う。

補助処理では、例えば、ユーザどうしの会話を円滑にするための文字情報（見える情報）がリアルタイムで表示される。

ここで、例えば、高齢者住宅の入居者には認知症のある方も多く、会話を聞き取れないことが多い高齢者や、会話の文脈を読みとることが困難な高齢者等が存在する。このような高齢者のコミュニケーションを円滑にするために、テレプレゼンスシステム１０は、例えば、ユーザの声や、表情、動作に合わせて、ユーザの発話内容に関する情報を、文字情報で、適宜効果を付して提示することで、会話をサポートする。

すなわち、高齢者住宅は、年齢や性別はもちろん、視力や聴力、言語理解力、状況認識、会話力等の様々な観点から、多様でバリエーションに富んだユーザが生活するダイバーシティな環境の１つである。かかるダイバーシティな環境において、テレプレゼンスシステム１０は、会話等の通常の音声だけでなく、その内容等のコンテクスト(状態、状況)に応じた付加的な情報をユーザに提示することで、より快適で自然な会話等のコミュニケーションを促進する。

例えば、認知症のあるユーザをサポートする介護士にとって、コミュニケーションを円滑にするための話術は重要なスキルである。但し、認知症のあるユーザの対応に十分な時間がとれない現実がある。また、高齢者住宅の入居者としての高齢者どうしのコミュニケーションでは、人の好き嫌いが多く発生し、特に癖のある認知症の高齢者が仲間はずれになる可能性が高い。テレプレゼンスシステム１０は、例えば、高齢者住宅の入居者としての高齢者とのコミュニケーション（つながり）を積極的に推進する役割を担う。

高齢者とのコミュニケーションを行う相手（対象）は、他の高齢者住宅の入居者は勿論、家族や地域の子供たち等のだれでも良い。テレプレゼンスシステム１０では、高齢者のナラティブ情報等の高齢者に関する情報を事前に又は動的に入力すれば、高齢者とのコミュニケーションを行う相手が、その高齢者の情報を獲得し、スムーズに会話することができる。

ここで、既存のビデオ会議システムやビデオチャットアプリケーションは、基本的に会議や明確な議題を目的として開発され、それを利用する利用ユーザとして、仕事をするビジネスマンや、ＩＴリテラシーの高い若年層を想定している。そのため、画像や音の調整その他の操作方法等については、おおよそ利用ユーザが同じような（健常者として平均的な）物事を把握する能力を有している前提で設計され、操作方法が複雑であることがある。

このようなビデオ会議システム等を、例えば、高齢者のコミュニケーションを促進するために、高齢者が生活する高齢者住宅に導入する場合、利用ユーザとしての高齢者のリテラシーや能力の多様性(リテラシーや能力の分布の広がり)が想定を超え、利用ユーザに必要な機能を提供することが困難となる。

例えば、ビデオ会議システム等の初期操作等は、高齢者住宅のスタッフ等が代表して行うことができる。しかしながら、ビデオ会議システム等では、高齢者において、相手側の画像が見えるか、音声が聞こえるか、相手側が分かるように、自分の表情やしぐさを身体的に表現できるか、音声を伝えられるか等といった点において十分な許容度を持った機能を提供することは困難である。例えば、視力や聴力が衰えた高齢者が、相手側のユーザの顔が見えないことや、発話が聞き取れないことがあり、また、自身の発話が相手側のユーザに聞こえているのか不安になることがある。

また、高齢者のユーザにおいて、特に視覚や聴覚等の認知機能が低下している場合や、認知症等が進行している場合、例えば、意思をうまく伝えられなかった、あるいは、相手の意思を正確に理解することができなかった等のコミュニケーションの失敗が生じやすい。かかるコミュニケーションの失敗は、コミュニケーションの意欲のさらなる低下を生み、ユーザのコミュニケーション能力が低下する悪循環を生じる。

テレプレゼンスシステム１０では、ユーザの認識、ユーザに関する情報（個別情報）の参照、コンテクストに応じた最適なシステム設定、さらには、リアルタイムでの発話情報や動作情報の認識、キャプション（文字情報）の提示（表示）が行われる。

これにより、コミュニケーション試行の成功率を高めながら、たとえユーザの認知能力にギャップがある場合においても、ユーザ相互の意思を伝わりやすくし、コミュニケーションの楽しさや、親和的欲求の充足を生むことができる。さらに、コミュニケーション意欲を維持し、向上させることができる。

以上のように、テレプレゼンスシステム１０は、既存のビデオ会議システム等が重視する目的志向でなく、日々の会話等の何気ないコミュニケーションを活性化することを志向するシステムである。

ここで、テレビジョン放送等では、アクセシビリティに配慮したキャプション機能が提供されているが、そのキャプション機能は、制作されたニュースや、番組、映画といった、インタラクティブ及びリアルタイムではない配信型のキャプション機能である。したがって、テレビジョン放送等のキャプション機能は、テレプレゼンスシステム１０のように、リアルタイムで、かつ、様々な地点（拠点）間で並列して、インタラクティブな環境で実行される機能ではない。

Microsoft社のSkype forビジネスサービス等では、特定の会議において、同時通訳の担当者を介在することで、遠隔地間かつ異なる言語間での会議において、リアルタイムで、インタラクティブなキャプション（情報）を付加するサービスが実用化されている。しかしながら、Skype forビジネスサービス等では、人件費や自動翻訳AI等のコストが高く、常時、無目的に空間をつなぎ、コミュニケーションを促進するテレプレゼンスシステム１０の適用を予定しているケースには、導入が難しい。

デジタルサイネージ装置等では、内蔵カメラで撮影を行って、ディスプレイの前に立ったユーザに対して、鏡像のような画像が表示される。さらに、デジタルサイネージ装置では、画像内のユーザの顔や身体、動き等を認識することで、ユーザにお面のようなかぶりものがVR/AR重畳され、あるいは、身ぶり手ぶりに応じて波や光が発生するような画像効果が付加される。しかしながら、デジタルサイネージ装置等は、テレプレゼンスシステム１０のように、遠隔地どうしの間で双方向のやりとりが行われる装置ではない。

ビデオチャット用カメラの付属アプリケーションとして、デジタルサイネージ装置のような画像効果を双方向で提示するアプリケーションがある。付属アプリケーションが提供する機能は、派手な視覚効果のパターンをユーザに選択させる機能である。そして、付属アプリケーションが提供する機能は、テレプレゼンスシステム１０のように通常のコミュニケーションに支障のある高齢者や障害者の支援、及び、認知能力のギャップを補完する目的で設計されてはいない。

テレプレゼンスシステム１０は、遠隔地のユーザどうしを、あたかも同じ空間にいるかのようにつないで自然なコミュニケーションを図るシステムであり、例えば、高齢者住宅のような空間を常時接続する。

例えば、テレプレゼンスシステム１０において、地点Ａのユーザは、地点Ａに配置されたテレプレゼンス装置１１Ａによって、遠隔地の地点Ｂの空間を視認するとともに、地点Ｂの声や物音を聞くことができる。同様に、地点Ｂのユーザは、地点Ｂに配置されたテレプレゼンス装置１１Ｂによって、遠隔地の地点Ａの空間を視認するとともに、地点Ａの声や物音を聞くことができる。

これにより、地点Ａ及びＢのユーザは、あたかも近接した空間にいるかのような感覚を享受することができる。

テレプレゼンスシステム１０は、高齢者や障害者等の認知能力の多様性が高い空間において特に有用である。但し、テレプレゼンスシステム１０は、そのような空間以外の、例えば、一般的なオフィスや、公共施設、家庭等に適用することができる。

＜テレプレゼンス装置１１Ａの構成例＞

図２は、テレプレゼンス装置１１Ａの構成例を示すブロック図である。

なお、テレプレゼンス装置１１Ｂも、図２のテレプレゼンス装置１１Ａと同様に構成される。

テレプレゼンス装置１１Ａは、入力装置２１、出力装置２２、及び、信号処理装置２３を有する。

入力装置２１は、情報（物理量）をセンシングし、信号処理装置２３に供給する。図２では、入力装置２１は、マイク３１、カメラ３２、及び、センサ３３を有する。

マイク３１は、音を集音（センシング）し、信号処理装置２３に供給する。カメラ３２は、画像を撮影し（光をセンシングし）、信号処理装置２３に供給する。センサ３３は、例えば、ユーザの体温や、発汗量、血圧、心拍数等の生体情報、その他、周囲の温度や距離等の物理量をセンシングし、信号処理装置２３に供給する。センサ３３がセンシングする物理量は、特に限定されるものではない。

出力装置２２は、信号処理装置２３の制御に従い、各種の出力を行う。図２では、出力装置２２は、スピーカ４１、ディスプレイ４２、及び、アクチュエータ４３を有する。

スピーカ４１及びディスプレイ４２は、情報を提示する。スピーカ４１は、情報を音で出力する。ディスプレイ４２は、情報を画像で表示する。アクチュエータ４３は、例えば、振動する。アクチュエータ４３としては、振動するアクチュエータの他、温度を調整するアクチュエータや、匂いや風等を発生させるアクチュエータ、その他の任意のアクチュエータを採用することができる。

ここで、図２では、マイク３１ないしセンサ３３、及び、スピーカ４１ないしアクチュエータ４３が１つずつ図示されているが、マイク３１ないしセンサ３３、及び、スピーカ４１ないしアクチュエータ４３それぞれは、適宜、複数設けることができる。

信号処理装置２３は、入力装置２１から供給される情報に必要な処理を施し、必要に応じて、他のテレプレゼンス装置としての、例えば、テレプレゼンス装置１１Ｂに送信する。また、信号処理装置２３は、他のテレプレゼンス装置としての、例えば、テレプレゼンス装置１１Ｂから送信されてくる情報を受信し、必要な処理を施して、必要に応じて、出力装置２２に出力させる。

信号処理装置２３は、信号処理部５１、通信部５２、及び、記録部５３を有する。

信号処理部５１は、入力装置２１のマイク３１及びカメラ３２からそれぞれ供給される音及び画像に必要な処理を施し、通信部５２に供給する。

また、信号処理部５１は、通信部５２から供給される、テレプレゼンス装置１１Ｂからの音及び画像に必要な処理を施し、その音及び画像を、出力装置２２のスピーカ及びディスプレイ４２にそれぞれ提示させる。すなわち、信号処理部５１は、音を、スピーカ４１から出力させ、画像を、ディスプレイ４２に表示させる。

さらに、信号処理部５１は、入力装置２１のカメラ３２からの画像に映るユーザの認識や、地点Ａ及びＢそれぞれのユーザどうしのインタラクションのコンテクストの認識を行う。

また、信号処理部５１は、ユーザの認識結果や、インタラクションのコンテクストの認識結果に応じて、地点Ａ及びＢそれぞれのユーザどうしのコミュニケーションを補助する補助処理を行う。

通信部５２は、サーバ１２や、テレプレゼンス装置１１Ｂとの間で通信を行う。例えば、通信部５２は、信号処理部５１から供給される音及び画像を、テレプレゼンス装置１１Ｂに送信する。また、例えば、通信部５２は、テレプレゼンス装置１１Ｂから送信されてくる音及び画像を受信し、信号処理部５１に供給する。

記録部５３は、各種の情報を記録する。例えば、記録部５３は、信号処理部５１や通信部５２で扱われる情報や、テレプレゼンス装置１１Ａの外部から入力される情報等を記録する。記録部５３に記録された情報は、信号処理部５１の処理等に用いることができる。

テレプレゼンス装置１１Ａでは、信号処理部５１が、テレプレゼンス装置１１Ａを利用するユーザについて、カメラ３２で撮影した画像を用いた顔認識を、必要に応じて、センサ３３の出力を併用して行うことで、ユーザの個人認識を行う。これにより、信号処理部５１は、テレプレゼンス装置１１Ａを利用するユーザを特定する。テレプレゼンス装置１１Ａを利用するユーザとは、例えば、テレプレゼンス装置１１Ａに接近しているユーザである。

記録部５３には、ユーザの情報の１つとして、ユーザの特性情報が記録される。信号処理部５１は、記録部５３に記録された特性情報のうちの、個人認識により特定されたユーザの特性情報を参照し、その特性情報に応じた補助処理を行う。

ユーザの特性情報には、例えば、ユーザの視力（分解能、視野、色感度、明るさ感度等）や、聴力（分解能、ゲイン、周波数特性等）、言語理解力（言語、語彙、聞き取り力等）、知識、ジャンル、認知能力（認知症レベル、症状等）、趣味、特技、人生情報（出身、キャリア、専門等）等の情報が含まれる。

テレプレゼンス装置１１Ａでは、ユーザのテレプレゼンスシステム１０の利用時に、例えば、ログ情報（利用状況、過去のポジティブ／ネガティブなコミュニケーションの事例等）、住人や知人とのコミュニケーション相関情報（相性、共通の話題、要素、以前の交流ログ）等が、記録部５３に動的に記録される。特性情報には、このようにして記録部５３に動的に記録されたログ情報やコミュニケーション相関情報等も含まれる。

信号処理部５１は、ユーザのテレプレゼンスシステム１０の利用時に、入力装置２１から供給される情報（マイク３１で集音された音（音声）、カメラ３２で撮影された画像、センサ３３の生体情報のセンシング結果）から、リアルタイムでユーザの状態や、周辺空間の状況等のコンテクストの認識を行う。信号処理部５１は、コンテクストの認識により、例えば、ユーザが何かを話したがっている、誰かを呼びたがっているといったことや、楽しんでいる、不安に思っている、怒っている、相手の声が聞こえにくい、相手の話や、状況がよく把握できないでいるといった、実際の介護士が気配りして認知しているユーザの感情や心理状態等の情報を解析し収集する。

＜信号処理部５１の構成例＞

図３は、信号処理部５１の構成例を示すブロック図である。

信号処理部５１は、ユーザ認識部６１、コンテクスト認識部、及び、補助処理部６３を有する。

ユーザ認識部６１は、カメラ３２で撮影されたユーザを個人認識する。

コンテクスト認識部６２は、テレプレゼンスシステム１０における各地点のユーザどうしのインタラクションのコンテクスト（以下、インタラクションコンテクストともいう）を認識する。例えば、コンテクスト認識部６２は、ユーザ認識部６１で認識されたユーザの状態や、そのユーザが過去に行った会話の文脈、そのユーザが現在行っている会話の文脈等の少なくとも１以上を、インタラクションコンテクストとして認識する。

補助処理部６３は、コンテクスト認識部６２で認識されたインタラクションコンテクスト等に応じて、異なる地点のユーザどうしのコミュニケーションを補助する補助処理を行う。

＜テレプレゼンス装置１１の使用例＞

図４は、テレプレゼンス装置１１の使用例を説明する斜視図である。

テレプレゼンス装置１１は、入力装置２１を構成するマイク３１、カメラ３２、及び、センサ３３、出力装置２２を構成するスピーカ４１、ディスプレイ４２、及び、アクチュエータ４３、並びに、信号処理装置２３を含む。

なお、図４では、センサ３３の図示は省略されている。また、図４では、マイク３１とカメラ３２とが一体的に構成される。

テレプレゼンス装置１１は、遠隔地にいるユーザ、例えば、地点Ａにいるユーザと地点Ｂにいるユーザとが近接しているようなコミュニケーション体験を提供することができる。

ここで、以下、適宜、図４に示すディスプレイ４２の手前に居るユーザ側を自分側と称し、ディスプレイ４２に映し出されているユーザ側を相手側と称する。例えば、自分側のテレプレゼンス装置１１が、地点Ａのテレプレゼンス装置１１Ａであるとすると、相手側のテレプレゼンス装置１１は、例えば、地点Ｂのテレプレゼンス装置１１Ｂである。

スピーカ４１は、相手側のテレプレゼンス装置１１から送信されてくる音を出力する。ディスプレイ４２は、相手側のテレプレゼンス装置１１から送信されてくる画像を表示し、相手側の空間を画面に映し出す。

一方、マイク３１は、自分側の音を集音する。カメラ３２は、自分側の空間を撮影する。マイク３１で集音された音、及び、カメラ３２で撮影された画像は、相手側のテレプレゼンス装置１１に送信され、自分側のテレプレゼンス装置１１と同様に提示される。

テレプレゼンス装置１１では、例えば、相手側の音（相手側のテレプレゼンス装置１１から送信されてくる音）が、スピーカ４１から出力される他、必要に応じて、ディスプレイ４２に文字情報で表示される。

例えば、ディスプレイ４２に映る相手側のユーザの発話内容の文字情報（キャプション）が、その相手側のユーザが発したことを表す吹き出しとともに表示される。

したがって、自分側のユーザは、聴力が弱くても、ディスプレイ４２に表示された吹き出し付きの文字情報を見ることで、発話した相手側のユーザや、発話内容を認識（認知）することができる。

補助処理部６３は、以上のような、相手側のユーザの発話内容の文字情報を表示する等の、ユーザどうしのコミュニケーションを補助する補助処理を行う。補助処理は、ユーザ認識部６１で個人認識されたユーザや、コンテクスト認識部６２で認識されたインタラクションコンテクスト等に応じて行うことができる。

補助処理では、例えば、ユーザの発話内容に関する情報を、文字情報（言語）で提示することができる。文字情報の提示は、ディスプレイ４２に画像で表示（キャプション表示）しても良いし、スピーカ４１から音声で出力しても良い。

例えば、補助処理では、ユーザの発話を音声認識し、音声認識により得られるユーザの発話としての文字情報を、そのまま提示することができる。

文字情報の提示は、例えば、インタラクションコンテクストとしてのユーザの発話の文脈から、ユーザの発話において不足している情報（主語や目的語等）を、ユーザの発話としての文字情報に補足して行うことができる。

また、文字情報の提示をキャプション表示で行う場合には、例えば、インタラクションコンテクストとしての発話しているユーザの感情や抑揚等のユーザの状態に応じて、文字の大きさや色を変更することで、文字情報の一部又は全部を強調表示することができる。

ユーザの発話内容に関する情報は、発話内容から認識されるインタラクションコンテクスト（会話の文脈等）に基づいて推定される、ユーザの会話を補助する補助情報を含む。

補助情報は、会話のきっかけとなる情報を含む。会話のきっかけとなる情報とは、会話の主題（お題）や、会話のきっかけとなる質問（「あなたの昔話を教えて」等）、会話のきっかけとなる音楽（広く知られている民謡等）等である。

補助情報の提示では、会話（ユーザの発話）が滞ったというインタラクションコンテクストに応じて、会話の主題（お題）を表示することや、会話のきっかけとなる質問を表示すること、会話のきっかけとなる音楽を流すことができる。

補助処理部６３では、インタラクションコンテクストを評価し、そのインタラクションコンテクストの評価に応じて、行う補助処理を決定することができる。

例えば、過去に提示された補助情報としての会話のお題によって、会話が盛り上がったというインタラクションコンテクストの評価が得られた場合、過去に提示されたお題に応じた他のお題（他の補助情報）の提示を、行う補助処理に決定することができる。過去に提示されたお題に応じた他のお題とは、過去に提示されたお題と同一のお題や、過去に提示されたお題と観念的に類似するお題を意味する。

補助処理では、その他、例えば、個人認識されたユーザの人生に関する人生情報（経歴、趣味、特技、出身地等）を表示することや、会話を行うユーザどうしに共通する要素や話題を提示することができる。

また、補助処理では、個人認識されたユーザが認知しづらい又はできない情報について、情報を強化すること、又は、情報を変換することができる。情報の強化とは、例えば、聴力が低いユーザに対して、ユーザが聞き取りやすいように音量を上げることや、音声の周波数特性を調整することを意味する。情報の変換とは、例えば、目が見えないユーザに対して、物体の名称を音声に変換して出力することや、聞こえないユーザに対して、情報を振動等の触覚で感じることができる触覚刺激手段に変換して出力することを意味する。

さらに、ディスプレイ４２に表示されている相手側のユーザが、自分側のユーザに気づいていない場合、相手側のテレプレゼンス装置１１において、相手側のユーザが、自分側のユーザに注意を向けるような処理を補助処理として行うことができる。例えば、チャイムのような音を鳴らすことや、相手側のユーザを認識し、そのユーザの名前を音声で出力することができる。

また、補助処理では、自分側のユーザが、ディスプレイ４２の相手側のユーザの表示領域にタッチした場合、相手側のテレプレゼンス装置１１において、相手側のユーザを認識し、そのユーザの名前を音声で出力することや、相手側のユーザに呼びかけるような特定の音声を出力することができる。相手側のユーザが振動可能なデバイスを装着している場合には、相手側のテレプレゼンス装置１１において、相手側のユーザが装着しているデバイスを振動させること等で、相手側のユーザの方を軽くたたいて呼び止めるようなことを行うことができる。

さらに、補助処理では、ディスプレイ４２に表示されている範囲内の音や、会話を行っているユーザの音声に限定して、スピーカ４１から出力することができる。また、ディスプレイ４２に表示されている範囲内の音や、会話を行っているユーザの音声を強調して、スピーカ４１から出力することができる。テレプレゼンス装置１１においては、音を広範囲に収音して伝送することができるが、高齢者にとって、ディスプレイ４２に表示されていない範囲から発される音にとまどうことがある。上述のような音声等の限定、又は、強調を行うことで、ディスプレイ４２に表示されていない範囲から発される音にとまどうことを防止することができる。

また、補助処理では、会話が盛り上がってきた場合、ディスプレイ４２に表示される画像について、会話に参加しているユーザの領域にフォーカスし、会話との関連性の低い領域、例えば、会話に参加していないユーザの領域をぼかすことができる。大画面のディスプレイ４２に、相手側の（地点の）空間が広範囲に映る画像が表示される場合、自分側のユーザが、そのような画像のどこを注視すべきであるかが分からなくなることがあり得る。上述のように、会話に参加しているユーザの領域にフォーカスし、会話との関連性の低い領域をぼかすことで、ディスプレイ４２に表示される画像のどこを注視すべきであるかが分からなくなることを抑制することができる。

さらに、補助処理では、例えば、自分側のユーザとして、高齢者が存在し、相手側のユーザとして、子供が存在する場合において、自分側のユーザとしての高齢者が、相手側のユーザとしての子供に対して、お年玉をあげるような行動をとったときに、自分側のテレプレゼンス装置１１において、自分側の高齢者が所持するICカード等から電子マネーを引き出し、相手側のテレプレゼンス装置１１において、相手側の子供が所持するICカード等に、自分側の高齢者が所持するICカード等から引き出した電子マネーを、いわばデジタルお年玉としてチャージすることができる。この場合、高齢者と子供との間での世代間コミュニケーションを促進することができる。

また、補助処理では、例えば、自分側の地点に駄菓子屋が併設され、相手側の地点に駄菓子を収容した駄菓子ボックスが配置されている場合において、自分側の高齢者が、駄菓子屋から駄菓子を買って、相手側の子供に対して、駄菓子を渡すような行動をとったときに、相手側のテレプレゼンス装置１１において、自分側の高齢者が渡した駄菓子を認識し、その駄菓子と同一の駄菓子を、駄菓子ボックスから排出し、相手側の子供に渡すことができる。この場合、自分側の高齢者と相手側の子供とは、駄菓子を一緒に食べる等の世代間コミュニケーションを促進することができる。なお、自分側のテレプレゼンス装置１１において、駄菓子は、相手側の子供に対して配送されるように、ネットショップに注文することができる。

さらに、補助処理では、複数のマイク３１を用いたビームフォーミングにより発話を行っているユーザの音声を抽出する音源分離を行い、そのユーザの音声の音声認識を行って、ユーザの発話を、漫画の吹き出しのように表示することができる。

テレプレゼンス装置１１では、自分側の空間（地点）と相手側の空間とが直接繋がっているかのように、相手側の空間を、ディスプレイ４２に表示することができる。さらに、テレプレゼンス装置１１では、自分側の空間と相手側の空間とが、任意の空間である狭間空間を介して繋がっているように、その狭間空間と相手側の空間とを、ディスプレイ４２に表示することができる。狭間空間は、実際に存在する空間であっても良いし、実際には存在しない仮想的な空間（空想上の空間）であっても良い。

狭間空間には、コミュニケーションを補助する補助オブジェクトを配置（表示）することを、補助処理として行うことができる。

補助オブジェクトとしては、例えば、ゲームの要素があるオブジェクトを採用することができる。ゲームの要素があるオブジェクトとは、例えば、将棋やボードゲーム等のゲームや、自分側のユーザと相手側のユーザとが共同で作業することができるお絵かきやパズル等の共同作業ツールである。その他、補助オブジェクトとしては、例えば、自分側のユーザと相手側のユーザとのコミュニケーションを補助するエージェント、例えば、話題を提供するエージェント等を採用することができる。

自分側又は相手側において、会話等のコミュニケーションに参加するユーザが複数のユーザである場合においては、補助処理では、その複数のユーザ個々の認知能力のデータ、パラメータ等に基づいて、可能なかぎり、複数のユーザの認知が全体として快適となるように、スピーカ４１の出力音の音量や、音質、音源位置、及び、ディスプレイ４２に表示される画像の明るさや、画質、明瞭度（ぼかし）、ディスプレイ４２に映る相手側の空間の範囲等を、適切に調整することができる。

スピーカ４１の出力音の音源位置の調整は、例えば、波面合成により行うことができる。その他、スピーカ４１の出力音の音源位置の調整としては、スピーカ４１がユーザの手元に置くことができる、いわゆる手元スピーカである場合には、スピーカ４１としての手元スピーカの適切なレイアウトの算出、及び、表示を行うことができる。

スピーカ４１の出力音、及び、ディスプレイ４２に表示される画像について、十分な調整ができない場合、十分な調整ができないことに起因して生じるユーザの状態を可視化することができる。例えば、「Ａさんは、やや聴こえづらい」、「Ｂさんは、補聴器で音が歪む」、「Ｃさんは、相手側のユーザが見えづらい」等のユーザの状態（状況）を表示することができる。相手側のユーザの状態が表示された場合、自分側のユーザが、相手側のユーザの状態に応じて、発話を行うことや、位置を移動すること等によって、相手側のユーザが認知しやすいコミュニケーションをとることができる。

テレプレゼンス装置１１が、波面合成により任意の場所に音源の位置を調整する機能を有する場合には、その機能を利用して、各ユーザに適切な音場、例えば、ユーザにとって音声が聞きやすい音場を形成することができる。また、複数のマイク３１を分散して適切な位置に配置し、エコーキャンセル技術をチューニングして、複数のマイク３１で集音される音声から、高音質の音声を生成することができる。

＜テレプレゼンスシステム１０の処理＞

図５は、テレプレゼンスシステム１０の処理の例を説明するフローチャートである。

すなわち、図５は、地点Ａのテレプレゼンス装置１１Ａと、地点Ｂのテレプレゼンス装置１１Ｂとで、画像及び音の双方向通信が行われる場合のテレプレゼンス装置１１Ａ及び１１Ｂの処理の例を説明するフローチャートである。

ステップＳ１１において、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂに接続を要求する。

ステップＳ３１において、テレプレゼンス装置１１Ｂは、テレプレゼンス装置１１Ａからの接続の要求を受け入れる。

ステップＳ１２において、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂとの接続を確立する。

ステップＳ３２において、テレプレゼンス装置１１Ｂは、テレプレゼンス装置１１Ａとの接続を確立する。

以上のように、テレプレゼンス装置１１Ａ及び１１Ｂの接続の確立後、テレプレゼンス装置１１Ａ及び１１Ｂの間で、リアルタイムでの画像及び音の双方向通信が開始される。

ステップＳ１３では、テレプレゼンス装置１１Ａは、地点Ａのユーザの認識、及び、インタラクションコンテクストの認識を開始する。そして、テレプレゼンス装置１１Ａは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果を、必要に応じて、テレプレゼンス装置１１Ｂ及びサーバ１２に送信する。

ステップＳ３３では、テレプレゼンス装置１１Ｂは、地点Ｂのユーザの認識、及び、インタラクションコンテクストの認識を開始する。そして、テレプレゼンス装置１１Ｂは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果を、必要に応じて、テレプレゼンス装置１１Ａ及びサーバ１２に送信する。

以上により、テレプレゼンス装置１１Ａ及び１１Ｂでは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果の共有が開始される。

ステップＳ１４において、テレプレゼンス装置１１Ａは、認識されたユーザの特性情報、及び、インタラクションコンテクストに応じて、地点Ａ及びＢのユーザ相互の基本的コミュニケーションの質を評価し、その評価に応じて、補助処理を行う。

コミュニケーションの質とは、ユーザが快適にコミュニケーションをとれているか、コミュニケーションによって楽しめているか等といったコミュニケーションがどのようであるかの規定である。基本的コミュニケーションの質は、遠隔地のユーザがテレプレゼンスシステム１０を用いてコミュニケーションをとる場合の、そのコミュニケーションの媒介となる画像及び音の、ユーザにとっての質を表す。例えば、基本的コミュニケーションの質は、ユーザにとっての画像の見やすさ（見にくさ）や、音の聞きやすさ（聞きにくさ）等の程度を表す。

基本的コミュニケーションの質の評価に応じた補助処理としては、例えば、テレプレゼンス装置１１Ａの設定の最適化、文字情報の表示制御、ユーザの状態の表示等がある。

テレプレゼンス装置１１Ａの設定の最適化では、基本的コミュニケーションの質として、必要な質が充足されるように、ユーザの特性情報に合わせて、テレプレゼンス装置１１Ａから出力される音の音量や、音質、音源位置、テレプレゼンス装置１１Ａで表示される画像の明るさ等の調整が行われる。テレプレゼンス装置１１Ａの設定の最適化では、テレプレゼンス装置１１Ａの設定が、地点Ａのユーザ全体にとって、より適切な設定になるように行われる。

なお、可能であれば、カメラ３２及びディスプレイ４２等を配置する場所（位置）や、高さ、向き等についても、ユーザ全体にとって、より適切になるように調整することができる。すなわち、例えば、ディスプレイ４２に、そのような調整を促すメッセージ等を表示し、ユーザに、そのような調整を行ってもらうことができる。

文字情報の表示制御では、例えば、ユーザの発話の文字情報としてのキャプションの表示制御が行われる。キャプションの表示制御では、キャプションの表示位置や、大きさ、明るさ、色等の制御が行われる。

ユーザの状態の表示では、テレプレゼンス装置１１Ａの設定の最適化が行われた後、その設定でのユーザの状態（状況）が表示される。例えば、テレプレゼンス装置１１Ａにおいて、「△△さんは音が聞こえにくい」や、「〇〇さんは画像が見えづらい」等といったユーザの状態（ステータス）が、ディスプレイ４２に表示される。

ステップＳ１５において、テレプレゼンス装置１１Ａは、基本的コミュニケーションの質として、必要な質（あらかじめ決められた質）が充足されたかどうかを判定する。

ステップＳ１５において、基本的コミュニケーションの質として、必要な質が充足されていないと判定された場合、処理は、ステップＳ１４に戻り、同様の処理が繰り返される。

また、ステップＳ１５において、基本的コミュニケーションの質として、必要な質が充足されたと判定された場合、処理は、ステップＳ１６に進む。

ステップＳ１６では、テレプレゼンス装置１１Ａは、認識されたユーザの特性情報、及び、インタラクションコンテクストに応じて、地点Ａ及びＢのユーザ相互の発展的コミュニケーションの質を評価し、その評価に応じて、補助処理を行う。

発展的コミュニケーションの質は、ユーザがコミュニケーションを楽しめている程度を表す。例えば、ユーザが相手との会話やボディランゲージ等によりコミュニケーションを楽しめているか、ユーザが、テンポ良く反応して、インタラクティブ（双方向）にやり取りができているかといったことが、入力装置２１でセンシングされた情報から認識され、発展的コミュニケーションの質が評価される。

発展的コミュニケーションの質の評価に応じた補助処理としては、例えば、会話を活性化する話題（いわゆるネタ）の提供や、コミュニケーションを行うモチベーションを向上させる文字情報の提供等がある。

例えば、コミュニケーションを行うモチベーションを向上させる文字情報の提供では、テレプレゼンス装置１１Ａは、インタラクションコンテクストの認識として、ユーザの感情や意図の推定を行い、その感情や意図に応じて、ユーザの発話の文字情報としてのキャプションの表示を変化させることができる。例えば、キャプションの一部又は全部を強調することや、キャプションに、発話の意味内容を補完する語句や文章等を追加することができる。

なお、ステップＳ１４及びステップＳ１６は、並列して行うことができる。

ステップＳ１７において、テレプレゼンス装置１１Ａは、発展的コミュニケーションの質として、必要な質（あらかじめ決められた質）が充足されたかどうかを判定する。

ステップＳ１７において、発展的コミュニケーションの質として、必要な質が充足されていないと判定された場合、処理は、ステップＳ１６に戻り、同様の処理が繰り返される。

また、ステップＳ１７において、発展的コミュニケーションの質として、必要な質が充足されたと判定された場合、処理は、ステップＳ１８に進む。

ステップＳ１８では、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂとの接続を切断するように、操作が行われたかどうかを判定し、行われていないと判定した場合、処理は、ステップＳ１７に戻る。

また、ステップＳ１８において、テレプレゼンス装置１１Ｂとの接続を切断するように、操作が行われたと判定された場合、処理は、ステップＳ１９に進む。

ステップＳ１９では、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂに接続の切断を要求する。そして、テレプレゼンス装置１１Ａは、テレプレゼンス装置１１Ｂとの接続を切断し、処理は終了する。

一方、テレプレゼンス装置１１Ｂは、ステップＳ３４ないしＳ３７において、ステップＳ１４ないしＳ１７とそれぞれ同様の処理を行う。

そして、ステップＳ３８において、テレプレゼンス装置１１Ｂは、テレプレゼンス装置１１Ａから、テレプレゼンス装置１１Ａとの接続を切断する要求があったかどうかを判定し、なかったと判定した場合、処理は、ステップＳ３７に戻る。

また、ステップＳ３８において、テレプレゼンス装置１１Ａとの接続を切断する要求があったと判定された場合、処理は、ステップＳ３９に進む。

ステップＳ３９では、テレプレゼンス装置１１Ｂは、テレプレゼンス装置１１Ａからの接続の切断の要求を受け入れ、テレプレゼンス装置１１Ａとの接続を切断し、処理は終了する。

図６は、テレプレゼンスシステム１０を用いたコミュニケーションの様子の例を示す図である。

なお、図６において、スピーカ４１Ａ及びディスプレイ４２Ａは、地点Ａのテレプレゼンス装置１１Ａのスピーカ４１及びディスプレイ４２をそれぞれ表す。スピーカ４１Ｂ及びディスプレイ４２Ｂは、地点Ｂのテレプレゼンス装置１１Ｂのスピーカ４１及びディスプレイ４２をそれぞれ表す。後述する図７及び図８でも、同様である。

図６では、テレプレゼンス装置１１Ａで撮影された地点ＡのユーザＵＡが、テレプレゼンス装置１１Ｂのディスプレイ４２Ｂに表示されている。さらに、テレプレゼンス装置１１Ｂで撮影された地点ＢのユーザＵＢが、テレプレゼンス装置１１Ａのディスプレイ４２Ａに表示されている。そして、地点ＡのユーザＵＡが、地点ＢのユーザＵＢとのコミュニケーションを開始しようとして、話しかける発話「こんにちは」を行っている。

この場合、地点Ｂのスピーカ４１Ｂにおいて、ユーザＵＡの発話「こんにちは」が、音声で出力される。同時に、地点Ｂのディスプレイ４２Ｂにおいて、ユーザＵＡの発話「こんにちは」のキャプション（文字情報）「こんにちは」が、ユーザＵＡが発話を行っているかのような吹き出し内に表示される。

地点ＡのユーザＵＡの発話「こんにちは」に対して、地点ＢのユーザＵＢが、発話「あ、どうも」によって応えると、地点Ａのスピーカ４１Ａにおいて、ユーザＵＢが応えた発話「あ、どうも」が、音声で出力される。同時に、地点Ａのディスプレイ４２Ａにおいて、ユーザＵＢの発話「あ、どうも」のキャプション「あ、どうも」が、ユーザＵＢのユーザが発話を行っているかのような吹き出し内に表示される。

ユーザＵＡ及びＵＢは、以上のように、音声の他、キャプションによって、相手の発話を確認することができる。

例えば、その後のユーザＵＡ及びＵＢの会話では、インタラクションコンテクストから得られるユーザの感情等に応じて、そのユーザの発話のキャプションの一部又は全部を、ユーザの感情が伝わるように強調して表示することができる。これにより、円滑なコミュニケーションを図ることができる。

ここで、会話において、耳が聞こえにくいユーザは、例えば、自分の声が、相手側に届いているか、又は、適正な大きさか、といったことが気になることがある。

そこで、ディスプレイ４２において、ユーザの声の音量を表すボリュームUIや、相手側のユーザの反応又は傾聴状態を表す状態UIを表示することを、補助処理として行うことができる。

図６では、ディスプレイ４２Ａにおいて、ボリュームUI１１１及び状態UI１１２が表示されている。

ユーザＵＡは、ボリュームUI１１１を参照することで、自分の声の音量がどの程度の音量であるかを確認することができる。また、ユーザＵＡは、状態UI１１２を参照することで、相手側のユーザＵＢが自分に気づいているかどうかを確認することができる。

人は、相手に話しかけたときに、反応がない（無視される）と、話しかけることに自信をなくし、コミュニケーションをとろうとするモチベーションが低下することがある。一方、話しかけられた相手は、話しかけられた声が小さかったために、話しかけられたことに気がつかず、意図せず無視する結果になることがある。

ボリュームUI１１１及び状態UI１１２によれば、例えば、声が小さかったために、相手が話しかけられたことに気がついていないことを確認することができ、相手の反応がないことの理由を把握することができる。その結果、話しかけることに自信をなくすことを抑制することができる。

また、ボリュームUI１１１及び状態UI１１２によれば、例えば、声が適切な大きさであり、そのような声で話しかけたことによって、相手が気がつくことを確認することができる。その結果、話しかけることへの自信をつけ、コミュニケーションをとろうとするモチベーションを向上させることができる。

図７は、テレプレゼンスシステム１０を用いたコミュニケーションの様子の他の例を示す図である。

図７では、地点ＢのユーザＵＢが、ディスプレイ４２Ｂの前を通り過ぎようとしており、地点Ａのディスプレイ４２Ａにおいて、その様子が映っている。

ディスプレイ４２Ａに映る、ディスプレイ４２Ｂの前を通り過ぎようとしているユーザＵＢに気がついた地点ＡのユーザＵＡが、ユーザＵＢとコミュニケーションをとろうとする場合、ユーザＵＡは、ディスプレイ４２Ａに表示されたユーザＵＢ（の表示領域）に、実際にユーザＵＢに呼びかけるかのようにタッチすることができる。

ユーザＵＡが、ディスプレイ４２Ａに表示されたユーザＵＢにタッチすると、地点Ａのテレプレゼンス装置１１Ａから地点Ｂのテレプレゼンス装置１１Ｂにタッチの情報が送信される。この場合、地点Ｂのテレプレゼンス装置１１Ｂでは、スピーカ４１Ｂから、ユーザＵＢに呼びかける音声（例えば、「ＵＢさん。ＵＡさんが呼んでいます」）が出力される。

さらに、ユーザＵＢが、振動する腕時計等のウエアラブルデバイス１２１を装着している場合には、テレプレゼンス装置１１Ｂは、ユーザＵＢが装着しているウエアラブルデバイス１２１を振動させる。

これにより、ユーザＵＢは、ユーザＵＡ（の呼びかけ）に気がつき、コミュニケーションを開始することができる。

図８は、テレプレゼンスシステム１０で表示される空間を説明する図である。

テレプレゼンス装置１１では、図８のＡに示すように、地点Ａ（の空間）と地点Ｂとが直接繋がっているかのように、相手側の空間を、ディスプレイ４２に表示することができる。

また、テレプレゼンス装置１１では、図８のＢに示すように、地点Ａと地点Ｂとが、狭間空間を介して繋がっているように、その狭間空間と相手側の空間とを、ディスプレイ４２に表示することができる。

狭間空間には、コミュニケーションを補助する補助オブジェクトとしての、例えば、エージェントを配置（表示）することを、補助処理として行うことができる。図８では、犬を模したエージェントが、狭間空間に配置されており、このエージェントの存在や行動を話題として、地点Ａのユーザと地点Ｂのユーザとのコミュニケーションを促進することができる。

また、エージェントは、例えば、地点ＡのユーザＵＡと地点ＢのユーザＵＢとのコミュニケーションにおいて、ユーザＵＡとＵＢとが過去に行った会話や現在行っている会話の文脈等のインタラクションコンテクストに応じて、話題を、適切なタイミングで提示する等の補助処理を行うことができる。

以上のように、インタラクションコンテクストに応じて、コミュニケーションを補助する補助処理を行うことにより、円滑なコミュニケーションを図ることができる。

なお、テレプレゼンス装置１１が行う処理の一部は、サーバ１２で行うことができる。

＜本技術を適用したコンピュータの説明＞

次に、上述した信号処理装置２３の一連の処理は、ハードウエアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウエアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

図９は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク９０５やROM９０３に予め記録しておくことができる。

あるいはまた、プログラムは、ドライブ９０９によって駆動されるリムーバブル記録媒体９１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体９１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体９１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体９１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク９０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、デジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)９０２を内蔵しており、CPU９０２には、バス９０１を介して、入出力インタフェース９１０が接続されている。

CPU９０２は、入出力インタフェース９１０を介して、ユーザによって、入力部９０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)９０３に格納されているプログラムを実行する。あるいは、CPU９０２は、ハードディスク９０５に格納されたプログラムを、RAM(Random Access Memory)９０４にロードして実行する。

これにより、CPU９０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU９０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース９１０を介して、出力部９０６から出力、あるいは、通信部９０８から送信、さらには、ハードディスク９０５に記録等させる。

なお、入力部９０７は、キーボードや、マウス、マイク等で構成される。また、出力部９０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

なお、本技術は、以下の構成をとることができる。

＜１＞
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える
情報処理装置。
＜２＞
前記コンテクストを認識するコンテクスト認識部をさらに備える
＜１＞に記載の情報処理装置。
＜３＞
前記コンテクスト認識部は、前記ユーザの状態を認識する
＜２＞に記載の情報処理装置。
＜４＞
前記コンテクスト認識部は、前記ユーザが過去に行った会話の文脈、及び、前記ユーザが現在行っている会話の文脈の１以上を認識する
＜２＞又は＜３＞に記載の情報処理装置。
＜５＞
前記補助処理部は、前記ユーザの発話内容に関する情報を、文字情報で提示する
＜１＞ないし＜４＞のいずれかに記載の情報処理装置。
＜６＞
前記補助処理部は、前記文字情報を表示し、又は、音声で出力する
＜５＞に記載の情報処理装置。
＜７＞
前記ユーザの発話内容に関する情報は、前記発話内容から認識される前記コンテクストに基づいて推定される、会話を補助する補助情報を含む
＜５＞又は＜６＞に記載の情報処理装置。
＜８＞
前記補助情報は、会話のきっかけとなる情報を含む
＜７＞に記載の情報処理装置。
＜９＞
前記補助処理部は、前記コンテクストを評価し、前記コンテクストの評価に応じて、行う補助処理を決定する
＜５＞ないし＜８＞のいずれかに記載の情報処理装置。
＜１０＞
前記補助処理部は、過去に提示された、会話を補助する補助情報によって、会話が盛り上がったかどうかを評価する
＜９＞に記載の情報処理装置。
＜１１＞
前記補助処理部は、過去に提示された前記補助情報によって、会話が盛り上がった場合、過去に提示された前記補助情報に応じた他の補助情報の提示を行うことを決定する
＜１０＞に記載の情報処理装置。
＜１２＞
前記テレプレゼンスシステムにおいて、自分側の空間と相手側の空間とが、所定の狭間空間を介して繋がっているように、前記狭間空間と前記相手側の空間とが表示され、
前記補助処理部は、前記狭間空間に、前記コミュニケーションを補助するエージェントを表示する
＜１＞ないし＜１１＞のいずれかに記載の情報処理装置。
＜１３＞
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む
情報処理方法。
＜１４＞
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部
として、コンピュータを機能させるためのプログラム。

１０テレプレゼンスシステム，１１，１１Ａ，１１Ｂテレプレゼンス装置，２１入力装置，２２出力装置，２３信号処理装置，３１マイク，３２カメラ，３３センサ，４１，４１Ａ，４１Ｂスピーカ，４２，４２Ａ，４２Ｂディスプレイ，４３アクチュエータ，５１信号処理部，５２通信部，５３記録部，６１ユーザ認識部，６２コンテクスト認識部，６３補助処理部，１１１ボリュームUI，１１２状態UI，１２１ウエアラブルデバイス，９０１バス，９０２ CPU，９０３ ROM，９０４ RAM，９０５ハードディスク，９０６出力部，９０７入力部，９０８通信部，９０９ドライブ，９１０入出力インタフェース，９１１リムーバブル記録媒体

Claims

複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える
情報処理装置。
前記コンテクストを認識するコンテクスト認識部をさらに備える
請求項１に記載の情報処理装置。
前記コンテクスト認識部は、前記ユーザの状態を認識する
請求項２に記載の情報処理装置。
前記コンテクスト認識部は、前記ユーザが過去に行った会話の文脈、及び、前記ユーザが現在行っている会話の文脈の１以上を認識する
請求項２に記載の情報処理装置。
前記補助処理部は、前記ユーザの発話内容に関する情報を、文字情報で提示する
請求項１に記載の情報処理装置。
前記補助処理部は、前記文字情報を表示し、又は、音声で出力する
請求項５に記載の情報処理装置。
前記ユーザの発話内容に関する情報は、前記発話内容から認識される前記コンテクストに基づいて推定される、会話を補助する補助情報を含む
請求項５に記載の情報処理装置。
前記補助情報は、会話のきっかけとなる情報を含む
請求項７に記載の情報処理装置。
前記補助処理部は、前記コンテクストを評価し、前記コンテクストの評価に応じて、行う補助処理を決定する
請求項５に記載の情報処理装置。
前記補助処理部は、過去に提示された、会話を補助する補助情報によって、会話が盛り上がったかどうかを評価する
請求項９に記載の情報処理装置。
前記補助処理部は、過去に提示された前記補助情報によって、会話が盛り上がった場合、過去に提示された前記補助情報に応じた他の補助情報の提示を行うことを決定する
請求項１０に記載の情報処理装置。
前記テレプレゼンスシステムにおいて、自分側の空間と相手側の空間とが、所定の狭間空間を介して繋がっているように、前記狭間空間と前記相手側の空間とが表示され、
前記補助処理部は、前記狭間空間に、前記コミュニケーションを補助するエージェントを表示する
請求項１に記載の情報処理装置。
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む
情報処理方法。
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部
として、コンピュータを機能させるためのプログラム。