JP2021071632A - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP2021071632A
JP2021071632A JP2019198779A JP2019198779A JP2021071632A JP 2021071632 A JP2021071632 A JP 2021071632A JP 2019198779 A JP2019198779 A JP 2019198779A JP 2019198779 A JP2019198779 A JP 2019198779A JP 2021071632 A JP2021071632 A JP 2021071632A
Authority
JP
Japan
Prior art keywords
user
information
communication
auxiliary
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019198779A
Other languages
English (en)
Inventor
祐介 阪井
Yusuke Sakai
祐介 阪井
忠道 下河原
Tadamichi Shimokawara
忠道 下河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2019198779A priority Critical patent/JP2021071632A/ja
Priority to US17/083,755 priority patent/US11412178B2/en
Publication of JP2021071632A publication Critical patent/JP2021071632A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】円滑なコミュニケーションを図る。【解決手段】複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、コミュニケーションを補助する補助処理を行う。本技術は、例えば、遠隔の地点を接続するテレプレゼンスシステムに適用することができる。【選択図】図3

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、例えば、円滑なコミュニケーションを図ることができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。
場面解析アルゴリズムに則り場面の変転を察するとともに、その変転に見合うよう撮影管理アルゴリズムに則り動画撮影セッティングを修正し、ローカル環境及びそこにいる人物の動画像の撮影、送信、表示又は録画動作に対しプライバシ保護セッティングを適用してその動作を管制する動画通信システムが提案されている(例えば、特許文献1を参照)。
また、異なるメーカや異なる機種の端末装置を接続でき、音声及び字幕付き画像の議事録作成を可能にするとともに該議事録作成に際して、会議参加者(話者)の言語を特定言語に限定する必要の無いテレビ会議システムが提案されている(例えば、特許文献2を参照)。
特表2010-529738号公報 特開2013-201505号公報
ところで、テレプレゼンスシステムは、遠隔地にいるユーザどうしが対面しているような感覚を享受することができるコミュニケーションのツールとして注目されている。
テレプレゼンスシステムについては、通常の認知機能を有するユーザのみならず、認知機能が衰えた高齢者等のユーザであっても、円滑なコミュニケーションを図ることができることが要請される。
本技術は、このような状況に鑑みてなされたものであり、円滑なコミュニケーションを図ることができるようにするものである。
本技術の情報処理装置、又は、プログラムは、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える情報処理装置、又は、そのような情報処理装置としてコンピュータを機能させるためのプログラムである。
本技術の情報処理方法は、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む情報処理方法である。
本技術においては、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理が行われる。
情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本技術を適用したテレプレゼンスシステムの一実施の形態の構成例を示す図である。 テレプレゼンス装置11Aの構成例を示すブロック図である。 信号処理部51の構成例を示すブロック図である。 テレプレゼンス装置11の使用例を説明する斜視図である。 テレプレゼンスシステム10の処理の例を説明するフローチャートである。 テレプレゼンスシステム10を用いたコミュニケーションの様子の例を示す図である。 テレプレゼンスシステム10を用いたコミュニケーションの様子の他の例を示す図である。 テレプレゼンスシステム10で表示される空間を説明する図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
<本技術を適用したテレプレゼンスシステム>
図1は、本技術を適用したテレプレゼンスシステムの一実施の形態の構成例を示す図である。
テレプレゼンスシステム10は、複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行う。
図1において、テレプレゼンスシステム10は、テレプレゼンス装置11A及び11B、並びに、サーバ12を有する。
テレプレゼンス装置11Aは、ある地点Aに配置され、地点Aにおいて、画像を撮影するとともに、音を集音し、地点Bのテレプレゼンス装置11Bに送信(伝送)する。
また、テレプレゼンス装置11Aは、テレプレゼンス装置11Bから送信される、そのテレプレゼンス装置11Bで撮影された画像、及び、集音された音を受信して提示する(画像を表示し、音を出力する)。これにより、テレプレゼンス装置11Aでは、例えば、地点Aの空間と地点Bの空間とが直接繋がっているかのように、地点Bの空間が表示される。
テレプレゼンス装置11Bは、地点Aと異なる地点Bに配置され、テレプレゼンス装置11Aと同様の処理を行う。
すなわち、テレプレゼンス装置11Bは、地点Bにおいて、画像を撮影するとともに、音を集音し、地点Aのテレプレゼンス装置11Aに送信する。
また、テレプレゼンス装置11Bは、テレプレゼンス装置11Aから送信される、そのテレプレゼンス装置11Aで撮影された画像、及び、集音された音を受信して提示する。これにより、テレプレゼンス装置11Bでは、例えば、地点Aの空間と地点Bの空間とが直接繋がっているかのように、地点Aの空間が表示される。
ここで、テレプレゼンス装置11A及び11Bを区別する必要がない場合、テレプレゼンス装置11とも記載する。
サーバ12は、必要に応じて、テレプレゼンス装置11の制御や、テレプレゼンス装置11が必要とする情報を、テレプレゼンス装置11に提供する。
なお、図1のテレプレゼンスシステム10では、地点AとBとの2地点で、画像及び音の双方向通信が行われるが、画像及び音の双方向通信は、地点A及びBの他、地点A及びBに、さらに他の地点Cを加えた3地点や、4地点以上で行うことができる。
以下では、説明を簡単にするため、テレプレゼンスシステム10は、地点AとBとの2地点で、画像及び音の双方向通信を行うこととする。
テレプレゼンスシステム10は、遠隔地の複数の地点としての、例えば、地点A及びBの画像及び音をリアルタイムでやりとりし、地点A及びBのユーザに、あたかも近接した空間にいるかのような感覚を享受させることで、インタラクティブな環境を提供する。
テレプレゼンスシステム10は、例えば、地点A及びBそれぞれのユーザどうしのインタラクションのコンテクストに応じて、コミュニケーションを補助する補助処理を行う。
補助処理では、例えば、ユーザどうしの会話を円滑にするための文字情報(見える情報)がリアルタイムで表示される。
ここで、例えば、高齢者住宅の入居者には認知症のある方も多く、会話を聞き取れないことが多い高齢者や、会話の文脈を読みとることが困難な高齢者等が存在する。このような高齢者のコミュニケーションを円滑にするために、テレプレゼンスシステム10は、例えば、ユーザの声や、表情、動作に合わせて、ユーザの発話内容に関する情報を、文字情報で、適宜効果を付して提示することで、会話をサポートする。
すなわち、高齢者住宅は、年齢や性別はもちろん、視力や聴力、言語理解力、状況認識、会話力等の様々な観点から、多様でバリエーションに富んだユーザが生活するダイバーシティな環境の1つである。かかるダイバーシティな環境において、テレプレゼンスシステム10は、会話等の通常の音声だけでなく、その内容等のコンテクスト(状態、状況)に応じた付加的な情報をユーザに提示することで、より快適で自然な会話等のコミュニケーションを促進する。
例えば、認知症のあるユーザをサポートする介護士にとって、コミュニケーションを円滑にするための話術は重要なスキルである。但し、認知症のあるユーザの対応に十分な時間がとれない現実がある。また、高齢者住宅の入居者としての高齢者どうしのコミュニケーションでは、人の好き嫌いが多く発生し、特に癖のある認知症の高齢者が仲間はずれになる可能性が高い。テレプレゼンスシステム10は、例えば、高齢者住宅の入居者としての高齢者とのコミュニケーション(つながり)を積極的に推進する役割を担う。
高齢者とのコミュニケーションを行う相手(対象)は、他の高齢者住宅の入居者は勿論、家族や地域の子供たち等のだれでも良い。テレプレゼンスシステム10では、高齢者のナラティブ情報等の高齢者に関する情報を事前に又は動的に入力すれば、高齢者とのコミュニケーションを行う相手が、その高齢者の情報を獲得し、スムーズに会話することができる。
ここで、既存のビデオ会議システムやビデオチャットアプリケーションは、基本的に会議や明確な議題を目的として開発され、それを利用する利用ユーザとして、仕事をするビジネスマンや、ITリテラシーの高い若年層を想定している。そのため、画像や音の調整その他の操作方法等については、おおよそ利用ユーザが同じような(健常者として平均的な)物事を把握する能力を有している前提で設計され、操作方法が複雑であることがある。
このようなビデオ会議システム等を、例えば、高齢者のコミュニケーションを促進するために、高齢者が生活する高齢者住宅に導入する場合、利用ユーザとしての高齢者のリテラシーや能力の多様性(リテラシーや能力の分布の広がり)が想定を超え、利用ユーザに必要な機能を提供することが困難となる。
例えば、ビデオ会議システム等の初期操作等は、高齢者住宅のスタッフ等が代表して行うことができる。しかしながら、ビデオ会議システム等では、高齢者において、相手側の画像が見えるか、音声が聞こえるか、相手側が分かるように、自分の表情やしぐさを身体的に表現できるか、音声を伝えられるか等といった点において十分な許容度を持った機能を提供することは困難である。例えば、視力や聴力が衰えた高齢者が、相手側のユーザの顔が見えないことや、発話が聞き取れないことがあり、また、自身の発話が相手側のユーザに聞こえているのか不安になることがある。
また、高齢者のユーザにおいて、特に視覚や聴覚等の認知機能が低下している場合や、認知症等が進行している場合、例えば、意思をうまく伝えられなかった、あるいは、相手の意思を正確に理解することができなかった等のコミュニケーションの失敗が生じやすい。かかるコミュニケーションの失敗は、コミュニケーションの意欲のさらなる低下を生み、ユーザのコミュニケーション能力が低下する悪循環を生じる。
テレプレゼンスシステム10では、ユーザの認識、ユーザに関する情報(個別情報)の参照、コンテクストに応じた最適なシステム設定、さらには、リアルタイムでの発話情報や動作情報の認識、キャプション(文字情報)の提示(表示)が行われる。
これにより、コミュニケーション試行の成功率を高めながら、たとえユーザの認知能力にギャップがある場合においても、ユーザ相互の意思を伝わりやすくし、コミュニケーションの楽しさや、親和的欲求の充足を生むことができる。さらに、コミュニケーション意欲を維持し、向上させることができる。
以上のように、テレプレゼンスシステム10は、既存のビデオ会議システム等が重視する目的志向でなく、日々の会話等の何気ないコミュニケーションを活性化することを志向するシステムである。
ここで、テレビジョン放送等では、アクセシビリティに配慮したキャプション機能が提供されているが、そのキャプション機能は、制作されたニュースや、番組、映画といった、インタラクティブ及びリアルタイムではない配信型のキャプション機能である。したがって、テレビジョン放送等のキャプション機能は、テレプレゼンスシステム10のように、リアルタイムで、かつ、様々な地点(拠点)間で並列して、インタラクティブな環境で実行される機能ではない。
Microsoft社のSkype forビジネスサービス等では、特定の会議において、同時通訳の担当者を介在することで、遠隔地間かつ異なる言語間での会議において、リアルタイムで、インタラクティブなキャプション(情報)を付加するサービスが実用化されている。しかしながら、Skype forビジネスサービス等では、人件費や自動翻訳AI等のコストが高く、常時、無目的に空間をつなぎ、コミュニケーションを促進するテレプレゼンスシステム10の適用を予定しているケースには、導入が難しい。
デジタルサイネージ装置等では、内蔵カメラで撮影を行って、ディスプレイの前に立ったユーザに対して、鏡像のような画像が表示される。さらに、デジタルサイネージ装置では、画像内のユーザの顔や身体、動き等を認識することで、ユーザにお面のようなかぶりものがVR/AR重畳され、あるいは、身ぶり手ぶりに応じて波や光が発生するような画像効果が付加される。しかしながら、デジタルサイネージ装置等は、テレプレゼンスシステム10のように、遠隔地どうしの間で双方向のやりとりが行われる装置ではない。
ビデオチャット用カメラの付属アプリケーションとして、デジタルサイネージ装置のような画像効果を双方向で提示するアプリケーションがある。付属アプリケーションが提供する機能は、派手な視覚効果のパターンをユーザに選択させる機能である。そして、付属アプリケーションが提供する機能は、テレプレゼンスシステム10のように通常のコミュニケーションに支障のある高齢者や障害者の支援、及び、認知能力のギャップを補完する目的で設計されてはいない。
テレプレゼンスシステム10は、遠隔地のユーザどうしを、あたかも同じ空間にいるかのようにつないで自然なコミュニケーションを図るシステムであり、例えば、高齢者住宅のような空間を常時接続する。
例えば、テレプレゼンスシステム10において、地点Aのユーザは、地点Aに配置されたテレプレゼンス装置11Aによって、遠隔地の地点Bの空間を視認するとともに、地点Bの声や物音を聞くことができる。同様に、地点Bのユーザは、地点Bに配置されたテレプレゼンス装置11Bによって、遠隔地の地点Aの空間を視認するとともに、地点Aの声や物音を聞くことができる。
これにより、地点A及びBのユーザは、あたかも近接した空間にいるかのような感覚を享受することができる。
テレプレゼンスシステム10は、高齢者や障害者等の認知能力の多様性が高い空間において特に有用である。但し、テレプレゼンスシステム10は、そのような空間以外の、例えば、一般的なオフィスや、公共施設、家庭等に適用することができる。
<テレプレゼンス装置11Aの構成例>
図2は、テレプレゼンス装置11Aの構成例を示すブロック図である。
なお、テレプレゼンス装置11Bも、図2のテレプレゼンス装置11Aと同様に構成される。
テレプレゼンス装置11Aは、入力装置21、出力装置22、及び、信号処理装置23を有する。
入力装置21は、情報(物理量)をセンシングし、信号処理装置23に供給する。図2では、入力装置21は、マイク31、カメラ32、及び、センサ33を有する。
マイク31は、音を集音(センシング)し、信号処理装置23に供給する。カメラ32は、画像を撮影し(光をセンシングし)、信号処理装置23に供給する。センサ33は、例えば、ユーザの体温や、発汗量、血圧、心拍数等の生体情報、その他、周囲の温度や距離等の物理量をセンシングし、信号処理装置23に供給する。センサ33がセンシングする物理量は、特に限定されるものではない。
出力装置22は、信号処理装置23の制御に従い、各種の出力を行う。図2では、出力装置22は、スピーカ41、ディスプレイ42、及び、アクチュエータ43を有する。
スピーカ41及びディスプレイ42は、情報を提示する。スピーカ41は、情報を音で出力する。ディスプレイ42は、情報を画像で表示する。アクチュエータ43は、例えば、振動する。アクチュエータ43としては、振動するアクチュエータの他、温度を調整するアクチュエータや、匂いや風等を発生させるアクチュエータ、その他の任意のアクチュエータを採用することができる。
ここで、図2では、マイク31ないしセンサ33、及び、スピーカ41ないしアクチュエータ43が1つずつ図示されているが、マイク31ないしセンサ33、及び、スピーカ41ないしアクチュエータ43それぞれは、適宜、複数設けることができる。
信号処理装置23は、入力装置21から供給される情報に必要な処理を施し、必要に応じて、他のテレプレゼンス装置としての、例えば、テレプレゼンス装置11Bに送信する。また、信号処理装置23は、他のテレプレゼンス装置としての、例えば、テレプレゼンス装置11Bから送信されてくる情報を受信し、必要な処理を施して、必要に応じて、出力装置22に出力させる。
信号処理装置23は、信号処理部51、通信部52、及び、記録部53を有する。
信号処理部51は、入力装置21のマイク31及びカメラ32からそれぞれ供給される音及び画像に必要な処理を施し、通信部52に供給する。
また、信号処理部51は、通信部52から供給される、テレプレゼンス装置11Bからの音及び画像に必要な処理を施し、その音及び画像を、出力装置22のスピーカ及びディスプレイ42にそれぞれ提示させる。すなわち、信号処理部51は、音を、スピーカ41から出力させ、画像を、ディスプレイ42に表示させる。
さらに、信号処理部51は、入力装置21のカメラ32からの画像に映るユーザの認識や、地点A及びBそれぞれのユーザどうしのインタラクションのコンテクストの認識を行う。
また、信号処理部51は、ユーザの認識結果や、インタラクションのコンテクストの認識結果に応じて、地点A及びBそれぞれのユーザどうしのコミュニケーションを補助する補助処理を行う。
通信部52は、サーバ12や、テレプレゼンス装置11Bとの間で通信を行う。例えば、通信部52は、信号処理部51から供給される音及び画像を、テレプレゼンス装置11Bに送信する。また、例えば、通信部52は、テレプレゼンス装置11Bから送信されてくる音及び画像を受信し、信号処理部51に供給する。
記録部53は、各種の情報を記録する。例えば、記録部53は、信号処理部51や通信部52で扱われる情報や、テレプレゼンス装置11Aの外部から入力される情報等を記録する。記録部53に記録された情報は、信号処理部51の処理等に用いることができる。
テレプレゼンス装置11Aでは、信号処理部51が、テレプレゼンス装置11Aを利用するユーザについて、カメラ32で撮影した画像を用いた顔認識を、必要に応じて、センサ33の出力を併用して行うことで、ユーザの個人認識を行う。これにより、信号処理部51は、テレプレゼンス装置11Aを利用するユーザを特定する。テレプレゼンス装置11Aを利用するユーザとは、例えば、テレプレゼンス装置11Aに接近しているユーザである。
記録部53には、ユーザの情報の1つとして、ユーザの特性情報が記録される。信号処理部51は、記録部53に記録された特性情報のうちの、個人認識により特定されたユーザの特性情報を参照し、その特性情報に応じた補助処理を行う。
ユーザの特性情報には、例えば、ユーザの視力(分解能、視野、色感度、明るさ感度等)や、聴力(分解能、ゲイン、周波数特性等)、言語理解力(言語、語彙、聞き取り力等)、知識、ジャンル、認知能力(認知症レベル、症状等)、趣味、特技、人生情報(出身、キャリア、専門等)等の情報が含まれる。
テレプレゼンス装置11Aでは、ユーザのテレプレゼンスシステム10の利用時に、例えば、ログ情報(利用状況、過去のポジティブ/ネガティブなコミュニケーションの事例等)、住人や知人とのコミュニケーション相関情報(相性、共通の話題、要素、以前の交流ログ)等が、記録部53に動的に記録される。特性情報には、このようにして記録部53に動的に記録されたログ情報やコミュニケーション相関情報等も含まれる。
信号処理部51は、ユーザのテレプレゼンスシステム10の利用時に、入力装置21から供給される情報(マイク31で集音された音(音声)、カメラ32で撮影された画像、センサ33の生体情報のセンシング結果)から、リアルタイムでユーザの状態や、周辺空間の状況等のコンテクストの認識を行う。信号処理部51は、コンテクストの認識により、例えば、ユーザが何かを話したがっている、誰かを呼びたがっているといったことや、楽しんでいる、不安に思っている、怒っている、相手の声が聞こえにくい、相手の話や、状況がよく把握できないでいるといった、実際の介護士が気配りして認知しているユーザの感情や心理状態等の情報を解析し収集する。
<信号処理部51の構成例>
図3は、信号処理部51の構成例を示すブロック図である。
信号処理部51は、ユーザ認識部61、コンテクスト認識部、及び、補助処理部63を有する。
ユーザ認識部61は、カメラ32で撮影されたユーザを個人認識する。
コンテクスト認識部62は、テレプレゼンスシステム10における各地点のユーザどうしのインタラクションのコンテクスト(以下、インタラクションコンテクストともいう)を認識する。例えば、コンテクスト認識部62は、ユーザ認識部61で認識されたユーザの状態や、そのユーザが過去に行った会話の文脈、そのユーザが現在行っている会話の文脈等の少なくとも1以上を、インタラクションコンテクストとして認識する。
補助処理部63は、コンテクスト認識部62で認識されたインタラクションコンテクスト等に応じて、異なる地点のユーザどうしのコミュニケーションを補助する補助処理を行う。
<テレプレゼンス装置11の使用例>
図4は、テレプレゼンス装置11の使用例を説明する斜視図である。
テレプレゼンス装置11は、入力装置21を構成するマイク31、カメラ32、及び、センサ33、出力装置22を構成するスピーカ41、ディスプレイ42、及び、アクチュエータ43、並びに、信号処理装置23を含む。
なお、図4では、センサ33の図示は省略されている。また、図4では、マイク31とカメラ32とが一体的に構成される。
テレプレゼンス装置11は、遠隔地にいるユーザ、例えば、地点Aにいるユーザと地点Bにいるユーザとが近接しているようなコミュニケーション体験を提供することができる。
ここで、以下、適宜、図4に示すディスプレイ42の手前に居るユーザ側を自分側と称し、ディスプレイ42に映し出されているユーザ側を相手側と称する。例えば、自分側のテレプレゼンス装置11が、地点Aのテレプレゼンス装置11Aであるとすると、相手側のテレプレゼンス装置11は、例えば、地点Bのテレプレゼンス装置11Bである。
スピーカ41は、相手側のテレプレゼンス装置11から送信されてくる音を出力する。ディスプレイ42は、相手側のテレプレゼンス装置11から送信されてくる画像を表示し、相手側の空間を画面に映し出す。
一方、マイク31は、自分側の音を集音する。カメラ32は、自分側の空間を撮影する。マイク31で集音された音、及び、カメラ32で撮影された画像は、相手側のテレプレゼンス装置11に送信され、自分側のテレプレゼンス装置11と同様に提示される。
テレプレゼンス装置11では、例えば、相手側の音(相手側のテレプレゼンス装置11から送信されてくる音)が、スピーカ41から出力される他、必要に応じて、ディスプレイ42に文字情報で表示される。
例えば、ディスプレイ42に映る相手側のユーザの発話内容の文字情報(キャプション)が、その相手側のユーザが発したことを表す吹き出しとともに表示される。
したがって、自分側のユーザは、聴力が弱くても、ディスプレイ42に表示された吹き出し付きの文字情報を見ることで、発話した相手側のユーザや、発話内容を認識(認知)することができる。
補助処理部63は、以上のような、相手側のユーザの発話内容の文字情報を表示する等の、ユーザどうしのコミュニケーションを補助する補助処理を行う。補助処理は、ユーザ認識部61で個人認識されたユーザや、コンテクスト認識部62で認識されたインタラクションコンテクスト等に応じて行うことができる。
補助処理では、例えば、ユーザの発話内容に関する情報を、文字情報(言語)で提示することができる。文字情報の提示は、ディスプレイ42に画像で表示(キャプション表示)しても良いし、スピーカ41から音声で出力しても良い。
例えば、補助処理では、ユーザの発話を音声認識し、音声認識により得られるユーザの発話としての文字情報を、そのまま提示することができる。
文字情報の提示は、例えば、インタラクションコンテクストとしてのユーザの発話の文脈から、ユーザの発話において不足している情報(主語や目的語等)を、ユーザの発話としての文字情報に補足して行うことができる。
また、文字情報の提示をキャプション表示で行う場合には、例えば、インタラクションコンテクストとしての発話しているユーザの感情や抑揚等のユーザの状態に応じて、文字の大きさや色を変更することで、文字情報の一部又は全部を強調表示することができる。
ユーザの発話内容に関する情報は、発話内容から認識されるインタラクションコンテクスト(会話の文脈等)に基づいて推定される、ユーザの会話を補助する補助情報を含む。
補助情報は、会話のきっかけとなる情報を含む。会話のきっかけとなる情報とは、会話の主題(お題)や、会話のきっかけとなる質問(「あなたの昔話を教えて」等)、会話のきっかけとなる音楽(広く知られている民謡等)等である。
補助情報の提示では、会話(ユーザの発話)が滞ったというインタラクションコンテクストに応じて、会話の主題(お題)を表示することや、会話のきっかけとなる質問を表示すること、会話のきっかけとなる音楽を流すことができる。
補助処理部63では、インタラクションコンテクストを評価し、そのインタラクションコンテクストの評価に応じて、行う補助処理を決定することができる。
例えば、過去に提示された補助情報としての会話のお題によって、会話が盛り上がったというインタラクションコンテクストの評価が得られた場合、過去に提示されたお題に応じた他のお題(他の補助情報)の提示を、行う補助処理に決定することができる。過去に提示されたお題に応じた他のお題とは、過去に提示されたお題と同一のお題や、過去に提示されたお題と観念的に類似するお題を意味する。
補助処理では、その他、例えば、個人認識されたユーザの人生に関する人生情報(経歴、趣味、特技、出身地等)を表示することや、会話を行うユーザどうしに共通する要素や話題を提示することができる。
また、補助処理では、個人認識されたユーザが認知しづらい又はできない情報について、情報を強化すること、又は、情報を変換することができる。情報の強化とは、例えば、聴力が低いユーザに対して、ユーザが聞き取りやすいように音量を上げることや、音声の周波数特性を調整することを意味する。情報の変換とは、例えば、目が見えないユーザに対して、物体の名称を音声に変換して出力することや、聞こえないユーザに対して、情報を振動等の触覚で感じることができる触覚刺激手段に変換して出力することを意味する。
さらに、ディスプレイ42に表示されている相手側のユーザが、自分側のユーザに気づいていない場合、相手側のテレプレゼンス装置11において、相手側のユーザが、自分側のユーザに注意を向けるような処理を補助処理として行うことができる。例えば、チャイムのような音を鳴らすことや、相手側のユーザを認識し、そのユーザの名前を音声で出力することができる。
また、補助処理では、自分側のユーザが、ディスプレイ42の相手側のユーザの表示領域にタッチした場合、相手側のテレプレゼンス装置11において、相手側のユーザを認識し、そのユーザの名前を音声で出力することや、相手側のユーザに呼びかけるような特定の音声を出力することができる。相手側のユーザが振動可能なデバイスを装着している場合には、相手側のテレプレゼンス装置11において、相手側のユーザが装着しているデバイスを振動させること等で、相手側のユーザの方を軽くたたいて呼び止めるようなことを行うことができる。
さらに、補助処理では、ディスプレイ42に表示されている範囲内の音や、会話を行っているユーザの音声に限定して、スピーカ41から出力することができる。また、ディスプレイ42に表示されている範囲内の音や、会話を行っているユーザの音声を強調して、スピーカ41から出力することができる。テレプレゼンス装置11においては、音を広範囲に収音して伝送することができるが、高齢者にとって、ディスプレイ42に表示されていない範囲から発される音にとまどうことがある。上述のような音声等の限定、又は、強調を行うことで、ディスプレイ42に表示されていない範囲から発される音にとまどうことを防止することができる。
また、補助処理では、会話が盛り上がってきた場合、ディスプレイ42に表示される画像について、会話に参加しているユーザの領域にフォーカスし、会話との関連性の低い領域、例えば、会話に参加していないユーザの領域をぼかすことができる。大画面のディスプレイ42に、相手側の(地点の)空間が広範囲に映る画像が表示される場合、自分側のユーザが、そのような画像のどこを注視すべきであるかが分からなくなることがあり得る。上述のように、会話に参加しているユーザの領域にフォーカスし、会話との関連性の低い領域をぼかすことで、ディスプレイ42に表示される画像のどこを注視すべきであるかが分からなくなることを抑制することができる。
さらに、補助処理では、例えば、自分側のユーザとして、高齢者が存在し、相手側のユーザとして、子供が存在する場合において、自分側のユーザとしての高齢者が、相手側のユーザとしての子供に対して、お年玉をあげるような行動をとったときに、自分側のテレプレゼンス装置11において、自分側の高齢者が所持するICカード等から電子マネーを引き出し、相手側のテレプレゼンス装置11において、相手側の子供が所持するICカード等に、自分側の高齢者が所持するICカード等から引き出した電子マネーを、いわばデジタルお年玉としてチャージすることができる。この場合、高齢者と子供との間での世代間コミュニケーションを促進することができる。
また、補助処理では、例えば、自分側の地点に駄菓子屋が併設され、相手側の地点に駄菓子を収容した駄菓子ボックスが配置されている場合において、自分側の高齢者が、駄菓子屋から駄菓子を買って、相手側の子供に対して、駄菓子を渡すような行動をとったときに、相手側のテレプレゼンス装置11において、自分側の高齢者が渡した駄菓子を認識し、その駄菓子と同一の駄菓子を、駄菓子ボックスから排出し、相手側の子供に渡すことができる。この場合、自分側の高齢者と相手側の子供とは、駄菓子を一緒に食べる等の世代間コミュニケーションを促進することができる。なお、自分側のテレプレゼンス装置11において、駄菓子は、相手側の子供に対して配送されるように、ネットショップに注文することができる。
さらに、補助処理では、複数のマイク31を用いたビームフォーミングにより発話を行っているユーザの音声を抽出する音源分離を行い、そのユーザの音声の音声認識を行って、ユーザの発話を、漫画の吹き出しのように表示することができる。
テレプレゼンス装置11では、自分側の空間(地点)と相手側の空間とが直接繋がっているかのように、相手側の空間を、ディスプレイ42に表示することができる。さらに、テレプレゼンス装置11では、自分側の空間と相手側の空間とが、任意の空間である狭間空間を介して繋がっているように、その狭間空間と相手側の空間とを、ディスプレイ42に表示することができる。狭間空間は、実際に存在する空間であっても良いし、実際には存在しない仮想的な空間(空想上の空間)であっても良い。
狭間空間には、コミュニケーションを補助する補助オブジェクトを配置(表示)することを、補助処理として行うことができる。
補助オブジェクトとしては、例えば、ゲームの要素があるオブジェクトを採用することができる。ゲームの要素があるオブジェクトとは、例えば、将棋やボードゲーム等のゲームや、自分側のユーザと相手側のユーザとが共同で作業することができるお絵かきやパズル等の共同作業ツールである。その他、補助オブジェクトとしては、例えば、自分側のユーザと相手側のユーザとのコミュニケーションを補助するエージェント、例えば、話題を提供するエージェント等を採用することができる。
自分側又は相手側において、会話等のコミュニケーションに参加するユーザが複数のユーザである場合においては、補助処理では、その複数のユーザ個々の認知能力のデータ、パラメータ等に基づいて、可能なかぎり、複数のユーザの認知が全体として快適となるように、スピーカ41の出力音の音量や、音質、音源位置、及び、ディスプレイ42に表示される画像の明るさや、画質、明瞭度(ぼかし)、ディスプレイ42に映る相手側の空間の範囲等を、適切に調整することができる。
スピーカ41の出力音の音源位置の調整は、例えば、波面合成により行うことができる。その他、スピーカ41の出力音の音源位置の調整としては、スピーカ41がユーザの手元に置くことができる、いわゆる手元スピーカである場合には、スピーカ41としての手元スピーカの適切なレイアウトの算出、及び、表示を行うことができる。
スピーカ41の出力音、及び、ディスプレイ42に表示される画像について、十分な調整ができない場合、十分な調整ができないことに起因して生じるユーザの状態を可視化することができる。例えば、「Aさんは、やや聴こえづらい」、「Bさんは、補聴器で音が歪む」、「Cさんは、相手側のユーザが見えづらい」等のユーザの状態(状況)を表示することができる。相手側のユーザの状態が表示された場合、自分側のユーザが、相手側のユーザの状態に応じて、発話を行うことや、位置を移動すること等によって、相手側のユーザが認知しやすいコミュニケーションをとることができる。
テレプレゼンス装置11が、波面合成により任意の場所に音源の位置を調整する機能を有する場合には、その機能を利用して、各ユーザに適切な音場、例えば、ユーザにとって音声が聞きやすい音場を形成することができる。また、複数のマイク31を分散して適切な位置に配置し、エコーキャンセル技術をチューニングして、複数のマイク31で集音される音声から、高音質の音声を生成することができる。
<テレプレゼンスシステム10の処理>
図5は、テレプレゼンスシステム10の処理の例を説明するフローチャートである。
すなわち、図5は、地点Aのテレプレゼンス装置11Aと、地点Bのテレプレゼンス装置11Bとで、画像及び音の双方向通信が行われる場合のテレプレゼンス装置11A及び11Bの処理の例を説明するフローチャートである。
ステップS11において、テレプレゼンス装置11Aは、テレプレゼンス装置11Bに接続を要求する。
ステップS31において、テレプレゼンス装置11Bは、テレプレゼンス装置11Aからの接続の要求を受け入れる。
ステップS12において、テレプレゼンス装置11Aは、テレプレゼンス装置11Bとの接続を確立する。
ステップS32において、テレプレゼンス装置11Bは、テレプレゼンス装置11Aとの接続を確立する。
以上のように、テレプレゼンス装置11A及び11Bの接続の確立後、テレプレゼンス装置11A及び11Bの間で、リアルタイムでの画像及び音の双方向通信が開始される。
ステップS13では、テレプレゼンス装置11Aは、地点Aのユーザの認識、及び、インタラクションコンテクストの認識を開始する。そして、テレプレゼンス装置11Aは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果を、必要に応じて、テレプレゼンス装置11B及びサーバ12に送信する。
ステップS33では、テレプレゼンス装置11Bは、地点Bのユーザの認識、及び、インタラクションコンテクストの認識を開始する。そして、テレプレゼンス装置11Bは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果を、必要に応じて、テレプレゼンス装置11A及びサーバ12に送信する。
以上により、テレプレゼンス装置11A及び11Bでは、ユーザの認識結果、及び、インタラクションコンテクストの認識結果の共有が開始される。
ステップS14において、テレプレゼンス装置11Aは、認識されたユーザの特性情報、及び、インタラクションコンテクストに応じて、地点A及びBのユーザ相互の基本的コミュニケーションの質を評価し、その評価に応じて、補助処理を行う。
コミュニケーションの質とは、ユーザが快適にコミュニケーションをとれているか、コミュニケーションによって楽しめているか等といったコミュニケーションがどのようであるかの規定である。基本的コミュニケーションの質は、遠隔地のユーザがテレプレゼンスシステム10を用いてコミュニケーションをとる場合の、そのコミュニケーションの媒介となる画像及び音の、ユーザにとっての質を表す。例えば、基本的コミュニケーションの質は、ユーザにとっての画像の見やすさ(見にくさ)や、音の聞きやすさ(聞きにくさ)等の程度を表す。
基本的コミュニケーションの質の評価に応じた補助処理としては、例えば、テレプレゼンス装置11Aの設定の最適化、文字情報の表示制御、ユーザの状態の表示等がある。
テレプレゼンス装置11Aの設定の最適化では、基本的コミュニケーションの質として、必要な質が充足されるように、ユーザの特性情報に合わせて、テレプレゼンス装置11Aから出力される音の音量や、音質、音源位置、テレプレゼンス装置11Aで表示される画像の明るさ等の調整が行われる。テレプレゼンス装置11Aの設定の最適化では、テレプレゼンス装置11Aの設定が、地点Aのユーザ全体にとって、より適切な設定になるように行われる。
なお、可能であれば、カメラ32及びディスプレイ42等を配置する場所(位置)や、高さ、向き等についても、ユーザ全体にとって、より適切になるように調整することができる。すなわち、例えば、ディスプレイ42に、そのような調整を促すメッセージ等を表示し、ユーザに、そのような調整を行ってもらうことができる。
文字情報の表示制御では、例えば、ユーザの発話の文字情報としてのキャプションの表示制御が行われる。キャプションの表示制御では、キャプションの表示位置や、大きさ、明るさ、色等の制御が行われる。
ユーザの状態の表示では、テレプレゼンス装置11Aの設定の最適化が行われた後、その設定でのユーザの状態(状況)が表示される。例えば、テレプレゼンス装置11Aにおいて、「△△さんは音が聞こえにくい」や、「〇〇さんは画像が見えづらい」等といったユーザの状態(ステータス)が、ディスプレイ42に表示される。
ステップS15において、テレプレゼンス装置11Aは、基本的コミュニケーションの質として、必要な質(あらかじめ決められた質)が充足されたかどうかを判定する。
ステップS15において、基本的コミュニケーションの質として、必要な質が充足されていないと判定された場合、処理は、ステップS14に戻り、同様の処理が繰り返される。
また、ステップS15において、基本的コミュニケーションの質として、必要な質が充足されたと判定された場合、処理は、ステップS16に進む。
ステップS16では、テレプレゼンス装置11Aは、認識されたユーザの特性情報、及び、インタラクションコンテクストに応じて、地点A及びBのユーザ相互の発展的コミュニケーションの質を評価し、その評価に応じて、補助処理を行う。
発展的コミュニケーションの質は、ユーザがコミュニケーションを楽しめている程度を表す。例えば、ユーザが相手との会話やボディランゲージ等によりコミュニケーションを楽しめているか、ユーザが、テンポ良く反応して、インタラクティブ(双方向)にやり取りができているかといったことが、入力装置21でセンシングされた情報から認識され、発展的コミュニケーションの質が評価される。
発展的コミュニケーションの質の評価に応じた補助処理としては、例えば、会話を活性化する話題(いわゆるネタ)の提供や、コミュニケーションを行うモチベーションを向上させる文字情報の提供等がある。
例えば、コミュニケーションを行うモチベーションを向上させる文字情報の提供では、テレプレゼンス装置11Aは、インタラクションコンテクストの認識として、ユーザの感情や意図の推定を行い、その感情や意図に応じて、ユーザの発話の文字情報としてのキャプションの表示を変化させることができる。例えば、キャプションの一部又は全部を強調することや、キャプションに、発話の意味内容を補完する語句や文章等を追加することができる。
なお、ステップS14及びステップS16は、並列して行うことができる。
ステップS17において、テレプレゼンス装置11Aは、発展的コミュニケーションの質として、必要な質(あらかじめ決められた質)が充足されたかどうかを判定する。
ステップS17において、発展的コミュニケーションの質として、必要な質が充足されていないと判定された場合、処理は、ステップS16に戻り、同様の処理が繰り返される。
また、ステップS17において、発展的コミュニケーションの質として、必要な質が充足されたと判定された場合、処理は、ステップS18に進む。
ステップS18では、テレプレゼンス装置11Aは、テレプレゼンス装置11Bとの接続を切断するように、操作が行われたかどうかを判定し、行われていないと判定した場合、処理は、ステップS17に戻る。
また、ステップS18において、テレプレゼンス装置11Bとの接続を切断するように、操作が行われたと判定された場合、処理は、ステップS19に進む。
ステップS19では、テレプレゼンス装置11Aは、テレプレゼンス装置11Bに接続の切断を要求する。そして、テレプレゼンス装置11Aは、テレプレゼンス装置11Bとの接続を切断し、処理は終了する。
一方、テレプレゼンス装置11Bは、ステップS34ないしS37において、ステップS14ないしS17とそれぞれ同様の処理を行う。
そして、ステップS38において、テレプレゼンス装置11Bは、テレプレゼンス装置11Aから、テレプレゼンス装置11Aとの接続を切断する要求があったかどうかを判定し、なかったと判定した場合、処理は、ステップS37に戻る。
また、ステップS38において、テレプレゼンス装置11Aとの接続を切断する要求があったと判定された場合、処理は、ステップS39に進む。
ステップS39では、テレプレゼンス装置11Bは、テレプレゼンス装置11Aからの接続の切断の要求を受け入れ、テレプレゼンス装置11Aとの接続を切断し、処理は終了する。
図6は、テレプレゼンスシステム10を用いたコミュニケーションの様子の例を示す図である。
なお、図6において、スピーカ41A及びディスプレイ42Aは、地点Aのテレプレゼンス装置11Aのスピーカ41及びディスプレイ42をそれぞれ表す。スピーカ41B及びディスプレイ42Bは、地点Bのテレプレゼンス装置11Bのスピーカ41及びディスプレイ42をそれぞれ表す。後述する図7及び図8でも、同様である。
図6では、テレプレゼンス装置11Aで撮影された地点AのユーザUAが、テレプレゼンス装置11Bのディスプレイ42Bに表示されている。さらに、テレプレゼンス装置11Bで撮影された地点BのユーザUBが、テレプレゼンス装置11Aのディスプレイ42Aに表示されている。そして、地点AのユーザUAが、地点BのユーザUBとのコミュニケーションを開始しようとして、話しかける発話「こんにちは」を行っている。
この場合、地点Bのスピーカ41Bにおいて、ユーザUAの発話「こんにちは」が、音声で出力される。同時に、地点Bのディスプレイ42Bにおいて、ユーザUAの発話「こんにちは」のキャプション(文字情報)「こんにちは」が、ユーザUAが発話を行っているかのような吹き出し内に表示される。
地点AのユーザUAの発話「こんにちは」に対して、地点BのユーザUBが、発話「あ、どうも」によって応えると、地点Aのスピーカ41Aにおいて、ユーザUBが応えた発話「あ、どうも」が、音声で出力される。同時に、地点Aのディスプレイ42Aにおいて、ユーザUBの発話「あ、どうも」のキャプション「あ、どうも」が、ユーザUBのユーザが発話を行っているかのような吹き出し内に表示される。
ユーザUA及びUBは、以上のように、音声の他、キャプションによって、相手の発話を確認することができる。
例えば、その後のユーザUA及びUBの会話では、インタラクションコンテクストから得られるユーザの感情等に応じて、そのユーザの発話のキャプションの一部又は全部を、ユーザの感情が伝わるように強調して表示することができる。これにより、円滑なコミュニケーションを図ることができる。
ここで、会話において、耳が聞こえにくいユーザは、例えば、自分の声が、相手側に届いているか、又は、適正な大きさか、といったことが気になることがある。
そこで、ディスプレイ42において、ユーザの声の音量を表すボリュームUIや、相手側のユーザの反応又は傾聴状態を表す状態UIを表示することを、補助処理として行うことができる。
図6では、ディスプレイ42Aにおいて、ボリュームUI111及び状態UI112が表示されている。
ユーザUAは、ボリュームUI111を参照することで、自分の声の音量がどの程度の音量であるかを確認することができる。また、ユーザUAは、状態UI112を参照することで、相手側のユーザUBが自分に気づいているかどうかを確認することができる。
人は、相手に話しかけたときに、反応がない(無視される)と、話しかけることに自信をなくし、コミュニケーションをとろうとするモチベーションが低下することがある。一方、話しかけられた相手は、話しかけられた声が小さかったために、話しかけられたことに気がつかず、意図せず無視する結果になることがある。
ボリュームUI111及び状態UI112によれば、例えば、声が小さかったために、相手が話しかけられたことに気がついていないことを確認することができ、相手の反応がないことの理由を把握することができる。その結果、話しかけることに自信をなくすことを抑制することができる。
また、ボリュームUI111及び状態UI112によれば、例えば、声が適切な大きさであり、そのような声で話しかけたことによって、相手が気がつくことを確認することができる。その結果、話しかけることへの自信をつけ、コミュニケーションをとろうとするモチベーションを向上させることができる。
図7は、テレプレゼンスシステム10を用いたコミュニケーションの様子の他の例を示す図である。
図7では、地点BのユーザUBが、ディスプレイ42Bの前を通り過ぎようとしており、地点Aのディスプレイ42Aにおいて、その様子が映っている。
ディスプレイ42Aに映る、ディスプレイ42Bの前を通り過ぎようとしているユーザUBに気がついた地点AのユーザUAが、ユーザUBとコミュニケーションをとろうとする場合、ユーザUAは、ディスプレイ42Aに表示されたユーザUB(の表示領域)に、実際にユーザUBに呼びかけるかのようにタッチすることができる。
ユーザUAが、ディスプレイ42Aに表示されたユーザUBにタッチすると、地点Aのテレプレゼンス装置11Aから地点Bのテレプレゼンス装置11Bにタッチの情報が送信される。この場合、地点Bのテレプレゼンス装置11Bでは、スピーカ41Bから、ユーザUBに呼びかける音声(例えば、「UBさん。UAさんが呼んでいます」)が出力される。
さらに、ユーザUBが、振動する腕時計等のウエアラブルデバイス121を装着している場合には、テレプレゼンス装置11Bは、ユーザUBが装着しているウエアラブルデバイス121を振動させる。
これにより、ユーザUBは、ユーザUA(の呼びかけ)に気がつき、コミュニケーションを開始することができる。
図8は、テレプレゼンスシステム10で表示される空間を説明する図である。
テレプレゼンス装置11では、図8のAに示すように、地点A(の空間)と地点Bとが直接繋がっているかのように、相手側の空間を、ディスプレイ42に表示することができる。
また、テレプレゼンス装置11では、図8のBに示すように、地点Aと地点Bとが、狭間空間を介して繋がっているように、その狭間空間と相手側の空間とを、ディスプレイ42に表示することができる。
狭間空間には、コミュニケーションを補助する補助オブジェクトとしての、例えば、エージェントを配置(表示)することを、補助処理として行うことができる。図8では、犬を模したエージェントが、狭間空間に配置されており、このエージェントの存在や行動を話題として、地点Aのユーザと地点Bのユーザとのコミュニケーションを促進することができる。
また、エージェントは、例えば、地点AのユーザUAと地点BのユーザUBとのコミュニケーションにおいて、ユーザUAとUBとが過去に行った会話や現在行っている会話の文脈等のインタラクションコンテクストに応じて、話題を、適切なタイミングで提示する等の補助処理を行うことができる。
以上のように、インタラクションコンテクストに応じて、コミュニケーションを補助する補助処理を行うことにより、円滑なコミュニケーションを図ることができる。
なお、テレプレゼンス装置11が行う処理の一部は、サーバ12で行うことができる。
<本技術を適用したコンピュータの説明>
次に、上述した信号処理装置23の一連の処理は、ハードウエアにより行うこともできるし、ソフトウエアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウエアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
図9は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク905やROM903に予め記録しておくことができる。
あるいはまた、プログラムは、ドライブ909によって駆動されるリムーバブル記録媒体911に格納(記録)しておくことができる。このようなリムーバブル記録媒体911は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体911としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体911からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク905にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、デジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)902を内蔵しており、CPU902には、バス901を介して、入出力インタフェース910が接続されている。
CPU902は、入出力インタフェース910を介して、ユーザによって、入力部907が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)903に格納されているプログラムを実行する。あるいは、CPU902は、ハードディスク905に格納されたプログラムを、RAM(Random Access Memory)904にロードして実行する。
これにより、CPU902は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU902は、その処理結果を、必要に応じて、例えば、入出力インタフェース910を介して、出力部906から出力、あるいは、通信部908から送信、さらには、ハードディスク905に記録等させる。
なお、入力部907は、キーボードや、マウス、マイク等で構成される。また、出力部906は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
なお、本技術は、以下の構成をとることができる。
<1>
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える
情報処理装置。
<2>
前記コンテクストを認識するコンテクスト認識部をさらに備える
<1>に記載の情報処理装置。
<3>
前記コンテクスト認識部は、前記ユーザの状態を認識する
<2>に記載の情報処理装置。
<4>
前記コンテクスト認識部は、前記ユーザが過去に行った会話の文脈、及び、前記ユーザが現在行っている会話の文脈の1以上を認識する
<2>又は<3>に記載の情報処理装置。
<5>
前記補助処理部は、前記ユーザの発話内容に関する情報を、文字情報で提示する
<1>ないし<4>のいずれかに記載の情報処理装置。
<6>
前記補助処理部は、前記文字情報を表示し、又は、音声で出力する
<5>に記載の情報処理装置。
<7>
前記ユーザの発話内容に関する情報は、前記発話内容から認識される前記コンテクストに基づいて推定される、会話を補助する補助情報を含む
<5>又は<6>に記載の情報処理装置。
<8>
前記補助情報は、会話のきっかけとなる情報を含む
<7>に記載の情報処理装置。
<9>
前記補助処理部は、前記コンテクストを評価し、前記コンテクストの評価に応じて、行う補助処理を決定する
<5>ないし<8>のいずれかに記載の情報処理装置。
<10>
前記補助処理部は、過去に提示された、会話を補助する補助情報によって、会話が盛り上がったかどうかを評価する
<9>に記載の情報処理装置。
<11>
前記補助処理部は、過去に提示された前記補助情報によって、会話が盛り上がった場合、過去に提示された前記補助情報に応じた他の補助情報の提示を行うことを決定する
<10>に記載の情報処理装置。
<12>
前記テレプレゼンスシステムにおいて、自分側の空間と相手側の空間とが、所定の狭間空間を介して繋がっているように、前記狭間空間と前記相手側の空間とが表示され、
前記補助処理部は、前記狭間空間に、前記コミュニケーションを補助するエージェントを表示する
<1>ないし<11>のいずれかに記載の情報処理装置。
<13>
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む
情報処理方法。
<14>
複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部
として、コンピュータを機能させるためのプログラム。
10 テレプレゼンスシステム, 11,11A,11B テレプレゼンス装置, 21 入力装置, 22 出力装置, 23 信号処理装置, 31 マイク, 32 カメラ, 33 センサ, 41,41A,41B スピーカ, 42,42A,42B ディスプレイ, 43 アクチュエータ, 51 信号処理部, 52 通信部, 53 記録部, 61 ユーザ認識部, 62 コンテクスト認識部, 63 補助処理部, 111 ボリュームUI, 112 状態UI, 121 ウエアラブルデバイス, 901 バス, 902 CPU, 903 ROM, 904 RAM, 905 ハードディスク, 906 出力部, 907 入力部, 908 通信部, 909 ドライブ, 910 入出力インタフェース, 911 リムーバブル記録媒体

Claims (14)

  1. 複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部を備える
    情報処理装置。
  2. 前記コンテクストを認識するコンテクスト認識部をさらに備える
    請求項1に記載の情報処理装置。
  3. 前記コンテクスト認識部は、前記ユーザの状態を認識する
    請求項2に記載の情報処理装置。
  4. 前記コンテクスト認識部は、前記ユーザが過去に行った会話の文脈、及び、前記ユーザが現在行っている会話の文脈の1以上を認識する
    請求項2に記載の情報処理装置。
  5. 前記補助処理部は、前記ユーザの発話内容に関する情報を、文字情報で提示する
    請求項1に記載の情報処理装置。
  6. 前記補助処理部は、前記文字情報を表示し、又は、音声で出力する
    請求項5に記載の情報処理装置。
  7. 前記ユーザの発話内容に関する情報は、前記発話内容から認識される前記コンテクストに基づいて推定される、会話を補助する補助情報を含む
    請求項5に記載の情報処理装置。
  8. 前記補助情報は、会話のきっかけとなる情報を含む
    請求項7に記載の情報処理装置。
  9. 前記補助処理部は、前記コンテクストを評価し、前記コンテクストの評価に応じて、行う補助処理を決定する
    請求項5に記載の情報処理装置。
  10. 前記補助処理部は、過去に提示された、会話を補助する補助情報によって、会話が盛り上がったかどうかを評価する
    請求項9に記載の情報処理装置。
  11. 前記補助処理部は、過去に提示された前記補助情報によって、会話が盛り上がった場合、過去に提示された前記補助情報に応じた他の補助情報の提示を行うことを決定する
    請求項10に記載の情報処理装置。
  12. 前記テレプレゼンスシステムにおいて、自分側の空間と相手側の空間とが、所定の狭間空間を介して繋がっているように、前記狭間空間と前記相手側の空間とが表示され、
    前記補助処理部は、前記狭間空間に、前記コミュニケーションを補助するエージェントを表示する
    請求項1に記載の情報処理装置。
  13. 複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行うことを含む
    情報処理方法。
  14. 複数の地点のユーザ間のコミュニケーションのための画像及び音の双方向通信を行うテレプレゼンスシステムにおける各地点のユーザどうしのインタラクションのコンテクストに応じて、前記コミュニケーションを補助する補助処理を行う補助処理部
    として、コンピュータを機能させるためのプログラム。
JP2019198779A 2019-10-31 2019-10-31 情報処理装置、情報処理方法、及び、プログラム Pending JP2021071632A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019198779A JP2021071632A (ja) 2019-10-31 2019-10-31 情報処理装置、情報処理方法、及び、プログラム
US17/083,755 US11412178B2 (en) 2019-10-31 2020-10-29 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019198779A JP2021071632A (ja) 2019-10-31 2019-10-31 情報処理装置、情報処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2021071632A true JP2021071632A (ja) 2021-05-06

Family

ID=75688168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019198779A Pending JP2021071632A (ja) 2019-10-31 2019-10-31 情報処理装置、情報処理方法、及び、プログラム

Country Status (2)

Country Link
US (1) US11412178B2 (ja)
JP (1) JP2021071632A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210375301A1 (en) * 2020-05-28 2021-12-02 Jonathan Geddes Eyewear including diarization

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9329767B1 (en) * 2010-06-08 2016-05-03 Google Inc. User-specific customization based on characteristics of user-interaction
KR101566543B1 (ko) * 2014-09-03 2015-11-05 재단법인 실감교류인체감응솔루션연구단 공간 정보 증강을 이용하는 상호 인터랙션을 위한 방법 및 시스템
JP6747434B2 (ja) * 2015-10-23 2020-08-26 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10771737B2 (en) * 2016-12-07 2020-09-08 Facebook, Inc. Transitioning a telephone network phone call to a video call
JP7096510B2 (ja) * 2018-08-15 2022-07-06 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、表示装置、及び編集支援装置
US11302330B2 (en) * 2019-06-03 2022-04-12 Microsoft Technology Licensing, Llc Clarifying questions for rewriting ambiguous user utterance
US11295727B2 (en) * 2019-09-28 2022-04-05 International Business Machines Corporation Conversation-based chatbot training

Also Published As

Publication number Publication date
US20210136323A1 (en) 2021-05-06
US11412178B2 (en) 2022-08-09

Similar Documents

Publication Publication Date Title
US20220284896A1 (en) Electronic personal interactive device
US11327556B2 (en) Information processing system, client terminal, information processing method, and recording medium
US8243116B2 (en) Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications
US9691296B2 (en) Methods and apparatus for conversation coach
Michalsky et al. Pitch convergence as an effect of perceived attractiveness and likability.
Mol et al. Seeing and being seen: The effects on gesture production
Robitaille The illustrated guide to assistive technology and devices: Tools and gadgets for living independently
US11610092B2 (en) Information processing system, information processing apparatus, information processing method, and recording medium
EP1642231A1 (en) Intelligent collaborative media
US11803579B2 (en) Apparatus, systems and methods for providing conversational assistance
Chen Conveying conversational cues through video
JP2021071632A (ja) 情報処理装置、情報処理方法、及び、プログラム
Chueng et al. Designing auditory spaces to support sense of place: the role of expectation
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
Nijholt Social augmented reality: A multiperspective survey
Dewal Effects of feedback video in mediated communication
Mapes Enhancing Nonverbal Delivery
Adelman Ambivalent Pleasures: Pleasure, Desire, Authenticity, and the Production of Value in Online Disability Cultures
Shimizu Assembling Asian American men in pornography: Shattering the self toward ethical manhoods
Zhou et al. Patterns of Communication in Live Streaming A comparison of China and the United States
Dijkmans ASMR, Digital Intimacy & Social Setting: Watching ASMR videos
Gray Transcript for ASHA Voices: During COVID-19, Protecting Our Voices in a Virtual World
Tajima et al. Sync Sofa: Sofa-type Side-by-side Communication Experience Based on Multimodal Expression
Drugge Interaction aspects of wearable computing for human communication
JP2021077963A (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230828

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231121