JP2021114004A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2021114004A
JP2021114004A JP2018075964A JP2018075964A JP2021114004A JP 2021114004 A JP2021114004 A JP 2021114004A JP 2018075964 A JP2018075964 A JP 2018075964A JP 2018075964 A JP2018075964 A JP 2018075964A JP 2021114004 A JP2021114004 A JP 2021114004A
Authority
JP
Japan
Prior art keywords
user
information processing
information
agent device
interactive agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018075964A
Other languages
English (en)
Inventor
侑理 網本
Yuri Amimoto
侑理 網本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2018075964A priority Critical patent/JP2021114004A/ja
Priority to PCT/JP2019/001920 priority patent/WO2019198299A1/ja
Publication of JP2021114004A publication Critical patent/JP2021114004A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】対話型エージェントデバイスによる対話の満足度を高めることが可能な情報処理装置及び情報処理方法を提供する。【解決手段】1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信する受信部と、受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定する推定部と、前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整する応答調整部と、を備える、情報処理装置を提供する。【選択図】図3

Description

本開示は、情報処理装置及び情報処理方法に関する。
近年、自然言語を含むテキストや音声を用いて、人間との間でインタラクティブなコミュニケーションを行ったり、タスクの遂行を行ったりすることができる各種の対話型エージェントシステムが提案されている。さらに、このような対話型エージェントシステムとの対話の満足度を高めるために、当該対話を評価する技術も提案されている。
例えば、このような技術として、下記特許文献1に開示された技術を挙げることができる。詳細には、下記特許文献1に開示の技術においては、事前にユーザに対話へ意欲の程度を回答させ、当該回答の結果とともに、対話の長さ、単位時間当たりの発言数、タスクの成功率等の統計量を用いて、対話に対する評価を行う。
特開2012−242528号公報
しかしながら、上記特許文献1に開示の技術においては、ユーザが対話への意欲の程度を回答しなくてはならない点でユーザにとっては煩わしい。また、上記特許文献1に開示の技術においては、ユーザが意識していないユーザのコンテキスト(状況)を考慮して評価を行っていないことから、対話型エージェントシステムとの対話に対する評価としては不十分である。従って、上記特許文献1に開示の技術によれば、このようにして得られた評価を対話型エージェントシステムにフィードバックし、対話型エージェントシステムによる応答を制御しても、対話型エージェントシステムによる対話の満足度を高めることには限界がある。
そこで、本開示では、上記事情を鑑みて、対話型エージェントデバイスによる対話の満足度を高めることが可能な、新規且つ改良された情報処理装置及び情報処理方法を提案する。
本開示によれば、1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信する受信部と、受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定する推定部と、前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整する応答調整部と、を備える、情報処理装置が提供される。
さらに、本開示によれば、1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信することと、受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定することと、前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整することと、を含む、情報処理方法が提供される。
以上説明したように、本開示によれば、対話型エージェントデバイスによる対話の満足度を高めることが可能な情報処理装置及び情報処理方法を提供することができる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第1の実施形態に係る情報処理システム10の概略的な機能構成を示したシステム図である。 本開示の第1の実施形態に係る検出装置100の機能構成を示す図である。 本開示の第1の実施形態に係るサーバ200の機能構成を示す図である。 本開示の第1の実施形態に係る対話型エージェントデバイス300の機能構成を示す図である。 本開示の第1の実施形態に係る情報処理方法のフローチャート図である。 本開示の第1の実施形態に係るセンシングデータの取得段階を説明するための説明図である。 本開示の第1の実施形態に係る情報処理リソースの容量の推定段階を説明するための説明図である。 本開示の第1の実施形態に係るファクタの調整段階を説明するための説明図(その1)である。 本開示の第1の実施形態に係るファクタの調整段階を説明するための説明図(その2)である。 本開示の第1の実施形態に係る応答段階を説明するための説明図である。 本開示の第1の実施形態の実施例1を説明するための説明図(その1)である。 本開示の第1の実施形態の実施例1を説明するための説明図(その2)である。 本開示の第1の実施形態の実施例1を説明するための説明図(その3)である。 本開示の第1の実施形態の実施例2を説明するための説明図(その1)である。 本開示の第1の実施形態の実施例2を説明するための説明図(その2)である。 本開示の第1の実施形態の実施例3を説明するための説明図(その1)である。 本開示の第1の実施形態の実施例3を説明するための説明図(その2)である。 本開示の第1の実施形態の実施例5及び実施例6を説明するための説明図である。 本開示の第2の実施形態の実施例を説明するための説明図である。 本開示の実施形態に係る情報処理装置900のハードウェア構成を示したブロック図である。
以下に、添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一又は類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、実質的に同一又は類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.第1の実施形態
1.1 情報処理システム10の概略的な構成
1.2 本実施形態を創作するに至る背景
1.3 検出装置100の詳細構成
1.4 サーバ200の詳細構成
1.5 対話型エージェントデバイス300の詳細構成
1.6 情報処理方法
2.第1の実施形態に係る実施例
2.1 実施例1
2.2 実施例2
2.3 実施例3
2.4 実施例4
2.5 実施例5
2.6 実施例6
3.第2の実施形態
3.1 情報処理方法
3.2 実施例
4.まとめ
5.ハードウェア構成
6.補足
<<1.第1の実施形態>>
<1.1 情報処理システム10の概略的な構成>
まずは、図1を参照して、本開示の第1の実施形態に係る情報処理システム10の概略的な構成について説明する。図1は、本実施形態に係る情報処理システム10の概略的構成を示したシステム図である。図1に示すように、本実施形態に係る情報処理システム10は、例えば、検出装置100と、サーバ200と、対話型エージェントデバイス300とを含むことができる。上記の検出装置100と、サーバ200と、対話型エージェントデバイス300とは、互いに有線又は無線の各種の通信ネットワーク400を介して通信することができる。なお、情報処理システム10に含まれる検出装置100及び対話型エージェントデバイス300は、図1に図示された数に限定されるものではなく、さらに多くてもよい。以下に、本実施形態に係る情報処理システム10に含まれる各装置の概略について説明する。
(検出装置100)
検出装置100は、1人又は複数のユーザに関する少なくとも1つのセンシングデータを検出する装置であり、検出したセンシングデータをサーバ200又は対話型エージェントデバイス300へ送信することができる。詳細には、検出装置100は、ユーザの発話音声を検出するサウンドセンサ、ユーザの視線を検出する視線センサ、ユーザの生体情報を検出する生体情報センサ等を含むことができる。また、検出装置100は、ユーザの位置を検出する位置センサ、ユーザの動作を検出するモーションセンサ等を含むことができる。また、検出装置100は、ユーザの周囲環境の状態を検出する周囲環境センサを含んでもよく、又は、ユーザによって入力されるテキスト等を受け付ける入力装置を含んでもよい。
具体的には、検出装置100は、例えば、HMD(Head Mounted Display)、アイウェア、リストウェア、又は指輪型端末等ユーザの身体の一部に装着するウェアラブルデバイスであってもよい。また、検出装置100は、ユーザの周囲に設置されたマイクロフォン、撮像装置等であってもよい。さらに、検出装置100は、例えば、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォン等の携帯電話、携帯型メディアプレーヤ、スピーカ、プロジェクタ、車載装置(カーナビゲーション装置、座席等)、もしくは、ロボット(例えばヒューマノイド型ロボット又は自動運転車等)等に組み込まれていてもよい。なお、検出装置100の詳細構成については後述する。
(サーバ200)
サーバ200は、対話型エージェントデバイス300の応答を制御することができるコンピュータである。詳細には、サーバ200は、検出装置100から送信されたセンシングデータを受信することができる。さらに、サーバ200は、受信したセンシングデータに基づき、対話型エージェントデバイス300がユーザに対して行う応答を制御する。なお、サーバ200の詳細構成については後述する。
(対話型エージェントデバイス300)
対話型エージェントデバイス300は、例えば上述のサーバ200の制御に従って、自然言語を音声又はテキストにより出力することにより、ユーザとの間で対話を行うことができる。なお、対話型エージェントデバイス300が出力する音声は、例えばTTS(Text To Speech)等による合成音声であってもよいし、録音された音声であってもよい。さらに、対話型エージェントデバイス300は、例えばユーザからの指示に基づいて、各種のタスクを実行することができる。なお、ここで自然言語とは、人間によってコミュニケーション(意思疎通)のために用いられる言語である。また、本実施形態においては、自然言語は、人間及び対話型エージェントデバイス300によって用いられ、音声によって出力されてもよく、又は、テキストによって出力されてもよく、出力形態については特に限定されるものではない。
具体的には、対話型エージェントデバイス300は、例えば、汎用PC、タブレット型端末、ゲーム機、スマートフォン等の携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMDやスマートウォッチ等のウェアラブルデバイスであることができる。また、対話型エージェントデバイス300は、例えば、汎用PC、タブレット型端末、ゲーム機、スマートフォン等の携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMDやスマートウォッチ等のウェアラブルデバイス、車載装置であることができる。さらに、対話型エージェントデバイス300は、車載装置(カーナビゲーション装置等)、もしくは、ロボット(例えばヒューマノイド型ロボットまたは自動運転車等)等であってもよい。なお、図1においては、対話型エージェントデバイス300は、一例として、自宅等に設置することが可能な、スピーカ型のホームエージェントとして図示している。また、対話型エージェントデバイス300の詳細構成については後述する。
なお、本実施形態においては、検出装置100、サーバ200、及び対話型エージェントデバイス300のうちの2つ又は全部が一体の装置であってもよく、すなわち、それぞれ単一の装置によって実現されていなくてもよい。例えば、上述の検出装置100、サーバ200、及び対話型エージェントデバイス300のそれぞれは、有線又は無線の各種の通信ネットワーク400を介して接続され、互いに協働する複数の装置によって実現されてもよい。また、上述したサーバ200又は対話型エージェントデバイス300は、例えば後述する情報処理装置900のハードウェア構成によって実現され得る。
<1.2 本実施形態を創作するに至る背景>
以上、本実施形態に係る情報処理システム10の概略的な構成について説明した。ここで、本実施形態の詳細を説明する前に、本発明者が本実施形態を創作するに至る背景について説明する。
ところで、人間の思考や行為を情報処理的プロセスでとらえる認知科学においては、人間の行動は、入力される各種の感覚や情報、それら入力を情報処理する情報処理リソース等に影響を受けると言われている。例えば、対話型エージェントデバイス300とのユーザとの対話を例に考えると、ユーザに入力される感覚は、例えば対話型エージェントデバイス300のユーザに対する発話であることができる(聴覚)。また、このような場合、ユーザにとっての内的な情報処理リソースは、対話型エージェントデバイス300の発話を情報処理するために利用されている状態にあるといえる。
また、人間の脳内において、複数のタスクに対して同時進行的に情報処理すること(マルチタスク遂行)が可能であるが、情報処理リソースの容量は人物ごとに異なると考えられる。さらには、ユーザの状態等によって、タスクの情報処理に使用できる、又は、割当てられることができる、情報処理リソースの容量も変化すると考えられる。言い換えると、人物によって情報処理リソースの容量は変化し、さらに、同一人物、同一タスクの情報処理であっても、ユーザの状態等により、情報処理リソースの容量は変化すると考えられている。
例えば、ユーザが疲労している場合には、高速道路での運転と、同乗者との会話との2つのタスクを同時に行うことが難しくなることがある。このような場合、疲労により、運転及び会話に使用することができる、ユーザの情報処理リソースの容量が小さくなることから、運転と会話とを同時に行うことが難しくなるものと考えられる。また、例えば、ユーザの注意が前方の歩行者に強く向けられている場合には、通常は処理できる難易度のトピックスであっても、同乗者と当該トピックスについて会話を行うことが難しくなることがある。このような場合、ユーザの情報処理リソースが前方の歩行者に関する視覚の情報処理に容量の多くが割当てられることとなり、同乗者との会話を情報処理するための情報処理リソースの容量が小さくなると考えられる。その結果、ユーザは、通常であれば処理できる難易度のトピックスだったとしても、同乗者との会話を行うことを難しく感じるものと考えられる。
そこで、本発明者は、上述のような認知科学的な考えに基づき、ユーザの情報処理リソースに基づいて、対話型エージェントデバイス300が応答することができれば、対話型エージェントデバイス300との対話の満足度を高めることができるのではないかと考えた。すなわち、本発明者は、このような着想を一着眼点にして、本開示の実施形態を創作するに至ったのである。
詳細には、本開示の実施形態においては、ユーザに関するセンシングデータに基づき、当該ユーザの情報処理リソース、すなわち、対話型エージェントデバイス300との対話に割当てることが可能なユーザの情報処理リソースの容量を推定する。そして、本開示の実施形態においては、推定の結果に基づき、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを調整する。本開示の実施形態によれば、ユーザの情報処理リソースの容量に基づいて対話型エージェントデバイス300が応答することから、ユーザが対話型エージェントデバイス300の応答を情報処理する際に、大きな情報処理負荷を感じることを避けることができる。その結果、本開示の実施形態によれば、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。以下に、本発明者が創作した本開示の実施形態の詳細を順次説明する。
なお、以下の説明において、ユーザとは、特段のことわりがない限りは、対話型エージェントデバイス300と対話を行っている、又は、対話を行おうとする人物(言い換えると、潜在的なユーザ)のことを意味するものとする。ユーザは、例えば、対話型エージェントデバイス300の周囲に存在し、上述の検出装置100によってセンシングデータを取得することが可能な人物である。従って、ユーザは、一人であっても、複数人であってもよく、特に数については限定されるものではない。
また、以下の説明において、情報処理リソースとは、特段のことわりがない限りは、人間の思考や行為を情報処理的プロセスでとらえる認知科学における、ユーザの脳内で入力を情報処理するための処理領域であるものとする。従って、以下の説明において、情報処理リソースの容量とは、ユーザの脳内で入力を情報処理するために使用することができる処理領域の容量であるものとする。
さらに、以下の説明において、対話型エージェントデバイス300の応答の質を決定するファクタとは、特段のことわりがない限りは、対話型エージェントデバイス300の応答における情報粒度等の質を決定する因子のことであるものとする。従って、当該ファクタは、変数(パラメータ)で表現されてもよく、文字等で表現されてもよく、対話型エージェントデバイス300の応答動作を決定するものであれば特に限定されるものではない。なお、対話型エージェントデバイス300の応答の質の詳細については、後述する。
<1.3 検出装置100の詳細構成>
以下に、本開示の第1の実施形態に係る情報処理システム10に含まれる各装置の詳細構成について順次説明する。まずは、検出装置100の詳細構成を、図2を参照して説明する。図2は、本実施形態に係る検出装置100の機能構成を示す図である。
先に説明したように、本実施形態に係る検出装置100は、1人又は複数のユーザに関する少なくとも1つのセンシングデータを検出する装置であり、検出したセンシングデータをサーバ200又は対話型エージェントデバイス300へ送信することができる。図2に示すように、検出装置100は、センシング部110と、送信部120とを有する。以下に、検出装置100の各機能ブロックについて順次説明する。
(センシング部110)
センシング部110は、1人又は複数人のユーザに関する少なくとも1つのセンシングデータを検出することができ、以下に説明する各種センサのうち少なくとも1つのセンサを含むことができる。センシング部110は、検出したセンシングデータを後述する送信部120に出力し、当該送信部120がセンシングデータをサーバ200又は対話型エージェントデバイス300へ送信する。詳細には、例えば、センシング部110は、ユーザの発話音声を検出するサウンドセンサ、ユーザの視線の状態を検出する視線センサ、ユーザの生体情報を検出する生体情報センサであることができる。また、例えば、センシング部110は、ユーザの位置を検出する位置センサ、ユーザの動作を検出するモーションセンサ等であることができる。なお、例えば、センシング部110が複数のセンサを含む場合、センシング部110は複数の部分に分離していてもよい。
ここで、サウンドセンサは、具体的には、ユーザの発話音声等を収音することができるマイクロフォン等の収音装置であることができる。詳細には、本実施形態においては、当該サウンドセンサによって、ユーザと対話型エージェントデバイス300との対話における非言語情報を含むセンシングデータを取得することができる。当該非言語情報としては、対話型エージェントデバイス300の発話に対してユーザが応答を行うまでの経過時間である応答時間の情報や、応答中に、発話に含まれたフィラー(例えば、「えーっと」、「うーん」等のような間投詞)、ユーザの発話の韻律情報等を挙げることができる。さらに、韻律情報とは、具体的には、ユーザの発話の抑揚、リズム、声の高さ等の情報であることができる。なお、上記サウンドセンサは、ユーザと対話型エージェントデバイス300との対話における言語情報(文言、トピックス等)を含むセンシングデータを取得してもよい。また、上記サウンドセンサは、ユーザの発話音声だけでなく、ユーザの周囲の環境音、手をたたく等のユーザの動作によって発生する音等を検出してもよい。
視線センサは、例えば、レンズ及び撮像素子等によって構成された撮像装置であることができる。詳細には、本実施形態においては、当該撮像センサによって、ユーザの眼球運動、瞳孔径の大きさ、凝視時間等の視線の情報を含むセンシングデータを取得することができる。
生体情報センサは、ユーザの生体情報を検出するセンサであり、例えば、ユーザの身体の一部に直接的に装着され、ユーザの心拍、脈拍、血圧、脳波、呼吸、発汗、筋電位、皮膚温度、皮膚電気抵抗等を測定する各種センサであることができる。また、生体情報センサは、上述したような撮像装置を含んでもよく、この場合、当該撮像装置によって、ユーザの脈拍、表情筋の動き(表情)等の情報を含むセンシングデータを取得してもよい。
位置センサは、ユーザの位置を検出するセンサであり、具体的には、GNSS(Global Navigation Satellite System)受信機等であることができる。この場合、位置センサは、GNSS衛星からの信号に基づいてユーザの現在地の緯度・経度の情報を示すセンシングデータを取得する。また、本実施形態においては、例えば、RFID(Radio Frequency Identification)、Wi−Fiのアクセスポイント、無線基地局の情報等からユーザの相対的な位置関係を検出することが可能なため、このような通信装置を位置センサとして利用してもよい。
モーションセンサは、ユーザの動作を検出するセンサであり、具体的には、加速度センサや、ジャイロセンサ等であることができる。詳細には、当該モーションセンサは、ユーザの動作に伴って発生する加速度や角速度等の変化を検出し、検出されたこれらの変化を示すセンシングデータを取得する。より具体的には、本実施形態においては、例えば、当該モーションセンサによって、ユーザの頭の動きや姿勢、頷き動作、運動状態等の情報を含むセンシングデータを取得することができる。
また、センシング部110は、ユーザの周囲環境の状態を検出する周囲環境センサであることができ、詳細には、ユーザの周囲環境の温度、湿度、明るさ、音等を検出する各種のセンサであることができる。
さらに、センシング部110は、ユーザの入力を受け付ける入力装置であってもよく、具体的には、ユーザからの音声入力を受け付ける収音装置や、ユーザからのテキスト入力を受け付けるキーボードやタッチパネルであってもよい。さらに、センシング部110は、ユーザの使用するデバイス(対話型エージェントデバイス300、スマートフォン(図示省略)等)で実行されているアプリケーション等の情報を取得する受信装置であってもよい。
(送信部120)
送信部120は、先に説明したように、後述するサーバ200又は対話型エージェントデバイス300へ、センシング部110で検出されたセンシングデータを送信することができる。例えば、送信部120は、通信ネットワーク400を介してサーバ200又は対話型エージェントデバイス300と通信することができる通信装置によって実現される。
さらに、検出装置100は、センシング部110の制御のための制御情報等の情報をサーバ200又は対話型エージェントデバイス300から受信する受信部(図示省略)を有してもよい。この場合、当該受信部は、例えば、通信ネットワーク400を介してサーバ200又は対話型エージェントデバイス300と通信することができる通信装置によって実現される。
なお、検出装置100に含まれる各機能ブロックは、図2に示される機能ブロックに限定されるものではない。
<1.4 サーバ200の詳細構成>
本実施形態に係るサーバ200は、先に説明したように、対話型エージェントデバイス300の応答を制御することができるコンピュータである。詳細には、サーバ200は、検出装置100から送信されたセンシングデータを受信し、受信したセンシングデータに基づき、対話型エージェントデバイス300との対話に割当てることが可能なユーザの情報処理リソースの容量を推定する。そして、サーバ200は、推定の結果に基づき、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを調整する。
図3を参照して、当該サーバ200の詳細構成を説明する。図3は、本実施形態に係るサーバ200の機能構成を示す図である。図3に示すように、サーバ200は、受信部210と、情報取得部220と、推定部230と、調整部(応答調整部)240と、送信部250と、記憶部260とを主に有することができる。以下に、サーバ200の各機能ブロックについて順次説明する。
(受信部210)
受信部210は、通信ネットワーク400を介して検出装置100等と通信することができる通信装置によって実現される。例えば、受信部210は、検出装置100と通信し、検出装置100から送信されたセンシングデータを受信する。さらに、受信部210は、受信したセンシングデータを後述する情報取得部220に出力する。
(情報取得部220)
情報取得部220は、受信部210が受信した、1人又は複数人のユーザに関する少なくとも1つのセンシングデータを取得、解析し、もしくは、形式を変換し、後述する推定部230の推定に用いられる情報を取得する。さらに、情報取得部220は、取得した情報を推定部230へ出力する。情報取得部220は、例えば、ユーザと対話型エージェントデバイス300との対話における非言語情報、ユーザの生体情報、位置情報、動作情報、周囲環境の情報等を取得することができる。なお、情報取得部220は、ユーザのスケジュール情報、対話型エージェントデバイス300で実行されているアプリケーションの情報等の情報を取得してもよい。
(推定部230)
推定部230は、上述した情報取得部220からの情報に基づき、対話型エージェントデバイス300との対話に割当てることが可能なユーザの情報処理リソースの容量を推定し、推定した結果を後述する調整部240へ出力する。
詳細には、推定部230は、上記非言語情報に含まれる対話型エージェントデバイス300の発話に対するユーザの応答時間やユーザの脳波等に基づいて、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量を推定する。そして、推定部230は、推定した上記情報処理負荷量に基づいて、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。上記情報処理負荷量が大きくなると、ユーザにとって対話型エージェントデバイス300との対話が負担となる傾向があることから、上記情報処理負荷量を推定することは、上記対話に対するユーザの満足度を推定することであるともいえる。
なお、以下の説明において、情報処理負荷量は、特段のことわりがない限りは、ユーザの脳内で情報を処理するための仕事量のことであるものとする。従って、以下の説明において、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量とは、ユーザが対話型エージェントデバイス300との対話を情報処理するための仕事量を意味する。
また、推定部230は、ユーザの視線の検出結果(例えば、ユーザが凝視する対象物、凝視時間、視線の動き等)やユーザの周囲環境の検出結果(例えば、ユーザの周囲において明るい場所にある対象物、ユーザの位置等)等に基づきユーザの注意状態を推定してもよい。この場合、推定部230は、推定した注意状態に基づいて、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。例えば、ユーザが対話以外のことに強く注意を払っている場合には、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量は小さくなることとなる。
以下の説明においては、注意(attention)又は注意を払うとは、特段のことわりがない限りは、ユーザが知覚したい情報を選択するために意図して行う行動であり、例えば、ユーザが視線を特定の対象物に向けることである。また、注意(attention)又は注意を払うとは、例えば、複数の会話が飛び交う空間において、隣に位置する人の会話のみを選択的に知覚することである。従って、以下の説明において、注意の状態とは、特段のことわりがない限りは、ユーザが注意を払っている対象物や事項、注意を払っている程度等のことを意味する。
また、推定部230は、ユーザの生体情報に対して統計処理を行うことにより、ユーザの生体情報に基づいて、ユーザの興奮状態、ストレス状態、及び運動状態等のユーザの内的状態を推定してもよい。この場合、推定部230は、推定した内的状態に基づいて、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。なお、以下の説明においては、ユーザの内的状態とは、特段のことわりがない限りは、ユーザの内在的な事項(メンタル、身体等)の状態のことをいうものとする。従って、内的状態とは、興奮状態、ストレス状態、及び運動状態等だけに限定されるものではなく、他の状態であってもよい。
本実施形態においては、ユーザの内的状態は、対話型エージェントデバイス300との対話からの影響を受けた結果の状態であるか、もしくは、上記対話以外からの影響を受けた結果の状態であるかが、切り分けられて推定されることが好ましい。例えば、対話型エージェントデバイス300の最初の発話前の生体情報に基づいて推定された内的状態は、対話型エージェントデバイス300との対話以外からの影響を受けた結果の状態であるといえる。一方、対話型エージェントデバイス300の最初の発話後の生体情報に基づいて推定された内的状態は、対話型エージェントデバイス300との対話からの影響を受けた結果の状態であるといえる。
さらに、推定部230は、上述した対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量、ユーザの内的状態及び注意状態等の推定結果(例えば、推定値等)を統合して統計的に処理し、ユーザの対話に使用できる情報処理リソースの容量を推定する。そして、推定部230は、推定した結果として、ユーザの対話に使用できる情報処理リソースの容量を後述する調整部240へ出力する。なお、この際、推定部230は、上述した対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量、ユーザの内的状態及び注意状態等の推定結果に対して重み付け等を行った上で、統計的処理を行ってもよい。
また、推定部230は、ユーザのスケジュール情報、対話型エージェントデバイス300で実行されているアプリケーションの情報等に基づき、ユーザの実行する、又は、実行しようとする目的行動を推定してもよい。また、推定部230は、ユーザのスケジュール情報、対話型エージェントデバイス300で実行されているアプリケーションの情報等に基づき、対話型エージェントデバイス300の実行する、又は、実行しようとするタスクを推定してもよい。さらに、推定部230は、ユーザの発話音声における言語情報や、ユーザの位置等に基づき、ユーザのコンテキスト(文脈、シチュエーション、関係性、注意を払っている対象等)を推定してもよい。なお、推定部230における推定方法の詳細については後述する。
(調整部240)
調整部240は、上述した推定部230からの推定結果に基づき、対話型エージェントデバイス300がユーザに対して行う応答の質を定めるファクタを調整することができる。さらに、調整部240は、調整したファクタを後述する送信部250へ出力することができる。上記ファクタとは、対話型エージェントデバイス300の応答における情報粒度等の質を決定する因子のことであると先に説明したが、上記ファクタは、推定部230からの推定結果と、対話型エージェントデバイス300がユーザに対して行う応答の質との間を媒介する、媒介変数等であるともいえる。
詳細には、調整部240は、対話型エージェントデバイス300がユーザに対して行う応答における、情報粒度、情報量、情報難易度、情報種類、発話スピード、発話音量のうちの少なくとも1つを定めるファクタを調整することができる。以下の説明において、情報粒度とは、特段のことわりがない限りは、対話型エージェントデバイス300がユーザに対して行う応答における情報の細かさの度合い、もしくは、情報の深さを意味するものとする。例えば、同一の情報を提示する場合、「水族館に行く」といった場合には、情報粒度の粗い情報が提示されていることとなり、「ABCアクアパークに行く」といった場合には、情報粒度の細かい情報が提示されていることとなる。なお、上述の情報種類の詳細説明については、後述する。また、調整部240における調整方法の詳細については後述する。
なお、図3では図示していないが、サーバ200は、上記調整部240によって調整されたファクタに基づいて、対話型エージェントデバイス300が出力するための、自然言語から構成された文章等を生成する対話生成部を含んでいてもよい。
(送信部250)
送信部250は、通信ネットワーク400を介して対話型エージェントデバイス300等と通信することができる通信装置によって実現される。例えば、送信部250は、対話型エージェントデバイス300と通信し、調整部240から出力されたファクタを送信する。もしくは、送信部250は、上述の対話生成部(図示省略)から出力された文章の情報を対話型エージェントデバイス300に送信してもよい。
(記憶部260)
記憶部260は、HDD(Hard Disk Drive)等の記憶装置から実現され、推定部230、調整部240及び対話生成部(図示省略)で用いる情報等を格納する。
なお、上述した情報取得部220、推定部230及び調整部240等は、例えばCPU(Central Processing Unit)等を用いてソフトウェア的に実現されることができる。また、サーバ200の機能の一部又は全部は、後述する対話型エージェントデバイス300によって実現されてもよい。また、サーバ200に含まれる各機能ブロックは、図3に示される機能ブロックに限定されるものではない。
<1.5 対話型エージェントデバイス300の詳細構成>
本実施形態に係る対話型エージェントデバイス300は、先に説明したように、例えば上述のサーバ200の制御に従って、自然言語を音声又はテキストにより出力することにより、ユーザとの間で対話を行うことができる。さらに、当該対話型エージェントデバイス300は、例えばユーザからの指示に基づいて、各種のタスクを実行することができる。
以下に、図4を参照して、本実施形態に係る対話型エージェントデバイス300の詳細構成を説明する。図4は、本実施形態に係る対話型エージェントデバイス300の機能構成を示す図である。図4に示すように、対話型エージェントデバイス300は、受信部310と、入力部320と、制御部330と、出力部340と、記憶部350とを主に有する。以下に、対話型エージェントデバイス300の各機能ブロックについて順次説明する。
(受信部310)
受信部310は、通信ネットワーク400を介してサーバ200等と通信することができる通信装置によって実現される。例えば、受信部310は、サーバ200と通信し、サーバ200から送信されたファクタを受信する。さらに、受信部310は、受信したファクタを後述する制御部330に出力する。
(入力部320)
入力部320は、ユーザの発話音声を収音する収音装置であることができ、例えば、ユーザの発話音声を収音することにより、ユーザからの音声入力を受け付けることができる。もしくは、入力部320は、ユーザからのテキスト入力を受け付けるキーボードやタッチパネルであってもよい。また、入力部320は、上述した検出装置100として機能してもよい。
(制御部330)
制御部330は、対話型エージェントデバイス300の動作を統括的に制御することができ、例えばCPUやGPU(Graphics Processing Unit)等の処理回路等により実現される。制御部330は、サーバ200から受信されたファクタに基づき自然言語による文章を生成し、後述する出力部340を制御して、当該文章をユーザに対して各種形態で出力することができる。また、サーバ200から文章を受信することができる場合には、制御部330は、当該文章に基づいて、音声データ又は表示画像(文字を含む)データを生成し、出力部340を制御して、ユーザに出力することができる。
(出力部340)
出力部340は、制御部330の制御に従って、ユーザに対して、自然言語による文章を出力することが可能な装置で構成される。詳細には、出力部340は、例えば、スピーカ又はヘッドフォンなどの音声出力装置や、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等の、テキスト出力が可能な表示装置等であることができる。なお、出力部340が音声を出力する場合には、出力する音声は、例えばTTS等による合成音声であってもよいし、録音された音声であってもよい。
(記憶部350)
記憶部350は、HDD等の記憶装置から実現され、制御部330等で用いる情報等を格納する。
なお、対話型エージェントデバイス300の機能の一部又は全部は、例えば検出装置100又はサーバ200と同一の装置によって実現されてもよい。また、情報処理システム10が複数の検出装置100を含む場合、その一部の機能を対話型エージェントデバイス300が実現してもよい。また、対話型エージェントデバイス300に含まれる各機能ブロックは、図4に示される機能ブロックに限定されるものではない。
以上、本実施形態に係る情報処理システム10の概略構成及び当該情報処理システム10に含まれる各装置の詳細構成について説明した。なお、当該情報処理システム10の構成は、上記の例には限られず、様々な変形が可能である。例えば、既に述べたように、サーバ200の機能の一部又は全部が、対話型エージェントデバイス300によって実現されてもよい。例えば、対話型エージェントデバイス300によってサーバ200の機能の全部が実現された場合には、情報処理システム10は必ずしもサーバ200を含まなくてもよい。さらに、検出装置100と対話型エージェントデバイス300とが同一の装置によって実現される場合には、情報処理システム10は当該装置の内部で完結してもよい。
<1.6 情報処理方法>
次に、本開示の第1の実施形態に係る情報処理方法について説明する。まず、図5から図10を参照して、本実施形態係る情報処理方法を説明する。図5は、本実施形態に係る情報処理方法のフローチャート図である。図6は、本実施形態に係るセンシングデータの取得段階を説明するための説明図であり、図7は、本実施形態に係る情報処理リソースの容量の推定段階を説明するための説明図である。また、図8及び図9は、本実施形態に係るファクタの調整段階を説明するための説明図である。さらに、図10は、本実施形態に係る応答段階を説明するための説明図である。
図5に示すように、本実施形態に係る情報処理方法は、ステップS100からステップS400までのステップを主に含むことができる。以下に、本実施形態に係るこれら各ステップの詳細について説明する。
以下に説明する情報処理方法は、上記検出装置100によってユーザに関するセンシングデータを検出することが可能な状態になることで開始され、対話型エージェントデバイス300による対話タスク又はその他のタスクが終了するまでの間、繰り返し実行される。
(ステップS100)
検出装置100は、ユーザに関するセンシングデータを取得する。さらに、図6に示すように、サーバ200は、検出装置100のセンシング部110の各種センサから各種センシングデータを取得する。
詳細には、サーバ200は、検出装置100のサウンドセンサ110aからセンシングデータを取得する。当該センシングデータによれば、サーバ200は、例えば、図6に示すように、対話型エージェントデバイス300の発話に対してユーザが応答を行うまでの経過時間である応答時間の情報を取得することができる。また、サーバ200は、上記センシングデータによって、ユーザの発話の抑揚、リズム、声の高さ等の韻律情報、ユーザの周囲の環境音、手をたたく等のユーザの動作によって発生する音、ユーザの発話音声における言語情報等を取得してもよい。
また、サーバ200は、検出装置100の視線センサ110bからセンシングデータを取得する。当該センシングデータによれば、サーバ200は、例えば、図6に示すように、ユーザの眼球運動、瞳孔径の大きさ、凝視時間等の視線の情報を取得することができる。
サーバ200は、検出装置100の脈波センサ110cからセンシングデータを取得する。当該センシングデータによれば、サーバ200は、例えば、図6に示すように、ユーザの脈拍の経時変化等の脈拍の情報を取得することができる。
なお、当該ステップS100においては、サーバ200は、検出装置100のセンシング部110の各種の生体情報センサ(図示省略)から、心拍、血圧、脳波、呼吸、発汗、筋電位、皮膚温度、皮膚電気抵抗、表情筋の動き等の情報を取得してもよい。また、サーバ200は、位置センサ(図示省略)から、ユーザの位置の情報を取得してもよく、モーションセンサ(図示省略)からユーザの頭の動き、姿勢、動作、運動状態等の情報を取得してもよい。さらに、サーバ200は、検出装置100のセンシング部110の各種の周囲環境センサ(図示省略)からユーザの周囲環境の温度、湿度、明るさ、音等の情報を取得してもよい。
さらに、当該ステップS100においては、サーバ200は、対話型エージェントデバイス300で実行されているアプリケーションの情報、ユーザのスケジュールの情報等を取得してもよい。
(ステップS200)
サーバ200は、上述のステップS100で取得したセンシングデータに基づき、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。
詳細には、サーバ200は、図7に示すように、上述のステップS100で取得した上記応答時間等の対話型エージェントデバイス300との対話に起因する測定結果に基づいて、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量を推定する。例えば、ユーザが対話型エージェントデバイス300に対して短い時間で応答した場合には、対話の内容が容易であり、情報処理システム10(対話型エージェントデバイス300)は、ユーザにとっては情報処理負荷が小さい応答を行ったと推定できる。一方、ユーザが対話型エージェントデバイス300に対して長い時間かかって応答した場合には、対話の内容が複雑、且つ、難易度が高く、ユーザにとっては情報処理負荷量が大きい応答を情報処理システム10(対話型エージェントデバイス300)が行ったと推定できる。従って、サーバ200は、上記応答時間やその他のセンシングデータを統計的に処理して数値化することにより、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量を推定することができる。なお、サーバ200は、上記応答時間の代わりに、もしくは、上記応答時間とともに、上述のステップS100で取得した脳波等の各種の生体情報等により、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量を推定してもよい。
すなわち、本実施形態においては、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量を推定することにより、現状の対話によってユーザがどの程度負荷に感じているかを把握することができる。従って、本実施形態においては、現状の対話による負荷がユーザの対話時点での処理可能なレベルより高いと推定される場合には、この後の処理において、対話の負荷を減らすことができるように、対話型エージェントデバイス300の応答の質を調整することとなる。その結果、本実施形態によれば、ユーザが高い負荷を感じることなく、対話型エージェントデバイス300との対話を進めていくことが可能となり、対話の満足度を高めることができる。
なお、サーバ200は、ユーザと対話型エージェントデバイス300との間で対話が開始されていない時点では、上述のような対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量の推定を行わなくてもよい。
また、サーバ200は、図7に示すように、上述のステップS100で取得したユーザの視線の情報等のユーザの注意状態に関する測定結果に基づいて、ユーザが注意を払っている対象物や注意の度合い等であるユーザの注意状態を推定する。例えば、ユーザの視線が1つの対象物に集中する時間(凝視する時間)が長い場合には、ユーザが当該対象物に関して強く注意を払っていると推定できる。一方、例えば、ユーザの視線が複数の対象物に対して散らばるように向けられている場合には、ユーザは複数の対象物に関して注意を払っていると推定することができる。従って、サーバ200は、視線の動きや凝視時間を統計的に処理して数値化することにより、ユーザの注意状態を推定することができる。なお、サーバ200は、上記視線の情報の代わりに、もしくは、上記視線の情報とともに、上述のステップS100で取得したユーザの周囲環境の情報(例えば、室内照明の明るさ、明るい場所にある対象物、ユーザの周囲の環境音の音量等)等により、ユーザの注意状態を推定してもよい。
すなわち、本実施形態においては、ユーザの注意状態を推定することにより、ユーザがどの程度、対話型エージェントデバイス300との間の対話に注意を払っているか、又は、注意を払うことが可能かを把握することができる。従って、本実施形態においては、ユーザが対話以外に対して強く注意を払っていると推定される場合には、この後の処理において、ユーザが上記対話に割当てることが可能な情報処理リソースの容量を小さくすることができるように、対話型エージェントデバイス300の応答の質を調整することとなる。その結果、本実施形態によれば、ユーザが高い負荷を感じることなく、対話型エージェントデバイス300との対話を進めていくことが可能となり、対話の満足度を高めることができる。
また、サーバ200は、図7に示すように、上述のステップS100で取得したユーザの脈拍の情報(詳細には、変化量情報)等のユーザの内的状態に関する測定結果に基づいて、ユーザの内的状態(例えば、興奮状態、ストレス状態、運動状態等)を推定する。例えば、所定の期間においてユーザの脈拍数が高い場合には、ユーザが興奮していると推定できる。従って、サーバ200は、脈拍の経時変化の情報を統計的に処理して数値化することにより、ユーザの興奮状態を推定することができる。なお、サーバ200は、上記脈拍の情報の代わりに、もしくは、上記脈拍の情報とともに、上述のステップS100で取得した各種の生体情報、ユーザの動作、ユーザの発話の韻律情報等により、ユーザの内的状態を推定してもよい。
すなわち、本実施形態においては、ユーザの内的状態を推定することにより、ユーザの対話に使用できる情報処理リソースの容量を推定することができる。例えば、ユーザが、対話型エージェントデバイス300との間の対話以外の他の事項に起因して興奮状態にある場合には、当該他の事項の情報処理に情報処理リソースの容量が多く割当てられていると推定される。従って、本実施形態においては、例えば、ユーザが対話以外の事項に起因して興奮状態にあると推定される場合には、この後の処理において、ユーザが上記対話に割当てることが可能な情報処理リソースの容量を小さくすることができるように、対話型エージェントデバイス300の応答の質を調整することとなる。その結果、本実施形態によれば、ユーザが高い負荷を感じることなく、対話型エージェントデバイス300との対話を進めていくことが可能となり、対話の満足度を高めることができる。
なお、本実施形態においては、先に説明したように、ユーザの内的状態は、対話型エージェントデバイス300との対話からの影響を受けた結果の状態であるか、もしくは、上記対話以外からの影響を受けた結果の状態であるかが、切り分けられて推定されることが好ましい。
さらに、サーバ200は、上述した対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量、ユーザの注意状態、及び内的状態等の推定結果を統合して統計的に処理する。そして、サーバ200は、統計的処理によって得られた結果に基づき、ユーザが対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。なお、この際に、サーバ200は、各推定結果に対して重み付け等を行った後に統計的処理を行ってもよい。
なお、当該ステップS200においては、サーバ200は、対話型エージェントデバイス300で実行されているアプリケーションの情報等に基づき、対話型エージェントデバイス300の実行する、又は、実行しようとするタスクを推定してもよい。さらに、当該ステップS200においては、サーバ200は、ユーザの発話音声における言語情報や、ユーザの位置等に基づき、ユーザのコンテキスト(文脈、シチュエーション、関係性等)を推定してもよい。
具体的には、ユーザが、対話型エージェントデバイス300に対して同一の発話をした場合であっても、ユーザのコンテキストや対話型エージェントデバイス300のタスクの状況によって、発話の意図が異なる場合がある。従って、対話型エージェントデバイス300の対話の満足度を高めるためには、ユーザの発話の意図によって、対話型エージェントデバイス300の当該ユーザに対する応答を変化させることが求められる。例えば、ユーザが、対話型エージェントデバイス300に対して「今日の天気は?」と質問した場合、ユーザが自宅のリビングにいる場合と、自動車の中にいる場合とでは、質問の意図が異なる場合がある。そして、ユーザの質問の意図が異なるということは、当該意図によって、ユーザにとって好ましい対話型エージェントデバイス300の応答が変化することを意味する。従って、当該ステップS200においては、サーバ200は、ユーザのコンテキストや対話型エージェントデバイス300のタスクを推定する。そして、この後の処理において、サーバ200は、推定したコンテキスト等に基づいて、対話型エージェントデバイス300の応答の質(例えば、情報種類等)を調整することとなる。その結果、本実施形態によれば、ユーザにおける対話の満足度を高めることができる。
(ステップS300)
サーバ200は、上述のステップS200で推定したユーザの対話に使用できる情報処理リソースの容量に基づき、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを調整する。詳細には、サーバ200は、図8に示すように、対話型エージェントデバイス300との対話に起因するユーザの情報処理負荷量、ユーザの注意状態、及び内的状態等によって推定した上記情報処理リソースの容量に基づいて、上記ファクタを調整する。
具体的には、サーバ200は、図8に示すように、対話型エージェントデバイス300が当該ユーザに対して行う応答の質である情報粒度、情報種類、情報量、情報難易度、発話スピード、発話音量等を定めるファクタを調整する。なお、サーバ200は、図8に示される項目のうちのいずれか1つ又は複数を定めるファクタを調整してもよく、さらに、図8に示されていない項目を定めるファクタを調整してもよい。
例えば、推定したユーザの対話に使用できる情報処理リソースの容量が小さい場合には、サーバ200は、図9に示されるタスクAのように、対話型エージェントデバイス300が当該ユーザに対して行う応答に関する情報粒度を粗くし(小さくする)、難易度も容易にするように(小さくする)、ファクタを調整する。また、例えば、推定したユーザの対話に使用できる情報処理リソースの容量が大きい場合には、サーバ200は、図9に示されるタスクBにように、対話型エージェントデバイス300が当該ユーザに対して行う応答に関する難易度を難しくするように(大きくする)、上記ファクタを調整する。また、サーバ200は、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタとして、言い回しや声色等を定めるファクタを調整してもよい。
すなわち、本実施形態においては、サーバ200は、同一ユーザで、且つ、対話型エージェントデバイス300で実行されているタスクが同一の場合であっても、推定したユーザの対話に使用できる情報処理リソースの容量が異なると、それに応じてファクタを異なる状態に調整することとなる。
また、当該ステップS300においては、サーバ200は、対話型エージェントデバイス300のタスクや、ユーザのコンテキスト等に基づいて、上記ファクタを調整してもよい。例えば、サーバ200は、ユーザの視線や位置の情報によるユーザのコンテキストに基づいて、対話型エージェントデバイス300が当該ユーザに対して行う応答の質である情報種類を定めるファクタを調整する。具体的には、ユーザが対話型エージェントデバイス300に対して「今日の天気は?」と質問した場合、ユーザが自宅のリビングにいる場合と、自動車の中にいる場合とで、サーバ200は、対話型エージェントデバイス300の応答における情報の種類を定めるファクタを変化させる。例えば、ユーザが自宅のリビングにいる場合には、サーバ200は、対話型エージェントデバイス300がユーザの自宅周辺の天気の情報を伝達するように情報の種類を定めるファクタを調整する。一方、例えば、ユーザが自動車の中にいる場合には、サーバ200は、対話型エージェントデバイス300が目的地周辺の天気の情報を伝達するように情報の種類を定めるファクタを調整する。このように、本実施形態においては、推定したコンテキスト等に基づいて、対話型エージェントデバイス300の応答の質を調整することにより、ユーザにおける対話の満足度を高めることができる。
なお、本実施形態においては、サーバ200が情報種類を選択することにより、応答の難易度等が高くなってしまう場合には、ユーザと対話型エージェントデバイス300との間で対話を継続している間、情報種類及び難易度を定めるファクタの調整を継続する。このようにすることで、本実施形態においては、対話型エージェントデバイス300の対話タスクにおける、対話の満足度を向上させることができる。
(ステップS400)
サーバ200は、上述のステップS300で調整した対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを対話型エージェントデバイス300に送信する。対話型エージェントデバイス300は、図10に示すように、当該ファクタ(情報粒度、情報種類、情報量、情報難易度、発話スピード、発話音量等を定めるファクタ)に基づき、当該ユーザに対して行う応答の文章を生成し、出力することにより、ユーザに対して応答を行う。
本実施形態に係る情報処理方法においては、対話型エージェントデバイス300の対話タスクを開始から終了までの間、ユーザが当該対話に割当てることが可能な情報処理リソースの容量に基づいて、好適なファクタを探索し続けることとなる。なお、本実施形態においては、対話タスクの終了後に、終了時のファクタを保存し、次の対話タスクの開始時において、保存したファクタを好適なファクタを探査するための初期値として用いてもよい。なお、この場合、1つの対話タスクとは、ユーザと対話型エージェントデバイス300との間における、対となる1つの発話と1つの応答とで構成される対話のことであってもよい。もしくは、1つの対話タスクとは、ユーザと対話型エージェントデバイス300との間において、複数の発話及び応答によって継続的に行われた一連の対話のことであってもよい。
以上のように、本実施形態においては、ユーザに関するセンシングデータに基づき、当該ユーザの情報処理リソース、言い換えると、対話型エージェントデバイス300との対話に割当てることが可能な情報処理リソースの容量を推定する。そして、本実施形態においては、推定の結果に基づき、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを調整する。そして、本実施形態によれば、上記ファクタを介して、ユーザの情報処理リソースに基づいて、対話型エージェントデバイス300が応答することができることから、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。
<<2.第1の実施形態に係る実施例>>
以上、本開示の第1の実施形態における情報処理方法の詳細について説明した。次に、具体的な実施例を示しながら、本実施形態に係る情報処理方法の例についてより具体的に説明する。なお、以下に示す実施例は、第1の実施形態に係る情報処理方法のあくまでも一例であって、第1の実施形態に係る情報処理方法が下記の実施例に限定されるものではない。
<2.1 実施例1>
まずは、車載用音声インタフェースとして、本実施形態に係る対話型エージェントデバイス300を用いた実施例1について、図11から図13を参照して説明する。図11から図13は、本実施形態の実施例1を説明するための説明図である。
本実施例1においては、図11に示すように、車載用音声インタフェース300aとして、本実施形態に係る対話型エージェントデバイス300を用いるものとする。また、本実施例1においては、ユーザの脈拍の情報やユーザの視線の情報は、例えば、脈波センサや視線センサとして機能する車載の撮像装置(図示省略)を用いて取得するものとする。さらに、本実施例1においては、応答時間の情報は、例えば、サウンドセンサとして機能する車載の収音装置(図示省略)を用いて取得するものとする。
詳細には、本実施例においては、ユーザの対話型エージェントデバイス300に対する応答時間を検出することによって(対話に起因する測定結果)、ユーザが長い時間かかって応答したことが判明した場合には、当該対話に起因するユーザの情報処理負荷量が多いことが想定される。そして、本実施例においては、当該推定により、ユーザが対話に使用できる情報処理リソースの容量が小さいと推定することができる。また、本実施例においては、ユーザの視線の動きを検出することによって(ユーザの注意状態に関する測定結果)、運転中にユーザがあたりを見渡すことが多いことが判明した場合には、ユーザが多くの視覚情報を処理していることが想定される。そして、本実施例においては、当該推定により、ユーザが対話に使用できる情報処理リソースの容量が小さいと推定することができる。さらに、本実施例においては、ユーザの脈拍を検出することで(ユーザの内的状態に関する測定結果)、運転によるユーザの緊張の度合いを推定することができる。そして、当該推定により、ユーザが対話に使用できる情報処理リソースの容量を推定することができる。
より具体的には、ユーザが不慣れな道を走行中である場合には、図12に示すように、ユーザは運転によって緊張していることから、脈拍数は高く、視線が散らばり、且つ、応答時間が長くなる。このような場合、ユーザが不慣れな道を走行中である場合には、ユーザが対話に使用できる情報処理リソースの容量は小さいと推定される。そこで、サーバ200は、図13のタスクBとして示されるように、情報粒度、難易度等が低くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、「田中さんに、「明日の待ち合わせは13時に変更してもらえない?」って送信して。」と発話した場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「田中さんにメッセージを送信できません。」と、調整された情報粒度、難易度等に応じて、短く、1つの情報を含む文章を用いて応答することとなる。
一方、ユーザが馴染みの道を走行中である場合には、図12に示すように、ユーザは運転によってあまり緊張していないことから、脈拍数は通常状態であり、視線が散らばり、且つ、応答時間も短くなる。すなわち、ユーザが馴染みの道を走行中である場合には、ユーザが対話に使用できる情報処理リソースの容量は大きいと推定される。そこで、サーバ200は、図13のタスクAとして示されるように、情報粒度等が高くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、「田中さんに、「明日の待ち合わせは13時に変更してもらえない?」って送信して。」と発話した場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「メッセージを送信できません。田中さんは登録されていないか別の名前で登録されている可能性があります。」と、調整された情報粒度等に応じて、長く、複数の情報を含む文章を用いて応答することとなる。
以上のように、本実施例によれば、ユーザの運転による緊張状態に基づいて、対話型エージェントデバイス300の対話の質が変化することとなる。従って、本実施例によれば、対話型エージェントデバイス300の対話が、ユーザの運転の邪魔になるようなことを避けることができることから、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。
なお、上述の説明では、対話型エージェントデバイス300のメッセージの送信タスクについての例を説明したが、本実施例はこれに限定されるものではなく、例えば、ニュースの読み上げタスク等に適用することができる。例えば、ユーザが不慣れな道を走行中である場合には、対話型エージェントデバイス300は、ニュースの要約を読み上げ、ユーザが馴染みの道を走行中である場合には、ニュースの全文を読み上げる。
<2.2 実施例2>
次に、ゲーム用音声インタフェースとして、本実施形態に係る対話型エージェントデバイス300を用いた実施例2について、図14及び図15を参照して説明する。図14及び図15は、本実施形態の実施例2を説明するための説明図である。
本実施例2においては、ゲーム機に搭載されたゲーム用音声インタフェースとして、本実施形態に係る対話型エージェントデバイス300を用いるものとする。また、本実施例2においては、ユーザの脈拍の情報やユーザの視線の情報は、例えば、脈波センサや視線センサとして機能する、上記ゲーム機に搭載の撮像装置(図示省略)を用いて取得するものとする。さらに、本実施例2においては、応答時間の情報は、例えば、サウンドセンサとして機能する、上記ゲーム機に搭載の収音装置(図示省略)を用いて取得するものとする。
例えば、ユーザが複雑なゲームをプレイ中である場合には、図14に示すように、ユーザはゲームによって緊張していることから、脈拍数は高く、視線が集中し、且つ、応答時間が長くなる。このような場合、ユーザがゲームにより緊張状態にあり、ゲームに関する情報処理に集中し、ユーザが対話に使用できる情報処理リソースの容量は小さいと推定される。そこで、サーバ200は、図15のタスクAとして示されるように、情報粒度、難易度等が低くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、「田中さんに、「今からうち来れる?」って聞いておいて。」と発話した場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「メッセージを送信できません。田中さんでの登録がない可能性があります。」と、調整された情報粒度等に応じて、短く、2つの情報を含む文章を用いて応答することとなる。
一方、例えば、ユーザが単純なゲームをプレイ中である場合には、図14に示すように、ユーザはゲームによってあまり緊張していないことから、脈拍数は通常状態であり、視線が集中し、且つ、応答時間も短くなる。このような場合、ユーザがゲームによりそれほど緊張していない状態にあり、ユーザが対話に使用できる情報処理リソースの容量は大きいと推定される。そこで、サーバ200は、図15のタスクBとして示されるように、情報粒度、難易度等が高くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、上述の例と同じ発話をした場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「メッセージを送信できません。田中さんは登録されていないか、別の名前で登録されているようです。」と、調整された情報粒度等に応じて、長く、3つの情報を含む文章を用いて応答することとなる。
以上のように、本実施例によれば、ユーザのゲームによる緊張状態に基づいて、対話型エージェントデバイス300の対話の質が変化することとなる。従って、本実施例によれば、対話型エージェントデバイス300の対話が、ユーザのゲームの邪魔になるようなことを避けることができることから、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。
なお、上述の説明では、対話型エージェントデバイス300のメッセージの送信タスクについての例を説明したが、本実施例はこれに限定されるものではない。例えば、本実施例においては、ユーザの緊張状態や興奮状態等に応じて、ユーザの緊張度をより高めるために、ゲーム機から出力される音のスピード、音量等が高くなるようにファクタを調整してもよい。このようにすることで、ゲームによる効果の1つとして、ユーザに緊迫感を与えるシーンをより効果的に演出することができる。
<2.3 実施例3>
次に、音楽プレーヤ用インタフェースとして、本実施形態に係る対話型エージェントデバイス300を用いた実施例3について、図16及び図17を参照して説明する。図16及び図17は、本実施形態の実施例3を説明するための説明図である。
本実施例3においては、図16に示すように、対話型エージェントデバイス300として、ヘッドフォン300bを用いるものとする。また、本実施例3においては、ユーザの脈拍の情報やユーザの視線の情報は、例えば、脈波センサや視線センサとして機能するアイウェア型及びリストバンド型のウェアラブルデバイスである100b、100cを用いて取得するものとする。さらに、本実施例3においては、応答時間の情報は、例えば、サウンドセンサとして機能する、上記ヘッドフォン300bに搭載の収音装置(図示省略)を用いて取得するものとする。
例えば、ユーザがウォームアップ中である場合には、図17の左側に示すように、ユーザは軽い運動状態にあることから、ユーザの、脈拍数は通常であり、且つ、応答時間も短くなる。このような場合、ユーザの運動による負荷が高くないことから、ユーザが対話に使用できる情報処理リソースの容量は大きいと推定される。そこで、サーバ200は、情報粒度、難易度等が高くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、「田中さんに、「明日は筆記用具を持ってきてよ。」ってメッセージを送って。」と発話した場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「メッセージを送信できません。田中さんは登録されていないようです。」と、調整された情報粒度等に応じて、長く、2つの情報を含む文章を用いて応答することとなる。
一方、例えば、ユーザがランニング中である場合には、図17の中央に示すように、ユーザは激しい運動状態にあることから、ユーザの、脈拍数は高く、且つ、応答時間も長くなる。このような場合、ユーザがランニングにより激しい運動状態にあることから、ユーザが対話に使用できる情報処理リソースの容量は小さいと推定される。そこで、サーバ200は、情報粒度、難易度等が低くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、上述の例と同じ発話をした場合を説明する。このような場合、例えば、対話型エージェントデバイス300は、「メッセージを送信できません。」と、調整された情報粒度等に応じて、短く、1つの情報を含む文章を用いて応答することとなる。
例えば、ユーザがクールダウン中である場合には、図17の右側に示すように、ユーザは軽い運動状態にあることから、ユーザの、脈拍数は通常であり、且つ、応答時間も短くなる。このような場合、ユーザの運動による負荷が高くないことから、ユーザが対話に使用できる情報処理リソースの容量は大きいと推定される。そこで、サーバ200は、情報粒度、難易度等が高くなるようにファクタを調整する。
そして、このような状況において、ユーザが対話型エージェントデバイス300に対して、上述の例と同じ発話をした場合を説明する。このような場合、上述のウォームアップ中と同様に、対話型エージェントデバイス300は、「メッセージを送信できません。田中さんは登録されていないようです。」と、応答することとなる。
以上のように、本実施例によれば、ユーザの運動状態に基づいて、対話型エージェントデバイス300の対話の質が変化することとなる。従って、本実施例によれば、対話型エージェントデバイス300の対話が、ユーザの運動の邪魔になるようなことを避けることができることから、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。
なお、上述の説明では、対話型エージェントデバイス300のメッセージの送信タスクについての例を説明したが、本実施例はこれに限定されるものではない。例えば、本実施例をスポーツ中にコーチングを行うアプリケーションに適用してもよい。この場合、ユーザの運動状態等に応じて、ユーザのトレーニング効果をより高めるために、コーチングとして出力されるアドバイスの音声の発話スピードや音量等に係るファクタを調整してもよい。このようにすることで、コーチングを行うアプリケーションの効果をより高めることができる。さらに、本実施例は、スポーツ中にコーチングを行うアプリケーションに限定されるものではなく、例えば、ヘルスケアやメンタルケアのためのアドバイスを行うアプリケーションに適用することもできる。
<2.4 実施例4>
また、本実施形態は、緊急情報の自動アナウンス等を行うアプリケーションに適用してもよい。例えば、本実施例4においては、上記アナウンスを聞くユーザの内的状態等に基づいて、アナウンスの情報粒度、発話スピード、発話音量、表現等に係るファクタを調整してもよい。詳細には、本実施例においては、ユーザの内的情報に基づいて、当該ユーザが上記アプリケーションによるアナウンスの情報処理に割当てることが可能な情報処理リソースの容量を推定する。そして、本実施例においては、推定した情報処理リソースの容量に基づき、アナウンスの情報粒度等に係るファクタを調整する。このようにすることで、本実施例においては、当該アナウンスによりユーザがパニックになることを避けることができたり、当初パニック状態に陥ったユーザを後続するアナウンスにより鎮めたりすることができる。特に、幼児や視覚障害者等においては、緊急情報のアナウンスを必要以上のストレスを持って受けとめる場合がある。しかしながら、本実施例によれば、ユーザの状態に基づいて、上記アナウンスを変化させることから、緊急情報のアナウンスによって幼児や視覚障害者等に与えられるストレスを軽減することができる。
<2.5 実施例5>
これまで説明した実施例では、一人のユーザとの間の対話における例を説明したが、本実施例はこのような例に限定されるものではない。そこで、図18を参照して複数のユーザとの間の対話における例を実施例5として説明する。図18は、本実施形態の実施例5及び実施例6を説明するための説明図である。
詳細には、本実施例5においては、図18に示すように、対話型エージェントデバイス300の周囲には、複数のユーザA、B、Cが存在するものとする。ここで、対話型エージェントデバイス300と対話を行っているユーザAをユーザと呼ぶ。一方、上記対話には参加していない、もしくは、上記対話には参加していないが、本実施形態に係る検出装置100によりセンシングデータを取得可能な、対話型エージェントデバイス300の周囲に存在するユーザB、Cを潜在的なユーザと呼ぶ。
本実施例においては、サーバ200は、対話型エージェントデバイス300と対話を行っているユーザAに関するセンシングデータを取得する。そして、取得したセンシングデータに基づき、サーバ200は、ユーザAの対話に使用できる情報処理リソースの容量を推定し、当該推定結果に基づき、対話型エージェントデバイス300が行う応答の質を定めるファクタを調整する。
具体的には、本実施例においては、以下のようなシチュエーションを例に挙げることできる。
ユーザA:(対話型エージェントデバイス300に向かって)「ユーザBに明日の会議の予定について教えてあげてくれる?」
対話型エージェントデバイス300:(ユーザBに向かって)「明日の会議の予定は、15:00からA会議室です。会議の参加者は、ユーザA、ユーザB、斉藤さんです。」
ユーザA:(対話型エージェントデバイス300に向かって)「ユーザBに斉藤さんの電話番号を教えてあげてくれる?」
対話型エージェントデバイス300:(ユーザBに向かって)「斉藤さんの電話番号は、XXX‐XXXX‐XXXXです。」
上述の例においては、対話型エージェントデバイス300が潜在的なユーザであるユーザBに発話しているものの、ユーザBは、対話型エージェントデバイス300の発話に対して応答を行っていない。従って、サーバ200は、対話型エージェントデバイス300と対話を行っているユーザAに関するセンシングデータに基づき、ユーザAの対話に使用できる情報処理リソースの容量を推定する。そして、サーバ200は、当該推定結果に基づき、対話型エージェントデバイス300がユーザAに対して行う応答の質を定めるファクタを調整する。すなわち、ユーザBが対話型エージェントデバイス300に対して応答を行うまでは、ユーザBに関するセンシングデータは、対話型エージェントデバイス300の応答に影響を与えることはない。言い換えると、本実施例においては、既に対話型エージェントデバイス300と対話しているユーザAの情報処理リソースの容量に基づいて、対話型エージェントデバイス300に対して応答していない潜在的なユーザであるユーザBに対する対話型エージェントデバイス300の応答の質が変化する。
<2.6 実施例6>
また、本実施形態においては、複数のユーザが同時に対話型エージェントデバイス300と対話しているようなシチュエーションも想定することができる。そこで、図18を参照して、複数のユーザが同時に対話型エージェントデバイス300と対話しているようなシチュエーションの例である実施例6を説明する。
詳細には、本実施例においては、図18に示すように、対話型エージェントデバイス300の周囲には、複数のユーザA、B、Cが存在するものとする。本実施例においては、対話型エージェントデバイス300と対話を行っているユーザA及びユーザBをユーザと呼ぶ。一方、上記対話には参加していない、もしくは、上記対話には参加していないが、本実施形態に係る検出装置100によりセンシングデータを取得可能な、対話型エージェントデバイス300の周囲に存在するユーザCを潜在的なユーザと呼ぶ。
本実施例においては、サーバ200は、対話型エージェントデバイス300と対話を行っているユーザA及びユーザBに関するセンシングデータを取得する。そして、取得したセンシングデータに基づき、サーバ200は、ユーザA及びユーザBの対話に使用できる情報処理リソースの容量を推定し、当該推定結果に基づき、対話型エージェントデバイス300が行う応答の質を定めるファクタを調整する。
具体的には、本実施例においては、以下のようなシチュエーションを例に挙げることできる。
ユーザA:(対話型エージェントデバイス300に向かって)「明日の会議の予定について教えてくれる?」
対話型エージェントデバイス300:(ユーザAに向かって)「明日の会議の予定は、15:00から16:00まで、A会議室です。」
ユーザB:(対話型エージェントデバイス300に向かって)「明日の会議の後の予定はどうなってるの?」
対話型エージェントデバイス300:(ユーザBに向かって)「19:00に、山田さんとお食事の予定です。」
ユーザA:(ユーザBに向かって)「会議のあとは、少し時間があるね。」
ユーザB:(ユーザAに向かって)「そうだね。会議のあとにアフタヌーンティの予定を入れようか?」
対話型エージェントデバイス300:(ユーザBに向かって)「何時に予定を追加しますか?」
このように、本実施例においては、複数のユーザが同時に対話型エージェントデバイス300と対話しているようなシチュエーションであっても、サーバ200は、複数のユーザの対話に使用できる情報処理リソースの容量を推定することができる。さらに、本実施例においては、当該推定結果に基づき、対話型エージェントデバイス300が行う応答の質を定めるファクタを調整することができる。
<<3.第2の実施形態>>
本開示の実施形態に係る話型エージェントデバイス300は、ユーザの自宅等に設置されて、常に稼動しているホームエージェントデバイス(図示省略)等に適用してもよい。このような場合、例えば、サーバ200は、ユーザに関するセンシングデータに基づいて、ユーザが将来的に行う目的行動を推定することができる。そして、サーバ200は、推定した目的行動に基づいて、当該目的行動を実行するのに好適な、対話型エージェントデバイス300(ホームエージェントデバイス)との対話に割当てる情報処理リソースの容量を推定する。さらに、サーバ200は、当該推定結果に基づき、対話型エージェントデバイス300(ホームエージェントデバイス)の応答の質を決定するファクタを調整することができる。このようにすることで、ユーザは、ホームエージェントデバイスとの対話に邪魔をされることなく、目的行動をスムーズに実施することが可能となる。以下に、このような本開示の第2の実施形態の詳細を順次説明する。
なお、本実施形態に係る情報処理システム10及び情報処理システム10に含まれる各装置の詳細構成は、上述の第1の実施形態と共通する。従って、ここでは、本実施形態に係る情報処理システム10及び情報処理システム10に含まれる各装置の構成の詳細な説明を省略する。
<3.1 情報処理方法>
次に、本実施形態における情報処理方法について説明するが、本実施形態における情報処理方法は、図5に示される本開示の第1の実施形態に係る情報処理方法のフローチャート図と同様である。しかしながら、本実施形態においては、第1の実施形態におけるステップS100及びステップS200における処理が第1の実施形態と異なる。従って、以下の説明においては、上述の第1の実施形態と異なる点のみを説明し、第1の実施形態と共通する点については、その説明を省略する。
(ステップS100)
サーバ200は、第1の実施形態と同様に、ユーザに関するセンシングデータを取得する。ただし、本実施形態においては、サーバ200は、ユーザのスケジュール情報やユーザの位置情報等も取得する点で、第1の実施形態と異なる。
(ステップS200)
サーバ200は、第1の実施形態と同様に、上述のステップS100で取得したセンシングデータに基づき、対話型エージェントデバイス300との対話に割当てる情報処理リソースの容量を推定する。ただし、本実施形態においては、サーバ200は、上述したステップS100で取得したセンシングデータやスケジュール情報等に基づき、ユーザの実行しようとする目的行動(睡眠、入浴、家事等)を推定する。そして、サーバ200は、推定されたユーザが実行しようとする目的行動に基づいて、当該目的行動を実行するのに好適な、対話型エージェントデバイス300との対話に割当てる情報処理リソースの容量を推定する。そして、サーバ200は、この後の処理において、当該ステップS200で推定された情報処理リソースの容量に基づいて、対話型エージェントデバイス300(の応答の質を決定するファクタを調整することとなる。
具体的には、例えば、ユーザの実行しようとする目的行動が入眠であった場合には、ユーザがスムーズに入眠するためには、入眠の直前に行う対話型エージェントデバイス300との対話は、難易度の低いものであるほうが好ましい。そこで、サーバ200は、ユーザの実行しようとする目的行動が入眠であった場合には、対話型エージェントデバイス300との対話に割当てるユーザの情報処理リソースの容量が小さくなるように、応答の質を調整することとなる。
以上のように、本実施形態によれば、対話型エージェントデバイス300との対話の質が、ユーザの行動目的に好適な状態になることから、ユーザは、対話型エージェントデバイス300との対話に邪魔をされることなく、目的行動をスムーズに実施することが可能となる。
<3.2 実施例>
以上、本開示の第2の実施形態における情報処理方法の詳細について説明した。次に、具体的な実施例を示しながら、本実施形態に係る情報処理方法の例について、より具体的に説明する。なお、以下に示す実施例は、第2の実施形態に係る情報処理方法のあくまでも一例であって、第2の実施形態に係る情報処理方法が下記の例に限定されるものではない。
本実施例においては、音声でコミュニケーションを行うホームエージェント用インタフェースとして、本実施形態に係る対話型エージェントデバイス300を用いるものとする。また、本実施例においては、ユーザの脈拍の情報は、例えば、脈波センサとして機能する、自宅内に設置された撮像装置(図示省略)を用いて取得するものとする。加えて、当該撮像装置は、ユーザの視線を検出する視線センサとしても機能するものとする。さらに、本実施例においては、応答時間の情報は、例えば、サウンドセンサとして機能する、ホームエージェント用インタフェースに搭載の収音装置(図示省略)を用いて取得するものとする。以下に、本実施例の詳細について、図19を参照して説明する。図19は、本実施形態の実施例を説明するための説明図である。
以下の実施例においては、サーバ200は、視線センサ及び脈波センサからのセンシングデータを用いることで、ユーザが実際に寝ようとしているのか、眠気の有る状態か、どの程度の時間を経過したら入眠するか等を推定することができるものとする。また、本実施例においては、サーバ200は、ユーザのスケジュール情報からユーザの入眠予定時間を把握してもよい。
例えば、サーバ200が、ユーザのセンシングデータやスケジュール情報等に基づいて、ユーザが、眠気をあまり感じていない状態にあり、入眠1時間前(すなわち、1時間経過後にはユーザが入眠すると推定される)である場合について説明する。このような場合、図17の左側に示すように、ユーザは眠気をあまり感じていない状態にあることから、ユーザの、脈拍数は通常であり、且つ、応答時間も短くなる。このような場合、入眠前までにまだ時間があることから、ユーザが対話に使用する情報処理リソースの容量を大きく推定しても、ユーザの入眠を妨げることがないと考えられる。そこで、サーバ200は、情報粒度、難易度等が高くなるようにファクタを調整する。
そして、このような状況において、ユーザがホームエージェントデバイス(対話型エージェントデバイス300)に対して、「田中さんに、「明日は9時に駅前で待ち合わせ。」ってメッセージを送って。」と発話した場合を説明する。このような場合、例えば、ホームエージェントデバイスは、「メッセージを送信できません。田中さんは登録されていないか、別の名前で登録されている可能性があります。メッセージを送信する場合には、田中さんを新しく登録してください。」と、調整された情報粒度等に応じて、長く、複数の情報を含む文章を用いて応答することとなる。
そして、例えば、ユーザが、眠気を感じつつあり、入眠30分前(すなわち、30分経過後にはユーザが入眠すると推定される)である場合について説明する。このような場合、図17の中央に示すように、ユーザは眠気を感じている状態にあることから、ユーザの、脈拍数は通常であり、且つ、応答時間も少し長くなる。このような場合、ユーザが対話に使用する情報処理リソースの容量を小さく推定することが、ユーザのスムーズな入眠のためには好適である。そこで、サーバ200は、情報粒度、難易度等が少し低くなるようにファクタを調整する。
そして、このような状況において、ユーザがホームエージェントデバイスに対して、上述の例と同じ発話をした場合を説明する。この場合、ホームエージェントデバイスは、「メッセージを送信できません。田中さんは登録されていないようです。」と、調整された情報粒度等に応じて、少し短く、2つの情報を含む文章を用いて応答することとなる。
さらに、例えば、ユーザが、眠気を強く感じており、入眠10分前(すなわち、10分経過後にはユーザが入眠すると推定される)である場合について説明する。このような場合、図17の右側に示すように、ユーザは眠気を強く感じている状態にあることから、ユーザの、脈拍数は低く、且つ、応答時間も長くなる。このような場合、ユーザが対話に使用する情報処理リソースの容量を非常に小さく推定することが、ユーザのスムーズな入眠のためには好適である。そこで、サーバ200は、情報粒度、難易度等が低くなるようにファクタを調整する。
そして、このような状況において、ユーザがホームエージェントデバイスに対して、上述の例と同じ発話をした場合を説明する。このような場合、例えば、ホームエージェントデバイスは、「メッセージを送信できません。」と、調整された情報粒度等に応じて、短く、1つの情報を含む文章を用いて応答することとなる。
以上のように、本実施例によれば、ホームエージェントデバイスの対話の質が、ユーザの入眠に好適な状態になることから、ユーザは、ホームエージェントデバイスとの対話に邪魔をされることなく、スムーズに入眠することができる。すなわち、本実施例によれば、常に稼動しているホームエージェントデバイスが、ユーザの生活の邪魔になるようなことを避けつつ、ユーザに利便性を提供することができるようになる。
また、本実施例においては、機械学習(ディープラーニング)を用いることにより、サーバ200が、より好適にファクタの調整を行うようにしてもよい。例えば、上述のファクタに対して、当該各ファクタに基づいた応答を行った際のユーザの入眠状態(スムーズに入眠した、寝つきが悪かった等)によるラベル(教師信号)を付し、複数のファクタを入力信号として学習器(図示省略)に入力する。当該学習器は、ファクタと入眠状態との関係を機械学習し、スムーズな入眠に好適なファクタを探索し、次回の応答においては、このように探索されたファクタを初期値等として用いてもよい。
なお、上述の入眠状態は、各種のセンシングデータから推定してもよく、ユーザによる評価であってもよく、特に限定されるものではない。また、上述のような機械学習は、上述した本開示の各実施形態及び各実施例に適用することもできる。
<<4.まとめ>>
以上のように、本開示の実施形態においては、ユーザに関するセンシングデータに基づき、当該ユーザの、対話型エージェントデバイス300との対話に割当てる情報処理リソースの容量を推定する。そして、本実施形態においては、推定の結果に基づき、対話型エージェントデバイス300が当該ユーザに対して行う応答の質を定めるファクタを調整する。そして、本実施形態によれば、上記ファクタを介して、ユーザの情報処理リソースに基づいて、対話型エージェントデバイス300が応答することができることから、当該ユーザにおける対話型エージェントデバイス300との対話の満足度を高めることができる。
<<5.ハードウェア構成>>
次に、図20を参照して、本開示の実施形態に係る情報処理装置のハードウェア構成について説明する。図20は、情報処理装置のハードウェア構成を説明するためのブロック図である。図示された情報処理装置900は、例えば、上述の実施形態におけるサーバ200又は対話型エージェントデバイス300を実現し得る。
情報処理装置900は、CPU901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インタフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置900は、センサ935を含んでもよい。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP(Digital Signal Processor)等の処理回路を有してもよい。
CPU901は、演算処理装置及び制御装置として機能し、ROM902、RAM903、ストレージ装置919、又はリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般又はその一部を制御する。ROM902は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。CPU901、ROM902、及びRAM903は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス911に接続されている。
入力装置915は、例えば、ボタン、キーボード、タッチパネル、マウス、マイクロフォン、撮像装置等、ユーザによって操作される装置である。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応したスマートフォン等の外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等の表示装置、スピーカ及びヘッドフォン等の音声出力装置などであり得る。出力装置917は、情報処理装置900の処理により得られた結果を、テキスト又は画像などの映像として出力したり、音声又は音響などの音声として出力したりすることができる。
ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、及び外部から取得した各種のデータ等を格納する。
ドライブ921は、磁気ディスク、光ディスク、又は半導体メモリ等のリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM903に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理装置900に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等であり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポート等であってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置925は、例えば、有線又は無線LAN(Local Area Network)、Bluetooth(登録商標)、WUSB(wireless USB)用の通信カード等であり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は、各種通信用のモデム等であってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号等を送受信する。また、通信装置925に接続される通信ネットワーク931は、有線又は無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信又は衛星通信等である。
センサ935は、例えば、上述した検出装置100に含まれる各種センサを含む。また、センサ935は、撮像装置等を含んでもよい。
以上、情報処理装置900のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
<<6.補足>>
なお、先に説明した本開示の実施形態は、例えば、上記で説明したような情報処理装置又は情報処理システムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、及びプログラムが記録された一時的でない有形の媒体を含みうる。また、当該プログラムをインターネット等の通信回線(無線通信も含む)を介して頒布してもよい。
また、上述した本開示の実施形態の情報処理方法における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。さらに、各ステップの処理についても、必ずしも記載された方法に沿って処理されなくてもよく、例えば、他の機能部によって他の方法により処理されていてもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信する受信部と、
受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定する推定部と、
前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整する応答調整部と、
を備える、情報処理装置。
(2)
前記推定部は、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、上記(1)に記載の情報処理装置。
(3)
前記推定部は、前記センシングデータに基づき、前記対話型エージェントデバイスとの対話に起因する前記ユーザの情報処理負荷量を推定し、前記情報処理負荷量に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、上記(2)に記載の情報処理装置。
(4)
前記推定部は、前記ユーザの前記対話型エージェントデバイスの発話に対する応答時間、及び、前記ユーザの脳波のうちの少なくとも1つに基づき、前記情報処理負荷量を推定する、上記(3)に記載の情報処理装置。
(5)
前記推定部は、前記センシングデータに基づき、前記ユーザの内的状態を推定し、前記ユーザの内的状態に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、上記(2)に記載の情報処理装置。
(6)
前記推定部は、前記ユーザの生体情報から得られた前記ユーザのストレス状態、運動状態、及び興奮状態のうちの少なくとも1つに基づき、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、上記(5)に記載の情報処理装置。
(7)
前記推定部は、前記センシングデータに基づき、前記ユーザの注意状態を推定し、前記ユーザの注意状態に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、上記(2)に記載の情報処理装置。
(8)
前記推定部は、前記ユーザの視線の検出結果、及び前記ユーザの周囲環境の検出結果のうちの少なくとも1つに基づき、前記ユーザの注意状態を推定する、上記(7)に記載の情報処理装置。
(9)
前記推定部は、前記ユーザの実行しようとする目的行動に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てる前記情報処理リソースの容量を推定する、上記(1)に記載の情報処理装置。
(10)
前記センシングデータは、前記ユーザの発話を収音する収音装置、又は、前記ユーザからのテキスト入力を受け付ける入力装置から受信される、上記(1)又は上記(2)に記載の情報処理装置。
(11)
前記センシングデータは、前記ユーザと前記対話型エージェントデバイスとの対話における非言語情報を含む、上記(10)に記載の情報処理装置。
(12)
前記非言語情報は、前記対話型エージェントデバイスの発話に対する前記ユーザの応答時間、及び、前記ユーザの発話の韻律情報のうちの少なくとも1つを含む、上記(11)に記載の情報処理装置。
(13)
前記センシングデータは、前記ユーザの心拍、脈拍、脳波、呼吸、発汗、筋電位、皮膚温度、皮膚電気抵抗、表情、眼球運動、瞳孔径、凝視時間のうちの少なくとも1つを検出する生体情報センサから受信される、上記(1)又は上記(2)に記載の情報処理装置。
(14)
前記センシングデータは、前記ユーザの周囲環境の状態を検出する周囲環境センサから受信される、上記(1)又は上記(2)に記載の情報処理装置。
(15)
前記センシングデータは、前記ユーザの動作を検出するモーションセンサから受信される、上記(1)又は上記(2)に記載の情報処理装置。
(16)
前記センシングデータは、前記ユーザが位置する位置情報を検出する位置センサから受信される、上記(1)又は上記(2)に記載の情報処理装置。
(17)
前記応答調整部は、前記対話型エージェントデバイスにより前記ユーザに対して自然言語を音声出力又はテキスト出力することにより行われる応答の前記ファクタを調整する、上記(1)〜(16)のいずれか1つに記載の情報処理装置。
(18)
前記応答調整部は、前記応答における、情報粒度、情報量、情報難易度、情報種類、発話スピード、発話音量のうちの少なくとも1つを定める前記ファクタを調整する、上記(17)に記載の情報処理装置。
(19)
前記応答調整部は、前記ユーザのコンテキストに基づいて、前記ファクタを調整する、上記(17)又は上記(18)に記載の情報処理装置。
(20)
1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信することと、
受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定することと、
前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整することと、
を含む、情報処理方法。
10 情報処理システム
100 検出装置
100b、100c ウェアラブルデバイス
110 センシング部
110a サウンドセンサ
110b 視線センサ
110c 脈波センサ
120、250 送信部
200 サーバ
210、310 受信部
220 情報取得部
230 推定部
240 調整部
260、350 記憶部
300 対話型エージェントデバイス
300a 車載用音声インタフェース
300b ヘッドフォン
320 入力部
330 制御部
340 出力部
400 通信ネットワーク
900 情報処理装置
901 CPU
902 ROM
903 RAM
907 ホストバス
909 ブリッジ
911 外部バス
913 インタフェース
915 入力装置
917 出力装置
919 ストレージ装置
921 ドライブ
923 接続ポート
925 通信装置
927 リムーバブル記録媒体
929 外部接続機器
935 センサ

Claims (20)

  1. 1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信する受信部と、
    受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定する推定部と、
    前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整する応答調整部と、
    を備える、情報処理装置。
  2. 前記推定部は、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、請求項1に記載の情報処理装置。
  3. 前記推定部は、前記センシングデータに基づき、前記対話型エージェントデバイスとの対話に起因する前記ユーザの情報処理負荷量を推定し、前記情報処理負荷量に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、請求項2に記載の情報処理装置。
  4. 前記推定部は、前記ユーザの前記対話型エージェントデバイスの発話に対する応答時間、及び、前記ユーザの脳波のうちの少なくとも1つに基づき、前記情報処理負荷量を推定する、請求項3に記載の情報処理装置。
  5. 前記推定部は、前記センシングデータに基づき、前記ユーザの内的状態を推定し、前記ユーザの内的状態に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、請求項2に記載の情報処理装置。
  6. 前記推定部は、前記ユーザの生体情報から得られた前記ユーザのストレス状態、運動状態、及び興奮状態のうちの少なくとも1つに基づき、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、請求項5に記載の情報処理装置。
  7. 前記推定部は、前記センシングデータに基づき、前記ユーザの注意状態を推定し、前記ユーザの注意状態に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てることが可能な前記情報処理リソースの容量を推定する、請求項2に記載の情報処理装置。
  8. 前記推定部は、前記ユーザの視線の検出結果、及び前記ユーザの周囲環境の検出結果のうちの少なくとも1つに基づき、前記ユーザの注意状態を推定する、請求項7に記載の情報処理装置。
  9. 前記推定部は、前記ユーザの実行しようとする目的行動に基づいて、前記ユーザが前記対話型エージェントデバイスとの対話に割当てる前記情報処理リソースの容量を推定する、請求項1に記載の情報処理装置。
  10. 前記センシングデータは、前記ユーザの発話を収音する収音装置、又は、前記ユーザからのテキスト入力を受け付ける入力装置から受信される、請求項1に記載の情報処理装置。
  11. 前記センシングデータは、前記ユーザと前記対話型エージェントデバイスとの対話における非言語情報を含む、請求項10に記載の情報処理装置。
  12. 前記非言語情報は、前記対話型エージェントデバイスの発話に対する前記ユーザの応答時間、及び、前記ユーザの発話の韻律情報のうちの少なくとも1つを含む、請求項11に記載の情報処理装置。
  13. 前記センシングデータは、前記ユーザの心拍、脈拍、脳波、呼吸、発汗、筋電位、皮膚温度、皮膚電気抵抗、表情、眼球運動、瞳孔径、凝視時間のうちの少なくとも1つを検出する生体情報センサから受信される、請求項1に記載の情報処理装置。
  14. 前記センシングデータは、前記ユーザの周囲環境の状態を検出する周囲環境センサから受信される、請求項1に記載の情報処理装置。
  15. 前記センシングデータは、前記ユーザの動作を検出するモーションセンサから受信される、請求項1に記載の情報処理装置。
  16. 前記センシングデータは、前記ユーザが位置する位置情報を検出する位置センサから受信される、請求項1に記載の情報処理装置。
  17. 前記応答調整部は、前記対話型エージェントデバイスにより前記ユーザに対して自然言語を音声出力又はテキスト出力することにより行われる応答の前記ファクタを調整する、請求項1に記載の情報処理装置。
  18. 前記応答調整部は、前記応答における、情報粒度、情報量、情報難易度、情報種類、発話スピード、発話音量のうちの少なくとも1つを定める前記ファクタを調整する、請求項17に記載の情報処理装置。
  19. 前記応答調整部は、前記ユーザのコンテキストに基づいて、前記ファクタを調整する、請求項17に記載の情報処理装置。
  20. 1人又は複数人のユーザに関する少なくとも1つのセンシングデータを受信することと、
    受信した前記センシングデータに基づき、前記ユーザの情報処理リソースを推定することと、
    前記推定の結果に基づき、対話型エージェントデバイスの応答の質を決定するファクタを調整することと、
    を含む、情報処理方法。
JP2018075964A 2018-04-11 2018-04-11 情報処理装置及び情報処理方法 Pending JP2021114004A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018075964A JP2021114004A (ja) 2018-04-11 2018-04-11 情報処理装置及び情報処理方法
PCT/JP2019/001920 WO2019198299A1 (ja) 2018-04-11 2019-01-22 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018075964A JP2021114004A (ja) 2018-04-11 2018-04-11 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2021114004A true JP2021114004A (ja) 2021-08-05

Family

ID=68162843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018075964A Pending JP2021114004A (ja) 2018-04-11 2018-04-11 情報処理装置及び情報処理方法

Country Status (2)

Country Link
JP (1) JP2021114004A (ja)
WO (1) WO2019198299A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036887A1 (en) * 2018-12-07 2022-02-03 Sony Group Corporation Information processing device, information processing method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022032092A (ja) * 2020-08-11 2022-02-25 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6580973B2 (en) * 2000-10-14 2003-06-17 Robert H. Leivian Method of response synthesis in a driver assistance system
JP2003108191A (ja) * 2001-10-01 2003-04-11 Toyota Central Res & Dev Lab Inc 音声対話装置
JP2004233676A (ja) * 2003-01-30 2004-08-19 Honda Motor Co Ltd 対話制御装置
US7627476B2 (en) * 2005-12-16 2009-12-01 International Business Machines Corporation Call flow modification based on user situation
JP2016013753A (ja) * 2014-07-01 2016-01-28 トヨタ自動車株式会社 車両用情報報知装置
JP6515764B2 (ja) * 2015-09-28 2019-05-22 株式会社デンソー 対話装置及び対話方法
EP3451149A4 (en) * 2016-04-27 2019-04-17 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220036887A1 (en) * 2018-12-07 2022-02-03 Sony Group Corporation Information processing device, information processing method, and program
US11942081B2 (en) * 2018-12-07 2024-03-26 Sony Group Corporation Information processing device and information processing method for response presentation

Also Published As

Publication number Publication date
WO2019198299A1 (ja) 2019-10-17

Similar Documents

Publication Publication Date Title
US11937943B2 (en) Detection of physical abuse or neglect using data from ear-wearable devices
CN106992013B (zh) 语音情感修改
KR102334942B1 (ko) 돌봄 로봇을 위한 데이터 처리 방법 및 장치
JP7424285B2 (ja) 情報処理システム、情報処理方法、および記録媒体
JP2021044001A (ja) 情報処理システム、制御方法、およびプログラム
JP2013097311A (ja) 学習支援装置、学習支援方法および学習支援プログラム
JP2013154458A (ja) 対話装置、対話プログラムおよび対話方法
US11145219B2 (en) System and method for changing content based on user reaction
US20210287655A1 (en) Information processing apparatus and information processing method
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
JP2019159707A (ja) 情報提示装置、情報提示方法及び情報提示プログラム
CN114432565A (zh) 空想意识信息恢复系统
EP3340240B1 (en) Information processing device, information processing method, and program
US11992340B2 (en) Efficient wellness measurement in ear-wearable devices
WO2023166979A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20240078731A1 (en) Avatar representation and audio generation
US20220101873A1 (en) Techniques for providing feedback on the veracity of spoken statements
Lukosik Research on the Influence of Noise on Concentration Using Brain-Computer Interface Technology
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN117171344A (zh) 情感策略提示方法、装置、系统及电子设备
JP2021170148A (ja) 情報処理装置、情報処理方法、および記録媒体