JP7031603B2

JP7031603B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7031603B2
Application number: JP2018553757A
Authority: JP
Inventors: 直紀井手; 啓福井; 亮中橋; 英行松永
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-11-29
Filing date: 2017-11-15
Publication date: 2022-03-08
Anticipated expiration: 2037-11-15
Also published as: US20190272477A1; EP3550476A1; EP3550476A4; WO2018101035A1; JPWO2018101035A1

Description

本技術は、情報処理装置及び情報処理方法に関し、特に、アクションに対する報酬を適切に与えることができるようにした情報処理装置及び情報処理方法に関する。

従来、ゲームという環境において、画面情報（すなわち、強化学習における状態）に基づいて、スコア（すなわち、強化学習における報酬）を最も高くするコマンド操作（すなわち、強化学習におけるアクション）を選択する方法を、強化学習により自動的に獲得する技術が提案されている（例えば、非特許文献１参照）。

V. Mnih，他７名，"Playing Atari with deep reinforcement learning"， In Deep Learning, Neural Information Processing Systems Workshop, 2013

ところで、非特許文献１に記載された技術では、明確なスコアが報酬として与えられるが、現実の世界では、明確なスコアが報酬として与えられることは少ない。従って、環境からの入力を報酬に変換する非線形処理が必要となる場合がある。

例えば、ユーザのアシストを行うエージェントを考えた場合、エージェントのアクションに対してユーザ（すなわち、機械学習における環境）が報酬を与え、強化学習を行うことにより、アシスト機能が最適化される。この報酬は、必ずしも直接的な手段によって与えられるものではないため、ユーザからの入力を報酬に変換する非線形処理が必要となる場合がある。例えば、ユーザが発する言葉（例えば、「ありがとう」、「ダメ」等）を報酬に変換する非線形処理が必要となる場合がある。

この非線形処理は、例えば、ユーザ間で共通するという前提の下に予め学習される。しかしながら、報酬を与えるための入力は、ユーザ間で差が生じる。また、通常非線形処理の内容はユーザにとって未知であり、ユーザは、どのようにして入力が報酬に変換されるかが正確に分からないため、必ずしもいつも適切な入力を行えるとは限らない。そのため、ユーザが意図した報酬とエージェントが認識する報酬との間に差異が生じる場合がある。この差異により、エージェントが誤った学習を行い、ユーザが満足するアシスト機能を提供できないおそれがある。

そこで、本技術は、アクションに対して適切に報酬を与えることができるようにするものである。

本技術の一側面の情報処理装置は、アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、報酬の推定が行われた後に、推定された報酬の提示の制御を行う提示制御部とを備え、前記報酬推定部は、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う。

前記報酬推定部には、前記第２のユーザ入力が前記再入力期間中に入力される毎に、前記アクションに対する報酬の修正を行わせることができる。

前記報酬推定部には、前記第２のユーザ入力が前記再入力期間中に複数回入力された場合、入力に要した時間が制限時間内である前記第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行わせることができる。

前記提示制御部には、前記第２のユーザ入力を受け付けていることを示す提示の制御を行わせることができる。

前記提示制御部には、修正後の報酬の提示の制御を行わせることができる。

前記報酬推定部には、前記第２のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正させることができる。

前記報酬推定部には、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正させることができる。

前記報酬推定部には、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬との差異、及び、前記第２のユーザ入力が行われるまでの時間のうち少なくとも１つに基づいて、報酬の修正の要否を判定させることができる。

前記第１のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第１の学習部をさらに設けることができる。

前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第２の学習部をさらに設けることができる。

前記提示制御部には、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御させることができる。

本技術の一側面の情報処理方法は、情報処理装置が、アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定を行い、報酬の推定が行われた後に、推定された報酬の提示の制御を行い、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う情報処理方法である。

本技術の一側面においては、アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定が行われ、報酬の推定が行われた後に、推定された報酬が提示され、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正が行われる。

本技術の一側面によれば、アクションに対する報酬を適切に与えることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理装置の一実施の形態を示すブロック図である。ロボットの外観の構成例を示す模式図である。電子機器の外観の構成例を示す模式図である。スマートフォンの外観の構成例を示す模式図である。情報処理装置により実行される情報処理を説明するためのフローチャートである。情報処理装置により実行される情報処理を説明するためのフローチャートである。報酬の提示方法の例を示す図である。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例
３．応用例

＜＜１．実施の形態＞＞
＜情報処理装置の構成例＞
まず、図１を参照して、本技術を適用した情報処理装置１０の構成例について説明する。

情報処理装置１０は、例えば、ユーザのアシスト等を行うエージェント（例えば、ロボット、電子機器、ソフトウエア等）を構成する。情報処理装置１０は、入力部１１、情報処理部１２、及び、出力部１３を備える。

入力部１１は、情報処理装置１０への各種のデータの入力に用いられる。例えば、入力部１１は、センサ部２１及び操作部２２を備える。

センサ部２１は、１種類以上のセンサを備える。例えば、センサ部２１は、画像センサ、位置センサ、慣性センサ、環境センサ、電波センサ、触覚センサ、マイクロフォン等を備える。画像センサには、例えば、イメージセンサ、奥行きセンサ、熱分布センサ等が含まれる。位置センサには、例えば、ＧＰＳ受信機等が含まれる。慣性センサには、例えば、加速度センサ、回転（ジャイロ）センサ、速度（オドメトリ）センサ等が含まれる。環境センサには、例えば、温度センサ、気圧センサ、地磁気センサ、照度センサ等が含まれる。電波センサには、例えば、セルラー、Wi-Fi、bluetooth（登録商標）等の各種の方式の通信デバイス等が含まれる。センサ部２１の各センサは、検出結果を示すセンサデータを生成し、情報処理部１２の入力制御部３１に供給する。

操作部２２は、１種類以上の操作デバイスを備える。操作デバイスには、例えば、ボタン、スイッチ、キーボード、マウス、タッチパネル等が含まれる。操作部２２の各操作デバイスは、操作内容を示す操作データを生成し、情報処理部１２の入力制御部３１に供給する。

なお、以下、入力部１１の各部から出力されるデータをまとめて入力データと称する。

情報処理部１２は、例えば、プロセッサ、記憶装置等を備える。情報処理部１２は、入力制御部３１、状態推定部３２、行動生成部３３、行動制御部３４、報酬推定部３５、提示制御部３６、バッファ３７、履歴生成部３８、記憶部３９、及び、学習部４０を備える。

入力制御部３１は、入力部１１からの入力データの入力、並びに、取得した入力データの状態推定部３２及び報酬推定部３５への供給を制御する。

状態推定部３２は、入力データに基づく観測変数に基づいて、情報処理装置１０の状態を推定する。状態推定部３２は、推定した状態を表す状態変数を含む状態情報を行動生成部３３及びバッファ３７に供給する。また、状態推定部３２は、入力データに基づいて、ユーザにより指示されたアクションを検出し、検出結果を行動生成部３３に通知する。

行動生成部３３は、ユーザからの指示、又は、行動モデル学習部５１により構築される行動モデル、及び、状態変数に基づいて、情報処理装置１０が実行するアクションの選択を行う。また、行動生成部３３は、実行するアクションに必要な出力部１３の各部による一連の処理を示すアクション情報を生成し、行動制御部３４及びバッファ３７に供給する。

行動制御部３４は、アクション情報に基づいて、出力部１３の各部を制御して、行動生成部３３により選択されたアクションを実行させる。

報酬推定部３５は、報酬モデル学習部５２により構築される報酬モデル、及び、入力データに基づく観測変数に基づいて、情報処理装置１０のアクションに対してユーザが与える報酬の推定を行う。報酬推定部３５は、推定した報酬を示す報酬情報を提示制御部３６及びバッファ３７に供給する。また、報酬推定部３５は、報酬の推定に用いた観測変数を含む観測情報をバッファ３７に供給する。

提示制御部３６は、出力部１３の各部を制御して、報酬推定部３５により推定された報酬の提示等を制御する。

履歴生成部３８は、バッファ３７に蓄積されている観測情報、状態情報、アクション情報、及び、報酬情報に基づいて、情報処理装置１０のアクションの履歴を示す行動履歴、及び、情報処理装置１０に与えられた報酬の履歴を示す報酬履歴の生成及び更新を行う。

学習部４０は、行動モデル学習部５１及び報酬モデル学習部５２を備える。

行動モデル学習部５１は、記憶部３９に記憶されている行動履歴に基づいて、情報処理装置１０のアクションの実行に用いる行動モデルの学習を行う。行動モデル学習部５１は、構築した行動モデルを行動生成部３３に供給する。

報酬モデル学習部５２は、記憶部３９に記憶されている報酬履歴に基づいて、情報処理装置１０のアクションに対してユーザにより与えられる報酬の推定に用いる報酬モデルの学習を行う。報酬モデル学習部５２は、構築した報酬モデルを報酬推定部３５に供給する。

出力部１３は、例えば、各種のアクションの実行、各種の情報の提示等を行う。各種のアクションには、動作を伴うアクションだけでなく、例えば、感情の表出等も含まれる。出力部１３は、例えば、表示部７１、音声出力部７２、照明部７３、駆動部７４、及び、通信部７５を備える。

表示部７１は、１種類以上の表示デバイスを備える。表示デバイスには、例えば、ディスプレイ、各種のパラメータや測定値等を表示する装置（例えば、ゲージ等）、人の表情を模擬する装置、外部に画像データを出力するための画像出力端子等が含まれる。

音声出力部７２は、１種類以上の音声出力デバイスを備える。音声出力デバイスには、例えば、スピーカ、ブザー、アラーム、チャイム、外部に音声データを出力するための音声出力端子等が含まれる。

照明部７３は、１種類以上の照明デバイスを備える。照明デバイスには、例えば、ＬＥＤ（Light Emitting Diode）、ランプ等が含まれる。

駆動部７４は、１種類以上の駆動デバイスを備える。駆動デバイスには、例えば、アクチュエータ等が含まれる。

通信部７５は、１種類以上の通信デバイスを備える。通信デバイスの通信方式には、任意の方式を採用することができる。

＜情報処理装置の具体例＞
次に、図２乃至図４を参照して、情報処理装置１０の具体例について説明する。

図２は、情報処理装置１０の第１の実施の形態であるロボット１００の外観の構成例を模式的に示している。

ロボット１００は、例えば、ユーザをアシストしたり、ユーザとコミュニケーションしたりすることが可能なロボットである。ロボット１００は、筐体１０１、触覚センサ１０２、ゲージ１０３、アクチュエータ１０４Ｌ、及び、アクチュエータ１０４Ｒを備える。

円柱状の筐体１０１の上面には、円柱状の触覚センサ１０２が設けられ、前面には、ゲージ１０３が設けられ、側面の左右には、円柱状のアクチュエータ１０４Ｌ及びアクチュエータ１０４Ｒが設けられている。

触覚センサ１０２は、ユーザの指等が触れた位置、及び、その圧力等を検出可能であり、ユーザとのコミュニケーション等に用いられる。触覚センサ１０２は、例えば、図１の情報処理装置１０のセンサ部２１に含まれる。

ゲージ１０３は、色、明るさ、点滅の有無、点滅の速度等を調整可能な発光素子を備え、光の色、明るさ、点滅等により、ロボット１００の感情等を表す。ゲージ１０３は、例えば、図１の情報処理装置１０の照明部７３に含まれる。

アクチュエータ１０４Ｌ及びアクチュエータ１０４Ｒは、ロボット１００が所定の動作を行うのに用いられる。アクチュエータ１０４Ｌ及びアクチュエータ１０４Ｒは、例えば、図１の情報処理装置１０の駆動部７４に含まれる。

図３は、情報処理装置１０の第２の実施の形態である電子機器１５０の外観の構成例を模式的に示している。

電子機器１５０は、例えば、ユーザが音声により入力した指示、或いは、ネットワークを介して遠方から与えられる指示に従って処理を行う機器である。電子機器１５０は、筐体１５１、センサ部１５２、情報処理部１５３、ゲージ１５４、及び、スピーカ１５５を備える。

直方体の筐体１５１の右側面には、円柱状のセンサ部１５２が設けられ、前面には、直方体の情報処理部１５３が設けられ、左側面には、円柱状のスピーカ１５５が設けられている。情報処理部１５３の前面には、ゲージ１５４が設けられている。

センサ部１５２は、例えば、マイクロフォン、カメラ、振動センサ等を備える。センサ部１５２は、例えば、図１の情報処理装置１０のセンサ部２１に相当する。

情報処理部１５３は、例えば、図１の情報処理装置１０の情報処理部１２に相当する。

ゲージ１５４は、一端を軸にして上下方向に回転する針１５４Ａ、及び、発光可能な目盛り板１５４Ｂを備える。ゲージ１５４は、針１５４Ａの位置、及び、目盛り板１５４Ｂの色や明るさ等により、電子機器１５０の感情等を表す。なお、針１５４Ａの位置について、水平方向より上方向を正の方向とし、下方向を負の方向とする。ゲージ１５４は、例えば、図１の情報処理装置１０の表示部７１及び照明部７３に含まれる。

スピーカ１５５は、例えば、図１の情報処理装置１０の音声出力部７２に含まれる。

図４は、情報処理装置１０の第３の実施の形態であるスマートフォン２００の外観の構成例を模式的に示している。スマートフォン２００は、筐体２０１、スピーカ２０２、ディスプレイ２０３、ボタン群２０４、マイクロフォン２０５、及び、カメラ２０２を備える。

スピーカ２０２は、ほぼ矩形の板状の筐体２０１のオモテ面の上端付近に設けられている。スピーカ２０２は、例えば、図１の情報処理装置１０の音声出力部７２に含まれる。

ディスプレイ２０３は、タッチパネル式であり、筐体２０１のオモテ面に設けられている。ディスプレイ２０３のタッチパネルの部分は、例えば、図１の情報処理装置１０の操作部２２に含まれ、ディスプレイの部分は、例えば、図１の情報処理装置１０の表示部７１に含まれる。

ボタン群２０４は、筐体２０１のオモテ面において、ディスプレイ２０３の下方に設けられている。ボタン群２０４は、例えば、図１の情報処理装置１０の操作部２２に含まれる。

マイクロフォン２０５は、筐体２０１のオモテ面の下端付近に設けられている。マイクロフォン２０５は、例えば、図１の情報処理装置１０のセンサ部２１に含まれる。

カメラ２０６のレンズは、筐体２０１の裏面の上端付近に設けられている。カメラ２０６は、例えば、図１の情報処理装置１０のセンサ部２１に含まれる。

＜情報処理装置１０の処理の具体例＞
次に、図５及び図６のフローチャートを参照して、情報処理装置１０により実行される情報処理について説明する。この処理は、例えば、情報処理装置１０の電源がオンされたとき開始され、情報処理装置１０の電源がオフされたとき終了する。

なお、以下、図２のロボット１００、図３の電子機器１５０、及び、図４のスマートフォン２００の処理を適宜具体例として挙げながら説明する。

ステップＳ１において、情報処理部１２は、アクションを実行するか否かを判定する。例えば、状態推定部３２は、入力制御部３１を介して入力部１１から供給される入力データに基づいて、ユーザによりアクションの実行が指示されたことを検出した場合、アクションを実行すると判定し、処理はステップＳ２に進む。

ステップＳ２において、情報処理装置１０は、アクションを実行する。具体的には、状態推定部３２は、入力データに基づく観測変数に基づいて、情報処理装置１０の状態を推定する。この情報処理装置１０の状態には、情報処理装置１０内部の状態、及び、情報処理装置１０の外部（例えば、周囲の環境等）の状態が含まれる。また、観測変数には、入力データだけでなく、例えば、入力データを加工したデータ（例えば、ユーザの表情や姿勢、音素、テキストデータ等）が含まれる。

状態推定部３２は、推定した状態を表す状態変数を含む状態情報を行動生成部３３に供給するとともに、バッファ３７に蓄積させる。なお、状態推定部３２は、古い状態情報がバッファ３７に蓄積されている場合、新しい状態情報により上書きする。また、状態推定部３２は、ユーザにより指示されたアクションの内容を行動生成部３３に通知する。

なお、例えば、観測変数が状態を直接表す場合、状態推定部３２は、観測変数を恒等変換することにより状態変数を求める。

行動生成部３３は、行動モデル及び状態変数に基づいて、ユーザにより指示されたアクションを実行するために、出力部１３の各部が行う一連の処理を求める。行動生成部３３は、求めた処理を示すアクション情報を行動制御部３４に供給するとともに、バッファ３７に蓄積させる。なお、状態推定部３２は、古いアクション情報がバッファ３７に蓄積されている場合、新しいアクション情報により上書きする。

行動制御部３４は、アクション情報に基づいて、出力部１３の各部を制御し、ユーザにより指示されたアクションを実行させる。

なお、ステップＳ１及びステップＳ２の処理において、情報処理装置１０が、ユーザの指示ではなく、例えば、状態に基づいてアクションを実行するようにしてもよい。

例えば、ステップＳ１において、状態推定部３２は、入力制御部３１を介して入力部１１から供給される入力データに基づく観測変数に基づいて、情報処理装置１０の状態を推定する。状態推定部３２は、推定した状態を表す状態変数を含む状態情報を行動生成部３３に供給するとともに、バッファ３７に蓄積させる。なお、状態推定部３２は、古い状態情報がバッファ３７に蓄積されている場合、新しい状態情報により上書きする。

行動生成部３３は、行動モデル及び状態変数に基づいて、アクションの実行の有無を判定し、アクションを実行すると判定した場合、処理はステップＳ２に進む。

ステップＳ２において、行動生成部３３は、行動モデル及び状態変数に基づいて、実行するアクションを選択する。また、行動生成部３３は、選択したアクションを実行するために、出力部１３の各部が行う一連の処理を求める。例えば、ネットワークの接続をセルラーからWi-Fiに切り替えた後、ブラウザを起動する等の一連の処理が求められる。行動生成部３３は、求めた処理を示すアクション情報を行動制御部３４に供給するとともに、バッファ３７に蓄積させる。なお、状態推定部３２は、古いアクション情報がバッファ３７に蓄積されている場合、新しいアクション情報により上書きする。

行動制御部３４は、アクション情報に基づいて、出力部１３の各部を制御し、選択されたアクションを実行させる。

ステップＳ３において、情報処理装置１０は、レスポンスの入力を受け付ける。例えば、入力制御部３１は、情報処理装置１０のアクションが終了した後、所定の期間（以下、初期レスポンス期間と称する）、アクションに対する報酬を付与するためのユーザ入力であるレスポンスの入力を受け付ける。入力制御部３１は、初期レスポンス期間中に入力部１１から供給される入力データを報酬推定部３５に供給する。

なお、アクションに対するレスポンスは、ユーザにより能動的又は意識的に入力されるもの（能動的又は意識的なユーザ入力）であってもよいし、受動的又は無意識に入力されるもの（受動的な又は無意識のユーザ入力）であってもよい。

前者の場合、例えば、ユーザが、意識的に表情を変化させたり、姿勢を変えたり、ジェスチャを行ったり、音声を発したりすることによりレスポンスが入力される。或いは、例えば、ユーザが操作部２２を操作することによりレスポンスが入力される。

後者の場合、例えば、報酬推定部３５が、アクションに対するユーザの自然なレスポンス（例えば、表情、身体動作等）を、入力データ（例えば、画像データや音声データ）に基づいて検出する。

例えば、図２のロボット１００の場合、ユーザは、触覚センサ１０２に触れることによりレスポンスを入力する。例えば、ユーザは、ロボット１００が期待通りのアクションを行った場合、触覚センサ１０２を優しく撫でることにより、ロボット１００を褒める。一方、ユーザは、ロボット１００が期待通りのアクションを行わなかった場合、触覚センサ１０２を叩くことにより、ロボット１００を叱る。

例えば、図３の電子機器１５０又は図４のスマートフォン２００の場合、ユーザは、音声によりレスポンスを入力する。例えば、ユーザは、電子機器１５０又はスマートフォン２００が期待通りのアクションを行った場合、「ありがとう」等の言葉により褒める。一方、ユーザは、電子機器１５０又はスマートフォン２００が期待通りのアクションを行わなかった場合、「ダメ」等の言葉により叱責する。

ステップＳ４において、報酬推定部３５は、初期レスポンス期間中に入力された入力データに基づいて、レスポンスが入力されたか否かを判定する。レスポンスが入力されたと判定された場合、処理はステップＳ５に進む。

ステップＳ５において、報酬推定部３５は、入力されたレスポンスに基づいて、報酬を推定する。具体的には、報酬推定部３５は、報酬モデル、及び、入力されたレスポンスに対応する入力データに基づく観測変数に基づいて、ステップＳ２において実行されたアクションに対してユーザにより付与された報酬を推定する。すなわち、報酬推定部３５は、ユーザのレスポンスにより表される報酬を推定する。報酬推定部３５は、推定した報酬（以下、初期報酬と称する）を示す初期報酬情報を提示制御部３６に供給するとともに、バッファ３７に蓄積させる。また、報酬推定部３５は、初期報酬の認識に用いた観測変数を含む初期観測情報をバッファ３７に蓄積させる。なお、状態推定部３２は、古い初期報酬情報及び初期観測情報がバッファ３７に蓄積されている場合、新しい初期報酬情報及び初期観測情報により上書きする。

なお、報酬が直接レスポンスとして入力される場合、報酬推定部３５は、単にレスポンスを恒等変換することにより報酬を求める。

ステップＳ６において、提示制御部３６は、出力部１３の各部を制御して、推定した報酬（初期報酬）を提示する。

例えば、図２のロボット１００の場合、ゲージ１０３により初期報酬が提示される。例えば、ロボット１００は、正の報酬が与えられたと推定した場合（アクションがユーザにより認められたと推定した場合）、喜びの感情を表す場合と同様の色や明るさにゲージ１０３を設定する。一方、例えば、ロボット１００は、負の報酬が与えられたと推定した場合（アクションがユーザにより認められなかったと推定した場合）、悲しみの感情を表す場合と同様の色や明るさにゲージ１０３を設定する。このとき、初期報酬の値（レベル）に応じて、ゲージ１０３の色や明るさを変化させてもよい。

また、ロボット１００は、例えば、ゲージ１０３を点滅させることにより、ロボット１００の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。

図３の電子機器１５０の場合、ゲージ１５４及び音声を用いて初期報酬が提示される。例えば、電子機器１５０は、正の報酬が与えられたと推定した場合、ゲージ１５４の針１５４Ａを正の方向に動かす。また、電子機器１５０は、喜びの感情を表す場合と同様の色や明るさにゲージ１５４の目盛り板１５４Ｂを設定する。さらに、電子機器１５０は、「嬉しい」、「ありがとうございます」、「誠にありがとうございます」等の喜びや感謝の意を示す音声をスピーカ１５５から出力する。

一方、例えば、電子機器１５０は、負の報酬が与えられたと推定した場合、ゲージ１５４の針１５４Ａを負の方向に動かす。また、電子機器１５０は、悲しみの感情を表す場合と同様の色や明るさにゲージ１５４の目盛り板１５４Ｂを設定する。さらに、電子機器１５０は、「悲しい」、「ごめんなさい」、「すみません」、「申し訳ありません」、「大変申し訳ありません」等の悲しみや謝罪の意を示す音声をスピーカ１５５から出力する。

このとき、初期報酬の値（レベル）に応じて、目盛り板１５４Ｂの色や明るさを変化させたり、出力する音声の表現を変化させたりしてもよい。

また、電子機器１５０は、例えば、目盛り板１５４Ｂを点滅させることにより、電子機器１５０の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。

図５のスマートフォン２００の場合、ディスプレイ２０３及び音声を用いて初期報酬が提示される。例えば、スマートフォン２００は、正の報酬が与えられたと推定した場合、ディスプレイ２０３に表示されるゲージ２１１の値を大きくする。また、スマートフォン２００は、「嬉しい」、「ありがとうございます」、「誠にありがとうございます」等の喜びや感謝の意を示す音声をスピーカ２０２から出力する。

一方、例えば、スマートフォン２００は、負の報酬が与えられたと推定した場合、ディスプレイ２０３に表示されるゲージ２１１の値を小さくする。また、スマートフォン２００は、「悲しい」、「ごめんなさい」、「すみません」、「申し訳ありません」、「大変申し訳ありません」等の悲しみや謝罪の意を示す音声をスピーカ２０２から出力する。

このとき、初期報酬の値（レベル）に応じて、ゲージ２１１の値を変化させたり、出力する音声の表現を変化させたりしてもよい。

また、スマートフォン２００は、例えば、ディスプレイ２０３のバックライトを点滅させることにより、スマートフォン２００の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。

ステップＳ７において、情報処理装置１０は、レスポンスの再入力を受け付ける。例えば、入力制御部３１は、推定された報酬が提示された後、所定の期間（以下、修正レスポンス期間と称する）、アクションに対するレスポンスの再入力を受け付ける。また、提示制御部３６は、出力部１３の各部を制御して、修正レスポンス期間（レスポンスの再入力を受け付けており、再入力可能であること）をユーザに認識させるための提示を行わせる。例えば、ステップＳ６の処理で行われた、推定した報酬を提示していることを示す提示（例えば、ゲージ１０３の点滅、目盛り板１５４Ｂの点滅、ディスプレイ２０３の点滅等）が、修正レスポンス期間中も継続され、修正レスポンス期間の終了に伴い終了する。

例えば、ユーザは、自分が意図した報酬と、報酬推定部３５が推定した報酬とが異なる場合、報酬推定部３５に正確な報酬を認識させるために再度レスポンスを入力する。このとき、ユーザは、情報処理装置１０に意図した報酬が確実に認識されるように、より丁寧にレスポンスを入力することが想定される。例えば、音声によりレスポンスを入力する場合、標準語の音声用に報酬推定部３５が調整されているとき、ユーザの訛りが強いと、報酬の誤認識が発生しやすい。これに対して、例えば、ユーザは、レスポンスの再入力時に、できる限り標準語に近い発音で音声を入力することが想定される。

ステップＳ８において、報酬推定部３５は、修正レスポンス期間中に入力された入力データに基づいて、レスポンスが再入力されたか否かを判定する。レスポンスが再入力されたと判定された場合、処理はステップＳ９に進む。

ステップＳ９において、報酬推定部３５は、再入力されたレスポンスに基づいて、報酬を推定する。具体的には、報酬推定部３５は、報酬モデル、及び、再入力されたレスポンスに対応する入力データに基づく観測変数に基づいて、ステップＳ２において実行されたアクションに対してユーザにより付与された報酬を再度推定する。

ステップＳ１０において、報酬推定部３５は、報酬を修正するか否かを判定する。例えば、報酬推定部３５は、レスポンスの再入力までに要した時間や、初期報酬とステップＳ９の処理で推定した報酬（以下、再入力報酬と称する）との差異等に基づいて、報酬を修正するか否かを判定する。

例えば、報酬推定部３５は、レスポンスの再入力までに要した時間が所定の制限時間内である場合、修正に対するユーザの確信度が高い（ユーザに迷いがない）と推定されるため、報酬を修正すると判定する。一方、報酬推定部３５は、レスポンスの再入力までに要した時間が制限時間を超えている場合、修正に対するユーザの確信度が低い（ユーザに迷いがある）と推定されるため、報酬を修正しないと判定する。

また、例えば、報酬推定部３５は、初期報酬と再入力報酬との差異が所定の閾値以上である場合、報酬を修正すると判定する。一方、報酬推定部３５は、初期報酬と再入力報酬との差異が所定の閾値未満である場合、報酬を修正しないと判定する。

なお、この修正の要否の判定処理は、例えば、ニューラルネット等を用いたモジュールにより実行される。

そして、報酬を修正すると判定された場合、処理はステップＳ１１に進む。

ステップＳ１１において、報酬推定部３５は、報酬を修正する。例えば、報酬推定部３５は、初期報酬から再入力報酬に置き換えることにより、報酬の推定結果を修正する。

或いは、例えば、報酬推定部３５は、初期報酬と再入力報酬とを重み付け加算することにより、報酬の認識結果を修正する。例えば、レスポンスの再入力に要した時間が短いほど、再入力報酬に対する重みが大きくなり、レスポンスの再入力に要した時間が長いほど、再入力報酬に対する重みが小さくなる。

報酬推定部３５は、修正した報酬（以下、修正報酬と称する）を示す修正報酬情報を提示制御部３６に供給するとともに、バッファ３７に蓄積させる。また、報酬推定部３５は、再入力報酬の推定に用いた観測変数を含む修正観測情報をバッファ３７に蓄積させる。なお、報酬推定部３５は、古い修正報酬情報及び修正観測情報がバッファ３７に蓄積されている場合、新しい修正報酬情報及び修正観測情報で上書きする。

ステップＳ１２において、ステップＳ６と同様の処理により、修正した報酬が提示される。このとき、情報処理装置１０は、報酬を修正したことを明示的にユーザに伝えるようにしてもよい。例えば、「修正しました」、「誤解していました」、「うまくいきましたね」等の音声が出力される。

その後、処理はステップＳ１３に進む。

一方、ステップＳ１０において、報酬を修正しないと判定された場合、ステップＳ１１及びステップＳ１２の処理はスキップされ、処理はステップＳ１３に進む。

また、ステップＳ８において、レスポンスが再入力されていないと判定された場合、ステップＳ９乃至ステップＳ１２の処理はスキップされ、処理はステップＳ１３に進む。

ステップＳ１３において、入力制御部３１は、再入力期間が経過したか否かを判定する。再入力期間が経過していないと判定された場合、処理はステップＳ８に戻る。

その後、ステップＳ１３において、再入力期間が経過したと判定されるまで、ステップＳ８乃至ステップＳ１３の処理が繰り返し実行される。これにより、ユーザは、再入力期間中に、何度もレスポンスを入力し、報酬の修正を行うことができる。また、修正後の報酬がユーザに提示される。なお、報酬の修正が複数回行われた場合、例えば、最後の修正を有効としてもよいし、或いは、確信度の高い修正を有効としてもよい。

一方、ステップＳ１３において、再入力期間が経過したと判定された場合、処理はステップＳ１４に進む。

また、ステップＳ４において、レスポンスが入力されなかったと判定された場合、ステップＳ５乃至ステップＳ１３の処理はスキップされ、報酬の推定は行われずに、処理はステップＳ１４に進む。

ステップＳ１４において、履歴生成部３８は、記憶部３９に記憶されている履歴を更新する。

例えば、初期報酬が付与された後、そのまま修正されなかった場合、履歴生成部３８は、今回のアクションに対応する状態情報、アクション情報、及び、初期報酬情報をバッファ３７から取得し、互いに関連づけて行動履歴に追加する。また、履歴生成部３８は、今回のアクションに対応する初期観測情報及び初期報酬情報をバッファ３７から取得し、互いに関連づけて報酬履歴に追加する。

一方、初期報酬が付与された後、修正された場合、履歴生成部３８は、今回のアクションに対応する状態情報、アクション情報、及び、修正報酬情報をバッファ３７から取得し、互いに関連づけて行動履歴に追加する。また、履歴生成部３８は、今回のアクションに対応する初期観測情報及び修正報酬情報をバッファ３７から取得し、互いに関連づけて報酬履歴に追加する。すなわち、初期観測情報に対して、修正前の初期報酬情報ではなく、修正後の修正報酬情報が関連づけられて報酬履歴に追加される。さらに、履歴生成部３８は、今回のアクションに対応する修正観測情報及び修正報酬情報をバッファ３７から取得し、互いに関連づけて報酬履歴に追加する。

また、報酬が付与されなかった場合、履歴生成部３８は、今回のアクションに対応する状態情報及びアクション情報をバッファ３７から取得し、互いに関連づけて行動履歴に追加する。この場合、追加した履歴に報酬情報は含まれない。また、履歴生成部３８は、報酬履歴を更新しない。

その後、処理はステップＳ１５に進む。

一方、ステップＳ１において、アクションを実行しないと判定された場合、ステップＳ２乃至ステップＳ１４の処理はスキップされ、処理はステップＳ１５に進む。

ステップＳ１５において、行動モデル学習部５１は、行動モデルを更新するか否かを判定する。行動モデル学習部５１は、所定の条件が満たされている場合、行動モデルを更新すると判定し、処理はステップＳ１６に進む。所定の条件とは、例えば、前回行動モデルを更新した後の経過時間が所定の閾値以上である、前回行動モデルを更新した後の行動履歴の増加量が所定の閾値以上である等である。

ステップＳ１６において、行動モデル学習部５１は、行動モデルを更新する。すなわち、行動モデル学習部５１は、記憶部３９に記憶されている行動履歴を用いて学習を行い、行動モデルを更新する。

なお、行動モデルの学習には、任意の手法を用いることが可能であるが、例えば、強化学習が用いられる。例えば、予め規定されている予測報酬関数を最大化するように、勾配法を用いて行動モデルのパラメータが学習される。また、強化学習を用いた場合、入力と正解を含む大量の学習データを準備することなく、行動モデルを構築することができる。強化学習の例としては、例えば、Ｑ学習、ＴＤ誤差学習、ActorCritic法、SARSA、ポリシー勾配、ポリシーサーチ、REINFORCE等の学習法が考えられる。

また、上述したように報酬の修正が行われることにより、各アクションに対して、より正確な報酬が与えられる。そして、報酬が修正されたアクションについては、当該アクションと当該アクションに対する修正後の報酬との組合せ、より厳密には、当該アクションに対する状態情報、アクション情報、及び、修正報酬情報の組合せが、行動モデルの学習に用いられる。報酬情報の利用に際しては、さらに、その確信度を併用するようにしてもよい。報酬が修正されなかったアクションについては、当該アクションと当該アクションに対する修正前の報酬との組合せ、より厳密には、当該アクションに対する状態情報、アクション情報、及び、初期報酬情報の組合せが、行動モデルの学習に用いられる。その結果、行動モデルの精度が向上する。

その後、処理はステップＳ１７に進む。

一方、ステップＳ１５において、行動モデル学習部５１は、所定の条件が満たされていない場合、行動モデルを更新しないと判定し、ステップＳ１６の処理はスキップされ、処理はステップＳ１７に進む。

ステップＳ１７において、報酬モデル学習部５２は、報酬モデルを更新するか否かを判定する。報酬モデル学習部５２は、所定の条件が満たされている場合、報酬モデルを更新すると判定し、処理はステップＳ１８に進む。所定の条件とは、例えば、前回報酬モデルを更新した後の経過時間が所定の閾値以上である、前回報酬モデルを更新した後の行動履歴の増加量が所定の閾値以上である等である。

ステップＳ１８において、報酬モデル学習部５２は、報酬モデルを更新する。すなわち、報酬モデル学習部５２は、記憶部３９に記憶されている報酬履歴を用いて学習を行い、報酬モデルを更新する。

なお、報酬モデルには、例えば、ニューラルネットワークが用いられる。また、報酬モデルの学習には、任意の手法を用いることが可能であるが、例えば、回帰モデル（報酬が連続値の場合）や分類モデル（報酬が離散値の場合）を用いた強化学習が用いられる。

また、上述したように報酬の修正が行われることにより、各レスポンスに対して、より正確な報酬が与えられる。そして、報酬が修正された場合、レスポンスと修正後の報酬との組合せ、より厳密には、初期観測情報と修正報酬情報の組合せ、及び、再入力観測情報と修正報酬情報の組合せが、報酬モデルの学習に用いられる。報酬が修正されなかった場合、レスポンスと修正前の報酬との組合せ、より厳密には、初期観測情報と初期報酬情報の組合せが、報酬モデルの学習に用いられる。その結果、報酬モデルの精度が向上する。

その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

一方、ステップＳ１７において、報酬モデル学習部５２は、所定の条件が満たされていない場合、報酬モデルを更新しないと判定し、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

以上のようにして、アクションに対する報酬が適切に与えられる。その結果、より高精度の行動モデル及び報酬モデルが、より短時間で構築されるようになる。また、例えば、報酬モデルをユーザ毎に構築することにより、各ユーザのレスポンスの傾向に合わせて、報酬モデルを最適化することができる。

さらに、ユーザは、推定された報酬が提示されることにより、レスポンスと情報処理装置１０により推定される報酬との関係（非線形処理）をより正確に把握することができ、より適切なアクションにより報酬を与えることが可能になる。

＜＜２．変形例＞＞
以下、上述した本技術の実施の形態の変形例について説明する。

＜提示方法に関する変形例＞
推定した報酬の提示方法は、上述した方法に限定されるものではなく、任意の方法を採用することができる。

例えば、表示部７１は、図７のＡに示されるメータの値により、推定した報酬を提示するようにしてもよい。

また、例えば、表示部７１は、図７のＢに示される顔の画像により、推定した報酬を提示するようにしてもよい。例えば、５段階の値で報酬が付与される場合、最も高い報酬が付与されたと推定された場合、左端の顔の画像が表示され、報酬が下がるにつれて、表示される顔の画像が右方向に遷移し、最も低い報酬が付与されたと推定された場合、右端の顔の画像が表示される。

さらに、例えば、表示部７１は、正の報酬が付与されたと推定された場合、図７のＣの画像を表示するようにしてもよい。

また、以上の説明では、推定した報酬を提示していることを示す提示方法と、修正レスポンス期間（レスポンスの再入力を受け付けており、再入力可能であること）を示す提示方法を同じにしたが、互いに異なる提示方法を用いるようにしてもよい。さらに、２つの提示方法が同じか否かに関わらず、任意の提示方法を採用することができる。ただし、情報処理装置１０の感情を提示する場合と確実に区別できることが可能な提示方法を用いることが望ましい。

さらに、例えば、修正レスポンス期間だけでなく、初期レスポンス期間を示す提示を行うようにしてもよい。

＜システムの構成に関する変形例＞
図１の情報処理装置１０の構成例は、その一例であり、必要に応じて変更することが可能である。

例えば、入力部１１、情報処理部１２、及び、出力部１３の機能の分担を変更することが可能である。また、例えば、情報処理装置１０の一部を外部の装置に設けるようにすることが可能である。

＜その他の変形例＞
アクションに対するレスポンスの入力方法は、任意の方法を採用することができ、また、複数の入力方法が提供されてもよい。複数の入力方法が提供される場合、例えば、ユーザは、複数の方法を組み合わせたり、レスポンスを再入力する際に最初に入力した方法と異なる方法を選択したりすることが可能になる。

また、行動生成部３３は、例えば、予め定められたルールに従って、アクションの選択等を行うようにしてもよい。

＜＜３．応用例＞＞
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）４０１，ＲＯＭ（Read Only Memory）４０２，ＲＡＭ（Random Access Memory）４０３は、バス４０４により相互に接続されている。

バス４０４には、さらに、入出力インタフェース４０５が接続されている。入出力インタフェース４０５には、入力部４０６、出力部４０７、記憶部４０８、通信部４０９、及びドライブ４１０が接続されている。

入力部４０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部４０７は、ディスプレイ、スピーカなどよりなる。記憶部４０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部４０９は、ネットワークインタフェースなどよりなる。ドライブ４１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア４１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ４０１が、例えば、記憶部４０８に記憶されているプログラムを、入出力インタフェース４０５及びバス４０４を介して、ＲＡＭ４０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ４０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア４１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア４１１をドライブ４１０に装着することにより、入出力インタフェース４０５を介して、記憶部４０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部４０９で受信し、記憶部４０８にインストールすることができる。その他、プログラムは、ＲＯＭ４０２や記憶部４０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、例えば、本技術は以下のような構成も取ることができる。

（１）
アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、
推定された報酬の提示の制御を行う提示制御部と
を備える情報処理装置。
（２）
前記報酬推定部は、前記推定された報酬の提示後に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
前記（１）に記載の情報処理装置。
（３）
前記報酬推定部は、前記推定された報酬の提示後の所定の期間内に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
前記（２）に記載の情報処理装置。
（４）
前記提示制御部は、前記第２のユーザ入力を受け付けていることを示す提示の制御を行う
前記（２）又は（３）に記載の情報処理装置。
（５）
前記提示制御部は、修正後の報酬の提示の制御を行う
前記（２）乃至（４）に記載の情報処理装置。
（６）
前記報酬推定部は、前記第２のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正する
前記（２）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記報酬推定部は、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正する
前記（２）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記報酬推定部は、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬との差異、及び、前記第２のユーザ入力が行われるまでの時間のうち少なくとも１つに基づいて、報酬の修正の要否を判定する
前記（２）乃至（６）のいずれかに記載の情報処理装置。
（９）
前記第１のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第１の学習部を
さらに備える前記（２）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第２の学習部を
さらに備える前記（２）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記提示制御部は、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御する
前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
アクションに対するユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定ステップと、
推定された報酬の提示の制御を行う提示制御ステップと
を含む情報処理方法。

１０情報処理装置，１１入力部，１２情報処理部，１３出力部，２１センサ部，２２操作部，３１入力制御部，３２状態推定部，３３行動生成部，３４行動制御部，３５報酬推定部，３６提示制御部，３８履歴生成部，４０学習部，５１行動モデル学習部，５２報酬モデル学習部, ７１表示部，７２音声出力部，７３照明部，７４駆動部，７５通信部，１００ロボット，１０２触覚センサ，１０３ゲージ，１５０電子機器，１５４ゲージ，１５４Ａ針，１５４Ｂ目盛り板，２００スマートフォン，２０３ディスプレイ，２１１ゲージ

Claims

アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、
報酬の推定が行われた後に、推定された報酬の提示の制御を行う提示制御部と
を備え、
前記報酬推定部は、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
情報処理装置。
前記報酬推定部は、前記第２のユーザ入力が前記再入力期間中に入力される毎に、前記アクションに対する報酬の修正を行う
請求項１に記載の情報処理装置。
前記報酬推定部は、前記第２のユーザ入力が前記再入力期間中に複数回入力された場合、入力に要した時間が制限時間内である前記第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
請求項１または２に記載の情報処理装置。
前記提示制御部は、前記第２のユーザ入力を受け付けていることを示す提示の制御を行う
請求項１乃至３のいずれかに記載の情報処理装置。
前記提示制御部は、修正後の報酬の提示の制御を行う
請求項１乃至４のいずれかに記載の情報処理装置。
前記報酬推定部は、前記第２のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正する
請求項１乃至５のいずれかに記載の情報処理装置。
前記報酬推定部は、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正する
請求項１乃至６のいずれかに記載の情報処理装置。
前記報酬推定部は、前記第１のユーザ入力に基づいて推定した報酬と前記第２のユーザ入力に基づいて推定した報酬との差異、及び、前記第２のユーザ入力が行われるまでの時間のうち少なくとも１つに基づいて、報酬の修正の要否を判定する
請求項１乃至６のいずれかに記載の情報処理装置。
前記第１のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第１の学習部を
さらに備える請求項１乃至８のいずれかに記載の情報処理装置。
前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第２の学習部を
さらに備える請求項１乃至９のいずれかに記載の情報処理装置。
前記提示制御部は、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御する
請求項１乃至１０のいずれかに記載の情報処理装置。
情報処理装置が、
アクションに対する第１のユーザ入力に基づいて、前記アクションに対する報酬の推定を行い、
報酬の推定が行われた後に、推定された報酬の提示の制御を行い、
前記推定された報酬の提示後の期間として設定された再入力期間に入力された第２のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
情報処理方法。