JP7031603B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7031603B2
JP7031603B2 JP2018553757A JP2018553757A JP7031603B2 JP 7031603 B2 JP7031603 B2 JP 7031603B2 JP 2018553757 A JP2018553757 A JP 2018553757A JP 2018553757 A JP2018553757 A JP 2018553757A JP 7031603 B2 JP7031603 B2 JP 7031603B2
Authority
JP
Japan
Prior art keywords
reward
action
information processing
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018553757A
Other languages
English (en)
Other versions
JPWO2018101035A1 (ja
Inventor
直紀 井手
啓 福井
亮 中橋
英行 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018101035A1 publication Critical patent/JPWO2018101035A1/ja
Application granted granted Critical
Publication of JP7031603B2 publication Critical patent/JP7031603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0489Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
    • G06F3/04895Guidance during keyboard input operation, e.g. prompting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本技術は、情報処理装置及び情報処理方法に関し、特に、アクションに対する報酬を適切に与えることができるようにした情報処理装置及び情報処理方法に関する。
従来、ゲームという環境において、画面情報(すなわち、強化学習における状態)に基づいて、スコア(すなわち、強化学習における報酬)を最も高くするコマンド操作(すなわち、強化学習におけるアクション)を選択する方法を、強化学習により自動的に獲得する技術が提案されている(例えば、非特許文献1参照)。
V. Mnih, 他7名,"Playing Atari with deep reinforcement learning", In Deep Learning, Neural Information Processing Systems Workshop, 2013
ところで、非特許文献1に記載された技術では、明確なスコアが報酬として与えられるが、現実の世界では、明確なスコアが報酬として与えられることは少ない。従って、環境からの入力を報酬に変換する非線形処理が必要となる場合がある。
例えば、ユーザのアシストを行うエージェントを考えた場合、エージェントのアクションに対してユーザ(すなわち、機械学習における環境)が報酬を与え、強化学習を行うことにより、アシスト機能が最適化される。この報酬は、必ずしも直接的な手段によって与えられるものではないため、ユーザからの入力を報酬に変換する非線形処理が必要となる場合がある。例えば、ユーザが発する言葉(例えば、「ありがとう」、「ダメ」等)を報酬に変換する非線形処理が必要となる場合がある。
この非線形処理は、例えば、ユーザ間で共通するという前提の下に予め学習される。しかしながら、報酬を与えるための入力は、ユーザ間で差が生じる。また、通常非線形処理の内容はユーザにとって未知であり、ユーザは、どのようにして入力が報酬に変換されるかが正確に分からないため、必ずしもいつも適切な入力を行えるとは限らない。そのため、ユーザが意図した報酬とエージェントが認識する報酬との間に差異が生じる場合がある。この差異により、エージェントが誤った学習を行い、ユーザが満足するアシスト機能を提供できないおそれがある。
そこで、本技術は、アクションに対して適切に報酬を与えることができるようにするものである。
本技術の一側面の情報処理装置は、アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、報酬の推定が行われた後に、推定された報酬の提示の制御を行う提示制御部とを備え、前記報酬推定部は、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
前記報酬推定部には、前記第2のユーザ入力が前記再入力期間中に入力される毎に、前記アクションに対する報酬の修正を行わせることができる。
前記報酬推定部には、前記第2のユーザ入力が前記再入力期間中に複数回入力された場合、入力に要した時間が制限時間内である前記第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行わせることができる。
前記提示制御部には、前記第2のユーザ入力を受け付けていることを示す提示の制御を行わせることができる。
前記提示制御部には、修正後の報酬の提示の制御を行わせることができる。
前記報酬推定部には、前記第2のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正させることができる。
前記報酬推定部には、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正させることができる。
前記報酬推定部には、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬との差異、及び、前記第2のユーザ入力が行われるまでの時間のうち少なくとも1つに基づいて、報酬の修正の要否を判定させることができる。
前記第1のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第1の学習部をさらに設けることができる。
前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第2の学習部をさらに設けることができる。
前記提示制御部には、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御させることができる。
本技術の一側面の情報処理方法は、情報処理装置が、アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定を行い、報酬の推定が行われた後に、推定された報酬の提示の制御を行い、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う情報処理方法である
本技術の一側面においては、アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定が行われ、報酬の推定が行われた後に、推定された報酬が提示され、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正が行われる。
本技術の一側面によれば、アクションに対する報酬を適切に与えることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理装置の一実施の形態を示すブロック図である。 ロボットの外観の構成例を示す模式図である。 電子機器の外観の構成例を示す模式図である。 スマートフォンの外観の構成例を示す模式図である。 情報処理装置により実行される情報処理を説明するためのフローチャートである。 情報処理装置により実行される情報処理を説明するためのフローチャートである。 報酬の提示方法の例を示す図である。 コンピュータの構成例を示すブロック図である。
以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
3.応用例
<<1.実施の形態>>
<情報処理装置の構成例>
まず、図1を参照して、本技術を適用した情報処理装置10の構成例について説明する。
情報処理装置10は、例えば、ユーザのアシスト等を行うエージェント(例えば、ロボット、電子機器、ソフトウエア等)を構成する。情報処理装置10は、入力部11、情報処理部12、及び、出力部13を備える。
入力部11は、情報処理装置10への各種のデータの入力に用いられる。例えば、入力部11は、センサ部21及び操作部22を備える。
センサ部21は、1種類以上のセンサを備える。例えば、センサ部21は、画像センサ、位置センサ、慣性センサ、環境センサ、電波センサ、触覚センサ、マイクロフォン等を備える。画像センサには、例えば、イメージセンサ、奥行きセンサ、熱分布センサ等が含まれる。位置センサには、例えば、GPS受信機等が含まれる。慣性センサには、例えば、加速度センサ、回転(ジャイロ)センサ、速度(オドメトリ)センサ等が含まれる。環境センサには、例えば、温度センサ、気圧センサ、地磁気センサ、照度センサ等が含まれる。電波センサには、例えば、セルラー、Wi-Fi、bluetooth(登録商標)等の各種の方式の通信デバイス等が含まれる。センサ部21の各センサは、検出結果を示すセンサデータを生成し、情報処理部12の入力制御部31に供給する。
操作部22は、1種類以上の操作デバイスを備える。操作デバイスには、例えば、ボタン、スイッチ、キーボード、マウス、タッチパネル等が含まれる。操作部22の各操作デバイスは、操作内容を示す操作データを生成し、情報処理部12の入力制御部31に供給する。
なお、以下、入力部11の各部から出力されるデータをまとめて入力データと称する。
情報処理部12は、例えば、プロセッサ、記憶装置等を備える。情報処理部12は、入力制御部31、状態推定部32、行動生成部33、行動制御部34、報酬推定部35、提示制御部36、バッファ37、履歴生成部38、記憶部39、及び、学習部40を備える。
入力制御部31は、入力部11からの入力データの入力、並びに、取得した入力データの状態推定部32及び報酬推定部35への供給を制御する。
状態推定部32は、入力データに基づく観測変数に基づいて、情報処理装置10の状態を推定する。状態推定部32は、推定した状態を表す状態変数を含む状態情報を行動生成部33及びバッファ37に供給する。また、状態推定部32は、入力データに基づいて、ユーザにより指示されたアクションを検出し、検出結果を行動生成部33に通知する。
行動生成部33は、ユーザからの指示、又は、行動モデル学習部51により構築される行動モデル、及び、状態変数に基づいて、情報処理装置10が実行するアクションの選択を行う。また、行動生成部33は、実行するアクションに必要な出力部13の各部による一連の処理を示すアクション情報を生成し、行動制御部34及びバッファ37に供給する。
行動制御部34は、アクション情報に基づいて、出力部13の各部を制御して、行動生成部33により選択されたアクションを実行させる。
報酬推定部35は、報酬モデル学習部52により構築される報酬モデル、及び、入力データに基づく観測変数に基づいて、情報処理装置10のアクションに対してユーザが与える報酬の推定を行う。報酬推定部35は、推定した報酬を示す報酬情報を提示制御部36及びバッファ37に供給する。また、報酬推定部35は、報酬の推定に用いた観測変数を含む観測情報をバッファ37に供給する。
提示制御部36は、出力部13の各部を制御して、報酬推定部35により推定された報酬の提示等を制御する。
履歴生成部38は、バッファ37に蓄積されている観測情報、状態情報、アクション情報、及び、報酬情報に基づいて、情報処理装置10のアクションの履歴を示す行動履歴、及び、情報処理装置10に与えられた報酬の履歴を示す報酬履歴の生成及び更新を行う。
学習部40は、行動モデル学習部51及び報酬モデル学習部52を備える。
行動モデル学習部51は、記憶部39に記憶されている行動履歴に基づいて、情報処理装置10のアクションの実行に用いる行動モデルの学習を行う。行動モデル学習部51は、構築した行動モデルを行動生成部33に供給する。
報酬モデル学習部52は、記憶部39に記憶されている報酬履歴に基づいて、情報処理装置10のアクションに対してユーザにより与えられる報酬の推定に用いる報酬モデルの学習を行う。報酬モデル学習部52は、構築した報酬モデルを報酬推定部35に供給する。
出力部13は、例えば、各種のアクションの実行、各種の情報の提示等を行う。各種のアクションには、動作を伴うアクションだけでなく、例えば、感情の表出等も含まれる。出力部13は、例えば、表示部71、音声出力部72、照明部73、駆動部74、及び、通信部75を備える。
表示部71は、1種類以上の表示デバイスを備える。表示デバイスには、例えば、ディスプレイ、各種のパラメータや測定値等を表示する装置(例えば、ゲージ等)、人の表情を模擬する装置、外部に画像データを出力するための画像出力端子等が含まれる。
音声出力部72は、1種類以上の音声出力デバイスを備える。音声出力デバイスには、例えば、スピーカ、ブザー、アラーム、チャイム、外部に音声データを出力するための音声出力端子等が含まれる。
照明部73は、1種類以上の照明デバイスを備える。照明デバイスには、例えば、LED(Light Emitting Diode)、ランプ等が含まれる。
駆動部74は、1種類以上の駆動デバイスを備える。駆動デバイスには、例えば、アクチュエータ等が含まれる。
通信部75は、1種類以上の通信デバイスを備える。通信デバイスの通信方式には、任意の方式を採用することができる。
<情報処理装置の具体例>
次に、図2乃至図4を参照して、情報処理装置10の具体例について説明する。
図2は、情報処理装置10の第1の実施の形態であるロボット100の外観の構成例を模式的に示している。
ロボット100は、例えば、ユーザをアシストしたり、ユーザとコミュニケーションしたりすることが可能なロボットである。ロボット100は、筐体101、触覚センサ102、ゲージ103、アクチュエータ104L、及び、アクチュエータ104Rを備える。
円柱状の筐体101の上面には、円柱状の触覚センサ102が設けられ、前面には、ゲージ103が設けられ、側面の左右には、円柱状のアクチュエータ104L及びアクチュエータ104Rが設けられている。
触覚センサ102は、ユーザの指等が触れた位置、及び、その圧力等を検出可能であり、ユーザとのコミュニケーション等に用いられる。触覚センサ102は、例えば、図1の情報処理装置10のセンサ部21に含まれる。
ゲージ103は、色、明るさ、点滅の有無、点滅の速度等を調整可能な発光素子を備え、光の色、明るさ、点滅等により、ロボット100の感情等を表す。ゲージ103は、例えば、図1の情報処理装置10の照明部73に含まれる。
アクチュエータ104L及びアクチュエータ104Rは、ロボット100が所定の動作を行うのに用いられる。アクチュエータ104L及びアクチュエータ104Rは、例えば、図1の情報処理装置10の駆動部74に含まれる。
図3は、情報処理装置10の第2の実施の形態である電子機器150の外観の構成例を模式的に示している。
電子機器150は、例えば、ユーザが音声により入力した指示、或いは、ネットワークを介して遠方から与えられる指示に従って処理を行う機器である。電子機器150は、筐体151、センサ部152、情報処理部153、ゲージ154、及び、スピーカ155を備える。
直方体の筐体151の右側面には、円柱状のセンサ部152が設けられ、前面には、直方体の情報処理部153が設けられ、左側面には、円柱状のスピーカ155が設けられている。情報処理部153の前面には、ゲージ154が設けられている。
センサ部152は、例えば、マイクロフォン、カメラ、振動センサ等を備える。センサ部152は、例えば、図1の情報処理装置10のセンサ部21に相当する。
情報処理部153は、例えば、図1の情報処理装置10の情報処理部12に相当する。
ゲージ154は、一端を軸にして上下方向に回転する針154A、及び、発光可能な目盛り板154Bを備える。ゲージ154は、針154Aの位置、及び、目盛り板154Bの色や明るさ等により、電子機器150の感情等を表す。なお、針154Aの位置について、水平方向より上方向を正の方向とし、下方向を負の方向とする。ゲージ154は、例えば、図1の情報処理装置10の表示部71及び照明部73に含まれる。
スピーカ155は、例えば、図1の情報処理装置10の音声出力部72に含まれる。
図4は、情報処理装置10の第3の実施の形態であるスマートフォン200の外観の構成例を模式的に示している。スマートフォン200は、筐体201、スピーカ202、ディスプレイ203、ボタン群204、マイクロフォン205、及び、カメラ202を備える。
スピーカ202は、ほぼ矩形の板状の筐体201のオモテ面の上端付近に設けられている。スピーカ202は、例えば、図1の情報処理装置10の音声出力部72に含まれる。
ディスプレイ203は、タッチパネル式であり、筐体201のオモテ面に設けられている。ディスプレイ203のタッチパネルの部分は、例えば、図1の情報処理装置10の操作部22に含まれ、ディスプレイの部分は、例えば、図1の情報処理装置10の表示部71に含まれる。
ボタン群204は、筐体201のオモテ面において、ディスプレイ203の下方に設けられている。ボタン群204は、例えば、図1の情報処理装置10の操作部22に含まれる。
マイクロフォン205は、筐体201のオモテ面の下端付近に設けられている。マイクロフォン205は、例えば、図1の情報処理装置10のセンサ部21に含まれる。
カメラ206のレンズは、筐体201の裏面の上端付近に設けられている。カメラ206は、例えば、図1の情報処理装置10のセンサ部21に含まれる。
<情報処理装置10の処理の具体例>
次に、図5及び図6のフローチャートを参照して、情報処理装置10により実行される情報処理について説明する。この処理は、例えば、情報処理装置10の電源がオンされたとき開始され、情報処理装置10の電源がオフされたとき終了する。
なお、以下、図2のロボット100、図3の電子機器150、及び、図4のスマートフォン200の処理を適宜具体例として挙げながら説明する。
ステップS1において、情報処理部12は、アクションを実行するか否かを判定する。例えば、状態推定部32は、入力制御部31を介して入力部11から供給される入力データに基づいて、ユーザによりアクションの実行が指示されたことを検出した場合、アクションを実行すると判定し、処理はステップS2に進む。
ステップS2において、情報処理装置10は、アクションを実行する。具体的には、状態推定部32は、入力データに基づく観測変数に基づいて、情報処理装置10の状態を推定する。この情報処理装置10の状態には、情報処理装置10内部の状態、及び、情報処理装置10の外部(例えば、周囲の環境等)の状態が含まれる。また、観測変数には、入力データだけでなく、例えば、入力データを加工したデータ(例えば、ユーザの表情や姿勢、音素、テキストデータ等)が含まれる。
状態推定部32は、推定した状態を表す状態変数を含む状態情報を行動生成部33に供給するとともに、バッファ37に蓄積させる。なお、状態推定部32は、古い状態情報がバッファ37に蓄積されている場合、新しい状態情報により上書きする。また、状態推定部32は、ユーザにより指示されたアクションの内容を行動生成部33に通知する。
なお、例えば、観測変数が状態を直接表す場合、状態推定部32は、観測変数を恒等変換することにより状態変数を求める。
行動生成部33は、行動モデル及び状態変数に基づいて、ユーザにより指示されたアクションを実行するために、出力部13の各部が行う一連の処理を求める。行動生成部33は、求めた処理を示すアクション情報を行動制御部34に供給するとともに、バッファ37に蓄積させる。なお、状態推定部32は、古いアクション情報がバッファ37に蓄積されている場合、新しいアクション情報により上書きする。
行動制御部34は、アクション情報に基づいて、出力部13の各部を制御し、ユーザにより指示されたアクションを実行させる。
なお、ステップS1及びステップS2の処理において、情報処理装置10が、ユーザの指示ではなく、例えば、状態に基づいてアクションを実行するようにしてもよい。
例えば、ステップS1において、状態推定部32は、入力制御部31を介して入力部11から供給される入力データに基づく観測変数に基づいて、情報処理装置10の状態を推定する。状態推定部32は、推定した状態を表す状態変数を含む状態情報を行動生成部33に供給するとともに、バッファ37に蓄積させる。なお、状態推定部32は、古い状態情報がバッファ37に蓄積されている場合、新しい状態情報により上書きする。
行動生成部33は、行動モデル及び状態変数に基づいて、アクションの実行の有無を判定し、アクションを実行すると判定した場合、処理はステップS2に進む。
ステップS2において、行動生成部33は、行動モデル及び状態変数に基づいて、実行するアクションを選択する。また、行動生成部33は、選択したアクションを実行するために、出力部13の各部が行う一連の処理を求める。例えば、ネットワークの接続をセルラーからWi-Fiに切り替えた後、ブラウザを起動する等の一連の処理が求められる。行動生成部33は、求めた処理を示すアクション情報を行動制御部34に供給するとともに、バッファ37に蓄積させる。なお、状態推定部32は、古いアクション情報がバッファ37に蓄積されている場合、新しいアクション情報により上書きする。
行動制御部34は、アクション情報に基づいて、出力部13の各部を制御し、選択されたアクションを実行させる。
ステップS3において、情報処理装置10は、レスポンスの入力を受け付ける。例えば、入力制御部31は、情報処理装置10のアクションが終了した後、所定の期間(以下、初期レスポンス期間と称する)、アクションに対する報酬を付与するためのユーザ入力であるレスポンスの入力を受け付ける。入力制御部31は、初期レスポンス期間中に入力部11から供給される入力データを報酬推定部35に供給する。
なお、アクションに対するレスポンスは、ユーザにより能動的又は意識的に入力されるもの(能動的又は意識的なユーザ入力)であってもよいし、受動的又は無意識に入力されるもの(受動的な又は無意識のユーザ入力)であってもよい。
前者の場合、例えば、ユーザが、意識的に表情を変化させたり、姿勢を変えたり、ジェスチャを行ったり、音声を発したりすることによりレスポンスが入力される。或いは、例えば、ユーザが操作部22を操作することによりレスポンスが入力される。
後者の場合、例えば、報酬推定部35が、アクションに対するユーザの自然なレスポンス(例えば、表情、身体動作等)を、入力データ(例えば、画像データや音声データ)に基づいて検出する。
例えば、図2のロボット100の場合、ユーザは、触覚センサ102に触れることによりレスポンスを入力する。例えば、ユーザは、ロボット100が期待通りのアクションを行った場合、触覚センサ102を優しく撫でることにより、ロボット100を褒める。一方、ユーザは、ロボット100が期待通りのアクションを行わなかった場合、触覚センサ102を叩くことにより、ロボット100を叱る。
例えば、図3の電子機器150又は図4のスマートフォン200の場合、ユーザは、音声によりレスポンスを入力する。例えば、ユーザは、電子機器150又はスマートフォン200が期待通りのアクションを行った場合、「ありがとう」等の言葉により褒める。一方、ユーザは、電子機器150又はスマートフォン200が期待通りのアクションを行わなかった場合、「ダメ」等の言葉により叱責する。
ステップS4において、報酬推定部35は、初期レスポンス期間中に入力された入力データに基づいて、レスポンスが入力されたか否かを判定する。レスポンスが入力されたと判定された場合、処理はステップS5に進む。
ステップS5において、報酬推定部35は、入力されたレスポンスに基づいて、報酬を推定する。具体的には、報酬推定部35は、報酬モデル、及び、入力されたレスポンスに対応する入力データに基づく観測変数に基づいて、ステップS2において実行されたアクションに対してユーザにより付与された報酬を推定する。すなわち、報酬推定部35は、ユーザのレスポンスにより表される報酬を推定する。報酬推定部35は、推定した報酬(以下、初期報酬と称する)を示す初期報酬情報を提示制御部36に供給するとともに、バッファ37に蓄積させる。また、報酬推定部35は、初期報酬の認識に用いた観測変数を含む初期観測情報をバッファ37に蓄積させる。なお、状態推定部32は、古い初期報酬情報及び初期観測情報がバッファ37に蓄積されている場合、新しい初期報酬情報及び初期観測情報により上書きする。
なお、報酬が直接レスポンスとして入力される場合、報酬推定部35は、単にレスポンスを恒等変換することにより報酬を求める。
ステップS6において、提示制御部36は、出力部13の各部を制御して、推定した報酬(初期報酬)を提示する。
例えば、図2のロボット100の場合、ゲージ103により初期報酬が提示される。例えば、ロボット100は、正の報酬が与えられたと推定した場合(アクションがユーザにより認められたと推定した場合)、喜びの感情を表す場合と同様の色や明るさにゲージ103を設定する。一方、例えば、ロボット100は、負の報酬が与えられたと推定した場合(アクションがユーザにより認められなかったと推定した場合)、悲しみの感情を表す場合と同様の色や明るさにゲージ103を設定する。このとき、初期報酬の値(レベル)に応じて、ゲージ103の色や明るさを変化させてもよい。
また、ロボット100は、例えば、ゲージ103を点滅させることにより、ロボット100の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。
図3の電子機器150の場合、ゲージ154及び音声を用いて初期報酬が提示される。例えば、電子機器150は、正の報酬が与えられたと推定した場合、ゲージ154の針154Aを正の方向に動かす。また、電子機器150は、喜びの感情を表す場合と同様の色や明るさにゲージ154の目盛り板154Bを設定する。さらに、電子機器150は、「嬉しい」、「ありがとうございます」、「誠にありがとうございます」等の喜びや感謝の意を示す音声をスピーカ155から出力する。
一方、例えば、電子機器150は、負の報酬が与えられたと推定した場合、ゲージ154の針154Aを負の方向に動かす。また、電子機器150は、悲しみの感情を表す場合と同様の色や明るさにゲージ154の目盛り板154Bを設定する。さらに、電子機器150は、「悲しい」、「ごめんなさい」、「すみません」、「申し訳ありません」、「大変申し訳ありません」等の悲しみや謝罪の意を示す音声をスピーカ155から出力する。
このとき、初期報酬の値(レベル)に応じて、目盛り板154Bの色や明るさを変化させたり、出力する音声の表現を変化させたりしてもよい。
また、電子機器150は、例えば、目盛り板154Bを点滅させることにより、電子機器150の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。
図5のスマートフォン200の場合、ディスプレイ203及び音声を用いて初期報酬が提示される。例えば、スマートフォン200は、正の報酬が与えられたと推定した場合、ディスプレイ203に表示されるゲージ211の値を大きくする。また、スマートフォン200は、「嬉しい」、「ありがとうございます」、「誠にありがとうございます」等の喜びや感謝の意を示す音声をスピーカ202から出力する。
一方、例えば、スマートフォン200は、負の報酬が与えられたと推定した場合、ディスプレイ203に表示されるゲージ211の値を小さくする。また、スマートフォン200は、「悲しい」、「ごめんなさい」、「すみません」、「申し訳ありません」、「大変申し訳ありません」等の悲しみや謝罪の意を示す音声をスピーカ202から出力する。
このとき、初期報酬の値(レベル)に応じて、ゲージ211の値を変化させたり、出力する音声の表現を変化させたりしてもよい。
また、スマートフォン200は、例えば、ディスプレイ203のバックライトを点滅させることにより、スマートフォン200の感情を表出しているのではなく、推定した報酬を提示していることをユーザに確実に認識させる。
ステップS7において、情報処理装置10は、レスポンスの再入力を受け付ける。例えば、入力制御部31は、推定された報酬が提示された後、所定の期間(以下、修正レスポンス期間と称する)、アクションに対するレスポンスの再入力を受け付ける。また、提示制御部36は、出力部13の各部を制御して、修正レスポンス期間(レスポンスの再入力を受け付けており、再入力可能であること)をユーザに認識させるための提示を行わせる。例えば、ステップS6の処理で行われた、推定した報酬を提示していることを示す提示(例えば、ゲージ103の点滅、目盛り板154Bの点滅、ディスプレイ203の点滅等)が、修正レスポンス期間中も継続され、修正レスポンス期間の終了に伴い終了する。
例えば、ユーザは、自分が意図した報酬と、報酬推定部35が推定した報酬とが異なる場合、報酬推定部35に正確な報酬を認識させるために再度レスポンスを入力する。このとき、ユーザは、情報処理装置10に意図した報酬が確実に認識されるように、より丁寧にレスポンスを入力することが想定される。例えば、音声によりレスポンスを入力する場合、標準語の音声用に報酬推定部35が調整されているとき、ユーザの訛りが強いと、報酬の誤認識が発生しやすい。これに対して、例えば、ユーザは、レスポンスの再入力時に、できる限り標準語に近い発音で音声を入力することが想定される。
ステップS8において、報酬推定部35は、修正レスポンス期間中に入力された入力データに基づいて、レスポンスが再入力されたか否かを判定する。レスポンスが再入力されたと判定された場合、処理はステップS9に進む。
ステップS9において、報酬推定部35は、再入力されたレスポンスに基づいて、報酬を推定する。具体的には、報酬推定部35は、報酬モデル、及び、再入力されたレスポンスに対応する入力データに基づく観測変数に基づいて、ステップS2において実行されたアクションに対してユーザにより付与された報酬を再度推定する。
ステップS10において、報酬推定部35は、報酬を修正するか否かを判定する。例えば、報酬推定部35は、レスポンスの再入力までに要した時間や、初期報酬とステップS9の処理で推定した報酬(以下、再入力報酬と称する)との差異等に基づいて、報酬を修正するか否かを判定する。
例えば、報酬推定部35は、レスポンスの再入力までに要した時間が所定の制限時間内である場合、修正に対するユーザの確信度が高い(ユーザに迷いがない)と推定されるため、報酬を修正すると判定する。一方、報酬推定部35は、レスポンスの再入力までに要した時間が制限時間を超えている場合、修正に対するユーザの確信度が低い(ユーザに迷いがある)と推定されるため、報酬を修正しないと判定する。
また、例えば、報酬推定部35は、初期報酬と再入力報酬との差異が所定の閾値以上である場合、報酬を修正すると判定する。一方、報酬推定部35は、初期報酬と再入力報酬との差異が所定の閾値未満である場合、報酬を修正しないと判定する。
なお、この修正の要否の判定処理は、例えば、ニューラルネット等を用いたモジュールにより実行される。
そして、報酬を修正すると判定された場合、処理はステップS11に進む。
ステップS11において、報酬推定部35は、報酬を修正する。例えば、報酬推定部35は、初期報酬から再入力報酬に置き換えることにより、報酬の推定結果を修正する。
或いは、例えば、報酬推定部35は、初期報酬と再入力報酬とを重み付け加算することにより、報酬の認識結果を修正する。例えば、レスポンスの再入力に要した時間が短いほど、再入力報酬に対する重みが大きくなり、レスポンスの再入力に要した時間が長いほど、再入力報酬に対する重みが小さくなる。
報酬推定部35は、修正した報酬(以下、修正報酬と称する)を示す修正報酬情報を提示制御部36に供給するとともに、バッファ37に蓄積させる。また、報酬推定部35は、再入力報酬の推定に用いた観測変数を含む修正観測情報をバッファ37に蓄積させる。なお、報酬推定部35は、古い修正報酬情報及び修正観測情報がバッファ37に蓄積されている場合、新しい修正報酬情報及び修正観測情報で上書きする。
ステップS12において、ステップS6と同様の処理により、修正した報酬が提示される。このとき、情報処理装置10は、報酬を修正したことを明示的にユーザに伝えるようにしてもよい。例えば、「修正しました」、「誤解していました」、「うまくいきましたね」等の音声が出力される。
その後、処理はステップS13に進む。
一方、ステップS10において、報酬を修正しないと判定された場合、ステップS11及びステップS12の処理はスキップされ、処理はステップS13に進む。
また、ステップS8において、レスポンスが再入力されていないと判定された場合、ステップS9乃至ステップS12の処理はスキップされ、処理はステップS13に進む。
ステップS13において、入力制御部31は、再入力期間が経過したか否かを判定する。再入力期間が経過していないと判定された場合、処理はステップS8に戻る。
その後、ステップS13において、再入力期間が経過したと判定されるまで、ステップS8乃至ステップS13の処理が繰り返し実行される。これにより、ユーザは、再入力期間中に、何度もレスポンスを入力し、報酬の修正を行うことができる。また、修正後の報酬がユーザに提示される。なお、報酬の修正が複数回行われた場合、例えば、最後の修正を有効としてもよいし、或いは、確信度の高い修正を有効としてもよい。
一方、ステップS13において、再入力期間が経過したと判定された場合、処理はステップS14に進む。
また、ステップS4において、レスポンスが入力されなかったと判定された場合、ステップS5乃至ステップS13の処理はスキップされ、報酬の推定は行われずに、処理はステップS14に進む。
ステップS14において、履歴生成部38は、記憶部39に記憶されている履歴を更新する。
例えば、初期報酬が付与された後、そのまま修正されなかった場合、履歴生成部38は、今回のアクションに対応する状態情報、アクション情報、及び、初期報酬情報をバッファ37から取得し、互いに関連づけて行動履歴に追加する。また、履歴生成部38は、今回のアクションに対応する初期観測情報及び初期報酬情報をバッファ37から取得し、互いに関連づけて報酬履歴に追加する。
一方、初期報酬が付与された後、修正された場合、履歴生成部38は、今回のアクションに対応する状態情報、アクション情報、及び、修正報酬情報をバッファ37から取得し、互いに関連づけて行動履歴に追加する。また、履歴生成部38は、今回のアクションに対応する初期観測情報及び修正報酬情報をバッファ37から取得し、互いに関連づけて報酬履歴に追加する。すなわち、初期観測情報に対して、修正前の初期報酬情報ではなく、修正後の修正報酬情報が関連づけられて報酬履歴に追加される。さらに、履歴生成部38は、今回のアクションに対応する修正観測情報及び修正報酬情報をバッファ37から取得し、互いに関連づけて報酬履歴に追加する。
また、報酬が付与されなかった場合、履歴生成部38は、今回のアクションに対応する状態情報及びアクション情報をバッファ37から取得し、互いに関連づけて行動履歴に追加する。この場合、追加した履歴に報酬情報は含まれない。また、履歴生成部38は、報酬履歴を更新しない。
その後、処理はステップS15に進む。
一方、ステップS1において、アクションを実行しないと判定された場合、ステップS2乃至ステップS14の処理はスキップされ、処理はステップS15に進む。
ステップS15において、行動モデル学習部51は、行動モデルを更新するか否かを判定する。行動モデル学習部51は、所定の条件が満たされている場合、行動モデルを更新すると判定し、処理はステップS16に進む。所定の条件とは、例えば、前回行動モデルを更新した後の経過時間が所定の閾値以上である、前回行動モデルを更新した後の行動履歴の増加量が所定の閾値以上である等である。
ステップS16において、行動モデル学習部51は、行動モデルを更新する。すなわち、行動モデル学習部51は、記憶部39に記憶されている行動履歴を用いて学習を行い、行動モデルを更新する。
なお、行動モデルの学習には、任意の手法を用いることが可能であるが、例えば、強化学習が用いられる。例えば、予め規定されている予測報酬関数を最大化するように、勾配法を用いて行動モデルのパラメータが学習される。また、強化学習を用いた場合、入力と正解を含む大量の学習データを準備することなく、行動モデルを構築することができる。強化学習の例としては、例えば、Q学習、TD誤差学習、ActorCritic法、SARSA、ポリシー勾配、ポリシーサーチ、REINFORCE等の学習法が考えられる。
また、上述したように報酬の修正が行われることにより、各アクションに対して、より正確な報酬が与えられる。そして、報酬が修正されたアクションについては、当該アクションと当該アクションに対する修正後の報酬との組合せ、より厳密には、当該アクションに対する状態情報、アクション情報、及び、修正報酬情報の組合せが、行動モデルの学習に用いられる。報酬情報の利用に際しては、さらに、その確信度を併用するようにしてもよい。報酬が修正されなかったアクションについては、当該アクションと当該アクションに対する修正前の報酬との組合せ、より厳密には、当該アクションに対する状態情報、アクション情報、及び、初期報酬情報の組合せが、行動モデルの学習に用いられる。その結果、行動モデルの精度が向上する。
その後、処理はステップS17に進む。
一方、ステップS15において、行動モデル学習部51は、所定の条件が満たされていない場合、行動モデルを更新しないと判定し、ステップS16の処理はスキップされ、処理はステップS17に進む。
ステップS17において、報酬モデル学習部52は、報酬モデルを更新するか否かを判定する。報酬モデル学習部52は、所定の条件が満たされている場合、報酬モデルを更新すると判定し、処理はステップS18に進む。所定の条件とは、例えば、前回報酬モデルを更新した後の経過時間が所定の閾値以上である、前回報酬モデルを更新した後の行動履歴の増加量が所定の閾値以上である等である。
ステップS18において、報酬モデル学習部52は、報酬モデルを更新する。すなわち、報酬モデル学習部52は、記憶部39に記憶されている報酬履歴を用いて学習を行い、報酬モデルを更新する。
なお、報酬モデルには、例えば、ニューラルネットワークが用いられる。また、報酬モデルの学習には、任意の手法を用いることが可能であるが、例えば、回帰モデル(報酬が連続値の場合)や分類モデル(報酬が離散値の場合)を用いた強化学習が用いられる。
また、上述したように報酬の修正が行われることにより、各レスポンスに対して、より正確な報酬が与えられる。そして、報酬が修正された場合、レスポンスと修正後の報酬との組合せ、より厳密には、初期観測情報と修正報酬情報の組合せ、及び、再入力観測情報と修正報酬情報の組合せが、報酬モデルの学習に用いられる。報酬が修正されなかった場合、レスポンスと修正前の報酬との組合せ、より厳密には、初期観測情報と初期報酬情報の組合せが、報酬モデルの学習に用いられる。その結果、報酬モデルの精度が向上する。
その後、処理はステップS1に戻り、ステップS1以降の処理が実行される。
一方、ステップS17において、報酬モデル学習部52は、所定の条件が満たされていない場合、報酬モデルを更新しないと判定し、処理はステップS1に戻り、ステップS1以降の処理が実行される。
以上のようにして、アクションに対する報酬が適切に与えられる。その結果、より高精度の行動モデル及び報酬モデルが、より短時間で構築されるようになる。また、例えば、報酬モデルをユーザ毎に構築することにより、各ユーザのレスポンスの傾向に合わせて、報酬モデルを最適化することができる。
さらに、ユーザは、推定された報酬が提示されることにより、レスポンスと情報処理装置10により推定される報酬との関係(非線形処理)をより正確に把握することができ、より適切なアクションにより報酬を与えることが可能になる。
<<2.変形例>>
以下、上述した本技術の実施の形態の変形例について説明する。
<提示方法に関する変形例>
推定した報酬の提示方法は、上述した方法に限定されるものではなく、任意の方法を採用することができる。
例えば、表示部71は、図7のAに示されるメータの値により、推定した報酬を提示するようにしてもよい。
また、例えば、表示部71は、図7のBに示される顔の画像により、推定した報酬を提示するようにしてもよい。例えば、5段階の値で報酬が付与される場合、最も高い報酬が付与されたと推定された場合、左端の顔の画像が表示され、報酬が下がるにつれて、表示される顔の画像が右方向に遷移し、最も低い報酬が付与されたと推定された場合、右端の顔の画像が表示される。
さらに、例えば、表示部71は、正の報酬が付与されたと推定された場合、図7のCの画像を表示するようにしてもよい。
また、以上の説明では、推定した報酬を提示していることを示す提示方法と、修正レスポンス期間(レスポンスの再入力を受け付けており、再入力可能であること)を示す提示方法を同じにしたが、互いに異なる提示方法を用いるようにしてもよい。さらに、2つの提示方法が同じか否かに関わらず、任意の提示方法を採用することができる。ただし、情報処理装置10の感情を提示する場合と確実に区別できることが可能な提示方法を用いることが望ましい。
さらに、例えば、修正レスポンス期間だけでなく、初期レスポンス期間を示す提示を行うようにしてもよい。
<システムの構成に関する変形例>
図1の情報処理装置10の構成例は、その一例であり、必要に応じて変更することが可能である。
例えば、入力部11、情報処理部12、及び、出力部13の機能の分担を変更することが可能である。また、例えば、情報処理装置10の一部を外部の装置に設けるようにすることが可能である。
<その他の変形例>
アクションに対するレスポンスの入力方法は、任意の方法を採用することができ、また、複数の入力方法が提供されてもよい。複数の入力方法が提供される場合、例えば、ユーザは、複数の方法を組み合わせたり、レスポンスを再入力する際に最初に入力した方法と異なる方法を選択したりすることが可能になる。
また、行動生成部33は、例えば、予め定められたルールに従って、アクションの選択等を行うようにしてもよい。
<<3.応用例>>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)401,ROM(Read Only Memory)402,RAM(Random Access Memory)403は、バス404により相互に接続されている。
バス404には、さらに、入出力インタフェース405が接続されている。入出力インタフェース405には、入力部406、出力部407、記憶部408、通信部409、及びドライブ410が接続されている。
入力部406は、キーボード、マウス、マイクロフォンなどよりなる。出力部407は、ディスプレイ、スピーカなどよりなる。記憶部408は、ハードディスクや不揮発性のメモリなどよりなる。通信部409は、ネットワークインタフェースなどよりなる。ドライブ410は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア411を駆動する。
以上のように構成されるコンピュータでは、CPU401が、例えば、記憶部408に記憶されているプログラムを、入出力インタフェース405及びバス404を介して、RAM403にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU401)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア411に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア411をドライブ410に装着することにより、入出力インタフェース405を介して、記憶部408にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部409で受信し、記憶部408にインストールすることができる。その他、プログラムは、ROM402や記憶部408に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
また、例えば、本技術は以下のような構成も取ることができる。
(1)
アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、
推定された報酬の提示の制御を行う提示制御部と
を備える情報処理装置。
(2)
前記報酬推定部は、前記推定された報酬の提示後に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
前記(1)に記載の情報処理装置。
(3)
前記報酬推定部は、前記推定された報酬の提示後の所定の期間内に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
前記(2)に記載の情報処理装置。
(4)
前記提示制御部は、前記第2のユーザ入力を受け付けていることを示す提示の制御を行う
前記(2)又は(3)に記載の情報処理装置。
(5)
前記提示制御部は、修正後の報酬の提示の制御を行う
前記(2)乃至(4)に記載の情報処理装置。
(6)
前記報酬推定部は、前記第2のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正する
前記(2)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記報酬推定部は、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正する
前記(2)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記報酬推定部は、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬との差異、及び、前記第2のユーザ入力が行われるまでの時間のうち少なくとも1つに基づいて、報酬の修正の要否を判定する
前記(2)乃至(6)のいずれかに記載の情報処理装置。
(9)
前記第1のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第1の学習部を
さらに備える前記(2)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第2の学習部を
さらに備える前記(2)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記提示制御部は、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御する
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
アクションに対するユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定ステップと、
推定された報酬の提示の制御を行う提示制御ステップと
を含む情報処理方法。
10 情報処理装置, 11 入力部, 12 情報処理部, 13 出力部, 21 センサ部, 22 操作部, 31 入力制御部, 32 状態推定部, 33 行動生成部, 34 行動制御部, 35 報酬推定部, 36 提示制御部, 38 履歴生成部, 40 学習部, 51 行動モデル学習部, 52 報酬モデル学習部, 71 表示部, 72 音声出力部, 73 照明部, 74 駆動部, 75 通信部, 100 ロボット, 102 触覚センサ, 103 ゲージ, 150 電子機器, 154 ゲージ, 154A 針, 154B 目盛り板, 200 スマートフォン, 203 ディスプレイ, 211 ゲージ

Claims (12)

  1. アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定を行う報酬推定部と、
    報酬の推定が行われた後に、推定された報酬の提示の制御を行う提示制御部と
    を備え
    前記報酬推定部は、前記推定された報酬の提示後の期間として設定された再入力期間に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
    情報処理装置。
  2. 前記報酬推定部は、前記第2のユーザ入力が前記再入力期間中に入力される毎に、前記アクションに対する報酬の修正を行う
    請求項1に記載の情報処理装置。
  3. 前記報酬推定部は、前記第2のユーザ入力が前記再入力期間中に複数回入力された場合、入力に要した時間が制限時間内である前記第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
    請求項1または2に記載の情報処理装置。
  4. 前記提示制御部は、前記第2のユーザ入力を受け付けていることを示す提示の制御を行う
    請求項1乃至3のいずれかに記載の情報処理装置。
  5. 前記提示制御部は、修正後の報酬の提示の制御を行う
    請求項1乃至4のいずれかに記載の情報処理装置。
  6. 前記報酬推定部は、前記第2のユーザ入力に基づいて推定した報酬に前記アクションに対する報酬を修正する
    請求項1乃至5のいずれかに記載の情報処理装置。
  7. 前記報酬推定部は、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬とを重み付け加算した報酬に前記アクションに対する報酬を修正する
    請求項1乃至6のいずれかに記載の情報処理装置。
  8. 前記報酬推定部は、前記第1のユーザ入力に基づいて推定した報酬と前記第2のユーザ入力に基づいて推定した報酬との差異、及び、前記第2のユーザ入力が行われるまでの時間のうち少なくとも1つに基づいて、報酬の修正の要否を判定する
    請求項1乃至6のいずれかに記載の情報処理装置。
  9. 前記第1のユーザ入力と修正後の報酬との組合せを用いて、報酬の推定に用いるモデルの学習を行う第1の学習部を
    さらに備える請求項1乃至8のいずれかに記載の情報処理装置。
  10. 前記アクションと修正後の報酬との組合せを用いて、アクションの実行に用いるモデルの学習を行う第2の学習部を
    さらに備える請求項1乃至9のいずれかに記載の情報処理装置。
  11. 前記提示制御部は、前記情報処理装置の感情の提示とは異なる方法で、前記推定された報酬を提示するように制御する
    請求項1乃至10のいずれかに記載の情報処理装置。
  12. 情報処理装置が、
    アクションに対する第1のユーザ入力に基づいて、前記アクションに対する報酬の推定を行い、
    報酬の推定が行われた後に、推定された報酬の提示の制御を行い、
    前記推定された報酬の提示後の期間として設定された再入力期間に入力された第2のユーザ入力に基づいて、前記アクションに対する報酬の修正を行う
    情報処理方法。
JP2018553757A 2016-11-29 2017-11-15 情報処理装置及び情報処理方法 Active JP7031603B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016230899 2016-11-29
JP2016230899 2016-11-29
PCT/JP2017/041012 WO2018101035A1 (ja) 2016-11-29 2017-11-15 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2018101035A1 JPWO2018101035A1 (ja) 2019-10-17
JP7031603B2 true JP7031603B2 (ja) 2022-03-08

Family

ID=62241302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018553757A Active JP7031603B2 (ja) 2016-11-29 2017-11-15 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20190272477A1 (ja)
EP (1) EP3550476A4 (ja)
JP (1) JP7031603B2 (ja)
WO (1) WO2018101035A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102429556B1 (ko) * 2017-12-05 2022-08-04 삼성전자주식회사 디스플레이 장치 및 음향 출력 방법
WO2021048434A1 (en) * 2019-09-13 2021-03-18 Deepmind Technologies Limited Data-driven robot control
US11341412B1 (en) * 2021-07-01 2022-05-24 Biomech Sensor, Llc Systems and methods for constructing motion models based on sensor data
WO2024116555A1 (ja) * 2022-12-01 2024-06-06 株式会社Vaiable 報酬推定装置、トランザクション支援装置、方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005238422A (ja) 2004-02-27 2005-09-08 Sony Corp ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法
JP2005313308A (ja) 2004-03-30 2005-11-10 Nec Corp ロボット、ロボット制御方法、ロボット制御プログラム、ならびに思考装置
JP2007011873A (ja) 2005-07-01 2007-01-18 Toshiba Corp インタフェース装置およびインタフェース方法
JP2014206795A (ja) 2013-04-11 2014-10-30 日本電信電話株式会社 線形モデルに基づく強化学習方法とその装置とプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5879899B2 (ja) * 2011-10-12 2016-03-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2013189261A1 (en) * 2012-06-21 2013-12-27 Technicolor (China) Technology Co., Ltd. Method and apparatus for contextual linear bandits

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005238422A (ja) 2004-02-27 2005-09-08 Sony Corp ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法
JP2005313308A (ja) 2004-03-30 2005-11-10 Nec Corp ロボット、ロボット制御方法、ロボット制御プログラム、ならびに思考装置
JP2007011873A (ja) 2005-07-01 2007-01-18 Toshiba Corp インタフェース装置およびインタフェース方法
JP2014206795A (ja) 2013-04-11 2014-10-30 日本電信電話株式会社 線形モデルに基づく強化学習方法とその装置とプログラム

Also Published As

Publication number Publication date
US20190272477A1 (en) 2019-09-05
EP3550476A1 (en) 2019-10-09
EP3550476A4 (en) 2020-01-15
WO2018101035A1 (ja) 2018-06-07
JPWO2018101035A1 (ja) 2019-10-17

Similar Documents

Publication Publication Date Title
US10832674B2 (en) Voice data processing method and electronic device supporting the same
JP7031603B2 (ja) 情報処理装置及び情報処理方法
CN108806669B (zh) 用于提供语音识别服务的电子装置及其方法
US10369699B2 (en) Executing software applications on a robot
US10789952B2 (en) Voice command execution from auxiliary input
EP2933071A1 (en) Methods and systems for managing dialogs of a robot
JP2016519349A (ja) 複数言語モデルに基づくテキスト予測
EP2610724A1 (en) A system and method for online user assistance
KR20190105403A (ko) 전자 장치, 전자 장치와 결합 가능한 외부 디바이스 및 이의 디스플레이 방법
KR20200052612A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
KR20190133100A (ko) 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
KR20200036084A (ko) 애플리케이션의 번역 정보를 제공하는 디바이스 및 방법
EP3734436A1 (en) System and method of determining input characters based on swipe input
US20190251355A1 (en) Method and electronic device for generating text comment about content
KR20200040097A (ko) 전자 장치 및 그 제어 방법
US11468270B2 (en) Electronic device and feedback information acquisition method therefor
US20210035309A1 (en) Electronic device and control method therefor
KR20200080389A (ko) 전자 장치 및 그 제어 방법
JP5927797B2 (ja) ロボット制御装置、ロボットシステム、ロボット装置の行動制御方法、及びプログラム
US20200234187A1 (en) Information processing apparatus, information processing method, and program
KR20100070773A (ko) 성격 변화 장치 및 그 방법과, 그를 이용한 행동 다양화 장치 및 그 방법과, 그 로봇 시스템
CN116324759A (zh) 提供关于为何响应被改变的原因的信息的电子装置及其操作方法
KR20200069251A (ko) 대화형 게임을 제공하는 전자 장치 및 그 동작 방법
KR20200077936A (ko) 사용자 상태에 기초하여 반응을 제공하는 전자 장치 및 그의 동작 방법
KR102438132B1 (ko) 전자 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220207

R151 Written notification of patent or utility model registration

Ref document number: 7031603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151