JP6477551B2 - 情報提供装置及び情報提供プログラム - Google Patents

情報提供装置及び情報提供プログラム Download PDF

Info

Publication number
JP6477551B2
JP6477551B2 JP2016048580A JP2016048580A JP6477551B2 JP 6477551 B2 JP6477551 B2 JP 6477551B2 JP 2016048580 A JP2016048580 A JP 2016048580A JP 2016048580 A JP2016048580 A JP 2016048580A JP 6477551 B2 JP6477551 B2 JP 6477551B2
Authority
JP
Japan
Prior art keywords
state
action
vehicle
space
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016048580A
Other languages
English (en)
Other versions
JP2017162385A (ja
Inventor
光 古賀
光 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016048580A priority Critical patent/JP6477551B2/ja
Priority to RU2017107178A priority patent/RU2657179C1/ru
Priority to CA2960140A priority patent/CA2960140C/en
Priority to MYPI2017700780A priority patent/MY179856A/en
Priority to US15/452,106 priority patent/US9939791B2/en
Priority to TW106107404A priority patent/TWI626615B/zh
Priority to EP17159921.0A priority patent/EP3217333A1/en
Priority to KR1020170029963A priority patent/KR102000132B1/ko
Priority to BR102017004763-6A priority patent/BR102017004763A2/pt
Priority to CN201710138036.XA priority patent/CN107179870B/zh
Publication of JP2017162385A publication Critical patent/JP2017162385A/ja
Application granted granted Critical
Publication of JP6477551B2 publication Critical patent/JP6477551B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/10Interpretation of driver requests or demands
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Description

本発明は、提供した情報に対するユーザ(運転者)からの応答の履歴データを蓄積して学習し、その学習結果に基づきユーザ(運転者)の意図に即した情報の提供を行う情報提供装置及び情報提供プログラムに関する。
従来、この種の情報提供装置として、例えば特許文献1に記載の装置(ユーザインターフェースシステム)が知られている。この装置では、音声入力による機能の実行に際してまず、現時点における車両の状況に関する情報を用いてユーザ(運転者)が行うであろう音声操作の候補を推定し、それら推定した音声操作の候補のうち確率の高い順に3つの候補を選択肢としてタッチパネルに表示する。続いて、これら選択肢の中から運転者が手入力により選択した候補を判断して音声操作の対象を決定するとともに、当該決定した音声操作の対象に合わせてユーザに音声入力を促すガイダンスを生成して出力する。その後、このガイダンスに応じて運転者が音声入力を行うことにより、対象となる車両機能を決定して実行するようにしている。そして、このように現時点における車両の状況に応じてユーザの意図に沿う音声操作の入口が提供されることにより、音声入力を行うユーザの操作負荷が軽減されるようになっている。
国際公開WO2015/162638号公報
ところで、上記文献に記載の装置では、車両機能の実行に際し、タッチパネルに表示された選択肢に対する手入力による操作モードから音声入力による操作モードへとユーザインターフェースが切り替わってしまうため、運転者の負荷の増大が不可避となっていた。
また、上記文献に記載の装置では、音声操作の入口は簡素化されるものの、その後の操作は既存の音声対話システムと同様の機能が実現されているにすぎず、運転者の負荷の更なる軽減が望まれていた。
本発明は、このような実情に鑑みてなされたものであり、その目的は、簡素なユーザインターフェースを一貫して用いることにより、運転者の負荷を抑えつつ情報の提供として運転者の意図に即したより適切な車載機器の操作提案を実行することのできる情報提供装置及び情報提供プログラムを提供することにある。
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決する情報提供装置は、複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成部と、車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成部と、前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習部と、前記強化学習部により算出される確率分布のばらつき度合いを演算するばらつき度合い演算部と、前記ばらつき度合い演算部により演算される確率分布のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算部により演算される確率分布のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供部とを備える。
また、上記課題を解決する情報提供プログラムは、コンピュータに、複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成機能と、車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成機能と、前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習機能と、前記強化学習機能により算出される確率分布のばらつき度合いを演算するばらつき度合い演算機能と、前記ばらつき度合い演算機能において演算される確率分布のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算機能において演算される確率分布のばらつき度合い大きいほど前記行動空間を構成する複数の行動の中からランダムで選択されたが操作提案を行う頻度を高める情報提供機能とを実現させるためのプログラムである。
上記構成では、車載機器の操作提案に対する運転者からの応答の履歴を用いつつ車載機器の操作提案の適正度合いを表す指標として報酬関数を設定している。そして、この報酬関数に基づく強化学習により、各状態における車載機器の操作提案に対する運転者の意思決定のモデルを構築している。また、この構築したモデルを用いつつ、各状態において車載機器の操作提案に対する運転者からの応答により実行する車載機器の操作内容の確率分布が算出される。ここで、車載機器の操作内容の確率分布のばらつき度合いは、車載機器の操作提案の対象によって異なるのが普通である。例えば、車載機器の操作提案の対象が音声の再生であれば、一般に車両の状態だけでなくそのときの運転者の気分等によっても影響を受けやすくその選択肢も多岐に亘るため、車載機器の操作内容の確率分布のばらつき度合いが大きくなる可能性が高い。その一方で、車載機器の操作提案の対象が目的地の設定であれば、一般に音声の再生と比較すればその都度の車両の状態から選択肢も絞りやすいため、車載機器の操作内容の確率分布のばらつき度合いが小さくなる可能性が高い。この点、上記構成では、確率分布のばらつき度合いが小さいほど車両の状態に応じた最も適正度合いの高い操作提案を行う頻度を高めることで、運転者に車載機器の操作内容を選択する手間をかけることなく、運転者の意図に即した車載機器の操作提案を行うようにしている。一方、上記構成では、確率分布のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高めることで、運転者の意図に即した車載機器の操作提案をより的確に行うようにしている。すなわち上記構成では、確率分布のばらつき度合いが大きい場合であれ、小さい場合であれ、操作提案の対象として一度に出力される車載機器の操作内容は一つのみであるため、運転者としてはその都度提案される車載機器の操作内容について同意の有無を意思表示しさえすればよい。そのため、目的地の設定及び音声の再生といった確率分布のばらつき度合いが異なる異種の車載機器の操作提案に対する応答を簡素かつ同一のユーザインターフェースを用いつつ一貫して行うことができる。これにより、運転者の負荷を抑えつつ運転者の意図に即した車載機器の操作提案を実行することが可能となる。
上記課題を解決する情報提供装置は、複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成部と、車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成部と、前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習部と、前記強化学習部により算出される確率分布のばらつき度合いを前記状態空間を構成する複数の状態について平均することにより前記状態空間のばらつき度合いを演算するばらつき度合い演算部と、前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供部とを備える。
また、上記課題を解決する情報提供プログラムは、コンピュータに、複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成機能と、車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成機能と、前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により状態空間を構成する各状態において行動空間を構成する各行動が実行される確率分布を算出する強化学習機能と、前記強化学習機能により算出される確率分布のばらつき度合いを前記状態空間を構成する複数の状態について平均することにより前記状態空間のばらつき度合いを演算するばらつき度合い演算機能と、前記ばらつき度合い演算機能において演算される状態空間のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算機能において演算される状態空間のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供機能とを実現させるためのプログラムである。
上記構成では、車載機器の操作提案に対する運転者からの応答の履歴を用いつつ車載機器の操作提案の適正度合いを表す指標として報酬関数を設定している。そして、この報酬関数に基づく強化学習により、各状態における車載機器の操作提案に対する運転者の意思決定のモデルを構築している。また、この構築したモデルを用いつつ、各状態において車載機器の操作提案に対する運転者からの応答により実行する車載機器の操作内容の確率分布が算出される。ここで、車載機器の操作内容の確率分布のばらつき度合いは、車載機器の操作提案の対象によって異なるのが普通である。例えば、車載機器の操作提案の対象が音声の再生であれば、一般に車両の状態だけでなくそのときの運転者の気分等によっても影響を受けやすくその選択肢も多岐に亘るため、車載機器の操作内容の確率分布のばらつき度合いが大きくなる可能性が高い。その一方で、車載機器の操作提案の対象が目的地の設定であれば、一般に音声の再生と比較すればその都度の車両の状態から選択肢も絞りやすいため、車載機器の操作内容の確率分布のばらつき度合いが小さくなる可能性が高い。この点、上記構成では、確率分布のばらつき度合いの合算値から求めた状態空間のばらつき度合いが小さいほど車両の状態に応じた最も適正度合いの高い操作提案を行う頻度を高めることで、運転者に車載機器の操作内容を選択する手間をかけることなく、運転者の意図に即した車載機器の操作提案を行うようにしている。一方、上記構成では、確率分布のばらつき度合いの合算値から求めた状態空間のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高めることで、運転者の意図に即した車載機器の操作提案をより的確に行うようにしている。すなわち上記構成では、状態空間のばらつき度合いが大きい場合であれ、小さい場合であれ、操作提案の対象として一度に出力される車載機器の操作内容は一つのみであるため、運転者としてはその都度提案される車載機器の操作内容について同意の有無を意思表示しさえすればよい。そのため、目的地の設定及び音声の再生といった状態空間のばらつき度合いが異なる異種の車載機器の操作提案に対する応答を簡素かつ同一のユーザインターフェースを用いつつ一貫して行うことができる。これにより、運転者の負荷を抑えつつ運転者の意図に即した車載機器の操作提案を実行することが可能となる。
上記情報提供装置において、前記強化学習部は、前記状態空間を構成する各状態から前記行動空間を構成する各行動への写像を方策とするとともに、前記各状態において前記方策に従った場合に得られる累積報酬の期待値を状態価値関数とし、前記状態空間を構成する全ての状態において前記状態価値関数を最大にする前記方策を最適方策としたとき、前記状態空間を構成する各状態において前記行動空間の中から所定の行動を選択した後に常に前記最適方策に従う場合に得られる累積報酬の期待値を最適行動価値関数として推定して、当該推定した最適行動価値関数に基づいて前記確率分布を算出するものであり、前記情報提供部は、前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが小さいほど、現在の状態において前記最適行動価値関数を最大化する行動を対象とする操作提案を行う頻度を高めることが好ましい。
上記構成では、状態空間のばらつき度合いが小さいほど、現在の状態において最適行動価値関数を最大化する行動、すなわち現在の状態において最も価値のある行動であって運転者がとる可能性が最も高いと想定される行動を対象として操作提案を行う頻度を高めている。これにより、運転者の意図に即した車載機器の操作提案をより一層高い信頼性をもって実現することが可能となる。
上記情報提供装置において、複数の行動の中からランダムで選択された操作提案を行うにあたって、現在の状態における前記確率分布の確率密度が高い行動ほど対象として選択する頻度を高める傾向をもって操作提案を行うことが好ましい。
上記構成では、複数の行動の中からランダムで選択された操作提案を行うにあたって、現在の状態における確率分布の確率密度が高い行動、すなわち、現在の状態において運転者がとる可能性が高い行動を車載機器の操作提案の対象として選択する頻度を高めるようにしている。これにより、対象としている車載機器の操作提案について運転者の行動を事前に特定することが困難な中にあっても、運転者の意図に即した車載機器の操作提案をより一層高い信頼性をもって実現することが可能となる。
上記情報提供装置において、前記ばらつき度合い演算部は、前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布のばらつき度合いをエントロピーとして定義するとともに、前記状態空間のばらつき度合いを平均エントロピーとして定義し、前記情報提供部は、前記平均エントロピーの値をε値として設定したε−グリーディ法を用いつつ、ε値が大きくなるほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高めることが好ましい。
上記構成では、状態空間のばらつき度合いを定義した平均エントロピーの値であるε値が大きくなるほど、すなわち状態空間のばらつき度合いが大きくなるほど、ランダムで選択された操作提案を行う頻度を高くするようにしている。これによっても、対象としている車載機器の操作提案について運転者の行動を特定することが困難な中にあって、運転者の意図に即した車載機器の操作提案をより一層高い信頼性をもって実現することが可能となる。
上記情報提供装置において、前記強化学習部は、前記車載機器の操作提案に対する運転者の応答により実行される車載機器の操作の頻度を前記報酬関数として設定するものであり、前記車載機器の操作提案に応じて車載機器の操作が行われたときには、その操作履歴の変更に応じて前記報酬関数を更新することが好ましい。
上記構成では、運転者の意図に対する車載機器の操作提案の適正度合いの指標として、車載機器の操作提案に対する運転者の応答により実行される行動の頻度を適用して報酬関数を設定し、応答履歴が変更されるごとに報酬関数を更新するようにしている。これにより、運転者の意図に即したかたちで状態空間を構成する各状態において行動空間を構成する各行動が実行される確率分布を算出することが可能となるとともに、運転者の応答の頻度が増えていくごとに確率分布の精度が運転者個人による応答の実態に合うかたちで高められるようになる。
上記情報提供装置において、前記状態空間構成部は、前記車載機器の操作状況、前記車両の乗員の特性、及び前記車両の走行状況を関連付けしたデータ群である状態の集合として前記状態空間を構成することが好ましい。
上記構成では、車載機器の操作状況、車両の乗員の特性、及び車両の走行状況等、運転者への車載機器の操作提案に影響を与える要素を多岐に亘って考慮しつつ、状態空間を構成する各状態を定義している。これにより、より一層実情に即したかたちで運転者の意図に即した車載機器の操作提案を実現することが可能となる。なお、上記構成では、上述のように種々の要素を考慮した結果、状態空間を構成する状態の数が膨大になることも予想される。しかしながら、履歴データの蓄積とともに精度の向上が図られる強化学習の手法を用いることにより、例えば教師あり学習を用いた場合のように膨大な数の教師データを事前に準備せずとも、運転者の意図に即した車載機器の操作提案を実現することが可能となる。
情報提供装置の第1の実施の形態の概略構成を示すブロック図。 状態空間を定義する車両データの属性の一例を示す図。 状態空間テーブルの設定内容の一例を示す図。 状態空間を定義する車両データの属性の一例を示す図。 状態空間テーブルの設定内容の一例を示す図。 行動空間テーブルの設定内容の一例を示す図。 行動空間テーブルの設定内容の一例を示す図。 状態空間を構成する各状態において行動空間を構成する各行動をとるときの遷移確率行列の一例を示す図。 試行錯誤的な操作提案を実行する際に用いられる累積分布関数の一例を示すグラフ。 (a)は現在の状態を定義する車両データの属性の一例を示す図、(b)は図10(a)に示した状態において確定的な操作提案に用いられる行動を選択する過程を説明するための図。 (a)は現在の状態を定義する車両データの属性の一例を示す図、(b)は図11(a)に示した状態において試行錯誤的な操作提案に用いられる行動を選択する過程を説明するための図。 ステアリングスイッチの一例を示す図。 情報提供処理の一例として車載機器の操作提案処理の処理内容を示すフローチャート。 確定的な操作提案を含むかたちでエージェントECUと運転者との間で交わされる対話の内容の一例を示す図。 試行錯誤的な操作提案を含むかたちでエージェントECUと運転者との間で交わされる対話の内容の一例を示す図。 情報提供装置の第2の実施の形態において、確定的な操作提案及び試行錯誤的な操作提案を選択する過程を説明するための図。 ステアリングスイッチの他の一例を示す図。 ステアリングスイッチの他の一例を示す図。
(第1の実施の形態)
以下、情報提供装置の第1の実施の形態について説明する。
本実施の形態の情報提供装置は、車両に搭載されて運転者に対する情報提供として車載機器の操作提案を行うエージェントECU(電子制御装置)により構成されている。ここで、エージェントECUの機能は、学習系、情報取得系、ユーザインターフェイス系に大別される。そして、エージェントECUは、情報取得系を通じて取得した各種の情報に基づき車載機器の操作履歴をその都度の車両の状態ごとに分類しつつ学習系において学習の一形態として強化学習を実行するとともに、当該強化学習による学習結果に基づきユーザインターフェース系を通じた車載機器の操作提案を実行する。ここで、強化学習とは、エージェントECUが環境に基づきある行動を選択したとき、当該選択した行動に基づく環境の変化に伴って何らかの報酬をエージェントECUに与えることにより、試行錯誤を通じてエージェントECUを環境に適応させていく学習手法である。なお、本実施の形態では、エージェントECUは、例えば車載機器の操作状況、車両の乗員の特性、車両の走行状況等、各種の車両データを互いに関連付けすることにより状態を定義して複数の状態の集合である状態空間を構成している。また、エージェントECUは、操作提案に対する運転者からの応答に伴ってエージェントECUが代行する可能性のある車載機器の操作の種類を行動として定義して複数の行動の集合である行動空間を構成している。そして、状態空間を構成する各状態において車載機器の操作提案に対する応答として実行された車載機器の操作履歴が強化学習でいうところの報酬に相当する。また、エージェントECUは、上述した強化学習を実行することにより、状態空間を構成する各状態において行動空間を構成する各行動が実行される確率分布を算出する。また、エージェントECUは、こうして算出した確率分布に基づき、その都度の車両の状態から運転者がとる可能性の高い行動を予測し、その予測結果を加味したかたちで車載機器の操作提案を実行する。
はじめに、本実施の形態の装置の構成について図面を参照して説明する。
図1に示すように、エージェントECU100は、車載機器の操作提案を制御する制御部110と、制御部110が車載機器の操作提案の際に実行する情報提供プログラムや当該情報提供プログラムの実行の際に制御部110が読み書きする各種のデータを格納する記憶部120とを有している。ここで、記憶部120に格納される各種のデータとしては、状態空間を定義した状態空間テーブルT1,T1α、行動空間を定義した行動空間テーブルT2,T2α、及び車載機器の操作履歴RAが含まれる。なお、本実施の形態では、例えば音声の再生、目的地の設定、空調の設定、シートポジションの設定、ミラーの設定、ワイパーの設定等、操作提案の対象となるサービスの種類が複数用意されている。そして、これらサービスの種類ごとに個別の状態空間テーブルT1,T1α及び行動空間テーブルT2,T2αがエージェントECU100の記憶部120に格納されている。
図2は、操作提案の一例として目的地の設定を行うときの状態の定義に用いられる車両データの属性の一例を示している。ここで、車両データの属性とは、目的地の設定の仕方に寄与する要素として予め登録されるものであり、同図に示す例では、車載機器の操作状況DA、車両の乗員の特性DB、車両の走行状況DCに関する車両データが含まれている。なお、車載機器の操作状況DAに関する車両データの一例としては、目的地DA1、時刻DA2、曜日DA3、現在地DA4が挙げられている。また、車両の乗員の特性DBに関する車両データの一例としては、配偶者の有無DB1、子供の有無DB2、同乗者の数DB3、趣味の有無DB4、目的DB5が挙げられている。また、車両の走行状況DCに関する車両データの一例としては、交通状況(混雑度合い)DC1、天候DC2が挙げられている。
そして、図3に示すように、状態空間テーブルT1は、図2に示した車両データの属性を総当たりで組み合わせることにより状態を定義して複数の状態の集合である状態空間を構成する。ここで、状態空間テーブルT1に含まれる状態の数m(例えば、400万程度)は、車両データの属性を構成する要素の種類(図2に示す例では、左から順に「目的地」から「天候」まで含めて11種類)や各要素のパラメータ数(図2に示す例では、例えば「目的地」のパラメータ数として8個)が多くなるに連れて増大する。
一方、図4は、操作提案の一例として音声の再生を行うときの状態の定義に用いられる車両データの属性の一例を示している。ここで、車両データの属性とは、音声の再生の仕方に寄与する要素として予め登録されるものであり、同図に示す例では、車載機器の操作状況DAα、車両の乗員の特性DBα、車両の走行状況DCαに関する車両データが含まれている。なお、車載機器の操作状況DAαに関する車両データの一例としては、音源DA1α、リピート設定DA2α、音量DA3α、時刻DA4α、曜日DA5α、現在地DA6αが挙げられている。また、車両の乗員の特性DBαに関する車両データの一例としては、配偶者の有無DB1α、子供の有無DB2α、同乗者の数DB3α、運転者の眠気の度合いDB4αが挙げられている。また、車両の走行状況DCαに関する車両データの一例としては、車両周辺の都市化・郊外化の度合いや道路環境を含めた環境DC1αが挙げられている。
そして、図5に示すように、状態空間テーブルT1αは、図4に示した車両データの属性を総当たりで組み合わせることにより状態を定義して複数の状態の集合である状態空間を構成する。ここでも状態空間テーブルT1αに含まれる状態の数n(例えば、15億程度)は、車両データの属性を構成する要素の種類や各要素のパラメータ数が多くなるに連れて増大する。
図6は、エージェントECU100が操作提案の一例として目的地の設定を代行するときの行動を定義して複数の行動の集合である行動空間を構成する行動空間テーブルT2の一例を示している。同図に示す例では、行動空間に含まれる行動の種類として、設定の対象となる目的地の場所名の一覧が挙げられている。ここで、設定の対象となる目的地の場所とは、例えば過去において運転者自身による設定の頻度が特に多かった場所名として予め登録されるものであり、同図に示す例では、「自宅」、「実家」に加え、「場所1」〜「場所6」の計8個の場所名が登録されている。
また、図7は、エージェントECU100が操作提案の一例として音声の再生を代行するときの行動を定義して複数の行動の集合である行動空間を構成する行動空間テーブルT2αの一例を示している。同図に示す例では、行動空間に含まれる行動の種類として、再生の対象となる音源の一覧が挙げられている。ここで、再生の対象となる音源とは、例えば過去において運転者による再生の頻度が特に多かった音源として予め登録されるものであり、同図に示す例では、ラジオの局名、及び携帯端末やCD(コンパクトディスク)等の記憶媒体に保存されている楽曲の曲名を含めて計100個の音源が登録されている。
また、図1に示すように、エージェントECU100は、例えばCAN(コントローラエリアネットワーク)等からなる車両ネットワークNWを介して他ECU群130、センサ群131、及びスイッチ群132に接続されている。
他ECU群130は、各種の車載機器の動作を制御する車載ECUであり、以下の(A1)〜(A3)に列挙する車載ECUが含まれる。

(A1)エンジン、ブレーキ、ステアリング等を制御する車両駆動系の車載ECU
(A2)エアコン、メータ等を制御するボディ系の車載ECU
(A3)カーナビゲーションシステム、オーディオシステム等を制御する情報系の車載ECU
センサ群131は、各種の車両データを取得するためのセンサ群であり、以下の(B1)〜(B20)に列挙するセンサが含まれる。

(B1)GPS(グローバル・ポジショニング・システム)センサ
(B2)レーザレーダ
(B3)赤外線センサ
(B4)超音波センサ
(B5)雨滴センサ
(B6)外気温センサ
(B7)車室内温度センサ
(B8)着座センサ
(B9)シートベルト着用状態センサ
(B10)車室内カメラ
(B11)スマートキーセンサ(登録商標:スマートキー)
(B12)侵入監視センサ
(B13)花粉等微粒子センサ
(B14)加速度センサ
(B15)電界強度センサ
(B16)ドライバモニタ
(B17)車速センサ
(B18)操舵角センサ
(B19)ヨーレートセンサ
(B20)生体センサ
スイッチ群132は、各種の車載機器の動作を切り替えるためのスイッチ群であり、以下の(C1)〜(C14)に列挙されるスイッチが含まれる。

(C1)ウインカーレバースイッチ
(C2)ワイパー操作スイッチ
(C3)ライト操作スイッチ
(C4)ステアリングスイッチ
(C5)ナビ・オーディオ操作スイッチ
(C6)窓操作スイッチ
(C7)ドア・トランク開閉・ロックスイッチ
(C8)エアコン操作スイッチ
(C9)シートヒータ・ベンチレーションスイッチ
(C10)シートポジション調整・プリセットメモリスイッチ
(C11)侵入監視システムスイッチ
(C12)ミラー操作スイッチ
(C13)ACC(アダプティブ・クルーズ・コントロール)スイッチ
(C14)エンジンスイッチ
そして、エージェントECU100の制御部110は、これら他ECU群130、センサ群131、及びスイッチ群132から車両ネットワークNWを介して各種の車両データが入力されると、記憶部120に格納されている状態空間テーブルT1,T1αを参照しつつ該当する車両の状態を割り出す。また、エージェントECU100の制御部110は、車載機器の操作提案に対する運転者の応答により行動空間に含まれる行動の中から所定の行動が選択されて車載機器の操作が実行されるごとに、記憶部120に格納されている車載機器の操作履歴RAのうち当該状態に対応する操作履歴のカウント値を累積加算する。この点で、エージェントECU100の制御部110は、状態空間を構成する各状態において車載機器の操作提案に対する運転者の応答の履歴データを蓄積するものである。
また、エージェントECU100の制御部110は、上述のように学習した各状態ごとに、操作提案を受理したときの車載機器の操作履歴のカウント値を報酬関数として設定しつつ、以下の(ステップ1)〜(ステップ7)の手順を通じて強化学習の一種であるQラーニングを実行する強化学習部111として機能する。

(ステップ1)状態空間を構成する各状態から行動空間を構成する各行動の写像を方策πとするとき、任意の方策πを初期設定する。
(ステップ2)現在の状態stを観測する(tは時間ステップ)。
(ステップ3)任意の行動選択方法により行動atを実行する(tは時間ステップ)。
(ステップ4)報酬rtを受け取る(tは時間ステップ)。
(ステップ5)状態遷移後の状態s(t+1)を観測する(ただし、状態s(t+1)への遷移がそのときの状態stと行動atにのみ依存し、それ以前の状態や行動に影響を受けないことが前提(いわゆる、マルコフ性))。
(ステップ6)行動価値関数Q(st,at)を更新する。
(ステップ7)時間ステップtを(t+1)へ進めて(ステップ1)に戻る。
なお、(ステップ3)の手順における行動選択方法としては、後述する行動価値関数Q(st,at)の値が最大となる行動を必ず選択するグリーディ法や、逆にあらゆる行動を等確率で選択するランダム法を用いることが可能である。またその他にも、確率εでランダム法による行動選択を行い、確率(1−ε)でグリーディ法による行動選択を行うε−グリーディ法や、行動価値関数Q(st,at)が高い行動を高い確率で選択するとともに行動価値関数Q(st,at)が低い行動を低い確率で選択するボルツマン選択等の手法を用いることが可能である。
また、(ステップ6)の手順における行動価値関数Q(st,at)の更新は、以下の式(1)に基づいて行われる。
なお、式(1)において学習率αは0<α<1の数値範囲に設定されている。これは、時間の経過とともに更新される行動価値関数Q(st,at)の増大量を次第に減少させてその値を収束させやすくするためである。また、同じく式(1)においてQ(st,at)は上記行動価値関数を示しており、強化学習部111が時間の経過に関わらず一定の方策πをとることを前提としたときに、状態stにおいて行動atをとった後に方策πに従う場合に得られる割引累積報酬Rtの期待値を表している。ここで、割引累積報酬Rtとは、状態遷移を繰り返す中で得られる報酬の合計であり、以下の式(2)により得られる。
なお、式(2)(式(1)も同様)において割引率γは0<γ<1の数値範囲に設定されている。これは、時間の経過とともに得られる報酬値を次第に減少させていくことで割引累積報酬Rtの値を収束させやすくするためである。
そして以降、強化学習部111は、上記(ステップ1)〜(ステップ7)の手順を繰り返し行うことにより、行動価値関数Q(st,at)を最大化(最適化)した最適行動価値関数Q(st,at)を算出する。ここで、最適行動価値関数Q(st,at)は、状態stにおいて方策πに従う場合に得られる割引累積報酬Rtの期待値を表す関数を状態価値関数V(st)とし、全ての状態stにおいてV(st)≧V’(st)を満たす方策πを最適方策πとしたとき、状態stで行動atを選択した後に最適方策πに従う場合に得られる割引累積報酬Rtの期待値を表している。
そして、強化学習部111は、上述のようにして得られた最適行動価値関数Q(st,at)を以下の式(3)に代入する。これにより、状態空間を構成する各状態から行動空間を構成する各行動への遷移確率行列のうち割引累積報酬Rtを最大化する遷移確率行列、すなわち各状態ごとの操作履歴RAのカウント値を考慮しつつ運転者の意図に即した遷移確率行列P(st,at)が算出される。
図8は、上述のようにして算出される遷移確率行列P(st,at)の一例を示している。遷移確率行列P(st,at)は、各行が状態空間を構成する各状態に対応しており、各列が行動空間を構成する各行動に対応している。そして、同図に示す例では、例えば状態s1において行動a1をとる確率が「0.01」とされ、同じく状態s1において行動a2をとる確率が「0.10」とされ、同じく状態s1において行動a100をとる確率が「0.03」とされている。
そして、エージェントECU100の制御部110は、これら確率をpとしたときに図8に示す式を用いつつ情報エントロピーH(s)を算出する。なお、情報エントロピーH(s)は、確率分布のばらつき度合いの指標となるパラメータである。この点では、エージェントECU100の制御部110は、強化学習部111により算出される確率分布のばらつき度合いを演算するばらつき度合い演算部112としても機能する。そして、情報エントロピーH(s)の値が大きいほど、確率分布のばらつき度合いが大きい、すなわち状態stにおいて行動空間を構成する各行動をとる確率が均等に分散していることを意味している。そのため、情報エントロピーH(s)の値が大きい場合、行動空間を構成する行動の中から運転者が取り得る行動を予測することは困難となる。
また、ばらつき度合い演算部112は、以下の式(4)に示すように、状態空間を構成する各状態について算出した情報エントロピーH(s)を合算することにより平均エントロピーH(Ω)を算出する。
なお、平均エントロピーH(Ω)とは、状態空間のばらつき度合いを示すパラメータである。そして、平均エントロピーH(Ω)の値が大きいほど状態空間のばらつき度合いが大きい、すなわち状態空間全体として見たときに各状態において行動空間を構成する各行動をとる確率が均等に分散していることを意味している。そのため、平均エントロピーH(Ω)の値は、操作提案の対象となるサービスについて行動空間を構成する行動の中から運転者が取り得る行動を予測可能であるか否かについての指標となる。
そこで、エージェントECU100の制御部110は、以下のアルゴリズムに従い、強化学習部111により求めた平均エントロピーH(Ω)をε値としたε−グリーディ法を用いつつ車載機器の操作提案に関する情報を生成する提案情報生成部113としても機能する。
なお、上記アルゴリズムでは、提案情報生成部113は、0〜1の数値範囲をとる乱数δ(閾値)を設定しており、「δ>ε」の条件を満たしたときに式(5)を適用する。すなわち、提案情報生成部113は、強化学習部111により求めた平均エントロピーH(Ω)の値が小さいほど、式(5)を適用する頻度を高めるようにしている。そして、提案情報生成部113は、式(5)の適用により、上述のように強化学習部111により求めた最適行動価値関数Q(st,at)を最大化する行動a、すなわち状態sにおいて最も価値のある行動を操作提案の対象として出力して確定的な操作提案を実行する。
一方、上記アルゴリズムでは、提案情報生成部113は、「δ≦ε」の条件を満たしたときに式(6)を適用する。すなわち、提案情報生成部113は、強化学習部111により求めた平均エントロピーH(Ω)の値が大きいほど、式(6)を適用する頻度を高めるようにしている。提案情報生成部113は、式(6)の適用に際してまず、ある状態sにおいて行動空間を構成する各行動をとる確率を加算していくことで累積分布関数F(s)を求める。そして、提案情報生成部113は、上記の乱数δとは異なる変数として0〜1の数値範囲をとる乱数τを設定したとき、「F(s)=τ」を満たす行動を操作提案の対象として出力する試行錯誤的な操作提案を実行する。
図9に一例として示す累積分布関数F(s)からも明らかなように、行動空間を構成する各行動をとる確率に応じて累積分布関数F(s)の増加量も変動する。具体的には、確率が比較的高い行動に対応する横軸の区間では累積分布関数F(s)の増加量が急峻となる一方で、確率が比較的低い行動に対応する横軸の区間では累積分布関数F(s)の増加量も緩慢となる。そのため、乱数τを0〜1の数値範囲で変化させたとき、確率が比較的高い行動の方が「F(s)=τ」の条件を満たしやすく、確率が比較的低い行動の方が「F(s)=τ」の条件を満たしにくくなる。したがって、上述のように、「F(s)=τ」を満たす行動を操作提案の対象として出力するとき、確率の高い行動ほど選択する頻度を高める傾向をもって出力される。なお同図に示す例では、F(s)=τを満たすときの対応する行動が行動a3’となっている。そのため、行動空間を構成する複数の行動の中から行動a3’が操作提案の対象となる行動として選択されて出力される。
図10(a)、(b)は、操作提案として目的地の設定を行うときの、ε−グリーディ法を用いた確定的な操作提案と試行錯誤的な操作提案との選択を説明するための具体例を示している。
この例では図10(a)に示すように、エージェントECU100はまず、車両ネットワークNWを通じて取得される各種の車両データに基づき、現在の状態が状態空間テーブルT1において状態空間を構成する各状態のうち何れの状態に該当するのかを抽出する(同図では、状態Siとして抽出)。そして、この例では、遷移確率行列P(st,at)から求まる平均エントロピーH(Ω)が比較的小さい状況にあり、上述した式(5)を適用した確定的な操作提案を行う頻度が高くなる。この場合、図10(b)に示すように、エージェントECU100は、行動空間を構成する各行動のうち、現在の状態において最も価値のある行動(同図に示す例では、「自宅」)を操作提案の対象として出力する。
また、図11(a)、(b)は、操作提案として音声の再生を行うときの、ε−グリーディ法を用いた確定的な操作提案と試行錯誤的な操作提案との選択を説明するための具体例を示している。
この例でも図11(a)に示すように、エージェントECU100はまず、車両ネットワークNWを通じて取得される各種の車両データに基づき、現在の状態が状態空間テーブルT1αにおいて状態空間を構成する各状態のうち何れの状態に該当するのかを抽出する(同図では、状態Sjとして抽出)。そしてこの例では、遷移確率行列P(st,at)から求まる平均エントロピーH(Ω)が比較的大きい状況にあり、上述した式(6)を適用した試行錯誤的な操作提案を行う頻度が高くなる。この場合、図11(b)に示すように、エージェントECU100は、行動空間を構成する各行動のうち、現在の状態からの遷移確率の確率密度が高い行動ほど選択する頻度を高める傾向をもって操作提案の対象としてランダムに出力する(同図に示す例では、「FM D」)。

そして、エージェントECU100は、こうして操作提案の対象として出力した行動に関する情報を車両ネットワークNWを経由してスピーカ等の音声出力部140、又はLCD(液晶ディスプレイ)及びHUD(ヘッドアップディスプレイ)等の画像出力部141に送信することにより、音声又は画像を通じた車載機器の操作提案を実行する。
また、エージェントECU100は、ステアリングスイッチ及びマイク等の操作入力部142を介した操作入力又は音声入力の操作信号を車両ネットワークNWを介して受信することにより操作提案に対する運転者からの応答を検出する操作検出部114としても機能する。
図12は、ステアリングスイッチを介した操作入力の一例を説明するための図である。同図に示す例では、ステアリングスイッチ142Aは、4つの操作ボタンBA1〜BA4を有しており、これら操作ボタンのうち上方に位置する第1の操作ボタンBA1及び下方に位置する第2の操作ボタンBA2は、エージェントECU100からの操作提案に応答するときに操作される操作ボタンとして割り当てられている。そして、操作提案を受理するときに第1の操作ボタンBA1が操作され、逆に操作提案を拒否するときに第2の操作ボタンBA2が操作される。また、これら操作ボタンのうち左方に位置する第3の操作ボタンBA3及び右方に位置する第4の操作ボタンBA4は、エージェントECU100からの操作提案とは無関係に車載機器の操作を行うときに操作される操作ボタンとして割り当てられている。そして、運転者自身による手入力により車載機器の操作を行うときに第3の操作ボタンBA3が操作され、運転者自身がその都度の車両の状態とは関係なく高い頻度で行っている車載機器の操作を行うときに第4の操作ボタンBA4が操作される。なお、第4の操作ボタンBA4は、現在と同じ状況のときに他の運転者が過去に行った車載機器の操作に関する情報を外部サーバから取得して運転者自身に提供するときに操作される操作ボタンとして割り当てられるようにしてもよい。
そして、エージェントECU100の制御部110は、操作検出部114を通じて操作信号を検出すると、学習更新トリガー部115から強化学習部111へのトリガ信号の送信を促す。なお、上述のように本実施の形態では、操作提案を受理したときの車載機器の操作履歴のカウント値が強化学習における報酬関数として設定されている。そのため、図12に示したステアリングスイッチ142Aを例に挙げたならば、第1の操作ボタンBA1が操作されて操作提案が受理されたときに、学習更新トリガー部115から強化学習部111へのトリガ信号の送信が促される。
そして、強化学習部111は、学習更新トリガー部115からトリガ信号を受信すると、その時点で車両ネットワークNWを通じて取得される各種の車両データに基づき、現在の状態が状態空間テーブルT1,T1αにおいて状態空間を構成する各状態のうち何れの状態に該当するのかを割り出す。そして、強化学習部111は、記憶部120に格納されている車載機器の操作履歴RAのうち当該状態に対応する操作履歴のカウント値を累積加算する。
また、強化学習部111は、車載機器の操作履歴RAを更新すると、当該操作履歴RAの更新に併せた更新後の報酬関数を用いつつ最適行動価値関数Q(st,at)、及び当該最適行動価値関数Q(st,at)に基づく遷移確率行列P(st,at)を新たに算出する。そして、提案情報生成部113は、強化学習部111により新たに算出された遷移確率行列P(st,at)に基づき、運転者の意図に即した車載機器の操作提案を実行する。
次に、本実施の形態のエージェントECU100が記憶部120に格納された情報提供プログラムを読み出して実行する車載機器の操作提案処理について、その具体的な処理手順を説明する。ここで、エージェントECU100は、車両のイグニッションスイッチがオンとなったことを条件に、図13に示す車載機器の操作提案処理を開始する。
図13に示すように、この車載機器の操作提案処理ではまず、エージェントECU100は、記憶部120に格納されている操作履歴RAが更新されたか否か、すなわち、学習更新トリガー部115から強化学習部111へのトリガ信号の送信が行われたか否かを判定する(ステップS10)。
そして、エージェントECU100は、操作履歴RAが更新されたときには(ステップS10=YES)、報酬関数も併せて更新されることから、当該更新後の報酬関数を用いつつ強化学習部111を通じて最適行動価値関数Q(st,at)を算出する(ステップS11)。
また、エージェントECU100は、こうして算出した最適行動価値関数Q(st,at)に基づき、状態空間を構成する各状態から行動空間を構成する各行動への遷移確率行列P(st,at)を強化学習部111を通じて算出する(ステップS12)。
また、エージェントECU100は、こうして算出した遷移確率行列P(st,at)に基づき、状態空間を構成する各状態ごとの情報エントロピーH(s)をばらつき度合い演算部112を通じて算出する(ステップS13)。更には、エージェントECU100は、各状態ごとの情報エントロピーH(s)を合算して得られる平均エントロピーH(Ω)をばらつき度合い演算部112を通じて算出する(ステップS14)。
そして、エージェントECU100は、こうして算出した平均エントロピーH(Ω)が乱数として設定された乱数δ未満であるときには(ステップS15=YES)、先のステップS11において算出した最適行動価値関数Q(st,at)を最大化する行動aを自動設定の対象として提案情報生成部113から音声出力部140又は画像出力部141に固定して出力する確定的な操作提案を実行する(ステップS16)。
一方、エージェントECU100は、先のステップS14において算出した平均エントロピーH(Ω)が乱数δ以上であるときには(ステップS15=NO)、先のステップS12において算出した遷移確率行列P(st,at)に基づき、現在の状態stにおいて実行される確率が高い行動ほど選択する頻度を高める傾向をもって自動設定の対象としてランダムに出力する試行錯誤的な操作提案を実行する(ステップS17)。
続いて、エージェントECU100は、先のステップS16又は先のステップS17における操作提案に対する運転者からの応答があったときには、その応答に関する情報を操作入力部142を通じて取得する(ステップS18)。そして、エージェントECU100は、こうして取得した運転者からの応答が操作提案を受理するものであるか否かを判断する(ステップS19)。この判断は、例えばステアリングスイッチを介した操作入力であれば決定ボタン(図12に示す例では第1の操作ボタンBA1)が押されたか否か、また、マイクを介した音声入力であれば肯定的な応答を示す単語(例えば、「はい」、「YES」等)が入力されたか否かに基づいて行われる。
そして、エージェントECU100は、運転者からの応答が操作提案を受理するものであるときには(ステップS19=YES)、先のステップS16又はステップS17において自動設定の対象として出力した行動を実行する(ステップS20)。また、エージェントECU100は、自動設定の対象として出力した行動の実行に伴って、学習更新トリガー部115から強化学習部111へのトリガ信号の送信を行い、強化学習部111を通じた車載機器の操作履歴RAの更新を行った上で(ステップS21)、その処理をステップS22に移行する。
一方、エージェントECU100は、運転者からの応答が操作提案を受理するものではないときには(ステップS19=NO)、先のステップS20及びステップS21の処理を経ることなく、その処理をステップS22に移行する。
そして、エージェントECU100は、車両のイグニッションスイッチがオンである間は(ステップS22=NO)は、その処理をステップS10に戻し、ステップS10〜ステップS22の処理を所定の周期で繰り返す。このとき、エージェントECU100は、先のステップS21において車載機器の操作履歴RAが更新されているのであれば、当該操作履歴RAの更新に併せた更新後の報酬関数を用いつつ、最適行動価値関数Q(st,at)、及び当該最適行動価値関数Q(st,at)に基づく遷移確率行列P(st,at)を新たに算出する(ステップS11、ステップS12)。そして、エージェントECU100は、新たに算出した遷移確率行列P(st,at)に基づき、車載機器の操作提案として上述した確定的な操作提案又は試行錯誤的な操作提案を実行する(ステップS16、ステップS17)。
そして以降、エージェントECU100は、操作提案に対する応答として操作入力部142が操作されて操作提案が受理されるごとに車載機器の操作履歴RAを更新し、当該更新に併せて強化学習部111による強化学習を繰り返す。これにより、車載機器の操作提案に対する運転者からの応答の頻度が増えていくごとに遷移確率行列P(st,at)の精度が運転者個人による行動の実態に合うかたちで高められる。
次に、本実施の形態のエージェントECU100の作用について、特に車載機器の操作提案を実行するときの作用に着目して以下に説明する。
車載機器の操作提案を実行する際、その都度の車両の状態に応じて運転者が取り得る行動を先回りして予測することの困難さは対象となる操作提案の種類によって異なるのが普通である。例えばラジオの再生や楽曲の再生等、車両の走行時における音声の再生は、一般に車両の状態だけでなくそのときの運転者の気分等によっても影響を受けやすくその選択肢も多岐に亘る。そのため、運転者が取り得る行動を先回りして予測することは困難となることが予想される。その一方で、例えば目的地の設定等は、一般に音声の再生と比較すればその都度の車両の状態から選択肢も絞りやすく運転者が取り得る行動を先回りして予測することは容易となることが予想される。
そこで本実施の形態では、エージェントECU100は、各々の操作提案の種類ごとに、操作提案に対する応答として行われる車載機器の操作履歴RAをログとして記録し、記録した操作履歴RAを報酬関数として設定した強化学習を実行する。これにより、エージェントECU100は、運転者個人による行動の実態に合うかたちで状態空間を構成する各状態から行動空間を構成する各行動への遷移確率行列P(st,at)を算出する。
この場合、上述のように、音声の再生に対応する車載機器の操作履歴RAに基づき算出される遷移確率行列P(st,at)では、状態空間を構成する各状態において行動空間を構成する各行動をとる確率が比較的分散しやすい。一方、これも上述のように、目的地の設定に対応する車載機器の操作履歴RAに基づき算出される遷移確率行列P(st,at)では、状態空間を構成する各状態において行動空間を構成する各行動をとる確率が比較的分散しにくい。
そこで本実施の形態では、エージェントECU100は、こうした状態空間のばらつき度合いの評価を、状態空間を構成する各状態ごとの情報エントロピーH(s)の値を合算した平均エントロピーH(Ω)の値に基づいて行う。
そして、エージェントECU100は、平均エントロピーH(Ω)が乱数δ未満であるときには、現在の状態において最も価値のある行動を操作提案の対象として固定して出力する確定的な操作提案を実行する。この場合、エージェントECU100は、平均エントロピーH(Ω)の値が小さくなるほど、確定的な操作提案を実行する頻度を高める。
図14は、確定的な操作提案を含むかたちでエージェントECU100と運転者との間で交わされる対話の内容の一例を示している。同図に示す例では、エージェントECU100は、確定的な操作提案として、自動設定の対象となる目的地が「自宅」であるか否かを確認している。そして、エージェントECU100は、確定的な操作提案を受理することを示す音声コマンド(同図に示す例では、「Yes」)が運転者から入力されると、目的地として「自宅」を自動設定する。このように、エージェントECU100は、例えば目的地の設定のように、現在の状態において運転者が行動空間を構成する行動のうち何れの行動をとるのかが特定しやすい状況では、運転者に行動を選択する手間をかけることなく、運転者の意図に即した車載機器の操作提案を行うようにしている。
一方、エージェントECU100は、平均エントロピーH(Ω)が乱数δ以上であるときには、現在の状態からの遷移確率の確率密度が高いほど選択する頻度を高める傾向をもってランダムに選択された行動を操作提案の対象として出力する試行錯誤的な操作提案を実行する。この場合、エージェントECU100は、平均エントロピーH(Ω)の値が大きくなるほど、試行錯誤的な操作提案を実行する頻度を高める。
図15は、試行錯誤的な操作提案を含むかたちでエージェントECU100と運転者との間で交わされる対話の内容の一例を示している。同図に示す例では、エージェントECU100はまず最初に、試行錯誤的な操作提案を開始するか否かを運転者に確認する。そして、エージェントECU100は、試行錯誤的な操作提案を受理することを示す音声コマンド(同図に示す例では、「YES」)が運転者から入力されると、現在の状態からの遷移確率の確率密度が比較的高い行動の中からランダムに選択された行動として、「FM A」の選択を運転者に提案する。そして、エージェントECU100は、提案した音声を受理することを示す音声コマンドが運転者から入力されると、音声として「FM A」を自動設定する。また、エージェントECU100は、音声を再生した後に、提案した音声を拒否することを示す音声コマンド(同図に示す例では、「No」)が入力されると、上述した遷移確率の確率密度が高い行動ほど選択する頻度を高める傾向をもってランダムに選択された別の行動として、「CD 楽曲n」の選択を運転者に提案する。そして、エージェントECU100は、提案した音声を受理することを示す音声コマンドが運転者から入力されるまで、遷移確率の確率密度が高い行動ほど選択する頻度を高める傾向をもってランダムに選択された別の行動を運転者に順次提案する。そして、エージェントECU100は、「CD 楽曲2」の選択の提案が受理されたときには、音声として「CD 楽曲2」を自動設定する。このように、エージェントECU100は、例えば音声の設定のように、現在の状態において運転者が行動空間を構成する行動のうち何れの行動をとるかが特定しにくい状況では、複数の候補の中から対象となる行動を選択して出力するようにすることで、運転者の意図に即した車載機器の操作提案をより的確に行うようにしている。
以上説明したように、本実施の形態によれば、以下に示す効果を得ることができる。
(1)エージェントECU100は、強化学習により算出した遷移確率行列P(st,at)における各状態ごとの情報エントロピーH(s)の合算値から求めた平均エントロピーH(Ω)が乱数δ未満であるときには、対象となる行動を操作提案の対象として固定して出力する確定的な操作提案を行う。これにより、運転者に行動を選択する手間をかけることなく、運転者の意図に即した車載機器の操作提案が行われる。一方、エージェントECU100は、強化学習により算出した遷移確率行列P(st,at)における各状態ごとの情報エントロピーH(s)の合算値から求めた平均エントロピーH(Ω)が乱数δ以上であるときには、複数の候補の中から対象となる行動を操作提案の対象として選択して出力する試行錯誤的な操作提案を行う。これにより、運転者の意図に即した車載機器の操作提案がより的確に行われる。すなわち、平均エントロピーH(Ω)が大きい場合であれ、小さい場合であれ、操作提案の対象として一度に出力される車載機器の操作内容は一つのみであるため、運転者としてはその都度提案される車載機器の操作内容について同意の有無を意思表示しさえすればよい。そのため、目的地の設定及び音声の再生といった平均エントロピーH(Ω)のばらつき度合いが異なる異種の車載機器の操作提案に対する応答を簡素かつ同一のユーザインターフェースとして操作入力部142を用いつつ一貫して行うことができる。これにより、運転者の負荷を抑えつつ運転者の意図に即した車載機器の操作提案を実行することが可能となる。
(2)エージェントECU100は、平均エントロピーH(Ω)の値が乱数δ未満であるときには、現在の状態において最適行動価値関数Q(st,at)を最大化する行動、すなわち現在の状態において最も価値のある行動であって運転者がとる可能性が最も高いと想定される行動を対象として確定的な操作提案を実行する。これにより、運転者の意図に即した操作提案をより一層高い信頼性をもって実現することが可能となる。
(3)エージェントECU100は、平均エントロピーH(Ω)の値が乱数δ以上であるときには、現在の状態における確率分布の確率密度が高い行動、すなわち、現在の状態において運転者がとる可能性が高い行動を対象として選択する頻度を高める傾向をもって試行錯誤的な操作提案を行う。これにより、対象としている車載機器の操作を事前に特定することが困難な中にあっても、運転者の意図に即した操作提案をより一層高い信頼性をもって実現することが可能となる。
(4)エージェントECU100は、平均エントロピーH(Ω)の値をε値として設定したε−グリーディ法を用いつつ、ε値が大きくなるほど試行錯誤的な操作提案を行う頻度を高くする傾向をもって、確定的な操作提案と試行錯誤的な操作提案との選択を行う。そのため、エージェントECU100は、平均エントロピーの値であるε値が大きくなるほど、すなわち状態空間のばらつき度合いが大きくなるほど、試行錯誤的な操作提案を選択する頻度が高くなる。これによっても、対象としている情報提供について運転者の行動を特定することが困難な中にあって、運転者の意図に即した操作提案をより一層高い信頼性をもって実現することが可能となる。
(5)エージェントECU100は、運転者の意図に対する車載機器の操作提案の適正度合いの指標として、操作提案に対する応答により行動空間を構成する行動の中から選択されて実行される行動の頻度を適用して報酬関数を設定し、応答履歴(車載機器の操作履歴RA)が更新されるごとに報酬関数も併せて更新するようにしている。これにより、運転者の意図に即したかたちで状態空間を構成する各状態において行動空間を構成する各行動が実行される遷移確率行列P(st,at)を算出することが可能となるとともに、運転者の応答の頻度が増えていくごとに遷移確率行列P(st,at)の精度を運転者個人による応答の実態に合うかたちで高めることが可能となる。
(6)エージェントECU100は、車載機器の操作状況DA,DAα、車両の乗員の特性DB,DBα、及び車両の走行状況DC,DCα等、車載機器の操作提案に影響を与える要素を多岐に亘って考慮しつつ、状態空間を構成する各状態を定義している。これにより、より一層実情に即したかたちで運転者の意図に即した操作提案を実現することが可能となる。なお、上述のように種々の要素を考慮した結果、状態空間を構成する状態の数が膨大になることも予想される。この点、上記実施の形態では、操作履歴RAの蓄積とともに精度の向上が図られる強化学習の手法を用いることにより、例えば教師あり学習を用いた場合のように膨大な数の教師データを事前に準備せずとも、運転者の意図に即した操作提案を実現することが可能となる。
(第2の実施の形態)
次に、情報提供装置の第2の実施の形態について図面を参照して説明する。なお、第2の実施の形態は、各状態ごとの情報エントロピーの値を合算した平均エントロピーの値を求めることに代えて、現在の状態に対応する情報エントロピーの値に基づいて確定的な操作提案及び試行錯誤的な操作提案の選択を行う点が第1の実施の形態と異なる。したがって、以下の説明においては、第1の実施の形態と相違する構成について主に説明し、第1の実施の形態と同一の又は相当する構成については重複する説明を省略する。
図16は、本実施の形態において、確定的な操作提案及び試行錯誤的な操作提案の選択に用いる遷移確率行列P(st,at)の一例を示している。同図に示す例では、例えば状態siにおいて行動a1をとる確率が「0.03」とされ、同じく状態siにおいて行動a2をとる確率が「0.04」とされ、同じく状態siにおいて行動a100をとる確率が「0.02」とされている。そして、エージェントECU100は、これら確率をpとしたときに図8に示した式を用いつつ情報エントロピーH(s)の値を算出する。この場合、これら確率が均等に分散していることから情報エントロピーH(s)の値は比較的大きくなる。
また同様に、同図に示す例では、例えば状態sjにおいて行動a1をとる確率が「0.6」とされ、同じく状態sjにおいて行動a2をとる確率が「0.02」とされ、同じく状態sjにおいて行動a100をとる確率が「0.04」とされている。そして、エージェントECU100は、これら確率をpとしたときに図8に示した式を用いつつ情報エントロピーH(s)の値を算出する。この場合、これら確率が局所的(「行動a1」)に偏っていることから情報エントロピーH(s)の値は比較的小さくなる。
そして、エージェントECU100は、上記第1の実施の形態において用いたアルゴリズムに概ね従い、現在の状態に対応する情報エントロピーH(s)の値をε値としたε−グリーディ法を用いつつ、車載機器の操作提案に関する情報を生成する。これにより、エージェントECU100は、仮に現在の状態が図16に示した状態siであるときのように、現在の状態に対応する情報エントロピーH(s)の値が比較的大きいときには、上述した式(6)の適用により、試行錯誤的な操作提案を実行する頻度を高める。その一方で、エージェントECU100は、仮に現在の状態が図16に示した状態sjであるときのように、現在の状態に対応する情報エントロピーH(s)の値が比較的小さいときには、上述した式(5)の適用により、確定的な操作提案を実行する頻度を高める。すなわち、エージェントECU100は、例えば目的地の設定のように状態空間全体として見たときには平均エントロピーH(Ω)の値が比較的小さいときであっても、現在の状態に対応する情報エントロピーH(s)の値が乱数δ以上であるときには、現在の状態に限れば運転者が行動空間を構成する行動のうち何れの行動をとるのかが特定しにくい状況であると判断して試行錯誤的な操作提案を実行する。また逆に、エージェントECU100は、例えば音声の設定のように状態空間全体として見たときには平均エントロピーH(Ω)の値が比較的大きいときであっても、現在の状態に対応する情報エントロピーH(s)の値が乱数δ未満であるときには、現在の状態に限れば運転者が行動空間を構成する行動のうち何れの行動をとるのかが特定しやすい状況であると判断して確定的な操作提案を実行する。このように、エージェントECU100は、現在の状態において運転者の行動の特定のしやすさを個別具体的に考慮することで、より一層実情に合致したかたちで運転者の意図に即した車載機器の操作提案を行うようにしている。
以上説明したように、上記第2の実施の形態によれば、第1の実施の形態の上記(1)の効果に代えて、以下に示す効果を得ることができる。
(1A)エージェントECU100は、強化学習により算出した遷移確率行列P(st,at)において現在の状態に対応する情報エントロピーH(s)が乱数δ以上であるときには、複数の候補の中から対象となる行動を選択して出力する試行錯誤的な操作提案を車載機器の操作提案として行う。これにより、運転者の意図に即した車載機器の操作提案がより的確に行われる。一方、エージェントECU100は、強化学習により算出した遷移確率行列P(s,a)において現在の状態に対応する情報エントロピーH(s)が乱数δ未満であるときには、対象となる行動を固定して出力する確定的な操作提案を車載機器の操作提案として行う。これにより、運転者に行動を選択する手間をかけることなく、運転者の意図に即した車載機器の操作提案が行われる。すなわち、各状態ごとの情報エントロピーH(s)のばらつき度合いが大きい場合であれ、小さい場合であれ、操作提案の対象として一度に出力される車載機器の操作内容は一つのみであるため、運転者としてはその都度提案される車載機器の操作内容について同意の有無を意思表示しさえすればよい。そのため、目的地の設定及び音声の再生といった各状態ごとの情報エントロピーH(s)のばらつき度合いが異なる異種の車載機器の操作提案に対する応答を簡素かつ同一のユーザインターフェースとして操作入力部142を用いつつ一貫して行うことができる。これにより、運転者の負荷を抑えつつ運転者の意図に即した車載機器の操作提案を実行することが可能となる。また、エージェントECU100は、状態空間全体として見たときの状態空間のばらつき度合いを定義する平均エントロピーH(Ω)の値とは無関係に、現在の状態に対応する情報エントロピーH(s)の値に基づき、試行錯誤的な操作提案及び確定的な操作提案の選択を行う。これにより、エージェントECU100は、現在の状態において運転者の行動の特定のしやすさを個別具体的に考慮することで、より一層実情に合致したかたちで運転者の意図に即した車載機器の操作提案を行うことが可能となる。
(その他の実施の形態)
なお、上記各実施の形態は、以下のような形態にて実施することもできる。
・上記第1の実施の形態においては、状態空間を定義する全ての状態についての情報エントロピーH(s)を合算することにより、状態空間のばらつき度合いを定義する平均エントロピーH(Ω)を算出するようにした。これに代えて、状態空間を定義する状態のうち一部の状態についての情報エントロピーH(s)を合算して平均エントロピーH(Ω)を算出するようにしてもよい。
・上記第1の実施の形態においては、平均エントロピーH(Ω)との比較対象となる閾値として乱数δを用いるようにした。これにより、より多様性に富んだ振り分けが可能になるものの、処理負荷を軽減するためにはこれに代えて、平均エントロピーH(Ω)との比較対象となる閾値として固定値を用いるようにしてもよい。この場合、平均エントロピーH(Ω)が固定値未満であるときには上述した式(5)を適用して確定的な操作提案を実行する一方で、平均エントロピーH(Ω)が固定値以上であるときには上述した式(6)を適用して試行錯誤的な操作提案を実行するようにすればよい。
・同様に上記第2の実施の形態においては、現在の状態に対応する情報エントロピーH(s)との比較対象となる閾値として乱数δを用いるようにした。これに代えて、現在の状態に対応する情報エントロピーH(s)との比較対象となる閾値として固定値を用いるようにしてもよい。この場合、情報エントロピーH(s)が固定値未満であるときには上述した式(5)を適用して確定的な操作提案を実行する一方で、現在の状態に対応する情報エントロピーH(s)が固定値以上であるときには上述した式(6)を適用して試行錯誤的な操作提案を実行するようにすればよい。
・上記第1の実施の形態においては、状態空間のばらつき度合いの評価は、状態空間を構成する各状態に対応する情報エントロピーH(s)を合算した平均エントロピーH(Ω)に基づいて行うようにした。これに代えて、状態空間のばらつき度合いの評価は、状態空間を構成する各状態ごとの確率分布の分散又は標準偏差を合算した値に基づいて行うようにしてもよい。
・同様に上記第2の実施の形態においては、現在の状態における確率分布のばらつき度合いの評価は、現在の状態に対応する情報エントロピーH(s)に基づいて行うようにしたが、これに代えて、現在の状態における確率分布の分散又は標準偏差に基づいて行うようにしてもよい。
・上記各実施の形態においては、状態を定義する車両データの属性として、車載機器の操作状況DA,DAα、車両の乗員の特性DB,DBα、及び車両の走行状況DC,DCαを含むようにした。これに限らず、状態を定義する車両データの属性は、運転者による車載機器の操作の仕方に寄与する要素であれば他の要素を採用するようにしてもよい。
・上記各実施の形態においては、確定的な操作提案として、行動空間を構成する各行動のうち、現在の状態において最適行動価値関数Q(st,at)を最大化する行動、すなわち、現在の状態において最も価値のある行動を操作提案の対象として出力するようにした。これに代えて、例えば、現在の状態において遷移確率が最大となる行動を操作提案の対象として出力するようにしてもよい。要は、運転者がとる可能性が最も高いと想定される行動を対象として確定的な操作提案を実行するものであればよい。
・上記各実施の形態においては、試行錯誤的な操作提案として、「F(s)=τ」を満たす行動を操作提案の対象として出力するようにした。これに代えて、ある状態sにおいて行動空間を構成する各行動をとる確率を低い順に並べ替えた上で加算していくことで累積分布関数F(s)を求めたときに、「F(s)≧τ」を満たす行動を操作提案の対象として出力するようにしてもよい。また、ある状態sにおいて行動空間を構成する各行動をとる確率を高い順に並べ替えた上で加算していくことで累積分布関数F(s)を求めたときに、「F(s)≦τ」を満たす行動を操作提案の対象として出力するようにしてもよい。要は、現在の状態における確率分布の確率密度が高い行動ほど対象として選択する頻度を高める傾向をもって試行錯誤的な操作提案を実行するものであればよい。
・上記各実施の形態においては、強化学習における報酬関数として、操作提案に対する応答としての図12に示したステアリングスイッチ142Aにおける第1の操作ボタンBA1の操作回数を設定するようにした。これに代えて、強化学習における報酬関数として、図12に示したステアリングスイッチにおける第1の操作ボタンBA1の操作回数から第2の操作ボタンBA2の操作回数を減算した値を設定するようにしてもよい。また、第1の操作ボタンBA1の操作回数から第3の操作ボタンBA3の操作回数や第4の操作ボタンBA4の操作回数を更に減算した値を強化学習における報酬関数として設定することも可能である。また、車載機器の操作提案に対して運転者から何らの操作が行われなかったときにその回数をログとして記録して第1の操作ボタンBA1の操作回数から減算した値を強化学習における報酬関数として設定することも可能である。また、強化学習における報酬関数として、車載機器の操作提案に対して運転者が快・不快といった感情を感じた回数を運転者の生体信号等に基づいて計測し、運転者が快と感じた回数を強化学習における報酬関数として設定するようにしてもよい。また、運転者が快と感じた回数から不快と感じた回数を減算した値を強化学習における報酬関数として設定することも可能である。要は、運転者の意図に対する車載機器の操作提案の適正度合いを表す指標となるものであれば、強化学習における報酬関数として設定することは可能である。
・上記各実施の形態においては、ステアリングスイッチとして、エージェントECU100からの操作提案に応答するときに操作される第1の操作ボタンBA1及び第2の操作ボタンBA2に加え、エージェントECU100からの操作提案とは無関係に車載機器の操作を行うときに操作される第3の操作ボタンBA3及び第4の操作ボタンBA4を有する構成を例に挙げて説明した。ただし、図17に示すように、ステアリングスイッチの他の一例として、エージェントECU100からの操作提案に応答するときに操作される第1の操作ボタンBA1及び第2の操作ボタンBA2のみを有するステアリングスイッチ142Bを採用する構成としてもよい。また、図18に示すように、ステアリングスイッチの他の一例として、図12に示した運転者自身による手入力により車載機器の操作を行うときに操作される第3の操作ボタンBA3に代えて、コンシェルジュサービスを起動するときに操作される第3の操作ボタンBA3αを有するステアリングスイッチ142Cを採用する構成としてもよい。そして、これらステアリングスイッチ142B,142Cの構成においても、操作提案に対する運転者からの応答をステアリングスイッチ142B,142Cの操作を通じて検出して強化学習における報酬関数として用いることが可能となる。
・上記各実施の形態においては、強化学習の手法として、Qラーニングを行うようにした。これに代えて、強化学習の手法として、例えば、SARSA法、アクタークリティック法等、他の手法を用いることも可能である。
100…エージェントECU、110…制御部、111…強化学習部111…ばらつき度合い演算部112…提案情報生成部113…操作検出部114…学習更新トリガー部、120…記憶部、130…他ECU群、131…センサ群、132…スイッチ群、140…音声出力部、141…画像出力部、142…操作入力部、RA…操作履歴、T1,T1α…状態空間テーブル、T2,T2α…行動空間テーブル。

Claims (9)

  1. 複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成部と、
    車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成部と、
    前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習部と、
    前記強化学習部により算出される確率分布のばらつき度合いを演算するばらつき度合い演算部と、
    前記ばらつき度合い演算部により演算される確率分布のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算部により演算される確率分布のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供部とを備える
    情報提供装置。
  2. 複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成部と、
    車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成部と、
    前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習部と、
    前記強化学習部により算出される確率分布のばらつき度合いを前記状態空間を構成する複数の状態について平均することにより前記状態空間のばらつき度合いを演算するばらつき度合い演算部と、
    前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供部とを備える
    情報提供装置。
  3. 前記強化学習部は、前記状態空間を構成する各状態から前記行動空間を構成する各行動への写像を方策とするとともに、前記各状態において前記方策に従った場合に得られる累積報酬の期待値を状態価値関数とし、前記状態空間を構成する全ての状態において前記状態価値関数を最大にする前記方策を最適方策としたとき、前記状態空間を構成する各状態において前記行動空間の中から所定の行動を選択した後に常に前記最適方策に従う場合に得られる累積報酬の期待値を最適行動価値関数として推定して、当該推定した最適行動価値関数に基づいて前記確率分布を算出するものであり、
    前記情報提供部は、前記ばらつき度合い演算部により演算される前記状態空間のばらつき度合いが小さいほど、現在の状態において前記最適行動価値関数を最大化する行動を対象とする操作提案を行う頻度を高める
    請求項2に記載の情報提供装置。
  4. 前記情報提供部は、複数の行動の中からランダムで選択された操作提案を行うにあたって、現在の状態における前記確率分布の確率密度が高い行動ほど対象として選択する頻度を高める傾向をもって操作提案を行う
    請求項3に記載の情報提供装置。
  5. 前記ばらつき度合い演算部は、前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布のばらつき度合いをエントロピーとして定義するとともに、前記状態空間のばらつき度合いを平均エントロピーとして定義し、
    前記情報提供部は、前記平均エントロピーの値をε値として設定したε−グリーディ法を用いつつ、ε値が大きくなるほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める
    請求項3又は4に記載の情報提供装置。
  6. 前記強化学習部は、前記車載機器の操作提案に対する運転者の応答により実行される車載機器の操作の頻度を前記報酬関数として設定するものであり、前記車載機器の操作提案に応じて車載機器の操作が行われたときには、その操作履歴の変更に応じて前記報酬関数を更新する
    請求項1〜5の何れか一項に記載の情報提供装置。
  7. 前記状態空間構成部は、前記車載機器の操作状況、前記車両の乗員の特性、及び前記車両の走行状況を関連付けしたデータ群である状態の集合として前記状態空間を構成する
    請求項1〜6の何れか一項に記載の情報提供装置。
  8. コンピュータに、
    複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成機能と、
    車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成機能と、
    前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により前記状態空間を構成する各状態において前記行動空間を構成する各行動が実行される確率分布を算出する強化学習機能と、
    前記強化学習機能により算出される確率分布のばらつき度合いを演算するばらつき度合い演算機能と、
    前記ばらつき度合い演算機能において演算される確率分布のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算機能において演算される確率分布のばらつき度合い大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供機能と
    を実現させるための情報提供プログラム。
  9. コンピュータに、
    複数の種類の車両データを関連付けすることにより車両の状態を定義して複数の状態の集合である状態空間を構成する状態空間構成機能と、
    車載機器の操作提案に対する運転者からの応答により実行される車載機器の操作内容を示すデータを行動として定義して複数の行動の集合である行動空間を構成する行動空間構成機能と、
    前記車載機器の操作提案に対する運転者からの応答の履歴を蓄積し、該蓄積された履歴を用いつつ前記車載機器の操作提案の適正度合いを表す指標として報酬関数を設定するとともに、当該報酬関数に基づく強化学習により状態空間を構成する各状態において行動空間を構成する各行動が実行される確率分布を算出する強化学習機能と、
    前記強化学習機能により算出される確率分布のばらつき度合いを前記状態空間を構成する複数の状態について平均することにより前記状態空間のばらつき度合いを演算するばらつき度合い演算機能と、
    前記ばらつき度合い演算機能において演算される状態空間のばらつき度合いが小さいほど車両の状態に応じた最も前記適正度合いの高い操作提案を行う頻度を高め、前記ばらつき度合い演算機能において演算される状態空間のばらつき度合いが大きいほど前記行動空間を構成する複数の行動の中からランダムで選択された操作提案を行う頻度を高める情報提供機能と
    を実現させるための情報提供プログラム。
JP2016048580A 2016-03-11 2016-03-11 情報提供装置及び情報提供プログラム Active JP6477551B2 (ja)

Priority Applications (10)

Application Number Priority Date Filing Date Title
JP2016048580A JP6477551B2 (ja) 2016-03-11 2016-03-11 情報提供装置及び情報提供プログラム
RU2017107178A RU2657179C1 (ru) 2016-03-11 2017-03-06 Устройство предоставления информации и некратковременный компьютерно-читаемый носитель, сохраняющий программу предоставления информации
MYPI2017700780A MY179856A (en) 2016-03-11 2017-03-07 Information providing device and non-transitory computer readable medium storing information providing program
US15/452,106 US9939791B2 (en) 2016-03-11 2017-03-07 Information providing device and non-transitory computer readable medium storing information providing program
TW106107404A TWI626615B (zh) 2016-03-11 2017-03-07 資訊提供裝置及儲存提供程式的資訊之非暫態電腦可讀媒體
CA2960140A CA2960140C (en) 2016-03-11 2017-03-07 Information providing device and non-transitory computer readable medium storing information providing program
EP17159921.0A EP3217333A1 (en) 2016-03-11 2017-03-08 Information providing device and non-transitory computer readable medium storing information providing program
KR1020170029963A KR102000132B1 (ko) 2016-03-11 2017-03-09 정보 제공 장치 및 정보 제공 프로그램을 저장하는 기록 매체
BR102017004763-6A BR102017004763A2 (pt) 2016-03-11 2017-03-09 Dispositivo de fornecimento de informações e meio legível por computador não transitório armazenando programa de fornecimento de informações
CN201710138036.XA CN107179870B (zh) 2016-03-11 2017-03-09 信息提供装置及存储信息提供程序的存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016048580A JP6477551B2 (ja) 2016-03-11 2016-03-11 情報提供装置及び情報提供プログラム

Publications (2)

Publication Number Publication Date
JP2017162385A JP2017162385A (ja) 2017-09-14
JP6477551B2 true JP6477551B2 (ja) 2019-03-06

Family

ID=58314109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016048580A Active JP6477551B2 (ja) 2016-03-11 2016-03-11 情報提供装置及び情報提供プログラム

Country Status (10)

Country Link
US (1) US9939791B2 (ja)
EP (1) EP3217333A1 (ja)
JP (1) JP6477551B2 (ja)
KR (1) KR102000132B1 (ja)
CN (1) CN107179870B (ja)
BR (1) BR102017004763A2 (ja)
CA (1) CA2960140C (ja)
MY (1) MY179856A (ja)
RU (1) RU2657179C1 (ja)
TW (1) TWI626615B (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11084440B2 (en) * 2017-06-06 2021-08-10 Toyota Motor Engineering & Manufacturing North America, Inc. Smart vehicle accommodation device adjustment
US11496506B2 (en) * 2017-07-03 2022-11-08 Denso Corporation Program generation method and electronic control unit for changing importance of functions based on detected operation state in a vehicle
JP6832267B2 (ja) * 2017-10-30 2021-02-24 日本電信電話株式会社 価値関数パラメタ学習装置、信号情報指示装置、移動経路指示装置、価値関数パラメタ学習方法、信号情報指示方法、移動経路指示方法、およびプログラム
JP6805112B2 (ja) * 2017-11-08 2020-12-23 株式会社東芝 対話システム、対話方法および対話プログラム
CN110196587A (zh) * 2018-02-27 2019-09-03 中国科学院深圳先进技术研究院 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
JP6477943B1 (ja) * 2018-02-27 2019-03-06 オムロン株式会社 メタデータ生成装置、メタデータ生成方法及びプログラム
WO2019170616A1 (en) 2018-03-05 2019-09-12 British Telecommunications Public Limited Company Vehicular network security
JP6955702B2 (ja) 2018-03-06 2021-10-27 オムロン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6971187B2 (ja) * 2018-03-28 2021-11-24 京セラ株式会社 画像処理装置、撮像装置、および移動体
DE102018206717A1 (de) * 2018-05-02 2019-11-07 Audi Ag Verfahren zum fahrsituationsabhängigen Betreiben eines Kraftfahrzeugsystems eines Kraftfahrzeugs, Personalisierungseinrichtung und Kraftfahrzeug
JP6710722B2 (ja) * 2018-06-15 2020-06-17 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム
US11354406B2 (en) * 2018-06-28 2022-06-07 Intel Corporation Physics-based approach for attack detection and localization in closed-loop controls for autonomous vehicles
WO2020010526A1 (en) * 2018-07-10 2020-01-16 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for determining a marketing strategy for an online to offline service
JP7048893B2 (ja) * 2018-07-26 2022-04-06 日本電信電話株式会社 学習装置、学習方法及びコンピュータプログラム
US20200089244A1 (en) * 2018-09-17 2020-03-19 Great Wall Motor Company Limited Experiments method and system for autonomous vehicle control
US10831208B2 (en) 2018-11-01 2020-11-10 Ford Global Technologies, Llc Vehicle neural network processing
CN109435883B (zh) * 2018-11-19 2024-07-19 李震成 汽车自适应人体智能进入系统和方法
JP7119985B2 (ja) * 2018-12-21 2022-08-17 トヨタ自動車株式会社 地図生成装置、地図生成システム、地図生成方法、及び地図生成プログラム
US11275899B2 (en) 2019-01-02 2022-03-15 International Business Machines Corporation Generating game environments from unstructured textual corpus for reinforcement learning
WO2020161854A1 (ja) * 2019-02-07 2020-08-13 三菱電機株式会社 車両用機器制御システム、車両用機器制御方法及び車両用機器制御装置
KR102323482B1 (ko) * 2019-03-19 2021-11-09 한국전자인증 주식회사 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법
EP3715608B1 (en) 2019-03-27 2023-07-12 Siemens Aktiengesellschaft Machine control based on automated learning of subordinate control skills
CN110065455A (zh) * 2019-04-24 2019-07-30 深圳市麦谷科技有限公司 车载功能智能启动方法、装置、计算机设备及存储介质
KR102461732B1 (ko) 2019-07-16 2022-11-01 한국전자통신연구원 강화 학습 방법 및 장치
CN110979341A (zh) * 2019-10-08 2020-04-10 复变时空(武汉)数据科技有限公司 一种司机驾驶行为分析方法及分析系统
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム
KR20210117619A (ko) * 2020-03-19 2021-09-29 삼성전자주식회사 프로액티브 디지털 비서
US11738778B2 (en) * 2020-10-21 2023-08-29 GM Global Technology Operations LLC Facilitating transfers of control between a user and a vehicle control system
CN112801697B (zh) * 2021-01-25 2024-04-19 杭州网易云音乐科技有限公司 多媒体数据的数据关联窗口的调节方法及装置
CN113011761B (zh) * 2021-03-29 2023-06-20 北京物资学院 一种基于物联网的自由空间分配系统
WO2022215233A1 (ja) * 2021-04-08 2022-10-13 三菱電機株式会社 シーケンス自動生成装置、シーケンス自動生成方法およびプログラム
JPWO2022249335A1 (ja) * 2021-05-26 2022-12-01
CN114506388B (zh) * 2021-12-27 2023-04-07 广东机电职业技术学院 一种车辆转向控制方法、装置、计算机设备和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2138409C1 (ru) * 1998-06-24 1999-09-27 Вознесенский Александр Николаевич Способ комплексированного представления визуальной информации для водителя транспортного средства
US6679702B1 (en) * 2001-12-18 2004-01-20 Paul S. Rau Vehicle-based headway distance training system
JP3999530B2 (ja) 2002-02-25 2007-10-31 日本電信電話株式会社 コンテンツ情報分類装置、プログラム、および同プログラムを記録した記録媒体
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
JP2006085351A (ja) * 2004-09-15 2006-03-30 Fuji Xerox Co Ltd 画像処理装置およびその制御方法および制御プログラム
US20080167820A1 (en) * 2007-01-04 2008-07-10 Kentaro Oguchi System for predicting driver behavior
JP4682992B2 (ja) * 2007-02-08 2011-05-11 株式会社デンソー 車両用空調装置、車両用空調装置の制御方法および制御装置
WO2009047874A1 (ja) * 2007-10-12 2009-04-16 Mitsubishi Electric Corporation 車載情報提供装置
JP5180639B2 (ja) 2008-03-21 2013-04-10 株式会社デンソーアイティーラボラトリ コンテンツ提示装置、コンテンツ提示方法、およびプログラム
JP4656177B2 (ja) * 2008-04-14 2011-03-23 トヨタ自動車株式会社 ナビゲーション装置、操作部表示方法
JP5272605B2 (ja) * 2008-09-18 2013-08-28 日産自動車株式会社 運転操作支援装置、及び運転操作支援方法
JP2010134714A (ja) * 2008-12-04 2010-06-17 Nippon Telegr & Teleph Corp <Ntt> 協調的分類装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
US8266091B1 (en) * 2009-07-21 2012-09-11 Symantec Corporation Systems and methods for emulating the behavior of a user in a computer-human interaction environment
JP5633734B2 (ja) * 2009-11-11 2014-12-03 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
TW201122995A (en) * 2009-12-31 2011-07-01 Tomtom Int Bv Methods of adaptively determining the accessibility of features provided through a user interface and navigation apparatuses using the same
CN101840586B (zh) * 2010-04-02 2012-04-11 中国科学院计算技术研究所 虚拟人运动规划的方法及其系统
US9213522B2 (en) * 2010-07-29 2015-12-15 Ford Global Technologies, Llc Systems and methods for scheduling driver interface tasks based on driver workload
JP5552009B2 (ja) * 2010-09-22 2014-07-16 インターナショナル・ビジネス・マシーンズ・コーポレーション リスクを考慮した最適なアクションを決定するための方法、プログラム、および装置
JP5620805B2 (ja) 2010-12-21 2014-11-05 株式会社エヌ・ティ・ティ・データ データベース暗号化装置、データベース暗号化システム、データベース暗号化方法及びプログラム
WO2013014709A1 (ja) * 2011-07-27 2013-01-31 三菱電機株式会社 ユーザインタフェース装置、車載用情報装置、情報処理方法および情報処理プログラム
US8758127B2 (en) * 2012-11-08 2014-06-24 Audible, Inc. In-vehicle gaming system for a driver
US9177475B2 (en) * 2013-11-04 2015-11-03 Volkswagen Ag Driver behavior based parking availability prediction system and method
US20170010859A1 (en) 2014-04-22 2017-01-12 Mitsubishi Electric Corporation User interface system, user interface control device, user interface control method, and user interface control program
KR101765635B1 (ko) * 2016-02-02 2017-08-07 현대자동차 주식회사 하이브리드 차량의 운전 모드 전환 시스템 및 그 방법

Also Published As

Publication number Publication date
US20170261947A1 (en) 2017-09-14
US9939791B2 (en) 2018-04-10
CN107179870A (zh) 2017-09-19
EP3217333A1 (en) 2017-09-13
KR102000132B1 (ko) 2019-07-15
TWI626615B (zh) 2018-06-11
MY179856A (en) 2020-11-18
BR102017004763A2 (pt) 2018-03-20
RU2657179C1 (ru) 2018-06-08
TW201734926A (zh) 2017-10-01
JP2017162385A (ja) 2017-09-14
CN107179870B (zh) 2020-07-07
KR20170106227A (ko) 2017-09-20
CA2960140C (en) 2019-06-11
CA2960140A1 (en) 2017-09-11

Similar Documents

Publication Publication Date Title
JP6477551B2 (ja) 情報提供装置及び情報提供プログラム
JP4728839B2 (ja) 車載機器制御装置
JP6543460B2 (ja) 音声認識問い合わせ応答システム
EP3050770B1 (en) Vehicle state prediction system
JP2015128988A (ja) 自動の運転手識別
CN107444402A (zh) 利用学习用户偏好的车辆模式安排
JP2015129753A (ja) 車内通知提示のスケジューリング
CN104977876B (zh) 用于情境界面的使用预测
US10106173B2 (en) Systems and methods of an adaptive interface to improve user experience within a vehicle
US20210234932A1 (en) Dynamic time-based playback of content in a vehicle
US11794676B1 (en) Computing systems and methods for generating user-specific automated vehicle actions using artificial intelligence
CN114379579A (zh) 促进用户和车辆控制系统之间的控制转移
US20170147396A1 (en) Information presentation device, method, and program
CN113895364A (zh) 基于双异步显示器的车载信息娱乐系统
WO2024126023A1 (en) Computing systems and methods for generating user-specific automated vehicle actions
JP2010033549A (ja) 情報提供装置、情報提供方法、プログラムおよび情報提供システム
CN114503133A (zh) 信息处理设备、信息处理方法和程序
JP2010070171A (ja) 車載機器の制御装置及び制御方法
CN116155981A (zh) 服务推荐方法、系统、设备和计算机程序产品
CN114815676A (zh) 与自动化控制系统的行为相关的解释的生成和呈现
GB2592217A (en) Method and system for providing adaptive display content on a display interface of a vehicle
US20230174089A1 (en) System and method for virtual experience as a service with context-based adaptive control
WO2023062814A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
JP5142737B2 (ja) 車両搭載機器の制御装置及び制御方法
CN118537070A (zh) 车载广告呈现系统和方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190121

R151 Written notification of patent or utility model registration

Ref document number: 6477551

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151