JP6845529B2 - 行動決定システム及び自動運転制御装置 - Google Patents
行動決定システム及び自動運転制御装置 Download PDFInfo
- Publication number
- JP6845529B2 JP6845529B2 JP2017215645A JP2017215645A JP6845529B2 JP 6845529 B2 JP6845529 B2 JP 6845529B2 JP 2017215645 A JP2017215645 A JP 2017215645A JP 2017215645 A JP2017215645 A JP 2017215645A JP 6845529 B2 JP6845529 B2 JP 6845529B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- function
- action
- value function
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims description 237
- 230000006870 function Effects 0.000 claims description 345
- 238000004364 calculation method Methods 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 30
- 230000006399 behavior Effects 0.000 claims description 25
- 230000002787 reinforcement Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 52
- 230000001133 acceleration Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000000116 mitigating effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Description
2 ECU(第1価値関数算出手段、行動決定手段、第1価値関数更新手段、第2価 値関数算出手段、第2価値関数更新手段、方策関数更新手段)
3 自動運転車両
9 環境
10 行動決定システム
11 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12 方策算出部(行動決定手段)
14 ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
1A 自動運転制御装置(エージェント)
10A 行動決定システム
1B 自動運転制御装置(エージェント)
10B 行動決定システム
11B 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
14B ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
20 行動算出部(行動決定手段、方策関数更新手段)
1C 自動運転制御装置(エージェント)
10C 行動決定システム
11C 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12C 方策算出部(行動決定手段)
14C ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
Q 行動価値関数(第1価値関数)
a 行動
s 状態(情報)
data_s 状況データ(情報、状態)
L 誤差関数
T ターゲット値(第2価値関数)
ε1 所定値
Tref ターゲット値(第2価値関数、固定された関数)
ΔT 制御周期(所定周期)
Claims (8)
- 強化学習法を用いてエージェントによる行動を決定する行動決定システムにおいて、
環境から前記エージェントに入力される情報を用いて、第1価値関数を算出する第1価値関数算出手段と、
当該第1価値関数を用いて、前記エージェントによる最適な行動を決定する行動決定手段と、
前記第1価値関数のTD誤差と、前記第1価値関数と当該第1価値関数の目標となる値を算出する関数である第2価値関数との差分と、を含むように定義された誤差関数が最小になるように、前記第1価値関数を更新する第1価値関数更新手段と、
を備えることを特徴とする行動決定システム。 - 前記第1価値関数更新手段は、前記誤差関数として、前記差分が所定値を超えているときには、前記TD誤差と前記差分を含むように定義された誤差関数を用い、前記差分が所定値以下のときには、前記TD誤差のみを含むように定義された誤差関数を用いることを特徴とする請求項1に記載の行動決定システム。
- 前記情報を用いて、前記第2価値関数を算出する第2価値関数算出手段と、
前記第2価値関数を前記第1価値関数よりも遅い更新速度で更新する第2価値関数更新手段と、
をさらに備えることを特徴とする請求項1又は2に記載の行動決定システム。 - 前記第2価値関数として固定された関数を用いることを特徴とする請求項1又は2に記載の行動決定システム。
- 前記情報は、前記環境の状態であり、
前記第1価値関数は、前記環境の状態及び前記行動を評価するための行動価値関数であり、
前記行動決定手段は、所定手法を用いて、前記行動価値関数に基づき、前記最適な行動を決定することを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。 - 前記情報は、前記環境の状態であり、
前記第1価値関数は、前記環境の状態を評価するための状態価値関数と前記行動を評価するための方策関数とを含み、
前記行動決定手段は、前記方策関数を用いて、前記最適な行動を決定し、
前記第1価値関数更新手段は、前記誤差関数が最小になるように、前記状態価値関数を更新し、
前記状態価値関数が最大となるように、前記方策関数を更新する方策関数更新手段をさらに備えることを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。 - 前記情報は、前記エージェントが所定周期で前記最適な行動を複数回、実行したときに、前記環境から当該所定周期で入力される前記情報の複数の時系列離散データであり、
前記第1価値関数のTD誤差は、前記情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されていることを特徴とする請求項1ないし6のいずれかに記載の行動決定システム。 - 請求項1ないし7のいずれかに記載の行動決定システムを備え、自動運転車両を制御する自動運転制御装置において、
前記情報は、前記自動運転車両の動作状況及び動作環境を表す状況データであり、
前記行動は、前記自動運転車両を制御するための目標値又は指令値であることを特徴とする自動運転制御装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215645A JP6845529B2 (ja) | 2017-11-08 | 2017-11-08 | 行動決定システム及び自動運転制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017215645A JP6845529B2 (ja) | 2017-11-08 | 2017-11-08 | 行動決定システム及び自動運転制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019087096A JP2019087096A (ja) | 2019-06-06 |
JP6845529B2 true JP6845529B2 (ja) | 2021-03-17 |
Family
ID=66763111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017215645A Active JP6845529B2 (ja) | 2017-11-08 | 2017-11-08 | 行動決定システム及び自動運転制御装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6845529B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020182576A (ja) * | 2019-04-30 | 2020-11-12 | 株式会社大一商会 | 遊技機 |
JP2020182575A (ja) * | 2019-04-30 | 2020-11-12 | 株式会社大一商会 | 遊技機 |
JP7342491B2 (ja) | 2019-07-25 | 2023-09-12 | オムロン株式会社 | 推論装置、推論方法、及び推論プログラム |
WO2021090413A1 (ja) * | 2019-11-06 | 2021-05-14 | 日本電信電話株式会社 | 制御装置、制御システム、制御方法及びプログラム |
JP7357537B2 (ja) | 2019-12-24 | 2023-10-06 | 本田技研工業株式会社 | 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム |
CN111746633B (zh) * | 2020-07-02 | 2022-06-17 | 南京航空航天大学 | 一种基于强化学习的车辆分布式转向驱动系统控制方法 |
CN111731326B (zh) * | 2020-07-02 | 2022-06-21 | 知行汽车科技(苏州)有限公司 | 避障策略确定方法、装置及存储介质 |
JP7469167B2 (ja) * | 2020-07-07 | 2024-04-16 | 本田技研工業株式会社 | 制御装置及び制御方法並びに車両 |
US20230394970A1 (en) * | 2020-10-28 | 2023-12-07 | Nec Corporation | Evaluation system, evaluation method, and evaluation program |
CN112926629B (zh) * | 2021-01-29 | 2024-04-02 | 北京字节跳动网络技术有限公司 | 超参数确定方法、装置、深度强化学习框架、介质及设备 |
KR102631402B1 (ko) * | 2021-06-14 | 2024-01-31 | 숭실대학교 산학협력단 | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5330138B2 (ja) * | 2008-11-04 | 2013-10-30 | 本田技研工業株式会社 | 強化学習システム |
JP5733166B2 (ja) * | 2011-11-14 | 2015-06-10 | 富士通株式会社 | パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 |
JP2019518273A (ja) * | 2016-04-27 | 2019-06-27 | ニューララ インコーポレイテッド | 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置 |
-
2017
- 2017-11-08 JP JP2017215645A patent/JP6845529B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019087096A (ja) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6845529B2 (ja) | 行動決定システム及び自動運転制御装置 | |
JP6494872B2 (ja) | 車両の運動を制御する方法、及び車両の制御システム | |
EP3579211B1 (en) | Method and vehicle for assisting an operator of an ego-vehicle in controlling the ego-vehicle by determining a future behavior and an associated trajectory for the ego-vehicle | |
Akametalu et al. | Reachability-based safe learning with Gaussian processes | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
JP6937658B2 (ja) | 予測制御装置及び方法 | |
EP3678060A1 (en) | Control device, unmanned system, control method, and program | |
WO2018220418A1 (en) | Driving assistance method and system | |
JP7215077B2 (ja) | 予測プログラム、予測方法及び予測装置 | |
JP6840363B2 (ja) | ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム | |
Okamoto et al. | Data-driven human driver lateral control models for developing haptic-shared control advanced driver assist systems | |
EP3961598A1 (en) | Method and system for enabling cooperative coordination between autonomously acting entities | |
KR20210048969A (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
Ure et al. | Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning | |
JP7125286B2 (ja) | 行動予測装置及び自動運転装置 | |
Kubota et al. | Learning of mobile robots using perception-based genetic algorithm | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
US11579574B2 (en) | Control customization system, control customization method, and control customization program | |
Bouton et al. | Utility decomposition with deep corrections for scalable planning under uncertainty | |
US20210350231A1 (en) | Predicting a state of a computer-controlled entity | |
McKinnon et al. | Meta learning with paired forward and inverse models for efficient receding horizon control | |
KR102376615B1 (ko) | 주행 로봇의 제어 방법 및 그 장치 | |
JP2019199185A (ja) | 車両制御値決定装置、車両制御値決定方法、およびプログラム | |
Zakaria et al. | A study of multiple reward function performances for vehicle collision avoidance systems applying the DQN algorithm in reinforcement learning | |
Homann et al. | Multi stage model predictive trajectory set approach for collision avoidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6845529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |