JP2020035222A - 学習装置、学習方法、およびプログラム - Google Patents
学習装置、学習方法、およびプログラム Download PDFInfo
- Publication number
- JP2020035222A JP2020035222A JP2018161909A JP2018161909A JP2020035222A JP 2020035222 A JP2020035222 A JP 2020035222A JP 2018161909 A JP2018161909 A JP 2018161909A JP 2018161909 A JP2018161909 A JP 2018161909A JP 2020035222 A JP2020035222 A JP 2020035222A
- Authority
- JP
- Japan
- Prior art keywords
- reward
- value
- vehicle
- target
- input value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
- B60W40/09—Driving style or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0008—Feedback, closed loop systems or details of feedback error signal
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2556/00—Input parameters relating to data
- B60W2556/10—Historical data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
Description
(1):この発明の一態様に係る学習装置は、車両の行動を示す情報を生成するプランナと、前記車両の行動を示す情報に基づく情報をシミュレータまたは実環境に入力することで前記シミュレータまたは実環境から得られる帰還情報を含む、複数の被評価情報のそれぞれを評価した複数の個別報酬を導出し、前記複数の個別報酬に基づいて、前記車両の行動に対する報酬を導出する報酬導出部と、を備え、前記プランナは、前記報酬導出部により導出された報酬を最適化する強化学習を行う、学習装置である。
図1は、学習装置300の役割について説明するための図である。学習装置300は、一以上のプロセッサにより実現される。学習装置300は、内部演算によって導出した行動(アクション)をシミュレータ/実車両400に入力し、それによって生じた環境の変化等に基づく報酬を導出または取得し、報酬を最大化する行動を学習する装置である。学習装置300の学習結果は、行動決定モデルとして車両1に搭載される。
まず、行動決定モデルを搭載する対象の車両1の一例について説明する。車両1は、少なくとも部分的に、自動的に(運転者の操作に依らずに)走行(走る、曲がる、止まる)を制御する自動運転車両(或いは運転支援機能付き車両)である。
図4は、学習装置300の構成図である。学習装置300は、例えば、プランナ310と、制御演算部320と、認識部330と、妥当性評価部340と、リスク計算部350と、報酬導出部360とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性記憶媒体)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。学習装置300の記憶装置には、用途毎報酬関数マップ370が格納されている。
報酬(トータル)=F1(速度)またはF2(速度)×F3(車間距離)×F4(リスク)×F5(加速度)×F6(横位置) …(1)
プログラムを記憶した記憶装置と、ハードウェアプロセッサとを備え、
前記ハードウェアプロセッサは、前記プログラムを実行することにより、
車両の行動を示す情報を生成し、
前記車両の行動を示す情報に基づく情報をシミュレータまたは実環境に入力することで前記シミュレータまたは実環境から得られる帰還情報を含む、複数の被評価情報のそれぞれを評価した複数の個別報酬を導出し、
前記複数の個別報酬に基づいて、前記車両の行動に対する報酬を導出する、
ように構成されている、
学習装置。
100 自動運転制御装置
300 学習装置
310 プランナ
320 制御演算部
330 認識部
340 妥当性評価部
350 リスク計算部
360 報酬導出部
370 用途毎報酬関数マップ
Claims (15)
- 車両の行動を示す情報を生成するプランナと、
前記車両の行動を示す情報に基づく情報をシミュレータまたは実環境に入力することで前記シミュレータまたは実環境から得られる帰還情報を含む、複数の被評価情報のそれぞれを評価した複数の個別報酬を導出し、前記複数の個別報酬に基づいて、前記車両の行動に対する報酬を導出する報酬導出部と、
を備え、
前記プランナは、前記報酬導出部により導出された報酬を最適化する強化学習を行う、
学習装置。 - 前記報酬導出部は、前記複数の被評価情報の少なくとも一部に対し、評価特性が互いに異なる規則をそれぞれ適用することで、前記個別報酬を導出する、
請求項1記載の学習装置。 - 前記報酬導出部は、前記複数の被評価情報の少なくとも一部に対し、目標値との関係に対する個別報酬の分布形状が互いに異なる複数の報酬関数のいずれかを適用することで、前記個別報酬を導出する、
請求項2記載の学習装置。 - 前記報酬導出部は、前記複数の個別報酬を互いに乗算することで、前記車両の行動に対する報酬を計算する、
請求項1から3のうちいずれか1項記載の学習装置。 - 前記帰還情報は、前記車両の速度、加速度、横位置のうち少なくとも一部を含む、
請求項1から4のうちいずれか1項記載の学習装置。 - 前記被評価情報は、前記車両の行動に基づいて導出されるリスクを含む、
請求項1から5のうちいずれか1項記載の学習装置。 - 前記複数の報酬関数は、入力値が目標値に一致すると所定値を返し、入力値と目標値との差分の絶対値が大きくなるほど小さい値を返す報酬関数を含む、
請求項3記載の学習装置。 - 前記複数の報酬関数は、入力値が目標値に一致すると所定値を返し、入力値と目標値との差分の絶対値が大きくなるほど小さい値を返す、但し、入力値が目標値を超える側における入力値と目標値との差分に対する個別報酬の低下度合いを、入力値が目標値を下回る側における入力値と目標値との差分に対する個別報酬の低下度合いよりも大きくする報酬関数を含む、
請求項3または7記載の学習装置。 - 前記複数の報酬関数は、入力値が目標値以上であれば所定値を返し、入力値が目標値を下回る場合、入力値と目標値との差分の絶対値が大きくなるほど小さい値を返す報酬関数を含む、
請求項3、7、または8記載の学習装置。 - 前記複数の報酬関数は、入力値が目標値以下であれば所定値を返し、入力値が目標値を上回る場合、入力値と目標値との差分の絶対値が大きくなるほど小さい値を返す報酬関数を含む、
請求項3、または、請求項7から9のうちいずれか1項記載の学習装置。 - 前記複数の報酬関数は、入力値が目標範囲内であれば所定値の一例を返し、入力値と目標範囲の上限または下限との差分の絶対値が大きくなるほど小さい値を返す報酬関数を含む、
請求項3、または、請求項7から10のうちいずれか1項記載の学習装置。 - 前記複数の報酬関数は、入力値が二つ以上の目標値のいずれかに近づく程、大きい値を返す報酬関数を含む、
請求項3、または、請求項7から11のうちいずれか1項記載の学習装置。 - 前記入力値が二つ以上の目標値のいずれかに近づく程、大きい値を返す報酬関数は、入力値が前記二つ以上の目標値のいずれに一致するかに応じて異なる個別報酬を返す、
請求項12記載の学習装置。 - コンピュータが、
車両の行動を示す情報を生成し、
前記車両の行動を示す情報に基づく情報をシミュレータまたは実環境に入力することで前記シミュレータまたは実環境から得られる帰還情報を含む、複数の被評価情報のそれぞれを評価した複数の個別報酬を導出し、
前記複数の個別報酬に基づいて、前記車両の行動に対する報酬を導出し、
前記導出された報酬を最適化する強化学習を行う、
学習方法。 - コンピュータに、
車両の行動を示す情報を生成させ、
前記車両の行動を示す情報に基づく情報をシミュレータまたは実環境に入力することで前記シミュレータまたは実環境から得られる帰還情報を含む、複数の被評価情報のそれぞれを評価した複数の個別報酬を導出させ、
前記複数の個別報酬に基づいて、前記車両の行動に対する報酬を導出させ、
前記導出された報酬を最適化する強化学習を行わせる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161909A JP7048456B2 (ja) | 2018-08-30 | 2018-08-30 | 学習装置、学習方法、およびプログラム |
CN201910799040.XA CN110874642B (zh) | 2018-08-30 | 2019-08-27 | 学习装置、学习方法及存储介质 |
US16/553,294 US11498574B2 (en) | 2018-08-30 | 2019-08-28 | Learning device, learning method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161909A JP7048456B2 (ja) | 2018-08-30 | 2018-08-30 | 学習装置、学習方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020035222A true JP2020035222A (ja) | 2020-03-05 |
JP7048456B2 JP7048456B2 (ja) | 2022-04-05 |
Family
ID=69640861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018161909A Active JP7048456B2 (ja) | 2018-08-30 | 2018-08-30 | 学習装置、学習方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11498574B2 (ja) |
JP (1) | JP7048456B2 (ja) |
CN (1) | CN110874642B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021160533A (ja) * | 2020-03-31 | 2021-10-11 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、及びプログラム |
KR20220167730A (ko) * | 2021-06-14 | 2022-12-21 | 숭실대학교산학협력단 | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 |
JP7464425B2 (ja) | 2020-03-31 | 2024-04-09 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、及びプログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6904849B2 (ja) * | 2017-08-14 | 2021-07-21 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、およびプログラム。 |
US11254325B2 (en) | 2018-07-14 | 2022-02-22 | Moove.Ai | Vehicle-data analytics |
US11645498B2 (en) * | 2019-09-25 | 2023-05-09 | International Business Machines Corporation | Semi-supervised reinforcement learning |
WO2021202602A1 (en) * | 2020-03-30 | 2021-10-07 | Moove.Ai | Vehicle-data analytics |
DE102020212347A1 (de) * | 2020-09-30 | 2022-03-31 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren zum Evaluieren eines Verfahrens für eine Steuerung einer zumindest teilautomatisierten mobilen Plattform |
CN114013443B (zh) * | 2021-11-12 | 2022-09-23 | 哈尔滨工业大学 | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 |
CN115790608B (zh) * | 2023-01-31 | 2023-05-30 | 天津大学 | 基于强化学习的auv路径规划算法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254505A (ja) * | 1997-03-14 | 1998-09-25 | Toyota Motor Corp | 自動制御装置 |
JP2004152125A (ja) * | 2002-10-31 | 2004-05-27 | Nissan Motor Co Ltd | 車両用推奨操作量生成装置 |
US20150344030A1 (en) * | 2014-05-30 | 2015-12-03 | Honda Research Institute Europe Gmbh | Method and vehicle with an advanced driver assistance system for risk-based traffic scene analysis |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065929A (ja) | 2005-08-30 | 2007-03-15 | Okinawa Institute Of Science & Technology | 制御器、制御方法および制御プログラム |
JP6517762B2 (ja) * | 2016-08-23 | 2019-05-22 | ファナック株式会社 | 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム |
US10769525B2 (en) * | 2016-09-23 | 2020-09-08 | Apple Inc. | Decision making for autonomous vehicle motion control |
CN106777874A (zh) * | 2016-11-18 | 2017-05-31 | 中国科学院自动化研究所 | 基于循环神经网络构建预测模型的方法 |
US10032111B1 (en) * | 2017-02-16 | 2018-07-24 | Rockwell Collins, Inc. | Systems and methods for machine learning of pilot behavior |
CN107306207A (zh) * | 2017-05-31 | 2017-10-31 | 东南大学 | 结合Skyline计算与多目标强化学习服务组合方法 |
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
CA3094427A1 (en) * | 2018-03-26 | 2019-10-03 | Sony Corporation | Information processing device and information processing method |
-
2018
- 2018-08-30 JP JP2018161909A patent/JP7048456B2/ja active Active
-
2019
- 2019-08-27 CN CN201910799040.XA patent/CN110874642B/zh active Active
- 2019-08-28 US US16/553,294 patent/US11498574B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254505A (ja) * | 1997-03-14 | 1998-09-25 | Toyota Motor Corp | 自動制御装置 |
JP2004152125A (ja) * | 2002-10-31 | 2004-05-27 | Nissan Motor Co Ltd | 車両用推奨操作量生成装置 |
US20150344030A1 (en) * | 2014-05-30 | 2015-12-03 | Honda Research Institute Europe Gmbh | Method and vehicle with an advanced driver assistance system for risk-based traffic scene analysis |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021160533A (ja) * | 2020-03-31 | 2021-10-11 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、及びプログラム |
JP7464425B2 (ja) | 2020-03-31 | 2024-04-09 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、及びプログラム |
JP7465705B2 (ja) | 2020-03-31 | 2024-04-11 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、及びプログラム |
KR20220167730A (ko) * | 2021-06-14 | 2022-12-21 | 숭실대학교산학협력단 | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR102631402B1 (ko) * | 2021-06-14 | 2024-01-31 | 숭실대학교 산학협력단 | 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20200070844A1 (en) | 2020-03-05 |
CN110874642A (zh) | 2020-03-10 |
US11498574B2 (en) | 2022-11-15 |
JP7048456B2 (ja) | 2022-04-05 |
CN110874642B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7048456B2 (ja) | 学習装置、学習方法、およびプログラム | |
JP7048455B2 (ja) | 学習装置、シミュレーションシステム、学習方法、およびプログラム | |
JPWO2018158873A1 (ja) | 車両制御装置、車両制御方法、およびプログラム | |
CN113460077B (zh) | 移动体控制装置、移动体控制方法及存储介质 | |
CN113460081A (zh) | 车辆控制装置、车辆控制方法及存储介质 | |
JP2021068016A (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JP2019147486A (ja) | 車両制御システム、車両制御方法、およびプログラム | |
JP7444680B2 (ja) | 移動体制御装置、移動体制御方法、およびプログラム | |
JP2021160426A (ja) | 移動体制御装置、移動体制御方法、およびプログラム | |
US20210300350A1 (en) | Vehicle control device, vehicle control method, and storing medium | |
JP2021011151A (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JPWO2020049685A1 (ja) | 車両制御装置、自動運転車開発システム、車両制御方法、およびプログラム | |
JP2020083019A (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JP2024024868A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7125969B2 (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JP7232166B2 (ja) | 予測装置、車両システム、予測方法、およびプログラム | |
JP7166988B2 (ja) | 車両制御装置、車両制御方法、およびプログラム | |
CN113525413A (zh) | 车辆控制装置、车辆控制方法及存储介质 | |
JP2021160533A (ja) | 車両制御装置、車両制御方法、及びプログラム | |
JP7433205B2 (ja) | 車両制御装置、車両制御方法、およびプログラム | |
CN112677978B (zh) | 预测装置、车辆系统、预测方法及存储介质 | |
JP7049391B2 (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JP7448400B2 (ja) | 移動体制御装置、移動体制御方法、およびプログラム | |
JP2022107296A (ja) | 車両制御装置、車両制御方法、およびプログラム | |
JP2024039776A (ja) | 移動体制御装置、移動体制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7048456 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |