JP7205460B2 - 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 - Google Patents
車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 Download PDFInfo
- Publication number
- JP7205460B2 JP7205460B2 JP2019236065A JP2019236065A JP7205460B2 JP 7205460 B2 JP7205460 B2 JP 7205460B2 JP 2019236065 A JP2019236065 A JP 2019236065A JP 2019236065 A JP2019236065 A JP 2019236065A JP 7205460 B2 JP7205460 B2 JP 7205460B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- value
- variable
- data
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
- Combined Controls Of Internal Combustion Engines (AREA)
Description
1.車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶装置に記憶された状態で、センサの検出値に基づく前記車両の状態、および前記車両の走行する道路を特定する変数である道路変数を取得する取得処理と、前記電子機器を操作する操作処理と、前記取得処理によって取得された前記車両の状態に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行装置に実行させ、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記報酬算出処理は、前記道路変数の値が第1の値である場合に前記車両の特性が所定の特性であるときに与える前記報酬に対して前記道路変数の値が第2の値である場合に前記車両の特性が前記所定の特性であるときに与える報酬を変更する変更処理を含む車両用制御データの生成方法である。
3.前記更新処理によって更新された前記関係規定データに基づき、前記車両の状態と前記期待収益を最大化する前記行動変数の値とを対応付けることによって前記車両の状態を入力とし前記期待収益を最大化する前記行動変数の値を出力する制御用写像データを生成する処理を前記実行装置に実行させる上記1または2記載の車両用制御データの生成方法である。
なお、第2実行装置が車載装置とは別の装置であることは、第2実行装置が車載装置ではないことを意味する。
7.上記5記載の第2実行装置を備える車両用学習装置である。
<第1の実施形態>
図1に、本実施形態にかかる車両VC1の駆動系および制御装置の構成を示す。
図3に、上記マップデータDMを生成するシステムを示す。
図5に示す一連の処理において、CPU112は、所定期間内における回転速度NE、トルク指令値Trq*、トルクTrqおよび加速度Gxの4つのサンプリング値の組からなる時系列データと、状態sおよび行動aの時系列データと、を取得する(S50)。図5には、カッコの中の数字が異なるものが、異なるサンプリングタイミングにおける変数の値であることを示す。たとえば、トルク指令値Trq*(1)とトルク指令値Trq*(2)とは、サンプリングタイミングが互いに異なるものである。また、所定期間内の行動aの時系列データを、行動集合Ajとし、所定期間内の状態sの時系列データを、状態集合Sjと定義する。
図4に戻り、CPU112は、S42の処理が完了すると、行動価値関数Qが収束したか否かを判定する(S44)。ここでは、S42の処理による行動価値関数Qの更新量が所定値以下となる連続回数が所定回数に達する場合に収束したと判定すればよい。CPU112は、収束していないと判定する場合(S44:NO)や、S40の処理において否定判定する場合には、S32の処理に戻る。これに対し、CPU112は、収束したと判定する場合(S44:YES)、合流部と合流部以外との双方についてS44の処理において肯定判定したか否かを判定する(S46)。
ここで、本実施形態の作用および効果について説明する。
(1)制御装置70が備える記憶装置76に、行動価値関数Q等ではなく、マップデータDMを記憶した。これにより、CPU72は、マップデータDMを用いたマップ演算に基づき、スロットル開口度指令値TA*および変速比指令値GR*を設定することから、行動価値関数Qのうち最大値となるものを選択する処理を実行する場合と比較して、演算負荷を軽減できる。
以下、第2の実施形態について、第1の実施形態との相違点を中心に図面を参照しつつ説明する。
以下、第3の実施形態について、第2の実施形態との相違点を中心に図面を参照しつつ説明する。
図9に、本実施形態において、強化学習を実行する制御システムの構成を示す。なお、図9において、図1に示した部材に対応する部材については、便宜上、同一の符号を付している。
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1,2]実行装置と記憶装置とは、図7においては、それぞれ、CPU72およびROM74と記憶装置76とに対応し、図3においては、それぞれCPU112およびROM114と記憶装置116とに対応し、図9においては、CPU72,132およびROM74,134と記憶装置76,136とに対応する。取得処理は、図4のS30,S32,S38の処理や、図8および図10のS10,S12,S100,S102,S32a,S38の処理に対応する。操作処理は、S36の処理に対応し、報酬算出処理は、S52~S64の処理に対応し、更新処理は、S66~S72の処理に対応する。更新写像は、学習プログラム74bのうちS66~S72の処理を実行する指令によって規定された写像に対応する。変更処理は、S54の処理において係数Kを道路変数VRに応じて可変とすることや、S56の処理において条件(ア)および条件(イ)を道路変数VRに応じて可変とすること、S62の処理において閾値PAthを道路変数VRに応じて可変とすることに対応する。[3]制御用写像データは、マップデータDMに対応する。[4]実行装置と記憶装置とは、それぞれ、図7におけるCPU72およびROM74と記憶装置76とに対応する。[5~7]第1実行装置は、CPU72およびROM74に対応し、第2実行装置は、CPU132およびROM134に対応する。
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・車両の走行する道路に関する情報を示す道路変数としては、合流部であるか否かを示す変数に限らない。たとえば、一般道か高速道かを示す変数であってもよい。またたとえば、道路勾配に関する情報や道路の曲率に関する情報を示す変数であってもよい。
・S56の処理では、条件(ア)および条件(イ)を合流部か否かに応じて可変としたが、これに限らない。たとえば、合流部か否かに応じてS58,S60の処理における係数K1を可変としてもよい。すなわち、たとえば合流部でない場合に係数K1を小さくするなら、条件(ア)および条件(イ)を満たすことがトータルの報酬を大きくする上でさほど有利にならないことから、効率ηeを高める学習がなされやすくなる。
・上記実施形態では、エネルギ利用効率を、動作点のみに基づき定量化したが、これに限らない。たとえば、下記「行動変数について」の欄に記載したように、行動変数に点火時期を含める場合、採用された点火時期がMBTからずれる場合、そのずれ量に応じてエネルギ利用効率を減少補正すればよい。また、行動変数に空燃比制御に関する変数を含める場合、採用される空燃比が所定の空燃比からずれる場合、そのずれ量に応じてエネルギ利用効率を補正すればよい。
・テーブル形式のデータの次元削減手法としては、上記実施形態において例示したものに限らない。たとえばアクセル操作量PAが最大値となることはまれであることから、アクセル操作量PAが規定量以上となる状態については行動価値関数Qを定義せず、アクセル操作量PAが規定量以上となる場合のスロットル開口度指令値TA*等は、別途適合してもよい。またたとえば、行動のとりうる値からスロットル開口度指令値TA*が規定値以上となるものを除くなどして、次元削減をしてもよい。
・上記実施形態では、行動価値関数Qを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。
・たとえば「関係規定データについて」の欄に記載したように、行動価値関数を関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値の組の全てについて、状態sとともに行動価値関数Qに入力することによって、行動価値関数Qを最大化する行動aを特定すればよい。その場合、たとえば、主として特定された行動aを操作に採用しつつも、所定の確率でそれ以外の行動を選択すればよい。
・S66~S72の処理においては、εソフト方策オン型モンテカルロ法によるものを例示したが、これに限らない。たとえば、方策オフ型モンテカルロ法によるものであってもよい。もっとも、モンテカルロ法にも限らず、たとえば、方策オフ型TD法を用いたり、またたとえばSARSA法のように方策オン型TD法を用いたり、またたとえば、方策オン型の学習として適格度トレース法を用いたりしてもよい。
・上記実施形態では、行動変数としてのスロットルバルブの開口度に関する変数として、スロットル開口度指令値TA*を例示したが、これに限らない。たとえば、アクセル操作量PAに対するスロットル開口度指令値TA*の応答性を、無駄時間および2次遅れフィルタにて表現し、無駄時間と、2次遅れフィルタを規定する2つの変数との合計3つの変数を、スロットルバルブの開口度に関する変数としてもよい。ただし、その場合、状態変数は、アクセル操作量PAの時系列データに代えて、アクセル操作量PAの単位時間当たりの変化量とすることが望ましい。
・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に回転電機が含まれる場合、行動変数に回転電機のトルクや電流を含めればよい。すなわち、推力生成装置の負荷に関する変数である負荷変数としては、スロットルバルブの開口度に関する変数や噴射量に限らず、回転電機のトルクや電流であってもよい。
・上記実施形態では、アクセル操作量PAの時系列データを、等間隔でサンプリングされた6個の値からなるデータとしたが、これに限らない。互いに異なるサンプリングタイミングにおける2個以上のサンプリング値からなるデータであればよく、この際、3個以上のサンプリング値からなるデータや、サンプリング間隔が等間隔であるデータであることがより望ましい。
・エネルギ利用効率が高い場合に低い場合よりも大きい報酬を与える処理としては、基準となる効率と実際の動作点における効率との比と「1」との差をとる処理に限らず、たとえば、基準となる効率と実際の動作点における効率との差をとる処理であってもよい。
(b)変速装置の入力軸52の回転速度の変化速度の絶対値が入力側所定値以下である場合に入力側所定値を超える場合よりも大きい報酬を与える処理である。
なお、上記(a)は、アクセルレスポンスが高い場合に低い場合よりも大きい報酬を与える処理に相当する。上記(b),(c)は、振動が小さい場合に大きい場合よりも大きい報酬を与える処理に相当する。換言すれば、車室内の状態が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理に相当する。
・図4のS34の処理では、行動価値関数Qに基づき行動を決定したが、これに限らず、とりうるすべての行動を等確率で選択してもよい。
・車両の状態と期待収益を最大化する行動変数の値とを1対1に対応付けることによって車両の状態を入力とし期待収益を最大化する行動変数の値を出力する制御用写像データとしては、マップデータに限らない。たとえば、関数近似器であってもよい。これは、たとえば、上記「更新写像について」の欄に記載したように、方策勾配法等を用いる場合において、方策πを行動変数の値をとりうる確率を示すガウス分布にて表現し、その平均値を関数近似器にて表現しておき、平均値を表現する関数近似器のパラメータを更新することとし、学習後の平均値を制御用写像データとすることによって実現できる。すなわち、ここでは、関数近似器が出力する平均値を期待収益を最大化する行動変数の値とみなす。この際、道路変数VRの値毎に各別の関数近似器を設けてもよいが、単一の関数近似器の独立変数のうちの状態sに、道路変数VRを含めてもよい。
・行動変数に応じた操作の対象となる内燃機関の操作部としては、スロットルバルブ14に限らない。たとえば、点火装置26や燃料噴射弁16であってもよい。
・図10に示した例では、S42の処理の全てをデータ解析センター130にて実行したが、これに限らない。たとえば、データ解析センター130においては、S66~S72の処理を実行するものの、報酬の算出処理であるS52~S64の処理については実行せず、S110の処理において、報酬の算出結果を送信することとしてもよい。
・実行装置としては、CPU72(112,132)とROM74(114,134)とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばASIC等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するROM等のプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
・上記実施形態では、関係規定データDRが記憶される記憶装置と、学習プログラム74b,114aや制御プログラム74aが記憶される記憶装置(ROM74,114,134)とを別の記憶装置としたが、これに限らない。
・内燃機関としては、火花点火式内燃機関に限らず、たとえば燃料として軽油などを用いる圧縮着火式内燃機関等であってもよい。
・車両に搭載される推力生成装置としては、内燃機関のみに限らず、たとえばハイブリッド車のように、内燃機関と回転電機とであってもよい。またたとえば、電気自動車や燃料電池車のように、推力生成装置が回転電機のみであってもよい。
12…吸気通路
14…スロットルバルブ
16…燃料噴射弁
18…吸気バルブ
20…シリンダ
22…ピストン
24…燃焼室
26…点火装置
28…クランク軸
40…トルクコンバータ
50…変速装置
70…制御装置
110…生成装置
130…データ解析センター
Claims (7)
- 車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶装置に記憶された状態で、
センサの検出値に基づく前記車両の状態、および前記車両の走行する道路を特定する変数である道路変数を取得する取得処理と、
前記電子機器を操作する操作処理と、
前記取得処理によって取得された前記車両の状態に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記取得処理によって取得された前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
を実行装置に実行させ、
前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記報酬算出処理は、前記道路変数の値が第1の値である場合に前記車両の特性が所定の特性であるときに与える前記報酬に対して前記道路変数の値が第2の値である場合に前記車両の特性が前記所定の特性であるときに与える報酬を変更する変更処理を含む車両用制御データの生成方法。 - 前記道路変数は、一般道から高速道へと合流する合流部である旨、および一般道である旨を識別する変数であり、
前記報酬算出処理は、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、エネルギ利用効率が高い場合に低い場合よりも大きい報酬を与える処理との2つの処理を含み、
前記変更処理は、前記一般道と比較して前記合流部において、前記アクセルレスポンスを高める方がより大きい報酬をうるうえで有利となるように前記2つの処理のうちの少なくとも1つの処理を変更する処理を含む請求項1記載の車両用制御データの生成方法。 - 前記更新処理によって更新された前記関係規定データに基づき、前記車両の状態と前記期待収益を最大化する前記行動変数の値とを対応付けることによって前記車両の状態を入力とし前記期待収益を最大化する前記行動変数の値を出力する制御用写像データを生成する処理を前記実行装置に実行させる請求項1または2記載の車両用制御データの生成方法。
- 請求項1または2記載の前記記憶装置および前記実行装置を備え、
前記操作処理は、前記関係規定データに基づき前記車両の状態に応じた行動変数の値に従って前記電子機器を操作する処理を含む車両用制御装置。 - 請求項4記載の前記実行装置および前記記憶装置を備え、
前記実行装置は、前記車両に搭載される第1実行装置と、車載装置とは別の第2実行装置と、を含み、
前記第1実行装置は、少なくとも前記取得処理および前記操作処理を実行し、
前記第2実行装置は、少なくとも前記更新処理を実行する車両用制御システム。 - 請求項5記載の第1実行装置を備える車両用制御装置。
- 請求項5記載の第2実行装置を備える車両用学習装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236065A JP7205460B2 (ja) | 2019-12-26 | 2019-12-26 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
US17/120,936 US20210188276A1 (en) | 2019-12-20 | 2020-12-14 | Vehicle control data generating method, vehicle controller, vehicle control system, and vehicle learning device |
CN202011484706.1A CN113006951B (zh) | 2019-12-20 | 2020-12-16 | 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236065A JP7205460B2 (ja) | 2019-12-26 | 2019-12-26 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021105343A JP2021105343A (ja) | 2021-07-26 |
JP7205460B2 true JP7205460B2 (ja) | 2023-01-17 |
Family
ID=76918672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019236065A Active JP7205460B2 (ja) | 2019-12-20 | 2019-12-26 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7205460B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6744597B1 (ja) * | 2019-10-18 | 2020-08-19 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250604A (ja) | 1999-03-02 | 2000-09-14 | Yamaha Motor Co Ltd | 特性最適化方法における最適化の協調方法 |
JP2005147309A (ja) | 2003-11-18 | 2005-06-09 | Toyota Motor Corp | 運転者指向判定装置 |
JP2017016554A (ja) | 2015-07-06 | 2017-01-19 | 株式会社日立製作所 | 信号機制御システム及び信号機制御方法 |
CN113744527A (zh) | 2021-08-31 | 2021-12-03 | 北京航空航天大学 | 一种面向高速公路合流区的智能靶向疏堵方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH102411A (ja) * | 1996-06-12 | 1998-01-06 | Mitsubishi Motors Corp | 車両用自動変速機の変速制御装置 |
JPH1011106A (ja) * | 1996-06-27 | 1998-01-16 | Yamaha Motor Co Ltd | 動力源総合制御方式 |
-
2019
- 2019-12-26 JP JP2019236065A patent/JP7205460B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250604A (ja) | 1999-03-02 | 2000-09-14 | Yamaha Motor Co Ltd | 特性最適化方法における最適化の協調方法 |
JP2005147309A (ja) | 2003-11-18 | 2005-06-09 | Toyota Motor Corp | 運転者指向判定装置 |
JP2017016554A (ja) | 2015-07-06 | 2017-01-19 | 株式会社日立製作所 | 信号機制御システム及び信号機制御方法 |
CN113744527A (zh) | 2021-08-31 | 2021-12-03 | 北京航空航天大学 | 一种面向高速公路合流区的智能靶向疏堵方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021105343A (ja) | 2021-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7331704B2 (ja) | 車両用制御データの生成方法、車両用制御装置、および車両用制御システム | |
JP7287287B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP6744597B1 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113006951B (zh) | 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 | |
JP6705544B1 (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP7314831B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN112682181B (zh) | 车辆用控制装置、车辆用控制系统以及车辆控制方法 | |
TWI745120B (zh) | 車輛控制系統、車輛控制裝置及用於車輛之控制方法 | |
JP7136073B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP7243642B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP7327198B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113217204B (zh) | 车辆控制方法、车辆用控制装置以及服务器 | |
JP7205460B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113266481A (zh) | 车辆控制方法、车辆用控制装置以及服务器 | |
CN112682196A (zh) | 车辆用控制装置、车辆用控制系统、以及车辆用学习装置 | |
JP7314813B2 (ja) | 車両制御方法、車両用制御装置及びサーバ | |
JP7207289B2 (ja) | 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法 | |
JP2021067262A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021067259A (ja) | 車両用制御システム、車両用制御装置、および車両用学習装置 | |
JP2021067195A (ja) | 車両用制御システム、車両用制御装置、および車両用学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221212 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7205460 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |