JP2014115168A

JP2014115168A - 車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラム

Info

Publication number: JP2014115168A
Application number: JP2012268816A
Authority: JP
Inventors: Yasuyuki Mizuno; 靖之水野; Makoto Kawamoto; 誠河本; 克彦 ▲高▼取; Katsuhiko Takatori; Yoshifumi Morita; 良文森田; Hiroyuki Ukai; 裕之鵜飼; Kazufumi Ninomiya; 一史二宮; Kazuma Mori; 和真森
Original assignee: Aisin AW Co Ltd; Nagoya Institute of Technology NUC
Current assignee: Aisin AW Co Ltd; Nagoya Institute of Technology NUC
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-26

Abstract

【課題】人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムを提供する。
【解決手段】車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。上記ゲインの値は、車速の追従性を評価する車速報酬関数のみならず、アクセルペダルの操作の滑らかさを評価するアクセル報酬関数、ブレーキペダルの操作の滑らかさを評価するブレーキ報酬関数によっても評価が行われる。
【選択図】図４

Description

本発明は、車輌特性を模擬した車輌モデルをコンピュータによって仮想的に走行させる車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムに関する。

一般に、自動車などの車輌の設計において、実際に設計した車輌を試作して試験する前に、コンピュータ上にて設計した車輌の特性を模擬した車輌モデルを構築して走行シミュレーションを行うことによって、設計された車輌の性能を検証することが行われている。

例えば、車輌の燃費性能を検証する場合には、ドライバのアクセル操作及びブレーキ操作を模擬したドライバモデルを用いて、車輌モデルを燃費測定走行パターン（例えばＪＣ０８モードや、１０・１５モードなど）で走行させて燃費を検証する。

ところで、上記ドライバモデルが、車輌モデルの車速を所定の走行パターンに追従して上手にコントロール出来るようになるには、車輌モデルに合せてこのドライバモデルを調整することが必要となる。従来、このドライバモデルの調整は手動で行われていたが、近年、手動ではなくコンピュータが自動的にドライバモデルの調整を行うことが出来るように、強化学習を用いて上記ドライバモデルを構築することが提案されている（非特許文献１）。

具体的には、上記非特許文献１には、ドライバモデルのＰＩＤゲインの値を変化させて車輌モデルを繰り返し走行させ、その時の車速が走行パターンから所定の範囲内に収まっている場合には正の報酬を与え、車速が所定の範囲から逸脱した場合には負の報酬を与えることによって、上記ゲインの値を評価し、報酬の値の大きな、即ち、評価の高いゲインの値をドライバモデルに採用することによって、自動的にドライバモデルを構築する方法が記載されている。

二宮一史，森田良文，鵜飼裕之，水野靖之，河本誠，高取克彦、「強化学習を用いたドライバーモデルの構築法の提案」、電気関係学会東海支部連合大会公演論文集、名古屋大学大学院工学研究科、２０１１年９月、ＲＯＭＢＵＮＮＯ．Ｎ３−６

このように、上記非特許文献１の方法では、車速の追従性を指標にしてゲインの値を評価することによってドライバモデルの調整の自動化を可能にしている。しかしながら、この非特許文献１の方法は、車速が走行パターンから所定の範囲内にあるか否かのみをゲインの値の評価の基準としているため、構築されるドライバモデルは、実際のドライバに比して、アクセル及びブレーキのペダル操作が多くまた、そのペダル操作が人間では行うことができないくらい急激なものになってしまうことがあった。

そして、その結果として、燃費性能の検証をしてみても、上記非特許文献１の方法によって構築したドライバモデルを用いて行った走行シミュレーションでは、実際に人間が車輌を運転した場合に比べて、燃費性能の結果が低く出てしまうという問題があった。

そこで本発明は、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムを提供することを目的とする。

本発明は、車輌特性を模擬した車輌モデル（１３）をコンピュータ（３）によって仮想的に走行させる車輌用走行シミュレーション装置（１）において、
前記車輌モデル（１３）の現在車速と目標車速との間の車速偏差に基づいて、アクセル及びブレーキペダルの少なくとも一方の操作量の値を前記車輌モデル（１３）に対して出力し、前記現在車速が前記目標車速となるように前記車輌モデルを操作するドライバモデル（１４）を構築するドライバモデル構築部（６，１０）を備え、
前記ドライバモデル構築部（６，１０）は、
前記現在車速が前記目標車速から所定の許容範囲（Ｗ１）以内の場合に前記ドライバモデル（１４）のゲインを評価するための報酬値が加算されるように設定された車速報酬関数、前記アクセルペダルの操作量の値の微分値が所定の許容範囲（Ｗ２）内の場合に前記報酬値が加算されるように設定されたアクセル報酬関数、前記ブレーキペダルの操作量の値の微分値が所定の許容範囲（Ｗ３）内の場合に前記報酬値が加算されるように設定されたブレーキ報酬関数を有する評価式を備え、
前記ドライバモデル（１４）のゲインの値を変更させながら、前記車輌モデル（１３）を所定の走行パターンにて複数回走行させて、これら変更した各ゲインの値を前記評価式によって評価した際に、前記報酬値による評価が最も高いゲインの値を前記ドライバモデル（１４）のゲインの値とする、ことを特徴とする。

また、前記ドライバモデル構築部（６，１０）は、
人間のドライバが実車輌を前記所定の走行パターンに沿って走行させた際の前記アクセルペダルの操作量の値の微分値の上限値（Ｙ_２）及び下限値（Ｙ_１）に基づいて、前記アクセルペダルの操作量の値の微分値の許容範囲（Ｗ２）を設定し、
人間のドライバが実車輌を前記所定の走行パターンに沿って走行させた際の前記ブレーキペダルの操作量の値の微分値の上限値（Ｙ_４）及び下限値（Ｙ_３）に基づいて、前記ブレーキペダルの操作量の値の微分値の許容範囲（Ｗ３）を設定すると好適である。

更に、前記ドライバモデル構築部（６，１０）は、
前記アクセル及びブレーキペダルの操作値の微分値の許容範囲（Ｗ２，Ｗ３）を、前記車輌モデル（１３）の車輌容量に応じて複数設定する、と好適である。

また、本発明は、車輌特性を模擬した車輌モデル（１３）に対して、この車輌モデル（１３）の現在車速と目標車速との間の車速偏差に基づいて、アクセル及びブレーキペダルの少なくとも一方の操作量の値を、前記現在車速が前記目標車速となるように出力するドライバモデル（１４）の構築方法において、
演算装置（６）が、前記ドライバモデル（１４）のゲインの値を変更させながら、前記車輌モデル（１３）を所定の走行パターンにて複数回走行させ、これら変更した各ゲインの値を、前記現在車速が前記目標車速から所定の許容範囲内の場合に前記ドライバモデル（１４）のゲインを評価するための報酬値が加算されるように設定された車速報酬関数、前記アクセルペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたアクセル報酬関数、前記ブレーキペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたブレーキ報酬関数を有する評価式によって評価する評価工程と、
前記演算装置（６）が、前記評価工程で評価された前記ゲインの値の内、前記報酬値による評価が最も高いゲインの値を前記ドライバモデル（１４）のゲインの値とするモデル構築工程と、を備えた、ことを特徴とする。

更に、本発明のドライバモデル構築プログラム（１２）は、上記ドライバモデル構築方法の各工程を実行することを特徴とする。

なお、上記カッコ内の符号は、図面と対照するためのものであるが、これは、発明の理解を容易にするための便宜的なものであり、特許請求の範囲の構成に何等影響を及ぼすものではない。

請求項１、４、５に係る発明によると、ドライバモデルのゲインの値を変更しながら車輌モデルを所定の走行パターンで繰り返し走行させ、これら変更された各ゲインの値を評価して、最も評価の高いゲインの値をドライバモデルのゲインの値として設定するため、自動的にゲインの値を調整したドライバモデルを構築することができる。また、上記ゲインの評価を、車速の追従性のみならず、アクセルペダル及びブレーキペダルの操作の滑らかさの観点からも評価を行うため、ペダル操作の滑らかな人間のペダル操作に近い値にドライバモデルのゲインを収束させることができる。

請求項２に係る発明によると、アクセル報酬関数におけるアクセルペダルの操作量の値の微分値の許容範囲及びブレーキ報酬関数におけるブレーキペダルの操作量の値の微分値の許容範囲を、人間が所定の走行パターンで実車輌を走行させた際のアクセル及びブレーキペダルの上限値及び下限値に基づいて設定している。このため、より人間らしいペダル操作のドライバモデルのゲインの値の評価が高まり、そのゲインの値にドライバモデルのゲインを収束させることができる。

請求項３に係る発明によると、アクセル及びブレーキのペダル操作値の微分値の許容範囲を、車輌モデルの車輌容量に応じて複数設定している。このため、車輌モデルの特性の違いに応じて、人間のようにアクセル及びブレーキの操作がことなるドライバモデルを構築することができる。

本発明の実施の形態に係る車輌用走行シミュレーション装置を示す模式図。図１の車輌用走行シミュレーション装置のシミュレーション装置本体の構成を示す模式図。本発明の実施の形態のドライバモデル及び車輌モデルを示すブロック図。（ａ）本発明の実施の形態の比例ゲインのＱマップを示す図、（ｂ）本発明の実施の形態の積分ゲインのＱマップを示す図、（ｃ）本発明の実施の形態の微分ゲインのＱマップを示す図、（ｄ）車速と車速偏差とによるＱマップの状態列の区分けの仕方を示す図、（ｅ）車速と車速偏差の積分値とによるＱマップの状態列の区分けの仕方を示す図、（ｆ）車速と車速偏差の微分値とによるＱマップの状態列の区分けの仕方を示す図。（ａ）本実施の形態に係る車速報酬関数を示すグラフ、（ｂ）本実施の形態に係るアクセル報酬関数を示すグラフ、（ｃ）本実施の形態に係るブレーキ報酬関数を示すグラフ。

以下、本発明の実施の形態に係る車輌用走行シミュレーション装置を図面に沿って説明する。

＜車輌用走行シミュレーション装置の概略構成＞
図１に示すように、車輌用走行シミュレーション装置１は、一般にＨＩＬＳ（ＨａｒｄｗａｒｅＩｎｔｈｅＬｏｏｐＳｉｍｕｌａｔｉｏｎ／Ｓｉｍｕｌａｔｏｒ）と呼ばれ、シミュレーション対象の系の一部を実物によって構成すると共に、シミュレーション対象のその他の全ての部分については、ハードウェア（コンピュータ）で仮想的に実現するシミュレータである。

上記車輌用走行シミュレーション装置１は、数値化が困難な部分がある場合や、実物にて動作評価を実施したい場合などに多く用いられ、本実施の形態においては、実物のＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）２をシミュレーション装置本体３に接続して構成されている。

より詳しくは、シミュレーション装置本体（コンピュータ）３は、図２に示すように、ＣＰＵ５を主体として演算装置６を構成していると共に、このＣＰＵ５には、ＲＯＭ７及びＲＡＭ９などの記憶装置１０がバス１１を介して接続されている。ＲＯＭ７には、シミュレーション装置の基本制御に必要なプログラムが格納されていると共に、後述するドライバモデル構築プログラム１２などの各種プログラムやデータが格納されている。ＲＡＭ９には、ＣＰＵ５に対する作業領域が確保されると共に、シミュレーションを行う車輌モデル１３、ドライバモデル１４のデータや、後述するＱマップ１５のデータなどが格納されている。

また、ＣＰＵ５には、バス１１を介して操作パネル１６が接続されていると共に、バス１１及び入力インターフェース１７を介して外部コンピュータ１９と接続されている。従って、これら操作パネル１６及び外部コンピュータ１９からシミュレーション装置本体３に対して、シミュレーションに必要な情報、或いはその他の指示の入力が可能となっていると共に、上記外部コンピュータ１９もしくは不図示の表示装置に対してシミュレーション結果を出力可能となっている。

＜走行シミュレーションについて＞
ついで、上記車輌用走行シミュレーション装置の行う車輌の走行シミュレーションについて説明をする。上述した車輌用走行シミュレーション装置１は、車輌の走行シミュレーションを行うに際して、接続された実物のＥＣＵ及びその他の数値化された車輌データに基づいて、走行シミュレーションを行いたい車輌の特性を模擬した車輌モデル１３を構築する。

また、車輌用走行シミュレーション装置１は、上記車輌モデル１３の現在車速と目標車速との間の車速偏差に基づいて、アクセル及びブレーキペダルの少なくとも一方の操作量の値を車輌モデル１３に対して出力し、現在車速が目標車速となるように車輌モデル１３を操作するドライバモデル１４を構築する。

即ち、上記ドライバモデル１４は、車輌モデル１３をコンピュータによって仮想的に走行させる際の制御則として形成される。従って、演算装置６は、ドライバモデル１４が決まれば、車輌モデル１３を走行させたい任意の速度パターンの車速を、ドライバモデル１４の目標車速とすることによって、車輌モデル１３に出力するアクセルペダル及びブレーキペダルの操作量の値を演算することができる。そして、この出力されたアクセル及びブレーキペダル操作量の値に基づいて、車輌モデル１３の走行状態をコンピュータ上にて演算してシミュレーションすることができるようになっている。

なお、上記アクセルペダル及びブレーキペダルの操作量の値はペダル操作値として演算され、このペダル操作値は、プラスの値によってアクセルペダルの操作量を、マイナスの値によってブレーキペダルの操作量を示す。また、本実施の形態においては、ドライバモデル１４は、式（１）に示すように、ＰＩＤ制御（ＰｒｏｐｏｒｔｉｏｎａｌＩｎｔｅｇｒａｌＤｅｒｉｖａｔｉｖｅＣｏｎｔｒｏｌｌｅｒ）によって車輌モデル１３を制御するように制御側が構成されている。

＜ドライバモデルの構築方法＞
上述したように、車輌モデル１３は、ドライバモデル１４によってその走行を制御されるため、正確な走行シミュレーションを行いたい場合、どのようなドライバモデル１４を構築するかが重要となる。以下、上記ドライバモデル構築プログラム１２によるドライバモデルの構築方法について説明をする。

図３は、本実施の形態に係るドライバモデル及び車輌モデルを示すブロック図である。図３に示すように、本実施の形態において、演算装置６は、強化学習エージェント２０として機能し、強化学習を用いてドライバモデル１４を自動的に構築する。

具体的には、本実施の形態では、上述したドライバモデルのＰＩＤゲイン（式（１）のＫ_Ｐ、Ｋ_Ｉ、Ｋ_Ｄ）をＱ−ｌｅａｒｎｉｎｇ法の手法を用いて決定することにより、適切なドライバモデルを構築する。即ち、車輌用走行シミュレーション装置は、図４（ａ）に示すように、一方の軸（本実施の形態では列）に車輌モデルの走行状態を取ると共に他方の軸（本実施の形態では行）にゲインの値を取り、各走行状態におけるゲインの値の評価が報酬値の積算値としてセルに入力されるＱマップ１５をＲＡＭ９に格納している。

上記Ｑマップ１５のセルの報酬値の値は、学習前はそれぞれ０の値を取っているが、ドライバモデル構築プログラム１２は、演算装置６に上記ゲインの値（ａ^Ｐ _ｔ,ａ^Ｉ _ｔ,ａ^Ｄ _ｔ）を変更させながら車輌モデル１３を所定の走行パターンで複数回走行させ、その際に後述する評価式を用いて各走行状態におけるゲインの値をそれぞれ評価して上記報酬値の値（ゲインの評価）を更新して行くことによって、Ｑマップ１５を学習させる。そして、走行状態ごとに、この学習させたＱマップ上で最も報酬値（評価）の高いゲインの値を、ドライバモデル１４のゲインの値として採用することによって、上記ドライバモデル１４を自動的に構築可能なようになっている。

具体的に、図４（ａ）のＱマップ１５では、ゲインの値がａ^Ｐ _１〜ａ^Ｐ _４の間で変更され、状態Ｓ^Ｐ _１を例にとると、報酬値の値が９でゲインａ^Ｐ _１が最も高いので、このゲインａ^Ｐ _１が状態Ｓ^Ｐ _１の際のゲインとして演算装置６に選択される。

なお、本実施の形態においては、上述したように車輌モデル１３をＰＩＤ制御によって制御するため、ドライバモデル１４のゲインの値もそれぞれ車速偏差、車速偏差の積分値、車速偏差の微分値に応じて別々に設定されている。このため、Ｑマップ１５についても、図４（ａ）〜（ｃ）に示すようにゲイン別に３つ設けられ、この場合、各Ｑマップ１５の走行状態はそれぞれゲインの種類に合せて、図４（ｄ）に示す車速と車速偏差によって定まる状態、図４（ｅ）に示す車速と車速偏差の積分値によって定まる状態、図４（ｆ）に示す車速と車速偏差の微分値によって定まる状態によって区分される。

また、ＰＩＤゲインの値を変動させる範囲については、車速が目標車速（走行パターン車速）から極端に逸脱しない範囲内で設定され、所望のゲインがこの範囲から外れず、かつドライバモデルを構築する時間が極端に長くならないように設定される。

ついで、上記ゲインの評価方法について説明をする。上記ドライバモデル構築プログラム１２には、Ｑマップ１５のセルに加算される報酬値を算出する評価式が組み込まれており、演算装置６は、この評価式に基づいてゲインの値を評価する。

具体的には、上記評価式は、式（２）に示すように設定されている。即ち、この評価式ｒ（ｔ）は、車速追従に対する報酬値を設定する車速報酬関数（式（２）のｒ_０（ｔ）の部分）、アクセル操作に対する報酬値を設定するアクセル報酬関数（式（２）のＫ_Ａｄ（Ａｃ（ｔ））／ｄｔ＋γの部分）、ブレーキ操作に対する報酬値を設定するブレーキ報酬関数（式（２）のＫ_Ｂｄ（Ｂｒ（ｔ））／ｄｔ＋γの部分）を有して構成されており、各報酬関数にて算出された報酬値の和が、上記Ｑマップ１５のセルの報酬値として加えられる。

より詳しく説明すると、上記車速報酬関数ｒ_０（ｔ）は、式（３）のように設定されている。

即ち、図５（ａ）に示すように、車速報酬関数ｒ_０（ｔ）は、車輌モデル１３の現在車速が許容車速偏差幅Ｗ１の範囲内の場合に、報酬値（ゲインの評価）がこの許容車速偏差幅Ｗ１外の場合に比して高くなるように設定されており、特に現在車速が目標車速（走行パターンの車速）に近い程、報酬値が高くなるようになっている。また、上記現在車速が許容車速偏差幅の範囲外に逸脱している場合には、報酬値は０となるように設定されている。これにより、例え、現在車速が許容車速偏差幅の範囲外に逸脱したとしても適切なＰＩＤゲインだった場合に、車速報酬関数からの報酬値がマイナスになることがなくなり、Ｑマップの学習結果を収束させやすくすることができる。

なお、本実施の形態において、上記許容車速偏差幅Ｗ１は、燃費計測モード（ＪＣ０８モード、１０・１５モードなど）において許容されている範囲に設定されており、具体的には、走行パターンの車速からプラス・マイナス２ｋｍ／ｈの範囲に設定されている。

また、アクセル報酬関数Ｋ_Ａｄ（Ａｃ（ｔ））／ｄｔ＋γは、図５（ｂ）に示すように、アクセルペダルの操作量（プラスのペダル操作値）の微分値が、所定の許容範囲Ｗ２内の場合に、報酬値（ゲインの評価）がこの許容範囲Ｗ２外の場合に比して高くなるように設定されている。即ち、アクセルペダルの操作量の微分値が上記許容範囲Ｗ２内の場合は、ペダル操作の重みパラメータγがそのまま報酬値となるが（この時、Ｋ_Ａ＝０）、この許容範囲Ｗ２からアクセルペダルの操作量の微分値が逸脱すればするほど、Ｋ_Ａｄ（Ａｃ（ｔ））／ｄｔの項のマイナス値（負の報酬）が大きくなって、報酬値の値が小さくなる（マイナスも含む）。

また、上記アクセルペダルの操作量の微分値の許容範囲Ｗ２は、実車輌において人間のドライバが所定の走行パターンを走行させる際のアクセルペダルの操作量の微分値の上限値Ｙ_２及び下限値Ｙ_１に基づいて設定されている。具体的には、上記アクセルペダルの操作量の微分値の上限値Ｙ_２及び下限値Ｙ_１は、表１に示すように、車輌のサイズ（車輌容量）に応じて複数（本実施の形態では小型、中型、大型の３つ）設定されており、車輌モデルのサイズに合わせて値が選択される。

更に、ブレーキ報酬関数Ｋ_Ｂｄ（Ｂｒ（ｔ））／ｄｔ＋γは、図５（ｃ）に示すように、ブレーキペダルの操作量（マイナスのペダル操作値）の微分値が、所定の許容範囲Ｗ３内の場合に、報酬値（ゲインの評価）がこの許容範囲Ｗ３外の場合に比して高くなるように設定されている。即ち、ブレーキペダルの操作量の微分値が上記許容範囲内の場合は、ペダル操作の重みパラメータγがそのまま報酬値となるが（この時、Ｋ_Ｂ＝０）、この許容範囲からブレーキペダルの操作量の微分値が逸脱すればするほど、Ｋ_Ｂｄ（Ｂｒ（ｔ））／ｄｔの項のマイナス値（負の報酬）が大きくなって、報酬値の値が小さくなる（マイナスも含む）。

また、上記ブレーキペダルの操作量の微分値の許容範囲Ｗ３は、上記アクセル報酬関数と同様に、実車輌において人間のドライバが所定の走行パターンを走行させる際のブレーキペダルの操作量の微分値の上限値Ｙ_４及び下限値Ｙ_３に基づいて設定されており、表１に示すように、車輌のサイズ（車輌容量）に応じて複数（本実施の形態では小型、中型、大型の３つ）設定されている。

なお、通常、アクセル及びブレーキは、同時に操作されることが少なく、式（２）を見て分かる通り上記ペダル操作の重みパラメータγは、アクセルペダル報酬関数とブレーキ報酬関数との共通の重みパラメータとなっている。そのため、ペダル操作に基づいて得られる報酬値の最大値は、ペダル操作の重みパラメータγである。

また、ｋ_Ａ，ｋ_Ｂの値を１/１０００としたのは、報酬値の桁数を合わせるためであると共に、ペダル操作の重みパラメータγ＝２を追加で加えるのは、アクセル及びブレーキの操作量（変化量）が１０００〜３０００程度の場合であっても人間のペダル操作で取り得る値として正の報酬を与えられるようにするためである。

上述したように、本実施の形態に係る車輌用走行シミュレーション装置１は、演算装置６及びドライバモデル構築プログラム１２が格納された記憶装置１０を備えて上記ドライバモデル１４を構築するドライバモデル構築部を形成している。このドライバモデル構築プログラム１２は、ドライバモデル１４のゲインの値を変更させながら、車輌モデル１３を所定の走行パターンにて複数回走行させ、これら変更した各ゲインの値を上述した評価式によって評価する評価工程と、この評価工程で評価されたゲインの値の内、報酬値の値（報酬値による評価）が最も高いゲインの値をドライバモデル１４のゲインの値に設定するモデル構築工程とを、演算装置６に実行させるように構成されているため、車輌用走行シミュレーション装置１は、ゲインの値を最適化したドライバモデル１４を自動的に構築することができる。

従って、車輌モデルを繰り返し自動走行させることによって、ドライバモデル１４が学習して、例えば、燃費評価テストなどの場合、国土交通省の定めた規定値内走行が可能となるため、人手によるドライバモデルの調整が必要なくなり、人間の作業工数を削減することができる。

また、上記ゲインの値を評価する評価式を、車速の追従性を評価する車速報酬関数のみならず、アクセルペダル及びブレーキペダルの操作の滑らかさを評価するアクセル報酬関数及びブレーキ報酬関数を加えて構成したため、ドライバモデル１４を、ペダル操作の滑らかさの観点からも評価することができ、より人間に近い、出来るだけ滑らかなペダル操作を行うドライバモデルを、ドライバモデル構築部６，１０によって自動的に構築することができる。

即ち、現在車速が目標車速から所定の許容範囲以内になりかつ、アクセルペダル及びブレーキペダルの操作量の値の微分値が所定の許容範囲内になるゲインの値について、最も多くの報酬値が加算されるため、よりペダル操作の滑らかな人間に近いドライバモデル１４を構築することができる。

更に、車輌用走行シミュレーション装置１は、アクセル及びブレーキペダルの操作量の微分値の許容範囲を、車輌容量に応じて複数設定している。このため、車輌容量に応じて変化する車輌モデルのエンジン性能や車輌重量などの人間のペダル操作に影響を与える車輌特性に応じて、ドライバモデル１４を調整することができ、より人間のペダル操作に近いドライバモデル１４を構築することができる。

また、ドライバモデル１４を構築する際の車輌モデル１３を走行させたパターン以外の走行パターンであっても、上記アクセル及びブレーキペダルの操作量の微分値の許容範囲内でペダル操作を行う走行パターンであれば、滑らかなペダル操作が可能となり、構築したドライバモデル１４の汎用性を高めることができる。

更に、ドライバモデル１４のペダル操作値の出力が人間の操作に近づいて滑らかになることによって、変速機の変速タイミングが、人間が操作した場合と類似してくるため、フェールセーフや燃費テストにおける評価精度を向上させることができる。

＜試験結果＞
ついで、ドライバモデル１４のゲインの値を車速報酬関数のみを用いて評価して構築されたドライバモデルと、本実施の形態の評価式を用いて評価して構築されたドライバモデル（アクセル及びブレーキ報酬関数有りの場合）とによって、同一の車輌モデルをＪＣ０８モードで走行させた場合の結果の比較を、表２及び表３に示す。

上記表２に示すように、車速追従のみを指標として構築されたドライバモデルでは、１回の最大逸脱時間は０．００秒であり、国土交通省の規定である１秒以内に収まっていると共に、総逸脱時間も０．００秒となり、この総逸脱時間においても国土交通省の規定である２秒以内に収まっている。

一方、本実施の形態の方法によって構築されたドライバモデルも、それぞれ１回の最大逸脱時間が０．１秒、総逸脱時間が０．１秒となって、いずれの値も上記国土交通省の規定内に収まっていることが分かる。これらの結果から車速追従のみを指標として構築されたドライバモデルであっても、本実施の形態に係るドライバモデルであっても規定の許容範囲内で走行パターンに車速を同程度の精度で追従させることができることが分かる。

次に、表３では、上記２つのドライバモデルを用いてＪＣ０８モードを走行した際のアクセル及びブレーキペダルそれぞれの操作量の積分値を、人間が実車輌でＪＣ０８モードを走行した場合と比較することで、上記２つのドライバモデルがどの程度、人間のペダル操作に近いかを評価した。

表３に示すように、アクセル及びブレーキのいずれの操作量の積分値も、本実施の形態の方法で構築されたドライバモデルの方が、人間の操作に近い事がわかる。特に、車速追従のみを指標にして構築されたドライバモデルを用いて車輌モデルを走行させた場合は、アクセル及びブレーキペダルの操作量の積分値が高くなっており、これは、アクセル及びブレーキを多く操作したことを示している。従って、車速追従のみを指標として構築されたドライバモデルでは、車速の追従は可能であったとしても、正確な燃費評価を行うことができない事がわかる。

一方、本実施の形態の方法で構築されたドライバモデルでは、上記積分値の値が人間操作に近づいて小さくなっているため、車速追従のみを指標にして構築されたドライバモデルに対して、よりペダル操作が滑らかであることが分かる。従って、上述した車速追従のみを指標として構築されたドライバモデルに比して、正確な燃費評価を行うことができる。

なお、上述の実施の形態においては、報酬値が大きい程、評価が高い設定になっているが、報酬値が低い程、評価が高くなるように設定してもよく、上記車速報酬関数、アクセル報酬関数及びブレーキ報酬関数において、車速、アクセルのペダル操作量の値の微分値及びブレーキのペダル操作量の値の微分値が所定の許容範囲Ｗ１，Ｗ２，Ｗ３の場合、報酬値が加算されるとは、報酬値が評価の高まる方向に加算されるという意味である。

また、Ｑマップ１５におけるセルの報酬値は、報酬値を単純に積算するのではなく、単位走行パターンを走行した際に積算された報酬値の平均値などによって評価を比較しても良い。更に、本実施の形態においては、ドライバモデルをＰＩＤ制御を用いて構成したが、例えば、ファージモデルなど、他の方法を用いて構成しても良い。

更に、本実施の形態においてアクセル／ブレーキ報酬関におけるアクセル／ブレーキペダルの操作量の微分値は、一階微分の値を用いたが、アクセル／ブレーキペダルの操作量を複数回微分した値を用いても良く、例えば、二階微分の値（操作量の加速度）を用いても良い。

また、ドライバモデル構築プログラムは、ＲＯＭ，ＲＡＭのいずれに格納されていても良く、図２に示すように、ＣＤ、ＤＶＤ、フラッシュメモリなどのコンピュータが読み取り可能な記録媒体３０に格納して、走行シミュレーション装置にインストールすることもできかつ、通信装置３１を介して、インターネットなどで配信することもできる。

１：車輌用走行シミュレーション装置、３：コンピュータ（シミュレーション装置本体）、６：演算部、６，１０：ドライバモデル構築部、１２：ドライバモデル構築プログラム、１３：車輌モデル、１４：ドライバモデル、Ｗ１：車速の許容範囲、Ｗ２：アクセルペダルの操作量の値の微分値の許容範囲、Ｗ３：ブレーキのペダル操作量の値の微分値の許容範囲、Ｙ_１：アクセルペダルの操作量の値の微分値の下限値、Ｙ_２：アクセルペダルの操作量の値の微分値の上限値、Ｙ_３：ブレーキペダルの操作量の値の微分値の下限値、Ｙ_４：ブレーキペダルの操作量の値の微分値の上限値

Claims

車輌特性を模擬した車輌モデルをコンピュータによって仮想的に走行させる車輌用走行シミュレーション装置において、
前記車輌モデルの現在車速と目標車速との間の車速偏差に基づいて、アクセル及びブレーキペダルの少なくとも一方の操作量の値を前記車輌モデルに対して出力し、前記現在車速が前記目標車速となるように前記車輌モデルを操作するドライバモデルを構築するドライバモデル構築部を備え、
前記ドライバモデル構築部は、
前記現在車速が前記目標車速から所定の許容範囲以内の場合に前記ドライバモデルのゲインを評価するための報酬値が加算されるように設定された車速報酬関数、前記アクセルペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたアクセル報酬関数、前記ブレーキペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたブレーキ報酬関数を有する評価式を備え、
前記ドライバモデルのゲインの値を変更させながら、前記車輌モデルを所定の走行パターンにて複数回走行させて、これら変更した各ゲインの値を前記評価式によって評価した際に、前記報酬値による評価が最も高いゲインの値を前記ドライバモデルのゲインの値とする、
ことを特徴とする車輌用走行シミュレーション装置。
前記ドライバモデル構築部は、
人間のドライバが実車輌を前記所定の走行パターンに沿って走行させた際の前記アクセルペダルの操作量の値の微分値の上限値及び下限値に基づいて、前記アクセルペダルの操作量の値の微分値の許容範囲を設定し、
人間のドライバが実車輌を前記所定の走行パターンに沿って走行させた際の前記ブレーキペダルの操作量の値の微分値の上限値及び下限値に基づいて、前記ブレーキペダルの操作量の値の微分値の許容範囲を設定する、
請求項１記載の車輌用走行シミュレーション装置。
前記ドライバモデル構築部は、
前記アクセル及びブレーキペダルの操作値の微分値の許容範囲を、前記車輌モデルの車輌容量に応じて複数設定する、
請求項１又は２記載の車輌用走行シミュレーション装置。
車輌特性を模擬した車輌モデルに対して、この車輌モデルの現在車速と目標車速との間の車速偏差に基づいて、アクセル及びブレーキペダルの少なくとも一方の操作量の値を、前記現在車速が前記目標車速となるように出力するドライバモデルの構築方法において、
演算装置が、前記ドライバモデルのゲインの値を変更させながら、前記車輌モデルを所定の走行パターンにて複数回走行させ、これら変更した各ゲインの値を、前記現在車速が前記目標車速から所定の許容範囲内の場合に前記ドライバモデルのゲインを評価するための報酬値が加算されるように設定された車速報酬関数、前記アクセルペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたアクセル報酬関数、前記ブレーキペダルの操作量の値の微分値が所定の許容範囲内の場合に前記報酬値が加算されるように設定されたブレーキ報酬関数を有する評価式によって評価する評価工程と、
前記演算装置が、前記評価工程で評価された前記ゲインの値の内、前記報酬値による評価が最も高いゲインの値を前記ドライバモデルのゲインの値に設定するモデル構築工程と、を備えた、
ことを特徴とするドライバモデル構築方法。
請求項４記載のドライバモデル構築方法の各工程を実行するドライバモデル構築プログラム。