JP2021017168A

JP2021017168A - ダンパ制御システム、車両、情報処理装置およびそれらの制御方法、ならびにプログラム

Info

Publication number: JP2021017168A
Application number: JP2019134773A
Authority: JP
Inventors: 岳洋藤元; Takehiro Fujimoto
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-02-15
Also published as: US20210023905A1; CN112277558A

Abstract

【課題】機械学習アルゴリズムを用いながらダンパの特性の制御を高い応答性能とロバスト性で行うことが可能な技術を実現する。【解決手段】ダンパ制御システムであって、車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と、車両において計測された車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、演算処理により得られた制御変数をダンパ制御手段に出力する処理手段と、を有し、ダンパ制御手段は、ダンパ制御手段の内部で用いられている制御変数に基づいてダンパの特性を制御すると共に、内部で用いられている制御変数を、処理手段により出力された新たな制御変数に置き換える。【選択図】図２

Description

本発明は、ダンパ制御システム、車両、情報処理装置およびそれらの制御方法、ならびにプログラムに関する。

従来、機械学習アルゴリズムを用いて車両の自律的な走行を適応的に制御する（自動運転ともいわれる）技術が知られており、特許文献１には、能動的な探索を行わない強化学習に基づく車両制御技術が開示されている。

また、近年、サスペンションに用いられるダンパとして、各輪のダンパの減衰力を制御可能なアクティブダンパを採用する車両が知られている。当該減衰力を制御することにより、車両のロール挙動などを制御してより高い乗り心地を提供することができる。

特開２０１８−３７０６４号公報

ところで、機械学習アルゴリズムにより、アクティブダンパの減衰力を直接制御することが考えられる。機械学習アルゴリズム（とりわけ深層強化学習アルゴリズム）によってアクティブダンパを直接制御して乗り心地を改善する場合、当該アルゴリズムを用いた制御の応答性能が問題となる場合がある。すなわち、広い範囲の挙動で乗り心地を改善しようとすると、減衰力の制御自体の応答性能は数msec程度まで向上させなければならない場合がある。これに対して、機械学習アルゴリズムの計算負荷によっては、ロバスト性を持たせつつ減衰力の制御の応答性能を数msecまで向上させることは、計算資源の観点から現実的でない場合がある。

本発明は、上記課題に鑑みてなされ、その目的は、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能な技術を実現することである。

本発明によれば、
ダンパ制御システムであって、
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理手段と、を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理手段により出力された新たな前記制御変数に置き換える、
ことを特徴とするダンパ制御システムが提供される。

本発明によれば、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能になる。

本発明の実施形態に係る車両および情報処理装置の機能構成例を示すブロック図本実施形態に係るダンパ制御の一例として、強化学習を用いる場合の動作概要と関連する構成を説明する図本実施形態に係るダンパ制御の一例として、アクタークリティック手法を適用する場合の構成を説明する図本実施形態に係るダンパ制御の一連の動作を示すフローチャート本実施形態において利用可能なセンサ及び当該センサにより計測されるセンサデータの例を説明する図

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでするものでなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴うち二つ以上の特徴が任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

＜車両および情報処理装置の構成＞
図１を参照して、本実施形態に係る車両１００および情報処理装置２００の構成について説明する。なお、本実施形態に係るダンパ制御システムは、例えば、情報処理装置２００と、ダンパ制御部１０６とダンパ１０７とを含む。本実施形態では、車両１００がアクティブダンパを備える四輪の車両である場合を例に説明するが、本実施形態は、アクティブダンパを用いて挙動を制御可能であれば二輪の車両や除雪車などの作業機に適用されてもよい。以下の実施形態において、車両はボディおよびダンパのいずれをも含むが、単に車両の縦方向の加速度を指す場合には、車両ボディの縦方向の加速度を指すものとする。

また、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。

センサ部１０１は、車両１００に備えられる各種センサであり、車両１００の挙動に関するセンサデータを出力する。図５は、センサ部１０１のうち、本実施形態のダンパ制御処理に用いられ得る各種センサと計測内容の一例を示している。これらのセンサには、例えば、車両１００の車速を計測するための車速センサや、車両のボディ加速度を計測するための加速度センサ、ダンパのストローク挙動（速度や変位）を計測するサスペンション変位センサを含む。更に、ステアリング入力を計測する操舵角センサ、自己位置を取得するＧＰＳ等が含まれる。なお、以降の説明では、ダンパ制御処理に用いられる、車両１００の挙動に関するこれらのセンサデータを特にフィードバックデータという。センサ部１０１から出力された車両１００の挙動に関するフィードバックデータは、情報処理装置２００に入力され、データ入力部２１３、一時記憶部２１６および報酬決定部２１７に入力される。

また、センサ部１０１は、車両の外部状況や車両からの距離、路面状態等を認識するために用いるカメラ、Ｌｉｄａｒおよびレーダーや、車両に搭乗する搭乗者の様子を識別するためのセンサを含んでもよい。

通信部１０２は、例えば通信用回路等を含む通信デバイスであり、例えばＬＴＥやＬＴＥ−Ａｄｖａｎｃｅｄ等或いは所謂５Ｇとして規格化された移動体通信を介して外部のサーバや周囲の交通システムなどと通信する。地図データの一部又は全部を外部サーバから受信したり、他の交通システムから交通情報などを受信し得る。また、通信部１０２は、センサ部１０１から取得された各種データ（センサデータ或いはフィードバックデータ）を外部のサーバに送信し得る。操作部１０３は、車両１００内に取り付けられたボタンやタッチパネルなどの操作部材のほか、ステアリングやブレーキペダルなどの、車両１００を運転するための入力を受け付ける部材を含む。電源部１０４は、例えばリチウムイオンバッテリ等で構成されるバッテリを含み、車両１００内の各部に電力を供給する。動力部１０５は、例えば車両を走行させるための動力を発生させるエンジンやモータを含む。

ダンパ１０７は、車両１００のサスペンションに用いられ、例えば、ダンパの特性である減衰力を制御可能なアクティブダンパである。例えば、ダンパ１０７の制御は、ダンパ１０７の内部のコイルに流す電流量を制御することで内部のバルブが開く圧力が調節され、ダンパ１０７の減衰力が制御される。ダンパ１０７は、それぞれ独立する４つのダンパ１０７で構成され、それぞれ独立して制御される。

ダンパ制御部１０６は、ダンパ１０７の特性を制御するための例えばソフトウェアモジュールであり、ダンパ制御部１０６は、情報処理装置２００から出力される制御変数に基づいて（独立した４つのダンパ１０７のそれぞれの）ダンパの特性を制御する。ダンパ制御部１０６の詳細については、後述する。

システム制御部１０８は、１つ以上のプロセッサ、ＲＯＭおよびＲＡＭを含み、車両１００内の各部の動作を制御するコントローラである。本実施形態では、システム制御部１０８とダンパ制御部１０６とを別々に説明しているが、ダンパ制御部１０６がシステム制御部１０８の一部として動作してもよい。

情報処理装置２００は、センサ部１０１からフィードバックデータを取得して、後述するダンパ制御処理における機械学習アルゴリズムを用いた処理を実行する。例えば、情報処理装置２００は、ＣＰＵ２１０、ＲＡＭ２１１、ＲＯＭ２１２、データ入力部２１３、モデル処理部２１４、制御変数出力部２１５、一時記憶部２１６および報酬決定部２１７を含む。

ＣＰＵ２１０は、１つ以上のプロセッサを含み、ＲＯＭ２１２に記憶されるコンピュータプログラムをＲＡＭ２１１に展開、実行することにより、情報処理装置２００の各部の動作を制御する。ＲＡＭ２１１は、例えばＤＲＡＭ等を含み、ＣＰＵ２１０のワークメモリとして機能する。ＲＯＭ２１２は、不揮発性の記憶媒体で構成され、ＣＰＵ２１０によって実行されるコンピュータプログラムや情報処理装置２００を動作させる際の設定値などを記憶する。なお、以下の実施形態では、ＣＰＵ２１０がモデル処理部２１４の処理を実行する場合を例に説明するが、モデル処理部２１４の処理は不図示の１つ以上の他のプロセッサ（例えばＧＰＵ）で実行されてもよい。

データ入力部２１３は、後述する一時記憶部２１６に記憶されたフィードバックデータを取得して、データの前処理を行う。フィードバックデータとして入力される車両の運動状態や運転入力の特徴を、機械学習アルゴリズムが処理し易いように、種々の加工処理を行う。加工処理の一例では、所定の期間内のフィードバックデータの最大値、最小値等に加工する処理を含む。事前にフィードバックデータを加工しておくことにより、生のフィードバックデータを機械学習アルゴリズムで直接扱う場合よりも処理効率や学習効率を向上させることができる。

モデル処理部２１４は、例えば、強化学習などの機械学習アルゴリズムの演算を行って、得られた出力を制御変数出力部２１５に出力する。モデル処理部２１４は、データ入力部２１３からのフィードバックデータと報酬決定部２１７からの報酬のデータを用いて、強化学習アルゴリズムを実行し、ダンパ制御部１０６に提供する制御変数を出力する。モデル処理部２１４は、強化学習アルゴリズムの実行を通して内部のパラメータを最適化し（すなわち学習し）、内部のパラメータで特定される演算処理をフィードバックデータに対して適用することにより、車両１００の挙動に応じた最適な制御変数を出力する。

制御変数出力部２１５は、モデル処理部２１４から出力される制御変数をダンパ制御部１０６に出力する。制御変数出力部２１５は、モデル処理部２１４から出力された制御変数が許容可能な範囲であるかを判定し、その制御変数が予め決められた許容可能な範囲であると判定した場合にのみ、制御変数をダンパ制御部１０６に出力する制御変数フィルタ手段として動作してもよい。この場合、仮にモデル処理部２１４が許容範囲を超える値を出力した場合であっても、ダンパ制御部１０６には許容範囲となる出力のみを提供することができる。

一時記憶部２１６は、揮発性或いは不揮発性の記憶媒体で構成され、情報処理装置２００がセンサ部１０１から受け付けたフィードバックデータを一時的に記憶する。一時的に記憶されたフィードバックデータは、所定のタイミングでデータ入力部２１３に読み出される。

報酬決定部２１７は、フィードバックデータに基づいて、機械学習アルゴリズム（強化学習アルゴリズム）で用いられる報酬又はペナルティを決定し、モデル処理部２１４に出力する。報酬決定部２１７の詳細については、後述する。

＜ダンパ制御処理の概要と関連するブロックの構成＞
次に、図２を参照して、本実施形態に係るダンパ制御処理の概要と、ダンパ制御処理に用いられる機能構成例について説明する。

本実施形態のダンパ制御処理は、主に、モデル処理部２１４における機械学習アルゴリズムを用いた演算処理と、ダンパ制御部１０６によるルールベースの演算処理とから構成されるハイブリッド処理により実現される。

このような構成では、ダンパ制御部１０６は予め決められたルールベースの演算処理により、低次元制御出力を数百ヘルツの高速な動作周波数でダンパを制御することができる。一方、モデル処理部２１４はダンパ制御部ほど高くない動作周波数で高次元の制御を実行することができる。ダンパ制御部１０６の低次元の制御は、ルールベースで記述されるため、ダンパ制御部１０６の動作が安定し易く、動作を把握することができる。このため、深層強化学習を用いる場合の出力の予見可能性の低さを改善することが可能になる。

ある時刻ｔにおいて、モデル処理部２１４はフィードバックデータを受け付け、（機械学習アルゴリズムの実行により特定された演算処理により）得られた制御変数をダンパ制御部１０６に出力する。強化学習では、この場合のフィードバックデータは環境の状態（ｓ_ｔ）に相当し、制御変数は、環境に対する行動（ａ_ｔ）に相当する。

ダンパ制御部１０６は、モデル処理部２１４からの制御変数を受け付けると、ダンパ制御部１０６の内部で用いられている制御変数を、モデル処理部２１４から取得した新たな制御変数に置き換える。制御変数は、例えば、ダンパ制御部１０６のルールベースの処理が参照するルックアップテーブルや、フィードバックデータに応じたゲインパラメータなどの、ダンパ制御部１０６がダンパの特性を決定するためのパラメータを含む。また、制御変数は、ダンパ制御部１０６が公知のスカイフック理論に基づいてダンパ１０７の減衰力を決定するためのパラメータでもある。例えば、車両１００のセンサ部１０１において計測される車両のボディ加速度がスカイフック理論に基づく加速度と整合するようにダンパ１０７の減衰力を制御する。

ダンパ制御部１０６は、新たな制御変数に基づいて、フィードバックデータに対するダンパ特性の制御を行う。このとき、ダンパ制御部１０６は、ダンパ１０７の特性を制御するための制御量を算出する。例えば、ダンパ１０７の特性は減衰力であり、ダンパ１０７の特性を制御するための制御量は、当該減衰力を制御する電流量である。ダンパ制御部１０６は、時刻がｔ＋１になるまで、新たな制御変数に基づく、フィードバックデータに対するダンパ制御を繰り返す。

センサ部１０１は、時刻ｔ＋１におけるフィードバックデータを取得して出力する（時刻ｔから時刻ｔ＋１までのフィードバックデータをまとめて、時刻ｔ＋１のフィードバックデータとしてもよい）。強化学習では、このフィードバックデータは、環境における状態（ｓ_ｔ＋１）に相当する。報酬決定部２１７は、センサ部１０１からのフィードバックデータに基づいて、強化学習における報酬（ｒ_ｔ＋１）（またはペナルティ）を決定してモデル処理部２１４に提供する。本実施形態では、報酬は、所定のフィードバックデータの組み合わせから得られる、車両の挙動に関する報酬値である。報酬値は、複数の観点で求めた報酬値を平均化したり又は合計してものであってもよい。

モデル処理部２１４は、報酬（ｒ_ｔ＋１）を受け付けると、後述する方策および状態価値関数を更新して、時刻ｔ＋１におけるフィードバックデータに対する新たな制御変数を出力する（行動（ａ_ｔ＋１））。

＜モデル処理部２１４の構成＞
更に、図３を参照して、モデル処理部２１４のより詳細な構成とダンパ制御処理におけるモデル処理部２１４の動作例について説明する。図３は、アクタークリティック手法を用いる場合のモデル処理部２１４の内部構成例と、モデル処理部２１４の内部構成をニューラルネットワーク（ＮＮ）において実現する場合のネットワーク構成例を模式的に示している。

モデル処理部２１４は、アクター３０１とクリティック３０２とを含む。アクター３０１は、方策π（ｓ，ａ）に基づき行動（ａ）を選択する機構である。一例として、状態ｓで行動ａを選択する確率をｐ（ｓ，ａ）とすると、方策は、ｐ（ｓ，ａ）と例えばｓｏｆｔｍａｘ関数などを用いた所定の関数で定義される。クリティック３０２は、現在アクターが利用している方策π（ｓ，ａ）に対する評価を行う機構であり、当該評価を表す状態価値関数Ｖ（ｓ）を有する。

図２において説明した時刻ｔから時刻ｔ＋１における動作を例に説明すると、ある時刻ｔにおいて、アクター３０１はフィードバックデータを受け付け、方策π（ｓ，ａ）に基づき制御変数（すなわち行動（ａ_ｔ））を出力する。

ダンパ制御部１０６によりダンパ制御が行われた後に、時刻ｔ＋１におけるフィードバックデータ（すなわち状態（ｓ_ｔ＋１）が得られると、報酬決定部２１７から当該フィードバックデータに基づく報酬（ｒ_ｔ＋１）がクリティック３０２に入力される。

クリティック３０２は、アクターの方策を改善するための方策改善を算出して、アクター３０１に入力する。方策改善は、公知の所定の計算方法によって求めたものでよいが、例えば、報酬とフィードバックデータを用いて得られる、公知のＴＤ誤差δ_ｔ＝ｒ_ｔ＋１＋γＶ（ｓ_ｔ＋１）−Ｖ（ｓ_ｔ）（γは強化学習における割引報酬）を方策改善として用いることができる。

アクター３０１は、方策改善に基づいて方策π（ｓ，ａ）を更新する。方策の更新は、例えば、ｐ（ｓ_ｔ，ａ_ｔ）をｐ（ｓ_ｔ，ａ_ｔ）＋βδ_ｔ（βはステップサイズパラメータ）で置き換えるような更新を行いうる。すなわち、アクター３０１は報酬に基づく方策改善を用いて方策を更新する。クリティック３０２は、状態価値関数Ｖ（ｓ）を、例えばＶ（ｓ）＋αδ_ｔ（αはステップサイズパラメータ）で置き換えて更新する。

図３の右図は、モデル処理部２１４の内部構成をニューラルネットワーク（ＮＮ）において実現する場合のネットワーク構成例を模式的に示している。この例では、アクターとクリティックの２つのニューラルネットワークで構成される。入力層３１０は、例えば１４５０個のノード（ニューロン）で構成される。入力層に入力される信号は、例えば２９ｃｈ×５０ステップ（＝１４５０）のフィードバックデータである。

入力層３１０から入力された信号はそれぞれアクターの隠れ層３１１、クリティックの隠れ層３１２を伝搬してそれぞれの出力層３１３と３１４から出力値が得られる。アクターのＮＮからの出力は方策であり、クリティックのＮＮからの出力は状態価値である。一例として、アクターの隠れ層３１１は例えば５００個のノード×５層のネットワーク構造で構成され、クリティックの隠れ層３１２は例えば３００個のノード×３層のネットワーク構造で構成される。また、アクターの出力層３１３は例えば２２個のノードで構成され、クリティックの出力層３１４は例えば１個のノードで構成される。しかし、ネットワークのノード数や層の数、ネットワーク構成は適宜変更することができ、他の構成を用いてもよい。

それぞれのニューラルネットワークを最適化するためにニューラルネットワークの重みパラメータを変更する必要がある。ニューラルネットワークの重みパラメータの変更は、予め定めた損失関数を用いて誤差逆伝搬により行われる。本実施形態では、アクターとクリティックの２つのネットワークが存在するため、予めアクターの損失関数Ｌ_{ａｃｔｏｒ}とクリティックの損失関数Ｌ_{ｃｒｉｔｉｃ}をそれぞれ用いる。それぞれのネットワークの重み付けパラメータは、例えば、各損失関数に対して所定の勾配降下方最適化手法（例えばＲＭＳｐｒｏｐＳＧＤ）を用いることにより変更される。

＜本実施形態に係るダンパ制御処理の一連の動作＞
次に、本実施形態に係るダンパ制御処理の一連の動作について、図４を参照して説明する。なお、本処理は、図２の説明において時刻ｔのフィードバックデータが得られた時点から開始される。なお、モデル処理部２１４の動作は、例えば５Ｈｚの動作周波数で行われるものとする。

Ｓ４０１において、アクター３０１は、データ入力部２１３からフィードバックデータを受け付けて、方策π（ｓ，ａ）に基づき制御変数（すなわち行動（ａ_ｔ））を出力する。

Ｓ４０２において、ダンパ制御部１０６は、モデル処理部２１４からの制御変数を受け付けると、ダンパ制御部１０６の内部で用いられている制御変数を、モデル処理部２１４から取得した新たな制御変数に置き換える。そして、ダンパ制御部１０６は、フィードバックデータに対して、置き換えた制御変数を適用することにより、ダンパ１０７の特性を制御する。なお、図４に示すフローチャートでは、簡単のため、Ｓ４０２〜Ｓ４０４のステップは、ダンパ制御部１０６による１回分の制御として記載されている。しかし、ダンパ制御部１０６は、例えば１ＫＨｘの速度で取得可能なフィードバックデータに対し、ダンパ特性を、例えば１００Ｈｚの動作周波数で制御し、当該動作周波数で制御量（ダンパ１０７の減衰力を制御するための電流量）を制御する。このため、実際には、時刻ｔ＋１までに、Ｓ４０２〜Ｓ４０４の処理が繰り返され得る。

Ｓ４０３において、ダンパ制御部１０６は、算出した制御量（例えば電流量）が予め定められた許容可能な範囲であるかを判定し、許容可能であると判定した場合には、Ｓ４０４に進み、許容可能でないと判定した場合には、Ｓ４０５に進む。本実施形態では、制御量が許容可能でない場合にダンパ特性を変更しないようにしているが、他の制御を行ってもよい。例えば、許容可能でないと判定された制御量を許容可能な所定の上限値に補正して、補正後の制御量を用いてダンパ１０７を制御してもよい。このような判定を行うことにより、仮に、モデル処理部２１４からの制御変数に基づいて求めた制御量が異常値となる場合であっても、適切にその制御値を除外したり適切な値に修正することにより安全なダンパ制御を実現することができる。

Ｓ４０４において、ダンパ制御部１０６は、算出した制御量（例えば電流量）をダンパに供給してダンパ１０７の特性を制御する。

Ｓ４０５において、センサ部１０１は、時刻ｔ＋１までフィードバックデータを（例えば１ＫＨｚの動作周波数で）取得する。

Ｓ４０６において、データ入力部２１３は、フィードバックデータに上述した加工処理を施して、前処理を適用する。なお、図４に示すフローチャートでは明示していないが、データ入力部２１３は、入力したフィードバックデータが予め定めた許容範囲を超えたデータであるかを判定してよい。そして、当該許容範囲を超えたデータがあると判定した場合（すなわちセンサデータの異常値）には、当該フィードバックデータを使用した処理を行わないように本処理を終了してもよい。このようにすれば、モデル処理部２１４における内部パラメータの更新（例えば方策や状態価値の更新）を許容可能なフィードバックデータの範囲で行うことができる。

Ｓ４０７において、報酬決定部２１７は、時刻ｔ＋１におけるフィードバックデータに基づいて、上述した報酬（ｒ_ｔ＋１）を決定し、クリティック３０２に出力する。Ｓ４０８において、クリティック３０２は、アクターの方策を改善するための、上述した方策改善（例えばＴＤ誤差）を算出して、アクター３０１に入力する。

Ｓ４０９において、アクター３０１は、Ｓ４０７における方策改善に基づいて方策π（ｓ，ａ）を更新する。アクター３０１は、上述した方法で、例えば、ｐ（ｓ_ｔ，ａ_ｔ）をｐ（ｓ_ｔ，ａ_ｔ）＋βδ_ｔで置き換えるように方策を更新する。Ｓ４１０のおいて、クリティック３０２は、状態価値関数Ｖ（ｓ）を、上述した方法、例えばＶ（ｓ）＋αδ_ｔ（αはステップサイズパラメータ）で置き換えて更新する。クリティック３０２が状態価値関数を更新すると、その後、本処理は終了する。本実施形態では、時刻ｔから時刻ｔ＋１における動作を選りに説明したが図４に示す一連の動作を繰り返して、所定の条件を満たした場合に一連の処理を終了するようにしてもよい。

以上説明したように、本実施形態では、ダンパの特性を制御するダンパ制御部１０６と、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、ダンパ制御部１０６を制御するための制御変数を出力するモデル処理部２１４とを用いて、ダンパの特性を制御するようにした。このようにすることで、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能になる。

＜変形例＞
上述の実施形態では、ダンパ制御部１０６では、予め定められたルールベースの演算処理を実行する例を説明した。しかし、例えば、単純なネットワークで構成され、制御変数を入力の一部とするニューラルネットワークであって、ネットワークの重みが学習後に固定され、予め十分に動作検証がなされた構成であれば、ルールベースの演算処理に代えてダンパ制御部１０６の演算に用いてもよい。すなわち、このようなニューラルネットワークであれば、ルールベースの演算処理のように高速動作が可能であり、安定した処理結果を得ることができる。

また、上述の実施形態では、フィードバックデータを一時記憶部２１６に一時的に記憶させ、データ入力部２１３が当該フィードバックデータを読み出すようにした。このようにすることで、本実施形態の強化学習はオンライン学習により内部パラメータが更新されるため、その場で素早く環境の変化に対応した学習が可能である。しかし、一時記憶部２１６に記憶させたフィードバックデータを、外部のサーバに送信し、外部サーバでバッチ処理を実施することによって、より学習を安定化させることもできる。バッチ処理において学習を行う場合、バッチ処理により更新された内部パラメータを外部サーバから受信してもよい。

更に、上述の実施形態では、情報処理装置２００が車両１００内に設置されている場合を例に説明した。しかし、情報処理装置２００は、車両外（例えば外部サーバ）に設置され、車両１００との間でフィードバックデータと制御変数を送受信するようにしてもよい。このように情報処理装置２００とダンパ制御部１０６とが遠隔に配置されるようになったとしても、上述した実施形態は有効に動作することができる。すなわち、ダンパ制御部１０６の高応答性能が担保しつつ、機械学習アルゴリズムによる高次元な出力でダンパ制御部の制御を行うことができる。

＜実施形態のまとめ＞
１．上記実施形態のダンパ制御システム（例えば１０６、１０７、２００）は、
車両（例えば１００）のサスペンションに用いられるダンパ（例えば１０７）の特性を制御するダンパ制御手段（例えば１０７）と、
車両において計測された車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、演算処理により得られた制御変数をダンパ制御手段に出力する処理手段（例えば２１３、２１４、２１５）と、を有し、
ダンパ制御手段は、ダンパ制御手段の内部で用いられている制御変数に基づいてダンパの特性を制御すると共に、内部で用いられている制御変数を、処理手段により出力された新たな制御変数に置き換える。

この実施形態によれば、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能なダンパ制御システムを提供可能になる。

２．上記実施形態におけるダンパ制御システムでは、
ダンパ制御手段は、第１の動作周波数でダンパの特性を制御し、処理手段は、第１の動作周波数より小さい第２の動作周波数で制御変数をダンパ制御手段に出力する。

この実施形態によれば、ダンパ制御手段は処理手段よりも高速にダンパの特性を制御することが可能になる。

３．上記実施形態におけるダンパ制御システムでは、
ダンパ制御手段は、内部で用いられている制御変数に基づくダンパの特性の制御を、機械学習アルゴリズムの実行により特定された演算処理ではない予め定められたルールベースの演算処理により行う（例えば１０６）。

この実施形態によれば、ダンパ制御手段の低次元の制御を、ルールベースで記述するため、ダンパ制御手段の動作が安定し易く、動作を把握することができるになる。

４．上記実施形態におけるダンパ制御システムでは、
ダンパ制御手段は、置き換えられた新たな制御変数に基づいて得られたダンパの特性の制御量が許容可能な範囲であるとの判定に応じて、ダンパの特性を制御する（例えばＳ４０３、Ｓ４０４）。

この実施形態によれば、仮に、モデル処理部２１４からの制御変数に基づいて求めた制御量が異常値となる場合であっても、適切にその制御値を除外する、もしくは適切な値に修正して安全なダンパ制御を実現することができる。

５．上記実施形態におけるダンパ制御システムでは、
処理手段から出力された制御変数が許容可能な範囲であるかを判定し、該制御変数が許容可能な範囲であると判定した場合にのみ、処理手段から出力された制御変数をダンパ制御手段に入力する制御変数フィルタ手段（例えば２１５）を更に有する。

この実施形態によれば、仮に処理手段の出力が許容範囲を超える値を出力した場合であっても、ダンパ制御手段には許容範囲となる出力のみを提供することができる。

６．上記実施形態におけるダンパ制御システムでは、
フィードバックデータが許容可能な範囲であるかを判定し、該フィードバックデータが許容可能な範囲であると判定した場合にのみ、フィードバックデータを処理手段に入力するフィードバックデータフィルタ手段（例えば２１３、Ｓ４０６）を更に有する。

この実施形態によれば、処理処理における内部パラメータの更新（深層強化学習の場合には例えば方策や状態価値の更新）を許容可能なフィードバックデータの範囲で行うことができる。

７．上記実施形態におけるダンパ制御システムでは、
処理手段は、車両の挙動に関するフィードバックデータに基づいて算出される報酬又はペナルティを更に受け付けて、演算処理をフィードバックデータに適用する（例えば２１４、２１７）。

この実施形態によれば、フィードバックデータに基づく報酬又はペナルティにより処理手段の内部パラメータを更新するアルゴリズムを適用することが可能になる。

８．上記実施形態におけるダンパ制御システムでは、
機械学習アルゴリズムは、深層強化学習アルゴリズム（例えば図３）を含む。

この実施形態によれば、状況に応じた適応的で高次元な制御変数を出力させることができる。

９．上記実施形態におけるダンパ制御システムでは、
フィードバックデータは、車両のボディの挙動に関する計測データと、ダンパのストローク挙動に関する計測データと、車両の操舵角に関する計測データとに関するデータを含む。

この実施形態によれば、高次元なフィードバックデータを用いて総合的な状況を加味したダンパ制御を行うことができる。

１０．上記実施形態におけるダンパ制御システムでは、
ダンパの特性は、ダンパの減衰力である。

この実施形態によれば、上記実施形態におけるダンパ制御処理をアクティブダンパの減衰力の制御に適用することができる。

１１．上記実施形態におけるダンパ制御システムでは、
処理手段から出力される制御変数は、スカイフック理論に基づいてダンパの減衰力を決定するための制御変数である。

この実施形態によれば、上記実施形態におけるダンパ制御処理をスカイフック理論によりダンパを制御ことができる。

１２．上記実施形態における車両は、
サスペンションに用いられるダンパと、
ダンパの特性を制御するダンパ制御手段と、
車両において計測された車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、演算処理により得られた制御変数をダンパ制御手段に出力する処理手段と、を有し、
ダンパ制御手段は、ダンパ制御手段の内部で用いられている制御変数に基づいてダンパの特性を制御すると共に、内部で用いられている制御変数を、処理手段により出力された新たな制御変数に置き換える。

この実施形態によれば、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能な車両を提供することができる。

１３．上記実施形態における情報処理装置は、
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と共に用いられる情報処理装置であって、
車両において計測された車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、演算処理により得られた制御変数をダンパ制御手段に出力する処理手段を有し、
ダンパ制御手段は、ダンパ制御手段の内部で用いられている制御変数に基づいてダンパの特性を制御すると共に、内部で用いられている制御変数を、処理手段により出力された新たな制御変数に置き換える
この実施形態によれば、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能な情報処理装置が提供される。

１４．上記実施形態におけるプログラムは、
コンピュータを、ダンパ制御システムの各手段として機能させるためのプログラムであって、ダンパ制御システムは、
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と、
車両において計測された車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理をフィードバックデータに適用し、演算処理により得られた制御変数をダンパ制御手段に出力する処理手段と、を有し、
ダンパ制御手段は、ダンパ制御手段の内部で用いられている制御変数に基づいてダンパの特性を制御すると共に、内部で用いられている制御変数を、処理手段により出力された新たな制御変数に置き換える。

この実施形態によれば、機械学習アルゴリズムを用いながらダンパの特性の制御を独立した応答性能と独立したロバスト性で行うことが可能なプログラムが提供される。

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

２１３…データ入力部、２１４…モデル処理部、２１５…制御編集出力部、１０６…ダンパ制御部、１０７…ダンパ

Claims

ダンパ制御システムであって、
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理手段と、を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理手段により出力された新たな前記制御変数に置き換える、ことを特徴とするダンパ制御システム。
前記ダンパ制御手段は、第１の動作周波数で前記ダンパの特性を制御し、前記処理手段は、前記第１の動作周波数より小さい第２の動作周波数で前記制御変数を前記ダンパ制御手段に出力する、ことを特徴とする請求項１に記載のダンパ制御システム。
前記ダンパ制御手段は、前記内部で用いられている前記制御変数に基づく前記ダンパの特性の制御を、機械学習アルゴリズムの実行により特定された演算処理ではない予め定められたルールベースの演算処理により行う、ことを特徴とする請求項１または２に記載のダンパ制御システム。
前記ダンパ制御手段は、置き換えられた新たな前記制御変数に基づいて得られた前記ダンパの特性の制御量が許容可能な範囲であるとの判定に応じて、前記ダンパの特性を制御する、ことを特徴とする請求項１から３のいずれか１項に記載のダンパ制御システム。
前記処理手段から出力された前記制御変数が許容可能な範囲であるかを判定し、該制御変数が許容可能な範囲であると判定した場合にのみ、前記処理手段から出力された前記制御変数を前記ダンパ制御手段に入力する制御変数フィルタ手段を更に有する、ことを特徴とする請求項１から４のいずれか１項に記載のダンパ制御システム。
前記フィードバックデータが許容可能な範囲であるかを判定し、該フィードバックデータが許容可能な範囲であると判定した場合にのみ、前記フィードバックデータを前記処理手段に入力するフィードバックデータフィルタ手段を更に有する、ことを特徴とする請求項１から５のいずれか１項に記載のダンパ制御システム。
前記処理手段は、前記車両の挙動に関するフィードバックデータに基づいて算出される報酬又はペナルティを更に受け付けて、前記演算処理を前記フィードバックデータに適用する、ことを特徴とする請求項１から６のいずれか１項に記載のダンパ制御システム。
前記機械学習アルゴリズムは、深層強化学習アルゴリズムを含む、ことを特徴とする請求項７に記載のダンパ制御システム。
前記フィードバックデータは、前記車両のボディの挙動に関する計測データと、前記ダンパのストローク挙動に関する計測データと、前記車両の操舵角に関する計測データとに関するデータを含む、ことを特徴とする請求項１から８のいずれか１項に記載のダンパ制御システム。
前記ダンパの特性は、前記ダンパの減衰力である、ことを特徴とする請求項１から９のいずれか１項に記載のダンパ制御システム。
前記処理手段から出力される前記制御変数は、スカイフック理論に基づいて前記ダンパの減衰力を決定するための制御変数である、ことを特徴とする請求項１０に記載のダンパ制御システム。
車両であって、
サスペンションに用いられるダンパと、
前記ダンパの特性を制御するダンパ制御手段と、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理手段と、を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理手段により出力された新たな前記制御変数に置き換える、ことを特徴とする車両。
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と共に用いられる情報処理装置であって、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理手段を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理手段により出力された新たな前記制御変数に置き換える、ことを特徴とする情報処理装置。
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と処理手段とを有するダンパ制御システムの制御方法であって、
前記処理手段が、前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理工程と、
前記ダンパ制御手段が、前記ダンパ制御手段の内部で用いられている前記制御変数を、前記処理工程において出力された新たな前記制御変数に置き換えて、前記内部で用いられている制御変数に基づいて前記ダンパの特性を制御するダンパ制御工程と、を有することを特徴とするダンパ制御システムの制御方法。
サスペンションに用いられるダンパと、前記ダンパの特性を制御するダンパ制御手段と、処理手段とを有する車両の制御方法であって、
前記処理手段が、前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理工程と、
前記ダンパ制御手段が、前記ダンパ制御手段の内部で用いられている前記制御変数を、前記処理工程において出力された新たな前記制御変数に置き換えて、前記内部で用いられている制御変数に基づいて前記ダンパの特性を制御するダンパ制御工程と、を有することを特徴とする車両の制御方法。
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と共に用いられる情報処理装置の制御方法であって、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理工程を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理工程において出力された新たな前記制御変数に置き換える、ことを特徴とする情報処理装置の制御方法。
コンピュータを、ダンパ制御システムの各手段として機能させるためのプログラムであって、前記ダンパ制御システムは、
車両のサスペンションに用いられるダンパの特性を制御するダンパ制御手段と、
前記車両において計測された前記車両の挙動に関するフィードバックデータを受け付けて、機械学習アルゴリズムの実行により特定された演算処理を前記フィードバックデータに適用し、前記演算処理により得られた制御変数を前記ダンパ制御手段に出力する処理手段と、を有し、
前記ダンパ制御手段は、前記ダンパ制御手段の内部で用いられている制御変数に基づいて前記ダンパの特性を制御すると共に、前記内部で用いられている前記制御変数を、前記処理手段により出力された新たな前記制御変数に置き換える、ことを特徴とするプログラム。