JP2022173803A

JP2022173803A - 学習モデルのパラメータの値の授受装置及び授受システム

Info

Publication number: JP2022173803A
Application number: JP2021079731A
Authority: JP
Inventors: 大樹横山; Daiki Yokoyama; 智洋金子; Tomohiro Kaneko
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-11-22

Abstract

【課題】乗り継ぎ後の車両で精度の高い学習モデルを使用することができるようにする。【解決手段】授受装置は、車両２を制御するのに用いられ且つ機械学習による学習が行われる学習モデルを有する車両間で、学習モデルを構成するモデルパラメータの値を授受する。授受装置は、モデルパラメータの値を送信する送信車両２ａとモデルパラメータの値を受信する受信車両２ｂとを特定する車両特定部３３１と、送信車両の作動に伴って変化する送信車両の作動情報に基づいて学習モデルの学習度を算出する学習度算出部３３３と、送信条件を満たしたときに送信車両のモデルパラメータの値を受信車両へ送信する送信部３３７と、を備える。送信条件は、算出された学習度が所定の基準学習度以上であることを含む。【選択図】図７

Description

本発明は、機械学習による学習モデルのパラメータの値の授受装置及び斯かる授受装置を備える授受システムに関する。

或る車両で機械学習された学習モデルのパラメータの値を、他の車両の学習モデルにおいて用いることが知られている（例えば、特許文献１）。特に、特許文献１では、或る車両で機械学習された学習モデルのパラメータの値を、車両の使用環境や使用状況の類似する、学習機能を有さない他の車両に送信し、この他車両にて送信されたパラメータの値を用いて学習モデルを使用することが提案されている。

特開２０２０－０７０７７４号公報

ところで、機械学習可能な第１の車両のユーザが機械学習可能な第２の車両へ乗り継ぐ場合、第２の車両の学習モデルのパラメータの値を、工場出荷時の値等、第１の車両のユーザの使用履歴とは無関係な値に設定する手法と、第１の車両の学習モデルのパラメータの値を使用する手法とが考えられる。第１の車両の学習モデルは、機械学習が進めば第１の車両のユーザに特有のモデルとして最適化されることになることから、第２の車両においても第１の車両の学習モデルのパラメータの値を使用することが好ましい。

ここで、学習モデルの機械学習では、一般に、訓練データを順次替えて学習に関する演算を或る程度繰り返し行うことによって、学習モデルの精度が高くなる。したがって、訓練データの数や学習に関する演算の実行回数が不十分で学習モデルの学習が十分に行われていないと、学習モデルの精度は高くない。このため、第１の車両において学習が十分に行われていない学習モデルのパラメータの値を用いて第２の車両の学習モデルを使用すると、第２の車両においてもこの学習モデルの精度は高くない。したがって、このような場合には、第１の車両によって学習された学習モデルのパラメータの値を用いて、第２の車両にて学習モデルを使用すると、パラメータの値を工場出荷時等の値にしたときよりも学習モデルの精度が低い可能性がある。

本発明は、このような問題点に着目してなされたものであり、車両を乗り継ぐ場合等において、乗り継ぎ後の車両で精度の高い学習モデルを使用することができるようにすることを目的とする。

本発明は、上述した課題を解決するためなされたものであり、その要旨は以下の通りである。

（１）車両を制御するのに用いられ且つ機械学習による学習が行われる学習モデルを有する車両間で、前記学習モデルを構成するモデルパラメータの値を授受する授受装置であって、
前記モデルパラメータの値を送信する送信車両と、前記モデルパラメータの値を受信する受信車両とを特定する車両特定部と、
前記送信車両の作動に伴って変化する前記送信車両の作動情報に基づいて、学習モデルの学習度を算出する学習度算出部と、
送信条件を満たしたときに、前記送信車両の前記モデルパラメータの値を前記受信車両へ送信する又は送信させる送信部と、を備え、
前記送信条件は、算出された前記学習度が所定の基準学習度以上であることを含む、授受装置。
（２）前記送信車両の作動に伴って変化しない前記送信車両の車両情報と、前記受信車両の作動に伴って変化しない前記受信車両の車両情報とに基づいて、前記送信車両と前記受信車両との類似度を算出する類似度算出部を更に備え、
前記送信条件は、算出された前記類似度が所定の基準類似度以上であることを含む、上記（１）に記載の授受装置。
（３）前記送信車両に搭載され且つ前記車両の制御に関連する機器の劣化情報に基づいて、前記機器の劣化度を算出する劣化度算出部を更に備え、
前記送信条件は、算出された前記劣化度が所定の基準劣化度以下であることを含む、上記（１）又は（２）に記載の授受装置。
（４）前記送信部は、前記送信条件を満たさないときは前記モデルパラメータの値を前記受信車両へ送信すること又は送信させることを禁止する、上記（１）乃至（３）のいずれか１つに記載の授受装置。
（５）当該授受装置はサーバである上記（１）乃至（４）のいずれか１つに記載の授受装置。
（６）上記（１）乃至（５）のいずれか１つに記載の授受装置と、該授受装置から送信される前記モデルパラメータの値を受信する受信車両とを備える授受システムであって、
前記受信車両は受信した前記モデルパラメータの値を使用した学習モデルを用いて車両を制御する制御部を備える、授受システム。

本発明によれば、車両を乗り継ぐ場合等において、乗り継ぎ後の車両で精度の高い学習モデルを使用することができるようになる。

図１は、第一実施形態に係る授受システムの概略的な構成図である。図２は、車両のハードウェア構成を概略的に示す図である。図３は、車両のプロセッサの機能ブロック図である。図４は、サーバのハードウェア構成を概略的に示す図である。図５は、サーバのプロセッサの機能ブロック図である。図６は、単純な構成を有するＮＮモデルの一例を示す。図７は、授受システムによって行われる授受処理の動作シーケンス図である。図８は、車両同士が直接通信可能である場合に、授受システムによって行われる授受処理の動作シーケンス図である。図９は、第二実施形態に係る車両のプロセッサ２３の機能ブロック図である。図１０は、第二実施形態に係るサーバ３のプロセッサの機能ブロック図である。図１１は、送信車両の学習モデルの学習をサーバの学習部で行う場合の学習処理の動作シーケンス図である。図１２は、第二実施形態に係る授受システムによって行われる授受処理の動作シーケンス図である。

以下、図面を参照して実施形態について詳細に説明する。なお、以下の説明では、同様な構成要素には同一の参照番号を付す。

＜第一実施形態＞
≪授受装置の構成≫
まず、図１～図７を参照して、第一実施形態に係る学習モデルのモデルパラメータの値の授受システム１について説明する。図１は、第一実施形態に係る授受システム１の概略的な構成図である。授受システム１は、機械学習による学習が行われる学習モデルを有する車両間で、学習モデルを構成するモデルパラメータの値を送受信させる。

図１に示したように、授受システム１は、通信可能な複数の車両２と、サーバ３と、操作端末４とを備える。複数の車両２のそれぞれとサーバ３とは、光通信回線などで構成される通信ネットワーク５と、通信ネットワーク５にゲートウェイ（図示せず）を介して接続される無線基地局６とを介して、相互に通信可能に構成される。車両２と無線基地局６との通信は、任意の通信規格に準拠した通信である。また、操作端末４とサーバ３とは、通信ネットワーク５を介して有線で又は無線により相互に通信可能に構成される。以下の説明では、車両２のうち、授受システム１によりモデルパラメータの値を送信する１つの車両を送信車両２ａと称し、送信されたモデルパラメータの値を受信する車両を受信車両２ｂと称する。なお、送信車両２ａ及び受信車両２ｂとサーバ３とは、データの授受を行うときに、サーバ３と有線で接続されてもよい。

図２は、車両２のハードウェア構成を概略的に示す図である。図２に示したように、車両２は、車外通信モジュール１１と、複数の制御機器１２と、複数のセンサ１３と、電子制御ユニット（ＥＣＵ）２０とを備える。車外通信モジュール１１、制御機器１２及びセンサ１３は、ＣＡＮ（Controller Area Network）等の規格に準拠した車内ネットワーク１５を介してＥＣＵ２０に接続される。

車外通信モジュール１１は、車外の機器と通信を行う通信部の一例である。車外通信モジュール１１は、例えば、データ通信モジュール（ＤＣＭ（Data communication module））を含む。データ通信モジュールは無線基地局６及び通信ネットワーク５を介してサーバ３と通信する。

制御機器１２は、車両２に関する様々な制御を行う機器である。具体的には、制御機器１２は、例えば、内燃機関の吸気通路に設けられたスロットル弁の開度を調整するスロットル弁の駆動アクチュエータ、内燃機関の燃焼室に燃料を供給するインジェクタ、内燃機関のＥＧＲ率を制御するＥＧＲ弁の駆動アクチュエータなどを含む。これら制御機器１２は、車内ネットワーク１５を介してＥＣＵに接続され、ＥＣＵ２０からの駆動信号に応じて作動せしめられる。

センサ１３は、車両２に関する様々な状態パラメータの値（状態量）を検出する検出器の一例である。センサ１３は、例えば、車両２の周りの空気の温度（外気温度）を検出する外気温度センサ、内燃機関に供給される吸入空気量を検出する空気量センサ、内燃機関のインジェクタからの燃料噴射圧を検出する噴射圧センサ、吸気ガス中に戻される排気ガスの割合であるＥＧＲ率を検出するＥＧＲセンサ、排気ガスの温度を検出する排気温度センサなどを含む。これらセンサ１３は、車内ネットワーク１５を介してＥＣＵ２０に接続され、ＥＣＵ２０へ出力信号を送信する。

ＥＣＵ２０は、センサ１３から送信された出力信号に基づいて制御機器１２を制御する。ＥＣＵ２０は、車内通信インターフェース２１と、メモリ２２と、プロセッサ２３とを有する。車内通信インターフェース２１及びメモリ２２は信号線を介してプロセッサ２３に接続されている。なお、本実施形態では、車両２には、一つのＥＣＵ２０が設けられているが、機能毎に分かれた複数のＥＣＵが設けられていてもよい。

車内通信インターフェース２１は、車内ネットワーク１５にＥＣＵ２０を接続するためのインターフェース回路を有する。ＥＣＵ２０は車内通信インターフェース２１を介して他の車載機器と通信する。

メモリ２２は、データを記憶する記憶部の一例である。メモリ２２は、例えば、揮発性の半導体メモリ（例えば、ＲＡＭ）及び不揮発性の半導体メモリ（例えば、ＲＯＭ）を有する。メモリ２２は、プロセッサ２３において各種処理を実行するためのコンピュータプログラムや、プロセッサ２３によって各種処理が実行されるときに使用される各種データ等を記憶する。したがって、メモリ２２は、学習モデルを記憶する。

プロセッサ２３は、一つ又は複数のＣＰＵ（Central Processing Unit）及びその周辺回路を有す。プロセッサ２３は、更にＧＰＵ（Graphics Processing Unit）、又は論理演算ユニット若しくは数値演算ユニットのような演算回路を有していてもよい。プロセッサ２３は、メモリ２２に記憶されたコンピュータプログラムに基づいて、各種処理を実行する。したがって、プロセッサ２３は、学習モデルの入力パラメータの値が入力されると、学習モデルに従った演算処理を行って、出力パラメータの値を出力する。

図３は、車両２のプロセッサ２３の機能ブロック図である。図３に示したように、プロセッサ２３は学習モデルを用いて車両２の制御機器１２を制御する制御部２３１と、学習モデルの学習を行う学習部２３２と、学習モデルのモデルパラメータの値を含むデータをサーバ３に送信するデータ送信部２３３と、学習モデルのモデルパラメータの値を含むデータをサーバ３から受信するデータ受信部２３４と、制御部２３１において用いられる学習モデルを更新するモデル更新部２３５と、を備える。また、送信車両２ａは、データ受信部２３４を有していなくともよい。また、受信車両２ｂはデータ送信部２３３を有していなくともよい。プロセッサ２３が有するこれら機能ブロックは、例えば、プロセッサ２３上で動作するコンピュータプログラムにより実現される機能モジュールである。或いは、プロセッサ２３が有するこれら機能ブロックは、プロセッサ２３に設けられる専用の演算回路であってもよい。車両２のプロセッサ２３の各機能ブロックの詳細については後述する。

サーバ３は、車両２の外部に設けられ、通信ネットワーク５及び無線基地局６を介して、特定の地域内の車両２及び操作端末４と通信を行う。或いは、サーバ３は、有線により、車両２と通信を行ってもよい。

図４は、サーバ３のハードウェア構成を概略的に示す図である。サーバ３は、図４に示したように、外部通信モジュール３１と、ストレージ装置３２と、プロセッサ３３とを備える。

外部通信モジュール３１は、サーバ３外の機器と通信を行う通信部の一例である。外部通信モジュール３１は、サーバ３を通信ネットワーク５に接続するためのインターフェース回路を備える。外部通信モジュール３１は、通信ネットワーク５及び無線基地局６を介して、複数の車両２それぞれと通信可能に構成される。或いは、外部通信モジュール３１は、有線接続により、車両２と通信可能に構成されてもよい。

ストレージ装置３２は、データを記憶する記憶部の一例である。ストレージ装置３２は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）又は光記録媒体を備える。ストレージ装置３２は、プロセッサ３３によって各種処理を実行するためのコンピュータプログラムや、プロセッサ３３によって各種処理が実行されるときに使用される各種データを記憶する。

プロセッサ３３は、一つ又は複数のＣＰＵ及びその周辺回路を有する。プロセッサ３３は、更にＧＰＵ、又は論理演算ユニット若しくは数値演算ユニットのような演算回路を有していてもよい。プロセッサ３３は、ストレージ装置３２に記憶されたコンピュータプログラムに基づいて、各種処理を実行する。本実施形態では、サーバ３のプロセッサ３３が、学習モデルのモデルパラメータの値を授受する装置として機能する。

図５は、サーバ３のプロセッサ３３の機能ブロック図である。図５に示したように、プロセッサ３３は、学習モデルのモデルパラメータの値を送信する送信車両２ａと学習モデルのモデルパラメータの値を受信する受信車両２ｂとを特定する車両特定部３３１と、送信車両２ａ又は受信車両２ｂからデータを受信するデータ受信部３３２と、学習モデルの学習度を算出する学習度算出部３３３と、車両２に搭載され且つ車両２の制御に関連する機器（例えば、排気ガスの目標温度に関連する排気浄化触媒）の劣化度を算出する劣化度算出部３３４と、送信車両２ａのモデルパラメータの値の受信車両２ｂへの送信条件を満たしているか否かを判定する判定部３３５と、送信車両２ａと受信車両２ｂとの類似度を算出する類似度算出部３３６と、送信車両２ａ又は受信車両２ｂにデータを送信するデータ送信部３３７と、を備える。プロセッサ３３が有するこれら機能ブロックは、例えば、プロセッサ３３上で動作するコンピュータプログラムにより実現される機能モジュールである。或いは、プロセッサ３３が有するこれら機能ブロックは、プロセッサ３３に設けられる専用の演算回路であってもよい。サーバ３のプロセッサ３３の各機能ブロックの詳細については後述する。

操作端末４は、情報を入力するのに用いられる端末である。操作端末４は、通信ネットワーク５を介してサーバ３と通信を行う。操作端末４は、キーボード及びマウスといった入力装置、及び、ディスプレイといった出力装置を有する。

≪学習モデル≫
本実施形態では、車両２ａの制御部２３１において、車両２ａに搭載された制御機器１２を制御するにあたり、機械学習された学習モデルが用いられる。本実施形態では、学習モデルとして、ニューラルネットワークモデル（以下、「ＮＮモデル」という）が用いられる。以下、図６を参照して、ＮＮモデルの概要について説明する。図６は、単純な構成を有するＮＮモデルの一例を示す。

図６における丸印は人工ニューロンを表す。人工ニューロンは、通常、ノード又はユニットと称される（本明細書では、「ノード」と称す）。図６において、Ｌ＝１は入力層を示し、Ｌ＝２及びＬ＝３は隠れ層（又は中間層）を示し、Ｌ＝４は出力層を示している。

図６において、ｘ₁及びｘ₂は入力層（Ｌ＝１）の各ノード及びそのノードからの出力値を示しており、ｙは出力層（Ｌ＝４）のノード及びその出力値を示している。同様に、ｚ₁ ^(L=2)、ｚ₂ ^(L=2)及びｚ₃ ^(L=2)は隠れ層（Ｌ＝２）の各ノード及びそのノードからの出力値を示しており、ｚ₁ ^(L=3)及びｚ₂ ^(L=3)は隠れ層（Ｌ＝３）の各ノード及びそのノードからの出力値を示している。

入力層の各ノードでは入力がそのまま出力される。一方、隠れ層（Ｌ＝２）の各ノードには、入力層の各ノードの出力値ｘ₁及びｘ₂が入力され、隠れ層（Ｌ＝２）の各ノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕが算出される。例えば、図６において隠れ層（Ｌ＝２）のｚ_k ^(L=2)（ｋ＝１、２、３）で示される各ノードにおいて算出される総入力値ｕ_k ^(L=2)は、次式のようになる（Ｍは入力層のノードの数）。

次いで、この総入力値ｕ_k ^(L=2)は活性化関数ｆにより変換され、隠れ層（Ｌ＝２）のｚ_k ^(L=2)で示されるノードから、出力値ｚ_k ^(L=2)（＝ｆ（ｕ_k ^(L=2)））として出力される。一方、隠れ層（Ｌ＝３）の各ノードには、隠れ層（Ｌ＝２）の各ノードの出力値ｚ₁ ^(L=2)、ｚ₂ ^(L=2)及びｚ₃ ^(L=2)が入力され、隠れ層（Ｌ＝３）の各ノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕ（＝Σｚ・ｗ＋ｂ）が算出される。この総入力値ｕは同様に活性化関数により変換され、隠れ層（Ｌ＝３）の各ノードから、出力値ｚ₁ ^(L=3)、ｚ₂ ^(L=3)として出力される。活性化関数は例えばＲｅＬＵ関数σである。

また、出力層（Ｌ＝４）のノードには、隠れ層（Ｌ＝３）の各ノードの出力値ｚ₁ ^(L=3)及びｚ₂ ^(L=3)が入力され、出力層のノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕ（Σｚ・ｗ＋ｂ）が算出され、又はそれぞれ対応する重みｗのみを用いて総入力値ｕ（Σｚ・ｗ）が算出される。例えば、出力層のノードでは活性化関数として恒等関数が用いられる。この場合、出力層のノードにおいて算出された総入力値ｕが、そのまま出力値ｙとして出力層のノードから出力される。

このようにＮＮモデルは、入力層と、隠れ層と、出力層とを備え、一又は複数の入力パラメータが入力層から入力されると、入力パラメータに対応する一又は複数の出力パラメータを出力層から出力する。

本実施形態では、このような学習モデルとして、例えば外気温度、吸入空気量、燃料噴射量、燃料噴射時期、燃料噴射圧、ＥＧＲ率を、入力パラメータの値として入力すると、排気ガスの温度を出力パラメータの値として出力するモデルが用いられる。車両２の制御部２３１では、センサ１３によって検出された各入力パラメータの値を斯かる学習モデルに入力することによって排気ガスの温度が出力される。制御部２３１は、出力された排気ガスの温度に基づいて、内燃機関に関する制御機器１２を制御する。ここで、排気ガスの温度を検出する排気温度センサには応答遅れがあるため、排気温度センサの出力に基づいて内燃機関の制御を行うと内燃機関を必ずしも適切に制御することができなかった。これに対して、学習モデルを用いた排気ガスの温度の算出には遅れが生じないため、学習モデルによって算出された排気ガスの温度を用いて内燃機関を制御することにより、内燃機関をより適切に制御することができる。

≪学習モデルの基本的な学習≫
次に、上述したような学習モデル（ＮＮモデル）の機械学習について説明する。斯かるＮＮモデルの精度を向上させるためには、ＮＮモデルの機械学習を行う必要がある。そこで、本実施形態では、車両２の学習部２３２がＮＮモデルの機械学習を行う。まず、学習部２３２において行われる、ＮＮモデルの学習手法を簡単に説明する。

ＮＮモデルの機械学習では、車両２に設けられたセンサ１３によって検出された状態パラメータの値を含む訓練データセットが用いられる。訓練データセットは、複数の入力パラメータの複数の実測値と、これら実測値に対応する少なくとも一つの出力パラメータの複数の実測値（正解データ）との組合せから成る。本実施形態では、入力パラメータの実測値及び出力パラメータの実測値は、車両２のセンサ１３によって検出された値又はＥＣＵ２０から制御機器１２への制御指令値である。

車両２の学習部２３２は、作成された訓練データセットに前処理（正規化、標準化等）を行った上で、ＮＮモデルの機械学習を行う。ＮＮモデルの機械学習にあたっては、学習部２３２は、例えば、ＮＮモデルの出力値と訓練データセットに含まれる出力パラメータの実測値との差が小さくなるように、公知の誤差逆伝搬法によってＮＮモデルにおける重みｗ及びバイアスｂを繰り返し更新する。この結果、ＮＮモデルが学習され、学習済みのＮＮモデルが生成される。学習済みＮＮモデルのモデルパラメータ（重みｗ、バイアスｂ等）の値は、車両２のメモリ２２に記憶され、制御部２３１における制御はメモリ２２に記憶された学習済のＮＮモデルによって行われる。

≪モデルパラメータの値の授受手法≫
ところで、上述したように学習モデルは、その車両２のユーザの使用状況に応じて変化する。例えば、上述したような排気ガスの温度を算出する学習モデルは、車両２が使用される環境（高度、気温、湿度、など）や、ユーザによる車両２の使用態様（加減速の強さ、一回当たりの走行距離、など）に応じて変化する。したがって、各車両２に用いられる学習モデルのモデルパラメータの値は、その車両２のユーザの使用状況に最適化された値になる。

一方、車両２の出荷時には、学習モデルのモデルパラメータの値は、多くのユーザにとって或る程度適した値になってはいるが、各ユーザに最適化された値にはなっていない。また、車両２が或るユーザによって使用されていた場合にも、学習モデルのモデルパラメータの値はこの或るユーザにとって最適化された値にはなっているものの、他のユーザにとって最適化された値にはなっていない。このため、例えば、ユーザがこれまで使用していた第１の車両から、第２の車両（新車、中古車のいずれをも含む）へ乗り継ぐ場合には、そのユーザにとって最適化されている第１の車両の学習モデルのモデルパラメータの値を第２の車両の学習モデルでも用いることが考えられる。これにより、第２の車両は、乗り継ぎ直後から、ユーザに適したモデルパラメータの値を有する学習モデルを用いた制御を行うことができるようになる。そこで、本実施形態に係る授受システム１は、送信車両２ａ（第１の車両）の学習モデルのモデルパラメータの値を、受信車両２ｂ（第２の車両）に送信する。

図７は、授受システム１によって行われる授受処理の動作シーケンス図である。図７に示した授受処理は、送信車両２ａにおいて学習された学習モデルのモデルパラメータの値を、受信車両２ｂに送信して、受信車両２ｂで利用させるのに用いられる。

図７に示したように、まず、サーバ３の車両特定部３３１は、送信車両２ａおよび受信車両２ｂを特定する（ステップＳ１１）。具体的には、操作端末４にてユーザにより送信車両２ａの車両特定情報（例えば、車両毎に割り当てられたＩＤ）及び受信車両２ｂの車両特定情報が入力されると、操作端末４はこれら車両特定情報を通信ネットワーク５経由でサーバ３に送信する。車両特定部３３１は、このようにして受信した車両特定情報に基づいて、送信車両２ａと受信車両２ｂとを特定する。

送信車両２ａ及び受信車両２ｂが特定されると、サーバ３のデータ送信部３３７は、送信車両２ａの作動情報及び車両情報並びに学習モデルのモデルパラメータの値を要求する要求信号を、通信ネットワーク５を介して送信車両２ａへ送信する（ステップＳ１２）。車両２の作動情報とは、車両２の作動に伴って変化する情報であり、例えば、センサ１３によって検出される状態パラメータの値の履歴、制御機器１２への制御指令値の履歴、車両２の走行距離、学習モデルの学習に用いられたデータ量、学習モデルの学習回数、送信車両２ａに搭載された機器の劣化情報などが含まれる。一方、車両２の車両情報は、車両２の作動に伴って変化しない情報であり、例えば、車種、内燃機関の型式、学習モデルの構成（例えば、出荷後には変更されないハイパーパラメータなど）、搭載している制御機器１２及びセンサ１３の種類などが含まれる。

送信車両２ａのデータ受信部２３４が要求信号を受信すると、送信車両２ａのデータ送信部２３３は、要求された情報を、通信ネットワーク５を介してサーバ３へ送信する（ステップＳ１３）。送信車両２ａのメモリ２２には、過去の一定期間の状態パラメータの値の履歴や制御指令値の履歴などが記憶されており、データ送信部２３３はこれらデータを送信車両２ａの作動情報としてサーバ３に送信する。また、送信車両２ａの車種、内燃機関の型式、学習モデルの構成、並びに制御機器１２及びセンサ１３の種類などは出荷時にメモリ２２に記憶されており、データ送信部２３３はこれらデータを送信車両２ａの車両情報としてサーバ３に送信する。加えて、データ送信部２３３は、制御部２３１において用いられている学習モデルのモデルパラメータの値を送信する。

サーバ３のデータ受信部３３２が送信車両２ａから情報を受信すると、サーバ３の学習度算出部３３３は送信車両２ａにおける学習モデルの学習度を算出すると共に、サーバ３の劣化度算出部３３４は送信車両２ａに搭載されて車両制御に関連する機器の劣化度を算出する（ステップＳ１４）。

学習度算出部３３３は、ステップＳ１３において送信車両２ａから送信された送信車両２ａの作動情報に基づいて学習モデルの学習度を算出する。学習度算出部３３３は、例えば、過去の或る期間において学習モデルから出力された出力パラメータの値（例えば、排気ガス温度の推定値）と、この期間にセンサ１３によって検出されたこの出力パラメータに相当するパラメータとの値（例えば、排気ガス温度の検出値）との差に基づいて学習度を算出する。この場合、学習度算出部３３３は、差の平均値が大きいほど学習度が低いものとして学習度を算出する。

または、学習度算出部３３３は、送信車両２ａの走行距離に基づいて学習度を算出してもよい。一般に、送信車両２ａの走行距離が長くなれば、それに伴っての学習モデルの学習に用いられる学習データが増えると共に、学習モデルの学習回数も増える。したがって、学習度算出部３３３は、送信車両２ａの走行距離が長くなるほど学習度が高くなるものとして学習度を算出する。

或いは、学習度算出部３３３は、学習モデルの学習に用いた学習データのデータ量、又は学習モデルの学習回数に基づいて学習度を算出してもよい。この場合、学習度算出部３３３は、学習に用いた学習データのデータ量が増えるほど、また、学習モデルの学習回数が増えるほど、学習度が高くなるものとして学習度を算出する。

また、劣化度算出部３３４は、送信車両２ａの機器の劣化情報に基づいて、機器の劣化度を算出する。機器の劣化情報は、例えば、送信車両２ａの走行距離や使用期間を含み、劣化度算出部３３４は、送信車両２ａの走行距離が長いほど機器の劣化度が高いものとして機器の劣化度を算出し、送信車両２ａの使用期間が長いほど機器の劣化度が高いものとして機器の劣化度を算出する。また、例えば、機器が内燃機関の排気通路に設けられる排気浄化触媒である場合には、劣化度算出部３３４はセンサ１３によって検出された排気浄化触媒の温度の履歴に基づいて触媒の劣化度を算出する。

学習度及び劣化度が算出されると、判定部３３５は、ステップＳ１４で算出された学習モデルの学習度が基準学習度以上であるか否か、及びステップＳ１４で算出された機器の劣化度が基準劣化度以下であるか否かを判定する（ステップＳ１５）。基準学習度は、これよりも学習度が低くなると、受信車両２ｂの出荷時の学習モデルよりも学習精度が低くなるような学習度であり、予め定められている。また、基準劣化度は、これによりも機器の劣化度が高いと、送信車両２ａと受信車両２ｂとの間で劣化度の差が大きすぎて送信車両２ａの学習モデルのモデルパラメータを受信車両２ｂで用いると、受信車両２ｂの出荷時の学習モデルよりも学習精度が低くなるような劣化度であり、予め定められている。ステップＳ１５において、学習モデルの学習度が基準学習度よりも低いと判定された場合、又は機器の劣化度が基準劣化度よりも高いと判定された場合には、受信車両２ｂへのモデルパラメータの値の送信は禁止され、以下のステップＳ１６以降の処理は行われない。

ステップＳ１５において学習モデルの学習度が基準学習度以上であり且つ機器の劣化度が基準劣化度以下であると判定された場合には、サーバ３のデータ送信部３３７は、受信車両２ｂの車両情報を要求する要求信号を、通信ネットワーク５を介して受信車両２ｂへ送信する（ステップＳ１６）。受信車両２ｂのデータ受信部２３４が要求信号を受信すると、受信車両２ｂのデータ送信部２３３は、要求された車両情報を、通信ネットワーク５を介してサーバ３へ送信する（ステップＳ１７）。

サーバ３のデータ受信部３３２が受信車両２ｂから車両情報を受信すると、サーバ３の類似度算出部３３６が、送信車両２ａの車両情報と受信車両２ｂの車両情報とに基づいて、送信車両２ａと受信車両２ｂとの類似度を算出する（ステップＳ１８）。類似度算出部３３６は、例えば、送信車両２ａの車種と受信車両２ｂの車種とが同一である場合には類似度を高いものとして算出し、送信車両２ａの内燃機関の型式と受信車両２ｂの内燃機関の型式とが同一である場合には類似度を高いものとして算出する。また、類似度算出部３３６は、例えば、送信車両２ａの学習モデルの構成と受信車両２ｂの学習モデルの構成とが同一である場合には類似度を高いものとして算出し、送信車両２ａの制御機器１２及びセンサ１３の種類と受信車両２ｂの制御機器１２及びセンサ１３の種類とが同一である場合には類似度を高いものとして算出する。

類似度が算出されると、判定部３３５は、ステップＳ１８で算出された類似度が基準類似度以上であるか否かを判定する（ステップＳ１９）。基準類似度は、これによりも車両間の類似度が低いと、送信車両２ａと受信車両２ｂとの間で構成が違い過ぎて送信車両２ａの学習モデルのモデルパラメータを受信車両２ｂで用いると、受信車両２ｂの出荷時の学習モデルよりも学習精度が低くなるような類似度であり、予め定められている。ステップＳ１９において、類似度が基準類似度よりも低いと判定された場合には、受信車両２ｂへのモデルパラメータの値の送信は禁止され、以下のステップＳ２０以降の処理は行われない。

ステップＳ１９において類似度が基準類似度以上であると判定された場合には、サーバ３のデータ送信部３３７は、ステップＳ１３において送信車両２ａから受信した学習モデルのモデルパラメータの値を受信車両２ｂへ送信する（ステップＳ２０）。

受信車両２ｂのデータ受信部２３４がモデルパラメータの値を受信すると、受信車両２ｂのモデル更新部２３５は、受信車両２ｂの学習モデルのモデルパラメータの値を、受信した値に更新する（ステップＳ２１）。モデル更新部２３５は、送信車両２ａの学習モデルの構成と受信車両２ｂの学習モデルの構成とが一致している場合には、受信車両２ｂの学習モデルの全てのモデルパラメータの値を、受信した値に置き換えてもよいし、一部を除いて（例えば、出力層又は出力層に近い隠れ層を除いて）受信車両２ｂの学習モデルのモデルパラメータの値を、受信した値に置き換えてもよい。また、モデル更新部２３５は、送信車両２ａの学習モデルの構成と受信車両２ｂの学習モデルの構成とが一致していない場合であっても、同様な構成を有する部分については受信車両２ｂの学習モデルのモデルパラメータの値を、受信した値に置き換える。具体的には、例えば、受信車両２ｂの学習モデルが送信車両２ａの学習モデルに比べて最終隠れ層を一層多く有する場合には、受信車両２ｂの学習モデルの最終隠れ層を除いた全ての層についてモデルパラメータの値が受信した値に置き換えられる。この結果、受信車両２ｂの制御部２３１は、受信したモデルパラメータの値を使用した学習モデルを用いて受信車両２ｂを制御することになる。

以上より、本実施形態では、サーバ３のデータ送信部３３７は、送信条件を満たしたときに送信車両２ａのモデルパラメータの値を受信車両２ｂへ送信する。本実施形態では、送信条件は、学習度算出部３３３によって算出された学習度が所定の基準学習度以上であること、類似度算出部３３６によって算出された類似度が所定の基準類似度以上であること、及び劣化度算出部３３４によって算出された劣化度が所定の基準劣化度以下であることを含む。なお、送信条件は、学習度が所定の基準学習度以上であることを含んでいれば、他の条件の一部又は全てを含んでいなくてもよい。一方、データ送信部３３７は、送信条件を満たさないときにはモデルパラメータの値を受信車両へ送信することを禁止する。

本実施形態によれば、学習度が基準学習度以上である場合にのみ、受信車両２ｂは送信車両２ａの学習モデルのモデルパラメータの値を利用することになる。この結果、受信車両２ｂの制御部２３１は、高い精度の学習モデルを用いて受信車両２ｂを制御することができるようになる。さらに、本実施形態によれば、類似度が基準類似度以上である場合、及び劣化度が基準劣化度以下である場合に、受信車両２ｂは送信車両２ａの学習モデルのモデルパラメータの値を利用することになる。このことによっても、受信車両２ｂの制御部２３１は、高い精度の学習モデルを用いて受信車両２ｂを制御することができるようになる。

≪変形例≫
なお、上記実施形態は、送信車両２ａと受信車両２ｂとが直接通信せずに、サーバ３を介して通信する場合を示している。しかしながら、送信車両２ａは、通信ネットワーク５を介して又は有線により、サーバ３を介さずに受信車両２ｂと直接通信可能であってもよい。

図８は、車両同士が直接通信可能である場合に、授受システム１によって行われる授受処理の動作シーケンス図である。以下では、図７に示した授受処理とは異なる部分について説明する。

図８に示した授受処理でも、図７に示した授受処理と同様に、ステップＳ１２において、サーバ３のデータ送信部３３７は、送信車両２ａへ要求信号を送信する。このとき、要求信号は、送信車両２ａの作動情報及び車両情報を要求するものであり、送信車両２ａの学習モデルのモデルパラメータの値は要求するものではない。したがって、送信車両２ａのデータ送信部２３３は、ステップＳ１３において、送信車両２ａの作動情報及び車両情報をサーバ３へ送信する。

また、図８に示した授受処理では、ステップＳ１９において類似度が基準類似度以上であると判断された場合には、サーバ３のデータ送信部３３７は、送信車両２ａの学習モデルのモデルパラメータの値を受信車両２ｂへ送信させる送信指令を、送信車両２ａへ送信する（ステップＳ２２）。送信指令を受信した送信車両２ａは、送信車両２ａの学習モデルのモデルパラメータの値を、通信ネットワーク５又は相互の有線接続を介して、受信車両２ｂへ送信する（ステップＳ２３）。そして、受信車両２ｂのモデル更新部２３５は、受信車両２ｂの学習モデルのモデルパラメータの値を、受信した値に更新する（ステップＳ２１）。

以上より、本変形例では、サーバ３のデータ送信部３３７は、送信条件を満たしたときに送信車両２ａのモデルパラメータの値を送信車両２ａから受信車両２ｂへ送信させる。また、データ送信部３３７は、送信条件を満たさないときにはモデルパラメータの値を送信車両２ａから受信車両２ｂへ送信させることを禁止する。

＜第二実施形態＞
次に、図９～図１２を参照して、第二実施形態に係る授受システム１について説明する。以下では、第一実施形態に係る授受システムとは異なる部分を中心に説明する。

図９は、第二実施形態に係る車両２のプロセッサ２３の機能ブロック図である。また、図１０は、第二実施形態に係るサーバ３のプロセッサ３３の機能ブロック図である。本実施形態では、車両２における学習モデルの学習が、車両２ではなく、サーバ３で行われる。したがって、図９に示したように、車両２のプロセッサ２３は、学習部を有さないと共に、サーバ３のプロセッサ３３が学習部３３８を有する。

図１１は、送信車両２ａの学習モデルの学習をサーバ３の学習部３３８で行う場合の学習処理の動作シーケンス図である。図１１に示したように、送信車両２ａのプロセッサ２３は、学習モデルの学習に用いられる学習用データを一定期間に亘ってメモリ２２に記憶させる（ステップＳ３１）。学習モデルの学習に用いられるデータは、センサ１３によって検出される状態パラメータの値の履歴、制御機器１２への制御指令値の履歴などが含まれる。また、その他にも、プロセッサ２３は、送信車両２ａの、学習用データに含まれない作動情報をメモリ２２に記憶させる。

送信車両２ａのデータ送信部２３３は、一定量の学習用データ及びその他の作動情報がメモリ２２に記憶されると、メモリ２２に記憶されている学習用データ及び作動情報を、通信ネットワーク５を介して、サーバ３へ送信する（ステップＳ３２）。

サーバ３の学習部３３８では、過去に送信車両２ａの学習モデルの学習が行われている。したがって、サーバ３のストレージ装置３２には、過去に行われた学習後の学習モデルのモデルパラメータの値、すなわち送信車両２ａの学習モデルの現在のモデルパラメータの値が記憶されている。サーバ３の学習部３３８は、ストレージ装置３２に記憶されている現在のモデルパラメータの値と、ステップＳ３２において送信車両２ａから送信された学習用データとに基づいて、第一実施形態に係る車両２の学習部２３２と同様に、送信車両２ａの学習モデルの学習を行う。

学習部３３８での学習が完了すると、サーバ３のデータ送信部３３７は、ステップＳ３３において学習された学習モデルのモデルパラメータの値を、通信ネットワーク５を介して、送信車両２ａに送信する（ステップＳ３４）。送信車両２ａのデータ受信部２３４がモデルパラメータの値を受信すると、送信車両２ａのモデル更新部２３５は、送信車両２ａの学習モデルのモデルパラメータの値を受信した値に更新する（ステップＳ３５）。

このように、本実施形態では、送信車両２ａは、学習用データを含む作動情報を定期的にサーバ３に送信しているため、サーバ３のストレージ装置３２には送信車両２ａの作動情報が記憶されている。また、送信車両２ａの学習モデルの学習がサーバ３で行われるため、サーバ３のストレージ装置３２にはこの学習モデルの現在のモデルパラメータの値が記憶されている。加えて、本実施形態では、サーバ３の学習部３３８で学習モデルの学習が行われる車両２については、サーバ３のストレージ装置３２にその車両２の車両情報が記憶されている。したがって、サーバ３は、受信車両２ｂに学習モデルのモデルパラメータの値を送信するときに、送信車両２ａから作動情報、車両情報及びモデルパラメータの値を受信する必要がない。

図１２は、第二実施形態に係る授受システム１によって行われる授受処理の動作シーケンス図である。以下では、図７に示した第一実施形態に係る授受システム１によって行われる授受処理と異なる点について説明する。

図１２からわかるように、第二実施形態に係る授受処理では、サーバ３から送信車両２ａの要求信号の送信（ステップＳ１２）が行われず、また、送信車両２ａからサーバ３への要求された情報の送信（ステップＳ１３）が行われない。したがって、ステップＳ１１において送信車両２ａ及び受信車両２ｂが特定されると、サーバ３の学習度算出部３３３及び劣化度算出部３３４は、ストレージ装置３２に記憶されている送信車両２ａの動作情報に基づいて、送信車両２ａの学習モデルの学習度及び送信車両２ａの機器の劣化度を算出する（ステップＳ１４）。

その後、ステップＳ１５において学習モデルの学習度が基準学習度以上であり且つ機器の劣化度が基準劣化度以下であると判定された場合には、サーバ３のデータ送信部３３７は、受信車両２ｂの車両情報を要求する要求信号を受信車両２ｂへ送信し（ステップＳ１６）、要求信号を受信した受信車両２ｂのデータ送信部２３３は、要求された車両情報をサーバ３へ送信する（ステップＳ１７）。なお、サーバ３のストレージ装置３２に受信車両２ｂの車両情報も記憶されている場合には、ステップＳ１６及びＳ１７は行われなくてもよい。

その後、ステップＳ１９において類似度が基準類似度以上であると判定された場合には、サーバ３のデータ送信部３３７は、ストレージ装置３２に記憶されていた送信車両２ａの学習モデルのモデルパラメータの値を受信車両２ｂへ送信する（ステップＳ２０）。

以上、本発明に係る好適な実施形態を説明したが、本発明はこれら実施形態に限定されるものではなく、特許請求の範囲の記載内で様々な修正及び変更を施すことができる。

１授受システム
２車両
３サーバ
２０ＥＣＵ
２２メモリ
２３プロセッサ
３２ストレージ装置
３３プロセッサ

Claims

車両を制御するのに用いられ且つ機械学習による学習が行われる学習モデルを有する車両間で、前記学習モデルを構成するモデルパラメータの値を授受する授受装置であって、
前記モデルパラメータの値を送信する送信車両と、前記モデルパラメータの値を受信する受信車両とを特定する車両特定部と、
前記送信車両の作動に伴って変化する前記送信車両の作動情報に基づいて、学習モデルの学習度を算出する学習度算出部と、
送信条件を満たしたときに、前記送信車両の前記モデルパラメータの値を前記受信車両へ送信する又は送信させる送信部と、を備え、
前記送信条件は、算出された前記学習度が所定の基準学習度以上であることを含む、授受装置。
前記送信車両の作動に伴って変化しない前記送信車両の車両情報と、前記受信車両の作動に伴って変化しない前記受信車両の車両情報とに基づいて、前記送信車両と前記受信車両との類似度を算出する類似度算出部を更に備え、
前記送信条件は、算出された前記類似度が所定の基準類似度以上であることを含む、請求項１に記載の授受装置。
前記送信車両に搭載され且つ前記車両の制御に関連する機器の劣化情報に基づいて、前記機器の劣化度を算出する劣化度算出部を更に備え、
前記送信条件は、算出された前記劣化度が所定の基準劣化度以下であることを含む、請求項１又は２に記載の授受装置。
前記送信部は、前記送信条件を満たさないときは前記モデルパラメータの値を前記受信車両へ送信すること又は送信させることを禁止する、請求項１乃至３のいずれか１項に記載の授受装置。
当該授受装置はサーバである、請求項１乃至４のいずれか１項に記載の授受装置。
請求項１乃至５のいずれか１項に記載の授受装置と、該授受装置から送信される前記モデルパラメータの値を受信する受信車両とを備える授受システムであって、
前記受信車両は受信した前記モデルパラメータの値を使用した学習モデルを用いて車両を制御する制御部を備える、授受システム。