JP7040571B2

JP7040571B2 - 学習装置及びモデル学習システム

Info

Publication number: JP7040571B2
Application number: JP2020148484A
Authority: JP
Inventors: 大樹横山; 亮中林
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2022-03-23
Anticipated expiration: 2040-09-03
Also published as: CN114139715A; DE102021118615A1; US11820398B2; JP2022042857A; US20220063658A1

Description

本発明は学習装置及びモデル学習システムに関する。

特許文献１には、サーバや車両で学習を行った例えばニューラルネットワークモデルのような学習モデルを用いて、車両に搭載された内燃機関の排気浄化触媒の温度を推定するものが開示されている。

特開２０１９－１８３６９８号公報

移動又は持ち運びが可能な各種の機器（例えば、車両などの輸送機器やスマートフォンなどの携帯機器）に学習モデルを搭載して当該機器の制御を行うことが想定される。移動又は持ち運びが可能な機器であっても、各機器が使用されるエリアは通常は或る程度限定され、例えば輸送機器の代表例である車両の場合、自家用車であれば、基本的に各自家用車の所有者の生活圏内において使用され、タクシーやバス、モビリティサービス用の多目的車両といった商用車であれば、基本的に各商用車を所有する事業者のサービス提供地域内において使用される。また、携帯機器の代表例であるスマートフォンであれば、基本的に所有者の生活圏内において使用される。

したがって、各機器で使用される学習モデルを学習させる際には、各機器が日常的に使用される使用エリアの特性に応じた適切な訓練データセットを用いて学習を行うことで、各機器の使用エリアの特性に応じて最適化された精度の高い学習モデルを生成することができる。

しかしながら、移動又は持ち運びが可能な機器の場合、各機器を普段の使用エリアとは異なる別のエリア（例えば、旅行先や転居先、多目的車両の臨時派遣先など）で使用することになる場合がある。この場合、各機器の学習モデルは、普段の使用エリアの特性に応じて最適化された学習モデルであり、別のエリアの特性を反映させた学習が行われていないため、各機器を普段の使用エリアとは異なる別のエリアで使用すると、学習モデルの精度が低下するおそれがある。

本発明はこのような問題点に着目してなされたものであり、学習モデルが搭載された機器を普段の使用エリアとは異なるエリアで使用するときに、学習モデルの精度が低下するのを抑制することを目的とする。

上記課題を解決するために、本発明のある態様による学習装置は、学習モデルが搭載された複数の機器と通信可能に構成される。そして学習装置は、複数の機器のうち、所定の第１エリアで取得された訓練データセットを用いて学習された学習モデルが搭載されて制御が行われる第１機器が、所定の第２エリアで使用されるときは、第２エリアで取得された訓練データセットを用いて第１機器に搭載された学習モデルの再学習を実施するように構成される。

また本発明のある態様によるモデル学習システムは、サーバと、前記サーバと通信可能に構成された複数の機器と、を備える。そしてサーバは、複数の機器のうち、所定の第１エリアで取得された訓練データセットを用いて学習された学習モデルが搭載されて制御が行われる第１機器が、所定の第２エリアで使用されるときは、第２エリアで取得された訓練データセットを用いて学習モデルの再学習を実施するように構成される。

本発明のこれらの態様によれば、学習モデルが搭載された機器を普段の使用エリアとは異なるエリアで使用した場合であっても、学習モデルの精度が低下するのを抑制することができる。

図１は、本発明の一実施形態によるモデル学習システムの概略構成図である。図２は、本発明の一実施形態による車両のハードウェア構成の一部を示す概略図である。図３は、本発明の一実施形態による学習モデルの一例を示す図である。図４は、各スマートシティの特性に応じた適切な訓練データセットを取得するために、サーバと、各車両と、の間で実行される処理の一例を示すフローチャートである。図５は、各スマートシティの特性に応じた適切な学習モデルを生成するために、サーバと、第１スマートシティ内及び第２スマートシティ内の各多目的車両と、の間で実行される処理の一例を示すフローチャートである。図６は、第２スマートシティ内で多目的車両が不足しているか、又は不足するおそれがあるときに、サーバと、第１スマートシティ内の各多目的車両と、の間で実行される処理の一例を示すフローチャートである。

以下、図面を参照して本発明の一実施形態について詳細に説明する。なお、以下の説明では、同様な構成要素には同一の参照番号を付す。

図１は、本発明の一実施形態によるモデル学習システム１００の概略構成図である。

本実施形態によるモデル学習システム１００は、サーバ１と、移動又は持ち運びが可能な機器の一例としての複数の車両２と、を備える。

サーバ１は、サーバ通信部１１と、サーバ記憶部１２と、サーバ処理部１３と、を備える。

サーバ通信部１１は、サーバ１を例えばゲートウェイ等を介してネットワーク３と接続するための通信インターフェース回路を有し、各車両２との間で相互に通信することができるように構成される。

サーバ記憶部１２は、ＨＤＤ（Hard Disk Drive）や光記録媒体、半導体メモリ等の記憶媒体を有し、サーバ処理部１３での処理に用いられる各種のコンピュータプログラムやデータ等を記憶する。

サーバ処理部１３は、一又は複数個のプロセッサ及びその周辺回路を有する。サーバ処理部１３は、サーバ記憶部１２に格納された各種のコンピュータプログラムを実行し、サーバ１の全体的な動作を統括的に制御するものであり、例えばＣＰＵ（Central Processing Unit）である。

本実施形態における車両２は、移動や物流、物販など、多目的な用途に使用されるモビリティサービス用の多目的車両であって、加速、操舵、及び制動に関する運転操作が自動的に行われるように構成される。また本実施形態では、各車両２は、図１に示すように特定のスマートシティ（本実施形態では、第１スマートシティ１１０又は第２スマートシティ１２０）と関連付けられており、基本的に関連付けられたスマートシティ内で使用される。

以下では、便宜上、第１スマートシティ１１０と関連付けられて基本的に第１スマートシティ１１０内で使用されることになる車両２のことを、必要に応じて第１多目的車両２ａといい、第２スマートシティ１２０と関連付けられて基本的に第２スマートシティ１２０内で使用されることになる車両２のことを、必要に応じて第２多目的車両２ｂという。なお車両２は、動力源として内燃機関のみを備える車両であってもよいし、ハイブリッド車両やプラグインハイブリッド車両、電動車両（電気自動車や燃料電池自動車など）であってもよい。

図２は、車両２のハードウェア構成の一部を示す概略図である。

車両２は、電子制御ユニット２０と、車外通信装置２４と、例えば内燃機関や電動機、エアコン等の車両２に搭載される各種の制御部品２５と、各種の制御部品２５を制御したり、後述する学習モデルの入力パラメータ及び出力パラメータの実測値を検出したりするために必要な各種のセンサ類２６と、を備える。電子制御ユニット２０、車外通信装置２４、及び各種の制御部品２５やセンサ類２６は、ＣＡＮ（Controller Area Network）等の規格に準拠した車内ネットワーク２７を介して互いに接続される。

電子制御ユニット２０は、車内通信インターフェース２１、車両記憶部２２及び車両処理部２３、を備える。車内通信インターフェース２１、車両記憶部２２及び車両処理部２３、信号線を介して互いに接続されている。

車内通信インターフェース２１は、ＣＡＮ（Controller Area Network）等の規格に準拠した車内ネットワーク２７に電子制御ユニット２０を接続するための通信インターフェース回路である。

車両記憶部２２は、ＨＤＤ（Hard Disk Drive）や光記録媒体、半導体メモリ等の記憶媒体を有し、車両処理部２３での処理に用いられる各種のコンピュータプログラムやデータ等を記憶する。

車両処理部２３は、一又は複数個のプロセッサ及びその周辺回路を有する。車両処理部２３は、車両記憶部２２に格納された各種のコンピュータプログラムを実行し、車両２に搭載された各種の制御部品を統括的に制御するものであり、例えばＣＰＵである。

車外通信装置２４は、無線通信機能を有する車載の端末である。車外通信装置２４は、ネットワーク３（図１参照）と不図示のゲートウェイ等を介して接続される無線基地局４（図１参照）にアクセスすることで、無線基地局４を介してネットワーク３と接続される。これにより、サーバ１との間で相互に通信が行われる。

各車両２では、各車両２に搭載された各種の制御部品２５を制御するにあたり、例えば機械学習などの学習を実施した学習モデル（人工知能モデル）が必要に応じて使用されている。本実施形態では、学習モデルとして、ディープニューラルネットワーク（ＤＮＮ；Deep Neural Network）や畳み込みニューラルネットワーク（ＣＮＮ；Convolutional Neural Network）などを用いたニューラルネットワークモデル（以下「ＮＮモデル」という。）に対して深層学習を実施したものを使用している。したがって、本実施形態による学習モデルは、深層学習を実施した学習済みのＮＮモデルということもできる。深層学習は、人工知能（ＡＩ；Artificial Intelligence）を代表する機械学習手法の一つである。

図３は、本実施形態による学習モデル（ＮＮモデル）の一例を示す図である。

図３における丸印は人工ニューロンを表す。人工ニューロンは、通常、ノード又はユニットと称される（本明細書では、「ノード」と称す）。図３において、Ｌ＝１は入力層を示し、Ｌ＝２及びＬ＝３は隠れ層を示し、Ｌ＝４は出力層を示している。隠れ層は、中間層とも称される。なお、図３には、隠れ層が２層のＮＮモデルを例示しているが、隠れ層の層数は特に限られるものではなく、また、入力層、隠れ層及び出力層の各層のノードの数も特に限られるものではない。

図３において、ｘ_１及びｘ_２は入力層（Ｌ＝１）の各ノード及びそのノードからの出力値を示しており、ｙは出力層（Ｌ＝４）のノード及びその出力値を示している。同様に、ｚ_１ ^{（Ｌ＝２）} _、ｚ_２ ^{（Ｌ＝２）}及びｚ_３ ^{（Ｌ＝２）}は隠れ層（Ｌ＝２）の各ノード及びそのノードからの出力値を示しており、ｚ_１ ^{（Ｌ＝３）}及びｚ_２ ^{（Ｌ＝３）}は隠れ層（Ｌ＝３）の各ノード及びそのノードからの出力値を示している。

入力層の各ノードでは入力がそのまま出力される。一方、隠れ層（Ｌ＝２）の各ノードには、入力層の各ノードの出力値ｘ_１及びｘ_２が入力され、隠れ層（Ｌ＝２）の各ノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕが算出される。例えば、図３において隠れ層（Ｌ＝２）のｚ_ｋ ^{（Ｌ＝２）}（ｋ＝１、２、３）で示される各ノードにおいて算出される総入力値ｕ_ｋ ^{（Ｌ＝２）}は、次式のようになる（Ｍは入力層のノードの数）。

次いで、この総入力値ｕ_ｋ ^{（Ｌ＝２）}は活性化関数ｆにより変換され、隠れ層（Ｌ＝２）のｚ_ｋ ^{（Ｌ＝２）}で示されるノードから、出力値ｚ_ｋ ^{（Ｌ＝２）}（＝ｆ（ｕ_ｋ ^{（Ｌ＝２）}））として出力される。一方、隠れ層（Ｌ＝３）の各ノードには、隠れ層（Ｌ＝２）の各ノードの出力値ｚ_１ ^{（Ｌ＝２）} _、ｚ_２ ^{（Ｌ＝２）}及びｚ_３ ^{（Ｌ＝２）}が入力され、隠れ層（Ｌ＝３）の各ノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕ（＝Σｚ・ｗ＋ｂ）が算出される。この総入力値ｕは同様に活性化関数により変換され、隠れ層（Ｌ＝３）の各ノードから、出力値ｚ_１ ^{（Ｌ＝３）}、ｚ_２ ^{（Ｌ＝３）}として出力される。活性化関数は例えばシグモイド関数σである。

また、出力層（Ｌ＝４）のノードには、隠れ層（Ｌ＝３）の各ノードの出力値ｚ_１ ^{（Ｌ＝３）}及びｚ_２ ^{（Ｌ＝３）}が入力され、出力層のノードでは、それぞれ対応する重みｗ及びバイアスｂを用いて総入力値ｕ（Σｚ・ｗ＋ｂ）が算出されるか、又は、それぞれ対応する重みｗのみを用いて総入力値ｕ（Σｚ・ｗ）が算出される。例えば、出力層のノードでは活性化関数として恒等関数が用いられる。この場合、出力層のノードにおいて算出された総入力値ｕが、そのまま出力値ｙとして出力層のノードから出力される。

このように本実施形態による学習モデルは、入力層と、隠れ層と、出力層と、を備え、一又は複数の入力パラメータが入力層から入力されると、入力パラメータに対応する一又は複数の出力パラメータを出力層から出力する。

入力パラメータの例としては、例えば学習モデルを用いて車両２に搭載されたエアコンを制御する場合であれば、外気温や車両２の使用場所（緯度及び経度）、日時、直前の駐車時間（走行前の駐車時間）といった、車内温度に影響を与える各種パラメータが挙げられる。そして、このような入力パラメータに対応する出力パラメータの例としては、エアコンの設定温度が挙げられる。これにより、出力パラメータとして取得された設定温度となるようにエアコンを制御することで、車内温度を適切な温度に維持することができる。

また、入力パラメータの例としては、例えば学習モデルを用いて車両２に搭載された内燃機関を制御する場合であれば、機関回転速度や機関冷却水温度、燃料噴射量、燃料噴射時期、燃圧、吸入空気量、吸気温度、ＥＧＲ率、過給圧といった、内燃機関の運転状態を示す各種パラメータの現在値が挙げられる。そして、このような入力パラメータに対応する出力パラメータの例としては、排気中のＣＯ_２濃度やＮＯｘ濃度、その他の物質の濃度、機関出力トルクといった内燃機関の性能を表す各種パラメータの推定値が挙げられる。これにより、ＮＮモデルに内燃機関の運転状態を示す各種パラメータの現在値を入力パラメータとして入力することで、内燃機関の性能を表す各種パラメータの推定値（現在の推定値又は将来の推定値）を出力パラメータとして取得することができるので、例えば出力パラメータに基づいて、内燃機関の性能が所望の性能に近づくように内燃機関を制御することができる。また、出力パラメータを実測するためのセンサ等を備える場合には、実測値と推定値との差に応じて、内燃機関やセンサ等の故障を判断したりすることもできる。

学習モデルの精度を向上させるためには、学習モデルを学習させる必要がある。学習モデルの学習には、入力パラメータの実測値と、この入力パラメータの実測値に対応した出力パラメータの実測値（正解データ）と、を含む多数の訓練データセットが用いられる。多数の訓練データセットを用いて、公知の誤差逆伝搬法によってニューラルネットワーク内の重みｗ及びバイアスｂの値を繰り返し更新することで、重みｗ及びバイアスｂの値が学習され、学習モデルの精度が向上する。

ここで、例えば第１多目的車両２ａや第２多目的車両２ｂのように、基本的に使用エリアが決まっている車両２の場合、車両２の使用エリアの特性（例えば、エリア内の気候や地形、環境基準、住人の年齢層など）に応じた適切な訓練データセットを用いて車両２で使用する学習モデルの学習を行うことで、車両２の使用エリアの特性に応じて最適化された学習モデルを生成することができる。

これにより、学習モデルに入力パラメータを入力することによって、使用エリアの特性に応じた適切な出力パラメータを得ることができる。そのため、例えばエアコンを制御する場合であれば、車内温度を使用エリアの特性に応じた適切な温度に維持することができる。また、内燃機関を制御する場合であれば、例えば排気中のＣＯ_２濃度やＮＯｘ濃度などを使用エリアの特性に応じた適切な濃度に制御することができる。

そのため本実施形態では、各車両２には、各車両２の使用エリアに応じた適切な訓練データセットを用いて学習させた学習モデルを搭載するようにしている。具体的には、第１多目的車両２ａには、第１スマートシティ１１０内で取得された訓練データセットを用いて学習された学習モデルを搭載し、第２多目的車両２ｂには、第２スマートシティ１２０内で取得された訓練データセットを用いて学習された学習モデルを搭載するようにしている。

しかしながら、例えば第２スマートシティ１２０内でイベントの開催予定があって、第２スマートシティ１２０内での多目的車両の需要が一時的に増加することが予想される場合など、何らかの理由により、第１多目的車両２ａを一時的に第２スマートシティ１２０に移動させて第２スマートシティ１２０内で使用することも考えられる。

ところが、第１多目的車両２ａの学習モデルは、第１スマートシティ１１０の特性に応じて最適化された学習モデルであり、第２スマートシティ１２０の特性を反映させた学習が行われていないため、第１多目的車両２ａを第２スマートシティ１２０で使用すると、学習モデルに入力パラメータを入力しても、入力パラメータに対応した適切な出力パラメータの値を得ることができないおそれがある。

そこで本実施形態では、何らかの理由により、第１多目的車両２ａを第２スマートシティ１２０で使用することになった場合には、第１多目的車両２ａに搭載された学習モデルを、第２スマートシティ１２０の特性に応じた適切な訓練データセットを用いて再学習させることとした。これにより、第１多目的車両２ａの学習モデルを第２スマートシティ１２０にも対応させた学習モデルに更新することができるので、第１多目的車両２ａを第２スマートシティ１２０で使用したときに、学習モデルを介して入力パラメータに対応した適切な出力パラメータの値を得ることができる。

図４は、本実施形態によるモデル学習システム１００において、各スマートシティ１１０，１２０の特性に応じた適切な訓練データセットを取得するために、サーバ１と、車両２（多目的車両２ａ及び多目的車両２ｂ）と、の間で実行される処理の一例を示すフローチャートである。

ステップＳ１１において、車両２の電子制御ユニット２０は、車両記憶部２２に記憶された訓練データセットのデータ量が所定の送信規定量以上になっているか否かを判定する。電子制御ユニット２０は、訓練データセットのデータ量が送信規定量以上になっていれば、ステップＳ１２の処理に進む。一方で電子制御ユニット２０は、訓練データセットのデータ量が送信規定量未満であれば、今回の処理を終了する。

なお本実施形態では、車両２の電子制御ユニット２０は、車両走行中に、訓練データセット（学習モデルの入力パラメータの実測値と出力パラメータの実測値）を随時取得し、取得した訓練データセットを、取得場所情報（本実施形態では、第１スマートシティ１１０又は第２スマートシティ１２０）と関連付けて車両記憶部２２に記憶している。

ステップＳ１２において、車両２の電子制御ユニット２０は、訓練データセットをその取得場所情報と共にサーバ１に送信し、送信後、車両記憶部２２に記憶していた訓練データセットのデータを消去する。

ステップＳ１３において、サーバ１は、車両２から訓練データセットを受信すると、訓練データセットの取得場所に応じて、訓練データセットをサーバ記憶部１２の所定のデータベースに格納する。本実施形態ではサーバ１は、第１スマートシティ１１０内で取得された訓練データセットを、第１データベースに格納し、第２スマートシティ１２０内で取得された訓練データセットを、第２データベースに格納する。

図５は、本実施形態によるモデル学習システム１００において、各スマートシティ１１０，１２０の特性に応じた適切な学習モデルを生成するために、サーバ１と、多目的車両２ａ及び多目的車両２ｂと、の間で実行される処理の一例を示すフローチャートである。

ステップＳ２１において、サーバ１は、第１データベースに格納された訓練データセットのデータ量の、前回第１データベースに格納された訓練データセットを用いて学習を行ったときからの増加量が、所定の学習開始量以上になっているか否かを判定する。サーバ１は、第１データベースに格納された訓練データセットのデータ量の増加量が学習開始量以上であればば、ステップＳ２２の処理に進む。一方でサーバ１は、第１データベースに格納された訓練データセットのデータ量の増加量が学習開始量未満であれば、ステップＳ２６の処理に進む。

ステップＳ２２において、サーバ１は、第１データベースに格納された直近の学習開始量分の訓練データセットを用いて学習を行った学習モデルを新たに作成する。

ステップＳ２３において、サーバ１は、新たに作成した学習モデルを、第１スマートシティ１１０内で使用されている各多目的車両２ａに送信する。

ステップＳ２４において、多目的車両２ａの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信したか否かを判定する。多目的車両２ａの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信していれば、ステップＳ２５の処理に進む。一方で多目的車両２ａの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信していなければ、今回の処理を終了する。

ステップＳ２５において、多目的車両２ａの電子制御ユニット２０は、自車両において使用していた学習モデルを、サーバ１から受信した新たな学習モデル、すなわち、第１スマートシティ１１０内で取得された直近の所定データ量分（学習開始量分）の訓練データセットを用いて学習が行われ、それにより第１スマートシティ１１０の最新の特性に応じて最適化された学習モデルに更新する。

ステップＳ２６において、サーバ１は、第２データベースに格納された訓練データセットのデータ量の、前回第２データベースに格納された訓練データセットを用いて学習を行ったときからの増加量が、学習開始量以上になっているか否かを判定する。サーバ１は、第２データベースに格納された訓練データセットのデータ量の増加量が学習開始量以上になっていれば、ステップＳ２７の処理に進む。一方でサーバ１は、第２データベースに格納された訓練データセットのデータ量の増加量が学習開始量未満であれば、今回の処理を終了する。

ステップＳ２７において、サーバ１は、第２データベースに格納された直近の学習開始量分の訓練データセットを用いて学習を行った学習モデルを新たに作成する。

ステップＳ２８において、サーバ１は、新たに作成した学習モデルを、第２スマートシティ１２０内で使用されている各多目的車両２ｂに送信する。

ステップＳ２９において、多目的車両２ｂの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信したか否かを判定する。多目的車両２ｂの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信していれば、ステップＳ３０の処理に進む。一方で多目的車両２ｂの電子制御ユニット２０は、サーバ１から新たな学習モデルを受信していなければ、今回の処理を終了する。

ステップＳ３０において、多目的車両２ｂの電子制御ユニット２０は、自車両において使用していた学習モデルを、サーバ１から受信した新たな学習モデル、すなわち、第２スマートシティ１２０内で取得された直近の所定データ量分（学習開始量分）の訓練データセットを用いて学習が行われ、それにより第２スマートシティ１２０の最新の特性に応じて最適化された学習モデルに更新する。

図６は、本実施形態によるモデル学習システム１００において、第２スマートシティ１２０内で多目的車両が不足しているか、又は不足するおそれがあるときに、サーバ１と、多目的車両２ａと、の間で実行される処理の一例を示すフローチャートである。

ステップＳ３１において、サーバ１は、第２スマートシティ１２０内で多目的車両が不足しているか、又は不足するおそれがあるか否かを判定する。第２スマートシティ１２０内で多目的車両が不足しているか、又は不足するおそれがあるか否かを判定する方法は特に限られるものではないが、例えば、人の動きを把握するための人流データ等に基づいて第２スマートシティ１２０内の混雑状況等を把握することにより判定することができる。サーバ１は、第２スマートシティ１２０内で多目的車両が不足しているか、又は不足するおそれがある場合は、ステップＳ３２の処理に進む。一方でサーバ１は、第２スマートシティ１２０内で多目的車両が不足しておらず、また不足するおそれもない場合は、今回の処理を終了する。

ステップＳ３２において、サーバ１は、第１スマートシティ１１０内の多目的車両２ａの中から、第２スマートシティ１２０に一時的に移動させて稼働させることが可能な車両（以下「応援車両」という。）を必要数選択し、選択した応援車両（多目的車両２ａ）に対して移動要請を送信する。

ステップＳ３３において、多目的車両２ａの電子制御ユニット２０は、移動要請を受信したか否かを判定する。多目的車両２ａの電子制御ユニット２０は、移動要請を受信していれば、ステップＳ３４の処理に進み、移動要請を受信していなければ、今回の処理を終了する。

ステップＳ３４において、多目的車両２ａの電子制御ユニット２０は、移動要請に基づいて自車両を移動要請のあった第２スマートシティ１２０へ向けて移動させると共に、自車両の学習モデルをサーバ１に送信する。

ステップＳ３５において、サーバ１は、応援車両（すなわち、移動要請を送信した多目的車両２ａ）から学習モデルを受信したか否かを判定する。サーバ１は、応援車両から学習モデルを受信していれば、ステップＳ３６の処理に進む。一方でサーバ１は、応援車両から学習モデルを受信していなければ、今回の処理を終了する。

ステップＳ３６において、サーバ１は、第２データベースに格納されている、第２スマートシティ１２０内で取得された直近の所定データ量分（例えば、学習開始量分）の訓練データセット（すなわち、第２スマートシティ１２０の特性に応じた適切な訓練データセット）を用いて、応援車両の学習モデルの再学習を実施する。

この際の再学習については、応援車両の学習モデルの全体を再学習の対象として学習モデルの各隠れ層の各ノードの重みｗ及びバイアスｂの値を再学習させてもよいし、応援車両の学習モデルの一部をそのまま流用し、残りの一部を再学習の対象とする転移学習を実施することにより、各隠れ層のうちの一部の隠れ層の各ノードの重みｗ及びバイアスｂの値をそのまま流用し、残りの一部の隠れ層の各ノードの重みｗ及びバイアスｂの値のみを再学習させるようにしてもよい。

再学習の際に転移学習を実施すれば、再学習に必要な演算量を減らして再学習に要する時間を短くすることができる。したがって、例えば応援車両の所定台数よりも多いときには転移学習を実施するように、応援車両の台数に応じて、再学習の際に応援車両の学習モデルの全体を再学習の対象とする通常の学習を実施するか、又は転移学習を実施するかを判断するようにしてもよい。

ステップＳ３７において、サーバ１は、再学習を行った学習モデルを、その学習モデルを送信してきた応援車両に送信する。

ステップＳ３８において、多目的車両２ａの電子制御ユニット２０は、サーバ１で再学習が行われた学習モデルを受信したか否かを判定する。多目的車両２ａの電子制御ユニット２０は、サーバ１で再学習が行われた学習モデルを受信していれば、ステップＳ３９の処理に進む。一方で多目的車両２ａの電子制御ユニット２０は、サーバ１で再学習が行われた学習モデルを受信していなければ、今回の処理を終了する。

ステップＳ３９において、多目的車両２ａの電子制御ユニット２０は、学習モデルをサーバ１で再学習が行われた学習モデルに更新する。これにより、応援車両として第２スマートシティ１２０に派遣された多目的車両２ａの学習モデルを、第２スマートシティ１２０にも対応させた学習モデルに更新することができるので、第１多目的車両２ａを第２スマートシティ１２０で使用したときに、学習モデルを介して入力パラメータに対応した適切な出力パラメータの値を得ることができる。

なお第１スマートシティ１１０内で多目的車両が不足しているか、又は不足するおそれがある場合には、サーバ１と多目的車両２ｂとの間で、図６に示した処理と同様の処理を実施すればよい。

以上説明した本実施形態によるモデル学習システム１００は、学習装置としてのサーバ１と、当該サーバ１と通信可能に構成された複数の車両２（機器）と、を備える。そしてサーバ１は、複数の車両２のうち、第１スマートシティ１１０（所定の第１エリア）で取得された訓練データセットを用いて学習された学習モデルが搭載されて制御が行われる第１多目的車両２ａ（第１機器）が、第２スマートシティ１２０（所定の第２エリア）で使用されるときは、第２スマートシティ１２０で取得された訓練データセットを用いて第１多目的車両２ａの学習モデルの再学習を実施するように構成されている。

これにより、第１多目的車両２ａの学習モデルを第２スマートシティ１２０にも対応させた学習モデルに更新することができるので、第１多目的車両２ａを第２スマートシティ１２０で使用したときに、学習モデルを介して入力パラメータに対応した適切な出力パラメータの値を得ることができる。したがって、第１多目的車両２ａを普段の使用エリアである第１スマートシティ１１０とは異なる第２スマートシティ１２０で使用した場合であっても、学習モデルの精度が低下するのを抑制することができる。

また本実施形態において、第１多目的車両２ａは、加速、操舵、及び制動に関する運転操作が自動的に行われる自動運転車両であり、第１スマートシティ１１０から第２スマートシティ１２０への移動要請をサーバ１から受信したときに、移動要請に基づいて第１多目的車両２ａを第１スマートシティ１１０から第２スマートシティ１２０に移動させると共に第１多目的車両２ａに搭載されている学習モデルをサーバ１に送信するように構成されている。またサーバ１は、移動要請を送信した第１多目的車両２ａから学習モデルを受信したときは、第２スマートシティ１２０で取得された訓練データセットを用いて当該学習モデルの再学習を実施し、再学習した学習モデルを、移動要請を送信した第１多目的車両２ａに再度送信するように構成されている。

また本実施形態によるサーバは、移動要請を行う第１多目的車両２ａの台数が所定台数以上であるときは、第２スマートシティ１２０で取得された訓練データセットを用いて第１多目的車両２ａから受信した学習モデルの再学習を実施する際に、当該学習モデルの一部を流用し、残りの一部を第２スマートシティ１２０で取得された訓練データセットを用いて学習させる転移学習を実施するように、さらに構成されている。

転移学習を行うことで、前述した通り、学習モデルの全体を再学習の対象とする通常の学習を実施する場合と比較して、再学習に必要な演算量を減らして再学習に要する時間を短くすることができる。そのため、移動要請を行った各第１多目的車両２ａの台数が多いときには再学習の際に転移学習を実施することで、サーバ１の演算負荷を減らすと共に、再学習に要する時間を短くすることができる。

以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。

例えば上記の実施形態では、１つのサーバ１で図４から図６を参照して前述した各種の処理を実施していたが、複数のサーバ（例えば第１スマートシティ１１０内の多目的車両２ａを管理するサーバと第２スマートシティ１２０内の多目的車両２ｂを管理するサーバ）を用いて前述した各種の処理と同等の処理が行われるように、各サーバ及び車両２を構成することもできる。

また、上記の実施形態では、第１スマートシティ１１０と第２スマートシティ１２０との間で車両２が移動する場合を例に挙げて説明したが、これに限らず、スマートシティの数は３つ以上でもあってもよい。また、第１スマートシティ１１０の中で、さらに細かい区域に分けて多目的車両の運用が行われている場合、すなわち区域ごとに使用する多目的車両が固定されている場合には、第１スマートシティ１１０内の或る区域から別の区域に多目的車両を移動させることになったときに、或る区域の特性に応じて最適化された学習モデルを、別の区域の特性に応じた適切な訓練データセットを用いて再学習させるようにしてもよい。

また上記の実施形態では、移動又は持ち運びが可能な機器の一例として車両２を用いた場合で説明を行ったが、その他の輸送機器や携帯機器が普段の使用エリア（第１エリア）とは異なる別のエリア（第２エリア）で使用される場合に、各機器に搭載された学習モデル（普段の使用エリアの特性に応じて最適化された学習モデル）を、当該別のエリアの特性に応じた適切な訓練データセットを用いて再学習させるように、サーバ１及び各機器を構成することもできる。

１サーバ（学習装置）
２車両（機器）
１００モデル学習システム
１１０第１スマートシティ（第１エリア）
１２０第２スマートシティ（第２エリア）

Claims

サーバと、前記サーバと通信可能に構成された複数の機器と、を備えるモデル学習システムであって、
前記サーバは、
前記複数の機器のうち、所定の第１エリアで取得された訓練データセットを用いて学習された学習モデルが搭載されて制御が行われる第１機器が、所定の第２エリアで使用されるときは、前記第２エリアで取得された訓練データセットを用いて前記第１機器に搭載された学習モデルの再学習を実施し、
前記第１機器は自動運転車両であり、
前記第１機器は、
前記第１エリアから前記第２エリアへの移動要請を前記サーバから受信したときに、前記移動要請に基づいて前記第１機器を前記第１エリアから前記第２エリアに移動させると共に前記第１機器に搭載されている学習モデルを前記サーバに送信し、
前記サーバは、
前記移動要請を送信した前記第１機器から学習モデルを受信したときは、前記第２エリアで取得された訓練データセットを用いて受信した学習モデルの再学習を実施し、再学習した学習モデルを、前記移動要請を送信した前記第１機器に再度送信する、
モデル学習システム。
請求項１に記載のモデル学習システムであって、
前記サーバは、
前記移動要請を行う前記第１機器の台数が所定台数以上であるときは、前記第２エリアで取得された訓練データセットを用いて前記第１機器から受信した学習モデルの再学習を実施する際に、当該学習モデルの一部を流用し、残りの一部を前記第２エリアで取得された訓練データセットを用いて学習させる転移学習を実施する、
モデル学習システム。