JP2020093760A

JP2020093760A - 制御支援装置

Info

Publication number: JP2020093760A
Application number: JP2018234853A
Authority: JP
Inventors: 義之影浦; Yoshiyuki Kageura; 大樹横山; Daiki Yokoyama; 翠栗橋; Midori Kurihashi; 栄来北川; Eiki Kitagawa
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-06-18

Abstract

【課題】車両の制御のための学習済みモデルが所定領域ごとに設定されている場合に、車両の位置に応じて学習済みモデルを適切に切り替える。【解決手段】機械学習による学習済みモデルを用いて車両の制御を支援する制御支援装置であって、車両から送信された車両の車両情報および位置情報に基づいて、車両において更新可能であるとともに、位置情報に含まれる車両の現在の位置に対応する学習済みモデルを選択する制御部と、選択した学習済みモデルを車両に送信する送信部と、を備える。【選択図】図４

Description

本発明は、機械学習による学習済みモデルを用いた制御支援装置に関する。

ニューラルネットワークに基づいた機械学習による学習済みモデルを用いて内燃機関を制御する技術が知られている（例えば、特許文献１を参照）。この技術では、学習済みモデルを用いて内燃機関の所定の通路におけるガスの流量を推定し、推定結果に基づいて内燃機関を制御する。

特開２０１２−１１２２７７号公報

ところで、将来的に、車両の制御のための学習済みモデルを、ルート、地域、または仮想的に碁盤の目のように分けた所定領域ごとに作成し、所定領域ごとの学習済みモデルを管理するシステムが考えられている。この場合、所定領域ごとに適切な学習済みモデルが存在し、車両の走行によって所定領域が切り替わると、適切な学習済みモデルも異なることになる。学習済みモデルが適切な学習済みモデルでない場合、車両の制御が不適切に実行されることになるため、車両の制御に用いる学習済みモデルを常に最適な学習済みモデルに切り替えることができるシステムの開発が望まれていた。

本発明は、上記に鑑みてなされたものであって、その目的は、車両の制御のための学習済みモデルが所定領域ごとに設定されている場合に、車両の位置に応じて学習済みモデルを適切に切り替え可能な制御支援装置を提供することにある。

上述した課題を解決し、上記目的を達成するために、本発明の一態様に係る制御支援装置は、機械学習による学習済みモデルを用いて車両の制御を支援する制御支援装置であって、前記車両から送信された前記車両の車両情報および位置情報に基づいて、前記車両において更新可能であるとともに、前記位置情報に含まれる前記車両の現在の位置に対応する学習済みモデルを選択する制御部と、前記選択した学習済みモデルを前記車両に送信する送信部と、を備えることを特徴とする。

本発明に係る制御支援装置によれば、車両の車両情報および位置情報に基づいて、車両に対応する学習済みモデルを選択できるので、車両の位置に応じて学習済みモデルを適切に切り替えることが可能となる。

図１は、本発明の実施形態による制御支援装置を適用可能な制御支援システムを示す概略図である。図２は、学習部が学習するニューラルネットワークの構成を模式的に示す図である。図３は、ニューラルネットワークが有するノードの入出力の概要を説明する図である。図４は、第１の実施形態による制御支援システムによる学習済みモデル切替方法の処理の流れを示すフロー図である。図５は、第１の実施形態による制御支援サーバが学習済みモデルを切り替えるために用いる地図情報の一例を示す図である。図６は、第２の実施形態による制御支援システムによる先読み方法の処理の流れを示すフロー図である。図７は、第２の実施形態の車両における学習済みモデルの更新方法を説明するためのフローチャートである。図８は、第２の実施形態の車両における学習済みモデルの更新方法を説明するための図である。

以下、本発明の実施形態について図面を参照しつつ説明する。なお、以下の実施形態の全図においては、同一または対応する部分には同一の符号を付す。また、本発明は以下に説明する実施形態によって限定されるものではない。

（制御支援システム）
まず、本発明の実施形態による制御支援システムについて説明する。図１は、この第１の実施形態による制御支援システムを示す。図１に示すように、制御支援システム１は、ネットワーク１０を介して互いに通信可能な、制御支援サーバ２と複数の車両３とを有する。

ネットワーク１０は、インターネット回線網や携帯電話回線網などから構成される。ネットワーク１０は、例えば、インターネットなどの公衆通信網であって、例えばＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、携帯電話などの電話通信網や公衆回線、ＶＰＮ（Virtual Private Network）、および専用線などの一または複数の組み合わせからなる。ネットワーク１０は、有線通信および無線通信が適宜組み合わされている。

（制御支援サーバ）
制御支援装置としての制御支援サーバ２は、種々の情報によって機械学習を実行可能であり、機械学習によって生成した学習済みモデルのデータ（以下、学習済みモデルという）を記憶可能である。本実施形態による学習済みモデルは、例えばニューラルネットワークを用いた深層学習に基づいて生成された学習済みモデルである。制御支援サーバ２は、車両３に対して、車両３の各構成部を制御するための所定の学習済みモデルを送信する。具体的に、制御支援サーバ２は、複数の車両３からネットワーク１０を介して送信された種々の情報に基づいて、学習済みモデルを、ネットワーク１０を介してそれぞれの車両３に送信する。

制御支援サーバ２は、制御部２１、記憶部２２、および通信部２３を備える。通信部２３は、例えば、ＬＡＮ（Local Area Network）インターフェースボード、無線通信のための無線通信回路である。ＬＡＮインターフェースボードや無線通信回路は、公衆通信網であるインターネットなどのネットワーク１０に接続される。送信部および受信部としての通信部２３は、ネットワーク１０に接続して、複数の車両３との間で通信を行う。サーバ通信部としての通信部２３は、それぞれの車両３との間で、車両３に固有の車両識別情報や走行履歴情報を含む車両情報を受信したり、車両３に対して学習済みモデルや制御信号を送信したりする。

ここで、車両識別情報は、個々の車両３を互いに識別するための種々の情報を含む。走行履歴情報は、それぞれの車両３における走行時間帯、走行経路、走行地域、渋滞情報、天候、外気温、および外気の湿度などの情報を含む。走行時間帯の情報は、朝か昼か晩かの情報、通勤時間帯であるか否かの情報、または太陽が出ているか否かの情報などである。走行経路の情報は、特定の道路の上りか下りかの情報、または特定の道路の上りか下りかの情報に走行時間帯の情報を追加した情報などである。走行地域の情報は、走行路線の情報、市町村の情報、都道府県の情報、または関東や東海などの地域の情報である。渋滞情報は、実際の渋滞情報と走行時間帯とを関連付けた情報、または実際の渋滞情報と道路交通情報通信システム（ＶＩＣＳ（登録商標）：Vehicle Information and Communication System）などによって取得した渋滞原因とを関連付けた情報などである。天候の情報は、風向き、風速、および進行方向が関連付けられた情報、または雨や雪などによる路面状況の変化の情報などである。外気温や湿度は走行時における気温や湿度のみならず、外気の実際の計測温度や計測湿度の情報を含む。

制御部２１は、具体的に、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）などのプロセッサ、およびＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などの主記憶部（いずれも図示せず）を備える。

記憶部２２は、ＲＡＭ等の揮発性メモリ、ＲＯＭ等の不揮発性メモリ、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスクドライブ（ＨＤＤ、Hard Disk Drive）、およびリムーバブルメディアなどから選ばれた記憶媒体から構成される。なお、リムーバブルメディアは、例えば、ＵＳＢ（Universal Serial Bus）メモリ、または、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、またはＢＤ（Blu-ray（登録商標） Disc）のようなディスク記録媒体である。また、外部から装着可能なメモリカード等のコンピュータ読み取り可能な記録媒体を用いて記憶部２２を構成してもよい。記憶部２２には、制御支援サーバ２の動作を実行するための、オペレーティングシステム（Operating System：ＯＳ）、各種プログラム、各種テーブル、各種データベースなどが記憶可能である。記憶部２２は、各種プログラムには、第１の実施形態による制御支援プログラムも含まれる。これらの各種プログラムは、ハードディスク、フラッシュメモリ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に記録して広く流通させることも可能である。

制御部２１は、記憶部２２に記憶されたプログラムを主記憶部の作業領域にロードして実行し、プログラムの実行を通じて各構成部などを制御することで、所定の目的に合致した機能を実現できる。本実施形態においては、制御部２１によるプログラムの実行によって、学習部２１１、学習済みモデル比較部２１２、先読み部２１３、およびモデルリスト作成部２１４のうちの必要な機能が選択的に実行される。

サーバ学習部でもある学習部２１１は、教師データとしての入出力データセットをもとに機械学習を行う。学習部２１１は、学習した結果を記憶部２２の学習済みモデルデータベース２２１に書き込んで記憶させる。学習部２１１は、学習を行っているニューラルネットワークとは別に、所定のタイミングで、当該タイミングにおける最新の学習済みモデルを、記憶部２２の学習済みモデルデータベース２２１に記憶させる。学習済みモデルデータベース２２１に記憶させる際には、古い学習済みモデルを削除して最新の学習済みモデルを記憶させる更新でもよいし、古い学習済みモデルの一部または全部を保存したまま最新の学習済みモデルを記憶させる蓄積でもよい。

サーバ比較部でもある学習済みモデル比較部２１２は、学習済みモデルデータベース２２１に記憶されている複数の学習済みモデルから、少なくとも２つの所定の学習済みモデルを選択して比較する。具体的に例えば、学習済みモデル比較部２１２は、車両３から送信された位置情報に基づいて選択された学習済みモデルと、車両３が現在使用している学習済みモデルとを比較する。

サーバ予測部でもある先読み部２１３は、車両３から送信された例えば車両３の現在位置、目的地、時刻、および曜日などの先読みに必要な情報と車両３の過去の走行履歴とに基づいたベイズ推定によって、先読みを実施して先読み情報を生成する。先読み部２１３によって生成された先読み情報は、モデルリスト作成部２１４に出力される。モデルリスト作成部２１４は、先読み部２１３から入力された先読み情報に基づいて、車両３において必要となる複数の学習済みモデルをリスト化した学習済みモデルリストを作成する。モデルリスト作成部２１４は、学習済みモデルリストに含まれる学習済みモデルを、後述する学習済みモデルデータベース２２１から索出して、車両３に送信する。

サーバ記憶部でもある記憶部２２は、学習済みモデルデータベース２２１および地図情報データベース２２２を有する。学習済みモデルデータベース２２１には、学習済みモデルが検索可能に記憶されている。学習済みモデルデータベース２２１は、制御部２１の学習部２１１によって生成された学習済みモデルを、蓄積したり更新したりして記憶される。なお、学習済みモデルデータベース２２１には最初に、初期状態の学習済みモデルが記憶されている。学習済みモデルを記憶するとは、学習済みモデルにおけるネットワークパラメータや演算のアルゴリズム等の情報を記憶することを意味する。

地図情報データベース２２２には、地図情報が検索可能に格納されている。本実施形態においては、地図が所定領域ごとに分割されて設定され、それぞれの領域にそれぞれ学習済みモデルが割り当てられている。記憶部２２には、これらの所定領域の地図情報と、割り当てられた学習済みモデルとが互いに関連付けて記憶されている。換言すると、地図情報は、地図上の領域を、緯度および経度に基づいて分割してそれぞれを所定領域として設定したり、道路の路線（ルートＩＤ）ごとに分割してそれぞれを所定領域として設定したりして構成される。その上で、それぞれの所定領域ごとに、個別に学習済みモデルが生成されて設定されている。これにより、設定された所定領域ごとに最適化された学習済みモデルを設定できるので、車両３において制御部３２により制御可能なアクチュエータ量を、地図情報に応じて所望の出力になるように制御できる。

ここで、機械学習の具体的な一例として、ニューラルネットワークを用いた深層学習について説明する。図２は、学習部２１１が学習するニューラルネットワークの構成を模式的に示す図である。図２に示すように、ニューラルネットワーク１００は、順伝播型ニューラルネットワークであり、入力層１０１と、中間層１０２と、出力層１０３とを有する。入力層１０１は複数のノードからなり、各ノードには互いに異なる入力パラメータが入力される。中間層１０２は入力層１０１からの出力が入力される。中間層１０２は、入力層１０１からの入力を受ける複数のノードからなる層を含む多層の構造を有する。出力層１０３は、中間層１０２からの出力が入力され、出力パラメータを出力する。中間層１０２が多層構造を有するニューラルネットワークを用いた機械学習は、深層学習と呼ばれる。

図３は、ニューラルネットワーク１００が有するノードにおける入出力の概要を説明する図である。図３においては、ニューラルネットワーク１００のうち、Ｉ個のノードを有する入力層１０１と、Ｊ個のノードを有する第１中間層１２１と、Ｋ個のノードを有する第２中間層１２２におけるデータの入出力の一部を模式的に示している（Ｉ、Ｊ、Ｋは正の整数）。入力層１０１の上からｉ番目のノードには、入力パラメータｘ_i（ｉ＝１，２，…，Ｉ）が入力される。以下、全ての入力パラメータの集合を「入力パラメータ｛ｘ_i｝」と記載する。

入力層１０１の各ノードは、隣接する第１中間層１２１の各ノードに対し、入力パラメータに所定の重みを乗じた値を有する信号を出力する。例えば、入力層１０１の上からｉ番目のノードは、第１中間層１２１の上からｊ番目（ｊ＝１，２，…，Ｊ）のノードに対して、入力パラメータｘ_iに重みα_ijを乗じた値α_ijｘ_iを有する信号を出力する。第１中間層１２１の上からｊ番目のノードには、合計で入力層１０１の各ノードからの出力に所定のバイアスｂ⁽¹⁾ _jを加えた値Σ_i=1〜Iα_ijｘ_i＋ｂ⁽¹⁾ _jが入力される。ここで第１項目のΣ_i=1〜Iは、ｉ＝１，２，…，Ｉの和を取ることを意味する。

第１中間層１２１の上からｊ番目のノードの出力値ｙ_jは、そのノードへの入力層１０１からの入力値Σ_i=1〜Iα_ijｘ_i＋ｂ⁽¹⁾ _jの関数として、ｙ_j＝Ｓ（Σ_i=1〜Iα_ijｘ_i＋ｂ⁽¹⁾ _j）と表される。この関数Ｓは活性化関数と呼ばれる。具体的な活性化関数として、例えばシグモイド関数Ｓ（ｕ）＝１／｛１＋ｅｘｐ（−ｕ）｝や正規化線形関数（ＲｅＬＵ）Ｓ（ｕ）＝ｍａｘ（０，ｕ）などを挙げることができる。活性化関数は、非線形関数が用いられることが多い。

第１中間層１２１の各ノードは、隣接する第２中間層１２２の各ノードに対し、入力パラメータに所定の重みを乗じた値を有する信号を出力する。例えば、第１中間層１２１の上からｊ番目のノードは、第２中間層１２２の上からｋ番目（ｋ＝１，２，…，Ｋ）のノードに対して、入力値ｙ_jに重みβ_jkを乗じた値β_jkｙ_jを有する信号を出力する。第２中間層１２２の上からｋ番目のノードには、合計で第１中間層１２１の各ノードからの出力に所定のバイアスｂ⁽²⁾ _kを加えた値Σ_j=1〜Jβ_jkｙ_j＋ｂ⁽²⁾ _kが入力される。ここで第１項目のΣ_j=1〜Jは、ｊ＝１，２，…，Ｊの和を取ることを意味する。

第２中間層１２２の上からｋ番目のノードの出力値ｚ_kは、そのノードへの第１中間層１２１からの入力値Σ_j=1〜Jβ_jkｙ_j＋ｂ⁽²⁾ _kを変数とする活性化関数を用いて、
ｚ_k＝Ｓ（Σ_j=1〜Jβ_jkｙ_j＋ｂ⁽²⁾ _k）
と表される。

このようにして、入力層１０１の側から出力層１０３の側へ向かう順方向に沿って順次繰り返すことにより、最終的に出力層１０３から一つの出力パラメータＹが出力される。以下、ニューラルネットワーク１００が含む重みおよびバイアスをまとめてネットワークパラメータｗという。このネットワークパラメータｗは、ニューラルネットワーク１００の全ての重みおよびバイアスを成分とするベクトルである。

学習部２１１は、入力パラメータ｛ｘ_i｝をニューラルネットワーク１００へ入力することによって算出した出力パラメータＹと、入力パラメータ｛ｘ_i｝とともに入出力データセットを構成する出力パラメータ（目標出力）Ｙ₀とに基づいて、ネットワークパラメータを更新する演算を行う。具体的には、２つの出力パラメータＹとＹ₀との誤差を最小化するための演算を行うことによってネットワークパラメータｗを更新する。この際には、確率的勾配降下法がよく用いられる。以下、入力パラメータ｛ｘ_i｝および出力パラメータＹの組（｛ｘ_i｝，Ｙ）を総称して「学習データ」という。

以下、確率的勾配降下法の概要を説明する。確率的勾配降下法は、２つの出力パラメータＹとＹ₀を用いて定義される誤差関数Ｅ（ｗ）のネットワークパラメータｗの各成分に対する微分から求まる勾配∇_wＥ（ｗ）を最小化するように、ネットワークパラメータｗを更新する方法である。誤差関数は、例えば学習データの出力パラメータＹと入出力データセットの出力パラメータＹ₀の２乗誤差｜Ｙ−Ｙ₀｜²により定義される。また、勾配∇_wＥ（ｗ）は、誤差関数Ｅ（ｗ）のネットワークパラメータｗの成分に関する微分である
∂Ｅ（ｗ）／∂α_ij、∂Ｅ（ｗ）／∂β_jk、∂Ｅ（ｗ）／∂ｂ⁽¹⁾ _j、∂Ｅ（ｗ）／∂ｂ⁽²⁾ _k（ここで、ｉ＝１〜Ｉ、ｊ＝１〜Ｊ、ｋ＝１〜Ｋ）などを成分に有するベクトルである。

確率的勾配降下法では、ネットワークパラメータｗを、自動または手動で定まる所定の学習率ηを用いて、ｗ’＝ｗ−η∇_wＥ（ｗ）、ｗ’’＝ｗ’−η∇_w’Ｅ（ｗ’）、…と順次更新する。なお、学習率ηは、学習の途中で変更してもよい。より一般的な確率的勾配降下法の場合、誤差関数Ｅ（ｗ）は、全学習データを含むサンプルの中からランダムに抽出することによって定義される。この際に抽出する学習データの数は１つに限られず、その他の学習データを用いてもよい。

勾配∇_wＥ（ｗ）の計算を効率的に行うための方法として、誤差逆伝播法が知られている。誤差逆伝播法は、学習データ（｛ｘ_i｝、Ｙ）を算出後、出力層における目標出力Ｙ₀と出力パラメータＹの誤差に基づいて、出力層→中間層→入力層へと勾配∇_wＥ（ｗ）の成分を逆にたどって計算していく方法である。学習部２１１は、誤差逆伝播法を用いて勾配∇_wＥ（ｗ）の全ての成分を算出した後、算出した勾配∇_wＥ（ｗ）を用いて上述した確率的勾配降下法を適用することにより、ネットワークパラメータｗを更新する。

図１に示す記憶部２２には、上述のように生成された学習済みモデルが検索可能に記憶される。記憶部２２は、制御部２１の学習部２１１によって生成された学習済みモデルを、蓄積したり更新したりして記憶する。学習済みモデルは、ニューラルネットワークを用いた深層学習に基づいて生成される。学習済みモデルを記憶するとは、学習済みモデルにおけるネットワークパラメータｗや演算のアルゴリズムなどの情報を記憶することを意味する。また、記憶部２２は、上述した入力パラメータと出力パラメータとの組からなる入出力データセットを記憶する。記憶部２２は、学習部２１１が入力パラメータをニューラルネットワーク１００に入力して算出した出力パラメータを当該入力パラメータとともに学習データとして記憶する。

上述のようにして生成された学習済みモデルの一例は、入力パラメータが「点火時期、燃料の噴射量、噴射時期、スロットル開度、可変バルブタイミング（ＶＶＴ：Variable Valve Timing）、および排気再循環装置（ＥＧＲ）のガス流量を調整するＥＧＲバルブの制御量、地図情報、天候情報」であり、出力パラメータが「ＮＯｘの排出量」である。学習部２１１によって、ニューラルネットワーク１００を用いた深層学習により生成された学習済みモデルから、出力パラメータとして出力されるＮＯｘの排出量が最小になるように、入力パラメータを設定できる。設定される入力パラメータは、車両３の外部または内部において制御部３２による制御が可能な制御情報である、点火時期、燃料の噴射量、噴射時期、スロットル開度、ＶＶＴ、およびＥＧＲバルブの制御量などである。

（車両）
図１に示す車両３は、運転者による運転によって走行する車両や、与えられた運行指令に従って自律走行可能に構成された自律走行車両である。車両３は、駆動部３１、制御部３２、記憶部３３、通信部３４、センサ群３５、およびＧＰＳ部３６を備える。

駆動部３１は、車両３の走行に必要な従来公知の駆動部である。具体的には、車両３は、駆動源となる内燃機関であるエンジン、エンジンの駆動力を伝達する駆動伝達機構、および走行するための駆動輪などを備える。車両３のエンジンは、燃料の燃焼による駆動によって電動機などを用いて発電可能に構成される。発電された電力は充電可能なバッテリに充電される。

制御部３２および記憶部３３はそれぞれ、物理的には上述した制御部２１および記憶部２２と同様である。制御部３２は、記憶部３３に記憶されたプログラムの実行によって、車両３に搭載される各種構成要素の動作を統括的に制御する。記憶部３３は、車両情報記憶部３３１および学習済みモデル記憶部３３２を備える。車両情報記憶部３３１には、車種、製造番号、およびナンバープレートの番号などの、個々の車両３を互いに識別するための種々の情報である車両識別情報が、書き換え不能に記憶されている。車両情報記憶部３３１にはさらに、総走行距離、燃料残量、現在位置などを含む車両情報が、蓄積可能および更新可能に記憶されている。また、車両情報記憶部３３１には、車両３における、速度、加速度、走行時間帯、走行経路、走行地域、渋滞情報、地図情報、外気の温度や湿度、および天候などを含む走行履歴情報が、蓄積可能および更新可能に記憶されている。

送信部および受信部としての通信部３４は、ネットワーク１０を介した無線通信によって、少なくとも制御支援サーバ２との間で通信を行う、例えば車載通信モジュール（ＤＣＭ：Data Communication Module）などからなる。

センサ群３５は、エンジンの冷却水の水温（冷却水温）を検出する水温センサ、エンジンの吸気温を検出する吸気温センサ、大気圧を検出する大気圧センサ、エンジンの油温を検出する油温センサ、排気中の酸素濃度を検出するＡ／Ｆセンサ、およびバッテリの充電状態を検出する電流センサなどの、車両３の状態を計測するセンサを含む。また、センサ群３５は、車両３の速度や加速度をそれぞれ検出する、車速センサや加速度センサなどの、車両３の走行に関するセンサを含む。センサ群３５は、外気温を検出する外気温センサや、外気の湿度を検出する湿度センサなどを含んでいてもよい。センサ群３５はさらに、例えば車室内の種々の状況を検知可能な車室内センサや、例えば撮像カメラなどの撮像装置などを含んでいてもよい。

位置情報取得部としてのＧＰＳ部３６は、ＧＰＳ（Global Positioning System）衛星（図示せず）からの電波を受信して、車両３の位置を検出する。検出された位置は、車両情報における位置情報として、車両情報記憶部３３１に検索可能に記憶される。なお、車両３の位置を検出する方法として、LiDAR（Light Detection and Ranging、Laser Imaging Detection and Ranging）と３次元デジタル地図とを組み合わせた方法を採用してもよい。

次に、上述のように構成された制御支援システム１による学習済みモデルの切替方法の実施形態について説明する。以下の説明において、制御支援サーバ２と車両３との間の情報の送受信は、通信部２３，３４を通じ、ネットワーク１０を介して行われるが、この点についての都度の説明は省略する。

（第１の実施形態）
図４は、第１の実施形態による制御支援システム１における学習済みモデル切替方法の処理の流れを示すフロー図である。図５は、第１の実施形態による制御支援サーバ２が学習済みモデルを選択および比較する際に用いる地図情報の一例を示す図である。

図４に示すように、ステップＳＴ１において車両３の制御部３２は、ＧＰＳ部３６によって検出された車両３の位置を確認して位置情報を生成する。ステップＳＴ２に移行して制御部３２は、通信部３４を介して生成した位置情報、および車種の情報を含む車両情報を制御支援サーバ２に送信する。なお、これらのステップＳＴ１，ＳＴ２の処理は、車両３の駆動時において、所定のタイミングで繰り返し実行される。所定のタイミングとは、所定時間間隔ごとの周期的な時刻であったり、あらかじめ設定された所定時刻であったりする。

その後、ステップＳＴ３において制御支援サーバ２の制御部２１は、受信した車両３における位置情報および車両情報を記憶部２２に記憶させる。ステップＳＴ４に移行して制御部２１の学習済みモデル比較部２１２は、記憶部２２に記憶させた車両３の位置情報と車両情報、特に車種の情報とに基づいて、学習済みモデルデータベース２２１から車両３に適合する学習済みモデルを選択して索出する。

続いて、ステップＳＴ５に移行して学習済みモデル比較部２１２は、車両３が送信して制御支援サーバ２が受信した位置情報に関連付けされた学習済みモデル（今回の学習済みモデル）と、車両３が前回送信して制御支援サーバ２が前回受信した際の位置情報に関連付けされた学習済みモデル（前回の学習済みモデル）とを比較する。学習済みモデル比較部２１２は、今回の学習済みモデルと前回の学習済みモデルとが異なるか否かを判定する。学習済みモデル比較部２１２が、今回の学習済みモデルと前回の学習済みモデルとが同じ学習済みモデルであると判定した場合（ステップＳＴ５：Ｎｏ）、学習済みモデル切替処理を終了する。

一方、学習済みモデル比較部２１２が、今回の学習済みモデルと前回の学習済みモデルとが異なる学習済みモデルであると判定した場合（ステップＳＴ５：Ｙｅｓ）、ステップＳＴ６に移行する。ステップＳＴ６において制御部２１は、車両３から受信した位置情報に基づいて、当該位置情報に関連付けされた学習済みモデルを車両３に送信する。

ステップＳＴ７において、車両３の制御部３２は、現在使用している学習済みモデルと受信した学習済みモデルとを比較して、制御支援サーバ２から新しい学習済みモデルを受信したか否かを判定する。制御部３２が、受信した学習済みモデルは新しい学習済みモデルではないと判定した場合（ステップＳＴ７：Ｎｏ）、車両３における学習済みモデルの切替処理は終了する。一方、制御部３２が、受信した学習済みモデルは新しい学習済みモデルであると判定した場合（ステップＳＴ７：Ｙｅｓ）、ステップＳＴ８に移行する。ステップＳＴ８において制御部３２は、受信した学習済みモデルを記憶部３３の学習済みモデル記憶部３３２に記憶させる。車両３の制御部３２は、学習済みモデル記憶部３３２に記憶された学習済みモデルを用いて、車両３の各構成部の制御を行う。

（実施例）
以上説明した学習済みモデルの切替処理の例について具体的に説明する。図５に示すように、本実施例においては、地図が碁盤状に分割されて設定され、それぞれの領域にそれぞれ学習済みモデルが割り当てられている。図５に示す太線矢印は車両３の走行経路である。図５においては、それぞれ所定領域として設定された領域ｉ（ｉ＝１，２，…，２４，２５、図５中の数字）ごとに学習済みモデルｉが設定されている。

図５に示す例において車両３は、領域３→領域８→領域１３→領域１２→領域１７→領域２２→領域２１の順に走行する。車両３は、領域３から領域２１へと移動する場合に、それぞれの領域ｉで学習済みモデルｉをダウンロードして、車両３の学習済みモデル記憶部３３２の学習済みモデルを順次書き換える。

例えば、車両３が領域８内を移動している間は、車両３の各構成部の制御に適する学習済みモデルは、学習済みモデル８である。車両３の学習済みモデル記憶部３３２には学習済みモデル８が記憶されており、車両３の各構成部の制御は学習済みモデル８を用いて実行される。その後、車両３が領域８から領域１３に移動した場合、制御支援サーバ２は、車両３の現在位置が領域１３内であるという位置情報に基づいて、学習済みモデルデータベース２２１から領域１３に関連付けされた学習済みモデル１３を索出して、車両３に送信する。車両３においては、制御支援サーバ２から学習済みモデル１３を受信してダウンロードし、学習済みモデルを更新する。車両３は、領域１３内を走行している間は、学習済みモデル１３を用いて各構成部を制御する。

以上説明した第１の実施形態によれば、制御支援サーバ２において、車両３の位置情報に基づいて、車両３の位置情報に含まれる現在位置に適した学習済みモデルを選択して、車両３に送信している。車両３においては、地図情報に基づいて現在位置に適した学習済みモデルを必要に応じて更新できるので、車両３の現在位置に適した学習済みモデルを用いて車両３の各構成部を制御できる。これにより、車両３の制御のための学習済みモデルが所定領域ごとに設定されている場合に、車両３の位置に応じて学習済みモデルを適切に切り替えることができる。

また、車両３において機械学習を行う、いわゆるオンボード機械学習の場合、学習済みモデルを作成する際の教師データの範囲が確定していることから、特に入出力データセットが場所によって定義域を有する可能性がある。この場合、所定の学習済みモデルは特定の場所でのみ精度が出る一方で、特定の場所以外では精度が悪くなる可能性がある。第１の実施形態によれば、車両３が移動して現在の学習済みモデルが使用できなくなっても、精度が担保された学習済みモデルを更新して使用できる。

（第２の実施形態）
次に、第２の実施形態による学習済みモデル切替方法について説明する。図６は、第２の実施形態による制御支援システムによる先読み方法の処理の流れを示すフロー図である。第２の実施形態においては、制御支援サーバ２における先読み部２１３による先読みを行った場合の学習済みモデルの切替方法について説明する。

図６に示すように、ステップＳＴ１１において車両３の制御部３２は、先読みに必要な各種情報を車両情報記憶部３３１およびＧＰＳ部３６から取得して、先読み要因情報として生成する。先読み要因情報としては、例えば車両３の現在位置を含む位置情報、車両３の目的地、現在時刻、および現在の曜日などの情報である。なお、先読み要因情報はこれらの情報に限定されず、車両３の走行における先読みが可能になる情報であれば、種々の情報を採用することが可能である。ステップＳＴ１２に移行して制御部３２は、通信部３４を介して、生成した先読み要因情報を制御支援サーバ２に送信する。なお、これらのステップＳＴ１，ＳＴ２の処理は、車両３の駆動時において、所定のタイミングで繰り返し実行される。所定のタイミングとは、所定時間間隔ごとの周期的な時刻であったり、あらかじめ設定された所定時刻であったりする。

ステップＳＴ１３において制御支援サーバ２の先読み部２１３は、受信した先読み要因情報を記憶部２２に記憶させた後、先読み要因情報に基づいて、先読みを実行して先読み情報を生成する。なお、先読み部２１３による先読みの具体的な方法としては、例えば車両３の過去の走行履歴に基づいたベイズ推定による先読みなどを採用できるが、先読みにおけるその他の種々の方法を採用することが可能である。先読み部２１３は、生成した先読み情報をモデルリスト作成部２１４に出力する。先読み情報は、車両３が現在以後に走行する可能性がある所定領域の情報を含む。

ステップＳＴ１４に移行するとモデルリスト作成部２１４は、先読み部２１３から入力された先読み情報から、必要となる学習済みモデルのリストを作成する。具体的に例えば、先読み情報に含まれる少なくとも１つの所定領域のそれぞれに関連付けされた学習済みモデルのリストを作成する。より具体的に図５に示す例において、車両３が現在、例えば領域１３を走行しているとする。この場合、車両３の過去の走行履歴情報および地図情報に基づくと、現在以後は、領域１２、領域１７、領域２２、および領域２１の順に走行する可能性が高い。先読み部２１３は、領域１２，１７，２２，２１の情報を先読み情報に含める。モデルリスト作成部２１４は、領域１２、領域１７、領域２２、および領域２１の情報に基づいて、学習済みモデル１２，１７，２２，２１のリストを作成する。制御部２１は、モデルリスト作成部２１４が作成したリストに基づいて、学習済みモデルデータベース２２１から、学習済みモデル１２，１７，２２，２１を索出する。モデルリスト作成部２１４はさらに、領域１２，１７，２２，２１の情報に基づいて、学習済みモデルを切り替える位置の情報（切替位置情報）を作成する。

その後、図６に示すステップＳＴ１５に移行して、制御部２１は、モデルリスト作成部２１４が作成したリストに基づいて索出した少なくとも１つの学習済みモデルと、切替位置情報とを車両３に送信する。車両３においては、受信した学習済みモデル１２，１７，２２，２１および切替位置情報を、学習済みモデル記憶部３３２に記憶させる。

次に、車両３における学習済みモデルの更新方法について説明する。図７は、第２の実施形態の車両３における学習済みモデルの更新方法を説明するためのフローチャートである。図８は、第２の実施形態の車両３における学習済みモデルの更新方法を説明するための図である。なお、上述した先読み部２１３による先読み（ステップＳＴ１３）によって、車両３の走行経路が先読みされ、この走行経路において使用される学習済みモデルが学習済みモデル記憶部３３２に格納されている。

図７に示すように、車両３においては、ステップＳＴ２１において車両３の制御部３２は、ＧＰＳ部３６によって検出された車両３の位置を確認して位置情報を取得する。次に、ステップＳＴ２２に移行して制御部３２は、取得した位置情報における車両３の現在位置と、学習済みモデル記憶部３３２に格納されている切替位置情報における切り替え位置とを比較する。制御部３２は、車両３の現在位置が切替位置情報における切り替え位置の近辺であるか否かを判定する。図８に示す例においては、学習済みモデルＸが適用される領域と、学習済みモデルＹが適用される領域との切り替え位置に対して、その近辺が切り替え位置の近辺に設定される。なお、上述したステップＳＴ１３における先読み部２１３の先読みによって、学習済みモデルＸ，Ｙも、制御支援サーバ２から送信されて学習済みモデル記憶部３３２に格納されているものとする。

図７に示すステップＳＴ２２において制御部３２が、車両３の現在位置が切替位置情報における切り替え位置の近辺ではないと判定した場合（ステップＳＴ２２：Ｎｏ）、車両３における学習済みモデルの更新処理は終了する。一方、制御部３２が、車両３の現在位置が切替位置情報における切り替え位置の近辺であると判定した場合（ステップＳＴ２２：Ｙｅｓ）、ステップＳＴ２３に移行する。

ステップＳＴ２３において制御部３２は、車両３の各構成部の制御に用いる学習済みモデルを、切り替え位置を通過した後の学習済みモデルに更新する。図８に示す例においては、車両３の各構成部の制御に学習済みモデルＸが使用されている状態から、車両３が学習済みモデルＹに関連付けされた領域に移動する際に切り替え位置の近辺において、車両３において使用される学習済みモデルＸが学習済みモデルＹに更新される。学習済みモデルＸ，Ｙはいずれも車両３の記憶部２２における学習済みモデル記憶部３３２に格納されているため、車両３が切り替え位置の近辺に到達した時点で、車両３の制御に使用する学習済みモデルを容易に切り替えることができる。以上により、車両３における学習済みモデルの更新処理は終了する。以上のステップＳＴ２１〜ＳＴ２３の処理は、車両３において所定のタイミングで繰り返し実行される。所定のタイミングとは、所定時間間隔ごとの周期的な時刻であったり、あらかじめ設定された所定時刻であったりする。

以上、本発明の実施形態について具体的に説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の技術的思想に基づく各種の変形が可能である。例えば、上述した実施形態において挙げた入力パラメータや出力パラメータはあくまでも例に過ぎず、必要に応じてこれと異なる入力パラメータや出力パラメータを用いてもよい。

例えば、上述した実施形態においては、機械学習の一例としてニューラルネットワークを用いた深層学習を説明してきたが、それ以外の方法に基づく機械学習を行ってもよい。例えば、サポートベクターマシン、決定木、単純ベイズ、ｋ近傍法など、他の教師あり学習を用いてもよい。また、教師あり学習に代えて半教師あり学習を用いてもよい。

（１）本発明は、機械学習による学習済みモデルを用いて車両の制御を支援する制御支援装置であって、車両から送信された車両の車両情報および位置情報に基づいて、車両において更新可能であるとともに、位置情報に含まれる車両の現在の位置に対応する学習済みモデルを選択する制御部と、選択した学習済みモデルを車両に送信する送信部と、を備える。

（２）上述した（１）において、車両の位置情報は、先読みによって得られた車両の現在以後の位置の情報を含む。

（３）上述した（２）において、先読みによって車両の走行経路を推定し、推定したルートに基づいて使用する学習済みモデルを特定し、あらかじめ車両に送信する。

（４）上述した（１）〜（３）のいずれか１つにおいて、車両の制御部は、第１の学習済みモデルに関連付けされた領域と第２の学習済みモデルに関連付けされた領域との切り替え位置の近辺において、車両の制御に使用する学習済みモデルを第１の学習済みモデルから第２の学習済みモデルに更新する。

さらなる効果や変形例は、当業者によって容易に導き出すことができる。本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施の形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。

１制御支援システム
２制御支援サーバ
３車両
２１，３２制御部
２２，３３記憶部
２３，３４通信部
２１１学習部
２１２学習済みモデル比較部
２１３先読み部
２１４モデルリスト作成部
２２１学習済みモデルデータベース
２２２地図情報データベース
３３１車両情報記憶部
３３２学習済みモデル記憶部

Claims

機械学習による学習済みモデルを用いて車両の制御を支援する制御支援装置であって、
前記車両から送信された前記車両の車両情報および位置情報に基づいて、前記車両において更新可能であるとともに、前記位置情報に含まれる前記車両の現在の位置に対応する学習済みモデルを選択する制御部と、
前記選択した学習済みモデルを前記車両に送信する送信部と、を備える
ことを特徴とする制御支援装置。