JP7082603B2

JP7082603B2 - 機械学習装置、機械学習方法、充電率推定装置、および充電率推定システム

Info

Publication number: JP7082603B2
Application number: JP2019235043A
Authority: JP
Inventors: 稔魚嶋; 滋並木; 弘一谷▲崎▼
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2022-06-08
Anticipated expiration: 2039-12-25
Also published as: JP2021103141A

Description

本発明は、二次電池の充電率推定のためのモデルを生成する機械学習装置及び機械学習方法、充電率推定についての学習済みモデルを用いた充電率推定装置、及び充電率推定システムに関する。

充電により繰り返し使用が可能な蓄電池である二次電池は、電気自動車、電気自転車などの移動体や建物等において広く用いられている。これらの二次電池の使用に際しては、適切な充電タイミングを把握する等の目的で、当該二次電池の充電率（以下、ＳＯＣ（ＳｔａｔｅＯｆＣｈａｒｇｅ）を適宜把握することが重要である。

二次電池のＳＯＣを把握する技術として、従来、稼動中の二次電池の劣化状態およびＳＯＣをリアルタイムに適確に自動判定することを目的として、２つのニューラルネットワークの学習を用いることが知られている（特許文献１）。この技術においては、二次電池の稼働パラメータ（電圧Ｖ、電流Ｉ、内部インピーダンスＺ、温度Ｔ）の計測値の時系列な組み合わせから当該二次電池の劣化状態Ｄ（正常、注意、劣化）を推定するよう学習させる第１のニューラルネットワークと、一の時刻における上記稼働パラメータの計測値と上記推定された劣化状態Ｄにより上記二次電池の当該時刻におけるＳＯＣを推定するよう学習させる第２のニューラルネットと、が用いられる。

また、二次電池のＳＯＣの把握に関連する技術として、従来、ニューラルネットワークを用いて二次電池の所定の特性（電圧、内部インピーダンス、表面温度）の測定値から放電可能時間を推定することが知られている（特許文献２）。この技術では、例えば評価用二次電池を高温環境下において加速劣化させつつ充放電サイクルを繰り返し、各充放電サイクルにおいて、充電完了から放電完了までの放電動作における放電時間（放電可能時間）と、当該放電動作の期間における評価用二次電池の上記所定の特性と、が実測される。そして、これら実測値を関連付けた学習データを用いて、上記ニューラルネットワークの学習が行われる。

しかしながら、特許文献１に記載の技術にあっては、２つのニューラルネットワークを用いる必要があるため、これらのニューラルネットワークを構成する演算装置の演算負荷が重くなり、コストの面において不利となり得る。また、一の時刻における二次電池の特性測定値からＳＯＣが推定されるため、特性測定値にノイズが含まれる場合には、推定されるＳＯＣ測定値にも大きなノイズ（誤差）が含まれることとなり、ＳＯＣ推定精度の安定性を保つことが困難となり得る。

また、特許文献２に記載の技術であっては、二次電池の劣化状態に応じた特性測定値と放電可能時間との対応データを取得すべく劣化加速が行われるため、上記学習データを用いて学習されるニューラルネットワークは、必ずしも実使用状態において精度の高い予測を行い得るものとはならない場合があり得る。

特開２００３－２４９２７１号公報特開２０１４－２０６４９９号公報

本発明の目的は、二次電池のＳＯＣを推定する推定モデルを学習する機械学習において、二次電池を加速劣化させることなく、実使用状態又はこれに近い状態における特性測定値から、ＳＯＣを精度良く推定し得るモデルを効率的に生成することである。

本発明の一の態様は、二次電池の放電量および充電量を実測して前記二次電池の充電率を算出する充電率算出部と、前記二次電池の、電圧、電流、及び温度を含む前記二次電池の状態変数を所定の観測タイミングで繰り返し観測する状態観測部と、観測タイミングごとの前記状態変数の測定値によりそれぞれ構成される訓練データを、前記状態変数の観測タイミング順に第１所定数だけ時系列に並べた訓練データセットを生成する訓練データ生成部と、生成された前記訓練データセットに従って、前記二次電池の状態変数の時系列データから現在の前記二次電池の充電率を推定するモデルを学習により生成するモデル学習部と、を備え、前記訓練データ生成部は、一の前記訓練データセットの末尾の第２所定数の時系列の前記訓練データを先頭の前記訓練データとして含む他の前記訓練データセットを生成することにより、先頭の前記訓練データの観測タイミングが相異なる複数の前記訓練データセットを生成し、生成した前記複数の訓練データセットを、それらの先頭の前記訓練データの観測タイミングが時系列となる順に、前記モデル学習部へ順次入力する、よう構成されている。
本発明の他の態様によると、前記第２所定数は、前記第１所定数から１を減じて算出される数であり、前記訓練データ生成部は、前記他の訓練データセットとして、前記一の訓練データセットを構成する時系列の前記訓練データのうち先頭の前記訓練データを除く他の前記訓練データを全て含む前記訓練データセットを生成する。
本発明の他の態様によると、前記モデルは、時系列データを入力とするＲＮＮ（リカレントニューラルネットワーク）で構成される。
本発明の他の態様によると、前記モデルを構成するＲＮＮの中間層は、ＬＳＴＭ（ロング・ショート・ターム・メモリ）またはＧＲＵ（ゲート付きＲＮＮユニット）で構成される。
本発明の他の態様は、二次電池の電圧、電流、及び温度を含む前記二次電池の状態変数を所定の観測タイミングで繰り返し観測するステップと、前記二次電池の、現在までの放電量および充電量を算出して前記二次電池の充電率を算出するステップと、観測タイミングごとの前記状態変数の測定値によりそれぞれ構成される訓練データを、前記状態変数の観測タイミング順に第１所定数だけ時系列に並べた訓練データセットを生成するステップと、生成された前記訓練データセットに従って、前記二次電池の状態変数の時系列データから現在の前記二次電池の充電率を推定するモデルを学習により生成するステップと、を備え、前記訓練データセットを生成するステップでは、一の前記訓練データセットの末尾の第２所定数の時系列の前記訓練データを先頭の前記訓練データとして含む他の前記訓練データセットを生成することにより、先頭の前記訓練データの観測タイミングが相異なる複数の前記訓練データセットを生成し、生成した前記複数の訓練データセットを、それらの先頭の前記訓練データの観測タイミングが時系列となる順に、前記モデルを生成するステップの入力とする、機械学習方法である。
本発明の他の態様は、上記いずれかに記載の機械学習装置により生成された又は上記機械学習方法における学習により生成された、前記モデルである学習済みモデルと、前記学習済みモデルを用い、所定の観測タイミングで繰り返し観測される前記二次電池の電圧、電流、及び温度を含む前記二次電池の状態変数の時系列データから前記二次電池の現在の充電率を推定する充電率推定部と、を備える充電率推定装置である。
本発明の更に他の態様は、上記いずれかに記載の機械学習装置を備えた第１の移動体と、上記の充電率推定装置を備える第２の移動体と、前記第１の移動体および第２の移動体に対し通信可能に接続された、処理装置を備えるサーバと、を備える充電率推定システムであって、前記サーバの前記処理装置は、前記第１の移動体が備える前記機械学習装置が生成した前記モデルを取得し、取得した当該モデルの前記充電率の予測精度を、所定の評価用データを用いて算出し、算出した予測精度が所定の精度以上であるときに、前記モデルを前記第２の移動体が備える前記充電率推定装置へ送信する、よう構成されている。

本発明によれば、二次電池のＳＯＣを推定する推定モデルを学習により生成する機械学習において、二次電池を加速劣化させることなく、実使用状態又はこれに近い状態における特性測定値から、ＳＯＣを精度良く推定し得るモデルを効率的に生成することができる。

本発明の第１の実施形態に係る機械学習装置の構成の一例を示す図である。図１に示す機械学習装置が生成する、再帰型ニューラルネットワークを用いたモデルの構成を示す図である。図１に示す機械学習装置の訓練データ生成部における訓練データセットの生成について説明するための図である。訓練データセットを入力した場合における、図２に示す再帰型ニューラルネットワークの動作について説明するための図である。図１に示す機械学習装置における動作の手順を示すフロー図である。本発明の第２の実施形態に係る充電率推定装置の構成の一例を示す図である。本発明の第３の実施形態に係る充電率推定システムの構成の一例を示す図である。図７に示す充電率推定システムを構成する、機械学習装置を備える第１の移動体の構成の一例を示す図である。図７に示す充電率推定システムを構成するモデル管理サーバの構成の一例を示す図である。

以下、図面を参照して本発明の実施形態について説明する。
〔第１実施形態〕
まず、本発明の第１の実施形態について説明する。図１は、本発明の第１の実施形態に係る、二次電池の充電率（ＳＯＣ）推定を行うモデル（ＳＯＣ推定モデル）を学習により生成する機械学習装置の構成を示す図である。この機械学習装置１００は、二次電池１０２の状態を表す所定の状態変数の測定値から当該二次電池１０２のＳＯＣを推定するモデルを、学習により生成する。このモデルは、例えばニューラルネットワークで構成される。

二次電池１０２は、電源装置１０４により充電され、負荷１０６への通電を行うことで放電する。二次電池１０２に対し電源装置１０４からの充電を行うか負荷１０６への放電を行うかの選択は、二次電池１０２の端子への接続を電源装置１０４と負荷１０６との間で切り替える切替スイッチ１０８により行われる。切替スイッチ１０８と二次電池１０２との間には、特性測定器１１０が挿入されている。

特性測定器１１０は、電圧計、電流計、及び温度計などで構成されており、二次電池１０２の端子間の電圧Ｅ（ボルト、Ｖ）、二次電池１０２に流れ込むか又は流れ出す電流Ｉ（アンペア、Ａ）、及び二次電池１０２の筺体表面の温度Ｔ（℃）、を少なくとも含む、二次電池１０２の所定の状態変数の現在の値を測定する。

以下において、二次電池１０２の入力電圧Ｅ及び入力電流Ｉとは、二次電池１０２の充電時における上記の電圧Ｅ及び電流Ｉをいうものとする。また、二次電池１０２の出力電圧Ｅ及び出力電流Ｉとは、二次電池１０２の充電時における上記の電圧Ｅ及び電流Ｉをいうものとする。

学習管理装置１１２は、例えばコンピュータであり、オペレータからの指示により動作を開始し、電源装置１０４への電源出力の開始及び停止の指示、並びに、切替スイッチ１０８への切替動作の指示を行う。

この学習管理装置１１２は、例えば、人間であるオペレータからの指示が入力されると、まず、二次電池１０２をゼロ充電状態から限界充電状態（それ以上充電できない限界の状態）まで充電する際の二次電池１０２への総入力電力量を計測し、当該計測した総入力電力量（すなわち、限界充電状態での充電残量）と、二次電池１０２の定格充電容量と、に基づいて、限界充電状態でのＳＯＣ値を算出する。ＳＯＣ値は、例えば、充電残量が定格充電容量に等しい状態を１００％として、次式のように算出されるものとすることができる。
充電残量÷定格充電容量×１００（％）（１）

学習管理装置１１２は、上記計測した充電残量及び算出したＳＯＣ値を機械学習装置１００へ送信する。機械学習装置１００は、学習管理装置１１２から受信した充電残量及び又はＳＯＣ値に基づき、その後の放電動作において繰り返し測定する二次電池１０２の出力電圧Ｅおよび出力電流Ｉから、当該二次電池１０２の現在の充電残量とＳＯＣ値を算出する。

具体的には、学習管理装置１１２は、まず、切替スイッチ１０８に指示して二次電池１０２を負荷１０６へ接続し、当該二次電池１０２を放電させてゼロ充電状態とする。ゼロ充電状態となったか否かは、上記放電の際に特性測定器１１０により測定される二次電池１０２の出力電圧Ｅから判断され得る。すなわち、出力電圧Ｅが所定の電圧以下となったときに、二次電池１０２がゼロ充電状態になったものと判断することができる。

その後、学習管理装置１１２は、切替スイッチ１０８に指示して二次電池１０２を電源装置１０４に接続すると共に、電源装置１０４に指示して電源の出力を開始させ、二次電池１０２を限界充電状態まで充電する。例えば、学習管理装置１１２は、入力電流Ｉが所定の電流値未満となったときに、二次電池１０２が限界充電状態になったものと判断することができる。

学習管理装置１１２は、二次電池１０２の充電期間中において、特性測定器１１０により二次電池１０２の出力電圧Ｅおよび出力電流Ｉを所定の時間間隔Δｔで計測し、時間Δｔの期間内に二次電池１０２に入力された電力量（Ｅ×Ｉ×Δｔ）を、ゼロ充電状態から限界充電状態までの期間について積算して、総入力電力量を充電残量として算出する。そして、上記算出した充電残量を定格充電容量で除算して、現在のＳＯＣ値を算出する。

算出した現在の充電残量及びＳＯＣ値を機械学習装置１００へ送信した後、学習管理装置１１２は、切替スイッチ１０８を切り替えて、二次電池１０２から負荷１０６への放電を開始し、機械学習装置１００にＳＯＣ推定の学習を開始させる。

具体的には、学習管理装置１１２は、切替スイッチ１０８を切り替えて二次電池１０２の放電を開始したときに、放電開始通知を機械学習装置１００へ送信する。

機械学習装置１００は、放電開始通知を受信したことに応じて、二次電池１０２のＳＯＣ推定についての学習を開始する。具体的には、機械学習装置１００は、特性測定器１１０により、所定の時間間隔Δｔで、放電中の二次電池１０２の出力電圧Ｅ、出力電流Ｉ、及び温度Ｔを繰り返し計測し、それぞれの計測時におけるＳＯＣ値を算出する。そして、計測した出力電圧Ｅ、出力電流Ｉ、温度Ｔと、算出したＳＯＣ値とで構成される訓練データに基づき、学習を行ってＳＯＣ推定のモデルを生成する。学習の詳細については後述する。上記それぞれの計測時におけるＳＯＣ値は、放電開始通知を受信したときの、二次電池１０２の充電残量及びＳＯＣ値と、繰り返し計測される二次電池１０２の出力電圧Ｅ及び出力電流Ｉと、当該繰り返し計測の時間間隔Δｔから算出され得る。

機械学習装置１００にＳＯＣ推定の学習を開始させた後、学習管理装置１１２は、特性測定器１１０から取得される二次電池１０２の出力電流Ｉが所定の値未満となったときに、二次電池１０２の放電動作を終了して充電動作を開始する。すなわち、学習管理装置１１２は、切替スイッチ１０８に指示して二次電池１０２を電源装置１０４へ接続する。学習管理装置１１２は、二次電池１０２の充電動作を開始したときは、充電開始通知を機械学習装置１００へ送信する。以下、放電開始通知が送信されてから充電開始通知が送信されるまでの期間を放電サイクルという。

機械学習装置１００は、学習管理装置１１２から充電開始通知を受信することに応じて、ＳＯＣ推定の学習を中断し、特性測定器１１０により、所定の時間間隔で、充電中の二次電池１０２の入力電圧Ｅおよび入力電流Ｉを繰り返し計測する。機械学習装置１００は、入力電圧Ｅおよび入力電流Ｉを計測する毎に、現在における二次電池１０２の充電残量を算出する。

その後、学習管理装置１１２は、特性測定器１１０により計測される二次電池１０２の入力電流が所定の値未満となったときに、切替スイッチ１０８に指示して二次電池１０２を負荷１０６へ接続し、放電開始通知を機械学習装置１００へ送信する。以下、充電開始通知が送信されてから放電開始通知が送信されるまでの期間を充電サイクルという。

機械学習装置１００は、学習管理装置１１２から放電開始通知を受信したことに応じて、直前に算出した二次電池１０２の充電残量から、二次電池１０２の現在のＳＯＣ値を算出する。そして、機械学習装置１００は、算出したＳＯＣ値を用いて、再び、今回の放電サイクルにおけるＳＯＣ推定の学習を開始する。

その後は、機械学習装置１００は、学習管理装置１１２により開始される放電サイクル及び充電サイクルに応じて、二次電池１０２のＳＯＣ推定の学習を繰り返し、所定の終了条件が満たされたときに、当該学習を終了する。機械学習装置１００は、学習を終了したときは、学習管理装置１１２へ学習終了通知を送信する。学習終了通知を受信した学習管理装置１１２は、動作を終了する。

機械学習装置１００は、演算装置１２０と、記憶装置１２２を備える。記憶装置１２２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。演算装置１２０は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサを備えるコンピュータである。演算装置１２０は、プログラムが書き込まれたＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、データの一時記憶のためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を有する構成であってもよい。そして、演算装置１２０は、機能要素又は機能ユニットとして、状態観測部１３０と、充電率算出部１３２と、訓練データ生成部１３４と、モデル学習部１３６と、を備える。

演算装置１２０が備えるこれらの機能要素は、例えば、コンピュータである演算装置１２０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、演算装置１２０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

状態観測部１３０は、学習管理装置１１２から放電開始通知を受信したことに応じて特性測定器１１０からの測定値の取得を開始し、二次電池１０２の所定の状態変数である少なくとも電圧Ｅ、電流Ｉ、及び温度Ｔ（例えば、二次電池１０２の筺体表面の温度）を、所定の観測タイミングで繰り返し取得する。本実施形態では、所定の観測タイミングは、所定の時間間隔で到来する時刻である。すなわち、状態観測部１３０は、二次電池１０２の上記状態変数の測定値を、所定の時間間隔で繰り返し取得する。

また、状態観測部１３０は、上記所定の時間間隔で取得した上記状態変数の測定値のそれぞれを、所定の時間間隔で充電率算出部１３２および訓練データ生成部１３４へ送信する。

充電率算出部１３２は、状態観測部１３０から状態変数の測定値を受信する毎に、当該受信した測定値と、学習管理装置１１２から放電開始通知を受信したときの二次電池１０２の充電残量と、に基づき、二次電池１０２の現在の充電残量及びＳＯＣ値を算出する。上記「放電開始通知を受信したときの二次電池１０２の充電残量」は、初回の放電サイクルの開始時に学習管理装置１１２から受信する充電残量、又は、前回の充電サイクルの終了直前（学習管理装置１１２からの放電開始通知の、前回の受信の直前）に充電率算出部１３２が算出した充電残量であり得る。

訓練データ生成部１３４は、機械学習装置１００が放電開始通知を受信してから充電開始通知を受信するまでの放電サイクルにおいて、状態観測部１３０が二次電池１０２の状態変数である出力電圧Ｅ、出力電流Ｉ、及び温度Ｔについての測定を行う毎に、今回の測定で得られた各状態変数の実測値と、当該今回の測定で得られた実測値に応じて充電率算出部１３２が算出した今回の上記ＳＯＣ値と、で構成される訓練データを生成する。そして、訓練データ生成部１３４は、生成した訓練データを、時系列順に、すなわち、状態変数の測定順に、記憶装置１２２へ記憶する。

また、訓練データ生成部１３４は、記憶装置１２２に記憶した訓練データに基づき、時系列に連続する第１所定数の訓練データによりそれぞれ構成される複数の訓練データセットを生成する。訓練データ生成部１３４における訓練データセットの生成については、後述において更に説明する。

モデル学習部１３６は、訓練データ生成部１３４が生成する訓練データセットを用いて、二次電池１０２の充電率を推定するモデル１４０を学習により生成し、生成したモデル１４０を記憶装置１２２に記憶する。このモデル１４０は、例えばリカレント・ニューラルネットワーク（再帰型ニューラルネットワーク、ＲＮＮ、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて構成される。モデル学習部１３６は、学習の終了条件として、例えば学習に用いた訓練データセットの数が所定数に達したときに、モデル１４０についての学習を終了する。

図２は、モデル学習部１３６において学習される、ＲＮＮを用いたモデル１４０の構成を示す図である。モデル１４０を構成するニューラルネットワークは、入力層２０２と、中間層２０４と、出力層２０６と、で構成される。ここで、入力層２０２は、訓練データに含まれる電圧Ｅ、電流Ｉ、温度Ｔの３つの状態変数で構成される３次元の特徴ベクトルを入力データｘ（ｔ）として受け取る。ここに、ｔは、例えば、時系列に並んだ複数の訓練データの中の一の訓練データを識別するインデックスである。

中間層２０４は、入力層２０２に今回入力された今回の入力データｘ（ｔ）と、入力層２０２に前回入力された前回の入力データｘ（ｔ－１）等から生成される中間層ｈ（ｔ－１）と、に基づいて今回の中間出力ｈｔを算出する。これにより、モデル１４０は、ＲＮＮとして構成される。なお、図２に示すＵ、Ｖ、及びＷは、それぞれ、入力層２０２から中間層２０４への重み行列、中間層２０４から出力層２０６への重み行列、及び前回の中間層２０４（すなわち、ｈ（ｔ－１））から今回の中間層２０４（すなわち、ｈ（ｔ））への重み行列である。

入力層２０２には、時系列に連続する第１所定数の訓練データのそれぞれが、当該時系列の順に入力される。これにより、モデル１４０は、第１所定数の訓練データが表す状態変数の履歴ないし変化過程をも加味して、現在のＳＯＣの推定を行うものとして構成されることとなる。

二次電池１０２の現在のＳＯＣは、それまでの二次電池１０２の状態変化の結果であることから、上記ＲＮＮを用いて構成されるモデル１４０は、従来の、リカレントでない（すなわち、再帰的でない）ニューラルネットワークを用いたモデルに比べて高精度にＳＯＣ推定を行い得る。

なお、モデル１４０を構成するＲＮＮは、中間層２０４としてＬＳＴＭ（ロング・ショート・ターム・メモリ、ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）又はＧＲＵ（ゲート付き回帰型ユニット、Ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ）を含むものであるものとすることができる。

訓練データ生成部１３４は、上述のとおり、記憶装置１２２に記憶された一連の訓練データから、時系列に連続する第１所定数の訓練データを抽出し、当該抽出した第１所定数の時系列順の訓練データにより、ＲＮＮで構成されるモデル１４０を学習するための訓練データセットを複数生成する。

特に、本実施形態に係る機械学習装置１００の訓練データ生成部１３４は、例えば状態観測部１３０により状態変数が観測されるにつれて、直前に生成した訓練データセットの末尾の第２所定数の訓練データを先頭の訓練データとして含む次の訓練データセットを生成する。

すなわち、訓練データ生成部１３４は、直前に生成した訓練データセットに含まれる時系列順の訓練データのうち時系列的に末尾の部分を構成する第２所定数の前記訓練データを、時系列的に先頭の訓練データとして含む次の訓練データセットを生成する。

本実施形態では、例えば、第２所定数は、第１所定数（例えば５０）から１を減じて算出される数（例えば４９）である。訓練データ生成部１３４は、例えば、直前に生成した訓練データセットを構成する時系列の訓練データのうち時系列的に先頭の１個の訓練データを除く他の前記訓練データを全て含む次の訓練データセットを生成する。

訓練データ生成部１３４は、また、生成した複数の訓練データセットを、それらの先頭の訓練データに係る状態変数の測定時刻が時系列となる順に、モデル学習部１３６へ順次入力する。

図３は、訓練データ生成部１３４における訓練データセットの生成について説明するための説明図である。図３には、状態観測部１３０により所定の観測タイミングで（本実施形態では、所定の時間間隔で）取得された二次電池１０２の状態変数の測定値が、最上行のタイトル行を除く第１行から下へ向かって時刻順に（すなわち、時系列順に）、表形式で示されている。実線枠で示された表の第１列、第２列、及び第３列は、それぞれ、二次電池１０２の出力電流Ｉ、出力電圧Ｅ、及び温度Ｔの測定値である。表の左側の列は、各行に示された状態変数の測定値の測定時刻であり、その更に左側の列は、各行に示された測定値を識別するための行番号である。ここで、上記測定時刻は、例えば、図３においては年／月／日／時：分で示されている。なお、記憶装置１２２には、上記観測時刻及び番号も、状態変数の各測定値に関連付けて記憶させておくものとすることができる。

観測時刻の列の値から理解されるように、図示の場合においては、状態観測部１３０は、例えば時間間隔Δｔ＝１０分で状態変数を繰り返し測定している。ただし、これは一例であって、時間間隔Δｔは、これ以外の任意の値とすることができる。例えば、時間間隔Δｔは、１０ミリ秒から１０分までの範囲の任意の値とすることができ、又はこれ以外の範囲の値とすることもできる。また、時間間隔Δｔは、一の放電サイクルにおいて必ずしも一定値である必要はなく、所定の範囲で変動してもよい。

状態観測部１３０が、第１所定数（＝５０）と同じ数の最初の５０回の状態変数の測定を終えると、記憶装置１２２には、番号１から５０までの最初の５０個の訓練データが記憶される。これに応じて、訓練データ生成部１３４は、時系列に並んだ訓練データの最初の区間３００（符号３００が付された図示太線の両端矢印線が示す番号１から５０までの時系列区間）の５０個の訓練データにより最初の訓練データセットを生成し、当該生成した訓練データセットをモデル学習部１３６に入力する。

モデル学習部１３６は、上記入力された最初の訓練データセットに含まれる５０個の訓練データに基づき、当該５０個の訓練データが示す時系列の５０個の状態変数と、時系列的に最後の（すなわち、番号５０の）訓練データに含まれるＳＯＣ値と、を用いて第１回目の学習（学習のための１回目の誤差が算出される）を行う。

次に、訓練データ生成部１３４は、状態観測部１３０が５１番目の状態変数の測定を行うと、記憶装置１２２に番号５１の新たな訓練データを追加して保存する。また、訓練データ生成部１３４は、新たな訓練データを追加したときは、その前に生成された訓練データセットの時系列的に末尾を構成する４９個の訓練データ、すなわち、番号２から５０までの訓練データセットに、新たに追加した番号５１の訓練データを追加して、区間３０２（すなわち、番号２から５１までの時系列区間）の５０個の訓練データにより２つ目の訓練データセットを生成する。これにより、その前に生成された（最初の）訓練データセットの時系列的に末尾を構成する４９個の訓練データを含む次の（２つ目の）訓練データセットが生成される。訓練データ生成部１３４は、生成した２つ目の訓練データセットをモデル学習部１３６へ入力する。

モデル学習部１３６は、上記入力された２つ目の訓練データセットに含まれる５０個の訓練データが示す５０個の時系列の状態変数と、時系列的に最後の（番号５１の）訓練データに含まれるＳＯＣ値と、を用いて第２回目の学習（２回目の誤差が算出される）を行う。

以降は、上記と同様に、訓練データ生成部１３４は、状態観測部１３０が状態変数の測定を新たに行う毎に、記憶装置１２２に新たな訓練データを追加すると共に、その前の訓練データセットの末尾を構成する４９個の訓練データを先頭の訓練データとして含み且つ当該新たな訓練データを末尾に含む次の訓練データセットを順次生成して、モデル学習部１３６へ入力する。また、上記と同様に、モデル学習部１３６は、入力された訓練データセットに含まれる５０個の訓練データが示す５０個の時系列の状態変数と、時系列的に最後の訓練データに含まれるＳＯＣ値と、を用いて順次学習を行う。

モデル学習部１３６は、上記のように、５０個の時系列の訓練データから、ＲＮＮで構成されるモデル１４０についての１回の入力を行う。図４は、この１回の入力を模式的に示したものである。中間層２０４は、図２に示すように、今回の入力ｘ（ｔ）とその前の学習での出力ｈ（ｔ－１）から、今回の出力ｈ（ｔ）を生成する。したがって、モデル１４０は、５０個の訓練データをそれぞれ入力とする仮想的な５０個の中間層である隠れ層２０４－１から２０４－５０を含むものとなる。

なお、図示において、入力層２０２－１から２０２－４９は、隠れ層２０４－１から２０４－４９のそれぞれに、対応する訓練データの状態変数を入力する仮想的な入力層である。また、図示においては、訓練データセットを構成する５０個の、時系列順のそれぞれの訓練データが、ｘ（ｔ－４９）、ｘ（ｔ－４８）、・・・ｘ（ｔ）で示され、対応する隠れ層の出力が、ｈ（ｔ－４９）、ｈ（ｔ－４８）、…、ｈ（ｔ）で示されている。また、図４には、モデル１４０の学習に用いる教師データとしての、各訓練データセットを構成する時系列順の最後の訓練データに含まれるＳＯＣが、ＳＯＣ（ｔ）として示されている。ここに、ｔは、図３に示す表の番号欄の番号に対応する。これにより、ＲＮＮについての、一般的なバックプロパゲーション法による学習が行われる。

そして、上記学習により、モデル１４０は、現在ｔのＳＯＣをその前の直近の第１所定数（本実施形態では５０個）の状態変数から推定するモデルとして生成される。

上記の構成を有する機械学習装置１００では、過去の入力に基づく中間出力を再帰的に用いる、いわゆるＲＮＮで構成されるモデル１４０を生成するように学習が行われる。このため、機械学習装置１００では、リカレントでない（すなわち、再帰的でない）ニューラルネットワークを用いる従来の学習に比べて、状態変数の過去の変遷の結果としてのＳＯＣを高精度に推定するモデルを生成することができる。

また、機械学習装置１００では、学習に用いられる第１所定数の訓練データで構成される現在の訓練データセットは、その前の学習に用いられた訓練データセットの時系列的に末尾を構成する第２所定数の訓練データを、当該現在の訓練データセットにおける時系列的に先頭の訓練データとして含む。これにより、機械学習装置１００では、更に高い精度でＳＯＣの推定を行い得る。

すなわち、従来のＲＮＮの学習では、当該学習に用いられる複数の訓練データセットは、一般に、同一の訓練データの時系列シーケンスを互いに重複して含まないように構成される。これにより、それぞれの訓練データセットは個々に独立な内容を含むものとなるので、例えば人間が発する直近の発話文言のシーケンスから次に発話される文言を推定するようなＲＮＮの学習においては、様々な発話文言のシーケンスに対応し得るロバストな推定を行うことのできるモデルが生成され得る。

これに対し、二次電池の現在のＳＯＣは、それまでの二次電池の状態変化（具体的には、上記状態変数の値の変化）、特に、直近の所定期間における状態変化の結果として、連続的に変化するものであるので、上記従来のＲＮＮの学習のように、重複した訓練データシーケンスを含まない個々独立した訓練データセットを用いた学習では、ＳＯＣ推定の精度に限界が生じ得る。

上述した実施形態の機械学習装置１００では、モデル学習部１３６に与えられる現在の訓練データセットは、その前の学習に用いられた訓練データセットの時系列的に末尾を構成する第２所定数の訓練データを、当該現在の訓練データセットにおける時系列的に先頭の訓練データとして含むので、全体として二次電池１０２の状態変化のデータをシームレスに含んだ複数の訓練データセットを用いて学習が行われることとなる。その結果、機械学習装置１００では、従来に比べて、二次電池１０２のＳＯＣを高精度で推定し得るモデル１４０を生成することが可能となる。

次に、機械学習装置１００における処理について、図５に示すフロー図を参照して説明する。この処理は、機械学習装置１００の電源がオンされたときに開始する。処理を開始すると、まず、機械学習装置１００の状態観測部１３０は、放電開始通知を受信したか否かを判断する（Ｓ１００）。放電開始通知は、当該放電開始通知の送信時点における二次電池１０２の充電残量とＳＯＣ値と共に、例えば学習管理装置１１２から受信される。状態観測部１３０は、放電開始通知を受信していないときは（Ｓ１００、ＮＯ）、ステップＳ１００に戻って放電開始通知を受信するのを待機する。

一方、放電開始通知を受信したときは（Ｓ１００、ＹＥＳ）、状態観測部１３０は、記憶装置１２２に記憶されている訓練データを全て消去した後、特性測定器１１０からの、二次電池１０２の状態変数についての測定値の取得を開始する（Ｓ１０２）。すなわち、状態観測部１３０は、新たな放電サイクルの開始時点で、以前の放電サイクルにおける訓練データを破棄する。これにより、充電サイクルを挟む２つの異なる放電サイクルからの訓練データが一つの訓練データセットの中に混在するのを避けて、一の放電サイクルにおける連続した放電動作における訓練データを用いて学習が行われることとなる。

なお、上述したように、この状態変数には、二次電池１０２の端子間の電圧Ｅ、電流Ｉ、温度Ｔが含まれる。状態観測部１３０は、ステップＳ１０２において状態変数の測定値（以下、状態変数測定値）の取得を開始した後は、例えば、所定の時間間隔Δｔで、当該測定値を繰り返し取得する。

次に、充電率算出部１３２は、状態観測部１３０が新たな状態変数測定値を取得したか否かを判断する（Ｓ１０４）。そして、新たな状態変数測定値を取得していないときは（Ｓ１０４、ＮＯ）、ステップＳ１０４に戻って新たな状態変数測定値が取得されるの待機する。一方、状態変数測定値が取得されたときは（Ｓ１０４、ＹＥＳ）、充電率算出部１３２は、当該取得された状態変数測定値に基づき、二次電池１０２の現在のＳＯＣを算出する（Ｓ１０６）。

次に、訓練データ生成部１３４は、状態観測部１３０が取得した状態変数測定値と充電率算出部１３２が算出した二次電池１０２の現在のＳＯＣとを含む訓練データを生成して、記憶装置１２２に時系列順に記憶する（Ｓ１０８）。この場合において、訓練データ生成部１３４は、例えば、記憶装置１２２に記憶する訓練データのそれぞれについて、当該訓練データを訓練データセットの生成に用いたか否かを示す使用済みフラグを設けて記憶装置１２２に記憶しておくものとすることができる。使用済みフラグは、例えば、対応する訓練データが記憶されたときに、当該訓練データが未使用であることを示す０にリセットされ、その後、その訓練データが訓練データセットに用いられたときに、１にセットされる。

次に、訓練データ生成部１３４は、前回生成した訓練データセットがあるか否かを判断する（Ｓ１１０）。例えば、訓練データ生成部１３４は、記憶装置１２２に記憶されているいずれかの訓練データについての使用済みフラグが１（使用済み）であるときは、前回生成した訓練データセットがあるものと判断することができる。

そして、前回生成した訓練データセットがないときは（すなわち、最初の訓練データセットを生成する前であるときは）（Ｓ１１０、ＮＯ）、訓練データ生成部１３４は、記憶装置１２２に第１所定数の訓練データが記憶されたか否かを判断する（Ｓ１１２）。そして、第１所定数の訓練データが記憶されていないときは（Ｓ１１２、ＮＯ）、処理をステップＳ１０４に戻して上記の処理を繰り返す。

一方、記憶装置１２２に第１所定数の訓練データが記憶されているときは（Ｓ１１２、ＹＥＳ）、訓練データ生成部１３４は、記憶装置１２２に記憶されている時系列の第１所定数の訓練データを用いて最初の訓練データセットを生成して、当該生成した最初の訓練データセットをモデル学習部１３６へ送信する（Ｓ１１４）。

一方、ステップＳ１１０において、前回生成した訓練データセットがあるときは（Ｓ１１０、ＹＥＳ）、訓練データ生成部１３４は、記憶装置１２２に記憶されている訓練データから、第１所定数の時系列の訓練データで構成される次の訓練データセットであって、前回生成した訓練データセットの末尾の第２所定数の時系列の訓練データを先頭の訓練データとして含む訓練データセットを生成できるか否かを判断する。すなわち、上記次の訓練データセットに必要な数の新たな訓練データ（すなわち、第１所定数から第２所定数を減じて得られる数の新たな訓練データ）が記憶装置１２２に記憶されているか否かを判断する（Ｓ１１６）。そして、当該必要な数の新たな訓練データが無く、次の訓練データセットを生成できないときは（Ｓ１１６、ＮＯ）、訓練データ生成部１３４は、ステップＳ１０４に処理を戻す。

一方、上記必要な数の新たな訓練データが記憶されており、次の訓練データセットを生成できるときは（Ｓ１１６、ＹＥＳ）、訓練データ生成部１３４は、前回生成した訓練データセットの末尾の第２所定数の時系列の訓練データに、新たな訓練データを時系列順に付加して、第１所定数の訓練データで構成される次の訓練データセットを生成する（Ｓ１１８）。訓練データ生成部１３４は、当該生成した次の訓練データセットをモデル学習部１３６へ送信する。

モデル学習部１３６は、訓練データ生成部１３４から訓練データセットを受信したことに応じて、受信した訓練データセットを用いてモデル１４０についての学習を行う（Ｓ１２０）。続いて、モデル学習部１３６は、充電開始通知を受信したか否かを判断する（Ｓ１２２）。そして、充電開始通知を受信したときは（Ｓ１２２、ＹＥＳ）、モデル学習部１３６は、ステップＳ１００に処理を戻す。

一方、充電開始通知を受信していないときは（Ｓ１２２、ＮＯ）、モデル学習部１３６は、学習終了条件が満たされたか否かを判断する（Ｓ１２４）。この終了条件は、上述したように、例えば、学習に用いた訓練データセットの数が所定数に達したこと、であるものとすることができる。

そして、学習終了条件が満たされていないときは（Ｓ１２４、ＮＯ）、モデル学習部１３６は、ステップＳ１０４に処理を戻す。一方、学習終了条件が満たされたときは（Ｓ１２４、ＹＥＳ）、モデル学習部１３６は、本処理を終了する。

〔第２実施形態〕
次に、本発明の第２の実施形態について説明する。図６は、本発明の第２の実施形態に係る、二次電池のＳＯＣを推定する充電率推定装置の構成を示す図である。この充電率推定装置６００は、例えば、移動体である車両６０２に搭載される。車両６０２は、二次電池６０４を備え、当該二次電池６０４により給電される駆動モータ６０６により駆動されて走行する。

ここで、車両６０２は、本実施形態では、例えば電気自動車であるが、これには限られない。車両６０２は、自動二輪車、電動自転車、電車、トロリーバス、モータボートなどの、陸及び又は海における移動体であって、当該移動体内に二次電池を備える任意の移動体であるものとすることができる。

充電率推定装置６００は、第１の実施形態に係る機械学習装置１００により二次電池６０４のＳＯＣ推定に関する学習が行われたモデル１４０である学習済みモデル６６６を用い、車両６０２の走行に応じて変化する二次電池６０４のＳＯＣ値を推定する。

二次電池６０４は、切替スイッチ６１０を介して、内燃機関６１２により駆動される発電機６１４又は二次電池６０４にとっての負荷である駆動モータ６０６と、選択的に接続される。二次電池６０４と切替スイッチ６１０との間には、二次電池６０４の端子間の電圧Ｅ、当該端子に流れる電流Ｉ、及び二次電池６０４の温度Ｔ、を少なくも含む、当該二次電池６０４の状態変数を測定するための、特性測定器６１６が設けられている。特性測定器６１６は、例えば、電圧センサ、電流センサ、および温度センサ等で構成される。

また、切替スイッチ６１０と駆動モータ６０６との間には、二次電池６０４から駆動モータ６０６への供給する電力を制御するモータコントローラ６１８が設けられている。切替スイッチ６１０、内燃機関６１２、及びモータコントローラ６１８は、後述する走行制御装置６２８により制御される。

充電率推定装置６００は、例えばＣＡＮ（ＣｏｎｔｒｏｌＡｒｅａＮｅｔｗｏｒｋ）通信規格に準拠した通信を行うための車載ネットワークバス６２０を介して、ＴＣＵ（ＴｅｌｅｍａｔｉｃｓＣｏｎｔｒｏｌＵｎｉｔ）６２２、操作検知装置６２４、測定制御装置６２６、及び走行制御装置６２８と、通信可能に接続されている。

ＴＣＵ６２２は、車両６０２の外部の通信装置と、例えばインターネット等の通信ネットワークを介して通信するための、無線送受信機で構成される。

操作検知装置６２４は、車両６０２の運転者が操作するアクセルペダルおよびブレーキペダルの踏み込み量をそれぞれ検知するアクセルペダルセンサ６３０およびブレーキペダルセンサ６３２からセンサ信号を取得し、アクセルペダルおよびブレーキペダルの踏み込み量についての踏み込み量情報を、車載ネットワークバス６２０を介して走行制御装置６２８へ送信する。

測定制御装置６２６は、特性測定器６１６により、二次電池６０４の状態変数としての、当該二次電池６０４の出力電圧Ｅ、出力電流Ｉ、及び当該二次電池６０４の温度Ｔの測定値を取得する。測定制御装置６２６は、取得したこれら状態変数の測定値を、車載ネットワークバス６２０を介して、充電率推定装置６００および走行制御装置６２８へ送信する。

走行制御装置６２８は、二次電池６０４についてのＳＯＣ推定値を充電率推定装置６００から取得すると共に、アクセルペダルおよびブレーキペダルについての踏み込み量情報を操作検知装置６２４から取得する。走行制御装置６２８は、取得したＳＯＣ推定値および踏み込み量情報に基づき、二次電池６０４の充放電動作を切り替えると共に、駆動モータ６０６による車両６０２の走行を制御する。

具体的には、走行制御装置６２８は、処理装置６４０と、記憶装置６４２と、ＮＷ通信装置（ネットワーク通信装置）６４４と、を備える。記憶装置６４２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。ＮＷ通信装置６４４は、車載ネットワークバス６２０を介して充電率推定装置６００等の他の装置と通信するための通信装置であり、例えばＣＡＮ通信規格に準拠した通信を行うＣＡＮトランシーバである。

処理装置６４０は、例えば、ＣＰＵ等のプロセッサを備えるコンピュータである。処理装置６４０は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置６４０は、機能要素又は機能ユニットとして、充放電制御部６４６と、走行制御部６４８と、を備える。

処理装置６４０が備えるこれらの機能要素は、例えば、コンピュータである処理装置６４０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置６４０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

充放電制御部６４６は、操作検知装置６２４から取得するアクセルペダルについての踏み込み量情報に基づき、アクセルペダルが踏み込まれたことが検知されたときは、切替スイッチ６１０を切り替えて、二次電池６０４から駆動モータ６０６への給電、したがって二次電池６０４の放電動作を開始する。その際、充放電制御部６４６は、二次電池６０４の放電動作を開始した旨の通知である放電開始通知を、走行制御部６４８へ送ると共に、ＮＷ通信装置６４４により車載ネットワークバス６２０を介して充電率推定装置６００へ送る。

また、充放電制御部６４６は、操作検知装置６２４から取得するブレーキペダルについての踏み込み量情報に基づき、ブレーキペダルが踏み込まれたことを検知した場合において、充電率推定装置６００から取得されたＳＯＣ推定値が所定の値未満であるときは、切替スイッチ６１０の接続状態および内燃機関６１２の回転数を制御して、発電機６１４から二次電池６０４への充電動作を開始する。充放電制御部６４６は、発電機６１４から二次電池６０４への充電動作を開始したときは、当該充電動作を開始した旨を通知する充電開始通知を、走行制御部６４８へ送ると共に、車載ネットワークバス６２０を介して充電率推定装置６００へ送信する。

走行制御部６４８は、充放電制御部６４６から放電開始通知を受信してから充電開始通知を受信するまでの期間において、操作検知装置６２４から取得するアクセルペダルについての踏み込み量情報に基づき、モータコントローラ６１８を制御して、駆動モータ６０６に発生させるトルク（具体的には、駆動モータ６０６に印加する電圧及び通電する電流）を制御する。

充電率推定装置６００は、処理装置６６０と、記憶装置６６２と、ＮＷ通信装置（ネットワーク通信装置）６６４と、を備える。記憶装置６６２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。記憶装置６６２は、学習済みモデル６６６（具体的には、学習済みモデル６６６の構成データ）を記憶する。学習済みモデル６６６は、第１の実施形態に係る機械学習装置１００により二次電池６０４と同型の（すなわち、二次電池６０４と同一の構成を有する）二次電池１０２についてのＳＯＣ推定に関する学習が行われたモデル１４０である。この学習済みモデル６６６は、記憶装置６６２に予め記憶されるか、又は車両６０２の外部に置かれたサーバからＴＣＵ６２２を介して受信されて記憶装置６６２に記憶される。

ＮＷ通信装置６６４は、車載ネットワークバス６２０を介して走行制御装置６２８等の他の装置と通信するための通信装置であり、例えばＣＡＮ通信規格に準拠した通信を行うＣＡＮトランシーバである。

処理装置６６０は、例えば、ＣＰＵ等のプロセッサを備えるコンピュータである。処理装置６６０は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置６６０は、機能要素又は機能ユニットとして、充電率推定部６６８を備える。

処理装置６６０が備える上記機能要素は、例えば、コンピュータである処理装置６６０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置６６０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

充電率推定部６６８は、走行制御装置６２８から放電開始通知を受信したことに応じて、二次電池６０４の状態変数の測定値のセットを、測定制御装置６２６を介して特性測定器６１６から所定の時間間隔で取得し、当該取得した状態変数の測定値セットを、時系列順に、記憶装置６６２に記憶する。この状態変数の測定値セットには、少なくとも、二次電池６０４の出力電圧Ｅ、出力電流Ｉ、温度Ｔの測定値が含まれる。

充電率推定部６６８は、また、記憶装置６６２に時系列順に記憶した状態変数の測定値セットから、直近の第１所定数の測定値セットを抽出する。そして、充電率推定部６６８は、抽出した直近の第１所定数の状態変数の測定値セットに基づき、記憶装置６６２に記憶されている学習済みモデル６６６を用いて、二次電池６０４の現在のＳＯＣ値を推定する。また、充電率推定部６６８は、上記推定したＳＯＣ値を、ＮＷ通信装置６６４を用いて、車載ネットワークバス６２０を介して走行制御装置６２８へ送信する。

〔第３実施形態〕
次に、本発明の第３の実施形態について説明する。図７は、本発明の第３の実施形態に係る充電率推定システムの構成を示す図である。この充電率推定システム７００は、第１の実施形態に係る機械学習装置１００を備えた第１の移動体である少なくとも一つの車両７０２と、第２の実施形態に係る充電率推定装置６００を備える少なくとも一つの第２の移動体である車両６０２と、を備える。

ここで、車両７０２および車両６０２は、本実施形態では、例えば電気自動車であるが、これには限られない。車両７０２および車両６０２は、それぞれ、自動二輪車、電動自転車、電車、トロリーバス、モータボートなどの、陸及び又は海における移動体であって、当該移動体内に二次電池を備える任意の移動体であるものとすることができる。

充電率推定システム７００は、また、通信ネットワーク７０４を介して車両７０２および車両６０２に対し通信可能に接続されたモデル管理サーバ７０６を備える。通信ネットワーク７０４は、例えばインターネットであり得る。なお、図７には、充電率推定システム７００を構成する車両として、車両６０２及び車両７０２がそれぞれ２台示されているが、これには限られない。充電率推定システム７００を構成する車両６０２及び７０２は、それぞれ少なくとも１台あればよく、例えば２台以上の任意の同じ数又は互いに異なる数であるものとすることができる。

図８は、第1の移動体である車両７０２の構成を示す図、図９は、モデル管理サーバ７０６の構成を示す図である。なお、図７ないし図９において、図１ないし図６に示す構成要素と同じ構成要素については、図１ないし図６における符号と同じ符号を用いて示すものとし、上述した図１ないし図６についての説明を援用する。

図８を参照し、第1の移動体である車両７０２は、図６に示す第２の実施形態に係る車両６０２と同様の構成を有するが、充電率推定装置６００を備えず、図１に示す第１の実施形態に係る機械学習装置１００を備える点が異なる。機械学習装置１００は、ＮＷ通信装置（ネットワーク通信装置）８００を介して車載ネットワークバス６２０に接続されている。これにより、機械学習装置１００は、車載ネットワークバス６２０を介して、測定制御装置６２６、走行制御装置６２８等の他の装置と通信可能に接続されている。ＮＷ通信装置８００は、ＮＷ通信装置６４４等と同様に、例えばＣＡＮ通信規格に準拠した通信を行うＣＡＮトランシーバである。

機械学習装置１００は、特性測定器１１０に代えて特性測定器６１６から、少なくとも二次電池６０４の出力電圧Ｅ、出力電流Ｉ、及び温度Ｔを含む状態変数の測定値を、測定制御装置６２６を介して取得する。また、機械学習装置１００は、学習管理装置１１２に代えて、走行制御装置６２８から、充電開始通知および放電開始通知を受信する。また、機械学習装置１００は、二次電池６０４の規格値である定格充電容量についての情報が、記憶装置６６２に予め保存されているものとする。これにより機械学習装置１００は、車両６０２の走行に伴って、状態観測部１３０により二次電池６０４の状態変数の測定値を所定の観測タイミングで取得すると共に、充電率算出部１３２により当該二次電池６０４の充電率を算出する。

また、機械学習装置１００は、状態観測部１３０により二次電池６０４の状態変数の測定値が新たに取得されるにつれて、訓練データ生成部１３４により訓練データセットを生成する。モデル学習部１３６は、当該生成される訓練データセットに基づいて、ＳＯＣ推定についての学習を行ってモデル１４０を生成する。機械学習装置１００は、学習が完了したモデル１４０を、ＴＣＵ６２２を介してモデル管理サーバ７０６へ送信する。なお、二次電池６０４の充電残量算出の基準となる、機械学習装置１００の動作開始時点における二次電池６０４の充電残量は、例えば、車両６０２のメンテナンスを行う工場において、機械学習装置１００の記憶装置１２２に与えられ、充電率算出部１３２がこれを参照するものとすることができる。

図９を参照し、モデル管理サーバ７０６は、処理装置９００と、記憶装置９０２と、通信装置９０４と、を備える。通信装置９０４は、通信ネットワーク７０４を介して車両６０２及び７０２と通信するための無線通信装置及び又は有線通信装置である。記憶装置９０２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。記憶装置９０２には、車両７０２から受信するモデル１４０の、ＳＯＣの推定精度を評価するための評価用データ９０６が予め記憶されている。この評価データは、例えば、二次電池６０４及び車両６０２及び又は車両７０２の典型特性に基づいてシミュレーションにより作成されたもの、又は車両６０２及び又は車両７０２における実測データに基づいて作成されたものとすることができる。

処理装置９００は、例えば、ＣＰＵ等のプロセッサを備えるコンピュータである。処理装置９００は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置９００は、機能要素又は機能ユニットとして、モデル取得部９１０と、モデル評価部９１２と、モデル配信部９１４と、を備える。

処理装置９００が備えるこれらの機能要素は、例えば、コンピュータである処理装置９００がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置９００が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

モデル取得部９１０は、第１の移動体である車両７０２が備える機械学習装置１００が学習したモデル１４０を、通信装置９０４及び通信ネットワーク７０４を介して取得する。また、モデル評価部９１２は、上記取得したモデル１４０の充電率の予測精度を、記憶装置９０２が記憶する評価用データ９０６を用いて算出する。モデル配信部９１４は、モデル評価部９１２が算出した上記予測精度が所定の精度以上であるときに、モデル評価部９１２が評価した当該モデル１４０を、通信装置９０４により、通信ネットワーク７０４を介して、第２の移動体である車両６０２が備える充電率推定装置６００へ送信する。車両６０２の充電率推定装置６００の処理装置６６０は、受信したモデル１４０を学習済みモデル６６６として記憶装置６６２に記憶し、当該記憶した学習済みモデル６６６を用いて、二次電池６０４のＳＯＣ値を推定する。

上記の構成を有する充電率推定システム７００は、車両７０２の実際の走行における二次電池６０４の放電動作時の測定値に基づいて学習されたモデル１４０のうち、ＳＯＣの予測精度が所定の精度以上であるモデルを他の車両６０２に配信するので、車両用途において精度の良いＳＯＣ推定を行い得るモデルを、車両間で共有することができる。

なお、モデル管理サーバ７０６のモデル配信部９１４は、上記に代えて又はこれに加えて、複数の車両７０２からそれぞれ取得されるモデル１４０のうちから、モデル評価部９１２における評価において充電率の予測精度が最も高い一のモデルを選択して、車両６０２へ送信するものとすることができる。例えば、モデル配信部９１４は、一のモデル１４０を車両６０２へ送信した後に車両７０２から他のモデル１４０を取得した場合において、モデル評価部９１２における当該取得したモデル１４０の評価におけるＳＯＣ予測精度が、送信済のモデル１４０について過去に行った評価の予測精度より高いときは、上記取得したモデル１４０を車両６０２へ更に送信してもよい。この場合、車両６０２の充電率推定装置６００は、更に送信されたモデル１４０により、記憶装置６６２に記憶している学習済みモデル６６６を更新することができる。

なお、車両７０２は、一旦学習が終了したモデル１４０をモデル管理サーバ７０６へ送信した後に、当該モデル１４０の学習を継続し、例えば、所定の数の新たな訓練データセットを用いた学習が終了する毎に、学習したモデル１４０を再びモデル管理サーバ７０６へ送信してもよい。この学習の継続は、モデル管理サーバ７０６からの指示により行うものとすることができる。これにより、充電率推定システム７００では、ＳＯＣ精度の最も高いモデル１４０を送信した車両７０２に対し、当該モデル１４０の更なる学習を指示して、当該車両７０２において更にＳＯＣ推定精度の高いモデル１４０の実現を試みることができる。

なお、本発明は上記実施形態の構成に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能である。

例えば、上述した実施形態では、一例として、機械学習装置１００は、二次電池１０２の放電サイクルにおいて所定の観測タイミングで取得された状態変数測定値から当該二次電池１０２の放電動作時におけるＳＯＣを推定するモデル１４０を生成するものとしたが、これには限られない。機械学習装置１００は、二次電池１０２の充電サイクルにおいて所定の観測タイミングで取得される状態変数（この場合には、少なくとも二次電池１０２の入力電圧Ｅ、入力電流Ｉ、温度Ｔで構成される）測定値から当該二次電池１０２の充電動作時におけるＳＯＣ値を推定するモデルを生成するものとしてもよい。そのようなモデルは、モデル１４０とは異なる別個のモデルとして生成されるものとしてもよいし、入力される状態変数測定値のシーケンスから充電動作時及び放電動作時の双方の場合のＳＯＣ値を推定する統括的なモデル１４０として生成されるものとしてもよい。

そのような統括的なモデル１４０は、充電サイクル及び放電サイクルのそれぞれにおいて取得された状態変数測定値を用いて生成される、充電サイクル及び放電サイクルのそれぞれについての訓練データセットを用いて、充電時及び放電時のそれぞれについての学習を行うことで生成され得る。ここで、訓練データセットは、上述の実施形態の訓練データセットと同様に、第１所定数の時系列の訓練データで構成され、訓練データセットの時系列的に末尾の第２所定数の訓練データが、次の訓練データセットの時系列的に先頭の訓練データを構成するように生成される。この場合には、充電サイクルにおける訓練データは、二次電池６０４への入力電圧Ｅ、入力電流Ｉ、及び温度Ｔで構成される。

また、この場合には、第２の実施形態及び又は第３の実施形態に係る充電率推定装置６００の充電率推定部６６８は、機械学習装置１００において二次電池６０４の充電サイクル及び又は放電サイクルでの状態変数を用いた学習により生成されたモデル１４０である学習済みモデル６６６を用いるものとすることができる。すなわち、充電率推定部６６８は、測定制御装置６２６を介して取得される二次電池６０４の電圧Ｅ（出力電圧及び入力電圧を含む）、電流Ｉ（出力電流及び入力電流を含む）、及び温度Ｔの、第１所定数の測定値セットに基づき、学習済みモデル６６６を用いて、二次電池６０４の放電動作時及び又は充電動作時におけるＳＯＣ値を推定するよう構成され得る。

また、上述した実施形態では、一例として、訓練データセットを構成する訓練データの個数である第１所定数を５０とし、一の訓練データセットの時系列的に末尾の訓練データであって次の訓練データセットの時系列的に先頭を構成する訓練データの個数である第２所定数を４９であるものとしたが、これには限られない。第１所定数は、２以上の任意の数であるものとすることができ、第１所定数は、第２所定数未満の任意の数であるものとすることができる。この場合において、第２所定数は、第１所定数の数に近いほど、時系列に生成される複数の訓練データセットは、二次電池１０２、６０４について取得される時系列の訓練データをシームレスに含むものとなり、モデル１４０におけるＳＯＣ推定精度をより向上することができる。モデル１４０におけるＳＯＣ推定精度を向上する観点からは、第２所定数は、第１所定数の１／３以上であることが好ましく、１／２以上であることが更に好ましく、また、本実施形態のように、第１所定数から１を減じた数であることが最も好ましい。

また、上述した実施形態では、訓練データは、二次電池１０２等について測定された状態変数の測定値と、当該測定値が測定されたときに算出されたＳＯＣ値と、により構成されるものとしたが、これには限られない。機械学習装置１００のモデル学習部１３６では、訓練データセットを構成する末尾の訓練データが含むＳＯＣ値のみを教師データとして用いるので、当該訓練データセットを構成する他の訓練データには、ＳＯＣ値は含まれなくてもよい。例えば、充電率算出部１３２が算出するＳＯＣ値は、第１所定数の訓練データで構成される訓練データセットの末尾に対応する訓練データにのみ付加されるか、又は当該末尾に対応する訓練データに対応付けられた別のデータとして記憶装置１２２に記憶されるものとしてもよい。

また、上述した第１の実施形態では、学習終了条件として、単に学習に用いた訓練データセットの数が所定数を超えたときに学習を終了するものとしたが、これには限られない。例えば、二次電池１０２を限界まで充電したときのＳＯＣ値を当該二次電池１０２の劣化指標とし、当該劣化指標が様々な値を持つ場合において、及び又は、様々な環境温度下において、所定数の訓練データセットを用いた学習を行うものとすることができる。これにより、二次電池１０２の劣化の程度や二次電池１０２の環境温度に依存し得る、当該二次電池１０２の放電特性を加味したＳＯＣ推定を行い得るモデル１４０を生成することができる。

また、上述した実施形態では、二次電池１０２等の状態変数の測定値が取得されるにつれて、ＲＮＮを用いたモデル１４０についての学習が行われるものとしたが、これには限られない。例えば、第１の実施形態に係る機械学習装置１００では、訓練データ生成部１３４は、放電サイクルの開始から終了までの間に取得される状態変数測定値から、一連の訓練データを生成して記憶装置１２２に記憶しておいてもよい。機械学習装置１００は、その放電サイクルにおける最後の状態変数測定値を用いた訓練データを記憶装置１２２に記憶した後で、当該記憶された訓練データを用いて、一連の訓練データセットを生成して、モデル学習部１３６へ出力するものとすることができる。

また、上述した実施形態では、訓練データを構成する二次電池１０２の状態変数として、これら二次電池の端子間の電圧Ｅ、電流Ｉ、温度Ｔを用いるものとしたが、これには限られない。訓練データを構成する状態変数は、これらに加えて、例えば二次電池１０２の内部インピーダンスと用いるものとしてもよい。

また、上述した実施形態では、ＳＯＣ（充電率）は、二次電池１０２の定格充電容量まで充電された状態、すなわち、充電残量が定格充電容量に等しい場合を１００％とするものとしたが（式（１）参照）、これには限られない。例えば、その時々の限界充電状態まで充電された状態でＳＯＣを１００％とし、次式で算出されるものとしてもよい。
（現在の充電残量）÷（限界充電状態での充電残量）×１００（％）（２）

また、上述した実施形態では、充電率推定装置６００は、車両６０２に搭載されて、当該車両６０２を駆動する駆動モータ６０６への給電を行う二次電池６０４のＳＯＣを推定するものとしたが、これには限られない。充電率推定装置６００は、二次電池を用いる任意の乗り物、装置、設備、建物等において、当該二次電池のＳＯＣを推定するよう構成され得る。

以上説明したように、上述した機械学習装置１００は、二次電池１０２の放電量および充電量を実測して二次電池１０２のＳＯＣ（充電率）を算出する充電率算出部１３２と、二次電池１０２の、電圧Ｅ、電流Ｉ、及び温度Ｔを含む二次電池１０２の状態変数を所定の観測タイミング（例えば、所定の時間間隔Δｔ）で繰り返し観測する状態観測部１３０と、を備える。また、機械学習装置１００は、観測した上記観測タイミング毎の状態変数の測定値によりそれぞれ構成される訓練データを、状態変数の観測タイミング順に第１所定数（例えば５０個）だけ時系列に並べた訓練データセットを生成する訓練データ生成部１３４を備える。

さらに、機械学習装置１００は、当該生成された訓練データセットに従って、二次電池１０２の状態変数の時系列データから現在の二次電池１０２のＳＯＣを推定するモデル１４０を学習により生成するモデル学習部１３６を備える。ここで、訓練データ生成部１３４は、訓練データセットの末尾の第２所定数（例えば４９個）の時系列の訓練データを先頭の訓練データとして含む次の訓練データセットを生成する。そして、訓練データ生成部１３４は、生成した複数の上記訓練データセットを、それらの先頭の訓練データに係る状態変数の観測タイミングが時系列となる順に、モデル学習部１３６へ順次入力する。

この構成によれば、全体として二次電池１０２の状態変化のデータをシームレスに含んだ複数の訓練データセットを用いて、第１所定数の時系列の状態変数（訓練データ）から現在の一のＳＯＣを推定するモデルが生成されるので、二次電池１０２のＳＯＣを、従来に比べて高精度に推定することができる。すなわち、従来技術のように二次電池を加速劣化させることなく、実使用状態又はこれに近い状態における特性測定値（すなわち、状態変数の測定値）から、ＳＯＣを精度良く推定し得るモデルを効率的に生成することができる。

また、機械学習装置１００では、上記第２所定数は、上記第１所定数から１を減じて算出される数である。訓練データ生成部１３４は、訓練データセットを構成する時系列の訓練データのうち先頭の訓練データを除く他の訓練データを全て含む次の訓練データセットを生成するよう構成されている。この構成によれば、ＳＯＣ推定精度をより向上することができる。

また、機械学習装置１００では、モデル１４０は、時系列データを処理するＲＮＮ（リカレントニューラルネットワーク）で構成される。この構成によれば、複数の時系列の状態変数（訓練データ）から現在の一のＳＯＣを推定するモデル１４０を効果的に生成することができる。

また、モデル１４０を構成するＲＮＮの中間層２０４は、ＬＳＴＭ（ロング・ショート・ターム・メモリ）またはＧＲＵ（ゲート付き回帰型ユニット）で構成される。この構成によれば、複数の時系列の状態変数（訓練データ）から現在の一のＳＯＣを推定するモデル１４０をより効果的かつ効率的に生成することができる。

また、機械学習装置１００は、二次電池１０２の電圧Ｅ、電流Ｉ、及び温度Ｔを含む二次電池１０２の状態変数を所定の観測タイミングで繰り返し観測するステップ（Ｓ１０２、Ｓ１０４）と、二次電池１０２の、現在までの放電量および充電量を算出して二次電池１０２の充電率を算出するステップ（Ｓ１０６）と、を含む機械学習方法を実行する。この機械学習方法は、また、上記観測した観測タイミング毎の状態変数の測定値によりそれぞれ構成される訓練データを、上記状態変数の観測タイミング順に第１所定数だけ時系列に並べた訓練データセットを生成するステップ（Ｓ１０８からＳ１１８）と、上記生成された訓練データセットに従って、二次電池の状態変数の時系列データから現在の二次電池１０２の充電率を推定するモデル１４０を学習により生成するステップ（Ｓ１２０、Ｓ１２４）と、を備える。さらに、この機械学習法方法では、上記訓練データセットを生成するステップは、訓練データセットの末尾の第２所定数の時系列の訓練データを先頭の訓練データとして含む次の訓練データセットを生成し（Ｓ１１８）、生成した複数の前記訓練データセットを、それらの先頭の前記訓練データに係る状態変数の観測タイミングが時系列となる順に、前記モデルを生成するステップの入力とする（Ｓ１２０）。

また、上述した第２の実施形態に係る充電率推定装置６００は、機械学習装置１００により生成されるか又は当該機械学習装置１００が実行する機械学習方法における学習により生成された、モデル１４０である学習済みモデル６６６を備える。また、充電率推定装置６００は、学習済みモデル６６６を用い、所定の観測タイミングで繰り返し観測される二次電池６０４の電圧Ｅ、電流Ｉ、及び温度Ｔを含む二次電池６０４の状態変数の時系列データから二次電池６０４の現在のＳＯＣを推定する充電率推定部６６８を備える。

この構成によれば、二次電池１０２のＳＯＣを従来に比べて高精度に推定することのできる充電率推定装置を実現することができる。

また、上述した第３の実施形態に係る充電率推定システム７００は、機械学習装置１００を備えた第１の移動体である車両７０２と、充電率推定装置６００を備える第２の移動体である車両６０２と、車両７０２および車両６０２に対し通信可能に接続されたモデル管理サーバ７０６と、を備える。モデル管理サーバ７０６は、処理装置９００を備える。処理装置９００は、モデル取得部９１０により、第１の移動体である車両７０２が備える機械学習装置１００が学習により生成したモデル１４０を取得する。また、処理装置９００は、モデル評価部９１２により、当該取得したモデルのＳＯＣの予測精度を、所定の評価用データを用いて算出する。そして、処理装置９００は、モデル配信部９１４により、上記算出した予測精度が所定の精度以上であるときに、モデル１４０を車両６０２が備える充電率推定装置６００へ送信する。

この構成によれば、車両用途において精度の良いＳＯＣ推定を行い得るモデル１４０を、車両間で共有して、任意の車両において精度の高いＳＯＣ推定に基づく車両制御を行うことができる。

１００…機械学習装置、１０２、６０４…二次電池、１０４…電源装置、１０６…負荷、１０８、６１０…切替スイッチ、１１０、６１６…特性測定器、１１２…学習管理装置、１２０…演算装置、１２２、６４２、６６２、９０２、…記憶装置、１３０…状態観測部、１３２…充電率算出部、１３４…訓練データ生成部、１３６…モデル学習部、１４０…モデル、２０２、２０２－１から２０２－４９まで…入力層、２０４…中間層、２０４－１から２０４－５０まで…隠れ層、２０６…出力層、３００、３０２…区間、６０２、７０２…車両、６０６…駆動モータ、６１２…内燃機関、６１４…発電機、６２０…車載ネットワークバス、６２２…ＴＣＵ、６２４…操作検知装置、６２６…測定制御装置、６２８…走行制御装置、６３０…アクセルペダルセンサ、６３２…ブレーキペダルセンサ、６４０、６６０、９００…処理装置、６４４，６６４、８００…ＮＷ通信装置、６４６…充放電制御部、６４８…走行制御部、６６６…学習済みモデル、６６８…充電率推定部、７００…充電率推定システム、７０４…通信ネットワーク、７０６…モデル管理サーバ、９０６…評価用データ、９０４…通信装置、９１０…モデル取得部、９１２…モデル評価部、９１４…モデル配信部。

Claims

二次電池の放電量および充電量を実測して前記二次電池の充電率を算出する充電率算出部と、
前記二次電池の、電圧、電流、及び温度を含む前記二次電池の状態変数を所定の観測タイミングで繰り返し観測する状態観測部と、
観測タイミングごとの前記状態変数の測定値によりそれぞれ構成される訓練データを、前記状態変数の観測タイミング順に第１所定数だけ時系列に並べた訓練データセットを生成する訓練データ生成部と、
生成された前記訓練データセットに従って、前記二次電池の状態変数の時系列データから現在の前記二次電池の充電率を推定するモデルを学習により生成するモデル学習部と、
を備え、
前記訓練データ生成部は、
一の前記訓練データセットの末尾の第２所定数の時系列の前記訓練データを先頭の前記訓練データとして含む他の前記訓練データセットを生成することにより、先頭の前記訓練データの観測タイミングが相異なる複数の前記訓練データセットを生成し、
生成した前記複数の訓練データセットを、それらの先頭の前記訓練データの観測タイミングが時系列となる順に、前記モデル学習部へ順次入力する、
よう構成されている、
機械学習装置。
前記第２所定数は、前記第１所定数から１を減じて算出される数であり、
前記訓練データ生成部は、前記他の訓練データセットとして、前記一の訓練データセットを構成する時系列の前記訓練データのうち先頭の前記訓練データを除く他の前記訓練データを全て含む前記訓練データセットを生成する、
請求項１に記載の機械学習装置。
前記モデルは、時系列データを入力とするＲＮＮ（リカレントニューラルネットワーク）で構成される、請求項１又は２に記載の機械学習装置。
前記モデルを構成するＲＮＮの中間層は、ＬＳＴＭ（ロング・ショート・ターム・メモリ）またはＧＲＵ（ゲート付きＲＮＮユニット）で構成される、請求項３に記載の機械学習装置。
二次電池の電圧、電流、及び温度を含む前記二次電池の状態変数を所定の観測タイミングで繰り返し観測するステップと、
前記二次電池の、現在までの放電量および充電量を算出して前記二次電池の充電率を算出するステップと、
観測タイミングごとの前記状態変数の測定値によりそれぞれ構成される訓練データを、前記状態変数の観測タイミング順に第１所定数だけ時系列に並べた訓練データセットを生成するステップと、
生成された前記訓練データセットに従って、前記二次電池の状態変数の時系列データから現在の前記二次電池の充電率を推定するモデルを学習により生成するステップと、
を備え、
前記訓練データセットを生成するステップでは、
一の前記訓練データセットの末尾の第２所定数の時系列の前記訓練データを先頭の前記訓練データとして含む他の前記訓練データセットを生成することにより、先頭の前記訓練データの観測タイミングが相異なる複数の前記訓練データセットを生成し、
生成した前記複数の訓練データセットを、それらの先頭の前記訓練データの観測タイミングが時系列となる順に、前記モデルを生成するステップの入力とする、
機械学習方法。
請求項１ないし４のいずれか一項に記載の機械学習装置により生成された又は請求項５に記載の機械学習方法における学習により生成された、前記モデルである学習済みモデルと、
前記学習済みモデルを用い、所定の観測タイミングで繰り返し観測される前記二次電池の電圧、電流、及び温度を含む前記二次電池の状態変数の時系列データから前記二次電池の現在の充電率を推定する充電率推定部と、
を備える充電率推定装置。
請求項１ないし４のいずれか一項に記載の機械学習装置を備えた第１の移動体と、
請求項６に記載の充電率推定装置を備える第２の移動体と、
前記第１の移動体および第２の移動体に対し通信可能に接続された、処理装置を備えるサーバと、
を備える充電率推定システムであって、
前記サーバの前記処理装置は、
前記第１の移動体が備える前記機械学習装置が生成した前記モデルを取得し、
取得した当該モデルの前記充電率の予測精度を、所定の評価用データを用いて算出し、
算出した予測精度が所定の精度以上であるときに、前記モデルを前記第２の移動体が備える前記充電率推定装置へ送信する、
よう構成されている、
充電率推定システム。