JP6590029B1 - 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法 - Google Patents

行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法 Download PDF

Info

Publication number
JP6590029B1
JP6590029B1 JP2018112966A JP2018112966A JP6590029B1 JP 6590029 B1 JP6590029 B1 JP 6590029B1 JP 2018112966 A JP2018112966 A JP 2018112966A JP 2018112966 A JP2018112966 A JP 2018112966A JP 6590029 B1 JP6590029 B1 JP 6590029B1
Authority
JP
Japan
Prior art keywords
storage element
action
power
soc
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018112966A
Other languages
English (en)
Other versions
JP2019216552A (ja
Inventor
南 鵜久森
南 鵜久森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GS Yuasa International Ltd
Original Assignee
GS Yuasa International Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GS Yuasa International Ltd filed Critical GS Yuasa International Ltd
Priority to JP2018112966A priority Critical patent/JP6590029B1/ja
Priority to CN201980039586.3A priority patent/CN112368904A/zh
Priority to DE112019002991.6T priority patent/DE112019002991T5/de
Priority to US16/973,388 priority patent/US20210255251A1/en
Priority to PCT/JP2019/023315 priority patent/WO2019240182A1/ja
Application granted granted Critical
Publication of JP6590029B1 publication Critical patent/JP6590029B1/ja
Publication of JP2019216552A publication Critical patent/JP2019216552A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/36Arrangements for testing, measuring or monitoring the electrical condition of accumulators or electric batteries, e.g. capacity or state of charge [SoC]
    • G01R31/392Determining battery ageing or deterioration, e.g. state of health
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/00032Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries characterised by data exchange
    • H02J7/00038Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries characterised by data exchange using passive battery identification means, e.g. resistors or capacitors
    • H02J7/00041Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries characterised by data exchange using passive battery identification means, e.g. resistors or capacitors in response to measured battery parameters, e.g. voltage, current or temperature profile
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/0047Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries with monitoring or indicating devices or circuits
    • H02J7/0048Detection of remaining charge capacity or state of charge [SOC]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/0047Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries with monitoring or indicating devices or circuits
    • H02J7/005Detection of state of health [SOH]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • H02J13/00004Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network characterised by the power network being locally controlled
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy
    • Y02E10/56Power conversion systems, e.g. maximum power point trackers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/12Monitoring or controlling equipment for energy generation units, e.g. distributed energy generation [DER] or load-side generation
    • Y04S10/123Monitoring or controlling equipment for energy generation units, e.g. distributed energy generation [DER] or load-side generation the energy generation units being or involving renewable energy sources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/14Energy storage units

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Power Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Tests Of Electric Status Of Batteries (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】蓄電素子の健康度を加味した、システム全体の最適な運用を実現することができる行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法を提供する。【解決手段】行動生成装置は、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子のSOHを含む状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づいて、前記蓄電素子の状態に対応する行動を生成する行動生成部とを備える。【選択図】図4

Description

本発明は、行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法に関する。
蓄電素子(Energy Storage Device)は、無停電電源装置、安定化電源に含まれる直流又は交流電源装置等に広く使用されている。また、再生可能エネルギー又は既存の発電システムにて発電された電力を蓄電しておく大規模な電力システムでの蓄電素子の利用が拡大している。
このような電力システムにおいては、太陽光発電装置又は風力発電装置等で発電された電力を電力会社に売電する市場取引が行われている。特許文献1には、予測される電力需要量と供給可能な電力量とに基づいて、より高い価格で売電することができるタイミングを提供する技術が開示されている。
特開2017−151756号公報
しかし、特許文献1の技術では、蓄電素子の健康度について考慮されていない。例えば、売電のタイミングだけを優先するシステム運用を行うと、蓄電素子の健康度が低下するおそれがある。一方で、蓄電素子の健康度を過度に優先する場合は、売電量の拡大や買電の抑制につながらない。
本発明は、蓄電素子の健康度を加味した、システム全体の最適な運用を実現することができる行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法を提供することを目的とする。
行動生成装置は、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子のSOHを含む状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づいて、前記蓄電素子の状態に対応する行動を生成する行動生成部とを備える。
コンピュータプログラムは、コンピュータに、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する処理と、選択した行動を実行したときの報酬及び前記蓄電素子のSOHを含む状態を取得する処理と、取得した報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習させる処理とを実行させる。
学習方法は、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの報酬及び前記蓄電素子のSOHを含む状態を取得し、取得された報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する。
蓄電素子評価装置は、更新済の行動評価情報を含む学習済モデルと、蓄電素子のSOHを含む状態を取得する状態取得部と、前記状態取得部で取得した状態を前記学習済モデルに入力し、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する評価生成部とを備える。
コンピュータプログラムは、コンピュータに、蓄電素子のSOHを含む状態を取得する処理と、更新済の行動評価情報を含む学習済モデルに、取得した状態を入力する処理と、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する処理とを実行させる。
評価方法は、蓄電素子のSOHを含む状態を取得し、更新済の行動評価情報を含む学習済モデルに、取得した状態を入力し、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する。
上記の構成により、蓄電素子の健康度を加味した、システム全体の最適な運用を実現することができる。
本実施の形態の遠隔監視システムの概要を示す図である。 遠隔監視システムの構成の一例を示すブロック図である。 通信デバイスの接続形態の一例を示す図である。 サーバ装置の構成の一例を示すブロック図である。 消費電力量情報の一例を示す模式図である。 発電量情報の一例を示す模式図である。 季節毎の電力の需給インバランス量の推移の一例を示す模式図である。 環境温度情報の一例を示す模式図である。 寿命予測シミュレータの動作を示す模式図である。 仮想的なSOC変動の一例を示す模式図である。 SOCの特徴量の一例を示す模式図である。 売電用途向け運用例でのSOCに関連する設定の一例を示す模式図である。 本実施の形態の強化学習の一例を示す模式図である。 評価値テーブルの構成の一例を示す模式図である。 行動の一例を示す模式図である。 強化学習の状態遷移の様子の一例を示す模式図である。 本実施の形態の強化学習によって得られた運用方法の一例を示す模式図である。 本実施の形態の強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。 自給自足使用用途向け運用例でのSOCに関連する設定の一例を示す模式図である。 第2の例での評価値テーブルの構成の一例を示す模式図である。 本実施の形態の強化学習によって得られた第2の例の運用方法の一例を示す模式図である。 本実施の形態の強化学習の処理手順の一例を示すフローチャートである。 蓄電素子評価装置としてのサーバ装置の構成の一例を示すブロック図である。 本実施の形態のサーバ装置による蓄電素子の評価方法の処理手順の一例を示すフローチャートである。 本実施の形態のサーバ装置が生成する評価結果の一例を示す模式図である。
行動生成装置は、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する行動選択部と、前記行動選択部で選択した行動を実行したときの前記蓄電素子のSOHを含む状態を取得する状態取得部と、前記行動選択部で選択した行動を実行したときの報酬を取得する報酬取得部と、前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、前記更新部で更新した行動評価情報に基づいて、前記蓄電素子の状態に対応する行動を生成する行動生成部とを備える。
コンピュータプログラムは、コンピュータに、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する処理と、選択した行動を実行したときの報酬及び前記蓄電素子のSOHを含む状態を取得する処理と、取得した報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習させる処理とを実行させる。
学習方法は、蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択し、選択された行動を実行したときの報酬及び前記蓄電素子のSOHを含む状態を取得し、取得された報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する。
行動選択部は、蓄電素子のSOC(State Of Charge)に関連する設定を含む行動を、行動評価情報に基づいて選択する。行動評価情報は、強化学習において、環境のある状態での行動の評価値を定める行動価値関数又はテーブル(表)であり、Q学習では、Q値又はQ関数を意味する。SOCに関連する設定は、例えば、SOCの上限値(蓄電素子の過充電を避けるため)、SOCの下限値(蓄電素子の過放電を避けるため)、蓄電素子のSOCを所要値にするためのSOC調整量(蓄電素子を予め充電しておくため)などの設定を含む。行動選択部は、強化学習でのエージェントに相当し、行動評価情報において最も評価の高い行動を選択することができる。
状態取得部は、選択した行動を実行したときの蓄電素子のSOH(State Of Health)を含む状態を取得する。行動選択部によって選択された行動が実行されると、環境の状態は変化する。状態取得部は、変化した状態を取得する。
報酬取得部は、選択した行動を実行したときの報酬を取得する。報酬取得部は、行動選択部が環境に対して望ましい結果を作用させたときに高い値(正値)を取得する。報酬が0のときは、報酬なしであり、報酬が負値のときはペナルティとなる。
更新部は、取得した状態及び報酬に基づいて、行動評価情報を更新する。より具体的には、更新部は、強化学習でのエージェントに相当し、行動に対する報酬を最大化する方向へ行動評価情報を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
行動生成部は、更新した行動評価情報に基づいて、蓄電素子の状態を含めたシステム運用に対応する行動を生成する。これにより、蓄電素子の様々な状態(例えば、様々なSOH)に対して、例えば、SOCに関連する設定の最適値が強化学習によって得られるので、蓄電素子を含めたシステムの最適な運用を実現することができる。
行動生成装置において、前記SOCに関連する設定は、SOCの上限値、SOCの下限値、前記蓄電素子への充電または放電に基づくSOC調整量の少なくとも一つの設定を含んでもよい。
SOCに関連する設定は、SOCの上限値、SOCの下限値、前記蓄電素子への充電または放電に基づくSOC調整量の少なくとも一つの設定を含む。なお、設定には、蓄電素子の最大電流、上下限電圧などを含んでもよい。SOCの上限値の設定は、蓄電素子に対する過充電を防止できる。SOCの下限値の設定は、蓄電素子に対する過放電を防止できる。SOCの上限値及び下限値の設定は、蓄電素子の充放電に伴って変化するSOCの中心SOC及びSOCの変動幅を調整することができる。SOCの中心は、変化するSOCの平均であり、SOCの変動幅は、変化するSOCの最大値と最小値との差である。蓄電素子の劣化値は、SOCの中心、SOCの変動幅に応じて変化する。これにより、蓄電素子の状態(例えば、SOH)に応じて劣化の度合いを抑制するための、SOCに関連する設定を学習することができる。
SOC調整量は、蓄電素子を負荷に接続する前に、夜間に電力系統から蓄電素子を充電し、蓄電素子のSOCを所要値にするための調整量である。例えば、SOCが20%の蓄電素子のSOCを90%にしておく場合、SOC調整量は70%(=90−20)となる。これにより、負荷の電力需要を満たしつつ昼から夜にかけての余剰電力を売電することができ、売電も考慮しつつ蓄電素子の劣化の度合いを抑制するための、SOCに関連する設定を学習することができる。また、電気料金の安い夜間に充電した電力を昼間に使用することにより、電気料金の高い昼間における買電を避けたシステムの運用方法も学習することができる。
行動生成装置において、前記行動は、前記蓄電素子の環境温度の設定を含んでもよい。
行動は、蓄電素子の環境温度の設定を含む。蓄電素子の環境温度に基づいて蓄電素子の温度を推定することができる。蓄電素子の劣化値は、蓄電素子の温度に応じて変化するので、蓄電素子の状態(例えば、SOH)に応じて劣化の度合いを抑制することができる環境温度の設定を学習することができる。一方で、環境温度の調整のために電力を消費することで、コストが増大する。本開示により、このような電力消費も最小となるような環境温度設定を学習することができる。
行動生成装置は、前記蓄電素子が接続される発電設備での発電量情報を取得する発電量情報取得部と、電力需要設備での消費電力量情報を取得する消費電力量情報取得部と、前記発電量情報、前記消費電力量情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のSOCの推移を推定するSOC推移推定部と、前記SOC推移推定部で推定したSOCの推移に基づいて前記蓄電素子のSOHを推定するSOH推定部とを備え、前記状態取得部は、前記SOH推定部が推定したSOHを取得してもよい。
発電量情報取得部は、蓄電素子が接続される発電設備(電力系統)での発電量情報を取得する。発電量情報は、所定期間に亘る発電電力の推移を表す情報である。所定期間は、例えば、1日、1週間、1月、春夏秋冬、1年などの期間とすることができる。ここで、発電量は再生可能エネルギー又は既存の発電システムにて発電した量を指している。発電システムは、電力会社、および商業(民生)の大型の発電施設でもよく、事業所やビル、商業施設・役所・鉄道(駅舎)などの公共施設、あるいは家庭用発電システムといった小型の発電施設でもよい。
消費電力量情報取得部は、電力需要設備(電力系統)での消費電力量情報を取得する。消費電力量情報は、所定期間に亘る消費電力の推移を表す情報である。所定期間は、発電量情報の所定期間と同じ期間とすることができる。消費電力量情報は、蓄電素子を使用するユーザの要求負荷パターンを表す情報である。なお、電力系統には、発電設備及び電力需要設備が含まれる。
SOC推移推定部は、発電量情報、消費電力量情報及び選択した行動に基づいて蓄電素子のSOCの推移を推定する。所定期間において、発電電力が消費電力よりも多いときは、蓄電素子の充電が行われ、SOCは増加する。一方、発電電力が消費電力よりも少ないときは、蓄電素子の放電が行われ、SOCは減少する。所定期間においては、蓄電素子の充放電が行われないときもある(例えば、夜間など)。SOCの変動は、上限値と下限値とによって制限される。SOC調整量によって、SOCを増加させることができる。これにより、所定期間に亘ってSOCの推移を推定することができる。
SOH推定部は、推定されたSOCの推移に基づいて蓄電素子のSOHを推定する。状態取得部は、SOH推定部が推定したSOHを取得する。蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができる。経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOCの関数である。また、通電劣化値Qcurは、例えば、Qcur=K2×√(t)で求めることができる。ここで、係数K2は、SOCの関数である。所定期間の始点でのSOHをSOH1とし、終点でのSOHをSOH2とすると、SOH2=SOH1−QdegによりSOHを推定することができる。
これにより、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
行動生成装置は、前記蓄電素子での環境温度情報を取得する温度情報取得部を備え、前記SOH推定部は、前記環境温度情報に基づいて前記蓄電素子のSOHを推定してもよい。
温度情報取得部は、蓄電素子での環境温度情報を取得する。環境温度情報は、所定期間に亘る環境温度の推移を表す情報である。
SOH推定部は、推定されたSOCの推移及び環境温度情報に基づいて蓄電素子のSOHを推定する。状態取得部は、SOH推定部が推定したSOHを取得する。蓄電素子の所定期間後の劣化値Qdegは、通電劣化値Qcurと非通電劣化値Qcndとの和で表すことができる。経過時間をtで表すと、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOC及び温度Tの関数である。また、通電劣化値Qcurは、例えば、Qcur=K2×√(t)で求めることができる。ここで、係数K2は、SOC及び温度Tの関数である。所定期間の始点でのSOHをSOH1とし、終点でのSOHをSOH2とすると、SOH2=SOH1−QdegによりSOHを推定することができる。
これにより、将来の所定期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに所定期間経過後の劣化値を算出すれば、当該所定期間経過後のSOHをさらに推定することができる。SOHの推定を所定期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
行動生成装置は、前記発電設備又は電力需要設備への売電量に基づいて報酬を算出する報酬算出部を備え、前記報酬取得部は、前記報酬算出部で算出した報酬を取得してもよい。
報酬算出部は、発電設備又は電力需要設備への売電量に基づいて報酬を算出する。例えば、蓄電素子に蓄えられた余剰電力を積極的に売電する運用の場合には、売電量が多いほど報酬が大きい値となるように算出する。これにより、電力の売電用途向けの電力システムの最適な運用を実現することができる。
また、蓄電素子に蓄えられた余剰電力を極力売電しない運用の場合には、売電量が小さいほど報酬が大きい値となるように算出する。これにより、電力の自給自足使用用途向けの電力システムの最適な運用を実現することができる。
行動生成装置は、前記行動の実行に起因する消費電力量に基づいて報酬を算出する報酬算出部を備え、前記報酬取得部は、前記報酬算出部で算出した報酬を取得してもよい。
報酬算出部は、行動の実行に起因する消費電力量に基づいて報酬を算出する。行動の実行に起因する消費電力量は、例えば、SOC調整量の設定、環境温度の設定などによって生じる電力消費であり、SOC調整量、環境温度などを変数とする関数により算出することができる。例えば、SOC調整量が大きい場合、報酬を負値(ペナルティ)とすることができる。これにより、消費電力量を抑制しつつ蓄電素子の最適な運用を実現することができる。
行動生成装置は、前記蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する報酬算出部を備え、前記報酬取得部は、前記報酬算出部で算出した報酬を取得してもよい。
報酬算出部は、蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出する。例えば、蓄電素子のSOHがEOL(End Of Life)を下回らないときは、報酬を与え、SOHがEOL以下になったときは、ペナルティを与えることができる。これにより、蓄電素子の期待寿命(例えば、10年、15年など)に達するような最適な運用を実現することができる。
蓄電素子評価装置は、更新済の行動評価情報を含む学習済モデルと、蓄電素子のSOHを含む状態を取得する状態取得部と、前記状態取得部で取得した状態を前記学習済モデルに入力し、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する評価生成部とを備える。
コンピュータプログラムは、コンピュータに、蓄電素子のSOHを含む状態を取得する処理と、更新済の行動評価情報を含む学習済モデルに、取得した状態を入力する処理と、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する処理とを実行させる。
評価方法は、蓄電素子のSOHを含む状態を取得し、更新済の行動評価情報を含む学習済モデルに、取得した状態を入力し、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する。
学習済モデルは、更新済、すなわち学習済の行動評価情報を含む。状態取得部で取得した蓄電素子のSOHを含む状態を学習モデルに入力すると、学習モデルは、蓄電素子を含めたシステム運用に対応する行動を出力する。評価生成部は、学習モデルが出力する蓄電素子の行動に基づいて蓄電素子の評価結果を生成する。評価結果は、例えば、蓄電素子の健康度を加味した、蓄電素子を含むシステム全体の最適な運用方法を含む。
蓄電素子評価装置は、前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、前記評価生成部は、前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の評価結果を生成する。
評価生成部は、パラメータ取得部で取得した設計パラメータに応じて蓄電素子の評価結果を生成する。蓄電素子の設計パラメータは、システムの実際の運用に先立って、蓄電素子の種類、数、定格などのシステム設計に必要な種々のパラメータを含む。設計パラメータに応じて蓄電素子の評価結果を生成することにより、例えば、どのような設計パラメータを採用すれば、健康度を加味した、システム全体の最適な運用方法が得られるかを把握することができる。
以下、本実施の形態に係る行動生成装置及び蓄電素子評価装置を図面に基づいて説明する。図1は本実施の形態の遠隔監視システム100の概要を示す図である。図1に示すように、ネットワークNは、公衆通信網(例えば、インターネットなど)N1及び移動通信規格による無線通信を実現するキャリアネットワークN2などを含む。ネットワークNには、火力発電システムF、メガソーラー発電システムS、風力発電システムW、無停電電源装置(UPS:Uninterruptible Power Supply)U及び鉄道用の安定化電源システム等に配設される整流器(直流電源装置、又は交流電源装置)Dなどが接続されている。また、ネットワークNには、後述の通信デバイス1、通信デバイス1から情報を収集し、行動生成装置としてのサーバ装置2、及び収集された情報を取得するクライアント装置3などが接続されている。
より具体的には、キャリアネットワークN2には基地局BSが含まれる。クライアント装置3は、基地局BSからネットワークNを経由してサーバ装置2と通信することができる。また、公衆通信網N1にはアクセスポイントAPが接続されており、クライアント装置3は、アクセスポイントAPからネットワークNを経由してサーバ装置2との間で情報を送受信することができる。
メガソーラー発電システムS、火力発電システムF及び風力発電システムWには、パワーコンディショナ(PCS:Power Conditioning System)P、及び蓄電システム101が併設されている。蓄電システム101は、蓄電モジュール群Lを収容したコンテナCを複数並設して構成されている。蓄電モジュール群Lは、例えば、蓄電セル(セルとも称する)を複数直列に接続した蓄電モジュール(モジュールとも称する)と、蓄電モジュールを複数直列に接続したバンクと、バンクを複数並列に接続したドメインとの階層構造にて構成されている。蓄電素子は、鉛蓄電池及びリチウムイオン電池のような二次電池や、キャパシタのような、再充電可能なものであることが好ましい。蓄電素子の一部が、再充電不可能な一次電池であってもよい。メガソーラー発電システムS、火力発電システムF、風力発電システムW、パワーコンディショナP及び蓄電システム101は、不図示の送配電網を通じて電力需要設備に電力を供給する。電力系統は、蓄電システム101と接続される発電設備及び電力需要設備などを含む。
図2は遠隔監視システム100の構成の一例を示すブロック図である。遠隔監視システム100は、通信デバイス1、サーバ装置2、クライアント装置3などを備える。
図2に示すように、通信デバイス1は、ネットワークNに接続されるとともに、対象装置P、U、D、Mにも接続されている。対象装置P、U、D、Mは、パワーコンディショナP、無停電電源装置U、整流器D、後述する管理装置Mを含む。
遠隔監視システム100では、各対象装置P、U、D、Mに接続した通信デバイス1を用いて、蓄電システム101における蓄電モジュール(蓄電セル)の状態(例えば、電圧、電流、温度、充電状態(SOC:State Of Charge))を監視するとともに収集する。遠隔監視システム100は、検知された蓄電セルの状態(劣化状態、異常状態などを含む)をユーザ又はオペレータ(保守担当者)が確認できるように提示する。
通信デバイス1は、制御部10、記憶部11、第1通信部12及び第2通信部13を備える。制御部10は、CPU(Central Processing Unit)などで構成され、内蔵するROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを用い、通信デバイス1全体を制御する。
記憶部11は、例えば、フラッシュメモリ等の不揮発性メモリを用いることができる。記憶部11には、制御部10が読み出して実行するデバイスプログラム1Pが記憶されている。記憶部11には、制御部10の処理によって収集された情報、イベントログ等の情報が記憶される。
第1通信部12は、対象装置P、U、D、Mとの通信を実現する通信インタフェースであり、例えば、RS−232C又はRS−485等のシリアル通信インタフェースを用いることができる。
第2通信部13は、ネットワークNを経由して通信を実現するインタフェースであり、例えば、Ethernet(登録商標)、又は無線通信用アンテナ等の通信インタフェースを用いる。制御部10は、第2通信部13を介してサーバ装置2と通信が可能である。
クライアント装置3は、発電システムS、Fの蓄電システム101の管理者、対象装置P、U、D、Mの保守担当者等のオペレータが使用するコンピュータであってもよい。クライアント装置3は、デスクトップ型又はラップトップ型のパーソナルコンピュータであってもよいし、スマートフォン又はタブレット型の通信端末であってもよい。クライアント装置3は、制御部30、記憶部31、通信部32、表示部33、及び操作部34を備える。
制御部30は、CPUを用いたプロセッサである。制御部30は、記憶部31に記憶されているWebブラウザプログラムに基づき、サーバ装置2又は通信デバイス1により提供されるWebページを表示部33に表示させる。
記憶部31は、例えばハードディスク又はフラッシュメモリ等の不揮発性メモリを用いる。記憶部31には、Webブラウザプログラムを含む各種プログラムが記憶されている。
通信部32は、有線通信用のネットワークカード等の通信デバイス、基地局BS(図1参照)に接続する移動通信用の無線通信デバイス、又はアクセスポイントAPへの接続に対応する無線通信デバイスを用いることができる。制御部30は、通信部32により、ネットワークNを介してサーバ装置2又は通信デバイス1との間で通信接続又は情報の送受信が可能である。
表示部33は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等のディスプレイを用いることができる。表示部33は、制御部30のWebブラウザプログラムに基づく処理により、サーバ装置2で提供されるWebページのイメージを表示することができる。
操作部34は、制御部30との間で入出力が可能なキーボード及びポインティングデバイス、若しくは音声入力部等のユーザインタフェースである。操作部34は、表示部33のタッチパネル、又は筐体に設けられた物理ボタンを用いてもよい。操作部34は、ユーザによる操作情報を制御部20へ通知する。
サーバ装置2の構成については後述する。
図3は通信デバイス1の接続形態の一例を示す図である。図3に示すように、通信デバイス1は、管理装置Mに接続される。管理装置Mには、さらに、バンク#1〜#Nそれぞれに設けられた管理装置Mが接続されている。なお、通信デバイス1は、バンク#1〜#Nそれぞれに設けられた管理装置Mと通信して蓄電素子の情報を受信する端末装置(計測モニタ)であってもよいし、電源関連装置に接続可能なネットワークカード型の通信デバイスであってもよい。
各バンク#1〜#Nは、複数の蓄電モジュール60を備え、各蓄電モジュール60は、制御基板(CMU:Cell Monitoring Unit)70を備える。バンク毎に設けられている管理装置Mは、蓄電モジュール60に夫々内蔵されている通信機能付きの制御基板70とシリアル通信によって通信を行うことができるとともに、通信デバイス1に接続された管理装置Mとの間で情報の送受信を行うことができる。通信デバイス1に接続された管理装置Mは、ドメインに所属するバンクの管理装置Mからの情報を集約し、通信デバイス1へ出力する。
図4はサーバ装置2の構成の一例を示すブロック図である。サーバ装置2は、制御部20、通信部21、記憶部22、及び処理部23を備える。処理部23は、寿命予測シミュレータ24、報酬算出部25、行動選択部26及び評価値テーブル27を備える。サーバ装置2は、1台のサーバコンピュータでもよいが、代替的に、複数台のサーバコンピュータで構成してもよい。
制御部20は、例えば、CPUで構成することができ、内蔵するROM及びRAM等のメモリを用い、サーバ装置2全体を制御する。制御部20は、記憶部22に記憶されているサーバプログラム2Pに基づく情報処理を実行する。サーバプログラム2PにはWebサーバプログラムが含まれ、制御部20は、クライアント装置3へのWebページの提供、Webサービスへのログインの受け付け等を実行するWebサーバとして機能する。制御部20は、サーバプログラム2Pに基づき、SNMP(Simple Network Management Protocol)用サーバとして通信デバイス1から情報を収集することも可能である。
通信部21は、ネットワークNを介した通信接続及びデータの送受信を実現する通信デバイスである。具体的には、通信部21は、ネットワークNに対応したネットワークカードである。
記憶部22は、例えばハードディスク又はフラッシュメモリ等の不揮発性メモリを用いることができる。記憶部22には、制御部20の処理によって収集される監視対象となる対象装置P、U、D、Mの状態を含むセンサ情報(例えば、蓄電素子の電圧データ、電流データ、温度データ)を記憶する。
記憶部22は、蓄電システム101が接続される電力系統での消費電力量情報を記憶する。電力系統には、メガソーラー発電システムS、火力発電システムF及び風力発電システムWなどの発電設備並びに電力需要設備が含まれる。消費電力量情報は、所定期間に亘る消費電力の推移を表す情報である。所定期間は、例えば、1日、1週間、1月、春夏秋冬、1年などの期間とすることができる。消費電力量情報は、蓄電システム101を使用するユーザの要求負荷パターンを表す情報である。なお、消費電力量情報は、例えば、バンク単位で区分して記憶しておくことができ、バンクを構成する蓄電素子(電池セル)については、バンク毎の共通の消費電力量情報を用いることができる。なお、消費電力量情報は、過去の実績、将来の予測の両方を含む。
図5は消費電力量情報の一例を示す模式図である。図5において、横軸は時間を示し、縦軸は時間帯毎の消費電力量を示す。図5では、春夏秋冬に分けて1日の消費電力量の推移が図示されている。図5に示す消費電力パターン(負荷パターンとも称する)では、朝7時から8時頃、昼頃、及び夜8時頃に電力消費のピークが表れているが、消費電力パターンは、代替的に図5の例と異なるものでもよい。
記憶部22は、蓄電システム101が接続される電力系統での発電量情報を記憶する。発電量情報は、所定期間に亘る発電電力の推移を表す情報である。所定期間は、消費電力量情報と同様に、1日、1週間、1月、春夏秋冬、1年などの期間とすることができる。ここで、発電量は再生可能エネルギー又は既存の発電システムにて発電した量を指している。発電システムは、電力会社、および商業(民生)の大型の発電施設でもよく、事業所やビル、商業施設・役所・鉄道(駅舎)などの公共施設、あるいは家庭用発電システムといった小型の発電施設でもよい。なお、発電量情報は、バンク単位で区分して記憶しておくことができ、バンクを構成する蓄電素子(電池セル)については、バンク毎の共通の発電量情報を用いることができる。なお、発電量情報は、過去の実績、将来の予測の両方を含む。
図6は発電量情報の一例を示す模式図である。図6において、横軸は時間を示し、縦軸は時間帯毎の発電量を示す。なお、図6では、太陽光発電による発電量と電力消費量の両方の差がわかるように図示している。図6に示す入出力電力は夏場の場合を示す。図6に示す発電量パターンでは、昼間(特に、正午前後)に発電電のピークが表れているが、発電量パターンは、代替的に図6の例と異なるものでもよい。
図7は季節毎の電力の需給インバランス量の推移の一例を示す模式図である。図7において、横軸は時間を示し、縦軸は需給インバランス量を示す。需給インバランス量が正の場合、消費のほうが大きいことを表し、需給インバランス量が負の場合、発電のほうが大きいことを表す。図7に示すように、需給インバランスは、例えば、太陽光発電設備に併設した蓄電システム101の充放電によって吸収することができる。
記憶部22は、蓄電システム101での環境温度情報を記憶する。環境温度情報は、所定期間に亘る環境温度の推移を表す情報である。なお、環境温度情報は、バンク単位で区分して記憶しておくことができ、バンクを構成する蓄電素子(電池セル)については、蓄電素子の配置などによって補正した環境温度を用いることができる。なお、環境温度情報は、過去の実績、将来の予測の両方を含む。例えば、将来の気象条件の予測データを加味し、推定精度を更に向上することができる。
図8は環境温度情報の一例を示す模式図である。図8において、横軸は時間を示し、縦軸は温度を示す。図8では、1日の環境温度の推移が図示されている。図8に示す温度パターンでは、昼間は温度が若干高く、夜間は低くなっているが、温度パターンは、代替的に図8の例と異なるものでもよい。
処理部23は、記憶部22のデータベースに収集された蓄電素子(蓄電モジュール、蓄電セル)のセンサ情報(時系列の電圧データ、時系列の電流データ、時系列の温度データ)を、蓄電素子毎に区分して取得することができる。
処理部23は、上述の消費電力量情報、発電量情報及び環境温度情報を記憶部22から取得することができる。
処理部23において、報酬算出部25、行動選択部26及び評価値テーブル27は、強化学習を行う機能を構成する。処理部23は、寿命予測シミュレータ24が出力する蓄電素子の劣化値(蓄電素子のSOH(State Of Health)に置き換えることが可能)を用いて強化学習させることにより、蓄電素子の期待寿命(例えば、10年、15年など)に達するような最適な運用条件を求めることができる。以下、処理部23の詳細について説明する。
図9は寿命予測シミュレータ24の動作を示す模式図である。寿命予測シミュレータ24は、負荷パターン(消費電力量情報)、発電量パターン(発電量情報)及び温度パターン(環境温度情報)を入力データとして取得する。寿命予測シミュレータ24は、蓄電素子のSOC推移を推定するとともに、蓄電素子の劣化値を推定(算出)する。また、寿命予測シミュレータ24は、行動選択部26が選択した行動を取得し、蓄電素子のSOC推移を推定するとともに、蓄電素子の劣化値を推定することができる。
劣化値は、時点tでのSOH(健康度ともいう)をSOHt とし、時点t+1でのSOHをSOHt+1 とすると、劣化値は(SOHt −SOHt+1 )となる。ここで、時点は、現在又は将来のある時点とすることができ、時点t+1は、時点tから将来に向かって所要の時間が経過した時点とすることができる。時点tと時点t+1との時間差は、寿命予測シミュレータ24の寿命予測対象期間であり、どの程度の将来に対して寿命を予測するかに応じて適宜設定することができる。時点tと時点t+1との時間差は、例えば、1か月、半年、1年、2年などの所要の時間とすることができる。
また、負荷パターン、発電量パターン又は温度パターンの始点から終点までの期間が、寿命予測シミュレータ24の寿命予測対象期間よりも短い場合には、例えば、負荷パターン、発電量パターン又は温度パターンを寿命予測対象期間に亘って繰り返し用いることができる。
寿命予測シミュレータ24は、SOC推移推定部としての機能を有し、発電量パターン、負荷パターン及び行動選択部26が選択した行動に基づいて蓄電素子のSOCの推移を推定する。寿命予測対象期間において、発電電力が消費電力よりも多いときは、蓄電素子の充電が行われ、SOCは増加する。一方、発電電力が消費電力よりも少ないときは、蓄電素子の放電が行われ、SOCは減少する。寿命予測対象期間においては、蓄電素子の充放電が行われないときもある(例えば、夜間など)。また、SOCの変動は、SOCの上限値と下限値とによって制限される。また、SOC調整量によって、SOCを増加させることができる。これにより、寿命予測シミュレータ24は、寿命予測対象期間に亘ってSOCの推移を推定することができる。
図10は仮想的なSOC変動の一例を示す模式図である。図10において、横軸は時間を示し、縦軸はSOCを示す。図10に示す季節毎のSOC変動は、図7に例示した季節毎の需給インバランスを吸収すべく蓄電素子の充放電を行った結果のSOCの推移に相当する。なお、図10では、便宜上、行動選択部26が選択した行動は省略している。
図11はSOCの特徴量の一例を示す模式図である。図11において、横軸は時間を示し、縦軸はSOCを示す。図中、SOCの変動は、便宜上、正弦波状としているが、実際のSOCの変動は正弦波状にならない場合がある。始点は時点tとすることができ、終点は時点t+1とすることができる。SOCの特徴量は、蓄電素子の劣化(又はSOH)に影響を与えるものであり、例えば、SOC平均(中心SOCとも称する)、SOC変動幅などを含む。中心SOCは、始点から終点までの間のSOCの値をサンプリングして合計した値をサンプリング数で除算した値である。SOC変動幅は、始点から終点までの間のSOCの最大値と最小値との差である。
寿命予測シミュレータ24は、蓄電素子の環境温度に基づいて蓄電素子の温度を推定することができる。
寿命予測シミュレータ24は、SOH推定部としての機能を有し、推定したSOCの推移及び蓄電素子の温度に基づいて蓄電素子のSOHを推定する。蓄電素子の寿命予測対象期間(例えば、時点tから時点t+1まで)経過後の劣化値Qdegは、式(1)により算出することができる。
Figure 0006590029
ここで、Qcndは非通電劣化値であり、Qcurは通電劣化値である。式(1)に示すように、非通電劣化値Qcndは、例えば、Qcnd=K1×√(t)で求めることができる。ここで、係数K1は、SOC及び温度Tの関数である。tは経過時間であり、例えば、時点tから時点t+1までの時間である。また、通電劣化値Qcurは、例えば、Qcur=K2×√(t)で求めることができる。ここで、係数K2は、SOC及び温度Tの関数である。時点tでのSOHをSOHとし、時点t+でのSOHをSOHt+1 とすると、SOHt+1=SOH−QdegによりSOHを推定することができる。
係数K1は、劣化係数であり、SOC及び温度Tと係数K1との対応関係を演算で求めてもよく、あるいはテーブル形式で記憶しておくことができる。ここで、SOCは、例えば、中心SOC、SOC変動幅などの特徴量を含む。係数K2についても、係数K1と同様である。
上述のように、寿命予測シミュレータ24は、将来の寿命予測対象期間経過後のSOHを推定することができる。また、推定したSOHに基づいて、さらに寿命予測対象期間経過後の劣化値を算出すれば、当該寿命予測対象期間経過後のSOHをさらに推定することができる。SOHの推定を寿命予測対象期間経過毎に繰り返すことにより、蓄電素子の期待寿命(例えば、10年、15年など)時に蓄電素子が寿命に達しているのか否か(SOHがEOL以下であるか否か)も推定することができる。
電力系統システムの運用形態として、以下の二つの仮想的な例を考える。第1の例は、夜間に電力系統から蓄電システム101に充電(補充電)し、昼から夜にかけて余剰電力を売電する形態(電力の売電用途向け運用例)であり、第2の例は、需給インバランス量をすべて蓄電システム101に吸収させて売電及び買電を一切しない形態(電力の自給自足使用用途向け運用例)である。まず、第1の例の電力の売電用途向け運用例における運用方法の強化学習について説明する。
図12は売電用途向け運用例でのSOCに関連する設定の一例を示す模式図である。図12において、横軸は時間を示し、縦軸はSOCを示し、0時から24時までの1日の季節毎のSOCの推移を表す。図12において、夜間には、電力系統から蓄電システム101を充電(補充電)し、蓄電素子のSOCを所要値にすべくSOC調整量の設定が行われている。また、余剰電力を売電するために、SOCの上限値と下限値との範囲を狭くしている。具体的には、SOCの下限値を大きい値に設定して蓄電素子の残存容量が少なくならないようにしている。本実施の形態での強化学習は、例えば、行動として、どのようなSOCに関連する設定を行えば最適な運用方法となるかを学習することである。以下、強化学習の詳細について説明する。
図13は本実施の形態の強化学習の一例を示す模式図である。強化学習は、ある環境下に置かれたエージェントが環境に対して行動をし、得られる報酬が最大化されるような方策(エージェントが行動する際の指標となるルール)を求める機械学習アルゴリズムである。強化学習において、エージェントは、環境に対して行動を起こす学習者のようなものであり、学習対象である。環境は、エージェントの行動に対して状態の更新と報酬の付与を行う。行動は、環境のある状態に対してエージェントが取ることができる行動である。状態は、環境が保持する環境の様子である。報酬は、エージェントが環境に対して望ましい結果を作用させたときにエージェントに付与される。報酬は、例えば、正、負、0の値とすることができ、正の場合は報酬そのものであり、負の場合はペナルティとなり、0の場合は報酬なしとなる。また、行動評価関数は、ある状態での行動の評価値を定める関数であり、表のようなテーブル形式で表すこともでき、Q学習においては、Q関数、Q値、評価値などという。Q学習は、強化学習の中でよく用いられている手法の一つである。以下では、Q学習について説明するが、強化学習は代替的にQ学習と異なるものでもよい。
本実施の形態の処理部23においては、寿命予測シミュレータ24及び報酬算出部25が、環境に相当し、行動選択部26及び評価値テーブル27がエージェントに相当する。評価値テーブル27は、上述のQ関数に相当するものであり、行動評価情報ともいう。
行動選択部26は、評価値テーブル27に基づいて蓄電素子のSOH(State Of Health)を含む状態に対するSOCに関連する設定を含む行動を選択する。図13の例では、行動選択部26は、寿命予測シミュレータ24から時点tでの状態s(例えば、SOH)を取得し、行動aを選択して出力している。SOCに関連する設定は、前述のとおり、例えば、SOCの上限値(蓄電素子の過充電を避けるため)、SOCの下限値(蓄電素子の過放電を避けるため)、蓄電素子のSOCを所要値にするためのSOC調整量(蓄電素子を予め充電しておくため)などの設定を含む。行動選択部26は、評価値テーブル27において、最も評価の高い(例えば、Q値が最も大きい)行動を選択することができる。
行動選択部26は、状態取得部としての機能を有し、選択した行動を実行したときの蓄電素子の状態を取得する。行動選択部26によって選択された行動が寿命予測シミュレータ24で実行されると環境の状態は変化する。具体的には、寿命予測シミュレータ24は、時点t+1での状態st+1(例えば、SOHt+1)を出力し、状態はsからst+1に更新される。行動選択部26は、更新された状態を取得する。行動選択部26は、報酬取得部としての機能を有し、報酬算出部25が算出した報酬を取得する。
報酬算出部25は、選択した行動が実行されたときの報酬を算出する。行動選択部26が寿命予測シミュレータ24に対して望ましい結果を作用させたときに高い値(正値)が算出される。報酬が0のときは、報酬なしであり、報酬が負値のときはペナルティとなる。図13の例では、報酬算出部25は、報酬rt+1を行動選択部26に付与している。
報酬算出部25は、電力系統への売電量に基づいて報酬を算出してもよい。例えば、蓄電素子に蓄えられた余剰電力を積極的に売電する運用の場合には、売電量が多いほど報酬が大きい値となるように算出する。これにより、電力の売電用途向けの電力システムの最適な運用を実現することができる。
報酬算出部25は、行動の実行に起因する消費電力量に基づいて報酬を算出してもよい。行動の実行に起因する消費電力量は、例えば、SOC調整量の設定、環境温度の設定などによって生じる電力消費であり、SOC調整量、環境温度などを変数とする関数により算出することができる。例えば、SOC調整量が大きい場合、報酬を負値(ペナルティ)とすることができる。これにより、消費電力量を抑制しつつ蓄電素子の最適な運用を実現することができる。
報酬算出部25は、蓄電素子の状態が寿命に到達したか否かに基づいて報酬を算出してもよい。例えば、蓄電素子のSOHがEOL(End Of Life)を下回らないときは、報酬を与え、SOHがEOL以下になったときは、ペナルティを与えることができる。これにより、蓄電素子の期待寿命(例えば、10年、15年など)に達するような最適な運用を実現することができる。
行動選択部26は、更新部としての機能を有し、取得した状態st+1及び報酬rt+1に基づいて、評価値テーブル27を更新する。より具体的には、行動選択部26は、行動に対する報酬を最大化する方向へ評価値テーブル27を更新する。これにより、環境のある状態において最大の価値が期待される行動を学習できる。
上述の処理を繰り返して、評価値テーブル27の更新を繰り返すことにより、報酬を最大化できる評価値テーブル27を学習することができる。
処理部23は、行動生成部としての機能を有し、更新した評価値テーブル27(すなわち学習済の評価値テーブル27)に基づいて、蓄電素子の状態を含めたシステム運用に対応する行動(具体的には、運用情報)を生成する。これにより、蓄電素子の様々な状態(例えば、様々なSOH)に対して、例えば、SOCに関連する設定の最適値が強化学習によって得られるので、蓄電素子を含めたシステムの最適な運用を実現することができる。
Q学習でのQ関数の更新は、式(2)により行うことができる。
Figure 0006590029
ここで、Qは、状態sでの行動aの評価を格納する関数又はテーブル(例えば、評価値テーブル27)であり、例えば、各状態sを行、各行動aを列とする行列形式で表すことができる。
図14は評価値テーブル27の構成の一例を示す模式図である。図14に示すように、評価値テーブル27は、各状態(図14の例では、蓄電素子のSOHとして、SOH1、SOH2、…、SOHs)と、各行動(図14の例では、SOC調整量の設定として、SOC1、SOC2、…、SOCn)とで構成される行列形式であり、各状態での行動の評価(図14の例では、Q11、Q12、…、Qsn)が格納されている。評価値テーブル27は、ある状態sのときに取り得る行動aを実行したときの評価値を示す。SOC調整量は、SOCの上限値と下限値との範囲内で適宜設定することができ、例えば、50%、51%、52%の如く1%間隔で設定してもよく、あるいは5%間隔で設定してもよい。
式(2)において、sは時点tでの状態を示し、aは状態sで取ることができる行動を示し、αは学習率(ただし、0<α<1)を示し、γは割引率(ただし、0<γ<1)を示す。学習率αは学習係数とも称され、学習の速度(ステップサイズ)を決定するパラメータである。すなわち、学習率αは評価値テーブル27の更新量を調整するパラメータである。割引率γは、評価値テーブル27を更新する際に、未来の状態の評価(報酬又はペナルティ)をどれだけ割り引いて考慮するかを決定するパラメータである。すなわち、ある状態での評価が、過去の状態での評価と繋がっている場合、どの程度報酬やペナルティを割り引くかを定めるパラメータである。
式(2)において、rt+1 は行動の結果得られた報酬であり、報酬が得られない場合は0となり、ペナルティの場合は負値となる。Q学習では、式(2)の第2項、{rt+1 +γ・maxQ(st+1 ,at+1 )−Q(st ,at )}が0になるように、すなわち、評価値テーブル27の値Q(st ,at )が、報酬(rt+1 )と、次の状態st+1 で可能な行動の中で最大の価値(γ・maxQ(st+1 ,at+1 ))との和になるように評価値テーブル27を更新する。報酬の期待値と現在の行動評価との誤差を0に近づけるように評価値テーブル27が更新される。別言すれば、(γ・maxQ(st+1 ,at+1 ))の値は、現在のQ(st ,at )の値と、行動atを実行した後の状態状態st+1 で実行可能な行動の中で得られる最大の評価値に基づいて修正される。
ある状態において行動を実行したときに、必ず報酬が得られるとは限らない。例えば、行動を何回か繰り返した後に報酬が得られる場合もある。式(3)は、報酬が得られたときのQ関数の更新式を表し、式(4)は報酬が得られなかったときのQ関数の更新式を表す。
Q学習の初期の状態では、評価値テーブル27のQ値は、例えば、乱数で初期化することができる。Q学習の初期段階で一旦報酬の期待値に差が生じると、未だ経験したことがない状態に遷移することができず、目標に到達することができない事態が起こり得る。そこで、ある状態に対する行動を決定する場合に、確率εを用いることができる。具体的には、ある確率εで全ての行動の中からランダムに行動を選択して実行し、確率(1−ε)でQ値が最大の行動を選択して実行することができる。これにより、Q値の初期状態によらず適切に学習を進めることができる。
SOC調整量は、蓄電素子を負荷に接続する前に、夜間に電力系統から蓄電素子を充電し、蓄電素子のSOCを所要値にするための調整量である。例えば、SOCが20%の蓄電素子のSOCを90%にしておく場合、SOC調整量は70%(=90−20)となる。これにより、負荷の電力需要を満たしつつ昼から夜にかけての余剰電力を売電することができ、売電も考慮しつつ蓄電素子の劣化の度合いを抑制することができるSOCに関連する設定を学習することができる。また、電気料金の安い夜間に充電した電力を昼間に使用することにより、電気料金の高い昼間における買電を避けたシステムの運用方法も学習することができる。
図14の例では、行動としてSOC調整量の設定について説明したが、行動には代替的にSOC調整量以外のものも含まれる。
図15は行動の一例を示す模式図である。図15に示すように、行動は、SOC調整量の設定の他に、環境温度設定、SOC上限値の設定、SOC下限値の設定などを含めることができる。環境温度の設定は、例えば、1℃の間隔で設定してもよく、あるいは5℃の間隔で設定してもよい。温度の間隔は適宜設定することができる。環境温度を設定すると、蓄電素子の環境温度に基づいて蓄電素子の温度を推定することができる。蓄電素子の劣化値は、蓄電素子の温度に応じて変化するので、蓄電素子の状態(例えば、SOH)に応じて劣化の度合いを抑制することができる環境温度の設定を学習することができる。一方で、環境温度の調整のために電力を消費することで、コストが増大する。本実施の形態により、このような電力消費も最小となるような環境温度設定を学習することができる。
SOCの上限値及び下限値の設定は、適宜の値とすることができる。また、設定値の間隔は、例えば、1%の間隔で設定してもよく、あるいは5%の間隔で設定してもよい。SOCの上限値の設定は、蓄電素子に対する過充電を防止できる。SOCの下限値の設定は、蓄電素子に対する過放電を防止できる。SOCの上限値及び下限値の設定は、蓄電素子の充放電に伴って変化するSOCの中心SOC及びSOCの変動幅を調整することができる。SOCの中心は、変化するSOCの平均であり、SOCの変動幅は、変化するSOCの最大値と最小値との差である。蓄電素子の劣化値は、SOCの中心、SOCの変動幅に応じて変化するので、蓄電素子の状態(例えば、SOH)に応じて劣化の度合いを抑制することができるSOCに関連する設定を学習することができる。
行動には、SOC調整量、SOC上限値、SOCの下限値及び環境温度の少なくとも一つを含めることができる。すなわち、行動は、SOC調整量、SOC上限値、SOCの下限値及び環境温度の一部の組み合わせでもよく、全部の組み合わせでもよい。また、行動には、蓄電素子の最大電流値、上下限電圧値などの設定を含んでもよい。
また、図14の例では、状態としてSOHについて説明したが、状態には代替的にSOH以外のものも含まれる。例えば、天気予報(晴れ、曇り、雨など)又は季節(春、夏、秋、冬)などを含めることができる。天気予報については、乱数等によってランダムに遷移させることができる。また、季節は期間毎に遷移させることができる。
図16は強化学習の状態遷移の様子の一例を示す模式図である。図16では、便宜上、時点t0、t1、t2、…、t7の8個の時点を図示している。実際の強化学習では、時点の数には代替的に図16の例以外のものも含まれる。符号A、B、Cは学習過程の一例を示し、符号Aの学習は、時点t7において、SOHがEOLに達していない場合(時点毎に行動が選択されて実行された結果の状態)を示し、符号Bの学習は、時点t6ではSOHがEOLに達していなかったが時点t7ではEOLを下回った場合を示し、符号Cの学習は、時点t5でSOHがEOLを下回り、一旦学習が終了した場合を示す。強化学習により、符号B及びCで学習した行動は採用されず、符号Aで学習した行動を運用方法の一例として採用することになる。
図17は本実施の形態の強化学習によって得られた運用方法の一例を示す模式図である。便宜上、図17では0時から24時までの1日の運用方法を図示しているが、期間には代替的に1日以外のものも含まれる。例えば、1週間、1か月、3か月、6か月、1年などでもよい。また、図17に示すような運用方法は、ユーザの負荷パターン等に応じて適宜変化する。図17の例では、蓄電素子のSOHが期待寿命(例えば、10年、15年)に達するような運用方法を示している。すなわち、SOCの上限値とSOCの下限値との範囲を比較的狭くし(SOCの下限値を比較的大きな値とし)、蓄電素子の放電量を抑制しつつ、夜間に電力系統から蓄電素子に充電し(SOC調整量の設定)、蓄電素子が負荷に接続されて使用される時点でのSOCの低下を抑制して、余剰電力をできるだけ多く売電できる。図中、SOCの推移のうち、上限SOCを超えた部分(斜線の部分)が売電量に相当する。
図18は本実施の形態の強化学習によって得られた運用方法によるSOHの推移の一例を示す模式図である。図18の例では、期待寿命は10年としている。図18中、実線で示すグラフは本実施の形態によるものであり、破線で示すグラフは比較例として売電価格を優先した場合及び健康度を優先した場合を示す。売電価格を優先した場合、蓄電素子の健康度について考慮されていないため、期待寿命に到達することができない場合がある。また、健康度を優先した場合、期待寿命は十分に達することができるが、売電量が過剰に小さく、買電量が過剰に大きくなる可能性がある。本実施の形態では、蓄電素子のSOH低下を考慮しているので、蓄電素子の期待寿命を達成しつつ売電量を増やすことができる最適な運用を行うことができる。なお、システムの運用形態はユーザに応じて異なるので、仮にユーザが蓄電素子の健康度を優先する場合には、図18の健康度を優先する運用方法を用いることができ、運用方法についてのユーザの選択肢を広げることができる。
次に、第2の例の電力の自給自足使用用途向け運用例における運用方法の強化学習について説明する。
図19は自給自足使用用途向け運用例でのSOCに関連する設定の一例を示す模式図である。図19において、横軸は時間を示し、縦軸はSOCを示し、0時から24時までの1日の季節毎のSOCの推移を表す。図19においては、余剰電力を蓄電システム101に充電し、不足電力を蓄電システム101から供給し、余剰電力の売電は極力行わないように、SOCの上限値と下限値との範囲を広くしている。具体的には、SOCの下限値をできるだけ小さい値に設定して蓄電素子の容量をできるだけ使用するようにしている。また、電力系統からの蓄電システム101への充電(補充電)は行わない。本実施の形態での強化学習は、例えば、行動として、どのようなSOCに関連する設定を行えば最適な運用方法となるかを学習することである。以下、強化学習の詳細のうち、前述の第1の例と異なる点について説明する。
第2の例では、行動としては、SOCの上限値の設定、SOCの下限値の設定を用いることができる。
図20は第2の例での評価値テーブル27の構成の一例を示す模式図である。図20に示すように、評価値テーブル27は、各状態(図20の例では、蓄電素子のSOHとして、SOH1、SOH2、…、SOHs)と、各行動(図20の例では、SOCの上限値ULとSOCの下限値DLとの組み合わせの設定として、UL1とDL1、UL2とDL2、UL3とDL3、…、ULnとDLn)とで構成される行列形式であり、各状態での行動の評価(図20の例では、Q11、Q12、…、Qsn)が格納されている。SOCの上限値及び下限値は適宜設定することができ、例えば、1%間隔で設定することができる。
第2の例では、報酬算出部25は、電力系統への売電量に基づいて報酬を算出してもよい。第2の例では、蓄電素子に蓄えられた余剰電力を極力売電しない運用であるので、売電量が小さいほど報酬が大きい値となるように算出する。これにより、電力の自給自足使用用途向けの電力システムの最適な運用を実現することができる。
報酬算出部25は、行動の実行に起因する消費電力量に基づいて報酬を算出してもよい。行動の実行に起因する消費電力量は、例えば、SOCの上限値及び下限値の設定などによって生じる電力消費である。また、下限SOCの設定値が高いことで、電力需要に対して蓄電素子がシステムへ電力を供給できないことによって生じる電力消費も例として挙げられる。報酬算出部25は、消費電力が小さいほど報酬が大きい値となるように算出することができる。これにより、消費電力量を抑制しつつ蓄電素子の最適な運用を実現することができる。
図21は本実施の形態の強化学習によって得られた第2の例の運用方法の一例を示す模式図である。便宜上、図21では0時から24時までの1日の運用方法を図示しているが、期間には代替的に1日以外のものも含まれる。例えば、1週間、1か月、3か月、6か月、1年などでもよい。また、図21に示すような運用方法は、ユーザの負荷パターン等に応じて適宜変化する。図21の例では、蓄電素子のSOHが期待寿命(例えば、10年、15年)に達するような運用方法を示している。すなわち、蓄電素子のSOHが期待寿命に達する程度に、SOCの上限値とSOCの下限値との範囲を比較的広くし(SOCの下限値を比較的小さい値とし)、過放電及び過充電とならないように蓄電素子の充放電を積極的に行って、余剰電力をできるだけ少なくしつつ不足電力を供給する。図中、SOCの推移のうち、上限SOCを超えた部分(斜線の部分)が売電量に相当する。
次に、本実施の形態の強化学習の処理について説明する。
図22は本実施の形態の強化学習の処理手順の一例を示すフローチャートである。処理部23は、評価値テーブル27の評価値(Q値)を初期値に設定する(S11)。初期値の設定は、例えば、乱数を用いることができる。処理部23は、状態st を取得し(S12)、状態st で取ることのできる行動at を選択して実行する(S13)。処理部23は、行動at の結果得られる状態st+1 を取得し(S14)、報酬rt+1 を取得する(S15)。なお、報酬は0(報酬なし)の場合もある。
処理部23は、前述の式(3)又は式(4)を用いて、評価値テーブル27の評価値を更新し(S16)、処理を終了するか否かを判定する(S17)。ここで、処理を終了するか否かは、評価値テーブル27の評価値の更新を所定回数行ったか否かによって判定してもよく、あるいは状態st+1 が所定の状態(例えば、蓄電素子のSOHがEOLに達した状態)に至ったか否か等で判定することができる。
処理を終了しない場合(S17でNO)、処理部23は、状態st+1 を状態st とし(S18)、ステップS13以降の処理を続ける。処理を終了する場合(S17でYES)、処理部23は、処理を終了する。なお、図22に示す処理は、繰り返し行うことができる。また、図22に示す処理は、蓄電素子のシステム設計パラメータを変更する都度、変更されたシステム設計パラメータを用いて繰り返し実施することができる。蓄電素子のシステム設計パラメータの詳細は後述する。
処理部23は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などのハードウェアを組み合わせることによって構成することができる。処理部23は、仮想マシン又は量子コンピュータなどで構成してもよい。エージェントは、コンピュータ上に存在する仮想的なマシンであり、エージェントの状態はパラメータ等によって変更される。
本実施の形態の制御部20及び処理部23は、CPU(プロセッサ)、GPU、RAM(メモリ)などを備えた汎用コンピュータを用いて実現することもできる。例えば、図4に示すような記録媒体MR(例えば、CD−ROM等の光学可読ディスク記憶媒体)に記録されたコンピュータプログラムやデータ(例えば、学習済のQ関数又はQ値など)を記録媒体読取部231(例えば、光学ディスクドライブ)で読み取ってRAMに格納することができる。ハードディスク(図示しない)に格納しコンピュータプログラム実行時にRAMに格納してもよい。図22及び後述の図24に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたRAM(メモリ)にロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で制御部20及び処理部23を実現することができる。本実施の形態による強化学習アルゴリズムを定めたコンピュータプログラム及び強化学習によって得られたQ関数又はQ値は記録媒体に記録され流通されてもよく、あるいは、ネットワークN及び通信デバイス1経由で遠隔監視の対象装置P、U、D、Mや端末装置に配信されインストールされてもよい。
上述の実施の形態では、寿命予測シミュレータ24を用いる構成であったが、寿命予測シミュレータ24の代わりに、代替的に実測データを用いる構成でもよい。例えば、状態st から状態st+1 までの蓄電素子の時系列データ(例えば、電流値、電圧値、温度の時系列データ)を取得して強化学習を行い、Q関数又はQ値を更新するようにしてもよい。この場合、電流値の時系列データに基づいて、SOCの時系列データを求めることができ、求めたSOCの時系列データに基づいてSOHを推定することができる。一方で、SOHに対して、この推定値の代わりに、実測値を用いてもよい。また、温度の時系列データに基づいて、例えば、平均温度の推移を求めることができ、平均温度の推移を考慮したSOHを求めることもできる。
上述の実施の形態では、強化学習の一例として、Q学習について説明したが、代替的に、別のTD学習(Temporal Difference Learning)などの他の強化学習アルゴリズムを用いてもよい。例えば、Q学習のように、行動の価値を更新するのではなく状態の価値の更新を行う学習方法を用いてもよい。この方法では、現在の状態Stの価値V(st )を、V(st )<−V(st )+α・δtという式で更新する。ここで、δt=rt+1 +γ・V(st+1 )−V(st )であり、αは学習率、δtはTD誤差である。
上述の実施の形態では、行動評価関数(Q関数)の例として評価値テーブル27を用いる構成であったが、状態数が大きくなるとテーブルでQ関数を表すことが現実的でない場合もある。代替的に、強化学習と深層学習の手法を組み合わせた深層強化学習を用いることもできる。例えば、ニューラルネットワークの入力層のニューロンの数を状態の数と等しくし、出力層のニューロンの数を行動の選択肢の数と等しくする。出力層は、状態sで行動aを実行した場合に、その後得られる報酬の総計を出力する。そして、ニューラルネットワークの出力が、例えば、{rt+1 +γ・maxQ(st+1 ,at+1 )}の値に近くなるようにニューラルネットワークの重みを学習すればよい。
前述の学習方法を用いて学習した学習済モデルを用いて、蓄電素子の健康度を加味した、システム全体の最適な運用方法を提案することができる。以下、この点について具体的に説明する。
図23は蓄電素子評価装置としてのサーバ装置2の構成の一例を示すブロック図である。図4に例示したサーバ装置2との相違点は、蓄電素子評価装置としてのサーバ装置2(処理部23)は、報酬算出部25を具備していない点、及び学習済モデルとしての行動選択部26及び評価値テーブル27を具備する点である。すなわち、評価値テーブル27は、前述の学習方法によって更新済、すなわち学習済である。なお、図23のサーバ装置2も、1台のサーバコンピュータで構成することができるが、代替的に、複数台のサーバコンピュータで構成してもよい。また、報酬算出部25を備えてもよい。
図24は本実施の形態のサーバ装置2による蓄電素子の評価方法の処理手順の一例を示すフローチャートである。処理部23は、蓄電素子のシステム設計パラメータを取得する(S21)。蓄電素子のシステム設計パラメータは、システム全体の中で用いられる蓄電素子の種類、数、定格などを含み、例えば、蓄電モジュールの構成又は数、バンクの構成又は数などのシステム設計に必要な種々のパラメータを含む。蓄電素子の設計パラメータは、システムの実際の運用に先立って、予め設定される。
処理部23は、状態st を取得し(S22)、学習済の評価値テーブル27に基づいて、状態st に対する行動を出力する(S23)。処理部23は、状態st+1 を取得し(S24)、蓄電素子のシステムの運用結果が得られたか否かを判定する(S25)。運用結果が得られていない場合(S25でNO)、処理部23は、状態st+1 を状態st とし(S26)、ステップS23以降の処理を続ける。
蓄電素子のシステムの運用結果が得られた場合(S25でYES)、処理部23は、他のシステム設計パラメータがあるか否かを判定し(S27)、他のシステム設計パラメータがある場合(S27でYES)、システム設計パラメータを変更し(S28)、ステップS21以降の処理を続ける。他のシステム設計パラメータがない場合(S27でNO)、処理部23は、蓄電素子の評価結果を出力し(S29)、処理を終了する。
上述のように、処理部23は、蓄電素子のSOHを含む状態st+1を取得して学習モデルに入力し、学習モデルが出力する、蓄電素子を含めたシステム運用に対応する行動の結果、得られる状態st+1を取得する。処理部23は、評価生成部としての機能を有し、学習モデルが出力する蓄電素子の行動に基づいて蓄電素子の評価結果を生成する。評価結果は、例えば、蓄電素子の健康度を加味した、蓄電素子を含むシステム全体の最適な運用方法を含む。すなわち、蓄電素子の健康度を加味した、システム全体の最適な運用を実現することができる。
また、処理部23は、蓄電素子の設計パラメータに応じて蓄電素子の評価結果を生成することができる。
図25は本実施の形態のサーバ装置2が生成する評価結果の一例を示す模式図である。図25の例では、期待寿命は10年としている。図25では、蓄電素子の設計パラメータを便宜上、D1、D2、D3とし、それぞれの設計パラメータを用いた場合の蓄電素子のSOHの時間的変化をプロットしている。設計パラメータD1を用いたシステム運用の場合、期待寿命の到達したときのSOHが比較的高く、蓄電素子の健康度を過度に優先した設計パラメータとなっていることが分かる。一方、設計パラメータD3を用いたシステム運用の場合、期待寿命の到達したときのSOHが比較的低く、仮に、売電価格を優先するような運用を行うと、期待寿命に到達することができないおそれがある。システム運用方法についてのユーザの要望にも依存するが、設計パラメータD2を用いた運用が全体としてバランスが採れたものであると評価することができる。
設計パラメータに応じて蓄電素子の評価結果を生成することにより、例えば、どのような設計パラメータを採用すれば、健康度を加味した、システム全体の最適な運用方法が得られるかを把握することができる。
上述の実施の形態では、サーバ装置2が、処理部23を備える構成であったが、代替的に、処理部23を別の1又は複数のサーバに設けるようにしてもよい。また、代替的に寿命予測シミュレータ24を別のサーバに設けてもよく、別の寿命予測シミュレータのような装置に設けてもよい。
実施の形態は、すべての点で例示であって制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる。
2 サーバ装置
20 制御部
21 通信部
22 記憶部
23 処理部
24 寿命予測シミュレータ
25 報酬算出部
26 行動選択部
27 評価値テーブル

Claims (16)

  1. 蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する行動選択部と、
    前記行動選択部で選択した行動を実行したときの前記蓄電素子のSOHを含む状態を取得する状態取得部と、
    前記行動選択部で選択した行動を実行したときの強化学習における報酬を取得する報酬取得部と、
    前記状態取得部で取得した状態及び前記報酬取得部で取得した報酬に基づいて、前記行動評価情報を更新する更新部と、
    前記更新部で更新した行動評価情報に基づいて、前記蓄電素子の状態に対応する行動を生成する行動生成部と
    を備える行動生成装置。
  2. 前記SOCに関連する設定は、
    SOCの上限値、SOCの下限値、前記蓄電素子への充電または放電に基づくSOC調整量の少なくとも一つの設定を含む請求項1に記載の行動生成装置。
  3. 前記行動は、
    前記蓄電素子の環境温度の設定を含む請求項1又は請求項2に記載の行動生成装置。
  4. 前記状態取得部は、寿命予測シミュレータから出力される前記蓄電素子のSOHを含む情報を取得する請求項1から請求項3のいずれか一項に記載の行動生成装置。
  5. 前記蓄電素子が接続される発電設備での発電量情報を取得する発電量情報取得部と、
    電力需要設備での消費電力量情報を取得する消費電力量情報取得部と、
    前記発電量情報、前記消費電力量情報及び前記行動選択部で選択した行動に基づいて前記蓄電素子のSOCの推移を推定するSOC推移推定部と、
    前記SOC推移推定部で推定したSOCの推移に基づいて前記蓄電素子のSOHを推定するSOH推定部と
    を備え、
    前記状態取得部は、
    前記SOH推定部が推定したSOHを取得する請求項1から請求項3のいずれか一項に記載の行動生成装置。
  6. 前記蓄電素子での環境温度情報を取得する温度情報取得部を備え、
    前記SOH推定部は、
    前記環境温度情報に基づいて前記蓄電素子のSOHを推定する請求項に記載の行動生成装置。
  7. 前記発電設備又は電力需要設備への売電量に基づいて強化学習における報酬を算出する報酬算出部を備え、
    前記報酬取得部は、
    前記報酬算出部で算出した報酬を取得する請求項又は請求項に記載の行動生成装置。
  8. 前記行動の実行に起因する消費電力量に基づいて強化学習における報酬を算出する報酬算出部を備え、
    前記報酬取得部は、
    前記報酬算出部で算出した報酬を取得する請求項1から請求項のいずれか一項に記載の行動生成装置。
  9. 前記蓄電素子の状態が寿命に到達したか否かに基づいて強化学習における報酬を算出する報酬算出部を備え、
    前記報酬取得部は、
    前記報酬算出部で算出した報酬を取得する請求項1から請求項のいずれか一項に記載の行動生成装置。
  10. 更新済の行動評価情報を含む学習済モデルと、
    蓄電素子のSOHを含む状態を取得する状態取得部と、
    前記状態取得部で取得した状態を前記学習済モデルに入力し、前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する評価生成部と
    を備える蓄電素子評価装置。
  11. 前記状態取得部は、寿命予測シミュレータから出力される前記蓄電素子のSOHを含む情報を取得する請求項10に記載の蓄電素子評価装置。
  12. 前記蓄電素子の設計パラメータを取得するパラメータ取得部を備え、
    前記評価生成部は、
    前記パラメータ取得部で取得した設計パラメータに応じて前記蓄電素子の評価結果を生成する請求項10又は請求項11に記載の蓄電素子評価装置。
  13. コンピュータに、
    蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択する処理と、
    選択した行動を実行したときの強化学習における報酬及び前記蓄電素子のSOHを含む状態を取得する処理と、
    取得した報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習させる処理と
    を実行させるコンピュータプログラム。
  14. コンピュータに、
    蓄電素子のSOHを含む状態を取得する処理と、
    更新済の行動評価情報を含む学習済モデルに、取得した状態を入力する処理と、
    前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する処理と
    を実行させるコンピュータプログラム。
  15. 蓄電素子のSOCに関連する設定を含む行動を、行動評価情報に基づいて選択し、
    選択された行動を実行したときの強化学習における報酬及び前記蓄電素子のSOHを含む状態を取得し、
    取得された報酬が大きくなるように、前記行動評価情報を更新して、前記蓄電素子の状態に対応する行動を学習する学習方法。
  16. 蓄電素子のSOHを含む状態を取得し、
    更新済の行動評価情報を含む学習済モデルに、取得した状態を入力し、
    前記学習済モデルが出力する前記蓄電素子のSOCに関連する設定を含む行動に基づいて前記蓄電素子の評価結果を生成する評価方法。
JP2018112966A 2018-06-13 2018-06-13 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法 Active JP6590029B1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018112966A JP6590029B1 (ja) 2018-06-13 2018-06-13 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法
CN201980039586.3A CN112368904A (zh) 2018-06-13 2019-06-12 行动生成装置、蓄电元件评价装置、计算机程序、学习方法以及评价方法
DE112019002991.6T DE112019002991T5 (de) 2018-06-13 2019-06-12 Aktionsgenerator, energiespeichereinrichtungsbewertungseinheit, computerprogramm, lernverfahren und bewertungsverfahren
US16/973,388 US20210255251A1 (en) 2018-06-13 2019-06-12 Action generator, energy storage device evaluator, computer program, learning method, and evaluation method
PCT/JP2019/023315 WO2019240182A1 (ja) 2018-06-13 2019-06-12 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018112966A JP6590029B1 (ja) 2018-06-13 2018-06-13 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法

Publications (2)

Publication Number Publication Date
JP6590029B1 true JP6590029B1 (ja) 2019-10-16
JP2019216552A JP2019216552A (ja) 2019-12-19

Family

ID=68234815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018112966A Active JP6590029B1 (ja) 2018-06-13 2018-06-13 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法

Country Status (5)

Country Link
US (1) US20210255251A1 (ja)
JP (1) JP6590029B1 (ja)
CN (1) CN112368904A (ja)
DE (1) DE112019002991T5 (ja)
WO (1) WO2019240182A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021083208A (ja) * 2019-11-18 2021-05-27 株式会社Gsユアサ 評価装置、コンピュータプログラム及び評価方法
US11823222B2 (en) 2021-07-14 2023-11-21 Prime Planet Energy & Solutions, Inc. Power supply/demand management device and power supply/demand adjusting method
JP7385632B2 (ja) 2021-07-14 2023-11-22 プライムプラネットエナジー&ソリューションズ株式会社 電力需給調整方法および電力需給管理装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11635995B2 (en) * 2019-07-16 2023-04-25 Cisco Technology, Inc. Systems and methods for orchestrating microservice containers interconnected via a service mesh in a multi-cloud environment based on a reinforcement learning policy
JP2023508045A (ja) * 2019-12-23 2023-02-28 アパレオ アイオーティー, エルエルシー リモートでのバッテリーの推定
WO2022195402A1 (ja) * 2021-03-19 2022-09-22 株式会社半導体エネルギー研究所 蓄電装置管理システム及び電子機器
US11431170B1 (en) * 2021-07-08 2022-08-30 National University Of Defense Technology BESS aided renewable energy supply using deep reinforcement learning for 5G and beyond
KR102350728B1 (ko) * 2021-11-09 2022-01-14 주식회사 스타코프 뉴럴 네트워크 기반의 부하 추정부를 포함하는 적산 전력 장치
WO2023149011A1 (ja) * 2022-02-07 2023-08-10 株式会社デンソー 二次電池状態検出装置、学習部、二次電池状態検出方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520886B2 (ja) * 1996-03-08 2004-04-19 サンケン電気株式会社 二次電池の状態判定方法
JP3879635B2 (ja) * 2002-09-06 2007-02-14 日産自動車株式会社 移動体用燃料電池パワープラントシステム
JP4816128B2 (ja) * 2006-02-21 2011-11-16 株式会社デンソー 車両用発電制御装置
JP5413831B2 (ja) * 2009-07-17 2014-02-12 学校法人立命館 電力取引管理システム、管理装置、電力取引方法、及び電力取引用コンピュータプログラム
JP2012075248A (ja) * 2010-09-28 2012-04-12 Sanyo Electric Co Ltd 電力供給システム
CN103918120B (zh) * 2011-10-11 2016-07-06 新神户电机株式会社 铅蓄电池系统
JP5895157B2 (ja) * 2011-12-22 2016-03-30 パナソニックIpマネジメント株式会社 充放電制御装置
US9291682B2 (en) * 2012-03-30 2016-03-22 Panasonic Intellectual Property Management Co., Ltd. Degradation state estimating method and degradation state estimating apparatus
US9846886B2 (en) * 2013-11-07 2017-12-19 Palo Alto Research Center Incorporated Strategic modeling for economic optimization of grid-tied energy assets
WO2015129032A1 (ja) * 2014-02-28 2015-09-03 株式会社日立製作所 蓄電池管理システムおよび蓄電池管理方法
JP6183663B2 (ja) * 2015-03-09 2017-08-23 トヨタ自動車株式会社 二次電池の制御装置
US10305309B2 (en) * 2016-07-29 2019-05-28 Con Edison Battery Storage, Llc Electrical energy storage system with battery state-of-charge estimation

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021083208A (ja) * 2019-11-18 2021-05-27 株式会社Gsユアサ 評価装置、コンピュータプログラム及び評価方法
WO2021100673A1 (ja) * 2019-11-18 2021-05-27 株式会社Gsユアサ 評価装置、コンピュータプログラム及び評価方法
JP7031649B2 (ja) 2019-11-18 2022-03-08 株式会社Gsユアサ 評価装置、コンピュータプログラム及び評価方法
US11635467B2 (en) 2019-11-18 2023-04-25 Gs Yuasa International Ltd. Evaluation device, computer program, and evaluation method
US11823222B2 (en) 2021-07-14 2023-11-21 Prime Planet Energy & Solutions, Inc. Power supply/demand management device and power supply/demand adjusting method
JP7385632B2 (ja) 2021-07-14 2023-11-22 プライムプラネットエナジー&ソリューションズ株式会社 電力需給調整方法および電力需給管理装置

Also Published As

Publication number Publication date
US20210255251A1 (en) 2021-08-19
JP2019216552A (ja) 2019-12-19
WO2019240182A1 (ja) 2019-12-19
DE112019002991T5 (de) 2021-02-25
CN112368904A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
JP6590029B1 (ja) 行動生成装置、蓄電素子評価装置、コンピュータプログラム、学習方法及び評価方法
US11243262B2 (en) Degradation estimation apparatus, computer program, and degradation estimation method
Cao et al. Deep reinforcement learning-based energy storage arbitrage with accurate lithium-ion battery degradation model
Eriksson et al. Optimization of renewable hybrid energy systems–A multi-objective approach
Correa-Florez et al. Stochastic operation of home energy management systems including battery cycling
Luo et al. Stochastic dynamic pricing for EV charging stations with renewable integration and energy storage
Shuai et al. Stochastic optimization of economic dispatch for microgrid based on approximate dynamic programming
François-Lavet et al. Deep reinforcement learning solutions for energy microgrids management
JP6579287B1 (ja) 劣化推定装置、コンピュータプログラム及び劣化推定方法
JP2014131477A (ja) 充放電制御装置、充電池システム、及び充放電制御方法
JP7033750B2 (ja) 電力管理システム
CN113794199B (zh) 一种考虑电力市场波动的风电储能系统最大收益优化方法
Chen et al. A battery management strategy in microgrid for personalized customer requirements
Luo et al. Optimal operation scheduling for microgrid with high penetrations of solar power and thermostatically controlled loads
JP6069738B2 (ja) 充放電制御システム、充放電制御方法、および充放電制御プログラム
WO2019203111A1 (ja) 状態推定方法、及び状態推定装置
Yong et al. Capacity value of uninterruptible power supply storage
Odonkor et al. Control of shared energy storage assets within building clusters using reinforcement learning
CN114202229A (zh) 能量管理策略的确定方法、装置、计算机设备和存储介质
Roy et al. Smart energy management for optimal economic operation in grid-connected hybrid power system
Wang et al. Learning-based energy management policy with battery depth-of-discharge considerations
Wu et al. Design of A battery energy management system for capacity charge reduction
Chen et al. Distributed cooperative energy management in smart microgrids with solar energy prediction
Singh et al. Impact of wind turbine generator for on the reliability and economics of a remote WTG system
Perera et al. Grid dependency minimization of a microgrid using Single and Multi agent Reinforcement Learning

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190618

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190618

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190902

R150 Certificate of patent or registration of utility model

Ref document number: 6590029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150