JP2021140499A - 冷蔵庫、強化学習装置、及び強化学習方法 - Google Patents

冷蔵庫、強化学習装置、及び強化学習方法 Download PDF

Info

Publication number
JP2021140499A
JP2021140499A JP2020038177A JP2020038177A JP2021140499A JP 2021140499 A JP2021140499 A JP 2021140499A JP 2020038177 A JP2020038177 A JP 2020038177A JP 2020038177 A JP2020038177 A JP 2020038177A JP 2021140499 A JP2021140499 A JP 2021140499A
Authority
JP
Japan
Prior art keywords
refrigerator
reinforcement learning
unit
learning
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020038177A
Other languages
English (en)
Inventor
達也 清水
Tatsuya Shimizu
達也 清水
泰志 相田
Yasushi Aida
泰志 相田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to JP2020038177A priority Critical patent/JP2021140499A/ja
Publication of JP2021140499A publication Critical patent/JP2021140499A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】学習運転において無駄なデータを取得することなく、冷蔵庫の性能を所望の一定範囲で保証する。【解決手段】冷凍サイクルを有する冷蔵庫本体2と、冷蔵庫本体2を制御する制御部31と、制御部31に対して強化学習を行う強化学習部32とを備え、強化学習部32は、強化学習するための学習運転の途中で、冷蔵庫100に関連する状態を所定の基準状態に戻す復帰運転を行う。【選択図】図3

Description

本発明は、強化学習装置、及び強化学習方法に関するものである。
欧州連合(EU)のEU2050に代表される通り、各国のエネルギー政策では「省エネルギー性能の更なる向上」や「再生可能エネルギー普及促進のためのダイナミック・プライシング(Dynamic Pricing)への対応」などが求められている。このため、冷凍サイクルにおいても、その基本性能(快適性、保存性など)や信頼性などの多くの指標をバランス良く満足させる必要がある。
従来では、特許文献1に示すように、遺伝的アルゴリズム手法を用いて制御テーブルを更新することより、設置された環境如何にかかわらず効率的な運転を行うように構成されたものが考えられている。
特開平8−166169号公報
ところで、近年では、機械学習を用いて各種装置を制御することが行われており、冷蔵庫も機械学習により制御することが考えられる。
しかしながら、学習運転時において例えばε−greedy法等を適用した機械学習(強化学習)を冷凍サイクルを有する冷蔵庫に適用した場合に、冷蔵庫の状態がユーザの使用環境で起こり得ない状態になる場合がある。この状態で機械学習を行ったとしても、余計な範囲で冷蔵庫の性能を保証することになり、機械学習の効率が悪くなってしまう。
そこで、本発明は、上述した問題を解決すべくなされたものであり、学習運転において無駄なデータを取得することなく、冷蔵庫の性能を所望の一定範囲で保証することを主たる課題とするものである。
すなわち本発明に係る冷蔵庫は、冷凍サイクルを有する冷蔵庫本体と、前記冷蔵庫本体を制御する制御部と、前記制御部に対して強化学習を行う強化学習部とを備え、前記強化学習部は、強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行うことを特徴とする。
このように構成された冷蔵庫によれば、強化学習部が強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行うので、冷蔵庫がユーザの使用環境では起こってはならない状態になることを防ぐことができる。その結果、学習運転において無駄なデータを取得することなく、冷蔵庫の性能を所望の一定範囲で保証することができる。
ユーザの使用環境では起こり得ない状態となるパラメータの代表例としては、庫内温度を挙げることができる。このため、前記制御部は、前記復帰運転において、庫内温度を所定の基準値に戻すものであることが考えられる。
強化学習部の具体的な実施の態様としては、行動価値関数を算出する行動価値算出部と、前記冷蔵庫に関連する行動を、前記行動価値情報に基づいて選択する方策選択部と、前記方策選択部で選択した行動を実行したときの前記冷蔵庫に関連する状態を取得する状態取得部と、前記方策選択部で選択した行動を実行したときの報酬を算出する報酬算出部とを備え、前記行動価値算出部は、前記状態取得部で取得した状態及び前記報酬算出部で算出した報酬に基づいて、前記行動価値情報を更新することが望ましい。
近年では、電気事業者側が電気料金を需給バランスに応じて設定する仕組み(ダイナミック・プライシング)が考えられている。この場合において、電気料金を最小化するためには、前記状態取得部は、ダイナミック・プライシングに関する情報を取得するものであり、前記報酬算出部は、電気料金が安いほど大きい報酬を算出するものであることが望ましい。なお、ダイナミック・プライシングに関する情報としては、例えば30分単位で電気料金が設定された1日分の電気料金の情報である。また、前記方策選択部は、前記冷蔵庫に関連する行動として電力系統の切替を選択することが考えられる。
また本発明に係る強化学習装置は、冷凍サイクルを有する冷蔵庫本体を制御する制御部に対して強化学習を行う強化学習装置であって、強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行うことを特徴とする。
さらに本発明に係る強化学習方法は、冷凍サイクルを有する冷蔵庫本体を制御する制御部に対して強化学習を行う強化学習方法であって、強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行うことを特徴とする。
このように構成した本発明によれば、学習運転において無駄なデータを取得することなく、冷蔵庫の性能を所望の一定範囲で保証することができる。
本実施形態における冷蔵庫の全体構成を示す模式図である。 同実施形態の学習モデルを示す図である。 同実施形態の学習運転及び通常運転における各部の状態と行動とを示す図である。 同実施形態の学習運転及び復帰運転の運転パターンの一例を示す図である。 庫内温度が取り得る状態を示す図である。 同実施形態の冷蔵庫の具体的な運転動作を示すフローチャートである。 同実施形態のニューラルネットワークモデルによる制御を示す図である。 「現状態」と「次状態」とのデータセットを示す図である。 同実施形態の復帰運転の詳細を示す図である。 同実施形態の学習開始トリガの具体的な内容及び学習タイミング・学習回数を示す図である。
以下に本発明に係る冷蔵庫の一実施形態について図面を参照して説明する。
本実施形態に係る冷蔵庫100は、図1に示すように、冷凍サイクルを有する冷蔵庫本体2と、冷蔵庫本体2を制御する制御装置3とを備えている。
冷蔵庫本体2は、少なくとも1つの冷蔵室と、少なくとも1つの冷凍室と、当該冷蔵室及び冷凍室を冷却するための冷凍サイクルとを有する。冷凍サイクルは、圧縮機と凝縮器と減圧装置と冷蔵用蒸発器と冷凍用蒸発器とを配管接続して構成されたものである。本実施形態の冷凍サイクルの1サイクルは、冷蔵用蒸発器に冷媒を流して冷蔵室を冷却する冷蔵室冷却期間と、冷凍用蒸発器に冷媒を流して冷凍室を冷却する冷凍室冷却期間と、冷凍用蒸発器の冷媒を回収するポンプダウン期間と、冷却能力が過剰な場合に冷却能力を調整する圧縮機停止期間とから構成される。なお、冷蔵用蒸発器及び冷凍用蒸発器を兼用しても良い。以下の説明及び図面おいて、冷蔵を示すものをR、冷凍を示すものをFと示す場合がある。
制御装置3は、冷蔵庫本体2の各所に設けられた温度センサなどに基づいて、冷凍サイクルなどを制御する制御部31と、当該制御部31に対して強化学習を行う強化学習部32とを有している。なお、制御部31によって冷蔵庫100は通常の冷却運転(通常運転)を行う。
強化学習部32は、制御部31による冷蔵庫100の制御内容に対して強化学習を行うものであり、本実施形態では、例えばQ学習(Q−Learning)などである。
具体的に強化学習部32は、行動価値算出部32aと、方策選択部32bと、状態取得部32cと、報酬算出部32dとを備えている。
行動価値算出部32aは、それぞれの行動aの価値Qを算出するものであり、状態sを入力とし、価値Qを出力とするニューラルネットワークを備えている(図2参照)。図2のニューラルネットワークは、マルコフ決定過程とするためにリカレントニューラルネットワークとする場合もある。また、ニューラルネットワーク以外の近似関数を用いてもよい。
また、行動価値算出部32aは、状態取得部21cで取得した状態s及び報酬算出部32dで算出した報酬rに基づいて、価値Qを以下の式により更新する。なお、本実施形態の行動価値算出部32aは、ニューラルネットワークを用いているので、誤差逆伝搬法によって学習する。
Figure 2021140499
方策選択部32bは、冷蔵庫100に関連する行動aを、価値Qに基づいて選択するものである。本実施形態の方策選択部32bは、ε−greedy法を用いて、行動aを選択する。つまり、方策選択部32bは、一定の確率εで、現在の状態sから取り得る行動aのうち1つをランダムに選び、1−εの確率で現在の状態sから最大の価値Qを持つ行動aを選択する。
そして、この方策選択部32bにより選択された行動aは、制御部31による冷蔵庫本体2の制御に用いられる。具体的に行動aは、制御部31による各アクチュエータの指令値又は制御パラメータを決定するものである。
アクチュエータの指令値としては、例えば、冷蔵庫100に給電する電力系統の切替、圧縮機の回転数、膨張弁の開度、蒸発器用ファン(R−Fan、F−Fan)の回転数、除霜ヒータの出力などであり、制御パラメータとしては、例えば、圧縮機に同期した蒸発器用ファンのON/OFFの遅れ時間(Delay時間)、ポンプダウン時間、除霜時間などである。なお、冷蔵庫100に給電し得る電力系統が複数ある場合には、ダイナミック・プライシングにより電力の価格が変動する環境下において、例えば分電盤を用いて冷蔵庫100に給電する電力系統の切替を行うこともできる。
状態取得部32cは、方策選択部32bで選択した行動aを実行したときの冷蔵庫100に関連する状態sを取得する。
状態sとしては、例えば、ダイナミック・プライシングに関する情報(価格情報など)、庫内温度、室温、外気温、蒸発器温度、湿度、消費電力量、積算電力量、冷却時間などである。なお、温度、湿度、電力量については、瞬時値であっても良いし、平均値であってもよい。
報酬算出部32dは、方策選択部32bで選択した行動aを実行したときの報酬rを算出する。また、報酬算出部32dには、評価指標となる電気料金、平均庫内温度、温度ヒステリシス、湿度などのそれぞれに対する報酬rを定めた評価ルールが予め設定されている。
この評価ルールとしては、例えば以下である。
例1)電力量は低ければ低いほど、報酬rが大きい。
評価指数:定数/Cycle平均電力
例2)1日の電気料金が低ければ低いほど、報酬rが大きい。
評価指数:定数/1日の電気料金
(1日の電気料金:Σ各時間帯の電気料金×各時間帯の電力量)
例3)目標温度に近いほど、報酬rが大きい。
評価指数:定数/(測定温度−目標温度)
例4)庫内湿度が高ければ高いほど、報酬rが大きい。
評価指数:定数×湿度
なお、本実施形態では、これらの報酬をすべて足し合わせたものを最終的な報酬としている。
しかして、本実施形態の強化学習部32は、図3及び図4に示すように、通常運転の途中で、定期的に又は所定の学習開始トリガにより、強化学習するための学習運転を行うものであり、さらに、その学習運転の途中で、冷蔵庫100に関連する状態を所定の基準状態に戻す復帰運転を行う。本実施形態の復帰運転は、庫内温度を所定の基準値(初期値)に戻すものである。復帰運転は、学習運転の途中で発生する場合もあるし、最後に発生する場合もある。
ここで、庫内温度が取り得る状態としては、図5に示すものが考えられる。つまり、冷蔵室の庫内温度と冷凍室の庫内温度の温度範囲として、(1)安定運転(扉開閉なし)時に取る状態の温度範囲と、(2)扉開閉時に取る状態の温度範囲(但し、庫内温度≦外気温の場合)と、(3)冷蔵庫の仕様上、通常起こらない状態の温度範囲とが考えられる。このうち、復帰運転により戻される所定の基準範囲は、安定運転(扉開閉なし)時に取る状態の温度範囲の中で設定されており、前記所定の基準値(初期値)は、この所定の基準範囲内に設定されている。
具体的に状態取得部32cが取得した庫内温度が所定の上限値を超えた場合に、強化学習部32は、強化学習を一旦停止し、制御部31に対して庫内温度を初期値に戻す制御を行わせる指令を出力する。その後、状態取得部32cが取得した庫内温度が初期値に戻った場合に、強化学習部32は、強化学習を再開する。なお、本実施形態では、冷蔵用蒸発器に冷媒を流して冷蔵室を冷却する動作と、冷凍用蒸発器に冷媒を流して冷凍室を冷却する動作とを交互に行うように構成されており、これらを1サイクルとして、1サイクルごとに、学習運転を行うか、復帰運転を行うかを判断している。図4では、1サイクルごとに学習運転及び復帰運転を交互に行う例を示しているが、これに限られない。
次に、本実施形態の冷蔵庫100の具体的な運転動作とともに強化学習部32の学習動作について図6を参照して説明する。
(通常運転)
冷蔵庫100の運転を開始すると(ステップS1)、学習済みニューラルネットワークモデルを制御器にロードする(ステップS2)。そして、図7に示すように、ニューラルネットワークモデルにより行動を選択し(ステップS4)、所定の状態遷移で制御する(ステップS5)。なお、所定の状態遷移は、「冷蔵冷却」→「冷凍冷却」→「ポンプダウン」→「圧縮機停止」の4つの状態の遷移である。
(学習運転)
この通常運転において、学習開始トリガが発生したか否かを判断する(ステップS5)。なお、ここでの学習開始トリガは、例えばダイナミック・プライシングに基づく未経験の電気料金への変更である。学習開始トリガが発生していなければ、ステップS3に戻り、通常運転を継続する。なお、ダイナミック・プライシングに関する情報(電気料金に関する情報)は、電気事業者により定期的(例えば前日の16時に次の日の価格が更新される)に送信される。
一方、学習開始トリガが発生した場合には、電気料金の情報を取得する(ステップS6)。そして、ε−greedy法で次の行動を選択し、出力する(ステップS7)。そして、ステップS4と同様に、所定の状態遷移で制御する(ステップS8)。ここで、冷凍サイクルのサイクル開始点か否かを判断し(ステップS9)、サイクル開始点の場合には、現状態を取得する(ステップS10)。ここで、現状態としては、例えば、冷蔵室庫内温度、冷凍室庫内温度及び電力量などである。この現状態に基づいて、報酬を計算する(ステップS11)。
また、前状態が存在するか否かを判断し(ステップS12)、前状態が無ければ、ステップS17の復帰運転の判定に移る。前状態がある場合には、「前状態、報酬、行動、現状態」を含む学習データ(図8に示す「現状態」と「次状態」とのデータセット)をバッファーに保存する(ステップS13)。
学習データを保存したバッファーからランダムにバッチ数の学習データを選択し(ステップS14)、選択した学習データからQ値を計算する(ステップS15)。そして、現状態(入力)とQ値(出力)を使って、ニューラルネットワークを誤差逆伝搬法で学習する(ステップS16)。
(復帰運転)
復帰運転の判定は、冷蔵室庫内温度及び冷凍室庫内温度のそれぞれが所定の初期値の設定範囲内(所定の基準範囲内、図5参照)か否かを判定することにより行う(ステップS17)。
冷蔵室庫内温度及び冷凍室庫内温度の何れかが所定の初期値の設定範囲外の場合には、復帰運転を行う(ステップS18)。ここで、復帰運転は、図9に示すように、冷蔵冷却又は冷蔵冷却を通常のサイクルよりも短い時間で行い、所定の状態遷移で制御する。例えば、通常のON点、OFF点とは別のON点、OFF点で、且つ、ON点、OFF点をランダムに振る。
この復帰運転の後、設定した学習回数を経過したか否かを判断し(ステップS19)、経過している場合には、通常運転のステップS3に戻る。一方、経過していない場合には、学習運転のステップS7に戻る。
次に、上記のステップS5における学習開始トリガの具体的な内容及び学習タイミング・学習回数は、図10に示すように、次のものを挙げることができる。
[環境要因の変化]
(1)電気料金の変化(地域による電気料金の変化)や凝縮器の放熱性能の変化の場合には、冷蔵庫の設置から1か月程度で1日数時間程度
(2)電気料金の変化(日々の電気料金の変化)の場合には、過去に未経験の電気料金に対して数時間〜1日
(3)外気(温度・湿度)の変化の場合には、季節毎に数日程度で半日〜1日程度
[冷蔵庫特性の変化]
(4)断熱性能又は冷却性能の劣化の場合には、半年に1回程度で数時間〜1日程度
(5)冷却性能の変化(蒸発器の着想度合いの違い)の場合には、外気温、湿度が過去に未経験である場合(季節毎に数日)に数時間〜半日程度
[利用方法の変化]
(6)ドア開閉による新入熱の変化の場合、食品の入出庫による侵入熱、熱容量の変化、食品を置く場所による風周りの変化の場合には、ドア開閉後の温度変化が未経験である場合に、設置後1か月間は頻繁に学習し、その後は、月数回数時間程度
<本実施形態の効果>
このように構成された冷蔵庫100によれば、強化学習部32が学習するための学習運転の途中で、冷蔵庫100に関連する状態を所定の基準状態に戻す復帰運転を行うので、冷蔵庫100がユーザの使用環境では起こってはならない状態になることを防ぐことができる。その結果、学習運転において無駄なデータを取得することなく、冷蔵庫100の性能を所望の一定範囲で保証することができる。
<その他の変形実施形態>
なお、本発明は、前記実施形態に限られるものではない。
例えば、強化学習としては、Q学習の他に、SARSA、モンテカルロ法、方策勾配法等を用いてもよい。ただし、Q学習等の方策オフ型(On−Policy)のアルゴリズムではなく、SARSAや方策勾配法等の方策オン型(Off−Policy)のアルゴリズムを選択する場合は所定の学習を終えるか温度保証のために学習を停止するまで復帰運転を実施しない等の違いが生じる。
また、庫内温度などを温度センサにより検出することによって復帰運転に切り替える構成の他に、復帰運転に切り替えることなく、庫内温度が所定の上限値を超えないように構成してもよい。例えば、前記報酬算出部32dにおいて、庫内温度が所定の上限値を超えないような条件に対して報酬を設定してもよい。
さらに、前記実施形態は、冷蔵庫に強化学習機能を備えさせるものであったが、冷蔵庫とは別体に強化学習装置を設けてもよい。
その他、本発明は前記実施形態に限られず、その趣旨を逸脱しない範囲で種々の変形が可能であるのは言うまでもない。
100・・・冷蔵庫
2 ・・・冷蔵庫本体
31 ・・・制御部
32 ・・・強化学習部
32a・・・行動価値算出部
32b・・・方策選択部
32c・・・状態取得部
32d・・・報酬算出部

Claims (7)

  1. 冷凍サイクルを有する冷蔵庫本体と、
    前記冷蔵庫本体を制御する制御部と、
    前記制御部に対して強化学習を行う強化学習部とを備え、
    前記強化学習部は、強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行う、冷蔵庫。
  2. 前記強化学習部は、
    行動価値関数を算出する行動価値算出部と、
    前記冷蔵庫に関連する行動を、前記行動価値情報に基づいて選択する方策選択部と、
    前記方策選択部で選択した行動を実行したときの前記冷蔵庫に関連する状態を取得する状態取得部と、
    前記方策選択部で選択した行動を実行したときの報酬を算出する報酬算出部とを備え、
    前記行動価値算出部は、前記状態取得部で取得した状態及び前記報酬算出部で算出した報酬に基づいて、前記行動価値情報を更新する、請求項1記載の冷蔵庫。
  3. 前記状態取得部は、ダイナミック・プライシングに関する情報を取得するものであり、
    前記報酬算出部は、電気料金が安いほど大きい報酬を算出するものである、請求項2記載の冷蔵庫。
  4. 前記方策選択部は、前記冷蔵庫に関連する行動として電力系統の切替を選択する、請求項3記載の冷蔵庫。
  5. 前記強化学習部は、前記復帰運転において、庫内温度を所定の基準値に戻すものである、請求項1乃至4の何れか一項に記載の冷蔵庫。
  6. 冷凍サイクルを有する冷蔵庫本体を制御する制御部に対して強化学習を行う強化学習装置であって、
    強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行う、強化学習装置。
  7. 冷凍サイクルを有する冷蔵庫本体を制御する制御部に対して強化学習を行う強化学習方法であって、
    強化学習するための学習運転の途中で、冷蔵庫に関連する状態を所定の基準状態に戻す復帰運転を行う、強化学習方法。
JP2020038177A 2020-03-05 2020-03-05 冷蔵庫、強化学習装置、及び強化学習方法 Pending JP2021140499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020038177A JP2021140499A (ja) 2020-03-05 2020-03-05 冷蔵庫、強化学習装置、及び強化学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020038177A JP2021140499A (ja) 2020-03-05 2020-03-05 冷蔵庫、強化学習装置、及び強化学習方法

Publications (1)

Publication Number Publication Date
JP2021140499A true JP2021140499A (ja) 2021-09-16

Family

ID=77668694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020038177A Pending JP2021140499A (ja) 2020-03-05 2020-03-05 冷蔵庫、強化学習装置、及び強化学習方法

Country Status (1)

Country Link
JP (1) JP2021140499A (ja)

Similar Documents

Publication Publication Date Title
US8670871B2 (en) Load processing balance setting apparatus
JP5121024B2 (ja) 配電網応答型制御装置
EP1729223A2 (en) Demand control apparatus, electric power consumption prediction method, and program therefor
JP4435533B2 (ja) 熱源システム及び制御装置
US20070227721A1 (en) System and method for pre-cooling of buildings
JP2007060848A (ja) 電力量制御装置および電力量制御方法ならびにプログラム
JPS6125075B2 (ja)
JPH05248756A (ja) 冷蔵庫の除霜制御のための使用パターン学習方法
CN112050412B (zh) 空调器的蓄热控制方法
CN111102691A (zh) 模块组合空调系统
JPH1194327A (ja) 空気調和機の制御装置
CN112032949B (zh) 空调蓄热控制方法
JP2021140499A (ja) 冷蔵庫、強化学習装置、及び強化学習方法
CN116209964B (zh) 信息处理装置、信息处理方法及程序产品
CN112032943B (zh) 空调蓄热控制方法
JP7154034B2 (ja) 制御装置及び冷凍システム
US20240125504A1 (en) Apparatus and method for setting combination desired temperature for air conditioners installed in target zone, and method for calculating base relationship information of the target zone using the same
JP2869224B2 (ja) 冷蔵庫の除霜制御装置
CN112032957B (zh) 空调蓄热控制方法
CN115468363B (zh) 冰箱、化霜控制方法、存储介质
CN112050419A (zh) 空调器的蓄热控制方法
CN112032953B (zh) 空调蓄热控制方法
CN112032956B (zh) 空调蓄热控制方法
CN112032945B (zh) 空调蓄热控制方法
CN112050407B (zh) 空调器的蓄热控制方法