JP7305041B2 - 情報処理装置および空調システム - Google Patents

情報処理装置および空調システム Download PDF

Info

Publication number
JP7305041B2
JP7305041B2 JP2022516501A JP2022516501A JP7305041B2 JP 7305041 B2 JP7305041 B2 JP 7305041B2 JP 2022516501 A JP2022516501 A JP 2022516501A JP 2022516501 A JP2022516501 A JP 2022516501A JP 7305041 B2 JP7305041 B2 JP 7305041B2
Authority
JP
Japan
Prior art keywords
learning
temperature
air
stage
open
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022516501A
Other languages
English (en)
Other versions
JPWO2021214852A1 (ja
Inventor
昂樹 七條
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021214852A1 publication Critical patent/JPWO2021214852A1/ja
Application granted granted Critical
Publication of JP7305041B2 publication Critical patent/JP7305041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Air Conditioning Control Device (AREA)

Description

本開示は、情報処理装置および空調システムに関する。
従来の空調装置では、限られた使用者の快適性を向上させるため、空調制御自体の評価をスマートフォンなどの外部端末から使用者自身が入力していた。特表2019-522163号公報は、室内空間を調整する空調システムの動作を制御させるコントローラを開示する。このコントローラは、強化学習アルゴリズムを用いることによって制御コマンドを送信するプロセッサと、プロセッサから制御コマンドを受信し、空調システムに制御信号を送信するデータ出力部とを備える。
特表2019-522163号公報
特表2019-522163号公報に開示されるコントローラは、個人の体感による快適性の評価などに基づいて学習を行なう。
しかし、オフィス等多数の使用者が存在する空調制御においては、快適性の指標が使用者によって異なるため、従来のコントローラでは、学習を行なっても学習済みの制御内容が意図しないものになってしまう可能性があった。
また、オフィスなどでは外気の流入が多く、取得する温度の情報の正確性を保てない場合がある。従来のコントローラでは、温度センサからの情報を取得して空間情報を把握するが、温度を変化させる外乱を考慮できていないため、長時間学習しても外乱の影響により設定温度へ達しないことが想定される。学習において取得する情報が正確でない場合、学習が発散してしまう可能性が高く、従来のコントローラでは、使用者が意図するものではない制御を行なってしまうことが想定される。
本開示の情報処理装置および空調システムは、上記のような問題を解決し、オフィス等複数の使用者が存在し、外乱の多い環境で使用する場合でも、適切な空調制御を獲得するものである。
本開示は、空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置に関する。情報処理装置は、空調の対象空間の状態を示す第1データと、対象空間が安定しているか否かを示す第2データと、空調装置に設定される対象空間の温度の目標値である設定温度を示す第3データを取得する取得部と、取得部によって取得された、第1~第3データを含む学習用データに基づき、推定モデルを生成するモデル生成部とを備える。モデル生成部は、取得部によって取得された第2データが対象空間の安定を示す場合に第1段階の学習を行なう。モデル生成部は、第1段階の学習の終了後において、取得部によって取得された第2データが対象空間の安定を示さない場合に、第1段階の学習で生成された推定モデルを引き継いで、第2段階の学習を行なう。
本開示の情報処理装置および空調システムは、外乱の多い環境で使用する場合でも、空調の対象空間を設定温度にするための適切な空調制御が実行される。
本実施の形態の空調システムの概略構成図を示す図である。 空調システムの実使用を想定した環境の図である。 第1段階学習における制御を説明するためのフローチャートである。 リモコン1のCPUおよびメモリで実現される機械学習装置の構成図である。 学習装置の学習処理に関するフローチャートである。 リモコン1のCPUおよびメモリで実現される推論装置の構成図である。 学習装置の推論処理に関するフローチャートである。 学習の第2段階における制御を説明するためのフローチャート(前半部)である。 学習の第2段階における制御を説明するためのフローチャート(後半部)である。 温度センサの温度補正値の一例を示す図である。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
図1は、本実施の形態の空調システムの概略構成図を示す図である。図2は、空調システムの実使用を想定した環境の図である。
図1に示す空調システム10は、空調の対象空間30を空調する空調装置20と、リモコン1と、複数の温度センサ2A,2Bと、温度センサ2A,2Bにそれぞれペアリングされている複数の開閉センサ3A,3Bとを備える。空調装置20は、室内ユニット4A,4Bと、室外ユニット5A,5Bとを備える。
室内ユニット4Aと室外ユニット5Aは、冷媒を循環させる冷凍サイクル装置を構成する。室内ユニット4Bと室外ユニット5Bは、冷媒を循環させる冷凍サイクル装置を構成する。なお、室内ユニット4Aおよび4Bに対して共通の1台の室外ユニットが設けられる構成であっても良い。
本実施の形態では、温度センサ2A,2B、開閉センサ3A,3B、室内ユニット4A,4B、室外ユニット5A,5Bに対して、無線または有線による通信が可能なリモコン1について説明する。このリモコン1の特徴の1つは、無線通信により取得したセンサ情報をもとに、室内ユニット4A,4Bを制御することである。
リモコン1は、温度センサ2A,2Bにより任意の時間の温度情報を取得する。リモコン1は、取得した温度情報と、設定温度及び制御内容と、任意時間経過後の温度情報とをもとに学習し、空調の対象空間30が設定温度になるための適切な制御内容を獲得する。
リモコン1は、空調装置20を制御する制御装置であり、CPU11と、メモリ12と、温度センサ13と、入力装置14と、通信装置15とを備える。リモコン1は、通信装置15から室内ユニット4Aおよび4Bにそれぞれ制御信号(A1~A3,B1~B3)を送信する。温度センサ13は、室内の温度Trを検出する。リモコン1は、温度センサ2A,2Bから得られる温度情報と、開閉センサ3A,3Bから得られる外乱情報とに基づいて制御信号(A1~A3,B1~B3)を出力するモデルを生成するための学習を行なう情報処理装置でもある。
リモコン1の入力装置14は、ユーザが室内機のON/OFFを切り替える押しボタン、設定温度を入力するボタン等を含む。通信装置15は、室内ユニット4Aおよび4Bと通信を行なうためのものである。
メモリ12は、たとえば、ROM(Read Only Memory)と、RAM(Random Access Memory)と、フラッシュメモリとを含んで構成される。なお、フラッシュメモリには、オペレーティングシステム、アプリケーションプログラム、各種のデータが記憶される。
CPU11は、空調装置20の全体の動作を制御する。なお、図1に示したリモコン1は、CPU11がメモリ12に記憶されたオペレーティングシステムおよびアプリケーションプログラムを実行することにより実現される。なお、アプリケーションプログラムの実行の際には、メモリ12に記憶されている各種のデータが参照される。通信装置15からの制御信号を受信する受信装置が、室内ユニット4A,4Bの各々に設けられる。
開閉センサ3Aは、窓32の開閉状態OSAを検知し、リモコン1は、通信装置15を介して窓32の開閉状態OSAを受信する。開閉センサ3Bは、ドア31の開閉状態OSBを検知し、リモコン1は、通信装置15を介してドア31の開閉状態OSBを受信する。なお、換気扇が設けられている場合は、開閉センサの検出信号に代わり、換気扇のON/OFF状態を示す信号がリモコン1に送信されていても良い。
温度センサ2Aは、窓32付近に設置され、窓32付近の室内の温度TAを検知し、リモコン1に検知した温度TAを送信する。温度センサ2Bは、ドア31付近に設置され、ドア31付近の室内の温度TBを検知し、リモコン1に検知した温度TBを送信する。
リモコン1は、例えば空調の対象空間30である部屋の壁に設置される。室内ユニット4A,4Bおよび各センサとリモコン1の通信装置15との間の信号の送受信は、たとえば、Bluetooth(登録商標)などの無線送信方式で行なわれる。
本実施の形態の空調用のリモコン1は、温度センサ2A,2Bおよび開閉センサ3A,3Bなどから空調の対象空間30の状態を示す情報を取得し、その情報をもとに学習を行なうことで、設置環境に適した制御内容を獲得する。空調用のリモコン1により、空調システム10の快適性を向上させる。リモコン1は、学習によって得られた学習済みモデルによって、設定内容に対する空調システムの最適な制御を実現する。
次に基本的な動作について説明する。
一般的には、空調システム10は、室内ユニット4A,4B、室外ユニット5A,5Bとリモコン1のみで動作する。冷房運転、暖房運転の各動作時には通常、空調の対象空間30の目標温度である設定温度Tsetがリモコン1に設定されている。リモコンによる制御は、温度センサ13で取得した室温Trに基づいて行なわれる。
以下に、本実施の形態においてリモコン1で実行される制御方法について説明する。リモコン1は、使用する環境に適した制御を学習により獲得する。学習のための入力は、温度センサ2A,2Bから得た温度TA,TBと、開閉センサ3A,3Bから得た開閉状態OSA、OSBと、設定温度Tsetと、室内ユニット4Aの吹き出し温度A1、風量A2、風向A3と、室内ユニット4Bの吹き出し温度B1、風量B2、風向B3とが使用される。
図1、図2に示すように、温度センサ2Aと開閉センサ3Aとはペアリングされており、温度センサ2Bと開閉センサ3Bとはペアリングされている。温度センサ2A,2Bが取得する温度に対する、外気の流入のような外乱が、開閉センサ3A,3Bによって感知される。
なお、温度センサ2A,2Bおよび開閉センサ3A,3Bの配置の変更が可能なように、温度センサとこれに対応する開閉センサとのペアリングは、リモコン1の設定によって変更が可能である。
リモコン1にも室温を検出する温度センサ13が設置されている。温度センサ2A,2Bからは検出した温度TA,TBがリモコン1に送信される。開閉センサ3A,3Bからは、開閉状態OSA、OSBがリモコン1に送信される。リモコン1は、システムコントローラのようなものであってもよい。
リモコン1には、冷房運転か暖房運転か自動運転かを指定するモードと、室温の目標温度である設定温度Tsetとを使用者が設定する。風向および風量を設定しても良いが、典型的な例では、風向および風量は、自動に設定され、学習によってリモコン1が室内ユニットごとに決定する。
空調の対象空間30には、室内ユニット4Aと室内ユニット4Bとが設置されている。室内ユニット4A,4Bにそれぞれ対応して室外ユニット5A,5Bが屋外に設置されている。なお、複数の室内ユニットに1台の室外ユニットが設けられていても良い。また、室内ユニットが複数台の構成を例示したが、室内ユニットは1台であっても良い。
リモコン1は、室内ユニット4A,4Bに対して無線で個別の制御信号を送信する。室内ユニット4Aに対する制御信号は、吹き出し温度A1、風量A2、風向A3を示す情報を含み、室内ユニット4Bに対する制御信号は、吹き出し温度B1、風量B2、風向B3を示す情報を含む。
<学習フェーズ>
リモコン1は、各種センサの取得情報から、対象空間30を設定温度Tsetにするための空調制御を学習する。リモコン1は、2段階に分けて空調制御の学習を行なう。第1段階では外乱を排除した学習、第2段階では外乱も考慮した学習を行なう。ここで言う外乱とは主にドア(窓)の開閉による外気の流入を想定している。
たとえば、空気の出入りが激しい場合、または空調の対象空間30の人の数がいつもよりもかなり多い場合、などの非定常状態では、外乱の影響が大きく、精度の高い学習ができない。このため、まずは空調の対象空間30の状態が一定時間以上安定しているときに、室内の複数の箇所に配置された温度センサの情報を利用して設定温度に達するための空調制御の学習を行なう。この時の学習を、第1段階学習と呼ぶことにする。
空調の対象空間30の状態が一定時間以上安定しているかどうかの判断として、各種のセンサからの信号を使用する。図1、図2に示した開閉センサ3A,3Bの情報から室外空気の出入りの有無を判断できる。さらに、図示しないが、換気扇のスイッチ信号、外気温度センサ、人感センサ、天気を判断する照度センサ、などから得られる情報を学習に使うことができる。
第1段階学習を終えると、リモコン1は、外乱の影響も含めた学習を行なう。つまり、空調の対象空間30の状態が一定時間以上安定しているときに限らずに学習を行ない、様々なケースにおいても、適用可能な設定温度に達するための空調制御の学習を行なう。この時の学習を、第2段階学習と呼ぶことにする。
第2段階学習では、第1段階学習の結果も利用するとともに、第1段階学習では空調の対象空間30の状態が一定時間以上安定しているかどうかの判断として使用していた開閉センサ3A,3Bの情報を学習情報として利用する。さらに、第2段階学習においても、図示しないが、外気温度センサ、人感センサ、天気を判断する照度センサ、などのセンサ情報を使うことができる。
このように複数段階に分けて学習を行なう方が、精度の高い空調制御の学習済みモデルを早期に得ることができる。
なお、外乱の影響を一つずつ確認する学習を行なった後に、学習を行なったすべての外乱の影響下での学習を行なう、のようにさらに細かく段回に分けて行なってもよい。
第1段階学習から第2段階学習への遷移は、運転日数または学習フロー実行回数によって実行される。たとえば、空調システム10を設置してから3日間は第1段階の学習が実行される。そして、第1段階の学習で生成されたモデルは、そのまま第2段階の学習に引き継がれ、さらなる学習が行なわれる。
逆に、第2段階学習から第1段階学習への遷移は、設定温度Tsetと温度センサ2A,2Bで検知された温度TA,TBとの乖離がしきい値以上になった場合または冷房運転と暖房運転との間でモードの切り替えが行なわれた場合に発生する。
以下、第1段階学習および第2段階学習の詳細について説明する。図3は、第1段階学習における制御を説明するためのフローチャートである。
空調システム10を設置して、冷房運転または暖房運転が初回に運転された場合、もしくは、冷房運転から暖房運転に、または暖房運転から冷房運転にモードが切り替えられた場合、第1段階の学習が開始される。その後、予め定められた運転日数の間、または学習が一定回数実行される間は、第1段階の学習が実行される。
ステップS1において、リモコン1は、温度センサ2A,2B,13から温度TA,TB,Trを取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS2において、リモコン1は、開閉センサ3A,3Bから得た開閉状態OSA,OSBに基づいてドア等がすべて開放状態か否かを判断する。
開閉センサ3A,3Bから得た情報がドアまたは窓が閉じていることを示す場合、その開閉センサとペアリングされている温度センサの情報を第1段階において学習に使用する。ドア開閉センサ情報がドアまたは窓が開いていることを示す場合、そのドア開閉センサとペアリングされている温度センサの情報は第1段階では学習に使用しない。
したがって、ドア等がすべて開放状態であると判断された場合(S2でYES)、リモコン1と接続されているすべての温度センサの情報が使用できない。その場合には、ステップS3においてn秒(nは自然数)の時間を待ってから、再度ステップS1において情報取得をする。
ドア等のいずれかが閉じていると判断された場合(S2でNO)、ステップS4に処理が進められる。ステップS4では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン1は、温度センサ2A,2Bおよび温度センサ13から、対象空間30の温度TA,TB,Trを取得し、ユーザがリモコン1に設定した設定温度Tset、風量、風向などを取得する。
続いて、ステップS5において、リモコン1は、室内ユニット4A,4Bに制御信号を送信し、m分間(mは自然数)の空調装置20の運転を実行する。たとえば、初回は、リモコン1に設定された設定温度Tsetよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始される。
そしてm分間の運転が行なわれた後、ステップS6において、リモコン1は、温度センサ2A,2B,13から温度を取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS7において、リモコン1は、開閉センサ3A,3Bからドア等がすべて開放状態か否かを判断する。ドア等がすべて開放状態であると判断された場合(S7でYES)、ステップS8においてn秒の時間を待ってから、再度ステップS6において情報取得をする。
ドア等のいずれかが閉じていると判断された場合(S7でNO)、ステップS9に処理が進められる。ステップS9では、開閉センサからの開閉状態がドア等が閉じていることを示す場合、リモコン1は、その開閉センサとペアリングされている温度センサの情報を抽出し、設定温度Tsetと抽出した温度情報とを比較し、乖離が少ないときはその制御内容(吹き出し温度、風量、風向等)を強化する(学習する)。学習には、例えばQ学習が用いられ、評価関数が更新される。
そして再びステップS5~S9の処理が繰返し実行されることによって、リモコン1は、室内ユニット4A,4Bの各々に送信する制御内容を学習する。
図4は、リモコン1のCPUおよびメモリで実現される機械学習装置の構成図である。学習装置100は、データ取得部110と、モデル生成部120とを備える。
データ取得部110は、室内ユニット4A,4Bに設定されている吹き出し温度A1,B1、風量A2,B2、風向A3,B3と、開閉センサ3A,3Bが検出した開閉状態OSA,OSBと、開閉センサ3A,3Bにペアリングされている温度センサ2A,2Bからの温度TA,TBと、リモコン1に設定されている設定温度Tsetとを学習用データとして取得する。
室内ユニットに設定されている吹き出し温度、風量、風向は、強化学習における「行動」に相当する。また、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とは、強化学習における「状態」に相当する。
モデル生成部120は、「行動」、「状態」を含む学習用データに基づいて、室内ユニット4Aに設定する吹き出し温度A1、風量A2、風向A3と、室内ユニット4Bに設定する吹き出し温度B1、風量B2、風向B3とを学習する。室内ユニットに設定する吹き出し温度、風量、風向は、強化学習における「制御出力」に相当する。
すなわち、モデル生成部120は、リモコン1に設定された設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報(状態)から室内ユニットに設定する吹き出し温度、風量、風向(出力)を推論する学習済モデルを生成する。
モデル生成部120が用いる学習アルゴリズムは教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習(Reinforcement Learning)を適用した場合について説明する。強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Q学習(Q-learning)およびTD学習(TD-learning)が知られている。例えば、Q学習の場合、行動価値関数Q(s,a)の一般的な更新式は式(1)で表される。
Figure 0007305041000001
式(1)において、sは時刻tにおける環境の状態を表し、aは時刻tにおける行動を表す。行動aにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。
室内ユニットに設定されている吹き出し温度、風量、風向が行動aとなり、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とが状態sとなり、時刻tの状態sにおける最良の行動aを学習する。
式(1)で表される更新式は、時刻t+1における最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部120は、報酬計算部121と、関数更新部122と、を備えている。
報酬計算部121は、「行動」、「状態」に基づいて報酬を計算する。報酬計算部121は、報酬基準(後述の報酬増大基準と報酬減少基準の総称)に基づいて、報酬rを計算する。例えば、報酬増大基準に該当する場合には報酬を増大させ(例えば「1」の報酬を与える。)、他方、報酬減少基準に該当する場合には報酬を低減する(例えば「-1」の報酬を与える。)。
たとえば、抽出された温度センサで検出された温度が設定温度に近いほど、高い報酬を与えるように報酬基準が設定される。具体的には、温度センサが複数の場合には、たとえば、検出温度と設定温度との差の大きさの平均値、または差の二乗和の平均値などに基づいて報酬が決定されるようにする。
関数更新部122は、報酬計算部121によって計算される報酬に従って、「制御出力」を決定するための関数を更新し、学習済モデル記憶部101に出力する。例えばQ学習の場合、式(1)で表される行動価値関数Q(s,a)を「制御出力」を算出するための関数として用いる。
以上のような学習を繰り返し実行する。学習済モデル記憶部101は、関数更新部122によって更新された行動価値関数Q(s,a)、すなわち、学習済モデルを記憶する。
次に、図5を用いて、学習装置が学習する処理について説明する。図5は学習装置の学習処理に関するフローチャートである。
ステップS11において、データ取得部110は、「行動」、「状態」を学習用データとして取得する。
ステップS12において、モデル生成部120は「行動」、「状態」に基づいて報酬を計算する。具体的には、報酬計算部121は、「行動」、「状態」を取得し、予め定められた報酬基準に基づいて報酬を増加させるか又は報酬を減じるかを判断する。
報酬計算部121は、報酬を増大させると判断した場合に、ステップS13において報酬を増大させる。一方、報酬計算部121は、報酬を減少させると判断した場合に、ステップS14において報酬を減少させる。
そして、ステップS15において、関数更新部122は、報酬計算部121によって計算された報酬に基づいて、学習済モデル記憶部101が記憶する式(1)で表される行動価値関数Q(s,a)を更新する。
学習装置100は、以上のステップS11からS15までの処理を繰り返し実行し、生成された行動価値関数Q(s,a)を学習済モデルとして記憶する。
なお、本実施の形態に係る学習装置100は、学習済モデルを学習装置の外部に設けられた学習済モデル記憶部101に記憶するものとしたが、学習済モデル記憶部101を学習装置の内部に備えていてもよい。
<活用フェーズ>
図6は、リモコン1のCPUおよびメモリで実現される推論装置の構成図である。推論装置200は、データ取得部201と、推論部202とを備える。
データ取得部201は、空調システム10の「状態」を取得する。「状態」は、設定温度Tsetと、温度センサからの温度TA,TBのうち開閉センサの開閉状態OSA,OSBによって抽出された温度を含む。
推論部202は、学習済モデル記憶部101に記憶されている学習済モデルを利用して「制御出力」を推論する。「制御出力」は、室内ユニット4A,4Bにそれぞれ設定する吹き出し温度A1,B1、風量A2,B2、風向A3,B3を含む。学習済モデルにデータ取得部201が取得した「状態」を入力することで、「状態」に適した「制御出力」を推論することができる。
なお、本実施の形態では、空調システム10のリモコン1のモデル生成部120で学習した学習済モデルを用いて「制御出力」を出力するものとして説明したが、他の空調システムのリモコンから学習済モデルを取得し、リモコン1が取得した学習済モデルに基づいて「制御出力」を出力するようにしてもよい。
次に、図7を用いて、学習装置を使って「制御出力」を得るための処理を説明する。図7は学習装置の推論処理に関するフローチャートである。
ステップS21において、データ取得部201は「状態」を取得する。
続いて、ステップS22において、推論部202は学習済モデル記憶部101に記憶された学習済モデルに「状態」を入力し、「制御出力」を得る。推論部202は得られた「制御出力」を室内ユニット4A,4Bに出力する。
ステップS23において、室内ユニット4A,4Bは、「制御出力」を用いて、吹き出し温度、風向、風量を制御する。これにより、空調の対象空間30を均一に設定温度に近づけることができる。
なお、本実施の形態では、推論部202が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。なお、第1段階と第2段階で学習アルゴリズムを切り替えても良い。たとえば、第1段階は教師あり学習、第2段階は強化学習の学習アルゴリズムを採用しても良い。
また、モデル生成部120に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンなどに従って機械学習を実行してもよい。
なお、学習装置100及び推論装置200は、例えば、ネットワークを介してリモコン1に接続され、このリモコン1とは別個の装置であってもよい。また、学習装置100及び推論装置200は、何れかの室内ユニットまたは室外ユニットに内蔵されていてもよい。さらに、学習装置100及び推論装置200は、クラウドサーバ上に存在していてもよい。
また、モデル生成部120は、1対の温度センサおよび開閉センサから取得される学習用データを用いて、または3対以上の温度センサおよび開閉センサから取得される学習用データを用いて「制御出力」を学習するようにしてもよい。また、学習用データを収集する温度センサおよび開閉センサを途中で対象に追加したり、対象から除去したりすることも可能である。また制御の対象となる室内ユニットを途中で対象に追加したり、対象から除去したりすることも可能である。
次に、第2段階の学習について説明する。図8は、学習の第2段階における制御を説明するためのフローチャート(前半部)である。図9は、学習の第2段階における制御を説明するためのフローチャート(後半部)である。
リモコンのスイッチON時には、S31~S34において、第1段階の学習と同様にセンサからの情報取得と初期状態の確定が行なわれる。
ステップS31において、リモコン1は、温度センサ2A,2B,13から温度TA,TB,Trを取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS32において、リモコン1は、開閉センサ3A,3Bから開放状態のドア等があるか否かを判断する。
開放状態のドア等があった場合(S32でYES)、リモコン1は、ステップS33において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。
図10は、温度センサの温度補正値の一例を示す図である。たとえば、温度センサ2Aを窓、温度センサ2Bをドア付近に設置している場合、温度補正値の一例は、以下のような関係となる。
冷房運転時には、窓付近に設置された温度センサ2Aの温度補正値は、-4℃、ドア付近に設置された温度センサ2Bの温度補正値は、-1.5℃に設定される。
たとえば、冷房運転中に窓が開いたとすると、開く前は、25℃であった温度が一時的に外気温度29℃を検出する場合がある。したがって、窓が閉じられて外乱が収まったあとは、検出温度が下がるだろうと予想されるので、温度補正値が-4℃に設定され、29℃であった検出温度が25℃に補正される。なお、ドアの場合には外気よりも廊下の空気の方が設定温度との差が小さいと考えられるので、温度補正値の絶対値も小さく設定されている。言い換えると、窓からは外気が直接侵入するので、外乱としては大きく、ドアは、外気よりも室温に近い空気が入るため、外乱としては少ないと考えることができる。
同様な考えで、暖房運転時には、温度センサ2Aの温度補正値は、+4℃、温度センサ2Bの温度補正値は、+1.5℃に設定される。
ステップS33では、リモコン1は、温度補正値を適用した温度センサを記憶しておく。以上の温度補正値に関しては制御開始時には一定の値とするが、空調制御を行なう環境に適応していくよう変化するものとする。
具体的な補正値の変更は、後にステップS42で説明するが、それぞれの温度センサ情報におけるドア開放検知時の温度と短時間経過後のドア閉鎖検知時の温度を比較して行なう。
ステップS33において温度補正が実行された場合、またはステップS32において開放状態のドア等が無いと判断された場合には、ステップS34に処理が進められる。
ステップS34では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン1は、温度センサ2A,2Bおよび温度センサ13から、空調の対象空間30の温度TA,TB,Trを取得し、ユーザがリモコン1に設定した設定温度Tset、風量、風向などを取得する。
続いて、ステップS35において、リモコン1は、室内ユニット4A,4Bに制御信号を送信し、m分間(mは自然数)の空調システムの運転を実行する。図3のステップS4では、初回であったので、リモコンに設定された設定温度Tsetよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始されたが、ステップS35では、第1段階の学習結果を反映した学習モデルによって吹き出し温度A1,B1が推定され、推定された吹き出し温度を実現するように室内ユニット4A,4Bが運転を行なう。
そしてm分間の運転が行なわれた後、ステップS36において、リモコン1は、温度センサ2A,2B,13から温度を取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS37において、リモコン1は、開閉センサ3A,3Bからドア等の各々が、前回情報取得時に開放状態だったか否かを判断する。
ドア等の各々が、前回情報取得時に開放状態だった場合(S37でYES)、リモコン1は、ステップS38において、開閉センサ3A,3Bからドア等の各々が、現在開放状態であるか否かを判断する。
現在ドア等が開放状態であると判断された場合(S38でYES)、リモコン1は、ステップS39においてn秒の時間を待ってから、再度ステップS36において情報取得をする。前回情報取得時および現在の両方において開放状態であるドア等がある場合は、空調の対象空間30が換気中などであると考えられ、取得した情報は、学習および制御を行なうための情報としては使用しない方が良いからである。
すなわち、前回情報取得時も今回情報取得時もドアまたは窓が開放状態であった場合には、換気中であるなど学習のための情報収集に不適切な状況であるため、取得した温度は学習には使用しない。
一方、ドア等の各々が、前回情報取得時に開放状態でなかった場合(S37でNO)、リモコン1は、ステップS40において、開閉センサ3A,3Bからドア等の各々が、現在開放状態であるか否かを判断する。前回閉じていたドアの開放がある場合には(S40でYES)、開放されているドアに対応する温度センサには温度補正値が適用される。
すなわち、現在ドア等が開放状態であると判断された場合(S40でYES)、リモコン1は、ステップS41において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。この補正については、ステップS33と同様な処理であり、説明は繰返さない。
また、ステップS38において、現在ドア等が開放状態でないと判断された場合(S38でNO)は、温度補正値を適用していた外乱ありの状態から、外乱なしの状態に遷移した場合に該当する。この場合、リモコン1は、ステップS42において、前回情報取得時に開放状態であり、現在閉じているドア等に対応する温度センサの温度補正値を評価し、温度補正値を修正する。具体的には、補正が不要な現在の温度センサの検出値と、外乱のために温度補正値を適用した前回の温度センサの補正後の検出値とを比較する。言い換えると、前回情報取得時に開放されていたドア等が現在閉じている場合には、補正値が適切か否かが判断される。
たとえば、前回補正後の検出温度が25℃で、今回補正しない検出温度が25℃であった場合には、温度補正値は適切と考えられるため修正されない。一方、前回補正後の検出温度が25℃で、今回補正しない検出温度が21℃であった場合には、温度補正値が修正される。より具体的には、温度補正値が-4℃であった場合、前回検出温度が29℃で、これが25℃に補正されたと考えられる。このとき、外乱が無くなると補正していない検出温度が21℃となった。補正後の温度25℃は、実際にはもっと低かったので、温度補正幅が不足していたと考えられる。そこで、ズレを小さくするために温度補正値は-4℃から-4.1℃に修正され補正量が増加される。このように、温度補正値を使用する外乱ありの状態から外乱なしの状態に遷移した場合に、ズレを小さくする方向に温度補正値をすこしずつ修正することによって、温度補正値も適切な値に落ち着いていく。なお、補正値の精度は、上記の例では0.1℃単位としているが、使用する温度センサによって、0.05℃単位とするなど任意の設定を可能としても良い。
ステップS40で現在ドア等が開放状態でないと判断された場合は、外乱を排除した第1段階の学習と同様な学習がステップS43で実行される。また、ステップS41またはステップS42で温度補正値が適用された場合も、ステップS43に処理が進められる。ステップS43では、開閉センサからの開閉状態から当該ドア等が閉じている場合、その開閉センサとペアリングされている温度センサの温度情報を抽出し、設定温度と抽出した温度情報を比較し、乖離が少ないときはその制御内容(吹き出し温度、風量、風向等)を強化する(学習する)。
ステップS43の学習処理の詳細は、ステップS9と同様であるので、ここでは説明は繰返さない。
そして再びステップS35~S43の処理が繰返し実行されることによって、リモコン1は、室内ユニット4A,4Bの各々に送信する制御内容を学習する。
以上説明したように、リモコン1は、第2段階の学習では、ドア開閉センサからの情報が当該ドア等が開いていることを示す場合でも、そのドア開閉センサとペアリングされている温度センサの情報を学習に使用する。ただし、ドア等が開いていた場合に取得した温度は温度補正値を適用してから学習に使用する。
なお、温度補正値、および学習される制御内容は、冷房運転、暖房運転のモードにより別々に記憶され、保存される。
また、本実施の形態で説明した空調システムは、オフィス空間のように多くの人が存在する環境に適用することを想定しているが使用者が限られている住宅等への適用も可能である。
(まとめ)
本開示は、空調装置20の制御パラメータを推定する推定モデルを学習する情報処理装置であるリモコン1に関する。情報処理装置は、図4に示すように、空調の対象空間の状態を示す第1データと、対象空間30が安定しているか否かを示す第2データと、空調装置に設定される対象空間30の温度の目標値である設定温度Tsetを示す第3データを取得するデータ取得部110と、データ取得部110によって取得された、第1~第3データを含む学習用データに基づき、推定モデルを生成するモデル生成部120とを備える。モデル生成部120は、データ取得部110によって取得された第2データが対象空間30の安定を示す場合に第1段階の学習を行なう。モデル生成部120は、第1段階の学習の終了後において、データ取得部110によって取得された第2データが対象空間30の安定を示さない場合に、第1段階の学習で生成された推定モデルを引き継いで、第2段階の学習を行なう。
このように、第1段階の学習で外乱が無い状態の推定モデルを生成してから、第2段階の学習で外乱が生じても適用できる推定モデルに発展させるので、対象空間を設定温度に維持する最終的な推定モデルが早期に完成することが期待できる。
好ましくは、図1、図2に示すように、第1データは、状態検出部2から出力される。状態検出部2は、少なくとも1つの温度センサ2A,2Bを備える。モデル生成部120は、温度センサ2A,2Bの出力と設定温度Tsetとの乖離度に基づいて報酬が決定される強化学習を行なう。
好ましくは、図1、図2に示すように、第1データは、状態検出部2から出力される。図1、図2に示すように、状態検出部2は、複数の温度センサ2A,2Bを含む。第2データは、外乱検出部3から出力される。外乱検出部3は、複数の温度センサ2A,2Bにそれぞれ対応する複数の開閉センサ3A,3Bを含む。複数の開閉センサ3A,3Bの各々は、対象空間に設けられたドア31または窓32の開閉状態OSA,OSBを検出する。
このように、使用者による外部評価ではなく、設定温度と温度センサの情報及び開閉のセンサ情報を学習に必要な入力として用いて報酬を決定するため、使用者の作業(手間)を必要とせず、空調装置20の適切な制御が実現できる。
図1に示すように、より好ましくは、リモコン1は、記憶装置(メモリ12)をさらに備える。複数の温度センサ2A,2Bと複数の開閉センサ3A,3Bの対応関係は、記憶装置(メモリ12)に書き換え可能に記憶されている。
このように、温度センサと開閉センサの対応関係を変更することができるため、設置または移設時などに温度センサと開閉センサの組み合わせの制限がない。
好ましくは、図6に示すように、リモコン1は、学習済の推定モデルを用いて、データ取得部201によって取得された、第1~第3データ(データ取得部201で取得した状態検出部2の出力、外乱検出部3の出力および設定温度Tset)から制御パラメータを出力する推論部202をさらに備える。制御パラメータは、室内ユニット4Aに対する吹き出し温度A1、風量A2、風向A3の少なくとも1つと、室内ユニット4Bに対する吹き出し温度B1、風量B2、風向B3のうち少なくとも1つとを含む。
好ましくは、第2段階の学習は、第3段階の学習と、第3段階の学習の終了後に実行される第4段階の学習とを含んでもよい。モデル生成部120は、第3段階の学習を行なう場合には、第2データが示す外乱の量が判定値以下の状況で学習を実行する。モデル生成部120は、第4段階の学習を行なう場合には、外乱の量が判定値より多い状況で学習を実行する。具体的には、モデル生成部120は、第2データに含まれるドア31または窓32の開閉状態OSA,OSBのうちいずれか1つが開状態を示し、残りが閉状態を示す場合に、第3段階の学習を行なう。この場合の外乱の量は、開状態を示す開閉状態の数であり、判定値は1である。第3段階の学習によってモデルに変更が加えられた後に、モデル生成部120は、開閉状態OSA,OSBの両方が開状態を示す場合に、第4段階の学習を行なう。開閉センサの数を3以上に増やした場合には、第2段階の学習をさらに多段階に分割しても良い。
好ましくは、図1に示すように、空調装置20は、少なくとも1つの室内ユニットを備え、制御パラメータは、室内ユニット4A,4Bから送風される空気の吹き出し温度A1,B1と、風量A2,B2と、風向A3,B3のうち少なくとも1つを含む。
図1に示すように、空調装置20は、複数の室内ユニット4A,4Bを備える。制御パラメータは、複数の室内ユニット4A,4Bの各々に設定される空気の吹き出し温度A1,B1と、風量A2,B2と、風向A3,B3のうち少なくとも1つを含む。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 リモコン、2 状態検出部、2A,2B,13 温度センサ、3 外乱検出部、3A,3B 開閉センサ、4A,4B 室内ユニット、5A,5B 室外ユニット、7A 制御信号、10 空調システム、12 メモリ、14 入力装置、15 通信装置、20 空調装置、30 対象空間、31 ドア、32 窓、100 学習装置、101 学習済モデル記憶部、110,201 データ取得部、120 モデル生成部、121 報酬計算部、122 関数更新部、200 推論装置、202 推論部。

Claims (9)

  1. 空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置であって、
    空調の対象空間の状態を示す第1データと、前記対象空間が安定しているか否かを示す第2データと、前記空調装置に設定される前記対象空間の温度の目標値である設定温度を示す第3データを取得する取得部と、
    前記取得部によって取得された、前記第1~第3データを含む学習用データに基づき、前記推定モデルを生成するモデル生成部とを備え、
    前記モデル生成部は、
    前記取得部によって取得された前記第2データが前記対象空間の安定を示す場合に第1段階の学習を行ない、
    前記第1段階の学習の終了後において、前記取得部によって取得された前記第2データが前記対象空間の安定を示さない場合に、前記第1段階の学習で生成された前記推定モデルを引き継いで、第2段階の学習を行なう、情報処理装置。
  2. 前記第1データは、状態検出部から出力され、
    前記状態検出部は、少なくとも1つの温度センサを備え、
    前記モデル生成部は、前記温度センサの出力と前記設定温度との乖離度に基づいて報酬が決定される強化学習を行なう、請求項1に記載の情報処理装置。
  3. 前記第1データは、状態検出部から出力され、
    前記状態検出部は、複数の温度センサを含み、
    前記第2データは、外乱検出部から出力され、
    前記外乱検出部は、前記複数の温度センサにそれぞれ対応する複数の開閉センサを含み、前記複数の開閉センサの各々は、前記対象空間に設けられたドアまたは窓の開閉状態を検出する、請求項1に記載の情報処理装置。
  4. 記憶装置をさらに備え、
    前記複数の温度センサと前記複数の開閉センサの対応関係は、前記記憶装置に書き換え可能に記憶されている、請求項3に記載の情報処理装置。
  5. 前記推定モデルを用いて、前記取得部によって取得された、前記第1~第3データから前記制御パラメータを出力する推論部をさらに備える、請求項1に記載の情報処理装置。
  6. 前記第2段階の学習は、第3段階の学習と、前記第3段階の学習の終了後に実行される第4段階の学習とを含み、
    前記モデル生成部は、前記第3段階の学習を行なう場合には、前記第2データが示す外乱の量が判定値以下の状況で学習を実行し、
    前記モデル生成部は、前記第4段階の学習を行なう場合には、前記外乱の量が判定値より多い状況で学習を実行する、請求項1に記載の情報処理装置。
  7. 前記空調装置は、少なくとも1つの室内ユニットを備え、
    前記制御パラメータは、前記室内ユニットから送風される空気の吹き出し温度と、風量と、風向のうち少なくとも1つを含む、請求項1~6のいずれか1項に記載の情報処理装置。
  8. 前記空調装置は、複数の室内ユニットを備え、
    前記制御パラメータは、前記複数の室内ユニットの各々に設定される空気の吹き出し温度と、風量と、風向のうち少なくとも1つを含む、請求項1~6のいずれか1項に記載の情報処理装置。
  9. 前記空調装置と、
    請求項1~8のいずれか1項に記載の情報処理装置とを備える、空調システム。
JP2022516501A 2020-04-21 2020-04-21 情報処理装置および空調システム Active JP7305041B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/017134 WO2021214852A1 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム

Publications (2)

Publication Number Publication Date
JPWO2021214852A1 JPWO2021214852A1 (ja) 2021-10-28
JP7305041B2 true JP7305041B2 (ja) 2023-07-07

Family

ID=78270915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022516501A Active JP7305041B2 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム

Country Status (2)

Country Link
JP (1) JP7305041B2 (ja)
WO (1) WO2021214852A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7208538B2 (ja) * 2020-07-31 2023-01-19 ダイキン工業株式会社 空調システム
JP7228074B1 (ja) * 2022-10-28 2023-02-22 東京瓦斯株式会社 遠隔制御方法、遠隔制御装置、及び遠隔制御プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006320997A (ja) 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> ロボット行動選択装置及びロボット行動選択方法
JP2010218007A (ja) 2009-03-13 2010-09-30 Omron Corp 外乱推定装置、制御対象モデル推定装置、フィードフォワード量推定装置および制御装置
JP2012251731A (ja) 2011-06-03 2012-12-20 Sumitomo Forestry Co Ltd 空調システム
CN110968866A (zh) 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05264086A (ja) * 1992-03-19 1993-10-12 Hitachi Ltd 空気調和装置およびその制御装置
JP3309542B2 (ja) * 1994-02-17 2002-07-29 日産自動車株式会社 車両用空調装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006320997A (ja) 2005-05-18 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> ロボット行動選択装置及びロボット行動選択方法
JP2010218007A (ja) 2009-03-13 2010-09-30 Omron Corp 外乱推定装置、制御対象モデル推定装置、フィードフォワード量推定装置および制御装置
JP2012251731A (ja) 2011-06-03 2012-12-20 Sumitomo Forestry Co Ltd 空調システム
CN110968866A (zh) 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Also Published As

Publication number Publication date
WO2021214852A1 (ja) 2021-10-28
JPWO2021214852A1 (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
US9739496B2 (en) Systems and methods for estimating a return time
KR102393418B1 (ko) 데이터 학습 서버 및 이의 학습 모델 생성 및 이용 방법
US20180195752A1 (en) Air-conditioning control method, air-conditioning control apparatus, and storage medium
JP7305041B2 (ja) 情報処理装置および空調システム
US11674705B2 (en) Air conditioner providing information on time and/or power required to reach a desired temperature and method for control thereof
US11976835B2 (en) Air conditioner, data transmission method, and air conditioning system
CN110895011B (zh) 一种空调控制方法、装置、存储介质及空调
EP3699507B1 (en) Air-conditioning control device
EP3832220B1 (en) Blower control device
CN107120794B (zh) 空调器运行工况调节方法及空调器
US20220154960A1 (en) Air-conditioning control device, air-conditioning system, air-conditioning control method, and non-transitory computer readable recording medium
US10598401B2 (en) Controller, method and computer program product using a neural network for adaptively controlling an environmental condition in a building
JP7378497B2 (ja) モデル共有システム、モデル管理装置、および空気調和装置の制御装置
KR20220023007A (ko) 전자 장치 및 그 제어 방법
JP2017220229A (ja) 応答時間の推定及び自動的動作パラメータの調節を行う制御システム
EP3771957A1 (en) Method and system for controlling of heating, ventilation and air conditioning
EP4246050A1 (en) Air conditioning device, and learning device of air conditioning device
US20220044127A1 (en) Method and environment controller for validating a predictive model of a neural network through interactions with the environment controller
US11662696B2 (en) Automatic control artificial intelligence device and method for update control function
WO2021038775A1 (ja) 制御方法、制御プログラムおよび空調制御装置
US20210033299A1 (en) Method and system for controlling heating, ventilation and air conditioning
CN113310176A (zh) 信息处理装置
JP2021071262A (ja) 空気調和装置
CN115280077B (zh) 空调控制的学习装置以及推理装置
WO2021250770A1 (ja) 空気調和装置の制御のための学習装置および推論装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230627

R150 Certificate of patent or registration of utility model

Ref document number: 7305041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150