JP7309069B2 - Learning device and reasoning device for control of air conditioner - Google Patents

Learning device and reasoning device for control of air conditioner Download PDF

Info

Publication number
JP7309069B2
JP7309069B2 JP2022530391A JP2022530391A JP7309069B2 JP 7309069 B2 JP7309069 B2 JP 7309069B2 JP 2022530391 A JP2022530391 A JP 2022530391A JP 2022530391 A JP2022530391 A JP 2022530391A JP 7309069 B2 JP7309069 B2 JP 7309069B2
Authority
JP
Japan
Prior art keywords
user
indoor unit
unit
air conditioner
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022530391A
Other languages
Japanese (ja)
Other versions
JPWO2021250770A5 (en
JPWO2021250770A1 (en
Inventor
洋志 守安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021250770A1 publication Critical patent/JPWO2021250770A1/ja
Publication of JPWO2021250770A5 publication Critical patent/JPWO2021250770A5/ja
Application granted granted Critical
Publication of JP7309069B2 publication Critical patent/JP7309069B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2120/00Control inputs relating to users or occupants
    • F24F2120/10Occupancy
    • F24F2120/12Position of occupants

Description

本開示は、空気調和装置の制御のための学習装置および推論装置に関する。 TECHNICAL FIELD The present disclosure relates to a learning device and a reasoning device for controlling an air conditioner.

空気調和システムを最適運転制御する方法が知られている。たとえば、特許文献1には、空調システムの運転時の計測データを用いて、エネルギー消費関数を決定することによって、空気調和装置を運転制御する方法が記載されている。 Methods are known for optimal operation control of air conditioning systems. For example, Patent Literature 1 describes a method of controlling the operation of an air conditioner by determining an energy consumption function using measurement data during operation of the air conditioning system.

特開2006-207929号公報JP 2006-207929 A

しかしながら、特許文献1の空気調和装置の運転制御方法では、室内の温度を検出する温度センサが室内の決められた箇所に固定されて配置される。そのため、ユーザが所在する場所の温度を設定温度にすることができない場合がある。特に、室内の什器などによって気流が乱される場合には、このような問題が発生する。 However, in the method for controlling the operation of an air conditioner disclosed in Patent Document 1, a temperature sensor that detects the temperature in the room is fixed and arranged at a predetermined location in the room. Therefore, it may not be possible to set the temperature of the location where the user is located to the set temperature. In particular, such a problem occurs when air currents are disturbed by indoor fixtures and the like.

それゆえに、本開示の目的は、ユーザが所在する場所の温度を設定温度にすることができる空気調和装置の運転制御のための学習装置および推論装置を提供することである。 SUMMARY OF THE INVENTION Therefore, an object of the present disclosure is to provide a learning device and a reasoning device for operation control of an air conditioner that can set the temperature of the location where the user is located to the set temperature.

本開示の空気調和装置のための学習装置は、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差を含む状態と、状態における室内機の設定風量および設定風向とを含む学習用データを取得するデータ取得部と、学習用データを用いて、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差から室内機の設定風量および室内機の設定風向を推論するための学習済モデルを生成するモデル生成部とを備える。 The learning device for an air conditioner of the present disclosure includes a user position of the air conditioner, a state including the difference between the detected temperature at the user's position and the set temperature of the indoor unit of the air conditioner, and the indoor unit in the state. a data acquisition unit that acquires learning data including the set air volume and the set wind direction; and a model generation unit that generates a learned model for inferring the set air volume of the indoor unit and the set wind direction of the indoor unit from the difference from the set temperature.

本開示の空気調和装置のための推論装置は、空気調和装置のユーザの位置、およびユーザの位置における温度と空気調和装置の室内機の設定温度との差を含む状態を取得するデータ取得部と、空気調和装置のユーザの位置、およびユーザの位置における検出温度と空気調和装置の室内機の設定温度との差から室内機の設定風量および室内機の設定風向を推論するための学習済モデルを用いて、データ取得部で取得した状態から室内機の設定風量および室内機の設定風向を推論する推論部とを備える。 A reasoning device for an air conditioner of the present disclosure includes a data acquisition unit that acquires a position of a user of the air conditioner and a state including a difference between a temperature at the user's position and a set temperature of an indoor unit of the air conditioner. , the position of the user of the air conditioner, and a trained model for inferring the set air volume of the indoor unit and the set wind direction of the indoor unit from the difference between the detected temperature at the user's position and the set temperature of the indoor unit of the air conditioner. and an inference unit that infers the set air volume and the set air direction of the indoor unit from the state acquired by the data acquisition unit.

本開示によれば、ユーザが所在する場所の温度を設定温度にすることができる。 According to the present disclosure, the temperature of the location where the user is located can be set to the set temperature.

実施の形態の空気調和システムの構成を表わす図である。BRIEF DESCRIPTION OF THE DRAWINGS It is a figure showing the structure of the air conditioning system of embodiment. 実施の形態1の学習装置10および推論装置30に入力または出力されるデータを表わす図である。3 is a diagram representing data input to or output from learning device 10 and inference device 30 of Embodiment 1. FIG. ユーザの位置の例を表わす図である。FIG. 4 is a diagram representing an example of user positions; 実施の形態1の学習装置10の構成を表わす図である。1 is a diagram showing a configuration of learning device 10 according to Embodiment 1. FIG. 学習装置10の学習処理に関するフローチャートである。4 is a flow chart relating to learning processing of the learning device 10. FIG. 推論装置30の構成を表わす図である。3 is a diagram showing the configuration of an inference device 30; FIG. 推論装置30による室内機の設定風量および室内機の設定風向の推論手順を表わすフローチャートである。4 is a flowchart showing a procedure for inferring the set air volume and the set wind direction of the indoor unit by the inference device 30. FIG. 実施の形態2の学習装置10および推論装置30に入力または出力されるデータを表わす図である。FIG. 10 is a diagram representing data input to or output from learning device 10 and inference device 30 according to a second embodiment; 実施の形態3の学習装置10の構成を表わす図である。FIG. 13 is a diagram showing the configuration of learning device 10 of Embodiment 3; (a)~(j)は、可搬式センサ3および制御装置2から得られたデータの例を表す図である。(a) to (j) are diagrams showing examples of data obtained from the portable sensor 3 and the control device 2. FIG. 図10(a)~図10(j)におけるユーザの位置を表わす図である。FIG. 10(a) to FIG. 10(j) are diagrams showing the positions of the users. (a)~(c)は、データを増加する方法を説明するための図である。(a) to (c) are diagrams for explaining a method of increasing data. (a)~(c)は、データを増加する方法を説明するための図である。(a) to (c) are diagrams for explaining a method of increasing data. 学習装置10、推論装置30、または制御装置2のハードウェア構成を表わす図である。3 is a diagram showing a hardware configuration of a learning device 10, an inference device 30, or a control device 2; FIG.

以下、実施の形態について、図面を参照して説明する。
実施の形態1.
図1は、実施の形態の空気調和システムの構成を表わす図である。
Embodiments will be described below with reference to the drawings.
Embodiment 1.
FIG. 1 is a diagram showing the configuration of an air conditioning system according to an embodiment.

空気調和システムは、空気調和装置1と、制御装置2と、可搬式センサ3と、学習装置10と、学習済モデル記憶部20と、推論装置30とを備える。 The air conditioning system includes an air conditioner 1 , a control device 2 , a portable sensor 3 , a learning device 10 , a learned model storage section 20 and an inference device 30 .

可搬式センサ3は、ユーザが携帯して持ち運びすることができる。可搬式センサ3は、温度を検出することができる。可搬式センサ3は、ユーザの位置および、ユーザの位置における温度を検出することができる。 The portable sensor 3 can be carried by a user. The portable sensor 3 can detect temperature. The portable sensor 3 can detect the user's position and the temperature at the user's position.

学習装置10は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成する。 The learning device 10 generates a trained model that infers the set air volume and direction of the indoor unit from the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit.

学習済モデル記憶部20は、学習装置10によって生成された学習済モデルを記憶する。 The trained model storage unit 20 stores trained models generated by the learning device 10 .

推論装置30は、学習済みモデル記憶部に記憶されている学習済モデルに従って、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から、ユーザが所在する場所を適切に設定温度にするために、空気調和装置の室内機の設定風量および室内機の設定風向を推定する。 The inference device 30 appropriately determines the location of the user from the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit according to the learned model stored in the learned model storage unit. In order to achieve the set temperature, the set air volume and the set wind direction of the indoor unit of the air conditioner are estimated.

制御装置2は、推論装置30の推論結果などに基づいて、空気調和装置1を制御する。
図2は、実施の形態1の学習装置10および推論装置30に入力または出力されるデータを表わす図である。
The control device 2 controls the air conditioner 1 based on the inference result of the inference device 30 and the like.
FIG. 2 is a diagram representing data input to or output from learning apparatus 10 and inference apparatus 30 according to the first embodiment.

B1(行動)は、室内機の設定風量および室内機の設定風向である。B2(状態)は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差である。C(出力)は、室内機の設定風量および室内機の設定風向である。D(報酬基準)は、単位時間当りのユーザの位置の検出温度の変化量である。 B1 (behavior) is the set air volume of the indoor unit and the set wind direction of the indoor unit. B2 (state) is the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. C (output) is the set air volume of the indoor unit and the set air direction of the indoor unit. D (reward criterion) is the amount of change in the detected temperature of the user's location per unit time.

図3は、ユーザの位置の例を表わす図である。
ユーザが可搬式センサ3を携帯することによって、可搬式センサ3によってユーザの位置を検出することができる。ユーザの所在位置の温度を検出することによって、ユーザが所在する場所の気流の制御が可能となる。
FIG. 3 is a diagram representing an example of user positions.
By carrying the portable sensor 3 by the user, the position of the user can be detected by the portable sensor 3 . By sensing the temperature of the user's location, it is possible to control the airflow at the user's location.

図4は、実施の形態1の学習装置10の構成を表わす図である。学習装置10は、データ取得部12と、モデル生成部13とを備える。 FIG. 4 is a diagram showing the configuration of learning device 10 according to the first embodiment. The learning device 10 includes a data acquisition section 12 and a model generation section 13 .

データ取得部12は、B1(行動)とB2(状態)とを含む学習データを取得する。すなわち、データ取得部12は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習データを取得する。 The data acquisition unit 12 acquires learning data including B1 (behavior) and B2 (state). That is, the data acquisition unit 12 acquires learning data including the set air volume of the indoor unit, the set air direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit.

モデル生成部13は、データ取得部12で取得したB1(行動)とB2(状態)とを含む学習データを用いて、B2(状態)からC(出力)を推論する学習済モデルを生成する。すなわち、モデル生成部13は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習用データを用いて、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成する。モデル生成部13は、生成した学習済モデルを学習済モデル記憶部20に記憶させる。 The model generation unit 13 generates a trained model that infers C (output) from B2 (state) using learning data including B1 (behavior) and B2 (state) acquired by the data acquisition unit 12 . That is, the model generation unit 13 uses learning data including the set air volume of the indoor unit, the set air direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. , the position of the user, and a trained model that infers the set air volume and the wind direction setting of the indoor unit from the difference between the detected temperature at the user's position and the set temperature of the indoor unit. The model generation unit 13 stores the generated learned model in the learned model storage unit 20 .

モデル生成部13が用いる学習アルゴリズムとして、教師あり学習、教師なし学習、または強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習を適用した場合について説明する。強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法であるQ学習、またはTD学習(Temporal Difference Learning)を用いることができる。例えば、Q学習(Q-learning)の場合、行動価値関数Q(s,a)の一般的な更新式は、式(1)で表される。 A known algorithm such as supervised learning, unsupervised learning, or reinforcement learning can be used as the learning algorithm used by the model generation unit 13 . As an example, a case where reinforcement learning is applied will be described. In reinforcement learning, an agent (actor) in an environment observes the current state (environmental parameters) and decides what action to take. The environment dynamically changes according to the actions of the agent, and the agent is rewarded according to the change in the environment. The agent repeats this and learns the course of action that yields the most rewards through a series of actions. Q-learning, which is a representative method of reinforcement learning, or TD-learning (Temporal Difference Learning) can be used. For example, in the case of Q-learning, a general update formula for the action-value function Q(s, a) is represented by formula (1).

Figure 0007309069000001
Figure 0007309069000001

式(1)において、stは時刻tにおける環境の状態を表し、atは時刻tにおける行動を表す。行動atにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。B1(行動)が行動atとなり、B2(状態)が状態stとなる。すなわち、室内機の設定風量および室内機の設定風向が行動atとなり、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差が状態stとなる。Q学習では、時刻tの状態stにおける最良の行動atを学習する。 In equation (1), st represents the state of the environment at time t, and at represents action at time t. Action at causes the state to change to st+1. rt+1 represents the reward obtained by changing the state, γ represents the discount rate, and α represents the learning coefficient. γ is in the range of 0<γ≦1, and α is in the range of 0<α≦1. B1 (action) becomes action at, and B2 (state) becomes state st. That is, the set air volume of the indoor unit and the set air direction of the indoor unit are the action at, and the user's position and the difference between the detected temperature of the user's position and the set temperature of the indoor unit are the state st. In Q-learning, the best action at in state st at time t is learned.

式(1)で表される更新式は、時刻t+1における最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。 The update formula represented by formula (1) increases the action value Q if the action value Q of action a with the highest Q value at time t+1 is greater than the action value Q of action a executed at time t. On the contrary, the action value Q is decreased. In other words, the action value function Q(s, a) is updated so that the action value Q of action a at time t approaches the best action value at time t+1. As a result, the best behavioral value in a certain environment will be propagated to the behavioral value in the previous environment.

上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部13は、報酬計算部14と、関数更新部15とを備える。 As described above, when generating a trained model by reinforcement learning, the model generator 13 includes the reward calculator 14 and the function updater 15 .

報酬計算部14は、B1(行動)と、B2(状態)とに基づいて報酬を計算する。すなわち、報酬計算部14は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。報酬計算部14は、ユーザの位置における単位時間当りの温度変化量に基づいて、報酬rを計算する。例えば、報酬計算部14は、ユーザの位置における単位時間当りの温度変化量が増加した場合には報酬rを増大させ(例えば「1」の報酬を与える。)、他方、ユーザの位置における単位時間当りの温度変化量が減少した場合には報酬rを低減する(例えば「-1」の報酬を与える。)。 The reward calculator 14 calculates a reward based on B1 (behavior) and B2 (state). That is, the reward calculation unit 14 calculates a reward based on the set air volume of the indoor unit, the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. . The reward calculator 14 calculates a reward r based on the amount of temperature change per unit time at the user's position. For example, if the amount of temperature change per unit time at the user's position increases, the reward calculation unit 14 increases the reward r (for example, gives a reward of "1"). If the amount of temperature change per win is reduced, the reward r is reduced (for example, a reward of "-1" is given).

関数更新部15は、報酬計算部14によって計算される報酬に従って、室内機の設定風量および室内機の風向設定を決定するための関数を更新し、学習済モデル記憶部20に出力する。例えばQ学習の場合、関数更新部15は、式(1)で表される行動価値関数Q(st,at)を、室内機の設定風量および室内機の風向設定を算出するための関数として用いる。 The function updating unit 15 updates the function for determining the set air volume of the indoor unit and the wind direction setting of the indoor unit according to the reward calculated by the reward calculating unit 14 , and outputs the function to the learned model storage unit 20 . For example, in the case of Q-learning, the function updating unit 15 uses the action value function Q(st, at) represented by Equation (1) as a function for calculating the set air volume of the indoor unit and the wind direction setting of the indoor unit. .

以上のような学習を繰り返し実行する。学習済モデル記憶部20は、関数更新部15によって更新された行動価値関数Q(st,at)、すなわち、学習済モデルを記憶する。 The above learning is repeatedly executed. The learned model storage unit 20 stores the action value function Q(st, at) updated by the function update unit 15, that is, the learned model.

図5は、学習装置10の学習処理に関するフローチャートである。
ステップS101において、データ取得部12は、データ取得部12は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とを含む学習データを取得する。
FIG. 5 is a flowchart relating to the learning process of the learning device 10. As shown in FIG.
In step S101, the data acquisition unit 12 obtains the set air volume of the indoor unit, the set air direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. Get training data containing

ステップS102において、モデル生成部13は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。具体的には、報酬計算部14は、ユーザの位置における単位時間当りの温度変化量に基づいて、報酬を増大させるか、あるいは減少させるかを決定する。 In step S102, the model generation unit 13 calculates a reward based on the set air volume of the indoor unit, the set air direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. calculate. Specifically, the reward calculator 14 determines whether to increase or decrease the reward based on the amount of temperature change per unit time at the user's position.

報酬計算部14が報酬を増大させると判断した場合に、処理がステップS103に進む。報酬計算部14が報酬を減少させると判断した場合に、処理がステップS104に進む。 When the remuneration calculation unit 14 determines to increase the remuneration, the process proceeds to step S103. When the remuneration calculation unit 14 determines to decrease the remuneration, the process proceeds to step S104.

ステップS103において、報酬計算部14が、報酬を増大させる。
ステップS104において、報酬計算部14は、報酬を減少させる。
In step S103, the reward calculator 14 increases the reward.
In step S104, the reward calculator 14 reduces the reward.

ステップS105において、関数更新部15は、報酬計算部14によって計算された報酬に基づいて、学習済モデル記憶部20が記憶する式(1)で表される行動価値関数Q(st,at)を更新する。 In step S105, the function updating unit 15 updates the action value function Q(st, at) expressed by Equation (1) stored in the trained model storage unit 20 based on the reward calculated by the reward calculation unit 14. Update.

学習装置10は、以上のステップS101からS105までのステップを繰り返し実行し、生成された行動価値関数Q(st,at)を学習済モデルとして記憶する。 The learning device 10 repeatedly executes steps S101 to S105 described above, and stores the generated action-value function Q(st, at) as a learned model.

本実施の形態に係る学習装置10は、学習済モデルを学習装置10の外部に設けられた学習済モデル記憶部20に記憶するものとしたが、学習済モデル記憶部20を学習装置10の内部に備えていてもよい。 Although the learning device 10 according to the present embodiment stores the learned model in the learned model storage unit 20 provided outside the learning device 10, the learned model storage unit 20 is stored inside the learning device 10. be prepared for

図6は、推論装置30の構成を表わす図である。推論装置30は、データ取得部31、および推論部32を備える。 FIG. 6 is a diagram showing the configuration of the inference device 30. As shown in FIG. The inference device 30 includes a data acquisition unit 31 and an inference unit 32 .

データ取得部31は、B2入力を取得する。すなわち、データ取得部31は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を取得する。 The data acquisition unit 31 acquires the B2 input. That is, the data acquisition unit 31 acquires the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit.

推論部32は、学習済モデル記憶部20から、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論するための学習済モデルを読出す。 The inference unit 32 is used to infer the set air volume of the indoor unit and the wind direction setting of the indoor unit from the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit from the learned model storage unit 20. Read the trained model.

推論部32は、データ取得部31で取得したデータと、学習済モデルを利用して、C出力を推論する。すなわち、推論部32は、学習済モデルにデータ取得部31が取得した、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を入力することで、ユーザが所在する場所の温度が設定温度となるように室内機の設定風量および室内機の設定風向を推論することができる。 The inference unit 32 infers the C output using the data acquired by the data acquisition unit 31 and the learned model. That is, the inference unit 32 inputs the location of the user and the difference between the detected temperature of the user's location and the set temperature of the indoor unit, which are acquired by the data acquisition unit 31, into the trained model, thereby determining the location where the user is located. It is possible to infer the set air volume of the indoor unit and the set wind direction of the indoor unit so that the temperature of the indoor unit becomes the set temperature.

たとえば、推論部32は、学習済モデル記憶部20から学習済みモデルとして、行動価値関数Q(st,at)を読み出す。推論部32は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差(状態st)に対して、行動価値関数Q(s,a)に基づいて、室内機の設定風量および室内機の設定風向(行動at)を得る。 For example, the inference unit 32 reads the action-value function Q(st, at) from the learned model storage unit 20 as a learned model. The inference unit 32 determines the setting of the indoor unit based on the action value function Q(s, a) with respect to the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit (state st). Obtain the wind volume and set wind direction (behavior at) of the indoor unit.

本実施の形態では、空気調和装置のモデル生成部で学習した学習済モデルを用いて室内機の設定風量および室内機の風向設定を出力するものとして説明したが、他の空気調和装置から学習済モデルを取得し、この学習済モデルに基づいて室内機の設定風量および室内機の風向設定を出力するようにしてもよい。 In the present embodiment, the learned model learned by the model generation unit of the air conditioner is used to output the set air volume of the indoor unit and the wind direction setting of the indoor unit. A model may be acquired, and the set air volume of the indoor unit and the wind direction setting of the indoor unit may be output based on this learned model.

図7は、推論装置30による室内機の設定風量および室内機の設定風向の推論手順を表わすフローチャートである。 FIG. 7 is a flowchart showing a procedure for inferring the set air volume of the indoor unit and the set wind direction of the indoor unit by the inference device 30 .

ステップS201において、データ取得部31は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を取得する。 In step S201, the data acquisition unit 31 acquires the position of the user and the difference between the detected temperature at the position of the user and the set temperature of the indoor unit.

ステップS202において、推論部32は、学習済モデル記憶部20に記憶された学習済モデルに、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差を入力する。 In step S<b>202 , the inference unit 32 inputs the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit to the learned model stored in the learned model storage unit 20 .

ステップS203において、推論部32は、学習済モデルか室内機の設定風量および室内機の設定風向を得る。推論部32は得られた室内機の設定風量および室内機の設定風向を制御装置2に出力する。 In step S203, the inference unit 32 obtains the set air volume of the indoor unit and the set air direction of the indoor unit from the learned model. The inference unit 32 outputs the obtained set air volume of the indoor unit and set air direction of the indoor unit to the control device 2 .

ステップS204において、制御装置2は、出力された室内機の設定風量および室内機の設定風向を用いて。空気調和装置1を制御する。 In step S204, the control device 2 uses the output set air volume of the indoor unit and set air direction of the indoor unit. It controls the air conditioner 1 .

本実施の形態では、推論部が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、または半教師あり学習等を適用することも可能である。 In the present embodiment, the case where reinforcement learning is applied to the learning algorithm used by the inference unit has been described, but the present invention is not limited to this. As for the learning algorithm, supervised learning, unsupervised learning, or semi-supervised learning can be applied in addition to reinforcement learning.

モデル生成部13に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する深層学習を用いることもできる。あるいは、これに代えて他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、またはサポートベクターマシンなどに従って機械学習を実行してもよい。 As a learning algorithm used in the model generating unit 13, deep learning that learns to extract the feature amount itself can also be used. Alternatively, machine learning may alternatively be performed according to other known methods, such as neural networks, genetic programming, functional logic programming, or support vector machines.

学習装置10及び推論装置30は、例えば、ネットワークを介して制御装置2に接続され、制御装置2とは別個の装置であってもよい。また、学習装置10及び推論装置30は、制御装置2に内蔵されていてもよい。さらに、学習装置10及び推論装置30は、クラウドサーバ上に存在していてもよい。 For example, the learning device 10 and the inference device 30 may be connected to the control device 2 via a network and may be separate devices from the control device 2 . Also, the learning device 10 and the reasoning device 30 may be built in the control device 2 . Furthermore, the learning device 10 and the reasoning device 30 may reside on a cloud server.

モデル生成部13は、複数の空気調和装置から取得される学習用データを用いて、室内機の設定風量および室内機の風向設定を学習するようにしてもよい。なお、モデル生成部13は、同一のエリアで使用される複数の空気調和装置から学習用データを取得してもよいし、異なるエリアで独立して動作する複数の空気調和装置から収集される学習用データを利用して室内機の設定風量および室内機の風向設定を学習してもよい。また、学習用データを収集する空気調和装置を途中で対象に追加したり、対象から除去することも可能である。さらに、ある空気調和装置に関して室内機の設定風量および室内機の風向設定を学習した学習装置を、これとは別の空気調和装置に適用し、当該別の空気調和装置に関して室内機の設定風量および室内機の風向設定を再学習して更新するようにしてもよい。 The model generation unit 13 may learn the set air volume of the indoor unit and the wind direction setting of the indoor unit using learning data acquired from a plurality of air conditioners. Note that the model generating unit 13 may acquire learning data from a plurality of air conditioners used in the same area, or may acquire learning data collected from a plurality of air conditioners operating independently in different areas. The set air volume of the indoor unit and the wind direction setting of the indoor unit may be learned using the data for the indoor unit. Also, it is possible to add or remove an air conditioner from which data for learning is collected on the way. Furthermore, a learning device that has learned the set air volume of an indoor unit and the wind direction setting of an indoor unit for a certain air conditioner is applied to another air conditioner, and the set air volume and air direction of the indoor unit are applied to the other air conditioner. The wind direction setting of the indoor unit may be re-learned and updated.

以上のように、本実施の形態によれば、学習装置が、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差から室内機の設定風量および室内機の風向設定を推論する学習済モデルを生成し、推論装置が、学習済モデルに従って、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差からユーザが所在する場所を適切に設定温度にするために、空気調和装置の室内機の設定風量および室内機の設定風向を推定することができる。 As described above, according to the present embodiment, the learning device sets the set air volume and the air direction of the indoor unit based on the position of the user and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. A learned model for inference is generated, and the inference device adjusts the location of the user to the set temperature appropriately based on the user's location and the difference between the detected temperature at the user's location and the set temperature of the indoor unit according to the learned model. In order to do so, it is possible to estimate the set air volume and the set wind direction of the indoor unit of the air conditioner.

実施の形態2.
本実施の形態は、実施の形態1と異なる報酬基準に関する。
Embodiment 2.
This embodiment relates to a remuneration standard different from that of the first embodiment.

図8は、実施の形態2の学習装置10および推論装置30に入力または出力されるデータを表わす図である。 FIG. 8 is a diagram representing data input to or output from learning apparatus 10 and inference apparatus 30 according to the second embodiment.

B1(行動)は、室内機の設定風量および室内機の設定風向である。B2(状態)は、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差である。C(出力)は、室内機の設定風量および室内機の設定風向である。D(報酬基準)は、ユーザによる風量または風向の設定操作である。 B1 (behavior) is the set air volume of the indoor unit and the set wind direction of the indoor unit. B2 (state) is the user's position and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. C (output) is the set air volume of the indoor unit and the set air direction of the indoor unit. D (reward standard) is an operation for setting the wind volume or wind direction by the user.

報酬計算部14は、B1(行動)と、B2(状態)とに基づいて報酬を計算する。すなわち、報酬計算部14は、室内機の設定風量および室内機の設定風向と、ユーザの位置、およびユーザの位置の検出温度と室内機の設定温度との差とに基づいて、報酬を計算する。報酬計算部14は、ユーザによる風量または風向の設定操作に基づいて、報酬rを計算する。例えば、報酬計算部14は、ユーザによる風量または風向の設定操作が実行されなかった場合には報酬rを増大させ(例えば「1」の報酬を与える。)、他方、ユーザによる風量または風向の設定操作が実行された場合には報酬rを低減する(例えば「-1」の報酬を与える。)。 The reward calculator 14 calculates a reward based on B1 (behavior) and B2 (state). That is, the reward calculation unit 14 calculates a reward based on the set air volume of the indoor unit, the set wind direction of the indoor unit, the position of the user, and the difference between the detected temperature at the user's position and the set temperature of the indoor unit. . The remuneration calculation unit 14 calculates a remuneration r based on the user's operation for setting the wind volume or wind direction. For example, if the user does not set the wind volume or wind direction, the reward calculation unit 14 increases the reward r (for example, gives a reward of “1”). If the operation is executed, the reward r is reduced (for example, a reward of "-1" is given).

実施の形態3.
図9は、実施の形態3の学習装置の構成を表わす図である。
Embodiment 3.
FIG. 9 is a diagram showing the configuration of the learning device according to the third embodiment.

実施の形態3の学習装置10が実施の形態1の学習装置10と相違する点は、実施の形態3の学習装置10が、データ拡張部62を備える点である。 The learning device 10 according to the third embodiment differs from the learning device 10 according to the first embodiment in that the learning device 10 according to the third embodiment includes a data extender 62 .

データ拡張部62は、データ取得部12によって取得された学習用データに含まれるユーザの位置以外の未取得位置に対して、未取得位置と、データ取得部12によって取得された学習用データに含まれるユーザの位置との差に基づいて、学習用データに含まれるユーザの位置における検出温度と空気調和装置の室内機の設定温度との差と、室内機の設定風量および設定風向とを用いて、未取得位置における検出温度と空気調和装置の室内機の設定温度との差と、室内機の設定風量および設定風向とを含む拡張データを生成する。 The data extension unit 62 determines the unacquired positions other than the user's position included in the learning data acquired by the data acquisition unit 12 and the unacquired positions included in the learning data acquired by the data acquisition unit 12. Based on the difference from the user position stored, the difference between the detected temperature at the user position contained in the learning data and the set temperature of the indoor unit of the air conditioner, and the set air volume and set air direction of the indoor unit. , the extended data including the difference between the detected temperature at the unacquired position and the set temperature of the indoor unit of the air conditioner, and the set air volume and set air direction of the indoor unit.

図10(a)~図10(j)は、可搬式センサ3および制御装置2から得られたデータの例を表す図である。図11は、図10(a)~図10(j)におけるユーザの位置を表わす図である。 10(a) to 10(j) are diagrams showing examples of data obtained from the portable sensor 3 and the control device 2. FIG. FIG. 11 is a diagram showing the positions of the users in FIGS. 10(a) to 10(j).

ユーザの位置、およびユーザの位置の検出温度は、可搬式センサ3によって得られる。室内機の設定風量、および室内機の設定風向は、制御装置2から得られる。 The position of the user and the detected temperature of the position of the user are obtained by the portable sensor 3 . The set air volume of the indoor unit and the set air direction of the indoor unit are obtained from the control device 2 .

ユーザの位置は、室内機を中心とした極座標(x,y)で表わされる。ユーザの位置の検出温度と室内機の設定温度との差は、ユーザの位置(x,y)における温度差Tで表される。室内機の設定風量は、ユーザの位置(x,y)において制御装置2によって設定された風量Wで表される。室内機の設定風向は、ユーザの位置(x,y)において制御装置2によって設定された風向Dで表される。 The user's position is represented by polar coordinates (x, y) centering on the indoor unit. The difference between the detected temperature at the user's position and the set temperature of the indoor unit is represented by the temperature difference T at the user's position (x, y). The set air volume of the indoor unit is represented by the air volume W set by the control device 2 at the user's position (x, y). The set wind direction of the indoor unit is represented by the wind direction D set by the control device 2 at the user's position (x, y).

図10(a)~(e)において、ユーザの位置の角度が一定値yaで、ユーザの位置の距離がxa、xb、xc、xd、xeと変化する。図10(f)~(j)において、ユーザの位置の角度が一定値ybで、ユーザの位置の距離がxa、xb、xc、xd、xeと変化する。 In FIGS. 10A to 10E, the angle of the user's position is a constant value ya, and the distance of the user's position changes as xa, xb, xc, xd, and xe. In FIGS. 10(f) to (j), the angle of the user's position is a constant value yb, and the distance of the user's position changes to xa, xb, xc, xd, and xe.

図11に示すように、ユーザの位置(xf,ya)のデータは、ユーザの位置(xb、ya)のデータと、ユーザの位置(xc,ya)のデータとから生成される。 As shown in FIG. 11, the data on the user's position (xf, ya) is generated from the data on the user's position (xb, ya) and the data on the user's position (xc, ya).

データ拡張部62は、ユーザの位置(xc、ya)のデータと、ユーザの位置(xd,ya)のデータとからユーザの位置(xg,ya)のデータを生成する。データ拡張部62は、ユーザの位置(xd、ya)のデータと、ユーザの位置(xd,yb)のデータとからユーザの位置(xd,yc)のデータを生成する。 The data extension unit 62 generates data on the user's position (xg, ya) from the data on the user's position (xc, ya) and the data on the user's position (xd, ya). The data extension unit 62 generates data on the user's position (xd, yc) from the data on the user's position (xd, ya) and the data on the user's position (xd, yb).

図12(a)~(c)は、データを増加する方法を説明するための図である。
図12(a)に示すように、データ拡張部62は、ユーザの位置(xb,ya)の検出温度と室内機の設定温度との差T(xb,ya)と、ユーザの位置(xc,ya)の検出温度と室内機の設定温度との差T(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)の検出温度と室内機の設定温度との差T(xf,ya)を生成する。
FIGS. 12A to 12C are diagrams for explaining a method of increasing data.
As shown in FIG. 12(a), the data expansion unit 62 calculates the difference T(xb, ya) between the detected temperature at the user's position (xb, ya) and the set temperature of the indoor unit, the user's position (xc, By linearly interpolating the difference T (xc, ya) between the detected temperature of ya) and the set temperature of the indoor unit, the difference T ( xf, ya).

図12(b)に示すように、データ拡張部62は、ユーザの位置(xb,ya)において制御装置2によって設定された風量W(xb,ya)と、ユーザの位置(xc,ya)において制御装置2によって設定された風量W(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)において制御装置2によって設定された風量W(xf,ya)を生成する。 As shown in FIG. 12(b), the data expansion unit 62 determines the air volume W (xb, ya) set by the control device 2 at the user's position (xb, ya) and By linearly interpolating the air volume W (xc, ya) set by the control device 2, the air volume W (xf, ya) set by the control device 2 is generated at the user's position (xf, ya).

図12(c)に示すように、データ拡張部62は、ユーザの位置(xb,ya)において制御装置2によって設定された風向D(xb,ya)と、ユーザの位置(xc,ya)において制御装置2によって設定された風向D(xc,ya)とを線形補完することによって、ユーザの位置(xf,ya)において制御装置2によって設定された風向D(xf,ya)を生成する。 As shown in FIG. 12(c), the data extension unit 62 determines the wind direction D (xb, ya) set by the control device 2 at the user's position (xb, ya) and the wind direction D (xb, ya) at the user's position (xc, ya) By linearly interpolating the wind direction D(xc, ya) set by the controller 2, the wind direction D(xf, ya) set by the controller 2 at the user's position (xf, ya) is generated.

図13(a)~(c)は、データを増加する方法を説明するための図である。
図13(a)に示すように、データ拡張部62は、ユーザの位置(xd,ya)の検出温度と室内機の設定温度との差T(xd,ya)と、ユーザの位置(xd,yf)の検出温度と室内機の設定温度との差T(xd,yf)とを線形補完することによって、ユーザの位置(xd,yf)の検出温度と室内機の設定温度との差T(xf,yf)を生成する。
FIGS. 13A to 13C are diagrams for explaining a method of increasing data.
As shown in FIG. 13A, the data extension unit 62 calculates the difference T(xd, ya) between the detected temperature at the user's position (xd, ya) and the set temperature of the indoor unit, and the user's position (xd, ya). By linearly interpolating the difference T (xd, yf) between the detected temperature of the user position (xd, yf) and the set temperature of the indoor unit, the difference T ( xf, yf).

図13(b)に示すように、データ拡張部62は、ユーザの位置(xd,ya)において制御装置2によって設定された風量W(xd,ya)と、ユーザの位置(xd,yb)において制御装置2によって設定された風量W(xd,yb)とを線形補完することによって、ユーザの位置(xd,yf)において制御装置2によって設定された風量W(xd,yf)を生成する。 As shown in FIG. 13(b), the data expansion unit 62 determines the air volume W (xd, ya) set by the control device 2 at the user's position (xd, ya), and at the user's position (xd, yb) By linearly interpolating the air volume W (xd, yb) set by the control device 2, the air volume W (xd, yf) set by the control device 2 is generated at the user's position (xd, yf).

図13(c)に示すように、データ拡張部62は、ユーザの位置(xd,ya)において制御装置2によって設定された風向D(xd,ya)と、ユーザの位置(xd,yb)において制御装置2によって設定された風向D(xd,yb)とを線形補完することによって、ユーザの位置(xd,yf)において制御装置2によって設定された風向D(xd,yf)を生成する。 As shown in FIG. 13(c), the data extension unit 62 determines the wind direction D (xd, ya) set by the control device 2 at the user's position (xd, ya) and By linearly interpolating the wind direction D(xd, yb) set by the controller 2, the wind direction D(xd, yf) set by the controller 2 at the user's position (xd, yf) is generated.

変形例.
本開示は、上記の実施形態に限定されるものではない。
Modification.
The present disclosure is not limited to the embodiments described above.

(1)図14は、学習装置10、推論装置30、または制御装置2のハードウェア構成を表わす図である。 (1) FIG. 14 is a diagram showing the hardware configuration of learning device 10, inference device 30, or control device 2. As shown in FIG.

学習装置10、推論装置30、および制御装置2は、相当する動作をデジタル回路のハードウェアまたはソフトウェアで構成することができる。学習装置10、推論装置30、および制御装置2の機能をソフトウェアを用いて実現する場合には、学習装置10、推論装置30、および制御装置2は、例えば、図15に示すように、バス53によって接続されたプロセッサ51とメモリ52とを備え、メモリ52に記憶されたプログラムをプロセッサ51が実行するようにすることができる。 The learning device 10, the reasoning device 30, and the control device 2 can be configured with digital circuit hardware or software for corresponding operations. When the functions of the learning device 10, the reasoning device 30, and the control device 2 are realized using software, the learning device 10, the reasoning device 30, and the control device 2 are connected to the bus 53 as shown in FIG. a processor 51 and a memory 52 connected by a , such that the processor 51 executes a program stored in the memory 52 ;

(2)室内に複数の室内機が存在する場合に、これらを連動さえて最適な風向き、風速設定を探索することとしてもよい。 (2) When there are a plurality of indoor units in the room, they may be interlocked to search for the optimum wind direction and wind speed setting.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are illustrative in all respects and not restrictive. The scope of the present disclosure is indicated by the scope of the claims rather than the above description, and is intended to include all changes within the meaning and scope of equivalents of the scope of the claims.

1 空気調和装置、2 制御装置、3 可搬式センサ、10 学習装置、12,31 データ取得部、13 モデル生成部、14 報酬計算部、15 関数更新部、20 学習済モデル記憶部、30 推論装置、32 推論部、51 プロセッサ、52 メモリ、53 バス。 1 air conditioner, 2 control device, 3 portable sensor, 10 learning device, 12, 31 data acquisition unit, 13 model generation unit, 14 reward calculation unit, 15 function update unit, 20 learned model storage unit, 30 reasoning device , 32 reasoning unit, 51 processor, 52 memory, 53 bus.

Claims (5)

空気調和装置のユーザの位置、および前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差を含む状態と、前記状態における前記室内機の設定風量および設定風向とを含む学習用データを取得するデータ取得部と、
前記学習用データを用いて、空気調和装置のユーザの位置、および前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差から前記室内機の設定風量および前記室内機の設定風向を推論するための学習済モデルを生成するモデル生成部と、を備え、
前記モデル生成部は、Q学習によって前記学習済モデルを生成し、
前記モデル生成部は、前記ユーザの位置における単位時間当りの温度変化量が増加したときに、報酬を増大させ、前記ユーザの位置における単位時間当りの温度変化量が減少したときに、前記報酬を減少させる空気調和装置の制御のための学習装置。
A state including a position of a user of an air conditioner, a difference between a detected temperature at the user's position and a set temperature of an indoor unit of the air conditioner, and a set air volume and a set wind direction of the indoor unit in the state. a data acquisition unit that acquires learning data;
Using the learning data, the user's position of the air conditioner and the difference between the detected temperature at the user's position and the set temperature of the indoor unit of the air conditioner are used to determine the set air volume of the indoor unit and the temperature of the indoor unit. a model generation unit that generates a trained model for inferring the set wind direction,
The model generation unit generates the learned model by Q-learning,
The model generating unit increases the reward when the amount of temperature change per unit time at the user's position increases, and increases the reward when the temperature change per unit time at the user's position decreases. A learning device for the control of reducing air conditioners.
前記データ取得部は、可搬式センサから出力されるデータから、前記状態を取得する、請求項1記載の空気調和装置の制御のための学習装置。 2. The learning device for controlling an air conditioner according to claim 1, wherein said data acquisition unit acquires said state from data output from a portable sensor. 前記データ取得部によって取得された学習用データに含まれるユーザの位置以外の未取得位置に対して、前記未取得位置と、前記データ取得部によって取得された学習用データに含まれるユーザの位置との差に基づいて、前記学習用データに含まれる前記ユーザの位置における検出温度と前記空気調和装置の室内機の設定温度との差と、前記室内機の設定風量および設定風向とを用いて、前記未取得位置における検出温度と前記空気調和装置の室内機の設定温度との差と、前記室内機の設定風量および設定風向とを含む拡張データを生成するデータ拡張部をさらに備え、
前記モデル生成部は、前記学習用データとして、前記データ拡張部によって生成された拡張データをさらに用いる、請求項1または2に記載の空気調和装置の制御のための学習装置。
With respect to unacquired positions other than the user's position included in the learning data acquired by the data acquisition unit, the unacquired position and the user's position included in the learning data acquired by the data acquisition unit. Based on the difference, using the difference between the detected temperature at the user's position and the set temperature of the indoor unit of the air conditioner included in the learning data, and the set air volume and set wind direction of the indoor unit, a data extension unit that generates extended data including the difference between the detected temperature at the unacquired position and the set temperature of the indoor unit of the air conditioner, and the set air volume and set wind direction of the indoor unit;
3. The learning device for controlling an air conditioner according to claim 1, wherein said model generation unit further uses extended data generated by said data extension unit as said learning data.
空気調和装置のユーザの位置、およびユーザの位置における温度と前記空気調和装置の室内機の設定温度との差を含む状態を取得するデータ取得部と、
請求項1~3のいずれか1項に記載の空気調和装置の制御のための学習装置によって生成された学習済モデルを取得し、前記学習済モデルを用いて、前記データ取得部で取得した前記状態から前記室内機の設定風量および前記室内機の設定風向を推論する推論部と、
を備える、空気調和装置の制御のための推論装置。
a data acquisition unit that acquires the position of the user of the air conditioner and the state including the difference between the temperature at the user's position and the set temperature of the indoor unit of the air conditioner;
Acquiring the learned model generated by the learning device for controlling the air conditioner according to any one of claims 1 to 3, and using the learned model, the data acquisition unit acquires the an inference unit that infers a set air volume of the indoor unit and a set wind direction of the indoor unit from the state;
A reasoning device for controlling an air conditioner, comprising:
前記データ取得部は、可搬式センサから出力されるデータから、前記状態を取得する、請求項記載の空気調和装置の制御のための推論装置。 5. The reasoning device for controlling an air conditioner according to claim 4 , wherein said data acquisition unit acquires said state from data output from a portable sensor.
JP2022530391A 2020-06-09 2020-06-09 Learning device and reasoning device for control of air conditioner Active JP7309069B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/022644 WO2021250770A1 (en) 2020-06-09 2020-06-09 Inference device and learning device for controlling air conditioning device

Publications (3)

Publication Number Publication Date
JPWO2021250770A1 JPWO2021250770A1 (en) 2021-12-16
JPWO2021250770A5 JPWO2021250770A5 (en) 2022-07-14
JP7309069B2 true JP7309069B2 (en) 2023-07-14

Family

ID=78845419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022530391A Active JP7309069B2 (en) 2020-06-09 2020-06-09 Learning device and reasoning device for control of air conditioner

Country Status (2)

Country Link
JP (1) JP7309069B2 (en)
WO (1) WO2021250770A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008138902A (en) 2006-11-30 2008-06-19 Daiwa House Ind Co Ltd Air-conditioning system
JP4316947B2 (en) 2003-07-23 2009-08-19 東芝電池株式会社 Perforation device for battery packaging
JP2013142494A (en) 2012-01-10 2013-07-22 Hitachi Plant Technologies Ltd Air conditioner control system and method of controlling air conditioner
WO2020022123A1 (en) 2018-07-27 2020-01-30 日本電信電話株式会社 Action optimization device, method and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3198523B2 (en) * 1991-04-15 2001-08-13 松下電器産業株式会社 Control device for air conditioner
JP5208082B2 (en) * 2009-09-29 2013-06-12 三菱電機株式会社 ENVIRONMENT CONTROL SYSTEM, MOBILE TERMINAL, ENVIRONMENT CONTROL METHOD AND PROGRAM
JP6587353B2 (en) * 2016-09-05 2019-10-09 三菱重工サーマルシステムズ株式会社 Control device, air conditioning control system, control method and program
JP2018071853A (en) * 2016-10-27 2018-05-10 インフォグリーン株式会社 Learning device, control device, learning method, control method, learning program, and control program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4316947B2 (en) 2003-07-23 2009-08-19 東芝電池株式会社 Perforation device for battery packaging
JP2008138902A (en) 2006-11-30 2008-06-19 Daiwa House Ind Co Ltd Air-conditioning system
JP2013142494A (en) 2012-01-10 2013-07-22 Hitachi Plant Technologies Ltd Air conditioner control system and method of controlling air conditioner
WO2020022123A1 (en) 2018-07-27 2020-01-30 日本電信電話株式会社 Action optimization device, method and program

Also Published As

Publication number Publication date
WO2021250770A1 (en) 2021-12-16
JPWO2021250770A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
JP5768834B2 (en) Plant model management apparatus and method
EP3688675A1 (en) Distributional reinforcement learning for continuous control tasks
JP2016100009A (en) Method for controlling operation of machine and control system for iteratively controlling operation of machine
US20230082326A1 (en) Training multi-objective neural network reinforcement learning systems
US10107205B2 (en) Computer-aided control and/or regulation of a technical system
WO2021192279A1 (en) Learning device and inference device for air-conditioning control
CN108683614B (en) Virtual reality equipment cluster bandwidth allocation device based on threshold residual error network
JP2019087096A (en) Action determination system and automatic driving control device
US11605026B2 (en) Methods and systems for support policy learning
JP2022525423A (en) Reinforcement learning through double-actor critic algorithms
WO2019155061A1 (en) Distributional reinforcement learning using quantile function neural networks
GB2540804A (en) Hardware Power Management Apparatus and Methods
JP6177842B2 (en) Machine learning method and machine learning device for learning connection point of ground wire or shield wire, motor control device and motor device provided with machine learning device
WO2021156518A1 (en) Reinforcement learning with adaptive return computation schemes
CN112930541A (en) Determining a control strategy by minimizing delusional effects
Pan et al. Additional planning with multiple objectives for reinforcement learning
CN113614743A (en) Method and apparatus for operating a robot
JP7309069B2 (en) Learning device and reasoning device for control of air conditioner
Xu et al. A deep deterministic policy gradient algorithm based on averaged state-action estimation
Wiering et al. Two novel on-policy reinforcement learning algorithms based on TD (λ)-methods
JP7305041B2 (en) Information processing equipment and air conditioning system
JP7196935B2 (en) Arithmetic device, action determination method, and control program
JP7287835B2 (en) Model predictive control system, information processing device, program, and model predictive control method
JP7179672B2 (en) Computer system and machine learning method
JP7159883B2 (en) Reinforcement learning method, reinforcement learning program, and reinforcement learning device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230704

R150 Certificate of patent or registration of utility model

Ref document number: 7309069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150