CN111609525A

CN111609525A - 一种空调控制方法、装置、电子设备及存储介质

Info

Publication number: CN111609525A
Application number: CN201910137016.XA
Authority: CN
Inventors: 谭建明; 李绍斌; 宋德超; 陈翀; 罗晓宇; 岳冬; 肖文轩; 邓家璧; 王鹏飞
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-09-01

Abstract

本发明公开了一种空调控制方法、装置、电子设备及存储介质，该空调控制方法包括：空调获取包含用户的行为状态的图像；将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；根据所述第一控制参数，控制所述空调，从而实现了空调的多模式控制，可以更好的满足用户的需求，降低空调的能耗。

Description

一种空调控制方法、装置、电子设备及存储介质

技术领域

本发明涉及空调技术领域，尤其涉及一种空调控制方法、装置、电子设备及存储介质。

背景技术

随着人们生活水平的提高，空调已成为越来越多家庭必备的家电之一，但是，空调耗电量大，成为消费者和生产厂家较为头疼的问题。现有空调的控制方法主要以室内温度调控为主，而且由于空调的运行环境较为复杂，传统空调的节能控制逻辑较为简单，能量消耗大，并且控制模式单一，处理数据能力较弱，不能够满足用户的需求。

发明内容

本发明实施例提供了一种空调控制方法、装置、电子设备及存储介质，用以解决现有技术中传统空调的能量消耗大，并且控制模式单一，不能够满足用户需求的问题。

本发明实施例提供了一种空调控制方法，所述方法包括：

空调获取包含用户的行为状态的图像；

将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；

获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；

根据所述第一控制参数，控制所述空调。

进一步地，所述获取包含用户的图像包括：

根据采集到的雷达波，获得微多普勒特征时频图。

进一步地，所述模式识别模型的训练过程包括：

获取第一训练样本集中每个第一训练样本，其中每个第一训练样本为微多普勒特征时频图，并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息；

将每个第一训练样本输入到模式识别模型中，根据所述模式识别模型输出的第三控制模式，对所述模式识别模型进行训练。

进一步地，所述DDPG模型的训练过程包括：

针对每个控制模式，获取第二训练样本集中的每个第二训练样本，其中所述每个第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值；

针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中，获取所述Critic-target-net模型输出的第二动作状态值；

根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数，根据第一误差参数对Critic-eval-net模型中的参数进行更新；根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新；

根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数，根据第二误差参数对Actor-eval-net模型中的参数进行更新；根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

进一步地，所述根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数包括：

根据公式

确定所述第一误差参数，其中，Loss表示所述第一误差参数，N表示第二训练样本集中第二训练样本的总数量，R_t+1表示第t+1个第二训练样本的奖励值，Q’_t表示第t个第二训练样本的第二动作状态值，γ为预先设置的权重值，Q′_t表示第t个第二训练样本的第一动作状态值，γ为大于等于0小于等于1的数值。

进一步地，所述根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数包括：

根据公式

确定所述第二误差参数，其中，J表示所述第二误差参数，N表示第二训练样本集中第二训练样本的总数量，

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

进一步地，根据该控制模式预先确定每个第二训练样本中的奖励值包括：

根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

进一步地，所述运行环境的温度包括：

空调的内管温度、室内温度和室外温度。

本发明实施例提供了一种空调控制装置，所述装置包括：

获取模块，用于获取包含用户的行为状态的图像；

第一确定模块，用于将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；

第二确定模块，用于获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；

控制模块，用于根据所述第一控制参数，控制所述空调。

进一步地，所述获取模块，具体用于根据采集到的雷达波，获得微多普勒特征时频图。

进一步地，所述装置还包括：

第一训练模块，用于获取第一训练样本集中每个第一训练样本，其中每个第一训练样本为微多普勒特征时频图，并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息；将每个第一训练样本输入到模式识别模型中，根据所述模式识别模型输出的第三控制模式，对所述模式识别模型进行训练。

进一步地，所述装置还包括：

第二训练模块，用于针对每个控制模式，获取第二训练样本集中的每个第二训练样本，其中所述每个第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值；针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中，获取所述Critic-target-net模型输出的第二动作状态值；根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数，根据第一误差参数对Critic-eval-net模型中的参数进行更新；根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新；根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数，根据第二误差参数对Actor-eval-net模型中的参数进行更新；根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

进一步地，所述第二训练模块，具体用于根据公式

确定所述第一误差参数，其中，Loss表示所述第一误差参数，N表示每个第二训练样本集中第二训练样本的总数量，R_t+1表示第t+1个第二训练样本的奖励值，Q’_t表示第t个第二训练样本的第二动作状态值，γ为预先设置的权重值，Q_t表示第t个第二训练样本的第一动作状态值，γ为大于等于0小于等于1的数值。

进一步地，所述第二训练模块，具体用于根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

进一步地，所述第二训练模块，具体用于根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

本发明实施例提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述任一项所述方法的步骤。

本发明实施例提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行上述任一项所述方法的步骤。

本发明实施例提供了一种空调控制方法、装置、电子设备及存储介质，该空调控制方法包括：空调获取包含用户的行为状态的图像；将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；根据所述第一控制参数，控制所述空调。

由于本发明实施例中根据包含用户的行为状态的图像确定了当前的第一控制模式，并根据当前运行环境的第一温度以及该第一控制模式对应的动作网络模型，确定控制该空调的第一控制参数从而控制该空调，从而实现了空调的多模式控制，并且因为当前的控制模式是根据包含用户的图像来确定的，从而可以更好的满足用户的需求，降低空调的能耗。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种空调控制方法的流程图；

图2为本发明实施例3提供的模式识别模型的训练过程示意图；

图3为本发明实施例4提供的DDPG模型的训练过程示意图；

图4为本发明实施例4提供的基于DDPG模型的空调控制方法示意图；

图5为本发明实施例4提供的一种空调控制方法的流程图；

图6为本发明实施例5提供的一种空调控制装置的结构示意图；

图7为本发明实施例6提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的一种空调控制方法的流程图，所述方法包括：

S101：空调获取包含用户的行为状态的图像。

为了能够自动判断适合人体舒适性的空调控制模式，空调先可以获取包含用户的行为状态的图像，以便于后续的空调控制模式的确定。具体地，可以通过安装在空调上的摄像头获取包含用户的行为状态的图像，也可以通过红外摄像头等获取包含用户的行为状态的图像。其中获取的用户的图像中记录了用户的行为状态，以便空调能够根据图像中包含的用户的行为状态，确定控制模式。

另外，用户的行为状态具有一定的持续性，因此在本发明实施例中为了准确的确定控制模式，可以获取至少一张包含用户的行为状态的图像，较佳地，可以获取多张包含用户的行为状态的图像。

S102：将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式。

为了提高用户的舒适性，根据用户的行为状态选择合适的预定义的控制模式，比如检测到用户在家中做运动锻炼或较剧烈的活动，这时需要加大制冷量来降低温度，此时空调的控制模式为运动模式。

本发明实施例中，可以通过基于深度学习算法的模式识别模型对用户的行为状态进行识别，进而确定与该用户的行为状态对应的空调控制模式。因此，当获取到包含用户的行为状态的图像后，可以将该图像输入到预先训练完成的模式识别模型中，该模式识别模型可以进行行为状态识别，并根据识别出的动行为状态类型确定对应的第一控制模式并输出。

该模式识别模型可以是基于深度学习算法的模型，例如可以是基于卷积神经网络(Convolutional Neural Networks，CNN)的模型。

S103：获取所述第一控制模式对应的深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数。

因为不同的控制模式是为了满足用户在不同行为状态下的需求的，也就是说不同的控制模式用户需要的控制后的目标温度是不同的，因为目标温度不同，因此在进行控制时的控制参数也是不同的，因此为了满足不同控制模式的需求，在本发明实施例中预先针对不同的控制模式，对DDPG模型进行了训练，也就是说有针对每种控制模式的DDPG模型。

因此，当根据包含用户的行为状态的图像确定了第一控制模式后，根据预先训练完成的DDPG模型，获取该第一控制模式对应的DDPG模型。在本发明实施例中该DDPG模型包括状态网络模型和动作网络模型，其中动作网络模型可以用于确定控制的控制参数，因此可以基于获取的第一控制模式对应的DDPG模型中的动作网络模型，确定空调的第一控制参数。该空调的第一控制参数包括空调压缩机的转速、电子膨胀阀的开度等控制空调运行的参数。

动作网络模型的输入为当前运行环境的第一温度，其中，当前运行环境的第一温度包括在当前运行环境下，空调的内管温度、室内温度和室外温度。其中，空调可以通过部署在其内部的不同温度传感器得到该室内温度和该内管温度，并且空调可以与互联网连接，获取对应服务器中保存的该空调所在地的天气预报信息，从而获取室外温度。

S104：根据所述第一控制参数，控制所述空调。

当确定第一控制参数之后，因为该第一控制参数包括空调压缩机的转速、电子膨胀阀的开度等控制空调运行的参数，因此可以根据该第一控制参数控制空调。

实施例2：

在上述实施例的基础上，为了得到更合适的包含用户的行为状态的图像，所述获取包含用户的图像包括：

根据采集到的雷达波，获得微多普勒特征时频图。

为了得到更合适的包含用户的图像，空调安装了微波雷达，该微波雷达可以采集雷达波，并根据采集到的雷达波，获得相应的微多普勒特征时频图。

具体地，微波雷达可以采集毫米雷达波，根据采集的该毫米雷达波，提取该毫米雷达波的微多普勒特征，例如可以采用单频连续波结合正交相位检波的方式提取该雷达波的该微多普勒特征；根据提取到的微多普勒特征，提取微多普勒特征的时域回波，并对时域回波通过短时傅里叶分析方法得到微多普勒频谱，因为微波雷达一直在进行毫米雷达波的采集，因此将构成微多普勒特征时频图，具体地，由多个微多普勒频谱确定微多普勒特征时频图的过程是现有技术，在此不再赘述。

实施例3：

为了更加准确地确定第一控制模式，在上述各实施例的基础上，所述模式识别模型的训练过程包括：

为了能够使模式识别模型根据输入的微多普勒特征时频图识别出对应的控制模式，在本发明实施例中预先需要对模式识别模型进行训练。

在本发明实施例中可以采用线上或线下的方式对模式识别模型进行训练，较佳地，采用线下的方式对模式识别模型进行训练，线下训练也就是在空调出厂之前对模式识别模型进行的训练。

无论是采用哪种训练方式，首先需要获取进行训练的第一训练样本集，该第一训练样本集中包括若干个第一训练样本，其中该第一训练样本为微多普勒特征时频图，并且该第一训练样本中包含该第一训练样本对应的第二控制模式的标识信息。

其中，该标识信息是管理员预先标注的，管理员可以根据图像中用户的行为状态，确定第二控制模式，该第二控制模式是标识用户当前行为状态对应的模式，例如可以是运动模式、睡眠模式、休闲模式等，运动模式是指用户做运动锻炼或较剧烈的活动时对应的控制模式，睡眠模式是指用户处于睡眠状态时对应的控制模式，休闲模式是指用户处于休闲状态对应的控制模式，具体哪种控制模式，管理员可以根据图像中用户的行为状态确定。每种控制模式对应的标识信息不同，用于唯一地标识该控制模式。

当获取了每个第一训练样本后，将每个第一训练样本输入到模式识别模型中，然后，根据该模式识别模型输出的每个第三控制模式，及每个第一训练样本对应的第二控制模式，对该模式识别模型进行训练。其中，该模式识别模型可以卷积神经网络和循环神经网络(Recurrent Neural Network，RNN)相结合的模型。

图2为本发明实施例提供的模式识别模型的训练的相关过程示意图，通过微波雷达的实施采集，获取多张微多普勒频谱图，从而得到微多普勒特征时频谱图，将该微多普勒特征时频谱图输入到卷积神经网络的输入层，并经过卷积层和池化层的处理，通过拼接层输入到RNN网络，得到最终的控制模式。

由于本发明实施例中基于第一训练样本集中每个第一训练样本，对所述模式识别模型进行训练，这样可以更加准确地确定第一控制模式。

实施例4：

为了优化空调的控制策略，在上述各个实施例的基础上，所述DDPG模型的训练过程包括：

针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络(Actor-eval-net)模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络(Critic-eval-net)模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络(Actor-target-net)模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络(Critic-target-net)模型中，获取所述Critic-target-net模型输出的第二动作状态值；

为了使DDPG模型中的动作网络模型能够根据当前运行环境的第一温度确定控制空调的控制参数，在本发明实施例中预先需要对该动作网络模型进行训练。其中DDPG模型为深度神经网络模型，其中，该DDPG模型动作(Actor)网络模型和状态(Critic)网络模型，Actor网络模型包括动作估计网络模型和动作现实网络模型，Critic网络模型包括状态估计网络模型和状态现实网络模型。在对DDPG模型进行训练时，其内部的包括的各个模型将会相互关联训练。

在本发明实施例中可以采用线上或线下的方式对DDPG模型进行训练，较佳地，采用线下的方式对DDPG模型进行训练，并采用线上的方式根据空调的控制结果，定期对DDPG模型重新进行训练。

另外，因为不同的控制模式对应的控制策略不同，因此，为了准确的对空调进行控制，在本发明实施例中针对不同的控制模式，分别训练针对每种控制模式的DDPG模型。

下面将详细介绍针对一种控制模式，训练DDPG模型的过程，训练每种控制模式对应的DDPG模型的过程类似。

无论是采用哪种训练方式，首先需要获取进行训练的第二训练样本集，该第二训练样本集中包括若干个第二训练样本，其中，该第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值。

其中，该奖励值是预先根据该控制模式确定的，具体的可以根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，即Sn＝该第三温度中的室内温度-该设定温度，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值，即Sw＝该第三温度中的室外温度-该第二温度中的室外温度。

其中不同的控制模式对应的设定温度不同，运动模式对应的设定温度低于休闲模式对应的设定温度，休闲模式对应的设定温度低于睡眠模式对应的设定温度。

另外，空调内部保存有用于记录第二训练样本的存储记忆表，该存储记忆表中每一行存储了运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值。该存储记忆表也可以用于DDPG模型的训练。因此，在对DDPG模型进行训练之前，可以对该存储记忆表中的数据进行随机采样，得到设定数量N个第二训练样本。并且对空调进行控制后，还可以根据控制前和控制后的温度、控制模式及控制参数，对存储记忆表进行更新，以方便后续训练。

针对每个控制模式，获取了每个第二训练样本后，具体地，可以如图3所示从存储记忆表中获得每个第二训练样本，可以针对每个第二训练样本，将运行环境的第二温度输入到Actor-eval-net模型，获取该Actor-eval-net模型输出的第二控制参数，该第二控制参数包括该运行环境下空调压缩机的转速、电子膨胀阀的开度等控制空调运行的参数；将该第二温度及该第二控制参数输入到Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值，即Q值，将该运行环境的第三温度输入到Actor-target-net模型中，获取该Actor-eval-net模型输出的第三控制参数，该第三控制参数包括下一次进行控制时的运行环境下空调压缩机的转速、电子膨胀阀的开度等控制空调运行的参数；将该第三温度及该第三控制参数输入到Critic-target-net模型中，获取该Critic-target-net模型输出的第二动作状态值Q’，即Q’值；

当通过上述方法得到每个第二训练样本对应的Q值和Q’值后，可以根据每个第二训练样本对应的Q值和Q’值，以及对应的奖励值确定第一误差参数，根据每个第二训练样本对应的Q值和Q’值，以及对应的奖励值确定第一误差参数，可以根据公式

确定该第一误差参数，其中，Loss表示该第一误差参数，N表示第二训练样本集中第二训练样本的总数量，R_t+1表示第t+1个第二训练样本的奖励值，Q’_t表示第t个第二训练样本的第二动作状态值，γ为预先设置的权重值，Q_t表示第t个第二训练样本的第一动作状态值，γ为大于等于0小于等于1的数值。

当确定了第一误差参数后，根据该第一误差参数对Critic-eval-net模型中的参数进行更新，例如可以根据误差均值监督式学习方法更新Critic-eval-net模型中的参数；因为Critic-eval-net模型和Critic-target-net模型的功能相同，因此可以根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新。

另外，还可以根据每个第二训练样本对应的Q值和第二控制参数的值，确定第二误差参数，具体地，根据每个第二训练样本对应的Q值和第二控制参数的值，确定第二误差参数时可以根据公式

确定所述第二误差参数，其中，J表示该第二误差参数，N表示第二训练样本集中第二训练样本的总数量，

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

因为控制参数一般包括空调压缩机的转速、电子膨胀阀的开度，此时为了量化该第二控制参数的值，首先根据空调压缩机的转速范围，以及电子膨胀阀的开度范围，对空调压缩机的转速和电子膨胀阀的开度进行归一化处理，具体的可以是将空调压缩机的最大转速确定为1，根据空调压缩机的转速与该最大转速的比值，确定该转速对应的归一化后的数值，同样的电子膨胀阀的开度也采用同样的方式确定归一化后的数值。该第二控制参数的值也可以是归一化后的空调压缩机的转速，或电子膨胀阀的开度，较佳地，该第二控制参数的值为归一化后的空调压缩机的转速和电子膨胀阀的开度的均值。

当确定了第二误差参数后，可以根据该第二误差参数对Actor-eval-net模型中的参数进行更新，具体的可以使用策略梯度法更新Actor-eval-net模型中的参数。因为Actor-eval-net模型和Actor-target-net模型的功能相同，因此，可以根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

当这些深度神经网络模型的参数被更新达到预先设置的最大迭代更新次数后，或者满足其他的终止条件时，停止对这些模型的训练。

需要说明的是，上述运行环境的温度包括空调的内管温度、室内温度和室外温度。

为了使DDPG模型能够更好的满足用户的需求，还可以根据每次控制空调后的运行环境的温度以及奖励值对存储记忆表中存储的训练样本进行更新，方便后续训练。因此，当基于该DDPG模型得到控制参数的值后，将每次得到的控制参数的值、动作状态值或根据控制模式确定的奖励值记录到上述存储记忆表中，以便于后续定期更新四个深度神经网络模型中的参数，这样不断迭代更新这些深度神经网络模型的参数，不断优化空调在不同控制模式下的控制策略，以达到该DDPG模型根据具体的空调运行环境下，输出符合当前空调所在运行环境下最优的控制策略，即自适应节能控制。

在上述各个实施例的基础上，为了使空调能够在控制温度的条件下，降低能耗，本发明实施例通过一种智能控制算法--基于强化学习的空调控制方法，即通过对不同控制模式对应的DDPG模型训练来优化空调的控制策略。

图4为基于DDPG模型对空调进行控制的流程示意图，空调确定当前的控制模式，然后将当前的空调运行环境下的环境状态，即室内温度和内管温度，以及通过联网或其他方式获取室外温度，输入到该控制模式对应的DDPG模型中的动作网络模型中，该动作网络模型输出相应的控制参数，控制空调。

该空调根据该控制参数执行完相应的动作后，可以获取该控制模式预先确定的奖励，该奖励是根据具体的控制参数控制空调运行后，空调运行环境下的环境状态，其中，该空调运行环境下的环境状态空调内部传感器得到的室内温度、内管温度和室外温度等。具体确定该奖励值的过程在上述实施例中已经描述，在此不再赘述，然后，将当前空调运行环境下的环境状态、控制参数、控制后空调运行环境下的环境状态、该奖励值记录到存储记忆表中，以便于后续对该控制模式对应的DDPG模型进行训练。同时，为了得到更好的满足用户需求，达到节能的目的，还需要定期或者按照设定的时间间隔，对该DDPG模型进行训练，其中，对该DDPG模型进行训练的过程在上述实施例中已经描述，在此不再赘述。

图5为本发明实施例提供的一种空调控制的方法流程图，如图5所示，空调通过微波雷达采集的雷达波对用户进行行为状态检测，获取到相应的微多普勒特征时频图，将该微多普勒特征时频图输入到模式识别模型中进行空调控制模式的确定，将输出控制模式确定为第一控制模式。然后获取当前环境状态，即空调当前运行环境的第一温度，并且获取该第一控制模式对应的DDPG模型中训练好的动作网络模型，根据该空调当前运行环境的第一温度及动作网络模型，确定对应的控制参数，以达到对该空调舒适、节能控制。

实施例5：

在上述各个实施例的基础上，本发明实施例提供了一种空调控制装置的结构示意图，如图6所示，所述装置包括：

获取模块601，用于获取包含用户的行为状态的图像；

第一确定模块602，用于将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；

第二确定模块603，用于获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；

控制模块604，用于根据所述第一控制参数，控制所述空调。

进一步地，所述获取模块601，具体用于根据采集到的雷达波，获得微多普勒特征时频图。

进一步地，所述装置还包括：

第一训练模块605，用于获取第一训练样本集中每个第一训练样本，其中每个第一训练样本为微多普勒特征时频图，并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息；将每个第一训练样本输入到模式识别模型中，根据所述模式识别模型输出的第三控制模式，对所述模式识别模型进行训练。

进一步地，所述装置还包括：

第二训练模块606，用于针对每个控制模式，获取第二训练样本集中的每个第二训练样本，其中所述每个第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值；针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中，获取所述Critic-target-net模型输出的第二动作状态值；根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数，根据第一误差参数对Critic-eval-net模型中的参数进行更新；根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新；根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数，根据第二误差参数对Actor-eval-net模型中的参数进行更新；根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

进一步地，所述第二训练模块606，具体用于根据公式

进一步地，所述第二训练模块606，具体用于根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

进一步地，所述第二训练模块606，具体用于根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

由于本发明实施例中获取模块601，用于获取包含用户的行为状态的图像；第一确定模块602，用于将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；第二确定模块603，用于获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；控制模块604，用于根据所述第一控制参数，控制所述空调，从而实现了空调的多模式控制，并且因为当前的控制模式是根据包含用户的图像来确定的，从而可以更好的满足用户的需求，降低空调的能耗。

实施例6：

在上述各个实施例的基础上，本发明实施例提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信；

所述存储器703中存储有计算机程序，当所述程序被所述处理器701执行时，使得所述处理器701执行如下步骤：获取包含用户的行为状态的图像；将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；根据所述第一控制参数，控制所述空调。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口702用于上述电子设备与其他设备之间的通信。

存储器703可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器701可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

进一步地，所述处理器701，具体用于根据采集到的雷达波，获得微多普勒特征时频图。

进一步地，所述处理器701，还用于获取第一训练样本集中每个第一训练样本，其中每个第一训练样本为微多普勒特征时频图，并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息；将每个第一训练样本输入到模式识别模型中，根据所述模式识别模型输出的第三控制模式，对所述模式识别模型进行训练。

进一步地，所述处理器701，还用于针对每个控制模式，获取第二训练样本集中的每个第二训练样本，其中所述每个第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值；针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中，获取所述Critic-target-net模型输出的第二动作状态值；根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数，根据第一误差参数对Critic-eval-net模型中的参数进行更新；根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新；根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数，根据第二误差参数对Actor-eval-net模型中的参数进行更新；根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

进一步地，所述处理器701，具体用于根据公式

确定所述第一误差参数，其中，Loss表示所述第一误差参数，N表示第二训练样本集中第二训练样本的总数量，R_t+1表示第t+1个第二训练样本的奖励值，Q’_t表示第t个第二训练样本的第二动作状态值，γ为预先设置的权重值，Q_t表示第t个第二训练样本的第一动作状态值，γ为大于等于0小于等于1的数值。

进一步地，所述处理器701，具体用于根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

进一步地，所述处理器701，具体用于根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

进一步地，所述运行环境的温度包括空调的内管温度、室内温度和室外温度。

实施例7：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行如下步骤：

获取包含用户的行为状态的图像；将所述图像输入到预先训练完成的模式识别模型中，确定当前的第一控制模式；获取所述第一控制模式对应的深度确定性策略梯度DDPG模型中的动作网络模型，根据当前运行环境的第一温度及所述动作网络模型，确定控制所述空调的第一控制参数；根据所述第一控制参数，控制所述空调。

进一步地，根据采集到的雷达波，获得微多普勒特征时频图。

进一步地，获取第一训练样本集中每个第一训练样本，其中每个第一训练样本为微多普勒特征时频图，并且每个第一训练样本中包括该第一训练样本对应的第二控制模式的标识信息；

进一步地，针对每个控制模式，获取第二训练样本集中的每个第二训练样本，其中所述每个第二训练样本中包含有运行环境的第二温度，下一次进行控制时运行环境的第三温度及根据该控制模式预先确定的奖励值；针对每个第二训练样本，将该第二训练样本中的运行环境的第二温度输入到动作现实网络Actor-eval-net模型，获取所述Actor-eval-net模型输出的第二控制参数；将所述运行环境的第二温度及第二控制参数输入到状态现实网络Critic-eval-net模型，获取所述Critic-eval-net模型输出的第一动作状态值；将所述运行环境的第三温度输入到动作估计网络Actor-target-net模型中，获取所述Actor-eval-net模型输出的第三控制参数；将所述运行环境的第三温度及所述第三控制参数输入到状态估计网络Critic-target-net模型中，获取所述Critic-target-net模型输出的第二动作状态值；根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数，根据第一误差参数对Critic-eval-net模型中的参数进行更新；根据更新后的Critic-eval-net模型中的参数，对Critic-target-net模型中的参数进行更新；根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数，根据第二误差参数对Actor-eval-net模型中的参数进行更新；根据更新后的Actor-eval-net模型中的参数，对Actor-target-net模型中的参数进行更新。

进一步地，根据公式

进一步地，根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

进一步地，根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种空调控制方法，其特征在于，所述方法包括：

空调获取包含用户的行为状态的图像；

根据所述第一控制参数，控制所述空调。

2.如权利要求1所述的方法，其特征在于，所述获取包含用户的图像包括：

根据采集到的雷达波，获得微多普勒特征时频图。

3.如权利要求1所述的方法，其特征在于，所述模式识别模型的训练过程包括：

4.如权利要求1所述的方法，其特征在于，所述DDPG模型的训练过程包括：

5.如权利要求4所述的方法，其特征在于，所述根据每个第二训练样本对应的第一动作状态值、第二动作状态值及对应的奖励值确定第一误差参数包括：

根据公式

6.如权利要求4所述的方法，其特征在于，所述根据每个第二训练样本对应的第一动作状态值及第二控制参数的值，确定第二误差参数包括：

根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

7.如权利要求4所述的方法，其特征在于，根据该控制模式预先确定每个第二训练样本中的奖励值包括：

8.如权利要求1或4或7所述的方法，其特征在于，所述运行环境的温度包括：

空调的内管温度、室内温度和室外温度。

9.一种空调控制装置，其特征在于，所述装置包括：

获取模块，用于获取包含用户的行为状态的图像；

控制模块，用于根据所述第一控制参数，控制所述空调。

10.如权利要求9所述的装置，其特征在于，所述获取模块，具体用于根据采集到的雷达波，获得微多普勒特征时频图。

11.如权利要求9所述的装置，其特征在于，所述装置还包括：

12.如权利要求9所述的装置，其特征在于，所述装置还包括：

13.如权利要求12所述的装置，其特征在于，所述第二训练模块，具体用于根据公式

14.如权利要求12所述的装置，其特征在于，所述第二训练模块，具体用于根据公式

表示第i个第二训练样本的第一动作状态值，

表示第i个第二训练样本的第二控制参数的值。

15.如权利要求12所述的装置，其特征在于，所述第二训练模块，具体用于根据公式reward＝a*Sn+b*Sw+c*W，确定该第二训练样本中的奖励值，其中，reward表示所述奖励值，Sn为室内温差值，a、b、c为预先设置的权重值，Sw为室外温差值，W表示空调的功率，a+b+c＝1，其中Sn为所述运行环境的第三温度中的室内温度与该控制模式对应的设定温度的差值，Sw为运行环境的第三温度中的室外温度与运行环境的第二温度中的室外温度的差值。

16.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1-8任一项所述方法的步骤。

17.一种计算机可读存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1-8任一项所述方法的步骤。