CN115507527A

CN115507527A - 一种基于深度强化学习的空调控制系统

Info

Publication number: CN115507527A
Application number: CN202211260436.5A
Authority: CN
Inventors: 陈丽如
Original assignee: Qingdao Hisense Hitachi Air Conditioning System Co Ltd
Current assignee: Qingdao Hisense Hitachi Air Conditioning System Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-23

Abstract

本发明公开了一种基于深度强化学习的空调控制系统，包括：分类单元，其基于空调系统的历史数据，对用户角色进行分类，用户角色基于对空调的使用习惯而区分，且每个用户角色涉及若干用户；建模单元，其建立基于用户角色的训练模型，训练模型表征空调运行数据和空调控制数据之间的关系；选择单元，其基于所确定的当前用户的用户角色，选择当前用户角色对应的训练模型；决策单元，其根据所选择的训练模型并通过DDPG算法训练该训练模型，以求解最优控制策略；空调控制系统接收最优控制策略。本发明基于用户群体预建立训练模型，且基于用户个体训练对应的训练模型，实现空调系统智能化运行，满足用户个体差异，提升用户体验。

Description

一种基于深度强化学习的空调控制系统

技术领域

本发明涉及空调系统控制技术领域，尤其涉及一种基于深度强化学习的空调控制系统。

背景技术

空调器在运行制冷/制热模式时，通常是根据用户通过遥控器、空调控制面板或APP等手动预先设定的温度或风速等参数值运行，考虑到用户的个体差异以及室内环境参数的不均匀性，空调器按照用户预先设定的参数运行后有时并非真正适合用户，会出现反复调节空调器的情况，从某种程度上来说，用户不一定能够准确判断自身需求和空调设定之间的关系，造成“夏季室温偏低、冬季室温偏高”，不仅影响用户的舒适性、体验度，而且还增加空调能耗。

现有空调系统的控制方法例如有传统的控制方法（例如基于规则的控制（如启停控制）、PID控制）、模型预测控制方法（MPC）、启发式算法（例如遗传算法、粒子群算法等）、利用传统的Tabular-Q-learning算法实现空调系统的运行优化等，但是仍存在可以归结为建模难或者建模不准确的问题，因此，难以做到真正服务用户，以提高用户使用体验。

发明内容

本发明提供一种基于深度强化学习的空调控制系统，基于用户群体预建立训练模型，且基于用户个体训练对应的训练模型，实现空调系统智能化运行，满足用户个体差异，提升用户体验。

本申请提供一种基于深度强化学习的空调控制系统，包括：

分类单元，其基于空调系统的历史数据，对用户角色进行分类，所述用户角色基于对空调的使用习惯而区分，且每个用户角色涉及若干用户；

建模单元，其建立基于用户角色的训练模型，所述训练模型表征空调运行数据和空调控制数据之间的关系；

选择单元，其基于所确定的当前用户的用户角色，选择所述当前用户角色对应的训练模型；

决策单元，其根据所选择的训练模型并通过DDPG算法训练所述训练模型，以求解最优控制策略；

所述空调控制系统接收所述最优控制策略，用于控制空调器的运行。

本申请提供的基于深度强化学习的空调控制系统，基于空调系统的历史数据，对用户角色进行分类，且每个用户角色涉及若干用户，如此，根据建模单元基于每个用户角色建立的训练模型是基于若干用户（即，用户群体）所建立的训练模型，该训练模型能够从整体上实现用户对空调的控制；由于每个用户的使用差异较大，因此，之后采用DDPG算法对所选择的训练模型进行独立训练满足单个用户控制需求，如此，能够从更精细的角度上实现空调智能控制。

且该空调控制系统考虑用户差异性，且经过初建模和再训练两个过程，提高空调控制精确度，且同时满足用户差异化需求，提高用户体验。

在本申请的一些实施例中，对数据进行预处理可以放大特征，提高训练模型的学习效率，所述空调控制系统还包括：

数据预处理单元，其对属于每个用户角色的历史数据进行预处理；

所述建模单元基于属于用户角色的、预处理后的数据，建立所述训练模型。

在本申请的一些实施例中，在空调出厂之前，利用所述分类单元对用户角色进行分类，以及利用所述建模单元建立基于用户角色的训练模型；

在空调出厂后的使用过程中，利用所述选择单元选择所述当前用户角色对应的训练模型，以及利用决策单元通过DDPG算法训练所述训练模型，以求解最优控制策略。

在空调出厂之前预建立训练模型，之后在空调使用过程中，直接调用训练模型即可，无需再建立训练模型，避免占用空调运行时的内存，提高空调控制响应速度。

在本申请中的一些实施例中，可以将选择单元和决策单元设置在空调器内，直接与空调器的控制单元连接。

所述训练模型导入空调系统的控制单元；

所述选择单元和所述决策单元分别与所述控制单元连接，用于在选择用户角色对应的训练模型并通过DDPG算法训练所述训练模型后，将所求解的最优控制策略反馈至所述控制单元。

在本申请中的一些实施例中，为了避免选择单元和决策单元占用空调器的计算内存，将对训练模型的选择和训练放置在云平台或APP侧上运行，借助云平台强大的计算能力或用户终端的计算能力，帮助训练该训练模型。因此，所述空调控制系统还包括：网关设备、云平台和APP侧。

网关设备与空调系统通信；云平台与网关设备通信；APP侧与云平台交互。

所述选择单元和所述决策单元位于所述云平台或APP侧，用于在所述云平台或APP侧上选择用户角色对应的训练模型，并通过DDPG算法训练所述训练模型，以求解最优控制策略；

所述最优控制策略反馈至所述空调系统的控制单元。

在本申请的一些实施例中，用户感受到空调控制模式并给出反馈时，能够以该反馈为依据作为从环境得到的奖励值

在用户采用最优控制策略控制空调运行时，用户会对当前空调控制模式进行评价；

将给出的评价值作为训练模型从环境中得到的奖励值，其用于所述DDPG算法。

在奖励值符合预期时可以为正值，否则为负值。

在本申请的一些实施例中，所述数据预处理单元对属于每个用户角色的历史数据进行预处理，以获取特征数据；

所述特征数据包括室内温度、地理位置、用户性别、用户年龄和空调使用时间。

如此，以室内温度、地理位置、用户性别、用户年龄和空调使用时间作为特征，建立N*5矩阵，N为用户角色的个数（也即，用户角色对应的数据集的个数）。

在本申请的一些实施例中，建模单元对属于每个用户角色的特征数据采用多层感知器训练获取所述训练模型。

在本申请的一些实施例中，为了在使用空调过程中，能够确认当前用户的用户角色，以选择对应该用户角色的训练模型作为预训练模型。因此，所述空调控制系统还包括：网关设备、云平台和APP侧。

通过APP侧收集用户对当前空调的控制模式所做出的反馈，基于所述反馈确定当前用户的用户角色。

在本申请的一些实施例中，所述DDPG算法的训练过程包括：

针对状态估计网络，以实际Q值与估计Q值的平方损失为损失函数来更新状态估计网络的参数；

针对动作估计网络，利用损失梯度来更新动作估计网络的参数；

将所述状态估计网络的参数复制给状态现实网络，以更新状态现实网络的参数；

将所述动作估计网络的参数复制给动作现实网络，以更新动作现实网络的参数。

附图说明

图1示出了根据一些实施例的基于深度强化学习的空调控制系统的结构图一；

图2示出了根据一些实施例的基于深度强化学习的空调控制系统中分类单元进行分类的流程图；

图3示出了根据一些实施例的基于深度强化学习的空调控制系统中MLP的拓扑结构图；

图4示出了根据一些实施例的基于深度强化学习的空调控制系统的通讯原理图；

图5示出了根据一些实施例的基于深度强化学习的空调控制系统中用于确定用户角色的原理图；

图6示出了根据一些实施例的基于深度强化学习的空调控制系统的结构图二；

图7示出了根据一些实施例的基于深度强化学习的空调控制系统的结构图三；

图8示出了根据一些实施例的基于深度强化学习的空调控制系统中DDPG算法的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。

本申请涉及对中央空调器的自动化、智能化控制，空调器的工作原理参见如下描述。

空调器通过使用压缩机、冷凝器、膨胀阀和蒸发器来执行空调器的制冷循环。制冷循环包括一系列过程，涉及压缩、冷凝、膨胀和蒸发，并向已被调节和热交换的空气供应制冷剂。

压缩机压缩处于高温高压状态的制冷剂气体并排出压缩后的制冷剂气体。所排出的制冷剂气体流入冷凝器。冷凝器将压缩后的制冷剂冷凝成液相，并且热量通过冷凝过程释放到周围环境。

膨胀阀使在冷凝器中冷凝的高温高压状态的液相制冷剂膨胀为低压的液相制冷剂。蒸发器蒸发在膨胀阀中膨胀的制冷剂，并使处于低温低压状态的制冷剂气体返回到压缩机。蒸发器可以通过利用制冷剂的蒸发的潜热与待冷却的材料进行热交换来实现制冷效果。在整个循环中，空调机组可以调节室内空间的温度。

空调室外机是指包括制冷循环的压缩机的部分以及包括室外热交换器，空调室内机包括室内热交换器，并且膨胀阀可以提供在空调室内机或室外机中。

室内热交换器和室外热交换器用作冷凝器或蒸发器。当室内热交换器用作冷凝器时，空调器用作制热模式的加热器，当室内热交换器用作蒸发器时，空调器用作制冷模式的冷却器。

本申请采用预先建立训练模型作为预训练模型，之后再利用深度确定性策略梯度方法（Deep Deterministic Policy Gradient，DDPG）求解最优控制策略。

其中，训练模型基于用户群体训练获取；DDPG算法根据训练模型基于用户个体进行训练，获取最优控制策略，满足用户对空调器的差异性控制。

在本申请中的一些实施例中，参见图1，基于深度强化学习的空调控制系统包括分类单元、建模单元、选择单元和决策单元。

如下，将分别描述分类单元、建模单元、选择单元和决策单元。

<分类单元>

分类单元基于空调系统的历史数据，对用户角色进行分类，该用户角色基于对空调的使用习惯而区分且每个用户角色涉及若干用户（即，用户群体）。

如此，若用户角色的集合为E，则用户角色e_i∈E，其中i=1,2,...,N，N为用户角色的个数。

参见图2，其示出了对空调历史数据进行处理的过程。

在本申请的一些实施例中，为了避免占用空调的计算内存，影响空调响应速度，在空调出厂前，分类单元对用户角色进行分类。

不同的用户群体具有不同的空调使用习惯，例如，办公室内的空调使用时间多在早晨八点到下午六点，打工人居住地的空调使用时间多在下午六点之后，年轻人群体的空调温度普遍偏高，老年人群体的空调温度普遍偏低，等等。

依据不同用户的使用习惯可以归纳、总结并定义出不同的用户角色，以此实现分类。

对用户角色进行分类，也即对空调系统的历史数据进行分类，其中空调系统的历史数据指空调的运行数据。

因此，针对如上所述的用户角色的集合R，对空调系统的历史数据进行分类，能够得到N个数据集d_i，其中i=1,2,...,N。

数据集d_i对应如上所述的用户角色e_i的运行数据。

为了提高训练模块建立的准确性及快速性，在本申请的一些实施例中，该空调控制系统还包括数据处理单元（未示出），其用于预处理属于用户角色e_i的数据集d_i。

数据处理单元采用现有特征提取（例如，基于机器学习的特征工程流程）的方式对空调的运行数据进行特征提取。

在本申请中的一些实施例中，提取室内温度、地理位置、用户性别、用户年龄和空调使用时间五个维度数据作为特征，获取N*5的矩阵。

在本申请的一些实施例中，所提取的特征也不局限于如上所述的五个特征，可以在实验中依据数据特点动态调整，例如，也可以考虑风量、风速等。

如此，完成用户角色分类，即完成用户群体划分，并获取了针对各用户角色的特征数据。

<建模单元>

建模单元基于用户角色建立训练模型，作为预训练模型，该训练模型表征空调运行数据和空调控制数据之间的关系。

即，每个用户角色r_i对应建立所属的训练模型，如此，会获取到针对用户角色R的N个训练模型。

在本申请的一些实施例中，为了避免占用空调的计算内存，影响空调响应速度，在空调出厂前，建模单元对训练模型进行预建立。

对于每个训练模型的建立，都是采用相同的方式进行建立。

在本申请的一些实施例中，采用多层感知器（Multilayer Perceptron，MLP）的方式建立训练模型。

MLP是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

参见图3，在本申请的一些实施例中，MLP包括输入层、若干层隐含层和输出层。

输入数据X1、X2、...、X5为如上所述的五个特征维度，y1、y2、y3、...为隐含层中的神经元，O1为输出层的输出，输出为空调控制数据。

MLP建立训练模型的方式可以参见现有技术中利用MLP建立网络模型的方式，在此不做赘述。

空调控制数据对应空调控制策略，表现为空调器将设置的控制数据，例如，室内温度、风量、风速等。

在空调器接收到空调控制数据后，对空调器自动调整控制。

如此，完成对用户角色e_i的模型建立，获取到训练模型，即完成第一阶段。

在本申请中的一些实施例中，如上所述的部分在空调器出厂前的线下进行，避免占用空调器的计算资源。

参见图1，如上所述的训练模型导入空调器的控制单元，用于第二阶段中对该训练模型进行训练。

需要说明的是，在本申请的一些实施例中，第二阶段在空调出厂后的使用过程中进行的。

<选择单元>

在本申请的一些实施例中，选择单元基于当前用户的用户角色，选择对应的训练模型。

首先，需要确定当前用户的用户角色；其次，选择对应该用户角色的训练模型。

在空调器的使用过程中，对训练模型进行训练，实现控制器的自进化控制。

为了确定当前用户的用户角色，在本申请的一些实施例中，参见图4，空调控制系统可以包括网关设备、云平台和APP侧。

网关设备具有通信模块，不限于WiFi/NB-IOT等方式的通信，用于实现将空调系统中室外机及室外机的相关信息（例如，室外机的室外机机种码（即，室外机机型）、各室内机的室内机机种码（即，室内机机型）、空调运行状态）上报至云平台。

该网关设备可以是配置在室外机上的NB-IOT适配器，该NB-IOT适配器包括主控芯片和和连接于主控芯片的通讯芯片。

主控芯片用于获取空调系统中内外机组的运行信息，并将状态变化传输至通讯芯片。

通讯芯片用于接收该状态变化，并向云平台反馈当前空调系统中内外机组的状态。

该网关设备还可以为WiFi网关，其可以独立于空调系统、连接于通信总线上，能够向云平台上报如上所述的空调系统相关的信息。

云平台通过网关设备与空调系统实现交互。

APP侧为智能终端，该智能终端包括一类安装有用于控制例如中央空调器的应用程序APP的设备，例如，智能手机、平板电脑（PAD）和个人PC机等。

因此，参见图5，可以通过在APP侧收集轻量化问题引导用户对自身状态进行说明，以确定当前用户所属的用户角色。

并将所确定的用户角色传送至选择单元，以进行选择对应该用户角色的训练模型。

其中，轻量化问题可指的是以直接明了的方式向用户征询关于当前空调器的运行情况是否符合用于当前实际的需求。

例如，当前的室内温度或当前的送风模式是否符合当前实际的需求。

在本申请的一些实施例中，可以通过在APP侧以弹窗的方式收集所征询的回复。

例如，当前空调器采用的是用户角色e₁对应的训练模型进行自主控制。

若调查到当前用户反馈当前空调器的运行情况符合当前实际的需求（例如，风量合适，温度合适，用户舒适度高），因此，可以认为当前用户例如为用户角色e₁，否则不是用户角色e₁。

在本申请中的一些实施例中，也可以采用其他方式确定当前用户的用户角色，例如，可以基于当前室内温度结合当前用户的人体体征参数等，来引导确认用户角色。

若调查到当前室内温度符合用户角色e₁下的室内温度，且利用智能穿戴设备获取人体体征参数符合用户角色e₁下的体征参数（例如，人体的当前局部皮肤温度、心率、血压、人体新陈代谢率等），因此，可以认为当前用户例如为用户角色e₁，否则不是用户角色e₁。

如上所述的，每个用户角色e_i对应一个训练模型，因此，在确定当前用户的用户角色后，则可以确定该用户角色对应的训练模型。

如下，将针对单个用户对如上所确定的训练模型进行训练，以更精确地实现空调的控制。

参见图1，如上所述的选择单元可以设置在空调器中，与空调器的控制单元连接，用于将所确定的训练模型告知控制单元，以便于后续的训练。

参见图6，在本申请中的一些实施例中，如上所述的，也可以将选择单元设置在云平台上，利用云平台的强大计算能力，选择训练模型，此时不占用空调器的计算资源，确保空调器的快速响应。

参见图7，在本申请中的一些实施例中，如上所述的，也可以将选择单元设置在APP侧，利用智能终端的强大计算能力，选择训练模型，此时也不占用空调器的计算资源，确保空调器的快速响应。

<决策单元>

在本申请的一些实施例中，决策单元根据所选择的训练模型（出于便于描述的目的，记为训练模型A），通过DDPG算法训练该训练模型A，以求解最优控制策略。

参见图1，该最优控制策略反馈至空调控制系统（具体为空调器的控制单元），用于控制空调器运行。

在本申请中的一些实施例中，由于控制空调器的特征数据多为连续性数据（例如，温度、时间等），因此，采用DDPG算法能够更好地分析连续动作空间问题。

在本申请中的一些实施例中，所采用的DDPG算法是现有常用的算法。

采用DDPG算法生成连续行为，DDPG算法是Actor-Critic框架和DQN（Deep Q-network，深度Q网络）算法的结合体，采用DQN中的经验池和双网络结构来促进神经网络能够有效学习，这里actor不再是输出每个动作的概率，而是输出每个动作对应的值。

参见图8，DDPG的网络结构由两大部分组成，即，基于策略的神经网络（也称为actor网络）和基于价值的神经网络（也称为critic网络）。

actor网络包含动作估计网络u和动作现实网络u'。

动作估计网络u负责策略参数的迭代更新，根据当前环境状态S选择当前动作A，并和环境交互生成下一时刻环境S′和当前动作A对应的奖励值R。

动作现实网络u'根据经验回放池(也即是缓冲区)D中采样的下一时刻环境状态S′选择最优的下一动作A′。

critic网络包含状态估计网络Q和状态现实网络Q'。

状态估计网络Q输入动作估计网络u给出的动作A和当前观测的状态，输出状态的价值。

状态现实网络Q'输入动作现实网络u'给出的动作A'和当前观测的状态，输出状态的价值。

在训练阶段，只需要训练动作估计网络u和状态估计网络Q的参数，动作现实网络u'和状态现实网络Q'的参数是分别由动作估计网络u和状态估计网络Q每隔一定的时间复制过去的。

如上所述的，将所选择的训练模型A作为动作估计网络u。

状态估计网络Q的学习过程与DQN类似，根据下面的损失函数（1）来进行网络学习，即实际Q值和估计Q值的平方损失：

（1）

其中，Q(S_i, a_i, w)是状态估计网络Q根据状态S_i和在动作估计网络参数w下的动作a_i得到的估计Q值，a_i是动作估计网络u传过来的动作，y_i为实际Q值。

以目标Q值Yi的最大值作为实际Q值，即y_i＝max(Yi)，其中，目标Q值Yi是根据奖励值R、下一时刻环境状态S′以及动作现实网络u'输出的动作A′利用贝尔曼方程（2）计算得到，具体公式为：

(2)

其中，R为当前动作对应的奖励值，γ为折扣因子，取值范围为0~1，Q'(S', A',w')为可能的下一动作A'对应的期望Q值，由状态现实网络Q'计算得到，w'为状态现实网络参数。

动作估计网络u的参数则是利用损失梯度来更新的，神经网络参数的更新公式如下：

（3）

动作现实网络u'和状态现实网络Q'采用如下滑动平均方式进行更新。

θ' ← τθ+(1-τ)θ′ （4）

w′ ← τw+(1-τ)w′ （5）

其中，θ是动作估计网络u的参数，θ′是动作现实网络u'的参数，w是状态估计网络Q的参数，w'是状态现实网络Q'的参数，Q(S_i ,a_i ,w)状态估计网络Q根据状态Si和在状态估计网络参数w下的动作a_i得到的估计Q值，π_θ(.)是参数θ下动作估计网络u的策略，J(.)是动作估计网络u的损失函数。

如此，可以实现采用DDPG算法对训练模型A进行训练，并输出最优控制策略。

参见图1，如上所述的最优控制策略可以反馈至空调器的控制单元，控制空调器的转，如此，可确保空调系统满足用户实际需求。

在空调器采用最优控制策略控制运行的过程中，用户会对当前空调控制模式进行评价，将给出的评价值作为训练模型从环境中得到的奖励值R，用于DDPG算法，具体用于更新状态现实网络Q'，从而更好地服务用户，提高用户使用体验。

参见图1，如上所述的决策单元可以设置在空调器中，与空调器的控制单元连接，用于将输出的控制策略反馈至控制单元，控制空调器运行。

参见图6，在本申请中的一些实施例中，如上所述的，也可以将决策单元设置在云平台上，利用云平台的强大计算能力，训练如上所述的训练模型A，此时不占用空调器的计算资源，确保空调器的快速响应。

参见图7，在本申请中的一些实施例中，如上所述的，也可以将决策选择单元设置在APP侧，利用智能终端的强大计算能力，训练如上所述的训练模型A，此时也不占用空调器的计算资源，确保空调器的快速响应。

本申请的空调控制系统中对空调器的控制是分阶段进行的，第一阶段针对用户群体训练进行建模，以获取训练模型，此阶段在空调器出厂之前完成，减小空调器使用过程中计算资源的压力；第二阶段考虑用户差异性，针对单个用户训练，确保用户体验性，且采取针对单个用户训练的方法使得训练结果更为精确。

在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的空调控制系统，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的空调控制系统，其特征在于，还包括：

3.根据权利要求1所述的基于深度强化学习的空调控制系统，其特征在于，

在空调出厂之前，利用所述分类单元对用户角色进行分类，以及利用所述建模单元建立基于用户角色的训练模型；

4.根据权利要求3所述的基于深度强化学习的空调控制系统，其特征在于，

所述训练模型导入空调系统的控制单元；

5.根据权利要求3所述的基于深度强化学习的空调控制系统，其特征在于，所述空调控制系统还包括：

网关设备，其与空调系统通信；

云平台，其与所述网关设备通信；

APP侧，其与所述云平台交互；

所述最优控制策略反馈至所述空调系统的控制单元。

6.根据权利要求1所述的基于深度强化学习的空调控制系统，其特征在于，

将给出的评价值作为训练模型从环境中得到的奖励值其用于所述DDPG算法。

7.根据权利要求2所述的基于深度强化学习的空调控制系统，其特征在于，

所述数据预处理单元对属于每个用户角色的历史数据进行预处理，以获取特征数据；

8.根据权利要求7所述的基于深度强化学习的空调控制系统，其特征在于，

所述建模单元对属于每个用户角色的特征数据采用多层感知器训练获取所述训练模型。

9.根据权利要求1所述的基于深度强化学习的空调控制系统，其特征在于，所述空调控制系统还包括：

网关设备，其与空调系统通信；

云平台，其与所述网关设备通信；

APP侧，其与所述云平台交互；

10.根据权利要求1所述的基于深度强化学习的空调控制系统，其特征在于，所述DDPG算法的训练过程包括：