CN107272785A

CN107272785A - 一种机电设备及其控制方法、计算机可读介质

Info

Publication number: CN107272785A
Application number: CN201710592645.2A
Authority: CN
Inventors: 孙凫; 孙一凫; 吴若飒; 张豪; 王宗祥
Original assignee: Beijing Geyun Technology Co Ltd
Current assignee: Beijing Geyun Technology Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-10-20
Anticipated expiration: 2037-07-19
Also published as: CN107272785B

Abstract

本申请公开了机电设备及其控制方法、计算机可读介质。机电设备的控制方法包括：设定目标参数及机电设备中的操控对象；基于目标参数和操控对象，构建初始价值网络；根据机电设备的实际操控数据，对初始价值网络进行优化，得到状态动作价值网络；通过对状态动作价值网络进行强化学习，控制操控对象执行特定动作。该控制方法可以提高机电设备的控制效率。

Description

一种机电设备及其控制方法、计算机可读介质

技术领域

本发明涉及设备控制技术领域，具体涉及一种机电设备及其控制方法、计算机可读介质。

背景技术

在一些智能化建筑中，可以通过控制安装在建筑中的机电系统的运行状态，来实现为建筑用户提供舒适环境的目的。通常可以采用传统的PID(比例-积分-微分)或模糊控制等控制算法，对上述机电系统进行控制。针对具体的建筑或者房间，需要人为地调节上述控制算法中的大量控制参数，或者根据经验给定控制参数的经验值。在这种情况下，建筑机电系统的运行效果很大程度上取决于工程师经验的多寡或系统运维管理的好坏。

发明内容

有鉴于此,本发明提供一种机电设备及其控制方法、计算机可读介质，能够将深度学习和强化学习相结合来控制机电设备的自动运行，提高了机电设备的控制效率。

第一方面，本申请提供了一种机电设备的控制方法，该方法包括：

设定目标参数及所述机电设备中的操控对象；

基于所述目标参数和所述操控对象，构建初始价值网络；

根据所述机电设备的实际操控数据，对所述初始价值网络进行优化，得到状态动作价值网络；

通过对所述状态动作价值网络进行强化学习，控制所述操控对象执行特定动作。

可选地，所述基于所述目标参数和所述操控对象，构建初始价值网络包括：

从已有数据库获取历史案例的案例信息、历史操控数据和控制效果数据，其中，所述历史案例与所述机电设备具有相同的目标参数和操控对象；

基于所述历史操控数据，确定所述历史案例对应的历史价值网络；

对所述历史价值网络、历史操控数据、控制效果数据和所述案例信息进行深度学习，得到价值网络的分类库；

根据所述机电设备的操控对象和案例信息，从所述分类库中确定出所述初始价值网络。

可选地，所述案例信息包括：安装有所述机电设备的建筑类型，系统类型和所在地点的气候类型中的至少一项。

可选地，所述历史操控数据包括：所述历史案例在一实际运行时间段内的目标参数数值及对应的操控对象的动作空间；

所述基于所述历史操控数据，确定所述历史案例对应的历史价值网络包括：

对不同历史案例的所述历史操控数据分别应用贝尔曼方程，得到状态动作价值矩阵中的Q值；

基于所述目标参数和所述操控对象，构建第一价值网络；

训练所述第一价值网络拟和所述状态动作价值矩阵中的Q值，得到每个所述历史案例对应的历史价值网络。

基于所述目标参数和所述操控对象，构建第一价值网络；

将所述第一价值网络作为初始价值网络。

可选地，基于所述目标参数和所述操控对象，构建第一价值网络包括：

将所述目标参数的个数作为神经网络的输入量个数；

将所述操控对象能够对应的动作空间的个数作为所述神经网络的输出量个数；

随机初始化所述神经网络的全部参数，得到第一价值网络。

可选地，根据所述机电设备的实际操控数据，对所述初始价值网络进行优化，得到状态动作价值网络包括：

设定所述目标参数的目标值；

获取所述机电设备在一实际运行时间段内的目标参数的实际值以及对应的所述操控对象的动作空间；

将所述实际值与所述目标值的差值作为所述初始价值网络的状态量；

将所述状态量以及对应的动作空间输入所述初始价值网络和贝尔曼方程，得到第一Q值和第二Q值；

以减小所述第一Q值和第二Q值之差作为目标，对所述初始价值网络进行优化，得到所述状态动作价值网络。

可选地，所述以减小所述第一Q值和第二Q值之差作为目标，对所述初始价值网络进行优化，得到所述状态动作价值网络包括：

以减小所述第一Q值和第二Q值之差作为目标，对所述初始价值网络进行优化，得到优化后的初始价值网络；

将状态量以及对应的动作空间输入优化后的初始价值网络和贝尔曼方程，得到优化后的第一Q值和第二Q值；

若优化后的第一Q值和第二Q值之差小于设定的误差值，则将优化后的初始价值网络作为状态动作价值网络；

否则，将优化后的初始价值网络作为初始价值网络，再次进行优化。

可选地，通过对所述状态动作价值网络进行强化学习，控制所述操控对象执行特定动作包括：

通过Q学习中的Q现实和Q估计，对所述状态动作价值网络进行更新；

将所述目标参数当前的状态值输入更新后的状态动作价值网络，得到所述操控对象对应的不同动作空间的Q值；

根据所述最大Q值对应的动作空间，控制所述操控对象执行相应动作。

可选地，所述目标参数包括室内温度、室内湿度、室内二氧化碳含量和室内PM2.5指数中的至少一项；

所述机电设备中的操控对象包括：风盘开关、风盘档位、室内设定温度、新风机频率、送风温度、冷源供水温度及窗户开关中的至少一项。

第二方面，本申请提供了一种机电设备，该机电设备包括：

处理器；

存储器；以及

存储在所述存储器中的程序指令，该程序指令被处理器执行时，执行如上述第一方面保护的方法。

第三方面，本申请提供了一种计算机可读介质，存储有程序指令，该程序指令被处理器执行时，执行如上述第一方面保护的方法。

本申请提供的机电设备及其控制方法、计算机可读介质，可以首先设定要控制的目标参数及机电设备中的操控对象，然后利用机电设备的实际运行数据，对构建的初始价值网络进行优化，得到状态动作价值网络，最后通过对上述状态动作价值网络进行强化学习，控制上述操控对象执行特定动作。本申请通过将深度学习和强化学习相结合，并利用系统与环境的不断交互，能够自主学习多设备多目标系统的最优控制策略，提高了机电设备的控制效率，减少了设备功耗。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1示出了本申请一个实施例的机电设备的控制方法的流程图；

图2示出了本申请一个实施例的构建初始价值网络的方法的流程图；

图3示出了本申请一个实施例的构建第一价值网络的方法的流程图；

图4示出了本申请一个实施例的对初始价值网络进行优化的方法的流程图；

图5示出了本申请一个实施例的对状态动作价值网络进行强化学习的方法的流程图；

图6示出了本申请一个实施例的机电设备的结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

图1是本发明一个实施例的机电设备的控制方法的流程图。

如图1所示，在步骤101中，设定目标参数及机电设备中的操控对象。

在本实施例中，可以根据机电设备的具体功能和使用范围，来设定目标参数和机电设备中的操控对象。其中，操控对象可以是机电设备中能够被控制，以执行某些特定动作的装置或部件。当这些操控对象执行特定动作后，可以对上述目标参数产生影响，使其发生变化。

可选地，本实施例所涉及的机电设备可以安装在智能化建筑中。在本实施例的一个可选实现方式中，目标参数可以包括室内温度、室内湿度、室内二氧化碳含量和室内PM2.5指数中的至少一项。机电设备中的操控对象可以包括：风盘开关、风盘档位、室内设定温度、新风机频率、送风温度、冷源供水温度及窗户开关中的至少一项。通过控制这些操控对象的动作，可以改变目标参数。

需要说明的是，本实施例中操控对象的动作可以是一个具体的物理动作，例如，当操控对象是风盘开关时，其执行的动作可以包括打开风盘或关闭风盘；也可以是一个通过程序执行的非物理动作，例如，当操控对象是新风机频率时，其执行的动作可以是将新风机频率设定在某一范围内。对于不同类型的操控对象，可以具体设定动作内容，本申请对此不做限定。

在步骤102中，基于目标参数和操控对象，构建初始价值网络。

在设定目标参数和机电设备中的操控对象后，可以根据这二者构建一个价值神经网络，然后初始化价值网络参数。神经网络参数的初始化可以首先选择一个针对相同控制问题的现有神经网络模型的参数，就可以得到初始价值网络。

在步骤103中，根据机电设备的实际操控数据，对初始价值网络进行优化，得到状态动作价值网络。

在确定出初始价值网络后，可以首先获取机电设备在一段时间内的实际操控数据，即目标参数的实际值以及对应的操控对象的动作空间。其中，目标参数的实际值可以是指在某一时刻，各个目标参数的具体数值，而对应的操控对象的动作空间可以是指在该时刻各个操控对象的不同动作构成的动作空间。举例来说，目标参数的实际值可以是在t时刻，室内温度27℃、室内湿度60％，对应的操控对象的动作空间可以包括三个动作即风盘开关打开、风盘档位调为三档、送风温度设定为22℃。

具体地，在对初始价值网络进行优化时，可以利用现有技术中的各种优化方法对初始价值网络中的参数进行优化，以使其更符合机电设备的实际操控数据，从而得到状态动作价值网络。

在步骤104中，通过对状态动作价值网络进行强化学习，控制操控对象执行特定动作。

强化学习是一种机器学习方法，可以在不同的情景或者环境下学习采取不同的行动，以此来获得一个最佳的强化信号值。在强化学习中，通过强化信号只能知道在一个特定的事件中所采取的方案的实际效果是好还是坏。通过学习从环境状态到行为的映射，使得选择的行为能够获得环境最大的奖赏，即能够使外部环境对学习系统在某种意义下的评价或整个系统的运行性能最佳。

在本实施例中，通过对状态动作价值网络进行强化学习，可以确定在当前状态量下，控制操控对象执行不同动作时得到的实际效果。然后可以将实际效果最好的那一组动作，作为控制操控对象实际执行的特定动作。

本实施例提供的机电设备控制方法，可以首先设定要控制的目标参数及机电设备中的操控对象，然后利用机电设备的实际运行数据，对构建的初始价值网络进行优化，得到状态动作价值网络，最后通过对上述状态动作价值网络进行强化学习，控制上述操控对象执行特定动作。通过将深度学习和强化学习相结合，并利用系统与环境的不断交互，能够自主学习多设备多目标系统的最优控制策略，提高了机电设备的控制效率，减少了设备功耗。

图2是本申请一个实施例的构建初始价值网络的方法的流程图。

如图2所示，在步骤201中，从已有数据库获取历史案例的案例信息、历史操控数据和控制效果数据。

在本实施例中，如果已经存在之前的一些机电设备控制案例构成的数据库，则可以直接从该数据库中搜索上述目标参数和操控对象，以得到历史案例的案例信息、历史操控数据以及控制效果数据，其中，历史案例与机电设备具有相同的目标参数和操控对象。如果搜索出的符合条件的案例过多，还可以应用设计实验法选取具有代表性的案例集作为历史经验学习的数据集。控制效果数据可以用于表征控制目标的达成率，控制目标的达成率越高，说明控制效果越好。

在步骤202中，基于历史操控数据，确定历史案例对应的历史价值网络。

在本实施例中，得到历史案例的操控数据后，可以进一步对这些案例进行机器学习，以确定出每个历史案例所对应的历史价值网络。其中，历史操控数据可以包括：上述历史案例在一实际运行时间段内的目标参数数值及对应的操控对象的动作空间。

可选地，上述步骤202可以包括：将不同历史案例的历史操控数据分别应用贝尔曼方程，得到状态动作价值矩阵中的Q值；基于目标参数和操控对象，构建第一价值网络；训练第一价值网络拟和状态动作价值矩阵中的Q值，得到每个历史案例对应的历史价值网络。

具体地，可以将历史案例在一实际运行时间段内的目标参数数值及对应的操控对象的动作空间，输入贝尔曼方程，以计算状态动作价值矩阵中的Q值。贝尔曼方程如下式表示：

其中，x_t表示t时刻Q矩阵对应的状态集中最接近的状态；u_k表示t时刻选择的第几个动作空间；x_t+1,k表示下一时刻的状态；u′表示下一状态下的动作空间。α和γ分别是学习率和折扣因子。在本实施例中，目标参数数值可以作为状态，操控对象的动作空间可以作为状态下的动作空间。

同时，可以基于目标参数和操控对象，构建第一价值网络。具体可以参考图3，其示出了本申请一个实施例的构建第一价值网络的方法的流程图。

如图3所示，在步骤301中，将目标参数的个数作为神经网络的输入量个数。

在本实施例中，可以首先选择一个常用的神经网络，然后将目标参数的个数作为该神经网络的输入量的个数。

在步骤302中，将操控对象能够对应的动作空间的个数作为神经网络的输出量个数。

接着，统计每个操控对象能够执行的全部动作，得到全部操控对象能够对应的动作空间的总数量，然后将动作空间的总数量作为神经网络的输出量个数。

在步骤303中，随机初始化神经网络的全部参数，得到第一价值网络。

最后，对上述步骤中得到的神经网络中的所有参数进行随机初始化，就可以得到第一价值网络。

在通过图3中的方法得到第一价值网络后，可以对第一价值网络进行训练，使其拟和上述动作价值矩阵中的Q值，从而得到每个历史案例对应的历史价值网络。

在步骤203中，对历史价值网络、历史操控数据、控制效果数据和案例信息进行深度学习，得到价值网络的分类库。

在得到每个历史案例对应的历史价值网络后，可以利用机器学习中的深度学习方法，对历史价值网络、历史操控数据、控制效果数据和案例信息进行学习，从而得到价值网络的分类库。在该分类库中，可以以操控对象作为分类依据，保存每一类操控对象对应的多个历史价值网络。在一个分类库中，还可以进一步以案例信息为分类依据，划分出多个子库。

在步骤204中，根据机电设备的操控对象和案例信息，从分类库中确定出初始价值网络。

在本实施例中，得到价值网络的分类库后，可以在该分类库中检索机电设备的操控对象和案例信息，并将分类库中与机电设备的各项信息最为匹配，并且控制效果最好的一个历史价值网络确定为初始价值网络。例如，可以首先根据机电设备的操控对象，从上述分类库中确定出相匹配的一个案例库，然后从该案例库中确定出案例信息匹配的子库，最后从子库包括的多个价值网络中选择一个控制效果最好的，作为初始价值网络。

可选地，案例信息可以包括安装有机电设备的建筑类型，系统类型和所在地点的气候类型中的至少一项。其中，建筑类型可以包括私宅类型或办公类型，系统类型可以包括新风系统或中央空调系统，所在地点的气候类型可以包括热带气候或海洋性气候。通过案例信息的匹配，可以从历史数据库选择出与本申请要控制的机电设备的使用环境最相近的价值网络。

在本实施例的一个可选实现方式中，如果不存在历史案例构成的数据库，则可以直接将图3中得到第一价值网络作为初始价值网络。

本实施例提供的构建初始价值网络的方法，通过对历史控制案例的学习，可以得到一个更加符合机电设备实际控制需求的初始价值网络，为之后的设备控制提供了良好的控制基础。

图4示出了本申请一个实施例的对初始价值网络进行优化的方法的流程图。

如图4所示，在步骤401中，设定目标参数的目标值。

具体地，可以根据机电设备的实际控制需求来设定上述目标参数的目标值。例如，可以将室内温度的目标值设置为25℃。

在步骤402中，获取机电设备在一实际运行时间段内的目标参数的实际值以及对应的操控对象的动作空间。

在本实施例中，可以对机电设备的运行数据进行一段时间的积累，即可以对机电设备在一段实际运行时间段内的目标参数的实际值，以及对应的操控对象的动作空间进行记录。

在步骤403中，将实际值与目标值的差值作为初始价值网络的状态量。

在得到目标参数的实际值后，可以将实际值与目标值进行比较，然后将二者的差值作为上述初始价值网络的状态量。同时，可以将该实际值对应的动作空间，作为状态量对应的动作空间。

在步骤404中，将状态量以及对应的动作空间输入初始价值网络和贝尔曼方程，得到第一Q值和第二Q值。

具体地，将状态量以及对应的动作空间输入初始价值网络，可以计算得到第一Q值。同时，将状态量以及对应的动作空间输入贝尔曼方程，可以计算得到第二Q值。其中，贝尔曼方程的具体公式可以如上述步骤202中描述。

在步骤405中，以减小第一Q值和第二Q值之差作为目标，对初始价值网络进行优化，得到状态动作价值网络。

具体地，可以以减小第一Q值和第二Q值之差作为目标，应用反向传播和随机梯度下降法对上述初始价值网络进行优化更新，得到状态动作价值网络。

在本实施例的一个可选实现方式中，可以以减小第一Q值和第二Q值之差作为目标，对初始价值网络进行优化，得到优化后的初始价值网络；然后将状态量以及对应的动作空间输入优化后的初始价值网络和贝尔曼方程，得到优化后的第一Q值和第二Q值；若优化后的第一Q值和第二Q值之差小于设定的误差值，说明优化结果达到要求，可以直接将优化后的初始价值网络作为状态动作价值网络；否则，说明优化未达到要求，将优化后的初始价值网络作为初始价值网络，再次执行上述步骤403，重新计算第一Q值和第二Q值，并再次进行优化。

本实施例提供的对初始价值网络进行优化的方法，通过对机电设备实际运行数据的学习，可以对初始价值网络进行优化，使构建的网络模型更加符合实际设备情况。

图5示出了本申请一个实施例的对状态动作价值网络进行强化学习的方法的流程图。

如图5所示，在步骤501中，通过Q学习中的Q现实和Q估计，对状态动作价值网络进行更新。

Q学习是机器学习中的一种强化学习方法。具体地，可以随机选取历史库中的一个态动作价值网络对t+1时刻Q值进行估计，再用贝尔曼方程更新计算t时刻的Q值，得到Q现实。用当前的状态动作价值网络对t时刻的Q值进行估计，得到Q估计。然后根据Q现实和Q估计之差对当前状态动作价值网络进行更新。例如，可以将Q现实和Q估计之间的差距乘以一个学习效率系数，然后再加到当前的状态动作价值网络上，就可以实现对状态动作价值网络的更新。

在本实施例的一个可选实现方式中，在对状态动作价值网络进行更新后，还可以按时间顺序存储该更新后的状态动作价值网络。

在步骤502中，将目标参数当前的状态值输入更新后的状态动作价值网络，得到操控对象对应的不同动作空间的Q值。

在对状态动作价值网络进行更新后，可以利用最新的状态动作价值网络确定当前状态量对应的不同动作空间的Q值。其中，当前状态量是目标参数当前的状态值，不同动作空间由上述操控对象的不同动作组成。具体可以将目标参数当前的状态值输入最新的状态动作价值网络，以计算操控对象对应的不同动作空间的Q值。

在步骤503中，根据最大Q值对应的动作空间，控制操控对象执行相应动作。

在确定出不同动作空间的Q值后，可以首先将所有Q值进行排序，确定出最大Q值，然后控制操控对象执行该最大Q值对应的动作空间中的动作，以确保操控对象的动作能给目标参数带来最期望的影响。

本实施例提供的对状态动作价值网络进行强化学习的方法，可以使用Q学习方法对状态动作价值网络进行强化学习，在学习过程中不依赖于在先经验，在提高机电设备控制效率的同时，增强了机电设备的可靠性和适应性。

图6示出了本申请一个实施例的机电设备的结构示意图。如图6所示，本实施例的机电设备包括：处理器610和存储器620。

存储器620用于存储程序指令，处理器610可以耦合到存储器620，处理器610被配置为基于存储器620存储的指令执行如下步骤：

一种机电设备的控制方法，该方法包括：

设定目标参数及所述机电设备中的操控对象；

基于所述目标参数和所述操控对象，构建初始价值网络；

将不同历史案例的所述历史操控数据分别输入贝尔曼方程，得到动作价值矩阵中的Q值；

基于所述目标参数和所述操控对象，构建第一价值网络；

训练所述第一价值网络拟和所述动作价值矩阵中的Q值，得到每个所述历史案例对应的历史价值网络。

基于所述目标参数和所述操控对象，构建第一价值网络；

将所述第一价值网络作为初始价值网络。

将所述目标参数的个数作为神经网络的输入量个数；

随机初始化所述神经网络的全部参数，得到第一价值网络。

设定所述目标参数的目标值；

如图6所示，本实施例的机电设备还可以包括通信接口630和总线640。其中，通信接口630用于与其它设备(例如，外部数据库)进行信息交互。同时，处理器610、存储器620以及通信接口630通过总线640完成相互间的通信。

存储器620可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器620也可以是存储器阵列。存储器620还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器610可以是一个中央处理器CPU，或者可以是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其中计算机可读存储介质存储有程序指令，指令被处理器执行时实现如图1至图5中实施例涉及的方法。

本实施例提供的机电设备，可以首先设定要控制的目标参数及机电设备中的操控对象，然后利用机电设备的实际运行数据，对构建的初始价值网络进行优化，得到状态动作价值网络，最后通过对上述状态动作价值网络进行强化学习，控制上述操控对象执行特定动作。通过将深度学习和强化学习相结合，并利用系统与环境的不断交互，能够自主学习多设备多目标系统的最优控制策略，提高了机电设备的控制效率，减少了设备功耗。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种机电设备的控制方法，其特征在于，包括：

设定目标参数及所述机电设备中的操控对象；

基于所述目标参数和所述操控对象，构建初始价值网络；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标参数和所述操控对象，构建初始价值网络包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标参数和所述操控对象，构建初始价值网络包括：

基于所述目标参数和所述操控对象，构建第一价值网络；

将所述第一价值网络作为初始价值网络。

4.根据权利要求2所述的方法，其特征在于，基于所述目标参数和所述操控对象，构建第一价值网络包括：

将所述目标参数的个数作为神经网络的输入量个数；

随机初始化所述神经网络的全部参数，得到第一价值网络。

5.根据权利要求1所述的方法，其特征在于，根据所述机电设备的实际操控数据，对所述初始价值网络进行优化，得到状态动作价值网络包括：

设定所述目标参数的目标值；

6.根据权利要求6所述的方法，其特征在于，所述以减小所述第一Q值和第二Q值之差作为目标，对所述初始价值网络进行优化，得到所述状态动作价值网络：

7.根据权利要求1所述的方法，其特征在于，通过对所述状态动作价值网络进行强化学习，控制所述操控对象执行特定动作包括：

8.根据权利要求1所述的方法，其特征在于，所述目标参数包括室内温度、室内湿度、室内二氧化碳含量和室内PM2.5指数中的至少一项；

9.一种机电设备，其特征在于，包括：

处理器；

存储器；以及

存储在所述存储器中的程序指令，该程序指令被处理器执行时，执行如权利要求1-8中任一项所述的方法。

10.一种计算机可读介质，存储有程序指令，其特征在于，该程序指令被处理器执行时，执行如权利要求1-8中任一项所述的方法。