CN107315573B

CN107315573B - 建筑机电系统的控制方法、存储介质和终端设备

Info

Publication number: CN107315573B
Application number: CN201710592627.4A
Authority: CN
Inventors: 孙一凫; 吴若飒; 张豪; 王宗祥
Original assignee: Beijing Saga Cloud Technology Co ltd
Current assignee: Beijing Saga Cloud Technology Co ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2020-06-16
Anticipated expiration: 2037-07-19
Also published as: CN107315573A

Abstract

本申请提供了一种建筑机电系统的控制方法、存储介质和终端设备，该方法包括：获取传感器的第一数据并根据所述第一数据和预设目标数据确定第一状态；将第一状态输入价值函数，得到第一状态对应的动作；获取动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数。对价值函数进行强化学习，使得根据该价值函数选择动作而达到的控制效果得到改善。

Description

建筑机电系统的控制方法、存储介质和终端设备

技术领域

本申请涉及建筑机电系统的控制技术领域，尤其涉及一种建筑机电系统的控制方法、存储介质和终端设备。

背景技术

建筑机电系统设备是建筑物中不可缺少的重要组成部分，包括工业建筑、民用建筑、公用建筑中的给排水、电气、采暖、通风、消防、通信及自动化控制等。

现代建筑机电系统设备通常采用传统的比例-积分-微分(PID)控制或模糊控制等算法，其扩展性较弱，针对具体的建筑或者房间需要人为调节大量参数或者根据经验设定经验值。而且最终达到的控制效果也较为粗略，能耗较高。

发明内容

有鉴于此，本申请实施例提供了一种建筑机电系统的控制方法、存储介质和终端设备，用以解决现有技术中建筑机电系统的自动控制效果粗略、精度过低，更多依赖人为经验的技术问题。

根据本申请实施例的一个方面，提供了一种建筑机电系统的控制方法，获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；将第一状态输入价值函数，得到第一状态对应的动作；获取动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；利用所述第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数。

根据本申请实施例的另一方面，提供了一种终端设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行本申请实施例提供的建筑机电系统的控制方法。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述建筑机电系统的控制方法的步骤。

本申请实施例的有益效果包括：根据所选择动作的实际执行效果来更新价值函数，使得根据该价值函数选择动作而达到的控制效果得到改善。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本申请实施例提供的建筑机电系统的控制方法的流程示意图；

图2是本申请实施例提供的建筑机电系统的控制方法的流程示意图；

图3是本申请实施例提供的建筑机电系统的控制方法的流程示意图；

图4是本申请实施例提供的建筑机电系统的控制方法的流程示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例中价值函数用于反映状态、动作和价值之间的对应关系，利用价值函数和当前状态选择出最能达到控制目标的动作并执行，执行该动作之后根据实测结果确定所处的下一状态，根据所选择动作的实际执行效果来更新价值函数，使得根据该价值函数选择动作而达到的控制效果会越来越好。

图1是本申请实施例提供的建筑机电系统的控制方法，适用于终端设备，终端设备可以是计算机、控制台、服务器等，该方法包括以下步骤。

S10，获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；

S11，将第一状态输入价值函数，得到第一状态对应的动作；

S12，获取该动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；

S13，利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数。

其中，第二数据是在第一状态下执行所选择的动作之后，通过传感器实测得到的数据，可视为是在第一数据所处时间点的下一个时间点获取到的数据。

通过传感器采集的数据可以是建筑物内部的环境参数、供电供水参数、管道及设备运行等数据。针对各项数据可预先设置要达到的目标值，从而达到对建筑物内部状态的管控。

价值函数用来反映状态、动作和价值之间的对应关系。如果一个状态包括多种数据变量，则通过穷举该多个数据变量的所有组合来定义整个状态空间；如果一个动作包括多个被控制量，则穷举多个被控制量的所有组合来定义整个动作空间；价值是指在每个状态下对于执行每个动作所对应的好处，价值越大，表示在该状态下执行该动作的效果越好，越有助于达到预设控制目标。

得到第一状态执行动作的价值和第二状态对应的所有动作的价值后，根据预设算法来更新价值函数。如果执行第一状态的对应动作使第二状态比第一状态更接近目标状态则会向价值函数形成正反馈，例如增加在第一状态下选择该动作的权重，如果执行第一状态的对应动作使第二状态比第一状态更远离目标状态则会向价值函数形成负反馈。通过更新价值函数使根据该价值函数确定的动作所达到控制效果会越来越好。

在本申请实施例中，价值函数可以是Q值矩阵、在线逼近函数和离线逼近函数等，下面通过不同实施例分别进行说明。

在一个实施例中，利用Q值矩阵来描述离散的状态和动作对应的价值。首先为Q值矩阵预定义状态空间X和动作空间U。然后，初始化回报函数。设置建筑物内部各项指标变量(例如，环境指标、供电指标、供水指标等)的目标值。计算每一指标的当前值与目标值之间的距离并取反后作为对应状态的回报值：

r(y)＝-(y₁-y₁₀)²-(y₂-y₂₀)²-(y₃-y₃₀)².......；其中，r(x)代表回报值，y₁、y₂、y₃……代表各项指标变量的当前值，y₁₀、y₂₀、y₃₀……代表各项指标变量的目标值。

在初始化的Q值矩阵中，Q值矩阵的“行”代表状态空间X中的所有状态，“列”代表动作空间U中的所有动作，初始化的Q值矩阵中某一行的所有Q值为这一状态分别执行每个动作所对应的回报值。

本实施例的建筑机电系统的控制方法如图2所示，包括以下步骤。

S20，获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；

S21，将第一状态输入Q值矩阵，得到第一状态对应的动作；

S22，从传感器获取该动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；

S23，利用第一状态执行动作的价值和第二状态对应的所有动作的Q值和回报值实时更新Q值矩阵。

根据执行后的第二状态实时调整Q值矩阵，在强化学习的过程中实时更新Q值矩阵中的数值。

可基于贝尔曼方程实时更新Q值矩阵，该方程如下：

其中，x_k代表k时间点Q值矩阵的状态空间中最接近的状态，即第一状态；u_k代表k时间点选择执行的动作；x_k+1代表下一时间点的状态，即第二状态；u′代表第二状态下的动作空间，α和γ分别代表学习率和折扣因子，r_k+1代表第二状态的回报值。那么，Q_k(x_k,u_k)代表在k时间点第一状态x_k下执行动作u_k的价值，Q_k+1(x_k,u_k)代表在k+1时间点第一状态x_k下执行动作u_k的价值，即在k+1时间点更新了第一状态x_k下执行动作u_k所对应的Q值，达到实时更新Q值矩阵的效果，使通过该Q值矩阵达到的控制效果得到进一步改善。

在一个实施例中，在状态空间较为连续，离散化后得到的Q值矩阵过大的情况下，可以通过函数逼近法找到存储下来的状态、动作与Q值之间的对应关系。函数逼近法有很好的泛化能力，即使针对环境中没有遇到的状态也能进行预测和归纳。本实施例的建筑机电系统的控制方法如图3所示，包括以下步骤。

S30，获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；

S31，将第一状态输入在线逼近函数，得到各动作对应的Q值，再根据Q值的大小确定执行的动作；

S32，从传感器获取该动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；

S33，根据第一状态及执行的动作、第二状态及对应的所有动作的Q值和回报值实时更新在线逼近函数。

为了构建在线逼近函数，用一个N维的参数向量θ来表示状态、动作与Q值之间的映射关系。

构建在线逼近函数

其中φ₁.....φ_n是与状态相关的特征基函数。基函数的选取可以是多样的，例如，高斯径向基函数(RBF)或者用隶属度函数(Degree of Membership Function)对状态进行模糊划分。

在确定执行的动作执行完毕并根据实测数据确定第二状态后，利用第一状态、执行的动作、第二状态及其对应的所有动作的Q值和回报值实时更新参数向量θ；

在k+1时间点参数向量θ得到实时更新，在线逼近函数[F(θ)](x,u)也得到了实时更新，使通过在线逼近函数达到的控制效果得到进一步改善。

在一个实施例中，由于实时更新在线逼近函数需要很长时间才能得到最优化的在线逼近函数。因此可以先采集预设数量(如1000个时间点)的数据，利用这些数据拟合逼近函数，进行类似离线的函数逼近，而且通过迭代使其快速收敛。拟合方法可以采用最小二乘法或者神经网络等方法。本实施例的建筑机电系统的控制方法如图4所示，包括以下步骤。

S40，积累预设数量的训练数据，训练数据包括各时间点的状态与执行的动作之间的对应关系；

S41，获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；

S42，将第一状态输入离线逼近函数，得到第一状态对应的动作；

S43，获取该动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；

S44，根据第一状态时间点的Q值和离线逼近函数得到第二状态时间点的Q值；

S45，利用第一状态及执行的动作、第二状态以及回报值更新参数向量θ，使离线逼近函数得到更新，重复上述S41至S44直到参数向量θ满足预设的迭代停止条件。

本实施例中第一数据和第二数据都属于积累的训练数据，第二数据是按照时间顺序在第一数据之后获取到的下一组数据。

本实施例同样需要通过一个N维的参数向量θ来构建离线逼近函数F(θ)。根据第一状态时间点的Q值和离线逼近函数得到第二状态时间点的Q值时，

其中，x_ls+1表示ls+1时间点的状态；u′表示ls+1时间点的动作空间；F(θ_l)是基于参数向量θ_l的离线逼近函数；l是更新迭代的轮数；γ是折扣因子；r_ls是每个时间点的回报值。

参数向量θ的更新方式与上一实施例类似，利用第一状态、执行的动作、第二状态以及回报值更新参数向量θ，从而更新离线逼近函数。继续使用下一组训练数据进行更新，例如通过训练数据中第二状态与第三状态对应的数据继续更新参数向量θ和离线逼近函数，直到所有积累的训练数据被离线逼近函数学习完毕，或者参数向量θ满足预设的迭代停止条件时为止。

预设的停止迭代条件为

当对第l轮该离线逼近函数计算的Q值与l+1轮计算的Q值之差的平方求和并取最小值时的θ如果足够接近(例如小于或等于预设门限)第l+1轮时的θ，则判定迭代结束。

将迭代结束后(即经过大量历史数据训练)的离线逼近函数用于建筑机电系统的实时控制，能够使控制效果得到改善。在积累得到预设数量的下一批训练数据后，可继续对离线逼近函数进行离线训练，使离线逼近函数的实时性更强。

此外，本申请实施例中，终端设备可以通过硬件处理器(hardware processor)来实现上述各个功能步骤。终端设备包括：处理器，用于存储处理器可执行指令的存储器；其中，处理器被配置为：获取传感器的第一数据并根据第一数据和预设目标数据确定第一状态；将第一状态输入价值函数，得到第一状态对应的动作；获取动作执行完毕后的第二数据并根据第二数据和预设目标数据确定第二状态；利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数。

在一个实施例中，利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数包括：利用第一状态执行动作的价值和第二状态对应的所有动作的Q值和回报值实时更新Q值矩阵。

在一个实施例中，利用第一状态执行动作的价值和第二状态对应的所有动作的Q值和回报值包括：

基于贝尔曼方程实时更新Q值矩阵，

其中，x_k代表k时间点Q值矩阵的状态空间中最接近的状态，即第一状态；u_k代表k时间点选择执行的动作；x_k+1代表下一时间点的状态，即第二状态；u′代表第二状态下的动作空间，α和γ分别代表学习率和折扣因子，r_k+1代表第二状态的回报值。

在一个实施例中，利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数包括：

根据第一状态及执行的动作、第二状态及对应的所有动作的Q值和回报值实时更新在线逼近函数。

在一个实施例中，根据第一状态及执行的动作、第二状态及对应的所有动作的Q值和回报值实时更新在线逼近函数包括：

预设N维的参数向量θ来表示状态、动作与Q值之间的映射关系并构建在线逼近函数

其中φ₁.....φ_n是与状态相关的特征基函数；

利用第一状态、执行的动作、第二状态以及回报值实时更新参数向量θ，从而使在线逼近函数得到实时更新，其中，

在一个实施例中，该处理器进一步被配置为：

积累预设数量的训练数据，训练数据包括各时间点的状态与执行的动作之间的对应关系；

利用第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数包括：

根据当前时间点的Q值和离线逼近函数得到下一时间点的Q值；

利用当前时间点的状态及执行的动作、下一时间点的状态以及回报值更新参数向量θ，使离线逼近函数得到更新，直到参数向量θ满足预设的迭代停止条件。

在一个实施例中，根据当前时间点的Q值和离线逼近函数得到下一时间点的Q值包括：

每个时间点的Q值

其中，x_ls+1表示ls+1时间点的状态；u′表示ls+1时间点的动作空间；F(θ_l)是基于参数向量θ_l的离线逼近函数；l是更新迭代的轮数；γ是折扣因子；r_ls是每个时间点的回报值；

预设的迭代停止条件为：

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种建筑机电系统的控制方法，其特征在于，所述方法包括：

获取传感器的第一数据并根据所述第一数据和预设目标数据确定第一状态；

将所述第一状态输入价值函数，得到所述第一状态对应的动作；

获取所述动作执行完毕后的第二数据并根据所述第二数据和预设目标数据确定第二状态；

利用所述第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数，所述第一状态和所述第二状态为连续状态或者离散状态；

其中，所述利用所述第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数包括：

响应于所述第一状态和所述第二状态为连续状态，根据第一状态及执行的动作、第二状态及对应的所有动作的Q值和回报值实时更新在线逼近函数，其中，所述Q值为状态空间中的任一状态下分别执行动作空间中任一动作所对应的回报值；

响应于所述第一状态和所述第二状态为离散状态，利用所述第一状态执行动作和第二状态对应的所有动作的Q值和回报值实时更新Q值矩阵；

其中，根据第一状态及执行的动作、第二状态及对应的所有动作的Q值和回报值实时更新在线逼近函数包括：

预设n维的参数向量θ来表示状态x、动作u与Q值之间的映射关系并构建在线逼近函数

其中φ₁.....φ_n是与状态x相关的特征基函数，φ^T表示特征基函数的转置；

利用第一状态、执行的动作、第二状态以及回报值实时更新参数向量θ，从而使所述在线逼近函数得到实时更新，其中，

其中，θ_k表示k时间点的参数向量，θ_k+1表示k+1时间点的参数向量，x_k表示第一状态，x_k+1表示第二状态，u′表示第二状态下的动作空间，α_k表示学习率，γ表示折扣因子，r_k+1表示第二状态的回报值；

利用所述第一状态执行动作和第二状态对应的所有动作的Q值和回报值实时更新Q值矩阵包括：

基于贝尔曼方程实时更新Q值矩阵，

其中，x_k代表k时间点Q值矩阵的状态空间中最接近的状态，即第一状态；u_k代表k时间点选择执行的动作；x_k+1代表下一时间点的状态，即第二状态；u′代表第二状态下的动作空间，α_k和γ分别代表学习率和折扣因子，r_k+1代表第二状态的回报值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

积累预设数量的训练数据，所述训练数据包括各时间点的状态与执行的动作之间的对应关系；

利用所述第一状态执行动作的价值和第二状态对应的所有动作的价值更新价值函数包括：

根据当前时间点的Q值和离线逼近函数得到下一时间点的Q值，

利用当前时间点的状态及执行的动作、下一时间点的状态以及回报值更新参数向量θ，使所述离线逼近函数得到更新，直到参数向量θ满足预设的迭代停止条件。

3.根据权利要求2所述的方法，其特征在于，根据当前时间点的Q值和离线逼近函数得到下一时间点的Q值包括：

每个时间点的Q值

所述预设的迭代停止条件为：

4.一种终端设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-3任意一项所述的建筑机电系统的控制方法。

5.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-3任意一项所述建筑机电系统的控制方法的步骤。