CN107367929A

CN107367929A - 更新q值矩阵的方法、存储介质和终端设备

Info

Publication number: CN107367929A
Application number: CN201710591451.0A
Authority: CN
Inventors: 孙凫; 孙一凫; 吴若飒; 张豪; 王宗祥
Original assignee: Beijing Geyun Technology Co Ltd
Current assignee: Beijing Geyun Technology Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-11-21
Anticipated expiration: 2037-07-19
Also published as: CN107367929B

Abstract

本申请提供了一种更新Q值矩阵的方法、存储介质和终端设备，该方法包括：获取传感器数据并确定在Q值矩阵中对应的第一状态；将第一状态输入神经网络，预测在第一状态下遍历Q值矩阵中所有动作之后分别得到的在Q值矩阵中对应的第二状态；根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值。提高了Q值矩阵的更新效率，有助于对建筑机电设备或系统更快找到最优的控制策略。

Description

更新Q值矩阵的方法、存储介质和终端设备

技术领域

本申请涉及建筑机电系统的控制技术领域，尤其涉及一种更新Q值矩阵的方法、存储介质和终端设备。

背景技术

现代建筑机电系统设备通常采用传统的比例-积分-微分(PID)控制或模糊控制等算法，其扩展性较弱，针对具体的建筑或者房间需要人为调节大量参数或者根据经验设定经验值。而且最终达到的控制效果也较为粗略，能耗较高。

在强化学习领域中有一种经典的Q学习(Q-Learning)算法，Q值表示每个状态下对于执行每个动作所对应的价值，某一状态-动作的Q值越大，表示在该状态下执行该动作达到的效果越好。因此Q-Learning算法的核心是更新Q矩阵，传统Q-Learning算法一次只能更新其中一个Q值，更新Q矩阵需要付出大量的搜索代价才能得到收敛。

发明内容

有鉴于此，本申请实施例提供了一种更新Q值矩阵的方法、存储介质和终端设备，用以解决现有技术中传统Q-Learning算法在实际应用中迭代效率低而影响得到建筑机电设备最优控制策略的时间。

根据本申请实施例的一个方面，提供了一种更新Q值矩阵的方法，所述方法包括：获取传感器数据并确定在Q值矩阵中对应的第一状态；将第一状态输入神经网络，预测在第一状态下遍历Q值矩阵中所有动作之后分别得到的在Q值矩阵中对应的第二状态；根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值。

根据本申请实施例的另一方面，提供了一种终端设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取传感器数据并确定在Q值矩阵中对应的第一状态；将第一状态输入神经网络，预测在第一状态下遍历所述Q值矩阵中所有动作之后分别得到的在Q值矩阵中对应的第二状态；根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述更新Q值矩阵的方法的步骤。

本申请实施例的有益效果包括：利用经过训练的神经网络，每进行一次预测和计算即能够更新Q值矩阵中一整行的Q值，从而提高了Q值矩阵的更新效率，有助于对建筑机电设备或系统更快找到最优的控制策略。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本申请实施例提供的更新Q值矩阵的方法的流程示意图；

图2是本申请实施例提供的更新Q值矩阵的方法的流程示意图；

图3是本申请实施例神经网络的结构示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例基于神经网络预测在第一状态下分别执行Q值矩阵中的所有动作后得到的多个第二状态，再根据第一状态和多个第二状态下所有动作在Q值矩阵中对应的Q值更新该第一状态下所有动作对应的Q值，从而使第一状态下所有动作对应的Q值同时得到更新，提升了Q值矩阵迭代更新的效率，有助于对建筑机电设备或系统更快找到最优的控制策略，使建筑物内部的各项指标尽快达到目标状态。

首先为Q值矩阵预定义状态空间和动作空间。将要监测的状态量离散化生成状态空间X，如果一个状态包括多种变量，则通过穷举多个变量的所有组合来定义状态空间X；如果一个动作包括多个被控制量，则穷举多个被控制量的所有组合来定义动作空间U。

然后，初始化回报函数。设置建筑物内部各项指标变量(例如，环境指标、供电指标、供水指标等)的目标值。那么，计算每一指标的当前值与目标值之间的距离并取反后作为对应状态的回报值：

r(y)＝-(y₁-y₁₀)²-(y₂-y₂₀)²-(y₃-y₃₀)².......；其中，r(y)代表回报值，y₁、y₂、y₃……代表各项指标变量的当前值，y₁₀、y₂₀、y₃₀……代表各项指标变量的目标值。

在初始化的Q值矩阵中，Q值矩阵的行代表状态空间X中的所有状态，列代表动作空间U中的所有动作，初始化的Q值矩阵中某一行的所有Q值均为这一状态对应的回报值。

获取传感器采集的建筑物内部的各项指标数据，根据获取到的各项指标数据确定建筑物内部各时间点所处的状态。相应的，根据各时间点执行的用来调整各项指标的自动控制指令确定各时间点的动作。将每个时间点的状态和动作建立对应关系，获取到预设数量(例如1000个时间点)的上述数据之后，利用经过训练的神经网络对Q值矩阵中的Q值进行更新，更新方法如图1所示。

S10，获取传感器数据并确定在Q值矩阵中对应的第一状态。

根据获取到的传感器数据确定建筑物在一个时间点的各项指标数据，并根据各项指标数据进一步确定建筑物在该时间点所处的状态。可以将与状态空间中最为接近的状态近似为该时间点所处的状态。

S11，将第一状态输入神经网络，预测在第一状态下遍历Q值矩阵中所有动作之后分别得到的在Q值矩阵中对应的第二状态。

该神经网络是经过历史数据训练得到的时间序列神经网络，用于根据输入的当前时刻状态和所执行的控制动作来预测下一时刻的状态。将第一状态输入神经网络后，通过遍历动作空间中的所有动作来预测可能出现的下一状态。假设当前状态为x₁，动作空间中所有动作分别为u₁、u₂……u_n，则通过神经网络预测在x₁状态下分别执行u₁、u₂……u_n等动作后得到的多个对应的下一状态。

S12，根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值。

得到预测的多个第二状态后，便可以通过Q值矩阵确定每个第二状态下的所有动作分别对应的Q值，再结合第一状态下的所有动作分别对应的Q值，并根据预设算法来更新第一状态下的所有动作分别对应的Q值。在预设算法中可设置每个动作所对应的Q值的权重因子、折扣因子等参数，根据计算结果将第一状态下的所有动作分别对应的Q值(即Q值矩阵中第一状态所代表的一整行的Q值)同时进行更新。

将获取到的历史数据按照时间顺序输入神经网络，每输入一个状态便能够更新Q值矩阵中对应的一整行Q值，直到所有获取到的历史数据被利用完毕时，结束Q值矩阵的更新。本实施例中，利用经过训练的神经网络，每进行一次预测和计算即能够更新Q值矩阵中一整行的Q值，从而提高了Q值矩阵的更新效率，有助于快速得到较好的建筑机电设备的控制策略。

在一个实施例中，按照预设算法更新第一状态下的所有动作分别对应的Q值时，可利用贝尔曼方程进行更新，即：

其中，Q_t(x_t,u_k)代表t时间点的第一状态x_t下的执行动作u_k所对应的Q值；u'代表第二状态x_t+1,k下的动作空间，Q(x_t+1,k,u')代表t+1时间点执行动作空间u'中第k个动作所对应的Q值；r_t+1代表第二状态x_t+1,k的回报值；γ代表折扣因子；α代表学习率。

利用上述贝尔曼方程对第一状态x_t下的所有动作分别对应的Q值同时进行计算并更新。其中α可以被初始化配置为0.1，γ可以被初始化配置为0.9。

利用更新后的Q值矩阵能够确定当前状态的下一步最优控制动作，如图2所示，该方法进一步包括以下步骤。

S13，获取当前传感器数据并确定在更新后的Q值矩阵中对应的当前状态。

S14，从更新后的Q值矩阵中选取当前状态下的所有动作中Q值最大的动作并执行。

当前状态下Q值最大的动作可以被视为当前状态下最优的控制动作。将该时间点的当前传感器数据以及选取的最优控制动作对应保存，当积累的数据数量达到预设门限时(例如1000个时间点)，则可以利用积累的数据继续更新Q值矩阵，更新的过程如前文所述，不再重复说明。

本申请实施例所使用的神经网络构造如图3所示，图3是MATLAB仿真环境下的神经网络结构示意图，两个输入节点分别用于输入状态量X(t)和动作量U(t)，并将数据输入隐藏层。隐藏层为状态量和动作量分别设置了对应的权重矩阵和偏置，配置的节点数可以为10个。输出节点用于输出当前时间点t的下一时间点t+1的预测状态量X(t+1)。该神经网路输入数据的延迟被配置为2，代表神经网络输入为给定时间点的数据和上一个时间点的数据，即训练的输入数据为t时间点和t-1时间点的状态和动作，输出为t+1时间点的状态，训练算法可采用列文伯格-马夸尔特(levenberg-marquardt)算法。

利用状态与动作对应保存的历史数据来训练该神经网络时，将当前时间点t以及上一时间点t-1的状态和动作输入神经网络，神经网络输出下一时间点t+1的预测状态。将该预测状态与历史数据中下一时间点t+1的实际状态进行比较，利用预测状态与实际状态之间的误差来调整神经网络的权重矩阵和偏置，应用神经网络的反向传播算法来进行训练。

当预测状态与实际状态之间误差满足停止迭代的条件时，完成对该神经网络的训练。

利用更新后的Q值矩阵确定下一步执行的动作后，将当前状态与确定的动作对应保存。当积累的数据数量达到预设门限后，除了可以用来继续更新Q值矩阵以外，还可以用来训练该神经网络使准确度更高、时效性更强。

此外，本申请实施例中，终端设备可以通过硬件处理器(hardware processor)来实现上述各个功能步骤。终端设备包括：处理器，用于存储处理器可执行指令的存储器；其中，处理器被配置为：获取传感器数据并确定在Q值矩阵中对应的第一状态；将第一状态输入神经网络，预测在第一状态下遍历所述Q值矩阵中所有动作之后分别得到的在Q值矩阵中对应的第二状态；根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值。

在一个实施例中，根据第一状态和第二状态下所有动作对应的Q值，按照预设算法更新第一状态下的所有动作所对应的Q值包括：

根据贝尔曼方程更新第一状态下的所有动作所对应的Q值，

在一个实施例中，该处理器进一步被配置为：获取当前传感器数据并确定在Q值矩阵中对应的当前状态；从Q值矩阵中确定当前状态下的所有动作中Q值最大的动作并执行。

在一个实施例中，该处理器进一步被配置为：当当前传感器数据的积累数量达到预设门限时，根据积累的当前传感器数据更新Q值矩阵。

在一个实施例中，该处理器进一步被配置为：将历史状态及其对应执行的动作作为训练数据来训练神经网络。

在一个实施例中，将历史状态及其对应执行的动作作为训练数据来训练神经网络包括：将当前时间点t以及上一时间点t-1的状态和动作作为神经网络的输入，神经网络的输出为下一时间点t+1的预测状态；根据预设状态与下一时间点t+1的实际状态之间的误差来调整神经网络的权重矩阵和偏置。

在一个实施例中，状态包括多个变量，Q值矩阵的状态空间通过穷举多个变量的所有组合来定义；和/或，动作包括多个被控制量，Q值矩阵的动作空间通过穷举多个被控制量的所有组合来定义。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种更新Q值矩阵的方法，其特征在于，所述方法包括：

获取传感器数据并确定在Q值矩阵中对应的第一状态；

将所述第一状态输入神经网络，预测在所述第一状态下遍历所述Q值矩阵中所有动作之后分别得到的在所述Q值矩阵中对应的第二状态；

根据所述第一状态和第二状态下所有动作对应的Q值，按照预设算法更新所述第一状态下的所有动作所对应的Q值。

2.根据权利要求1所述的方法，其特征在于，根据所述第一状态和第二状态下所有动作对应的Q值，按照预设算法更新所述第一状态下的所有动作所对应的Q值包括：

根据贝尔曼方程更新所述第一状态下的所有动作所对应的Q值，

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <msub> <mi>r</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mi>&gamma;</mi> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <msup> <mi>u</mi> <mo>&prime;</mo> </msup> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msup> <mi>u</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>Q</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取当前传感器数据并确定在所述Q值矩阵中对应的当前状态；

从所述Q值矩阵中确定所述当前状态下的所有动作中Q值最大的动作并执行。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述当前传感器数据的积累数量达到预设门限时，根据积累的当前传感器数据更新所述Q值矩阵。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将历史状态及其对应执行的动作作为训练数据来训练所述神经网络。

6.根据权利要求5所述的方法，其特征在于，将历史状态及其对应执行的动作作为训练数据来训练所述神经网络包括：

将当前时间点t以及上一时间点t-1的状态和动作作为所述神经网络的输入，所述神经网络的输出为下一时间点t+1的预测状态；

根据所述预设状态与下一时间点t+1的实际状态之间的误差来调整所述神经网络的权重矩阵和偏置。

7.根据权利要求1所述的方法，其特征在于，所述状态包括多个变量，所述Q值矩阵的状态空间通过穷举所述多个变量的所有组合来定义；和/或，

所述动作包括多个被控制量，所述Q值矩阵的动作空间通过穷举所述多个被控制量的所有组合来定义。

8.一种终端设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：获取传感器数据并确定在Q值矩阵中对应的第一状态；

9.根据权利要求8所述的终端设备，其特征在于，根据所述第一状态和第二状态下所有动作对应的Q值，按照预设算法更新所述第一状态下的所有动作所对应的Q值包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7所述更新Q值矩阵的方法的步骤。