CN110781969B

CN110781969B - 基于深度强化学习的空调风量控制方法、装置以及介质

Info

Publication number: CN110781969B
Application number: CN201911040834.4A
Authority: CN
Inventors: 陈满金; 王琰; 刘明洪; 谢勇; 黄海; 吴永辉; 吴忠云; 张可洲; 杨清水
Original assignee: Xiamen University of Technology; Longyan Tobacco Industry Co Ltd
Current assignee: Xiamen University of Technology; Longyan Tobacco Industry Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-06-23
Anticipated expiration: 2039-10-30
Also published as: CN110781969A

Abstract

本公开提供了一种基于深度强化学习的空调风量控制方法、装置以及存储介质，其中的方法包括：建立状态预测模型，使用状态预测模型获得外界预测状态；根据外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对长期回报值预测网络模型的参数θ进行调整；通过长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；本公开的方法、装置以及存储介质，能够对卷烟企业空调进行自动控制，实现损失最小化，可以提高空调温湿度预测的准确率和空调开关切换的稳定性，能够实现节能降耗，能够减少企业的成本并提高产品质量。

Description

基于深度强化学习的空调风量控制方法、装置以及介质

技术领域

本发明涉及烟草自动化控制技术领域，尤其涉及一种基于深度强化学习的空调风量控制方法、装置以及存储介质。

背景技术

卷烟企业所用空调多是变风量空调，其原理是固定送风温度，通过改变风量以满足室内的温湿度需求。卷烟企业的卷接包车间需要恒温恒湿环境，温度要求20±2℃，湿度60±5％RH。动力车间为了满足卷接包车间的环境工艺要求，操作工作人员根据温湿度采集数据进行空调的开启，这样容易造成卷接包车间的工艺环境波动大，过度开启空调数量也会造成能源浪费。

发明内容

有鉴于此，本发明要解决的一个技术问题是提供一种基于深度强化学习的空调风量控制方法、装置以及存储介质。

根据本公开的一个方面，提供一种基于深度强化学习的空调风量控制方法，包括：建立状态预测模型，使用所述状态预测模型获得外界预测状态；其中，所述外界预测状态包括：新风温湿度和室内温湿度；根据所述外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对所述长期回报值预测网络模型的参数θ进行调整；通过所述长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；其中，所述当前状态包括：环境状态和对应的空调执行行动。

可选地，所述根据所述外界预测状态生成训练样本包括：根据所述外界预测状态生成所述环境状态；其中，所述环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt，所述空调状态Ct为当前空调是开或关的状态，所述外界状态Ot为新风温湿度与室内温湿度的差值，所述偏离状态Dt为预定温湿度与室内温湿度之间的差值；获得t时刻的状态St；其中，所述St包括多个所述环境状态和对应的空调执行行动；将所述St作为所述长期回报值预测网络模型的输入，得到在所述St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为在t时刻的所述长期回报值预测网络模型的参数；根据所述at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池。

可选地，所述基于训练样本对长期回报值预测网络模型进行训练包括：随机从所述训练样本池中获得M个样本，将所述M个样本中的每个样本的所述St+1作为所述长期回报值预测网络模型的输入，得到在所述St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的所述长期回报值预测网络模型的参数；基于在所述St下的Q值和在所述St+1下的Q值，对所述长期回报值预测网络模型的参数θ进行迭代调整。

可选地，所述基于在所述St下的Q值和在所述St+1下的Q值，对所述长期回报值预测网络模型的参数θ进行迭代调整包括：确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在所述St下的当前动作回报，γ是折扣系数；确定所述目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新所述长期回报值预测网络模型的参数θ。

可选地，确定与温湿度相对误差相对应的第一损失函数Le；确定与空调开关切换频率相对应的第二损失函数Ls；基于所述第一损失函数Le和所述第二损失函数Ls获得所述回报函数；根据所述回报函数计算所述rt。

可选地，所述空调执行行动包括：空调维持不变、空调由关闭转为开启、空调由开启转为关闭；所述状态预测模型包括：第一神经网络模型；所述长期回报值预测网络模型包括：第二神经网络模型。

根据本公开的一个方面，提供一种基于深度强化学习的空调风量控制装置，包括：状态预测模块，用于建立状态预测模型，使用所述状态预测模型获得外界预测状态；其中，所述外界预测状态包括：新风温湿度和室内温湿度；模型训练模块，用于根据所述外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对所述长期回报值预测网络模型的参数θ进行调整；动作预测模块，用于通过所述长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；其中，所述当前状态包括：环境状态和对应的空调执行行动。

可选地，所述模型训练模块，包括：训练样本建立单元，用于根据所述外界预测状态生成所述环境状态；其中，所述环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt，所述空调状态Ct为当前空调是开或关的状态，所述外界状态Ot为新风温湿度与室内温湿度的差值，所述偏离状态Dt为预定温湿度与室内温湿度之间的差值；获得t时刻的状态St；其中，所述St包括多个所述环境状态和对应的空调执行行动；将所述St作为所述长期回报值预测网络模型的输入，得到在所述St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为所述长期回报值预测网络模型的参数；根据所述at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池。

可选地，所述模型训练模块，包括：模型参数调整单元，用于随机从所述训练样本池中获得M个样本，将所述M个样本中的每个样本的所述St+1作为所述长期回报值预测网络模型的输入，得到在所述St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的所述长期回报值预测网络模型的参数；基于在所述St下的Q值和在所述St+1下的Q值，对所述长期回报值预测网络模型的参数θ进行迭代调整。

可选地，所述模型参数调整单元，具体用于确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在所述St下的当前动作回报，γ是折扣系数；确定所述目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新所述长期回报值预测网络模型的参数θ。

可选地，所述模型训练模块，包括：回报值获得单元，用于确定与温湿度相对误差相对应的第一损失函数Le；确定与空调开关切换频率相对应的第二损失函数Ls；基于所述第一损失函数Le和所述第二损失函数Ls获得所述回报函数；根据所述回报函数计算所述rt。

根据本公开的又一方面，提供一种基于深度强化学习的空调风量控制装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

根据本公开的再一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如上所述的方法。

本公开的基于深度强化学习的空调风量控制方法、装置以及存储介质，构建基于深度强化学习的长期回报值预测网络模型，用于对卷烟企业空调进行自动控制，用于控制风量；基于空调执行行动与状态的交互，实现损失最小化，可以提高空调温湿度预测的准确率和空调开关切换的稳定性，能够实现节能降耗；可以对空调进行组合调控，在保证实际温湿度位于工艺限定范围的同时，适当关闭空调，降低空调能耗，能够减少企业的成本并提高产品质量。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开的基于深度强化学习的空调风量控制方法的一个实施例的流程示意图；

图2为根据本公开的基于深度强化学习的空调风量控制方法的一个实施例中的获取回报值的流程示意图；

图3为根据本公开的基于深度强化学习的空调风量控制方法的一个实施例的技术框架示意图；

图4为根据本公开的基于深度强化学习的空调风量控制装置的一个实施例的模块示意图；

图5为根据本公开的基于深度强化学习的空调风量控制装置的一个实施例中的模型训练模块的模块示意图；

图6为根据本公开的基于深度强化学习的空调风量控制装置的另一个实施例的模块示意图。

具体实施方式

下面参照附图对本公开进行更全面的描述，其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下文中的“第一”、“第二”等仅用于描述上相区别，并没有其它特殊的含义。

图1为根据本公开的基于深度强化学习的空调风量控制方法的一个实施例的流程示意图，如图1所示：

步骤101，建立状态预测模型，使用状态预测模型获得外界预测状态。外界预测状态包括：新风温湿度和室内温湿度等。

步骤103，根据外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对长期回报值预测网络模型的参数θ进行调整。

步骤103，通过长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制。当前状态包括：环境状态和对应的空调执行行动等。

空调执行行动包括：空调维持不变、空调由关闭转为开启、空调由开启转为关闭等。状态预测模型包括：第一神经网络模型；第一神经网络模型可以为现有的多种神经网络模型。长期回报值预测网络模型包括：第二神经网络模型，第二神经网络模型为现有的深度强化学习神经网络模型。深度学习具有较强的感知能力，强化学习具有决策能力，将两者结合起来，可以实现优势互补，为复杂系统提供感知决策。

本公开的基于深度强化学习的空调风量控制方法分为离线学习和在线调级两个阶段。在离线学习阶段，根据历史的统计信息训练状态预测模型；然后，获得各台空调的状态并根据状态预测模型预测的状态进行环境模拟，对长期回报值预测网络模型进行训练。在线调级阶段，利用训练好的长期回报值预测网络模型，基于当前状态获得空调执行行动，对空调开关进行切换控制。

在一个实施例中，根据外界预测状态生成训练样本可以有多种方法。例如，根据外界预测状态生成环境状态，环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt；空调状态Ct为当前空调是开或关的状态，外界状态Ot为新风温湿度与室内温湿度的差值，偏离状态Dt为预定温湿度与室内温湿度之间的差值。

获得t时刻的状态St，St包括多个环境状态和对应的空调执行行动。将St作为长期回报值预测网络模型的输入，得到在St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为在t时刻的长期回报值预测网络模型的参数。

根据at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池。初始化训练样本池，训练样本池用于存储样本，开始训练之前的训练样本池为空。对于计算的当前状态st下可选动作的Q值，可以有多种方法。例如，Q^*(St，at)＝Eπ[Rt+1+γRt+2+γ2Rt+3+...|s＝st,a＝at]；其中，γ是折扣系数，st是当前状态，at是当前动作，Rt+1是t+1时刻的回报值，Rt+2是t+2时刻的回报值，Eπ是Q(s,a,θu)值最大时的回报函数值，是一个状态决策函数。

图2为根据本公开的基于深度强化学习的空调风量控制方法的一个实施例中的获取回报值的流程示意图，如图2所示：

步骤201，确定与温湿度相对误差相对应的第一损失函数Le。

步骤202，确定与空调开关切换频率相对应的第二损失函数Ls。

步骤203，基于第一损失函数Le和第二损失函数Ls获得回报函数。

步骤204，根据回报函数计算rt。

本公开的基于深度强化学习的空调风量控制方法，根据易感知的新风温湿度、预定温湿度、室内温湿度和空调开关状态等信息，构建基于深度强化学习的长期回报值预测网络模型。定义时段，时段用E表示，一个时段指用户设定的空调开关切换间隔的最小时长。时段可以划分为时刻，通过时段的划分，基于深度强化学习技术使得各时段内的空调控制不成功造成的损失最小。

损失由预测不准确造成的损失和开关切换过频造成的损失两部分构成。因为预测不准确造成的损失，用第一损失函数Le表示。需要考虑因工艺不合格，造成产品质量下降所带来的损失，可将第一损失函数Le视为温湿度相对误差与产品质量下降带来损失构成的函数。因为空调开关切换过频造成的损失，用第二损失函数Ls表示，第二损失函数Ls是空调养护成本的函数。回报函数是Le和Ls的加权函数，具体的权重可以设置，可以使用多种方法获得，例如能够通过超参数优化等计算得出。

在t时刻，对空调执行行动(空调开关切换)进行评估时，需要对环境进行观测，得到一个环境状态Ot。Ot由三部分构成：空调状态Ct、外界状态Ot和偏离状态Dt。空调状态为当前空调是开或关状态，外界状态是新风温湿度与室内温湿度的差值，偏离状态是预定温湿度与室内温湿度之间的差值。

t时刻的动作(空调执行行动)用at表示，是一个标量，对应于空调维持不变、由关改开、或由开改关等。t时刻的状态用St表示，由一连串相互交错的观测到的环境状态和对应时刻的空调执行行动构成，即t时刻的状态St＝{Ot-l1,at-l1,...,Ot-1,at-1,Ot,t}，其中l1代表时间间隔的长度。

t时刻的回报用rt表示，当在St状态下，采取空调执行行动at，系统转到St+1状态后，系统得到一个回报rt，根据回报函数确定。对长期回报值预测网络模型进行训练的目标是最小化一个时段内的因预测不准确或空调频繁切换开关造成的损失。

长期回报值预测网络模型的强化学习模型由(S,A,T,R,π,γ)六部分构成。其中，S代表状态集合；A代表动作(空调执行行动)集合；T是一个转移概率，表示在St状态下，采取动作at，转移到St+1状态的概率，即S×A×S→T；R代表在特定状态下，通过采取一动作转到下一状态的即时回报，即S×A×S→R；π是一个策略，表示在特点状态下采取某动作的概率，即S×A×S→π；而γ是时间衰减因子。

空调执行行动具有的长期回报，用Ut表示，Ut＝rt+γ×rt+1+γ2×rt+2+...+γte-t×rte。其中，te代表时段结束对应的时刻。最优的长期回报函数用Q*(St,at)表示，Q*(St,at)＝maxπEπ[Ut|St,at,π]，E表示求期望值，表示在给定状态St下，找到基于各策略采取动作at所获得回报的最大期望值。由于状态空间和动作空间都很大，引入一个深度神经网络进行估计。最优的长期回报函数变成Q*(S,A,θ)：S×A→Q*，其中，θ表示神经网络的参数。

在一个实施例中，基于训练样本对长期回报值预测网络模型进行训练可以采用多种方法。例如，随机从训练样本池中获得M个样本，将M个样本中的每个样本的St+1作为长期回报值预测网络模型的输入，得到在St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的长期回报值预测网络模型的参数；基于在St下的Q值和在St+1下的Q值，对长期回报值预测网络模型的参数θ进行迭代调整。

确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在St下的当前动作回报，γ是折扣系数；确定目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新长期回报值预测网络模型的参数θ。损失函数可以有多种,例如，损失函数为L＝E[(目标Q值-Q^*(St，at，θ+)²]＝E[(rt+γmax Q^*(St+1,at+1,θ-)-Q(st,at,θu))²]；E是求均值，rt是当前动作的回报值，γ是折扣系数。

为了训练和评估长期回报值预测网络模型，如图3所示，状态预测模型包括两个预测器，分别为新风温湿度预测器(Z-model)和室内温湿度预测器(I-model)，生成系统模拟器。预测器的目的是分别预测新风温湿度随着时间的变化以及室内温湿度随着设定温湿度、新风温湿度和开关参数的变化。例如，新风温湿度预测器可以根据历史统计信息，如季节、云量、风力等信息，使用泊松分布进行模拟，得到未来时刻的新风温湿度。室内温湿度预测器的输入为环境状态，而输出为未来时刻的室内温湿度。

如图3所示，长期回报值预测网络模型的构造由两个步骤构成。根据影响因素(如时间、季节等)选取前k个最相似的历史时刻。针对相似时刻的历史值，以相似度作为权重，进行加权计算，得到t时刻的观测值。通过随机方式，得到初始的长期回报值预测网络模型(预测神经网络)，为Q*(S,A,θ-)，将样本池设为空集。

开始一个新时段，当需要对空调执行行动评估时，Q*(S,A,θ-)基于当前状态St生成一个空调执行行动的行为at，要求at＝argmaxa∈AQ*(St,a,θ-)。此处，引入一个基于[0,1]范围内的概率参数ε，根据该参数，可以用从A中随机选出的动作取代at。客户执行该行为，转换成下一个状态St+1，同时获得一个即时回报rt。从而生成一个新样本(St,at,St+1,rt)，并将其放入样本池。

通过抽取样本池中的小批量数据，对长期回报值预测网络模型进行训练，修改网络参数。令

其中，θ+为更新后的网络参数，而θ-为更新前的网络参数。进行多轮迭代，当模拟的时段数达到用户设定的阈值，结束训练过程，并输出最终的神经网络。

在一个实施例中，本公开提供一种基于深度强化学习的空调风量控制装置40，包括：状态预测模块41、模型训练模块42和动作预测模块43。状态预测模块41建立状态预测模型，使用状态预测模型获得外界预测状态；其中，外界预测状态包括：新风温湿度和室内温湿度。模型训练模块42根据外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对长期回报值预测网络模型的参数θ进行调整。

动作预测模块43通过长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；其中，当前状态包括：环境状态和对应的空调执行行动。空调执行行动包括：空调维持不变、空调由关闭转为开启、空调由开启转为关闭。状态预测模型包括：第一神经网络模型；长期回报值预测网络模型包括：第二神经网络模型。

在一个实施例中，如图5所示，模型训练模块42包括：训练样本建立单元421、模型参数调整单元422和回报值获得单元423。训练样本建立单元421根据外界预测状态生成环境状态；其中，环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt，空调状态Ct为当前空调是开或关的状态，外界状态Ot为新风温湿度与室内温湿度的差值，偏离状态Dt为预定温湿度与室内温湿度之间的差值。

训练样本建立单元421获得t时刻的状态St；其中，St包括多个环境状态和对应的空调执行行动。训练样本建立单元421将St作为长期回报值预测网络模型的输入，得到在St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为长期回报值预测网络模型的参数。训练样本建立单元421根据at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池。

模型参数调整单元422随机从训练样本池中获得M个样本，将M个样本中的每个样本的St+1作为长期回报值预测网络模型的输入，得到在St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的长期回报值预测网络模型的参数。模型参数调整单元422基于在St下的Q值和在St+1下的Q值，对长期回报值预测网络模型的参数θ进行迭代调整。

模型参数调整单元422确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在St下的当前动作回报，γ是折扣系数；模型参数调整单元422确定目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新长期回报值预测网络模型的参数θ。

回报值获得单元423确定与温湿度相对误差相对应的第一损失函数Le。回报值获得单元423确定与空调开关切换频率相对应的第二损失函数Ls。回报值获得单元423基于第一损失函数Le和第二损失函数Ls获得回报函数。回报值获得单元423根据回报函数计算rt。

图6为根据本公开的基于深度强化学习的空调风量控制装置的另一个实施例的模块示意图。如图6所示，该装置可包括存储器61、处理器62、通信接口63以及总线64。存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器61存储的指令执行实现上述的基于深度强化学习的空调风量控制方法。

存储器61可以为高速RAM存储器、非易失性存储器(non-volatile memory)等，存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。处理器62可以为中央处理器CPU，或专用集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本公开的基于深度强化学习的空调风量控制方法的一个或多个集成电路。

根据本公开的再一方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，指令被处理器执行如上的方法。

上述实施例中提供的基于深度强化学习的空调风量控制方法、装置以及存储介质，构建基于深度强化学习的长期回报值预测网络模型，用于对卷烟企业空调进行自动控制，用于控制风量；基于空调执行行动与状态的交互，实现损失最小化，可以提高空调温湿度预测的准确率和空调开关切换的稳定性，能够实现节能降耗；可以对空调进行组合调控，在保证实际温湿度位于工艺限定范围的同时，适当关闭空调，降低空调能耗，能够减少企业的成本并提高产品质量。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于深度强化学习的空调风量控制方法，包括：

建立状态预测模型，使用所述状态预测模型获得外界预测状态；其中，所述外界预测状态包括：新风温湿度和室内温湿度；

根据所述外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对所述长期回报值预测网络模型的参数θ进行调整；

通过所述长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；其中，所述当前状态包括：环境状态和对应的空调执行行动；所述空调执行行动包括：空调维持不变、空调由关闭转为开启、空调由开启转为关闭；

其中，所述根据所述外界预测状态生成训练样本包括：

根据所述外界预测状态生成所述环境状态；

其中，所述环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt，所述空调状态Ct为当前空调是开或关的状态，所述外界状态Ot为新风温湿度与室内温湿度的差值，所述偏离状态Dt为预定温湿度与室内温湿度之间的差值；

获得t时刻的状态St；其中，所述St包括多个所述环境状态和对应的空调执行行动；

将所述St作为所述长期回报值预测网络模型的输入，得到在所述St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为在t时刻的所述长期回报值预测网络模型的参数；

根据所述at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池；

所述基于训练样本对长期回报值预测网络模型进行训练包括：

随机从所述训练样本池中获得M个样本，将所述M个样本中的每个样本的所述St+1作为所述长期回报值预测网络模型的输入，得到在所述St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的所述长期回报值预测网络模型的参数；

基于在所述St下的Q值和在所述St+1下的Q值，对所述长期回报值预测网络模型的参数θ进行迭代调整，包括：

确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在所述St下的当前动作回报，γ是折扣系数；

确定所述目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新所述长期回报值预测网络模型的参数θ。

2.如权利要求1所述的方法，其中，

确定与温湿度相对误差相对应的第一损失函数Le；

确定与空调开关切换频率相对应的第二损失函数Ls；

基于所述第一损失函数Le和所述第二损失函数Ls获得所述回报函数；

根据所述回报函数计算所述rt。

3.如权利要求1所述的方法，其中，

所述状态预测模型包括：第一神经网络模型；所述长期回报值预测网络模型包括：第二神经网络模型。

4.一种基于深度强化学习的空调风量控制装置，包括：

状态预测模块，用于建立状态预测模型，使用所述状态预测模型获得外界预测状态；其中，所述外界预测状态包括：新风温湿度和室内温湿度；

模型训练模块，用于根据所述外界预测状态生成训练样本，基于训练样本对长期回报值预测网络模型进行训练，用于对所述长期回报值预测网络模型的参数θ进行调整；

动作预测模块，用于通过所述长期回报值预测网络模型并基于当前状态预测下一时刻的空调执行行动，用以对于空调风量进行控制；其中，所述当前状态包括：环境状态和对应的空调执行行动；所述空调执行行动包括：空调维持不变、空调由关闭转为开启、空调由开启转为关闭；

其中，所述模型训练模块，包括：

训练样本建立单元，用于根据所述外界预测状态生成所述环境状态；其中，所述环境状态包括：空调状态Ct、外界状态Ot和偏离状态Dt，所述空调状态Ct为当前空调是开或关的状态，所述外界状态Ot为新风温湿度与室内温湿度的差值，所述偏离状态Dt为预定温湿度与室内温湿度之间的差值；获得t时刻的状态St；其中，所述St包括多个所述环境状态和对应的空调执行行动；将所述St作为所述长期回报值预测网络模型的输入，得到在所述St下的Q值为Q^*(St，at，θ+)，其中，at为在t时刻的空调执行行动，θ+为所述长期回报值预测网络模型的参数；根据所述at计算在t时刻的回报值rt和在t+1时刻的下一状态St+1，生成样本(St,at,St+1，rt)，并基于样本生成训练样本池；

模型参数调整单元，用于随机从所述训练样本池中获得M个样本，将所述M个样本中的每个样本的所述St+1作为所述长期回报值预测网络模型的输入，得到在所述St+1下的Q值为Q^*(St+1,at+1,θ-)；其中，St+1为在t+1时刻的下一状态，at+1为在t+1时刻的空调执行行动，θ-为在t+1时刻的所述长期回报值预测网络模型的参数；基于在所述St下的Q值和在所述St+1下的Q值，对所述长期回报值预测网络模型的参数θ进行迭代调整；

所述模型参数调整单元，具体用于确定目标Q值＝rt+γmax Q^*(St+1,at+1,θ-)；其中，rt是在所述St下的当前动作回报，γ是折扣系数；确定所述目标Q值与Q^*(St+1,at+1,θ-)之间的损失函数，在损失函数取得最小值时，更新所述长期回报值预测网络模型的参数θ。

5.如权利要求4所述的装置，其中，

所述模型训练模块，包括：

回报值获得单元，用于确定与温湿度相对误差相对应的第一损失函数Le；确定与空调开关切换频率相对应的第二损失函数Ls；基于所述第一损失函数Le和所述第二损失函数Ls获得所述回报函数；根据所述回报函数计算所述rt。

6.如权利要求4所述的装置，其中，

7.一种基于深度强化学习的空调风量控制装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至3中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行如权利要求1至3中任一项所述的方法。