CN112380770A - 一种基于强化学习的建筑能耗控制装置和控制方法 - Google Patents

一种基于强化学习的建筑能耗控制装置和控制方法 Download PDF

Info

Publication number
CN112380770A
CN112380770A CN202011274978.9A CN202011274978A CN112380770A CN 112380770 A CN112380770 A CN 112380770A CN 202011274978 A CN202011274978 A CN 202011274978A CN 112380770 A CN112380770 A CN 112380770A
Authority
CN
China
Prior art keywords
energy consumption
algorithm
reinforcement learning
building energy
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011274978.9A
Other languages
English (en)
Other versions
CN112380770B (zh
Inventor
陈建平
杨薛钰
傅启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Mizao Intelligent Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Zhuhai Mizao Intelligent Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Mizao Intelligent Technology Co ltd, Suzhou University of Science and Technology filed Critical Zhuhai Mizao Intelligent Technology Co ltd
Priority to CN202011274978.9A priority Critical patent/CN112380770B/zh
Publication of CN112380770A publication Critical patent/CN112380770A/zh
Application granted granted Critical
Publication of CN112380770B publication Critical patent/CN112380770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation

Abstract

本发明涉及一种基于强化学习的建筑能耗控制装置和控制方法。主要包括数据采集模块和数据处理模块,所述数据采集模块用于获取环境数据,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样,通过人工智能的方式来控制各个设备运转,有利于对建筑电力能源系统进行优化调度,以满足对电力能耗的不同需求。

Description

一种基于强化学习的建筑能耗控制装置和控制方法
技术领域
本发明涉及智能控制领域,特别是涉及基于强化学习的建筑能耗控制装置和控制方法。
背景技术
随着经济的发展,大型建筑内应用了很多电器设备,例如空调,风扇,洗碗机以及洗衣机等。如何实现建筑电力能源系统的优化调度成为一个难题。
发明内容
基于此,提供一种基于强化学习的建筑能耗控制装置。该控制装置有利于对建筑电力能源系统进行优化调度,以满足对电力能耗的不同需求。
一种基于强化学习的建筑能耗控制装置,包括:
包括数据采集模块和数据处理模块,
所述数据采集模块用于获取环境数据,
所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
上述装置通过采集环境数据,并建立环境模型,然后通过DDPG算法求解最优控制策略,通过最优控制策略来控制各个相关设备的运转。这样,通过人工智能的方式来控制各个设备运转,有利于对建筑电力能源系统进行优化调度,以满足对电力能耗的不同需求。
在其中一个实施例中,
所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数,
状态:用S表示,空调能耗为P1 -,风扇能耗为
Figure BDA0002778797740000021
洗碗机能耗为
Figure BDA0002778797740000022
洗衣机能耗为
Figure BDA0002778797740000023
则状态S可以表示为:
Figure BDA0002778797740000024
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)},
立即奖赏函数:用r表示,
Figure BDA0002778797740000025
其中,
Figure BDA0002778797740000026
为从终端用户购买电力能源的价格,
Figure BDA0002778797740000027
为电力公司设置的用电价格,
Figure BDA0002778797740000028
为终端用户处的发电量,
Figure BDA0002778797740000029
为各个用电设备消耗的电量,ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t为1,如果用电设备关闭,则对应的ad,i,t为0。
在其中一个实施例中,
通过SVRG算法优化Adam算法,形成优化后的Adam算法,
采用优化后的Adam算法更新DDPG算法中的online Q网络。
在其中一个实施例中,
所述通过SVRG算法优化Adam算法包括:
在整个训练样本中抽取样本,形成训练样本集Ns,然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure BDA0002778797740000031
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure BDA0002778797740000032
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure BDA0002778797740000033
其中,
Figure BDA0002778797740000034
为预先存储的值,
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。
一种基于强化学习的建筑能耗控制方法,包括:
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
在其中一个实施例中,所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数,
状态:用S表示,空调能耗为P1 -,风扇能耗为
Figure BDA0002778797740000035
洗碗机能耗为
Figure BDA0002778797740000036
洗衣机能耗为
Figure BDA0002778797740000037
则状态S可以表示为:
Figure BDA0002778797740000038
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)},
立即奖赏函数:用r表示,
Figure BDA0002778797740000039
其中,
Figure BDA00027787977400000310
为从终端用户购买电力能源的价格,
Figure BDA00027787977400000311
为电力公司设置的用电价格,
Figure BDA0002778797740000041
为终端用户处的发电量,
Figure BDA0002778797740000042
为各个用电设备消耗的电量,ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t为1,如果用电设备关闭,则对应的ad,i,t为0。
在其中一个实施例中,
通过SVRG算法优化Adam算法,形成优化后的Adam算法,
采用优化后的Adam算法更新DDPG算法中的online Q网络。
在其中一个实施例中,
所述通过SVRG算法优化Adam算法包括:
在整个训练样本中抽取样本,形成训练样本集Ns,然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure BDA0002778797740000043
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure BDA0002778797740000044
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure BDA0002778797740000045
其中,
Figure BDA0002778797740000046
为预先存储的值,
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。
附图说明
图1为本发明的实施例的基于强化学习的建筑能耗控制装置的示意图。
图2为本发明的实施例的通过SVRG算法优化Adam算法,形成优化后的Adam算法,采用优化后的Adam算法更新DDPG算法中的online Q网络的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,本发明的实施例提供了一种基于强化学习的建筑能耗控制装置,包括数据采集模块和数据处理模块。
所述数据采集模块用于获取环境数据,所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
通过该装置可获得对各个电器设备的最优控制策略。进而根据这些最优控制策略来控制各个电器设备的运转。
上述装置可应用于解决不同的能耗问题。有些场合,在满足用户舒适度以及使用便捷的基础上,需要尽可能节能。有些场合,要根据发电情况来平衡用电情况。
以下介绍一种环境模型,该模型用于解决如何根据采购电价、发电情况、用电设备的耗电量以及用电价格来控制各个用电设备的运行。以此平衡电力系统的负荷和运营成本。
具体的,所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数。
状态:用S表示,空调总能耗为P1 -,风扇总能耗为
Figure BDA0002778797740000061
洗碗机总能耗为
Figure BDA0002778797740000062
洗衣机总能耗为
Figure BDA0002778797740000063
则状态S可以表示为:
Figure BDA0002778797740000064
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)}。
具体的,上述设置各个用电设备,也就是控制各个设备的开启或关闭。
立即奖赏函数:用r表示,
Figure BDA0002778797740000065
其中,
Figure BDA0002778797740000066
为从终端用户购买电力能源的价格,也就是采购价格,例如为x元/度。上述终端用户也就是发电的用户,例如光伏发电的用户,风力发电的用户等等。
Figure BDA0002778797740000067
为电力公司设置的用电价格,例如为y元/度。也就是电力公司卖给下游用电客户的用电价格。
Figure BDA0002778797740000068
为终端用户处的发电量。
Figure BDA0002778797740000069
为各个用电设备消耗的电量,也就是,空调、风扇、洗碗机、洗衣机消耗的电量。
上述d代表用电设备的类型,例如1代表空调、2代表风扇、3代表洗碗机、4代表洗衣机。上述i代表各个用户。
上述
Figure BDA0002778797740000071
代表各个用电设备在t时刻能耗之和。上述
Figure BDA0002778797740000072
代表各个用电设备的能耗之和乘以用电价格,也就是电力公司卖电的费用。
上述
Figure BDA0002778797740000073
代表终端用户处各个设备在t时刻的发电量之和。上述
Figure BDA0002778797740000074
代表电力公司从终端用户购买电力能源的所需费用。
上述ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t为1,如果用电设备关闭,则对应的ad,i,t为0。
需要说明的是,该模型中,需要采集的环境数据包括:从终端用户购买电力能源的价格,电力公司设置的用电价格,终端用户处的发电量,用电设备消耗的电量等。
本实施例中,如图2所示,对DDPG算法进行了改进。具体的,通过SVRG算法优化Adam算法,形成优化后的Adam算法,采用优化后的Adam算法更新DDPG算法中的online Q网络。
相较于原始的DDPG方法,本发明改进后的有益效果包括:
1、减小了算法更新过程中的随机梯度方差,加快了收敛速度。
2、算法在最优值附近时几乎没有震荡,无噪音,便于算法收敛于最优解处。
具体的,所述通过SVRG算法优化Adam算法包括:
在DDPG算法中的样本池R中抽取样本,形成训练样本集Ns。然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure BDA0002778797740000075
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure BDA0002778797740000081
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure BDA0002778797740000082
其中,
Figure BDA0002778797740000083
为预先存储的值。
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。确定训练迭代的更新参数,计算更精确的梯度估计方向,以此来更快速的更新online网络参数。
表1给出了通过SVRG算法优化Adam算法,采用优化后的Adam算法更新DDPG算法中的online Q网络的具体流程。其中,SVRG算法为现有的算法,其包括了一个内循环计算过程和一个外循环计算过程。这里是将SVRG算法与Adam算法结合使用。
表1
Figure BDA0002778797740000084
Figure BDA0002778797740000091
以下给出DDPG算法的具体流程:
1:初始化actor/critic的在线网络参数θQ和θμ
2:在每一个训练回合之中,初始化动作选择噪声N,起始状态Si
3:actor根据当前策略和动作选择噪声选择行动a,agent执行动作a,得到奖赏r和新的状态s,从而获得训练数据(st,at,rt,st+1);
4:将所获得的(st,at,rt,st+1)存入样本池R中,作为online网络的训练数据集;
5:从样本池R中随机抽取N个数据,作为online策略网络,online Q网络的训练数据;
6:计算online Q网络的gradient;
7:更新online Q网络:采用改进后Adam优化方法更新;
8:计算策略网络的policy gradient;
9:更新online策略网络:采用改进后Adam优化方法更新;
10:Soft update target网络(其中θQ和θμ为online网络参数,θQ,和θμ’为target网络参数):
θQ’←τθQ+(1-τ)θQ’
θμ’←τθμ+(1-τ)θμ’
11:结束算法;
12:此时该井后的DDPG算法输出为最优的能源调度策略。
本发明的实施例还提供了一种基于强化学习的建筑能耗控制方法,该方法包括:首先,采集建筑物的环境数据,然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
本实施例中,所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数,
状态:用S表示,空调能耗为P1 -,风扇能耗为
Figure BDA0002778797740000101
洗碗机能耗为
Figure BDA0002778797740000102
洗衣机能耗为
Figure BDA0002778797740000103
则状态S可以表示为:
Figure BDA0002778797740000104
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)},
立即奖赏函数:用r表示,
Figure BDA0002778797740000105
其中,
Figure BDA0002778797740000106
为从终端用户购买电力能源的价格,
Figure BDA0002778797740000107
为电力公司设置的用电价格,
Figure BDA0002778797740000108
为终端用户处的发电量,
Figure BDA0002778797740000109
为各个用电设备消耗的电量,ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t值为1,如果用电设备关闭,则对应的ad,i,t值为0。
本实施例中,通过SVRG算法优化Adam算法,形成优化后的Adam算法,采用优化后的Adam算法更新DDPG算法中的online Q网络。
本实施例中,所述通过SVRG算法优化Adam算法包括:
在整个训练样本中抽取样本,形成训练样本集Ns,然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure BDA0002778797740000111
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure BDA0002778797740000112
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure BDA0002778797740000113
其中,
Figure BDA0002778797740000114
为预先存储的值,
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于强化学习的建筑能耗控制装置,其特征在于,
包括数据采集模块和数据处理模块,
所述数据采集模块用于获取环境数据,
所述数据处理模块用于接收所述数据采集模块的环境数据,所述数据处理模块包括建模单元和决策单元,所述建模单元用于根据所述环境数据建立环境模型,所述决策单元根据所述环境模型并通过DDPG算法求解最优控制策略。
2.根据权利要求1所述的基于强化学习的建筑能耗控制装置,其特征在于,
所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数,
状态:用S表示,空调能耗为
Figure FDA0002778797730000011
风扇能耗为
Figure FDA0002778797730000012
洗碗机能耗为
Figure FDA0002778797730000013
洗衣机能耗为
Figure FDA0002778797730000014
则状态S可以表示为:
Figure FDA0002778797730000015
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)},
立即奖赏函数:用r表示,
Figure FDA0002778797730000016
其中,
Figure FDA0002778797730000017
为从终端用户购买电力能源的价格,
Figure FDA0002778797730000018
为电力公司设置的用电价格,
Figure FDA0002778797730000019
为终端用户处的发电量,
Figure FDA00027787977300000110
为各个用电设备消耗的电量,ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t为1,如果用电设备关闭,则对应的ad,i,t为0。
3.根据权利要求1所述的基于强化学习的建筑能耗控制装置,其特征在于,
通过SVRG算法优化Adam算法,形成优化后的Adam算法,
采用优化后的Adam算法更新DDPG算法中的online Q网络。
4.根据权利要求3所述的基于强化学习的建筑能耗控制装置,其特征在于,
所述通过SVRG算法优化Adam算法包括:
在整个训练样本中抽取样本,形成训练样本集Ns,然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure FDA0002778797730000021
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure FDA0002778797730000022
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure FDA0002778797730000023
其中,
Figure FDA0002778797730000024
为预先存储的值,
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。
5.一种基于强化学习的建筑能耗控制方法,其特征在于,包括:
首先,采集建筑物的环境数据,
然后,根据所述环境数据建立环境模型,根据所述环境模型并通过DDPG算法求解最优控制策略。
6.根据权利要求5所述的基于强化学习的建筑能耗控制方法,其特征在于,所述根据所述数据建立环境模型,包括:
将建筑能耗控制问题构建为一个马尔科夫决策过程模型,并定义其中的状态,动作和立即奖赏函数,
状态:用S表示,空调能耗为
Figure FDA0002778797730000025
风扇能耗为
Figure FDA0002778797730000026
洗碗机能耗为
Figure FDA0002778797730000027
洗衣机能耗为
Figure FDA0002778797730000028
则状态S可以表示为:
Figure FDA0002778797730000029
动作,用a表示,设置各个用电设备,具体的,设置空调用O1表示,设置风扇用O2表示,设置洗碗机用O3表示,设置洗衣机用O4表示,则动作表示为a={(O11,O12.....O1j),(O21,O22.....O2j),(O31,O32.....O3j),(O41,O42.....O4j)},
立即奖赏函数:用r表示,
Figure FDA0002778797730000031
其中,
Figure FDA0002778797730000032
为从终端用户购买电力能源的价格,
Figure FDA0002778797730000033
为电力公司设置的用电价格,
Figure FDA0002778797730000034
为终端用户处的发电量,
Figure FDA0002778797730000035
为各个用电设备消耗的电量,ad,i,t为用电设备的动作值,如果用电设备开启,则对应的ad,i,t为1,如果用电设备关闭,则对应的ad,i,t为0。
7.根据权利要求5所述的基于强化学习的建筑能耗控制方法,其特征在于,
通过SVRG算法优化Adam算法,形成优化后的Adam算法,
采用优化后的Adam算法更新DDPG算法中的online Q网络。
8.根据权利要求7所述的基于强化学习的建筑能耗控制方法,其特征在于,
所述通过SVRG算法优化Adam算法包括:
在整个训练样本中抽取样本,形成训练样本集Ns,然后把它固定在整个优化过程的外循环中,使用样本集Ns中的样本计算平均梯度来构造当前锚点:
Figure FDA0002778797730000036
在内循环迭代中,通过从样本集Ns中随机抽取的小批量样本nt的平均值来减小梯度,并通过以下公式来更新参数:
Figure FDA0002778797730000037
经过SVRG方差减小过程之后,得到θQ m,计算估计方差减小梯度gs,也就是
Figure FDA0002778797730000038
其中,
Figure FDA0002778797730000039
为预先存储的值,
通过gs更新有偏一阶矩估计和更新有偏二阶矩估计。
CN202011274978.9A 2020-11-16 2020-11-16 一种基于强化学习的建筑能耗控制装置和控制方法 Active CN112380770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011274978.9A CN112380770B (zh) 2020-11-16 2020-11-16 一种基于强化学习的建筑能耗控制装置和控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011274978.9A CN112380770B (zh) 2020-11-16 2020-11-16 一种基于强化学习的建筑能耗控制装置和控制方法

Publications (2)

Publication Number Publication Date
CN112380770A true CN112380770A (zh) 2021-02-19
CN112380770B CN112380770B (zh) 2024-03-15

Family

ID=74584072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011274978.9A Active CN112380770B (zh) 2020-11-16 2020-11-16 一种基于强化学习的建筑能耗控制装置和控制方法

Country Status (1)

Country Link
CN (1) CN112380770B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控系统
CN109670637A (zh) * 2018-12-06 2019-04-23 苏州科技大学 建筑能耗预测方法、存储介质、装置和系统
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN110598906A (zh) * 2019-08-15 2019-12-20 珠海米枣智能科技有限公司 一种基于深度强化学习的大型商场能耗实时控制方法和系统
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
KR102143757B1 (ko) * 2019-05-07 2020-08-12 오토시맨틱스 주식회사 딥러닝을 포함한 인공지능을 적용시킨 풍력 발전장치
US20200279149A1 (en) * 2019-02-28 2020-09-03 Aidentify Co., Ltd. Method for reinforcement learning using virtual environment generated by deep learning
KR20200105365A (ko) * 2019-06-05 2020-09-07 아이덴티파이 주식회사 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법
US20230288607A1 (en) * 2022-03-10 2023-09-14 Shandong University Wind power prediction method and system based on deep deterministic policy gradient algorithm

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108386971A (zh) * 2018-01-28 2018-08-10 浙江博超节能科技有限公司 中央空调节能自控系统
CN109670637A (zh) * 2018-12-06 2019-04-23 苏州科技大学 建筑能耗预测方法、存储介质、装置和系统
US20200279149A1 (en) * 2019-02-28 2020-09-03 Aidentify Co., Ltd. Method for reinforcement learning using virtual environment generated by deep learning
KR102143757B1 (ko) * 2019-05-07 2020-08-12 오토시맨틱스 주식회사 딥러닝을 포함한 인공지능을 적용시킨 풍력 발전장치
KR20200105365A (ko) * 2019-06-05 2020-09-07 아이덴티파이 주식회사 딥러닝에 의해 생성된 가상환경을 이용한 강화학습 방법
CN110458443A (zh) * 2019-08-07 2019-11-15 南京邮电大学 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN110365057A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 基于强化学习的分布式能源参与配电网调峰调度优化方法
CN110598906A (zh) * 2019-08-15 2019-12-20 珠海米枣智能科技有限公司 一种基于深度强化学习的大型商场能耗实时控制方法和系统
CN111126605A (zh) * 2020-02-13 2020-05-08 创新奇智(重庆)科技有限公司 一种基于强化学习算法的数据中心机房控制方法及装置
US20230288607A1 (en) * 2022-03-10 2023-09-14 Shandong University Wind power prediction method and system based on deep deterministic policy gradient algorithm

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙一凫;吕浩宇;陈毅兴;任晓欣;吴若飒;沈启;: "基于EnergyPlus-Python联合模拟和强化学习算法的室内环境控制优化", 建设科技, no. 24, pages 52 - 58 *
杨薛钰: "基于深度强化学习的建筑物空调系统传感器故障检测方法研究", 中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑, no. 5, pages 038 - 864 *
杨薛钰等: "基于随机方差减小方法的DDPG算法", 计算机工程与应用, vol. 57, no. 19, pages 104 - 111 *
陈建平等: "增强型深度确定策略梯度算法", 通信学报, vol. 39, no. 11, pages 106 - 115 *

Also Published As

Publication number Publication date
CN112380770B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
Bahrami et al. An online learning algorithm for demand response in smart grid
Scott et al. Residential demand response under uncertainty
Zhang et al. An optimal and learning-based demand response and home energy management system
Hurtado et al. Enabling cooperative behavior for building demand response based on extended joint action learning
Li et al. A multi-grid reinforcement learning method for energy conservation and comfort of HVAC in buildings
Missaoui et al. Managing energy smart homes according to energy prices: analysis of a building energy management system
Hu et al. Hardware design of smart home energy management system with dynamic price response
WO2022218014A1 (zh) 用于家电控制的方法、装置和家电
Elghitani et al. Smoothing net load demand variations using residential demand management
Zhu et al. Scheduling optimization of smart homes based on demand response
JP5784352B2 (ja) 住宅エネルギーシステム
Mehdi et al. Electricity consumption constraints for smart-home automation: An overview of models and applications
Miryoosefi et al. A simple reward-free approach to constrained reinforcement learning
CN111092434A (zh) 基于非侵入式用电数据居民小区电力负荷控制方法及装置
Liu et al. A home energy management system incorporating data-driven uncertainty-aware user preference
CN113158450A (zh) 一种基于楼宇能量管理系统经济调度方法及系统
CN114623569B (zh) 一种基于深度强化学习的集群空调负荷差异化调控方法
CN112380770B (zh) 一种基于强化学习的建筑能耗控制装置和控制方法
Liu et al. An effective energy management Layout-Based reinforcement learning for household demand response in digital twin simulation
CN206370695U (zh) 一种光伏电站
CN106568162B (zh) 一种遥控家电设备的方法、终端和家电设备
CN115994627B (zh) 住宅建筑柔性负荷日前优化调度方法、装置、设备、介质
CN112288161A (zh) 一种居民错峰用电优化方法和装置
Yu et al. Frequency regulation capacity offering of district cooling system: An intrinsic-motivated reinforcement learning method
Hall et al. A system of agents for supporting optimization and control of a connected community

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant