CN113361132B - 一种基于深度q学习对决网络的风冷数据中心节能方法 - Google Patents
一种基于深度q学习对决网络的风冷数据中心节能方法 Download PDFInfo
- Publication number
- CN113361132B CN113361132B CN202110718622.8A CN202110718622A CN113361132B CN 113361132 B CN113361132 B CN 113361132B CN 202110718622 A CN202110718622 A CN 202110718622A CN 113361132 B CN113361132 B CN 113361132B
- Authority
- CN
- China
- Prior art keywords
- network
- temperature
- data center
- learning
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/30—Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
- F24F11/46—Improving electric energy efficiency or saving
- F24F11/47—Responding to energy costs
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/06—Power analysis or power optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/08—Thermal analysis or thermal optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Signal Processing (AREA)
- Mechanical Engineering (AREA)
- Combustion & Propulsion (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Air Conditioning Control Device (AREA)
Abstract
本发明公开了一种基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:S1、获取采样数据中心与监控数据中心的环境状态;S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。有益效果:采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。
Description
技术领域
本发明涉及空调控制节能领域,具体来说,涉及一种基于深度Q学习对决网络的风冷数据中心节能方法。
背景技术
节能就是尽可能地减少能源消耗量,生产出与原来同样数量、同样质量的产品;或者是以原来同样数量的能源消耗量,生产出比原来数量更多或数量相等质量更好的产品,节能就是应用技术上现实可靠、经济上可行合理、环境和社会都可以接受的方法,有效地利用能源,提高用能设备或工艺的能量利用效率。
现有基于能耗预测的节能控制方案需要收集历史传感器数据、空调耗电量、空调设置数据构建初始训练数据集,并以传感器数据和空调设置为输入,空调耗电量和环境温度为输出构建预测控制模型。下发控制时预测模型基于当前环境采集的传感器数据对不同的空调设置进行耗电量预测,温度预测从而选择不超温度限制下的最小耗电下的空调设置,实现空调节能,但是现有技术中能耗预测方法对训练数据的要求较高,而实际场景中往往收集丰富的数据集存在比较大的瓶颈,一是全年的气温状态又是复杂多变的,阶段性的历史数据对未来的适应性较差;二是对于空调制冷设备的设定值往往不会太多干预,历史数据往往是有限的空调设置组合;三是一旦数据中心出现设备更换,能耗预测控制方案将难以适应新的物理环境,从而导致预测方法的失效。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于深度Q学习对决网络的风冷数据中心节能方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:
S1、获取采样数据中心与监控数据中心的环境状态;
S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。
进一步的,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
进一步的,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
进一步的,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
进一步的,所述高温预警时定义如下:高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。
进一步的,所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置。
进一步的,所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
进一步的,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
进一步的,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
S2512:计算目标网络,
S2514:计算动作网络根据当前温度状态做出的最优动作,
aselect=argmaxaQact(st+1,a;wact);
S2515:计算动作网络在t+1时刻的回报估计,
其中,动作网络Qact与目标网络Qtarget构成深度Q学习对决网络,且动作网络与目标网络有相同的网络结构,由最优状态函数V*(st)和最优优势函数D*(st)构成,与为动作网络中最优状态函数和最优优势函数的学习参数,与为动作网络中最优状态函数和最优优势函数的学习参数,aselect为动作网络根据当前温度状态做出的最优动作,σt为t时刻样本误差,γ为回报折扣,为动作网络在t时刻的回报估计,为动作网络在t+1时刻的回报估计,为t时刻的回报时序差分目标,回报指的是对在运行周期内未来获得奖励之和。
进一步的,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi;
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
wtarget←wact;
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数。
本发明的有益效果为:采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的流程图;
图2是根据本发明实施例的一种基于深度Q学习对决网络的风冷数据中心节能方法的原理图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于深度Q学习对决网络的风冷数据中心节能方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-2所示,根据本发明实施例的基于深度Q学习对决网络的风冷数据中心节能方法,该方法包括以下步骤:
S1、采样与监控流程:获取采样数据中心与监控数据中心的环境状态;
S2、深度Q学习对决网络控制流程:周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度。
在一个实施例中,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
在一个实施例中,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
在一个实施例中,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
在一个实施例中,所述高温预警时定义如下:高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。
在一个实施例中,所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置。
在一个实施例中,所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
在一个实施例中,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本,并以最小化时间差分误差为目标进行梯度下降实现深度Q学习对决网络更新;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
在一个实施例中,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
S2512:计算目标网络,
S2514:计算动作网络根据当前温度状态做出的最优动作,aselect=argmaxaQact(st+1,a;wact);
S2515:计算动作网络在t+1时刻的回报估计,
其中,动作网络Qact与目标网络Qtarget构成深度Q学习对决网络,且动作网络与目标网络有相同的网络结构,由最优状态函数V*(st)和最优优势函数D*(st)构成,与为动作网络中最优状态函数和最优优势函数的学习参数,与为动作网络中最优状态函数和最优优势函数的学习参数,aselect为动作网络根据当前温度状态做出的最优动作,σt为t时刻样本误差,γ为回报折扣,为动作网络在t时刻的回报估计,为动作网络在t+1时刻的回报估计,为t时刻的回报时序差分目标,回报指的是对在运行周期内未来获得奖励之和。
在一个实施例中,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi;
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
wtarget←wact;
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数;
此外,目标网络参数与动作网络往往不同步更新,常见的形式为动作网络在经历若干次更新后,目标网络在同步动作网络的参数。
为了方便理解本发明的上述技术方案,以下就本发明在实际过程中的工作原理或者操作方式进行详细说明。
综上所述,借助于本发明的上述技术方案,采用强化学习的方式进行控制器的自学习,通过设定奖励和反馈,探索和学习的机制让控制器能够自适应环境变化,在学习优化风冷机组的空调设置值的同时,又保障数据中心环境处于安全运行区间。在控制器的训练决策中应用优先经验回放使得控制器能够合理评估过往经验的重要性,从而在未来的学习中对于估计效果差的经验数据能够加强训练;应用对决网络对环境状态增加了新的评估项,增加了控制器对于环境变化的敏感性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,该方法包括以下步骤:
S1、获取采样数据中心与监控数据中心的环境状态;
S2、周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度;
所述周期性查询采样数据中心与监控数据中心的环境状态,进行深度Q学习对决网络的训练并生成节能空调设置值的温度还包括以下步骤:
S21、以20分钟为周期获取各个传感器的温度tmpi和室外环境温度tmpo,定义采样数据中心状态S=(tmp1,…,tmpn,tmpo);
S22、空调设置值的温度作为动作a;
S23、空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入;
S24:将相邻的两个时刻数据中心温度状态st,st+1与t时刻下发空调设置的动作at和对应的功率计算得出的奖励rt生成四元组(st,at,rt,st+1),作为一条样本数据存入经验回放池中;
S25:深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置;
所述空调的额定功率与过去一个工作周期的平均工作功率以及监控得到的预警状态作为奖励计算的输入计算公式如下:
其中,pe为额定功率,pavg为过去一个工作周期的平均工作功率,r无预警状态时奖励值为额度功率与平均工作功率的差,发生预警状态后奖励值会带上奖励的折扣项λ,默认为0.8。
2.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述获取采样数据中心与监控数据中心的环境状态还包括以下步骤:
S11、收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减;
S12、实时监控传感器温度状态并判断数据中心是否处于高温预警。
3.根据权利要求2所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述收集采样数据中心各个传感器的温度、室外环境温度、空调电度数、空调设置值,采样频率设定为一分钟,同时检测是否发生温度传感器和空调设备的增减还包括以下步骤:
S111、若设备增减则重置深度Q学习对决网络,则根据新的物理环境进行控制流程的训练。
4.根据权利要求2所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述实时监控传感器温度状态并判断数据中心是否处于高温预警还包括以下步骤:
S121、当数据中心处于高温预警时,将发送预警降温指令进行降温;
S122、降温降至预设最低温度后停止降温,转由深度Q学习对决网络进行温度控制。
5.根据权利要求4所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述高温预警时定义如下:高温预警状态定义为连续三分钟传感器温度平均值大于预设的预警温度值。
6.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述深度Q学习对决网络从经验回放池从抽取样本数据进行模型更新,并以ε贪心策略进行空调温度设置还包括以下步骤:
S251、深度Q学习对决网络计算经验回放池中各个样本的误差;
S252、根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本;
S253、ε贪心策略进行动作选择空调设置值的温度;
其中,ε贪心策略进行动作选择空调设置值的温度计算公式如下:
Q(st,a;w)是最优动作价值函数由深度Q学习对决网络进行拟合,A为动作空间为全部空调温度设定组合,同时a∈A。
7.根据权利要求6所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述深度Q学习对决网络计算经验回放池中各个样本的误差还包括以下步骤:
S2511:计算动作网络,
S2512:计算目标网络,
S2514:计算动作网络根据当前温度状态做出的最优动作,aselect=argmaxaQact(st+1,a;wact);
8.根据权利要求1所述的一种基于深度Q学习对决网络的风冷数据中心节能方法,其特征在于,所述根据样本误差评估样本的重要程度,依据优先经验回放,用以生成不同的概率分布并进行样本抽样作为深度Q学习对决网络更新的训练样本还包括以下步骤:
S2521、计算样本抽样概率,并按此概率抽取M个样本;
S2522、计算每个样本的学习率ηi;
S2523:对于抽取出的M个样本根据样本误差更新M次网络参数:
wtarget←wact;
其中,wact为动作网络的全部参数,wtarget为目标网络的全部参数,ηj为第j个样本的学习率,δj为第j个样本的误差,st为t时刻的温度状态,at为t时刻的动作设置;
样本抽样概率计算公式如下:
式中α为优先级参数,N为经验回放池的样本总数,pi为优先级参数,选用第i个样本的误差表示;
计算每个样本的学习率ηi计算公式如下:
式中η为学习率,N为经验回放池的样本总数,β为重要性采样超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110718622.8A CN113361132B (zh) | 2021-06-28 | 2021-06-28 | 一种基于深度q学习对决网络的风冷数据中心节能方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110718622.8A CN113361132B (zh) | 2021-06-28 | 2021-06-28 | 一种基于深度q学习对决网络的风冷数据中心节能方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361132A CN113361132A (zh) | 2021-09-07 |
CN113361132B true CN113361132B (zh) | 2022-03-15 |
Family
ID=77536839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110718622.8A Active CN113361132B (zh) | 2021-06-28 | 2021-06-28 | 一种基于深度q学习对决网络的风冷数据中心节能方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361132B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852969B (zh) * | 2021-09-14 | 2023-05-26 | 超讯通信股份有限公司 | 终端调度方法及装置 |
CN114017904B (zh) * | 2021-11-04 | 2023-01-20 | 广东电网有限责任公司 | 一种建筑物hvac系统的运行控制方法及装置 |
CN114330852B (zh) * | 2021-12-21 | 2022-09-23 | 清华大学 | 一体化数据中心柜末端空调系统节能优化方法及装置 |
CN115118477B (zh) * | 2022-06-22 | 2024-05-24 | 四川数字经济产业发展研究院 | 一种基于深度强化学习的智能电网状态恢复方法及系统 |
CN115003140B (zh) * | 2022-08-04 | 2022-11-08 | 浩鲸云计算科技股份有限公司 | 一种数据中心机房水冷机组末端空调协同控制节能方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
CN112186811A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的agc机组动态优化方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN112734014A (zh) * | 2021-01-12 | 2021-04-30 | 山东大学 | 基于置信上界思想的经验回放采样强化学习方法及系统 |
CN112989699A (zh) * | 2021-03-12 | 2021-06-18 | 重庆交通大学 | 基于深度强化学习的新能源汽车性能评价方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111756634B (zh) * | 2020-07-15 | 2022-10-14 | 中国舰船研究设计中心 | 一种基于强化学习的舰载网络性能自优化方法 |
CN112668235B (zh) * | 2020-12-07 | 2022-12-09 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
-
2021
- 2021-06-28 CN CN202110718622.8A patent/CN113361132B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
CN112186811A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的agc机组动态优化方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN112734014A (zh) * | 2021-01-12 | 2021-04-30 | 山东大学 | 基于置信上界思想的经验回放采样强化学习方法及系统 |
CN112989699A (zh) * | 2021-03-12 | 2021-06-18 | 重庆交通大学 | 基于深度强化学习的新能源汽车性能评价方法 |
Non-Patent Citations (3)
Title |
---|
基于 Double-DQN 的中央空调系统节能优化运行;闫军威 等;《华南理工大学学报(自然科学版)》;20190131;第47卷(第1期);第135-144页 * |
深度强化学习综述;刘全 等;《计算机学报》;20180131;第41卷(第1期);第1-26页 * |
闫军威 等.基于 Double-DQN 的中央空调系统节能优化运行.《华南理工大学学报(自然科学版)》.2019,第47卷(第1期), * |
Also Published As
Publication number | Publication date |
---|---|
CN113361132A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113361132B (zh) | 一种基于深度q学习对决网络的风冷数据中心节能方法 | |
WO2021143482A1 (zh) | 一种soh检测方法及装置 | |
CN108957304B (zh) | 断路器载流故障预测方法 | |
CN107220514B (zh) | 基于大数据的空调负荷预测方法及系统 | |
CN111830350B (zh) | 能耗计量方法、装置及电器 | |
CN110781595B (zh) | 能源使用效率pue的预测方法、装置、终端及介质 | |
CN117459073B (zh) | 一种热泵系统运行数据的智能管理方法 | |
CN112070353A (zh) | 一种精确检测数据中心能效的方法及系统 | |
CN104748305A (zh) | 空调的开关状态的识别方法及系统及估算方法及系统 | |
CN118312746B (zh) | 一种基于数字孪生的设备状态评价方法及系统 | |
CN118211943B (zh) | 一种注塑产品生产管理方法及系统 | |
CN106931595A (zh) | 一种中央空调性能系数在线分析方法 | |
CN106405280B (zh) | 一种智能变电站在线监测参数趋势预警方法 | |
CN117080624B (zh) | 一种电池加热控制方法及系统 | |
CN117879115A (zh) | 一种高能量转换效率的智能电源缓冲模块及实现方法 | |
CN117613421A (zh) | 一种基于神经网络的储能电池组管理系统的均衡方法及介质 | |
CN116951780A (zh) | 一种智能中央热水器管理方法和系统 | |
CN107633271B (zh) | 电力系统稳态可用度非精确概率计算方法 | |
CN116857772A (zh) | 基于效率目标和流量计的针对冷却侧设备的台数控制方法 | |
CN110568257A (zh) | 一种空调能耗持续监测方法及装置 | |
CN115003140A (zh) | 一种数据中心机房水冷机组末端空调协同控制节能方法 | |
CN115437876A (zh) | 一种数据中心的管理方法、装置、电子设备和存储介质 | |
CN112988529A (zh) | 一种基于机器学习进行数据库系统性能预测的方法及系统 | |
CN117346418B (zh) | 冷水机组的控制方法、装置、存储介质及电子设备 | |
CN117993623B (zh) | 空调运行情况的后评估评价方法、装置及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |