CN113869482A

CN113869482A - 一种基于深度强化学习的智慧路灯自适应节能控制方法及系统

Info

Publication number: CN113869482A
Application number: CN202110816003.2A
Authority: CN
Inventors: 林绍福; 刘佳欣; 陈华敏; 李硕朋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-12-31

Abstract

本发明公开了一种基于深度强化学习的智慧照明自适应节能控制方法及系统，在感知控制层利用传感器进行环境状态数据采集，将环境状态数据发送至边缘计算层中的网关；边缘计算层网关收集到环境状态数据，对数据进行缓存和处理，再将数据发送至数据服务层在数据服务层中对环境状态数据进行存储；在数据服务层中将控制指令发送至边缘计算层的网关；边缘计算层网关接收到开/关控制指令后，对照明设备的自适应调控；终端应用层与数据服务层直接相连；数据服务层中的服务器已设置用户指令优先级大于算法输出指令，根据所收到的指令确定最终动作指令。采用深度强化学习算法，在为用户提供合适的光照强度的情况下实现了照明设备的高效自适应节能控制。

Description

一种基于深度强化学习的智慧路灯自适应节能控制方法及系统

技术领域

本发明涉及照明节能技术领域，尤其涉及一种基于环境感知的智慧路灯自适应节能控制方法及系统。

背景技术

现代城市中，照明系统大多都依赖于人工进行灯光照明的管理。尤其在公园或景观园区等地，照明场所较多、照明时间较长且当光线充足或无人少人时常会出现“长明灯”的现象，从而造成了大量的电能浪费。由于照明灯的数量庞大，即使采用LED灯，仍然会对电网造成一定的负荷。因此，从节约能源和环境保护的角度出发，高效的照明自适应节能控制是改善人们的生活质量，为人们营造一种经济、舒适、环保的照明环境的必要途径。

相关技术中，模糊控制理论亦适用于自适应系统控制，但由于其模糊规则和隶属函数完全凭经验进行，控制精度较低且鲁棒性和稳定性问题还有待解决，所以不太适用于庞大的自适应照明节能系统。强化学习是一种高级的智能学习算法，它通过智能体与动态环境之间的交互进行决策，不断地学习，积累经验，改进行动策略，最终得到最优行动方案。其策略的行为类似于控制系统中的控制器操作，所以经过强化学习训练的深度神经网络较为适用于实现这种照明系统的自适应节能控制。

发明内容

本发明的目的在于提供了一种基于深度强化学习的智慧路灯自适应节能控制方法及系统。从节约能耗和考虑人体舒适度两个角度出发，采用强化学习的方法更好地实现了智慧路灯系统的自适应节能控制。

本发明提出来一种基于深度强化学习的自适应节能控制的智慧路灯系统，包括感知控制层、边缘计算层、数据服务层、终端应用层。

智慧路灯控制系统根据功能属性分为4层，自下而上分别为感知控制层、边缘计算层、数据服务层、终端应用层。感知控制层主要负责环境状态数据采集和照明设备控制，包括照明设备、人体检测传感器、光照传感器和设备控制器等。边缘计算层主要为监测数据提供格式转换、缓存、处理和传输服务，降低服务器的负载，同时提高数据处理效率。数据服务层是智慧路灯控制系统的核心层，主要负责数据存储和数据处理，通过深度强化学习DeepQ-Network算法，得到最优的照明开/关决策，在为用户提供合适的光照强度的情况下使得设备能耗达到最小。终端应用层是智慧路灯控制系统与用户交互的客户端所在层。在默认模式下，系统会通过算法分析环境状态数据来自适应调控照明设备，另外，用户也可以根据自身实际需求通过应用程序对照明设备进行调控。

本发明提出了一种基于深度强化学习的智慧路灯自适应节能控制方法，包括：

S1、在感知控制层利用传感器进行环境状态数据采集，并将环境状态数据发送至边缘计算层中的网关；

S2、边缘计算层网关收集到环境状态数据后，通过微型服务器对数据进行缓存和处理后，再通过网关将数据发送至数据服务层；

S3、在数据服务层中对环境状态数据进行存储，并将环境状态数据输入提前已训练好的深度强化学习Deep Q-Network模型，获得第一数量的照明设备的最优动作决策序列(1开/0关)；

S4、在数据服务层中将模型输出的1/0数字信号转换为对应的开/关控制指令之后，将控制指令发送至边缘计算层的网关，并将系统分析的调控信息发送至终端应用层的应用程序中；

S5、边缘计算层网关接收到开/关控制指令后，将该指令发送至感知控制层中的设备控制器，设备控制器实现对照明设备的自适应调控；

S6、终端应用层与数据服务层直接相连，若自适应调控结果不够满足用户自身照明需求，用户则通过应用程序调整开关，应用程序将用户指令发送至数据服务层中的服务器中；

S7、数据服务层中的服务器已设置用户指令优先级大于算法输出指令，根据所收到的指令确定最终动作指令，再次执行步骤S4-S6。

作为本发明描述的步骤S2中，包含深度强化学习的搭建和训练，包括：

S21、构建与智能体交互的环境，包括：

步骤A、确定环境状态特征，环境状态特征由多个参数组成，用State来表示；

根据环境监控信息，获取第一参数，用person来表示；根据移动目标所处位置，获取在行进方向上最接近照明灯的作为照明目标，并获取第二参数，用Distance来表示；根据照度传感器获取第三参数，用Light_Intensity来表示；根据智慧路灯系统获取第四参数，用Light_State来表示。

步骤B、确定开关动作特征状态，用Action来表示；

N个照明设备都有开/关(1/0)两种状态，则动作特征状态有2^N种。

步骤C、设计奖励函数，用Reward来表示；

奖励函数主要受到照明设备能耗、连续开关产生的能耗和合适的光照强度三部分影响。照明设备能耗与亮灯的数量(用Light_number来表示)有关。连续开关产生的能耗与动作Action连续两次动作的改变(用change来表示)有关。合适的光照强度只有在人存在的条件下才有意义，此部分为动作Action执行后的光照强度与环境状态第一参数的乘积之和。采用最大小值归一化方法分别对这三部分分别进行数据归一化操作，如公式1所示某项动作所产生的奖励即为这三部分的加权之和。

Reward＝ω₁(Light_number×per_consumption)+ω₂(change×ρ)+ω₃(Light_Intensity×person)

(1)

其中ω₁ω₂ω₃均为各项权重系数，且ω₁＜0,ω₂＜0,ω₃＞0。per_consumption为标准情况下单个照明设备在单位时间粒度内所产生的能耗。ρ为标准情况下单个照明设备连续开关所产生的能耗。

S22、初始化经验池，设置训练回合数，随机初始化观测状态，用S来表示；

S23、将(n，m)维的观测状态S输入到预测神经网络中，输出得到当前状态对应动作的Q值，用Q(S,a)来表示；

S24、选择动作，根据概率ε随机选择动作进行探索，或采用贪心策略从神经网络计算得到的结果中选择Q值最大的一个动作作为最优动作，用a来表示；

S25、智能体执行动作，通过公式1奖励函数获得环境反馈的奖励信号(用R来表示)和下一个状态(用S’来表示)；

S26、更新状态S，并将状态、动作执行后产生的下一个状态、对应的动作、对应的奖励信号和动作完成标记存放到经验池中；

S27、智能体从经验池中随机选择k个小批量样本相关信息，如公式2所示计算每一个状态的目标Q值，用y_j来表示。智能体通过目标网络Target Q执行动作后的奖励更新Q值如公式3所示。

Q^*(s,a)←Q(s,a)+α(TargetQ-Q(s,a)) (3)

其中，γ为采用动作a之后未来将获得最大奖励的衰减系数，θ为Target Q神经网络的权重系数。

S28、基于小批量样本采用随机梯度下降算法更新预测神经网络中的权重参数θ。定义损失函数如公式4所示。

L(θ)＝E[(TargetQ-Q(s,a,θ))²] (4)

S29、重复执行S22-S28所有步骤直到回合结束，训练完成后智能体则可以根据实际环境状态数据自动产生一组最佳的照明设备开/关决策，使得能耗消耗最小且光照强度适宜。

作为本发明描述的步骤S23和S27中，包含神经网络部分，包括：

上述发明中神经网络由一个输入层、两个全连接层和一个输出层组成，包括预测神经网络和目标网络Target Q。预测神经网络是为了根据环境状态获取对应动作的Q值，目标网络Target Q是为了稳定模型学习过程，它与预测神经网络结构完全相同但参数却不同的神经网络，每经过一定次数迭代后会更新网络中的参数θ。

本发明的优点在于：

1.本发明中，采用深度强化学习Deep Q-Network方法使照明设备与环境进行智能交互，实现基于环境感知的智慧路灯自适应节能控制。智慧路灯根据实时环境状态可以进行自动调控，摆脱了传统的人工管理方式，且能够解决大部分情况下路灯的节能控制问题。

2.本发明中，不仅在实现智慧路灯自适应调控的过程中使得能耗达到最小，而且采用了人性化设计，通过控制照明设备的数量使得照明设备所产生的光照强度在人体的舒适度范围内。另外，用户也可以使用应用程序根据自身需求对照明设备进行实时调控，该方法便捷且高效，为人们营造一种经济、舒适、环保的照明环境。

3.本发明深度强化学习算法采用了带经验池的方法同时，添加了预测神经网络和目标网络两种结构相同且参数不同的神经网络，使得该算法高效且较为稳定。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种基于深度强化学习的智慧路灯自适应节能控制方法及系统的流程图。

图2为本发明实施例1提供的智慧路灯自适应节能控制系统的结构示意图。

图3为本发明提供的基于深度强化学习Deep Q-Network的自适应节能控制模型的流程图。

图4为本发明实施例2的基于深度强化学习Deep Q-Network的自适应节能控制模型的结构示意图。

图5为本发明实施例2的自适应节能控制模型中神经网络模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

下面结合附图对本发明做进一步的详细描述：

实施例1

如图1所示，本发明提供了一种基于深度强化学习的智慧路灯自适应节能控制方法及系统。图2为本发明实施例1提供的智慧路灯自适应节能控制系统的结构示意图，以室内照明环境为例，具体包括以下步骤：

部署照度传感器检测当前室内光照强度，人体检测传感器来检测当前照明环境内是否有人的存在和人存在的位置，将离照明设备最近的人作为照明对象，并获取该对象与照明设备之间的距离。照明设备、人体检测传感器和照度传感器等设备通过Zigbee或者Echonet Lite等网络协议与边缘层网关设备进行通信。

网关负责从照度传感器和人体检测传感器收集数据，并通过MQTT协议(一种著名的用于数据收集的物联网协议)将数据发送给数据服务层。

根据步骤S1采集的数据提取光照强度、人存在与否、人与照明设备距离和设备运行状态四种状态环境特征，采用深度强化学习Deep Q-Network的自适应节能控制模型，如图3所示为本发明提供的基于深度强化学习Deep Q-Network的自适应节能控制模型的流程图，根据该流程训练出稳定的决策模型，完成一定的回合后可获得N个照明设备的最优动作执行序列(1，0，0，…，0，1)。

S4、在数据服务层中将模型输出的1/0数字信号转换为对应的开/关控制指令之后，将控制指令发送至边缘计算层的网关，并将系统分析的调控信息发送至用户层的应用程序中；

实施例2

如图4所示为本发明提供的基于深度强化学习Deep Q-Network的自适应节能控制模型的结构示意图。以4个灯的照明设备为例，每个设备的编号分别为Light1，Light2，Light3，Light4。人与设备之间的距离Distance分别表示为D1、D2、D3和D4，则每次选取距离为D＝min{D1，D2，D3，D4}为照明目标。

当环境状态State输入到带有经验池的Deep Q-Network网络当中，智能体会根据神经网络输出结果采用贪心策略选择动作或采用随机动作进行未知情况探索，当智能体执行动作Action之后，通过与环境进行动态交互，环境会反馈给智能体一个该动作对应的奖励和下一步状态，重复执行上述过程一定回合后，该模型可以训练得到灯设备最优的开/关决策。图3为该方法的具体流程，包括：

S21、构建与智能体交互的环境，包括：

步骤A、确定环境状态特征State，当前环境状态特征由4个参数组成，用State来表示；

根据环境监控信息，获取当前区域是否有人的存在，person取值范围为{1，0}；根据移动目标所处位置，获取在行进方向上最接近照明灯的作为照明目标，并获取人与照明设备之间的距离，D1-D4均小于3米；根据照度传感器获取当前环境区域光照强度，由于舒适的室内光照强度为150-300lx，则Light_Intensity取值范围为150-300之间；根据智慧路灯系统获取照明系统照明设备的运行状态，如Light_State＝{1，0，1，0}对应某一状态的设备运行情况。

步骤B、确定开关动作特征状态，用Action来表示；

4个照明设备都有开/关(1/0)两种状态，则状态有2⁴＝16种。

步骤C、设计奖励函数，用Reward来表示；

奖励函数主要受到照明设备能耗、连续开关产生的能耗和合适的光照强度三部分影响。照明设备能耗与亮灯的数量(用Light_number来表示)有关。连续开关产生的能耗与动作Action连续两次动作的改变(用change来表示)有关。合适的光照强度只有在人存在的条件下才有意义，此部分为动作Action执行后的光照强度与环境状态第一参数person的乘积之和。采用最大小值归一化方法分别对这三部分分别进行数据归一化操作，其中，最大小值归一化方法是使用属性值xi减去该属性X中的最小值min(X)然后除以该属性的最大值max(X)与最小值min(X)之差。如公式1所示某项动作所产生的奖励即为这三部分的加权之和。

(1)

其中ω₁ω₂ω₃均为各项权重系数，且ω₁＜0,ω₂＜0,ω₃＞0。将1小时划分为12个小时间段，per_consumption为标准情况下单个照明设备在每5分钟内所产生的能耗。ρ为标准情况下单个照明设备连续开关所产生的能耗。

这里，ω₁＝-0.7，ω₂＝-0.1，ω₃＝0.4，per_consumption＝50W，ρ＝80W。

S22、初始化经验池，设置经验池的容量为memory_size＝500，用于存储训练的样本，随机初始化观测状态S，采用random函数对各参数进行初始化；

S23、4个照明设备的4种环境特征状态可以表示为(4，4)，将观测状态输入到预测神经网络中，输出得到当前状态对应动作的Q值，用Q(S,a)来表示；

如图5所示为自适应节能控制模型中神经网络模块的结构示意图。该神经网络包含一个输入层、两个全连接层和一个输出层。一组观测状态S输入到第一层(4×128)的Linear层中，然后将第一层的输出结果输入到第二层(128×128)的Linear层中，将第二层的输出结果输入到(128×4)的输出层后输出得到对应状态所选择动作的Q值，记为Q(S,a)。激活函数采用的是线性整流函数relu，优化器采用的是Adam。

S24、选择动作，根据概率ε随机选择动作进行探索，或采用贪心策略从神经网络计算得到的结果中选择Q值最大的一个动作作为最优动作，用a来表示，刚开始ε取值较大，通过训练回合的增加不断变小。

S26、更新状态S，即S＝S’，并将状态、动作执行后产生的下一个状态、对应的动作、对应的奖励信号和动作完成标记(S，S’，a，R，done)存放到经验池中；

S27、智能体从经验池中随机选择m＝32个小批量样本相关信息，如公式2所示计算每一个状态的目标Q值，用y_j来表示。智能体通过目标网络Target Q执行动作后的奖励更新Q值如公式3所示。若S’为终止状态，则对应的奖励为R，若S’不是终止状态，则根据目标网络Target Q计算。

Q^*(s,a)←Q(s,a)+α(TargetQ-Q(s,a)) (3)

L(θ)＝E[(TargetQ-Q(s,a,θ))²] (4)

该模型训练输出的最优设备开/关决策表现形式为

其中该矩阵的每一行表示对应设备灯的(1/开，0/关)概率，如L1(28.2％，71.8％)则表示有系统推荐第一个灯打开的概率为28.2％，关闭的概率为71.8％，则选择将第一个灯L1关闭，其他依次类推。

在本发明所提供的实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的自适应节能控制的智慧路灯系统，其特征在于，包括：

智慧路灯控制系统根据功能属性分为4层，自下而上分别为感知控制层、边缘计算层、数据服务层、终端应用层；

感知控制层主要负责环境状态数据采集和照明设备控制，包括照明设备、人体检测传感器、光照传感器和设备控制器；

边缘计算层为监测数据提供格式转换、缓存、处理和传输服务，降低服务器的负载，同时提高数据处理效率；

数据服务层是智慧路灯控制系统的核心层，负责数据存储和数据处理，通过深度强化学习Deep Q-Network算法，得到最优的照明开/关决策，在为用户提供合适的光照强度的情况下使得设备能耗达到最小；

终端应用层是智慧路灯控制系统与用户交互的客户端所在层；在默认模式下，系统会通过算法分析环境状态数据来自适应调控照明设备，另外，用户也可以根据自身实际需求通过应用程序对照明设备进行调控。

2.一种基于深度强化学习的智慧路灯自适应节能控制方法，其特征在于，包括：

S3、在数据服务层中对环境状态数据进行存储，并将环境状态数据输入提前已训练好的深度强化学习Deep Q-Network模型，获得第一数量的照明设备的最优动作决策序列；

3.如权利要求2所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，S1步骤包括：

部署照度传感器检测当前室内光照强度，人体检测传感器来检测当前照明环境内是否有人的存在和人存在的位置，将离照明设备最近的人作为照明对象，并获取该对象与照明设备之间的距离；

照明设备、人体检测传感器和照度传感器设备通过Zigbee或者Echonet Lite网络协议与边缘层网关设备进行通信。

4.如权利要求2所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，S2步骤包括：

网关负责从照度传感器和人体检测传感器收集数据，并通过MQTT协议将数据发送给数据服务层。

5.如权利要求2所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，S3步骤包括：

S21、构建与智能体交互的环境；

S25、智能体执行动作，通过奖励函数获得环境反馈的奖励信号用R来表示和下一个状态用S’来表示；

S27、智能体从经验池中随机选择m个小批量样本相关信息，计算每一个状态的目标值，用y_j来表示，智能体通过目标网络Target Q执行动作后的奖励更新Q值；

S28、基于小批量样本采用随机梯度下降算法更新预测神经网络中的权重参数θ；

6.如权利要求5所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，S21步骤包括：

步骤B、确定开关动作特征状态，用Action来表示；

步骤C、设计奖励函数，用Reward来表示。

7.如权利要求5所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，S27步骤包括：

每一个采样样本状态目标值y_j计算方式为：

智能体通过目标网络Target Q执行动作后的奖励更新Q值方式为：

Q^*(s,a)←Q(s,a)+α(TargetQ-Q(s,a))

其中，γ为采用动作a之后未来将获得最大奖励的衰减系数，θ为Target Q神经网络的权重系数，每经过C次迭代后会更新为预测神经网络的θ。

8.如权利要求5所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，步骤S28包括：

其损失函数定义为：

L(θ)＝E[(TargetQ-Q(s,a,θ))²]。

9.如权利要求6所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，A步骤包括：

根据环境监控信息，获取第一参数，用person来表示；

根据移动目标所处位置，获取在行进方向上最接近照明灯的作为照明目标，并获取第二参数，用Distance来表示；

根据照度传感器获取第三参数，用Light_Intensity来表示；

根据智慧路灯系统获取第四参数，用Light_State来表示。

10.如权利要求5所述的一种基于深度强化学习的智慧路灯自适应节能控制方法其特征在于，B步骤包括：

N个照明设备都有开/关(1/0)两种状态，则状态有2^N种；

奖励函数主要受到照明设备能耗、连续开关产生的能耗和合适的光照强度三部分影响；照明设备能耗与亮灯的数量用Light_number来表示有关；连续开关产生的能耗与动作Action连续两次动作的改变用change来表示有关；合适的光照强度只有在人存在的条件下才有意义，此部分为动作Action执行后的光照强度与环境状态第一参数的乘积之和；采用最大小值归一化方法分别对这三部分分别进行数据归一化操作，如公式1所示某项动作所产生的奖励即为这三部分的加权之和；

Reward＝ω₁(Light_number×per_consumption)+ω₂(change×ρ)+ω₃(Light_Intensity×person) (1)

其中ω₁ω₂ω₃均为各项权重系数，且ω₁＜0,ω₂＜0,ω₃＞0；per_consumption为标准情况下单个照明设备在单位时间粒度内所产生的能耗；ρ为标准情况下单个照明设备连续开关所产生的能耗。