CN117666593B

CN117666593B - 一种用于光伏清扫机器人的行走控制优化方法

Info

Publication number: CN117666593B
Application number: CN202410141863.4A
Authority: CN
Inventors: 黄显达; 黄立军; 刘以清
Original assignee: Xiamen Lanxu Technology Co ltd
Current assignee: Xiamen Lanxu Technology Co ltd
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-04-09
Anticipated expiration: 2044-02-01
Also published as: CN117666593A

Abstract

本发明涉及光伏组件清洁的技术领域，公开了一种用于光伏清扫机器人的行走控制优化方法，包括以下步骤：S1：对待清扫的光伏组件进行环境建模，定义环境状态；S2：基于所述环境状态，根据能耗构建清扫机器人的奖励函数；S3：构建策略网络，并进行参数初始化；S4：通过策略网络选择执行一个动作，采集并记录相关参数，根据奖励函数计算奖励值并更新环境状态；S5：计算累计奖励值并根据所述累计奖励值更新策略网络的参数；S6：重复步骤S4~S5，直至累计奖励值收敛，完成策略网络的训练；S7：保存完成训练的策略网络并部署应用。本发明能够在机器人行走过程中优化行走路线，调整行走速度，从而降低能耗，更加高效地完成清扫任务。

Description

一种用于光伏清扫机器人的行走控制优化方法

技术领域

本发明涉及光伏组件清洁的技术领域，具体涉及一种用于光伏清扫机器人的行走控制优化方法。

背景技术

光伏组件是光伏电站的发电单元，光伏组件的光电转化率、现场辐照度和气候条件是决定电站性能和发电收益的基本因素。除此之外，在电站运行维护中保证组件表面的清扫，减少灰尘的遮挡，也是提升光伏组件输出功率的重要方法。在太阳辐照度和光伏组件性能一定的情况下，光伏组件表面灰尘的堆积会极大影响输出功率，要保证光伏组件有较好的输出特性，就要保持其表面良好的清扫度。

随着自动化技术的发展，适用于光伏电站的机器人清扫技术也逐渐成熟。清扫机器人的使用，极大降低了运维人员的工作难度，是提升光伏组件发电效率的重要方法。对于一些大型光伏电站而言，光伏组件排布较为密集，未预留轨道安装和清洗设备使用的空间，导致普通的单排和多排光伏组件清洗机器人都无法使用。针对上述情况，市面上出现了一些采用大幅面清洗技术的光伏组件清洗机器人，通过安装转向装置进行转向，清洗方式与其他类型的机器人类似。该类清洗机器人的优点是采用模块化设计，易于进行远程监督和管理，可应用于各种安装环境的光伏组件的清扫。但同时也存在一些缺点：受装置体积、电池容量及使用方法的限制，单次清洗的光伏组件装机容量相对较小，且设备运行稳定性较差，维护成本投入较高。现有技术对光伏清洁机器人的能耗缺乏有效管理，考虑的影响能耗的因素过少，或者通过理论计算能耗但难以对光伏清洁机器人的行走和工作进行有效调控。

如公告号为CN111506053A的专利公开了一种运动控制方法、装置以及清洁设备，运动控制方法包括接收横梁沿第一方向运动过程中，前置检测部件的第一检测信号和后置检测部件的第二检测信号；根据第一检测信号以及第二检测信号判断横梁是否处于偏斜状态；若横梁发生偏斜，则根据第一检测信号、第二检测信号以及预设参考速度调节横梁在长度方向的两个端部中至少一个端部侧的电机的转速，以纠正横梁的状态。该发明实施例提供一种运动控制方法、装置以及清洁设备，能够在清洁设备行走时，实时监测行走偏斜并对其进行纠正，提高清洁设备的越障能力，避免其在服役过程中出现卡滞，以降低系统能耗，保证对光伏板等平板结构的清洁效率。

如公开号为CN116048135A的专利申请公开了一种光伏清洁机器人续航优化方法，包括以下步骤：S1：光伏追踪发电装置追踪；S2：RVFL神经网络预测模型判断清洁时刻。该发明利用光伏追踪发电装置根据光照强度和光照角度来决定光伏板的朝向位置，使得发电装置中光伏板始终对着光照最强位置，使发电装置的效率始终处于最佳状态；并根据光伏发电板群体的发电电流量、光照强度、光照角度、空气湿度等因素来计算转换效率，并通过转换效率预测清洁时刻，提高光伏清洁机器人的清洁效率以及适用性，减少重复清洁浪费的能耗。

以上专利都存在本背景技术提出的问题：对光伏清洁机器人的管理中考虑的影响能耗的因素过少，或者通过理论计算能耗但难以对光伏清洁机器人的行走和工作进行有效调控。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种用于光伏清扫机器人的行走控制优化方法，在机器人行走过程中优化行走路线，调整行走速度，从而降低能耗，增加续航，更加高效地完成清扫任务。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供一种用于光伏清扫机器人的行走控制优化方法，包括以下步骤：

S1：对待清扫的光伏组件进行环境建模，定义环境状态；

S2：基于所述环境状态，根据能耗构建清扫机器人的奖励函数；

S3：构建策略网络，并进行参数初始化；

S4：通过策略网络选择执行一个动作，采集并记录相关参数，根据奖励函数计算奖励值并更新环境状态；

S5：计算累计奖励值并根据所述累计奖励值更新策略网络的参数；

S6：重复步骤S4~S5，直至累计奖励值收敛，完成策略网络的训练；

S7：保存完成训练的策略网络并部署应用。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述环境建模的方法如下：将待清扫的光伏组件划分为同等大小的清扫单元；所述清扫单元为清扫机器人清扫的最小单位；为每个清扫单元编号并初始化设置清扫状态；所述清扫状态包括待清扫和已清扫，初始化设置时将所有清扫单元的清扫状态设置为待清扫；

所述环境状态包括待清扫单元的集合以及清扫机器人当前所处清扫单元的位置。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述奖励函数的公式如下：

；

其中，表示执行的动作；/>表示执行/>时清扫机器人所处状态；/>表示清扫机器人执行动作/>后得到的奖励值；/>表示清扫机器人执行动作/>的第一能耗值，表示清扫机器人执行动作/>的第二能耗值，/>表示清扫机器人执行动作/>的第三能耗值，/>表示清扫机器人执行动作/>的第四能耗值。作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量，计算公式如下：

；

其中，I表示清扫机器人的转动惯量；为清扫机器人执行动作/>的平均角速度；为清扫机器人执行动作/>的转动角度。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述第二能耗值表示清扫机器人执行任一动作时爬坡消耗的能量，计算公式如下：

；

其中，m为清扫机器人的质量；g为重力加速度；表示清扫机器人执行动作a之后与执行动作a之前的高度差。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述第三能耗值表示清扫机器人执行任一动作时摩擦消耗的能量，计算公式如下：

；

其中，μ表示清扫机器人与光伏组件间的摩擦系数；θ表示光伏组件的倾斜角；表示积分函数；T为执行动作a所需执行时间；/>为清扫机器人的线速度；/>表示清扫机器人第i个运动组件的变速因子；i的取值范围为1，2，……，n，n为清扫机器人的运动组件的个数；/>表示第i个运动组件与清扫机器人中轴线间的距离。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述变速因子的取值规则如下：当清扫机器人左转时，位于中轴线左侧的运动组件的变速因子取值为-1，位于中轴线右侧的运动组件的变速因子取值为1；当清扫机器人右转时，位于中轴线左侧的运动组件的变速因子取值为1，位于中轴线右侧的运动组件的变速因子取值为-1；当清扫机器人直行，任一变速因子取值为0。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述第四能耗值表示清扫机器人执行任一动作时克服风阻力消耗的能量，计算公式如下：

；

其中，ρ表示空气密度；A表示清扫机器人与中轴线垂直方向的最大截面积；为清扫机器人的风阻系数，由风洞试验获得；/>表示清扫机器人与风的相对速度，计算公式如下：

；

其中，为风速，φ为清扫机器人前进方向与风向间的夹角。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述策略网络包括输入层，隐藏层，输出层；其中，输入层用于输入环境状态的特征向量；隐藏层用于进一步提取环境状态的特征；输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：清扫机器人从当前所在清扫单元，以固定的线速度移动至任一待清扫单元为一个动作；所述选择执行一个动作的方法如下：

将当前环境状态的特征向量输入所述策略网络，得到当前环境状态下可执行的动作以及每个动作对应的选择概率；

设置一个阈值参数ε，取值范围为（0，0.2]；

生成一个随机数r，取值范围为[0，1]；若r大于等于ε，则执行选择概率最高的动作；若r小于ε，则随机选择一个动作执行；将执行动作后清扫机器人所在清扫单元的状态更新为已清扫。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：所述累计奖励值的计算公式如下：

；

其中，表示当前的累计奖励值；N表示已经执行的动作的个数；β表示折扣因子，表示折扣因子β的j次幂；/>表示在环境状态/>下执行动作/>的奖励值；j的取值范围为1，2，……，N。

作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案，其中：更新策略网络的参数的计算公式如下：

；

其中，δ表示策略网络中任一参数；表示括号内的函数对δ求梯度；η为学习率；/>为损失函数，计算公式如下：

；

其中，表示在环境状态/>下动作/>的选择概率。

第二方面，本发明提供一种电子设备，包括存储器，用于存储指令；处理器，用于执行所述指令，使得所述设备执行实现本发明所述的一种用于光伏清扫机器人的行走控制优化方法的操作。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本发明所述的一种用于光伏清扫机器人的行走控制优化方法。

与现有技术相比，本发明所达到的有益效果如下：

通过建立能耗模型和采用深度强化学习的方法，可以在机器人行走过程中优化行走路线，调整行走速度，从而降低能耗，增加续航，在有限的电池容量下更长时间地工作，更加高效地完成清扫任务。

使机器人能够自主学习并适应不同环境和任务需求。机器人可以通过与环境的交互，根据实时的能耗情况和任务需求，不断优化行走控制策略，提高机器人的工作性能和自适应能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明提供的用于光伏清扫机器人的行走控制优化方法流程图；

图2为本发明提供的用于生成可执行动作及选择概率的策略网络的结构示意图；

图3为本发明提供的策略网络训练时清扫机器人选择动作进行执行的方法流程图；

图4为本发明提供的以控制能耗为目标的奖励函数的构成示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细地说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例1

本实施例介绍一种用于光伏清扫机器人的行走控制优化方法，参照图1，该方法包括以下步骤：

S1：对待清扫的光伏组件进行环境建模，定义环境状态；

所述环境建模的方法如下：将待清扫的光伏组件划分为同等大小的清扫单元；所述清扫单元为清扫机器人清扫的最小单位；为每个清扫单元编号并初始化设置清扫状态；所述清扫状态包括待清扫和已清扫，初始化设置时将所有清扫单元的清扫状态设置为待清扫；

所述环境状态包括待清扫单元的集合以及清扫机器人当前所处清扫单元的位置；

所述奖励函数为清扫机器人执行一个动作后得到的负向奖励，用于训练清扫机器人学习选择能耗低的动作；参照图4，奖励函数的计算公式如下：

；

其中，表示执行的动作；/>表示执行/>时清扫机器人所处状态；/>表示清扫机器人执行动作/>后得到的奖励值；/>表示清扫机器人执行动作/>的第一能耗值，表示清扫机器人执行动作/>的第二能耗值，/>表示清扫机器人执行动作/>的第三能耗值，/>表示清扫机器人执行动作/>的第四能耗值。所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量，计算公式如下：

；

其中，I表示清扫机器人的转动惯量；为清扫机器人执行动作/>的平均角速度；为清扫机器人执行动作/>的转动角度；所述转动角度指清扫机器人在执行动作a前后中轴线转过的角度；

所述第二能耗值表示清扫机器人执行任一动作时爬坡消耗的能量，计算公式如下：

；

其中，m为清扫机器人的质量；g为重力加速度；表示清扫机器人执行动作a之后与执行动作a之前的高度差；

所述第三能耗值表示清扫机器人执行任一动作时摩擦消耗的能量，计算公式如下：

；

其中，μ表示清扫机器人与光伏组件间的摩擦系数；θ表示光伏组件的倾斜角；表示积分函数；T为执行动作a所需执行时间；/>为清扫机器人的线速度；/>表示清扫机器人第i个运动组件的变速因子；i的取值范围为1，2，……，n，n为清扫机器人的运动组件的个数；/>表示第i个运动组件与清扫机器人中轴线间的距离；经过清扫机器人的中心坐标，且与清扫机器人前进方向重合的直线为清扫机器人的中轴线；

变速因子的取值规则如下：当清扫机器人左转时，位于中轴线左侧的运动组件的变速因子取值为-1，位于中轴线右侧的运动组件的变速因子取值为1；当清扫机器人右转时，位于中轴线左侧的运动组件的变速因子取值为1，位于中轴线右侧的运动组件的变速因子取值为-1；当清扫机器人直行，任一变速因子取值为0；

所述第四能耗值表示清扫机器人执行任一动作时克服风阻力消耗的能量，计算公式如下：

；

其中，为风速，φ为清扫机器人前进方向与风向间的夹角；

S3：构建策略网络，并进行参数初始化；

参照图2，所述策略网络包括输入层，隐藏层，输出层；其中，输入层用于输入环境状态的特征向量；隐藏层用于进一步提取环境状态的特征；输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率；使用softmax函数将输出转化为概率分布，以确保所有动作的选择概率之和为1；

清扫机器人从当前所在清扫单元，以固定的线速度移动至任一待清扫单元为一个动作；策略网络会生成从当前位置采取不同的线速度到达不同的待清扫单元的每个动作以及每个动作对应的选择概率；通过后续的策略网络训练，清扫机器人能够逐渐选择使累计能耗最小的方式进行行走速度设置和路径选择。

所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向；通过传感器采集上述参数，用于计算奖励值。

参照图3，选择执行一个动作的方法如下：

设置一个阈值参数ε，取值范围为（0，0.2]；

生成一个随机数r，取值范围为[0，1]；若r大于等于ε，则执行选择概率最高的动作；若r小于ε，则随机选择一个动作执行；将执行动作后清扫机器人所在清扫单元的状态更新为已清扫；

通过引入随机性，避免了简单的选择策略网络计算的选择概率最大的动作，可以避免陷入局部最优解，提高全局搜索能力；由于策略网络的输出是基于对当前状态的估计，存在不确定性和噪声，直接选择概率最高的动作可能会受到这些噪声的干扰，引入随机性能够减少对噪声的敏感度，提高方法的鲁棒性。

累计奖励值的计算公式如下：

；

其中，表示当前的累计奖励值；N表示已经执行的动作的个数；β表示折扣因子，取值范围为（0，1]，/>表示折扣因子β的j次幂；/>表示在环境状态/>下执行动作的奖励值；j的取值范围为1，2，……，N；

更新策略网络的参数的计算公式如下：

；

其中，表示在环境状态/>下动作/>的选择概率；

经过上述参数更新，策略网络会对能耗更低的动作分配更大的选择概率；这样的更新过程会不断地重复进行，策略网络逐渐学习到在不同环境状态下每个可执行动作的最优概率分布，以最小化负向累积奖励。

重复进行步骤S4~S5，至清扫任务完成，即所有清扫单元的清扫状态为一次迭代；重复迭代并在每次迭代后记录累计奖励值；当多次迭代后，累计奖励值趋于稳定，不再发生显著波动，即认为累计奖励值收敛，策略网络已经能够做出使清扫机器人累计能耗最小的行走决策。

S7：保存完成训练的策略网络并部署应用。

通过对环境进行建模，定义环境状态，通过保存的策略网络来计算每个环境状态下可执行的动作以及每个动作对应的选择概率，选择并执行动作，并更新环境状态；重复此过程直至完成光伏组件清扫任务，清扫机器人能够以能耗为约束，在完成清扫任务的同时尽可能的减少能耗，从而增加续航，提高清扫效率。

实施例2

与其它实施例基于相同的发明构思，本实施例介绍一种电子设备，包括存储器和处理器，存储器用于存储指令，处理器用于执行该指令，使得计算机设备执行实现实施例1所提供的用于光伏清扫机器人的行走控制优化方法。

由于本实施例所介绍的电子设备为实施本申请实施例中用于光伏清扫机器人的行走控制优化方法所采用的电子设备，故而基于本申请实施例中所介绍的用于光伏清扫机器人的行走控制优化方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中用于光伏清扫机器人的行走控制优化方法所采用的电子设备，都属于本申请所欲保护的范围。

实施例3

与其它实施例基于相同的发明构思，本实施例介绍一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述各方法所提供的用于光伏清扫机器人的行走控制优化方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种用于光伏清扫机器人的行走控制优化方法，其特征在于：包括以下步骤：

S1：对待清扫的光伏组件进行环境建模，定义环境状态；

所述奖励函数的公式如下：

；

其中，表示执行的动作；/>表示执行/>时清扫机器人所处状态；/>表示清扫机器人执行动作/>后得到的奖励值；/>表示清扫机器人执行动作/>的第一能耗值，表示清扫机器人执行动作/>的第二能耗值，/>表示清扫机器人执行动作/>的第三能耗值，/>表示清扫机器人执行动作/>的第四能耗值；

所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量，计算公式如下：

；

其中，I表示清扫机器人的转动惯量；为清扫机器人执行动作/>的平均角速度；/>为清扫机器人执行动作/>的转动角度；

；

其中，μ表示清扫机器人与光伏组件间的摩擦系数；θ表示光伏组件的倾斜角；表示积分函数；T为执行动作a所需执行时间；/>为清扫机器人的线速度；/>表示清扫机器人第i个运动组件的变速因子；i的取值范围为1，2，……，n，n为清扫机器人的运动组件的个数；/>表示第i个运动组件与清扫机器人中轴线间的距离；

；

其中，为风速，φ为清扫机器人前进方向与风向间的夹角；

S3：构建策略网络，并进行参数初始化；

S7：保存完成训练的策略网络并部署应用。

2.如权利要求1所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：所述环境建模的方法如下：将待清扫的光伏组件划分为同等大小的清扫单元；所述清扫单元为清扫机器人清扫的最小单位；为每个清扫单元编号并初始化设置清扫状态；所述清扫状态包括待清扫和已清扫，初始化设置时将所有清扫单元的清扫状态设置为待清扫；

3.如权利要求2所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：所述变速因子的取值规则如下：当清扫机器人左转时，位于中轴线左侧的运动组件的变速因子取值为-1，位于中轴线右侧的运动组件的变速因子取值为1；当清扫机器人右转时，位于中轴线左侧的运动组件的变速因子取值为1，位于中轴线右侧的运动组件的变速因子取值为-1；当清扫机器人直行，任一变速因子取值为0。

4.如权利要求3所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：所述策略网络包括输入层，隐藏层，输出层；其中，输入层用于输入环境状态的特征向量；隐藏层用于进一步提取环境状态的特征；输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率。

5.如权利要求4所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向。

6.如权利要求5所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：清扫机器人从当前所在清扫单元，以固定的线速度移动至任一待清扫单元为一个动作；所述选择执行一个动作的方法如下：

设置一个阈值参数ε，取值范围为（0，0.2]；

7.如权利要求6所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：所述累计奖励值的计算公式如下：

；

其中，表示当前的累计奖励值；N表示已经执行的动作的个数；β表示折扣因子，/>表示折扣因子β的j次幂；/>表示在环境状态/>下执行动作/>的奖励值；j的取值范围为1，2，……，N。

8.如权利要求7所述的一种用于光伏清扫机器人的行走控制优化方法，其特征在于：更新策略网络的参数的计算公式如下：

；

其中，δ表示策略网络中任一参数；表示括号内的函数对δ求梯度；η为学习率；为损失函数，计算公式如下：

；

其中，表示在环境状态/>下动作/>的选择概率。

9.一种电子设备，其特征在于，包括：存储器，用于存储指令；处理器，用于执行所述指令，使得所述设备执行实现如权利要求1-8中任一项所述的一种用于光伏清扫机器人的行走控制优化方法的操作。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-8中任一项所述的一种用于光伏清扫机器人的行走控制优化方法。