CN117666593B - 一种用于光伏清扫机器人的行走控制优化方法 - Google Patents

一种用于光伏清扫机器人的行走控制优化方法 Download PDF

Info

Publication number
CN117666593B
CN117666593B CN202410141863.4A CN202410141863A CN117666593B CN 117666593 B CN117666593 B CN 117666593B CN 202410141863 A CN202410141863 A CN 202410141863A CN 117666593 B CN117666593 B CN 117666593B
Authority
CN
China
Prior art keywords
cleaning robot
action
cleaning
photovoltaic
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410141863.4A
Other languages
English (en)
Other versions
CN117666593A (zh
Inventor
黄显达
黄立军
刘以清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Lanxu Technology Co ltd
Original Assignee
Xiamen Lanxu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Lanxu Technology Co ltd filed Critical Xiamen Lanxu Technology Co ltd
Priority to CN202410141863.4A priority Critical patent/CN117666593B/zh
Publication of CN117666593A publication Critical patent/CN117666593A/zh
Application granted granted Critical
Publication of CN117666593B publication Critical patent/CN117666593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/50Photovoltaic [PV] energy

Abstract

本发明涉及光伏组件清洁的技术领域,公开了一种用于光伏清扫机器人的行走控制优化方法,包括以下步骤:S1:对待清扫的光伏组件进行环境建模,定义环境状态;S2:基于所述环境状态,根据能耗构建清扫机器人的奖励函数;S3:构建策略网络,并进行参数初始化;S4:通过策略网络选择执行一个动作,采集并记录相关参数,根据奖励函数计算奖励值并更新环境状态;S5:计算累计奖励值并根据所述累计奖励值更新策略网络的参数;S6:重复步骤S4~S5,直至累计奖励值收敛,完成策略网络的训练;S7:保存完成训练的策略网络并部署应用。本发明能够在机器人行走过程中优化行走路线,调整行走速度,从而降低能耗,更加高效地完成清扫任务。

Description

一种用于光伏清扫机器人的行走控制优化方法
技术领域
本发明涉及光伏组件清洁的技术领域,具体涉及一种用于光伏清扫机器人的行走控制优化方法。
背景技术
光伏组件是光伏电站的发电单元,光伏组件的光电转化率、现场辐照度和气候条件是决定电站性能和发电收益的基本因素。除此之外,在电站运行维护中保证组件表面的清扫,减少灰尘的遮挡,也是提升光伏组件输出功率的重要方法。在太阳辐照度和光伏组件性能一定的情况下,光伏组件表面灰尘的堆积会极大影响输出功率,要保证光伏组件有较好的输出特性,就要保持其表面良好的清扫度。
随着自动化技术的发展,适用于光伏电站的机器人清扫技术也逐渐成熟。清扫机器人的使用,极大降低了运维人员的工作难度,是提升光伏组件发电效率的重要方法。对于一些大型光伏电站而言,光伏组件排布较为密集,未预留轨道安装和清洗设备使用的空间,导致普通的单排和多排光伏组件清洗机器人都无法使用。针对上述情况,市面上出现了一些采用大幅面清洗技术的光伏组件清洗机器人,通过安装转向装置进行转向,清洗方式与其他类型的机器人类似。该类清洗机器人的优点是采用模块化设计,易于进行远程监督和管理,可应用于各种安装环境的光伏组件的清扫。但同时也存在一些缺点:受装置体积、电池容量及使用方法的限制,单次清洗的光伏组件装机容量相对较小,且设备运行稳定性较差,维护成本投入较高。现有技术对光伏清洁机器人的能耗缺乏有效管理,考虑的影响能耗的因素过少,或者通过理论计算能耗但难以对光伏清洁机器人的行走和工作进行有效调控。
如公告号为CN111506053A的专利公开了一种运动控制方法、装置以及清洁设备,运动控制方法包括接收横梁沿第一方向运动过程中,前置检测部件的第一检测信号和后置检测部件的第二检测信号;根据第一检测信号以及第二检测信号判断横梁是否处于偏斜状态;若横梁发生偏斜,则根据第一检测信号、第二检测信号以及预设参考速度调节横梁在长度方向的两个端部中至少一个端部侧的电机的转速,以纠正横梁的状态。该发明实施例提供一种运动控制方法、装置以及清洁设备,能够在清洁设备行走时,实时监测行走偏斜并对其进行纠正,提高清洁设备的越障能力,避免其在服役过程中出现卡滞,以降低系统能耗,保证对光伏板等平板结构的清洁效率。
如公开号为CN116048135A的专利申请公开了一种光伏清洁机器人续航优化方法,包括以下步骤:S1:光伏追踪发电装置追踪;S2:RVFL神经网络预测模型判断清洁时刻。该发明利用光伏追踪发电装置根据光照强度和光照角度来决定光伏板的朝向位置,使得发电装置中光伏板始终对着光照最强位置,使发电装置的效率始终处于最佳状态;并根据光伏发电板群体的发电电流量、光照强度、光照角度、空气湿度等因素来计算转换效率,并通过转换效率预测清洁时刻,提高光伏清洁机器人的清洁效率以及适用性,减少重复清洁浪费的能耗。
以上专利都存在本背景技术提出的问题:对光伏清洁机器人的管理中考虑的影响能耗的因素过少,或者通过理论计算能耗但难以对光伏清洁机器人的行走和工作进行有效调控。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种用于光伏清扫机器人的行走控制优化方法,在机器人行走过程中优化行走路线,调整行走速度,从而降低能耗,增加续航,更加高效地完成清扫任务。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供一种用于光伏清扫机器人的行走控制优化方法,包括以下步骤:
S1:对待清扫的光伏组件进行环境建模,定义环境状态;
S2:基于所述环境状态,根据能耗构建清扫机器人的奖励函数;
S3:构建策略网络,并进行参数初始化;
S4:通过策略网络选择执行一个动作,采集并记录相关参数,根据奖励函数计算奖励值并更新环境状态;
S5:计算累计奖励值并根据所述累计奖励值更新策略网络的参数;
S6:重复步骤S4~S5,直至累计奖励值收敛,完成策略网络的训练;
S7:保存完成训练的策略网络并部署应用。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述环境建模的方法如下:将待清扫的光伏组件划分为同等大小的清扫单元;所述清扫单元为清扫机器人清扫的最小单位;为每个清扫单元编号并初始化设置清扫状态;所述清扫状态包括待清扫和已清扫,初始化设置时将所有清扫单元的清扫状态设置为待清扫;
所述环境状态包括待清扫单元的集合以及清扫机器人当前所处清扫单元的位置。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述奖励函数的公式如下:
其中,表示执行的动作;/>表示执行/>时清扫机器人所处状态;/>表示清扫机器人执行动作/>后得到的奖励值;/>表示清扫机器人执行动作/>的第一能耗值,表示清扫机器人执行动作/>的第二能耗值,/>表示清扫机器人执行动作/>的第三能耗值,/>表示清扫机器人执行动作/>的第四能耗值。作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量,计算公式如下:
其中,I表示清扫机器人的转动惯量;为清扫机器人执行动作/>的平均角速度;为清扫机器人执行动作/>的转动角度。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述第二能耗值表示清扫机器人执行任一动作时爬坡消耗的能量,计算公式如下:
其中,m为清扫机器人的质量;g为重力加速度;表示清扫机器人执行动作a之后与执行动作a之前的高度差。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述第三能耗值表示清扫机器人执行任一动作时摩擦消耗的能量,计算公式如下:
其中,μ表示清扫机器人与光伏组件间的摩擦系数;θ表示光伏组件的倾斜角;表示积分函数;T为执行动作a所需执行时间;/>为清扫机器人的线速度;/>表示清扫机器人第i个运动组件的变速因子;i的取值范围为1,2,……,n,n为清扫机器人的运动组件的个数;/>表示第i个运动组件与清扫机器人中轴线间的距离。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述变速因子的取值规则如下:当清扫机器人左转时,位于中轴线左侧的运动组件的变速因子取值为-1,位于中轴线右侧的运动组件的变速因子取值为1;当清扫机器人右转时,位于中轴线左侧的运动组件的变速因子取值为1,位于中轴线右侧的运动组件的变速因子取值为-1;当清扫机器人直行,任一变速因子取值为0。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述第四能耗值表示清扫机器人执行任一动作时克服风阻力消耗的能量,计算公式如下:
其中,ρ表示空气密度;A表示清扫机器人与中轴线垂直方向的最大截面积;为清扫机器人的风阻系数,由风洞试验获得;/>表示清扫机器人与风的相对速度,计算公式如下:
其中,为风速,φ为清扫机器人前进方向与风向间的夹角。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述策略网络包括输入层,隐藏层,输出层;其中,输入层用于输入环境状态的特征向量;隐藏层用于进一步提取环境状态的特征;输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:清扫机器人从当前所在清扫单元,以固定的线速度移动至任一待清扫单元为一个动作;所述选择执行一个动作的方法如下:
将当前环境状态的特征向量输入所述策略网络,得到当前环境状态下可执行的动作以及每个动作对应的选择概率;
设置一个阈值参数ε,取值范围为(0,0.2];
生成一个随机数r,取值范围为[0,1];若r大于等于ε,则执行选择概率最高的动作;若r小于ε,则随机选择一个动作执行;将执行动作后清扫机器人所在清扫单元的状态更新为已清扫。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:所述累计奖励值的计算公式如下:
其中,表示当前的累计奖励值;N表示已经执行的动作的个数;β表示折扣因子,表示折扣因子β的j次幂;/>表示在环境状态/>下执行动作/>的奖励值;j的取值范围为1,2,……,N。
作为本发明所述用于光伏清扫机器人的行走控制优化方法的一种优选方案,其中:更新策略网络的参数的计算公式如下:
其中,δ表示策略网络中任一参数;表示括号内的函数对δ求梯度;η为学习率;/>为损失函数,计算公式如下:
其中,表示在环境状态/>下动作/>的选择概率。
第二方面,本发明提供一种电子设备,包括存储器,用于存储指令;处理器,用于执行所述指令,使得所述设备执行实现本发明所述的一种用于光伏清扫机器人的行走控制优化方法的操作。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本发明所述的一种用于光伏清扫机器人的行走控制优化方法。
与现有技术相比,本发明所达到的有益效果如下:
通过建立能耗模型和采用深度强化学习的方法,可以在机器人行走过程中优化行走路线,调整行走速度,从而降低能耗,增加续航,在有限的电池容量下更长时间地工作,更加高效地完成清扫任务。
使机器人能够自主学习并适应不同环境和任务需求。机器人可以通过与环境的交互,根据实时的能耗情况和任务需求,不断优化行走控制策略,提高机器人的工作性能和自适应能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明提供的用于光伏清扫机器人的行走控制优化方法流程图;
图2为本发明提供的用于生成可执行动作及选择概率的策略网络的结构示意图;
图3为本发明提供的策略网络训练时清扫机器人选择动作进行执行的方法流程图;
图4为本发明提供的以控制能耗为目标的奖励函数的构成示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细地说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例1
本实施例介绍一种用于光伏清扫机器人的行走控制优化方法,参照图1,该方法包括以下步骤:
S1:对待清扫的光伏组件进行环境建模,定义环境状态;
所述环境建模的方法如下:将待清扫的光伏组件划分为同等大小的清扫单元;所述清扫单元为清扫机器人清扫的最小单位;为每个清扫单元编号并初始化设置清扫状态;所述清扫状态包括待清扫和已清扫,初始化设置时将所有清扫单元的清扫状态设置为待清扫;
所述环境状态包括待清扫单元的集合以及清扫机器人当前所处清扫单元的位置;
S2:基于所述环境状态,根据能耗构建清扫机器人的奖励函数;
所述奖励函数为清扫机器人执行一个动作后得到的负向奖励,用于训练清扫机器人学习选择能耗低的动作;参照图4,奖励函数的计算公式如下:
其中,表示执行的动作;/>表示执行/>时清扫机器人所处状态;/>表示清扫机器人执行动作/>后得到的奖励值;/>表示清扫机器人执行动作/>的第一能耗值,表示清扫机器人执行动作/>的第二能耗值,/>表示清扫机器人执行动作/>的第三能耗值,/>表示清扫机器人执行动作/>的第四能耗值。所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量,计算公式如下:
其中,I表示清扫机器人的转动惯量;为清扫机器人执行动作/>的平均角速度;为清扫机器人执行动作/>的转动角度;所述转动角度指清扫机器人在执行动作a前后中轴线转过的角度;
所述第二能耗值表示清扫机器人执行任一动作时爬坡消耗的能量,计算公式如下:
其中,m为清扫机器人的质量;g为重力加速度;表示清扫机器人执行动作a之后与执行动作a之前的高度差;
所述第三能耗值表示清扫机器人执行任一动作时摩擦消耗的能量,计算公式如下:
其中,μ表示清扫机器人与光伏组件间的摩擦系数;θ表示光伏组件的倾斜角;表示积分函数;T为执行动作a所需执行时间;/>为清扫机器人的线速度;/>表示清扫机器人第i个运动组件的变速因子;i的取值范围为1,2,……,n,n为清扫机器人的运动组件的个数;/>表示第i个运动组件与清扫机器人中轴线间的距离;经过清扫机器人的中心坐标,且与清扫机器人前进方向重合的直线为清扫机器人的中轴线;
变速因子的取值规则如下:当清扫机器人左转时,位于中轴线左侧的运动组件的变速因子取值为-1,位于中轴线右侧的运动组件的变速因子取值为1;当清扫机器人右转时,位于中轴线左侧的运动组件的变速因子取值为1,位于中轴线右侧的运动组件的变速因子取值为-1;当清扫机器人直行,任一变速因子取值为0;
所述第四能耗值表示清扫机器人执行任一动作时克服风阻力消耗的能量,计算公式如下:
其中,ρ表示空气密度;A表示清扫机器人与中轴线垂直方向的最大截面积;为清扫机器人的风阻系数,由风洞试验获得;/>表示清扫机器人与风的相对速度,计算公式如下:
其中,为风速,φ为清扫机器人前进方向与风向间的夹角;
S3:构建策略网络,并进行参数初始化;
参照图2,所述策略网络包括输入层,隐藏层,输出层;其中,输入层用于输入环境状态的特征向量;隐藏层用于进一步提取环境状态的特征;输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率;使用softmax函数将输出转化为概率分布,以确保所有动作的选择概率之和为1;
S4:通过策略网络选择执行一个动作,采集并记录相关参数,根据奖励函数计算奖励值并更新环境状态;
清扫机器人从当前所在清扫单元,以固定的线速度移动至任一待清扫单元为一个动作;策略网络会生成从当前位置采取不同的线速度到达不同的待清扫单元的每个动作以及每个动作对应的选择概率;通过后续的策略网络训练,清扫机器人能够逐渐选择使累计能耗最小的方式进行行走速度设置和路径选择。
所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向;通过传感器采集上述参数,用于计算奖励值。
参照图3,选择执行一个动作的方法如下:
将当前环境状态的特征向量输入所述策略网络,得到当前环境状态下可执行的动作以及每个动作对应的选择概率;
设置一个阈值参数ε,取值范围为(0,0.2];
生成一个随机数r,取值范围为[0,1];若r大于等于ε,则执行选择概率最高的动作;若r小于ε,则随机选择一个动作执行;将执行动作后清扫机器人所在清扫单元的状态更新为已清扫;
通过引入随机性,避免了简单的选择策略网络计算的选择概率最大的动作,可以避免陷入局部最优解,提高全局搜索能力;由于策略网络的输出是基于对当前状态的估计,存在不确定性和噪声,直接选择概率最高的动作可能会受到这些噪声的干扰,引入随机性能够减少对噪声的敏感度,提高方法的鲁棒性。
S5:计算累计奖励值并根据所述累计奖励值更新策略网络的参数;
累计奖励值的计算公式如下:
其中,表示当前的累计奖励值;N表示已经执行的动作的个数;β表示折扣因子,取值范围为(0,1],/>表示折扣因子β的j次幂;/>表示在环境状态/>下执行动作的奖励值;j的取值范围为1,2,……,N;
更新策略网络的参数的计算公式如下:
其中,δ表示策略网络中任一参数;表示括号内的函数对δ求梯度;η为学习率;/>为损失函数,计算公式如下:
其中,表示在环境状态/>下动作/>的选择概率;
经过上述参数更新,策略网络会对能耗更低的动作分配更大的选择概率;这样的更新过程会不断地重复进行,策略网络逐渐学习到在不同环境状态下每个可执行动作的最优概率分布,以最小化负向累积奖励。
S6:重复步骤S4~S5,直至累计奖励值收敛,完成策略网络的训练;
重复进行步骤S4~S5,至清扫任务完成,即所有清扫单元的清扫状态为一次迭代;重复迭代并在每次迭代后记录累计奖励值;当多次迭代后,累计奖励值趋于稳定,不再发生显著波动,即认为累计奖励值收敛,策略网络已经能够做出使清扫机器人累计能耗最小的行走决策。
S7:保存完成训练的策略网络并部署应用。
通过对环境进行建模,定义环境状态,通过保存的策略网络来计算每个环境状态下可执行的动作以及每个动作对应的选择概率,选择并执行动作,并更新环境状态;重复此过程直至完成光伏组件清扫任务,清扫机器人能够以能耗为约束,在完成清扫任务的同时尽可能的减少能耗,从而增加续航,提高清扫效率。
实施例2
与其它实施例基于相同的发明构思,本实施例介绍一种电子设备,包括存储器和处理器,存储器用于存储指令,处理器用于执行该指令,使得计算机设备执行实现实施例1所提供的用于光伏清扫机器人的行走控制优化方法。
由于本实施例所介绍的电子设备为实施本申请实施例中用于光伏清扫机器人的行走控制优化方法所采用的电子设备,故而基于本申请实施例中所介绍的用于光伏清扫机器人的行走控制优化方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中用于光伏清扫机器人的行走控制优化方法所采用的电子设备,都属于本申请所欲保护的范围。
实施例3
与其它实施例基于相同的发明构思,本实施例介绍一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述各方法所提供的用于光伏清扫机器人的行走控制优化方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种用于光伏清扫机器人的行走控制优化方法,其特征在于:包括以下步骤:
S1:对待清扫的光伏组件进行环境建模,定义环境状态;
S2:基于所述环境状态,根据能耗构建清扫机器人的奖励函数;
所述奖励函数的公式如下:
其中,表示执行的动作;/>表示执行/>时清扫机器人所处状态;/>表示清扫机器人执行动作/>后得到的奖励值;/>表示清扫机器人执行动作/>的第一能耗值,表示清扫机器人执行动作/>的第二能耗值,/>表示清扫机器人执行动作/>的第三能耗值,/>表示清扫机器人执行动作/>的第四能耗值;
所述第一能耗值表示清扫机器人执行任一动作时转弯消耗的能量,计算公式如下:
其中,I表示清扫机器人的转动惯量;为清扫机器人执行动作/>的平均角速度;/>为清扫机器人执行动作/>的转动角度;
所述第二能耗值表示清扫机器人执行任一动作时爬坡消耗的能量,计算公式如下:
其中,m为清扫机器人的质量;g为重力加速度;表示清扫机器人执行动作a之后与执行动作a之前的高度差;
所述第三能耗值表示清扫机器人执行任一动作时摩擦消耗的能量,计算公式如下:
其中,μ表示清扫机器人与光伏组件间的摩擦系数;θ表示光伏组件的倾斜角;表示积分函数;T为执行动作a所需执行时间;/>为清扫机器人的线速度;/>表示清扫机器人第i个运动组件的变速因子;i的取值范围为1,2,……,n,n为清扫机器人的运动组件的个数;/>表示第i个运动组件与清扫机器人中轴线间的距离;
所述第四能耗值表示清扫机器人执行任一动作时克服风阻力消耗的能量,计算公式如下:
其中,ρ表示空气密度;A表示清扫机器人与中轴线垂直方向的最大截面积;为清扫机器人的风阻系数,由风洞试验获得;/>表示清扫机器人与风的相对速度,计算公式如下:
其中,为风速,φ为清扫机器人前进方向与风向间的夹角;
S3:构建策略网络,并进行参数初始化;
S4:通过策略网络选择执行一个动作,采集并记录相关参数,根据奖励函数计算奖励值并更新环境状态;
S5:计算累计奖励值并根据所述累计奖励值更新策略网络的参数;
S6:重复步骤S4~S5,直至累计奖励值收敛,完成策略网络的训练;
S7:保存完成训练的策略网络并部署应用。
2.如权利要求1所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:所述环境建模的方法如下:将待清扫的光伏组件划分为同等大小的清扫单元;所述清扫单元为清扫机器人清扫的最小单位;为每个清扫单元编号并初始化设置清扫状态;所述清扫状态包括待清扫和已清扫,初始化设置时将所有清扫单元的清扫状态设置为待清扫;
所述环境状态包括待清扫单元的集合以及清扫机器人当前所处清扫单元的位置。
3.如权利要求2所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:所述变速因子的取值规则如下:当清扫机器人左转时,位于中轴线左侧的运动组件的变速因子取值为-1,位于中轴线右侧的运动组件的变速因子取值为1;当清扫机器人右转时,位于中轴线左侧的运动组件的变速因子取值为1,位于中轴线右侧的运动组件的变速因子取值为-1;当清扫机器人直行,任一变速因子取值为0。
4.如权利要求3所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:所述策略网络包括输入层,隐藏层,输出层;其中,输入层用于输入环境状态的特征向量;隐藏层用于进一步提取环境状态的特征;输出层用于生成当前环境状态下清扫机器人可执行的动作以及每个动作对应的选择概率。
5.如权利要求4所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:所述相关参数包括清扫机器人的线速度、角速度、转动角度、执行时间、执行动作之后与执行动作之前的高度差、每个运动组件的变速因子、风速、风向。
6.如权利要求5所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:清扫机器人从当前所在清扫单元,以固定的线速度移动至任一待清扫单元为一个动作;所述选择执行一个动作的方法如下:
将当前环境状态的特征向量输入所述策略网络,得到当前环境状态下可执行的动作以及每个动作对应的选择概率;
设置一个阈值参数ε,取值范围为(0,0.2];
生成一个随机数r,取值范围为[0,1];若r大于等于ε,则执行选择概率最高的动作;若r小于ε,则随机选择一个动作执行;将执行动作后清扫机器人所在清扫单元的状态更新为已清扫。
7.如权利要求6所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:所述累计奖励值的计算公式如下:
其中,表示当前的累计奖励值;N表示已经执行的动作的个数;β表示折扣因子,/>表示折扣因子β的j次幂;/>表示在环境状态/>下执行动作/>的奖励值;j的取值范围为1,2,……,N。
8.如权利要求7所述的一种用于光伏清扫机器人的行走控制优化方法,其特征在于:更新策略网络的参数的计算公式如下:
其中,δ表示策略网络中任一参数;表示括号内的函数对δ求梯度;η为学习率;为损失函数,计算公式如下:
其中,表示在环境状态/>下动作/>的选择概率。
9.一种电子设备,其特征在于,包括:存储器,用于存储指令;处理器,用于执行所述指令,使得所述设备执行实现如权利要求1-8中任一项所述的一种用于光伏清扫机器人的行走控制优化方法的操作。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的一种用于光伏清扫机器人的行走控制优化方法。
CN202410141863.4A 2024-02-01 2024-02-01 一种用于光伏清扫机器人的行走控制优化方法 Active CN117666593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410141863.4A CN117666593B (zh) 2024-02-01 2024-02-01 一种用于光伏清扫机器人的行走控制优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410141863.4A CN117666593B (zh) 2024-02-01 2024-02-01 一种用于光伏清扫机器人的行走控制优化方法

Publications (2)

Publication Number Publication Date
CN117666593A CN117666593A (zh) 2024-03-08
CN117666593B true CN117666593B (zh) 2024-04-09

Family

ID=90086659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410141863.4A Active CN117666593B (zh) 2024-02-01 2024-02-01 一种用于光伏清扫机器人的行走控制优化方法

Country Status (1)

Country Link
CN (1) CN117666593B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205080432U (zh) * 2015-10-22 2016-03-09 山东英利电气有限公司 单一闭环无跑偏驱动的太阳能电池板清扫系统
CN108722929A (zh) * 2018-07-16 2018-11-02 厦门蓝旭科技有限公司 一种光伏清洁机器人行走系统和方法
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN114319662A (zh) * 2021-12-31 2022-04-12 镇江海雷德蒙能源研究院有限公司 一种具有光伏发电功能的节能型建筑幕墙及其安装方法
CN116501064A (zh) * 2023-05-10 2023-07-28 河海大学 一种光伏电站清扫机器人的路径规划及避障方法
CN116578095A (zh) * 2023-06-09 2023-08-11 哈尔滨工程大学 海洋能驱动机器人节能避障方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2943454C (en) * 2014-04-04 2022-08-23 Superpedestrian, Inc. Systems, methods and devices for the operation of electrically motorized vehicles
US20180208312A1 (en) * 2016-11-07 2018-07-26 ZipAir SAS Systems and methods for improved flight control
US20210309383A1 (en) * 2019-03-25 2021-10-07 Beta Air, Llc Systems and methods for maintaining attitude control under degraded energy source conditions using multiple propulsors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN205080432U (zh) * 2015-10-22 2016-03-09 山东英利电气有限公司 单一闭环无跑偏驱动的太阳能电池板清扫系统
CN108722929A (zh) * 2018-07-16 2018-11-02 厦门蓝旭科技有限公司 一种光伏清洁机器人行走系统和方法
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN114319662A (zh) * 2021-12-31 2022-04-12 镇江海雷德蒙能源研究院有限公司 一种具有光伏发电功能的节能型建筑幕墙及其安装方法
CN116501064A (zh) * 2023-05-10 2023-07-28 河海大学 一种光伏电站清扫机器人的路径规划及避障方法
CN116578095A (zh) * 2023-06-09 2023-08-11 哈尔滨工程大学 海洋能驱动机器人节能避障方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
城市轨道交通新能源技术应用研究;崔霆锐 等;《都市快轨交通》;20221218;第35卷(第6期);6 *

Also Published As

Publication number Publication date
CN117666593A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Lakshmanan et al. Complete coverage path planning using reinforcement learning for tetromino based cleaning and maintenance robot
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN112668235A (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN106502250B (zh) 三维空间内多机器人编队的路径规划算法
CN112061116B (zh) 一种基于势能场函数逼近的强化学习方法的泊车策略
CN104009494A (zh) 一种环境经济发电调度方法
CN110989352A (zh) 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN112327821A (zh) 一种基于深度强化学习的智能清洁机器人路径规划方法
CN110906935A (zh) 一种无人艇路径规划方法
CN114696351A (zh) 一种电池储能系统动态优化方法、装置、电子设备和存储介质
CN117666593B (zh) 一种用于光伏清扫机器人的行走控制优化方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN114967713A (zh) 基于强化学习的水下航行器浮力离散变化下的控制方法
CN114037050B (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
CN111813143B (zh) 一种基于强化学习的水下滑翔机智能控制系统及方法
CN114139778A (zh) 风电机组功率预测建模方法及装置
Yu et al. Reinforcement learning-based multi-objective differential evolution for wind farm layout optimization
Bolland et al. Jointly Learning Environments and Control Policies with Projected Stochastic Gradient Ascent
Qiao et al. Application of reinforcement learning based on neural network to dynamic obstacle avoidance
CN109976158B (zh) 基于距离进化n-pso的auv能源优化路径搜寻方法
CN115454061B (zh) 一种基于3d技术的机器人路径避障方法及系统
CN114667852B (zh) 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法
CN116542003A (zh) 基于强化学习的新能源充电站的优化布置方法
CN110989350A (zh) 一种基于膜计算实现井下移动机器人位姿优化方法及装置
Mahadevan et al. Robust mobile robot navigation using partially-observable semi-Markov decision processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant