CN113298386A - 一种分布式多目标深度确定性值网络机器人能量管理方法 - Google Patents
一种分布式多目标深度确定性值网络机器人能量管理方法 Download PDFInfo
- Publication number
- CN113298386A CN113298386A CN202110586212.2A CN202110586212A CN113298386A CN 113298386 A CN113298386 A CN 113298386A CN 202110586212 A CN202110586212 A CN 202110586212A CN 113298386 A CN113298386 A CN 113298386A
- Authority
- CN
- China
- Prior art keywords
- inspection robot
- value
- network
- inspection
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 15
- 238000007689 inspection Methods 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000009471 action Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000002787 reinforcement Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 239000003990 capacitor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Mechanical Engineering (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Robotics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法,该方法能提高巡检机器人的充电效率,获得巡检机器人的最优工作路径。该方法由分布式多目标深度确定性值网络组成;通过多目标深度确定性网络获得巡检机器人的最优充电效率和最优工作路径;多个巡检机器人之间采用一致性协议交换巡检机器人的电量和巡检机器人的位置。该分布式多目标深度确定性值网络机器人能量管理方法减少巡检机器人在工作中的能量损耗,缩短巡检机器人到达工作地点的时间。
Description
技术领域
本发明属于电力系统中机器人巡检领域,涉及一种机器人能量管理方法,适用于电力系统的智能巡检机器人的能量管理。
背景技术
变电站作为电力系统中重要是组成部分,涉及电力系统经济调度和电力系统调控。巡检机器人在电力系统的大规模使用推动了电力系统巡检的智能化发展。机器学习发展迅速,在机器人的应用逐渐普遍。深度确定性值网络通过强化学习和三值网络的结合,能够提高强化学习在学习过程的学习效率和精度。通过标准化全精度权重和量化三元值权重,通过量化训练三元值权重,通过最小化损失函数不断优化,得到最优的三值网络,进而控制强化学习的下一步动作,得到更好的学习效果。
在电力系统的电力巡检中,多巡检机器人构成了一个复杂的调度问题,各巡检机器人通过一致性协议交换电量和机器人所处位置来实现巡检机器人的分布式调度。通过多目标深度确定性网络来优化巡检机器人的充电效率和工作路径,实现巡检机器人能量的最优管理,提高巡检机器人的工作效率,提高巡检机器人的能量利用率。
发明内容
本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法。将智能巡检机器人应用于电力系统的巡检中,能够解决人工巡检所带来的问题,提高电力系统的自动化水平。将能量管理技术应用于智能巡检机器人中,能够提高智能巡检机器人的工作效率和续航能力。本发明采用分布式多目标深度确定性值网络的方法对巡检机器人的能量进行管理,实现巡检机器人的最优能量管理。
所提方法步骤如下。
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,at'+1)为第t+1次交互时状态st+1执行动作at'+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ'(st+1,at+1|θQ')-Q(st,at|θQ))2 (4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1|θQ')为目标价值网络Q值矩阵,Q(st,at|θQ)为网络同步权重Q值矩阵;
通过策略梯度来更网络同步权重Q值矩阵:
其中,θQ和θμ为网络参数;a=μ(st,ν)为动作网络对应的映射;μ(st|θμ)为动作网络;为梯度运算符;更新Q值矩阵的同时,更新全精度权重;三值网络将全精度权重W量化为{-Wl,0,Wl};三值网络表示为:
三值网络的阈值为:
权重为:
步骤4:利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的充电效率为:
其中,η为巡检机器人的充电效率;Iout为巡检机器人工作时的放电电流;Twork为巡检机器人的工作时间;Iin为充电电流;Tcharge为充电时间;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的工作路径为:
sload=∑vrobot×Twork (10)
其中,sload为巡检机器人工作所走的总路程;vrobot为巡检机器人的移动速度;
步骤5:若巡检机器人没有获得最大的奖励值,则重复步骤1-4;若巡检机器人获得最大的奖励值,则执行步骤6;
步骤6:输出最终三值网络并将动作发送给巡检机器人;
步骤7:各巡检机器人之间采用一致性协议交换电量和所在位置,实现多巡检机器人的分布式调度。
附图说明
图1是本发明方法的机器人分布式调度图。
图2是本发明方法的深度确定性值网络图。
图3是本发明方法的巡检机器人能量管理系统图。
图4是本发明方法的巡检机器人巡检工作示意图。
具体实施方式
本发明提出的一种分布式多目标深度确定性值网络机器人能量管理方法,结合附图详细说明如下:
图1是本发明方法的机器人分布式调度图。本发明采用三个巡检机器人来进行分布式架构的搭建,巡检机器人在工作过程中,巡检机器人1与巡检机器人2采用电池电量和机器人所处的位置进行一致性协议交换;巡检机器人2和巡检机器人3采用电池电量和机器人所处的位置进行一致性协议交换;巡检机器人3和巡检机器人1采用电池电量和机器人所处的位置进行一致性协议交换;构成了巡检机器人的分布式调度网络。
图2是本发明方法的深度确定性值网络图。深度确定性值网络包括全精度权重,标准化全精度权重,中间三元值权重,训练量化,最终三值网络,损失函数。
图3是本发明方法的巡检机器人能量管理系统图。智能巡检机器人通过功率传输驱动电机转动,实现巡检机器人的移动。在充电的过程中,通过直流/直流变化将电能传输到超级电容器,实现巡检机器人的充电。巡检机器人的工作电流和超级电容器经过产生的电流采用深度确定性值网络计算输出电流来实现对巡检机器人的电流控制环控制。电流控制环和电压控制环控制巡检机器人的驱动电路来实现机器人的移动。通过深度确定性值网络优化巡检机器人的工作电流来实现巡检机器人的能量管理。
图4是本发明方法的巡检机器人巡检工作示意图。当巡检机器人投入变电站进行巡检工作时,巡检机器人的运行状态通过显示屏显示工作状态。巡检机器人通过显示屏的电量显示来判断是否需要进行充电。当电量不足时,巡检机器人会进行搜索最近的充电桩,巡检机器人进行充电。采用巡检机器人的分布式调度将另一台巡检机器人投入巡检作业。巡检机器人充满电后,投入电力设备的巡检。巡检机器人在充电的过程中,采用深度确定值网络优化充电效率,获得最优的充电效率,减少电能的损耗。当巡检机器人充满电之后,投入电力巡检的作业中,在工作的过程中,采用深度确定性值网络优化最优的运行路径,减少运行过程中的电能损耗。
Claims (1)
1.一种分布式多目标深度确定性值网络机器人能量管理方法,其特征在于,其步骤如下:
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,a′t+1)为第t+1次交互时状态st+1执行动作a′t+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ'(st+1,at+1|θQ')-Q(st,at|θQ))2 (4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1|θQ')为目标价值网络Q值矩阵,Q(st,at|θQ)为网络同步权重Q值矩阵;
通过策略梯度来更网络同步权重Q值矩阵:
其中,θQ和θμ为网络参数;a=μ(st,ν)为动作网络对应的映射;μ(st|θμ)为动作网络;为梯度运算符;更新Q值矩阵的同时,更新全精度权重;三值网络将全精度权重W量化为{-Wl,0,Wl};三值网络表示为:
三值网络的阈值为:
权重为:
步骤4:利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的充电效率为:
其中,η为巡检机器人的充电效率;Iout为巡检机器人工作时的放电电流;Twork为巡检机器人的工作时间;Iin为充电电流;Tcharge为充电时间;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的工作路径为:
sload=∑vrobot×Twork (10)
其中,sload为巡检机器人工作所走的总路程;vrobot为巡检机器人的移动速度;
步骤5:若巡检机器人没有获得最大的奖励值,则重复步骤1-4;若巡检机器人获得最大的奖励值,则执行步骤6;
步骤6:输出最终三值网络并将动作发送给巡检机器人;
步骤7:各巡检机器人之间采用一致性协议交换电量和所在位置,实现多巡检机器人的分布式调度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586212.2A CN113298386B (zh) | 2021-05-27 | 2021-05-27 | 一种分布式多目标深度确定性值网络机器人能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586212.2A CN113298386B (zh) | 2021-05-27 | 2021-05-27 | 一种分布式多目标深度确定性值网络机器人能量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113298386A true CN113298386A (zh) | 2021-08-24 |
CN113298386B CN113298386B (zh) | 2023-08-29 |
Family
ID=77325659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110586212.2A Active CN113298386B (zh) | 2021-05-27 | 2021-05-27 | 一种分布式多目标深度确定性值网络机器人能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298386B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117381850A (zh) * | 2023-10-30 | 2024-01-12 | 齐鲁工业大学(山东省科学院) | 网络化工业机械臂系统分群一致性切换控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106843225A (zh) * | 2017-03-15 | 2017-06-13 | 宜宾学院 | 一种变电站巡检机器人路径规划系统 |
US20190025851A1 (en) * | 2017-07-21 | 2019-01-24 | AI Incorporated | Polymorphic path planning for robotic devices |
US20190332922A1 (en) * | 2017-02-24 | 2019-10-31 | Google Llc | Training policy neural networks using path consistency learning |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
-
2021
- 2021-05-27 CN CN202110586212.2A patent/CN113298386B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190332922A1 (en) * | 2017-02-24 | 2019-10-31 | Google Llc | Training policy neural networks using path consistency learning |
CN106843225A (zh) * | 2017-03-15 | 2017-06-13 | 宜宾学院 | 一种变电站巡检机器人路径规划系统 |
US20190025851A1 (en) * | 2017-07-21 | 2019-01-24 | AI Incorporated | Polymorphic path planning for robotic devices |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
Non-Patent Citations (2)
Title |
---|
LINFEI YIN,ET AL: "A review of machine learning for new generation smart dispatch in power systems", ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, vol. 88, pages 103372 * |
张浩杰;苏治宝;苏波;: "基于深度Q网络学习的机器人端到端控制方法", 仪器仪表学报, no. 10, pages 36 - 43 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117381850A (zh) * | 2023-10-30 | 2024-01-12 | 齐鲁工业大学(山东省科学院) | 网络化工业机械臂系统分群一致性切换控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113298386B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN112615379A (zh) | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 | |
CN107134827B (zh) | 总线式锂电池组均衡系统预测控制方法 | |
CN114217524A (zh) | 一种基于深度强化学习的电网实时自适应决策方法 | |
CN111582445B (zh) | 一种基于脉冲神经网络的高效学习系统及学习方法 | |
CN113298386A (zh) | 一种分布式多目标深度确定性值网络机器人能量管理方法 | |
CN112012875B (zh) | 一种水轮机调节系统pid控制参数的优化方法 | |
CN110212551A (zh) | 基于卷积神经网络的微网无功自动控制方法 | |
CN115179295B (zh) | 一种多欧拉-拉格朗日系统鲁棒二分一致性跟踪控制方法 | |
CN109828451A (zh) | 电动汽车用飞轮电池四自由度磁轴承控制器的构造方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN115912367A (zh) | 一种基于深度强化学习的电力系统运行方式智能生成方法 | |
CN112564189B (zh) | 一种有功无功协调优化控制方法 | |
Chen et al. | Optimization of ADRC Parameters Based on Particle Swarm Optimization Algorithm | |
CN117375097A (zh) | 基于多代理协调控制策略与强化学习的光伏协调自治方法 | |
CN117239764A (zh) | 基于多智能体强化学习的配电网两阶段电压控制方法 | |
CN116544995A (zh) | 基于云边协同的储能电池一致性充放电控制方法及系统 | |
CN115360768A (zh) | 基于muzero和深度强化学习的电力调度方法、装置及存储介质 | |
CN113569358B (zh) | 一种面向产品质量反馈的数字孪生系统模型构建方法 | |
CN111830971B (zh) | 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法 | |
CN118381368B (zh) | 一种逆变器控制的强化学习训练过程加速方法 | |
Wang et al. | Application of GA in motor transfer function | |
CN115202202B (zh) | 一种基于人工智能算法的用电设备控制方法及系统 | |
Chu et al. | The PID Control Algorithm based on Whale Optimization Algorithm Optimized BP Neural Network | |
CN118200135B (zh) | 使用深度强化学习优化aoc光模块传输性能的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |