CN113298386A - 一种分布式多目标深度确定性值网络机器人能量管理方法 - Google Patents

一种分布式多目标深度确定性值网络机器人能量管理方法 Download PDF

Info

Publication number
CN113298386A
CN113298386A CN202110586212.2A CN202110586212A CN113298386A CN 113298386 A CN113298386 A CN 113298386A CN 202110586212 A CN202110586212 A CN 202110586212A CN 113298386 A CN113298386 A CN 113298386A
Authority
CN
China
Prior art keywords
inspection robot
value
network
inspection
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110586212.2A
Other languages
English (en)
Other versions
CN113298386B (zh
Inventor
刘东端
卜祥鹏
莫明山
殷林飞
卢泉
高放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN202110586212.2A priority Critical patent/CN113298386B/zh
Publication of CN113298386A publication Critical patent/CN113298386A/zh
Application granted granted Critical
Publication of CN113298386B publication Critical patent/CN113298386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Mechanical Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法,该方法能提高巡检机器人的充电效率,获得巡检机器人的最优工作路径。该方法由分布式多目标深度确定性值网络组成;通过多目标深度确定性网络获得巡检机器人的最优充电效率和最优工作路径;多个巡检机器人之间采用一致性协议交换巡检机器人的电量和巡检机器人的位置。该分布式多目标深度确定性值网络机器人能量管理方法减少巡检机器人在工作中的能量损耗,缩短巡检机器人到达工作地点的时间。

Description

一种分布式多目标深度确定性值网络机器人能量管理方法
技术领域
本发明属于电力系统中机器人巡检领域,涉及一种机器人能量管理方法,适用于电力系统的智能巡检机器人的能量管理。
背景技术
变电站作为电力系统中重要是组成部分,涉及电力系统经济调度和电力系统调控。巡检机器人在电力系统的大规模使用推动了电力系统巡检的智能化发展。机器学习发展迅速,在机器人的应用逐渐普遍。深度确定性值网络通过强化学习和三值网络的结合,能够提高强化学习在学习过程的学习效率和精度。通过标准化全精度权重和量化三元值权重,通过量化训练三元值权重,通过最小化损失函数不断优化,得到最优的三值网络,进而控制强化学习的下一步动作,得到更好的学习效果。
在电力系统的电力巡检中,多巡检机器人构成了一个复杂的调度问题,各巡检机器人通过一致性协议交换电量和机器人所处位置来实现巡检机器人的分布式调度。通过多目标深度确定性网络来优化巡检机器人的充电效率和工作路径,实现巡检机器人能量的最优管理,提高巡检机器人的工作效率,提高巡检机器人的能量利用率。
发明内容
本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法。将智能巡检机器人应用于电力系统的巡检中,能够解决人工巡检所带来的问题,提高电力系统的自动化水平。将能量管理技术应用于智能巡检机器人中,能够提高智能巡检机器人的工作效率和续航能力。本发明采用分布式多目标深度确定性值网络的方法对巡检机器人的能量进行管理,实现巡检机器人的最优能量管理。
所提方法步骤如下。
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
Figure BDA0003087987700000011
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
Figure BDA0003087987700000021
其中,γi为在第i次交互时的折扣参数值;
Figure BDA0003087987700000022
为在折扣参数γ控制下强化学习过程获得的总奖励;
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
Figure BDA0003087987700000023
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,at'+1)为第t+1次交互时状态st+1执行动作at'+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ'(st+1,at+1Q')-Q(st,atQ))2 (4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1Q')为目标价值网络Q值矩阵,Q(st,atQ)为网络同步权重Q值矩阵;
通过策略梯度来更网络同步权重Q值矩阵:
Figure BDA0003087987700000024
其中,θQ和θμ为网络参数;a=μ(st,ν)为动作网络对应的映射;μ(stμ)为动作网络;
Figure BDA0003087987700000025
为梯度运算符;更新Q值矩阵的同时,更新全精度权重;三值网络将全精度权重W量化为{-Wl,0,Wl};三值网络表示为:
Figure BDA0003087987700000026
其中,
Figure BDA0003087987700000031
为第t时刻三值网络的权重;Wl为正权重;-W为负权重;Δl为阈值;
Figure BDA0003087987700000032
为权重分界点;
三值网络的阈值为:
Figure BDA0003087987700000033
权重为:
Figure BDA0003087987700000034
其中,
Figure BDA0003087987700000035
为权重分界点对应的损失函数值;
Figure BDA0003087987700000036
为当权重值大于阈值之后的损失函数值;
步骤4:利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的充电效率为:
Figure BDA0003087987700000037
其中,η为巡检机器人的充电效率;Iout为巡检机器人工作时的放电电流;Twork为巡检机器人的工作时间;Iin为充电电流;Tcharge为充电时间;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的工作路径为:
sload=∑vrobot×Twork (10)
其中,sload为巡检机器人工作所走的总路程;vrobot为巡检机器人的移动速度;
步骤5:若巡检机器人没有获得最大的奖励值,则重复步骤1-4;若巡检机器人获得最大的奖励值,则执行步骤6;
步骤6:输出最终三值网络并将动作发送给巡检机器人;
步骤7:各巡检机器人之间采用一致性协议交换电量和所在位置,实现多巡检机器人的分布式调度。
附图说明
图1是本发明方法的机器人分布式调度图。
图2是本发明方法的深度确定性值网络图。
图3是本发明方法的巡检机器人能量管理系统图。
图4是本发明方法的巡检机器人巡检工作示意图。
具体实施方式
本发明提出的一种分布式多目标深度确定性值网络机器人能量管理方法,结合附图详细说明如下:
图1是本发明方法的机器人分布式调度图。本发明采用三个巡检机器人来进行分布式架构的搭建,巡检机器人在工作过程中,巡检机器人1与巡检机器人2采用电池电量和机器人所处的位置进行一致性协议交换;巡检机器人2和巡检机器人3采用电池电量和机器人所处的位置进行一致性协议交换;巡检机器人3和巡检机器人1采用电池电量和机器人所处的位置进行一致性协议交换;构成了巡检机器人的分布式调度网络。
图2是本发明方法的深度确定性值网络图。深度确定性值网络包括全精度权重,标准化全精度权重,中间三元值权重,训练量化,最终三值网络,损失函数。
图3是本发明方法的巡检机器人能量管理系统图。智能巡检机器人通过功率传输驱动电机转动,实现巡检机器人的移动。在充电的过程中,通过直流/直流变化将电能传输到超级电容器,实现巡检机器人的充电。巡检机器人的工作电流和超级电容器经过产生的电流采用深度确定性值网络计算输出电流来实现对巡检机器人的电流控制环控制。电流控制环和电压控制环控制巡检机器人的驱动电路来实现机器人的移动。通过深度确定性值网络优化巡检机器人的工作电流来实现巡检机器人的能量管理。
图4是本发明方法的巡检机器人巡检工作示意图。当巡检机器人投入变电站进行巡检工作时,巡检机器人的运行状态通过显示屏显示工作状态。巡检机器人通过显示屏的电量显示来判断是否需要进行充电。当电量不足时,巡检机器人会进行搜索最近的充电桩,巡检机器人进行充电。采用巡检机器人的分布式调度将另一台巡检机器人投入巡检作业。巡检机器人充满电后,投入电力设备的巡检。巡检机器人在充电的过程中,采用深度确定值网络优化充电效率,获得最优的充电效率,减少电能的损耗。当巡检机器人充满电之后,投入电力巡检的作业中,在工作的过程中,采用深度确定性值网络优化最优的运行路径,减少运行过程中的电能损耗。

Claims (1)

1.一种分布式多目标深度确定性值网络机器人能量管理方法,其特征在于,其步骤如下:
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
Figure FDA0003087987690000011
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
Figure FDA0003087987690000012
其中,γi为在第i次交互时的折扣参数值;
Figure FDA0003087987690000013
为在折扣参数γ控制下强化学习过程获得的总奖励;
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
Figure FDA0003087987690000014
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,a′t+1)为第t+1次交互时状态st+1执行动作a′t+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ'(st+1,at+1Q')-Q(st,atQ))2 (4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1Q')为目标价值网络Q值矩阵,Q(st,atQ)为网络同步权重Q值矩阵;
通过策略梯度来更网络同步权重Q值矩阵:
Figure FDA0003087987690000021
其中,θQ和θμ为网络参数;a=μ(st,ν)为动作网络对应的映射;μ(stμ)为动作网络;
Figure FDA0003087987690000022
为梯度运算符;更新Q值矩阵的同时,更新全精度权重;三值网络将全精度权重W量化为{-Wl,0,Wl};三值网络表示为:
Figure FDA0003087987690000023
其中,
Figure FDA0003087987690000024
为第t时刻三值网络的权重;Wl为正权重;-W为负权重;Δl为阈值;
Figure FDA0003087987690000025
为权重分界点;
三值网络的阈值为:
Figure FDA0003087987690000026
权重为:
Figure FDA0003087987690000027
其中,
Figure FDA0003087987690000028
为权重分界点对应的损失函数值;
Figure FDA0003087987690000029
为当权重值大于阈值之后的损失函数值;
步骤4:利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的充电效率为:
Figure FDA00030879876900000210
其中,η为巡检机器人的充电效率;Iout为巡检机器人工作时的放电电流;Twork为巡检机器人的工作时间;Iin为充电电流;Tcharge为充电时间;
通过多目标深度确定性值网络来优化巡检机器人的充电效率巡检机器人的工作路径为:
sload=∑vrobot×Twork (10)
其中,sload为巡检机器人工作所走的总路程;vrobot为巡检机器人的移动速度;
步骤5:若巡检机器人没有获得最大的奖励值,则重复步骤1-4;若巡检机器人获得最大的奖励值,则执行步骤6;
步骤6:输出最终三值网络并将动作发送给巡检机器人;
步骤7:各巡检机器人之间采用一致性协议交换电量和所在位置,实现多巡检机器人的分布式调度。
CN202110586212.2A 2021-05-27 2021-05-27 一种分布式多目标深度确定性值网络机器人能量管理方法 Active CN113298386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110586212.2A CN113298386B (zh) 2021-05-27 2021-05-27 一种分布式多目标深度确定性值网络机器人能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110586212.2A CN113298386B (zh) 2021-05-27 2021-05-27 一种分布式多目标深度确定性值网络机器人能量管理方法

Publications (2)

Publication Number Publication Date
CN113298386A true CN113298386A (zh) 2021-08-24
CN113298386B CN113298386B (zh) 2023-08-29

Family

ID=77325659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110586212.2A Active CN113298386B (zh) 2021-05-27 2021-05-27 一种分布式多目标深度确定性值网络机器人能量管理方法

Country Status (1)

Country Link
CN (1) CN113298386B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117381850A (zh) * 2023-10-30 2024-01-12 齐鲁工业大学(山东省科学院) 网络化工业机械臂系统分群一致性切换控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
US20190025851A1 (en) * 2017-07-21 2019-01-24 AI Incorporated Polymorphic path planning for robotic devices
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
CN111158401A (zh) * 2020-01-20 2020-05-15 北京理工大学 一种分布式鼓励时空数据探索的无人机路径规划系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
CN106843225A (zh) * 2017-03-15 2017-06-13 宜宾学院 一种变电站巡检机器人路径规划系统
US20190025851A1 (en) * 2017-07-21 2019-01-24 AI Incorporated Polymorphic path planning for robotic devices
CN111158401A (zh) * 2020-01-20 2020-05-15 北京理工大学 一种分布式鼓励时空数据探索的无人机路径规划系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LINFEI YIN,ET AL: "A review of machine learning for new generation smart dispatch in power systems", ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, vol. 88, pages 103372 *
张浩杰;苏治宝;苏波;: "基于深度Q网络学习的机器人端到端控制方法", 仪器仪表学报, no. 10, pages 36 - 43 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117381850A (zh) * 2023-10-30 2024-01-12 齐鲁工业大学(山东省科学院) 网络化工业机械臂系统分群一致性切换控制方法及系统

Also Published As

Publication number Publication date
CN113298386B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN112615379A (zh) 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN107134827B (zh) 总线式锂电池组均衡系统预测控制方法
CN114217524A (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN111582445B (zh) 一种基于脉冲神经网络的高效学习系统及学习方法
CN113298386A (zh) 一种分布式多目标深度确定性值网络机器人能量管理方法
CN112012875B (zh) 一种水轮机调节系统pid控制参数的优化方法
CN110212551A (zh) 基于卷积神经网络的微网无功自动控制方法
CN115179295B (zh) 一种多欧拉-拉格朗日系统鲁棒二分一致性跟踪控制方法
CN109828451A (zh) 电动汽车用飞轮电池四自由度磁轴承控制器的构造方法
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115912367A (zh) 一种基于深度强化学习的电力系统运行方式智能生成方法
CN112564189B (zh) 一种有功无功协调优化控制方法
Chen et al. Optimization of ADRC Parameters Based on Particle Swarm Optimization Algorithm
CN117375097A (zh) 基于多代理协调控制策略与强化学习的光伏协调自治方法
CN117239764A (zh) 基于多智能体强化学习的配电网两阶段电压控制方法
CN116544995A (zh) 基于云边协同的储能电池一致性充放电控制方法及系统
CN115360768A (zh) 基于muzero和深度强化学习的电力调度方法、装置及存储介质
CN113569358B (zh) 一种面向产品质量反馈的数字孪生系统模型构建方法
CN111830971B (zh) 一种用于在稀疏奖励信号下学习多机器人编队导航策略的课程学习方法
CN118381368B (zh) 一种逆变器控制的强化学习训练过程加速方法
Wang et al. Application of GA in motor transfer function
CN115202202B (zh) 一种基于人工智能算法的用电设备控制方法及系统
Chu et al. The PID Control Algorithm based on Whale Optimization Algorithm Optimized BP Neural Network
CN118200135B (zh) 使用深度强化学习优化aoc光模块传输性能的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant