CN116834037B - 基于动态多目标优化的采摘机械臂轨迹规划方法及装置 - Google Patents
基于动态多目标优化的采摘机械臂轨迹规划方法及装置 Download PDFInfo
- Publication number
- CN116834037B CN116834037B CN202311122516.9A CN202311122516A CN116834037B CN 116834037 B CN116834037 B CN 116834037B CN 202311122516 A CN202311122516 A CN 202311122516A CN 116834037 B CN116834037 B CN 116834037B
- Authority
- CN
- China
- Prior art keywords
- dynamic
- mechanical arm
- picking mechanical
- objective
- picking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000006870 function Effects 0.000 claims abstract description 69
- 230000008859 change Effects 0.000 claims abstract description 64
- 230000009471 action Effects 0.000 claims abstract description 43
- 238000005070 sampling Methods 0.000 claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 29
- 230000006978 adaptation Effects 0.000 claims abstract description 24
- 230000007613 environmental effect Effects 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 5
- 210000003127 knee Anatomy 0.000 claims description 4
- 238000003708 edge detection Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 abstract description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 12
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000036461 convulsion Effects 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01D—HARVESTING; MOWING
- A01D46/00—Picking of fruits, vegetables, hops, or the like; Devices for shaking trees or shrubs
- A01D46/30—Robotic devices for individually picking crops
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Environmental Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于动态多目标优化的采摘机械臂轨迹规划方法及装置,该方法包括:根据采摘机械臂的环境条件,对目标参数的约束范围进行调节;根据调节后的约束范围采样获取初始种群,根据采摘机械臂的多目标函数计算初始种群的适应值序列,并计算适应度地形特征和动态变化强度;基于强化学习确定动态变化强度对应的进化动作,根据适应度地形特征对初始种群执行进化动作,得到下一代种群,直到满足预设条件;根据种群的适应度值确定目标参数的最优值,根据目标参数的最优值对应的路径点确定采摘机械臂的最优轨迹。本发明实现对各种不同环境的采摘机械臂动态多目标优化问题优化策略的动态选择,快速有效得到目标参数的最优值。
Description
技术领域
本发明涉及机器人技术领域,尤其涉及一种基于动态多目标优化的采摘机械臂轨迹规划方法及装置。
背景技术
采摘机械臂多目标轨迹规划问题涉及到多个目标的平衡与权衡。这些目标包括最小化机械臂的运动时间、最小化能耗、最小化机械臂震动、最小化作物损伤等。
同时在采摘过程中常常面临着各种随机扰动和突入障碍物。因此采摘机械臂轨迹规划问题是一个动态多目标优化问题。这类问题需要同时平衡多个目标之间的关系,且要考虑运行环境等动态因素的影响。求解这类问题最大的困难在于目标函数或约束条件均可能会随时间发生变化,导致传统多目标算法很难有效获得动态多目标优化问题的最优解。
因此,采摘过程中随机扰动和突入障碍物等因素导致机械臂轨迹规划困难。如何感知环境以及目标函数的变化,自适应求解不同变化状态的动态多目标优化问题是当前采摘机械臂领域亟待解决的重要课题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于动态多目标优化的采摘机械臂轨迹规划方法及装置。
本发明提供一种基于动态多目标优化的采摘机械臂轨迹规划方法,包括:
根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值对应的所述采摘机械臂的路径点确定所述采摘机械臂的最优轨迹。
根据本发明提供的一种基于动态多目标优化的采摘机械臂轨迹规划方法,所述根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,包括:
基于莱维飞行生成随机步长;
根据所述随机步长和随机数,生成所述目标参数的采样点;
在所述采样点位于调节后的所述约束范围内的情况下,继续根据所述随机步长和随机数,生成所述目标参数的采样点;
将所述采样点作为所述初始种群。
根据本发明提供的一种基于动态多目标优化的采摘机械臂轨迹规划方法,所述计算所述适应值序列的适应度地形特征,包括:
计算所述适应值序列的动态崎岖性、动态适应度距离相关性、动态多样性和动态信息熵。
根据本发明提供的一种基于动态多目标优化的采摘机械臂轨迹规划方法,所述多目标函数的动态变化强度的计算步骤包括:
确定所述多目标函数中每个目标函数在当前刻与前一时刻之间的变化值,以及预设时间段内每个目标函数的最大值与最小值之间的差值;
计算每个目标函数对应的变化值与所述差值之间的第一比值,统计所述多目标函数中所有目标函数对应的第一比值之和;
计算所述第一比值之和与所述所有目标函数在当前时刻的值之和的第二比值;
将所述第二比值与预设阈值进行比较,得到所述目标参数的第一动态变化强度、第二动态变化强度和第三动态变化强度。
根据本发明提供的一种基于动态多目标优化的采摘机械臂轨迹规划方法,所述进化动作为基于所述多目标函数的预测解与随机解之间的距离执行种群更新策略,所述多目标函数的预测解与随机解之间的距离通过基于Knee前沿检测方法、基于中心点策略的最优解检测方法或基于指标的局部搜索策略确定。
根据本发明提供的一种基于动态多目标优化的采摘机械臂轨迹规划方法,还包括:
使用反世代距离作为所述强化学习的报酬奖励。
本发明还提供一种基于动态多目标优化的采摘机械臂轨迹规划装置,包括:
调节模块,用于根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
计算模块,用于根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
更新模块,用于基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
获取模块,用于根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值对应的所述采摘机械臂的路径点确定所述采摘机械臂的最优轨迹。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于动态多目标优化的采摘机械臂轨迹规划方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于动态多目标优化的采摘机械臂轨迹规划方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于动态多目标优化的采摘机械臂轨迹规划方法。
本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法及装置,通过根据采摘机械臂的环境条件,对采摘机械臂的目标参数的约束范围进行调节,在调节后的约束范围内对目标参数进行采样得到初始种群,基于强化学习确定多目标函数的动态变化强度对应的进化动作,从而进行种群更新,得到目标函数的最优解,实现对各种不同变化环境的采摘机械臂动态多目标优化问题优化策略的动态选择,对采摘机械臂多目标函数最优解的快速有效求解,从而提高采摘效率,保障采摘的安全性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法的流程示意图之一;
图2是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法中莱维飞行随机游走策略的流程示意图;
图3是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法的流程示意图之二;
图4是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法中基于强化学习策略的在线学习方法流程示意图之一;
图5是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划方法中基于强化学习策略的在线学习方法流程示意图之二;
图6是本发明提供的基于动态多目标优化的采摘机械臂轨迹规划装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的一种基于动态多目标优化的采摘机械臂轨迹规划方法,包括:
步骤101,根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
对采摘机械臂动态多目标轨迹规划问题建模。以果梗位姿和夹剪空间可行域为基础,综合考虑机器人本体自由度、运动性能、末端执行机构等因素的约束,设计采摘运动时间最短、平稳性最好以及能耗最少的采摘机械臂多目标轨迹规划问题模型,拟构建的多目标函数如式(1)所示:
(1)
式中,i表示离散路径点序号,m表示路径点总数,N为采摘机械臂的关节总数,T表示所述采摘机械臂从起点到目标点总的运动时间, s.t.是subject to 的缩写,表示约束条件。
F(x)中的f 1、f 2和f 3分别为采摘机械臂的速度、加速度和加加速度的值,用于衡量末端执行运行时间、能量消耗以及关节平均脉动。
v i、a i和j i分别代表第i个离散路径点的速度、加速度和加加速度。Vmax、amax和jmax为速度、加速度和加加速度的约束条件值。其中,由于突入障碍物等影响,约束调节值随着采摘过程的进行不断变化。
可预先确定环境条件与约束范围之间的对应关系,在环境条件发生变化时,根据环境条件与约束范围之间的对应关系对目标参数的约束范围进行调节。目标参数可为采摘机械臂第i个离散路径点的速度、加速度和加加速度。
步骤102,根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
在调节后的目标参数的约束范围内对目标参数进行多次随机采样,得到多个采样点,形成初始种群。使用遗传算法,如粒子群算法对多目标函数进行求解,得到目标参数的最优值。
将多目标函数作为适应度函数,将采样点代入多目标函数中,得到适应值序列,并计算所述适应值序列的适应度地形特征,本实施例对适应度地形特征的种类和计算方法不作限定。
动态优化问题具备明显的两个特征,即动态变化具有周期性和动态变化的强度。在实际应用中一般通过调节问题的参数进一步控制动态变化的频率以及动态变化的强度。本实施例采用计算动态优化问题的变化强度对已知问题的动态性进行衡量和评价。
步骤103,基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
本实施例通过强化学习来学习动作空间策略,确定动态变化强度和进化动作之间的对应关系。根据目标参数的动态变化强度即可确定相应的进化动作。
进化动作是指对初始化种群的更新策略,如选择、交叉和变异等。在对初始化种群进行更新后得到下一代种群,对下一代种群继续确定进化动作,并进行种群更新,直到满足预设条件,如种群更新代数达到预设值。
步骤104,根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值,获取所述采摘机械臂的最优轨迹。
根据种群更新过程中所有种群的适应度值,将适应度值中的最优值对应的目标参数的值作为目标参数的最优值。将目标参数的最优值对应的离散路径点形成的轨迹作为采摘机械臂的最优轨迹。
如图3所示,采摘机械臂轨迹规划的完整流程包括:构建采摘机械臂动态多目标轨迹规划问题数学模型;通过动态适应度地形分析方法构建动态环境变化检测模型,实现不同情况环境变化问题的在线检测及判别;基于强化学习策略,设计基于在线学习的动态目标优化方法,实现不同情况环境变化的采摘机械臂动态多目标轨迹规划。
本实施例通过根据采摘机械臂的环境条件,对采摘机械臂的目标参数的约束范围进行调节,在调节后的约束范围内对目标参数进行采样得到初始种群,基于强化学习确定多目标函数的动态变化强度对应的进化动作,从而进行种群更新,得到目标函数的最优解,实现对各种不同变化环境的采摘机械臂动态多目标优化问题优化策略的动态选择,对采摘机械臂多目标函数最优解的快速有效求解,从而提高采摘效率,保障采摘的安全性。
在上述实施例的基础上,本实施例中所述根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,包括:
基于莱维飞行生成随机步长;
根据所述随机步长和随机数,生成所述目标参数的采样点;
在所述采样点位于调节后的所述约束范围内的情况下,继续根据所述随机步长和随机数,生成所述目标参数的采样点;
将所述采样点作为所述初始种群。
本实施例通过莱维飞行随机游走策略,采样得到更为均匀的目标函数适应值序列,莱维飞行随机游走策略流程如图2所示。首先初始化优化问题维数D,问题约束范围domain,以及随机步长size和随机游走步数steps,下一步随机生成一个采样点walk[1]。采用莱维飞行产生一个随机步长step,通过公式(2)生成下一个采样点:
walk[i+1]=walk[i]+step*δ(2)
其中δ为[0,1]之间的随机数,判断新生成的随机点是否在问题约束条件范围内,如果是则为新产生的随机采样点。重复上述过程,不断进行采样得到更为均匀的适应值游走序列,根据采样结果序列得到采样适应值序列/>。其中k表示时间,k取值的不同代表不同的动态适应度地形。
本实施例通过动态适应度地形分析方法,构建动态环境变化检测模型,实现不同情况环境变化问题的在线检测。
在上述实施例的基础上,本实施例中所述计算所述适应值序列的适应度地形特征,包括:
计算所述适应值序列的动态崎岖性、动态适应度距离相关性、动态多样性和动态信息熵。
通过公式(3)计算适应值序列的自相关函数:
(3)
其中,f(t,k)为采样适应值序列,,t L为延迟时间。
通过公式(4)计算适应值序列的动态自相关性,即动态崎岖性:
(4)
式中表示自相关函数,动态适应度距离相关性通过公式(5)计算:
(5)
其中,,/>和/>分别是/>和/>的方差,为动态适应度地形为k时样本点到理想的全局最优解的欧式距离。
动态多样性通过公式(6)和(7)计算:
(6)
(7)
在计算动态信息熵时,首先将随机采样适应值序列通过公式(8)进行差分处理:
(8)
根据阈值,将差分后的序列分为三类:
(9)
进一步获得串序列:
(10)
最后计算动态信息熵:
(11)
其中,表示每种序列值在序列值的组合中出现的概率。
根据获得的动态崎岖性、动态适应度距离相关性,动态多样性以及动态信息熵等特征信息指标,构成不同k时刻的适应度地形特征序列。对不同时刻的特征序列进行相关性分析,构建环境和目标参数变化检测样本特征值序列样本库。
在上述实施例的基础上,本实施例中所述多目标函数的动态变化强度的计算步骤包括:
确定所述多目标函数中每个目标函数在当前刻与前一时刻之间的变化值,以及预设时间段内每个目标函数的最大值与最小值之间的差值;
计算每个目标函数对应的变化值与所述差值之间的第一比值,统计所述多目标函数中所有目标函数对应的第一比值之和;
计算所述第一比值之和与所述所有目标函数在当前时刻的值之和的第二比值;
将所述第二比值与预设阈值进行比较,得到所述目标参数的第一动态变化强度、第二动态变化强度和第三动态变化强度。
动态优化问题的变化强度的计算如公式(12)所示:
(12)
其中,表示t时刻的目标函数值,/>分别表示一段时间范围内的目标函数最大值和最小值,/>表示所有目标函数在t时刻的值之和。其中/>的范围为[0,1]。
根据公式(13)划分优化问题的动态变化程度:
(13)
其中,T1和T2为预设阈值。
此外,可以通过Adaboost结合决策树的方法训练分类器,在测试集上建立不同问题的动态适应度地形特征和优化问题动态变化程度之间的关系,实现对不同优化问题弱变化、中等变化以及强变化等三种状态的动态检测。
在上述实施例的基础上,本实施例中所述进化动作为基于所述多目标函数的预测解与随机解之间的距离执行种群更新策略,所述多目标函数的预测解与随机解之间的距离通过基于Knee前沿检测方法、基于中心点策略的最优解检测方法或基于指标的局部搜索策略确定。
进化动作的第一种动作策略:采用Knee前沿检测方法,即Pareto前沿中具有局部最大边际效用的点,通过公式(14)计算Knee预测解与随机解之间的距离:
(14)
其中,,/>为理想目标点,/>是第m个目标中所有Pareto解集中的最优解。进一步执行种群更新策略:
(15)
进化动作的第二种动作策略:基于中心点策略的最优解检测方法,通过公式(16)计算预测解和随机解之间的距离:
(16)
其中,,PS t为理想Pareto前沿,进一步执行种群更新策略:
(17)
进化动作的第二种动作策略:基于指标的局部搜索策略,通过公式(18)计算预测解和随机解之间的距离:
(18)
其中,,进一步执行种群更新策略:
(19)
在上述各实施例的基础上,本实施例还包括:
使用反世代距离作为所述强化学习的报酬奖励。
设计强化学习的价值奖励函数。对于多目标优化问题,采用反世代距离作为强化学习智能体在执行动作后的报酬奖励,其计算公式为:
(20)
其中,d(.)是上的个体/>与其真实PF t(帕累托前沿)最近的个体之间的欧氏距离,IGD越小,PF分布越均匀,收敛性越好。
如图4所示,基于强化学习策略的在线学习方法包括:首先获取动态问题的动态适应度地形组合特征序列{c 1,c 2,c 3, ...,c n},并采用训练过的Adaboost决策树分类器,得到优化问题的动态变化程度。接着,采用基于强化学习的在线学习策略,将不同类型环境变化的动态适应度地形特征映射到智能体的状态空间{s 1,s 2,s 3,...,s n};同时基于公式(15)、(17)和(19)作为强化学习的动作空间{a 1,a 2,a 3,...a n},公式(20)作为强化学习智能体的价值奖励函数{r 1,r 2,r 3,...,r n}。在上述基础上构建基于强化学习策略在线学习动态多目标优化算法框架。采用不同类型的动态优化问题对模型进行训练和测试。经过训练测试后,智能体能够通过状态空间获取动态优化问题的特征信息,然后根据状态空间信息执行动作空间相应的进化动作,计算执行相应进化动作后获得的奖励并将其返回给智能体。最终,实现在线学习进化算法能够自适应求解采摘机械臂在不同环境变化类型下的动态多目标优化问题。
此外,深度强化学习相关更新的代理使用选择策略π为状态s i选择动作。通过式(21)计算在s i状态下选择动作a j的概率P r(s i,a j)。
(21)
其中,Qt为动作价值函数,为一个正的参数值,可定义为Qt中的最大值。
最终Q表更新采用如式(22)贪心策略:
(22)
其中R t+1为在s t状态下智能体进行a t动作后获得的奖励值,α表示在[0,1]范围内的学习率,γ是0到1之间的贴现率。基于强化学习策略的在线学习方法的具体流程如图5所示。
下面对本发明提供的基于动态多目标优化的采摘机械臂轨迹规划装置进行描述,下文描述的基于动态多目标优化的采摘机械臂轨迹规划装置与上文描述的基于动态多目标优化的采摘机械臂轨迹规划方法可相互对应参照。
如图6所示,该装置包括调节模块601、计算模块602、更新模块603和获取模块604,其中:
调节模块601用于根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
计算模块602用于根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
更新模块603用于基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
获取模块604用于根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值对应的所述采摘机械臂的路径点确定所述采摘机械臂的最优轨迹。
本实施例通过根据采摘机械臂的环境条件,对采摘机械臂的目标参数的约束范围进行调节,在调节后的约束范围内对目标参数进行采样得到初始种群,基于强化学习确定多目标函数的动态变化强度对应的进化动作,从而进行种群更新,得到目标函数的最优解,实现对各种不同变化环境的采摘机械臂动态多目标优化问题优化策略的动态选择,对采摘机械臂多目标函数最优解的快速有效求解,从而提高采摘效率,保障采摘的安全性。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于动态多目标优化的采摘机械臂轨迹规划方法,该方法包括:根据采摘机械臂的环境条件,对目标参数的约束范围进行调节;根据调节后的约束范围采样获取初始种群,根据采摘机械臂的多目标函数计算初始种群的适应值序列,并计算适应度地形特征和动态变化强度;基于强化学习确定动态变化强度对应的进化动作,根据适应度地形特征对初始种群执行进化动作,得到下一代种群,直到满足预设条件;根据种群的适应度值确定目标参数的最优值,根据目标参数的最优值对应的路径点确定采摘机械臂的最优轨迹。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于动态多目标优化的采摘机械臂轨迹规划方法,该方法包括:根据采摘机械臂的环境条件,对目标参数的约束范围进行调节;根据调节后的约束范围采样获取初始种群,根据采摘机械臂的多目标函数计算初始种群的适应值序列,并计算适应度地形特征和动态变化强度;基于强化学习确定动态变化强度对应的进化动作,根据适应度地形特征对初始种群执行进化动作,得到下一代种群,直到满足预设条件;根据种群的适应度值确定目标参数的最优值,根据目标参数的最优值对应的路径点确定采摘机械臂的最优轨迹。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于动态多目标优化的采摘机械臂轨迹规划方法,该方法包括:根据采摘机械臂的环境条件,对目标参数的约束范围进行调节;根据调节后的约束范围采样获取初始种群,根据采摘机械臂的多目标函数计算初始种群的适应值序列,并计算适应度地形特征和动态变化强度;基于强化学习确定动态变化强度对应的进化动作,根据适应度地形特征对初始种群执行进化动作,得到下一代种群,直到满足预设条件;根据种群的适应度值确定目标参数的最优值,根据目标参数的最优值对应的路径点确定采摘机械臂的最优轨迹。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,包括:
根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值对应的所述采摘机械臂的路径点确定所述采摘机械臂的最优轨迹。
2.根据权利要求1所述的基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,所述根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,包括:
基于莱维飞行生成随机步长;
根据所述随机步长和随机数,生成所述目标参数的采样点;
在所述采样点位于调节后的所述约束范围内的情况下,继续根据所述随机步长和随机数,生成所述目标参数的采样点;
将所述采样点作为所述初始种群。
3.根据权利要求1所述的基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,所述计算所述适应值序列的适应度地形特征,包括:
计算所述适应值序列的动态崎岖性、动态适应度距离相关性、动态多样性和动态信息熵。
4.根据权利要求1所述的基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,所述多目标函数的动态变化强度的计算步骤包括:
确定所述多目标函数中每个目标函数在当前刻与前一时刻之间的变化值,以及预设时间段内每个目标函数的最大值与最小值之间的差值;
计算每个目标函数对应的变化值与所述差值之间的第一比值,统计所述多目标函数中所有目标函数对应的第一比值之和;
计算所述第一比值之和与所述所有目标函数在当前时刻的值之和的第二比值;
将所述第二比值与预设阈值进行比较,得到所述目标参数的第一动态变化强度、第二动态变化强度和第三动态变化强度。
5.根据权利要求1所述的基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,所述进化动作为基于所述多目标函数的预测解与随机解之间的距离执行种群更新策略,所述多目标函数的预测解与随机解之间的距离通过基于Knee前沿检测方法、基于中心点策略的最优解检测方法或基于指标的局部搜索策略确定。
6.根据权利要求1-5任一所述的基于动态多目标优化的采摘机械臂轨迹规划方法,其特征在于,还包括:
使用反世代距离作为所述强化学习的报酬奖励。
7.一种基于动态多目标优化的采摘机械臂轨迹规划装置,其特征在于,包括:
调节模块,用于根据采摘机械臂的环境条件,对所述采摘机械臂的目标参数的约束范围进行调节;
计算模块,用于根据调节后的所述约束范围对所述目标参数进行采样获取初始种群,根据所述采摘机械臂的多目标函数计算所述初始种群的适应值序列,并计算所述适应值序列的适应度地形特征和所述多目标函数的动态变化强度;
更新模块,用于基于强化学习确定所述动态变化强度对应的进化动作,根据所述适应度地形特征对所述初始种群执行所述进化动作,得到下一代种群,继续进行种群更新直到满足预设条件;
获取模块,用于根据所有种群的适应度值确定所述目标参数的最优值,根据所述目标参数的最优值对应的所述采摘机械臂的路径点确定所述采摘机械臂的最优轨迹。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于动态多目标优化的采摘机械臂轨迹规划方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态多目标优化的采摘机械臂轨迹规划方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于动态多目标优化的采摘机械臂轨迹规划方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311122516.9A CN116834037B (zh) | 2023-09-01 | 2023-09-01 | 基于动态多目标优化的采摘机械臂轨迹规划方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311122516.9A CN116834037B (zh) | 2023-09-01 | 2023-09-01 | 基于动态多目标优化的采摘机械臂轨迹规划方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116834037A CN116834037A (zh) | 2023-10-03 |
CN116834037B true CN116834037B (zh) | 2023-10-31 |
Family
ID=88163886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311122516.9A Active CN116834037B (zh) | 2023-09-01 | 2023-09-01 | 基于动态多目标优化的采摘机械臂轨迹规划方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116834037B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117644520B (zh) * | 2024-01-29 | 2024-05-10 | 北京市农林科学院智能装备技术研究中心 | 多臂机器人采摘任务规划方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768536A (zh) * | 2012-07-20 | 2012-11-07 | 哈尔滨工程大学 | 一种基于多目标萤火虫算法的路径规划方法 |
CN104020665A (zh) * | 2014-06-25 | 2014-09-03 | 北京邮电大学 | 基于多目标粒子群算法的机械臂最小跃度轨迹优化方法 |
CN104809499A (zh) * | 2015-05-08 | 2015-07-29 | 江南大学 | 一种基于随机漂移粒子群优化算法的动态环境优化方法 |
CN109102124A (zh) * | 2018-08-24 | 2018-12-28 | 山东师范大学 | 基于分解的动态多目标多路径诱导方法、系统及存储介质 |
WO2020134254A1 (zh) * | 2018-12-27 | 2020-07-02 | 南京芊玥机器人科技有限公司 | 一种基于强化学习的喷涂机器人轨迹优化方法 |
CN113741500A (zh) * | 2021-08-27 | 2021-12-03 | 北京航空航天大学 | 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398257B2 (en) * | 2003-12-24 | 2008-07-08 | Yamaha Hatsudoki Kabushiki Kaisha | Multiobjective optimization apparatus, multiobjective optimization method and multiobjective optimization program |
-
2023
- 2023-09-01 CN CN202311122516.9A patent/CN116834037B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768536A (zh) * | 2012-07-20 | 2012-11-07 | 哈尔滨工程大学 | 一种基于多目标萤火虫算法的路径规划方法 |
CN104020665A (zh) * | 2014-06-25 | 2014-09-03 | 北京邮电大学 | 基于多目标粒子群算法的机械臂最小跃度轨迹优化方法 |
CN104809499A (zh) * | 2015-05-08 | 2015-07-29 | 江南大学 | 一种基于随机漂移粒子群优化算法的动态环境优化方法 |
CN109102124A (zh) * | 2018-08-24 | 2018-12-28 | 山东师范大学 | 基于分解的动态多目标多路径诱导方法、系统及存储介质 |
WO2020134254A1 (zh) * | 2018-12-27 | 2020-07-02 | 南京芊玥机器人科技有限公司 | 一种基于强化学习的喷涂机器人轨迹优化方法 |
CN113741500A (zh) * | 2021-08-27 | 2021-12-03 | 北京航空航天大学 | 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法 |
Non-Patent Citations (1)
Title |
---|
一类新型动态多目标鲁棒进化优化方法;陈美蓉;自动化学报;第43卷(第11期);2014-2032 * |
Also Published As
Publication number | Publication date |
---|---|
CN116834037A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parmas et al. | PIPPS: Flexible model-based policy search robust to the curse of chaos | |
Zhu et al. | Online minimax Q network learning for two-player zero-sum Markov games | |
CN108211362B (zh) | 一种基于深度q学习网络的非玩家角色战斗策略学习方法 | |
KR20190028531A (ko) | 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN116834037B (zh) | 基于动态多目标优化的采摘机械臂轨迹规划方法及装置 | |
CN113552891A (zh) | 一种基于改进的蝴蝶优化算法的机器人多目标路径规划 | |
WO2020259504A1 (zh) | 一种强化学习的高效探索方法 | |
CN115983130A (zh) | 一种基于改进粒子群优化算法的全局最优解搜索方法 | |
CN113487039A (zh) | 基于深度强化学习的智能体自适应决策生成方法及系统 | |
Jaafra et al. | Context-aware autonomous driving using meta-reinforcement learning | |
Mondal et al. | A survey of reinforcement learning techniques: strategies, recent development, and future directions | |
Sehgal et al. | Automatic parameter optimization using genetic algorithm in deep reinforcement learning for robotic manipulation tasks | |
Xin et al. | Exploration entropy for reinforcement learning | |
McCarthy et al. | Imaginary hindsight experience replay: Curious model-based learning for sparse reward tasks | |
Strens et al. | Direct policy search using paired statistical tests | |
Shi et al. | A sample aggregation approach to experiences replay of Dyna-Q learning | |
Hu et al. | An experience aggregative reinforcement learning with multi-attribute decision-making for obstacle avoidance of wheeled mobile robot | |
CN114118441A (zh) | 基于高效搜索策略在不确定性环境下的在线规划方法 | |
Fountain et al. | Motivated reinforcement learning for improved head actuation of humanoid robots | |
Mohamad et al. | Comparison between PSO and OLS for NARX parameter estimation of a DC motor | |
Park et al. | Distributional and hierarchical reinforcement learning for physical systems with noisy state observations and exogenous perturbations | |
Zhang et al. | Tracking control for mobile robot based on deep reinforcement learning | |
Khanesar et al. | Hybrid training of recurrent fuzzy neural network model | |
Jaafra et al. | Meta-reinforcement learning for adaptive autonomous driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |