CN114084450B - 外骨骼机器人生产优化与助力控制方法 - Google Patents

外骨骼机器人生产优化与助力控制方法 Download PDF

Info

Publication number
CN114084450B
CN114084450B CN202210002658.0A CN202210002658A CN114084450B CN 114084450 B CN114084450 B CN 114084450B CN 202210002658 A CN202210002658 A CN 202210002658A CN 114084450 B CN114084450 B CN 114084450B
Authority
CN
China
Prior art keywords
product
low
worker
production
battery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210002658.0A
Other languages
English (en)
Other versions
CN114084450A (zh
Inventor
唐昊
王彬
王舒润
谭琦
周雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210002658.0A priority Critical patent/CN114084450B/zh
Publication of CN114084450A publication Critical patent/CN114084450A/zh
Application granted granted Critical
Publication of CN114084450B publication Critical patent/CN114084450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B65/00Details peculiar to packaging machines and not otherwise provided for; Arrangements of such details
    • B65B65/003Packaging lines, e.g. general layout
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0006Exoskeletons, i.e. resembling a human figure
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65BMACHINES, APPARATUS OR DEVICES FOR, OR METHODS OF, PACKAGING ARTICLES OR MATERIALS; UNPACKING
    • B65B57/00Automatic control, checking, warning, or safety devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于生产调度以及机器人控制领域,具体的说是一种用于包装生产的外骨骼机器人生产优化与助力控制方法,在生产过程中外骨骼机器人能更好地辅助工人进行生产工作。该方法包括:1、包装生产线中配备了外骨骼机器人,工人装备外骨骼机器人进行生产。2、外骨骼机器人能载着工人进行全方位移动,且能实时检测工人的疲劳状态。3、工人穿戴外骨骼进行卸载和包装操作,在此过程中外骨骼根据工人的疲劳状态对上肢进行动态助力。4、在生产过程中,外骨骼机器人根据生产信息辅助工人进行生产决策,选择下一步进行的操作从而实现对生产过程的优化。本发明改善和增加了外骨骼机器人在包装生产线中的辅助功能,从而减轻工作过程中工人的工作强度和工作的复杂度,提高了系统生产率。

Description

外骨骼机器人生产优化与助力控制方法
技术领域
本发明属于生产调度以及机器人控制领域,具体的说是一种用于包装生产的外骨骼机器人生产优化与助力控制方法,在生产过程中外骨骼机器人能更好地辅助工人进行生产工作。
背景技术
随着人们生活水平的提高和人口老龄化的到来,为工人提供辅助设备辅助生产,降低劳动强度,改善工人的劳动环境,将成为必然趋势。作为一种辅助生产设备,外骨骼机器人已经引起很多科学家的兴趣,并且已经在生产、物流等多个领域进行了应用。外骨骼机器人对工人的手臂提供辅助力矩,降低工作过程中手臂的负载。但现有外骨骼机器人智能化程度不高,只有助力功能,且只能按照固定的助力大小对工人进行助力。在电池电量有限的情况下,外骨骼机器人的工作时间对生产率有着十分重要的影响。因此,如何优化外骨骼机器人的助力方式,延长外骨骼机器人的工作时间是十分必要的。同时,在复杂的生产过程中如何利用外骨骼机器人的计算能量辅助工人进行决策,也是值得研究的问题。
发明内容
针对现有技术存在的不足之处,本发明提出一种外骨骼机器人生产优化与助力控制方法,以期通过动态改变助力权重,降低设备的能耗,延长设备的工作时间。同时利用设备强大的计算能力,在生产过程中辅助工人进行生产决策,从而提高工人的生产率。
为实现上述目的,本发明采用如下技术方案:
外骨骼机器人生产优化与助力控制方法,包括以下步骤,该方法应用于包装生产线,所述包装生产线由传送带(1)、传送带上随机到达的产品(2)、装备外骨骼机器人的工人(3)、光电传感器(4)、缓存库(5)、工作台(6)、装运区(7)以及换电站(8)组成;
所述光电传感器(4)位于捡取点(9)上游lmax处,当产品(2)到达光电传感器(4)时,外骨骼机器人记录其到达的时间,并根据到达时间以及传送带速度用于计算产品(2)在某时刻的位置并判断产品是否流失,将光电传感器(9)下游工人能够捡取产品(2)的区域定义为检测区域(10),检测区域(10)两条边界距捡取点(9)的距离分别记为lmin和lmax,检测区域(10)内距离捡取点最近的产品到捡取点(9)的距离(11)为l;所述缓存库(5)容量记为C,剩余量表示缓冲库(5)的状态,记为c;所述工作台(6)配备了封箱设备,主要用于将放入产品的包装箱封箱;所示装运区(7)是用于装运包装箱的区域;所述换电站(8)为更换外骨骼机器的电池的区域;所述外骨骼机器人由上肢外骨骼和全方位可移动底盘组成,并通过电池供电,电池容量为E,用电池剩余量作为电池的状态,用e表示;同时设置电池低电量警戒值为elow,当电池电量低于警戒值时,外骨骼机器人需要更换电池;全方位移动底盘可以载着工人(3)进行全方位移动,记工人(3)所处的位置为p,用1、2、3、4分别代表工人位于捡取点(9)、缓存库(5)、装运区(7)和换电站(8);当工人徒手搬运产品(2)时所需力矩记为wproduct,所述上肢外骨骼可以检测工人(3)在生产过程的疲劳,记工人(3)的疲劳值为b;上肢外骨骼能对工人(3)手臂提供助力,助力大小为w*wproduct,其中w为外骨骼提供的助力与wproduct的比值,记为助力权重;
在生产过程中,工人(3)可以选择的操作有三种,分别为更换电池操作、卸载操作、包装操作,记选择的操作为o,o∈O={0,1,2},0、1、2分别表示更换电池操作、卸载操作、包装操作;
当执行所述卸载操作时,操作步骤为:工人前往捡取点(9)等待产品(2)到达,产品(2)到达捡取点(9)时工人从捡取点搬起产品(2)、平移至缓存库(5)、将产品(2)放入缓存库(5)中;执行所述包装操作时操作步骤为:工人前往缓存库(5)并从中搬起一个产品(2)、平移至工作台(6)、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(8);执行所述更换电池操作时,工人前往换电站(8)更换电池。
本技术方案进一步的优化,所述在进行所述卸载操作和包装操作过程中需的步骤要所述外骨骼机器人对手臂提供助力,这些步骤包括从捡取点(9)搬起产品(2)、平移至缓存库(5)、将产品放入缓存库(5)、从缓存库(5)取出产品(2)、平移至工作台(6)、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7)。
本技术方案进一步的优化,所述外骨骼机器人在助力过程设计了安全机制,设置了最大疲劳阈值bwarn以及疲劳恢复值brest,当工人疲劳值达到最大疲劳阈值bwarn时,所述上肢外骨骼机器人将助力权重设置为wmax以完成当前操作,其中wmax为最大助力权重(wmax<1),且工人需要休息到疲劳值降至brest才能进行下次操作。
本技术方案进一步的优化,所述包装生产线的生产状态sup,生产状态sup由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成,即sup={e,b,p,c,l};定义生产动作为选择的操作o,定义一个平稳生产策略Vup为生产状态sup到选择的操作o的映射,在生产策略Vup下,每种生产状态sup都有对应的选择的操作o与之对应;在生产过程中,决策时刻Tn的生产状态记为sup_Tn,简记为sup_n,sup_n={e,b,p,c,l},外骨骼机器人根据状态sup_n选择工人将要执行的操作,记此时的动作为
Figure BDA0003455424950000031
生产优化的决策过程为,完成操作
Figure BDA0003455424950000032
后系统转移到状态s′up_n={e′,b′,p′,c′,l′},获取此次操作转移过程的转移样本
Figure BDA0003455424950000033
其中Δe为耗电量,
Figure BDA0003455424950000034
为决策周期时间,trest为工人因疲劳强制休息的时间,twait为等待产品到达捡取点的时间,tchange为换电池所需时间,利用公式(1)计算代价rn
Figure BDA0003455424950000035
其中k1为电能单价,k2为卸载完一个产品获得的即时报酬,k3为疲劳值超过警戒值时产生的即时代价,k4为工人等待产品到达以及更换电池过程中单位时间等待代价,k5为缓存库中产品单位时间存储代价,k6为包装一个产品获得的即时报酬,k7为工人处于恢复阶段时的单位时间恢复代价,δ为疲劳越界标志,当疲劳越界时δ=1,否则δ=0。
本技术方案进一步的优化,所述包装生产线助力状态slow,助力状态slow由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成,即slow={e,b,z};定义助力动作为助力权重w,定义一个平稳助力策略Vlow为助力状态slow到助力权重w的映射,在助力策略Vlow下,每种助力状态slow都有对应助力权重w与之对应;在卸载操作过程中,决策时刻Tlow_k的助力状态记为slow_k={e,b,z}时,外骨骼的助力权重记为
Figure BDA0003455424950000036
系统转移到状态s′low_k={e′,b′,z′},获取此次决策过程的转移样本
Figure BDA0003455424950000037
其中Δe为耗电量,
Figure BDA0003455424950000038
为此次决策周期,trest为工人因疲劳强制休息的时间,利用公式(2)计算代价rlow_k
rlow_k=k1Δe+k3δ+k7trest (2)
其中k1为电能单价,k3为疲劳值超过警戒值时产生的即时代价,k7为工人处于恢复阶段时的单位时间恢复代价,δ为疲劳越界标志,当疲劳越界时δ=1,否则δ=0。
本技术方案更进一步的优化,所述生产策略Vup和助力策略Vlow,生产策略Vup求解方法为深度Q网络算法,助力策略Vlow求解方法为深度确定性策略梯度算法,深度Q网络算法和深度确定性策略梯度算法的步骤如下:
5)设置迭代次数Num,初始化深度Q网络算法的网络参数θup、θ′up、经验池Dup、探索率εup、折扣因子γup、网络参数更新频率Cup
6)初始化深度确定性策略梯度算法网络参数
Figure BDA0003455424950000041
经验池Dlow、折扣因子γlow、网络参数更新频率Clow,设置随机噪声函数ξ。初始化状态sup_0
7)迭代步数从1至Num开始迭代:
h)在深度Q网络算法中输入sup_n,得到所有动作对应的Q值输出。用ε-greed法根据当前Q网络输出中选择对应的动作
Figure BDA0003455424950000042
Figure BDA0003455424950000043
时,转到d),若不是,进行下一步;
i)转到下层决策模型训练,记进行卸载或包装过程下层状态为slow_k,k=1,2,...;
j)当本次操作未结束时进行步骤①,否则进行步骤d):
⑧MainNetActor估算网络基于slow_k得到动作
Figure BDA0003455424950000044
⑨执行动作
Figure BDA0003455424950000045
转移到新状态s′low_k=slow_k+1,获得奖励rlow_k
⑩将
Figure BDA0003455424950000046
存储到下层经验池Dlow中;
Figure BDA00034554249500000415
从下层经验池Dlow中随机选取小批量经验,计算损失函数,通过神经网络的梯度反向传播更新MainNet Critic网络的参数
Figure BDA0003455424950000047
Figure BDA00034554249500000414
计算神经网络的梯度,反向传播更新MainNetActor网络的参数
Figure BDA0003455424950000048
Figure BDA00034554249500000413
更新Target Critic网络和TargetActor网络参数:
Figure BDA0003455424950000049
Figure BDA00034554249500000412
令slow_k+1=s′low k,返回步骤c);
k)系统执行上层动作
Figure BDA00034554249500000411
后,转移到新状态sup_n+1=s′up_n,获得奖励rn
l)将
Figure BDA00034554249500000410
存储到上层经验池Dup中。
m)从上层经验池Dup中随机选取一批样本,计算损失函数,并更新更新MainNet网络的参数θup
n)每Cup步更新TargetNet网络参数:θ′up=θup
8)迭代结束。
区别于现有技术,本发明提出的技术方案具有如下优点:
1、本发明利用外骨骼机器人处理信息速度快的特点,在生产过程中辅助工人进行生产决策,帮助工人选择生产操作,降低工人的工作难度,从而提高工人的生产率。
2、本发明能够根据工人疲劳值以及生产信息动态改变助力权重,在降低工人工作强度的同时,降低设备的能耗,延长设备的工作时间。
3、本发明提出一种深度Q网络算法(DQN)求解生产策略以及深度确定性策略梯度算法(DDPG)求解助力策略。这两种算法使外骨骼在生产过程中通过与环境交互,能够自主学习和决策,降低了工人求解生产策略和助力策略的难度。
附图说明
图1为外骨骼机器人生产优化与助力控制方法示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
参阅图1所示,为外骨骼机器人生产优化与助力控制方法示意图。本发明优选一实施例一种用于包装生产的外骨骼机器人生产优化与助力控制方法,该方法包括包装生产线,包装生产线由传送带1、传送带上随机到达的产品2、装备外骨骼机器人的工人3、光电传感器4、缓存库5、工作台6、装运区7以及换电站8组成。传送带1上设置有检测区域10和捡取点9。
所述光电传感器4位于捡取点9上游lmax处,当产品2到达光电传感器4时,外骨骼机器人记录其到达的时间,并根据到达时间以及传送带速度用于计算产品2在某时刻的位置并判断产品是否流失,将光电传感器9下游工人能够捡取产品2的区域定义为检测区域10,,检测区域10两条边界距捡取点的距离分别记为lmin和lmax,检测区域10内距离捡取点最近的产品到捡取点9的距离11为l,其中l∈(lmin,lmax)。缓存库5容量记为C,剩余量表示缓冲库状态,记为c,其中c∈{0,1,...,C}。
工作台6配备了封箱设备,主要用于将放入产品的包装箱封箱。所示装运区7是用于装运包装箱的区域。换电站8为更换外骨骼机器的电池的区域。外骨骼机器人由上肢外骨骼和全方位可移动底盘组成,并通过电池供电,电池容量为E,用电池剩余量作为电池的状态,用e表示,则e的取值范围为[0,E]。同时设置电池低电量警戒值为elow,当电池电量低于警戒值时,外骨骼机器人需要更换电池。全方位移动底盘可以载着工人进行全方位移动,记工人3所处的位置为p,用1、2、3、4分别代表工人位于捡取点9、缓存库5、装运区7和换电站8。
当工人3徒手搬运产品2时所需力矩记为wproduct,所述上肢外骨骼可以检测工人3在生产过程的疲劳,记工人的疲劳值为b。上肢外骨骼能对工人3手臂提供助力,助力大小为w*wproduct,其中w为外骨骼提供的助力与wproduct的比值,记为助力权重。
所述外骨骼机器人在助力过程设计了安全机制,当工人3疲劳值达到最大疲劳阈值bwarn时,所述上肢外骨骼机器人将助力权重设置为wmax以完成当前操作,其中wmax为最大助力权重(wmax<1),且工人需要休息到疲劳值降至brest才能进行下次操作。
在生产过程中,工人可以选择的操作有三种,分别为更换电池操作、卸载操作、包装操作。记选择的操作为o,o∈O={0,1,2},0、1、2分别表示更换电池操作、卸载操作、包装操作。
当执行所述卸载操作时,操作步骤为:工人3前往捡取点9等待产品2到达、产品2到达捡取点9时工人从捡取点搬起产品2、平移至缓存库5、将产品2放入缓存库5中。执行所述包装操作时操作步骤为:工人3前往缓存库5并从中搬起一个产品2、平移至工作台6、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区7、将包装箱放至在装运区8。执行所述更换电池操作时,工人3前往换电站8更换电池。
在进行所述卸载操作和包装操作过程中需的步骤要所述外骨骼机器人对手臂提供助力,这些步骤包括从捡取点9搬起产品2、平移至缓存库5、将产品放入缓存库5、从缓存库5取出产品2、平移至工作台6、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区7、将包装箱放至在装运区7。将上述这些操作步骤用z表示,z∈{1,2,3,4,5,6,7,8,9,10,11}。
定义系统的生产状态sup,生产状态sup由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成,即sup={e,b,p,c,l}。定义生产动作为选择的操作o,定义一个平稳生产策略Vup为生产状态sup到选择的操作o的映射,在生产策略Vup下,每种生产状态sup都有对应的选择的操作o与之对应。在生产过程中,外骨骼机器人根据生产策略Vup选择操作o,从而辅助工人进行生产,降低了工人工作的复杂程度。决策时刻Tn的生产状态记为
Figure BDA0003455424950000071
简记为sup_n,sup_n={e,b,p,c,l},。外骨骼机器人根据状态sup_n选择工人将要执行的操作,记此时的动作为
Figure BDA0003455424950000072
生产优化的决策过程为,完成操作
Figure BDA0003455424950000073
后系统转移到状态s′up_n={e′,b′,p′,c′,l′},获取此次操作转移过程的转移样本
Figure BDA0003455424950000074
其中Δe为耗电量,
Figure BDA0003455424950000075
为决策周期时间,trest为工人因疲劳强制休息的时间,twait为等待产品到达捡取点的时间,tchange为换电池所需时间。利用公式(1)计算代价rn
Figure BDA0003455424950000077
式(1)中k1为电能单价,k2为卸载完一个产品获得的即时报酬,k3为疲劳值超过警戒值时产生的即时代价,k4为工人等待产品到达以及更换电池过程中单位时间等待代价,k5为缓存库中产品单位时间存储代价,k6为包装一个产品获得的即时报酬,k7为工人处于恢复阶段时的单位时间恢复代价,δ为疲劳越界标志,当疲劳越界时δ=1,否则δ=0。
定义系统的助力状态slow,助力状态slow由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成,即slow={e,b,z}。定义助力动作为助力权重w,定义一个平稳助力策略Vlow为助力状态slow到助力权重w的映射,在助力策略Vlow下,每种助力状态slow都有对应助力权重w与之对应。在卸载和操作过程中,外骨骼机器人根据助力策略Vlow动态调整助力权重w,在工人疲劳值不超过最大疲劳阈值bwarn的情况下降低工人手臂的负担,不但提高了工人的生产效率,而且降低了设备的耗电量。在决策时刻Tlow_k的助力状态记为slow_k={e,b,z}时,外骨骼的助力权重记为
Figure BDA0003455424950000076
系统转移到状态s′low_k={e′,b′,z′},获取此次决策过程的转移样本
Figure BDA0003455424950000081
其中Δe为耗电量,
Figure BDA0003455424950000082
为此次决策周期,trest为工人因疲劳强制休息的时间,利用公式(2)计算代价rlow_k
rlow_k=k1Δe+k3δ+k7trest (2)
其中生产策略Vup求解方法为深度Q网络算法(DQN),助力策略Vlow求解方法为深度确定性策略梯度算法(DDPG)。DQN和DDPGD的步骤如下:
1)设置迭代次数Num,初始化DQN的网络参数θup、θ′up、经验池Dup、探索率εup、折扣因子γup、网络参数更新频率Cup
2)初始化DDPG网络参数
Figure BDA0003455424950000083
经验池Dlow、折扣因子γlow、网络参数更新频率Clow,设置随机噪声函数ξ。初始化状态sup_0
3)迭代步数从1至Num开始迭代:
4):
a)在DQN中输入sup_n,得到所有动作对应的Q值输出。用ε-greed法根据当前Q网络输出中选择对应的动作
Figure BDA0003455424950000084
Figure BDA0003455424950000085
时,转到d),若不是,进行下一步;
b)转到下层决策模型训练,记进行卸载或包装过程下层状态为slow_k,k=1,2,...;
c)当本次操作未结束时进行步骤①,否则进行步骤d):
①MainNetActor估算网络基于slow_k得到动作
Figure BDA0003455424950000086
②执行动作
Figure BDA0003455424950000087
转移到新状态s′low_k=slow_k+1,获得奖励rlow_k
③将
Figure BDA0003455424950000088
存储到下层经验池Dlow中;
④从下层经验池Dlow中随机选取小批量经验,并用公式(3)计算损失函数,通过神经网络的梯度反向传播更新MainNet Critic网络的参数
Figure BDA0003455424950000089
Figure BDA00034554249500000810
⑤使用公式(13)计算神经网络的梯度,反向传播更新MainNetActor网络的参数
Figure BDA00034554249500000811
⑥每Clow步更新Target Critic网络和TargetActor网络参数:
Figure BDA00034554249500000812
⑦令slow_k+1=s′low k,返回步骤c);
d)系统执行上层动作
Figure BDA00034554249500000813
后,转移到新状态sup_n+1=s′up_n,获得奖励rn
e)将
Figure BDA00034554249500000814
存储到上层经验池Dup中。
f)从上层经验池Dup中随机选取一批样本,利用公式(4)计算损失函数,并更新更新MainNet网络的参数θup
Figure BDA0003455424950000091
g)每Cup步更新TargetNet网络参数:θ′up=θup
5)迭代结束
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (1)

1.外骨骼机器人生产优化与助力控制方法,其特征在于,包括以下步骤,该方法应用于包装生产线,所述包装生产线由传送带(1)、传送带上随机到达的产品(2)、装备外骨骼机器人的工人(3)、光电传感器(4)、缓存库(5)、工作台(6)、装运区(7)以及换电站(8)组成;
所述光电传感器(4)位于捡取点(9)上游lmax处,当产品(2)到达光电传感器(4)时,外骨骼机器人记录其到达的时间,并根据到达时间以及传送带速度用于计算产品(2)在某时刻的位置并判断产品是否流失,将光电传感器(4)下游工人能够捡取产品(2)的区域定义为检测区域(10),检测区域(10)两条边界距捡取点(9)的距离分别记为lmin和lmax,检测区域(10)内距离捡取点最近的产品到捡取点(9)的距离(11)为l;所述缓存库(5)容量记为C,剩余量表示缓存库(5)的状态,记为c;所述工作台(6)配备了封箱设备,主要用于将放入产品的包装箱封箱;装运区(7)是用于装运包装箱的区域;所述换电站(8)为更换外骨骼机器的电池的区域;所述外骨骼机器人由上肢外骨骼和全方位可移动底盘组成,并通过电池供电,电池容量为E,用电池剩余量作为电池的状态,用e表示;同时设置电池低电量警戒值为elow,当电池电量低于警戒值时,外骨骼机器人需要更换电池;全方位移动底盘可以载着工人(3)进行全方位移动,记工人(3)所处的位置为p,用1、2、3、4分别代表工人位于捡取点(9)、缓存库(5)、装运区(7)和换电站(8);当工人徒手搬运产品(2)时所需力矩记为wproduct,所述上肢外骨骼可以检测工人(3)在生产过程的疲劳,记工人(3)的疲劳值为b;上肢外骨骼能对工人(3)手臂提供助力,助力大小为w*wproduct,其中w为外骨骼提供的助力与wproduct的比值,记为助力权重;
在生产过程中,工人(3)可以选择的操作有三种,分别为更换电池操作、卸载操作、包装操作,记选择的操作为o,o∈O={0,1,2},0、1、2分别表示更换电池操作、卸载操作、包装操作;
当执行所述卸载操作时,操作步骤为:工人前往捡取点(9)等待产品(2)到达,产品(2)到达捡取点(9)时工人从捡取点搬起产品(2)、平移至缓存库(5)、将产品(2)放入缓存库(5)中;执行所述包装操作时操作步骤为:工人前往缓存库(5)并从中搬起一个产品(2)、平移至工作台(6)、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7);执行所述更换电池操作时,工人前往换电站(8)更换电池;
在进行卸载操作和包装操作过程中的步骤需要所述外骨骼机器人对手臂提供助力,这些步骤包括从捡取点(9)搬起产品(2)、平移至缓存库(5)、将产品放入缓存库(5)、从缓存库(5)取出产品(2)、平移至工作台(6)、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7);
所述外骨骼机器人在助力过程设计了安全机制,设置了最大疲劳阈值bwarn以及疲劳恢复值brest,当工人疲劳值达到最大疲劳阈值bwarn时,所述外骨骼机器人将助力权重设置为wmax以完成当前操作,其中wmax为最大助力权重(wmax<1),且工人需要休息到疲劳值降至brest才能进行下次操作;
所述包装生产线的生产状态sup,生产状态sup由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成,即sup={e,b,p,c,l};定义生产动作为选择的操作o,定义一个平稳生产策略Vup为生产状态sup到选择的操作o的映射,在生产策略Vup下,每种生产状态sup都有对应的选择的操作o与之对应;在生产过程中,决策时刻Tn的生产状态记为
Figure FDA0003932585170000021
简记为sup_n,sup_n={e,b,p,c,l},外骨骼机器人根据状态sup_n选择工人将要执行的操作,记此时的动作为
Figure FDA0003932585170000022
完成操作
Figure FDA0003932585170000023
后系统转移到状态s′up_n={e′,b′,p′,c′,l′},获取此次操作转移过程的转移样本
Figure FDA0003932585170000024
trest,twait,tchange},其中Δe为耗电量,
Figure FDA0003932585170000025
为决策周期时间,trest为工人因疲劳强制休息的时间,twait为等待产品到达捡取点的时间,tchange为换电池所需时间,利用公式(1)计算代价rn
Figure FDA0003932585170000026
其中k1为电能单价,k2为卸载完一个产品获得的即时报酬,k3为疲劳值超过警戒值时产生的即时代价,k4为工人等待产品到达以及更换电池过程中单位时间等待代价,k5为缓存库中产品单位时间存储代价,k6为包装一个产品获得的即时报酬,k7为工人处于恢复阶段时的单位时间恢复代价,δ为疲劳越界标志,当疲劳越界时δ=1,否则δ=0;
所述包装生产线的助力状态slow,助力状态slow由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成,即slow={e,b,z};定义助力动作为助力权重w,定义一个平稳助力策略Vlow为助力状态slow到助力权重w的映射,在助力策略Vlow下,每种助力状态slow都有对应助力权重w与之对应;在卸载操作过程中,决策时刻Tlow_k的助力状态记为slow_k={e,b,z}时,外骨骼的助力权重记为
Figure FDA0003932585170000031
系统转移到状态s′low_k={e′,b′,z′},获取此次决策过程的转移样本
Figure FDA0003932585170000032
其中Δe为耗电量,
Figure FDA0003932585170000033
为此次决策周期,trest为工人因疲劳强制休息的时间,利用公式(2)计算代价rlow_k
rlow_k=k1Δe+k3δ+k7trest (2)
其中k1为电能单价,k3为疲劳值超过警戒值时产生的即时代价,k7为工人处于恢复阶段时的单位时间恢复代价,δ为疲劳越界标志,当疲劳越界时δ=1,否则δ=0;
所述生产策略Vup和助力策略Vlow,生产策略Vup求解方法为深度Q网络算法,助力策略Vlow求解方法为深度确定性策略梯度算法,深度Q网络算法和深度确定性策略梯度算法的步骤如下:
1)设置迭代次数Num,初始化深度Q网络算法的网络参数θup、θ′up、经验池Dup、探索率εup、折扣因子γup、网络参数更新频率Cup
2)初始化深度确定性策略梯度算法网络参数
Figure FDA0003932585170000034
经验池Dlow、折扣因子γlow、网络参数更新频率Clow,设置随机噪声函数ξ,初始化状态sup_0
3)迭代步数从1至Num开始迭代:
a)在深度Q网络算法中输入sup_n,得到所有动作对应的Q值输出,用ε-greed法根据当前Q网络输出中选择对应的动作
Figure FDA0003932585170000035
Figure FDA0003932585170000036
时,转到d),若不是,进行下一步;
b)转到下层决策模型训练,记进行卸载或包装过程下层状态为slow_k,k=1,2,...;
c)当本次操作未结束时进行步骤①,否则进行步骤d):
①MainNet Actor估算网络基于slow_k得到动作
Figure FDA0003932585170000037
②执行动作
Figure FDA0003932585170000038
转移到新状态s′low_k=slow_k+1,获得奖励rlow_k
③将
Figure FDA0003932585170000039
存储到下层经验池Dlow中;
④从下层经验池Dlow中随机选取小批量经验,计算损失函数,通过神经网络的梯度反向传播更新MainNet Critic网络的参数
Figure FDA00039325851700000310
⑤计算神经网络的梯度,反向传播更新MainNet Actor网络的参数
Figure FDA0003932585170000041
⑥更新Target Critic网络和Target Actor网络参数:
Figure FDA0003932585170000042
⑦令slow_k+1=s′low k,返回步骤c);
d)系统执行上层动作
Figure FDA0003932585170000043
后,转移到新状态sup_n+1=s′up_n,获得奖励rn
e)将
Figure FDA0003932585170000044
存储到上层经验池Dup中;
f)从上层经验池Dup中随机选取一批样本,计算损失函数,并更新MainNet网络的参数θup
g)每Cup步更新TargetNet网络参数:θ′up=θup
4)迭代结束。
CN202210002658.0A 2022-01-04 2022-01-04 外骨骼机器人生产优化与助力控制方法 Active CN114084450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210002658.0A CN114084450B (zh) 2022-01-04 2022-01-04 外骨骼机器人生产优化与助力控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210002658.0A CN114084450B (zh) 2022-01-04 2022-01-04 外骨骼机器人生产优化与助力控制方法

Publications (2)

Publication Number Publication Date
CN114084450A CN114084450A (zh) 2022-02-25
CN114084450B true CN114084450B (zh) 2022-12-20

Family

ID=80308404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210002658.0A Active CN114084450B (zh) 2022-01-04 2022-01-04 外骨骼机器人生产优化与助力控制方法

Country Status (1)

Country Link
CN (1) CN114084450B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977738A (zh) * 2017-11-21 2018-05-01 合肥工业大学 一种用于传送带给料加工站系统的多目标优化控制方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN111260144A (zh) * 2020-01-20 2020-06-09 合肥工业大学 一种差异工件随机到达情况下单机批调度问题的求解方法
CN113103210A (zh) * 2021-04-12 2021-07-13 合肥工业大学 基于per-ddqn的外骨骼助力可移动搬运系统控制方法
CN113400309A (zh) * 2021-06-23 2021-09-17 西北工业大学 一种上肢助力外骨骼机器人的运动状态识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019518273A (ja) * 2016-04-27 2019-06-27 ニューララ インコーポレイテッド 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977738A (zh) * 2017-11-21 2018-05-01 合肥工业大学 一种用于传送带给料加工站系统的多目标优化控制方法
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN111260144A (zh) * 2020-01-20 2020-06-09 合肥工业大学 一种差异工件随机到达情况下单机批调度问题的求解方法
CN113103210A (zh) * 2021-04-12 2021-07-13 合肥工业大学 基于per-ddqn的外骨骼助力可移动搬运系统控制方法
CN113400309A (zh) * 2021-06-23 2021-09-17 西北工业大学 一种上肢助力外骨骼机器人的运动状态识别方法

Also Published As

Publication number Publication date
CN114084450A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN112102405B (zh) 基于深度强化学习的机器人搅动-抓取组合方法
CN110450153B (zh) 一种基于深度强化学习的机械臂物品主动拾取方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN209367374U (zh) 一种移动小车和包含移动小车的一种大负载拆垛机器人
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN111515962B (zh) 含有谐波减速器柔性关节的传递误差补偿控制方法
CN110919655B (zh) 基于强化学习的外骨骼机器人动力辅助控制方法
CN111552183B (zh) 一种基于自适应权重强化学习的六足机器人避障方法
CN202376755U (zh) 一种新型仿人格斗机器人
CN117215204B (zh) 基于强化学习的机器人步态训练方法及系统
CN110900601A (zh) 一种面向人-机器人协作安全保障的机器人运行自主控制方法
CN114084450B (zh) 外骨骼机器人生产优化与助力控制方法
TW201710052A (zh) 注塑機機械手之控制系統及控制方法
CN111223141A (zh) 基于强化学习的自动化流水线作业效率优化系统及方法
CN106044267A (zh) 木材加工用次序拾取传送装置
CN106651086A (zh) 一种考虑组装工艺的自动化立体仓库调度方法
CN109870992B (zh) 一种不考虑延时等待的csps系统控制方法
CN113575111A (zh) 温室番茄的实时识别定位和智能采摘装置
CN117902219A (zh) 基于自动化可识别技术的智能物流仓储设备及其使用方法
Kumar et al. Design and development of an automated robotic pick & stow system for an e-commerce warehouse
Van Molle et al. Learning to grasp from a single demonstration
CN113103210B (zh) 基于per-ddqn的外骨骼助力可移动搬运系统控制方法
CN116834015A (zh) 智能机器手臂自动化控制的深度强化学习训练优化方法
CN115057355A (zh) 变绳长双摆桥式吊车自抗扰控制方法及系统
Erdős et al. Visual servo guided cyber-physical robotic assembly cell

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant