CN114084450B

CN114084450B - 外骨骼机器人生产优化与助力控制方法

Info

Publication number: CN114084450B
Application number: CN202210002658.0A
Authority: CN
Inventors: 唐昊; 王彬; 王舒润; 谭琦; 周雷
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-12-20
Anticipated expiration: 2042-01-04
Also published as: CN114084450A

Abstract

本发明属于生产调度以及机器人控制领域，具体的说是一种用于包装生产的外骨骼机器人生产优化与助力控制方法，在生产过程中外骨骼机器人能更好地辅助工人进行生产工作。该方法包括：1、包装生产线中配备了外骨骼机器人，工人装备外骨骼机器人进行生产。2、外骨骼机器人能载着工人进行全方位移动，且能实时检测工人的疲劳状态。3、工人穿戴外骨骼进行卸载和包装操作，在此过程中外骨骼根据工人的疲劳状态对上肢进行动态助力。4、在生产过程中，外骨骼机器人根据生产信息辅助工人进行生产决策，选择下一步进行的操作从而实现对生产过程的优化。本发明改善和增加了外骨骼机器人在包装生产线中的辅助功能，从而减轻工作过程中工人的工作强度和工作的复杂度，提高了系统生产率。

Description

外骨骼机器人生产优化与助力控制方法

技术领域

本发明属于生产调度以及机器人控制领域，具体的说是一种用于包装生产的外骨骼机器人生产优化与助力控制方法，在生产过程中外骨骼机器人能更好地辅助工人进行生产工作。

背景技术

随着人们生活水平的提高和人口老龄化的到来，为工人提供辅助设备辅助生产，降低劳动强度，改善工人的劳动环境，将成为必然趋势。作为一种辅助生产设备，外骨骼机器人已经引起很多科学家的兴趣，并且已经在生产、物流等多个领域进行了应用。外骨骼机器人对工人的手臂提供辅助力矩，降低工作过程中手臂的负载。但现有外骨骼机器人智能化程度不高，只有助力功能，且只能按照固定的助力大小对工人进行助力。在电池电量有限的情况下，外骨骼机器人的工作时间对生产率有着十分重要的影响。因此，如何优化外骨骼机器人的助力方式，延长外骨骼机器人的工作时间是十分必要的。同时，在复杂的生产过程中如何利用外骨骼机器人的计算能量辅助工人进行决策，也是值得研究的问题。

发明内容

针对现有技术存在的不足之处，本发明提出一种外骨骼机器人生产优化与助力控制方法，以期通过动态改变助力权重，降低设备的能耗，延长设备的工作时间。同时利用设备强大的计算能力，在生产过程中辅助工人进行生产决策，从而提高工人的生产率。

为实现上述目的，本发明采用如下技术方案：

外骨骼机器人生产优化与助力控制方法，包括以下步骤，该方法应用于包装生产线，所述包装生产线由传送带(1)、传送带上随机到达的产品(2)、装备外骨骼机器人的工人(3)、光电传感器(4)、缓存库(5)、工作台(6)、装运区(7)以及换电站(8)组成；

所述光电传感器(4)位于捡取点(9)上游l_max处，当产品(2)到达光电传感器(4)时，外骨骼机器人记录其到达的时间，并根据到达时间以及传送带速度用于计算产品(2)在某时刻的位置并判断产品是否流失，将光电传感器(9)下游工人能够捡取产品(2)的区域定义为检测区域(10)，检测区域(10)两条边界距捡取点(9)的距离分别记为l_min和l_max，检测区域(10)内距离捡取点最近的产品到捡取点(9)的距离(11)为l；所述缓存库(5)容量记为C，剩余量表示缓冲库(5)的状态，记为c；所述工作台(6)配备了封箱设备，主要用于将放入产品的包装箱封箱；所示装运区(7)是用于装运包装箱的区域；所述换电站(8)为更换外骨骼机器的电池的区域；所述外骨骼机器人由上肢外骨骼和全方位可移动底盘组成，并通过电池供电，电池容量为E，用电池剩余量作为电池的状态，用e表示；同时设置电池低电量警戒值为e_low，当电池电量低于警戒值时，外骨骼机器人需要更换电池；全方位移动底盘可以载着工人(3)进行全方位移动，记工人(3)所处的位置为p，用1、2、3、4分别代表工人位于捡取点(9)、缓存库(5)、装运区(7)和换电站(8)；当工人徒手搬运产品(2)时所需力矩记为w_product，所述上肢外骨骼可以检测工人(3)在生产过程的疲劳，记工人(3)的疲劳值为b；上肢外骨骼能对工人(3)手臂提供助力，助力大小为w*w_product，其中w为外骨骼提供的助力与w_product的比值，记为助力权重；

在生产过程中，工人(3)可以选择的操作有三种，分别为更换电池操作、卸载操作、包装操作，记选择的操作为o，o∈O＝{0，1，2}，0、1、2分别表示更换电池操作、卸载操作、包装操作；

当执行所述卸载操作时，操作步骤为：工人前往捡取点(9)等待产品(2)到达，产品(2)到达捡取点(9)时工人从捡取点搬起产品(2)、平移至缓存库(5)、将产品(2)放入缓存库(5)中；执行所述包装操作时操作步骤为：工人前往缓存库(5)并从中搬起一个产品(2)、平移至工作台(6)、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(8)；执行所述更换电池操作时，工人前往换电站(8)更换电池。

本技术方案进一步的优化，所述在进行所述卸载操作和包装操作过程中需的步骤要所述外骨骼机器人对手臂提供助力，这些步骤包括从捡取点(9)搬起产品(2)、平移至缓存库(5)、将产品放入缓存库(5)、从缓存库(5)取出产品(2)、平移至工作台(6)、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7)。

本技术方案进一步的优化，所述外骨骼机器人在助力过程设计了安全机制，设置了最大疲劳阈值b_warn以及疲劳恢复值b_rest，当工人疲劳值达到最大疲劳阈值b_warn时，所述上肢外骨骼机器人将助力权重设置为w_max以完成当前操作，其中w_max为最大助力权重(w_max<1)，且工人需要休息到疲劳值降至b_rest才能进行下次操作。

本技术方案进一步的优化，所述包装生产线的生产状态s_up,生产状态s_up由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成，即s_up＝{e,b,p,c,l}；定义生产动作为选择的操作o，定义一个平稳生产策略V_up为生产状态s_up到选择的操作o的映射，在生产策略V_up下，每种生产状态s_up都有对应的选择的操作o与之对应；在生产过程中，决策时刻T_n的生产状态记为s_{up_Tn}，简记为s_{up_n}，s_{up_n}＝{e,b,p,c,l}，外骨骼机器人根据状态s_{up_n}选择工人将要执行的操作，记此时的动作为

生产优化的决策过程为，完成操作

后系统转移到状态s′_{up_n}＝{e′,b′,p′,c′,l′}，获取此次操作转移过程的转移样本

其中Δe为耗电量，

为决策周期时间，t_rest为工人因疲劳强制休息的时间,t_wait为等待产品到达捡取点的时间，t_change为换电池所需时间，利用公式(1)计算代价r_n：

其中k₁为电能单价，k₂为卸载完一个产品获得的即时报酬，k₃为疲劳值超过警戒值时产生的即时代价，k₄为工人等待产品到达以及更换电池过程中单位时间等待代价，k₅为缓存库中产品单位时间存储代价，k₆为包装一个产品获得的即时报酬，k₇为工人处于恢复阶段时的单位时间恢复代价，δ为疲劳越界标志，当疲劳越界时δ＝1，否则δ＝0。

本技术方案进一步的优化，所述包装生产线助力状态s_low,助力状态s_low由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成，即s_low＝{e,b,z}；定义助力动作为助力权重w，定义一个平稳助力策略V_low为助力状态s_low到助力权重w的映射，在助力策略V_low下，每种助力状态s_low都有对应助力权重w与之对应；在卸载操作过程中，决策时刻T_{low_k}的助力状态记为s_{low_k}＝{e,b,z}时，外骨骼的助力权重记为

系统转移到状态s′_{low_k}＝{e′,b′,z′}，获取此次决策过程的转移样本

其中Δe为耗电量，

为此次决策周期，t_rest为工人因疲劳强制休息的时间，利用公式(2)计算代价r_{low_k}：

r_{low_k}＝k₁Δe+k₃δ+k₇t_rest (2)

其中k₁为电能单价，k₃为疲劳值超过警戒值时产生的即时代价，k₇为工人处于恢复阶段时的单位时间恢复代价，δ为疲劳越界标志，当疲劳越界时δ＝1，否则δ＝0。

本技术方案更进一步的优化，所述生产策略V_up和助力策略V_low，生产策略V_up求解方法为深度Q网络算法，助力策略V_low求解方法为深度确定性策略梯度算法，深度Q网络算法和深度确定性策略梯度算法的步骤如下：

5)设置迭代次数Num，初始化深度Q网络算法的网络参数θ_up、θ′_up、经验池D_up、探索率ε_up、折扣因子γ_up、网络参数更新频率C_up；

6)初始化深度确定性策略梯度算法网络参数

经验池D_low、折扣因子γ_low、网络参数更新频率C_low，设置随机噪声函数ξ。初始化状态s_{up_0}；

7)迭代步数从1至Num开始迭代：

h)在深度Q网络算法中输入s_{up_n}，得到所有动作对应的Q值输出。用ε-greed法根据当前Q网络输出中选择对应的动作

若

时，转到d)，若不是，进行下一步；

i)转到下层决策模型训练，记进行卸载或包装过程下层状态为s_{low_k},k＝1,2,...；

j)当本次操作未结束时进行步骤①,否则进行步骤d)：

⑧MainNetActor估算网络基于s_{low_k}得到动作

⑨执行动作

转移到新状态s′_{low_k}＝s_{low_k+1}，获得奖励r_{low_k}；

⑩将

存储到下层经验池D_low中；

从下层经验池D_low中随机选取小批量经验，计算损失函数，通过神经网络的梯度反向传播更新MainNet Critic网络的参数

计算神经网络的梯度，反向传播更新MainNetActor网络的参数

更新Target Critic网络和TargetActor网络参数：

令s_{low_k+1}＝s′_low _k，返回步骤c)；

k)系统执行上层动作

后，转移到新状态s_{up_n+1}＝s′_{up_n}，获得奖励r_n；

l)将

存储到上层经验池D_up中。

m)从上层经验池D_up中随机选取一批样本，计算损失函数，并更新更新MainNet网络的参数θ_up；

n)每C_up步更新TargetNet网络参数：θ′_up＝θ_up；

8)迭代结束。

区别于现有技术，本发明提出的技术方案具有如下优点：

1、本发明利用外骨骼机器人处理信息速度快的特点，在生产过程中辅助工人进行生产决策，帮助工人选择生产操作，降低工人的工作难度，从而提高工人的生产率。

2、本发明能够根据工人疲劳值以及生产信息动态改变助力权重，在降低工人工作强度的同时，降低设备的能耗，延长设备的工作时间。

3、本发明提出一种深度Q网络算法(DQN)求解生产策略以及深度确定性策略梯度算法(DDPG)求解助力策略。这两种算法使外骨骼在生产过程中通过与环境交互，能够自主学习和决策，降低了工人求解生产策略和助力策略的难度。

附图说明

图1为外骨骼机器人生产优化与助力控制方法示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

参阅图1所示，为外骨骼机器人生产优化与助力控制方法示意图。本发明优选一实施例一种用于包装生产的外骨骼机器人生产优化与助力控制方法，该方法包括包装生产线，包装生产线由传送带1、传送带上随机到达的产品2、装备外骨骼机器人的工人3、光电传感器4、缓存库5、工作台6、装运区7以及换电站8组成。传送带1上设置有检测区域10和捡取点9。

所述光电传感器4位于捡取点9上游l_max处，当产品2到达光电传感器4时，外骨骼机器人记录其到达的时间，并根据到达时间以及传送带速度用于计算产品2在某时刻的位置并判断产品是否流失，将光电传感器9下游工人能够捡取产品2的区域定义为检测区域10，，检测区域10两条边界距捡取点的距离分别记为l_min和l_max，检测区域10内距离捡取点最近的产品到捡取点9的距离11为l，其中l∈(l_min,l_max)。缓存库5容量记为C，剩余量表示缓冲库状态，记为c，其中c∈{0,1,...,C}。

工作台6配备了封箱设备，主要用于将放入产品的包装箱封箱。所示装运区7是用于装运包装箱的区域。换电站8为更换外骨骼机器的电池的区域。外骨骼机器人由上肢外骨骼和全方位可移动底盘组成，并通过电池供电，电池容量为E，用电池剩余量作为电池的状态，用e表示，则e的取值范围为[0,E]。同时设置电池低电量警戒值为e_low，当电池电量低于警戒值时，外骨骼机器人需要更换电池。全方位移动底盘可以载着工人进行全方位移动，记工人3所处的位置为p，用1、2、3、4分别代表工人位于捡取点9、缓存库5、装运区7和换电站8。

当工人3徒手搬运产品2时所需力矩记为w_product，所述上肢外骨骼可以检测工人3在生产过程的疲劳，记工人的疲劳值为b。上肢外骨骼能对工人3手臂提供助力，助力大小为w*w_product，其中w为外骨骼提供的助力与w_product的比值，记为助力权重。

所述外骨骼机器人在助力过程设计了安全机制，当工人3疲劳值达到最大疲劳阈值b_warn时，所述上肢外骨骼机器人将助力权重设置为w_max以完成当前操作，其中w_max为最大助力权重(w_max<1)，且工人需要休息到疲劳值降至b_rest才能进行下次操作。

在生产过程中，工人可以选择的操作有三种，分别为更换电池操作、卸载操作、包装操作。记选择的操作为o，o∈O＝{0，1，2}，0、1、2分别表示更换电池操作、卸载操作、包装操作。

当执行所述卸载操作时，操作步骤为：工人3前往捡取点9等待产品2到达、产品2到达捡取点9时工人从捡取点搬起产品2、平移至缓存库5、将产品2放入缓存库5中。执行所述包装操作时操作步骤为：工人3前往缓存库5并从中搬起一个产品2、平移至工作台6、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区7、将包装箱放至在装运区8。执行所述更换电池操作时，工人3前往换电站8更换电池。

在进行所述卸载操作和包装操作过程中需的步骤要所述外骨骼机器人对手臂提供助力，这些步骤包括从捡取点9搬起产品2、平移至缓存库5、将产品放入缓存库5、从缓存库5取出产品2、平移至工作台6、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区7、将包装箱放至在装运区7。将上述这些操作步骤用z表示，z∈{1,2,3,4,5,6,7,8,9,10,11}。

定义系统的生产状态s_up,生产状态s_up由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成，即s_up＝{e,b,p,c,l}。定义生产动作为选择的操作o，定义一个平稳生产策略V_up为生产状态s_up到选择的操作o的映射，在生产策略V_up下，每种生产状态s_up都有对应的选择的操作o与之对应。在生产过程中，外骨骼机器人根据生产策略V_up选择操作o，从而辅助工人进行生产，降低了工人工作的复杂程度。决策时刻T_n的生产状态记为

简记为s_{up_n}，s_{up_n}＝{e,b,p,c,l}，。外骨骼机器人根据状态s_{up_n}选择工人将要执行的操作，记此时的动作为

生产优化的决策过程为，完成操作

其中Δe为耗电量，

为决策周期时间，t_rest为工人因疲劳强制休息的时间,t_wait为等待产品到达捡取点的时间，t_change为换电池所需时间。利用公式(1)计算代价r_n。

式(1)中k₁为电能单价，k₂为卸载完一个产品获得的即时报酬，k₃为疲劳值超过警戒值时产生的即时代价，k₄为工人等待产品到达以及更换电池过程中单位时间等待代价，k₅为缓存库中产品单位时间存储代价，k₆为包装一个产品获得的即时报酬，k₇为工人处于恢复阶段时的单位时间恢复代价，δ为疲劳越界标志，当疲劳越界时δ＝1，否则δ＝0。

定义系统的助力状态s_low,助力状态s_low由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成，即s_low＝{e,b,z}。定义助力动作为助力权重w，定义一个平稳助力策略V_low为助力状态s_low到助力权重w的映射，在助力策略V_low下，每种助力状态s_low都有对应助力权重w与之对应。在卸载和操作过程中，外骨骼机器人根据助力策略V_low动态调整助力权重w，在工人疲劳值不超过最大疲劳阈值b_warn的情况下降低工人手臂的负担，不但提高了工人的生产效率，而且降低了设备的耗电量。在决策时刻T_{low_k}的助力状态记为s_{low_k}＝{e,b,z}时，外骨骼的助力权重记为

其中Δe为耗电量，

为此次决策周期，t_rest为工人因疲劳强制休息的时间，利用公式(2)计算代价r_{low_k}。

r_{low_k}＝k₁Δe+k₃δ+k₇t^rest (2)

其中生产策略V_up求解方法为深度Q网络算法(DQN)，助力策略V_low求解方法为深度确定性策略梯度算法(DDPG)。DQN和DDPGD的步骤如下：

1)设置迭代次数Num，初始化DQN的网络参数θ_up、θ′_up、经验池D_up、探索率ε_up、折扣因子γ_up、网络参数更新频率C_up；

2)初始化DDPG网络参数

3)迭代步数从1至Num开始迭代：

4)：

a)在DQN中输入s_{up_n}，得到所有动作对应的Q值输出。用ε-greed法根据当前Q网络输出中选择对应的动作

若

时，转到d)，若不是，进行下一步；

b)转到下层决策模型训练，记进行卸载或包装过程下层状态为s_{low_k},k＝1,2,...；

c)当本次操作未结束时进行步骤①，否则进行步骤d)：

①MainNetActor估算网络基于s_{low_k}得到动作

②执行动作

转移到新状态s′_{low_k}＝s_{low_k+1}，获得奖励r_{low_k}；

③将

存储到下层经验池D_low中；

④从下层经验池D_low中随机选取小批量经验，并用公式(3)计算损失函数，通过神经网络的梯度反向传播更新MainNet Critic网络的参数

⑤使用公式(13)计算神经网络的梯度，反向传播更新MainNetActor网络的参数

⑥每C_low步更新Target Critic网络和TargetActor网络参数：

⑦令s_{low_k+1}＝s′_low _k，返回步骤c)；

d)系统执行上层动作

后，转移到新状态s_{up_n+1}＝s′_{up_n}，获得奖励r_n；

e)将

存储到上层经验池D_up中。

f)从上层经验池D_up中随机选取一批样本，利用公式(4)计算损失函数，并更新更新MainNet网络的参数θ_up；

g)每C_up步更新TargetNet网络参数：θ′_up＝θ_up；

5)迭代结束

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.外骨骼机器人生产优化与助力控制方法，其特征在于，包括以下步骤，该方法应用于包装生产线，所述包装生产线由传送带(1)、传送带上随机到达的产品(2)、装备外骨骼机器人的工人(3)、光电传感器(4)、缓存库(5)、工作台(6)、装运区(7)以及换电站(8)组成；

所述光电传感器(4)位于捡取点(9)上游l_max处，当产品(2)到达光电传感器(4)时，外骨骼机器人记录其到达的时间，并根据到达时间以及传送带速度用于计算产品(2)在某时刻的位置并判断产品是否流失，将光电传感器(4)下游工人能够捡取产品(2)的区域定义为检测区域(10)，检测区域(10)两条边界距捡取点(9)的距离分别记为l_min和l_max，检测区域(10)内距离捡取点最近的产品到捡取点(9)的距离(11)为l；所述缓存库(5)容量记为C，剩余量表示缓存库(5)的状态，记为c；所述工作台(6)配备了封箱设备，主要用于将放入产品的包装箱封箱；装运区(7)是用于装运包装箱的区域；所述换电站(8)为更换外骨骼机器的电池的区域；所述外骨骼机器人由上肢外骨骼和全方位可移动底盘组成，并通过电池供电，电池容量为E，用电池剩余量作为电池的状态，用e表示；同时设置电池低电量警戒值为e_low，当电池电量低于警戒值时，外骨骼机器人需要更换电池；全方位移动底盘可以载着工人(3)进行全方位移动，记工人(3)所处的位置为p，用1、2、3、4分别代表工人位于捡取点(9)、缓存库(5)、装运区(7)和换电站(8)；当工人徒手搬运产品(2)时所需力矩记为w_product，所述上肢外骨骼可以检测工人(3)在生产过程的疲劳，记工人(3)的疲劳值为b；上肢外骨骼能对工人(3)手臂提供助力，助力大小为w*w_product，其中w为外骨骼提供的助力与w_product的比值，记为助力权重；

当执行所述卸载操作时，操作步骤为：工人前往捡取点(9)等待产品(2)到达，产品(2)到达捡取点(9)时工人从捡取点搬起产品(2)、平移至缓存库(5)、将产品(2)放入缓存库(5)中；执行所述包装操作时操作步骤为：工人前往缓存库(5)并从中搬起一个产品(2)、平移至工作台(6)、放入包装箱中、搬起包装箱、放入封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7)；执行所述更换电池操作时，工人前往换电站(8)更换电池；

在进行卸载操作和包装操作过程中的步骤需要所述外骨骼机器人对手臂提供助力，这些步骤包括从捡取点(9)搬起产品(2)、平移至缓存库(5)、将产品放入缓存库(5)、从缓存库(5)取出产品(2)、平移至工作台(6)、放入包装箱中、将包装箱搬起、放入自动封箱设备中、从封箱设备中搬起包装箱、平移至装运区(7)、将包装箱放至在装运区(7)；

所述外骨骼机器人在助力过程设计了安全机制，设置了最大疲劳阈值b_warn以及疲劳恢复值b_rest，当工人疲劳值达到最大疲劳阈值b_warn时，所述外骨骼机器人将助力权重设置为w_max以完成当前操作，其中w_max为最大助力权重(w_max<1)，且工人需要休息到疲劳值降至b_rest才能进行下次操作；

所述包装生产线的生产状态s_up,生产状态s_up由电池剩余量e、工人的疲劳值b、工人所处的位置p、缓冲库剩余量c、产品到捡取点的距离l组成，即s_up＝{e,b,p,c,l}；定义生产动作为选择的操作o，定义一个平稳生产策略V_up为生产状态s_up到选择的操作o的映射，在生产策略V_up下，每种生产状态s_up都有对应的选择的操作o与之对应；在生产过程中，决策时刻T_n的生产状态记为

简记为s_{up_n}，s_{up_n}＝{e,b,p,c,l}，外骨骼机器人根据状态s_{up_n}选择工人将要执行的操作，记此时的动作为

完成操作

t_rest,t_wait,t_change}，其中Δe为耗电量，

其中k₁为电能单价，k₂为卸载完一个产品获得的即时报酬，k₃为疲劳值超过警戒值时产生的即时代价，k₄为工人等待产品到达以及更换电池过程中单位时间等待代价，k₅为缓存库中产品单位时间存储代价，k₆为包装一个产品获得的即时报酬，k₇为工人处于恢复阶段时的单位时间恢复代价，δ为疲劳越界标志，当疲劳越界时δ＝1，否则δ＝0；

所述包装生产线的助力状态s_low,助力状态s_low由电池剩余量e、工人的疲劳值b以及正在进行的操作步骤z组成，即s_low＝{e,b,z}；定义助力动作为助力权重w，定义一个平稳助力策略V_low为助力状态s_low到助力权重w的映射，在助力策略V_low下，每种助力状态s_low都有对应助力权重w与之对应；在卸载操作过程中，决策时刻T_{low_k}的助力状态记为s_{low_k}＝{e,b,z}时，外骨骼的助力权重记为