CN116449850B

CN116449850B - 一种基于行为克隆和协同性系数的三体协同搬运方法及系统

Info

Publication number: CN116449850B
Application number: CN202310687733.6A
Authority: CN
Inventors: 李新德; 钱玉航; 吕志伟
Original assignee: Nanjing Fanmeili Robot Technology Co ltd
Current assignee: Nanjing Fanmeili Robot Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-15
Anticipated expiration: 2043-06-12
Also published as: CN116449850A

Abstract

本发明公开了一种基于行为克隆和协同性系数的三体协同搬运方法及系统，该方法包括：根据搬运状态，将搬运任务划分为各个搬运阶段，包括抬升阶段、放下阶段、加速阶段、匀速阶段、减速阶段、转弯阶段；针对不同的搬运阶段，虚拟人通过感知设备学习人类搬运习惯，并反馈到行为克隆鼓励策略算法更新机器人搬运策略，同时通过平滑函数调整机器人行为，使得人机协作进入稳定状态。本发明在传统的人机协作任务中加入可交互、多途径感知信息、智能平衡人机行为差异、智能决策的虚拟人，运用行为克隆网络使机器人在不同阶段做出与人相近的行为动作，通过协同性系数调整算法使人机行为达成一致，使得系统进入稳态，有效提高了任务协作效率。

Description

一种基于行为克隆和协同性系数的三体协同搬运方法及系统

技术领域

本发明属于人机协作技术领域，具体涉及一种基于行为克隆和协同性系数的三体协同搬运方法及系统。

背景技术

如今，随着元宇宙兴起，人工智能、大数据、移动互联网等新一代信息技术快速发展和普及应用，融合虚拟现实、增强现实、深度学习、语义理解、语音识别等多种 AI 技术的数字虚拟人正成为人工智能应用最广泛、最有发展潜力的领域之一。

在搬运、避障等人机协作（HRC）领域，当任务较为复杂，机器人和人类感知信息的差异性可能会导致人类在完成某一具体任务时出现和机器人决策的相悖行为。以搬运过程为例，人会不可避免地对搬运任务额外地克服机器人决策差异而做功。

因此，本发明在整个协同系统中加入虚拟人角色，构成人-虚拟人-机器人协同（HVRC）系统，因其感知信息的全面性，结合数字孪生技术，用以平衡人机认知差异，作出智能决策，实时调整机器人行为以提高协同效率。

发明内容

发明目的：本发明在传统的人机协作系统上加入虚拟人，旨在弥补人机协作在应对复杂情形时的低效性，这种低效性主要来自于人和机器人由于对环境感知的差异导致的决策差异，主要体现在人机在参与搬运过程中的不协调性，从而导致协同过程中人的舒适度降低。

技术方案：为实现上述目的，本发明提供一种基于行为克隆和协同性系数的三体协同搬运方法，包括以下步骤：

为了研究整个协同搬运过程，首先将整个搬运过程分为几个特定阶段，如抬升、放下、加速、减速、匀速、转弯等，对每个阶段单独研究。

针对不同的搬运阶段，虚拟人虚拟人通过感知设备学习人类搬运习惯，并反馈到行为克隆鼓励策略算法更新机器人搬运策略，同时通过平滑函数调整机器人行为，使得人机协作进入稳定状态；

所述行为克隆鼓励策略算法的目标函数定义为：

；

其中表示搬运阶段，/>表示人类搬运行为，/>是机器人搬运策略，/>为损失函数，通过最小化目标函数更新机器人搬运策略。

进一步地，所述搬运阶段的判断通过以下任意一种或多种方式结合实现：

①虚拟人对人类行为意图的识别（如语音交互、手势识别等）；

②虚拟人对环境感知参数的分析。

进一步地，所述机器人搬运策略定义为：/>，其中/>表示机器人控制参数，包括以下任意一种或多种参数：抬升高度/>（针对抬升或放下阶段）、加速度/>（针对加速或减速阶段）、平均速度/>（针对匀速阶段）、路径曲率/>、拐弯速度/>（针对转弯阶段）。

进一步地，在机器人搬运策略的执行过程中，进一步通过平滑函数调整机器人控制参数/>的偏差值，实现控制参数/>的平滑调整，使得协同性系数/>，所述平滑函数定义为：

；

其中为控制参数/>的初始偏差值，令/>得出预计调整时间：

；

其中为阈值。

进一步地，所述协同性系数定义为：

；

其中根据机器人控制参数/>和实际感知参数/>确定，实际感知参数/>包括以下任意一种或多种参数：抬升高度/>、力传感器数据/>、平均速度/>、路径曲率/>、拐弯速度/>。

进一步地，在搬运过程中，虚拟人根据环境感知模块得到的点云地图，构建二维平面栅格地图，由此进行路径规划。

进一步地，所述路径规划方法具体包括：

1）已知搬运起始点和终点，使用A*算法计算出初始路径；

2）在初始路径的基础上，应用三角形顶点筛查法进行路径优化。

进一步地，所述三角形顶点筛查法具体包括：

假设初始路径上的三个连续节点，即：起始节点、中间节点、以及末端节点/>构成三角形，且障碍物坐标为/>，则作如下限定：

；

其中，S是最小安全距离，若（表示/>、/>之间的路径可避开障碍物），则去除节点/>，直接连接节点/>和/>作为新的路径（两点之间直线最短），否则从/>节点沿着/>节点方向逐单位栅格距离进行试探（沿/>-/>方向找最短路径），即：将/>更新为/>，/>，，其中/>为单位栅格距离，更新后重新计算/>并进行下一轮判断，重复以上过程，最终得到最少节点数和最短路径。

此外，本发明还提供了一种基于行为克隆和协同性系数的三体协同搬运系统，包括虚拟人、机器人、真人三个参与主体和多源感知模块，该系统利用上述三体协同搬运方法执行人机协作搬运任务，其中虚拟人为分布式云端智能体。

进一步的，所述多源感知模块包括：

环境感知模块，用于采集地图信息；

行为意图识别模块，用于获取真人行为和意图。

有益效果：本发明在传统的人机协作任务中加入可交互、多途径感知信息、智能平衡人机行为差异、智能决策的虚拟人，运用行为克隆网络使机器人在不同阶段做出与人相近的行为动作，通过协同性系数调整算法（即平滑函数）使人机行为达成一致，使得系统进入稳态，有效提高了任务协作效率。

附图说明

图1是本发明实施例中的三体协同搬运系统框图；

图2是本发明实施例中路径优化的原理图；

图3是本发明实施例中所构建的有限自动状态机示意图；

图4是本发明实施例中的人机协同控制流程图。

具体实施方式

以下结合附图和具体的实施例对本发明作进一步详细说明。根据下面的说明，本发明的优点和特征将更清楚。

如图1所示，本实施例所涉及的三体协同搬运系统包括真人、虚拟人和机器人三个参与主体，搬运对象为桌子。具体地，人机协作方式为：搬运人与机器人分别位于桌子两端，合作进行桌子的抬升和移动，在人机合作过程中，虚拟人通过行为克隆鼓励策略网络对人的搬运习惯进行学习优化，从而根据特定阶段更新机器人控制策略，抬升在实际搬运过程中通过协同性系数调整算法进一步缩小人机意图差异。

此外，系统由以下模块组成：环境感知模块、行为意图识别模块、协同控制决策模块、学习优化模块。其中，环境感知模块用于对场景建模以及对环境中物体添加语义信息，行为意图识别模块用于人类意图识别与交互，协同控制决策模块基于以上两个模块完成搬运任务的初始规划和动态调整，做出最优决策，同时通过学习优化模块提升人机协同程度。

所述虚拟人依托于可展示其形象、路径规划信息以及收音和播报功能的便携终端上，其感知信息的途径是系统中所有信息感知途径的集合，包括场景中获取全局物体位置信息以及轮廓大小信息的固定采集相机（即环境感知模块），搬运过程中采集真人行为意图信息的力传感器、加速度传感器、人类交互指令（语音指令）集以及摄像头等（即行为意图识别模块）。

基于上述三体协同搬运系统的三体协同搬运方法，包括以下步骤：

Step1：虚拟人根据环境感知模块得到的环境点云图，提取障碍物的位置、轮廓、大小等信息，构建二维平面栅格地图。

Step2：虚拟人根据二维平面栅格地图进行路径规划，具体为：

1）已知搬运起始点和终点，使用A*算法计算出初始路径；、

2）在初始路径的基础上，应用三角形顶点筛查法进行路径优化，去除冗余折点缩短路径长度，并使路径更加平滑，具体为：

；

其中，S是最小安全距离，若，则去除节点/>，直接连接节点/>和/>作为新的路径，否则从/>节点沿着/>节点方向逐单位栅格距离进行试探，即：将/>更新为/>，/>，，其中/>为单位栅格距离，更新后重新计算/>并进行下一轮判断，重复以上过程，最终得到最少节点数和最短路径。

如图2所示，、/>、/>为初始路径上的三个连续节点，初始状态下/>、/>之间的路径无法避开障碍物/>，因此从/>节点沿着/>节点方向逐单位栅格距离进行试探，直至/>节点更新为/>节点，此时/>、/>之间的路径已经可以避开障碍物/>，因此去除节点/>，直接连接更新后的/>（即节点/>）和/>作为新的路径。

Step3：根据搬运阶段构造虚拟人与人类交互办法，其中，表示人类指令集合，/>表示虚拟人提示语音集合；

具体地，人类指令集合包括{开始，抬升，下降，加速，匀速，减速，左转，右转，放下，结束}，用于辅助虚拟人理解搬运动作，判断搬运阶段；虚拟人提示语音集合/>包括{起步就绪，被动跟随，前方弯道，放下桌子，任务结束}，用于在搬运过程中提示搬运人进行下一步动作，协助进行搬运任务。

特别地，当搬运人主动给出指令时，虚拟人根据指令/>判断即将进行的搬运阶段，并判定该阶段由人主导搬运，协同性系数更新为初始值/>。

应注意，在搬运过程中虚拟人应对搬运人指令的合理性判断。具体地，根据搬运任务逻辑构建有限自动状态机：如图3所示，箭头表示上一人类指令到下一人类指令的逻辑可达性，对于当前人类指令，需检查指令记录中上一条人类指令/>在状态机中是否可转移到/>，若箭头单步可达，则虚拟人根据当前指令/>对应的任务阶段给出机器人策略，否则维持当前阶段不变，并给出指令不合法提示。

当设备采集的环境感知参数满足时，虚拟人判断即将进行的搬运阶段分别为转弯阶段、减速阶段和停止阶段，并判定该阶段由机器人主导搬运，虚拟人给出{被动跟随}提示，搬运人被动适应机器人搬运行为。

其中环境感知参数包括但不限于路径曲率、终点距离/>、动态障碍物距离/>和方向/>，/>、/>、/>、/>分别为阈值。

Step4：针对不同的搬运阶段，虚拟人对行为克隆鼓励策略算法模型加入先验参数，根据搬运状态和搬运动作构建示范集合（即模型预训练），其中搬运状态对应搬运阶段，搬运动作对应人类搬运习惯。

其中行为克隆鼓励策略算法的示范集合具体为：，算法目标函数定义为：

；

其中是一个状态，对应搬运阶段，/>是人类基于该状态对应的行为参数，是机器人搬运策略，/>定义为损失函数，通过最小化目标函数让机器人学得策略。

具体地，机器人策略通过/>表征，其中/>表示机器人控制参数，包括以下任意一种或多种参数：抬升高度/>、加速度/>、平均速度/>、路径曲率/>、拐弯速度/>。

Step6：在搬运过程中，虚拟人学习人机协作搬运习惯，并反馈到行为克隆鼓励策略算法更新机器人搬运策略，调整机器人行为，直至人机协作进入稳定状态。

如图4所示，虚拟人首先通过行为克隆鼓励策略算法更新机器人搬运策略，并在机器人搬运策略/>的执行过程中，通过平滑函数调整机器人控制参数/>的偏差值，实现控制参数/>的平滑调整，使得协同性系数/>（/>越低，系统协同性越高）。

其中协同性系数定义为：

；

其中根据机器人控制参数/>和实际感知参数/>（与/>相关）确定，实际感知参数/>包括以下任意一种或多种参数：抬升高度/>、力传感器数据/>、平均速度、路径曲率/>、拐弯速度/>。

实现机器人平滑控制的函数为：

；

其中为控制参数/>的初始偏差值，令/>得出预计调整时间：

；

其中为阈值。

具体地，搬运过程和更新策略包括：

①抬升/放下阶段：和/>通过抬升/放下高度/>表征，为第/>阶段与时间点/>对应的抬升/放下高度，通过行为克隆鼓励策略算法确定时间点/>对应的预测高度/>后，进一步通过平滑函数调整预测高度/>与实际高度/>之间的高度差：

；

其中为初始高度差，直至协同性系数/>，/>为阈值。

②加速/减速阶段：和/>通过加速度/>表征，为第/>阶段与时间点/>对应的加速度，通过行为克隆鼓励策略算法确定时间点/>对应的预测加速度/>后，进一步通过平滑函数调整预测加速度/>与实际加速度/>之间的加速度偏差，此时的加速度偏差可通过力传感器数据表征：

；

其中为初始力传感器数据，直至协同性系数/>，/>为阈值。

③匀速阶段：和/>通过平均速度/>表征，/>为第/>阶段的平均速度，通过行为克隆鼓励策略算法确定预测速度/>后，进一步通过平滑函数调整预测速度/>与实际速度/>之间的速度差：

；

其中为初始速度差，直至协同性系数/>，/>为阈值。

④转弯阶段：和/>通过/>表征，/>为第/>阶段的路径曲率（由路径规划得出），/>为与/>对应的过弯速度，通过行为克隆鼓励策略算法确定预测过弯速度后，进一步通过平滑函数调整预测过弯速度/>与实际过弯速度/>之间的速度差：

；

其中为初始过弯速度差，直至协同性系数/>，/>为阈值。

为了保证行为克隆鼓励策略算法的可预测性，对于所有搬运阶段的和/>数据长度需保证统一（长度不够则通过零值调整）。同时在每个阶段的搬运任务完成后，进一步将采集的人类行为参数反馈到行为克隆鼓励策略算法更新机器人搬运策略，以提高行为克隆网络的预测精准性。

上述描述仅是对本发明较佳实施例的描述，并非对本发明权利范围的任何限定，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于行为克隆和协同性系数的三体协同搬运方法，其特征在于，包括以下步骤：

步骤1：根据搬运状态，将搬运任务划分为各个搬运阶段，包括抬升阶段、放下阶段、加速阶段、匀速阶段、减速阶段、转弯阶段；

步骤2：针对不同的搬运阶段，虚拟人通过感知设备学习人类搬运习惯，并反馈到行为克隆鼓励策略算法更新机器人搬运策略，同时通过平滑函数调整机器人行为，使得人机协作进入稳定状态；

所述机器人搬运策略定义为：/>，其中/>表示机器人控制参数，包括以下任意一种或多种参数：抬升高度/>、加速度/>、平均速度/>、路径曲率/>、拐弯速度/>；

在机器人搬运策略的执行过程中，进一步通过平滑函数调整机器人控制参数/>的偏差值，使得协同性系数/>，所述平滑函数定义为：

；

其中为控制参数/>的初始偏差值，令/>得出预计调整时间：

；

其中为阈值;

所述协同性系数定义为：

；

其中根据机器人控制参数/>和实际感知参数/>确定，实际感知参数/>包括以下任意一种或多种参数：抬升高度/>、力传感器数据/>、平均速度/>、路径曲率/>、拐弯速度/>；

所述行为克隆鼓励策略算法的目标函数定义为：

；

2.根据权利要求1所述的三体协同搬运方法，其特征在于，所述搬运阶段的判断通过以下任意一种或多种方式结合实现：

①虚拟人对人类行为意图的识别；

②虚拟人对环境感知参数的分析。

3.根据权利要求1所述的三体协同搬运方法，其特征在于，在搬运过程中，虚拟人根据环境感知模块得到的点云地图，构建二维平面栅格地图，由此进行路径规划。

4.根据权利要求3所述的三体协同搬运方法，其特征在于，所述路径规划方法具体包括：

1）已知搬运起始点和终点，使用A*算法计算出初始路径；

5.根据权利要求4所述的三体协同搬运方法，其特征在于，所述三角形顶点筛查法具体包括：

假设初始路径上的三个连续节点，即：起始节点、中间节点/>、以及末端节点/>构成三角形，且障碍物坐标为/>，则作如下限定：

；

6.一种基于行为克隆和协同性系数的三体协同搬运系统，其特征在于，包括虚拟人、机器人、真人三个参与主体和多源感知模块，该系统利用权利要求1-5中任一所述三体协同搬运方法执行人机协作搬运任务，其中虚拟人为分布式云端智能体。

7.根据权利要求6所述的三体协同搬运系统，其特征在于，所述多源感知模块包括：

环境感知模块，用于采集地图信息；

行为意图识别模块，用于获取真人行为和意图。