CN117644520B

CN117644520B - 多臂机器人采摘任务规划方法、装置、电子设备及介质

Info

Publication number: CN117644520B
Application number: CN202410117879.1A
Authority: CN
Inventors: 李涛; 冯青春; 姜凯; 谢丰
Original assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Current assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-05-10
Anticipated expiration: 2044-01-29
Also published as: CN117644520A

Abstract

本发明提供一种多臂机器人采摘任务规划方法、装置、电子设备及介质，属于机械臂控制技术领域，所述方法包括：基于果实分布信息和多臂机器人的状态信息，确定多臂机器人采摘环境的状态空间和各个智能体的动作空间；智能体为多臂机器人中任一组共享同一移动机构的两个机械臂；基于状态空间、动作空间和回报函数，确定各个环境状态下各智能体中的每个机械臂的最优动作，以根据每个机械臂的最优动作规划采摘任务；回报函数是基于各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息确定的；各个环境状态是通过更新状态空间确定的。本发明可以有效提高机器人采摘作业效率及作业成功率。

Description

多臂机器人采摘任务规划方法、装置、电子设备及介质

技术领域

本发明涉及机械臂控制技术领域，尤其涉及一种多臂机器人采摘任务规划方法、装置、电子设备及介质。

背景技术

自动化采摘是农业劳动力短缺背景下苹果产业发展的迫切需求，但目前综合作业效率不足仍是制约其实际应用的瓶颈。由于作业需要，越来越多的采摘机器人采用了多个机械臂和执行机构，以及多视觉传感及其他传感器构造机器人系统。

然而，现有采摘机器人控制系统在考虑多机械臂同时作业过程中，容易发生机械臂互相等待、采摘次序不理想、机械臂执行机构遍历路径冗余繁琐等情况，导致采摘作业效率及作业成功率较低。

因此，如何更好地实现多臂机器人采摘任务规划，提高采摘作业效率和作业成功率已成为业界亟待解决的技术问题。

发明内容

本发明提供一种多臂机器人采摘任务规划方法、装置、电子设备及介质，用以更好地实现多臂机器人采摘任务规划。

本发明提供一种多臂机器人采摘任务规划方法，包括：

基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂；

基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的。

根据本发明提供的一种多臂机器人采摘任务规划方法，所述基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，包括：

步骤1，基于所述状态空间和所述动作空间，确定当前环境状态下为各所述智能体选择的动作，并根据所述回报函数，计算各所述智能体执行完所有所述动作后的累积回报值；

步骤2，根据所述累积回报值，确定当前环境状态下的优势函数值，并根据所述优势函数值，确定当前环境状态下，各所述智能体中的每个机械臂的最优动作；

步骤3，更新当前环境状态，得到下一环境状态，并基于所述下一环境状态和所述优势函数值，确定所述下一环境状态下为各所述智能体选择的动作；

将所述下一环境状态作为当前环境状态，重复执行步骤1至步骤3，直至确定当前环境状态下所有果实目标被采摘完，获取各环境状态下各所述智能体中的每个机械臂的最优动作。

根据本发明提供的一种多臂机器人采摘任务规划方法，确定所述回报函数的步骤包括：

基于各所述智能体尝试抓取果实目标的探索信息，确定各所述智能体的探索回报函数；

基于各所述智能体之间的冲突信息，确定各所述智能体的冲突回报函数；所述冲突信息用于表征多个所述智能体被分配同时摘取同一个果实目标的信息；

基于各所述智能体执行动作所花费的时间，确定各所述智能体的时间回报函数；

将所述探索回报函数、所述冲突回报函数和所述时间回报函数进行求和，得到所述回报函数。

根据本发明提供的一种多臂机器人采摘任务规划方法，所述基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂，包括：

基于果实分布信息、所述多臂机器人的各机械臂的位置信息、各所述机械臂的采摘分配信息，构建所述状态空间；

基于各所述智能体采摘的果实目标的编号及各所述智能体的动作类型，构建所述动作空间；

所述多臂机器人的状态信息包括各所述机械臂的位置信息、各所述机械臂的采摘分配信息、各所述智能体采摘的果实目标的编号及各所述智能体的动作类型。

根据本发明提供的一种多臂机器人采摘任务规划方法，所述状态空间具体是通过如下公式确定的：

；

式中，表示所述状态空间；k表示时刻；/>表示所述果实分布信息；/>表示机械臂的位置和状态；/>表示各所述机械臂的采摘分配信息；/>表示各所述机械臂尝试抓取果实目标的次数；/>表示采摘任务的进度信息。

根据本发明提供的一种多臂机器人采摘任务规划方法，所述动作空间具体是通过如下公式确定的：

；

式中，表示第/>个所述智能体采摘的果实目标的编号；/>分别表示第/>个所述智能体中的一个机械臂和另一个机械臂所采取的动作。

根据本发明提供的一种多臂机器人采摘任务规划方法，确定各所述智能体的动作类型的具体步骤包括：

将机械臂接近、伸出、抓取定义为机械臂的第一动作信息，并将机械臂回撤和放置定义为机械臂的第二动作信息，将保持空闲状态定义为机械臂的第三动作信息；

对所述第一动作信息、所述第二动作信息和所述第三动作信息进行组合，确定各所述智能体的动作类型。

本发明还提供一种多臂机器人采摘任务规划装置，包括：

第一处理模块，用于基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂；

第二处理模块，用于基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多臂机器人采摘任务规划方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多臂机器人采摘任务规划方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多臂机器人采摘任务规划方法。

本发明提供的多臂机器人采摘任务规划方法、装置、电子设备及介质，通过将多臂机器人中任一组共享同一移动机构的两个机械臂定义为智能体，根据各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息构建回报函数，利用强化学习算法的思想，根据实际的果实分布信息和多臂机器人的状态信息，构建多臂机器人采摘环境的状态空间和各个智能体的动作空间，并利用状态空间、动作空间和回报函数，迭代执行各智能体强化学习过程，确定出各个环境状态下各智能体中的每个机械臂的最优动作，以此获取多臂机器人执行采摘任务的最优规划，可以有效减少机械臂互相等待、采摘次序不理想、机械臂执行机构遍历路径冗余繁琐等情况发生，提高机器人采摘作业效率及作业成功率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多臂机器人采摘任务规划方法的流程示意图；

图2是本发明提供的多臂机器人采摘任务规划方法中多臂机器人的结构示意图；

图3是本发明提供的多臂机器人采摘任务规划方法中多臂机器人的作业空间示意图；

图4是本发明提供的多臂机器人采摘任务规划方法中多臂作业状态转移过程的示意图；

图5是本发明提供的多臂机器人采摘任务规划方法中处理智能体间干涉的流程示意图；

图6是本发明提供的多臂机器人采摘任务规划装置的结构示意图；

图7是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图7描述本发明的多臂机器人采摘任务规划方法、装置、电子设备及介质。

图1是本发明提供的多臂机器人采摘任务规划方法的流程示意图，如图1所示，包括：

步骤110，基于果实分布信息和多臂机器人的状态信息，确定多臂机器人采摘环境的状态空间和各个智能体的动作空间；智能体为多臂机器人中任一组共享同一移动机构的两个机械臂；

步骤120，基于状态空间、动作空间和回报函数，确定各个环境状态下各智能体中的每个机械臂的最优动作，以根据每个机械臂的最优动作规划采摘任务；回报函数是基于各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息确定的；各个环境状态是通过更新状态空间确定的。

具体地，本发明实施例所描述的果实分布信息指的是多臂机器人采摘环境中各个果实上果实分布的空间位置信息。

本发明实施例所描述的智能体是通过将多臂机器人中任一组共享同一移动机构的两个机械臂设定为同一组控制对象而得到的。可以理解的是，多臂机器人包括多个智能体，每个智能体用于执行其所处区域的采摘任务。

本发明实施例所描述的多臂机器人的状态信息指的是各个智能体中每个机械器的运行状态信息，具体可以包括位置状态、采摘任务分配状态、所执行的动作状态等信息。

图2是本发明提供的多臂机器人采摘任务规划方法中多臂机器人的结构示意图，如图2所示，在本发明的实施例中，多臂机器人的执行部件主要包括多个机械臂101、采摘手爪102以及果实收集部件103。鉴于近似球形苹果的质心可直接作为采摘定位依据而无需考虑操作姿态，采摘手爪102运动定位由3个直线运动自由度实现，包括水平运动、垂直运动、伸缩运动，且每两个采摘臂共用一组可以垂直运动的移动机构104，同步进行上下伺服运动，其各自水平运动互为独立。

由于果实受重力牵引自然下垂，其主要分布于枝干和叶片下方。为了减少枝叶对果实的遮挡，每个采摘臂101以向上倾斜姿态对果实进行采摘。机械臂101采用电动和气动组合式两级伸缩运动，以实现采摘手爪102在树冠和机器人本体之间频繁高效的往复运动，其中机器人本体与树冠边缘之间采用气动驱动伸缩，树冠内部的精确定位采用电动伺服驱动伸缩。果实收集部件103包括两组与水平运动机构固定连接的水平传送带和一组立式传送带。采摘手爪102将果实从枝干分离后，将其释放于水平传送带上，果实先后经水平和立式传送带输送至收纳筐。

如图2所示，以四臂机器人为例，将一个机械臂和采摘手爪作为一个作业单元，该机器人的作业单元分别与相邻单元存在共享的直线导轨，例如单元1和单元2在横向共享上层导轨，单元3和单元4横向共享下层导轨，单元1和3在纵向共享导轨，以及单元2和4在纵向共享导轨。将该机器人横向排列的两个机械臂视为一组，这一组机器人共享一条横向导轨，共有两组，单元1和2为一组、单元3和4为一组。每组机械臂能够通过公用的横向导轨访问同一个作业区域，形成了具有重叠作业空间的多臂采摘机器人构型。

图3是本发明提供的多臂机器人采摘任务规划方法中多臂机器人的作业空间示意图，如图3所示，在针对果树的采摘作业空间上，这类构型的机器人既存在两两重合的作业空间，也存在四个机械臂均重合的作业空间。其中，OL和OR区域分别为单元1和3以及单元2和4的两两重叠作业区域；OU和OD分别为单元1和2以及单元3和4的两两重叠作业区域；OC为单元1～4的四单元重叠作业区域；剩余的E1～E4分别为单元1～4的独立作业区域。

继续参照图2，由于多臂机器人的各个机械臂中，横向相邻的两个机械臂的上下运动是同步的、相互耦合，可以将一组机械臂定义为一个智能体。在本发明的实施例中，可具体将单元1和2定义为智能体1，单元3和4定义为智能体2。

多个机械臂采收大量果实目标需进行作业任务规划，实际作业中需要考虑如下两个应用条件：（1）果树中果实可能存在一次收获不成功的情况，需要两次或多次采收；（2）多个机械臂之间的运动受到相互制约和耦合，作业空间既存在两两重合或四个作业单元重合，也存在独立作业空间。为了实现高效作业任务规划，在前述两个应用条件限制下，需要结合各个机械臂当前所处位置以及果实的分布情况，对各个机械臂进行果实目标的分配，并给出合理的果实抓取顺序，从而能够达到四个机械臂相互协调配合，总耗时最短的目的。

在本发明的实施例中，首先需要构建多臂采摘机器人仿真作业场景环境。构建果园和机器人的虚拟作业环境是搭建多臂机器人强化学习仿真环境的重要一步。具体步骤可以包括：

（1）果园建模。利用Unity或Unreal Engine等仿真环境开发工具和物理引擎，结合标准果园果树尺寸、形态、果实颜色及纹理、地面状态等实际情况，确定果树的排列方式、果行分布的分布、地面仿真材质等参数，创建果园地形、虚拟单株果树三维模型、群体果树行列分布情况。随后，还需要为果树、果实、支撑网等实体添加碰撞体，以便机器人交互；最后，添加光环境信息，模拟真实情况下不同时间段和天气下的不同光环境。

（2）机器人建模。利用Unity仿真开发工具，创建机器人的虚拟外观，包括机器人的机械结构、传感器、执行器等，确保机器人的模型能够准确反映实际机器人的外观和特征。随后，创建虚拟立体视觉传感器，确保传感器模型能够准确模拟实际传感器的工作原理和性能，并配置传感器参数，例如分辨率、视野角度、最大检测范围等。创建虚拟关节驱动器，确保仿真模型各个关节能够根据控制指令活动至期望位置，并能够反馈给控制器各个关节当前所处的位置。最后，优化机器人模型，根据计算机配置和仿真渲染计算效率，合理配置模型复杂度，对部分虚拟外观进行简化处理，已达到提高运行效率的目的。

（3）配置交互属性及虚拟控制接口。配置机器人的碰撞检测，以确保机器人与果树和果实之间的交互正确模拟。设置机器人的物理特性，例如质量、惯性、摩擦等，以使机器人与环境交互更真实。创建虚拟控制接口，以便用户或强化学习算法可以控制机器人的行为，发送运动指令和接收传感器数据。本实施例中，可以采用Omniverse数字孪生平台实现上述功能。

在构建好多臂采摘机器人仿真作业场景环境之后，便可以进行多臂机器人采摘任务规划的实施。

在本发明的实施例中，步骤110中，进行强化学习环境的设置，基于获取到的果实分布信息和多臂机器人的各个智能体中机械臂的状态信息，包括位置状态、采摘任务分配状态、所执行的动作状态等信息，根据马尔可夫博弈模型，构建多臂机器人采摘环境的状态空间和各个智能体的动作空间。

基于上述实施例的内容，作为一种可选的实施例，基于果实分布信息和多臂机器人的状态信息，确定多臂机器人采摘环境的状态空间和各个智能体的动作空间；智能体为多臂机器人中任一组共享同一移动机构的两个机械臂，包括：

基于果实分布信息、多臂机器人的各机械臂的位置信息、各机械臂的采摘分配信息，构建状态空间；

基于各智能体采摘的果实目标的编号及各智能体的动作类型，构建动作空间；

多臂机器人的状态信息包括各机械臂的位置信息、各机械臂的采摘分配信息、各智能体采摘的果实目标的编号及各智能体的动作类型。

具体地，在本发明的实施例中，通过考虑多臂机器人与采摘作业环境之间的交互特征，利用采摘环境中的果实分布信息、多臂机器人的各机械臂的位置信息以及各机械臂的采摘分配信息，来构建多臂机器人采摘环境的状态空间。

基于上述实施例的内容，作为一种可选的实施例，状态空间具体是通过如下公式确定的：

；

式中，k表示第k个时间单元，表示k时刻；表示k时刻时状态空间；/>表示k时刻时果实的分布信息；/>表示在k时刻机械臂的位置和状态；/>表示k时刻各机械臂的采摘分配信息；/>表示k时刻各机械臂尝试抓取果实目标的次数；/>表示k时刻采摘任务的进度信息。

具体地，在本发明的实施例中，，为一个N×3维的实数矩阵。其中，第N个行向量代表第N个果实目标的三维坐标，N表示果实目标的总个数。

，为一个M×4维的实数矩阵。其中，M表示机械臂的数量，第M行向量的前3位数表示各机械臂的位置信息，第4位数表示机械臂所处的作业阶段。

，为一个N×M维的自然数矩阵。其中，第N行第M列上的自然数表示第N个果实是否分配给第M个机械臂，若/>为1则表示“是”，若/>为0则表示“否”。

，为一个N×M维的自然数矩阵。其中，第N行第M列上的自然数表示第N个果实目标被第M个机械臂尝试的次数，若/>则代表机械臂未尝试抓取果实目标，若/>至3则表示机械臂尝试抓取果实目标的次数为1至3。

，也为一个N×M维的自然数矩阵。其中，第N行第M列上的自然数表示第N个果实目标被第M个机械臂是否成功采摘，若/>为1则表示果实目标已被机械臂成功采摘，若/>为0则表示果实目标尚未被机械臂采摘。

本发明实施例的方法，通过结合机器人采摘交互的各个场景，利用果实分布信息、机械臂的位置和状态、各机械臂的采摘分配信息、各机械臂尝试抓取果实目标的次数以及环境中采摘任务的进度信息，构建机器人采摘交互作业环境的相关状态变量，有利于提高后续多臂机器人中各智能体执行采摘任务规划的成功率和效率。

进一步地，在本发明的实施例中，利用各智能体采摘的果实目标的编号及各智能体的动作类型，构建多臂机器人中各个智能体的动作空间。

本发明实施例的方法，通过对多臂机器人的状态信息的深度挖掘，利用果实分布信息、多臂机器人的各机械臂的位置信息以及各机械臂的采摘分配信息构建状态空间，利用各智能体采摘的果实目标的编号及各智能体的动作类型来构建动作空间，能够显著提升智能体基于强化学习执行采摘任务规划的效率和性能。

基于上述实施例的内容，作为一种可选的实施例，动作空间具体是通过如下公式确定的：

；

式中，表示在k时刻第/>个智能体采摘的果实目标的编号；/>分别表示在k时刻第/>个智能体中的一个机械臂和另一个机械臂所采取的动作。

具体地，在本发明的实施例中，，其中，/>表示在k时刻第/>个智能体当前未被分配果实目标，N表示果实目标的编号。，分别表示在k时刻第/>个智能体中的一个机械臂和另一个机械臂所采取的动作。

在本发明的实施例中，果实的分布位置可以通过布置好的果实视觉定位系统获取得到，因此，可以通过查询果实编号所对应的果实目标位置，使智能体识别其作业的对象。

本发明实施例的方法，通过将目标果实的编号构造为智能体要采取的动作，简化智能体各机械臂识别采摘对象的过程，提升机械臂的响应速度，有利于提高后续多臂机器人中各智能体执行采摘任务规划的成功率和效率。

基于上述实施例的内容，作为一种可选的实施例，确定各智能体的动作类型的具体步骤包括：

对第一动作信息、第二动作信息和第三动作信息进行组合，确定各智能体的动作类型。

具体地，在本发明的实施例中，任务规划的行动包括一组机械臂（即1个智能体）中的两个机械臂的采摘行为。机械臂采摘序贯式动作包括接近、伸出、抓取、回撤和放置，分别可以用A、E、G、R和P表示。

由于AEG阶段占据了机械臂的共享自由度，因此组内两只机械臂无法同时执行AEG阶段，而AEG和RP可以一起执行。将机械臂的动作分成AEG和RP两个阶段，以提高效率并避免空闲时间。对于智能体的两只机械臂，有可以实现7种行动状态的组合：(AEG，RP)，(RP，AEG)，(idle, RP)，(RP，idle)，(idle, AEG)，(AEG，idle)和(idle, idle)。其中，idle表示第三动作信息，即空闲状态。

在每个状态转移时刻，每个机械臂可以选取的动作有三种，接近A、回撤R和停止。对于智能体组内的两只机械臂，则理论上存在九种组合，但由于本机器人的特殊性，不会出现两个机械臂同时执行接近和回撤的情况，因此共计有与前述7种状态相对应的动作组合。

在本发明的实施例中，由于接近A、伸出E、抓取G作为第一动作信息，以及回撤R、放置P作为第二动作信息，两组动作信息是成组一起执行的，因此可以将智能体的动作按照动作组来定义。

进一步地，在本发明的实施例中，对第一动作信息、第二动作信息和第三动作信息进行组合，确定各智能体的动作类型。

图4是本发明提供的多臂机器人采摘任务规划方法中多臂作业状态转移过程的示意图，如图4所示，在本发明的实施例中，各智能体中两个机械臂的动作状态转移有17种状态，分别表示为T₁、T₂、T₃、…、T₁₆、T₁₇；相应地，也有17组动作，分别表示为A₁、A₂、…、A₁₆、A₁₇。其中，为方便描述，各种转移状态及对应执行动作的说明如表1、表2、表3和表4所示。

表1

表2

表3

表4

本发明实施例的方法，通过考虑多臂机器人的动作特性，将机械臂接近、伸出、抓取定义为机械臂的一类动作信息，并将机械臂回撤和放置定义为机械臂的一类动作信息，将保持空闲状态定义为机械臂的一类动作信息，通过三类动作的组合，定义各智能体的动作类型，有利于提升智能体中各机械臂执行动作响应的速度，提高机器人采摘作业的效率。

进一步地，在本发明的实施例中，步骤120中，通过利用各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息构建回报函数，利用前述构建好的状态空间、动作空间和回报函数，强化学习算法基于当前环境为各智能体分配采摘目标，智能体执行当前目标的采摘动作，采摘完毕后，无论是否成功，都会返回结果，计算回报函数并更新环境状态，进而强化学习算法依此更新策略，并分配下一个采摘目标给智能体，重复上述操作，进行迭代学习，直至学习到各个环境状态下各智能体中的每个机械臂的最优动作，以此根据每个机械臂的最优动作规划多臂机器人每次执行的采摘任务。

基于上述实施例的内容，作为一种可选的实施例，确定回报函数的步骤包括：

基于各智能体尝试抓取果实目标的探索信息，确定各智能体的探索回报函数；

基于各智能体之间的冲突信息，确定各智能体的冲突回报函数；冲突信息用于表征多个智能体被分配同时摘取同一个果实目标的信息；

基于各智能体执行动作所花费的时间，确定各智能体的时间回报函数；

将探索回报函数、冲突回报函数和时间回报函数进行求和，得到回报函数。

具体地，本发明实施例所描述的探索回报函数用于评估智能体尝试抓取果实目标的表现。若智能体抓取的是新的果实目标，则提供一个正奖励分值。

本发明实施例所描述的冲突回报函数用于评估智能体处理与其他智能体发生冲突的表现，该冲突指的是多个智能体同时采摘同一果实目标的冲突。

本发明实施例所描述的时间回报函数用于评估智能体在执行采摘果实目标过程中，经过所有动作所花费时间的表现。

在本发明的实施例中，令探索回报函数表示为。如果智能体尝试去抓取新的果实目标，则提供一个正奖励分值，给与回报值/>，可通过观察果实分布信息/>的变化状态来获取该信息；否则，回报值/>。

在本发明的实施例中，令冲突回报函数表示为。如果智能体之间发生了冲突，即同时访问了同一个果实目标，则提供一个负奖励，回报值/>；否则。

需要说明的是，这里的冲突只代表智能体之间的冲突，不包含一个智能体内部左右两臂的冲突。这是因为智能体内部左右两臂分配同一个目标，并不会引起额外的时间损耗。因为左右两臂本身就是轮流作业的，分配同一个目标，两臂会依次去抓取同一个果实，而不是互相等待。冲突回报主要考虑的是互相等待的情况。智能体内部左右两臂依次抓取同一个目标造成的时间上的浪费，将在总作业时间的回报上加以体现。

在本发明的实施例中，令时间回报函数为。智能体的作业时间包括执行动作所花费的时间，可以时间回报表示为：

；

其中，表示第/>个智能体完成接近、伸出以及抓取动作所需要的时间；表示第/>个智能体完成回撤以及放置动作所需要的时间；/>表示第/>个智能体处于空闲等待状态的时间。

其中，“”表示条件判断。例如，/>，表示在k到k+1时刻之间，当第/>个智能体的状态转移为/>，或/>，或/>，或/>，或/>，或/>，或/>，或/>时，第/>个智能体的时间回报值为/>。根据上述同样的方式，可以确定其他状态转移场景下的时间回报。

进一步地，在本发明的实施例中，构建的回报函数可以表示为：

;/>

其中，表示在k时刻第/>个智能体在/>环境状态下执行动作/>的回报奖励；/>表示预设的最大决策步数，例如当k超过2000时，则认为可能陷入了无意义探索而无需继续进行，强制结束本轮回合，并赋予回报值-50。

在本发明的实施例中，通过综合评估多臂机器人执行不同动作的表现，利用多臂机器人各智能体尝试抓取果实目标的探索信息、各智能体之间的冲突信息以及各智能体执行动作所花费的时间来构建回报函数，提升了基于强化学习的机器人采摘任务规划的训练效率和性能。

本发明实施例的多臂机器人采摘任务规划方法，通过将多臂机器人中任一组共享同一移动机构的两个机械臂定义为智能体，根据各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息构建回报函数，利用强化学习算法的思想，根据实际的果实分布信息和多臂机器人的状态信息，构建多臂机器人采摘环境的状态空间和各个智能体的动作空间，并利用状态空间、动作空间和回报函数，迭代执行各智能体强化学习过程，确定出各个环境状态下各智能体中的每个机械臂的最优动作，以此获取多臂机器人执行采摘任务的最优规划，可以有效减少机械臂互相等待、采摘次序不理想、机械臂执行机构遍历路径冗余繁琐等情况发生，提高机器人采摘作业效率及作业成功率。

基于上述实施例的内容，作为一种可选的实施例，基于状态空间、动作空间和回报函数，确定各环境状态下各智能体中的每个机械臂的最优动作，包括：

步骤1，基于状态空间和动作空间，确定当前环境状态下为各智能体选择的动作，并根据回报函数，计算各智能体执行完所有动作后的累积回报值；

步骤2，根据累积回报值，确定当前环境状态下的优势函数值，并根据优势函数值，确定当前环境状态下，各智能体中的每个机械臂的最优动作；

步骤3，更新当前环境状态，得到下一环境状态，并确定下一环境状态下为各智能体选择的动作；

将下一环境状态作为当前环境状态，重复执行步骤1至步骤3，直至确定当前环境状态下所有果实目标被采摘完，获取各环境状态下各智能体中的每个机械臂的最优动作。

具体地，在本发明的实施例中，在构建好多臂机器人采摘环境的状态空间、各个智能体的动作空间状态空间以及回报函数后，便可以利用状态空间、动作空间和回报函数进行强化学习训练，得到各环境状态下各智能体中的每个机械臂的最优动作。

在本发明的实施例中，可以选择基于Actor-Critic网络结构的强化学习算法A3C算法（Asynchronous Advantage Actor-Critic）。

进一步地，在本发明的实施例中，在步骤1中，初始化智能体的A3C网络模型，包括全局网络和多个工作线程（每个线程都有自己的环境实例和网络副本），其中全局网络包含两部分：行动者Actor网络，其用于策略输出，以及评论家Critic网络，其用于价值函数估计。每个工作线程在其环境中独立运行，这些线程可以探索不同的策略，不同线程的初始状态和经验可以是不同的。

在每个时间步，线程基于状态空间，在预先给定的动作空间中，依据当前环境状态下的当前策略（由Actor网络给出）选择动作，第i个智能体接下来将要摘取的果实目标的编号以及第i个智能体中左机械臂和右机械臂所要采取的动作，下发动作至各机械臂的关节控制程序，并执行动作；

在动作被执行后，观察环境的反馈，根据前述构造的回报函数，计算该动作的回报值。线程存储结果，包括刚刚执行的动作对环境产生的变化（新的环境状态）、动作以及回报值；

进一步地，在步骤2中，Critic网络评估当前策略的价值，获取各智能体执行完所有动作后的累积回报值，并利用累计回报值计算优势函数，来评估实际回报与预期回报之间的差异，从而确定当前环境状态下，该差异最小情况下的各智能体中的每个机械臂的最优动作。同时，工作线程根据经验计算梯度，并进行反向传播以更新本地网络Actor和Critic的神经网络参数。其中，优势函数衡量了采取某个动作相对于平均动作的优势。

每个线程会定期将其梯度更新异步地应用到全局网络上，并且从全局网络获取最新的参数更新。

进一步地，在步骤3中，更新当前环境状态，得到下一环境状态，并确定下一环境状态下为各智能体选择的动作，将下一环境状态作为当前环境状态，重复执行上述步骤流程，直至确定当前环境状态下所有果实目标被采摘完或无法采摘时，便可以获取整个规划过程中每个环境状态下各智能体中每个机械臂的最优动作，规划结束，以此完成各环境状态下各智能体中的每个机械臂的采摘任务规划，实现整个采摘任务的规划。上述过程在多个线程上并行执行，每个线程都在自己的环境副本上运行，独立地进行探索和学习，训练将不断持续，直到达到预设的终止条件，比如指定的迭代次数或性能标准。

其中，在本实施例中，可以设置每个果实目标被尝试抓取的最多次数，如三次。当三次尝试后果实目标依然抓取失败，则将此果实目标设为无法采摘状态，强化学习网络将不再为任何智能体分配此目标。如此可以避免无效的尝试，保证作业的效率。

本发明实施例的方法，通过采用强化学习策略求解问题模型，完成多臂任务分配，解决传统规划方法难以处理带约束的动态多臂规划问题，减少多臂互相等待的时间，同时让单次采摘失败的果实能被重新成功采摘，提高机器人作业成功率和效率。

图5是本发明提供的多臂机器人采摘任务规划方法中处理智能体间干涉的流程示意图，如图5所示，在本发明的实施例中，在智能体1的作业区域和智能体2的作业区域存在重叠区域的场景下，当果实目标A为智能体1的采摘目标时，智能体1移动到采摘果实目标A的目标位置，系统将判断智能体1作业是否与智能体2发生干涉，若否，智能体直接采摘果实目标A。若是，系统将会进一步判断重叠区域中智能体1采摘的果实目标A与智能体2采摘果实目标的优先级。若果实目标A的优先级比智能体2采摘的果实目标低，则智能体1避让，等待智能体2完成采摘其果实目标的任务后，智能体1才开始执行采摘果实目标A的动作。若果实目标A的优先级比智能体2采摘的果实目标高，则智能体1优先执行采摘果实目标A。

在本实施例中，在智能体1完成采摘任务后，系统将判断智能体1是否采摘果实目标A成功。若否，直接返回采摘结果；若是，智能体1将执行RP动作组，即缩回并放置，并返回采摘结果。

本发明实施例的方法，通过强化学习策略，为每个待采摘果实目标设置优先级，在重叠区域内两智能体作业出现干涉时可以通过优先级高低先后执行各自的采摘行为，可以有效减少智能体间相互等待的时间，提高整体采摘作业的流畅性。

下面对本发明提供的多臂机器人采摘任务规划装置进行描述，下文描述的多臂机器人采摘任务规划装置与上文描述的多臂机器人采摘任务规划方法可相互对应参照。

图6是本发明提供的多臂机器人采摘任务规划装置的结构示意图，如图6所示，包括：

第一处理模块610，用于基于果实分布信息和多臂机器人的状态信息，确定多臂机器人采摘环境的状态空间和各个智能体的动作空间；智能体为多臂机器人中任一组共享同一移动机构的两个机械臂；

第二处理模块620，用于基于状态空间、动作空间和回报函数，确定各个环境状态下各智能体中的每个机械臂的最优动作，以根据每个机械臂的最优动作规划采摘任务；回报函数是基于各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息确定的；各个环境状态是通过更新状态空间确定的。

本实施例所述的多臂机器人采摘任务规划装置可以用于执行上述多臂机器人采摘任务规划方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的多臂机器人采摘任务规划装置，通过将多臂机器人中任一组共享同一移动机构的两个机械臂定义为智能体，根据各智能体执行动作所花费的时间、各智能体尝试抓取果实目标的探索信息以及各智能体之间的冲突信息构建回报函数，利用强化学习算法的思想，根据实际的果实分布信息和多臂机器人的状态信息，构建多臂机器人采摘环境的状态空间和各个智能体的动作空间，并利用状态空间、动作空间和回报函数，迭代执行各智能体强化学习过程，确定出各个环境状态下各智能体中的每个机械臂的最优动作，以此获取多臂机器人执行采摘任务的最优规划，可以有效减少机械臂互相等待、采摘次序不理想、机械臂执行机构遍历路径冗余繁琐等情况发生，提高机器人采摘作业效率及作业成功率。

图7是本发明提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法所提供的多臂机器人采摘任务规划方法，该方法包括：基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂；基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的多臂机器人采摘任务规划方法，该方法包括：基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂；基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多臂机器人采摘任务规划方法，该方法包括：基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂；基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多臂机器人采摘任务规划方法，其特征在于，包括：

基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的；

其中，所述基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，包括：

2.根据权利要求1所述的多臂机器人采摘任务规划方法，其特征在于，确定所述回报函数的步骤包括：

3.根据权利要求1-2任一项所述的多臂机器人采摘任务规划方法，其特征在于，所述基于果实分布信息和多臂机器人的状态信息，确定所述多臂机器人采摘环境的状态空间和各个智能体的动作空间；所述智能体为所述多臂机器人中任一组共享同一移动机构的两个机械臂，包括：

4.根据权利要求3所述的多臂机器人采摘任务规划方法，其特征在于，所述状态空间具体是通过如下公式确定的：

；

式中，表示所述状态空间；/>表示时刻；/>表示所述果实分布信息；/>表示机械臂的位置和状态；/>表示各所述机械臂的采摘分配信息；/>表示各所述机械臂尝试抓取果实目标的次数；/>表示采摘任务的进度信息。

5.根据权利要求3所述的多臂机器人采摘任务规划方法，其特征在于，所述动作空间具体是通过如下公式确定的：

；

6.根据权利要求3所述的多臂机器人采摘任务规划方法，其特征在于，确定各所述智能体的动作类型的具体步骤包括：

7.一种多臂机器人采摘任务规划装置，其特征在于，包括：

第二处理模块，用于基于所述状态空间、所述动作空间和回报函数，确定各个环境状态下各所述智能体中的每个机械臂的最优动作，以根据每个所述机械臂的最优动作规划采摘任务；所述回报函数是基于各所述智能体执行动作所花费的时间、各所述智能体尝试抓取果实目标的探索信息以及各所述智能体之间的冲突信息确定的；所述各个环境状态是通过更新所述状态空间确定的；

所述第二处理模块具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述多臂机器人采摘任务规划方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多臂机器人采摘任务规划方法。