CN116460843A

CN116460843A - 一种基于元启发式算法的多机器人协作抓取方法及系统

Info

Publication number: CN116460843A
Application number: CN202310361805.8A
Authority: CN
Inventors: 杨瑞; 黎宇弘; 柯华林; 莫庆龙; 黄秋鑫
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-21

Abstract

本发明提供一种基于元启发式算法的多机器人协作抓取方法及系统，该方法包括：针对至少两台机器人进行相机标定，获取几何模型参数；进行主动视觉检测，选取最优的抓取对象，获得视觉特征；计算得到机器人机械手的目标位姿偏差；采用离线+在线的方式进行深度强化学习，优化收敛机械手的目标位姿偏差；将其输入到PID控制器中输出机械手的力矩，再将目标位姿偏差作为自组织神经网络的输入信号，机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器；最后通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取。本发明实现了主动视觉有效识别、元启发式优化控制，提高了系统稳定性。

Description

一种基于元启发式算法的多机器人协作抓取方法及系统

技术领域

本发明涉及到机器人智能控制技术领域，尤其涉及到一种基于元启发式算法的多机器人协作抓取方法及系统。

背景技术

近年来，机器人技术的发展正逐步缓解我国人工劳动密集、人口老龄化加剧及企业招工难等难题，其中机器人抓取技术是指在一堆无序摆放的物品堆中，依次取出目标物品，是物流分拣、机床工件上下料、码垛堆叠等自动化场景的关键环节，能够减轻工人的工作量，提高工作效率，并且24小时不间断工作。在工业生产中，机器人抓取主要通过预先编程的方式实现，缺乏自主能动性及复杂环境的自适应能力，难以满足现代工业智能制造与柔性制造的需求。而抓取操作作为机器人的一项基本技能，在机器人智能化道路上扮演着十分重要的角色，若利用机器人代替人类完成各种作业，势必要求机器人能够自主地完成更加复杂的抓取操作任务。

因此，研究非结构化环境下的机器人智能抓取技术已成为一项重要的课题，根据目标物体抓取位姿的计算形式，机器人抓取方法分为基于解析和基于数据驱动两大类。基于解析的机器人抓取方法需预先获得精确的物体几何模型与机械爪的动力学模型，然后再通过多种约束建立复杂的目标优化函数，最后才能求解目标物体的最佳抓取位姿。而在现实机器人抓取应用中，这些求解条件往往难以满足，从而限制了该抓取方法的广泛应用。视觉被誉为机器人的“智慧之眼”，利用视觉识别的方法获取目标物体的抓取位姿是目前基于数据驱动抓取算法的主题思想。

现有技术中基于解析和基于数据驱动的机器人抓取方法难以准确、高速地识别出目标；难以有效地构造和组织出可靠的识别算法，并且顺利地实现。同时实时性是一个难以解决的重要问题，图像采集速度较低以及图像处理需要较长时间给系统带来明显的时滞，此外视觉信息的引入也明显增大了系统的计算量，例如计算图像雅可比矩阵、估计深度信息等等，图像处理速度是影响视觉系统实时性的主要瓶颈之一。稳定性也是是所有控制系统首先考虑的问题，对于视觉控制系统，无论是基于位置、基于图像或者混合的视觉伺服方法都面临着如下问题：当初始点远离目标点时，如何保证系统的稳定性，即增大稳定区域和保证全局收敛；为了避免伺服失败，如何保证特征点始终处在视场内。

元启发式算法具有概念简单、易于实现、无需梯度信息且适用于多学科的特点，现已广泛应用于工程实际问题的求解。基于自然启发的元启发式算法是通过模拟生物或物理现象提出的，首先随机生成初始种群，然后按照一定的迭代规则更新每代的个体，种群更新的方法主要有三种：基于进化的方法、基于物理的方法和基于群体的方法。这些方法通过对不断选择最优个体，形成下一代种群，达到优化的目标。现代启发式算法各有不同的优化机制，但是具有相似的优化流程，都是从一组初始解出发，对关键参数进行设置，按照一定的规则产生若干解，通过接受准则更新当前状态，进行多次迭代搜索直至求得最优结果，元启发式算法已广泛用于解决工程实际问题。现有技术中缺乏结合元启发式算法来进行机器人抓取工作的方法及系统。

发明内容

鉴于现有技术的上述不足，本发明提供一种基于元启发式算法的多机器人协作抓取方法及系统，有效解决现有技术难以准确、高速地识别出目标，实时性和稳定性较差等问题。

第一方面，本发明提供一种基于元启发式算法的多机器人协作抓取方法，包括如下步骤：

对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数；

根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征；

根据所述几何模型参数和所述视觉特征，实时计算第一机器人和第二机器人机械手相对合作目标的位姿，得到机械手的目标位姿偏差；

采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差；

将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器；

将所述机械手的目标位姿偏差作为深度学习控制器的输入，深度信念网络生成的力矩作为深度学习控制器的输出，通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取；

其中所述第一机器人和所述第二机器人协作进行目标抓取，基于离线训练的特征，所述第一机器人可以实时进行主动视觉检测，通过离线+在线机器人协助引导控制的技术修订优化所述第二机器人的机械手的目标位姿偏差，更加准确抓取目标。

作为优选的，所述对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数，包括：

采用主动视觉相机标定方法确定几何模型参数，包括相机内参和相机外参，其中相机内参用于确定相机从三维空间到二维图像的投影关系，相机外参用于确定相机坐标与世界坐标系之间相对位置关系。

作为优选的，所述根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征，包括以下步骤：

主动视觉在特征图上预测可能有目标的区域，并通过感兴趣区域池化方法将特征限定为固定大小，通过卷积操作对感兴趣区域的特征进行识别，检测出高可靠性的潜在目标区域，并将不存在目标的背景区域排除，进行多类识别，减少识别过程的计算量，保证鲁棒的位姿估计。

作为优选的，所述主动视觉检测的训练过程中使用焦点损失进行随机梯度下降优化，从而平衡正负样本的比例和优化训练过程。

作为优选的，所述采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差，包括：

利用离线学习的成果对深度强化学习进行引导，引导策略搜索使用差分动态规划生成引导样本，并使用正则化重要样本策略优化,合并引导样本到策略搜索中，避免在多参数情况下深度强化学习陷入局部最优。

作为优选的，所述引导样本还可以通过离线规划和人工示范生成。

作为优选的，所述将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器，包括如下步骤：

将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩；

将所述机械手的目标位姿偏差输入到自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

将所述机械手的力矩作为深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

用串联的自组织神经网络和深度信念网络来构建深度学习控制器。

第二方面，本发明提供一种基于元启发式算法的多机器人协作抓取系统，包括：

相机标定模块，用来对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数；

主动视觉检测模块，用来根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征；

位姿计算模块，用来根据所述几何模型参数和所述视觉特征，实时计算第一机器人和第二机器人机械手相对合作目标的位姿，得到机械手的目标位姿偏差；

深度强化学习模块，用来采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差；

深度学习控制器构建模块，用来将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器；

目标抓取模块，用来将所述机械手的目标位姿偏差作为所述深度学习控制器的输入，所述深度信念网络生成的力矩作为所述深度学习控制器的输出，通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取。

作为优选的，所述深度学习控制器构建模块包括：

PID控制器单元，用来将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩；

自组织神经网络训练单元，用来将所述机械手的目标位姿偏差输入到自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

深度信念网络训练单元，用来将所述机械手的力矩作为深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

深度学习控制器构建单元，用来用串联的自组织神经网络和深度信念网络来构建深度学习控制器。

第三方面，本发明提供一种基于元启发式算法的多机器人协作抓取平台，所述平台包括处理器、存储器以及基于元启发式算法的多机器人协作抓取平台控制程序；

其中，在所述的处理器执行所述的基于元启发式算法的多机器人协作抓取平台控制程序，所述的基于元启发式算法的多机器人协作抓取平台控制程序被存储在所述存储器中，所述的基于元启发式算法的多机器人协作抓取平台控制程序，实现如本发明第一方面任一项所述的基于元启发式算法的多机器人协作抓取方法。

本发明提供的一种基于元启发式算法的多机器人协作抓取方法及系统，通过图像特征的选择，针对任务有时可能需要从一套特征切换到另一套特征，把全局特征与局部特征结合，建立了机器人协助视觉系统。采用离线+在线机器人协助引导控制的技术，离线可以保证机械手引导的实时性和快速性，而在线则适应了个性化的生产需求。在某些较为固化的生产场合也可以单独利用离线训练的控制器，但在“离线+在线”框架下又对在线学习控制提供先验并增加了限制，可以大幅加速在线过程的收敛，以满足实时性的要求。本发明实现了主动视觉有效识别、元启发式优化控制，提高了整体系统的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于元启发式算法的多机器人协作抓取方法流程示意图；

图2为本发明实施例提供的构建深度学习控制器方法流程示意图；

图3为本发明实施例提供的基于元启发式算法的多机器人协作抓取系统结构示意图；

图4为本发明实施例提供的深度学习控制器构建模块结构示意图；

图5为本发明实施例提供的基于元启发式算法的多机器人协作抓取平台架构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案作进一步清楚、完整地描述。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

元启发式算法具有概念简单、易于实现、无需梯度信息且适用于多学科的特点，现已广泛应用于工程实际问题的求解，现有技术中缺乏结合元启发式算法来进行机器人抓取工作的方法及系统。

在本发明实施例中，提供了一种基于元启发式算法的多机器人协作抓取方法及系统，用以解决上述技术问题。

图1为本发明实施例提供的基于元启发式算法的多机器人协作抓取方法流程示意图，主要包括：

步骤S1、对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数；

在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数。在大多数条件下这些参数(内参、外参、畸变参数)必须通过实验与计算才能得到，这个求解参数的过程就称之为相机标定。

已知相机的运动轨迹信息对相机进行标定，不需要标定物，但需要控制相机做某些特殊运动，利用这种运动的特殊性可以计算出相机内部参数。

本发明实施例采用主动视觉相机标定方法，该方法不需要标定物，但需要控制相机做某些特殊运动，利用这种运动的特殊性可以计算出相机内部参数。基于主动视觉的相机标定法的优点是算法简单，往往能够获得线性解，故鲁棒性较高。

相机标定中所要确定的几何模型参数分为内参和外参两种类型，相机内参的作用是确定相机从三维空间到二维图像的投影关系，相机外参用于确定相机坐标与世界坐标系之间相对位置关系。其中，相机内参共有6个参数：f,k,Sx,Sy,Cx,Cy，其中：f为焦距；k表示径向畸变量级，如果k为负值，畸变为桶型畸变，如果为正值，那畸变为枕型畸变；Sx,Sy是缩放比例因子，一般情况下相机成像单元不是严格的矩形的，其在水平和垂直方向上的大小是不一致的，这就导致在X和Y方向上的缩放因子不一样，所以需要分别定义两个缩放因子，对针孔摄像机来讲，表示图像传感器上水平和垂直方向上相邻像素之间的距离；Cx,Cy是图像的主点，即过镜头轴心垂直于成像平面与图像平面的交点，对针孔摄像机来讲，这个点是投影中心在成像平面上的垂直投影，同时也是径向畸变的中心。

相机外参共有6个参数：α,β,γ,Tx,Ty,Tz，相机坐标与世界坐标的关系可以表述为：P_c＝RP_w+T，其中P_w为世界坐标，P_c是相机机坐标；式中，T＝(Tx,Ty,Tz)，是平移向量，R＝R(α,β,γ)是旋转矩阵，分别是绕相机机坐标系z轴旋转角度为γ，绕y轴旋转角度为β，绕x轴旋转角度为α；这6个参数组成相机外参。

步骤S2、根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征；

根据视觉3D-2D投影比例变换，为协作机械手视觉系统提供至少两组协助抓取目标(参照物)对应的高质量图像，使机械手能够利用元启发式算法从离散制造目标中选取最优的抓取对象。

首先，主动视觉在特征图上预测可能有目标的区域，并通过感兴趣区域池化方法将特征限定为固定大小；随后，识别过程将通过卷积操作对感兴趣区域的特征进行识别，通过这种类别预测的二级筛选策略，算法保留了高可靠性的潜在目标区域，排除了图像中大部分不存在目标的背景区域，最后进行多类识别，可以大幅度减少识别过程的计算量，并保证鲁棒的位姿估计。

在训练过程中使用焦点损失进行随机梯度下降优化，以平衡正负样本的比例、优化训练过程。

步骤S3、根据所述几何模型参数和所述视觉特征，实时计算第一机器人和第二机器人机械手相对合作目标的位姿，得到机械手的目标位姿偏差；

步骤S4、采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差；

深度强化学习方法在诸如原始视觉输入的视频游戏、棋盘游戏、模拟控制任务和机器人等任务上取得巨大的成功，这些成功背后的一类重要方法是在线策略深度强化学习方法，这类方法依据当前策略选择动作从而与环境交互,并且利用智能体与环境交互产生的在线策略数据优化策略,以此来解决相应的序列决策问题。在线策略深度强化学习方法能够利用当前策略产生的在线策略数据稳定地优化策略,这使其在智能体与环境的交互过程中表现稳定,从而能够解决复杂的控制问题，但是在线策略深度强化学习方法存在数据利用效率低下的问题,这是因为它们对当前策略产生的数据只能利用一次。

离线策略深度强化学习方法通过利用离线策略数据优化策略来解决在线策略方法面临的问题。该类方法通过利用离线策略数据减少了智能体与环境的在线策略交互,这使得该类方法在现实应用上的性能得到了提高。这些离线策略深度强化学习方法可以根据其优化策略的方式分为两类:基于值的方法和基于策略的方法。基于策略的离线策略深度强化学习方法通过利用行为策略产生的离线策略数据直接优化策略函数。这类方法由于其直接学习整个动作空间上的策略函数,适用于连续动作空间上的序列决策问题。

在本发明实施例中，利用离线学习的成果对深度强化学习进行元启发式算法优化引导，引导策略搜索使用差分动态规划生成合适引导样本,引导样本也可由离线规划或人工示范产生，并使用了一个新颖的正则化项,使用正则化重要样本策略优化,用来合并这些引导样本到策略搜索中，避免在多参数(数以百计)情况下深度强化学习陷入局部最优。

本发明实施例采用离线+在线机器人协助引导控制的技术，离线可以保证机械手引导的实时性和快速性，而在线则适应了个性化的生产需求。在某些较为固化的生产场合也可以单独利用离线训练的控制器，但在“离线+在线”框架下又对在线学习控制提供先验并增加了限制，可以大幅加速在线过程的收敛，以满足实时性的要求。

步骤S5、将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器；

多机械手协同深度学习控制器将主要由元启发式算法优化构成，其训练过程主要基于已有的PID控制器展开。

图2为本发明实施例提供的构建深度学习控制器方法流程示意图，如图2所示，具体步骤如下：

步骤S51、将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩；

步骤S52、将所述机械手的目标位姿偏差输入到自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

将机械手的目标位姿偏差输入到自组织神经网络，根据网络本身的数据聚类特性，最后会将输出分成不同类型的区域。针对前期视觉感知得到的三维信息，利用自组织神经网络，可从深度方面进行挖掘并聚类，使得期望的机械手力矩更加稳健、鲁棒，这是常规的二维感知信息在两个维度的平面内所不能达到的。

步骤S53、将所述机械手的力矩作为深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

在深度信念网络训练过程中，将机械手的力矩(即PID控制器的输出信号)作为它的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，相应完成一次网络的训练。

在两个网络训练稳定后，即可用串联的自组织神经网络和深度信念网络来构建深度学习控制器，以替代传统的PID控制器。

S6、将所述机械手的目标位姿偏差作为深度学习控制器的输入，深度信念网络生成的力矩作为深度学习控制器的输出，通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取。

将所有机械手的目标位姿偏差，输入到离线的深度学习控制器中，得到初始的机械手力矩，通过基于目标位姿偏差的在线深度强化学习控制器进行调整，结合力矩观测器反馈力矩的校正，输出最终所有机械手的实际力矩进行协助引导作业。

所述第一机器人和所述第二机器人协作进行目标抓取，基于离线训练的特征，所述第一机器人可以实时进行主动视觉检测，通过离线+在线机器人协助引导控制的技术修订优化所述第二机器人的机械手的目标位姿偏差，更加准确抓取目标。同时第二机器人同样可以实时进行主动视觉检测，引导第一机器人准确抓取目标。

基于上述实施例中基于元启发式算法的多机器人协作抓取方法，本发明实施例第二方面还提供一种基于元启发式算法的多机器人协作抓取系统。

图3为本发明实施例提供的基于元启发式算法的多机器人协作抓取系统结构示意图，主要包括：

相机标定模块310，用来对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数；

主动视觉检测模块320，用来根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征；

位姿计算模块330，用来根据所述几何模型参数和所述视觉特征，实时计算第一机器人和第二机器人机械手相对合作目标的位姿，得到机械手的目标位姿偏差；

深度强化学习模块340，用来采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差；

深度学习控制器构建模块350，用来将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器；

目标抓取模块360，用来将所述机械手的目标位姿偏差作为所述深度学习控制器的输入，所述深度信念网络生成的力矩作为所述深度学习控制器的输出，通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取。

图4为本发明实施例提供的深度学习控制器构建模块结构示意图，所述深度学习控制器构建模块包括：

PID控制器单元351，用来将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩；

自组织神经网络训练单元352，用来将所述机械手的目标位姿偏差输入到自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

深度信念网络训练单元353，用来将所述机械手的力矩作为深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

深度学习控制器构建单元354，用来用串联的自组织神经网络和深度信念网络来构建深度学习控制器。

基于相同的构思，本发明实施例还提供一种基于元启发式算法的多机器人协作抓取平台，图5为本发明实施例提供的基于元启发式算法的多机器人协作抓取平台架构示意图。所述的基于元启发式算法的多机器人协作抓取平台内置处理器，可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件，通过运行或执行存储在存储器内的程序或者单元，以及调用存储在存储器内的数据，以执行基于元启发式算法的多机器人协作抓取方法的步骤，例如包括:

将所述机械手的目标位姿偏差作为深度学习控制器的输入，深度信念网络生成的力矩作为深度学习控制器的输出，通过反馈控制器的负反馈机制，引导机械手到达指定位置进行目标抓取。

存储器用于存储程序代码和各种数据，安装在基于元启发式算法的多机器人协作抓取平台中，并在运行过程中实现高速、自动地完成程序或数据的存取。

所述存储器包括只读存储器(Read-Only Memory，ROM)，随机存储器(RandomAccess Memory，RAM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

为实现上述目的，本发明还提供一种计算机可读取存储介质，所述计算机可读取存储介质存储有基于元启发式算法的多机器人协作抓取平台控制程序，所述的基于元启发式算法的多机器人协作抓取平台控制程序，实现所述的基于元启发式算法的多机器人协作抓取方法的步骤。

综上所述，本发明提供的一种基于元启发式算法的多机器人协作抓取方法及系统，通过图像特征的选择，针对任务有时可能需要从一套特征切换到另一套特征，把全局特征与局部特征结合，建立了机器人协助视觉系统。采用离线+在线机器人协助引导控制的技术，离线可以保证机械手引导的实时性和快速性，而在线则适应了个性化的生产需求。在某些较为固化的生产场合也可以单独利用离线训练的控制器，但在“离线+在线”框架下又对在线学习控制提供先验并增加了限制，可以大幅加速在线过程的收敛，以满足实时性的要求。本发明实现了主动视觉有效识别、元启发式优化控制，提高了整体系统的稳定性。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于元启发式算法的多机器人协作抓取方法，其特征在于，包括如下步骤：

根据所述几何模型参数和所述视觉特征，实时计算所述第一机器人和所述第二机器人机械手相对合作目标的位姿，得到机械手的目标位姿偏差；

2.根据权利要求1所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述对抓取系统的第一机器人和第二机器人对应的两台相机进行标定，获取几何模型参数，包括：

3.根据权利要求1所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述根据视觉3D-2D投影比例变换，提供至少两组抓取目标对应的高质量图像，进行主动视觉检测，选取最优的抓取对象，获得视觉特征，包括以下步骤：

4.根据权利要求3所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述主动视觉检测的训练过程中使用焦点损失进行随机梯度下降优化，从而平衡正负样本的比例和优化训练过程。

5.根据权利要求1所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述采用离线+在线机器人协助引导控制的技术，对所述机械手的目标位姿偏差进行深度强化学习，优化收敛所述机械手的目标位姿偏差，包括：

6.根据权利要求5所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述引导样本还可以通过离线规划和人工示范生成。

7.根据权利要求1所述的基于元启发式算法的多机器人协作抓取方法，其特征在于，所述将所述机械手的目标位姿偏差输入到PID控制器中输出机械手的力矩，所述目标位姿偏差作为自组织神经网络的输入信号，所述机械手的力矩作为深度信念网络的目标参数，同时训练两个串行神经网络，构建深度学习控制器，包括如下步骤：

将所述机械手的目标位姿偏差输入到所述自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

将所述机械手的力矩作为所述深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

用串联的所述自组织神经网络和所述深度信念网络来构建深度学习控制器。

8.一种基于元启发式算法的多机器人协作抓取系统，其特征在于，包括：

9.根据权利要求8所述的基于元启发式算法的多机器人协作抓取系统，其特征在于，所述深度学习控制器构建模块包括：

自组织神经网络训练单元，用来将所述机械手的目标位姿偏差输入到所述自组织神经网络进行训练，根据网络的数据聚类特性，将输出分成不同类型的区域；

深度信念网络训练单元，用来将所述机械手的力矩作为所述深度信念网络的目标参数，采用梯度下降的方法，对数据向量进行反向传播，一层一层地修改网络中各隐含层之间的权重向量，直至生成作为底层状态的控制力矩，完成网络的训练；

深度学习控制器构建单元，用来用串联的所述自组织神经网络和所述深度信念网络来构建深度学习控制器。

10.一种基于元启发式算法的多机器人协作抓取平台，其特征在于，所述平台包括处理器、存储器以及基于元启发式算法的多机器人协作抓取平台控制程序；

其中，在所述的处理器执行所述的基于元启发式算法的多机器人协作抓取平台控制程序，所述的基于元启发式算法的多机器人协作抓取平台控制程序被存储在所述存储器中，所述的基于元启发式算法的多机器人协作抓取平台控制程序，实现如权利要求1至7中任一项所述的基于元启发式算法的多机器人协作抓取方法。