CN117772648A - 基于具身智能的零件分拣处理方法、装置、设备及介质 - Google Patents
基于具身智能的零件分拣处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117772648A CN117772648A CN202410211078.1A CN202410211078A CN117772648A CN 117772648 A CN117772648 A CN 117772648A CN 202410211078 A CN202410211078 A CN 202410211078A CN 117772648 A CN117772648 A CN 117772648A
- Authority
- CN
- China
- Prior art keywords
- sorted
- sorting
- mechanical arm
- model
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 108
- 230000008447 perception Effects 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000003062 neural network model Methods 0.000 claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 72
- 230000000007 visual effect Effects 0.000 claims description 39
- 230000033001 locomotion Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 13
- 239000000463 material Substances 0.000 description 13
- 238000001514 detection method Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种基于具身智能的零件分拣处理方法、装置、设备及介质。在该方案中,首先任务指令理解模型基于用户输入的零件分拣描述信息,得到控制机械臂对待分拣零件进行分拣的控制信号,然后零件智能感知模型根据控制信号对工业相机采集的待分拣零件的图像进行分析处理,得到待分拣零件的类别和抓取位姿。最后在智能避障神经网络模型的避障处理下,基于控制信号、待分拣零件的类别和抓取位姿,控制机械臂对待分拣零件进行分拣。本申请提供的基于具身智能的零件分拣处理方法,无需用户手动编写零件分拣指令代码,对机械臂的控制难度降低。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种基于具身智能的零件分拣处理方法、装置、设备及介质。
背景技术
随着机器人技术的不断发展,机械臂在工业零件分拣领域扮演着重要角色。然而,在应用机械臂实现工业零件分拣任务之前,需要事先将生成的分拣任务指令发送至机械臂。
目前,在已有的分拣任务指令生成方案中,用户一般基于实际的工业零件分拣任务,手动编写对应的机械臂任务指令代码,并在编写结束后发送至机械臂,从而实现对机械臂的实时控制,完成工业零件的分拣。
然而,在已有的任务指令生成方案中,用户需要拥有较高的编码能力,存在对机械臂控制难度较大的技术问题。
发明内容
本申请提供一种基于具身智能的零件分拣处理方法、装置、设备及介质,用以解决现有技术在应用机器人实现零件分拣过程中存在对机器人控制难度较大的技术问题。
第一方面,本申请提供一种基于具身智能的零件分拣处理方法,所述方法包括:
接收用户输入的零件分拣描述信息,所述零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述;
根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,所述任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于所述分拣需求生成分拣控制信号的神经网络模型;
根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,所述智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型;
根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
在第一方面的一种可能设计中,所述在分拣过程中通过智能避障神经网络模型进行避障处理,包括:
在分拣过程中,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到所述机械臂周围物理环境的三维空间结构,所述智能避障神经网络模型是预先训练的根据体素数据进行动态三维重建的智能模型;
采用机械臂运动学模型对所述三维空间结构进行处理,得到机械臂运动轨迹;
相应的,所述根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,包括:
根据所述控制信号,所述待分拣的类别以及所述抓取位置,控制所述机械臂按照所述机械臂运动轨迹对所述待分拣零件进行分拣。
在第一方面的一种可能设计中,所述根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,包括:
通过所述任务指令理解模型中的自然语言理解部分对所述零件分拣描述信息进行理解处理得到所述待分拣零件的特征以及分拣需求,并通过所述任务指令理解模型中的信号生成部分基于所述待分拣零件的特征以及所述分拣需求生成所述控制信号。
在第一方面的一种可能设计中,所述根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,包括:
根据所述控制信号控制所述工业相机采集获取所述待分拣零件的图像,所述图像包括RGB图像和深度图像;
将所述RGB图像和所述深度图像,输入所述零件智能感知模型进行特征分析处理,得到所述待分拣零件的类别和所述抓取位姿;
其中,所述零件智能感知模型包括Transformer层,卷积神经网络层以及全连接层。
在第一方面的一种可能设计中,所述将所述RGB图像和所述深度图像,输入所述零件智能感知模型进行特征分析处理,得到所述待分拣零件的类别和所述抓取位姿,包括:
通过所述零件智能感知模型的Transformer层对所述RGB图像和所述深度图像进行特征提取,获取所述待分拣零件的全局视觉特征;
通过所述零件智能感知模型的卷积神经网络层对所述RGB图像和所述深度图像进行特征提取,获取所述待分拣零件的局部视觉特征;
根据所述全局视觉特征和所述局部视觉特征,通过所述零件智能感知模型的全连接层确定出所述待分拣零件的类别和所述抓取位姿。
在第一方面的一种可能设计中,所述采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到所述机械臂周围物理环境的三维空间结构,包括:
控制预先设置在机械臂周围的多个工业相机,对所述机械臂的活动空间进行不同角度的扫描,获取所述机械臂周围的不同角度物理环境的体素数据;
将所述机械臂周围的不同角度物理环境的体素数据,输入所述智能避障神经网络模型进行三维空间的特征提取并根据提取到的特征进行三维空间重构,得到所述三维空间结构。
在第一方面的一种可能设计中,所述智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层;
其中,所述三维卷积层用于提取所述机械臂周围的不同角度物理环境的体素数据中三维空间的全局视觉特征;
所述平均池化层用于减少三维空间中的体素网格的尺寸;
所述全连接层用于重建与输入体素网格具有相同大小的网格模型。
第二方面,本申请提供一种基于具身智能的零件分拣处理装置,包括:
接收模块,用于接收用户输入的零件分拣描述信息,所述零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述;
处理模块,用于根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,所述任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于所述分拣需求生成分拣控制信号的神经网络模型;
所述处理模块,还用于根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,所述智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型;
所述处理模块,还用于根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面任一项所述的基于具身智能的零件分拣处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的基于具身智能的零件分拣处理方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面任一项所述的基于具身智能的零件分拣处理方法。
本申请提供的基于具身智能的零件分拣处理方法、装置、设备及介质,可用于计算机技术领域。在该方案中,任务指令理解模型能够基于用户输入的零件分拣描述信息,得到控制机械臂对待分拣零件进行分拣的控制信号,无需用户编写较为复杂的零件分拣指令代码,进而实现对机械臂控制难度的降低。零件智能感知模型能够对工业相机采集的待分拣零件的图像进行分析处理,得到待分拣零件的类别以及抓取位姿,无需让零件以固定位姿出现在流水线上,再让机械臂前往固定位置执行抓取,有利于智能柔性产线的发展与推广。在机械臂执行零件分拣过程中,智能避障神经网络模型实时进行避障处理,从而保证机械臂在执行零件分拣过程中的安全性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的基于具身智能的零件分拣处理方法的应用场景示意图;
图2为本申请提供的基于具身智能的零件分拣处理方法实施例一的流程示意图;
图3为本申请提供的一种基于任务指令理解模型生成控制信号的流程图;
图4为本申请提供的基于具身智能的零件分拣处理方法实施例二的流程示意图;
图5为本申请提供的基于具身智能的零件分拣处理方法实施例三的流程示意图;
图6为本申请提供的基于具身智能的零件分拣处理方法实施例四的流程示意图;
图7为本申请提供的基于具身智能的零件分拣处理方法实施例五的流程示意图;
图8为本申请提供的基于具身智能的零件分拣处理方法实施例六的流程示意图;
图9为本申请提供的一种零件智能感知模型逻辑框架示意图;
图10为本申请提供的基于具身智能的零件分拣处理方法实施例七的流程示意图;
图11为本申请提供的一种智能避障神经网络模型逻辑框架示意图;
图12为本申请提供的一种基于具身智能的零件分拣处理框架示意图;
图13为本申请提供的基于具身智能的零件分拣处理装置实施例一的结构示意图;
图14为本申请提供的基于具身智能的零件分拣处理电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
具身智能:是指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。具身智能系统通常具备感知、认知、决策和行动的能力,能够通过感知器和执行器与环境进行交互,并根据环境的变化做出相应的决策和行动。
大语言模型:是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或者理解语言文本的含义;
体素:指的是体积元素的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来,它是数字数据于三维空间分割上的最小单位,体素用于三维成像、科学数据与医学影像等领域。
现阶段,随着自动化和智能化的发展,机械臂逐渐应用到工业生产中。其中,基于机械臂的工业零件分拣技术成为研究热点。在机械臂的协助下,工业零件能够实现自动化分拣。然而,在应用机械臂实现工业零件分拣任务之前,需要事先将生成的分拣任务指令发送至机械臂。
目前,发送至机械臂的分拣任务指令主要依靠人工编写代码。具体而言,用户基于实际的工业零件分拣任务,手动编写对应的机械臂任务指令代码,并在编写结束后发送至机械臂,从而实现对机械臂的实时控制,完成工业零件的分拣。同时,在对机械臂的实时控制过程中,主要采用Ethercat以太网总线或者机器人操作系统的形式与机械臂之间进行通信。
然而,在已有的任务指令生成方案中,用户需要拥有较高的编码能力,存在对机械臂控制难度较大的技术问题。同时,对于零件分拣这一任务,目前工业界主流的方法是让零件以固定的位姿出现在流水线上,再让机械臂前往固定位置执行抓取。这种方法在更换产线布局或工业零件种类后时,不具有泛化性,不利于智能柔性产线的发展与推广。在此基础上,与机械臂之间的通信方式也较为复杂,通信控制方式的学习成本较高,进而也容易导致对机械臂控制难度较大的技术问题。另外,对于工业生产中很多机械臂任务而言,机械臂都需要在有限的三维空间范围内活动作业,否则如果碰到其他物体或人将会发生严重的安全事故。若将人工智能算法运用到工业机械臂任务中,由于每次机械臂路径将不再固定,则格外需要一种基于视觉的动态避障方法帮助机械臂实时感知周围的三维环境,以便防止碰撞从而安全地执行工业任务,过程繁琐。
针对上述问题,发明人在对应用机械臂实现零件分拣方法的研究过程中发现,若想实现机械臂自动分拣零件,则需事先传输零件分拣指令至机械臂。然而,现阶段该零件分拣指令对应的代码序列需要具备较高编码能力的用户完成。同时,等待被分拣的零件需要以特定位姿出现在产业线上,当零件的位姿发生变化时,机械臂无法准确识别和抓取。据此发明人考虑零件分拣指令对应的代码序列的编写能否摆脱对人工方式的依赖,而由具备代码序列生成的网络模型自动生成。同时,针对不同位姿的零件,机械臂均能准确识别和抓取。具体来说,设计一种任务指令理解模型,该模型以用户对零件分拣描述信息作为输入,以控制机械臂对待分拣零件进行分拣的控制信号作为输出,从而实现零件分拣指令对应代码序列的自动化编写。在此基础上,设计一种零件智能感知模型,该模型以工业相机采集的待分拣零件图像作为输入,以待分拣零件的类别和抓取位姿作为输出,从而实现不同位姿零件的准确识别和抓取。同时,在机械臂执行零件分拣任务的过程中,应用所设计的智能避障神经网络模型,保证分拣过程的安全性。
图1为本申请提供的基于具身智能的零件分拣处理方法的应用场景示意图。如图1所示,本申请提供的方案的应用场景中包括终端设备100、服务器101、工业相机102和机械臂103。其中,服务器101主要用于部署任务指令理解模型1011、零件智能感知模型1012和智能避障神经网络模型1013。
终端设备100主要用于接收用户输入的零件分拣描述信息,并将该信息传输至服务器101。在服务器101接收到终端设备100发送的零件分拣描述信息后,则将该描述信息作为任务指令理解模型1011的输入,经过任务指令理解模型1011,则可得到控制机械臂103对待分拣零件进行分拣的控制信号。该控制信号将实时传输至机械臂103中的感知系统中,机械臂103则将开始执行零件的分拣操作。
在机械臂103执行零件分拣操作之前,工业相机102拍摄当前产业线上待分拣零件的图像,作为服务器101中零件智能感知模型1012的输入,进而得到待分拣零件的类别和抓取位姿。同时,工业相机102实时拍摄机械臂103周围的物理环境,并将对应环境数据作为服务器101中智能避障神经网络模型1013的输入,得到机械臂103的运动轨迹。基于控制信号,待分拣零件的类别和抓取位姿,机械臂103根据运动轨迹对待分拣零件执行分拣操作。
尽管图1中仅示出一个终端设备100、服务器101、工业相机102和机械臂103,但是应理解可以存在两个或更多的终端设备100、服务器101、工业相机102和机械臂103。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请提供的基于具身智能的零件分拣处理方法实施例一的流程示意图。如图2所示,该基于具身智能的零件分拣处理方法的流程可以包括:
S201:接收用户输入的零件分拣描述信息,零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述。
在本步骤中,当用户具有零件分拣请求时,便可在终端设备输入预先设置的网址,进入到对应网站,该网站主要用于接收用户输入的零件分拣描述信息。其中,预先设置的网址是在网站搭建时确定的,该网站部署在服务器中。
具体的,该网站为用户提供输入零件分拣描述信息位置的同时,能够实时接收用户所输入的零件分拣描述信息,并会将零件分拣描述信息传输至网站内部预设的神经网络模型中。其中,零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述,该特征描述和分拣需求描述由自然语言描述组成。比如,零件描述信息为“把所有轴承零件分拣进一个箱子中”。
特征描述主要是对待分拣零件属性的限定,比如所要分拣零件的材质、用途、形状等。
分拣需求描述主要是指将零件分拣至哪里的指令,比如要将待分拣零件分拣至几个箱子中等。
S202:根据零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于分拣需求生成分拣控制信号的神经网络模型。
在本步骤中,基于步骤S201,部署在服务器中的神经网络模型在接收到用户输入的零件分拣描述信息后,则基于零件分拣描述信息进行分析处理。其中,部署在服务器中的神经网络模型为任务指令理解模型。
具体的,任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于分拣需求生成分拣控制信号的神经网络模型。其中,大语言模型是预先经过训练的,其在预训练过程中会经历多个预训练步骤,包括负例采样、遮挡策略等。在每个预训练的步骤中,大语言模型都会使用大量的文本数据来学习文本的统计结构、语法、语义等,从而使得大语言模型能够更好地理解单词、短语和句子之间的关系。
当输入自然语言进入大语言模型时,大语言模型首先将输入的自然语言编码为多个词向量,并且保留不同词向量之间的上下文信息,以便更好地理解序列中词与词之间的关系以及整句文本或整段文本的含义。同时,大语言模型使用自注意力机制,处理用户输入的文本中前后词句的紧密关联关系,并对不同词句划分不同的重点,以便为关键信息赋予更高级别的关注程度,这能让大语言模型有效地掌握文本之间的依赖关系。
在大语言模型经过预训练后,大语言模型需要经过微调以适应零件分拣控制信号的生成任务。具体来说,任务指令理解模型在预训练的大语言模型的基础上,微调网络结构,进而实现零件分拣控制信号的生成任务。其中,零件分拣控制信号是一段零件分拣的代码序列,该代码序列为后续机械臂执行零件分拣任务的指令信号。
微调网络结构主要是对大语言模型的最后几层网络结构进行修改。其中,基于零件分拣任务中涉及的零件类型、分拣需求等,最后几层网络结构被设计为分类网络,在提取用户输入的零件分拣需求的同时,将零件分拣需求分类为几类特定的机械臂分拣任务。
在一种可能的实现方式中,分类网络采用三层全连接层和一层Softmax分类层构成。其中,第一层全连接层的节点数设置为4096个,第二层全连接层的节点数设置为1024个,第三层全连接层的节点数设置为256个,Softmax分类层用于将输入的自然语言分拣需求分类为“按材质分拣”、“按用途分拣”等类别,具体输出节点视需求而定。
比如,零件分拣描述信息为“把所有轴承零件分拣进一个箱子中”、“把所有透明零件分拣进一个箱子中”、以及“把所有轴承和紧固件零件分别分拣进两个箱子中”等,任务指令理解模型在接收到以上零件分拣描述信息后,则会将这些零件分拣描述信息在最后几层分类网络分为2×2类,即两个分类问题。第一个分类问题是“按零件用途分拣”或者“按零件的材质分拣”。第二个分类问题是将零件分到几个箱子中。在完成分类后,任务指令模型则将两个分类结果进行组合,得到控制机械臂对待分拣零件进行分拣的控制信号,即对应的零件分拣指令代码序列。该控制信号将输入给机械臂的感知系统,以实现对不同零件的分拣任务。
在一种可能的实现方式中,任务指令理解模型中所定义的损失函数为:
其中, 指的是损失函数值,i表示待分拣零件对应的第i个类别,j表示待分拣零件对应的第j个类别,N是待分拣零件类别的数量,/>是实际的标签,/>是任务指令理解模型所输出的分类结果。
图3为本申请提供的一种基于任务指令理解模型生成控制信号的流程图。如图3所示,任务指令理解模型接收用户输入的自然语言,该自然语言为待分拣零件的描述信息。任务指令理解模型基于预训练的大语言模型微调得到。基于任务指令理解模型对用户输入自然语言的处理,则可得到控制机械臂执行零件分拣任务的控制信号。该控制信号则实时传输至机械臂的感知系统中,控制机械臂执行零件分拣任务。
S203:根据控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到对待分拣零件的类别以及抓取位姿,智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型。
在本步骤中,基于步骤S202,部署在服务器中的任务指令理解模型在对零件分拣描述信息分析处理完成,得到控制机械臂对待分拣零件进行分拣的控制信号后,则将该控制信号输入至机械臂的感知系统。
在机械臂的感知系统接收到控制信号后,则开始执行零件的分拣任务。在执行零件的分拣任务过程中,工业相机拍摄每一个待分拣零件的图像,并将所拍摄图像实时传输至部署在服务器中的零件智能感知模型中。零件智能感知模型则基于所拍摄的零件图像进行分析处理,确定该零件的类别和对应抓取位姿,以协助机械臂实现零件的准确识别和分拣。
其中,零件智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型。在该零件智能感知模型中,输入为待分拣零件对应的图像数据,输出为该待分拣零件的类别和抓取位姿。基于确定的待分拣零件的类别,机械臂结合零件分拣指令确定是否对该零件进行抓取和分拣。若该待分拣零件的类别符合零件分拣指令中指定的零件类别,则机械臂基于确定的抓取位姿将该分拣零件分拣至目标位置。若该待分拣零件的类别不符合零件分拣指令中指定的零件类别,则机械臂无需对该零件做任何操作。抓取位姿则是告知机械臂如何实现对不同位置、角度的零件进行精准、稳定抓取。
S204:根据控制信号,待分拣零件的类别以及抓取位姿,控制机械臂对待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
在本步骤中,基于步骤S202得到的控制机械臂对待分拣零件进行分拣的控制信号和步骤S203得到的待分拣零件的类别以及抓取位姿,控制机械臂对待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
其中,机械臂内置感知系统,该感知系统具体包括机械臂的视觉系统和内置的人工智能模型,机械臂的视觉系统能够拍摄当前产业线上待分拣的每一个零件的图像信息,并将该对应待分拣零件的图像信息实时发送至零件智能感知模型中,从而获得待分拣零件的类别和抓取位姿。机械臂内置的人工智能模型能够接收控制信号和执行相应的零件分拣指令,实现对零件的实时分拣。同时,部署在服务器中的智能避障神经网络模型在机械臂执行零件分拣任务过程中,实时输出当前机械臂的运动轨迹,实现零件分拣过程中的避障处理,以防机械臂在执行零件分拣过程中出现安全问题。
机械臂基于控制信号,当前待分拣的零件的类别和抓取位姿,确定当前待分拣零件是否符合控制信号中所涉及零件的分拣要求。比如,控制信号中所涉及零件的分拣要求为“将所有透明零件分拣至3号铁皮箱中”,若当前待分拣零件的类别并不是透明零件,则机械臂并不对当前零件执行分拣操作。若当前待分拣零件的类别是透明零件,则机械臂基于控制信号和智能避障神经网络模型输出的避障处理内容合理规划抓取路径,并在抓取时采用对应抓取位姿实现对待分拣零件的精准抓取,完成当前待分拣零件的分拣操作。
本实施例提供的基于具身智能的零件分拣处理方法,主要说明机械臂如何基于控制信号,待分拣零件的类别和抓取位姿,实现对待分拣零件精准抓取的过程。其中,任务指令理解模型能够基于用户输入的零件分拣描述信息,得到控制机械臂对待分拣零件进行分拣的控制信号,这一步无需用户具备较高的零件分拣指令代码编写能力,从而实现对机械臂控制难度的降低。零件智能感知模型能够对工业相机采集的待分拣零件的图像进行分析处理,得到待分拣零件的类别以及抓取位姿,无需零件在待分拣之前以固定位姿出现在产业线上,具有较高的泛化性。在机械臂执行零件分拣任务过程中,采用智能避障神经网络模型进行避障处理,从而保证机械臂执行零件分拣任务过程的安全性,避免了安全事故的发生。
图4为本申请提供的基于具身智能的零件分拣处理方法实施例二的流程示意图。如图4所示,在上述实施例的基础上,在分拣过程中通过智能避障神经网络模型进行避障处理,该基于具身智能的零件分拣处理方法的流程可以包括:
S401:在分拣过程中,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到机械臂周围物理环境的三维空间结构,智能避障神经网络模型是预先训练的根据体素数据进行动态三维重建的智能模型。
在本步骤中,机械臂根据控制信号,待分拣零件的类别以及抓取位姿,控制机械臂对待分拣零件进行分拣过程中,通过智能避障神经网络模型进行避障处理。
其中,该智能避障神经网络模型部署在服务器中,是预先训练的根据体素数据进行动态三维重建的智能模型,输入主要为待分拣零件的体素数据。
具体的,体素数据的获取主要依靠工业相机的实时采集,即在机械臂周围的不同角度设置多台工业相机。工业相机的类型不做限定,只要该相机具备获取待分拣零件对应的体素数据功能即可。其中,体素是体积元素的简称,包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来,它是数字数据于三维空间分割上的最小单位,主要用于三维成像、科学数据与医学影像等领域。在机械臂执行零件的分拣任务过程中,多台工业相机在不同角度实时采集机械臂周围物理环境的体素数据,并将获取到的多条体素数据实时传输至部署在服务器中的智能避障神经网络模型内。
在智能避障神经网络模型接收到多条体素数据后,则对这些体素数据进行处理,得到机械臂周围物理环境的三维结构。
比如,机械臂A在执行零件的分拣任务,在机械臂A周围设置3台工业相机,分别为工业相机1、工业相机2和工业相机3。这3台工业相机能够对机械臂A周围的物理环境进行全面覆盖,工业相机1所覆盖的物理环境为区域1,工业相机2所覆盖的物理环境为区域2,工业相机3所覆盖的物理环境为区域3,区域1、区域2和区域共同组成机械臂A周围的物理环境。在机械臂A执行零件分拣任务过程中,各个工业相机实时采集机械臂A周围的不同角度的物理环境的体素数据,并传输至部署在服务器中的智能避障神经网络模型,经过神经网络模型中多层网络的处理,便可得到机械臂A周围物理环境的三维空间结构,进而实现机械臂A周围物理环境的三维重建。
S402:采用机械臂运动学模型对三维空间结构进行处理,得到机械臂运动轨迹。
在本步骤中,基于步骤S401,在零件分拣过程中,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到机械臂周围物理环境的三维空间结构后,结合机械臂运动学模型对三维空间结构进行处理,从而得到机械臂的运动轨迹。
其中,机械臂运动学模型可以部署在服务器中,也可以事先部署在机械臂感知系统中的人工智能模型内。具体部署在哪个位置,根据实际情况确定。机械臂运动学模型是研究机械手臂运动规律的模型,在研究过程中,需要确定机械手臂的位姿,即确定机械手臂末端执行器在三维空间中的位置和姿态,一般使用坐标变换技术来描述机械手臂各个关节之间的关系。
具体来说,基于智能避障神经网络模型,得到机械臂周围物理环境的三维空间结构后,则将该三维空间结构对应的数据信息实时传输至机械臂运动学模型中,该运动学模型能够对机械臂周围环境的三维空间结构进行处理,得到机械臂的运动轨迹。
本实施例提供的基于具身智能的零件分拣处理方法,主要说明机械臂在执行零件分拣过程中,如何通过智能避障神经网络模型进行避障处理的过程。其中,智能避障神经网络模型处理工业相机采集的机械臂周围不同角度物理环境的体素数据,可以实时得到机械臂周围物理环境的三维空间结构。结合三维空间结构,机械臂运动学模型能够得到机械臂的运动轨迹,从而保证机械臂在分拣零件过程中的安全性,避免安全事故的发生。
图5为本申请提供的基于具身智能的零件分拣处理方法实施例三的流程示意图。如图5所示,在上述任意一个实施例的基础上,根据控制信号,待分拣零件的类别以及抓取位姿,控制机械臂对待分拣零件进行分拣,该基于具身智能的零件分拣处理方法的流程可以包括:
S501:根据控制信号,待分拣的类别以及抓取位置,控制机械臂按照机械臂运动轨迹对待分拣零件进行分拣。
在本步骤中,基于步骤S402得到机械臂的运动轨迹后,则机械臂的感知系统根据控制信号,待分拣的类别以及抓取位置,控制机械臂按照机械臂运动轨迹对待分拣零件进行分拣。
其中,机械臂按照运动轨迹,将待分拣零件安全分拣至所要求的位置。比如,针对某一个待分拣零件而言,所确定的机械臂运动轨迹为:机械臂夹爪打开,机械臂从初始状态运行到抓取状态,机械臂夹爪关闭,机械臂从抓取状态运行到分拣终点,机械臂夹爪打开,机械臂从分拣终点运行到初始状态。
本实施例提供的基于具身智能的零件分拣处理方法,主要说明机械臂在执行零件分拣任务过程中所依据的条件。其中,在控制信号的前提下,机械臂基于待分拣零件的类别确定是否对该零件进行抓取,并在确定抓取后以机械臂运动轨迹和抓取位姿执行抓取操作,从而保证零件抓取过程的安全性,将所有待分拣的零件按照类别等要求安全分拣至不同的目标位置。
图6为本申请提供的基于具身智能的零件分拣处理方法实施例四的流程示意图。如图6所示,在上述任意一个实施例的基础上,根据零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,该基于具身智能的零件分拣处理方法的流程可以包括:
S601:通过任务指令理解模型中的自然语言理解部分对零件分拣描述信息进行理解处理得到待分拣零件的特征以及分拣需求,并通过任务指令理解模型中的信号生成部分基于待分拣零件的特征以及分拣需求生成控制信号。
在本步骤中,部署在服务器中的任务指令理解模型向机械臂的感知系统所输出的控制信号,主要借助任务指令理解模型中的自然语言理解部分和信号生成部分生成。
其中,任务指令理解模型按照功能划分,可以划分为自然语言理解部分和信号生成部分。具体的,自然语言理解部分是以用户输入的零件分拣描述信息作为输入,以待分拣零件的特征以及分拣需求作为输出。比如,用户输入的零件分拣描述信息为“把所有圆形零件分拣至目标1号箱”,故任务指令理解模型中的自然语言理解部分以自然语言“把所有圆形零件分拣至目标1号箱”作为输入,经过自然语言理解部分所涉及神经网络的处理,则可以得到该零件分拣描述信息中对应的待分拣零件的特征以及分拣需求,即待分拣零件的特征为圆形零件,分拣需求为分拣至目标1号箱。
在自然语言理解部分得到待分拣零件的特征和分拣需求后,则将这部分内容作为任务指令理解模型中信号生成部分的输入,在经过信号生成部分所涉及神经网络的处理后,则可以得到控制信号,该控制信号对应待分拣零件的特征和分拣需求,是一段分拣指令代码序列。这段分拣指令代码序列将作为控制信号发送至机械臂的感知系统,控制机械臂按照零件分拣描述信息中所涉及的待分拣零件的特征和分拣需求,对待分拣零件执行分拣操作。比如,经过任务指令理解模型中信号生成部分得到的控制信号为:比如,分拣需求为“按零件材质分拣”,任务指令理解模型则调用模型中对零件材质特征提取的部分,输出零件的材质分类结果,并在此基础上生成与零件材质分类结果对应的控制信号。再比如,分拣需求为“按零件用途分拣”,任务指令理解模型则调用模型中对零件用途特征提取的部分,输出零件的用途分类结果,并在此基础上生成与零件用途分类对应的控制信号。
本实施例提供的基于具身智能的零件分拣处理方法,主要详细说明任务指令理解模型如何基于零件分拣描述信息得到控制信号。其中,任务指令理解模型中的自然语言理解部分能够通过用户输入的零件分拣描述信息自动生成对应的待分拣零件的特征和分拣需求信息,任务指令理解模型中的信号生成部分则以自然语言理解部分的输出作为输入,得到控制机械臂的控制信号。该控制信号无需再以人工的方式生成,而是通过神经网络模型的形式自动生成,进而实现对机械臂控制难度的降低。
图7为本申请提供的基于具身智能的零件分拣处理方法实施例五的流程示意图。如图7所示,在上述任意一个实施例的基础上,根据控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到对待分拣零件的类别以及抓取位姿,该基于具身智能的零件分拣处理方法的流程可以包括:
S701:根据控制信号控制工业相机采集获取待分拣零件的图像,图像包括RGB图像和深度图像。
在本步骤中,当部署在服务器中的任务指令理解模型根据零件分拣描述信息得到控制机械臂的控制信号后,工业相机则基于控制信号实时采集当前产业线上待分拣零件的图像。其中,该工业相机可以预先设置在机械臂上,也可以预先设置在机械臂周围,实时拍摄产业线上的待分拣零件,得到对应的图像。工业相机的类型不做限定,只要该相机具备拍摄RGB图像和深度图像的功能即可。
具体的,工业相机采集获取的待分拣零件的图像包括RGB图像和深度图像。其中,RGB图像是一种由红、绿和蓝三原色组合而成的图像,该图像格式在数字图像处理中被广泛应用,它一种基于颜色的图像表示方式,在RGB图像中,每个像素点由三个颜色通道的数值表示。深度图像被称为距离影像,是指将从图像采集器到场景中各点的距离作为像素值的图像。
S702:将RGB图像和深度图像,输入零件智能感知模型进行特征分析处理,得到待分拣零件的类别和抓取位姿;其中,零件智能感知模型包括Transformer层,卷积神经网络层以及全连接层。
在本步骤中,基于步骤S701,在工业相机采集获取到待分拣零件的图像后,则将对应图像实时传输至部署在服务器中的零件智能感知模型中。
其中,零件智能感知模型以工业相机实时采集获取到的待分拣零件对应的RGB图像和深度图像作为输入,以待分拣零件的类别和抓取位姿作为输出。具体的,零件智能感知模型为神经网络模型,包括Transformer层,卷积神经网络层和全连接层。
具体的,Transformer层由编码器和解码器两部分组成,编码器将输入序列转化为一系列上下文表示向量,它由多个相同的层组成,每一层都由两个子层组成,分别是自注意力层和前馈全连接层。解码器将编码器的输出和目标序列作为输入,生成目标序列中每个位置的概率分布。解码器由多个相同的层组成,每个层由三个子层组成,分别是自注意力层、编码器-解码器注意力层和前馈全连接层。
卷积神经网络的基本结构包括输入层、卷积层、池化层和输出层。其中,输入层为工业相机采集获取到的待分拣零件图像对应的像素矩阵。卷积层为卷积神经网络的核心,能够对输入的数据进行卷积计算。池化层将执行池化操作,即将输入的像素矩阵某一位置相邻区域的总体统计特征作为该位置的输出。在经过多轮卷积层和池化层的处理之后,待分拣图像中的信息已经被抽象成了信息含量更高的特征,即卷积层和池化层可以看作是图像特征提取的过程。在提取完成之后,输出所提取的图像特征。
全连接层以卷积神经网络层的输出作为输入,将提取到的图像特征综合起来,得到待分拣零件的类别和抓取位姿。
在得到待分拣零件的类别和抓取位姿后,机械臂则可基于控制信号中所涉及的待分拣零件的描述信息确定是否对当前产业线上的零件进行分拣。
本实施例提供的基于具身智能的零件分拣处理方法,主要说明零件智能感知模型的输入和输出信息。其中,零件智能感知模型的输入为工业相机根据控制信号实时采集获取的待分拣零件对应的RGB图像和深度图像,输出为待分拣零件的类别和抓取位姿。基于零件智能感知模型,待分拣零件无需以固定位姿出现在产业线上,利于智能柔性产线的发展和推广。
图8为本申请提供的基于具身智能的零件分拣处理方法实施例六的流程示意图。如图8所示,在上述实施例的基础上,将RGB图像和深度图像,输入零件智能感知模型进行特征分析处理,得到待分拣零件的类别和抓取位姿,该基于具身智能的零件分拣处理方法的流程可以包括:
S801:通过零件智能感知模型的Transformer层对RGB图像和深度图像进行特征提取,获取待分拣零件的全局视觉特征。
在本步骤中,待分拣零件的类别和位姿的确定是根据零件智能感知模型。其中,零件智能感知模型中包括Transformer层,卷积神经网络层和全连接层。
当零件智能感知模型接收到待分拣零件对应的RGB图像和深度图像后,则向通过零件智能感知模型中的Transformer层对RGB图像和深度图像进行特征提取,获取待分拣零件的全局视觉特征。
其中,在零件智能感知模型中,结合零件分类和抓取检测两个模块的智能分拣算法,该算法分别将待分拣零件的RGB图像和深度图像作为零件智能感知模型的两种输入,且这两个模块在深度学习模型中共享对待分拣零件的视觉通用特征信息。在输入RGB图像和深度图像后,零件智能感知模型首先使用Transformer层中的注意力机制用于提取图像信息中各区域像素之间的相关性,帮助零件智能模型更为集中地关注与分类任务相关的区域及其特征,从而提高对零件分类和抓取检测的性能,这有助于零件智能感知模型更有效地处理复杂的视觉信息,并且根据注意力机制能够以一种更为高效的空间选择方式,自动选择更为重要的区域并为其赋予更高的参数权重,同时抑制与零件分类和抓取检测任务无关的信息,提高模型整体的鲁棒性和准确性。在Transformer层处理后,则可获取待分拣零件的全局视觉特征。
S802:通过零件智能感知模型的卷积神经网络层对RGB图像和深度图像进行特征提取,获取待分拣零件的局部视觉特征。
在本步骤中,基于步骤S801,通过零件智能感知模型的Transformer层对RGB图像和深度图像进行特征提取,获取待分拣零件的全局视觉特征后,则开始采用零件智能感知模型中的卷积神经网络对RGB图像和深度图像进行特征提取,获取待分拣零件的局部视觉特征。
其中,在应用零件智能感知模型中的Transformer层获取待分拣零件的全局视觉特征后,则应用零件智能感知模型中的卷积神经网络层提取待分拣零件的局部特征并降低计算复杂度。因此,在不同网络深度的不同尺度上具有不同的特征提取效果,从而可以更好地处理不同尺度的视觉信息,有助于分类和检测不同大小尺寸和形状的零件。同时,在输入RGB图像和深度图像的两个网络之间采取跳跃连接的方式共享参数,合理利用图像中同一位置RGB与深度信息之间的关联关系,从而获得更充分的理解能力。
在抓取检测模块中,在视觉感知部分与零件分类模块之间共享零件智能感知模型提取得到的视觉特征,并结合零件智能感知模型的最后几层网络,实现抓取检测的六自由度向量回归。
S803:根据全局视觉特征和局部视觉特征,通过零件智能感知模型的全连接层确定出待分拣零件的类别和抓取位姿。
在本步骤中,基于步骤S801获取待分拣零件的全局视觉特征和步骤S802获取待分拣零件的局部视觉特征后,则通过零件智能感知模型的全连接层确定出待分拣零件的类别和抓取位姿。
其中,零件智能感知模型的全连接层基于待分拣零件的全局视觉特征和局部视觉特征,采用六自由度抓取位姿作为目标输出,目的是为了在整个三维空间中的不同角度检测不同种类、不同形状、不同尺寸零件的多角度抓取位姿,以便后续选择最优位姿执行抓取。
零件分类模块可将不同类别的零件进行分类。比如,将零件按用途分为“轴承”、“法兰”、“促动器”等类别,按材质分为“金属”、“玻璃”、“塑料”等类别,从而便于后续机械臂将不同类别的零件分拣到不同的终点。抓取检测模块可以检测出零件在桌面上静止时的抓取位姿,便于机械臂以某种运动轨迹逼近这一位姿并执行稳定的抓取,并由机械臂运输到目标分拣终点处。
其中,零件智能感知模型中执行零件分类的模块,所定义的损失函数为:
其中, 指的是损失函数值,i是待分拣零件对应的第i个类别,N是零件类别的数量,/>是实际的标签,/>是零件智能感知模型中零件分类模块所涉及神经网络输出的分类结果。假设有N个类别,零件智能感知模型中零件分类模块所涉及神经网络的输出则为一个N维的向量,表示每个类别的概率分布,实际的标签为一个N维的编码向量。
假设零件智能感知模型输出的抓取位姿为,而实际抓取位姿为g,则零件智能感知模块中执行抓取检测的模块,所定义的损失函数为:
/>
其中, 是姿态误差损失值,i指的是第i个六自由度抓取位姿,/>是零件智能感知模型预测的第i个六自由度抓取位姿的分量,/>是实际第i个六自由度抓取位姿的分量。
基于零件智能感知模型中零件分类模块和抓取检测模块定义的损失函数,零件智能感知模型整体的损失函数定义为:
其中,L指的是零件智能感知模型定义的损失函数值,和/>为调节系数,满足的条件为/>,/>为零件智能感知模型中零件分类模块所涉及神经网络定义的损失函数值,/>为零件智能感知模型中抓取检测模块所涉及神经网络定义的姿态误差损失值。
本实施例提供的基于具身智能的零件分拣处理方法,主要详细说明零件智能感知模型中所涉及的网络模型如何实现零件类别和抓取位姿的确定。其中,零件智能感知模型根据视觉信息对不同的零件按照材质或用途进行分类,从而能够将不同的零件分拣入不同的箱子中。同时,通过六自由度抓取检测算法对流水线上的零件进行抓取检测,定位不同零件的抓取位姿作为每次分拣动作的终点目标,实现对不同零件在不同位置、角度的精准、稳定抓取。
在一种可能的实现方式中,在上述任意一个实施例的基础上,图9为本申请提供的一种零件智能感知模型逻辑框架示意图。如图9所示,该零件智能感知模型以待分拣零件的RGB图像和深度图像作为输入,Transformer层接收输入的RGB图像和深度图像,在经过处理后,将处理后的数据信息传输至卷积神经网络层。经过神经网络层的处理,则进一步将处理结果传输至全连接层。在全连接层的处理下,则可获得待分拣零件的类别和珠澳去位姿,作为该零件智能感知模型的输出。
图10为本申请提供的基于具身智能的零件分拣处理方法实施例七的流程示意图。如图10所示,在上述任意一个实施例的基础上,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到机械臂周围物理环境的三维空间结构,该基于具身智能的零件分拣处理方法的流程可以包括:
S1001:控制预先设置在机械臂周围的多个工业相机,对机械臂的活动空间进行不同角度的扫描,获取机械臂周围的不同角度物理环境的体素数据。
在本步骤中,当机械臂根据控制信号,待分拣零件的类别和抓取位姿对待分拣零件执行分拣的过程中,需要采用智能避障神经网络模型得到机械臂周围物理环境的三维空间结构。
其中,智能避障神经网络模型的输入为机械臂周围不同角度物理环境的体素数据,该体素数据的获取依据机械臂周围预先设置的多个工业相机。具体的,多个工业相机预先设置在机械臂周围,在机械臂执行零件分拣任务过程中,实时对机械臂的活动空间进行不同角度的扫描,从而获取机械臂周围的不同角度物理环境的体素数据。
S1002:将机械臂周围的不同角度物理环境的体素数据,输入智能避障神经网络模型进行三维空间的特征提取并根据提取到的特征进行三维空间重构,得到三维空间结构。
在本步骤中,基于步骤S1001获取机械臂周围的不同角度物理环境的体素数据后,则将获取的所有体素数据实时输入智能避障神经网络模型,进行三维空间的特征提取,并根据提取到的特征进行三维空间重构,得到机械臂周围环境的三维空间结构。
其中,智能避障神经网络模型所获取的机械臂周围环境的三维空间结构,则是机械臂执行零件分拣任务过程中的空间运动约束限制。基于空间运动的约束限制,结合机械臂运动学模型,规划出安全、合理的机械臂运动轨迹,从而有效地将所有零件按照零件分拣要求分拣到不同的目标位置。
本实施例提供的基于具身智能的零件分拣处理方法,主要说明智能避障神经网络模型如何得到机械臂周围物理环境的三维空间结构。其中,智能避障神经网络模型以工业相机实时采集的多角度体素数据作为输入,经过智能避障神经网络模型的处理,得到机械臂周围不同角度物理环境的三维空间结构。通过获取的三维空间结构,则可以为机械臂运动轨迹的规划提供约束基础,从而规划出安全、合理的机械臂运动轨迹,保证机械臂执行零件分拣任务时的安全性。
在一种可能的实施方式中,智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层;
其中,三维卷积层用于提取机械臂周围的不同角度物理环境的体素数据中三维空间的全局视觉特征;
平均池化层用于减少三维空间中的体素网格的尺寸;
全连接层用于重建与输入体素网格具有相同大小的网格模型。
具体的,在机械臂执行零件分拣任务过程中,所应用的智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层。
图11为本申请提供的一种智能避障神经网络模型逻辑框架示意图。如图11所示,在机械臂执行零件分拣任务过程中,通过基于视觉的动态三维重建技术,将机械臂周围的物理环境重建后标记为不可碰撞的区域,作为后续动态避障的约束,并在此约束下进行机械臂的运动学路径规划,最终执行所有零件分拣动作,将传送带上的所有不同材质或不同用途的零件依次分拣进不同的箱子中。
具体的,智能避障神经网络模型采用深度学习的方法,以相机扫描到的体素作为输入数据后,首先使用三维卷积层提取机械臂周围的不同角度物理环境的体素数据中三维空间的全局视觉特征,随后通过平均池化层减少三维空间中的体素网格的尺寸,以便减少网络的参数量将其变得更为轻量化,便于部署在工业边缘设备中,提高智能避障神经网络模型的处理速度。同时,可以有效增大智能避障神经网络模型的感受视野,帮助智能避障神经网络模型捕捉更广泛的特征,最后使用全连接层重建与输入体素网格剧具有相同大小的网格模型。
基于所得网络模型,结合机械臂运动学模型,则可规划出机械臂的运动轨迹,协助机械臂执行分拣。
其中,智能避障神经网络模型在预训练时,所定义的损失函数为:
其中,和/>为调节系数,满足的条件为/>,L_data用于衡量重建的三维空间结构与实际空间结构之间的差异,定义的公式为:
其中,N是体素数量,v是体素的标签,是智能避障神经网络模型输出的体素。
L_smooth是正则化损失项,用于约束重建的三维空间结构,使输出的重建效果更为平滑,定义的公式为:
其中,表示对智能避障神经网络模型输出的体素进行梯度操作。
本实施例中,主要详细说明智能避障神经网络模型所涉及的网络层名称以及具体作用。其中,智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层,这几层神经网络用于在机械臂执行任务时动态智能重建周围的三维物理环境,继而能让机械臂在安全的空间约束下运动,以保证执行工业任务时的安全性。
在一种可能的实现方式中,在上述任意一个实施例的基础上,图12为本申请提供的一种基于具身智能的零件分拣处理框架示意图。如图12所示,该基于具身智能的零件分拣处理框架中,主要包括的处理模型有任务指令理解模型、零件智能感知模型和智能避障神经网络模型。首先,任务指令理解模型通过大语言模型较强的自然语言理解能力,精确提取用户输入的自然语言中的指令,为后续对机械臂的控制提供基础。其次,机械臂在收到由任务指令理解模型输出的控制信号后,先对不同的零件按照材质、用途等进行分类,从而能够将不同的零件分拣入不同的箱子中,随后通过零件智能感知模型对流水线上的零件进行抓取检测,定位不同零件的抓取位姿作为每次分拣动作的终点目标。最后,通过智能避障神经网络模型,将机械臂周围的物理环境重建后标记为不可碰撞的区域,作为后续动态避障的约束,并在此约束下进行机械臂的运动学路径规划,最终执行所有分拣动作,将流水线上的所有不同材质、不同用途的零件依次分拣进不同的箱子中。
图13为本申请提供的基于具身智能的零件分拣处理装置实施例一的结构示意图。如图13所示,该基于具身智能的零件分拣处理装置1300包括:
接收模块1301,用于接收用户输入的零件分拣描述信息,零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述;
处理模块1302,用于根据零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于分拣需求生成分拣控制信号的神经网络模型;
处理模块1302,还用于根据控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到待分拣零件的类别以及抓取位姿,智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型;
处理模块1302,还用于根据控制信号,待分拣零件的类别以及抓取位姿,控制机械臂对待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
可选的,处理模块1302还用于:
在分拣过程中,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到机械臂周围物理环境的三维空间结构,智能避障神经网络模型是预先训练的根据体素数据进行动态三维重建的智能模型;
采用机械臂运动学模型对三维空间结构进行处理,得到机械臂运动轨迹。
可选的,处理模块1302还用于:
根据控制信号,待分拣的类别以及抓取位置,控制机械臂按照机械臂运动轨迹对待分拣零件进行分拣。
可选的,处理模块1302还用于:
通过任务指令理解模型中的自然语言理解部分对零件分拣描述信息进行理解处理得到待分拣零件的特征以及分拣需求,并通过任务指令理解模型中的信号生成部分基于待分拣零件的特征以及分拣需求生成控制信号。
可选的,处理模块1302还用于:
根据控制信号控制工业相机采集获取待分拣零件的图像,图像包括RGB图像和深度图像;
将RGB图像和深度图像,输入零件智能感知模型进行特征分析处理,得到待分拣零件的类别和抓取位姿;
其中,零件智能感知模型包括Transformer层,卷积神经网络层以及全连接层。
可选的,处理模块1302还用于:
通过零件智能感知模型的Transformer层对RGB图像和深度图像进行特征提取,获取待分拣零件的全局视觉特征;
通过零件智能感知模型的卷积神经网络层对RGB图像和深度图像进行特征提取,获取待分拣零件的局部视觉特征;
根据全局视觉特征和局部视觉特征,通过零件智能感知模型的全连接层确定出待分拣零件的类别和抓取位姿。
可选的,处理模块1302还用于:
控制预先设置在机械臂周围的多个工业相机,对机械臂的活动空间进行不同角度的扫描,获取机械臂周围的不同角度物理环境的体素数据;
将机械臂周围的不同角度物理环境的体素数据,输入智能避障神经网络模型进行三维空间的特征提取并根据提取到的特征进行三维空间重构,得到三维空间结构。
可选的,智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层;
其中,三维卷积层用于提取机械臂周围的不同角度物理环境的体素数据中三维空间的全局视觉特征;
平均池化层用于减少三维空间中的体素网格的尺寸;
全连接层用于重建与输入体素网格具有相同大小的网格模型。
本实施例提供的基于具身智能的零件分拣处理装置,可以用于执行前述任一方法实施例中基于具身智能的零件分拣处理方法,其实现原理和技术效果类似,在此不再赘述。
图14为本申请提供的基于具身智能的零件分拣处理电子设备的结构示意图。如图14所示,该电子设备具体可以包括接收器1400、发送器1401、处理器1402以及存储器1403。其中,上述接收器1400和发送器1401用于实现电子设备与终端之间的数据传输,上述存储器1403存储计算机执行指令;上述处理器1402执行上述存储器1403存储的计算机执行指令,以实现上述实施例中的基于具身智能的零件分拣处理方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述实施例中的基于具身智能的零件分拣处理方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任意一个实施例提供的基于具身智能的零件分拣处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种基于具身智能的零件分拣处理方法,其特征在于,所述方法包括:
接收用户输入的零件分拣描述信息,所述零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述;
根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,所述任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于所述分拣需求生成分拣控制信号的神经网络模型;
根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,所述智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型;
根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
2.根据权利要求1所述的方法,其特征在于,所述在分拣过程中通过智能避障神经网络模型进行避障处理,包括:
在分拣过程中,采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到所述机械臂周围物理环境的三维空间结构,所述智能避障神经网络模型是预先训练的根据体素数据进行动态三维重建的智能模型;
采用机械臂运动学模型对所述三维空间结构进行处理,得到机械臂运动轨迹;
相应的,所述根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,包括:
根据所述控制信号,所述待分拣的类别以及所述抓取位置,控制所述机械臂按照所述机械臂运动轨迹对所述待分拣零件进行分拣。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,包括:
通过所述任务指令理解模型中的自然语言理解部分对所述零件分拣描述信息进行理解处理得到所述待分拣零件的特征以及分拣需求,并通过所述任务指令理解模型中的信号生成部分基于所述待分拣零件的特征以及所述分拣需求生成所述控制信号。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,包括:
根据所述控制信号控制所述工业相机采集获取所述待分拣零件的图像,所述图像包括RGB图像和深度图像;
将所述RGB图像和所述深度图像,输入所述零件智能感知模型进行特征分析处理,得到所述待分拣零件的类别和所述抓取位姿;
其中,所述零件智能感知模型包括Transformer层,卷积神经网络层以及全连接层。
5.根据权利要求4所述的方法,其特征在于,所述将所述RGB图像和所述深度图像,输入所述零件智能感知模型进行特征分析处理,得到所述待分拣零件的类别和所述抓取位姿,包括:
通过所述零件智能感知模型的Transformer层对所述RGB图像和所述深度图像进行特征提取,获取所述待分拣零件的全局视觉特征;
通过所述零件智能感知模型的卷积神经网络层对所述RGB图像和所述深度图像进行特征提取,获取所述待分拣零件的局部视觉特征;
根据所述全局视觉特征和所述局部视觉特征,通过所述零件智能感知模型的全连接层确定出所述待分拣零件的类别和所述抓取位姿。
6.根据权利要求2所述的方法,其特征在于,所述采用智能避障神经网络模型,对工业相机实时采集的机械臂周围的不同角度物理环境的体素数据进行处理,得到所述机械臂周围物理环境的三维空间结构,包括:
控制预先设置在机械臂周围的多个工业相机,对所述机械臂的活动空间进行不同角度的扫描,获取所述机械臂周围的不同角度物理环境的体素数据;
将所述机械臂周围的不同角度物理环境的体素数据,输入所述智能避障神经网络模型进行三维空间的特征提取并根据提取到的特征进行三维空间重构,得到所述三维空间结构。
7.根据权利要求6所述的方法,其特征在于,所述智能避障神经网络模型包括三维卷积层,平均池化层以及全连接层;
其中,所述三维卷积层用于提取所述机械臂周围的不同角度物理环境的体素数据中三维空间的全局视觉特征;
所述平均池化层用于减少三维空间中的体素网格的尺寸;
所述全连接层用于重建与输入体素网格具有相同大小的网格模型。
8.一种基于具身智能的零件分拣处理装置,其特征在于,包括:
接收模块,用于接收用户输入的零件分拣描述信息,所述零件分拣描述信息中包括对待分拣零件的特征描述以及分拣需求描述;
处理模块,用于根据所述零件分拣描述信息,采用任务指令理解模型进行分析处理,得到控制机械臂对待分拣零件进行分拣的控制信号,所述任务指令理解模型是基于大语言模型预先训练的从本文中提取出分拣需求、并基于所述分拣需求生成分拣控制信号的神经网络模型;
所述处理模块,还用于根据所述控制信号,采用零件智能感知模型对工业相机采集的待分拣零件的图像进行分析处理,得到所述待分拣零件的类别以及抓取位姿,所述智能感知模型为预先训练的基于图像识别分析确定零件类别以及抓取位姿的神经网络模型;
所述处理模块,还用于根据所述控制信号,所述待分拣零件的类别以及所述抓取位姿,控制机械臂对所述待分拣零件进行分拣,并在分拣过程中通过智能避障神经网络模型进行避障处理。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7任一项所述的基于具身智能的零件分拣处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的基于具身智能的零件分拣处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410211078.1A CN117772648B (zh) | 2024-02-27 | 2024-02-27 | 基于具身智能的零件分拣处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410211078.1A CN117772648B (zh) | 2024-02-27 | 2024-02-27 | 基于具身智能的零件分拣处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117772648A true CN117772648A (zh) | 2024-03-29 |
CN117772648B CN117772648B (zh) | 2024-05-07 |
Family
ID=90396761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410211078.1A Active CN117772648B (zh) | 2024-02-27 | 2024-02-27 | 基于具身智能的零件分拣处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117772648B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200094405A1 (en) * | 2017-06-19 | 2020-03-26 | Google Llc | Robotic grasping prediction using neural networks and geometry aware object representation |
CN111421539A (zh) * | 2020-04-01 | 2020-07-17 | 电子科技大学 | 一种基于计算机视觉的工业零件智能识别与分拣系统 |
CN113104468A (zh) * | 2021-05-08 | 2021-07-13 | 深圳市库宝软件有限公司 | 订单分拣出库方法、系统及存储介质 |
CN114693661A (zh) * | 2022-04-06 | 2022-07-01 | 上海麦牙科技有限公司 | 一种基于深度学习的快速分拣方法 |
CN114952871A (zh) * | 2022-08-01 | 2022-08-30 | 天津美腾科技股份有限公司 | 物块分拣系统及方法 |
CN117124302A (zh) * | 2023-10-24 | 2023-11-28 | 季华实验室 | 一种零件分拣方法、装置、电子设备及存储介质 |
CN117549310A (zh) * | 2023-12-28 | 2024-02-13 | 亿嘉和科技股份有限公司 | 一种具身智能机器人的通用系统、构建方法及使用方法 |
-
2024
- 2024-02-27 CN CN202410211078.1A patent/CN117772648B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200094405A1 (en) * | 2017-06-19 | 2020-03-26 | Google Llc | Robotic grasping prediction using neural networks and geometry aware object representation |
CN111421539A (zh) * | 2020-04-01 | 2020-07-17 | 电子科技大学 | 一种基于计算机视觉的工业零件智能识别与分拣系统 |
CN113104468A (zh) * | 2021-05-08 | 2021-07-13 | 深圳市库宝软件有限公司 | 订单分拣出库方法、系统及存储介质 |
CN114693661A (zh) * | 2022-04-06 | 2022-07-01 | 上海麦牙科技有限公司 | 一种基于深度学习的快速分拣方法 |
CN114952871A (zh) * | 2022-08-01 | 2022-08-30 | 天津美腾科技股份有限公司 | 物块分拣系统及方法 |
CN117124302A (zh) * | 2023-10-24 | 2023-11-28 | 季华实验室 | 一种零件分拣方法、装置、电子设备及存储介质 |
CN117549310A (zh) * | 2023-12-28 | 2024-02-13 | 亿嘉和科技股份有限公司 | 一种具身智能机器人的通用系统、构建方法及使用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117772648B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240028896A1 (en) | Method and system for activity classification | |
Asif et al. | GraspNet: An Efficient Convolutional Neural Network for Real-time Grasp Detection for Low-powered Devices. | |
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN111695562B (zh) | 一种基于卷积神经网络的机器人自主抓取方法 | |
US20160221190A1 (en) | Learning manipulation actions from unconstrained videos | |
Dai | Real-time and accurate object detection on edge device with TensorFlow Lite | |
CN113681552B (zh) | 一种基于级联神经网络的机器人混杂物体五维抓取方法 | |
Yang et al. | Diver gesture recognition using deep learning for underwater human-robot interaction | |
Ito et al. | Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions | |
Hoang et al. | Grasp configuration synthesis from 3D point clouds with attention mechanism | |
CN117772648B (zh) | 基于具身智能的零件分拣处理方法、装置、设备及介质 | |
CN115223218A (zh) | 基于alfa元学习优化算法的自适应人脸识别技术 | |
Geng et al. | A Novel Real-time Grasping Method Cobimbed with YOLO and GDFCN | |
CN113894779A (zh) | 一种应用于机器人交互的多模态数据处理方法 | |
Steffi et al. | Object detection on robosoccer environment using convolution neural network | |
Hossain et al. | A faster r-cnn approach for partially occluded robot object recognition | |
Belattar et al. | An embedded system-based hand-gesture recognition for human-drone interaction | |
Trottier et al. | Convolutional residual network for grasp localization | |
CN112396666A (zh) | 基于手势识别的装配过程智能控制方法 | |
Kamel et al. | Mask-grasp r-cnn: Simultaneous instance segmentation and robotic grasp detection | |
Kerzel et al. | Neurocognitive shared visuomotor network for end-to-end learning of object identification, localization and grasping on a humanoid | |
Luo et al. | Robot Visual Servoing Grasping Based on Top-Down Keypoint Detection Network | |
Assem et al. | Identification of Unknown Marine Debris by ROVs Using Deep Learning and Different Convolutional Neural Network Structures | |
Scharei et al. | Automated active learning with a robot | |
CN117218606B (zh) | 一种逃生门检测方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |