CN113696178A

CN113696178A - 一种机器人智能抓取的控制方法及系统、介质、设备

Info

Publication number: CN113696178A
Application number: CN202110876408.5A
Authority: CN
Inventors: 江珊
Original assignee: Dazhu Hangzhou Technology Co ltd
Current assignee: Dazhu Hangzhou Technology Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-26
Anticipated expiration: 2041-07-29
Also published as: CN113696178B

Abstract

本发明提供了一种机器人智能抓取的控制方法及系统、介质、设备，其中，该方法包括：接收来自用户的语音数据，识别语音数据对应的目标动作指令；若语音数据对应的目标动作指令为抓取指令，识别抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据；利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的图像坐标；对图像坐标进行坐标系转换，得到目标物体在世界三维坐标系内的世界坐标，以根据世界坐标抓取目标物体。通过本发明，实现了机器人抓取的智能语音控制和对目标物体的快速定位，大大提高了家庭机器人抓取的智能性和准确度。

Description

一种机器人智能抓取的控制方法及系统、介质、设备

技术领域

本发明涉及机器人技术领域，特别是一种机器人智能抓取的控制方法及系统、介质、设备。

背景技术

家庭服务机器人是为人类服务的特种机器人，能够代替人完成家庭服务工作的机器人。随着科学技术的飞速发展和人们生活水平的不断提高，越来越多的用户开始使用家庭服务机器人产品。而机器人抓取作为家庭机器人的一项重要能力，也已经取得巨大的成果并且在工业生产中得到了广泛的应用，但在家庭环境中，家用机器人的抓取仍未成熟。

目标识别是家庭机器人技术研究领域的一个难点，目标识别所面临的难点可以归结为对算法的三方面要求：算法的鲁棒性、准确性和快速性。通常情况下，家庭机器人所处的环境较为复杂，障碍物较多，且光照不均匀。而目标识别的鲁棒性、快速性和准确性受外部环境、目标识别算法以及摄像头的视觉角度影响较大。根据实验，当家庭机器人面前有几十种按不同位姿任意摆放且多个物体间相互接触和遮挡时，其根据指令选择正确物品的能力较差。因此，家庭环境的动态性和不确定性、十几乃至上百种不同的目标物体、多个物体间的相互接触和遮挡以及物体位姿的任意性，都对家庭机器人抓取的准确性、智能性提出了更高的要求。

发明内容

鉴于上述问题，本发明提出了一种机器人智能抓取的控制方法及系统、介质、设备，通过接收来自用户的语音数据，识别语音数据对应抓取指令和识别抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据，利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系上的图像坐标并进行坐标系转换，得到目标物体的世界坐标，根据世界坐标响应抓取指令对目标物体进行抓取。实现了对机器人抓取的智能语音控制和目标物体的快速、准确定位，提高了家庭机器人抓取的智能性和准确度。

依据本发明第一方面，提供了一种机器人智能抓取的控制方法，包括：

接收来自用户的语音数据，识别所述语音数据对应的目标动作指令；

若所述语音数据对应的目标动作指令为抓取指令，识别所述抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据；

利用目标识别算法对所述第一图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的图像坐标；

对所述图像坐标进行坐标系转换，得到所述目标物体在世界三维坐标系内的世界坐标，以根据所述世界坐标抓取所述目标物体。

可选地，所述利用目标识别算法对所述第一图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的图像坐标，包括：

利用基于深度学习的Faster R-CNN目标检测算法对所述第一图像数据进行图像识别处理，确定所述目标物体在所述空间区域内的候选区域；

采集所述候选区域对应的第二图像数据，再次利用基于深度学习的Faster R-CNN目标检测算法对所述第二图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的的图像坐标。

可选地，所述对所述图像坐标进行坐标系转换，得到所述目标物体在世界三维坐标系内的世界坐标，包括：

对所述目标物体的图像坐标进行透视投影变换反推理，得到所述目标物体在相机坐标系内的摄像机坐标；

对所述目标物体的摄像机坐标进行刚体变换反推理，得到所述目标物体在世界三维坐标系内的世界坐标。

可选地，所述采集机器人所处空间区域对应的第一图像数据，包括：

利用mjpg-streamer技术调用摄像头驱动程序，采集所述机器人所处空间区域的多个图像帧；

将所述多个图像帧压缩为多个图片格式的图像数据并存储至预设的图像数据库中，调取所述图像数据库中的任一图像数据，作为第一图像数据。

可选地，所述识别所述语音数据对应的目标动作指令，包括：

利用基于深度全序列卷积神经网络的语音识别技术将所述语音数据转换为对应的文本数据；

在预设的动作指令数据库中查找是否存在与所述文本数据相应的动作指令；其中，所述动作指令数据库中包括多个动作指令，所述动作指令为用于指示机器人执行动作的指令；

若所述动作指令数据库中存在所述动作指令，则将所述动作指令作为目标动作指令；

若所述动作指令数据库中不存在所述动作指令，则输出语音提醒。

可选地，所述根据所述世界坐标抓取所述目标物体，包括：

根据所述目标物体的三维世界坐标生成所述目标物体的第一位置数据，同时获取机器人定位数据；其中，所述机器人定位数据包括所述机器人的第二位置数据、位姿数据、抓取爪位置数据中至少之一；

将所述第一位置数据和所述机器人定位数据输入机器人驱动程序，利用所述机器人驱动程序基于所述第一位置数据和所述机器人定位数据生成智能抓取操作流程；

所述机器人根据所述智能抓取操作流程对所述目标物体进行抓取；其中，所述智能抓取操作流程包括行走操作流程、位姿调整操作流程、机械臂抓取操作流程中至少之一。

可选地，所述利用所述机器人驱动程序基于所述第一位置数据和所述机器人定位数据生成智能抓取操作流程，包括：

利用所述机器人驱动程序根据所述第一位置数据和所述第二位置数据生成所述行走操作流程；和/或，

利用所述机器人驱动程序根据所述位姿数据和所述第一位置数据生成所述位姿调整操作流程；和/或，

利用所述机器人驱动程序根据所述抓取爪位置数据和所述第一位置数据生成机械臂抓取操作流程。

依据本发明第二方面，提出了一种机器人智能抓取的控制系统，包括：

指令识别模块，用于接收来自用户的语音数据，识别所述语音数据对应的目标动作指令；

图像采集模块，用于当所述语音数据对应的目标动作指令为抓取指令时，识别所述抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据；

坐标定位模块，用于利用目标识别算法对所述第一图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的图像坐标；

智能抓取模块，用于对所述图像坐标进行坐标系转换，得到所述目标物体在世界三维坐标系内的世界坐标，以根据所述世界坐标抓取所述目标物体。

依据本发明第三方面，提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一项所述的机器人智能抓取的控制方法的步骤。

依据本发明第四方面，提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面任一项所述的机器人智能抓取的控制方法的步骤。

本发明提供的一种机器人智能抓取的控制方法及系统、介质、设备，通过语音识别技术识别抓取的目标物体，利用目标识别算法对机器人所处空间的图像数据进行识别处理，定位目标物体的世界坐标，根据世界坐标响应抓取指令对目标物体进行抓取。实现了对机器人抓取的智能语音控制和目标物体的快速、准确定位，提高了家庭机器人抓取的智能性和准确度。进一步地，本方案使用Mjpg-streamer技术便于对图像数据进行统一保存和依次处理；利用基于深度学习的Faster R-CNN目标检测算法可以对目标物体分步进行更迅速的轮廓定位和精确定位；坐标系转化技术将目标物体的图像坐标转换为三维世界坐标，使机器人及时在复杂的家庭环境中也能准确、快速的完成目标物体的智能抓取。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一实施例提供的机器人智能抓取的控制方法的流程示意图；

图2示出了本发明一实施例提供的机器人智能抓取的控制系统的结构示意图；

图3示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种机器人智能抓取的控制方法，如图1所示，该方法至少可以包括以下步骤S101～S104：

步骤S101，接收来自用户的语音数据，识别语音数据对应的目标动作指令。

用户在需要家庭机器人帮助时，可以通过说话的方式表达需要帮助的内容，例如“移动至茶几右侧”、“抓取杯子”、“抓取茶几上的杯子”等，此时，机器人将用户说话的内容作为语音数据进行接收，并识别语音数据对应的目标动作指令，目标动作指令可以包括普通行走指令、抓取指令等指令，例如，用户说：“移动至茶几右侧”，对应的目标动作指令为普通行走指令；用户说：“抓取杯子”，对应的目标动作指令为抓取指令。

在实际应用中，用户需求是多样的，家庭机器人可识别的目标动作指令也是多样化的，可以根据实际需要进行预设，本发明对此不做限定。

步骤S102，若语音数据对应的目标动作指令为抓取指令，识别抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据；

当用户需要机器人帮助抓取物体时，根据语音数据对应的抓取指令识别需要被抓取的目标物体，例如，当抓取指令为“抓取杯子”时，识别的目标物体为“杯子”；当抓取指令为“抓取茶几上的杯子”时，识别的目标物体为“茶几上的杯子”。同时，机器人在接收到来自用户的抓取指令时，采集机器人所处空间区域(如办公室内的区域、房屋内的全部或部分区域等)内的多个图像数据，保存至图像数据库中，依次调取任一图像数据作为第一图像数据，并对第一图像数据进行处理，以实现对多个图像数据帧的依次处理，便于后续对目标物体位置进行定位。

步骤S103，利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的图像坐标。

其中，目标识别算法是一种可以利用图像数据对目标物体位置进行定位的检测算法，其定位到的目标物体位置是在图像平面坐标系上的位置。图像平面坐标系是以图像平面为基准的二维坐标系。图像坐标指图像中的每一个像素的数值即是图像点的灰度值，是以像素为单位的图像坐标系坐标。目标物体在图像平面坐标系内的的图像坐标可以以(x，y)来表示。

步骤S104，通过对图像坐标进行坐标系转换，得到目标物体在世界三维坐标系内的世界坐标，以根据世界坐标抓取所述目标物体。

由于在步骤S103中，定位到的目标物体的位置是在图像平面坐标系上的位置，需要进一步将目标物体在图像平面坐标系上的图像坐标转换为在三维世界坐标系上的世界坐标，以便后续对目标物体的抓取。其中，世界坐标是以三维空间为基准的三维坐标，目标物体在三维世界坐标系上的世界坐标可以通过(Xw，Yw，Zw)来表示。利用坐标系转换技术将目标物体的图像坐标转换为世界坐标，也即得到了目标物体在三维空间中的具体位置，从而实现多目标物体的抓取。

本发明提出的一种机器人智能抓取的控制方法，从图像采集、物体识别和图像定位三个方面进行研究，通过接收来自用户的语音数据，识别语音数据对应抓取指令和识别抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据，利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系上的图像坐标并进行坐标系转换，得到目标物体的世界坐标，根据世界坐标响应抓取指令对目标物体进行抓取。实现了对机器人抓取的智能语音控制和目标物体的快速、准确定位，提高了家庭机器人抓取的智能性和准确度。

下面对上述实施例提及的机器人智能抓取的控制方法进行详细说明。

在上述步骤S101中，机器人在接收来自用户的语音数据后，识别语音数据对应的目标动作指令，具体可以包括：

S101-1，利用基于深度全序列卷积神经网络的语音识别技术将语音数据转换为对应的文本数据。

其中，基于深度全序列卷积神经网络(Deep Fully Convolutional NeuralNetwork，DFCNN)的语音识别技术是一种通过使用大量的卷积层直接对整句语音信号进行建模，最终输出文字信号的识别技术。基于DFCNN的语音识别技术可以直接将一句语音转化成一张图像作为输入，即先对每帧语音进行傅里叶变换，再将时间和频率作为图像的两个维度，然后通过非常多的卷积层和池化层的组合，对整句语音进行建模，输出单元直接与最终的识别结果比如音节或者汉字相对应，更好地表达了语音的长时相关性。

利用基于DFCNN的语音识别技术，可以机器人接收的来自用户的语音数据转化为文本数据，以便后续确认此语音数据对应的指令是否可以被机器人执行。

S101-2，在预设的动作指令数据库中查找是否存在与文本数据相应的动作指令；其中，动作指令数据库中包括多个动作指令，动作指令为用于指示机器人执行动作的指令。

其中，预设的动作指令数据库可以预先设置并保存在机器人服务器程序中，动作指令数据库中包含多个可以被机器人执行的动作指令。来自用户的语音数据在被转化为文本数据后，需要在动作指令数据库中查找是否有与文本数据相对应的动作指令。

S101-3，若动作指令数据库中存在动作指令，则将动作指令作为目标动作指令；若动作指令数据库中不存在动作指令，则输出语音提醒。

如动作指令数据库中存在与文本数据相对应的动作指令，则说明来自用户的指令可以被机器人执行；若没有，说明机器人不能完成此指令。例如，普通的家用机器人的动作指令数据库中包括“行走”、“抓取物体”等动作，即家庭机器人可以完成这些简单动作，将可以完成的动作指令作为目标动作指令进行后续执行。然而，由于技术限制，普通的家用机器人存在一些不能完成的任务动作，例如，普通的家庭机器人不能执行厨房机器人可以完成的菜品处理、烹饪等动作，若普通的家庭机器人接收到来自用户的语音指令为“烹饪”，可以通过语音输出“请重新输入”等话术提醒用户重新进行语音输入。

实际应用中，动作指令数据库中的动作指令可以根据实际情况进行预设，本发明对此不做限定。

可选地，上述步骤S102中，采集机器人所处空间区域对应的第一图像数据可以通过利用mjpg-streamer技术调用摄像头驱动程序，采集机器人所处空间区域的多个图像帧；将多个图像帧压缩为多个图片格式的图像数据并存储至预设的图像数据库中，调取图像数据库中的任一图像数据，作为第一图像数据。

mjpg-streamer技术是一种基于IP地址的视频流服务器，包括一个输入插件和多个输出插件。输入插件可以从摄像头读取视频和图像数据，并将这些数据复制到内存中，多个输出插件将这些数据经过处理，可以通过网站服务器插件将视频数据传送到用户浏览器中。其中，输入插件input_uvc.so可以调用USB摄像头驱动程序V4L2，从摄像头读取视频和图像数据；输出插件包括input_control.so，可以实现对摄像头转动的控制接口；压缩插件simplified_jpeg_encoder，可以将图像数据压缩成JPEG图像；输出插件还可以包括发送模块output_httd.so，可以将JPEG图像数据经过socket传输到网络上去；输出插件output_http.so是一个功能齐全的网站服务器，不仅可以从单一文件夹中处理文件，还可以执行一定的命令，从输入插件中处理一幅图像，也可以将输入插件的视频文件根据现有M-JPEG标准以HTTP视频数据服务流形式输出；输出插件output_file.so，可以将输入插件的JPEG图像存储到特定的文件夹下，用来抓取图像。

本发明利用mjpg-streamer技术调用摄像头驱动程序，以采集机器人所处空间区域的多个图像帧，并将多个图像帧压缩为多个JPEG图像数据并存储至预设的图像数据库中。其中，图像数据库可以为包括一次抓取任务执行中采集的多个图像数据的特定文件夹，通过调取图像数据库中的任一JPEG图像数据，作为第一图像数据，实现对多个JPEG图像数据的依次处理，以便后续利用图像数据对目标物体进行定位。

可选地，上述步骤S103中，利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的图像坐标，可以通过利用基于深度学习的Faster R-CNN目标检测算法对第一图像数据进行图像识别处理，确定目标物体所在空间区域内的候选区域；采集候选区域对应的第二图像数据，再次利用基于深度学习的Faster R-CNN目标检测算法对第二图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的的图像坐标。

其中，Faster R-CNN目标检测算法是一种基于深度学习网络框架的目标检测算法，传统的YOLO目标识别算法在速度上优于Fast R-CNN算法，而精度上不如Fast R-CNN算法，而Faster R-CNN算法在Fast R-CNN算法的基础上进行了改进提高了速度。因此，本发明选用Faster R-CNN目标检测算法对目标物体进行定位。Faster R-CNN目标检测算法使用区域生成网络(RPN)代替了选择性搜索(Selective Search)的方法，大大提高了生成目标区域(Proposals)的速度。

本发明中识别目标物体位置的方法共分为两步，第一步，先根据Faster R-CNN目标检测算法对第一图像数据进行图像识别，检测目标物体所在的候选区域。其中，候选区域为机器人所处空间区域的子空间区域。也即，确定目标物体所在的大致区域范围。第二步，对目标物体候选区域进行第二图像数据采集。其中，第二图像数据为目标物体候选区域的图像数据，第二图像数据可以为通过调取摄像机驱动程序进行拍摄获取的，比第一图像数据的摄像范围更加精准的图像数据。采集到第二图像数据之后，可以再次利用Faster R-CNN目标检测算法对第二图像数据进行图像识别，判断是否检测到目标物体的具体位置。如果检测到目标物体的具体位置，则定位目标物体具体位置的图像坐标，继续进行后续的物体抓取；如果没有检测到目标物体的具体位置，则重新采集目标物体候选区域的第二图像数据，直到可以检测到目标物体的具体位置为止。

可选地，上述步骤S104中，通过对图像坐标进行坐标系转换，得到目标物体在世界三维坐标系内的世界坐标，可以通过对目标物体的图像坐标进行透视投影变换反推理，得到目标物体在相机坐标系内的摄像机坐标；再对目标物体的摄像机坐标进行刚体变换反推理，得到目标物体在世界三维坐标系内的世界坐标。

本发明中通过目标检测算法识别的目标物体的位置为图像坐标。其中，图像坐标指图像中的每一个像素的数值即是图像点的灰度值，是以像素为单位的图像坐标系坐标。

摄像机坐标是根据摄像机可安放的任意位置，在环境中选择一个基准坐标来描述摄像机的位置的坐标。世界坐标是用于描述三维空间环境中任何物体的位置的坐标。对目标物体进行抓取，需要三维空间上的世界坐标。因此，需要从采集的图片数据上的一个图像坐标点反推出三维世界坐标系中目标物体的世界坐标。即通过坐标系转换技术，利用成像投影关系将图像坐标转换为摄像机坐标，再转换为世界坐标。

图像坐标系(x，y)和摄像机坐标系(Xc，Yc，Zc)的转换公式可以表示为：

其中，f为xy平面与图像平面的距离，一般称为摄像机的焦距。

摄像机坐标系(Xc，Yc，Zc)和世界坐标系(Xw，Yw，Zw)的转换公式可以表示为：

其中，R为3□3矩阵；t为三维平移向量；O代表坐标(0，0，0)。

可选地，在得到的目标物体的三维世界坐标之后，基于三维世界坐标抓取目标物体，可以通过根据目标物体的三维世界坐标生成目标物体的第一位置数据，同时获取机器人定位数据；将第一位置数据和机器人定位数据输入机器人驱动程序，机器人驱动程序基于第一位置数据和机器人定位数据生成智能抓取操作流程；机器人根据智能抓取操作流程对目标物体进行抓取。

其中，机器人定位数据可以包括机器人整体所在的三维世界坐标中的第二位置数据、机器人的位姿数据、抓取爪位置数据。机器人定位数据的获取可以通过机器人定位系统确定机器人整体在三维世界坐标系内的世界坐标，将其转换为可以被机器人驱动程序读懂的编程语言的第二位置数据。同理，利用机器人定位系统获取机器人抓取爪当前在三维世界坐标系内的世界坐标以及机器人当前的位姿方向，并将机器人抓取爪的世界坐标以及位姿方向转换为机器人驱动程序所能读懂的编程语言的抓取爪位置数据、机器人位姿数据。

与机器人定位数据相对应，智能抓取操作流程也可以包括行走操作流程、位姿调整操作流程、机械臂抓取操作流程。

本发明将目标物体的三维世界坐标转换为位置数据的形式表示，其中，位置数据为机器人驱动程序所能读懂的编程语言。通过机器人驱动程序基于第一位置数据和机器人定位数据生成智能抓取操作流程，需要判断机器人需要执行哪些操作流程。步骤如下S1～S3：

步骤S1：利用机器人驱动程序根据第一位置数据和第二位置数据生成行走操作流程。

首先，可以通过机器人驱动程序基于第一位置数据和第二位置数据判断机器人是否需要执行行走操作；若机器人需要执行行走操作，机器人驱动程序根据第一位置数据和第二位置数据生成行走操作流程。如果目标物体位置和机器人位置距离过近，则不需要进行行走操作，也无需生成行走操作流程。

生成行走操作流程可以先根据自适应调整的快速扩展树算法计算出机器人的行走路径，并在机器人行走过程中，利用传感器获取机器人运行的实时探测数据，判断在机器人的行走过程中是否存在障碍物，如果传感器探测到行走路径中存在障碍物，可以再次利用自适应调整的快速扩展树算法计算出避障路线，机器人根据该避障路线避开障碍物，继续行走流程。

步骤S2：利用机器人驱动程序根据位姿数据和第一位置数据生成位姿调整操作流程。

首先，可以通过机器人驱动程序基于位姿数据和第一位置数据判断机器人是否需要执行位姿调整操作。也就是说，根据机器人当前位姿方向确定是否便于机械臂执行抓取动作。如果机械臂可以以当前位姿执行抓取动作，则无需生成位姿调整操作流程。如果当前位姿方向不便于机械臂执行抓取动作，则需要转换机器人位姿，根据当前位姿方向数据和目标物体的第一位置数据生成位姿调整操作流程。

生成位姿调整流程可以先根据目标物体的第一位置数据确定便于机械臂执行抓取动作的目标位姿，生成从当前位姿调整至目标位姿的位姿调整流程，在位姿调整过程中，可以利用机器人携带的位姿传感器对目标位姿进行校准，进一步判断机器人是否调整至目标位姿。

步骤S3：利用机器人驱动程序根据抓取爪位置数据和第一位置数据生成机械臂抓取操作流程。

抓取动作需要依靠机器人驱动程序控制机械臂进行执行，机器人驱动程序基于抓取爪和目标物体的位置和高度，结合机器人机械臂上的倾角传感器反馈的倾斜信息，计算机械臂的各个关节需要运动的关节角度以及机械臂各部分的伸缩长度，控制机械臂的各个关节按照关节角度进行旋转、机械臂各部分按照伸缩长度进行运动，进而驱动机器人机械臂完成抓取动作。

本发明实施例提供的机器人智能抓取的控制方法，通过利用基于深度全序列卷积神经网络的语音识别技术识别来自用户的语音数据以及语音数据对应的抓取指令所要抓取的目标物体，使用Mjpg-streamer技术对图像数据进行采集，利用基于深度学习的FasterR-CNN目标检测算法对目标物体进行轮廓定位和精确定位，并根据坐标系转换技术定位目标物体的三维世界位置，从而实现对目标物体的精确抓取。使用Mjpg-streamer图像采集技术采集图像，并通过Faster R-CNN目标检测算法对图像进行处理，实现了对目标物体的更快速、精确的定位，坐标系转化技术将目标物体的图像坐标转换为三维世界坐标，能够自动生成机器人抓取动作流程，使机器人及时在复杂的家庭环境中也能准确、快速的完成目标物体的智能抓取。

进一步地，作为图1的具体实现，本发明实施例提供了一种机器人智能抓取的控制系统，如图2所示，该装置可以包括：指令识别模块210、图像采集模块220、坐标定位模块230和智能抓取模块240。

指令识别模块210，可以用于接收来自用户的语音数据，识别语音数据对应的目标动作指令。

图像采集模块220，可以用于当语音数据对应的目标动作指令为抓取指令时，识别抓取指令对应的目标物体，同时采集机器人所处空间区域对应的第一图像数据。

坐标定位模块230，可以用于利用目标识别算法对第一图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的图像坐标。

智能抓取模块240，可以用于通过对图像坐标进行坐标系转换，得到目标物体在世界三维坐标系内的世界坐标，以根据世界坐标抓取目标物体。

可选地，指令识别模块210，还可以用于利用基于深度全序列卷积神经网络的语音识别技术将语音数据转换为对应的文本数据；

在预设的动作指令数据库中查找是否存在与文本数据相应的动作指令；其中，动作指令数据库中包括多个动作指令，动作指令为用于指示机器人执行动作的指令；

当动作指令数据库中存在动作指令时，将动作指令作为目标动作指令；

当动作指令数据库中不存在动作指令时，输出语音提醒。

可选地，图像采集模块220，还可以用于利用mjpg-streamer技术调用摄像头驱动程序，采集机器人所处空间区域的多个图像帧；

将多个图像帧压缩为多个图片格式的图像数据并存储至预设的图像数据库中，调取图像数据库中的任一图像数据，作为第一图像数据。

可选地，坐标定位模块230，还可以用于利用基于深度学习的Faster R-CNN目标检测算法对第一图像数据进行图像识别处理，确定目标物体在空间区域内的候选区域；

采集候选区域对应的第二图像数据，再次利用基于深度学习的Faster R-CNN目标检测算法对第二图像数据进行图像识别处理，定位目标物体在图像平面坐标系内的的图像坐标。

可选地，智能抓取模块240，还可以用于通过对目标物体的图像坐标进行透视投影变换反推理，得到目标物体在相机坐标系内的摄像机坐标；

对目标物体的摄像机坐标进行刚体变换反推理，得到目标物体在世界三维坐标系内的世界坐标；

根据目标物体的三维世界坐标生成目标物体的第一位置数据，同时获取机器人定位数据；其中，机器人定位数据包括机器人的第二位置数据、位姿数据、抓取爪位置数据中至少之一；

将第一位置数据和机器人定位数据输入机器人驱动程序，利用机器人驱动程序基于第一位置数据和机器人定位数据生成智能抓取操作流程；

机器人根据智能抓取操作流程对目标物体进行抓取；其中，智能抓取操作流程包括行走操作流程、位姿调整操作流程、机械臂抓取操作流程中至少之一；

利用机器人驱动程序根据第一位置数据和第二位置数据生成行走操作流程；和/或，

利用机器人驱动程序根据位姿数据和第一位置数据生成位姿调整操作流程；和/或，

利用机器人驱动程序根据抓取爪位置数据和第一位置数据生成机械臂抓取操作流程。

需要说明的是，本发明实施例提供的一种机器人智能抓取的控制系统所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述的机器人智能抓取的控制方法的步骤。

基于上述如图1所示方法和如图2所示系统的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图3所示，该计算机设备可以包括通信总线、处理器、存储器和通信接口，还可以包括、输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例所述的机器人智能抓取的控制方法的步骤。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

Claims

1.一种机器人智能抓取的控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用目标识别算法对所述第一图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的图像坐标，包括：

采集所述候选区域对应的第二图像数据，再次利用基于深度学习的Faster R-CNN目标检测算法对所述第二图像数据进行图像识别处理，定位所述目标物体在图像平面坐标系内的图像坐标。

3.根据权利要求1所述的方法，其特征在于，所述对所述图像坐标进行坐标系转换，得到所述目标物体在世界三维坐标系内的世界坐标，包括：

4.根据权利要求1所述的方法，其特征在于，所述采集机器人所处空间区域对应的第一图像数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述识别所述语音数据对应的目标动作指令，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述世界坐标抓取所述目标物体，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述机器人驱动程序基于所述第一位置数据和所述机器人定位数据生成智能抓取操作流程，包括：

8.一种机器人智能抓取的控制系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的机器人智能抓取的控制方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的机器人智能抓取的控制方法的步骤。