CN114495109A

CN114495109A - 基于目标与场景文字匹配的抓取机器人及抓取方法和系统

Info

Publication number: CN114495109A
Application number: CN202210081494.5A
Authority: CN
Inventors: 许庆阳; 刘志超; 丁凯旋; 宋勇; 李贻斌; 张承进; 袁宪锋; 庞豹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13

Abstract

本发明属于智能机器人领域，提供了基于目标与场景文字匹配的抓取机器人及抓取方法和系统，根据摄像机获取的待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标；利用目标跟踪算法，对特定抓取目标检测框定位，得到最终的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

Description

基于目标与场景文字匹配的抓取机器人及抓取方法和系统

技术领域

本发明属于智能机器人领域，尤其涉及基于目标与场景文字匹配的抓取机器人及其抓取方法和系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现有技术中，机器人抓取检测算法大多直接对单个物体进行抓取检测，或者采用复杂神经网络进行分割、分类、标记等方法对多个物体进行区分。然而，当抓取场景中存在大量物体对象，且物体外观颜色等信息存在一致性，或属于同类别物体时，以上检测算法不能对此类物体进行细致化辨别，直接影响机器人抓取判断，导致抓取精度不足。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于目标与场景文字匹配的抓取机器人及抓取方法和系统，其将目标检测模型和文字检测识别模型进行了融合，实现文字识别结果与物体目标检测框进行匹配，完成待抓取物体的精确定位，通过KCF追踪算法实现对特定目标的实时跟踪，从而实现机器人的精确抓取控制。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于目标与场景文字匹配的抓取机器人，包括：深度摄像机、底盘、机械臂以及控制器；

所述控制器包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块；

所述待抓取目标初步检测模块被配置为：根据摄像机获取的待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；

所述文本检测识别模块被配置为：对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标；

所述目标抓取模块被配置为：利用目标跟踪算法，对特定抓取目标检测框定位，得到最终的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

本发明的第二个方面提供基于目标与场景文字匹配的抓取方法，包括如下步骤：

获取待抓取目标图像；

根据待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；

对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标；

利用目标跟踪算法，对特定抓取目标检测框定位，得到最终的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

本发明的第三个方面提供基于目标与场景文字匹配的抓取系统，包括：

所述机器人包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块；

所述待抓取目标初步检测模块用于获取待抓取目标图像；根据待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；

所述文本检测识别模块用于对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标；

所述目标抓取模块用于利用目标跟踪算法，对特定抓取目标检测框定位，得到最终的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

与现有技术相比，本发明的有益效果是：

本发明利用轻量化目标检测模型NanoDet对待抓取对象进行目标检测，然后对检测框区域内图像做增强处理，克服目标区域过小等不利因素。利用文字检测识别模型PP-OCR对增强后的检测框区域进行文字检测识别，提取文字信息。将两个模型提供的目标信息进行融合，实现文字识别结果与物体目标检测框进行匹配，完成待抓取物体的精确定位。通过KCF追踪算法实现对特定目标的实时跟踪，从而实现机器人的精确抓取控制。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一目标抓取监测定位方法整体流程示意图；

图2是本发明实施例一NanoDet结构图；

图3是本发明实施例一检测框区域图像增强过程示意图；

图4是本发明实施例一PP-OCR检测流程示意图；

图5是本发明实施例一CRNN结构图；

图6(a)-图6(b)是本发明实施例一IOU计算过程；

图7(a)-图7(d)是本发明实施例一目标追踪过程；

图8(a)-图8(c)是本发明实施例一深度相机标定与配准过程；

图9(a)-图9(c)是本发明实施例一机械臂抓取动作；

图10(a)-图10(e)是本发明实施例一文字检测识别效果图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本发明提出一种利用抓取对象所具有的文字信息，融合目标检测与文字检测识别算法所提供的相关信息，构建一种对特定抓取目标的精确检测系统，实现对目标物体的精准识别与定位；同时采用轻量级模型，保证系统实时效果，便于抓取任务在机器人控制器部署，解决了当前抓取目标检测算法存在的同类物体无法细致区分问题。

如图1所示，本实施例提供基于目标与场景文字匹配的抓取机器人，包括深度摄像机、底盘、机械臂以及控制器；

所述控制器包括待抓取目标初步检测模块和文本检测识别模块；

所述深度摄像机用于捕获待抓取目标的图像，所述待抓取目标初步检测模块被配置为：根据待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果类别和边界框。

所述文本检测识别模块被配置为：对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标，利用目标跟踪算法，对特定抓取目标检测框定位，得到实时的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

本实施例中，所述目标检测模型采用NanoDet，所述NanoDet是种高速、轻量级的anchor-free目标检测模型，能够提供接近于YOLO系列的性能，而且同样方便训练和移植。

目标检测模型网络结构如图2所示。NanoDet是一种FCOS(Fully ConvolutionalOne-Stage Object Detection)风格的检测网络，模型可以分为三个部分：主干网络，特征融合层和检测头。为了要保证模型参数体积尽可能的小，骨干网络采用ShuffleNetV2.0，并且去掉了ShuffleNetV2.0最后一层卷积，抽取8、16、32倍下采样的特征输入PAN，进行多尺度特征融合。

特征融合层部分采用PAN，PAN增加了自下而上的方式，对低阶特征映射进行下采样，然后将下采样结果添加到高阶特征中。NanoDet的检测头部分采用两个96通道卷积层，将边框回归和分类使用同一组卷积计算。

目标检测模块可以实时得到物体的检测框，并对检测框内的图像目标进行分类，从而定位每一个物体在图像中的二维位置，而对于分类结果相同的物体，检测系统将通过提取物体上的文字信息进一步加以区分。

由于摄像机对整个场景图像进行拍摄，文字所在的区域面积较小，且经常受到光照等其他因素的影响，若将整个图像输入到文字检测网络，无法充分提取文字区域的特征，导致文本区域检测效果不佳。

为了提高后续文本检测识别的精度，在文字检测之前进行文字区域图像增强操作。

如图3所示，所述控制器还包括文字区域图像增强模块，被配置为：图像裁剪、图像放大与填充、灰度处理以及图像锐化。

(1)图像裁剪：根据目标检测生成的目标边界框，将每个目标对象从整张图像中裁剪出来；

(2)图像放大与填充：由于每个裁剪出来的目标区域过小，本文使用双三次插值方法将裁剪区域放大为原来的两倍，并对放大后的图像进行边界填充，将每个检测框区域填充为长宽比相同的正方形图像；

(3)灰度处理：将经过放大和填充之后的图片进行灰度化处理，去除颜色光照等变量的影响，之后对灰度图采用直方图均衡化变换，增大文字区域反差；

(4)图像锐化：最后采用图像锐化的方法，增强图像中文字的边缘部分，使文字更加清晰。

经过以上处理，得到每个目标检测框区域形状相同且增强后的图片，将其作为文本检测识别模型的输入。

如图4所示，所述文本检测识别模型包括文本检测模块、检测框矫正模块以及文本识别模块。

所述文本检测模块被配置为：

定位图像中的文本区域，采用DB-Net作为文本检测器，DB-Net将分割网络中的二值化处理将标准二值化处理B_i,j更改为可微分二值化处理函数

两式中，B_i,j，

为二值图，P_i,j为概率图，t，T_i,j为设置阈值。

使用可微分二值化解决了标准二值化在训练中梯度不可微问题。为了进一步提高效率，PP-OCR中采用了六种策略对DB-Net进行瘦身。

所述检测框矫正模块被配置为：

在对检测框的文本进行识别之前，需要对检测框进行矫正，PP-OCR中设计了一个文本方向分类器，首先将文本检测框通过几何变换转化为水平矩形框，然后判断转换后的文本方向，若文本框是反向，则对其进一步翻转。同时采用了四种策略增强模型能力和缩小模型体积。

所述文本识别模块被配置为：采用CRNN作为文本识别器，CRNN网络结构如图5所示，CRNN融合了特征提取与序列建模，采用CTC(Connectionist TemporalClassification，CTC)损失进行序列对齐。为了增强文本识别的能力和缩小模型体积，文中采用了九种策略对其进行处理。

本实施例中，所述文本检测识别模型采用超轻量PP-OCR文字检测识别网络；使其更加容易部署到移动端。通过PP-OCR文字检测与识别，获得目标检测中所有目标对象上包含的文字信息，即使被目标检测模块分类为同一类的物体对象，也可以根据识别的文字信息进一步区分。

所述初始三维坐标的获取配置为：通过判断识别结果文本中包含的给定文字信息是否属于检测框内对应的实际物体对象，若是，则完成文字与目标物的匹配，根据匹配到的目标边界框坐标与相机深度信息结合，求出抓取目标的初始三维坐标。

上述待抓取目标初步检测模块和文本检测识别模块是以图像帧为单位进行的，设当前一帧图像F_i经过上述过程提取出以目标检测框为单位的多个区域分别为D₁,D₂,…,D_n，检测框内对应实际物体对象为d₁,d₂,…,d_n，任务中给定了特定待匹配文字信息t，将n个检测框区域经过文字检测识别，识别结果为[T₁,T₂,…,T_n]，若在某个识别结果文本T_t中，包含给定文字信息t，则可进行如下判定：

通过上式，判定文字信息t属于物体d_t，即完成文字与目标物的匹配，将此刻的目标物体检测位置与深度信息结合，即可求出抓取目标的初始三维坐标。

根据移动服务机器人的物理特性，机器人将初始三维坐标作为第一次坐标输入，进行底盘移动，准备抓取动作。机器人底盘的移动，会导致摄像机捕捉的画面实时发生变化，那么前一时刻根据文字识别结果定位到的检测框就已经发生了相对偏移，而机器人需要实时接收物体新的坐标位置，如果每一帧都对新的检测框区域进行文字检测识别，网络计算量巨大，会造成整个系统实时效果变差，直接影响机器人抓取效率。因此采用跟踪算法，对目标进行实时跟踪。

为解决机器人移动造成目标位置变换的问题，引入基于核相关滤波器的目标跟踪算法KCF(Kernel Correlation Filter，KCF)跟踪算法，被配置为：

通过对采集图像块构建循环矩阵来表征对目标及其背景进行密集采样的样本，以此构造大量训练集。在第一帧图像经过两阶段检测后，定位到待抓取目标物体检测框，此时，利用KCF算法对定位到的目标检测框区域进行实时追踪，跟踪器的训练就是寻找使目标函数最小的滤波器ω；

其中，求解ω的步骤如下：

(1)构建了岭回归方程：

X_t为提取的单个训练样本，y_t为对应的可信度样本标签，λ为正则化参数，防止回归的过拟合。

单个训练样本的循环位移构成样本集X，为如下的循环矩阵：

(2)在岭回归方程中，f(X)＝ω^TX，对方程关于ω求导，可得：

ω＝(X^TX+λI)^-1X^TY

其中，X^T是训练样本X的转置，I为单位矩阵，Y是列向量，由标签y_t构成。

循环矩阵X具有可在傅立叶空间对角化的性质，将如下傅立叶对角化等式代入岭回归：

式中，F为离散傅立叶矩阵，x代表X的第一行矩阵傅立叶变换后的值，

F^H为F的共轭转置矩阵。

经过一系列变换，可得：

根据傅式空间变换，则有：

式中，F^-1为傅立叶反变换。

利用目标跟踪算法，对特定抓取目标检测框定位包括：

在机器人执行抓取任务移动的过程中，考虑到KCF追踪算法在长时间误差累积时造成漂移，本实施例通过计算每一帧图像中的追踪框与当前所有目标检测框的交并比(IOU)，寻找使计算结果最大的目标检测框，即可在每一帧图像中都能定位到待抓取目标的边界框。

IOU计算示意图如图6(a)-图6(b)所示，所述IOU计算公式为：

假设此时目标检测生成了n个分类标签结果相同的检测框，分别为A₁,A₂,……,A_n。

通过文字检测识别，定位到A_t检测框中的物体包含特定文字信息，即A_t检测框中目标物为待抓取目标，此时，使用KCF跟踪算法对A_t中的目标进行采样，生成跟踪框T，在机器人移动过程中，对目标进行实时跟踪，整个过程中计算T与A_i(i＝1,2,…,n)的IOU，每一时刻使得IOU值最大的即为A_t，计算公式如下：

如图7(a)-图7(d)表示从T0时刻到T3时刻，目标检测框追踪的完整过程。

通过寻找与追踪框IOU最大的检测框，即可实现对抓取目标检测框的实时定位，从而可以更新抓取目标的实时位置，机器人根据抓取位置完成抓取任务。机器人抓取目标的定位策略只需进行一次文字检测识别，便能实现对检测框的实时定位，降低了整体计算量，保证了实时性。

如图8(a)-图8(c)所示，为深度相机标定与配准过程，被配置为：

使用8×11的棋盘格，对深度相机使用张正友标定法进行RGB和深度图标定，求得RGB摄像头和深度摄像头的内参矩阵分别为H_rgb与H_ir，外参矩阵由一个旋转矩阵和平移向量组成，分别为R_rgb、T_rgb与R_ir、T_ir。

设P_rgb与P_ir分别为RGB摄像头与深度摄像头坐标下某点的空间坐标，由于深度摄像头的坐标与RGB摄像头的坐标不同，二者之间的左边关系可以用一个旋转矩阵和平移向量联系起来：

P_rgb＝RP_ir+T

通过计算推导，旋转矩阵R和平移向量T可以表示为：

由计算得到的旋转矩阵和平移向量进行摄像机坐标转换，即可使RGB-D图像配齐，根据实际配准情况，手动微调两个摄像头之间的平移向量，得到较好的配齐效果。

如图9(a)-图9(c)所示，为机械臂抓取动作，所述对特定抓取目标检测框定位后，被配置为：

使用定位到的抓取检测框中心区域的二维坐标和配准后的深度图对应区域的深度信息作为抓取对象的原始三维坐标信息，计算相机坐标系与机械臂坐标系的变换矩阵，将相机获得的三维坐标映射到机械臂坐标系，即为机器人的抓取坐标。机器人根据实时接收到的抓取坐标移动到可机械臂可达范围，机械臂执行抓取动作，机器人完成抓取任务。

本发明融合了目标检测与文字检测识别两个检测算法，在目标检测算法提供位置信息的基础上融入文字信息，实现了对特定目标物体的精准检测。本发明采用轻量化深度学习模型构建检测系统，容易在机器人控制器进行部署，在机器人端达到实时的效果，针对医院中的患者药瓶抓取场景，通过设计实验证明，本发明提出的方法具有较高的可行性，机器人通过识别药瓶上具体的文字信息，完成对特定目标的实时检测与定位，实现在医院场景中机器人对药瓶的智能抓取任务。

实施例二

本实施例提供基于目标与场景文字匹配的抓取方法，包括如下步骤：

步骤1：获取待抓取目标图像；

步骤2：根据待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；

步骤3：对于分类结果相同的目标，采用文本检测识别模型提取目标检测框区域的文字进行检测与识别，当文字识别结果与特定目标匹配成功后得到初始三维坐标；

步骤4：利用目标跟踪算法，对特定抓取目标检测框定位，得到最终的抓取坐标，根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。

实施例三

本实施例提供基于目标与场景文字匹配的抓取系统，包括：机器人和终端，所述机器人用于接收终端下发的抓取指令；

以针对医疗环境下的服务机器人抓取场景为例，首先，对机器人下达抓取药瓶的命令，即向机器人发送特定患者名字信息。目标检测模块将机器人视野内的所有药瓶进行检测框定，得到每个药瓶的边界框位置，之后图像增强操作将检测框区域内的目标图像提取出来并增强处理，将增强后的图片送入文字检测识别模块进行文字检测和识别，最后根据文字识别结果，去匹配给定的患者名字信息。文字检测效果如图10(a)-图10(e)所示。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于目标与场景文字匹配的抓取机器人，其特征在于，包括：深度摄像机、底盘、机械臂以及控制器；所述控制器包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块；

所述待抓取目标初步检测模块被配置为：根据深度摄像机获取的待抓取目标图像和目标检测模型，利用CNN进行特征提取，回归得到待抓取目标的分类结果和边界框；

2.如权利要求1所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述目标跟踪算法被配置为：引入基于核相关滤波器的目标跟踪算法KCF跟踪算法，通过对采集图像块构建循环矩阵来表征对目标及其背景进行密集采样的样本，构造大量训练集，进行训练，寻找目标函数最小的滤波器。

3.如权利要求1所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述目标检测模型被配置为：采用NanoDet网络，包括骨干网络、特征融合层和检测头，所述骨干网络采用ShuffleNetV2.0，特征融合层采用PAN。

4.如权利要求1所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述文本检测识别模型采用PP-OCR文字检测识别网络。

5.如权利要求1所述的基于目标与场景文字匹配的目标抓取机器人，其特征在于，所述对特定抓取目标检测框定位后，被配置为：对定位到的抓取检测框中心区域的二维坐标和配准后的深度图对应区域的深度信息作为抓取对象的原始三维坐标信息，计算相机坐标系与机械臂坐标系的变换矩阵，将相机获得的三维坐标映射到机械臂坐标系，即为最终的抓取坐标。

6.如权利要求5所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述深度图通过深度相机标定和配准得到的，所述深度相机标定与配准过程，被配置为：

对深度摄像机使用张正友标定法进行RGB和深度图标定得到RGB摄像头和深度摄像头的内参矩阵和外参矩阵，所述外参矩阵由旋转矩阵和平移向量组成；

根据得到的旋转矩阵和平移向量进行摄像机坐标转换，得到深度图。

7.如权利要求1所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述控制器还包括文字区域图像增强模块，所述文字区域图像增强模块被配置为：对待抓取目标图像进行图像裁剪、图像放大与填充、灰度处理以及图像锐化。

8.如权利要求1所述的基于目标与场景文字匹配的抓取机器人，其特征在于，所述文字识别结果与特定目标匹配包括：根据给定的特定待匹配文字信息，将以目标检测框为单位的多个区域和检测框内对应实际物体进行对比，判断识别结果文本中包含的给定文字信息是否属于检测框内对应的实际物体对象，若是，则完成文字与目标物的匹配。

9.基于目标与场景文字匹配的抓取方法，其特征在于，所述方法应用于机器人，包括如下步骤：

获取待抓取目标图像；

10.基于目标与场景文字匹配的抓取系统，其特征在于，所述系统应用于机器人，包括：待抓取目标初步检测模块、文本检测识别模块和目标抓取模块；