CN114495109A - 基于目标与场景文字匹配的抓取机器人及抓取方法和系统 - Google Patents
基于目标与场景文字匹配的抓取机器人及抓取方法和系统 Download PDFInfo
- Publication number
- CN114495109A CN114495109A CN202210081494.5A CN202210081494A CN114495109A CN 114495109 A CN114495109 A CN 114495109A CN 202210081494 A CN202210081494 A CN 202210081494A CN 114495109 A CN114495109 A CN 114495109A
- Authority
- CN
- China
- Prior art keywords
- target
- detection
- grabbing
- text
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 168
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000003707 image sharpening Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 3
- 230000003321 amplification Effects 0.000 claims 1
- 238000003199 nucleic acid amplification method Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 239000003814 drug Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 102100032202 Cornulin Human genes 0.000 description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
Abstract
本发明属于智能机器人领域,提供了基于目标与场景文字匹配的抓取机器人及抓取方法和系统,根据摄像机获取的待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
Description
技术领域
本发明属于智能机器人领域,尤其涉及基于目标与场景文字匹配的抓取机器人及其抓取方法和系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
现有技术中,机器人抓取检测算法大多直接对单个物体进行抓取检测,或者采用复杂神经网络进行分割、分类、标记等方法对多个物体进行区分。然而,当抓取场景中存在大量物体对象,且物体外观颜色等信息存在一致性,或属于同类别物体时,以上检测算法不能对此类物体进行细致化辨别,直接影响机器人抓取判断,导致抓取精度不足。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于目标与场景文字匹配的抓取机器人及抓取方法和系统,其将目标检测模型和文字检测识别模型进行了融合,实现文字识别结果与物体目标检测框进行匹配,完成待抓取物体的精确定位,通过KCF追踪算法实现对特定目标的实时跟踪,从而实现机器人的精确抓取控制。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于目标与场景文字匹配的抓取机器人,包括:深度摄像机、底盘、机械臂以及控制器;
所述控制器包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块;
所述待抓取目标初步检测模块被配置为:根据摄像机获取的待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
所述文本检测识别模块被配置为:对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
所述目标抓取模块被配置为:利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
本发明的第二个方面提供基于目标与场景文字匹配的抓取方法,包括如下步骤:
获取待抓取目标图像;
根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
本发明的第三个方面提供基于目标与场景文字匹配的抓取系统,包括:
所述机器人包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块;
所述待抓取目标初步检测模块用于获取待抓取目标图像;根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
所述文本检测识别模块用于对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
所述目标抓取模块用于利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
与现有技术相比,本发明的有益效果是:
本发明利用轻量化目标检测模型NanoDet对待抓取对象进行目标检测,然后对检测框区域内图像做增强处理,克服目标区域过小等不利因素。利用文字检测识别模型PP-OCR对增强后的检测框区域进行文字检测识别,提取文字信息。将两个模型提供的目标信息进行融合,实现文字识别结果与物体目标检测框进行匹配,完成待抓取物体的精确定位。通过KCF追踪算法实现对特定目标的实时跟踪,从而实现机器人的精确抓取控制。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一目标抓取监测定位方法整体流程示意图;
图2是本发明实施例一NanoDet结构图;
图3是本发明实施例一检测框区域图像增强过程示意图;
图4是本发明实施例一PP-OCR检测流程示意图;
图5是本发明实施例一CRNN结构图;
图6(a)-图6(b)是本发明实施例一IOU计算过程;
图7(a)-图7(d)是本发明实施例一目标追踪过程;
图8(a)-图8(c)是本发明实施例一深度相机标定与配准过程;
图9(a)-图9(c)是本发明实施例一机械臂抓取动作;
图10(a)-图10(e)是本发明实施例一文字检测识别效果图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本发明提出一种利用抓取对象所具有的文字信息,融合目标检测与文字检测识别算法所提供的相关信息,构建一种对特定抓取目标的精确检测系统,实现对目标物体的精准识别与定位;同时采用轻量级模型,保证系统实时效果,便于抓取任务在机器人控制器部署,解决了当前抓取目标检测算法存在的同类物体无法细致区分问题。
如图1所示,本实施例提供基于目标与场景文字匹配的抓取机器人,包括深度摄像机、底盘、机械臂以及控制器;
所述控制器包括待抓取目标初步检测模块和文本检测识别模块;
所述深度摄像机用于捕获待抓取目标的图像,所述待抓取目标初步检测模块被配置为:根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果类别和边界框。
所述文本检测识别模块被配置为:对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标,利用目标跟踪算法,对特定抓取目标检测框定位,得到实时的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
本实施例中,所述目标检测模型采用NanoDet,所述NanoDet是种高速、轻量级的anchor-free目标检测模型,能够提供接近于YOLO系列的性能,而且同样方便训练和移植。
目标检测模型网络结构如图2所示。NanoDet是一种FCOS(Fully ConvolutionalOne-Stage Object Detection)风格的检测网络,模型可以分为三个部分:主干网络,特征融合层和检测头。为了要保证模型参数体积尽可能的小,骨干网络采用ShuffleNetV2.0,并且去掉了ShuffleNetV2.0最后一层卷积,抽取8、16、32倍下采样的特征输入PAN,进行多尺度特征融合。
特征融合层部分采用PAN,PAN增加了自下而上的方式,对低阶特征映射进行下采样,然后将下采样结果添加到高阶特征中。NanoDet的检测头部分采用两个96通道卷积层,将边框回归和分类使用同一组卷积计算。
目标检测模块可以实时得到物体的检测框,并对检测框内的图像目标进行分类,从而定位每一个物体在图像中的二维位置,而对于分类结果相同的物体,检测系统将通过提取物体上的文字信息进一步加以区分。
由于摄像机对整个场景图像进行拍摄,文字所在的区域面积较小,且经常受到光照等其他因素的影响,若将整个图像输入到文字检测网络,无法充分提取文字区域的特征,导致文本区域检测效果不佳。
为了提高后续文本检测识别的精度,在文字检测之前进行文字区域图像增强操作。
如图3所示,所述控制器还包括文字区域图像增强模块,被配置为:图像裁剪、图像放大与填充、灰度处理以及图像锐化。
(1)图像裁剪:根据目标检测生成的目标边界框,将每个目标对象从整张图像中裁剪出来;
(2)图像放大与填充:由于每个裁剪出来的目标区域过小,本文使用双三次插值方法将裁剪区域放大为原来的两倍,并对放大后的图像进行边界填充,将每个检测框区域填充为长宽比相同的正方形图像;
(3)灰度处理:将经过放大和填充之后的图片进行灰度化处理,去除颜色光照等变量的影响,之后对灰度图采用直方图均衡化变换,增大文字区域反差;
(4)图像锐化:最后采用图像锐化的方法,增强图像中文字的边缘部分,使文字更加清晰。
经过以上处理,得到每个目标检测框区域形状相同且增强后的图片,将其作为文本检测识别模型的输入。
如图4所示,所述文本检测识别模型包括文本检测模块、检测框矫正模块以及文本识别模块。
所述文本检测模块被配置为:
使用可微分二值化解决了标准二值化在训练中梯度不可微问题。为了进一步提高效率,PP-OCR中采用了六种策略对DB-Net进行瘦身。
所述检测框矫正模块被配置为:
在对检测框的文本进行识别之前,需要对检测框进行矫正,PP-OCR中设计了一个文本方向分类器,首先将文本检测框通过几何变换转化为水平矩形框,然后判断转换后的文本方向,若文本框是反向,则对其进一步翻转。同时采用了四种策略增强模型能力和缩小模型体积。
所述文本识别模块被配置为:采用CRNN作为文本识别器,CRNN网络结构如图5所示,CRNN融合了特征提取与序列建模,采用CTC(Connectionist TemporalClassification,CTC)损失进行序列对齐。为了增强文本识别的能力和缩小模型体积,文中采用了九种策略对其进行处理。
本实施例中,所述文本检测识别模型采用超轻量PP-OCR文字检测识别网络;使其更加容易部署到移动端。通过PP-OCR文字检测与识别,获得目标检测中所有目标对象上包含的文字信息,即使被目标检测模块分类为同一类的物体对象,也可以根据识别的文字信息进一步区分。
所述初始三维坐标的获取配置为:通过判断识别结果文本中包含的给定文字信息是否属于检测框内对应的实际物体对象,若是,则完成文字与目标物的匹配,根据匹配到的目标边界框坐标与相机深度信息结合,求出抓取目标的初始三维坐标。
上述待抓取目标初步检测模块和文本检测识别模块是以图像帧为单位进行的,设当前一帧图像Fi经过上述过程提取出以目标检测框为单位的多个区域分别为D1,D2,…,Dn,检测框内对应实际物体对象为d1,d2,…,dn,任务中给定了特定待匹配文字信息t,将n个检测框区域经过文字检测识别,识别结果为[T1,T2,…,Tn],若在某个识别结果文本Tt中,包含给定文字信息t,则可进行如下判定:
通过上式,判定文字信息t属于物体dt,即完成文字与目标物的匹配,将此刻的目标物体检测位置与深度信息结合,即可求出抓取目标的初始三维坐标。
根据移动服务机器人的物理特性,机器人将初始三维坐标作为第一次坐标输入,进行底盘移动,准备抓取动作。机器人底盘的移动,会导致摄像机捕捉的画面实时发生变化,那么前一时刻根据文字识别结果定位到的检测框就已经发生了相对偏移,而机器人需要实时接收物体新的坐标位置,如果每一帧都对新的检测框区域进行文字检测识别,网络计算量巨大,会造成整个系统实时效果变差,直接影响机器人抓取效率。因此采用跟踪算法,对目标进行实时跟踪。
为解决机器人移动造成目标位置变换的问题,引入基于核相关滤波器的目标跟踪算法KCF(Kernel Correlation Filter,KCF)跟踪算法,被配置为:
通过对采集图像块构建循环矩阵来表征对目标及其背景进行密集采样的样本,以此构造大量训练集。在第一帧图像经过两阶段检测后,定位到待抓取目标物体检测框,此时,利用KCF算法对定位到的目标检测框区域进行实时追踪,跟踪器的训练就是寻找使目标函数最小的滤波器ω;
其中,求解ω的步骤如下:
(1)构建了岭回归方程:
Xt为提取的单个训练样本,yt为对应的可信度样本标签,λ为正则化参数,防止回归的过拟合。
单个训练样本的循环位移构成样本集X,为如下的循环矩阵:
(2)在岭回归方程中,f(X)=ωTX,对方程关于ω求导,可得:
ω=(XTX+λI)-1XTY
其中,XT是训练样本X的转置,I为单位矩阵,Y是列向量,由标签yt构成。
循环矩阵X具有可在傅立叶空间对角化的性质,将如下傅立叶对角化等式代入岭回归:
经过一系列变换,可得:
根据傅式空间变换,则有:
式中,F-1为傅立叶反变换。
利用目标跟踪算法,对特定抓取目标检测框定位包括:
在机器人执行抓取任务移动的过程中,考虑到KCF追踪算法在长时间误差累积时造成漂移,本实施例通过计算每一帧图像中的追踪框与当前所有目标检测框的交并比(IOU),寻找使计算结果最大的目标检测框,即可在每一帧图像中都能定位到待抓取目标的边界框。
IOU计算示意图如图6(a)-图6(b)所示,所述IOU计算公式为:
假设此时目标检测生成了n个分类标签结果相同的检测框,分别为A1,A2,……,An。
通过文字检测识别,定位到At检测框中的物体包含特定文字信息,即At检测框中目标物为待抓取目标,此时,使用KCF跟踪算法对At中的目标进行采样,生成跟踪框T,在机器人移动过程中,对目标进行实时跟踪,整个过程中计算T与Ai(i=1,2,…,n)的IOU,每一时刻使得IOU值最大的即为At,计算公式如下:
如图7(a)-图7(d)表示从T0时刻到T3时刻,目标检测框追踪的完整过程。
通过寻找与追踪框IOU最大的检测框,即可实现对抓取目标检测框的实时定位,从而可以更新抓取目标的实时位置,机器人根据抓取位置完成抓取任务。机器人抓取目标的定位策略只需进行一次文字检测识别,便能实现对检测框的实时定位,降低了整体计算量,保证了实时性。
如图8(a)-图8(c)所示,为深度相机标定与配准过程,被配置为:
使用8×11的棋盘格,对深度相机使用张正友标定法进行RGB和深度图标定,求得RGB摄像头和深度摄像头的内参矩阵分别为Hrgb与Hir,外参矩阵由一个旋转矩阵和平移向量组成,分别为Rrgb、Trgb与Rir、Tir。
设Prgb与Pir分别为RGB摄像头与深度摄像头坐标下某点的空间坐标,由于深度摄像头的坐标与RGB摄像头的坐标不同,二者之间的左边关系可以用一个旋转矩阵和平移向量联系起来:
Prgb=RPir+T
通过计算推导,旋转矩阵R和平移向量T可以表示为:
由计算得到的旋转矩阵和平移向量进行摄像机坐标转换,即可使RGB-D图像配齐,根据实际配准情况,手动微调两个摄像头之间的平移向量,得到较好的配齐效果。
如图9(a)-图9(c)所示,为机械臂抓取动作,所述对特定抓取目标检测框定位后,被配置为:
使用定位到的抓取检测框中心区域的二维坐标和配准后的深度图对应区域的深度信息作为抓取对象的原始三维坐标信息,计算相机坐标系与机械臂坐标系的变换矩阵,将相机获得的三维坐标映射到机械臂坐标系,即为机器人的抓取坐标。机器人根据实时接收到的抓取坐标移动到可机械臂可达范围,机械臂执行抓取动作,机器人完成抓取任务。
本发明融合了目标检测与文字检测识别两个检测算法,在目标检测算法提供位置信息的基础上融入文字信息,实现了对特定目标物体的精准检测。本发明采用轻量化深度学习模型构建检测系统,容易在机器人控制器进行部署,在机器人端达到实时的效果,针对医院中的患者药瓶抓取场景,通过设计实验证明,本发明提出的方法具有较高的可行性,机器人通过识别药瓶上具体的文字信息,完成对特定目标的实时检测与定位,实现在医院场景中机器人对药瓶的智能抓取任务。
实施例二
本实施例提供基于目标与场景文字匹配的抓取方法,包括如下步骤:
步骤1:获取待抓取目标图像;
步骤2:根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
步骤3:对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
步骤4:利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
实施例三
本实施例提供基于目标与场景文字匹配的抓取系统,包括:机器人和终端,所述机器人用于接收终端下发的抓取指令;
所述机器人包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块;
所述待抓取目标初步检测模块用于获取待抓取目标图像;根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
所述文本检测识别模块用于对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
所述目标抓取模块用于利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
以针对医疗环境下的服务机器人抓取场景为例,首先,对机器人下达抓取药瓶的命令,即向机器人发送特定患者名字信息。目标检测模块将机器人视野内的所有药瓶进行检测框定,得到每个药瓶的边界框位置,之后图像增强操作将检测框区域内的目标图像提取出来并增强处理,将增强后的图片送入文字检测识别模块进行文字检测和识别,最后根据文字识别结果,去匹配给定的患者名字信息。文字检测效果如图10(a)-图10(e)所示。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于目标与场景文字匹配的抓取机器人,其特征在于,包括:深度摄像机、底盘、机械臂以及控制器;所述控制器包括待抓取目标初步检测模块、文本检测识别模块和目标抓取模块;
所述待抓取目标初步检测模块被配置为:根据深度摄像机获取的待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
所述文本检测识别模块被配置为:对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
所述目标抓取模块被配置为:利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
2.如权利要求1所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述目标跟踪算法被配置为:引入基于核相关滤波器的目标跟踪算法KCF跟踪算法,通过对采集图像块构建循环矩阵来表征对目标及其背景进行密集采样的样本,构造大量训练集,进行训练,寻找目标函数最小的滤波器。
3.如权利要求1所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述目标检测模型被配置为:采用NanoDet网络,包括骨干网络、特征融合层和检测头,所述骨干网络采用ShuffleNetV2.0,特征融合层采用PAN。
4.如权利要求1所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述文本检测识别模型采用PP-OCR文字检测识别网络。
5.如权利要求1所述的基于目标与场景文字匹配的目标抓取机器人,其特征在于,所述对特定抓取目标检测框定位后,被配置为:对定位到的抓取检测框中心区域的二维坐标和配准后的深度图对应区域的深度信息作为抓取对象的原始三维坐标信息,计算相机坐标系与机械臂坐标系的变换矩阵,将相机获得的三维坐标映射到机械臂坐标系,即为最终的抓取坐标。
6.如权利要求5所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述深度图通过深度相机标定和配准得到的,所述深度相机标定与配准过程,被配置为:
对深度摄像机使用张正友标定法进行RGB和深度图标定得到RGB摄像头和深度摄像头的内参矩阵和外参矩阵,所述外参矩阵由旋转矩阵和平移向量组成;
根据得到的旋转矩阵和平移向量进行摄像机坐标转换,得到深度图。
7.如权利要求1所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述控制器还包括文字区域图像增强模块,所述文字区域图像增强模块被配置为:对待抓取目标图像进行图像裁剪、图像放大与填充、灰度处理以及图像锐化。
8.如权利要求1所述的基于目标与场景文字匹配的抓取机器人,其特征在于,所述文字识别结果与特定目标匹配包括:根据给定的特定待匹配文字信息,将以目标检测框为单位的多个区域和检测框内对应实际物体进行对比,判断识别结果文本中包含的给定文字信息是否属于检测框内对应的实际物体对象,若是,则完成文字与目标物的匹配。
9.基于目标与场景文字匹配的抓取方法,其特征在于,所述方法应用于机器人,包括如下步骤:
获取待抓取目标图像;
根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
10.基于目标与场景文字匹配的抓取系统,其特征在于,所述系统应用于机器人,包括:待抓取目标初步检测模块、文本检测识别模块和目标抓取模块;
所述待抓取目标初步检测模块用于获取待抓取目标图像;根据待抓取目标图像和目标检测模型,利用CNN进行特征提取,回归得到待抓取目标的分类结果和边界框;
所述文本检测识别模块用于对于分类结果相同的目标,采用文本检测识别模型提取目标检测框区域的文字进行检测与识别,当文字识别结果与特定目标匹配成功后得到初始三维坐标;
所述目标抓取模块用于利用目标跟踪算法,对特定抓取目标检测框定位,得到最终的抓取坐标,根据抓取坐标控制底盘运动和机械臂动作对特定目标的抓取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081494.5A CN114495109A (zh) | 2022-01-24 | 2022-01-24 | 基于目标与场景文字匹配的抓取机器人及抓取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081494.5A CN114495109A (zh) | 2022-01-24 | 2022-01-24 | 基于目标与场景文字匹配的抓取机器人及抓取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495109A true CN114495109A (zh) | 2022-05-13 |
Family
ID=81474528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210081494.5A Pending CN114495109A (zh) | 2022-01-24 | 2022-01-24 | 基于目标与场景文字匹配的抓取机器人及抓取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495109A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115219852A (zh) * | 2022-09-19 | 2022-10-21 | 国网江西省电力有限公司电力科学研究院 | 一种无人机配电线路的故障智能研判方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145200A (zh) * | 2007-10-26 | 2008-03-19 | 浙江工业大学 | 多视觉传感器信息融合的内河船舶自动识别系统 |
CN107967473A (zh) * | 2016-10-20 | 2018-04-27 | 南京万云信息技术有限公司 | 基于图文识别和语义的机器人自主定位和导航 |
CN108256523A (zh) * | 2018-01-11 | 2018-07-06 | 上海展扬通信技术有限公司 | 基于移动终端的识别方法、装置及计算机可读存储介质 |
CN109599105A (zh) * | 2018-11-30 | 2019-04-09 | 广州富港万嘉智能科技有限公司 | 基于图像及语音识别的自动取菜方法、系统及存储介质 |
CN109822561A (zh) * | 2018-11-30 | 2019-05-31 | 广州富港万嘉智能科技有限公司 | 一种基于语音识别的自动取菜方法、系统及存储介质 |
CN109948416A (zh) * | 2018-12-31 | 2019-06-28 | 上海眼控科技股份有限公司 | 一种基于深度学习的违法占用公交车道自动审核方法 |
CN110992422A (zh) * | 2019-11-04 | 2020-04-10 | 浙江工业大学 | 一种基于3d视觉的药盒姿态估计方法 |
CN111482967A (zh) * | 2020-06-08 | 2020-08-04 | 河北工业大学 | 一种基于ros平台的智能检测与抓取方法 |
CN111823236A (zh) * | 2020-07-25 | 2020-10-27 | 湘潭大学 | 一种图书馆管理机器人及其控制方法 |
CN112258161A (zh) * | 2020-11-03 | 2021-01-22 | 苏州市龙测智能科技有限公司 | 一种基于机器人的智能软件测试系统及测试方法 |
WO2021076205A1 (en) * | 2019-10-14 | 2021-04-22 | UiPath Inc. | Systems and methods of activity target selection for robotic process automation |
CN113220818A (zh) * | 2021-05-27 | 2021-08-06 | 南昌智能新能源汽车研究院 | 一种停车场自动建图与高精度定位方法 |
CN113344967A (zh) * | 2021-06-07 | 2021-09-03 | 哈尔滨理工大学 | 一种复杂背景下的动态目标识别追踪方法 |
CN113450408A (zh) * | 2021-06-23 | 2021-09-28 | 中国人民解放军63653部队 | 一种基于深度相机的非规则物体位姿估计方法及装置 |
CN113555087A (zh) * | 2021-07-19 | 2021-10-26 | 吉林大学第一医院 | 一种基于卷积神经网络算法的人工智能阅片方法 |
US20220016766A1 (en) * | 2020-07-14 | 2022-01-20 | Vicarious Fpc, Inc. | Method and system for grasping an object |
-
2022
- 2022-01-24 CN CN202210081494.5A patent/CN114495109A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145200A (zh) * | 2007-10-26 | 2008-03-19 | 浙江工业大学 | 多视觉传感器信息融合的内河船舶自动识别系统 |
CN107967473A (zh) * | 2016-10-20 | 2018-04-27 | 南京万云信息技术有限公司 | 基于图文识别和语义的机器人自主定位和导航 |
CN108256523A (zh) * | 2018-01-11 | 2018-07-06 | 上海展扬通信技术有限公司 | 基于移动终端的识别方法、装置及计算机可读存储介质 |
CN109599105A (zh) * | 2018-11-30 | 2019-04-09 | 广州富港万嘉智能科技有限公司 | 基于图像及语音识别的自动取菜方法、系统及存储介质 |
CN109822561A (zh) * | 2018-11-30 | 2019-05-31 | 广州富港万嘉智能科技有限公司 | 一种基于语音识别的自动取菜方法、系统及存储介质 |
CN109948416A (zh) * | 2018-12-31 | 2019-06-28 | 上海眼控科技股份有限公司 | 一种基于深度学习的违法占用公交车道自动审核方法 |
WO2021076205A1 (en) * | 2019-10-14 | 2021-04-22 | UiPath Inc. | Systems and methods of activity target selection for robotic process automation |
CN110992422A (zh) * | 2019-11-04 | 2020-04-10 | 浙江工业大学 | 一种基于3d视觉的药盒姿态估计方法 |
CN111482967A (zh) * | 2020-06-08 | 2020-08-04 | 河北工业大学 | 一种基于ros平台的智能检测与抓取方法 |
US20220016766A1 (en) * | 2020-07-14 | 2022-01-20 | Vicarious Fpc, Inc. | Method and system for grasping an object |
CN111823236A (zh) * | 2020-07-25 | 2020-10-27 | 湘潭大学 | 一种图书馆管理机器人及其控制方法 |
CN112258161A (zh) * | 2020-11-03 | 2021-01-22 | 苏州市龙测智能科技有限公司 | 一种基于机器人的智能软件测试系统及测试方法 |
CN113220818A (zh) * | 2021-05-27 | 2021-08-06 | 南昌智能新能源汽车研究院 | 一种停车场自动建图与高精度定位方法 |
CN113344967A (zh) * | 2021-06-07 | 2021-09-03 | 哈尔滨理工大学 | 一种复杂背景下的动态目标识别追踪方法 |
CN113450408A (zh) * | 2021-06-23 | 2021-09-28 | 中国人民解放军63653部队 | 一种基于深度相机的非规则物体位姿估计方法及装置 |
CN113555087A (zh) * | 2021-07-19 | 2021-10-26 | 吉林大学第一医院 | 一种基于卷积神经网络算法的人工智能阅片方法 |
Non-Patent Citations (5)
Title |
---|
ZHICHAO LIU ET AL.: "Scene images and text information‐based object location of robot grasping", 《IET CYBER‐SYSTEMS AND ROBOTICS》, 28 April 2022 (2022-04-28), pages 116 - 130 * |
付纪元等: "家庭服务机器人闭环视觉伺服系统抓取研究", 《北京信息科技大学学报》, vol. 35, no. 3, 15 June 2020 (2020-06-15), pages 19 - 25 * |
卢振利;谢亚飞;周立志;单长考;波罗瓦茨・布朗尼斯拉夫;李斌;: "基于机器视觉的机器人辨识及分拣盒装香烟的系统", 高技术通讯, no. 06, 15 June 2016 (2016-06-15) * |
穆玉理;: "利用Pascal VOC目标检测数据深度学习进行目标检测", 通讯世界, no. 05, 25 May 2018 (2018-05-25) * |
龙慧;朱定局;田娟;: "深度学习在智能机器人中的应用研究综述", 计算机科学, no. 2, 15 November 2018 (2018-11-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115219852A (zh) * | 2022-09-19 | 2022-10-21 | 国网江西省电力有限公司电力科学研究院 | 一种无人机配电线路的故障智能研判方法 |
CN115219852B (zh) * | 2022-09-19 | 2023-03-24 | 国网江西省电力有限公司电力科学研究院 | 一种无人机配电线路的故障智能研判方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059558B (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
CN113330490B (zh) | 三维(3d)辅助个性化家庭对象检测 | |
CN108304873B (zh) | 基于高分辨率光学卫星遥感影像的目标检测方法及其系统 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
WO2020042419A1 (zh) | 基于步态的身份识别方法、装置、电子设备 | |
EP3499414B1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
CN108090435B (zh) | 一种可停车区域识别方法、系统及介质 | |
CN107953329B (zh) | 物体识别和姿态估计方法、装置及机械臂抓取系统 | |
CN111553949B (zh) | 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法 | |
Neto et al. | Brazilian vehicle identification using a new embedded plate recognition system | |
CN111862201A (zh) | 一种基于深度学习的空间非合作目标相对位姿估计方法 | |
CN112381061B (zh) | 一种面部表情识别方法及系统 | |
CN112784712B (zh) | 一种基于实时监控的失踪儿童预警实现方法、装置 | |
CN110543817A (zh) | 基于姿势指导特征学习的行人再识别方法 | |
CN111402331B (zh) | 基于视觉词袋和激光匹配的机器人重定位方法 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN114495109A (zh) | 基于目标与场景文字匹配的抓取机器人及抓取方法和系统 | |
CN113971801A (zh) | 一种基于四类多模态数据融合的目标多维度检测方法 | |
CN116912763A (zh) | 一种融合步态人脸模态的多行人重识别方法 | |
CN110458177B (zh) | 图像深度信息的获取方法、图像处理装置以及存储介质 | |
Qureshi et al. | Highway traffic surveillance over UAV dataset via blob detection and histogram of gradient | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
CN111783580B (zh) | 基于人腿检测的行人识别方法 | |
Yang et al. | Target position and posture recognition based on RGB-D images for autonomous grasping robot arm manipulation | |
CN114332814A (zh) | 一种停车框识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |