CN116229275A - 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 - Google Patents
基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 Download PDFInfo
- Publication number
- CN116229275A CN116229275A CN202310417199.7A CN202310417199A CN116229275A CN 116229275 A CN116229275 A CN 116229275A CN 202310417199 A CN202310417199 A CN 202310417199A CN 116229275 A CN116229275 A CN 116229275A
- Authority
- CN
- China
- Prior art keywords
- target
- control board
- dimensional
- pixel
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一种基于球形两栖机器人的遮挡目标6D位姿识别系统及方法,它包括用于遮挡目标6D位姿识别的像素级投票网络PVNet和球形两栖机器人,其中主控板通过UART串口将图像采集模块采集到的RGB图像传输给边缘计算控制板,再由像素级投票网络PVNet对RGB图像中的目标进行6D位姿识别,并将识别结果传输给主控板,用于球形两栖机器人进行下一步的操作与决策;轻量级Resnet‑50网络中的Bottleneck块结构降低了网络模型计算量,且采用曼哈顿距离投票方案对二维假设关键点进行投票,降低了投票计算量,有效提高了目标6D位姿识别速度,大大提升了机器人的工作效率。
Description
(一)技术领域:
本发明属于机器人相关技术领域,特别是一种基于球形两栖机器人的遮挡目标6D位姿识别系统及方法。
(二)背景技术:
两栖机器人基于仿生机构学原理构建,通过模仿再造两栖生物的驱动模式和控制机制,可实现近海滩涂岛礁、濒水过渡区域、水下狭窄空间等多种地形环境下的灵活运动。由于其突出的多地形机动性能和环境适应能力,两栖机器人已日趋成为一种备受关注的新型工业装备,并被成功应用于水文地质勘测、安防巡逻监控、区域生态调查、水产养殖捕捞、抢险救灾营救等领域。球形两栖机器人采用对称球形外壳封装机器人动力系统和探测传感设备,具备机械结构稳定、运动模型简明、环境扰动较小、运载能力较强、机动性和可控性优良等优点,已成为两栖机器人的重要研究方向之一。
两栖机器人的关键技术之一就是要能感知周围的环境,常见的2D(2Dimensions,二维)目标检测只能提供目标的二维平面位置信息以及目标类别信息,无法得到目标的三维空间信息。在两栖机器人执行目标定位跟踪、回收对接、目标抓取等任务中,往往需要知道目标三维姿态信息,准确的估计目标的6D(6Dimensions,六维)姿态可以帮助机器人意识到要目标物体的位置和方向,并且用于机器人下一步的操作和决策。目前,对于在6D姿态估计任务已经有许多的研究,但是在实际环境中存在遮挡,光照变化,目标物体实例CAD(Computer Aided Design,计算机辅助设计)模型的缺失等许多问题,这些问题给实际应用中的姿态估计任务带来了很大的挑战。在许多公开的数据集中,由于遮挡情况非常复杂,目标物体的可见区域程度也各不相同,在检测过程中由于遮挡发生的形状改变的目标物体在训练过程中是未见过的,估计这种被遮目标物体的姿态是具有很大挑战以及意义的。
(三)发明内容:
本发明的目的在于提出一种基于球形两栖机器人的遮挡目标6D位姿识别系统及方法,它可以克服现有技术的不足,是一种结构简单,容易实现的系统及方法,能够大大提高遮挡目标6D位姿识别速度,尤其适合海上目标定位跟踪和机器人与回收舱对接等任务。
本发明的技术方案:一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于它包括用于遮挡目标6D位姿识别的像素级投票网络PVNet(Pixel-wise VotingNetwork)子系统和球形两栖机器人;其中,所述球形两栖机器人是由机器人内舱、主控板、图像采集模块、电源模块、边缘计算控制板、喷水电机、舵机及驱动模块构成;其中,所述主控板、驱动模块、图像采集模块、电源模块和边缘计算控制板置于内舱中;所述图像采集模块用于采集工作环境的RGB(Red Green Blue)图像信息,其输出端连接主控板的输入端;所述边缘计算控制板与主控板呈双向数据连接;所述驱动模块用于带动喷水电机和舵机工作以驱动两栖机器人动作,其输入端接收主控板发出的控制信号,其输出端分别连接喷水电机和舵机;所述电源模块为主控板、图像采集模块、边缘计算控制板和驱动模块提供电源。
所述图像采集模块和驱动模块分别与主控板依有线网络连接;所述主控板与边缘计算控制板依UART(Universal Asynchronous Receiver/Transmitter,通用异步收发传输器)串口线连接;所述喷水电机和舵机分别与驱动模块之间依有线网络连接。
所述喷水电机的数量是4个;所述舵机的数量是8个;所述主控板是STM32F429芯片。
所述边缘计算控制板是内部安装有用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的边缘计算控制板,它是一种由中央处理单元CPU(Central ProcessingUnit)和图形处理单元GPU(Graphic Processing Unit)构成的异构结构,用于实现像素级投票网络PVNet的计算,对图像采集模块采集到的RGB图片中的目标进行6D位姿识别;所述边缘计算控制板与主控板呈双向数据连接;所述图形处理单元GPU用于辅助中央处理单元CPU进行加速计算;所述中央处理单元CPU与主控板之间呈双向数据连接,接收主控板得到的RGB图片信息,其输出端与图形处理单元GPU连接,将RGB图片信息传输给图形处理单元GPU;所述图形处理单元GPU与央处理单元CPU呈双向数据连接,对中央处理单元CPU传来的RGB图片中的目标进行6D位姿识别,并将6D位姿识别结果传输给中央处理单元CPU;所述中央处理单元CPU将6D位姿识别结果传输给主控板,用于机器人下一步的操作和决策。
所述像素级投票网络PVNet子系统采用编码-解码(Encoder-Decoder)结构;其中,所述编码层用于对输入的RGB图像进行下采样提取特征,得到采样特征提取后的特征图;所述解码层用于恢复采样特征提取后的特征图的分辨率。
所述编码层采用轻量级Resnet-50网络结构;所述解码层由五层卷积层和三层双线性插值上采样层构成。
所述轻量级Resnet-50网络结构由五个阶段组成,其中第一个阶段依次由3×3卷积层I、3×3Involution层、3×3卷积层II、3×3最大池化(Maxpooling)层组成;所述轻量级Resnet-50网络结构的后四个阶段均由Bottleneck块组成;所述轻量级Resnet-50网络结构的第一个阶段结是对输入的RGB图片进行预处理,先通过3×3卷积层I和3×3Involution层进行特征提取,得到特征图I,然后该特征图I再通过3×3卷积层II进行特征提取得到特征图II,最后通过3×3最大池化层处理输出特征图III。
所述轻量级Resnet-50网络结构的后四个阶段,每一个阶段所包含的Bottleneck块数量不同;其中,第二个阶段由不少于3个Bottleneck块构成,第三个由不少于4个Bottleneck块构成,第四个由不少于6个Bottleneck块构成,第五个由不少于3个Bottleneck块构成。
所述Bottleneck块是由不少于2个1×1卷积层、7×7Involution层和ECA-Net(Effificient Channel Attention Networks,高效通道注意力网络)模块组成,其中Bottleneck块的结构如图3所示;所述Bottleneck块的输入端接收特征X,先通过一个1x1的卷积层来改变7×7Involution层的输入特征通道数,然后7×7Involution层对输入特征进行特征提取,再通过另一个1x1卷积层来改变输出特征通道数,得到特征图z;其次,所述ECA-Net模块对特征图z计算每个通道的权重,并将每个通道的权重和特征图z逐通道相乘,获得具有通道注意力的特征F(X),从而提升对当前任务有用的特征图通道,抑制对当前任务用处不大的特征图通道,避免无用信息冗余;最后通过跳跃连接将输入Bottleneck块的特征X和具有通道注意力的特征F(X)相加得到最终Bottleneck块的输出特征所述Bottleneck块中的1×1卷积层输出通道相等。
一种基于球形两栖机器人的遮挡目标6D位姿识别方法,其特征在于它包括以下步骤:
(1)在边缘计算控制板上安装Ubuntu(以桌面应用为主的Linux操作系统)操作系统,通过FPS(Farthest Point Sampling,最远点采样)算法计算目标物体三维模型m个关键点的三维坐标;
所述步骤(1)中边缘计算控制板通过FPS算法计算目标物体三维模型m个关键点的三维坐标,具体是由以下步骤构成:
(1-1)首先在个数为n的目标三维模型点集合N={f1,f2,f3,…,fn}中选取目标三维模型中心点fk1作为初始点,并放入集合K={fk1}中,其中,所述集合K为采样后的目标物体三维模型关键点集合;
(1-2)计算集合N中剩余n-1个点到集合K中点fk1的距离,记距离fk1最远的点为fk2,并将这个点写入集合K={fk1,fk2}中;
(1-3)计算N中剩余每个点fi到集合K中所有点的距离,选择其中最小距离作为点fi到集合K的距离,并选择N中距离集合K最远的点记为fk3,并加入K中,得到K={fk1,fk2,fk3};
(1-4)循环步骤(1-3)直到目标物体三维模型关键点集合K中点的个数为m,即可得到目标物体三维模型m个关键点的三维坐标。
(2)将步骤(1)得到的目标物体三维模型m个关键点的三维坐标投影到二维RGB图像上,利用Miniconda在边缘控制板上搭建PyTorch1.1.0环境,并且在PyTorch1.1.0环境下对像素级投票网络PVNet进行训练并学习投影得到的二维RGB图像中的掩码信息以及指向二维关键点的向量场,实现用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的搭建;其中,对像素级投票网络PVNet进行训练,具体是指:
(2-1)按照LINEMOD数据集的制作方法,制作目标6D位姿估计数据集,其中包含RGB图片、RGB图片中目标物体语义分割mask标签、以及目标物体的旋转参数R和平移参数T标签;为增强模型的鲁棒性,防止过拟合,对目标6D位姿估计数据集中的RGB图像进行数据增强,生成最终的训练样本;其中,数据增强包括改变RGB图像的亮度和对比度,对图像进行随机裁剪、旋转,更改目标物体的背景;
(2-2)由像素级投票网络PVNet对步骤(2-1)生成训练样本中的RGB图片进行预测,得出指向目标二维关键点的向量场和语义分割预测结果;
(2-3)利用公式(1)和公式(2)所示的向量场损失函数计算向量场预测结果与向量场标签值之间的误差,利用公式(3)所示的语义分割损失函数,计算语义分割预测结果与语义分割标签值之间的误差;
其中O为属于目标像素的集合,l1为smoothl1函数,为预测向量,vk(p)为标签向量,Δvk(p)|x和Δvk(p)|y分别为Δvk(p)沿图像宽和高方向的分量,n为属于目标物体的像素总数;pi为预测像素是目标对象的概率,qi为标签值,W,H分别为RGB图像的宽和高;
(2-4)为了提高训练效率,并使像素级投票网络PVNet对指向目标二维关键点的向量场预测结果和语义分割预测结果逼近或达到最优值,利用Adam(Adaptive MomentEstimation,自适应矩估计)优化法对模型参数进行更新,使得损失函数值不断逼近全局最小,直到误差收敛,即可完成像素级投票网络PVNet子系统的训练,并生成了模型参数文件;
所述步骤(2)中二维关键点是指步骤(1)中目标物体三维模型m个关键点的三维坐标投影到二维RGB图像上的的像素坐标;所述向量场是指对RGB图像中的每个像素p,像素级投票网络PVNet子系统会预测一个向量该向量代表从像素p指向第k个二维关键点xk的方向。
(3)图像采集模块对球形两栖机器人工作环境进行图像信息采集,并将采集到的RGB图像信息通过主控板,利用UART串口传递给边缘计算控制板,边缘计算控制板将步骤(2)中训练完成后生成的模型参数加载到的像素级投票网络PVNet中,对RGB图片进行预测,像素级投票网络PVNet输出大小为H×W×(m×2+2)的三维张量,获得了指向RGB图片中目标物体二维关键点的向量场和语义分割预测结果;其中H,W分别为RGB图像的高和宽,m×2代表RGB图像中每个像素指向m个二位关键点的向量场所占通道,2代表语义分割预测结果所占的通道;
(4)利用步骤(3)得到的语义分割预测结果,对属于目标物体像素预测的向量,基于随机抽样一致性算法进行投票,得到m个二维关键点的坐标,具体是指:首先筛选出属于目标物体的像素点,并随机选取两个目标像素点的预测向量,计算两个预测向量的交点,将其作为对第k个二维关键点xk的假设关键点hk,i;重复该步骤N次,即可得到二维关键点xk的N个假设关键点集合,即:{hk,i|i=1,2,…N},再由属于目标的所有像素点对假设关键点进行投票,最终确定二维关键点xk的预测坐标;
所述步骤(4)中属于目标的所有像素点对假设关键点进行投票是利用PVNet算法采用曼哈顿距离投票方案对二维假设关键点进行投票,该投票具体步骤包括:
(4-1)求出属于目标物体的像素点p到假设关键点hk,i对应的向量vpki的模长d1,如公式(4)所示;
d1=||vpki||2=||hk,i-p||2 (4)
(4-3)求向量vpki和vpk终点的曼哈顿距离d2;假设向量vpki的终点坐标为(x1,y1),vpk的终点坐标为(x2,y2);向量vpki和vpk终点的曼哈顿距离如公式(6)所示;
d2=|x1-x2|+|y1-y2| (6)
(4-4)将步骤(4-3)得到的曼哈顿距离d2与设定阈值进行比较:如果曼哈顿距离小于设定阈值,则该假设关键点置信度得分加1,最后选取置信度得分最高的假设关键点hk,i点的坐标作为该二维关键点xk的预测坐标。
(5)将步骤(1)计算得到的目标三维模型m个关键点的三维坐标和步骤(4)计算得到的目标m个二维关键点坐标生成了二维点与三维点的对应关系,通过EPnP算法计算目标物体相对于相机的6D位姿;
(6)由边缘计算控制板将步骤(5)得到的6D位姿估计结果传输给主控板,用于判断两栖机器人的下一步的动作,由驱动模块驱动喷水电机和舵机工作以驱动两栖机器人动作。
本发明的工作原理:球形两栖机器人采用STM32F429作为主控板,在陆地通过控制八个舵机进行步态调整和姿态调整,在水下通过控制四个喷水电机完成水下运动和姿态控制。主控板先将图像采集模块采集到的RGB图像通过UART串口传输给边缘计算控制板,边缘计算控制板通过内部安装的像素级投票网络PVNet对RGB图像中的目标进行6D位姿识别,然后将6D位姿识别结果通过UART串口传输给主控板,最后主控板根据目标的6D位姿控制两栖机器人进行下一步动作。
本发明优越性:1、用于遮挡目标6D位姿估计的像素级投票网络PVNet子系统采用了Adam优化器像素级投票网络PVNet在目标被遮挡的情况下表现出了较好的鲁棒性;2、像素级投票网络PVNet的主干网络是轻量级Resnet-50网络结构,且Bottleneck块的结构降低了网络模型计算量,提高了识别效率;3、像素级投票网络PVNet采用曼哈顿距离投票方案对二维假设关键点进行投票,降低了投票计算量,提高了识别效率;4、针对海上目标定位跟踪和机器人与回收舱对接任务,当目标被遮挡时,可以有效提高目标6D位姿识别速度,节约了机器人任务完成时间,大大提升了工作效率。
(四)附图说明:
图1为本发明所涉一种基于球形两栖机器人的遮挡目标6D位姿识别系统中球形两栖机器人的结构框图。
图2为本发明所涉一种基于球形两栖机器人的遮挡目标6D位姿识别系统中像素级投票网络PVNet子系统中轻量级Resnet-50第一阶段的结构示意图。
图3为本发明所涉一种基于球形两栖机器人的遮挡目标6D位姿识别方法中像素级投票网络PVNet子系统中Bottleneck块的结构示意图。
图4为本发明所涉一种基于球形两栖机器人的遮挡目标6D位姿识别方法中像素级投票网络PVNet子系统的工作流程示意图。
(五)具体实施方式:
下面通过附图结合具体实施例对本发明做进一步的详细说明:
一种基于球形两栖机器人的遮挡目标6D位姿识别系统,如图1所示,其特征在于它包括用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统和球形两栖机器人;其中,所述球形两栖机器人是由机器人内舱、主控板、图像采集模块、电源模块、边缘计算控制板、喷水电机、舵机及驱动模块构成;其中,所述主控板、驱动模块、图像采集模块、电源模块和边缘计算控制板置于内舱中;所述图像采集模块用于采集工作环境的RGB图像信息,其输出端连接主控板的输入端;所述边缘计算控制板与主控板呈双向数据连接;所述驱动模块用于带动喷水电机和舵机工作以驱动两栖机器人动作,其输入端接收主控板发出的控制信号,其输出端分别连接喷水电机和舵机;所述电源模块为主控板、图像采集模块、边缘计算控制板和驱动模块提供电源。
所述图像采集模块和驱动模块分别与主控板依有线网络连接;所述主控板与边缘计算控制板依UART串口线连接;所述喷水电机和舵机分别与驱动模块之间依有线网络连接。
所述喷水电机的数量是4个;所述舵机的数量是8个,所述主控板是STM32F429芯片。
所述边缘计算控制板是内部安装有用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的边缘计算控制板,它是一种由中央处理单元CPU(Central ProcessingUnit)和图形处理单元GPU(Graphic Processing Unit)构成的异构结构,用于实现像素级投票网络PVNet的计算,对图像采集模块采集到的RGB图片中的目标进行6D位姿识别;所述边缘计算控制板与主控板呈双向数据连接;所述图形处理单元GPU用于辅助中央处理单元CPU进行加速计算;所述中央处理单元CPU与主控板之间呈双向数据连接,接收主控板得到的RGB图片信息,其输出端与图形处理单元GPU连接,将RGB图片信息传输给图形处理单元GPU;所述图形处理单元GPU与央处理单元CPU呈双向数据连接,对中央处理单元CPU传来的RGB图片中的目标进行6D位姿识别,并将6D位姿识别结果传输给中央处理单元CPU;所述中央处理单元CPU将6D位姿识别结果传输给主控板,用于机器人下一步的操作和决策。
所述像素级投票网络PVNet子系统采用编码-解码结构;其中,所述编码层用于对输入的RGB图像进行下采样提取特征,得到采样特征提取后的特征图;所述解码层用于恢复采样特征提取后的特征图的分辨率。
所述编码层采用轻量级Resnet-50网络结构;所述解码层由五层卷积层和三层双线性插值上采样层构成;所述轻量级Resnet-50网络结构由五个阶段组成,其中第一个阶段依次由3×3卷积层、3×3Involution层、3×3卷积层、3×3最大池化层组成,是对输入的RGB图片进行预处理,结构如图2所示,输入一张大小为H×W×3的RGB图片,先通过3×3卷积层和3×3Involution层进行特征提取,得到大小为H/2×W/2×32的特征图,然后再通过3×3卷积层进行特征提取得到大小为H/2×W/2×64的特征图,最后通过3×3最大池化层处理输出大小为H/4×W/4×64的特征图,其中,H表示输入RGB图片的高度,W表示输入RGB图片的宽度。
后四个阶段均由Bottleneck块组成,但每个阶段所包含的Bottleneck块数量不同;其中,第二个阶段由3个Bottleneck块构成,第三个由4个Bottleneck块构成,第四个由6个Bottleneck块构成,第五个由3个Bottleneck块构成。
所述Bottleneck块是由2个1×1卷积层、1个7×7Involution层和1个ECA-Net模块组成,其中Bottleneck块的结构如图3所示;对输入Bottleneck块的特征X,先通过一个1 x1的卷积层来改变7×7Involution层的输入特征通道数,然后7×7Involution层对输入特征进行特征提取,再通过另一个1x1卷积层来改变输出特征通道数,得到特征图z;其次,所述ECA-Net模块对特征图z计算每个通道的权重,并将每个通道的权重和特征图z逐通道相乘,获得具有通道注意力的特征F(X),从而提升对当前任务有用的特征图通道,抑制对当前任务用处不大的特征图通道,避免无用信息冗余;最后通过跳跃连接将输入Bottleneck块的特征X和具有通道注意力的特征F(X)相加得到最终Bottleneck块的输出特征其中ECA-Net模块的具体操作为:先对输入ECA-Net模块的特征图进行全局平均池化,特征图维度从H×W×C变为1×1×C,其中H、W、C分别代表特征图的高、宽和通道数;然后通过尺寸为k的一维卷积来获取本地的跨通道交互,其中参数k可通过自适应函数根据输入通道C的大小来生成,最后使用sigmoid函数即可生成每个通道的权重。
所述Bottleneck块中的两个1×1卷积层输出通道相等,且轻量级Resnet-50网络结构中第二个阶段Bottleneck块中的1×1卷积层输出通道数都为64,第三个阶段Bottleneck块中的1×1卷积层输出通道数都为128,第四个阶段Bottleneck块中的1×1卷积层输出通道数都为256,第五个阶段Bottleneck块中的1×1卷积层输出通道数都为512。
一种基于球形两栖机器人的遮挡目标6D位姿识别方法,如图4所示,其特征在于它包括以下步骤:
(1)在边缘计算控制板上安装Ubuntu操作系统,通过FPS算法计算目标物体三维模型九个关键点的三维坐标;
(1-1)首先在个数为n的目标三维模型点集合N={f1,f2,f3,…,fn}中选取目标三维模型中心点fk1作为初始点,并放入集合K={fk1}中,其中,所述集合K为采样后的目标物体三维模型关键点集合;
(1-2)计算集合N中剩余n-1个点到集合K中点fk1的距离,记距离fk1最远的点为fk2,并将这个点写入集合K={fk1,fk2}中;
(1-3)计算N中剩余每个点fi到集合K中所有点的距离,选择其中最小距离作为点fi到集合K的距离,并选择N中距离集合K最远的点记为fk3,并加入K中,得到K={fk1,fk2,fk3};
(1-4)循环步骤(1-3)直到目标物体三维模型关键点集合K中点的个数为9,即可得到目标物体三维模型九个关键点的三维坐标。
(2)将步骤(1)得到的目标物体三维模型九个关键点的三维坐标投影到二维RGB图像上,利用Miniconda在边缘控制板上搭建PyTorch1.1.0环境,并且在PyTorch1.1.0环境下对像素级投票网络PVNet进行训练并学习投影得到的二维RGB图像中的掩码信息以及指向二维关键点的向量场,实现用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的搭建;其中,对像素级投票网络PVNet进行训练,具体是指:
(2-1)按照LINEMOD数据集的制作方法,制作目标6D位姿估计数据集,其中包含RGB图片、RGB图片中目标物体语义分割mask标签、以及目标物体的旋转参数R和平移参数T标签;为增强模型的鲁棒性,防止过拟合,对目标6D位姿估计数据集中的RGB图像进行数据增强,生成最终的训练样本;其中,数据增强包括改变RGB图像的亮度和对比度,对图像进行随机裁剪、旋转,更改目标物体的背景;
(2-2)由像素级投票网络PVNet对步骤(2-1)生成训练样本中的RGB图片进行预测,得出指向目标二维关键点的向量场和语义分割预测结果;其中,二维关键点是指步骤(1)中目标物体三维模型九个关键点的三维坐标投影到二维RGB图像上的的像素坐标;所述向量场是指对RGB图像中的每个像素p,像素级投票网络PVNet子系统会预测一个向量该向量代表从像素p指向第k个二维关键点xk的方向;
(2-3)利用公式(1)和公式(2)所示的向量场损失函数计算向量场预测结果与向量场标签值之间的误差,利用公式(3)所示的语义分割损失函数,计算语义分割预测结果与语义分割标签值之间的误差;
其中O为属于目标像素的集合,l1为smoothl1函数,为预测向量,vk(p)为标签向量,Δvk(p)|x和Δvk(p)|y分别为Δvk(p)沿图像宽和高方向的分量,n为属于目标物体的像素总数;pi为预测像素是目标对象的概率,qi为标签值,W,H分别为RGB图像的宽和高;
(2-4)为了提高训练效率,并使像素级投票网络PVNet对指向目标二维关键点的向量场预测结果和语义分割预测结果逼近或达到最优值,利用Adam优化法对模型参数进行更新,使得损失函数值不断逼近全局最小,直到误差收敛,即可完成像素级投票网络PVNet子系统的训练,并生成了模型参数文件。
步骤(2)中像素级投票网络PVNet的训练初始学习率为0.001,,每训练20个epoch,学习率降为上一学习率的二分之一,一共训练200个epoch;batch的大小设置为32,利用在ImageNet上预训练过的Resnet-50模型来初始化像素级投票网络PVNet主干网络的对应部分。
(3)图像采集模块对球形两栖机器人工作环境进行图像信息采集,并将采集到的RGB图像信息通过主控板,利用UART串口传递给边缘计算控制板,边缘计算控制板将步骤(2)中训练完成后生成的模型参数加载到的像素级投票网络PVNet中,对RGB图片进行预测,像素级投票网络PVNet输出大小为H×W×(9×2+2)的三维张量,获得了指向RGB图片中目标物体二维关键点的向量场和语义分割预测结果;其中H,W分别为RGB图像的高和宽,9×2代表RGB图像中每个像素指向9个二位关键点的向量场所占通道,2代表语义分割预测结果所占的通道;
(4)利用步骤(3)得到的语义分割预测结果,对属于目标物体像素预测的向量,基于随机抽样一致性算法进行投票,得到九个二维关键点的坐标,具体是指:首先筛选出属于目标物体的像素点,并随机选取两个目标像素点的预测向量,计算两个预测向量的交点,将其作为对第k个二维关键点xk的假设关键点hk,i;重复该步骤N次,即可得到二维关键点xk的N个假设关键点集合,即:{hk,i|i=1,2,…N},再由属于目标的所有像素点对假设关键点进行投票,最终确定二维关键点xk的预测坐标;
其中属于目标的所有像素点对假设关键点进行投票是利用PVNet算法采用曼哈顿距离投票方案对二维假设关键点进行投票,该投票具体步骤包括:
(4-1)求出属于目标物体的像素点p到假设关键点hk,i对应的向量vpki的模长d1,如公式(4)所示;
d1=||vpki||2=||hk,i-p||2 (4)
(4-3)求向量vpki和vpk终点的曼哈顿距离d2;假设向量vpki的终点坐标为(x1,y1),vpk的终点坐标为(x2,y2);向量vpki和vpk终点的曼哈顿距离如公式(6)所示;
d2=|x1-x2|+|y1-y2| (6)
(4-4)将步骤(4-3)得到的曼哈顿距离d2与设定阈值进行比较:如果曼哈顿距离小于设定阈值,则该假设关键点置信度得分加1,最后选取置信度得分最高的假设关键点hk,i点的坐标作为该二维关键点xk的预测坐标。
(5)将步骤(1)计算得到的目标三维模型九个关键点的坐标和步骤(4)计算得到的目标九个二维关键点坐标生成二维点与三维点的对应关系,通过EPnP算法计算目标物体相对于相机的6D位姿;在EPnP算法中,通过一组控制点的加权和来表示关键点的三维坐标,首先由关键点计算得到控制点,再通过求解控制点在相机坐标下的坐标,进一步求得位姿中的旋转矩阵R和平移矩阵t;
(6)由边缘计算控制板将步骤(5)得到的6D位姿估计结果传输给主控板,用于判断两栖机器人的下一步的动作,由驱动模块驱动喷水电机和舵机工作以驱动两栖机器人动作。
Claims (10)
1.一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于它包括用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统和球形两栖机器人;其中,所述球形两栖机器人是由机器人内舱、主控板、图像采集模块、电源模块、边缘计算控制板、喷水电机、舵机及驱动模块构成;其中,所述主控板、驱动模块、图像采集模块、电源模块和边缘计算控制板置于内舱中;所述图像采集模块用于采集工作环境的RGB图像信息,其输出端连接主控板的输入端;所述边缘计算控制板与主控板呈双向数据连接;所述驱动模块用于带动喷水电机和舵机工作以驱动两栖机器人动作,其输入端接收主控板发出的控制信号,其输出端分别连接喷水电机和舵机;所述电源模块为主控板、图像采集模块、边缘计算控制板和驱动模块提供电源。
2.根据权利要求1所述一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于所述边缘计算控制板是内部安装有用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的边缘计算控制板,它是一种由中央处理单元CPU和图形处理单元GPU构成的异构结构;所述边缘计算控制板与主控板呈双向数据连接;所述中央处理单元CPU与主控板之间呈双向数据连接,接收主控板得到的RGB图片信息,其输出端与图形处理单元GPU连接,将RGB图片信息传输给图形处理单元GPU;所述图形处理单元GPU与央处理单元CPU呈双向数据连接,对中央处理单元CPU传来的RGB图片中的目标进行6D位姿识别,并将6D位姿识别结果传输给中央处理单元CPU;所述中央处理单元CPU将6D位姿识别结果传输给主控板。
3.根据权利要求2所述一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于所述像素级投票网络PVNet子系统采用编码-解码结构;其中,所述编码层编码层采用轻量级Resnet-50网络结构;所述解码层由五层卷积层和三层双线性插值上采样层构成。
4.根据权利要求3所述一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于所述轻量级Resnet-50网络结构由五个阶段组成,其中第一个阶段依次由3×3卷积层I、3×3 Involution层、3×3卷积层II、3×3最大池化层组成;所述轻量级Resnet-50网络结构的后四个阶段均由Bottleneck块组成;所述轻量级Resnet-50网络结构的第一个阶段结是对输入的RGB图片进行预处理,先通过3×3卷积层I和3×3 Involution层进行特征提取,得到特征图I,然后该特征图I再通过3×3卷积层II进行特征提取得到特征图II,最后通过3×3最大池化层处理输出特征图III;所述轻量级Resnet-50网络结构的五个阶段中,后四个阶段所包含的Bottleneck块数量不同;其中,第二个阶段由不少于3个Bottleneck块构成,第三个由不少于4个Bottleneck块构成,第四个由不少于6个Bottleneck块构成,第五个由不少于3个Bottleneck块构成。
5.根据权利要求4所述一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于所述Bottleneck块是由不少于2个1×1卷积层、7×7 Involution层和ECA-Net模块组成;所述Bottleneck块的输入端接收特征X,先通过一个1x1的卷积层来改变7×7Involution层的输入特征通道数,然后7×7 Involution层对输入特征进行特征提取,再通过其它1x1卷积层来改变输出特征通道数,得到特征图Z;其次,所述ECA-Net模块对特征图Z计算每个通道的权重,并将每个通道的权重和特征Z逐通道相乘,获得具有通道注意力的特征F(X),最后通过跳跃连接将输入Bottleneck块的特征X和具有通道注意力的特征F(X)相加得到最终Bottleneck块的输出特征/>
6.根据权利要求5所述一种基于球形两栖机器人的遮挡目标6D位姿识别系统,其特征在于所述Bottleneck块中的1×1卷积层输出通道相等。
7.根据权利要求1所述一种基于球形两栖机器人的遮挡目标6D位姿识别方法,其特征在于所述图像采集模块和驱动模块分别与主控板依有线网络连接;所述主控板与边缘计算控制板依UART串口线连接;所述喷水电机和舵机分别与驱动模块之间依有线网络连接;所述喷水电机的数量是4个;所述舵机的数量是8个;所述主控板是STM32F429芯片。
8.一种基于球形两栖机器人的遮挡目标6D位姿识别方法,其特征在于它包括以下步骤:
(1)在边缘计算控制板上安装Ubuntu操作系统,通过FPS算法计算目标物体三维模型m个关键点的三维坐标;
(2)将步骤(1)得到的目标物体三维模型m个关键点的三维坐标投影到二维RGB图像上,利用Miniconda在边缘控制板上搭建PyTorch1.1.0环境,并且在PyTorch1.1.0环境下对像素级投票网络PVNet进行训练并学习投影得到的二维RGB图像中的掩码信息以及指向二维关键点的向量场,实现用于遮挡目标6D位姿识别的像素级投票网络PVNet子系统的搭建;其中,对像素级投票网络PVNet进行训练,具体是指:
(2-1)按照LINEMOD数据集的制作方法,制作目标6D位姿估计数据集,其中包含RGB图片、RGB图片中目标物体语义分割mask标签、以及目标物体的旋转参数R和平移参数T标签;为增强模型的鲁棒性,防止过拟合,对目标6D位姿估计数据集中的RGB图像进行数据增强,生成最终的训练样本;其中,数据增强包括改变RGB图像的亮度和对比度,对图像进行随机裁剪、旋转,更改目标物体的背景;
(2-2)由像素级投票网络PVNet对步骤(2-1)生成训练样本中的RGB图片进行预测,得出指向目标二维关键点的向量场和语义分割预测结果;
(2-3)利用公式(1)和公式(2)所示的向量场损失函数计算向量场预测结果与向量场标签值之间的误差,利用公式(3)所示的语义分割损失函数,计算语义分割预测结果与语义分割标签值之间的误差;
其中O为属于目标像素的集合,l1为smoothl1函数,为预测向量,vk(p)为标签向量,Δvk(p)|x和Δvk(p)|y分别为Δvk(p)沿图像宽和高方向的分量,n为属于目标物体的像素总数;pi为预测像素是目标对象的概率,qi为标签值,W,H分别为RGB图像的宽和高;
(2-4)为了提高训练效率,并使像素级投票网络PVNet对指向目标二维关键点的向量场预测结果和语义分割预测结果逼近或达到最优值,利用Adam优化法对模型参数进行更新,使得损失函数值不断逼近全局最小,直到误差收敛,即可完成像素级投票网络PVNet子系统的训练,并生成了模型参数文件;
(3)图像采集模块对球形两栖机器人工作环境进行图像信息采集,并将采集到的RGB图像信息通过主控板,利用UART串口传递给边缘计算控制板,边缘计算控制板将步骤(2)中训练完成后生成的模型参数加载到的像素级投票网络PVNet中,对RGB图片进行预测,像素级投票网络PVNet输出大小为H×W×(m×2+2)的三维张量,获得了指向RGB图片中目标物体二维关键点的向量场和语义分割预测结果;其中H,W分别为RGB图像的高和宽,m×2代表RGB图像中每个像素指向m个二维关键点的向量场所占通道,2代表语义分割预测结果所占的通道;
(4)利用步骤(3)得到的语义分割预测结果,对属于目标物体像素预测的向量,基于随机抽样一致性算法进行投票,得到m个二维关键点的坐标,具体是指:首先筛选出属于目标物体的像素点,并随机选取两个目标像素点的预测向量,计算两个预测向量的交点,将其作为对第k个二维关键点χk的假设关键点hk,i;重复该步骤N次,即可得到二维关键点χk的N个假设关键点集合,即:{hk,i/i=1,2,…N},再由属于目标的所有像素点对假设关键点进行投票,最终确定二维关键点χk的预测坐标;
(5)将步骤(1)计算得到的目标三维模型m个关键点的三维坐标和步骤(4)计算得到的目标m个二维关键点坐标生成二维点与三维点的对应关系,通过EPnP算法计算目标物体相对于相机的6D位姿;
(6)由边缘计算控制板将步骤(5)得到的6D位姿估计结果传输给主控板,用于判断两栖机器人的下一步的动作,由驱动模块驱动喷水电机和舵机工作以驱动两栖机器人动作。
9.根据权利要求8所述一种基于球形两栖机器人的遮挡目标6D位姿识别方法,其特征在于所述步骤(1)中边缘计算控制板通过FPS算法计算目标物体三维模型m个关键点的三维坐标,具体是由以下步骤构成:
(1-1)首先在个数为n的目标三维模型点集合N={f1,f2,f3,…,fn}中选取目标三维模型中心点fk1作为初始点,并放入集合K={fk1}中,其中,所述集合K为采样后的目标物体三维模型关键点集合;
(1-2)计算集合N中剩余n-1个点到集合K中点fk1的距离,记距离fk1最远的点为fk2,并将这个点写入集合K={fk1,fk2}中;
(1-3)计算N中剩余每个点fi到集合K中所有点的距离,选择其中最小距离作为点fi到集合K的距离,并选择N中距离集合K最远的点记为fk3,并加入K中,得到K={fk1,fk2,fk3};
(1-4)循环步骤(1-3)直到目标物体三维模型关键点集合K中点的个数为m,即可得到目标物体三维模型m个关键点的三维坐标。
10.根据权利要求8所述一种基于球形两栖机器人的遮挡目标6D位姿识别方法,其特征在于所述步骤(2)中二维关键点是指步骤(1)中目标物体三维模型m个关键点的三维坐标投影到二维RGB图像上的的像素坐标;所述向量场是指对RGB图像中的每个像素p,像素级投票网络PVNet子系统会预测一个向量该向量代表从像素p指向第k个二维关键点χk的方向;
所述步骤(4)中属于目标的所有像素点对假设关键点进行投票是利用PVNet算法采用曼哈顿距离投票方案对二维假设关键点进行投票,该投票具体步骤包括:
(4-1)求出属于目标物体的像素点p到假设关键点hk,i对应的向量vpki的模长d1,如公式(4)所示;
d1=||vpki||2=||hk,i-p||2 (4)
(4-3)求向量vpki和vpk终点的曼哈顿距离d2;假设向量vpki的终点坐标为(x1,y1),vpk的终点坐标为(x2,y2);向量vpki和vpk终点的曼哈顿距离如公式(6)所示;
d2=|x1-x2|+|y1-y2| (6)
(4-4)将步骤(4-3)得到的曼哈顿距离d2与设定阈值进行比较:如果曼哈顿距离小于设定阈值,则该假设关键点置信度得分加1,最后选取置信度得分最高的假设关键点hk,i点的坐标作为该二维关键点χk的预测坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417199.7A CN116229275A (zh) | 2023-04-18 | 2023-04-18 | 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417199.7A CN116229275A (zh) | 2023-04-18 | 2023-04-18 | 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229275A true CN116229275A (zh) | 2023-06-06 |
Family
ID=86573391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417199.7A Pending CN116229275A (zh) | 2023-04-18 | 2023-04-18 | 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229275A (zh) |
-
2023
- 2023-04-18 CN CN202310417199.7A patent/CN116229275A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335337B (zh) | 一种基于端到端半监督生成对抗网络的视觉里程计的方法 | |
CN111325797A (zh) | 一种基于自监督学习的位姿估计方法 | |
CN108491763B (zh) | 三维场景识别网络的无监督训练方法、装置及存储介质 | |
CN111667535B (zh) | 一种针对遮挡场景下的六自由度位姿估计方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
US20230080133A1 (en) | 6d pose and shape estimation method | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
CN111161364A (zh) | 一种针对单视角深度图的实时形状补全和姿态估计方法 | |
CN111507222A (zh) | 一种基于多源数据知识迁移的三维物体检测框架 | |
Sun et al. | PointMoSeg: Sparse tensor-based end-to-end moving-obstacle segmentation in 3-D lidar point clouds for autonomous driving | |
CN117274883B (zh) | 基于多头注意力优化特征融合网络的目标跟踪方法与系统 | |
Károly et al. | Optical flow-based segmentation of moving objects for mobile robot navigation using pre-trained deep learning models | |
Yao et al. | Vision-based environment perception and autonomous obstacle avoidance for unmanned underwater vehicle | |
CN114119753A (zh) | 面向机械臂抓取的透明物体6d姿态估计方法 | |
KR102150794B1 (ko) | 손 자세 인식 및 적응적 공간 탐색을 활용한 손 관절 추적 방법 및 그 장치 | |
CN116229394A (zh) | 一种自动驾驶图像识别方法、装置及识别设备 | |
CN116229275A (zh) | 基于球形两栖机器人的遮挡目标6d位姿识别系统及方法 | |
CN115147899A (zh) | 基于标签分布和有监督空间变换网络的头部姿态估计方法 | |
Liu et al. | Towards Better Data Exploitation in Self-Supervised Monocular Depth Estimation | |
Liu et al. | Estimating obstacle maps for USVs based on a multistage feature aggregation and semantic feature separation network | |
Ito et al. | Visualization of focal cues for visuomotor coordination by gradient-based methods: A recurrent neural network shifts the attention depending on task requirements | |
CN111915727A (zh) | 基于深度学习的agv新型slam系统 | |
Du et al. | Study on 6D Pose Estimation System of Occlusion Targets for the Spherical Amphibious Robot based on Neural Network | |
Moreau et al. | Unsupervised depth prediction from monocular sequences: Improving performances through instance segmentation | |
CN117889867B (zh) | 一种基于局部自注意力移动窗口算法的路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |