CN112927297A - 一种基于yolo系列的目标检测和视觉定位方法 - Google Patents

一种基于yolo系列的目标检测和视觉定位方法 Download PDF

Info

Publication number
CN112927297A
CN112927297A CN202110193024.3A CN202110193024A CN112927297A CN 112927297 A CN112927297 A CN 112927297A CN 202110193024 A CN202110193024 A CN 202110193024A CN 112927297 A CN112927297 A CN 112927297A
Authority
CN
China
Prior art keywords
coordinate system
training
depth
target
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110193024.3A
Other languages
English (en)
Inventor
曾锦秀
魏武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110193024.3A priority Critical patent/CN112927297A/zh
Publication of CN112927297A publication Critical patent/CN112927297A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开一种基于YOLO系列的目标检测和视觉定位方法,包括步骤:首先,获取待抓取目标的RGB彩色图像图像和深度图像;将采集的RGB彩色图像输入基于darknet框架搭建的YOLO系列目标检测模型中,获得坐标信息和类别及置信度;将坐标信息结合深度图像信息解算出待检测目标的空间三维坐标。本发明提出的基于目标检测算法的定位方法可以利用darknet框架上部署的YOLO系列目标检测算法对深度摄像头采集的RGB彩色图像图像进行二维定位,结合摄像头特殊位置获取的深度信息实现三维定位。YOLO系列目标检测算法相比其他的目标检测算法具有检测速度更快但检测精度也不俗的优势,可保证目标检测的精度,提高检测速度。

Description

一种基于YOLO系列的目标检测和视觉定位方法
技术领域
本发明属于机器视觉、视觉定位、目标检测和深度学习领域,尤其涉及一 种基于YOLO系列的目标检测和视觉定位方法。
背景技术
近年来,随着深度学习的技术越来越成熟,目标检测的模型更新速度也在 加快,现有的目标检测模型可分为两大类,一类one-stage检测算法,例如SSD、 YOLO等;因为其不需要region proposal阶段,可直接产生物体的类别概率和 位置坐标值,经过单次检测即可直接得到最终的检测结果,特点是具有更快的 检测速度;另一类是two-stage检测算法,例如Faster-RCNN、Fast-RCNN等; 这类检测算法将检测问题划分为两个阶段,首先产生候选区域,然后对候选区 域分类,特点是错误率低、漏检率低,但是速度相对较慢。
现有的基于深度学习的目标检测和视觉定位系统,如中国专利申请“基于 YOLOv3和OpenCV的目标检测与定位方法(CN111563458A)”仅能采用YOLO系 列的YOLOv3算法进行目标检测,适用性较低。
发明内容
针对现有技术存在的缺陷和不足,为了提高基于深度学习的目标检测算法的 泛化性、适应性和降低目标检测算法在视觉定位中的开发成本,本申请提供一 种基于YOLO系列的目标检测和视觉定位方法,利用darknet框架上部署的YOLO 系列目标检测算法对深度摄像头采集的RGB彩色图像进行二维定位,结合摄像 头特殊位置获取的深度信息实现三维定位。
为了实现上上述目的,本发明所采用的技术方案是:
一种基于YOLO系列的目标检测和视觉定位方法,所述方法包括以下步骤:
(1)采集待检测目标的RGB彩色图像,制做待检测目标图像集;
(2)标注图像集,进行数据处理,分别定义训练样本、测试样本和验证样 本;
(3)上传训练样本到服务器,下载预训练权重,配置模型训练参数,权重 载入YOLO系列模型进行迁移训练;
(4)封装训练好的迁移训练模型,并嵌入ROS系统中;
(5)采集待检测目标的RGB彩色图像和深度图像,将采集到的待检测目标 的RGB彩色图像输入训练好的迁移训练模型,计算出待检测目标的二维坐标信 息、类别及置信度;
(6)结合待检测目标的深度图像,经坐标转换获得待检测目标中心的空间 三维坐标。
进一步的,步骤(1)中的RGB彩色图像由固定在待检测目标正上方的D435i 深度摄像头采集;所述D435i深度摄像头具备IMU、双目相机和红外发射器模块, 通过配置ROS环境使用。
进一步的,步骤(2)中的标注图像的工具是Labelimg,以长方形框标注出 待检测目标的坐标和类别,以VOC格式输出;每张待检测图像生成一个对应的 XML文件;XML文件信息包括图像名字、路径、宽度、标注框的左上角坐标和右 下角坐标,所述坐标以待检测目标图像的左上角为原点(0,0),向下为y轴正 方向,向右为x轴正方向。
进一步的,所述数据处理包括数据增强和数据整理,数据增强技术包括裁剪、 平移、旋转、镜像、改变亮度、加噪声,扩展原有数据集,增强模型的泛化能 力;数据处理包括将数据集制作成VOC数据集格式,所有图像文件存放在 JPEGImages文件夹中,所有xml文件存放在Annotations文件夹中,经处理得 到的四个txt文件:test.txt、train.txt、trainval.txt、val.txt存放在 ImageSets/Main文件夹下。
进一步的,所述步骤(3)中的服务器安装darknet深度学习框架;配置模 型训练参数包括修改“cfg/voc.data”文件和YOLO系列所对应的cfg文件,根 据自己训练样本的种类和硬件的条件修改种类参数、训练文件路径、测试文件 路径、训练批次、anchors大小、卷积核大小等。所述预训练权重为YOLO系列 在Imagenet数据集和COCO数据集下进行预训练得到的权重,自制的训练样本 在预训练模型上进行迁移训练。
进一步的,所述步骤(4)中的封装模型为将模型封装成ROS的一个节点, 提供数据接口,以便被其他节点使用,可嵌入其他基于机器视觉的研究中;把 之前训练好的yolo系列模型文件里面的cfg文件和weights文件分别放到基于 ROS搭建的系统的对应的文件夹下面;通过修改ros.yaml定义订阅的话题和发 布的话题,定义发布图像数据的话题叫“/camera/image”作为yolo_ros节点 的输入,定义目标物体类别名称“/darknet_ros/found_object”、预测框坐标 信息“/darknet_ros/bounding_boxes”、检测结果图片“/darknet_ros/detec tion_image”三个话题作为输出。
进一步的,所述步骤(5)中的二维坐标信息包括预测框的左上角坐标 (xmin,ymin)和右下角的坐标(xmax,ymax),与标注的训练样本坐标定义相同,以 图片左上角为原点,向下为y轴正方向,向右为x轴正方向;所述类别为识别 的分类,置信度有两重定义,一为预测框是否含有对象的概率,二为表示当前 的预测框含有对象时,预测框与标定框可能的IOU值。
进一步的,所述步骤(6)中的检测目标中心由步骤S5封装的ROS节点输出 信息坐标计算获得,待检测目标中心在彩色图片的像素点为 ((xmax-xmin)/2,(ymax-ymin)/2)。
进一步的,将深度图像的像素点还原到深度摄像头坐标系下;深度图像的 像素点为(ud,vd,zd)T,其中ud,vd,zd分别表示深度图像的横坐标,纵坐标和和 该坐标对应的深度值;定义
Figure BDA0002945895540000041
为深度图像下的Ad像素点,
Figure BDA0002945895540000042
为深度图像下像素 点按深度还原到深度摄像头坐标系下的空间点,深度图的像素点还原到深度摄 像头坐标系下的公式为
Figure BDA0002945895540000043
其中Kd为深度摄像头内参;
将深度摄像头坐标系下的空间点还原到世界坐标系下;定义Pw为深度图像 转换到世界坐标系下的空间点,转换公式为
Figure BDA0002945895540000044
其中Tw2d世界坐标系转换 到深度摄像头坐标系的转换矩阵;
将世界坐标系的空间点转换到彩色摄像头坐标系下;定义
Figure BDA0002945895540000045
为彩色摄像头 坐标系下的空间点,转换公式为
Figure BDA0002945895540000046
其中Tw2c世界坐标系转换到深度摄像 头坐标系的转换矩阵;
将彩色摄像头坐标系下的空间点映射到Z=1的彩色平面上;定义
Figure BDA0002945895540000047
为世界 坐标系转换到彩色图像的像素点,转换公式为
Figure BDA0002945895540000048
其中Kc为彩色图像 摄像头内参,
Figure BDA0002945895540000049
表示按照z轴归一化,该点的x,y,z像素值均除以z像素值, 将目标检测算法识别的中心点的二维坐标信息结合深度图像的深度值得到待检 测目标在彩色坐标系下的三维坐标,定义从深度摄像头坐标系到彩色摄像头坐 标系的欧氏变换矩阵Td2c,从彩色摄像头坐标系到深度摄像头坐标系的欧氏变换 矩阵Tc2d,可得:
Figure BDA0002945895540000051
根据欧式变换矩阵得到
Figure BDA0002945895540000052
根据转换矩阵即可转换彩色摄像头坐 标系的点和深度摄像头坐标系下的点,结合像素点到空间的转换公式和摄像头 内参,即可利用彩色图像获取待检测目标中心坐标(xc,yc)到深度像素点(ud,vd,zd)T的转换,得到空间三维坐标(X,Y,Z)。
进一步的,欧式变换矩阵T形式如下:
Figure BDA0002945895540000053
其中R是旋转矩阵,t是轴的平移量。
相比现在有的技术,本发明在darknet深度学习框架可以进行待检测目标 RGB彩色图像的目标检测,具有较大的可定制型、可拓展性、可维护性,很好地 匹配多样的检测要求,将目标检测和视觉定位结合,具有更高灵活性、抗干扰 性,其中:
1、本发明通过darknet深度学习框架下的目标检测算法对目标物体准确定 位,可以降低目标检测技术的门槛,加快开发周期。
2、本发明基于主流机器人操作系统ROS开发,具有较强的扩展性,利用ROS 的darknet深度学习框架,将封装的YOLO系列目标检测算法模块嵌入ROS中, 结合深度摄像头进行视觉定位,提高了目标检测速度,缩短了待检测目标的定 位时间。
3、本发明将目标检测模型进行迁移学习得到迁移模型,在小数据集上训练 也可以得到很好的检测效果;目标检测模型训练基于darknet框架,darknet框 架下有定义好的cfg文件和预训练相关文件,官方提供YOLO系列预训练权重, 降低深度学习的门槛,简化了目标检测训步骤,减小了目标检测模型训练的难 度。将训练好的模型封装成ROS节点,并提供输入和输出信息,可将训练好的 模型成果应用于更多的应用场景,具有很高的封装性、拓展性、泛化性。将目 标检测算法和深度摄像头结合起来,实现目标检测和视觉定位,这样的方法优 势在于不需要人为的设定图像特征,可直接获取待检测目标的三维坐标,抗干扰性极强。
4、本申请可通过改变算法对应的训练文件使用所有YOLO系列算法进行目标 检测。可以根据实际情况的要求引用不同的YOLO算法,该方法具有高适应性和 灵活性,针对不同的环境进行开发,满足大部分目标检测要求,对后续的开发 具有很大的参考价值。
附图说明
图1为一种基于YOLO系列的目标检测和视觉定位方法流程示意图。
图2为待检测目标彩色图像目标检测结果中心点计算示意图。
图3为世界坐标系、彩色摄像头坐标系与深度摄像头坐标系。
具体实施方式
下面结合附图对本发明进一步说明。
如图1所示,一种基于YOLO系列的目标检测和视觉定位方法,包括以下步 骤:
(1)采集待检测目标的RGB彩色图像,自制待检测目标图像集;
具体的,步骤(1)中的RGB彩色图像由固定在待检测目标正上方的D435i 深度摄像头采集;所述D435i深度摄像头具备IMU、双目相机和红外发射器模块, 通过配置ROS环境使用。
(2)标注图像集,进行数据处理,定义训练、测试、验证样本;
具体的,步骤(2)中的标注图像的工具是Labelimg,以长方形框标注出待 检测目标的坐标和类别,以VOC格式输出;每张待检测图像生成一个对应的XML 文件;XML文件信息包括图像名字、路径、宽度、标注框的左上角坐标和右下角 坐标,所述坐标基于的坐标系为以待检测目标图像的左上角为原点(0,0),向 下为y轴正方向,向右为x轴正方向。所述数据处理包括数据增强和数据整理, 数据增强技术包括裁剪、平移、旋转、镜像、改变亮度、加噪声,扩展原有数 据集,增强模型的泛化能力;数据整理包括将数据集制作成VOC数据集格式, 所有图像文件存放在JPEGImages文件夹中,所有xml文件存放在Annotations 文件夹中,经处理得到四个txt文件:test.txt、train.txt、trainval.txt、 val.txt存放在ImageSets/Main文件夹下。test.txt保存的是测试所用的样本 名、train.txt保存的是训练所用的样本名、trainval.txt保存的是以上两个 文件的总和样本名、val.txt保存的是验证所用的样本名。
(3)上传训练样本到服务器,下载预训练权重,配置模型训练参数,权重 载入YOLO系列模型进行迁移训练;
具体的,步骤(3)中的服务器安装darknet深度学习框架;配置模型训练 参数包括修改“cfg/voc.data”文件,voc.data中保存了目标检测种类的名称, 修改YOLO系列所对应的cfg文件,cfg文件包含了YOLO系列目标检测算法的网 络结构和网络训练参数、测试参数。根据自己训练样本的种类和硬件的条件修 改种类参数、训练文件路径、测试文件路径、训练批次、anchors大小、卷积核 大小等。所述预训练权重为YOLO系列在Imagenet数据集和COCO数据集下进行 预训练得到的权重,自制的训练样本在预训练模型上进行迁移训练。
(4)封装训练好的迁移训练模型,嵌入ROS系统中。
具体的,将模型封装成ROS的一个节点,提供数据接口,以便被其他节点使 用,可嵌入其他基于机器视觉的研究中;把之前训练好的yolo系列模型文件里 面的cfg文件和weights文件,即yolo系列模型的网络模型和权重文件,分别 放到基于ROS搭建的系统的对应的文件夹下面;通过修改ros.yaml定义订阅的 话题和发布的话题,定义发布图像数据的话题叫“/camera/image”作为yolo_ros 节点的输入,定义目标物体类别名称“/darknet_ros/found_object”、预测框 坐标信息“/darknet_ros/bounding_boxes”、检测结果图片“/darknet_ros/detection_image”三个话题作为输出。
(5)深度摄像头置于待抓取目标上方,深度摄像头采集待检测目标的RGB 彩色图像和深度图像,将采集到的待检测目标的RGB彩色图像输入训练好的迁 移训练模型,计算出待检测目标的二维坐标信息、预测框的大小、类别及置信 度;
具体的,所述步骤(5)中的二维坐标信息包括预测框的左上角坐标 (xmin,ymin)和右下角的坐标(xmax,ymax),与标注的训练样本坐标定义相同,以 图片左上角为原点,向下为y轴正方向,向右为x轴正方向;类别为识别的分 类,置信度有两重定义,一为预测框是否含有对象的概率,二为表示当前的预 测框含有对象时,预测框与标定框可能的IOU值。
(6)结合待检测目标的深度图像信息,经坐标转换计算出待检测目标中心 在彩色摄像头坐标系下的三维坐标。
具体的,如图2所示,检测目标中心由步骤S5封装的ROS节点输出信息坐 标计算获得,待检测目标中心在RGB彩色图像的像素点为 ((xmax-xmin)/2,(ymax-ymin)/2)。
具体的,如图3所示,世界坐标系、彩色摄像头坐标系、深度摄像头坐标系, 世界坐标系用于描述摄像机在环境中的位置,并用它描述环境中的任何物体。 彩色摄像头内参、深度摄像头内参、世界坐标系到深度摄像头坐标系和世界坐 标系到彩色摄像头坐标系的欧式转换矩阵由相机标定所得,相机标定方法采用 最常用的张正友标定法。
步骤(6)中的深度图像素和彩色图像素坐标转换如下步骤:
S1、将深度图像的像素点还原到深度摄像头坐标系下;深度图像的像素点为 (ud,vd,zd)T,其中ud,vd,zd分别表示深度图像的横坐标,纵坐标和深度摄像头 坐标系下的和该坐标对应的深度值;定义
Figure BDA0002945895540000091
为深度图像下的Ad像素点,
Figure BDA0002945895540000092
为深 度图像下像素点按深度还原到深度摄像头坐标系下的空间点,深度图像的像素 点还原到深度摄像头坐标系下的公式为
Figure BDA0002945895540000093
其中Kd为深度摄像头内参。
S2、将深度摄像头坐标系下的空间点还原到世界坐标系下;定义Pw为深度图 像转换到世界坐标系下的点,转换公式为
Figure BDA0002945895540000094
其中Tw2d世界坐标系转换到 深度摄像头坐标系的转换矩阵。
S3、将世界坐标系的空间点转换到彩色摄像头坐标系下;定义
Figure BDA0002945895540000095
为彩色摄像 头坐标系下的空间点,转换公式为
Figure BDA0002945895540000096
其中Tw2c世界坐标系转换到深度摄 像头坐标系的转换矩阵。
S4、将彩色摄像头坐标系下的空间点映射到Z=1的彩色平面上,映射到z=1 为将各轴的数值按照z轴的值缩放,使z为1;定义
Figure BDA0002945895540000097
为世界坐标系转换到彩 色图像下的像素点,转换公式为
Figure BDA0002945895540000098
其中Kc为彩色图像摄像头内参,
Figure BDA0002945895540000099
表示按照z轴归一化,该点的x,y,z像素值均除以z像素值。
因为彩色图像摄像头和深度摄像头安装位置不同,所以需要转换坐标系使 RGB图像与深度图像坐标信息重合,将目标检测算法识别的中心点的二维信息结 合深度图像的深度值得到待检测目标在彩色坐标系下的三维坐标。定义从深度 摄像头坐标系到彩色摄像头坐标系的欧氏变换矩阵Td2c,从彩色摄像头坐标系到 深度摄像头坐标系的欧氏变换矩阵Tc2d;根据上述步骤可得:
Figure BDA0002945895540000101
欧式变换矩阵T形式如下:
Figure BDA0002945895540000102
其中R 是旋转矩阵,t是轴的平移量,根据欧式变换矩阵得到
Figure BDA0002945895540000103
Rw2d为世界坐标系转换到深度摄像头 坐标系的旋转矩阵,Rw2c为世界坐标系转换到彩色摄像头坐标系的旋转矩阵,tw2d世界坐标系转换到深度摄像头坐标系的轴的平移量,tw2c世界坐标系转换到彩色 摄像头坐标系的轴的平移量,根据转换矩阵即可转换彩色摄像头空间坐标系的 点和深度摄像头坐标系下的点,结合像素点到空间的转换公式和摄像头内参, 即可利用RGB彩色图像获取待检测目标中心像素坐标(uc,vc)到深度像素点 (ud,vd,zd)T的转换,最终得到世界坐标下即真实空间下的一点Pw(X,Y,Z)。
以上仅说明给出了详细的实施方式和具体操作过程,旨在对本发明进行详细 说明,但本发明的保护范围不限于此实施方式。

Claims (10)

1.一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,所述方法包括以下步骤:
采集待检测目标的RGB彩色图像,制做待检测目标图像集;
标注图像集,进行数据处理,分别定义训练样本、测试样本和验证样本;
上传训练样本到服务器,下载预训练权重,配置模型训练参数,权重载入YOLO系列模型进行迁移训练;
封装训练好的迁移训练模型,并嵌入ROS系统中;
采集待检测目标的RGB彩色图像和深度图像,将采集到的待检测目标的RGB彩色图像输入训练好的迁移训练模型,计算出待检测目标的二维坐标信息、类别及置信度;
结合待检测目标的深度图像,经坐标转换获得待检测目标中心的空间三维坐标。
2.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于:所述采集待检测目标的RGB彩色图像中,采用深度摄像头进行采集。
3.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,所述标注图像集,具体包括:
采用Labelimg进行标注,以框标注出待检测目标的坐标和类别,以VOC格式输出;每张待检测图像分别生成一个对应的文件,文件信息包括图像名字、路径、宽度、标注框的左上角坐标和右下角坐标。
4.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,所述数据处理包括数据增强和数据整理,所述数据增强包括裁剪、平移、旋转、镜像、改变亮度和加噪声,以扩展原有数据集;所述数据整理包括将数据集制作成VOC数据集格式,所有图像文件存放在同一个文件夹中,所有xml文件存放在另一文件夹中,经处理分别得到用于保存测试所用的样本名、训练所用的样本名、测试和训练的总和样本名以及验证所用的样本名的文件。
5.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于:所述上传训练样本到服务器,下载预训练权重,配置模型训练参数,权重载入YOLO系列模型进行迁移训练中,服务器安装有darknet深度学习框架;配置模型训练参数,根据训练样本的种类和硬件的条件修改种类参数、训练文件路径、测试文件路径、训练批次、anchors大小、卷积核大小,所述预训练权重为YOLO系列在Imagenet数据集和COCO数据集下进行预训练得到的权重,将训练样本在预训练模型上进行迁移训练。
6.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,所述封装训练好的迁移训练模型,并嵌入ROS系统中,具体包括:
将训练好的模型封装成ROS的一个节点,并提供数据接口;把训练好的yolo系列模型文件里面的cfg文件和权重文件分别放到基于ROS搭建的系统的对应的文件夹下面;并定义订阅的话题和发布的话题,定义发布图像数据的话题作为节点的输入,定义目标物体类别名称、预测框坐标信息、检测结果图片三个话题作为节点的输出。
7.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于:所述二维坐标信息包括预测框的左上角坐标(xmin,ymin)和右下角的坐标(xmax,ymax);所述类别为识别的分类,所述置信度有两重定义,一为预测框是否含有对象的概率,二为表示当前的预测框含有对象时,预测框与标定框可能的IOU值。
8.根据权利要求1所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于:所述待检测目标中心由封装的ROS节点输出信息坐标计算获得,待检测目标中心在彩色图片的像素点为((xmax-xmin)/2,(ymax-ymin)/2)。
9.根据权利要求1-8任一所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,所述坐标转换包括如下步骤:
将深度图像的像素点还原到深度摄像头坐标系下;深度图像的像素点为(ud,vd,zd)T,其中ud,vd,zd分别表示深度图像的横坐标,纵坐标和和该坐标对应的深度值;定义
Figure FDA0002945895530000031
为深度图像下的Ad像素点,
Figure FDA0002945895530000032
为深度图像下像素点按深度还原到深度摄像头坐标系下的空间点,深度图的像素点还原到深度摄像头坐标系下的公式为
Figure FDA0002945895530000033
其中Kd为深度摄像头内参;
将深度摄像头坐标系下的空间点还原到世界坐标系下;定义Pw为深度图像转换到世界坐标系下的空间点,转换公式为
Figure FDA0002945895530000034
其中Tw2d世界坐标系转换到深度摄像头坐标系的转换矩阵;
将世界坐标系的空间点转换到彩色摄像头坐标系下;定义
Figure FDA0002945895530000035
为彩色摄像头坐标系下的空间点,转换公式为
Figure FDA0002945895530000036
其中Tw2c世界坐标系转换到深度摄像头坐标系的转换矩阵;
将彩色摄像头坐标系下的空间点映射到Z=1的彩色平面上;定义
Figure FDA0002945895530000037
为世界坐标系转换到彩色图像的像素点,转换公式为
Figure FDA0002945895530000038
其中Kc为彩色图像摄像头内参,
Figure FDA0002945895530000039
表示按照z轴归一化,该点的x,y,z像素值均除以z像素值,将目标检测算法识别的中心点的二维坐标信息结合深度图像的深度值得到待检测目标在彩色坐标系下的三维坐标,定义从深度摄像头坐标系到彩色摄像头坐标系的欧氏变换矩阵Td2c,从彩色摄像头坐标系到深度摄像头坐标系的欧氏变换矩阵Tc2d,可得:
Figure FDA0002945895530000041
根据欧式变换矩阵得到
Figure FDA0002945895530000042
根据转换矩阵即可转换彩色摄像头坐标系的点和深度摄像头坐标系下的点,结合像素点到空间的转换公式和摄像头内参,即可利用彩色图像获取待检测目标中心坐标(xc,yc)到深度像素点(ud,vd,zd)T的转换,得到空间三维坐标(X,Y,Z)。
10.根据权利要求9所述的一种基于YOLO系列的目标检测和视觉定位方法,其特征在于,欧式变换矩阵T形式如下:
Figure FDA0002945895530000043
其中R是旋转矩阵,t是轴的平移量。
CN202110193024.3A 2021-02-20 2021-02-20 一种基于yolo系列的目标检测和视觉定位方法 Pending CN112927297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110193024.3A CN112927297A (zh) 2021-02-20 2021-02-20 一种基于yolo系列的目标检测和视觉定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110193024.3A CN112927297A (zh) 2021-02-20 2021-02-20 一种基于yolo系列的目标检测和视觉定位方法

Publications (1)

Publication Number Publication Date
CN112927297A true CN112927297A (zh) 2021-06-08

Family

ID=76170002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110193024.3A Pending CN112927297A (zh) 2021-02-20 2021-02-20 一种基于yolo系列的目标检测和视觉定位方法

Country Status (1)

Country Link
CN (1) CN112927297A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113180709A (zh) * 2021-07-01 2021-07-30 晓智未来(成都)科技有限公司 一种基于摄影测量的人体待检测部位姿态识别方法
CN113313084A (zh) * 2021-07-28 2021-08-27 中国航空油料集团有限公司 一种基于深度学习的睡岗检测方法
CN113554691A (zh) * 2021-07-22 2021-10-26 河北农业大学 一种植株高度测量方法
CN113723389A (zh) * 2021-08-30 2021-11-30 广东电网有限责任公司 一种支柱式绝缘子定位方法及装置
CN113808202A (zh) * 2021-08-11 2021-12-17 浙江工商大学 一种多目标检测和空间定位方法及其系统
CN114241404A (zh) * 2021-11-19 2022-03-25 武汉志远智能控制技术有限公司 卸料小车定位方法、装置、设备及存储介质
CN114898320A (zh) * 2022-05-30 2022-08-12 西南交通大学 一种基于YOLO v5的列车定位方法及系统
CN115019553A (zh) * 2021-07-22 2022-09-06 苏州旭安交通科技有限公司 基于区域检测的行人斑马线预警装置
CN116061187A (zh) * 2023-03-07 2023-05-05 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9304582B1 (en) * 2013-12-19 2016-04-05 Amazon Technologies, Inc. Object-based color detection and correction
CN107016704A (zh) * 2017-03-09 2017-08-04 杭州电子科技大学 一种基于增强现实的虚拟现实实现方法
CN109255813A (zh) * 2018-09-06 2019-01-22 大连理工大学 一种面向人机协作的手持物体位姿实时检测方法
CN111080693A (zh) * 2019-11-22 2020-04-28 天津大学 一种基于YOLOv3的机器人自主分类抓取方法
CN111832513A (zh) * 2020-07-21 2020-10-27 西安电子科技大学 基于神经网络的实时足球目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9304582B1 (en) * 2013-12-19 2016-04-05 Amazon Technologies, Inc. Object-based color detection and correction
CN107016704A (zh) * 2017-03-09 2017-08-04 杭州电子科技大学 一种基于增强现实的虚拟现实实现方法
CN109255813A (zh) * 2018-09-06 2019-01-22 大连理工大学 一种面向人机协作的手持物体位姿实时检测方法
CN111080693A (zh) * 2019-11-22 2020-04-28 天津大学 一种基于YOLOv3的机器人自主分类抓取方法
CN111832513A (zh) * 2020-07-21 2020-10-27 西安电子科技大学 基于神经网络的实时足球目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
侯荣波等: ""基于ORB-SLAM的室内机器人定位和三维稠密地图构建"", 《计算机应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113180709A (zh) * 2021-07-01 2021-07-30 晓智未来(成都)科技有限公司 一种基于摄影测量的人体待检测部位姿态识别方法
CN113554691A (zh) * 2021-07-22 2021-10-26 河北农业大学 一种植株高度测量方法
CN113554691B (zh) * 2021-07-22 2022-05-10 河北农业大学 一种植株高度测量方法
CN115019553A (zh) * 2021-07-22 2022-09-06 苏州旭安交通科技有限公司 基于区域检测的行人斑马线预警装置
CN113313084A (zh) * 2021-07-28 2021-08-27 中国航空油料集团有限公司 一种基于深度学习的睡岗检测方法
CN113808202A (zh) * 2021-08-11 2021-12-17 浙江工商大学 一种多目标检测和空间定位方法及其系统
CN113723389A (zh) * 2021-08-30 2021-11-30 广东电网有限责任公司 一种支柱式绝缘子定位方法及装置
CN114241404A (zh) * 2021-11-19 2022-03-25 武汉志远智能控制技术有限公司 卸料小车定位方法、装置、设备及存储介质
CN114898320A (zh) * 2022-05-30 2022-08-12 西南交通大学 一种基于YOLO v5的列车定位方法及系统
CN116061187A (zh) * 2023-03-07 2023-05-05 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法
CN116061187B (zh) * 2023-03-07 2023-06-16 睿尔曼智能科技(江苏)有限公司 一种复合机器人对货架商品识别、定位和抓取方法

Similar Documents

Publication Publication Date Title
CN112927297A (zh) 一种基于yolo系列的目标检测和视觉定位方法
CN108694369B (zh) 基于图形图像来预测多个姿势
CN105818167B (zh) 采用远距数字摄像头校准铰接的末端执行器的方法
CN110400315A (zh) 一种缺陷检测方法、装置及系统
WO2022170844A1 (zh) 一种视频标注方法、装置、设备及计算机可读存储介质
CN107368790B (zh) 行人检测方法、系统、计算机可读存储介质及电子设备
CN110335314A (zh) 基于目标物体的二维图像预测目标物体实时位姿的方法
CN111695633A (zh) 基于rpf-cam的低照度目标检测方法
CN111553949A (zh) 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN115063573A (zh) 一种基于注意力机制的多尺度目标检测方法
CN112927279A (zh) 一种图像深度信息生成方法、设备及存储介质
CN109816634B (zh) 检测方法、模型训练方法、装置及设备
Elmquist et al. Modeling cameras for autonomous vehicle and robot simulation: An overview
CN112365578A (zh) 基于双摄像机的三维人体模型重构系统及方法
CN110516751A (zh) 三维数据的处理方法、系统及设备
CN113516656B (zh) 一种基于ACGAN和Cameralink相机的缺陷图像数据处理仿真方法
CN114332942A (zh) 基于改进YOLOv3的夜间红外行人检测方法及系统
CN114119987A (zh) 基于卷积神经网络的特征提取和描述子生成方法及系统
Li et al. Silhouette-assisted 3d object instance reconstruction from a cluttered scene
CN116630642A (zh) 一种基于生成对抗网络的红外弱小目标数据集生成方法
CN113920378B (zh) 基于注意力机制的柴胡种子识别方法
WO2023086398A1 (en) 3d rendering networks based on refractive neural radiance fields
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN115620141A (zh) 一种基于加权可变形卷积目标检测方法和装置
WO2023069085A1 (en) Systems and methods for hand image synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination