CN116486287A - 基于环境自适应机器人视觉系统的目标检测方法及系统 - Google Patents
基于环境自适应机器人视觉系统的目标检测方法及系统 Download PDFInfo
- Publication number
- CN116486287A CN116486287A CN202310349405.5A CN202310349405A CN116486287A CN 116486287 A CN116486287 A CN 116486287A CN 202310349405 A CN202310349405 A CN 202310349405A CN 116486287 A CN116486287 A CN 116486287A
- Authority
- CN
- China
- Prior art keywords
- target detection
- target
- data
- point cloud
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 108
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000005286 illumination Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 34
- 238000013507 mapping Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于环境自适应机器人视觉系统的目标检测方法及系统,属于目标检测技术领域,所述系统包括数据获取模块、图像处理模块、点云处理模块及数据融合模块;本发明利用相机和激光雷达具有互补性,可以相互弥补各自的局限性,将图像信息与点云信息进行了决策级融合;并采用训练好的图像自适应YOLOV5(IA‑YOLOV5)网络模型,先对RGB图像数据进行预处理,后利用YOLOV5网络进行目标检测,提高了低照度条件下目标检测精度。本发明在数据融合模块使用CLOCS算法进行决策级数据融合,两种模态的目标检测网络结构之间互不干扰该,可以独自训练和组合以应对各种环境和场景,具有更强的鲁棒性。
Description
技术领域
本发明属于目标检测技术领域,具体涉及基于环境自适应机器人视觉系统的目标检测方法及系统。
背景技术
随着科技不断进步,机器人在工业、农业、医疗、救援等领域的应用越来越广泛,机器人视觉系统的重要性也随之增加。机器人视觉系统能够帮助机器人感知环境并执行任务,而目标检测则是机器人视觉系统中的一个重要组成部分。传统的目标检测方法通常采用单一传感器,例如相机或激光雷达。相机具有分辨率高、语义丰富等优点,但易受光照、天气等因素影响,成像质量难以保证,而且获取的图像数据缺乏深度信息,难以表征目标的空间特征。激光雷达具有精确的3D感知能力,探测距离较远、鲁棒性较高、对光线变化不敏感,但激光雷达点云数据较为稀疏,分辨率较低,无法获取目标物体的纹理信息。
近年来,机器人应用领域和使用场景越来越复杂,基于单一传感器的机器人视觉系统由于其各自的缺点,无法满足更加精确的感知需求。采用多传感器进行目标识别能够实现不同类型传感器在时间、空间及功能上的互补,并且能够避免某个单一传感器在探测过程中发生故障,导致无法正常工作的问题。同时,多传感器系统还具备检测结果的冗余性和融合能力,即当某个单一传感器出现故障或误差时,其它传感器可以相互协作、互相确认并融合数据,从而提高系统的容错能力和检测目标的置信度。
虽然多传感器融合目标检测带来了许多显著的优势,但是如何进行高效的数据融合对于机器人视觉系统的设计提出了严峻的挑战,特别是在低照度条件下,比如黑夜、雨雾等天气下,恶劣的环境会产生大量噪点干扰目标检测结果,容易造成系统漏检或错检等问题。
发明内容
针对现有技术中存在的低照度场景下视觉系统图像特征缺失导致的目标检测精度下降问题,本发明提供了基于环境自适应机器人视觉系统的目标检测方法及系统,利用不同传感器之间优势互补,通过光学相机RGB图像和激光雷达3D点云的决策级融合方式,可以实现低照度场景下鲁棒高效的3D目标检测结果,以应对机器人在多种场景下感知环境的需求。
本发明通过如下技术方案实现:
基于环境自适应机器人视觉系统的目标检测方法,具体包括如下步骤:
S1:通过机器人平台所搭载的相机和激光雷达设备,分别采集RGB图像数据和3D点云数据,用以获取周围目标物的状态信息;
S2:获取相机和激光雷达的坐标系映射关系,并进行联合标定和时间同步;
S3:将实时获取的RGB图像数据输入到图像处理模块中,该模块采用训练好的图像自适应YOLOV5网络模型进行RGB图像处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成2D目标检测候选框,并进行分类标签,输出多目标的位置、目标类别和置信度信息;
S4:将实时获取的3D点云数据输入到点云处理模块,该模块采用训练好的SECOND网络模型进行3D点云数据处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成3D目标检测候选框,并进行分类标签,输出多目标的位置、置信度和三维大小信息;
S5:将所述2D目标检测候选框和3D目标检测候选框输入到数据融合模块,该模块采用训练好的CLOCS网络模型进行决策级数据融合和目标匹配,对相机和激光雷达得到的目标物体的位置信息进行空间融合,对空间融合后的数据进行目标匹配及特征信息融合,最后完成目标检测任务。
进一步地,步骤S2中,获取相机和激光雷达的坐标系映射关系并进行联合标定,具体包括如下内容:
S21:对所述相机进行内参标定,利用标定后的相机在不同角度采集预设棋盘格的RGB图像数据;
S22:利用所述激光雷达获取所述预设棋盘格的3D点云数据;
S23:选用Autoware标定工具,根据所述预设棋盘格的3D点云数据和RGB图像数据对所述相机和激光雷达进行联合标定,得到相机和激光雷达的坐标系映射关系,将RGB图像数据与3D点云数据时间同步。
进一步地,步骤S3中,采用训练好的图像自适应YOLOV5网络模型进行RGB图像处理和目标检测,具体包括:首先将相机采集的高分辨率RGB图像调整大小得到256×256的低分辨率图像,并将其输入到基于CNN的参数预测器用以预测可微分图像处理模块(DIP)的参数,然后,原来的高分辨率图像输入到可微分图像处理模块(DIP)过滤消除天气干扰信息并且保留更多的潜在信息,过滤后的图像作为YOLOV5网络的输入,对目标进行特征提取和目标识别。
进一步地,所述可微分图像处理模块(DIP),由六个可调超参数的可微分滤波器组成,包括去雾、白平衡、灰度、对比度、色调和锐化;用于在低照度条件下对相机采集的RGB图像数据进行预处理,过滤消除光照、天气影响,使RGB图像保留更多的潜在信息,并将处理后的RGB图像数据作为目标检测器YOLOV5的输入数据;
所述基于CNN的参数预测器,由五个卷积模块和两个全连接层组成;每个卷积模块包括一个stride为2的3×3卷积层和一个leaky Relu层,最后的全连接层输出可微分图像处理模块(DIP)的超参数。主要通过了解图像全局内容来预测调节可微分图像处理模块(DIP)的参数,如亮度、颜色、色调以及雾天成度;
所述YOLOV5网络模型,由输入端、Backbone、Neck、Prediction四个部分组成,用于以可微分图像处理模块(DIP)处理后的RGB图像数据为输入,对上述RGB图像数据进行目标检测,输出多目标的位置、目标类别和置信度信息,生成2D目标检测候选框。
进一步地,步骤S4中,采用训练好的SECOND网络模型进行3D点云数据处理和目标检测,具体包括:将点云数据表示为三维体素网格;使用Voxel Feature Encoding模块对体素进行特征编码;使用Region Proposal Network模块提取候选区域;使用交叉熵损失函数进行网络训练;使用NMS算法获得最终的目标检测结果。
进一步地,所述SECOND网络模型,包括Voxel Feature Encoding模块和RegionProposal Network模块;
所述Voxel Feature Encoding模块:用于将3D点云数据表示为三维体素网格,并对每个体素进行特征编码;该模块采用基于3D卷积神经网络(CNN)的方法,对每个体素周围的点云数据进行特征提取;
所述Region Proposal Network模块:用于对Voxel Feature Encoding模块输出的特征图进行处理,提取候选区域(region proposal),即可能包含目标的区域;该模块采用基于2D卷积神经网络(CNN)的方法,对特征图进行处理,产生候选区域。
进一步地,在训练过程中,SECOND网络使用交叉熵损失函数,将网络预测的类别和边界框与真实标签进行比较,并计算损失值;同时,还使用交并比作为正负样本的阈值;
在测试阶段中,SECOND网络对点云数据进行前向传播,并输出每个候选区域的置信度和边界框信息;然后使用非极大抑制对重叠的候选区域进行合并,以获得最终的目标检测结果。
进一步地,步骤S5中,采用训练好的CLOCS网络模型进行决策级数据融合和目标匹配,具体包括:首先,将2D候选框和3D候候选框转换为联合的检测候选物体集合,编码形成稀疏张量,然后,在稀疏张量中使用2D-CNN处理非空元素,并对数据做特征融合;最后,通过最大池化将该处理后的张量映射到所需的学习目标中,最终得到3D目标检测结果。
另一方面,本发明还提供了基于环境自适应机器人视觉系统的目标检测系统,包括:
数据获取模块,用于实时获取机器人平台上搭载的多传感器数据,所述多传感器数据包括相机RGB图像数据和激光雷达3D点云数据;
图像处理模块,用于将实时获取的RGB图像数据输入到训练好的图像自适应YOLOV5网络检测模型中,得到2D目标检测候选框和物体信息;
点云处理模块,用于将实时获取的3D点云数据输入训练好的SECOND网络检测模型中,得到3D目标检测候选框和物体信息;
数据融合模块,采用CLOCS网络将上述两个处理模块输出的目标检测候选物信息进行决策级融合和目标匹配,最终得到3D目标检测结果。
与现有技术相比,本发明的优点如下:
本发明利用相机和激光雷达具有互补性,可以相互弥补各自的局限性,将图像信息与点云信息进行了决策级融合,能够满足机器人视觉系统目标检测任务对检测精度及检测速度的要求。
本发明针对相机在低照度条件下因图像特征缺失导致的目标检测精度下降问题,采用训练好的图像自适应YOLOV5(IA-YOLOV5)网络模型,先对RGB图像数据进行预处理,后利用YOLOV5网络进行目标检测,提高了目标检测精度。
本发明根据应用场景和具体任务需要,在图像处理模块和点云处理模块中分别使用了IA-YOLOV5和SECOND一阶段目标检测网络进行特征提取,可以快速地对物体进行检测和定位,适用于实时应用场景。
本发明在数据融合模块使用CLOCS算法进行决策级数据融合,两种模态的目标检测网络结构之间互不干扰该,可以独自训练和组合以应对各种环境和场景,具有更强的鲁棒性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1:本发明的基于环境自适应机器人视觉系统的目标检测方法的流程示意图;
图2:本发明中图像处理模块IA-YOLOV5网络模型流程图;
图3:本发明中点云处理模块SECOND网络模型流程图;
图4:本发明中数据融合模块CLOCs网络模型流程图;
图5:本发明的基于环境自适应机器人视觉系统的目标检测系统的结构示意图。
具体实施方式
为清楚、完整地描述本发明所述技术方案及其具体工作过程,结合说明书附图,本发明的具体实施方式如下:
实施例1
如图1所示,在本发明一个实施例中,基于环境自适应机器人视觉系统的目标检测方法,包括如下步骤:
S100,通过机器人平台所搭载的相机和激光雷达设备,实时获取机器人视觉系统的多传感器数据,所述多传感器数据包括RGB图像数据和3D点云数据。
S200,获取相机和激光雷达的坐标系映射关系,并进行联合标定和时间同步,具体包括如下步骤:
(1).准备一块150*120mm棋盘格标定板,将其固定在平面上,在不同的角度和距离下,使用相机拍摄标定板,使用Autoware_camera_calibration算法获得相机内参,利用标定后的相机在不同角度采集预设棋盘格的RGB图像数据;
(2).利用所述激光雷达获取所述棋盘格的3D点云数据;
(3).选用Autoware软件,使用Camera-LiDAR-Calibration算法,根据所述预设棋盘格的3D点云数据和RGB图像数据对所述相机和激光雷达进行联合标定,得到相机和激光雷达的坐标系映射关系,将RGB图像数据与3D点云数据时间同步。
上述相机和激光雷达的坐标系映射关系具体为:
其中,(Xc,Yc,Zc)为相机坐标系的三维点坐标,(Xl,Yl,Zl)为激光雷达坐标系中的三维点坐标,R是3×3的旋转矩阵,T是3×1的平移矩阵,M即为相机坐标系到激光雷达坐标系的变换矩阵。
S300,将实时获取的RGB图像数据输入到图像处理模块中,该模块采用训练好的图像自适应YOLOV5(IA-YOLOV5)网络模型如图2所示,进行RGB图像处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成2D目标检测候选框,并进行分类标签,输出多目标的位置、目标类别和置信度等信息;具体包括如下步骤:
(1).数据集准备:收集恶劣天气条件下的目标检测数据集,本实例中采用了VOC2012和ExDark数据集,对数据集进行预处理和划分。
(2).模型训练:使用预处理后的数据集,训练IA-YOLOV5网络模型,获得IA-YOLOV5网络模型权重参数。
(3).模型评估:使用测试数据集对训练好的模型进行评估。
(4).模型优化:使用控制变量法调整训练参数,多次实验后分析对比结果,选择最优模型。
(5).目标检测:使用训练好的IA-YOLOV5模型对新的输入图像进行目标检测,生成2D目标检测候选框,并进行分类标签,输出多目标的位置、目标类别和置信度等信息。
YOLOV5是一种单阶段目标检测算法,该算法在YOLOV4的基础上,通过引入CSPNet结构和其他优化措施,显著减少了模型的参数量和计算量,提高了检测速度。IA-YOLOV5网络模型是以YOLOV5为主干网络,在结合实际需求作好对IA-YOLOV5的训练后,本实例中IA-YOLOV5网络模块,采用GPU上进行实际测试式处理速率可达到每秒56帧,该速率已经能够满足机器人视觉系统的实时处理要求。
S400,如图3所示,将实时获取的3D点云数据输入到点云处理模块,该模块采用训练好的SECOND网络模型,进行3D点云数据处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成3D目标检测候选框,并进行分类标签,输出多目标的位置、置信度和三维大小等信息,具体包括如下步骤:
(1).数据预处理:使用KITTI数据集训练好SECOND网络模型,本实例采用PandarXT-16型号激光雷达收集数据,将3D点云数据转换为体素化表示,确定体素大小和体素数量等参数,并将每个点映射到其所属的体素;
(2).特征提取:使用体素特征编码器从体素化表示中提取有意义的特征表示,包含3D点云数据的局部和全局信息;
(3).物体检测:使用稀疏卷积特征提取器对每个体素进行分类和位置回归,以确定其是否包含物体以及物体的位置和大小等信息;
(4).物体分割:使用分割算法对物体候选框进行分割,将候选框内的3D点云数据聚类,并将聚类结果转换为物体的几何表示,以提取物体的准确形状。
(5).物体识别:使用Anchor-based方法,将一些预定义的3DAnchor Boxes与特征层中的每个位置对齐,使用softmax分类器和回归器来预测检测框的类别和位置;
(6).后处理:使用非极大值抑制(NMS)算法对物体候选框进行筛选,利用投票策略对多个检测结果进行合并,以进一步提高其准确性和鲁棒性。
S500,如图4所示,将所述2D目标检测候选框和3D目标检测候选框输入到数据融合模块,该模块采用训练好的CLOCS网络模型进行决策级数据融合和目标匹配,对相机和激光雷达得到的目标物体的位置信息进行空间融合,对空间融合后的数据进行目标匹配及特征信息融合,最后完成目标检测任务。具体包括如下步骤:
(1).首先将2D候选框和3D候候选框转换为转化为一个稀疏的张量;
进一步地,2D候选框稀疏输入张量如下所示:
P2D表示一张RGB图像中所有的k个目标候选框,对于第i个是像素坐标中边界框的左上和右下角,/>是自信分数。
进一步地,3D候选框稀疏输入张量如下所示:
P3D表示一帧点云数据所有的k个目标候选框,对于第i个分别表示目标尺度、位置及偏航角,/>是自信分数。
进一步地,融合后的稀疏张量如下所示:
构建了k*n*4的矩阵T,其中k和n分别表示2D和3D检测的数量,其中IoUi,j是第i个2D检测和第j个预测3D检测的交叉区域。和/>分别表示2D检测和3D检测的自信分数。dj表示第j个3D边界框和激光雷达在xy平面的正则距离。
(2).利用1*1的2D-CNN网络处理在稀疏输入张量中的非空元素,并对数据做特征融合。网络输入通道、输出通道、kernel size和步幅参数设置如下所示:
Conv2D(4,18,(1,1),1)
Conv2D(18,36,(1,1),1)
Conv2D(36,36,(1,1),1)
Conv2D(36,1,(1,1),1)
进一步地,生成一个1*p*1的张量;
(3).通过一维max pooling将处理后的张量映射到所需的学习目标中,以获得综合的3D目标检测结果。
实施例2
如图5所示,在本发明一个实施例中,提供了基于环境自适应机器人视觉系统的目标检测系统,包括数据获取模块、图像处理模块、点云处理模块、以及数据融合模块;
数据获取模块,用于实时获取机器人视觉系统的多传感器数据,所述多传感器数据包括相机图像数据、激光雷达数据。
图像处理模块,用于将实时获取的RGB图像数据输入到训练好的图像自适应YOLOV5(IA-YOLOV5)网络检测模型中,得到2D目标检测候选框和物体信息;
点云处理模块,用于将实时获取的3D点云数据输入训练好的SECOND网络检测模型中,得到3D目标检测候选框和物体信息;
数据融合模块,采用CLOCS网络将上述两个处理模块输出的目标检测候选物信息进行决策级融合和目标匹配,最终得到3D目标检测结果。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (9)
1.基于环境自适应机器人视觉系统的目标检测方法,其特征在于,具体包括如下步骤:
S1:通过机器人平台所搭载的相机和激光雷达设备,分别采集RGB图像数据和3D点云数据,用以获取周围目标物的状态信息;
S2:获取相机和激光雷达的坐标系映射关系,并进行联合标定和时间同步;
S3:将实时获取的RGB图像数据输入到图像处理模块中,该模块采用训练好的图像自适应YOLOV5网络模型进行RGB图像处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成2D目标检测候选框,并进行分类标签,输出多目标的位置、目标类别和置信度信息;
S4:将实时获取的3D点云数据输入到点云处理模块,该模块采用训练好的SECOND网络模型进行3D点云数据处理和目标检测,识别低照度条件下的目标物体,提取其特征信息,生成3D目标检测候选框,并进行分类标签,输出多目标的位置、置信度和三维大小信息;
S5:将所述2D目标检测候选框和3D目标检测候选框输入到数据融合模块,该模块采用训练好的CLOCS网络模型进行决策级数据融合和目标匹配,对相机和激光雷达得到的目标物体的位置信息进行空间融合,对空间融合后的数据进行目标匹配及特征信息融合,最后完成目标检测任务。
2.如权利要求1所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,步骤S2中,获取相机和激光雷达的坐标系映射关系并进行联合标定,具体包括如下内容:
S21:对所述相机进行内参标定,利用标定后的相机在不同角度采集预设棋盘格的RGB图像数据;
S22:利用所述激光雷达获取所述预设棋盘格的3D点云数据;
S23:选用Autoware标定工具,根据所述预设棋盘格的3D点云数据和RGB图像数据对所述相机和激光雷达进行联合标定,得到相机和激光雷达的坐标系映射关系,将RGB图像数据与3D点云数据时间同步。
3.如权利要求1所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,步骤S3中,采用训练好的图像自适应YOLOV5网络模型进行RGB图像处理和目标检测,具体包括:首先将相机采集的高分辨率RGB图像调整大小得到256×256的低分辨率图像,并将其输入到基于CNN的参数预测器用以预测可微分图像处理模块的参数,然后,原来的高分辨率图像输入到可微分图像处理模块过滤消除天气干扰信息并且保留更多的潜在信息,过滤后的图像作为YOLOV5网络的输入,对目标进行特征提取和目标识别。
4.如权利要求1所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,所述可微分图像处理模块,由六个可调超参数的可微分滤波器组成,包括去雾、白平衡、灰度、对比度、色调和锐化;用于在低照度条件下对相机采集的RGB图像数据进行预处理,过滤消除光照、天气影响,使RGB图像保留更多的潜在信息,并将处理后的RGB图像数据作为目标检测器YOLOV5的输入数据;
所述基于CNN的参数预测器,由五个卷积模块和两个全连接层组成;每个卷积模块包括一个stride为2的3×3卷积层和一个leaky Relu层,最后的全连接层输出图像处理模块的超参数。主要通过了解图像全局内容来预测可微分图像处理模块的参数,如亮度、颜色、色调以及雾天成度;
所述YOLOV5网络,由输入端、Backbone、Neck、Prediction四个部分组成,用于以图像处理模块处理后的RGB图像数据为输入,对上述RGB图像数据进行目标检测,输出多目标的位置、目标类别和置信度信息,生成2D目标检测候选框。
5.如权利要求1所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,步骤S4中,采用训练好的SECOND网络模型进行3D点云数据处理和目标检测,具体包括:将点云数据表示为三维体素网格;使用Voxel Feature Encoding模块对体素进行特征编码;使用Region Proposal Network模块提取候选区域;使用交叉熵损失函数进行网络训练;使用NMS算法获得最终的目标检测结果。
6.如权利要求5所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,所述SECOND网络模型,包括Voxel Feature Encoding模块和Region Proposal Network模块;
所述Voxel Feature Encoding模块:用于将3D点云数据表示为三维体素网格,并对每个体素进行特征编码;该模块采用基于3D卷积神经网络的方法,对每个体素周围的点云数据进行特征提取;
所述Region Proposal Network模块:用于对Voxel Feature Encoding模块输出的特征图进行处理,提取候选区域,即可能包含目标的区域;该模块采用基于2D卷积神经网络的方法,对特征图进行处理,产生候选区域。
7.如权利要求5所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,在训练过程中,SECOND网络使用交叉熵损失函数,将网络预测的类别和边界框与真实标签进行比较,并计算损失值;同时,还使用交并比作为正负样本的阈值;
在测试阶段中,SECOND网络对点云数据进行前向传播,并输出每个候选区域的置信度和边界框信息;然后使用非极大抑制对重叠的候选区域进行合并,以获得最终的目标检测结果。
8.如权利要求1所述的基于环境自适应机器人视觉系统的目标检测方法,其特征在于,步骤S5中,采用训练好的CLOCS网络模型进行决策级数据融合和目标匹配,具体包括:首先,将2D候选框和3D候候选框转换为联合的检测候选物体集合,编码形成稀疏张量,然后,在稀疏张量中使用2D-CNN处理非空元素,并对数据做特征融合;最后,通过最大池化将该处理后的张量映射到所需的学习目标中,最终得到3D目标检测结果。
9.基于环境自适应机器人视觉系统的目标检测系统,用于实现权利要求1-8任一项所述的方法,其特征在于,包括:
数据获取模块,用于实时获取机器人平台上搭载的多传感器数据,所述多传感器数据包括相机RGB图像数据和激光雷达3D点云数据;
图像处理模块,用于将实时获取的RGB图像数据输入到训练好的图像自适应YOLOV5网络检测模型中,得到2D目标检测候选框和物体信息;
点云处理模块,用于将实时获取的3D点云数据输入训练好的SECOND网络检测模型中,得到3D目标检测候选框和物体信息;
数据融合模块,采用CLOCS网络将上述两个处理模块输出的目标检测候选物信息进行决策级融合和目标匹配,最终得到3D目标检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349405.5A CN116486287A (zh) | 2023-04-04 | 2023-04-04 | 基于环境自适应机器人视觉系统的目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349405.5A CN116486287A (zh) | 2023-04-04 | 2023-04-04 | 基于环境自适应机器人视觉系统的目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486287A true CN116486287A (zh) | 2023-07-25 |
Family
ID=87224313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310349405.5A Pending CN116486287A (zh) | 2023-04-04 | 2023-04-04 | 基于环境自适应机器人视觉系统的目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486287A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274510A (zh) * | 2023-11-22 | 2023-12-22 | 天津博优智能科技有限公司 | 一种基于三维建模和结构尺寸测量的车体故障检测方法 |
CN117611592A (zh) * | 2024-01-24 | 2024-02-27 | 长沙隼眼软件科技有限公司 | 一种异物检测方法、装置、电子设备以及存储介质 |
CN117970893A (zh) * | 2024-03-29 | 2024-05-03 | 中科先进(深圳)集成技术有限公司 | 一种多机器人的协同制造方法、装置、系统和存储介质 |
CN118501846A (zh) * | 2024-05-14 | 2024-08-16 | 北京中科飞鸿科技股份有限公司 | 一种光电探测装置、成像接收模组 |
-
2023
- 2023-04-04 CN CN202310349405.5A patent/CN116486287A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274510A (zh) * | 2023-11-22 | 2023-12-22 | 天津博优智能科技有限公司 | 一种基于三维建模和结构尺寸测量的车体故障检测方法 |
CN117274510B (zh) * | 2023-11-22 | 2024-05-24 | 天津博优智能科技有限公司 | 一种基于三维建模和结构尺寸测量的车体故障检测方法 |
CN117611592A (zh) * | 2024-01-24 | 2024-02-27 | 长沙隼眼软件科技有限公司 | 一种异物检测方法、装置、电子设备以及存储介质 |
CN117611592B (zh) * | 2024-01-24 | 2024-04-05 | 长沙隼眼软件科技有限公司 | 一种异物检测方法、装置、电子设备以及存储介质 |
CN117970893A (zh) * | 2024-03-29 | 2024-05-03 | 中科先进(深圳)集成技术有限公司 | 一种多机器人的协同制造方法、装置、系统和存储介质 |
CN118501846A (zh) * | 2024-05-14 | 2024-08-16 | 北京中科飞鸿科技股份有限公司 | 一种光电探测装置、成像接收模组 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948661B (zh) | 一种基于多传感器融合的3d车辆检测方法 | |
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN113111887B (zh) | 一种基于相机和激光雷达信息融合的语义分割方法及系统 | |
CN116486287A (zh) | 基于环境自适应机器人视觉系统的目标检测方法及系统 | |
CN113269040B (zh) | 结合图象识别与激光雷达点云分割的驾驶环境感知方法 | |
CN111340797A (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
JP6305171B2 (ja) | シーン内の物体を検出する方法 | |
CN111429514A (zh) | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 | |
CN112396650A (zh) | 一种基于图像和激光雷达融合的目标测距系统及方法 | |
CN114022830A (zh) | 一种目标确定方法以及目标确定装置 | |
CN107392929B (zh) | 一种基于人眼视觉模型的智能化目标检测及尺寸测量方法 | |
CN114359181B (zh) | 一种基于图像和点云的智慧交通目标融合检测方法及系统 | |
CN110033431A (zh) | 钢桥表面锈蚀区域检测的非接触式检测装置及检测方法 | |
CN115049821A (zh) | 一种基于多传感器融合的三维环境目标检测方法 | |
CN115546741A (zh) | 一种双目视觉和激光雷达无人艇海洋环境障碍物识别方法 | |
TWI745204B (zh) | 基於深度學習之高效率光達物件偵測方法 | |
CN114639115B (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
CN112949380B (zh) | 一种基于激光雷达点云数据的智能水下目标识别系统 | |
CN114399675A (zh) | 一种基于机器视觉与激光雷达融合的目标检测方法和装置 | |
CN116079749B (zh) | 基于聚类分离条件随机场的机器人视觉避障方法及机器人 | |
CN115731545A (zh) | 一种基于融合感知的电缆隧道巡检方法及装置 | |
CN110826575A (zh) | 一种基于机器学习的水下目标识别方法 | |
CN116978009A (zh) | 基于4d毫米波雷达的动态物体滤除方法 | |
CN118411507A (zh) | 一种具有动态目标的场景的语义地图构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |