CN115170662A - 基于yolov3和卷积神经网络的多目标定位方法 - Google Patents
基于yolov3和卷积神经网络的多目标定位方法 Download PDFInfo
- Publication number
- CN115170662A CN115170662A CN202210786206.6A CN202210786206A CN115170662A CN 115170662 A CN115170662 A CN 115170662A CN 202210786206 A CN202210786206 A CN 202210786206A CN 115170662 A CN115170662 A CN 115170662A
- Authority
- CN
- China
- Prior art keywords
- target
- training
- positioning
- convolutional neural
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于yolov3和卷积神经网络的多目标定位方法,包括离线训练阶段和在线定位阶段,离线训练阶段划分子区域,获取训练数据;利用yolov3网络训练rgb色彩图建立目标检测模型;根据目标检测结果对深度图像进行分割和图像融合,得到训练数据指纹;最后利用卷积神经网络得到位置估计模型;在线定位阶段,利用目标检测模型进行图像融合得到在线数据指纹;确定每个目标的位置估计模型,得到目标位置。本发明通过yolov3网络和卷积神经网络经离线训练阶段建立位置估计模型,并对深度图像进行切割和融合,提取训练定位指纹,经在线阶段利用在线定位指纹和位置估计模型,完成多目标定位,解决了现有目标定位方法预测灵活性不足、准确性不够的问题。
Description
技术领域
本发明涉及一种基于yolov3和卷积神经网络的多目标定位方法,属于深度学习领域。
背景技术
多目标识别和定位技术的研究一直以来都是计算机视觉(Computer Vision,CV)领域中最基本、最具有挑战性的研究课题之一。
现在主流的多目标识别技术主要有两种,雷达目标识别技术和图像目标识别技术。前者由于激光雷达获取的点云能够保留丰富的物体原有的几何信息,在自动驾驶和军工等场景下获得了很多关注。但是因为激光雷达点云是一种稀疏的和非结构化的数据,相较于图像识别技术而言,处理点云数据需要更多的计算机算力,所以日常场景中多应用图像目标识别技术。
近几年来,图像目标识别技术取得了很大的突破。比较流行的算法可以分为两类:一类是基于Region Proposal的R-卷积神经网络系算法,它们是two-stage的,需要:1)先算法产生目标候选框,也就是目标位置。2)然后对候选框做分类与回归。先进行区域生成,该区域称之为region proposal(简称RP,一个可能包含待检物体的预选框),再通过卷积神经网络进行样本分类。常见的two-stage目标识别算法有:R-卷积神经网络,SPP-Net,Fast R-卷积神经网络,Faster R-卷积神经网络和R-FCN等。另一类是YOLO、SSD这类的one-stage算法,其仅仅使用一个卷积神经网络直接预测不同目标的类别和位置。不用RP,直接在网络中提取特征来预测物体分类和位置。常见的one-stage目标识别算法有:OverFeat,YOLOV1,YOLOV2,YOLOV3,SSD和RetinaNet等。第一类方法准确度高一些,但是速度慢,第二类方法速度快,但是准确度要低一些。
多目标定位已有多年的发展历史,现有的定位技术大概有:红外线定位技术、超声波定位技术、蓝牙定位技术、ZigBee定位技术、超宽带(UWB)定位技术、WiFi定位技术等等,这些方法各有利弊。随着各种相机、深度学习技术的发展,多目标定位同时也向着深度学习视觉定位的方向发展。
相对于传统的定位技术稳定性较差,受噪声的干扰比较大等弊端,利用卷积神经网络技术可以提供更广泛的潜在预测变量和更丰富的功能形式规格。正是这种灵活性推动了定位技术的前沿。学术界对定位的深度学习方法的兴趣也得到了提高。在深度学习各项技术中,卷积神经网络用于统计预测的各种高维模型增加了数据预测的灵活性,这种灵活性可以更好地逼近实际生活中复杂的环境变化过程。但是,随着灵活性的提高,出现过拟合数据的可能性更高。因此,一些用于模型选择和缓解过拟合的所谓“正则化”方法对深度学习拟合过程进行了改进,这些改进更注重强调稳定的样本外性能,从而明确防止过拟合。最后,对于许多预测变量而言,可以使用搜索的有效算法模拟潜在的模型运行,在控制成本的前提下逼近最佳预测规范。
有鉴于此,确有必要提供一种基于yolov3和卷积神经网络的多目标定位方法,以解决上述问题。
发明内容
本发明的目的在于提供一种基于yolov3和卷积神经网络的多目标定位方法,以解决现有目标定位方法预测灵活性不足、准确性不够的问题。
为实现上述目的,本发明提供了一种基于yolov3和卷积神经网络的多目标定位方法,包含离线训练阶段和在线定位阶段两个阶段,
离线训练阶段包括:
步骤1:将定位区间分成若干个子区间,利用相机获取每个子区间的训练数据,训练数据包括点云信息、rgb色彩图和深度图像;
步骤2:采用yolov3网络对rgb色彩图进行多目标检测识别离线训练,得到训练结果,并建立多目标检测模型;
步骤3:根据多目标检测模型输出的目标识别结果,对深度图像进行切割和融合,提取每个目标的训练定位指纹;
步骤4:利用卷积神经网络进行离线回归训练,得到每个子区间的位置估计模型;
在线定位阶段包括:
步骤5:利用相机采集在线数据,在线数据包括点云信息、rgb色彩图和深度图像;
步骤6:将步骤5得到的rgb色彩图送入步骤2的多目标检测模型,输出目标检测结果,完成目标识别;
步骤7:利用步骤6得到的目标检测结果,对步骤5所得的深度图像进行分割和融合,得到每个目标的在线定位指纹;
步骤8:利用步骤5所得的每个目标的点云信息,确定每个目标适用的步骤4的所述位置估计模型,结合步骤7所述在线定位指纹,完成多目标定位。
作为本发明的进一步改进,步骤1具体包括:
步骤11:根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤12:在每个子区间中,目标处于不同的参考点上,利用相机获取训练信息,训练信息至少包括目标的点云信息、rgb色彩图、深度图像。
作为本发明的进一步改进,步骤2具体包括:
步骤21:对采集的rgb色彩图打上目标的标签,制作训练数据集;
步骤22:利用yolov3网络对步骤21训练数据集进行分类学习训练,得到训练结果,并建立多目标检测模型。
作为本发明的进一步改进,步骤3具体包括:
步骤31:根据步骤2的多目标检测模型的对每个目标的box信息的输出,得到每个目标在训练数据的rgb色彩图中的位置信息;
步骤32:根据目标在rgb色彩图中的位置,对每个目标识别结果找到目标对应于步骤1深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤33:将基于目标分割的分隔深度图与步骤1中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标的训练定位指纹。
作为本发明的进一步改进,步骤4具体包括:
步骤41:将步骤3得到的每个目标的训练定位指纹和对应的位置信息,送入卷积神经网络进行特征提取,经过卷积层和池化层后,提取最后一层池化层后的张量,铺平展开为1024维特征向量;
步骤42:将1024维特征向量送入全连接网络,利用全连接网络进行基于每个子区间位置的离线回归学习,得到回归预测模型。
作为本发明的进一步改进,步骤41中,卷积神经网络包括四层卷积层和三层池化层。
作为本发明的进一步改进,步骤42中,卷积神经网络的全连接网络包括四层全连接层。
作为本发明的进一步改进,步骤5具体包括:
步骤51:采用相机根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤52:在每个子区间中,目标处于不同的参考点上,利用相机获取在线信息,在线信息至少包括目标的点云信息、rgb色彩图、深度图像。
作为本发明的进一步改进,步骤7具体包括:
步骤71:根据步骤6的多目标检测模型的对每个目标的box信息的输出,得到每个目标在在线数据的rgb色彩图中的位置信息;
步骤72:根据目标在rgb色彩图中的位置,对每个目标识别结果找到目标对应于步骤5深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤73:将基于目标分割的分隔深度图与步骤5中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标的在线定位指纹。
作为本发明的进一步改进,步骤8具体包括:
步骤81:利用多目标检测模型输出的每个目标的box信息,获取box中心像素点,提取其在点云信息中对应的深度信息;
步骤82:为了避免rgb色彩图片中像素点在点云信息中深度信息的空洞现象,假定选取box中心像素点位置为(x,y),选择rgb色彩图片中位置坐标为(x,y)、(x-1,y)、(x+1,y)、(x,y-1)、(x,y+1)共五个像素点在点云信息中的深度信息的中间值。
本发明的有益效果是:与现有技术相比,本发明的基于yolov3和卷积神经网络的多目标定位方法通过yolov3网络和卷积神经网络经离线训练阶段建立位置估计模型,并对深度图像进行切割和融合,提取训练定位指纹,经在线阶段利用在线定位指纹和位置估计模型,完成多目标定位,解决了现有目标定位方法预测灵活性不足、准确性不够的问题。
附图说明
图1是本发明优选实施例的基于yolov3和卷积神经网络的多目标定位方法的步骤图。
图2是本发明的流程图。
图3是本发明的yolov3网络的结构示意图。
图4是本发明的基于yo l ov3目标结果输出示意图。
图5是本发明的色彩深度图像分割结果示意图。
图6是本发明的色彩深度图像的图像融合示意图。
图7是本发明的色彩深度图像的图像融合结果示意图。
图8是本发明的卷积神经网络的结构示意图。
图9是本发明目标深度信息描述示意图。
图10是本发明的基于点云测量值的目标深度信息示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
另外,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
请参阅图1和图2所示,本发明提供了一种基于yolov3和卷积神经网络的多目标定位方法,包括离线训练阶段和在线定位阶段两个阶段,
离线训练阶段包括:
步骤1:利用相机采集训练数据,训练数据包括点云信息、rgb色彩图和深度图像;
步骤2:采用yo l ov3网络进行多目标检测识别离线训练,得到训练结果,并建立多目标检测模型;
步骤3:利用卷积神经网络对步骤2所得训练结果进行基于子区间的多目标位置的离线回归训练;
步骤4:利用卷积神经网络进行离线回归训练,得到每个子区间的位置估计模型;
步骤1具体包括:
步骤11:采用相机根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤12:在每个子区间中,目标处于不同的参考点上,利用相机获取训练信息,训练信息至少包括目标的点云信息、rgb色彩图、深度图像。
步骤2具体包括:
步骤21:对采集的rgb色彩图打上目标的标签,制作训练数据集。具体的,本申请中使用l abe l Img工具,将相机采集的rgb色彩图打上l abe l,制作目标识别的训练数据集。
步骤22:利用yolov3网络对训练数据集进行分类学习训练,得到训练结果,并建立多目标检测模型。具体的,将步骤21中制作好的训练数据集按8:1:1(训练集:验证集:测试集)的比例送入yolov3网络,使其建立多目标检测模型。
详细地,请参阅图3所示,yolov3算法是在yolov1和yolov2的基础上进行综合改进后的版本,该算法在运行时间和检测精度上均取得了良好的优势。相比于前两个版本,yolov3算法调整了网络结构,采用Darknet-53网络结构。
yolov3的backbone部分由yolov2时期的Darknet-19进化至Darknet-53,加深了网络层数,引入了Resnet中的跨层加和操作。图2中,concat操作与加和操作的区别:加和操作来源于ResNet思想,将输入的特征图与输出特征图的对应维度进行相加,即y=f(x)+x;而concat操作源于DenseNet网络的设计思想,根据通道维度直接对特征图进行拼接。使上采样(unsample)的作用是通过插值等方法将小尺度特征图转换成大尺寸图像,上采样不改变特征图的通道数。
Darknet-53的输入图像分辨率为416×416,则分别经过32倍,16倍,8倍下采样后的用来预测的三个特征层大小分别为13×13,26×26,52×52,这三个特征输出图分别通过Num个1×1的卷积核进行卷积预测,Num的计算公式如下:
Num=(4+1+class)×k
其中,k为预设边界框的个数,一般默认为9,class是预测目标的类别个数。
相比于前两个版本,yolov3算法有三处改进:1、调整了网络结构,采用Darknet-53网络结构;2、采用了3个不同尺度的特征图来进行目标检测,如表1所示;3、采用逻辑回归算法对目标边界框进行预测。
表1特征图预设边界框参数
请参阅图4所示,为本发明基于yolov3目标结果输出示意图,图中虚线矩形框为预设边界框,实线矩形框为通过网络预测的偏移量计算得到的预测边界框。其中(cx,cy)为预设边界框在特征图上的中心坐标,(pw,ph)为预设边界框在特征图上的宽和高,(tx,ty,tw,th)分别为网络预测的边界框中心偏移量(tx,ty)以及宽高缩放比(tw,th),(bx,by,bw,bh)为最终预测的目标边界框,从预设边界框到最终预测边界框的转换过程如以下公式所示,其中σ(x)函数是sigmoid函数其目的是将预测偏移量缩放到0到1之间:
bx=σ(tx)+cx
by=σ(ty)+cy
另外,yolov3算法中还对损失函数进行了改进,用二元交叉熵损失函数表示类别损失。yolov3的损失函数主要分为三个部分:目标定位偏移量损失Lloc(l,g),目标置信度损失Lconf(o,c)以及目标分类损失Lcla(O,C),其中λ1,λ2,λ3是平衡系数:
L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)
目标置信度可以理解为预测目标矩形框内存在目标的概率,目标置信度损失Lconf(o,c)采用的是二值交叉熵损失(Binary Cross Entropy),其中oi∈{0,1},表示预测目标边界框i中是否真实存在目标,0表示不存在,1表示存在。表示预测目标矩形框i内是否存在目标的Sigmoid概率:
目标类别损失Lcla(O,C)同样采用的是二值交叉熵损失,其中Oij∈{0,1},表示预测目标边界框i中是否真实存在第j类目标,0表示不存在,1表示存在。表示网络预测目标边界框i内存在第j类目标的Sigmoid概率:
目标定位损失Lloc(l,g)采用的是真实偏差值与预测偏差值差的平方和,其中表示预测矩形框坐标偏移量,表示与之匹配的GTbox与默认框之间的坐标偏移量,(bx,by,bw,bh)为预测的目标矩形框参数,(cx,cy,cw,ch)为默认矩形框参数,(gx,gy,gw,gh)为与之匹配的真实目标矩形框参数,这些参数都是映射在预测特征图上的:
请参阅图5~图7所示,步骤3具体包括:
步骤31:通过多目标识别结果,对深度图像进行切割和融合,提取每个目标的训练定位指纹;
步骤31具体包括:
步骤311:根据步骤2多目标检测模型的对每个目标box信息的输出,得到每个目标在训练数据的rgb色彩图中的位置信息,其中输出的目标的box信息包括目标的左上、右下坐标、置信率、目标类别等关键信息。
步骤312:对每个目标识别结果,根据目标在rgb色彩图中的位置,找到目标对应于步骤1所得的深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤312主要进行的是图像融合,其中图像分割技术采用OpenCV中的mask掩膜技术,具体操作步骤如下:首先根据测试图像输入目标检测模型后输出的信息,提取分割区域坐标;然后根据分割区域坐标,手动制作mask掩膜。mask掩膜内的像素值置为255,mask掩膜外的像素值置为0;最后将mask掩膜与目标深度图按位做“与”操作,进行图像分割。
步骤313:将基于目标分割的分隔深度图与步骤1中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标训练定位指纹。
步骤313主要进行的是图像融合,将分隔深度图与骤1中得到的原始深度图像进行图像融合。本发明使用的图像融合技术为OpenCV中的线性混合技术,其原理如下:假设有2个图像矩阵f0(x)和f1(x),在两个图像融合时,各自的权重分别为α和β,则二者融合后的目标图像g(x)中各像素通道值的计算公式为:
g(x)=αf0(x)+βf1(x)+γ
上述公式中两幅图像的权重α和β取值没有强制要求,但一般情况建议α+β=1。γ为修正系数,默认设置为0。
步骤4具体包括:
步骤41:将步骤31得到的每个目标的训练定位指纹和对应的位置信息,送入卷积神经网络进行特征提取,经过卷积层和池化层后,提取最后一层池化层后的张量,铺平展开为1024维特征向量;
步骤42:将1024维特征向量送入全连接网络,利用全连接网络进行基于每个子区间位置的离线回归学习,得到回归预测模型。
步骤41中,卷积神经网络包括四层卷积层和三层池化层。
步骤42中,卷积神经网络的全连接网络包括四层全连接层。
详细地,请参阅图8所示,描述了本发明具体实现所采用的卷积神经网络的结构。卷积神经网络(CNN)是一种广泛使用的深度学习技术,具有出色的图像识别性能。卷积神经网络和普通的神经网络具有许多相似之处,它们都是模仿人类神经的结构,由具有可学习的权重和偏置常数的神经元组成。每一个神经元可以接收输入信号,经过运算后输出每一个分类的分数。但是,卷积神经网络的输入一般是图像,卷积网络进行卷积池化,成功将数据量多的图像不断降维,最终使其能够被训练。卷积神经网络的特征是由一个或多个卷积层和池化层组成。卷积神经网络具有三个独特的概念:本地过滤器,最大池和权重共享。卷积神经网络中主要有三种层,即卷积层,池化层和完全连接层。
假设训练集一张图片X为卷积神经网络的输入,s(i,j)是表示卷积神经网络的第i层特征矩阵,s(i,j)可以表示为如下公式:
其中,n为输入矩阵的个数,或者是张量的最后一维的维数。Xk代表第k个输入矩阵。Wk代表卷积核的第k个子卷积核矩阵。s(i,j)即卷积核W对应的输出矩阵的对应位置元素的值,b表示第i层的偏移量矩阵。
卷积神经网络进行卷积层操作之后,然后进入池化层,池化层用于对卷积层计算得到的特征图进行下采样操作,降低网络模型的复杂度,对急剧变化的特征图进行均衡化操作。经过多次卷积和采样操作,最后利用卷积神经网络的全连接层生成一维特征向量,方便后续处理。
整个卷积池化过程中经常使用的两种激活函数ReLU、Elu如下所示:
ReLU激活函数:
Elu激活函数:
ReLU激活函数是分段线性函数,属于单侧抑制函数,它使神经元具有了稀疏激活性。Elu激活函数存在负值,可以将激活单元的输出均值向0推近,具有批量归一化的效果,而且减少了计算量。卷积训练过程容易产生过拟合,容易产生简单的模型,需要在全连接层后添加Dropout层,一般取值范围为0.4-0.6,使用反向传播算法训练模型。
以单张图片为例:输入的图片数据形式为128×128×3,经过第一次卷积之后(3×3×32,stride=1),数据变为128×128×32的形式;经过第二次卷积之后(3×3×32,stride=2),数据变为64×64×32的形式,经过第一次池化,数据变为32×32×32的形式;经过第三次卷积之后(3×3×64,stride=2),数据变为16×16×64的形式,经过第二次池化,数据变为8×8×64的形式;经过第四次卷积之后(3×3×128,stride=2),数据变为4×4×128的形式,经过第三次池化,数据变为2×2×128的形式;拉直后经过第一个全连接层连接,然后输出1024个特征,经过第二个全连接层连接,输出256个特征,再经过第三个全连接层,输出64个特征,最后经过第四个全连接层,输出1个特征,即最终的特征向量。
在线定位阶段包括:
步骤5:利用相机采集在线数据,在线数据包括点云信息、rgb色彩图和深度图像;
步骤6:将步骤5得到的rgb色彩图送入步骤2的多目标检测模型,输出目标检测结果,完成目标识别;
步骤7:利用步骤6得到的目标检测结果,对步骤5所得的深度图像进行分割和融合,得到每个目标的在线定位指纹;
步骤8:利用步骤5所得的每个目标的点云信息,确定每个目标适用的步骤4位置估计模型,结合步骤7在线定位指纹,完成多目标定位。
步骤5和步骤1的采集过程相似,具体包括:
步骤51:采用相机根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤52:在每个子区间中,目标处于不同的参考点上,利用相机获取在线信息,在线信息至少包括目标的点云信息、rgb色彩图、深度图像。
步骤7具体包括:
步骤71:根据步骤6的多目标检测模型的对每个目标的box信息的输出,得到每个目标在在线数据的rgb色彩图中的位置信息;
步骤72:根据目标在rgb色彩图中的位置,对每个目标识别结果找到目标对应于步骤5深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤73:将基于目标分割的分隔深度图与步骤5中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标的在线定位指纹。
步骤8具体包括:
步骤81:利用多目标检测模型输出的每个目标的box信息,获取box中心像素点,提取其在点云信息中对应的深度信息;
步骤82:为了避免rgb色彩图片中像素点在点云信息中深度信息的空洞现象,假定选取box中心像素点位置为(x,y),选择rgb色彩图片中位置坐标为(x,y)、(x-1,y)、(x+1,y)、(x,y-1)、(x,y+1)共五个像素点在点云信息中的深度信息的中间值。
如图9所示,两个摄像头放置在同一水平线,Zl表示左摄像头的光轴,Zr表示右摄像头的光轴,摄像头的焦距时f,b表示两个摄像头坐标原点之间的距离,d为图像上点P到摄像头水平线的距离,任意点P在左、右摄像机的成像点是Pl和Pr,Pl和Pr在x轴上的坐标分别为x1和x2,则由相似三角形定理推导得:
转化后得到:
在空间的立体测距中,由相似三角形关系并结合视察可以得出:
其实,这也是内参矩阵的推导过程。不过,要将像素坐标转换为齐次坐标:
Puv=KTPw
本发明利用上述原理,将目标识别模型输出的box中心点坐标m(u,v)映射到点云坐标系M(x,y,z),即由相机坐标系映射到世界坐标系。其中,因为相机坐标系和世界坐标系的坐标原点重合,所以相机坐标系和世界坐标系下的同一个物体具有相同的深度。因此,为了防止rgb色彩图片中像素点在点云中因为深度信息发生突变而造成的空洞现象,假定box中心像素点位置为(x,y),选择rgb色彩图片中位置坐标为(x,y)、(x-1,y)、(x+1,y)、(x,y-1)、(x,y+1)共五个像素点中不存在空洞现象的点,对其深度信息求平均,用于后续确定目标的位置估计模型。
本发明利用相机实现多目标的识别和定位,充分利用现有设备的测量功能,不需要添加任何测量硬件,具有硬件开销小,系统集成度高的优势。
本发明将yolov3网络与卷积神经网络相结合完成多目标的识别和定位。yolov3网络能够提升目标的检测精度,尤其是小目标的检测能力。同时为目标在深度图中的分割提供位置信息。
本发明通过对目标深度图的分割与融合,突出目标位置指纹信息,提高目标定位性能。同时对定位区间的划分,得到多个定位区间的位置估计模型。利用相机点云测量值,提取目标的点云的深度值,选择更加合适的位置估计模型进行定位,提高定位精度
综上所述,本发明的基于yolov3和卷积神经网络的多目标定位方法通过yolov3网络和卷积神经网络经离线训练阶段建立位置估计模型,并对深度图像进行切割和融合,提取训练定位指纹,经在线阶段利用在线定位指纹和位置估计模型,完成多目标定位,解决了现有目标定位方法预测灵活性不足、准确性不够的问题。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于yolov3和卷积神经网络的多目标定位方法,包含离线训练阶段和在线定位阶段两个阶段,其特征在于:
离线训练阶段包括:
步骤1:将定位区间分成若干个子区间,利用相机获取每个子区间的训练数据,训练数据包括点云信息、rgb色彩图和深度图像;
步骤2:采用yolov3网络对rgb色彩图进行多目标检测识别离线训练,得到训练结果,并建立多目标检测模型;
步骤3:根据多目标检测模型输出的目标识别结果,对深度图像进行切割和融合,提取每个目标的训练定位指纹;
步骤4:利用卷积神经网络进行离线回归训练,得到每个子区间的位置估计模型;
在线定位阶段包括:
步骤5:利用相机采集在线数据,在线数据包括点云信息、rgb色彩图和深度图像;
步骤6:将步骤5得到的rgb色彩图送入步骤2的多目标检测模型,输出目标检测结果,完成目标识别;
步骤7:利用步骤6得到的目标检测结果,对步骤5所得的深度图像进行分割和融合,得到每个目标的在线定位指纹;
步骤8:利用步骤5所得的每个目标的点云信息,确定每个目标适用的步骤4的所述位置估计模型,结合步骤7所述在线定位指纹,完成多目标定位。
2.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤1具体包括:
步骤11:根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤12:在每个子区间中,目标处于不同的参考点上,利用相机获取训练信息,训练信息至少包括目标的点云信息、rgb色彩图、深度图像。
3.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤2具体包括:
步骤21:对采集的rgb色彩图打上目标的标签,制作训练数据集;
步骤22:利用yolov3网络对步骤21训练数据集进行分类学习训练,得到训练结果,并建立多目标检测模型。
4.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤3具体包括:
步骤31:根据步骤2的多目标检测模型的对每个目标的box信息的输出,得到每个目标在训练数据的rgb色彩图中的位置信息;
步骤32:根据目标在rgb色彩图中的位置,对每个目标识别结果找到目标对应于步骤1深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤33:将基于目标分割的分隔深度图与步骤1中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标的训练定位指纹。
5.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤4具体包括:
步骤41:将步骤3得到的每个目标的训练定位指纹和对应的位置信息,送入卷积神经网络进行特征提取,经过卷积层和池化层后,提取最后一层池化层后的张量,铺平展开为1024维特征向量;
步骤42:将1024维特征向量送入全连接网络,利用全连接网络进行基于每个子区间位置的离线回归学习,得到回归预测模型。
6.根据权利要求5的基于yolov3和卷积神经网络的多目标定位方法,其特征在于:步骤41中,卷积神经网络包括四层卷积层和三层池化层。
7.根据权利要求5的基于yolov3和卷积神经网络的多目标定位方法,其特征在于:步骤42中,卷积神经网络的全连接网络包括四层全连接层。
8.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤5具体包括:
步骤51:采用相机根据不同位置在相机中的点云信息,将定位区间分成若干个子区间;
步骤52:在每个子区间中,目标处于不同的参考点上,利用相机获取在线信息,在线信息至少包括目标的点云信息、rgb色彩图、深度图像。
9.根据权利要求6的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤7具体包括:
步骤71:根据步骤6的多目标检测模型的对每个目标的box信息的输出,得到每个目标在在线数据的rgb色彩图中的位置信息;
步骤72:根据目标在rgb色彩图中的位置,对每个目标识别结果找到目标对应于步骤5深度图像中的位置,并将像素设为1,深度图像的其他位置像素设置为0,完成对深度图像的分割,得到分隔深度图;
步骤73:将基于目标分割的分隔深度图与步骤5中得到的原始深度图像对应位置的像素值进行相加,进行像素级融合,在原始深度图像中融入目标位置特征,形成每个目标的在线定位指纹。
10.根据权利要求1的基于yolov3和卷积神经网络的多目标定位方法,其特征在于,步骤8具体包括:
步骤81:利用多目标检测模型输出的每个目标的box信息,获取box中心像素点,提取其在点云信息中对应的深度信息;
步骤82:为了避免rgb色彩图片中像素点在点云信息中深度信息的空洞现象,假定选取box中心像素点位置为(x,y),选择rgb色彩图片中位置坐标为(x,y)、(x-1,y)、(x+1,y)、(x,y-1)、(x,y+1)共五个像素点在点云信息中的深度信息的中间值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210786206.6A CN115170662A (zh) | 2022-07-04 | 2022-07-04 | 基于yolov3和卷积神经网络的多目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210786206.6A CN115170662A (zh) | 2022-07-04 | 2022-07-04 | 基于yolov3和卷积神经网络的多目标定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170662A true CN115170662A (zh) | 2022-10-11 |
Family
ID=83491168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210786206.6A Pending CN115170662A (zh) | 2022-07-04 | 2022-07-04 | 基于yolov3和卷积神经网络的多目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170662A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821745A (zh) * | 2023-04-10 | 2023-09-29 | 浙江万能弹簧机械有限公司 | 智能线切割慢走丝设备的控制方法及其系统 |
-
2022
- 2022-07-04 CN CN202210786206.6A patent/CN115170662A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821745A (zh) * | 2023-04-10 | 2023-09-29 | 浙江万能弹簧机械有限公司 | 智能线切割慢走丝设备的控制方法及其系统 |
CN116821745B (zh) * | 2023-04-10 | 2024-04-09 | 浙江万能弹簧机械有限公司 | 智能线切割慢走丝设备的控制方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | A dual neural network for object detection in UAV images | |
CN112418236B (zh) | 一种基于多任务神经网络的汽车可行驶区域规划方法 | |
Li et al. | Implementation of deep-learning algorithm for obstacle detection and collision avoidance for robotic harvester | |
Kim et al. | Fast pedestrian detection in surveillance video based on soft target training of shallow random forest | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN110705600A (zh) | 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质 | |
CN111898432A (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
Nguyen et al. | Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes | |
Dinh et al. | Transfer learning for vehicle detection using two cameras with different focal lengths | |
Das et al. | Automated Indian sign language recognition system by fusing deep and handcrafted feature | |
Ye et al. | Steering angle prediction YOLOv5-based end-to-end adaptive neural network control for autonomous vehicles | |
CN115375781A (zh) | 一种数据处理方法及其装置 | |
CN115631344A (zh) | 一种基于特征自适应聚合的目标检测方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
Panda et al. | Kernel density estimation and correntropy based background modeling and camera model parameter estimation for underwater video object detection | |
Liang et al. | Car detection and classification using cascade model | |
Xiao et al. | Apple ripeness identification from digital images using transformers | |
CN115170662A (zh) | 基于yolov3和卷积神经网络的多目标定位方法 | |
Qiu et al. | A moving vehicle tracking algorithm based on deep learning | |
Shao et al. | Multi-spectral cloud detection based on a multi-dimensional and multi-grained dense cascade forest | |
Nguyen et al. | Smart solution to detect images in limited visibility conditions based convolutional neural networks | |
Song et al. | ODSPC: deep learning-based 3D object detection using semantic point cloud | |
Varlik et al. | Filtering airborne LIDAR data by using fully convolutional networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |