CN115861760A - 一种基于相机的目标检测与跟踪方法及系统 - Google Patents

一种基于相机的目标检测与跟踪方法及系统 Download PDF

Info

Publication number
CN115861760A
CN115861760A CN202211730293.XA CN202211730293A CN115861760A CN 115861760 A CN115861760 A CN 115861760A CN 202211730293 A CN202211730293 A CN 202211730293A CN 115861760 A CN115861760 A CN 115861760A
Authority
CN
China
Prior art keywords
feature
information
detection
network
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211730293.XA
Other languages
English (en)
Inventor
时培成
李龙
朱迎奥
江彤
许柳柳
高坤
周定华
海滨
高立新
周之光
沙文瀚
张荣芸
王建平
杨爱喜
王启蒙
赵夕长
王远志
武新世
潘佳伟
桑国海
徐中梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Polytechnic University
Original Assignee
Anhui Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Polytechnic University filed Critical Anhui Polytechnic University
Priority to CN202211730293.XA priority Critical patent/CN115861760A/zh
Publication of CN115861760A publication Critical patent/CN115861760A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于相机的目标检测与跟踪方法,具体如下:基于相机采集的实际交通场景图片和自动驾驶数据集相关图片,将其相关信息输入主干特征网络进行特征提取,初步得到图像相关特征信息;基于注意力机制,选择性的提取目标检测所需要的图像通道间的位置信息和深层语义信息,抑制无效信息;将基于主干特征提取网络和注意力机制提取出的图像特征信息输入多尺度特征融合网络进行特征融合,得到所需的深层图像信息;基于网络事先设定好的先验框,对所得预测框进行非极大值抑制后输出检测框,得到目标检测结果;我们保留所有检测框并在每个检测框之间关联,从而减少丢失的检测并保持轨迹的持久性,降低了模型对真阳性的漏检风险。

Description

一种基于相机的目标检测与跟踪方法及系统
技术领域
本发明属于自动驾驶环境感知技术领域,更具体地,本发明涉及一种基于相机的目标检测与跟踪方法及系统。
背景技术
目标检测与跟踪方法是建立自动驾驶感知系统的关键。传统的目标检测算法通常依赖于具体的应用场景和人工设计的特征,泛化能力差。随着近年来卷积神经网络在计算机视觉领域的广泛应用,基于卷积神经网络的目标检测取得了优异的性能。
目前,现有的基于相机图像的目标检测方法,通常利用卷积神经网络对相机图像进行位置信息和语义信息提取,得到目标检测所需要的种类、位置以及置信度信息,进而得到目标检测结果。但是传统的卷积神经网络通常需要对所得图像进行大量训练,使用大量参数才能够达到令人满意的精度,在自动驾驶实际应用场景中检测目标的速度与位置会发生变化,导致基于相机的目标检测准确度较低。
发明内容
本发明的目的在于提供一种基于相机的目标检测与跟踪方法,旨在改善上述问题。
本发明是这样实现的,一种基于相机的目标检测与跟踪方法,所述方法具体包括如下步骤:
S1、基于相机采集的实际交通场景图片和自动驾驶数据集相关图片,将其相关信息输入主干特征网络进行特征提取,初步得到图像相关特征信息;
S2、基于注意力机制,选择性的提取目标检测所需要的图像通道间的位置信息和深层语义信息,抑制无效信息;
S3、将基于主干特征提取网络和注意力机制提取出的图像特征信息输入多尺度特征融合网络进行特征融合,得到所需的深层图像信息;
S4、基于网络事先设定好的先验框,对所得预测框进行非极大值抑制后输出检测框,得到目标检测结果;
S5、依据检测框对相关目标进行关联,进行稳定跟踪,进一步提高目标检测的可靠性。
进一步的,初步得到图像相关特征信息具体方法如下
S11、将相机当前采集的包含实际交通场景中常见的目标的图片和已有的公开自动驾驶数据集图片相结合,组成一个符合所在地实际路况的新数据集;
S12、将当前的新数据集按照一定比例进行训练集、测试集、验证集的划分,使用Labelimg对数据集图像进行标签标定,得到轻量化主干特征提取网络所需的xml数据标签格式;
S13、将数据集中所有训练集中的图像使用Mosaic数据增强方法,将数据集中的图像每四张组合在一起,进行随机缩放、裁剪、排布后拼接,可以提高检测目标细节信息提取的完整性,将使用Mosaic数据增强后的图像输入主干特征提取网络Mobilenetv2中,初步进行图像特征信息提取。
进一步的,使用注意力机制选择性获取通道间位置信息和语义信息的方法具体如下:
S21、使用两种不同步长(s)的结构堆叠组成主干特征提取网络Mobilenetv2;
S22、当s=2时,主干特征提取网络使用线性瓶颈结构提取特征,采取1×1点卷积升维并使用Relu6激活函数,之后使用3×3深度卷积,再使用Relu6激活函数,再用1×1点卷积降维,降维后使用Linear激活函数,这样的卷积操作方式有利于减少训练时的参数量。
S23、当s=1时,主干特征提取网络使用反向残差结构提取特征,为了使使网络自适应调整通道间关系和位置信息,提高特征提取的指向性,将协调注意力机制嵌入3×3深度卷积和1×1降维点卷积之间,进而有效增强感兴趣对象的表示,充分提取特征信息。
进一步的,进行多尺度特征融合得到图像深层信息方法具体如下:
S31、基于主干特征提取网络和注意力机制获得的三个不同尺度的特征层分别位于中间层、中下层、底层;
S32、为了充分利用不同尺度特征图所包含的特征信息,将网络的第七层、第十四层和第十八层提取的不同尺度的特征信息输入PANet网络中分别通过上采样后进行特征拼接和下采样后进行特征拼接,分别得到了融合丰富位置信息和语义信息的两条路径,以实现特征融合,并获取丰富的特征信息。
进一步的,得到目标检测结果的过程具体如下:
S41、将充分融合的特征信息输入检测头Yolo Head中进行3×3卷积特征整合和1×1卷积调整通道数处理。网络会判断这些框内是否包含物体及其种类从而输出预测结果。
S42、对预测结果进行解码可得到预测框的中心以及尺寸,从而实现目标的定位回归。将得到的预测结果进行得分排序,取出每一类得分大于设定阈值的检测结果,利用置信度进行NMS非极大值抑制筛选后,即可得到目标检测结果。
进一步的,依据检测框对相关目标进行关联,进行稳定跟踪的过程具体如下:
S51、保留了每个检测框,并将它们分为高分和低分。我们首先将高分检测框与轨迹相关联。
S52、将低分检测框和其不匹配的轨迹关联起来,以恢复低分检测框中的对象并同时过滤掉背景。
进一步的,所述目标包括但不限于:汽车、行人及骑自行车的人。
本发明是这样实现的,一种基于相机的目标检测与跟踪系统,所述系统包括:
设于车辆上的单目相机及与单目相机通讯连接处理单元,处理单元内集成有训练好的Mobilenetv2-CA网络模型;
单目相机实时采集前方的环境图像,发送至处理单元;
处理单元基于上述基于相机的目标检测与跟踪方法来提取前方的目标。
与现有技术相比,本发明的有益效果:
(1)充分利用2D检测器提取的图像信息,不仅使用目标图像的浅层位置信息,还使用了深层的语义信息;
(2)在数据输入端使用注意力机制丰富原始图像所能提取的不同通道间的位置信息和语义信息,提高Mobilenetv2轻量化网络提取的信息质量,并且不增加训练成本,能够提高检测器的效率;
(3)对于在实际交通场景中检测时,许多被遮挡的目标可以被正确检测却因置信度过低或包含损害跟踪性能的背景而被过滤,我们保留所有检测框并在每个检测框之间关联,从而减少丢失的检测并保持轨迹的持久性,降低了模型对真阳性的漏检风险,提升了在自动驾驶场景中目标检测准确性与跟踪稳定性。
附图说明
图1为本发明实施提供的基于相机的目标检测与跟踪方法流程图。
图2为本发明实施提供的基于相机的目标检测与跟踪系统的结构示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
图1为本发明实施提供的基于相机的目标检测与跟踪方法流程图,该方法具体包括如下步骤:
S1、基于相机采集的实际交通场景图片和自动驾驶数据集相关图片,将其相关信息输入主干特征网络进行特征提取,初步得到图像相关特征信息;
S11、将相机当前采集的包含实际交通场景中常见的目标的图片和已有的公开自动驾驶数据集图片相结合,组成一个符合所在地实际路况的新数据集;
在本发明实施例中,单目相机采集的是当前环境的图像,单目相机结构简单且成本较低,便于部署在车辆上,对应的待检测图像,是由单目相机拍摄的图像和已有公开自动驾驶数据集组合而成的新数据集图像,且环境中的目标包括但不限于:汽车、行人及骑自行车的人。
S12、将当前的新数据集按照一定比例进行训练集、测试集、验证集的划分,使用Labelimg对数据集图像进行标签标定,得到轻量化主干特征提取网络所需的xml数据标签格式;
在本发明的实施例中,新数据集由两部分组成,其中已有公开自动驾驶数据集部分使用KITTI数据集,其包含市区、乡村和高速公路等场景采集的真实图像数据,还有各种程度的遮挡与截断。对于KITTI数据集,对KITTI数据集原有的8个类别转换为三类:汽车、行人及骑自行车的人;同时将数据集原有的txt标签数据格式转化为xml格式;使用相机拍摄当地实际交通场景图像,其数量为KITTI数据集的十分之一,使用Labelimg软件对所采图像进行打标签标记,Labelimg对图像打标签标记后保存默认格式即为xml格式;在组成新数据集后将整个数据集按照训练集:验证集:测试集=8:1:1的比例进行划分,且在训练过程中验证集中的图像也参与训练。
S13、将数据集中所有训练集中的图像使用Mosaic数据增强方法,将数据集中的图像每四张组合在一起,进行随机缩放、裁剪、排布后拼接,可以提高检测目标的完整性,将使用Mosaic数据增强后的图像输入主干特征提取网络Mobilenetv2中,初步进行图像特征信息提取。
在本发明的实施例中,Mobilenetv2-CA轻量化网络模型是经过预训练的,具有一定的泛化能力,只有经过预训练的Mobilenetv2-CA网络模型才可以使用其主干特征提取网络进行图像特征提取,而Mosaic数据增强是伴随处理新数据集图像时的数据处理手段,便于更好更连续的提取图像相关特征。
S2、基于注意力机制,选择性的提取目标检测所需要的图像通道间的位置信息和深层语义信息,抑制无效信息;
在本发明实施例中,当s=2时,主干特征提取网络使用线性瓶颈结构提取特征,采取1×1点卷积升维并使用Relu6激活函数,之后使用3×3深度卷积,再使用Relu6激活函数,再用1×1点卷积降维,降维后使用Linear激活函数。
当s=1时,在通道注意中,给定输入X,使用两个空间范围的池核(H,1)和(1,W)分别沿水平坐标和垂直坐标对每个通道进行编码。第C个通道在高度H的输出为
Figure BDA0004031207940000051
宽度为W的第C个通道的输出为/>
Figure BDA0004031207940000052
分别沿两个空间方向聚合特征,然后启用全局接收字段,编码精确的位置信息,生成聚合特征映射,将它们连接起来输入到1×1卷积转换函数f,沿着空间维度把f分成两个独立的张量fh和fw,利用另两个1×1卷积变换Fh和Fw分别将fh和fw转换为具有相同通道数的张量gh和gw,坐标注意块Y的输出为/>
Figure BDA0004031207940000053
两个注意力映射中的每个元素都反映了相应行和列中是否存在感兴趣的对象有助于网络更准确地定位感兴趣的对象;
S3、将基于主干特征提取网络和注意力机制提取出的图像特征信息输入多尺度特征融合网络进行特征融合,得到所需的深层图像信息;
经过主干特征提取网络提取的三个不同尺度的特征层分别位于中间层、中下层、底层。在特征提取过程中,浅层特征学习更多的是目标的位置信息,而深层特征学习更多的是目标的语义信息。为了充分利用不同尺度特征图所包含的特征信息,为了充分利用不同尺度特征图所包含的特征信息,将网络的第七层、第十四层和第十八层提取的不同尺度的特征信息输入PANet网络中分别通过上采样后进行特征拼接和下采样后进行特征拼接,分别得到了融合丰富位置信息和语义信息的两条路径,以实现特征融合,并获取丰富的特征信息。
S4、基于网络事先设定好的先验框,对所得预测框进行非极大值抑制后输出检测框,得到目标检测结果;
在本发明实施例中,将充分融合的特征信息输入Yolo Head进行3×3卷积特征整合和1×1卷积调整通道数处理。每一个有效特征层将整个图像分成与其长宽对应的网格,在网格中心建立多个网络事先设定好的先验框,网络会判断这些框内是否包含物体及其种类从而输出预测结果。对预测结果进行解码可得到预测框的中心以及尺寸,从而实现目标的定位回归。将得到的预测结果进行得分排序,取出每一类得分大于设定阈值的检测结果,利用置信度进行NMS非极大值抑制筛选后,即可得到目标检测结果。
S5、依据检测框对相关目标进行关联,进行稳定跟踪,进一步提高目标检测的可靠性。
保留了预测结果解码之后的所有检测框,并将它们分为高分和低分,我们首先将高分检测框与轨迹相关联;将低分检测框和其不匹配的轨迹关联起来,以恢复低分检测框中的对象并同时过滤掉背景。
图2为本发明实施例提供的基于相机的目标检测与跟踪系统的结构示意图,为了便于说明,仅示出与本发明实施例相关的部分。该系统包括:
设于车辆上的单目相机,与单目相机通讯连接处理单元,处理单元内集成有训练好的Mobilenetv2-CA网络模型;
单目相机实时采集前方的环境图像,发送至处理单元;
处理单元基于上述基于相机的目标检测与跟踪方法来提取前方的目标,包括但不限于:行人、汽车及骑自行车的人。
在本发明实施例中,处理单元可以集成于车辆的整车控制系统或者是集成有于独立设置的电子设备中。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (8)

1.一种基于相机的目标检测与跟踪方法,其特征在于,包括如下步骤:
S1、将基于相机采集的实际交通场景图片和自动驾驶数据集相关图片的信息输入主干特征网络进行特征提取,初步得到图像相关特征信息;
S2、基于注意力机制,选择性的提取目标检测所需要的图像通道间的位置信息和深层语义信息,抑制无效信息;
S3、将基于主干特征提取网络和注意力机制提取出的图像特征信息输入多尺度特征融合网络进行特征融合,得到所需的深层图像信息;
S4、基于网络事先设定好的先验框,对所得预测框进行非极大值抑制后输出检测框,得到目标检测结果;
S5、依据检测框对相关目标进行关联,进行跟踪。
2.根据权利要求1所述的一种基于相机的目标检测与跟踪方法,其特征在于,所述步骤S1的具体方法如下:
S11、将相机当前采集的包含实际交通场景中常见的目标的图片和已有的公开自动驾驶数据集图片相结合,组成一个符合所在地实际路况的新数据集;
S12、将当前的新数据集按照一定比例进行训练集、测试集、验证集的划分,使用Labelimg对数据集图像进行标签标定,得到轻量化主干特征提取网络所需的xml数据标签格式;
S13、将数据集中所有训练集中的图像使用Mosaic数据增强方法,将数据集中的图像每四张组合在一起,进行随机缩放、裁剪、排布后拼接,可以提高检测目标细节信息提取的完整性,将使用Mosaic数据增强后的图像输入主干特征提取网络Mobilenetv2中,初步进行图像特征信息提取。
3.根据权利要求1所述的基于相机的目标检测与跟踪方法,其特征在于,所述步骤S2的具体方法如下:
S21、使用两种不同步长的结构堆叠组成主干特征提取网络Mobilenetv2,所述步长用s表示;
S22、当s=2时,主干特征提取网络使用线性瓶颈结构提取特征,采取1×1点卷积升维并使用Relu6激活函数,之后使用3×3深度卷积,再使用Relu6激活函数,再用1×1点卷积降维,降维后使用Linear激活函数,这样的卷积操作方式有利于减少训练时的参数量。
S23、当s=1时,主干特征提取网络使用反向残差结构提取特征,为了使使网络自适应调整通道间关系和位置信息,提高特征提取的指向性,将协调注意力机制嵌入3×3深度卷积和1×1降维点卷积之间,进而有效增强感兴趣对象的表示,充分提取特征信息。
4.根据权利要求1所述的基于相机的目标检测与跟踪方法,其特征在于,所述步骤S3的具体方法如下:
S31、基于主干特征提取网络和注意力机制获得的三个不同尺度的特征层分别位于中间层、中下层、底层;
S32、为了充分利用不同尺度特征图所包含的特征信息,将网络的第七层、第十四层和第十八层提取的不同尺度的特征信息输入PANet网络中分别通过上采样后进行特征拼接和下采样后进行特征拼接,分别得到了融合丰富位置信息和语义信息的两条路径,以实现特征融合,并获取丰富的特征信息。
5.根据权利要求1所述的基于相机的目标检测与跟踪方法,其特征在于,所述步骤S4的具体方法如下:
S41、将充分融合的特征信息输入检测头Yolo Head中进行3×3卷积特征整合和1×1卷积调整通道数处理;网络判断这些框内是否包含物体及其种类从而输出预测结果;
S42、对预测结果进行解码可得到预测框的中心以及尺寸,从而实现目标的定位回归;将得到的预测结果进行得分排序,取出每一类得分大于设定阈值的检测结果,利用置信度进行NMS非极大值抑制筛选后,即可得到目标检测结果。
6.根据权利要求1所述的基于相机的目标检测与跟踪方法,其特征在于,所述步骤S5的具体方法如下:
S51、保留每个检测框,并将它们分为高分和低分,将高分检测框与轨迹相关联;
S52、将低分检测框和其不匹配的轨迹关联起来,以恢复低分检测框中的对象并同时过滤掉背景。
7.根据权利要求1所述的基于相机的目标检测与跟踪方法,其特征在于,所述目标包括但不限于汽车、行人、骑自行车的人。
8.一种利用权利要求1-7中任一项所述方法的系统,其特征在于,所述系统包括:
设于车辆上的单目相机及与单目相机通讯连接的处理单元,处理单元内集成有训练好的Mobilenetv2-CA网络模型;
单目相机实时采集前方的环境图像,发送至处理单元;
处理单元基于上述基于相机的目标检测与跟踪方法来提取前方的目标。
CN202211730293.XA 2022-12-30 2022-12-30 一种基于相机的目标检测与跟踪方法及系统 Pending CN115861760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211730293.XA CN115861760A (zh) 2022-12-30 2022-12-30 一种基于相机的目标检测与跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211730293.XA CN115861760A (zh) 2022-12-30 2022-12-30 一种基于相机的目标检测与跟踪方法及系统

Publications (1)

Publication Number Publication Date
CN115861760A true CN115861760A (zh) 2023-03-28

Family

ID=85656523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211730293.XA Pending CN115861760A (zh) 2022-12-30 2022-12-30 一种基于相机的目标检测与跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN115861760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681962A (zh) * 2023-05-05 2023-09-01 江苏宏源电气有限责任公司 基于改进YOLOv5的电力设备热图像检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681962A (zh) * 2023-05-05 2023-09-01 江苏宏源电气有限责任公司 基于改进YOLOv5的电力设备热图像检测方法及系统

Similar Documents

Publication Publication Date Title
CN110853032B (zh) 基于多模态深度学习的无人机视频标签获取方法
CN112347933A (zh) 一种基于视频流的交通场景理解方法及装置
CN106897681A (zh) 一种遥感图像对比分析方法及系统
CN103020606A (zh) 一种基于时空上下文信息的行人检测方法
CN106919939B (zh) 一种交通标识牌跟踪识别方法及系统
CN111160295A (zh) 基于区域引导和时空注意力的视频行人重识别方法
CN100593792C (zh) 一种视频中的文本跟踪和多帧增强方法
CN111160205A (zh) 一种交通场景嵌入式多类目标端对端统一检测方法
CN115346177A (zh) 一种新的路侧视角下目标检测系统及方法
CN111209840B (zh) 一种基于多传感器数据融合的3d目标检测方法
US20230142676A1 (en) Trajectory prediction method and apparatus, device, storage medium and program
CN113344971B (zh) 一种融合卡尔曼滤波的孪生红外目标跟踪方法
Berton et al. Adaptive-attentive geolocalization from few queries: A hybrid approach
CN112836657A (zh) 一种基于轻量化YOLOv3的行人检测方法及系统
US20240077331A1 (en) Method of predicting road attributers, data processing system and computer executable code
CN114663852A (zh) 车道线图的构建方法、装置、电子设备及可读存储介质
CN115861760A (zh) 一种基于相机的目标检测与跟踪方法及系统
CN115908442A (zh) 一种无人机海洋监测用图像全景分割方法及模型搭建方法
CN115620207A (zh) 一种基于注意力机制的红外行人检测方法
Sanberg et al. Extending the stixel world with online self-supervised color modeling for road-versus-obstacle segmentation
CN104104911A (zh) 全景图像生成过程中的时间戳消除和重置方法及系统
CN115170989A (zh) 一种基于强化特征提取的轨道分割方法
US20210227192A1 (en) Method and device for processing video
CN116129318A (zh) 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法
CN116229448A (zh) 三维目标检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 241000 Anhui Engineering University, Beijing Middle Road, Jiujiang District, Wuhu City, Anhui Province

Applicant after: ANHUI POLYTECHNIC University

Address before: 241000 Anhui University of Engineering, Beijing Middle Road, Wuhu Economic and Technological Development Zone, Anhui Province

Applicant before: ANHUI POLYTECHNIC University

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination