CN115565044A

CN115565044A - 一种目标检测方法及系统

Info

Publication number: CN115565044A
Application number: CN202211303633.0A
Authority: CN
Inventors: 邓耀宇; 谭台哲
Original assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Current assignee: Heyuan Bay District Digital Economy And Technology Innovation Center; Guangdong University of Technology
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-01-03

Abstract

本发明涉及计算机视觉技术领域，公开了一种目标检测方法及系统，方法包括：获取图像数据集；对目标检测模型进行训练，将测试集输入训练好的目标检测模型进行检测，得到目标检测结果；其中，目标检测模型包括依次连接的CSPDarknet53‑tiny特征提取网络、自适应合成金字塔特征融合网络和检测头输出模块；CSPDarknet53‑tiny特征提取网络对输入图像进行特征提取，输出至少一个特征图；自适应合成金字塔特征融合网络对CSPDarknet53‑tiny特征提取网络输出的至少一个特征图进行融合处理，得到融合特征图；检测头输出模块根据融合特征图进行目标检测，输出目标检测结果。本发明能够减小目标检测网络模型计算参数量，保证高检测速度的同时，进一步提高了模型的的精度和准确率。

Description

一种目标检测方法及系统

技术领域

本发明涉及计算机视觉技术领域，更具体地，涉及一种目标检测方法及系统。

背景技术

图像目标检测是指对图像中的目标进行位置检测并进行分类，是一种应用场景较广的技术，比如高级驾驶辅助系统中都会配置有目标检测模块。

目前的目标检测算法常用YOLOv4-tiny作为检测网络，利用Yolov4-tiny自带的权重对车辆目标进行检测，然而这种利用YOLOv4-tiny自带权重的目标检测算法在实际车载交通目标检测场景场景下，存在着检测速度低且精度低的缺陷。

发明内容

本发明为克服现有目标检测方法存在的检测速度低且精度低的缺陷，提供一种目标检测方法及系统。

为解决上述技术问题，本发明的技术方案如下：

第一个方面，本发明提出一种目标检测方法，包括：

获取图像数据集。所述图像数据集包括训练集和测试集。

利用所述训练集对目标检测模型进行训练，直至所述目标检测模型的损失函数收敛，得到训练好的目标检测模型。

将所述测试集输入训练好的目标检测模型进行检测，得到目标检测结果。

其中，所述目标检测模型为改进的YOLOv4-tiny模型，包括依次连接的CSPDarknet53-tiny特征提取网络、自适应合成金字塔特征融合网络和检测头输出模块。所述CSPDarknet53-tiny特征提取网络对输入图像进行特征提取，输出至少一个特征图。所述自适应合成金字塔特征融合网络对所述CSPDarknet53-tiny特征提取网络输出的至少一个特征图进行融合处理，得到融合特征图。所述检测头输出模块根据所述融合特征图进行目标检测，输出目标检测结果。

第二个方面，本发明还提出一种目标检测系统，包括：

获取模块，用于获取图像数据集。所述图像数据集包括训练集和测试集。

训练模块，用于利用所述训练集对目标检测模型进行训练，直至所述目标检测模型的损失函数收敛，得到训练好的目标检测模型。

检测模块，用于将所述测试集输入训练好的目标检测模型进行检测，得到目标检测结果。

与现有技术相比，本发明技术方案的有益效果是：本发明通过参数量较少的CSPDarknet53-tiny特征提取网络提取特征图，并利用自适应合成金字塔特征融合网络将CSPDarknet53-tiny特征提取网络输出的高层次特征图的语义信息和低层次特征图的位置空间信息进行融合，能够减小目标检测网络模型计算参数量，保证高检测速度的同时，进一步提高了模型的的精度和准确率，使得网络轻量化与高精度达到了更好的权衡，满足实际应用场景对模型大小与准确性的需求。

附图说明

图1为本申请实施例中目标检测模型的结构示意图。

图2为本申请实施例中的目标检测方法的流程图。

图3为本申请实施例中的对经过格式转换处理的图像数据集进行数据扩充的流程图。

图4为本申请实施例中的通过K-means++方法对经过扩充的图像数据集进行聚类的流程图。

图5为本申请实施例中的对训练集进行数据增强的流程图。

图6为本申请实施例中带有通道混洗机制的深度可分离卷积模块的结构示意图。

图7为本申请实施例中CSP结构模块的结构示意图。

图8为本申请实施例中Coordinate Attention模块的结构示意图。

图9为本申请实施例中自适应合成金字塔特征融合网络、快速空间金字塔池化模块和合成融合模块的结构示意图。

图10为本申请实施例中的目标检测系统的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了便于对本发明实施例进行说明，预先对本发明实施例涉及的基本概念进行如下介绍：

YOLOv4-tiny大体框架与YOLOv3类似，是YOLOv4网络的精简版。YOLOv4-tiny整个网络结构共有38层。其首先将大小假设为n×n的图片输入YOLOv4-tiny网络的backbone后，会得到下采样16倍的特征以及下采样32倍的特征，然后把这两个特征输入到特征融合网络将两个特征充分融合，最后得到检测头的输出为h×w×n×(5+N)，其中h和w分别是得到特征图的高和宽，n为特征图上每一个点的锚框个数，N为检测类别数，5为预选框的中心点与宽高以及每个类别的置信度。例如，将输入图片大小调整为416×416输入到进YOLOv4-tiny网络中，设置每个点的锚框数为3，检测类别数N为8，图片经过backbone网络进行特征提取后将得到26×26×256的特征图以及13×13×512的特征图，输入到Neck网络以及Head后最终得到的输出分别为26×26×39以及13×13×39。最后还需要取出每一类得分大于先前设置的IoUthreshold(通常设置为50％和75％等)的框和得分，再通过非极大值抑制算法得到最后的框与检测结果。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例一

本实施例提出一种目标检测方法，包括：

获取图像数据集；所述图像数据集包括训练集和测试集；

利用所述训练集对目标检测模型进行训练，直至所述目标检测模型的损失函数收敛，得到训练好的目标检测模型；

将所述测试集输入训练好的目标检测模型进行检测，得到目标检测结果；

其中，所述目标检测模型为改进的YOLOv4-tiny模型，如图1所示，图1为本申请实施例中目标检测模型的结构示意图，包括依次连接的CSPDarknet53-tiny特征提取网络、自适应合成金字塔特征融合网络和检测头输出模块；所述CSPDarknet53-tiny特征提取网络对输入图像进行特征提取，输出至少一个特征图；所述自适应合成金字塔特征融合网络对所述CSPDarknet53-tiny特征提取网络输出的至少一个特征图进行融合处理，得到融合特征图；所述检测头输出模块根据所述融合特征图进行目标检测，输出目标检测结果。

本实施例提出的目标检测方法通过参数量较少的CSPDarknet53-tiny特征提取网络提取特征图，并利用自适应合成金字塔特征融合网络将CSPDarknet53-tiny特征提取网络输出的高层次特征图的语义信息和低层次特征图的位置空间信息进行融合，能够减小目标检测网络模型计算参数量，保证高检测速度的同时，进一步提高了模型的的精度和准确率，使得网络轻量化与高精度达到了更好的权衡，满足实际应用场景对模型大小与准确性的需求。

实施例二

本实施例在实施例一所提出的目标检测方法的基础上，以智能交通车辆目标检测为场景，进一步阐述本发明的目标检测方法。

参阅图2，图2为本申请实施例中的目标检测方法的流程图，本实施例所提出的目标检测方法具体包括以下步骤：

S1：获取图像数据集；所述图像数据集包括训练集和测试集。

本实施例中，选用的图像数据集为KITTI数据集。KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI数据集可以应用于评测立体图形(stereo)、光流(opticalflow)以及物体检测(object detection)等技术在车载环境下的性能。本实施例主要是探索KITTI数据集在物体检测方面上的性能。本实施例实际应用的KITTI数据集共包含8个类别物体，分别为Car(汽车)、Van(货车)、Truck(卡车)、Pedestrian(行人)、Person_sitting(坐姿状态下的人)、Cyclist(骑行者)、Tram(有轨电车)和Misc(拖车，平衡车等)，共7481张图片。

S2：对所述图像数据集进行格式转换处理。具体包括：将图像数据集中以xml格式存储的数据转换为以txt格式存储的数据。

本实施例通过对图像数据集进行格式转换处理，能够将KITTI数据集中挂载在xml格式文件的锚框位置信息和类别信息转换为能够适用于YOLO系列网络所需要的txt格式。

S3：对经过格式转换处理的图像数据集进行数据扩充。本实施例使用Copy-Pasting策略进行数据扩充，如图3所示，图3为本申请实施例中的对经过格式转换处理的图像数据集进行数据扩充的流程图，具体包括以下步骤：

S301：将包括行人、有轨电车和骑行者的目标物体从图像中裁剪出来。

S302：对裁剪出来的目标物体分别进行缩放和旋转操作后，将目标物体粘贴到图像数据集的其它图像中构成新的图像；

S303：将所述新的图像加入到图像数据集中，得到新的图像数据集。本实施例新的图像数据集中图像扩增到7058张。

本实施例通过使用Copy-Pasting策略进行数据扩充，解决KITTI数据集中数据集样本过小、汽车类别过多、行人和有轨电车类别数量过少导致的不同类别样本数目不平衡问题产生的长尾效应问题，使得训练集中各类物体数量更加均衡，而且增加了网络的一个通用性。

S4：通过K-means++方法对经过扩充的图像数据集进行聚类，得到当前图像数据集训练所需的锚框，如图4所示，图4为本申请实施例中的通过K-means++方法对经过扩充的图像数据集进行聚类的流程图，具体包括以下步骤：

S401：提取图像数据集中标注框的左上角坐标和右上角坐标；

S402：根据标注框的左上角坐标和右上角坐标，计算标注框的的宽和高；

S403：选取任一标注框作为初始中心框；

S404：计算标注框与初始中心框之间的IoU；

S405：根据标注框与初始中心框之间的IoU，计算每个标注框成为下一个中心框的概率P(x)，并选取概率最大的一个标注框作为下一个中心框，概率P(x)的计算表达式如下所示：

其中，X为中心框集合，D(x)为标注框与初始中心框之间的IoU；

S406：迭代执行步骤S404～S405，直至选取的中心框数量到达预设的值K，K为正整数，得到当前图像数据集训练所需的锚框。

目标检测模型最开始往往需要先选定一定大小目标可能存在的区域。因为数据集待检测目标的尺寸大小不一，如果检测框过大或者过小都直接导致目标物体缺乏完整性，从而产生漏检或误检问题。本实施例将K-means++方法应用于图像数据集上，从而产生多种最适合该数据集待检测目标的的框，可解决数据集中待检测目标大小合形状不一的问题。

S5：对训练集进行数据增强，如图5所示，图5为本申请实施例中的对训练集进行数据增强的流程图，具体包括以下步骤：

S501：在经过K-means++方法聚类的训练集中，随机选取N张图像进行翻转、色域变换和缩放，N为正整数。本实施例中，N＝4。

S502：将经过随机翻转、色域变换和缩放后的N张图像拼接成新图像，并以所述新图像构建最终用于对目标检测模型进行训练的训练集。

本实施例使用马赛克数据增强(Mosaic)策略，使得训练集无论是目标的位置或者数量都会变得更加丰富，增强了网络的健壮性，间接地增加了batch-size的大小，提升模型的泛化能力。

S6：利用训练集对目标检测模型进行训练，直至所述目标检测模型的损失函数收敛，得到训练好的目标检测模型。

本实施例中，所述目标检测模型的损失函数的表达式如下所示：

其中，ρ²表示预测检测框和真实检测框中心点之间的距离，b表示预测检测框中心点的坐标，b^real表示真实检测框中心点的坐标，c表示预测检测框和真实检测框的最小外接矩形对角线的长度，v为度量预测检测框和真实检测框高宽比的相似性参数，α为权重函数，w表示预测检测框的宽，w^real表示真实检测框的宽，h表示预测检测框的高，h^real表示真实检测框的高。

在具体实施过程中，训练使用的硬件环境为E5-2698 v4 CPU，系统内存为256GB，GPU为Tesla V100，显存为32G，所使用的深度学习框架为PyTorch1.8，CUDA10.2，GPU加速库Cudnn7.6.5。为了减少训练成本，本实施例使用YOLOv4-Tiny模型的预训练权重来初始化目标检测模型的网络结构。目标检测模型的输入图像尺寸为416×416，batch-size设为16，初始学习率为0.0032，优化器使用Adam，动量为0.843，权重衰减为0.00036。采用LabelSmoothing正则方式，参数∈＝0.1。回归损失函数使用CIoU Loss，模型总共训练300个epoch，模型每训练3轮后会进行一轮验证，最终会取在验证集上精度最高的权重文件用于测试。

S7：将所述测试集输入训练好的目标检测模型进行检测，得到目标检测结果。

如图1所示，本实施例中，所述目标检测模型为改进的YOLOv4-tiny模型，包括依次连接的CSPDarknet53-tiny特征提取网络、自适应合成金字塔特征融合网络和检测头输出模块；所述CSPDarknet53-tiny特征提取网络对输入图像进行特征提取，输出至少一个特征图；所述自适应合成金字塔特征融合网络对所述CSPDarknet53-tiny特征提取网络输出的至少一个特征图进行融合处理，得到融合特征图；所述检测头输出模块根据所述融合特征图进行目标检测，输出目标检测结果。

本实施例中，所述CSPDarknet53-tiny特征提取网络包括依次连接的第一卷积模块、第二卷积模块、第一CSP模块、第二CSP模块、第三CSP模块、第三卷积模块和第四卷积模块。所述第一卷积模块、第二卷积模块和第三卷积模块为带有通道混洗机制的深度可分离卷积模块；所述第四卷积模块为空间深度可分离卷积融合模块。

本实施例通过将通道混洗机制(shuffle)与深度可分离卷积结合，提出一种带有通道混洗机制的深度可分离卷积模块(DWS卷积模块)，如图6所示，图6为本申请实施例中带有通道混洗机制的深度可分离卷积模块的结构示意图，其中通道混洗机制能够将输出特征分为3组进行通道间信息交互，对特征进行信息重组，可以获得更丰富的特征，且深度可分离卷积模块具有参数量低和计算量低的优点，使得CSPDarknet53-tiny特征提取网络更加轻量化。

本实施例中，所述第一CSP模块、第二CSP模块和第三CSP模块为在普通的CSP模块的基础上将所有普通卷积模块替换为带有通道混洗机制的深度可分离卷积模块的CSP结构模块，如图7所示，图7为本申请实施例中CSP结构模块的结构示意图。

进一步地，针对YOLOv4-tiny网络舍弃了用于增加网络感受野的空间金字塔池化(Spatial Pyramid Pooling,SPP)结构，造成深层特征信息比较单一，无法融合不同尺度特征图的信息，造成精度下降的问题。本实施例将不同卷积核大小的带有通道混洗机制的深度可分离卷积模块和Coordinate Attention模块构建出空间深度可分离卷积融合模块(SDWCF结构)。所述空间深度可分离卷积融合模块包括若干个并联的带有通道混洗机制的深度可分离卷积模块和Coordinate Attention模块。所述若干个并联的带有通道混洗机制的深度可分离卷积模块输出不用感受野的特征图，然后再将不同感受野的特征图的信息经过拼接处理(concat)后，再经过一个卷积核为1×1的普通卷积进行通道融合以及把通道数调整到输出通道数，传输至所述Coordinate Attention模块。如图8所示，图8为本申请实施例中Coordinate Attention模块的结构示意图，Coordinate Attention模块通过坐标信息嵌入模块(coordinate information embedding)与坐标注意力生成模块(coordinateattention generation)将位置信息嵌入到通道注意力中，捕获方向感知和位置感知的信息，一方面能很好地弥补带有通道混洗机制的深度可分离卷积模块通道之间融合度不够的问题，另一方面能帮助模型更加精准地定位和识别感兴趣的目标。

进一步地，针对原有的特征提取网络存在比较多无法正确检测小目标物体的问题。本实施例的将CSPDarknet53-tiny特征提取网络的网络输出层改为下采样8倍的浅层输出层经过空间深度可分离卷积融合模块输入到自适应合成金字塔特征融合网络中，不仅能加强对浅层网络的学习能力，减少训练过程中浅层信息丢失，从而加强对小目标以及遮挡目标的检测能力。

本实施例中，所述自适应合成金字塔特征融合网络(Adaptive Synthetic FusionPyramid Network，ASFPN)包括普通卷积模块、自适应平均池化模块、快速空间金字塔池化模块和合成融合模块，如图9所示，图9为本申请实施例中自适应合成金字塔特征融合网络、快速空间金字塔池化模块和合成融合模块的结构示意图。

在具体实施过程中，所述CSPDarknet53-tiny特征提取网络输出的特征图通过所述普通卷积模块统一通道数后，传输至所述自适应平均池化模块进行自适应平均池化处理；经过自适应平均池化处理后的特征图传输至快速空间金字塔池化模块进行快速空间金字塔池化处理；经过快速空间金字塔池化处理后的特征图传输至合成融合模块进行特征融合，得到融合特征图。

本实施例中，如图9所示，所述合成融合模块(Synthetic Fusion Module，SFM)通过特征图相同位置对应像素点求和的方式来进行特征图信息的交流，之后再对所得特征图进行卷积的来加强对特征的提取，进一步加强特征图之间的融合，一方面可以使特征图语义类似的通道之间进行简单的特征融合，另一方面相对于通道叠加这种融合特征的方式，能更减少参数量和计算量。自适应合成金字塔特征融合网络通过多个合成融合模块使得深层次特征图和浅层次特征图能进行更平滑的信息交流，共享语义、纹理和位置等信息。CSPDarknet53-tiny特征提取网络输出的特征图通过下采样8倍的浅层输出层输入到自适应合成金字塔特征融合网络中第一个输出前的合成融合模块参与信息融合，能够增强检测头输出模块检测小目标的能力。

实施例三

参阅图10，本实施例提出一种目标检测系统，包括：

本实施例提出的目标检测系统通过参数量较少的CSPDarknet53-tiny特征提取网络提取特征图，并利用自适应合成金字塔特征融合网络将CSPDarknet53-tiny特征提取网络输出的高层次特征图的语义信息和低层次特征图的位置空间信息进行融合，能够减小目标检测网络模型计算参数量，保证高检测速度的同时，进一步提高了模型的的精度和准确率，使得网络轻量化与高精度达到了更好的权衡，满足实际应用场景对模型大小与准确性的需求。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取图像数据集；所述图像数据集包括训练集和测试集；

其中，所述目标检测模型为改进的YOLOv4-tiny模型，包括依次连接的CSPDarknet53-tiny特征提取网络、自适应合成金字塔特征融合网络和检测头输出模块；所述CSPDarknet53-tiny特征提取网络对输入图像进行特征提取，输出至少一个特征图；所述自适应合成金字塔特征融合网络对所述CSPDarknet53-tiny特征提取网络输出的至少一个特征图进行融合处理，得到融合特征图；所述检测头输出模块根据所述融合特征图进行目标检测，输出目标检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，所述CSPDarknet53-tiny特征提取网络包括依次连接的第一卷积模块、第二卷积模块、第一CSP模块、第二CSP模块、第三CSP模块、第三卷积模块和第四卷积模块；

其中，所述第一卷积模块、第二卷积模块和第三卷积模块为带有通道混洗机制的深度可分离卷积模块；所述第四卷积模块为空间深度可分离卷积融合模块；所述第一CSP模块、第二CSP模块和第三CSP模块为在普通的CSP模块的基础上将所有普通卷积模块替换为带有通道混洗机制的深度可分离卷积模块的CSP结构模块。

3.根据权利要求1所述的目标检测方法，其特征在于，所述自适应合成金字塔特征融合网络包括普通卷积模块、自适应平均池化模块、快速空间金字塔池化模块和合成融合模块；

所述CSPDarknet53-tiny特征提取网络输出的特征图通过所述普通卷积模块统一通道数后，传输至所述自适应平均池化模块进行自适应平均池化处理；

经过自适应平均池化处理后的特征图传输至快速空间金字塔池化模块进行快速空间金字塔池化处理；

经过快速空间金字塔池化处理后的特征图传输至合成融合模块进行特征融合，得到融合特征图。

4.根据权利要求1所述的目标检测方法，其特征在于，所述CSPDarknet53-tiny特征提取网络输出的特征图通过下采样8倍的浅层输出层传输至所述自适应合成金字塔特征融合网络。

5.根据权利要求1所述的目标检测方法，其特征在于，所述空间深度可分离卷积融合模块包括若干个并联的带有通道混洗机制的深度可分离卷积模块和Coordinate Attention模块；所述若干个并联的带有通道混洗机制的深度可分离卷积模块输出的特征图经过拼接处理后，再经过一个卷积核为1×1的普通卷积传输至所述Coordinate Attention模块。

6.根据权利要求1所述的目标检测方法，其特征在于，所述目标检测模型的损失函数的表达式如下所示：

7.根据权利要求1所述的目标检测方法，其特征在于，在获取图像数据集之后，利用训练集对目标检测模型进行训练之前，所述方法还包括：

对所述图像数据集进行格式转换处理；

对经过格式转换处理的图像数据集进行数据扩充；

通过K-means++方法对经过扩充的图像数据集进行聚类，得到当前图像数据集训练所需的锚框。

8.根据权利要求7所述的目标检测方法，其特征在于，所述对图像数据集进行格式转换处理，具体包括：将图像数据集中以xml格式存储的数据转换为以txt格式存储的数据；

所述对经过格式转换处理的图像数据集进行数据扩充，具体包括以下步骤：

将包括行人、有轨电车和骑行者的目标物体从图像中裁剪出来；

对裁剪出来的目标物体分别进行缩放和旋转操作后，将目标物体粘贴到图像数据集的其它图像中构成新的图像；

将所述新的图像加入到图像数据集中，得到新的图像数据集；

所述通过K-means++方法对经过扩充的图像数据集进行聚类，得到当前图像数据集训练所需的锚框，具体的步骤包括：

步骤a：提取图像数据集中图像的标注框的左上角坐标和右上角坐标；

步骤b：根据标注框的左上角坐标和右上角坐标，计算标注框的的宽和高；

步骤c：选取任一标注框作为初始中心框；

步骤d：计算标注框与初始中心框之间的IoU；

步骤e：根据标注框与初始中心框之间的IoU，计算每个标注框成为下一个中心框的概率P(x)，并选取概率最大的一个标注框作为下一个中心框，概率P(x)的计算表达式如下所示：

步骤f：迭代执行步骤d～e，直至选取的中心框数量到达预设的值K，K为正整数，得到当前图像数据集训练所需的锚框。

9.根据权利要求7所述的目标检测方法，其特征在于，在通过K-means++方法对经过格式转换处理的图像数据集进行聚类之后，在利用训练集对目标检测模型进行训练之前，所述方法还包括：

对训练集进行数据增强，具体包括以下步骤：

在经过K-means++方法聚类的训练集中，随机选取N张图像进行翻转、色域变换和缩放，N为正整数；

将经过随机翻转、色域变换和缩放后的N张图像拼接成新图像，并以所述新图像构建最终用于对目标检测模型进行训练的训练集。

10.一种目标检测系统，其特征在于，包括：

获取模块，用于获取图像数据集；所述图像数据集包括训练集和测试集；

训练模块，用于利用所述训练集对目标检测模型进行训练，直至所述目标检测模型的损失函数收敛，得到训练好的目标检测模型；

检测模块，用于将所述测试集输入训练好的目标检测模型进行检测，得到目标检测结果；