CN114267049A

CN114267049A - 基于yolov5的多任务目标检测识别方法和网络结构

Info

Publication number: CN114267049A
Application number: CN202111455472.2A
Authority: CN
Inventors: 程家明; 周志祥; 彭杨; 张宝根
Original assignee: Wuhan Xingtu Xinke Electronic Co ltd
Current assignee: Wuhan Xingtu Xinke Electronic Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-01

Abstract

本发明提供了一种基于yolov5的多任务目标检测识别方法，多任务目标检测识别方法包括：获取标注的图像数据；对图像数据进行Mosaic数据增强，得到增强数据；构建检测网络，并利用增强数据训练检测网络；在训练后的检测网络中加入属性特征提取器和属性分类器，得到属性识别网络；利用增强数据训练属性识别网络；利用自学习权重损失函数，同时对训练后的检测网络和训练后的属性识别网络进行自学习，并分别输出检测结果和识别结果；基于检测结果和识别结果，得到图像中待测目标的信息。本发明引入了多任务学习的方法，可以一次性得到图像中所有待测目标的属性，大大节省了硬件资源和显存资源。

Description

基于yolov5的多任务目标检测识别方法和网络结构

技术领域

本发明涉及目标检测识别技术领域，具体涉及一种基于yolov5的多任务目标检测识别方法和网络结构。

背景技术

近年来，随着科技的快速发展，监控摄像头已经遍及城市的每一个角落，对人们的生活起到了保驾护航的作用。如今全球每天产生的视频数据就达到了成千上万pb，随着4K技术的推广和普及，该数据还会成倍增长。如何快速从海量监控数据提取有用的监控信息进行检索是现代安防的重点解决的问题之一。

以往数据量不大时，由人工在监控视频中找到符合特定特征的行人。如今随着监控的大量普及，数据也井喷式增长，人力资源成倍也提高了，仅依靠人工对数据进行筛选需要很长时间，不符合实际情况的时效性。

从海量数据中对行人进行自动化描述和识别，对实时行人的快速检索具有十分重要的意义。现有的对视频中的行人进行有效的自动化描述，大致可以分为两个步骤:行人检测和行人属性分析。

目前学术界针对该类任务基本上都是分步进行的，具体检测步骤如下：

1.行人检测：基于深度学习的目标检测算法，该算法将带有标注框的行人图片输入到神经网络，然后通过神经网络提取行人的深层语义特征进行框的回归，该算法采用卷积神经网络提取行人的深层特征，在检测方面有较好的泛化能力。

2.属性识别：基于单一任务深度学习的行人属性识别方法，该方法也需要进行特征选取，如性别、年龄、发型等，就其中一种特征训练一个深度网络模型，再利用网络模型的深度特征向量之间的余弦距离进行特征匹配。由于行人间存在较多相似性，而性别、年龄、发型都无法对是否是同一个人进行唯一认证，所以通常需要多组特征组合，而多个特征模型则会消耗更多的时间和硬件显存资源，从而大大增加了产品的成本。精度上有一定的优势，但是在多组属性加载模型对速度和显存都会带来很大负担，不利于产品化中使用。

如果要对单帧视频完成行人属性的识别，需要分步执行行人检测算法，然后再分别多每个行人进行属性识别，该逻辑当单帧存在多目标的时候，耗时也会成倍增加。目前很多应用场景有实时检测分析的需求，上述检测逻辑明显效率不高。

发明内容

本发明解决的一个主要问题是现有的行人属性的识别方法，需要分步执行行人检测算法，然后再分别对每个行人进行属性识别，当图像存在多个检测目标的时候，检测耗时也会成倍增加的问题。

根据本发明的一个方面，本发明提供一种基于yolov5的多任务目标检测识别方法，其特征在于，所述多任务目标检测识别方法包括：

获取图像数据；

对所述图像数据进行Mosaic数据增强，得到增强数据；

构建检测网络，并利用所述增强数据训练所述检测网络；

在训练后的所述检测网络中加入属性特征提取器和属性分类器，得到属性识别网络；

利用所述增强数据训练所述属性识别网络；

利用自学习权重损失函数，同时对训练后的所述检测网络和训练后的所述属性识别网络进行自学习，并分别输出检测结果和识别结果；

基于所述检测结果和所述识别结果，得到图像中待测目标的信息。

进一步地，所述构建检测网络包括：

所述检测网络包括依次连接的主干网络、Neck特征融合层以及检测分支。

进一步地，在训练后的所述检测网络中加入属性特征提取器和属性分类器，得到属性识别网络，包括：

在训练后的所述检测网络中的加入多个并联的属性特征提取器；

在所述属性特征提取器后加入属性分类器。

进一步地，基于加入的属性提取器，提取待测目标的属性特征。

进一步地，基于加入的属性分类器，提取待测目标的属性类别。

进一步地，利用自学习权重损失函数，同时对训练后的所述检测网络和训练后的所述属性识别网络进行自学习，包括：

根据训练后的所述检测网络的检测分支任务的回归情况，以及训练后的所述属性识别网络的属性分支任务的回归情况，调整自学习权重损失函数的系数，得到优化的检测网络和属性识别网络。

根据本发明的另一个方面，还公开一种基于yolov5的多任务目标检测识别网络结构，所述多任务目标检测识别网络结构运行时用于实现如前任一所述的一种基于yolov5的多任务目标检测识别方法，所述多任务目标检测识别网络结构包括检测网络和属性识别网络：

所述检测网络包括：

主干网络，用于对图像数据进行特征提取，生成共享特征图；

Neck特征融合层，所述Neck特征融合层包括FPN和PAN模块，用于对所述主干网络提取的特征进行融合；

检测分支，用于对融合后的特征进行回归；

所述属性识别网络包括：

所述主干网络、所述Neck特征融合层、属性特征提取器和属性分类器；

所述属性特征提取器用于从降维后的共享特征图中提取待测目标的属性特征；

所述属性分类器用于根据所述属性特征识别待测目标的属性类别。

进一步地，所述属性识别网络至少包括两个属性特征提取器。

本发明提出了端到端的一种基于yolov5的行人检测和属性分析的多任务学习算法，无需按传统方法中先完成检测任务，再分别完成每个目标的属性识别任务的步骤。之前的行人属性检测方法，每一个属性都需要一个单独的分析网络进行分析，本发明中引入了多任务学习的方法，，将多个属性任务进行多任务学习，可以一次性得到待测目标的所有属性，大大节省了硬件资源和显存资源。

附图说明

本发明构成说明书的一部分附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

图1为本发明实施例中基于yolov5的多任务目标检测识别网络结构示意图。

图2为本发明实施例中Mosaic数据增强效果示意图。

具体实施方式

下面将结合附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例一，提供一种基于yolov5的多任务目标检测识别方法，本实施例中检测目标为行人，检测识别方法步骤包括：

(1)获取图像数据。获取多个场景下的行人监控视频，分别标注出视频中行人的位置信息以及其属性信息，获得图像数据。其中，属性信息包括发型、性别、上衣类型、下衣类型、背包、帽子等。

(2)对图像数据进行Mosaic数据增强，得到增强数据。Mosaic数据增强算法是在CutMix数据增强方法的基础上改进而来的。CutMix仅仅利用了两张图片进行拼接，而Mosaic数据增强方法则采用了4张图片，并且按照随机缩放、随机裁剪和随机排布的方式进行拼接而成，具体的效果如图2所示。这种增强方法可以将几张图片组合成一张，这样不仅可以丰富数据集的同时极大的提升网络的训练速度，而且可以降低模型的内存需求，将四张图合成了一张图，提高了模型批次训练的吞吐量。

(3)构建检测网络，并利用增强数据训练检测网络。

检测网络包括依次连接的主干网络(backbone)、Neck特征融合层以及检测分支：

主干网络用于对行人图像进行特征提取,以得到共享特征图；

Neck特征融合层由FPN+PAN模块组成，用于对主干网络输出的特征进行融合，获得更高语义信息的特征图，还可以进一步提升特征的多样性以及鲁棒性；

检测分支用于对更高语义的特征进行回归，得到待检测的行人目标的矩形框和类别。

利用增强数据训练检测网络,根据视频中行人的位置信息作为监督信号，利用BCEWithLogitsLoss函数计算预测结果的cls类别信息和reg位置信息与标签数据的loss，然后进行回归检测分支的cls分支和reg分支，完成训练。

(4)在训练后的检测网络中加入属性特征提取器和属性分类器，得到属性识别网络。

具体地，在检测网络中加入N个属性特征提取器以及一个属性分类器,以得到属性识别网络。

属性提取器用于对由深度残差网络提取得到的共享特征图进行降维后,从中提取行人的一种属性特征；

属性分类器用于根据属性特征识别对应的属性类别。

(5)利用步骤(2)中的增强数据对属性识别网络进行训练，根据视频中行人的属性信息作为监督信号，利用BCEWithLogitsLoss函数计算预测结果的属性信息和监督信号的loss，然后进行回传回归，以更新属性识别网络；

(6)利用自学习权重损失函数，同时对训练后的检测网络和训练后的属性识别网络进行自学习，并分别输出检测结果和识别结果。

加入AutomaticWeightedLoss函数，同时对第一网络和第二网络进行学习，AutomaticWeightedLoss函数可根据每个不同分支任务的回归情况自学习调整回传loss的系数，替代传统的人为干扰，使得每个分支任务都可以很好的学习，解决因为某个任务的loss较大，导致别的任务没学习好的情况。

基于检测结果和识别结果，得到图像中多个待测行人的信息。待自学习完成后，综合检测分支的输出结果和属性分支的输出结果进行分析，即可得到同一张照像中的多个检测目标(即行人)的位置信息，即待测目标在图像上的位置；类别信息，即检测目标的类别，如成年人、老人或小孩等；以及属性信息，如发型、着装、背包等。

如果运用本实施例的方法去检测图像中的车辆等其他目标，则上述类别信息和属性信息便会相应变化。如检测目标是车辆，则检测目标的类别为小型轿车、越野车、卡车或其他类型的车,以及属性信息，如颜色、品牌、朝向等。

实施例二，如图1所示为一种基于yolov5的多任务目标检测识别网络结构，多任务目标检测识别网络结构运行时用于实现如实施例一所述的一种基于yolov5的多任务目标检测识别方法，多任务目标检测识别网络结构包括检测网络和属性识别网络：

检测网络包括：

主干网络Backbone，用于对图像数据进行特征提取，生成共享特征图；

Neck特征融合层，Neck特征融合层包括FPN和PAN模块，用于对主干网络提取的特征进行融合；

检测分支，用于对融合后的特征进行回归，检测待测目标的位置和类别信息；

属性识别网络包括：

主干网络、Neck特征融合层、多个属性特征提取器和一个属性分类器；

属性特征提取器用于从降维后的共享特征图中提取待测目标的多种属性特征；

属性分类器用于根据属性特征识别待测目标的属性类别。

本发明的基于yolov5的多任务目标检测识别方法的优点主要有以下几点：

1.在传统检测方法中，每一个属性都需要一个单独的分析网络进行分析。二本发明提出了端到端的一种基于yolov5的行人检测和属性分析的多任务学习算法，无需按传统检测方法中先完成检测任务，再依次完成每个目标的属性识别任务的步骤。而是引入了多任务学习的方法，可以一次性得到所有待测目标的所有属性，大大节省了硬件资源和显存资源。

2.由于此算法有较多的任务，提出了加入AutomaticWeightedLoss函数，可根据每个不同分支任务的回归情况自学习调整回传loss的系数，替代之前的人为干扰，使得每个任务都可以很好的学习，解决因为某个任务的loss较大，导致其他任务没学习好的情况。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims

1.一种基于yolov5的多任务目标检测识别方法，其特征在于，所述多任务目标检测识别方法包括：

获取标注的图像数据；

对所述图像数据进行Mosaic数据增强，得到增强数据；

构建检测网络，并利用所述增强数据训练所述检测网络；

利用所述增强数据训练所述属性识别网络；

2.如权利要求1所述的一种基于yolov5的多任务目标检测识别方法，其特征在于，所述构建检测网络包括：

3.如权利要求1所述的一种基于yolov5的多任务目标检测识别方法，其特征在于，在训练后的所述检测网络中加入属性特征提取器和属性分类器，得到属性识别网络，包括：

在所述属性特征提取器后加入属性分类器。

4.如权利要求3所述的一种基于yolov5的多任务目标检测识别方法，其特征在于，基于加入的属性提取器，提取待测目标的属性特征。

5.如权利要求3所述的一种基于yolov5的多任务目标检测识别方法，其特征在于，基于加入的属性分类器，提取待测目标的属性类别。

6.如权利要求1所述的一种基于yolov5的多任务目标检测识别方法，其特征在于，利用自学习权重损失函数，同时对训练后的所述检测网络和训练后的所述属性识别网络进行自学习，包括：

7.一种基于yolov5的多任务目标检测识别网络结构，其特征在于，所述多任务目标检测识别网络结构运行时用于实现如权利要求1-6任一所述的一种基于yolov5的多任务目标检测识别方法的步骤，所述多任务目标检测识别网络结构包括检测网络和属性识别网络：

所述检测网络包括：

检测分支，用于对融合后的特征进行回归；

所述属性识别网络包括：

8.一种基于yolov5的多任务目标检测识别网络结构，其特征在于，所述属性识别网络至少包括两个属性特征提取器。