CN115588130A

CN115588130A - 一种基于域自适应的跨域yolo检测方法

Info

Publication number: CN115588130A
Application number: CN202211252160.6A
Authority: CN
Inventors: 曹新东
Original assignee: Chengdu Zhuosi Zhitong Technology Co ltd
Current assignee: Chengdu Zhuosi Zhitong Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-10
Anticipated expiration: 2042-10-13
Also published as: CN115588130B

Abstract

本发明涉及一种基于域自适应的跨域YOLO检测方法，包括：通过结合YOLO‑SPP5模型与梯度反转层、域分类器和CycleGAN构建DA‑YOLO‑SPP5模型，并通过CycleGAN构建三个数据集；构建YOLO‑SPP5损失函数，并与域分类损失函数结合得到DA‑YOLO‑SPP5模型的损失函数；将CycleGAN构建的数据集对DA‑YOLO‑SPP5模型进行训练直到损失函数收敛；将待检测图像输入到训练好的DA‑YOLO‑SPP5模型中进行检测，得到检测结果。本发明在仅需源域目标检测标签的情况下，可以基本实现目标域数据集的数据标注，降低大量数据标注成本。

Description

一种基于域自适应的跨域YOLO检测方法

技术领域

本发明涉及智能模型分析领域，尤其涉及一种基于域自适应的跨域YOLO检测方法。

背景技术

目前在城市监控场景中车辆、行人等目标的检测时，随着硬件设施的不断升级，当前监控视频画面分辨率较大，1920×1920的视频画面分辨率变得较为常见，由于监控摄像头位置固定，车辆、行人等目标在视频中的尺寸也会存在较大变化，而且监控场景属于户外场景，视频画面会因为光照灯光变化、天气等原因形成不同场景，这就导致了检测模型在不同场景下适应性较差；而且数据标注成本高昂成为了提高检测模型在多场景下检测性能的最大障碍。

目前为了提高检测模型在不同场景下检测性能，有通过收集大量不同场景的数据集，进行高精度的数据标注，以扩充数据集，但是面对大规模数据时会带来较大工作量的数据标注，进而提高了数据标注成本；也有改进改进检测模型网络架构，加大网络深度以提高网络的特征提取能力，进而提升检测模型的检测性能，但是加大网络深度就必然会使得计算量的提升，进而导致模型训练阶段需要更大显存显卡的支持。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于域自适应的跨域YOLO检测方法，解决了目前不同场景下目标检测存在的问题。

本发明的目的通过以下技术方案来实现：一种基于域自适应的跨域YOLO检测方法，所述检测方法包括：

S1、将YOLO v3模型中的3个检测预测分支增加到5个，并在每个预测分支中加入SPP单元得到YOLO-SPP5模型；

S2、通过结合YOLO-SPP5模型与梯度反转层、域分类器和CycleGAN构建DA-YOLO-SPP5模型，并通过CycleGAN构建源域数据集A、目标域数据集B和假目标域数据集C；

S3、以CIOU损失函数、置信度C的损失函数和目标框的分类损失函数构建YOLO-SPP5损失函数，并与域分类损失函数结合得到DA-YOLO-SPP5模型的损失函数；

S4、将CycleGAN构建的数据集对DA-YOLO-SPP5模型进行训练直到损失函数收敛；

S5、将待检测图像输入到训练好的DA-YOLO-SPP5模型中进行检测，得到检测结果。

所述DA-YOLO-SPP5模型包括CycleGAN数据重建模块、基础特征提取模块、域自适应模块和YOLO-SPP5模型；所述CycleGAN数据重建模块将源域图像转化为目标域风格的假图像，从而在训练过程中实现源域与目标数据集共享域数据集的目标检测标签，并将带标签的目标域风格家图像用于训练中；所述基础特征提取模块用于对输入的数据依次进行多次提取得到对应的图像特征；所述域自适应模块用于将基础特征提取模块输出的图像特征实现反向传播过程中的梯度自动取反并提取得到特征的像素级域分类；所述YOLO-SPP5模型用于对提取的特征并结合像素级域分类进行检测识别。

所述域自适应模块包括梯度反转层和域分类器；所述梯度反转层设置在所述基础特征提取模块的输出端，用于实现反转过程中梯度自动取反；所述域分类器用于在梯度反转层取反后对基础特征提取模块提取得到的特征进行像素级域分类。

所述基础特征提取模块包括Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元；图像输入基础特征提取模块后依次经过Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元其特征尺度均会减半。

所述YOLO-SPP5模型包括5个检测预测分支，第二到第五检测预测分支均包括依次连接的上采样层、特征连接层、SPP单元和卷积层，第一检测预测分支包括依次连接的SPP单元和卷积层；Res4单元的输出连接第一检测预测分支，第一检测预测分支的SPP单元的输出连接第二检测预测分支的上采样层，作为第二检测预测分支的一个输入，第二Res8单元的输出连接特征连接第二预测分支的特征连接层作为第二检测预测分支的另一个输入；第二检测预测分支的SPP单元的输出连接第三检测预测分支的上采样层，作为第三检测预测分支的一个输入，第一Res8单元的输出连接第三检测预测分支的特征连接层，作为第三检测预测分支的另一个输入；第三检测预测分支的SPP单元的输出连接第四检测预测分支的上采样层，作为第四检测预测分支的一个输入，Res2单元的输出连接第四检测预测分支的特征连接层，作为第四检测预测分支的另一个输入；第四检测预测分支的SPP单元的输出连接第五检测预测分支的上采样层，作为第五检测预测分支的一个输入，Res1单元的输出连接第五检测预测分支的特征连接层，作为第五检测预测分支的另一个输入。

所述以CIOU损失函数、置信度C的损失函数和目标框的分类损失函数构建YOLO-SPP5损失函数包括：

以预测目标框与真实目标框中心点之间的欧几里得距离ρ(b,b^gt)、预测框与真实框之间最小闭包的对角线长度c和预测框与真实框之间的交并比IOU构建CIOU损失函数

将CIOU损失函数替换YOLO v3模型中的目标定位损失函数，其中，b为预测目标框，b^gt为真实目标框，v代表真实框和预测框宽高比一致性参数，β代表trade-off参数，h为YOLO-SPP5检测得到的目标检测框的高度，h^gt为真实检测框的高度，w为YOLO-SPP5检测得到的目标检测框的宽度，w^gt为真实检测框的宽度；

根据置信度C的损失函数L_conf和目标框的分类损失函数L_cls得到YOLO-SPP5的损失函数

L_loc＝L_CIOU

L_det＝L_loc+L_conf+L_cls

其中，m为输入图片数量，S为预测框数量，p_ij(c)为第i张图片的第j个检测框为类别c的真实概率，

第i张图片的第j个检测框为类别c的YOLO-SPP5预测概率，i，j为循环变量。

所述与域分类损失函数结合得到DA-YOLO-SPP5模型的损失函数包括：

将基础特征提取模块记为F，域分类器记为D，得到域分类损失函数为

其中，H和W分别代表特征图的宽高，K代表特征通道数,z代表特征的域分类标签，x^s代表源域图像，z^s代表源域图像域标签；x^t代表目标域图像，z^t代表目标域图像域标签，

代表第i张源域图像，

代表第j张源域图像，n_t为目标域图像数量，n_s为源域图像数量，w，h，k为循环变量，λ为梯度层参数；

将域分类损失函数与YOLO-SPP5的损失函数结合得到DA-YOLO-SPP5模型的损失函数L＝L_det+L_da。

所述将CycleGAN构建的数据集对DA-YOLO-SPP5模型进行训练直到损失函数收敛包括：

A1、利用带标签的源域数据集A训练YOLO-SPP5模型；

A2、利用源域数据集A和目标域数据集B训练CycleGAN，并将带标签的源域数据集转化为目标域，并共享源与数据集A的标签，形成目标假目标数据集C；

A3、将步骤A1中训练好的YOLO-SPP5模型作为预训练模型，利用源域数据集A、目标域数据集B和假目标域数据集C输入到DA-YOLO-SPP5模型中；

A4、源域数据集A、目标域数据集B和假目标域数据集C经过基础特征提取模块提取得到对应的图像特征，然后将三个数据提取得到的图像土壤中送入域自适应模块用于域分类任务进而计算域分类损失；

A5、源域数据集A和目标域数据集B提取得到的图像特征输入到YOLO-SPP5模型进行目标检测任务，进而计算YOLO-SPP5模型的目标检测损失；

A6、当域分类损失和YOLO-SPP5模型的目标检测损失都达到收敛时完成训练。

本发明具有以下优点：一种基于域自适应的跨域YOLO检测方法，通过增大输入图像分辨率，并修改YOLOv3网络架构和损失函数形成了YOLO-SPP5模型，取得了90.67％的mAP，优于传统YOLOv3的85.56％；结合GRL和CycleGAN两种域自适应策略设计的DA-YOLO-SPP5模型，在不使用目标域数据标签的情况下可以在夜晚城市监控场景目标域数据集下取得了83.91％的mAP，直接利用带目标检测标签的夜晚城市监控场景目标域数据集训练的YOLO-SPP5达到了89.68％，在仅需源域目标检测标签的情况下，可以基本实现目标域数据集的数据标注，降低大量数据标注成本。

附图说明

图1为本发明DA-YOLO-SPP5模型的网络结构图；

图2为本发明YOLO-SPP5模型的网络结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明具体涉及一种基于域自适应的跨域YOLO检测方法，其具体包括以下内容：

进一步地，如图2所示，YOLO-SPP5模型包括5个检测预测分支，实现5个不同尺度特特在的融合；第二到第五检测预测分支均包括依次连接的上采样层、特征连接层、SPP单元和卷积层，第一检测预测分支包括依次连接的SPP单元和卷积层；Res4单元的输出连接第一检测预测分支，第一检测预测分支的SPP单元的输出连接第二检测预测分支的上采样层，作为第二检测预测分支的一个输入，第二Res8单元的输出连接特征连接第二预测分支的特征连接层作为第二检测预测分支的另一个输入；第二检测预测分支的SPP单元的输出连接第三检测预测分支的上采样层，作为第三检测预测分支的一个输入，第一Res8单元的输出连接第三检测预测分支的特征连接层，作为第三检测预测分支的另一个输入；第三检测预测分支的SPP单元的输出连接第四检测预测分支的上采样层，作为第四检测预测分支的一个输入，Res2单元的输出连接第四检测预测分支的特征连接层，作为第四检测预测分支的另一个输入；第四检测预测分支的SPP单元的输出连接第五检测预测分支的上采样层，作为第五检测预测分支的一个输入，Res1单元的输出连接第五检测预测分支的特征连接层，作为第五检测预测分支的另一个输入。

S2、通过结合YOLO-SPP5模型与梯度反转层(GRL)、域分类器和CycleGAN构建DA-YOLO-SPP5模型，以提高模型在不同场景中的适应能力，并通过CycleGAN构建源域数据集A、目标域数据集B和假目标域数据集C；

进一步地，DA-YOLO-SPP5模型包括CycleGAN数据重建模块、基础特征提取模块(DarkNet-53)、域自适应模块和YOLO-SPP5模型；所述CycleGAN数据重建模块将源域图像转化为目标域风格的假图像，从而在训练过程中实现源域与目标数据集共享域数据集的目标检测标签，并将带标签的目标域风格家图像用于训练中；所述基础特征提取模块用于对输入的数据依次进行多次提取得到对应的图像特征；所述域自适应模块用于将基础特征提取模块输出的图像特征实现反向传播过程中的梯度自动取反并提取得到特征的像素级域分类；所述YOLO-SPP5模型用于对提取的特征并结合像素级域分类进行检测识别。

进一步地，域自适应模块包括梯度反转层和域分类器(DomainClassifier)，该模块的输入和输出尺寸一致；所述梯度反转层设置在所述基础特征提取模块的输出端，用于实现反转过程中梯度自动取反；所述域分类器用于在梯度反转层取反后对基础特征提取模块提取得到的特征进行像素级域分类。

进一步地，基础特征提取模块包括Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元；图像输入基础特征提取模块后依次经过Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元其特征尺度均会减半，特征尺度分别为304×304、152×152、76×76、38×38和19×19，特征经过上采样层后其特征尺度会翻倍。

进一步地，以CIOU损失函数、置信度C的损失函数和目标框的分类损失函数构建YOLO-SPP5损失函数包括：

将CIOU损失函数替换YOLO v3模型中的目标定位损失函数，以更为准确的定位目标，其中，b为预测目标框，b^gt为真实目标框，v代表真实框和预测框宽高比一致性参数，β代表trade-off参数，h为YOLO-SPP5检测得到的目标检测框的高度，h^gt为真实检测框的高度，w为YOLO-SPP5检测得到的目标检测框的宽度，w^gt为真实检测框的宽度；

L_loc＝L_CIOU

L_det＝L_loc+L_conf+L_cls

代表第i张源域图像，

代表第j张源域图像，n_t为目标域图像数量，n_s为源域图像数量，w，h，k为循环变量，λ为梯度层参数，本发明中默认为1.0；

本发明中只涉及两个场景，因此域标签采用0/1标签，0代表源域，1代表目标域，K＝1。梯度反转层R_λ的参数λ在下文的所有实验中都取值为1.0。

进一步地，将CycleGAN构建的数据集对DA-YOLO-SPP5模型进行训练直到损失函数收敛包括：

A1、利用带标签的源域数据集A训练YOLO-SPP5模型，输入分辨率为1280*640；

A3、将步骤A1中训练好的YOLO-SPP5模型作为预训练模型，利用源域数据集A、目标域数据集B和假目标域数据集C输入到DA-YOLO-SPP5模型中，输入分辨率为1280*640；

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于域自适应的跨域YOLO检测方法，其特征在于：所述检测方法包括：

2.根据权利要求1所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述DA-YOLO-SPP5模型包括CycleGAN数据重建模块、基础特征提取模块、域自适应模块和YOLO-SPP5模型；所述CycleGAN数据重建模块将源域图像转化为目标域风格的假图像，从而在训练过程中实现源域与目标数据集共享域数据集的目标检测标签，并将带标签的目标域风格家图像用于训练中；所述基础特征提取模块用于对输入的数据依次进行多次提取得到对应的图像特征；所述域自适应模块用于将基础特征提取模块输出的图像特征实现反向传播过程中的梯度自动取反并提取得到特征的像素级域分类；所述YOLO-SPP5模型用于对提取的特征并结合像素级域分类进行检测识别。

3.根据权利要求2所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述域自适应模块包括梯度反转层和域分类器；所述梯度反转层设置在所述基础特征提取模块的输出端，用于实现反转过程中梯度自动取反；所述域分类器用于在梯度反转层取反后对基础特征提取模块提取得到的特征进行像素级域分类。

4.根据权利要求2所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述基础特征提取模块包括Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元；图像输入基础特征提取模块后依次经过Res1单元、Res2单元、第一Res8单元、第二Res8单元和Res4单元其特征尺度均会减半。

5.根据权利要求4所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述YOLO-SPP5模型包括5个检测预测分支，第二到第五检测预测分支均包括依次连接的上采样层、特征连接层、SPP单元和卷积层，第一检测预测分支包括依次连接的SPP单元和卷积层；Res4单元的输出连接第一检测预测分支，第一检测预测分支的SPP单元的输出连接第二检测预测分支的上采样层，作为第二检测预测分支的一个输入，第二Res8单元的输出连接特征连接第二预测分支的特征连接层作为第二检测预测分支的另一个输入；第二检测预测分支的SPP单元的输出连接第三检测预测分支的上采样层，作为第三检测预测分支的一个输入，第一Res8单元的输出连接第三检测预测分支的特征连接层，作为第三检测预测分支的另一个输入；第三检测预测分支的SPP单元的输出连接第四检测预测分支的上采样层，作为第四检测预测分支的一个输入，Res2单元的输出连接第四检测预测分支的特征连接层，作为第四检测预测分支的另一个输入；第四检测预测分支的SPP单元的输出连接第五检测预测分支的上采样层，作为第五检测预测分支的一个输入，Res1单元的输出连接第五检测预测分支的特征连接层，作为第五检测预测分支的另一个输入。

6.根据权利要求1所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述以CIOU损失函数、置信度C的损失函数和目标框的分类损失函数构建YOLO-SPP5损失函数包括：

L_loc＝L_CIOU

L_det＝L_loc+L_conf+L_cls

7.根据权利要求6所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述与域分类损失函数结合得到DA-YOLO-SPP5模型的损失函数包括：

代表第i张源域图像，

8.根据权利要求1所述的一种基于域自适应的跨域YOLO检测方法，其特征在于：所述将CycleGAN构建的数据集对DA-YOLO-SPP5模型进行训练直到损失函数收敛包括：

A1、利用带标签的源域数据集A训练YOLO-SPP5模型；