CN112215100B

CN112215100B - 一种不平衡训练样本下针对退化图像的目标检测方法

Info

Publication number: CN112215100B
Application number: CN202011030872.4A
Authority: CN
Inventors: 刘盛; 沈家瑜; 叶焕然; 郭东岩; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-02-09
Anticipated expiration: 2040-09-27
Also published as: CN112215100A

Abstract

本发明公开了一种不平衡训练样本下针对退化图像的目标检测方法，首先拍摄真实场景图片，抠出目标区域将RGB调0后置于白色图层上，使用随机大小的黑色图层覆盖亮点，并添加随机白色光斑，生成掩膜；然后用生成的掩膜对待检测图像做掩膜增强，将掩膜增强后的待检测图像输入到特征提取网络，获取特征提取网络最后三个残差组合模块输出的张量特征；最后将所述张量特征输入到多特征注意力提取网络，输出三个新的张量特征，将所述三个新的张量特征输入到非极大值抑制网络得到检测结果。本发明在城市环卫机器人上得到应用，能够很好的检测阴影和夜间路面的垃圾。

Description

一种不平衡训练样本下针对退化图像的目标检测方法

技术领域

本申请属于图像目标检测技术领域，尤其涉及一种不平衡训练样本下针对退化图像的目标检测方法。

背景技术

目前的目标检测技术，一般是在滑动窗口使用SIFT算法提取特征向量，然后将这些特征向量通过SVM分类器区分目标和背景。近几年，深度学习方法开始流行，通常采用两阶段检测模型，如R-CNN何Fast R-CNN等。Faster R-CNN通过卷积神经网络生成候选区域以提高速度，尽管两阶段检测模型具有较高的检测精确度，但它们运行缓慢且不具有实时性能。YOLO是一种实时目标检测模型，具有多种变体。YOLO v1使用Darknet作为主干网络来提高检测速度，输出张量的每个通道表示框中目标的位置、大小、类别、置信度得分等信息，其中置信度得分表示每个框包含真实目标的概率。最后一步，模型通过非极大值抑制来筛选检测目标。YOLO v2增加了锚点机制，这使收敛更容易，并在一定程度上解决了重叠目标检测问题。YOLO v3增加了特征融合，将具体层和抽象层结合在一起，并输出三个比例的张量，从而有效地解决了小尺寸目标检测的问题。除YOLO以外，诸如RetinaNet的一些模型提出了新的损失函数，而诸如CenterNet的一些模型提出了新的关键点表示方法等。

然而，上述现有技术既没有解决针对退化图像目标检测的问题，也没有解决训练样本不平衡的问题。翻转、模糊和缩放等数据增强方法解决了过拟合问题，但是退化图像中的目标检测仍然是一个大问题。调整损失权重比和更改采样分布是缓解训练样本不平衡问题的有效方法，但是仍然有许多工作要做以提升整体精度。

发明内容

本申请的目的是提供一种不平衡训练样本下针对退化图像的目标检测方法，设计了掩模增强方法和多特征注意力模块等来解决不平衡训练样本下针对退化图像的目标检测问题。

一种不平衡训练样本下针对退化图像的目标检测方法，用于采用训练好的神经网络模型进行目标检测，所述神经网络包括特征提取网络、多特征注意力提取网络和非极大值抑制网络，所述不平衡训练样本下针对退化图像的目标检测方法，包括：

拍摄真实场景图片，抠出目标区域将RGB调0后置于白色图层上，使用随机大小的黑色图层覆盖亮点，并添加随机白色光斑，生成掩膜；

用生成的掩膜对待检测图像做掩膜增强；

将掩膜增强后的待检测图像输入到特征提取网络，获取特征提取网络最后三个残差组合模块输出的张量特征；

将所述张量特征输入到多特征注意力提取网络，输出三个新的张量特征；

将所述三个新的张量特征输入到非极大值抑制网络得到检测结果。

进一步的，所述白色光斑的大小、直径、曲率、拉伸度、平滑度均服从高斯分布，白色光斑起始形状与不平滑锯齿形状服从离散均匀分布。

进一步的，所述黑色图层的大小服从均匀分布。

进一步的，所述神经网络模型还包括分类损失分支网络，在训练所述神经网络模型时，所述分类损失分支网络接收所述特征提取网络最后一个残差组合模块的输出，将输出的分类结果和真实分类结果进行对比，用损失函数量化后反向传播，优化模型参数。

进一步的，所述分类损失分支网络包括全局平均池化层和全连接层。

进一步的，所述将所述张量特征输入到多特征注意力提取网络，输出三个新的张量特征，包括：

(1)将特征提取网络最后三个残差组合模块输出的张量特征作为第一张量特征输入；

(2)将后一个第一张量特征进行卷积后再进行升采样，融合前一个第一张量特征，然后对融合后的张量特征进行重复操作，输出所对应的三个第二张量特征；

(3)将第三个第二张量特征卷积并进行sigmoid变换后作为注意力值；

(4)将注意力值与第一个第二张量特征相乘，重复(2)的融合过程，再次产生三个第三张量特征；

(5)将(4)产生的第三张量特征卷积变换后输出三个不同尺度的新的张量特征。

本申请提出的一种不平衡训练样本下针对退化图像的目标检测方法，目前已经在自主研发的城市环卫机器人上得到应用，取得了明显的效果，能够很好的检测阴影和夜间路面的垃圾。掩膜增强方法中设计的掩膜能够模拟强光下树的阴影和夜间路灯形成的局部光亮，在现有的训练图像中实现人工退化效果，从而提升模型针对退化图像的目标检测能力。多特征注意力模块通过引入注意力机制更容易区分白天和夜间图像的不同特征,而且两次融合能兼顾抽象特征和具体特征,从而更准确地处理白天和夜间图像特征；分类损失分支通过对损失函数进行梯度下降,之前的网络层可以学习到白天和夜间图像的不同特征并加以区分。包含多特征注意力模块和分类损失分支的新型网络结构可用于解决不平衡训练样本问题。

附图说明

图1为本申请不平衡训练样本下针对退化图像的目标检测方法流程图；

图2为本申请实施例神经网络模型结构示意图；

图3为本申请实施例多特征注意力提取网络结构示意图；

图4为本申请实施例分类损失分支网络结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请一种不平衡训练样本下针对退化图像的目标检测方法，用于在不平衡训练样本下，针对退化图像进行目标检测。例如应用在城市环卫机器人上，在树和路灯的阴影下实现对路上垃圾的检测，在阴影以及夜间退化场景下具有可观的目标检测精度。

本申请的一个实施例，如图1所示，一种不平衡训练样本下针对退化图像的目标检测方法，用于采用训练好的神经网络模型进行目标检测，所述神经网络包括特征提取网络、多特征注意力提取网络和非极大值抑制网络。所述不平衡训练样本下针对退化图像的目标检测方法，包括：

用生成的掩膜对待检测图像做掩膜增强；

在一个具体的实施例中，以城市环卫机器人在树和路灯的阴影下实现对路上垃圾的检测为例，在产生掩膜的过程中，首先拍摄真实树荫照片，用抠图工具抠出树荫部分并将RGB调0后置于白色图层上，然后使用随机大小的黑色图层覆盖亮点，并添加随机白色光斑，生成掩膜。所述黑色图层的大小服从均匀分布，从而使得目标区域中亮点被随机遮盖。

掩膜增强能够模拟阴影下以及夜间场景，能够把非退化的训练样本(图像)转换为退化样本，不仅增加了样本的数量，同时也提升了退化样本占全部样本的比例，能够使训练出来的模型对退化场景的应对能力更强。现有的数据增强技术通常对图像进行旋转、伸缩、遮挡、融合等操作，但是未提高图像的退化性，本申请提出的掩模增强很好的解决了这一点。

容易理解的是，本申请不仅对待检测图像做掩膜增强，在训练神经网络模型时，也随机生成许多这样的掩膜，每张训练图片用一个掩膜覆盖，可以将掩膜的透明度、所占面积、长宽比设置为随机值，但是该掩膜必须覆盖这张图片中所有检测目标。

在一个具体的实施例中，本申请神经网络模型如图2所示，包括特征提取网络、多特征注意力提取网络和非极大值抑制网络。

特征提取网络可以采用Darknet-53网络，或resnet50、resnet101等，以Darknet-53网络为例，Darknet-53网络中有许多基础模块，例如DBL和残差组合模块，DBL仅由卷积层、Batch Normalization(批量归一化)层和Leaky Relu(带泄露修正线性单元)激活函数组成，该组合可以快速提取特征。DBL之后是大量的residual(残差)层，事实证明，这些residual层使网络更深，更容易训练。每连接多个residual层时，张量需要进行一次降采样，这可以抽象化特征并使模型学习到更深层的信息。为了便于表述，将降采样与不同数量的residual层组合成一个残差组合模块(resn)，其中n表示块中所包含残差层的数量。图2中，Classifier表示分类器，Classification Loss表示分类损失分支，Multi-FeatureAttention Module表示多特征注意力提取网络，Output Tensors表述输出张量，NMS表示非极大值抑制网络。

多特征注意力提取网络如图3所示，提取了Darknet-53主干上最后三个resn块，最后一块提取的特征更抽象，它能够描述更多语义信息。但是由于降采样，其感受野(计算每个特征点所关联到的不同变量个数)非常大，因此这些特征通常用于检测大型目标。浅层特征更具体，它不会因降采样丢失太多原始信息，并且具有更高的分辨率，从而更易检测小型目标。该模块中生成的注意力兼顾抽象信息和具体信息。主干网络的后三个resn块，从最后一个resn块开始对其输出特征进行卷积后再进行升采样，融合前一个resn块输出的特征，然后对融合后的特征进行重复操作，按照这样迭代组合输出的特征，既具有一定的语义信息，又不会丢失部分重要的原始信息，产生的注意力更加准确。之后对注意力特征进行降采样并使用sigmoid函数(一种S型函数)进行归一化，与最后一个resn块卷积后输出的特征相乘，接下来再进行一次特征融合。该模块仅加注意力一次，因为注意力会通过特征融合同时对三个输出结果产生作用，且避免影响检测实时性。

多特征注意力提取整体处理过程如下：

图3中，concat表示张量连接操作，upsample表示上采样，mul表示张量逐点相乘操作，sigmoid表示一种激活函数。

结合图3，res4的输出进行卷积(DBL2)后再进行升采样(upsample)，与res8(中间的res8)进行融合(concat)，然后卷积(DBL2)再进行升采样(upsample)，与res8(第一个res8)进行融合(concat)，然后经过卷积(DBL2、DBL2)并进行sigmoid变换后作为注意力值；

将注意力值与res4下来的张量特征相乘，重复(2)的融合过程，再次产生三个张量特征；

最后再次产生的三个张量特征卷积变换(DBL5、DBL、conv)后输出三个不同尺度的新的张量特征(y1，y2，y3)。

多特征注意力网络能够一定程度上解决不平衡训练样本下目标检测的问题。传统的修改损失权重比方法虽然提升了模型对少样本场景的检测精确度，但是对更频繁出现的多样本场景的检测精度会有明显的降低，尤其是权重比特别大的时候。本申请提出的多特征注意力网络利用注意力机制和两次特征融合，在修改损失权重比基础上能够分离不同的特征，同时对这些特征产生不同的注意力，使得在明显提升少样本场景的检测精确度同时对多样本场景检测精度影响最小。

在一个具体的实施例中，本申请分类损失分支网络如图4所示，包含一个分类器，该分类器将图像分为两类:白天图像和夜间图像。该分类器具有简单的结构，包括全局平均池化层和全连接层，主干网络最后一个resn块的输出特征通过global average pooling(全局平均池化)层产生长条形特征，将其输入全连接层后输出的值表示该图像是夜间图像的概率，其中1表示完全认为该图像是在夜间拍摄的，而0则相反。由于只有两类，可以使用二值交叉熵作为损失函数。该分类损失分支与现有的图像分类器原理相同，但是作用不同，本申请将图像分类领域上的技术用在了目标检测领域上。现有的分类器用于直接输出分类结果；本申请分类损失分支完全用于反向传播，起到辅助目标检测的作用。

需要说明的是，本申请分类损失分支网络主要是在训练神经网络模型时使用，在训练所述神经网络模型时，所述分类损失分支网络接收所述特征提取网络最后一个残差组合模块的输出，将输出的分类结果和真实分类结果进行对比，用损失函数量化后反向传播，优化模型参数。

分类损失分支能够使模型在训练过程中不仅专注于细化的目标检测准确性，同时也注重整个图像分类准确性。因为不同类别的图像中相同类型的目标可能具有形态、颜色上的差异，因此如果能够在权重中学到图像的类别区分有助于提升目标检测精度。在传统目标检测网络中增加分类损失分支能够在训练过程中同时反向传播图像分类损失，从而在不平衡训练样本下提升目标检测精度。

需要说明的是，本申请非极大值抑制网络(Non-Maximum Suppression，NMS)属于比较成熟的技术，用于目标检测，这里不再赘述。

本申请神经网络模型训练过程如下：

对训练样本图像进行掩膜增强处理，关于掩膜增强处理前面已经阐述，这里不再赘述；

输入训练样本图像经过Darknet-53网络输出3个张量特征(分别是最后的res8、res8和res4三个模块所输出的特征)；

将最后1个张量特征(res4块输出的特征)输入到分类损失分支，该分支将输出的分类结果和真实分类结果进行对比，用损失函数量化后反向传播，优化模型参数；

将res8、res8和res4三个模块生成的3个张量特征输入到多特征注意力提取网络，输出3个新的张量结果(y1，y2，y3)；

将3个新的张量结果采用非极大值抑制输出检测结果；

将模型输出的检测结果和真实标注结果进行对比，用损失函数量化后反向传播，优化模型参数。

容易理解的是，在训练好神经网路模型后，就可以对待检测图像进行检测，在检测的过程，执行如图1所示的步骤，即：

用生成的掩膜对待检测图像做掩膜增强，关于掩膜增强处理前面已经阐述，这里不再赘述；

输入掩膜增强后的待检测图像经过Darknet-53网络输出3个张量特征(分别是最后的res8、res8和res4三个模块所输出的特征)；

将3个新的张量结果采用非极大值抑制输出检测结果。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种不平衡训练样本下针对退化图像的目标检测方法，用于采用训练好的神经网络模型进行目标检测，其特征在于，所述神经网络包括特征提取网络、多特征注意力提取网络和非极大值抑制网络，所述不平衡训练样本下针对退化图像的目标检测方法，包括：

用生成的掩膜对待检测图像做掩膜增强；

将所述三个新的张量特征输入到非极大值抑制网络得到检测结果；

其中，所述特征提取网络采用Darknet-53网络或Resnet50网络或Resnet101网络；

所述将所述张量特征输入到多特征注意力提取网络，输出三个新的张量特征，包括：

2.如权利要求1所述的不平衡训练样本下针对退化图像的目标检测方法，其特征在于，所述白色光斑的大小、直径、曲率、拉伸度、平滑度均服从高斯分布，白色光斑起始形状与不平滑锯齿形状服从离散均匀分布。

3.如权利要求1所述的不平衡训练样本下针对退化图像的目标检测方法，其特征在于，所述黑色图层的大小服从均匀分布。

4.如权利要求1所述的不平衡训练样本下针对退化图像的目标检测方法，其特征在于，所述神经网络模型还包括分类损失分支网络，在训练所述神经网络模型时，所述分类损失分支网络接收所述特征提取网络最后一个残差组合模块的输出，将输出的分类结果和真实分类结果进行对比，用损失函数量化后反向传播，优化模型参数。

5.如权利要求4所述的不平衡训练样本下针对退化图像的目标检测方法，其特征在于，所述分类损失分支网络包括全局平均池化层和全连接层。