CN112163490A

CN112163490A - 一种基于场景图片的目标检测方法

Info

Publication number: CN112163490A
Application number: CN202010995193.4A
Authority: CN
Inventors: 颜成钢; 王灵波; 吴嘉琪; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-01-01

Abstract

本发明提供一种基于场景图片的目标检测方法，本发明对训练数据集进行图像预处理，然后搭建基于U‑net网络的目标检测网络，将U‑net的encoder部分替换为为协同提取模块，所述的协同提取模块包括主、副两条支路和桥接模块，通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，通过训练数据集训练目标检测网络，最后将待检测图像输入训练好的目标检测网络中进行图像目标检测。本发明利用了相同物品场景图之间的相关性信息，并对siamese net、U‑net进行改进，使得图像的特征提取和相关性提取都得到了更好的结果。

Description

一种基于场景图片的目标检测方法

技术领域

本发明属于计算机视觉领域，特别是显著性检测和注意力网络的应用领域，具体涉及一种基于场景图片的目标检测方法。

背景技术

随着深度学习、神经网络的飞速发展，计算机视觉领域实现了前所未有的跨越。目标检测作为计算机视觉领域一个经典大类，受到广泛的研究和探讨，在显著性检测、行人重识别、图像数据评估等各个方向都取得了巨大进步。在生活中，面部扫描、车牌扫描、天网工程等都利用到了目标检测的相关技术。

现如今，如行人重识别这样的多数的目标检测工作大多利用标签数据集进行训练，数据集中待检测的目标使用方框框出，在训练时一般将数据集送入VGG、Resnet等经典网络中做编码，之后将得到的特征图进行加工，从而获得自己想要的模型结果。

孪生神经网络，即siamese network，是一种较为经典的网络结构。在计算机视觉领域，有许多问题需要考虑到输入数据的相似度问题。以往孪生神经网络通过共享两个网络的权值数据，对两个输入数据进行评估，计算图像的相似度特性，常用来做手写体识别或图像比较。

显著性检测是计算机视觉领域的经典内容，其成果也对包括如行人重识别、人脸识别等的图像处理和包括视频分割、视频检测等的视频处理作出了巨大贡献。在图像方面，有大量的数据集(像素级标注)可供选择训练，对模型准确度的提升起到了巨大帮助。

U-Net是现在最为流行的图像分割网络，网络主要包括下采样和上采样两个部分，通过下采样对图片特征进行提取处理，而上采样则可以将特征信息进行还原，使得网络最后输出为一个完整图像。

尽管目标检测已有巨大发展，在检测精度以及检测速度上都有巨大进步，但是目标检测较少关注于上下文内容，这也使得同一物体在不同场景的检测中容易出现偏差和瑕疵，对于未在数据集中出现过的目标，或者含有多个显著性物体的图片中难以有效地找到所需对象。

发明内容

针对现有技术存在的问题，本发明提供一种基于场景图片的目标检测方法。本发明在目标检测的过程中利用同一物体在多幅图片中相关性信息，提供了一种在多图片中找到目标物体的办法，使得待检测目标寻找更精确，分割更清晰，得到较好结果。

一种基于场景图片的目标检测方法，步骤如下：

步骤1、图像数据预处理：

采用协同显著性图像数据集作为训练数据集，对训练数据集进行图像预处理，除去图片相关噪声干扰，将训练数据集中的RGB图像和ground truth进行一一配对。

步骤2、搭建目标检测网络：

网络主要结构如图1，本方法采用encoder-decoder办法，目标检测网络基于U-net网络，将U-net的encoder部分替换为类似孪生神经网络siamese net的结构，称之为协同提取模块，所述的协同提取模块包括主、副两条支路和桥接模块，两条支路的输入共享权重数据，且每条支路均由两部分组成，第一部分为resnet34，用于提取图片初步特征，第二部分包括空洞卷积模块(aspp)和attention模块，用于进一步提取到更精确的目标信息，其中模块只采用了一次卷积和softmax层以提高数据处理速度；所述的桥接模块包括三个卷积加激活层；协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，将图片上采样还原为原始尺寸，在上采样过程中采用与U-net相同的skip connection操作保留图片信息，利用相关函数loss对输出进行约束。

步骤3、训练目标检测网络：

训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中，对于每张作为主输入的图片，其余图片也依次作为副输入输入到网络当中以实现数据的增强。使用主输入图片对应的ground truth来作为网络输出的ground truth，遍历所有类别后完成训练，保存效果最好的网络参数。

步骤4、将待检测图像进行预处理，除去图片相关噪声干扰，然后输入训练好的目标检测网络中进行图像目标检测。

进一步的，为了得到较好的训练结果可以使用其他显著性数据集对resnet34网络进行预训练，所述的其他显著性数据集包括DUT、MASR、COCO。

进一步的，训练目标检测网络过程中，激活函数选择Relu，使用SGD优化器算法，学习率设置为0.000001。

本发明有益效果如下：

在不同场景下检测同一目标时，图片之间能够共享一部分目标信息，这个目标信息可以作为辅助来指导目标检测，因此本发明方法利用协同显著性数据集对网络进行训练，使得网络可以学习到同一目标在不同场景下的共性，从而有效提高目标检测精度。

本发明利用了相同物品场景图之间的相关性信息，并对siamese net、U-net进行改进，使得图像的特征提取和相关性提取都得到了更好的结果。

附图说明

图1为本发明目标检测网络结构图；

图2为本发明目标检测网络训练流程图；

图3为本发明目标检测网络测试流程图。

具体实施方式

下面结合附图与实施例对本发明进行详细的说明。

一种基于场景图片的目标检测方法，步骤如下：

步骤1、对训练数据集进行图像预处理，除去图片相关噪声干扰，所述的训练数据集可以选择iCoseg dataset等协同显著性检测数据集或者视频数据集，将训练数据集中的RGB图像和ground truth进行一一配对。

步骤2、搭建目标检测网络：

目标检测网络结构如图1所示，本发明采用encoder-decoder办法，目标检测网络基于U-net网络，将U-net的encoder部分替换为类似孪生神经网络siamesenet的结构，称之为协同提取模块，所述的协同提取模块包括主、副两条支路和桥接模块，两条支路的输入共享权重数据，且每条支路均由两部分组成，第一部分为resnet34，用于提取图片初步特征，第二部分包括空洞卷积模块(aspp)和attention模块，用于进一步提取到更精确的目标信息，其中attention模块只采用了一次卷积和softmax层以提高数据处理速度；所述的桥接模块包括三个卷积加激活层；协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，将图片上采样还原为原始尺寸，在上采样过程中采用与U-net相同的skipconnection操作保留图片信息。

在训练时将同一类别中的两张图片输入目标检测网络的主支路和副支路，其中输入图片设置为三通道图片，通过主支路和副支路resnet34网络提取出输入图片的特征F1和F2，将提取出的特征再送入空洞卷积模块aspp中，这样一张图片内的内部信息可以被提取出来。之后空洞卷积模块输出的特征数据将会送到attention模块中，通过attention模块使得图片的主体信息更加充分，有利于目标提取。attention模块采用了CBAMBlock，并进行了相应的简化，只采用了一次卷积和softmax层以提高数据处理速度。最后通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，通过上采样还原图片信息，并利用loss函数进行约束。最后输出灰度图像，灰度图像中白色部分为分割出的物体区域。

为了将背景与目标分割开，Loss采用交叉熵损失函数：

l＝-∑label_xlog(out_x)+(1-label_x)log(1-out_x)

其中label_x表示像素样本x的标签label＝0或1，out_x表示像素x的预测分。

步骤3、训练目标检测网络：

如图2所示，训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中，对于每张作为主输入的图片，其余图片也依次作为副输入输入到网络当中以实现数据的增强。使用主输入图片对应的ground truth来作为网络输出的ground truth，遍历所有类别后完成训练。其中激活函数选择Relu，使用SGD优化器算法，学习率设置为0.000001。

图3为本发明方法目标检测网络测试流程图。

本发明利用了相同物品场景图之间的相关性信息，并对siamese net、U-net进行改进，使得图像的特征提取和相关性提取都得到了较好的结果。

Claims

1.一种基于场景图片的目标检测方法，其特征在于，步骤如下：

步骤1、图像数据预处理：

采用协同显著性图像数据集作为训练数据集，对训练数据集进行图像预处理，除去图片相关噪声干扰，将训练数据集中的RGB图像和ground truth进行一一配对；

步骤2、搭建目标检测网络：

目标检测网络基于U-net网络，将U-net的encoder部分替换为类似孪生神经网络siamese net的结构，称之为协同提取模块，所述的协同提取模块包括主、副两条支路和桥接模块，两条支路的输入共享权重数据，且每条支路均由两部分组成，第一部分为resnet34，用于提取图片初步特征，第二部分包括空洞卷积模块(aspp)和attention模块，用于进一步提取到更精确的目标信息，其中模块只采用了一次卷积和softmax层以提高数据处理速度；所述的桥接模块包括三个卷积加激活层；协同提取模块通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，将图片上采样还原为原始尺寸，在上采样过程中采用与U-net相同的skip connection操作保留图片信息，利用相关函数loss对输出进行约束；

步骤3、训练目标检测网络：

训练时将训练数据集同一类别中的每张图片依次作为主输入输入到网络中，对于每张作为主输入的图片，其余图片也依次作为副输入输入到网络当中以实现数据的增强；使用主输入图片对应的ground truth来作为网络输出的ground truth，遍历所有类别后完成训练，保存效果最好的网络参数；

2.根据权利要求1所述的一种基于场景图片的目标检测方法，其特征在于，在训练时将同一类别中的两张图片输入目标检测网络的主支路和副支路，其中输入图片设置为三通道图片，通过主支路和副支路resnet34网络提取出输入图片的特征F1和F2，将提取出的特征再送入空洞卷积模块aspp中，这样一张图片内的内部信息可以被提取出来；之后空洞卷积模块输出的特征数据将会送到attention模块中，通过attention模块使得图片的主体信息更加充分，有利于目标提取；attention模块采用了CBAMBlock，并进行了相应的简化，只采用了一次卷积和softmax层以提高数据处理速度；最后通过concatenate操作将两条支路处理完成的信息进行融合，通过桥接模块进行进一步处理，最后将桥接模块处理后的数据输入decoder部分，通过上采样还原图片信息，并利用loss函数进行约束；最后输出灰度图像，灰度图像中白色部分为分割出的物体区域；

为了将背景与目标分割开，Loss采用交叉熵损失函数：

l＝-∑label^xlog(out^x)+(1-label^x)log(1-out^x)

3.根据权利要求1所述的一种基于场景图片的目标检测方法，其特征在于，进一步的，为了得到较好的训练结果可以使用其他显著性数据集对resnet34网络进行预训练，所述的其他显著性数据集包括DUT、MASR、COCO。

4.根据权利要求1所述的一种基于场景图片的目标检测方法，其特征在于，进一步的，训练目标检测网络过程中，激活函数选择Relu，使用SGD优化器算法，学习率设置为0.000001。