CN112686282A

CN112686282A - 一种基于自学习数据的目标检测方法

Info

Publication number: CN112686282A
Application number: CN202011450601.4A
Authority: CN
Inventors: 侯峦轩; 马鑫; 孙哲南; 赫然
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-20

Abstract

本发明公开一种基于自学习数据的目标检测方法，包括以下步骤：首先将图像形成图像块后进行建立模型，并将搜索数据增强序列建模为类别分布与伯努利分布问题，通过类别分布确定如何选择子序列，通过伯努利分布选择子序列内的图像增强操作；最后采用可微分的近似交叉优化得到自学习的数据增强序列；通过设立的自动数据增强的图模型，将参数传入目标检测模型当中，形成训练数据。本发明旨在自学习自动增加数据可变性，从而以更好的泛化能力训练深度网络。

Description

一种基于自学习数据的目标检测方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于自学习数据的目标检测方法。

背景技术

深度学习时代，数据规模越大、质量越高，模型就能够拥有更好的泛化能力，数据直接决定了模型学习的上限。然而实际工程中，采集的数据很难覆盖全部的场景，如图像的光照条件，同一场景拍摄的图片可能由于光线不同就会有很大的差异性，那么在训练模型的时候就需要加入光照方面的数据增强。另一方面，即使拥有大量的数据，也应该进行数据增强，这样有助于添加相关数据数据集中数据的数量，防止模型学习到不想要的模型，避免出现过拟合现象。

针对实际应用中的难点，一方面，研究在将自发数据增强策略和实际任务结合后的模型训练中，但是由于往往计算开销较大，通过采用可加速的方法实现在较小计算开销下的自发学习的数据增强。另一方面，研究学习专业数据增强策略如何提高检测模型的泛化性能。重要的是，这些扩充策略仅影响训练，而在评估过程中保持训练后的模型不变，从而进一步实现高效快速可应用的自动数据增广。

另一方面，研究学习专业数据增强策略如何提高各种任务模型下的泛化性能，提高对非受控环境的适应性和噪声样本数据的训练鲁棒性，降低噪声数据的负面影响。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，首先提出一种基于自学习数据的目标检测方法的方法，以降低深度学习当中，针对数据增广的手动调参所到来的噪声影响，大幅度提升数据的差异提升整体数据分布，通过自动数据增强的方法有效提高实际训练任务的性能。

为实现本发明的目的所采用的技术方案是：

一种基于自学习数据的目标检测方法，包括以下步骤：

S1.图像数据预处理：

将图像首先进行尺寸裁剪，尺寸裁剪为384*288；并将裁剪完成的图像，形成原始图像块(image batch)，将图像块的batch size设置为12，Batch Size定义：一次训练所选取的样本数(即12张图片)，将形成的图像块抽象成节点，然后通过设置的候选操作形成多个不同的图像块(即图像节点)，将各个节点通过可微分的搜索方法形成最优路径，此时最优路径与形成的不同图像节点所对应的操作；在搜索空间中，将增强策略定义为K个子策略的无序集合，训练期间，将随机选择K个子策略之一，然后将其应用于当前图像批处理，每个子策略都有N个图像转换；

通过创建搜索空间将搜索学习的扩充策略的问题转变为离散的优化问题，搜索空间由K＝3个子策略组成，每个子策略由N＝2个操作组成，所有操作按顺序应用于单个图像块，同时设置了两个超参数，即操作的概率P和大小M。概率参数将随机性的概念引入到增强策略中，从而将选定的增强操作以指定的概率应用于图像；

由于每个数据扩充的M范围都不同，将M归一化为

解决离散优化问题的许多现有方法包括强化学习，进化方法和基于顺序模型的优化；在本发明中，应用了可微搜索算法：令O为一组候选数据扩充，每个操作表示要应用的函数o(·)，将特定操作的分类选择放宽到所有可能操作上的Gumble-Softmax。然后，序列搜索的任务简化为学习一组连续变量，令每个图像为x，数据扩充的子序列为S，令

其中P、M分别为操作的对应数据增广操作的概率与操作幅度；°为包含传递操作，即为

操作完成将图像传入

以此类推；k代表k个子策略。

在搜索结束时，通过用最可能的操作替换每个混合操作来获得离散的数据扩充序列，令L_train和L_val分别表示训练损失和验证损失，两种损耗均由数据增强序列架构和网络中的权重w决定；提出一种双层优化策略，目标成为交替优化的两个损失L_train和L_val；

步骤S2.通过步骤S1训练得到的自动数据增强序列进行图像数据增广。

步骤S3.使用原始图像数据与自动数据增广的数据，进行目标检测网络的训练。

利用步骤S2中通过反馈设置的数据增强的参数与已裁剪完的人体图像作为网络的输入，以训练集中的用x、y轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth。

本发明基于自学习数据的目标检测方法，通过提出自适应目标检测网络，针对性解决了检测中存在的运算性能和检测性能矛盾的问题，通过保持特征图的空间分辨率来扩大感受野并提升检测性能并且，由于现有的基于深度学习的检测方法，通常都是将分类网络通过添加卷积层来泛化到目标检测任务，而目前大部分预训练模型都是基于分类网络得来，不利于直接泛化到目标检测模型上，借助提出的自适应目标检测网络，结合了金字塔结构，使得模型的感受野更大，效果更好，并且泛化能力更强。

附图说明

图1是本发明自启发学习数据过程方法的流程图；

图2是Resnet50结构图；

图3是本发明中专有的一种的检测方法结构框图；

图4是bottleneck结构图；

图5是特征图p₄，p₅，p₆之间的运算连接方式；

图6所示为侧向连接。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明公开一种基于自学习数据的目标检测方法，首先将图像形成图像块后进行建立模型，并将搜索数据增强序列建模为类别分布与伯努利分布问题，通过类别分布确定如何选择子序列，通过伯努利分布选择子序列内的图像增强操作；最后采用可微分的近似交叉优化得到自学习的数据增强序列，用训练得到的自动数据增强序列进行图像数据增广；通过设立的自动数据增强的图模型，将参数传入目标检测模型当中，形成目标网络的训练数据。

然后将原始图像与数据增强的图像送入基于自适应感受野的特征金字塔网络进行目标检测，输出不同目标用边界框标记；通过训练得到用边界框标记的不同目标类图像深度神经网络模型：

利用已经数据增广并裁剪完的目标图像作为网络的输入，以训练集中的用x，y轴坐标形式标出的json文件作为目标边界框标注信息像作为真实标注，训练深度神经网络模型中的检测网络，获得训练好的完成从图像到具有边界框的不同目标图像的检测神经网络模型；之后，使用训练好的深度神经网络模型，对测试数据集中的图像进行目标检测。

本发明的基于自学习数据的目标检测方法，包括以下几个步骤：

步骤S1，先对图像训练集数据做特定数据增强；

首先定义可以应用于图像的所有可能的数据增强方法，如下表(参数均对应于TensorFlow相应函数参数)：

依靠工程经验来手动设置数据扩充还不够创新。

由于现在各个检测或者姿态估计任务当中的图像输入是裁剪的边界框图像，因此使用诸如几何变换，颜色变换，比例变换等方法来增加数据多样性。

本发明中，将数据扩充搜索视为离散的优化问题。根据先前的工作，在搜索空间中，将增强策略定义为K个子策略的无序集合。在训练期间，将随机选择K个子策略之一，然后将其应用于当前图像批处理。每个子策略都有N个图像转换，定义了9个操作，如上表所示。

如图1所示，通过创建搜索空间将搜索学习的扩充策略的问题转变为离散的优化问题。搜索空间由K＝3个子策略组成，每个子策略由N＝2个操作组成，这些操作按顺序应用于单个图像。同时，设置了两个超参数，即操作的概率P和大小M。概率参数将随机性的概念引入到增强策略中，从而将选定的增强操作以指定的概率应用于图像。由于每个数据扩充的M范围都不同，例如随机标度范围

和旋转范围

将M归一化为

解决离散优化问题的许多现有方法，包括强化学习、进化方法和基于顺序模型的优化。本发明中，应用了可微搜索算法。令O为一组候选数据扩充，其中每个操作表示要应用的函数o(·)，将特定操作的分类选择放宽到所有可能操作上的Gumble-Softmax。然后，序列搜索的任务简化为学习一组连续变量，令每个图像为x，数据扩充的子序列为S，令

操作完成将图像传入

以此类推；k代表k个子策略。

搜索结束时，可通过用最可能的操作替换每个混合操作来获得离散的数据扩充序列。令L_train和L_val分别表示训练损失和验证损失。两种损耗均由数据增强序列架构和网络中的权重w决定。本发明提出了一种双层优化策略。目标成为交替优化的两个损失L_train和L_val。

为了确定应该选择哪些子策略，从概率分布为π的分类分布p＝(c|π)中采样子策略。

概率计算被为定义为子策略选择偏好的参数α的Gumbel-Softmax，使用Gumbel-Softmax来重新参数化参数α是可微的：

其中g＝-log(-log(u))，u服从(0，1)均匀分布，τ是softmax函数的温度。应用直通梯度估计器：后向遍历使用可微分变量作为等式正向遍历使用离散变量，如下所示：

优化子策略采样分布的参数α。

给定特定的子策略选择，是否应用对应不同数据库从操作的概率β和幅值m的组成伯努利分布：

伯努利分布不可微，对伯努利分布应用相同的重新参数化：

对于由子策略s扩展的图像x^＝s(x)，近似估计了幅度m的梯度，并且可以将目标L损失函数计算为(θ是一个常数)：

令L_train和L_val分别表示训练损失和验证损失。

两种损失均由数据扩充序列架构确定，并且优化目标是在目标检测网络中找到最佳参数d^*＝{α^*,β^*,m^*,φ^*}。φ是神经网络的参数。在搜索结束时，可以通过用最可能的操作替换每个混合操作来获得离散的数据扩充序列。目标成为交替优化的两个公式：

采用如下近似方案：

其中ω表示算法保持的当前权重，ζ是内部优化步骤的学习率。上式的梯度计算为：

进行梯度近似：

将梯度计算为：

步骤S2，利用训练输入数据，训练图像目标检测模型，以用来完成图像目标检测任务。

对训练数据集中的图像使用检测网络进行目标检测，并对所有类别框只保留人体类的边界框，进行裁剪操作，生成对应大小为384*288的人体图像，然后使用数据集中的人体姿态关键点标注信息json文件，并调用COCO api作为对应人体的标注信息，以加快I/O读取速度。

其中，目标检测网络训练运用到了COCO数据集的所有80个类别，最后选取了人体类别进行输出(输出图像形式为图像中将人体用边界框进行标记)。具体结构为图3，具体设计以及图中模块解释如下：

采用Resnet50为骨干网络进行特征提取，使用标准高斯分布随机初始化ResNet50网络；

根据Resnet50提取的特征，保留stage(阶段)1-4，4个尺度的特征图，命名为P₂,P₃,P₄,P₅,,并且通过连接卷积核大小为1*1的卷积核,增加stage5、特征图为P₆的特征图；

在stage4以后保持特征图的空间分辨率不变,也就是

转换通过步长为2的3*3卷积或池化层完成，其中

代表空间分辨率，i为原始图尺寸，其中原始图片尺寸为224*224，x∈[i,2,3,4,5,6]，在P₄,P₅，P₆,之间通过连接卷积核大小为1*1的卷积核，以保持通道数一致(通道数＝256)。

P₄,P₅，P₆,之间的转换如图5，通过使用bottleneck实现转化，bottleneck分别由1*1的卷积，3*3的卷积，还有relu层得到。

最后将stage4-6的特征图按照金字塔架构进行加和，其中侧向连接加和方式如图6，形成特征金字塔，并且采用Fast RCNN的方法进行目标检测，并通过回归损失和分类损失进行约束。多损失融合(分类损失和回归损失融合)即图3中的prediction操作，分类损失采用对数损失(即对真实分类的概率取负log，分类输出K+1维)，回归的损失函数采用R-CNN中的平滑L1损失函数。总的损失函数：

在检测网络最后的全连接层，接入了两个分支，一个是softmax用于对每个ROI区域做分类，假如有K类待分(加上背景总共K+1类)，输出结果为p＝(p₀………p_k)，另外一个是boundingbox，用于更精确的ROI的区域,输出为

代表k类的boundingbox坐标,(x,y)为boundingbox左上角坐标，(x+w,y+h)为boundingbox右下角坐标。u为每个ROI区域的Ground Truth,v为boundingbox的Ground Truth的回归目标。其中λ为超参数，控制两个任务损失之间的平衡，这里λ＝1。[u≥1]为1当u≥1。

分类损失具体为：

为一个log形式的损失函数。

回归损失具体为：

其中v＝v_x,v_y,v_w,v_h是类别为u的真实框的位置，而

为类为u的预测框位置，

另外，裁剪操作是指对含有人体边界框的图像中的边界框区域，将框进行扩展到固定宽高比，然后进行裁剪，随后进行数据增强等操作，如随机翻转、随机旋转、随机尺度等操作。

进一步的，所有训练步骤中，数据集采用MSCOCO训练数据集(包括57K张图像和150K张含有人体实例图像)，在步骤S1中，通过检测器网络(FPN+ROIAlign)检测后，对边界框扩展到固定宽高比hight:weight＝384:288，对应的将裁剪图像的大小调整为默认高度384像素和宽度288像素，其后对应的数据增强策略将采用设计的自动数据增强所反馈的操作与参数，并将对应图片的标注信息(json文件包含边界框和关键点位置)作为真实标签。

为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于一个公开的数据集中训练。该数据库包含一些自然场景的照片，比如动物，动画人物等等(已作为干扰因素，提升模型的鲁棒性和实际自然场景应用能力)。选择该数据集的全部图像作为训练数据集，先对图像数据进行自动数据增广，再对训练数据集中的所有图像使用训练好的特征金字塔网络进行目标检测，输出类别边界框，生成对应的裁剪完成的图像利用梯度反传训练全局网络和矫正网络，直到最后网络收敛，得到检测模型。

为了测试该模型的有效性，对输入图像进行处理，通过与GroundTruth真实图像进行了对比，有效证明了本发明所提出方法对图像目标检测的有效性。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于自学习数据的目标检测方法，其特征在于，包括步骤：

S1.将图像数据库中的图像数据预处理：

首先，将原始图像进行自学习数据增强：定义在检测过程中所用的数据增强方法，将数据增强操作与实施的概率P、操作幅度M作为一个三元组，将搜索过程定义为分类分布与伯努利分布，通过与目标检测网络结合，交替优化进行自启发的自动数据增强训练操作，得到自启发学习到的数据增强操作序列；

S2.采用步骤S1中学习到的自动数据增强序列，将原始图像进行数据增广操作，将原始图像与数据增强的图像送入基于自适应感受野的特征金字塔网络进行目标检测，输出不同目标用边界框标记；通过训练得到用边界框标记的不同目标类图像深度神经网络模型：

利用步骤S1中已数据增广的并裁剪完的目标图像作为网络的输入，以训练集中的用x，y轴坐标形式标出的json文件作为目标边界框标注信息像作为真实标注，训练深度神经网络模型中的检测网络，获得训练好的完成从图像到具有边界框的不同目标图像的检测神经网络模型；

S3.使用训练好的深度神经网络模型，对测试数据集中的图像进行目标检测。

2.根据权利要求1所述基于自学习数据的目标检测方法，其特征在于，所述数据增广操作处理包括随机翻转、随机旋转、随机尺度的操作，并且采用自启发学习的方法通过神经网络训练得到自动数据增广的序列。

3.根据权利要求1所述基于自学习数据的目标检测方法，其特征在于，整体网络分为前部网络和后部目标检测网络，前部网络采用自启发的数据增广方法处理图片，并对特征金字塔网络的后两个阶段进行修改以针对于小尺寸目标检测，通过训练优化后部目标检测网络去搜索得到一个自启发学习的图像数据增广的网络；

具体步骤如下：

首先，将训练数据集中的图像数据预处理形成原始图像块，将图像块的batch size设置为12，将一次训练所形成的图像块抽象成图像节点，然后通过设置的候选操作形成多个不同的图像块，将各个图像块通过可微分的搜索方法形成最优路径；

搜索空间中，将增强策略定义为K个子策略的无序集合；训练期间，随机选择K个子策略之一应用于当前图像批处理；每个子策略都有N个图像转换；

搜索空间由K＝3个子策略组成，每个子策略由N＝2个操作组成，所有操作按顺序应用于单个图像块；设置两个超参数，即操作的概率P和大小M，概率参数随机性的概念引入到增强策略中，从而将选定的增强操作以指定的概率应用于图像；M归一化为

应用可微搜索算法：令O为一组候选数据扩充，每个操作表示要应用的函数o(·)，将特定操作的分类选择放宽到所有可能操作上的Gumble-Softmax，序列搜索的任务简化为学习一组连续变量，令每个图像为x，数据扩充的子序列为S，令

操作完成将图像传入

以此类推；k代表k个子策略；

搜索结束时，通过用最可能的操作替换每个混合操作来获得离散的数据扩充序列，令L_train和L_val分别表示训练损失和验证损失；两种损耗均由数据增强序列架构和网络中的权重w决定，采用双层优化策略，目标成为交替优化的两个损失L_train和L_val。

4.根据权利要求1所述基于自学习数据的目标检测方法，其特征在于，所述自适应感受野的特征金字塔网络，通过全局网络的ResNet50网络对输入的图像处理进行特征图提取，得到不同尺寸的特征图输出；包括以下步骤：

使用标准高斯分布随机初始化ResNet50网络；

将图像输入到包括四个残差块的ResNet50网络中，并且分别将不同conv特征

的最后一个残差块表示为P₂,P₃,P₄,P₅，

其中，P₂通道数为64，P₃通道数为128，P₄通道数为256，P₅通道数为512，每个残差块P₂,P₃,P₄,P₅后添加卷积核1*1的卷积，并连接BN层和ReLU，使得特征通道数均为256，得到不同层的残差块定义为

从而获得不同的尺寸的特征图输出；增加stage5、特征图为P₆的特征图；

在stage4以后，保持特征图的空间分辨率不变,即

其中

代表空间分辨率，i为原始图尺寸，x∈[i,2,3,4,5,6]，在P₄,P₅，P₆,之间通过连接卷积核大小为1*1的卷积核，以保持通道数一致；

将stage4-6的特征图按照金字塔架构进行自顶向下加和，形成特征金字塔网络，采用Fast RCNN的方法进行目标检测，并通过回归损失和分类损失进行约束回归，分类损失采用对数损失函数，即对真实分类的概率取负log，分类输出K+1维，回归的损失函数采用平滑L1损失函数smooth L1 loss，总的损失函数可以表示为：

检测网络最后的全连接层，接入两个分支：一个是softmax，用于对每个ROI区域做分类，假如有K类待分，输出结果为p＝(p₀ … … … p_k)；另外一个是bounding box，用于更精确的ROI的区域,输出为

代表k类的bounding box坐标,(x,y)为bounding box左上角坐标，(x+w,y+h)为bounding box右下角坐标，u为每个ROI区域的Ground Truth,v为bounding box的Ground Truth的回归目标，其中λ为超参数，控制两个任务损失之间的平衡，λ＝1，[u≥1]为1当u≥1；

分类损失具体为：

为一个log形式的损失函数。

回归损失具体为：

其中v＝v_x,v_y,v_w,v_h是类别为u的真实框的位置，

为类为u的预测框位置，