CN111598175B

CN111598175B - 一种基于在线难例挖掘方式的检测器训练优化方法

Info

Publication number: CN111598175B
Application number: CN202010425061.8A
Authority: CN
Inventors: 杨帆; 王瀚洋; 胡建国; 白立群
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology Jiangsu Co ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2022-09-02
Anticipated expiration: 2040-05-19
Also published as: CN111598175A

Abstract

本发明公开一种基于在线难例挖掘方式的检测器训练优化方法，将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总，并根据漏标概率选择性抛弃负样本，最后再计算每张图片的损失值以及每个批次内所有图片的平均损失值，以此作为调整网络训练参数。与现有技术相比，本发明只需要采集一批待检测场景中不含检测目标的图片，直接加入模型训练即可，不仅可以节省采集数据的人力成本，还能加速检测网络训练的收敛速度，有效提升检测器的检测效果。

Description

一种基于在线难例挖掘方式的检测器训练优化方法

技术领域

本发明属于机器视觉检测技术领域，具体涉及训练中使用在线难例挖掘方式的检测算法。

背景技术

在基于深度学习的检测算法中，一阶检测器(如SSD和YOLO等)因其速度快且精度较高，能够部署在移动端(如手机、Pad等)用于实时目标检测。众所周知，卷积神经网络的模型训练效果与训练数据集强相关，若训练数据集泛化能力较差(种类、背景、灯光等因素单一)，则训练的模型仅限于在与训练集相似的环境中表现较好，而在其它新场景中表现一般(误检、漏检高)。

使用在线难例挖掘方式的训练的检测算法中，SSD算法比较具有代表性，下文中如无特殊介绍，通常以SSD作为技术背景介绍。与分类网络手动生成训练样本不同，SSD参与训练的正负样本来自固定规则生成的锚框(anchor)。这些锚框是图片的一部分区域，而并非分类网络将原图所有像素点参与模型训练。在SSD系列算法的训练过程中，目前使用的是在线难例挖掘(Online Hard Example Mining，OHEM)生成训练样本，这种挖掘方式控制了正负样本的比例(通常设置正负样本比1:3)。具体来说，在每个批次(batch)中的每张训练图片，规则地分布各种大小的anchor；这些anchor与训练图片中真实标注框(ground truth)计算交并比(IOU)，设定阈值将anchor区分为正样本和负样本，即IOU大于该阈值为正样本。由于每张图的ground truth有限所以正样本的数量同样有限，且后者的数量通常是前者的数倍。再将每张图所有的负样本按分数由高到低排序，取分数靠前且3倍于正样本数量的负样本。如一张图有3个正样本，将对应有9个负样本完成检测器的训练。通过这些正负样本将计算出此batch训练过程中损失值Loss的计算并反向传播调整模型的参数从而训练网络。SSD所使用的OHEM流程如图1所示。具体流程为：

1、对采集的图片标注ground truth，标注需要训练的目标的位置；

2、将图片和对应的标注同时加入训练，每次迭代所有图片分成若干个batch，每个batch随机选择不同的一批数据(图片和标注)读取；

3、将图片按照自定义的数据增强方式得到新的图片，并统一缩放至固定的网络训练输入大小，并按照自定义的策略在图片上分布不同大小的anchor。每张图中所有的anchor与ground truth计算IOU，IOU大于某阈值的anchor为正样本，小于该值的为负样本；

4、选择每张图中所有的正样本anchor，将负样本按分值自高向低排序(分值越高，说明该负样本越像ground truth，为困难负例)，并根据预设定的正负样本比例选择对应数量靠前的负样本；

5、每张图将所有正样本以及被选择的负样本汇总根据损失函数计算损失值Loss，每个batch计算出总Loss的平均值，并通过反向传播调整网络参数从而训练模型。

OHEM的缺点在于：

(1)每张图片根据各自的正样本数量在图中挖掘对应数量的负样本，对于不同复杂程度的图片，必然会存在每张图片挖掘的负样本难易程度不均匀。若某张图片背景简单，则负样本较为简单，参与训练的负样本数量再多对提升模型精度和鲁棒性的意义不大；但若某张图片背景复杂，则负样本较为困难，而OHEM会限制负样本的数量。在训练集背景单一或简单的情况下，OHEM的方式不利于提升模型鲁棒性。

(2)只有正样本的图片才能生成负样本，图片参与训练的前提是该图必须有ground truth。实际应用中，有些场景很难获得包含正样本的数据；或者迫切地需要将某些不含ground truth(比如人脸、行人、车辆等)的图片背景仅生成负样本参与训练，提高模型在该场景中的鲁棒性。OHEM无法做到，因为它仅根据此图正样本的数量生成负样本，然而该图无正样本(人脸、行人、车辆)。

(3)由于实际生产中手工标注存在不可避免的人为错误，使得正样本漏掉并未标注。漏标的正样本在正负样本生成过程中必定会成为负样本，而它们实际上应该被划分为正样本。部分正样本变成负样本，这种错误的标注结果会直接导致检测器分类能力变弱。

训练集通常能够涵盖各种正样本，并通过一些数据增强方法，使得正样本(检测目标)在各种场景下基本都能够被检测到。但万千世界中存在许多未知的场景，而训练集总会缺乏某些实际场景的数据，因此在一些场合中误检(例如将背景检测为目标)的情况较多。

提高模型的精度的最佳方法是增加数据集，让模型能够学习到多样化的目标和背景，提升检测器鲁棒性。所以我们更希望获得更多的生产数据集并提升检测器的性能，尽量采集更多的图片，但ground truth是通过手工标注得到，而人力、时间资源有限。

以扩充人脸数据集为例，如果SSD检测器在A场景检测效果不佳(经常将背景误检测为人脸)，通常需要添加A场景的训练数据集来解决问题。以下有几种常用的添加数据集的方法：

1、由于SSD的负样本生成机制，只能从有人脸的图片中产生负样本，所以需要采集一批A场景包含人脸的训练集标注后加入训练。

2、采集一批A场景不含人脸的图片，并从已有的训练图片中使用分割模型将整个行人抠出并贴在A场景背景图中，同时保留行人中人脸的坐标位置加入训练。即合成假的图片进行训练。

3、采集一批A场景不含人脸的图片，与原来的训练图片拼接成一张图片，再加入训练。

这三种方法都是基于SSD传统的OHEM方法训练，需要保证每张训练图片都有人脸。其中方法1最常用，也是最直接的解决方法，但是最大的难点就是数据量越大时，标注越困难。方法2和方法3操作性较高，也增加了工作难度和工作量。

发明内容

为此，本发明提出现有负样本挖掘OHEM的策略，在不需要额外标注数据集的前提下(节省人力物力)获得更多的负样本，提升检测器的鲁棒性。

本发明具体采用如下技术方案：

一种基于在线难例挖掘方式的检测器训练优化方法，其特征在于包括如下步骤：

步骤1、对采集的图片标注标注框，标注需要训练的目标的位置；

步骤2、将图片和对应的标注同时加入训练，每次迭代所有图片分成若干个批次，每个批次随机选择不同的一批数据读取；

步骤3、对图片进行增强处理得到新的图片，并统一缩放至固定的网络训练输入大小，设定每个检测层中锚框的边长和滑动步长，根据设定的规则在图片上分布不同大小的锚框；对每张图中所有的锚框与标注框计算交并比，交并比大于设定阈值的锚框为正样本，交并比小于该设定阈值的锚框为负样本；

步骤4、汇总每个批次内所有图片的正负样本并计算正样本的数量，将所有负样本按交并比分值自高向低排序；

步骤5、根据标注的训练集干净程度，选择性抛弃靠前的部分负样本，再在剩余的负样本中根据设定的正负样本比例选择对应数量靠前的负样本；

步骤6、汇总每张图片的正样本以及被选择的负样本,根据损失函数计算每张图片的损失值，计算每个批次内所有图片的平均损失值，并通过反向传播调整网络参数。

现有技术中，涉及anchor和online-hard-example-mining的检测算法，都是基于单张图汇总负样本，而本发明训练优化方法将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总，并根据漏标概率选择性抛弃负样本，最后再计算每张图片的损失值以及每个批次内所有图片的平均损失值，以此作为调整网络训练参数。与现有技术相比，本发明只需要采集一批待检测场景中不含检测目标的图片，直接加入模型训练即可，不仅可以节省采集数据的人力成本，还能加速检测网络训练的收敛速度，有效提升检测器的检测效果。

附图说明

图1为SSD所使用的在线难例挖掘方式流程图。

图2为本发明使用的在线难例挖掘方式流程图。

具体实施方式

如图2所示，本发明的基于在线难例挖掘方式的检测器训练优化方法，包括如下步骤：

步骤1、对采集的图片标注标注框，标注需要训练的目标(如人脸、行人、车辆等检测目标)的位置；

步骤2、将图片和对应的标注同时加入训练，每次迭代所有图片分成若干个批次，每个批次随机选择不同的一批数据(图片和标注)读取；

步骤3、对图片进行增强处理(采用裁剪、颜色失真、镜像反转等增强方式)得到新的图片，并统一缩放至固定的网络训练输入大小，设定每个检测层中锚框的边长min_size和滑动步长step，每个检测层对应到原图上每隔step个像素点分布边长为min_size的正方形anchor，不同检测层能够在图片上分布不同大小的锚框。对每张图中所有的锚框anchor与标注框计算交并比IOU，交并比的计算公式＝两个框的交集面积/两个框的并集面积。交并比大于设定阈值的锚框为正样本，交并比小于该设定阈值的锚框为负样本，训练中通常根据任务的需要选择不同的阈值，如人脸检测中通常设定IOU阈值为0.35，该阈值为经验参数；

步骤5、根据训练集标注的干净程度(即大致估计漏标出现的概率)，选择性抛弃靠前的部分负样本，再根据设定的正负样本比例选择对应数量靠前的负样本。对于训练集的干净程度，可选择统计少量训练集中的漏标出现的个数，需要抛弃负样本的比例≈漏标出现的个数/总标注的个数。如训练集一共有100000张图片，现从中随机抽取1000张图片并统计出漏标个数100和总标注个数10000，则需要抛弃的负样本比例约为1％。在训练中，若每个batch一共有1000个负样本，需要选择100个负样本计算分类损失值，则抛弃前1％的负样本，实际使用靠前的1％-11％负样本；

为证明本发明方法的优越性，在复杂场景B中进行人脸检测实验对比。为证明是数据扩充提升的效果，本实验中选用同一种检测模型测试—SSD检测模型。

由于缺乏数据集，现有数据集训练的SSD检测模型在场景B中检测效果较差，误检、漏检较多。为此，采集了一批场景B中有人脸和没有人脸的图片。

对有人脸的图片进行人脸标注后加入训练，即为方法1(流程如图1)；

使用分割模型将现有数据集中的行人抠出并贴在场景B无人脸的图片，即为方法2；

将现有数据集与场景B无人脸的图片拼接，即为方法3；

使用本发明方法，直接将场景B无人脸图片加入训练，为方法4。

模型训练完毕后，在场景B的2000张测试集上进行测试。

实验结果如下表所示，将现有数据集与四种数据扩充方法训练的模型进行对比，TPR是指在当前阈值下的召回率，AP是平均精度。

实验分析：

通过实验结果来看，4种方案检测精度均有提升效果。方法1和方法4效果基本一致且最佳，但方法1需要额外标注数据；方法2在分割行人时经常会不完整，即使使用目前最好的分割模型也不能保证所有行人被完整分割，而且合成的图片不真实，训练的检测器尽管有提升效果，但是提升幅度最小；方法3将包含人脸的图片与不含人脸的图片拼接成一张图再加入训练，这种方式必然会将人脸在拼接后的新图中比例缩小，尽管能够提升负样本的训练数据，但改变了人脸正样本数据的原分布状态，使得训练的检测器不佳。

由此可见，本发明方法在极大减小前期数据准备工作的前提下，通过加入负样本数据集直接训练能够达到标注数据后训练的效果。

Claims

1.一种基于在线难例挖掘方式的检测器训练优化方法，其特征在于包括如下步骤：

步骤4、将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总，将所有负样本按交并比分值自高向低排序；

步骤5、根据标注的训练集干净程度，估计漏标出现的概率，选择性抛弃靠前的部分负样本，再在剩余的负样本中根据设定的正负样本比例选择对应数量靠前的负样本；对于训练集的干净程度，统计训练集中的漏标出现的个数，需要抛弃负样本的比例≈漏标出现的个数/总标注的个数；