CN111598175B - 一种基于在线难例挖掘方式的检测器训练优化方法 - Google Patents

一种基于在线难例挖掘方式的检测器训练优化方法 Download PDF

Info

Publication number
CN111598175B
CN111598175B CN202010425061.8A CN202010425061A CN111598175B CN 111598175 B CN111598175 B CN 111598175B CN 202010425061 A CN202010425061 A CN 202010425061A CN 111598175 B CN111598175 B CN 111598175B
Authority
CN
China
Prior art keywords
picture
training
negative samples
pictures
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010425061.8A
Other languages
English (en)
Other versions
CN111598175A (zh
Inventor
杨帆
王瀚洋
胡建国
白立群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology Jiangsu Co ltd
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN202010425061.8A priority Critical patent/CN111598175B/zh
Publication of CN111598175A publication Critical patent/CN111598175A/zh
Application granted granted Critical
Publication of CN111598175B publication Critical patent/CN111598175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于在线难例挖掘方式的检测器训练优化方法,将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总,并根据漏标概率选择性抛弃负样本,最后再计算每张图片的损失值以及每个批次内所有图片的平均损失值,以此作为调整网络训练参数。与现有技术相比,本发明只需要采集一批待检测场景中不含检测目标的图片,直接加入模型训练即可,不仅可以节省采集数据的人力成本,还能加速检测网络训练的收敛速度,有效提升检测器的检测效果。

Description

一种基于在线难例挖掘方式的检测器训练优化方法
技术领域
本发明属于机器视觉检测技术领域,具体涉及训练中使用在线难例挖掘方式的检测算法。
背景技术
在基于深度学习的检测算法中,一阶检测器(如SSD和YOLO等)因其速度快且精度较高,能够部署在移动端(如手机、Pad等)用于实时目标检测。众所周知,卷积神经网络的模型训练效果与训练数据集强相关,若训练数据集泛化能力较差(种类、背景、灯光等因素单一),则训练的模型仅限于在与训练集相似的环境中表现较好,而在其它新场景中表现一般(误检、漏检高)。
使用在线难例挖掘方式的训练的检测算法中,SSD算法比较具有代表性,下文中如无特殊介绍,通常以SSD作为技术背景介绍。与分类网络手动生成训练样本不同,SSD参与训练的正负样本来自固定规则生成的锚框(anchor)。这些锚框是图片的一部分区域,而并非分类网络将原图所有像素点参与模型训练。在SSD系列算法的训练过程中,目前使用的是在线难例挖掘(Online Hard Example Mining,OHEM)生成训练样本,这种挖掘方式控制了正负样本的比例(通常设置正负样本比1:3)。具体来说,在每个批次(batch)中的每张训练图片,规则地分布各种大小的anchor;这些anchor与训练图片中真实标注框(ground truth)计算交并比(IOU),设定阈值将anchor区分为正样本和负样本,即IOU大于该阈值为正样本。由于每张图的ground truth有限所以正样本的数量同样有限,且后者的数量通常是前者的数倍。再将每张图所有的负样本按分数由高到低排序,取分数靠前且3倍于正样本数量的负样本。如一张图有3个正样本,将对应有9个负样本完成检测器的训练。通过这些正负样本将计算出此batch训练过程中损失值Loss的计算并反向传播调整模型的参数从而训练网络。SSD所使用的OHEM流程如图1所示。具体流程为:
1、对采集的图片标注ground truth,标注需要训练的目标的位置;
2、将图片和对应的标注同时加入训练,每次迭代所有图片分成若干个batch,每个batch随机选择不同的一批数据(图片和标注)读取;
3、将图片按照自定义的数据增强方式得到新的图片,并统一缩放至固定的网络训练输入大小,并按照自定义的策略在图片上分布不同大小的anchor。每张图中所有的anchor与ground truth计算IOU,IOU大于某阈值的anchor为正样本,小于该值的为负样本;
4、选择每张图中所有的正样本anchor,将负样本按分值自高向低排序(分值越高,说明该负样本越像ground truth,为困难负例),并根据预设定的正负样本比例选择对应数量靠前的负样本;
5、每张图将所有正样本以及被选择的负样本汇总根据损失函数计算损失值Loss,每个batch计算出总Loss的平均值,并通过反向传播调整网络参数从而训练模型。
OHEM的缺点在于:
(1)每张图片根据各自的正样本数量在图中挖掘对应数量的负样本,对于不同复杂程度的图片,必然会存在每张图片挖掘的负样本难易程度不均匀。若某张图片背景简单,则负样本较为简单,参与训练的负样本数量再多对提升模型精度和鲁棒性的意义不大;但若某张图片背景复杂,则负样本较为困难,而OHEM会限制负样本的数量。在训练集背景单一或简单的情况下,OHEM的方式不利于提升模型鲁棒性。
(2)只有正样本的图片才能生成负样本,图片参与训练的前提是该图必须有ground truth。实际应用中,有些场景很难获得包含正样本的数据;或者迫切地需要将某些不含ground truth(比如人脸、行人、车辆等)的图片背景仅生成负样本参与训练,提高模型在该场景中的鲁棒性。OHEM无法做到,因为它仅根据此图正样本的数量生成负样本,然而该图无正样本(人脸、行人、车辆)。
(3)由于实际生产中手工标注存在不可避免的人为错误,使得正样本漏掉并未标注。漏标的正样本在正负样本生成过程中必定会成为负样本,而它们实际上应该被划分为正样本。部分正样本变成负样本,这种错误的标注结果会直接导致检测器分类能力变弱。
训练集通常能够涵盖各种正样本,并通过一些数据增强方法,使得正样本(检测目标)在各种场景下基本都能够被检测到。但万千世界中存在许多未知的场景,而训练集总会缺乏某些实际场景的数据,因此在一些场合中误检(例如将背景检测为目标)的情况较多。
提高模型的精度的最佳方法是增加数据集,让模型能够学习到多样化的目标和背景,提升检测器鲁棒性。所以我们更希望获得更多的生产数据集并提升检测器的性能,尽量采集更多的图片,但ground truth是通过手工标注得到,而人力、时间资源有限。
以扩充人脸数据集为例,如果SSD检测器在A场景检测效果不佳(经常将背景误检测为人脸),通常需要添加A场景的训练数据集来解决问题。以下有几种常用的添加数据集的方法:
1、由于SSD的负样本生成机制,只能从有人脸的图片中产生负样本,所以需要采集一批A场景包含人脸的训练集标注后加入训练。
2、采集一批A场景不含人脸的图片,并从已有的训练图片中使用分割模型将整个行人抠出并贴在A场景背景图中,同时保留行人中人脸的坐标位置加入训练。即合成假的图片进行训练。
3、采集一批A场景不含人脸的图片,与原来的训练图片拼接成一张图片,再加入训练。
这三种方法都是基于SSD传统的OHEM方法训练,需要保证每张训练图片都有人脸。其中方法1最常用,也是最直接的解决方法,但是最大的难点就是数据量越大时,标注越困难。方法2和方法3操作性较高,也增加了工作难度和工作量。
发明内容
为此,本发明提出现有负样本挖掘OHEM的策略,在不需要额外标注数据集的前提下(节省人力物力)获得更多的负样本,提升检测器的鲁棒性。
本发明具体采用如下技术方案:
一种基于在线难例挖掘方式的检测器训练优化方法,其特征在于包括如下步骤:
步骤1、对采集的图片标注标注框,标注需要训练的目标的位置;
步骤2、将图片和对应的标注同时加入训练,每次迭代所有图片分成若干个批次,每个批次随机选择不同的一批数据读取;
步骤3、对图片进行增强处理得到新的图片,并统一缩放至固定的网络训练输入大小,设定每个检测层中锚框的边长和滑动步长,根据设定的规则在图片上分布不同大小的锚框;对每张图中所有的锚框与标注框计算交并比,交并比大于设定阈值的锚框为正样本,交并比小于该设定阈值的锚框为负样本;
步骤4、汇总每个批次内所有图片的正负样本并计算正样本的数量,将所有负样本按交并比分值自高向低排序;
步骤5、根据标注的训练集干净程度,选择性抛弃靠前的部分负样本,再在剩余的负样本中根据设定的正负样本比例选择对应数量靠前的负样本;
步骤6、汇总每张图片的正样本以及被选择的负样本,根据损失函数计算每张图片的损失值,计算每个批次内所有图片的平均损失值,并通过反向传播调整网络参数。
现有技术中,涉及anchor和online-hard-example-mining的检测算法,都是基于单张图汇总负样本,而本发明训练优化方法将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总,并根据漏标概率选择性抛弃负样本,最后再计算每张图片的损失值以及每个批次内所有图片的平均损失值,以此作为调整网络训练参数。与现有技术相比,本发明只需要采集一批待检测场景中不含检测目标的图片,直接加入模型训练即可,不仅可以节省采集数据的人力成本,还能加速检测网络训练的收敛速度,有效提升检测器的检测效果。
附图说明
图1为SSD所使用的在线难例挖掘方式流程图。
图2为本发明使用的在线难例挖掘方式流程图。
具体实施方式
如图2所示,本发明的基于在线难例挖掘方式的检测器训练优化方法,包括如下步骤:
步骤1、对采集的图片标注标注框,标注需要训练的目标(如人脸、行人、车辆等检测目标)的位置;
步骤2、将图片和对应的标注同时加入训练,每次迭代所有图片分成若干个批次,每个批次随机选择不同的一批数据(图片和标注)读取;
步骤3、对图片进行增强处理(采用裁剪、颜色失真、镜像反转等增强方式)得到新的图片,并统一缩放至固定的网络训练输入大小,设定每个检测层中锚框的边长min_size和滑动步长step,每个检测层对应到原图上每隔step个像素点分布边长为min_size的正方形anchor,不同检测层能够在图片上分布不同大小的锚框。对每张图中所有的锚框anchor与标注框计算交并比IOU,交并比的计算公式=两个框的交集面积/两个框的并集面积。交并比大于设定阈值的锚框为正样本,交并比小于该设定阈值的锚框为负样本,训练中通常根据任务的需要选择不同的阈值,如人脸检测中通常设定IOU阈值为0.35,该阈值为经验参数;
步骤4、汇总每个批次内所有图片的正负样本并计算正样本的数量,将所有负样本按交并比分值自高向低排序;
步骤5、根据训练集标注的干净程度(即大致估计漏标出现的概率),选择性抛弃靠前的部分负样本,再根据设定的正负样本比例选择对应数量靠前的负样本。对于训练集的干净程度,可选择统计少量训练集中的漏标出现的个数,需要抛弃负样本的比例≈漏标出现的个数/总标注的个数。如训练集一共有100000张图片,现从中随机抽取1000张图片并统计出漏标个数100和总标注个数10000,则需要抛弃的负样本比例约为1%。在训练中,若每个batch一共有1000个负样本,需要选择100个负样本计算分类损失值,则抛弃前1%的负样本,实际使用靠前的1%-11%负样本;
步骤6、汇总每张图片的正样本以及被选择的负样本,根据损失函数计算每张图片的损失值,计算每个批次内所有图片的平均损失值,并通过反向传播调整网络参数。
为证明本发明方法的优越性,在复杂场景B中进行人脸检测实验对比。为证明是数据扩充提升的效果,本实验中选用同一种检测模型测试—SSD检测模型。
由于缺乏数据集,现有数据集训练的SSD检测模型在场景B中检测效果较差,误检、漏检较多。为此,采集了一批场景B中有人脸和没有人脸的图片。
对有人脸的图片进行人脸标注后加入训练,即为方法1(流程如图1);
使用分割模型将现有数据集中的行人抠出并贴在场景B无人脸的图片,即为方法2;
将现有数据集与场景B无人脸的图片拼接,即为方法3;
使用本发明方法,直接将场景B无人脸图片加入训练,为方法4。
模型训练完毕后,在场景B的2000张测试集上进行测试。
实验结果如下表所示,将现有数据集与四种数据扩充方法训练的模型进行对比,TPR是指在当前阈值下的召回率,AP是平均精度。
Figure BDA0002498355440000061
实验分析:
通过实验结果来看,4种方案检测精度均有提升效果。方法1和方法4效果基本一致且最佳,但方法1需要额外标注数据;方法2在分割行人时经常会不完整,即使使用目前最好的分割模型也不能保证所有行人被完整分割,而且合成的图片不真实,训练的检测器尽管有提升效果,但是提升幅度最小;方法3将包含人脸的图片与不含人脸的图片拼接成一张图再加入训练,这种方式必然会将人脸在拼接后的新图中比例缩小,尽管能够提升负样本的训练数据,但改变了人脸正样本数据的原分布状态,使得训练的检测器不佳。
由此可见,本发明方法在极大减小前期数据准备工作的前提下,通过加入负样本数据集直接训练能够达到标注数据后训练的效果。

Claims (1)

1.一种基于在线难例挖掘方式的检测器训练优化方法,其特征在于包括如下步骤:
步骤1、对采集的图片标注标注框,标注需要训练的目标的位置;
步骤2、将图片和对应的标注同时加入训练,每次迭代所有图片分成若干个批次,每个批次随机选择不同的一批数据读取;
步骤3、对图片进行增强处理得到新的图片,并统一缩放至固定的网络训练输入大小,设定每个检测层中锚框的边长和滑动步长,根据设定的规则在图片上分布不同大小的锚框;对每张图中所有的锚框与标注框计算交并比,交并比大于设定阈值的锚框为正样本,交并比小于该设定阈值的锚框为负样本;
步骤4、将每个批次内所有图片产生的正负样本视为同一张图片产生进行汇总,将所有负样本按交并比分值自高向低排序;
步骤5、根据标注的训练集干净程度,估计漏标出现的概率,选择性抛弃靠前的部分负样本,再在剩余的负样本中根据设定的正负样本比例选择对应数量靠前的负样本;对于训练集的干净程度,统计训练集中的漏标出现的个数,需要抛弃负样本的比例≈漏标出现的个数/总标注的个数;
步骤6、汇总每张图片的正样本以及被选择的负样本,根据损失函数计算每张图片的损失值,计算每个批次内所有图片的平均损失值,并通过反向传播调整网络参数。
CN202010425061.8A 2020-05-19 2020-05-19 一种基于在线难例挖掘方式的检测器训练优化方法 Active CN111598175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010425061.8A CN111598175B (zh) 2020-05-19 2020-05-19 一种基于在线难例挖掘方式的检测器训练优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010425061.8A CN111598175B (zh) 2020-05-19 2020-05-19 一种基于在线难例挖掘方式的检测器训练优化方法

Publications (2)

Publication Number Publication Date
CN111598175A CN111598175A (zh) 2020-08-28
CN111598175B true CN111598175B (zh) 2022-09-02

Family

ID=72182627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010425061.8A Active CN111598175B (zh) 2020-05-19 2020-05-19 一种基于在线难例挖掘方式的检测器训练优化方法

Country Status (1)

Country Link
CN (1) CN111598175B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931864B (zh) * 2020-09-17 2020-12-25 南京甄视智能科技有限公司 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN112465799A (zh) * 2020-12-09 2021-03-09 南京甄视智能科技有限公司 目标检测器的优化以及目标检测
CN113239223A (zh) * 2021-04-14 2021-08-10 浙江大学 一种基于输入梯度正则化的图像检索方法
CN113033719B (zh) * 2021-05-27 2021-08-24 浙江啄云智能科技有限公司 目标检测处理方法、装置、介质及电子设备
CN115439871A (zh) * 2022-09-13 2022-12-06 北京航星永志科技有限公司 档案自动化采集方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647577A (zh) * 2018-04-10 2018-10-12 华中科技大学 一种自适应难例挖掘的行人重识别模型、方法与系统
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110020664A (zh) * 2019-01-31 2019-07-16 浙江工业大学 一种深度学习目标检测的正负样本平衡方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647577A (zh) * 2018-04-10 2018-10-12 华中科技大学 一种自适应难例挖掘的行人重识别模型、方法与系统
CN109784190A (zh) * 2018-12-19 2019-05-21 华东理工大学 一种基于深度学习的自动驾驶场景关键目标检测提取方法
CN110020664A (zh) * 2019-01-31 2019-07-16 浙江工业大学 一种深度学习目标检测的正负样本平衡方法

Also Published As

Publication number Publication date
CN111598175A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598175B (zh) 一种基于在线难例挖掘方式的检测器训练优化方法
CN106875381B (zh) 一种基于深度学习的手机外壳缺陷检测方法
CN103324937B (zh) 标注目标的方法和装置
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN108537157B (zh) 一种基于人工智能分类实现的视频场景判断方法与装置
CN110032954A (zh) 一种钢筋智能识别与计数方法及系统
CN111046856B (zh) 基于动静态特征提取并行位姿跟踪与地图创建的方法
CN113420643B (zh) 基于深度可分离空洞卷积的轻量级水下目标检测方法
CN101339661B (zh) 一种基于手持设备运动检测的实时人机交互方法和系统
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN111476307B (zh) 一种基于深度领域适应的锂电池表面缺陷检测方法
CN111310756A (zh) 一种基于深度学习的损伤玉米颗粒检测和分类方法
CN108596038A (zh) 一种结合形态学分割和神经网络的粪便中红细胞识别方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN109684986B (zh) 一种基于车辆检测跟踪的车辆分析方法及系统
CN111079773A (zh) 一种基于Mask R-CNN网络的砾石参数获取方法、装置、设备及存储介质
CN111932639B (zh) 一种基于卷积神经网络的不均衡缺陷样本的检测方法
CN112949408A (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN115147380A (zh) 一种基于YOLOv5的小型透明塑料制品缺陷检测方法
CN110751606A (zh) 一种基于神经网络算法的泡沫图像处理方法及系统
CN113673534B (zh) 一种基于Faster RCNN的RGB-D图像果实检测方法
CN113723558A (zh) 基于注意力机制的遥感图像小样本舰船检测方法
CN111444833A (zh) 果实测产方法、装置、计算机设备及存储介质
CN110276260A (zh) 一种基于深度摄像头的商品检测方法
CN113705423B (zh) 基于改进YOLOv3算法的红外车辆快速检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd.

Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder