CN110969200A

CN110969200A - 基于一致性负样本的图像目标检测模型训练方法及装置

Info

Publication number: CN110969200A
Application number: CN201911183070.4A
Authority: CN
Inventors: 陈晨; 王晓莲; 胡晰远; 彭思龙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-07
Anticipated expiration: 2039-11-27
Also published as: CN110969200B

Abstract

本发明涉及图像处理技术领域，具体涉及一种基于一致性负样本的图像目标检测模型训练方法及装置。为了解决现有技术采用固定负样本导致模型难以学习到有判别力的特征的问题，本发明提出一种图像目标检测模型训练方法，该方法包括基于待识别图像中的真实框和预设的初始锚框的重叠度，获取初始图像样本集；根据所述初始图像样本集，通过预设的图像目标检测模型，获取所述与初始锚框对应的预测锚框，基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集；通过所述更新图像样本集训练所述图像目标检测模型。利用本发明的方法和装置能够利用更为全面的信息训练图像目标检测模型。

Description

基于一致性负样本的图像目标检测模型训练方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于一致性负样本的图像目标检测模型训练方法及装置。

背景技术

目标检测是预测图像中所有目标物体的位置，并用矩形框将目标物体的位置进行标记，预测矩形框内物体的类别。目前鲁棒高效的方法大多基于卷积神经网络，常采用基于锚框的方式，即事先在图像上按一定间隔均匀铺满锚框，在预测过程中，模型对先验锚框进行回归，使它们的形状和位置逐渐贴近前景物体，同时模型对框内的物体进行类别预测，从而完成目标检测。

为了对模型进行监督训练，初始平铺在图像中的先验锚框要预先设定各自的回归目标，即对应具体的真实框。回归目标的匹配由锚框和真实框的重叠度决定，并由此确定正负样本。

在以往的方法中，正负样本的分配是一个一次性操作，并由正负分配阈值决定(“正负”针对样本性质而言，非数值正负)。当锚框和其最近真实框的重叠度高于正阈值时为正样本，和所有真实框的重叠度均低于负阈值时为负样本，其它未分配的样本为中性样本且不参与训练。

采用不同的阈值对，会对正负样本集的生成产生影响。虽然不同检测器在阈值的设定上有差别，但它们都使用了固定负样本，即负样本一旦在训练前被分配好，在训练过程中就都是固定不变的。初始正负样本的分配完全基于人类先验，即默认离物体远的框不会回归到物体附近。但恰有某些负样本在经过一次次迭代优化过的模型后产生了和初始不同的表现，即不再处于背景区。由于在深度学习中模型受数据驱动进行优化，如此的有偏负样本会混淆前景和背景的概念，使模型难以学到有判别力的特征。

因此，如何提出一种解决现有技术问题的方案是本领域技术人员需要解决的技术问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术采用固定负样本导致模型难以学习到有判别力的特征的问题，本发明的第一方面提供了一种基于一致性负样本的图像目标检测模型训练方法，所述方法包括：

基于待识别图像中的真实框和预设的初始锚框的重叠度，获取初始图像样本集；

其中，所述初始锚框为所述待识别图像中预先设定的锚框，所述真实框为所述待识别图像中待识别物体对应的真实矩形框，所述初始图像样本集为与所述真实框的重叠度满足预设条件的初始锚框的集合；

根据所述初始图像样本集，通过预设的图像目标检测模型，获取所述与初始锚框对应的预测锚框，基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集；

其中，所述图像目标检测模型基于神经网络构建，通过预设图像样本集训练，用于识别图像中待识别物体和确定所述待识别物体的真实框的位置；

通过所述更新图像样本集训练所述图像目标检测模型。

优选地，所述真实框的个数为多个，“基于待识别图像中真实框和预设的初始锚框的重叠度，获取初始图像样本集”，其方法包括：

分别获取每个所述初始锚框与多个所述真实框的第一重叠度，

若存在第一重叠度大于等于第一预设阈值，则将与至少一个所述真实框的第一重叠度大于等于第一预设阈值的初始锚框认定为第一锚框，将所述第一锚框的集合作为正样本集合；

若每个所述第一重叠度均小于第二预设阈值，则将与多个所述真实框的第一重叠度均小于第二预设阈值的初始锚框认定为第二锚框，将所述第二锚框的集合作为初始负样本集合；

根据所述正样本集合和所述初始负样本集合确定所述初始图像样本集。

优选地，所述初始图像样本集包括负样本集合，所述负样本集合包括所述预测锚框，“基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集”，其方法包括：

获取每个所述预测锚框与多个所述真实框的第二重叠度；

若每个所述第二重叠度仍小于所述第二预设阈值，则将每个所述第二重叠度仍小于所述第二预设阈值的预测锚框认定为一致性负样本；

根据所述一致性负样本获取所述更新图像样本集。

优选地，“根据所述一致性负样本获取所述更新图像样本集”，其方法包括：

将所述一致性负样本的集合替换初始图像样本集中的初始负样本集合，用以获取所述更新图像样本集；

或者

根据所述一致性负样本，将所述初始负样本集合中非一致性负样本的权重设定为0，用以获取所述更新图像样本集。

优选地，“通过所述更新图像样本集训练所述图像目标检测模型”，其方法包括：

按照如下公式中的目标函数训练所述图像目标检测模型：

其中，所述L^k({c_b},{r_b})表示所述图像目标检测模型的目标函数，所述

表示负样本集合的分类损失和，所述P表示正样本集合，所述b表示初始锚框，所述L_cls表示分类损失，所述c_b表示所述初始锚框的预测类别分数，所述

表示所述初始锚框的类别真值，所述α表示平衡分类和回归损失的参数，所述L_reg表示回归损失，所述r_b表示初始锚框的预测位置，所述

表示预测框的位置真值，所述N_k表示经过k次迭代后的负样本集合，所述

表示经过k次迭代后的分类损失。

本发明的第二方面还提供了一种图像目标检测模型训练装置，所述装置包括；

第一模块，所述第一模块用于基于待识别图像中的真实框和预设的初始锚框的重叠度，获取初始图像样本集；

第二模块，所述第二模块用于根据所述初始图像样本集，通过预设的图像目标检测模型，获取所述与初始锚框对应的预测锚框，基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集；

第三模块，所述第三模块用于通过所述更新图像样本集训练所述图像目标检测模型。

优选地，所述真实框的个数为多个，所述第一模块还用于：

若存在所述第一重叠度大于等于第一预设阈值，则将与至少一个所述真实框的第一重叠度大于等于第一预设阈值的初始锚框认定为第一锚框，将所述第一锚框的集合作为正样本集合；

优选地，所述初始图像样本集包括负样本集合，所述负样本集合包括所述预测锚框，所述第二模块还用于：

获取每个所述预测锚框与多个所述真实框的第二重叠度；

根据所述一致性负样本获取所述更新图像样本集。

优选地，所述第二模块还用于：

或者

优选地，所述第三模块还用于：

按照如下公式中的目标函数训练所述图像目标检测模型：

表示负样本的分类损失和，所述P表示正样本集合，所述b表示初始锚框，所述L_cls表示分类损失，所述c_b表示所述初始锚框的预测类别分数，所述

表示经过k次迭代后的分类损失。

本发明提供的图像目标检测模型训练方法和装置，能够在挖掘一致性负样本的过程中实现对负样本回归行为的监控以及动态调整；在训练过程中使用一致性负样本，增强了前景和背景的区分能力，能够让图像目标检测模型学习到更具有判别力的特征；此外，由于负样本没有对应的真实位置，而一致性负样本在定义过程中包含了位置信息，再结合负样本的回归行为，从而使得能够利用更为全面的信息训练图像目标检测模型。

附图说明

图1是本发明的基于一致性负样本的图像目标检测模型训练方法的流程示意图；

图2是本发明的基于一致性负样本的图像目标检测模型训练装置的结构示意图。

具体实施方式

为使本发明的实施例、技术方案和优点更加明显，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所述的实施例是本发明的一部分实施例，而不是全部实施例。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，图1示例性地示出了本申请基于一致性负样本的图像目标检测模型训练方法的流程示意图。本申请基于一致性负样本的图像目标检测模型训练方法包括如下步骤：

步骤S101、基于待识别图像中的真实框和预设的初始锚框的重叠度，获取初始图像样本集。

其中，所述初始锚框为所述待识别图像中预先设定的锚框，所述真实框为所述待识别图像中待识别物体对应的真实矩形框，所述初始图像样本集为与所述真实框的重叠度满足预设条件的初始锚框的集合。

可以理解的是，目标检测算法通常会在输入图像中采样大量区域，然后判断所采样区域中是否包含所感兴趣的目标，并相应地调整区域边缘，从而能够更准确地预测目标的真实边界框(ground-truth bounding box)。其中，将以每个像素为中心生成多个大小和宽高比不同的边界框称为锚框(anchor box)。目标检测算法中可以基于锚框实现目标检测。

具体地，基于锚框的目标检测算法中，可以事先在待识别图像中按一定间隔均匀铺满锚框，在对待识别物体进行检测过程中，可以对预先设定的初始锚框进行回归，使得初始锚框的形状和位置更加贴近待识别图像中的前景物体。其中，为了使得图像目标检测模型能够更准确地进行物体识别，需要利用图像样本集对图像目标检测模型进行训练。图像目标检测模型识别的准确度在一定程度上取决于图像样本集中样本选取的合理性。

作为一种实现方式，可以采用如下方法获取初始图像样本集：

需要说明的是，正样本集合中的第一锚框与真实框的重叠度大，所选定的第一锚框的位置往往更加接近真实物体的位置；负样本集合中第二锚框与真实框的重叠度小，所选定的第二锚框的位置往往远离真实物体的位置。此外，负样本集合中的第二锚框的位置在对图像目标检测模型进行训练时，与真实框的重叠度是会产生变化的，可能存在某些第二锚框的位置回归到真实框位置附近，导致图像识别的精度降低。

因此，为了解决有偏负样本对图像目标检测模型训练带来的干扰，需要改善训练样本，使得训练过程有效且能够提高模型的识别精度。

步骤S102、根据所述初始图像样本集，通过预设的图像目标检测模型，获取所述与初始锚框对应的预测锚框，基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集。

其中，所述图像目标检测模型基于神经网络构建，通过预设图像样本集训练，用于识别图像中待识别物体和确定所述待识别物体的真实框的位置。

为了保证所训练的图像目标检测模型在实际应用中有鲁棒的前景背景区分能力和检测性能，需要动态挖掘一致性负样本并且更新负样本集。

作为一种实现方式，可以采用如下方法获取更新图像样本集：

获取每个所述预测锚框与多个所述真实框的第二重叠度；

根据所述一致性负样本获取所述更新图像样本集。

将一致性负样本的集合替换初始图像样本集中的初始负样本集合，用以更新初始图像样本集；

或者

根据一致性负样本，将初始负样本集合中非一致性负样本的权重设定为0，用以更新初始图像样本集。

可以理解的是，若初始锚框与某个真实框重叠度(intersection-over-union，交并比)大于等于第一预设阈值t_pos，则将重叠度大于等于第一预设阈值t_pos的初始锚框认定为第一锚框，将第一锚框的集合作为初始正样本集合；相应地，若所有真实框和初始锚框的重叠度均小于第二预设阈值t_neg，则将重叠度小于第二预设阈值t_neg的初始锚框认定为第二锚框，将第二锚框的集合作为初始负样本集合。

针对每个第二锚框，重新计算其通过图像目标检测模型后输出的结果和真实框的重叠度，若重叠度仍然小于第二预设阈值t_neg，则将重叠度仍小于第二预设阈值的第二锚框认定为一致性负样本。

得到一致性负样本后，可以更新初始图像样本集。具体地，可以采用如下方法获取更新图像样本集：

或者

本发明的目标检测效果优于使用传统正负样本分配方法进行训练的检测器的效果，由于动态调整了有偏负样本集，训练出的检测器对待检测的正负物体区分度更大，提高了检测的召回率和精度；本方法在传统样本分配方法的基础上进行再分配，没有引入额外参数，且只作用在训练过程，所以不需要更改原检测器的结构，使本方法在不同场景下具有泛化性和可迁移性。

步骤S103、通过所述更新图像样本集训练所述图像目标检测模型。

具体地，可以按照如下公式(1)目标函数训练图像目标检测模型：

公式(1)：

其中，L^k({c_b},{r_b})表示图像目标检测模型的目标函数，

表示负样本的分类损失和，P表示正样本集合，b表示初始锚框，L_cls表示分类损失，c_b表示初始锚框的预测类别分数，

表示初始锚框的类别真值，α表示平衡分类和回归损失的参数，L_reg表示回归损失，r_b表示初始锚框的预测位置，

表示预测框的位置真值，N_k表示经过k次迭代后的负样本集合，

表示经过k次迭代后的分类损失。

本发明提供的基于一致性负样本的图像目标检测模型训练方法能够在挖掘一致性负样本的过程中实现对负样本回归行为的监控以及动态调整；在训练过程中使用一致性负样本，增强了前景和背景的区分能力，能够让图像目标检测模型学习到更具有判别力的特征；此外，由于负样本没有对应的真实位置，而一致性负样本在定义过程中包含了位置信息，再结合负样本的回归行为，从而使得能够利用更为全面的信息训练图像目标检测模型。

参照上述方法实施例，本发明还提供了一种基于一致性负样本的图像目标检测模型训练装置，装置包括：

第一模块1，第一模块1用于基于待识别图像中的真实框和预设的初始锚框的重叠度，获取初始图像样本集，

第二模块2，第二模块2用于根据所述初始图像样本集，通过预设的图像目标检测模型，获取所述与初始锚框对应的预测锚框，基于所述真实框与所述预测锚框的重叠度，获取更新图像样本集，

第三模块3，第三模块3用于通过所述更新图像样本集训练所述图像目标检测模型。

优选地，第一模块1还用于：

优选地，所述初始图像样本集包括负样本集合，所述负样本集合包括所述预测锚框，第二模块2还用于：

获取每个所述预测锚框与多个所述真实框的第二重叠度；

根据所述一致性负样本获取所述更新图像样本集。

优选地，第二模块2还用于：

或者

优选地，第三模块3还用于：

按照公式(1)中的目标函数训练所述图像目标检测模型。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。