CN110826555A

CN110826555A - 一种人机协同的图像目标检测数据半自动标注方法

Info

Publication number: CN110826555A
Application number: CN201910967500.5A
Authority: CN
Inventors: 朱鹏飞; 刘家旭; 汪廉杰; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-21
Anticipated expiration: 2039-10-12
Also published as: CN110826555B

Abstract

本发明公开了一种人机协同的图像目标检测数据半自动标注方法，所述方法包括以下步骤：获取改进的目标检测模型，即去掉区域候选区网络沿用Cascade RCNN的级联子网络结构以实现对边界框的多次修正，同时引入动态推理机制，根据类别评分判断当前样本的标注结果的准确程度，动态决定使用的子网络个数；使用训练集对改进的目标检测模型进行训练，使用验证集对目标检测模型进行测试，候选区由对ground truth中的边界框添加随机缩放与偏移得到；用户提供候选区给训练完成的模型，模型返回修正后的边界框及目标类别作为标注结果。本发明辅助用户进行标注，降低标注负担、提高标注容错率；用户对标注结果进行监督，对少数错误结果进行校正，并用于微调模型。

Description

一种人机协同的图像目标检测数据半自动标注方法

技术领域

本发明涉及目标检测领域，尤其涉及一种人机协同的图像目标检测数据半自动标注方法。

背景技术

目标检测是计算机视觉中一个长期的、基础的且具有挑战性的问题，人们已经在该领域研究长达几十年，其定义如下：对于一张给定的图片，目标检测是判断图片中是否存在某个已经训练的类别的实例，如果存在，返回该目标的水平位置及所属类别。

在深度学习流行的近几年来，目标检测取得了突破性的进展。以往目标检测由于算法性能的限制，能够检测的类别非常少(如行人检测)。而深度卷积神经网络(DCNN)能够自动学习数据的特征，这就使得通用目标检测称为可能。以Faster R-CNN^[1]为例，结合多尺度训练/测试等技巧，其在VOC2012这样相对简单的数据集上的mAP(mean AveragePrecision，平均精度均值)已经达到了0.8以上(数据来源于VOC Leaderboard)。

虽然目标检测在深度学习技术的推动下，取得了激动人心的突破，但是这样的突破是建立在VOC^[2]、COCO^[3]、Imagenet^[4]等大规模图片数据集的基础上的。对数据的大量需求是由深度学习模型的特性所决定的：深度学习模型常常包含上百万个参数，如此大规模的参数导致模型十分容易过拟合，所以训练以深度学习为基础的目标检测模型需要大量的数据，也正因如此，COCO等大规模目标检测数据集的发布才会成为目标检测领域的里程碑。

由于基于深度学习卷积神经网络的目标检测模型对数据的大量需求，在进行实际的应用落地时很可能没有足够数据，这就要求对落地领域进行大量的数据标注。

目前常用的开源目标检测数据标注工具如labelImg完全依赖于人力进行标注：标注人员需要同时标注目标的位置和目标的类别。在图片数量较多、目标较密集的情况下这种标注的工作量巨大，标注员在长时间进行标注后或标注较小的目标时会出现标注精度下降的情况，且在待选类别过多时标注也颇费时间。

发明内容

本发明提供了一种人机协同的图像目标检测数据半自动标注方法，本发明基于Cascade R-CNN(级联基于区域的卷积神经网络)，简化、改进了现有的目标检测模型，使标注者可以与模型协同工作；一方面用户仅需提供目标的大致位置，模型即可自动标注该目标的类别，同时修正用户提供的目标位置，从而减轻标注工作者的工作负担，加快标注进度；另一方面，用户监督模型的标注结果，对模型标注错误的样本进行修正，并使模型学习新的样本，详见下文描述：

一种人机协同的图像目标检测数据半自动标注方法，所述方法包括以下步骤：

获取改进的目标检测模型，即去掉区域候选区网络沿用Cascade RCNN的级联子网络结构以实现对边界框的多次修正，同时引入动态推理机制，根据类别评分判断当前样本的标注结果的准确程度，动态决定使用的子网络个数；

使用训练集对改进的目标检测模型进行训练，使用验证集对目标检测模型进行测试，候选区由对ground truth中的边界框添加随机缩放与偏移得到；

用户提供候选区给训练完成的模型，模型返回修正后的边界框及目标类别作为标注结果。

其中，所述根据类别评分判断当前样本的标注结果的准确程度具体为：

对每个类别采用不同的阈值，阈值δ∈R^N，N为总的类别数，初始δ中的N个值均设置为0.5，之后δ按照以下策略进行更新：

其中，δ_t是第t个类别的阈值，IoU(x_t ^i,j,bⁱ)为两个边界框x_t ^i,j,bⁱ的交并比，η为固定的超参数用于控制每次更新的步长；i为图片中目标的序号；j为RoI Head的序号；

为第j个RoI Head对第i个目标的类别预测结果(向量)中的第t个值；

sigmoid(x)＝1/(1+e^-x)，当下一个RoI Head的输出边界框与真实边界框之间的IoU增大时，即IoU(x_t ^i,j,bⁱ)＜IoU(x_t ^i,j+1,bⁱ)，对δ_t进行更新。

进一步地，所述候选区由对ground truth中的边界框添加随机缩放与偏移得到具体为：

对若干个候选框添加随机偏移，偏移距离为从0到某一预设值的候选框边长的随机值，偏移分为水平方向的偏移和垂直方向的偏移；

根据当前候选框在水平或垂直方向的长度，获取水平或垂直偏移范围内的随机值。

本发明提供的技术方案的有益效果是：

1、本发明提出了一个目标检测模型与用户协同工作的框架：目标检测模型辅助用户进行标注，降低标注负担、提高标注容错率；用户对标注结果进行监督，对少数错误结果进行校正，并用于微调模型；

2、本发明提出了一个根据ground truth(真实标注)边界框生成伪随机候选区来训练模型的方法，以此方法训练的HMC R-CNN(人机协同的基于区域的卷积神经网络)模型性能优异；

3、本方法引入动态推理机制，提高了模型的运行速度，在使用级联结构迭代修正边界框的同时显著提高运行速度。

附图说明

图1为整体网络结构示意图；

图2为随机生成候选区的IoU(交并比)分布图；

图3为模型输出的IoU分布图；

图4为一种人机协同的图像目标检测数据半自动标注方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例提出了一个人机协同半自动标注数据的方法，其亮点在于使用改进的目标检测模型辅助用户进行数据标注：用户仅需提供目标的大致位置，模型即可自动标注该目标的类别，同时修正用户提供的目标位置，从而减轻标注工作者的工作负担，加快标注进度，最终极大地提高实际应用的落地速度。

针对目标检测数据标注负担过重的问题，本方法提出了一种目标检测模型与用户协同工作的框架，该方法创新地将目标检测模型加入到数据标注中来，并对模型进行了针对性的改进，在提升模型的标注效果的同时保证了模型的推理速度。

实施例1

本发明实施例提供了一种人机协同的目标检测数据标注方法，该方法包括以下步骤：

101：改进目标检测模型Cascade R-CNN^[5](级联基于区域的卷积神经网络)，去掉RPN^[1](区域候选区网络)，沿用级联子网络结构以实现对边界框的多次修正，引入动态推理保证运行速度；

进一步地，由于此时候选区直接由用户提供，故不再需要RPN提取候选区，在这里去掉RPN简化网络模型，然后加入级联网络。本方法在模型的后面级联三个结构相同的用于回归边界框的子网络。后两个子网络输入的候选区是前一个子网络输出的边界框。最后是加入动态推理机制，模型根据类别评分判断当前样本的标注结果的准确程度，动态决定要使用的子网络个数。网络结构示意图如图1所示。

102：使用训练集对改进后的目标检测模型进行训练，使用验证集对目标检测模型进行测试，候选区t_i由对ground truth中的边界框b_i ^gt添加随机缩放与偏移得到；

103：使用训练完成的模型M辅助用户进行标注。

其中，用户提供候选区给模型M，模型M返回修正后的边界框及目标类别作为标注结果。若出现部分错误，用户可进行人工修正。修正后的结果可使模型继续学习，提升模型性能。

综上所述，本发明基于Cascade R-CNN框架，简化、改进了现有的目标检测模型，使标注者可以与模型协同工作：用户仅需提供目标的大致位置，模型即可自动标注该目标的类别，同时修正用户提供的目标位置，从而减轻标注工作者的工作负担，加快标注进度。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

一、数据准备

本发明训练时采用通用目标检测数据集COCO2017，该数据集由微软发布，包含超过10万张图片，可用于目标检测、语义分割等多个任务。其中目标检测任务包含80个尺度、形状各异的类别。

二、模型的改进

对于一张输入图片I，本HMC R-CNN采用Cascade R-CNN中3个级联的RoI Head(Faster R-CNN中用于对候选区进行分类与回归的子网络，本领域技术人员所公知)结构，这三个RoI Head分别用函数g₁,g₂,g₃来表示，用于提取图片特征的主干网络(backbone)记为函数f，图片中第i个目标的候选框为t_i，第i个目标的标注结果为(b_i,c_i)，则加入级联结构前的模型g₁及返回的标注结果为：

b_i,c_i＝g₁(f(I),t_i) (1)

加入级联结构后的模型为：

其中，

为mathtype编辑器中的复合函数的符号，为本领域技术人员所公知。

进一步地，若级联K个RoI Head，则模型为：

最后一步是加入动态推理。

规定第i个目标，第j个RoI Head的输出为

该输出中属于第t个类别的结果记为

模型首个RoI Head的输出为(x^i,1,c^i,1)，对于是否要将结果传递到下一个RoIHead，模型需要判断类别得分c_t ^i,l是否大于等于阈值δ。若c_t ^i,1≥δ_t，在这里δ_t是第t个类别的阈值，则将x_t ^i,1传递到下一个RoI Head中。对于后续的第j个RoI Head(j>1)来说，除了仍需满足c_t ^i,j＞δ_t外，还需满足c_t ^i,j≥c_t ^i,j-1，即当前RoI Head输出的类别得分不小于上一个RoI Head输出的类别得分最大值。在实际应用中允许c_t ^i,j有小幅度的向下震荡，即满足c_t ^i,j+σ≥c_t ^i,j-1即可，σ为固定超参数，一般设置为0.01。

由于类别间的复杂程度、样本数量差距较大，导致模型在不同类别上的性能差异较大，故在进行动态推理的判断时需要对每个类别采用不同的阈值δ_t。故有阈值δ∈R^N，N为总的类别数，初始δ中的N个值均设置为0.5，之后δ按照以下策略进行更新：

其中，δ_t是第t个类别的阈值，IoU(x_t ^i,j,bⁱ)为两个边界框x_t ^i,j,bⁱ的IoU(交并比)，η为固定的超参数用于控制每次更新的步长，一般为0.01，sigmoid(x)＝1/(1+e^-x)，当下一个RoI Head的输出的边界框与真实边界框之间的IoU增大时，即IoU(x_t ^i,j,bⁱ)＜IoU(x_t ^i,j+1,bⁱ)，对δ_t进行更新。

三、候选区产生与损失函数

修改后的模型的输入由I变为(I，t)即增加了本应由用户提供的候选区t。在这里创新地根据ground truth产生伪随机候选区来模拟用户选取候选区，具体方案如下：

1、从0.9至1.2中以相同的间隔取5个值作为缩放比例ratios，具体的值为[0.9,0.975,1.05,1.125,1.2]，然后按ratios对真实bounding box进行缩放，得到5个候选框。

2、对这5个候选框添加随机偏移，偏移距离为从0到10％的候选框边长的随机值。偏移分为水平方向的偏移和垂直方向的偏移。以水平方向偏移为例，若当前候选框在水平方向的长度为length，则候选框的水平偏移为[-0.1*length,0.1*length]范围内的随机值。

设当前缩放比例为r∈ratios，真实bounding box的长为l_o，宽为w_o，中心坐标为[x_o,y_o]，垂直随机偏移w_o∈[-0.1*w_o，0.1*w_o]，水平随机偏移l_s∈[-0.1*l_o，0.1*l_o]，生成的候选框长为l_p，宽为w_p，中心坐标为[x_p,y_p]。候选框p^-＝(x_p,y_p,l_p,w_p)的计算如下面公式所示：

x_p＝x_o+l_o (5)

y_p＝y_o+w_o (6)

l_p＝l_o*r (7)

w_p＝w_o*r (8)

四、模型的使用细节(训练与测试)

模型在进行训练时不使用动态推理，无论c_t ^i,j的值如何变化，模型都会使用所有RoI

Head，目的是更新阈值δ。损失函数L与Cascade R-CNN中multi-task loss(多任务损失)相同。

模型训练以图片数据集

作为输入I_k指第k张图片，V指第k张图片对应的标注，对于每个批(batch)使用以下方法对上述参数{W，δ}进行更新：

1.使用公式(5)～(8)得到该batch对应的候选区t；

2.使用所有的级联RoI Head根据I_k和t计算出模型的预测结果b_i,c_i；

3.使用损失函数L根据V_k计算损失；

4.使用SGD(随机梯度下降)算法对W进行更新；

5.使用公式(4)对δ进行更新；

模型测试时使用动态推理，其过程与模型实际应用时相同，具体步骤如下：

1.初始化j＝1；

2.使用公式(5)～(8)得到该batch对应的候选区t；

3.使用第j个RoI Head根据I_k和t计算出模型的预测结果b,c；

4.判断c_i是否满足对应条件及后续是否还有未使用的RoI Head，若满足，则令t＝b，j＝j+1；并再次执行步骤2；若不满足，则本次迭代结束，载入下一个batch。

五、协同工作机制

协同工作指模型与用户之间的“互助”，包含以下两个方面：

1、模型辅助用户进行标注：用户仅需提供目标的大致位置，模型即可自动标注该目标的类别，同时修正用户提供的目标位置。

2、用户实时监督模型的标注效果，对标注效果不佳的或标注结果错误的进行人为干预，并将该样本加入到模型的训练集中，进一步提高模型的性能。

具体来说，模型辅助用户进行标注，给出修正后的边界框b和目标类别c，若(b，c)正确，则加入到标注完成的数据集{Q}中，即上述第一个方面。若(b，c)错误，则进行人工修正，再加入到标注完成的数据集{Q}中，并同时加入到附加训练集{X}中，当{X}中的样本数达到阈值μ时，对模型M进行fine tune(微调)，即：W＝argmax_W(∑L(h(I,t),(b^gt,c^gt)) (9)

在这里L指Cascade R-CNN中原有的损失函数，(b^gt,c^gt)指ground truth中的真实值，I∈{X}。

本发明实施例具有以下三个关键创造点：

一、提出人机协同的目标检测数据标注框架；

技术效果：本框架通过改进的目标检测模型辅助用户进行标注，能够显著减少标注负担，提高标注时的容错率，加快标注进度。

二、提出以模拟用户选取候选区的方式对上述改进模型进行训练与测试的方法；

技术效果：训练的模型有良好的性能，可对生成的伪随机候选区边界框有较好的修正效果，在验证集的表现远超原模型。

三、提出类别自适应的动态推理机制

技术效果：在不影响模型准确性的前提下，模型的运行速度由5.5张/秒提升到了6.2张/秒，实现了约13％的速度提升。

综上所述，本方法通过模型辅助用户标注和用户校正结果微调模型，实现了人机间的协同，最终达到了降低标注负担、提高标注容错率、加快标注进度的目的。与此同时，动态推理的引入使得模型在保持高准确率的前提下，仍有较快的运行速度。

实施例3

本发明实施例采用的实验结果1如图1和图2所示，这两张图分别反映了候选区与最终输出与grond truth边界框之间的IoU分布，展示了本方法改进的模型能够有效修正伪随机候选区，候选区经过模型的处理后的IoU分布明显向IoU更高的部分聚集。

本发明实施例采用的实验结果2如表1所示。该结果展示了使用本方法所述训练方案训练的HMC R-CNN在本方法所述的测试条件下的结果，于Cascade R-CNN在COCO2017的测试集上的结果相比，性能有了非常显著的提升。尤其是对于较小目标的检测提升尤为明显，有着超过一倍的AP提升。这主要是由于在用户提供的候选区的辅助下，模型的recall率非常高，即不容易遗漏小目标。该结果还展示了加入CADI类别自适应动态推理机制后，HMC R-CNN的准确性(反映在AP上)的变化很小，甚至略有提升，但其速度提升约13％。

表1

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人机协同的图像目标检测数据半自动标注方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种人机协同的图像目标检测数据半自动标注方法，其特征在于，所述根据类别评分判断当前样本的标注结果的准确程度具体为：

其中，

δ_t是第t个类别的阈值，IoU(x_t ^i,j,bⁱ)为两个边界框x_t ^i,j,bⁱ的交并比，η为固定的超参数用于控制每次更新的步长；i为图片中目标的序号；j为RoI Head的序号；为第j个RoIHead对第i个目标的类别预测结果中的第t个值；sigmoid(x)＝1/(1+e^-x)；

当下一个RoI Head的输出边界框与真实边界框之间的IoU增大时，即IoU(x_t ^i,j,bⁱ)＜IoU(x_t ^i,j+1,bⁱ)，对δ_t进行更新。

3.根据权利要求1所述的一种人机协同的图像目标检测数据半自动标注方法，其特征在于，所述候选区由对ground truth中的边界框添加随机缩放与偏移得到具体为：