CN113076950A

CN113076950A - 一种基于深度强化学习的图像数据自动化标注方法及系统

Info

Publication number: CN113076950A
Application number: CN202110355995.3A
Authority: CN
Inventors: 何弢; 廖文龙; 章舸帆
Original assignee: Wuhu Kuwa Robot Industry Technology Research Institute Co ltd; Cowa Robotic Co ltd
Current assignee: Wuhu Kuwa Robot Industry Technology Research Institute Co ltd; Cowa Robotic Co ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-06

Abstract

本发明提供了一种基于深度强化学习的图像数据自动化标注方法及系统，涉及计算机视觉技术领域，该方法包括：步骤1：深度学习算法：用于自动生成目标检测、实例分割粗糙预标注；步骤2：强化学习算法：用于自动修正标注结果、对粗糙预标注结果进行微调。本发明能够能够利用深度学习算法，自动化生成粗糙的预标注结果，并使用强化学习算法，学习图像标注员对上述粗糙预标注结果的修正策略，通过在线学习这种调整策略，减少标注员手工干预、修正的幅度和频次。

Description

一种基于深度强化学习的图像数据自动化标注方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于深度强化学习的图像数据自动化标注方法及系统。

背景技术

图像自动标注是指针对图像的视觉内容，通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。基本思想是：利用已标注图像集或其他可获得的信息，自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系，给未知图像添加文本关键词。

人工智能图像识别算法的开发，通常需要大量的带标注的图像用于算法的训练。目前，图像的标注主要有以下方法：人工标注、基于深度学习算法的自动预标注和基于深度强化学习算法的自动预标注。

针对上述现有技术，使用人工标注的方法，存在周期长、人力成本高的缺陷；而基于深度学习算法的自动预标注的方法可降低人工标注负担，但标注质量比人工标注低，且在整个标注任务中，无法通过主动学习自主提升预标注的质量；在基于深度强化学习算法的自动预标注的方法中，算法可以通过主动学习自主提升预标注的质量，但算法无法学习标注员的手工调整策略，因此不一定能够减少标注员手工干预和修正的幅度、频次。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度强化学习的图像数据自动化标注方法及系统，能够利用深度学习算法，自动化生成粗糙的预标注结果，并使用强化学习算法，学习图像标注员对上述粗糙预标注结果的修正策略，通过在线学习这种调整策略，减少标注员手工干预、修正的幅度和频次。

根据本发明提供的一种基于深度强化学习的图像数据自动化标注方法及系统，所述方案如下：

第一方面，提供了一种基于深度强化学习的图像数据自动化标注方法，所述方法包括：

深度学习算法步骤：自动生成目标检测、实例分割粗糙预标注；

强化学习算法步骤：自动修正标注结果、对粗糙预标注结果进行微调。

优选的，所述深度学习算法步骤包括：

CNN特征提取步骤：利用经过预训练的卷积神经网络，提取图像的纹理、语义信息，输出多尺度特征图；

多尺度特征融合步骤：对上述输出的多尺度特征图，进行融合计算，输出经过融合处理的多尺度特征图；

目标检测头或实例分割头步骤：输入融合后的多尺度特征图，经过运算初步得到目标边界框位置或目标掩膜；

结果后处理步骤：过滤上一步骤计算得到的目标边界框，去除低置信度或重复检测到的目标边界框；对得到的目标掩膜提取外轮廓。

优选的，所述强化学习算法包括：

特征重提取步骤：使用上述深度学习算法步骤获得的目标结果信息，从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样，提取更精细的目标特征；

策略函数神经网络：函数π(a_i|s_i,θ)，输入精细化目标特征，可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布，通过神经网络实现，该神经网络包含参数θ，该参数通过强化学习实时更新；

动作选择步骤：给定上述动作价值函数以及精细化目标特征，对所有可能的所述调整动作计算对应的价值回报估计，根据特定的动作选择步骤策略，选择一个微调动作输出；

结果微调步骤：将上述选择的微调动作作用于深度学习模型给出的原始结果，得到更新的目标检测或实例分割结果；

奖励计算步骤：通过对比微调前、后的结果和标注员的修改结果，或直接通过标注员的修改动作，对强化学习算法步骤做出的微调动作做出评价，作为实时奖励r；奖励的计算可以采用如下方式，或以下几类方式的按比例求和：

(1)、以标注员的标注结果为真值，微调动作作用前后，被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值；

(2)、标注员鼠标拖动距离；

(3)、鼠标点击次数等操作频次；

在线优化器：根据策略梯度算法，对策略函数的参数进行优化。

优选的，所述动作选择步骤中的微调动作包括：

对于目标检测模型，可能的微调动作可表达为a＝(δ_top，δ_bottom，δ_left，δ_right)，代表的含义分别为：

δ_top：上边框调整距离与当前框高度的比值之对数；

δ_bottom：下边框调整距离与当前框高度的比值之对数；

δ_left：左边框调整距离与当前框宽度的比值之对数；

δ_right：右边框调整距离与当前框宽度的比值之对数；

对于实例分割模型，可能的微调动作可表达为a＝(δ_x1，δ_y1，δ_x2，δ_y2…)，其中xi，yi代表实例分割目标外包络线上的第i个顶点，a中各项代表的含义：

δ_xi：第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数；

δ_xi：第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数；

动作选择步骤照策略函数给出的不同动作的概率分布，按概率抽样得到最后的微调动作。

优选的，本自动预标注系统及其算法的一种实现的实际运行步骤：

初始化：

随机初始化强化学习策略函数π的参数θ；

运行：

1.输入图像I；

2.使用目标检测或实例分割的深度学习算法Φ，从图像I中提取多尺度特征F、融合多尺度特征F_m、获得检测和分割结果并经过处理得到粗糙的N_obj个目标的预标注结果O＝{o_i,1≤i≤N_obj}，即(F,F_m,O)＝Φ(I)；

3.令

对每一个标注目标

循环：

(1)、使用特征重提取步骤Ω，根据o_i从I或F或F_m中提取得到目标的精细化特征s_i＝Ω(o_i,I,F,F_m)；

(2)、将s_i送入策略函数π中，得到的动作概率分布p(a_i)＝π(a_i|s_i,θ)；

(3)、动作选择步骤根据上述动作概率分布p(a_i)，采样最终的动作a_i；

(4)、结果微调步骤接合o_i和a_i，得到修正后的结果

并将

放入O^adj中即

4.标注员介入标注，对修正过得的预标注结果O^adj进行微调，得到O_t；

5.奖励计算步骤通过计算R_mAP＝calMAP(O^adj,O_t)-calMAP(O,O_t)，并测量标注员进行的鼠标点击次数，R_click＝-鼠标点击次数，R_drag＝-鼠标拖动像素距离，得到最终的R＝R_mAP+αR_click+βR_drag，其中α和β为常数；

6.根据策略梯度函数优化方法，利用本次的S＝{s_i,1≤i≤N_obj}，A＝{a_i,1≤i≤N_obj}，R对策略函数的参数θ进行优化。

第二方面，提供了一种基于深度强化学习的图像数据自动化标注系统，所述系统包括：

深度学习算法模块：用于自动生成目标检测、实例分割粗糙预标注；

强化学习算法模块：用于自动修正标注结果、对粗糙预标注结果进行微调。

优选的，所述深度学习算法模块包括：

CNN特征提取模块：利用经过预训练的卷积神经网络，提取图像的纹理、语义信息，输出多尺度特征图；

多尺度特征融合模块：对上述输出的多尺度特征图，进行融合计算，输出经过融合处理的多尺度特征图；

目标检测头或实例分割头：输入融合后的多尺度特征图，经过运算初步得到目标边界框位置或目标掩膜；

结果后处理模块：过滤上一步骤计算得到的目标边界框，去除低置信度或重复检测到的目标边界框；对得到的目标掩膜提取外轮廓。

优选的，所述强化学习算法模块包括：

特征重提取模块：使用上述深度学习算法获得的目标结果信息，从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样，提取更精细的目标特征；

动作选择模块：给定上述动作价值函数以及精细化目标特征，对所有可能的所述调整动作计算对应的价值回报估计，根据特定的动作选择模块策略，选择一个微调动作输出；

结果微调模块：将上述选择的微调动作作用于深度学习模型给出的原始结果，得到更新的目标检测或实例分割结果；

奖励计算模块：通过对比微调前、后的结果和标注员的修改结果，或直接通过标注员的修改动作，对强化学习模块做出的微调动作做出评价，作为实时奖励r；奖励的计算可以采用如下方式，或以下几类方式的按比例求和：

(2)、标注员鼠标拖动距离；

(3)、鼠标点击次数等操作频次；

优选的，所述动作选择模块中的微调动作包括：

δ_top：上边框调整距离与当前框高度的比值之对数；

δ_bottom：下边框调整距离与当前框高度的比值之对数；

δ_left：左边框调整距离与当前框宽度的比值之对数；

δ_right：右边框调整距离与当前框宽度的比值之对数；

动作选择模块照策略函数给出的不同动作的概率分布，按概率抽样得到最后的微调动作。

优选的，自动预标注系统以及算法的工作流程如下：

初始化：

随机初始化强化学习策略函数π的参数θ；

运行：

1.输入图像I；

3.令

对每一个标注目标

循环：

(1)、使用特征重提取模块Ω，根据o_i从I或F或F_m中提取得到目标的精细化特征s_i＝Ω(o_i,I,F,F_m)；

(3)、动作选择模块根据上述动作概率分布p(a_i)，采样最终的动作a_i；

(4)、结果微调模块接合o_i和a_i，得到修正后的结果

并将

放入O^adj中即

5.奖励计算模块通过计算R_mAP＝calMAP(O^adj,O_t)-calMAP(O,O_t)，并测量标注员进行的鼠标点击次数，R_click＝-鼠标点击次数，R_drag＝-鼠标拖动像素距离，得到最终的R＝R_mAP+αR_click+βR_drag，其中α和β为常数；

与现有技术相比，本发明具有如下的有益效果：

1、对于图像数据标注任务，本方案利用机器学习技术，对未标注的图像数据进行自动化预标注，减轻人工标注负担，周期长、人力成本高的问题；

2、利用了强化学习技术，能够解决纯深度学习在标注任务中无法通过学习逐渐提升预标注质量的问题；

3、本方案中的强化学习目标兼顾了预标注结果的准确性，以及减少标注员的手工调整频次及幅度，能够有效地提升标注效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的整体结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种基于深度强化学习的图像数据自动化标注方法，参照图1所示，包括深度学习算法以及强化学习算法，其中深度学习算法步骤用于自动生成目标检测、实例分割粗糙预标注，强化学习算法步骤用于自动修正标注结果、对粗糙预标注结果进行微调。

首先，深度学习算法步骤包括：

CNN特征提取步骤：利用经过预训练的卷积神经网络，提取图像的纹理、语义信息，输出多尺度特征图。可以选用：在ImageNet或COCO数据集上经过预训练得到的ResNet、ResNext、DarkNet等深度神经网络模型。

多尺度特征融合步骤：对上述输出的多尺度特征图，进行融合计算，输出经过融合处理的多尺度特征图。可以选用：FPN、PAFPN、BiFPN等神经网络结构。

目标检测头或实例分割头步骤：输入融合后的多尺度特征图，经过运算初步得到目标边界框位置或目标掩膜。目标检测头可以选用：RCNN头、Yolo头、Retina头、FCOS头等；实例分割头可以选用MaskRCNN头等。

结果后处理步骤：过滤上一步骤计算得到的目标边界框，去除低置信度或重复检测到的目标边界框；对得到的目标掩膜提取外轮廓。对于目标检测可以采用：NMS、Soft-NMS等非极大抑制算法；对于实例分割采可用边缘提取算法获得外轮廓的近似曲线。

其次，强化学习算法步骤包括：

特征重提取步骤：使用上述深度学习算法获得的目标结果信息，从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样，提取更精细的目标特征。对于目标检测数据集的标注任务，可以采用ROIPooling、ROIAlign等方法。对于实例分割的标注任务，可以沿着包络线边缘等距离设置采样点，并使用双线性插值进行重采样。

策略函数神经网络：函数π(a_i|s_i,θ)，输入精细化目标特征，可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布，通过神经网络实现，该神经网络包含参数θ，该参数通过强化学习实时更新。该神经网络可以通过CNN卷积神经网络实现，也可通过沿包络线方向的RNN循环神经网络实现，也可通过GCN图神经网络实现。假设动作是多元连续变量，且动作的幅度符合多元高斯分布，则该神经网络的输入是精细化目标特征，输出使用动作的均值和方差矩阵。

动作选择步骤：给定上述动作价值函数以及精细化目标特征，对所有可能的调整动作计算对应的价值回报估计，根据特定的动作选择步骤策略，选择一个微调动作输出。

这里的微调动作可按如下设计：

δ_top：上边框调整距离与当前框高度的比值之对数；

δ_bottom：下边框调整距离与当前框高度的比值之对数；

δ_left：左边框调整距离与当前框宽度的比值之对数；

δ_right：右边框调整距离与当前框宽度的比值之对数；

结果微调步骤：将上述选择的微调动作作用于深度学习模型给出的原始结果，得到更新的目标检测或实例分割结果。

奖励计算步骤：通过对比微调前、后的结果和标注员的修改结果，或直接通过标注员的修改动作，对强化学习算法步骤做出的微调动作做出评价，作为实时奖励r。奖励的计算可以采用如下方式，或以下几类方式的按比例求和：

(2)、标注员鼠标拖动距离；

(3)、鼠标点击次数等操作频次；

本自动预标注方法及系统的一种实现的实际运行步骤：

初始化：

随机初始化强化学习策略函数π的参数θ；

运行：

1.输入图像I；

3.令

对每一个标注目标

循环：

(2)、将s_i送入策略函数π中，得到的动作概率分布p(a_i)＝π(a_i|s_i，θ)；

(4)、结果微调步骤接合o_i和a_i，得到修正后的结果

并将

放入O^adj中即

5.奖励计算步骤通过计算R_mAP＝calMAP(O^adj，O_t)-calMAP(O，O_t)，并测量标注员进行的鼠标点击次数，R_click＝-鼠标点击次数，R_drag＝-鼠标拖动像素距离，得到最终的R＝R_mAP+αR_click+βR_drag，其中α和β为常数；

6.根据策略梯度函数优化方法，利用本次的S＝{s_i，1≤i≤N_obj}，A＝{a_i，1≤i≤N_obj}，R对策略函数的参数θ进行优化。

本发明实施例提供了一种基于深度强化学习的图像数据自动化标注方法，对于图像数据标注任务，本方案利用机器学习技术，对未标注的图像数据进行自动化预标注，减轻人工标注负担，周期长、人力成本高的问题；利用了强化学习技术，能够解决纯深度学习在标注任务中无法通过学习逐渐提升预标注质量的问题；本方案中的强化学习目标兼顾了预标注结果的准确性，以及减少标注员的手工调整频次及幅度，能够有效地提升标注效率。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。