CN113076950A - 一种基于深度强化学习的图像数据自动化标注方法及系统 - Google Patents

一种基于深度强化学习的图像数据自动化标注方法及系统 Download PDF

Info

Publication number
CN113076950A
CN113076950A CN202110355995.3A CN202110355995A CN113076950A CN 113076950 A CN113076950 A CN 113076950A CN 202110355995 A CN202110355995 A CN 202110355995A CN 113076950 A CN113076950 A CN 113076950A
Authority
CN
China
Prior art keywords
action
target
result
fine
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110355995.3A
Other languages
English (en)
Inventor
何弢
廖文龙
章舸帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Kuwa Robot Industry Technology Research Institute Co ltd
Cowa Robotic Co ltd
Original Assignee
Wuhu Kuwa Robot Industry Technology Research Institute Co ltd
Cowa Robotic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Kuwa Robot Industry Technology Research Institute Co ltd, Cowa Robotic Co ltd filed Critical Wuhu Kuwa Robot Industry Technology Research Institute Co ltd
Priority to CN202110355995.3A priority Critical patent/CN113076950A/zh
Publication of CN113076950A publication Critical patent/CN113076950A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度强化学习的图像数据自动化标注方法及系统,涉及计算机视觉技术领域,该方法包括:步骤1:深度学习算法:用于自动生成目标检测、实例分割粗糙预标注;步骤2:强化学习算法:用于自动修正标注结果、对粗糙预标注结果进行微调。本发明能够能够利用深度学习算法,自动化生成粗糙的预标注结果,并使用强化学习算法,学习图像标注员对上述粗糙预标注结果的修正策略,通过在线学习这种调整策略,减少标注员手工干预、修正的幅度和频次。

Description

一种基于深度强化学习的图像数据自动化标注方法及系统
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种基于深度强化学习的图像数据自动化标注方法及系统。
背景技术
图像自动标注是指针对图像的视觉内容,通过机器学习的方法自动给图像添加反应其内容的文本特征信息的过程。基本思想是:利用已标注图像集或其他可获得的信息,自动学习语义概念空间与视觉特征空间的潜在关联或者映射关系,给未知图像添加文本关键词。
人工智能图像识别算法的开发,通常需要大量的带标注的图像用于算法的训练。目前,图像的标注主要有以下方法:人工标注、基于深度学习算法的自动预标注和基于深度强化学习算法的自动预标注。
针对上述现有技术,使用人工标注的方法,存在周期长、人力成本高的缺陷;而基于深度学习算法的自动预标注的方法可降低人工标注负担,但标注质量比人工标注低,且在整个标注任务中,无法通过主动学习自主提升预标注的质量;在基于深度强化学习算法的自动预标注的方法中,算法可以通过主动学习自主提升预标注的质量,但算法无法学习标注员的手工调整策略,因此不一定能够减少标注员手工干预和修正的幅度、频次。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度强化学习的图像数据自动化标注方法及系统,能够利用深度学习算法,自动化生成粗糙的预标注结果,并使用强化学习算法,学习图像标注员对上述粗糙预标注结果的修正策略,通过在线学习这种调整策略,减少标注员手工干预、修正的幅度和频次。
根据本发明提供的一种基于深度强化学习的图像数据自动化标注方法及系统,所述方案如下:
第一方面,提供了一种基于深度强化学习的图像数据自动化标注方法,所述方法包括:
深度学习算法步骤:自动生成目标检测、实例分割粗糙预标注;
强化学习算法步骤:自动修正标注结果、对粗糙预标注结果进行微调。
优选的,所述深度学习算法步骤包括:
CNN特征提取步骤:利用经过预训练的卷积神经网络,提取图像的纹理、语义信息,输出多尺度特征图;
多尺度特征融合步骤:对上述输出的多尺度特征图,进行融合计算,输出经过融合处理的多尺度特征图;
目标检测头或实例分割头步骤:输入融合后的多尺度特征图,经过运算初步得到目标边界框位置或目标掩膜;
结果后处理步骤:过滤上一步骤计算得到的目标边界框,去除低置信度或重复检测到的目标边界框;对得到的目标掩膜提取外轮廓。
优选的,所述强化学习算法包括:
特征重提取步骤:使用上述深度学习算法步骤获得的目标结果信息,从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样,提取更精细的目标特征;
策略函数神经网络:函数π(ai|si,θ),输入精细化目标特征,可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布,通过神经网络实现,该神经网络包含参数θ,该参数通过强化学习实时更新;
动作选择步骤:给定上述动作价值函数以及精细化目标特征,对所有可能的所述调整动作计算对应的价值回报估计,根据特定的动作选择步骤策略,选择一个微调动作输出;
结果微调步骤:将上述选择的微调动作作用于深度学习模型给出的原始结果,得到更新的目标检测或实例分割结果;
奖励计算步骤:通过对比微调前、后的结果和标注员的修改结果,或直接通过标注员的修改动作,对强化学习算法步骤做出的微调动作做出评价,作为实时奖励r;奖励的计算可以采用如下方式,或以下几类方式的按比例求和:
(1)、以标注员的标注结果为真值,微调动作作用前后,被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值;
(2)、标注员鼠标拖动距离;
(3)、鼠标点击次数等操作频次;
在线优化器:根据策略梯度算法,对策略函数的参数进行优化。
优选的,所述动作选择步骤中的微调动作包括:
对于目标检测模型,可能的微调动作可表达为a=(δtop,δbottom,δleft,δright),代表的含义分别为:
δtop:上边框调整距离与当前框高度的比值之对数;
δbottom:下边框调整距离与当前框高度的比值之对数;
δleft:左边框调整距离与当前框宽度的比值之对数;
δright:右边框调整距离与当前框宽度的比值之对数;
对于实例分割模型,可能的微调动作可表达为a=(δx1,δy1,δx2,δy2…),其中xi,yi代表实例分割目标外包络线上的第i个顶点,a中各项代表的含义:
δxi:第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数;
δxi:第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数;
动作选择步骤照策略函数给出的不同动作的概率分布,按概率抽样得到最后的微调动作。
优选的,本自动预标注系统及其算法的一种实现的实际运行步骤:
初始化:
随机初始化强化学习策略函数π的参数θ;
运行:
1.输入图像I;
2.使用目标检测或实例分割的深度学习算法Φ,从图像I中提取多尺度特征F、融合多尺度特征Fm、获得检测和分割结果并经过处理得到粗糙的Nobj个目标的预标注结果O={oi,1≤i≤Nobj},即(F,Fm,O)=Φ(I);
3.令
Figure BDA0003003841680000031
对每一个标注目标
Figure BDA0003003841680000032
循环:
(1)、使用特征重提取步骤Ω,根据oi从I或F或Fm中提取得到目标的精细化特征si=Ω(oi,I,F,Fm);
(2)、将si送入策略函数π中,得到的动作概率分布p(ai)=π(ai|si,θ);
(3)、动作选择步骤根据上述动作概率分布p(ai),采样最终的动作ai
(4)、结果微调步骤接合oi和ai,得到修正后的结果
Figure BDA0003003841680000033
并将
Figure BDA0003003841680000034
放入Oadj中即
Figure BDA0003003841680000035
4.标注员介入标注,对修正过得的预标注结果Oadj进行微调,得到Ot
5.奖励计算步骤通过计算RmAP=calMAP(Oadj,Ot)-calMAP(O,Ot),并测量标注员进行的鼠标点击次数,Rclick=-鼠标点击次数,Rdrag=-鼠标拖动像素距离,得到最终的R=RmAP+αRclick+βRdrag,其中α和β为常数;
6.根据策略梯度函数优化方法,利用本次的S={si,1≤i≤Nobj},A={ai,1≤i≤Nobj},R对策略函数的参数θ进行优化。
第二方面,提供了一种基于深度强化学习的图像数据自动化标注系统,所述系统包括:
深度学习算法模块:用于自动生成目标检测、实例分割粗糙预标注;
强化学习算法模块:用于自动修正标注结果、对粗糙预标注结果进行微调。
优选的,所述深度学习算法模块包括:
CNN特征提取模块:利用经过预训练的卷积神经网络,提取图像的纹理、语义信息,输出多尺度特征图;
多尺度特征融合模块:对上述输出的多尺度特征图,进行融合计算,输出经过融合处理的多尺度特征图;
目标检测头或实例分割头:输入融合后的多尺度特征图,经过运算初步得到目标边界框位置或目标掩膜;
结果后处理模块:过滤上一步骤计算得到的目标边界框,去除低置信度或重复检测到的目标边界框;对得到的目标掩膜提取外轮廓。
优选的,所述强化学习算法模块包括:
特征重提取模块:使用上述深度学习算法获得的目标结果信息,从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样,提取更精细的目标特征;
策略函数神经网络:函数π(ai|si,θ),输入精细化目标特征,可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布,通过神经网络实现,该神经网络包含参数θ,该参数通过强化学习实时更新;
动作选择模块:给定上述动作价值函数以及精细化目标特征,对所有可能的所述调整动作计算对应的价值回报估计,根据特定的动作选择模块策略,选择一个微调动作输出;
结果微调模块:将上述选择的微调动作作用于深度学习模型给出的原始结果,得到更新的目标检测或实例分割结果;
奖励计算模块:通过对比微调前、后的结果和标注员的修改结果,或直接通过标注员的修改动作,对强化学习模块做出的微调动作做出评价,作为实时奖励r;奖励的计算可以采用如下方式,或以下几类方式的按比例求和:
(1)、以标注员的标注结果为真值,微调动作作用前后,被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值;
(2)、标注员鼠标拖动距离;
(3)、鼠标点击次数等操作频次;
在线优化器:根据策略梯度算法,对策略函数的参数进行优化。
优选的,所述动作选择模块中的微调动作包括:
对于目标检测模型,可能的微调动作可表达为a=(δtop,δbottom,δleft,δright),代表的含义分别为:
δtop:上边框调整距离与当前框高度的比值之对数;
δbottom:下边框调整距离与当前框高度的比值之对数;
δleft:左边框调整距离与当前框宽度的比值之对数;
δright:右边框调整距离与当前框宽度的比值之对数;
对于实例分割模型,可能的微调动作可表达为a=(δx1,δy1,δx2,δy2…),其中xi,yi代表实例分割目标外包络线上的第i个顶点,a中各项代表的含义:
δxi:第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数;
δxi:第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数;
动作选择模块照策略函数给出的不同动作的概率分布,按概率抽样得到最后的微调动作。
优选的,自动预标注系统以及算法的工作流程如下:
初始化:
随机初始化强化学习策略函数π的参数θ;
运行:
1.输入图像I;
2.使用目标检测或实例分割的深度学习算法Φ,从图像I中提取多尺度特征F、融合多尺度特征Fm、获得检测和分割结果并经过处理得到粗糙的Nobj个目标的预标注结果O={oi,1≤i≤Nobj},即(F,Fm,O)=Φ(I);
3.令
Figure BDA0003003841680000051
对每一个标注目标
Figure BDA0003003841680000052
循环:
(1)、使用特征重提取模块Ω,根据oi从I或F或Fm中提取得到目标的精细化特征si=Ω(oi,I,F,Fm);
(2)、将si送入策略函数π中,得到的动作概率分布p(ai)=π(ai|si,θ);
(3)、动作选择模块根据上述动作概率分布p(ai),采样最终的动作ai
(4)、结果微调模块接合oi和ai,得到修正后的结果
Figure BDA0003003841680000061
并将
Figure BDA0003003841680000062
放入Oadj中即
Figure BDA0003003841680000063
4.标注员介入标注,对修正过得的预标注结果Oadj进行微调,得到Ot
5.奖励计算模块通过计算RmAP=calMAP(Oadj,Ot)-calMAP(O,Ot),并测量标注员进行的鼠标点击次数,Rclick=-鼠标点击次数,Rdrag=-鼠标拖动像素距离,得到最终的R=RmAP+αRclick+βRdrag,其中α和β为常数;
6.根据策略梯度函数优化方法,利用本次的S={si,1≤i≤Nobj},A={ai,1≤i≤Nobj},R对策略函数的参数θ进行优化。
与现有技术相比,本发明具有如下的有益效果:
1、对于图像数据标注任务,本方案利用机器学习技术,对未标注的图像数据进行自动化预标注,减轻人工标注负担,周期长、人力成本高的问题;
2、利用了强化学习技术,能够解决纯深度学习在标注任务中无法通过学习逐渐提升预标注质量的问题;
3、本方案中的强化学习目标兼顾了预标注结果的准确性,以及减少标注员的手工调整频次及幅度,能够有效地提升标注效率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的整体结构框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于深度强化学习的图像数据自动化标注方法,参照图1所示,包括深度学习算法以及强化学习算法,其中深度学习算法步骤用于自动生成目标检测、实例分割粗糙预标注,强化学习算法步骤用于自动修正标注结果、对粗糙预标注结果进行微调。
首先,深度学习算法步骤包括:
CNN特征提取步骤:利用经过预训练的卷积神经网络,提取图像的纹理、语义信息,输出多尺度特征图。可以选用:在ImageNet或COCO数据集上经过预训练得到的ResNet、ResNext、DarkNet等深度神经网络模型。
多尺度特征融合步骤:对上述输出的多尺度特征图,进行融合计算,输出经过融合处理的多尺度特征图。可以选用:FPN、PAFPN、BiFPN等神经网络结构。
目标检测头或实例分割头步骤:输入融合后的多尺度特征图,经过运算初步得到目标边界框位置或目标掩膜。目标检测头可以选用:RCNN头、Yolo头、Retina头、FCOS头等;实例分割头可以选用MaskRCNN头等。
结果后处理步骤:过滤上一步骤计算得到的目标边界框,去除低置信度或重复检测到的目标边界框;对得到的目标掩膜提取外轮廓。对于目标检测可以采用:NMS、Soft-NMS等非极大抑制算法;对于实例分割采可用边缘提取算法获得外轮廓的近似曲线。
其次,强化学习算法步骤包括:
特征重提取步骤:使用上述深度学习算法获得的目标结果信息,从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样,提取更精细的目标特征。对于目标检测数据集的标注任务,可以采用ROIPooling、ROIAlign等方法。对于实例分割的标注任务,可以沿着包络线边缘等距离设置采样点,并使用双线性插值进行重采样。
策略函数神经网络:函数π(ai|si,θ),输入精细化目标特征,可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布,通过神经网络实现,该神经网络包含参数θ,该参数通过强化学习实时更新。该神经网络可以通过CNN卷积神经网络实现,也可通过沿包络线方向的RNN循环神经网络实现,也可通过GCN图神经网络实现。假设动作是多元连续变量,且动作的幅度符合多元高斯分布,则该神经网络的输入是精细化目标特征,输出使用动作的均值和方差矩阵。
动作选择步骤:给定上述动作价值函数以及精细化目标特征,对所有可能的调整动作计算对应的价值回报估计,根据特定的动作选择步骤策略,选择一个微调动作输出。
这里的微调动作可按如下设计:
对于目标检测模型,可能的微调动作可表达为a=(δtop,δbottom,δleft,δright),代表的含义分别为:
δtop:上边框调整距离与当前框高度的比值之对数;
δbottom:下边框调整距离与当前框高度的比值之对数;
δleft:左边框调整距离与当前框宽度的比值之对数;
δright:右边框调整距离与当前框宽度的比值之对数;
对于实例分割模型,可能的微调动作可表达为a=(δx1,δy1,δx2,δy2…),其中xi,yi代表实例分割目标外包络线上的第i个顶点,a中各项代表的含义:
δxi:第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数;
δxi:第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数;
动作选择步骤照策略函数给出的不同动作的概率分布,按概率抽样得到最后的微调动作。
结果微调步骤:将上述选择的微调动作作用于深度学习模型给出的原始结果,得到更新的目标检测或实例分割结果。
奖励计算步骤:通过对比微调前、后的结果和标注员的修改结果,或直接通过标注员的修改动作,对强化学习算法步骤做出的微调动作做出评价,作为实时奖励r。奖励的计算可以采用如下方式,或以下几类方式的按比例求和:
(1)、以标注员的标注结果为真值,微调动作作用前后,被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值;
(2)、标注员鼠标拖动距离;
(3)、鼠标点击次数等操作频次;
在线优化器:根据策略梯度算法,对策略函数的参数进行优化。
本自动预标注方法及系统的一种实现的实际运行步骤:
初始化:
随机初始化强化学习策略函数π的参数θ;
运行:
1.输入图像I;
2.使用目标检测或实例分割的深度学习算法Φ,从图像I中提取多尺度特征F、融合多尺度特征Fm、获得检测和分割结果并经过处理得到粗糙的Nobj个目标的预标注结果O={oi,1≤i≤Nobj},即(F,Fm,O)=Φ(I);
3.令
Figure BDA0003003841680000081
对每一个标注目标
Figure BDA0003003841680000082
循环:
(1)、使用特征重提取步骤Ω,根据oi从I或F或Fm中提取得到目标的精细化特征si=Ω(oi,I,F,Fm);
(2)、将si送入策略函数π中,得到的动作概率分布p(ai)=π(ai|si,θ);
(3)、动作选择步骤根据上述动作概率分布p(ai),采样最终的动作ai
(4)、结果微调步骤接合oi和ai,得到修正后的结果
Figure BDA0003003841680000091
并将
Figure BDA0003003841680000092
放入Oadj中即
Figure BDA0003003841680000093
4.标注员介入标注,对修正过得的预标注结果Oadj进行微调,得到Ot
5.奖励计算步骤通过计算RmAP=calMAP(Oadj,Ot)-calMAP(O,Ot),并测量标注员进行的鼠标点击次数,Rclick=-鼠标点击次数,Rdrag=-鼠标拖动像素距离,得到最终的R=RmAP+αRclick+βRdrag,其中α和β为常数;
6.根据策略梯度函数优化方法,利用本次的S={si,1≤i≤Nobj},A={ai,1≤i≤Nobj},R对策略函数的参数θ进行优化。
本发明实施例提供了一种基于深度强化学习的图像数据自动化标注方法,对于图像数据标注任务,本方案利用机器学习技术,对未标注的图像数据进行自动化预标注,减轻人工标注负担,周期长、人力成本高的问题;利用了强化学习技术,能够解决纯深度学习在标注任务中无法通过学习逐渐提升预标注质量的问题;本方案中的强化学习目标兼顾了预标注结果的准确性,以及减少标注员的手工调整频次及幅度,能够有效地提升标注效率。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度强化学习的图像数据自动化标注方法,其特征在于,所述方法包括:
深度学习步骤:自动生成目标检测、实例分割粗糙预标注;
强化学习步骤:自动修正标注结果、对粗糙预标注结果进行微调。
2.根据权利要求1所述的方法,其特征在于,所述深度学习步骤包括:
CNN特征提取步骤:利用经过预训练的卷积神经网络,提取图像的纹理、语义信息,输出多尺度特征图;
多尺度特征融合步骤:对上述输出的多尺度特征图,进行融合计算,输出经过融合处理的多尺度特征图;
目标检测头或实例分割头步骤:输入融合后的多尺度特征图,经过运算初步得到目标边界框位置或目标掩膜;
结果后处理步骤:过滤上一步骤计算得到的目标边界框,去除低置信度或重复检测到的目标边界框;对得到的目标掩膜提取外轮廓。
3.根据权利要求1所述的方法,其特征在于,所述强化学习步骤包括:
特征重提取步骤:使用上述深度学习算法步骤获得的目标结果信息,从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样,提取更精细的目标特征;
策略函数神经网络:函数π(ai|si,θ),输入精细化目标特征,可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布,通过神经网络实现,该神经网络包含参数θ,该参数通过强化学习实时更新;
动作选择步骤:给定上述动作价值函数以及精细化目标特征,对所有可能的所述调整动作计算对应的价值回报估计,根据特定的动作选择步骤策略,选择一个微调动作输出;
结果微调步骤:将上述选择的微调动作作用于深度学习模型给出的原始结果,得到更新的目标检测或实例分割结果;
奖励计算步骤:通过对比微调前、后的结果和标注员的修改结果,或直接通过标注员的修改动作,对强化学习算法步骤做出的微调动作做出评价,作为实时奖励r;奖励的计算可以采用如下方式,或以下几类方式的按比例求和:
(1)、以标注员的标注结果为真值,微调动作作用前后,被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值;
(2)、标注员鼠标拖动距离;
(3)、鼠标点击次数等操作频次;
在线优化器:根据策略梯度算法,对策略函数的参数进行优化。
4.根据权利要求3所述的方法,其特征在于,所述动作选择步骤中的微调动作包括:
对于目标检测模型,微调动作可表达为a=(δtop,δbottom,δleft,δright),代表的含义分别为:
δtop:上边框调整距离与当前框高度的比值之对数;
δbottom:下边框调整距离与当前框高度的比值之对数;
δleft:左边框调整距离与当前框宽度的比值之对数;
δright:右边框调整距离与当前框宽度的比值之对数;
对于实例分割模型,微调动作可表达为a=(δx1,δy1,δx2,δy2…),其中xi,yi代表实例分割目标外包络线上的第i个顶点,a中各项代表的含义:
δxi:第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数;
δxi:第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数;
动作选择步骤照策略函数给出的不同动作的概率分布,按概率抽样得到最后的微调动作。
5.根据权利要求3所述的方法,其特征在于,所述自动预标注系统及其算法的一种实现的实际运行步骤如下:
初始化:
随机初始化强化学习策略函数π的参数θ;
运行:
1.输入图像I;
2.使用目标检测或实例分割的深度学习算法Φ,从图像I中提取多尺度特征F、融合多尺度特征Fm、获得检测和分割结果并经过处理得到粗糙的Nobj个目标的预标注结果O={oi,1≤i≤Nobj},即(F,Fm,O)=Φ(I);
3.令
Figure FDA0003003841670000021
对每一个标注目标
Figure FDA0003003841670000022
循环:
(1)、使用特征重提取步骤Ω,根据oi从I或F或Fm中提取得到目标的精细化特征si=Ω(oi,I,F,Fm);
(2)、将si送入策略函数π中,得到的动作概率分布p(ai)=π(ai|si,θ);
(3)、动作选择步骤根据上述动作概率分布p(ai),采样最终的动作ai
(4)、结果微调步骤接合oi和ai,得到修正后的结果
Figure FDA0003003841670000031
并将
Figure FDA0003003841670000032
放入Oadj中即
Figure FDA0003003841670000033
4.标注员介入标注,对修正过得的预标注结果Oadj进行微调,得到Ot
5.奖励计算步骤通过计算RmAP=calMAP(Oadj,Ot)-calMAP(O,Ot),并测量标注员进行的鼠标点击次数,Rclick=-鼠标点击次数,Rdrag=-鼠标拖动像素距离,得到最终的R=RmAP+αRclick+βRdrag,其中α和β为常数;
6.根据策略梯度函数优化方法,利用本次的S={si,1≤i≤Nobj},A={ai,1≤i≤Nobj},R对策略函数的参数θ进行优化。
6.一种基于深度强化学习的图像数据自动化标注系统,其特征在于,所述系统包括:
深度学习算法模块:用于自动生成目标检测、实例分割粗糙预标注;
强化学习算法模块:用于自动修正标注结果、对粗糙预标注结果进行微调。
7.根据权利要求6所述的系统,其特征在于,所述深度学习算法模块包括:
CNN特征提取模块:利用经过预训练的卷积神经网络,提取图像的纹理、语义信息,输出多尺度特征图;
多尺度特征融合模块:对上述输出的多尺度特征图,进行融合计算,输出经过融合处理的多尺度特征图;
目标检测头或实例分割头:输入融合后的多尺度特征图,经过运算初步得到目标边界框位置或目标掩膜;
结果后处理模块:过滤上一步骤计算得到的目标边界框,去除低置信度或重复检测到的目标边界框;对得到的目标掩膜提取外轮廓。
8.根据权利要求6所述的系统,其特征在于,所述强化学习算法模块包括:
特征重提取模块:使用上述深度学习算法获得的目标结果信息,从原始输入图片、多尺度特征图或融合多尺度特征图上重新采样,提取更精细的目标特征;
策略函数神经网络:函数π(ai|si,θ),输入精细化目标特征,可以输出对粗糙预标注结果的调整动作下应当进行的微调动作的概率分布,通过神经网络实现,该神经网络包含参数θ,该参数通过强化学习实时更新;
动作选择模块:给定上述动作价值函数以及精细化目标特征,对所有可能的所述调整动作计算对应的价值回报估计,根据特定的动作选择模块策略,选择一个微调动作输出;
结果微调模块:将上述选择的微调动作作用于深度学习模型给出的原始结果,得到更新的目标检测或实例分割结果;
奖励计算模块:通过对比微调前、后的结果和标注员的修改结果,或直接通过标注员的修改动作,对强化学习模块做出的微调动作做出评价,作为实时奖励r;奖励的计算可以采用如下方式,或以下几类方式的按比例求和:
(1)、以标注员的标注结果为真值,微调动作作用前后,被标注图像的目标检测、实例分割结果的平均准确率mAP指标提升比例值或差值;
(2)、标注员鼠标拖动距离;
(3)、鼠标点击次数等操作频次;
在线优化器:根据策略梯度算法,对策略函数的参数进行优化。
9.根据权利要求6所述的系统,其特征在于,所述动作选择模块中的微调动作包括:
对于目标检测模型,可能的微调动作可表达为a=(δtop,δbottom,δleft,δright),代表的含义分别为:
δtop:上边框调整距离与当前框高度的比值之对数;
δbottom:下边框调整距离与当前框高度的比值之对数;
δleft:左边框调整距离与当前框宽度的比值之对数;
δright:右边框调整距离与当前框宽度的比值之对数;
对于实例分割模型,可能的微调动作可表达为a=(δx1,δy1,δx2,δy2…),其中xi,yi代表实例分割目标外包络线上的第i个顶点,a中各项代表的含义:
δxi:第i个顶点的微调位移沿x方向的偏移量与当前目标宽度的比值之对数;
δxi:第i个顶点的微调位移沿y方向的偏移量与当前目标高度的比值之对数;
动作选择模块照策略函数给出的不同动作的概率分布,按概率抽样得到最后的微调动作。
10.根据权利要求6所述的系统,其特征在于,自动预标注系统以及算法的工作流程如下:
初始化:
随机初始化强化学习策略函数π的参数θ;
运行:
1.输入图像I;
2.使用目标检测或实例分割的深度学习算法Φ,从图像I中提取多尺度特征F、融合多尺度特征Fm、获得检测和分割结果并经过处理得到粗糙的Nobj个目标的预标注结果O={oi,1≤i≤Nobj},即(F,Fm,O)=Φ(I);
3.令
Figure FDA0003003841670000051
对每一个标注目标
Figure FDA0003003841670000052
循环:
(1)、使用特征重提取模块Ω,根据oi从I或F或Fm中提取得到目标的精细化特征si=Ω(oi,I,F,Fm);
(2)、将si送入策略函数π中,得到的动作概率分布p(ai)=π(ai|si,θ);
(3)、动作选择模块根据上述动作概率分布p(ai),采样最终的动作ai
(4)、结果微调模块接合oi和ai,得到修正后的结果
Figure FDA0003003841670000053
并将
Figure FDA0003003841670000054
放入Oadj中即
Figure FDA0003003841670000055
4.标注员介入标注,对修正过得的预标注结果Oadj进行微调,得到Ot
5.奖励计算模块通过计算RmAP=calMAP(Oadj,Ot)-calMAP(O,Ot),并测量标注员进行的鼠标点击次数,Rclick=-鼠标点击次数,Rdrag=-鼠标拖动像素距离,得到最终的R=RmAP+αRclick+βRdrag,其中α和β为常数;
6.根据策略梯度函数优化方法,利用本次的S={si,1≤i≤Nobj},A={ai,1≤i≤Nobj},R对策略函数的参数θ进行优化。
CN202110355995.3A 2021-04-01 2021-04-01 一种基于深度强化学习的图像数据自动化标注方法及系统 Withdrawn CN113076950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110355995.3A CN113076950A (zh) 2021-04-01 2021-04-01 一种基于深度强化学习的图像数据自动化标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110355995.3A CN113076950A (zh) 2021-04-01 2021-04-01 一种基于深度强化学习的图像数据自动化标注方法及系统

Publications (1)

Publication Number Publication Date
CN113076950A true CN113076950A (zh) 2021-07-06

Family

ID=76614455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110355995.3A Withdrawn CN113076950A (zh) 2021-04-01 2021-04-01 一种基于深度强化学习的图像数据自动化标注方法及系统

Country Status (1)

Country Link
CN (1) CN113076950A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776154A (zh) * 2023-07-06 2023-09-19 华中师范大学 一种ai人机协同数据标注方法和系统
CN117057413A (zh) * 2023-09-27 2023-11-14 珠高智能科技(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质
CN117173491A (zh) * 2023-10-24 2023-12-05 广州思德医疗科技有限公司 医学图像的标注方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776154A (zh) * 2023-07-06 2023-09-19 华中师范大学 一种ai人机协同数据标注方法和系统
CN116776154B (zh) * 2023-07-06 2024-04-09 华中师范大学 一种ai人机协同数据标注方法和系统
CN117057413A (zh) * 2023-09-27 2023-11-14 珠高智能科技(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质
CN117057413B (zh) * 2023-09-27 2024-03-15 传申弘安智能(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质
CN117173491A (zh) * 2023-10-24 2023-12-05 广州思德医疗科技有限公司 医学图像的标注方法、装置、电子设备及存储介质
CN117173491B (zh) * 2023-10-24 2024-02-23 广州思德医疗科技有限公司 医学图像的标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
CN113076950A (zh) 一种基于深度强化学习的图像数据自动化标注方法及系统
CN111428586B (zh) 基于特征融合与样本增强的三维人体姿态估计方法
WO2022127454A1 (zh) 抠图模型的训练、抠图方法、装置、设备及存储介质
CN112233129B (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN112241784A (zh) 训练生成模型和判别模型
CN112085024A (zh) 一种罐表面字符识别方法
CN111160407A (zh) 一种深度学习目标检测方法及系统
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN115810133B (zh) 基于图像处理和点云处理的焊接控制方法及相关设备
CN107798329A (zh) 基于cnn的自适应粒子滤波目标跟踪方法
CN115205636A (zh) 一种图像的目标检测方法、系统、设备及存储介质
CN113280820B (zh) 基于神经网络的果园视觉导航路径提取方法与系统
CN113421210B (zh) 一种基于双目立体视觉的表面点云重建方法
CN117173219A (zh) 一种基于可提示的分割模型的视频目标跟踪方法
CN117011856A (zh) 基于深度强化学习的手写笔迹骨架细化方法、系统、设备、介质
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
CN111179284B (zh) 交互式图像分割方法、系统及终端
CN115719310A (zh) 一种眼底图像数据集的预处理方法及眼底图像训练模型
Zhang Research on Applying Dense Convolutional Neural Network in Chinese Character Font Recognition
CN111488882A (zh) 一种用于工业零件测量的高精度图像语义分割方法
Nag et al. Generating Vectors from Images using Multi-Stage Edge Detection for Robotic Artwork
CN115239657B (zh) 一种基于深度学习目标分割的工业零件增量识别方法
US20230334733A1 (en) Methods and devices for vector line drawing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210706