CN108268510A

CN108268510A - 一种图像标注方法和装置

Info

Publication number: CN108268510A
Application number: CN201611262818.6A
Authority: CN
Inventors: 冯柏岚; 姚春凤; 李德丰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268510B

Abstract

本申请公开了一种图像标注方法和装置，在待标注图像为弱标注图像的情况下，根据待标注图像的文本和内容从优质标注数据集中筛选出候选图像，根据候选图像中各个图像的标签的分布情况，将满足标签迁移条件的标签添加到待标注图像上，自动将弱标注图像转换为强标注图像，提升图像标注的效率和准确度。

Description

一种图像标注方法和装置

技术领域

本发明涉及图像处理领域，尤其涉及一种图像标注方法和装置。

背景技术

随着计算机网络和多媒体技术的发展，互联网上可获取的多媒体信息的数量也得到非常快速的增长。多媒体信息的激增给用户提供丰富资源的同时，如何从海量的信息中快速有效地获得感兴趣的资源也给研究人员带来巨大的挑战。由此，图像分类和检索技术日益得到重视。

基于内容的图像检索(CBIR，Content-Based Image Retrieval)技术自上世纪九十年代提出以来得到了广泛的研究。通过将图像自身的视觉内容特征(例如颜色、纹理、形状和空间层次等底层特征)作为其索引，可以检索视觉特征上相似的其他图像。从而可以根据图像低级特征计算的视觉相似度来直接比较和检索图像。

但是，由于使用了图像的底层视觉特征来描述图像，而这些特征与人们对图像高层语义的主观判断没有统一规则的相关性。当完全不同类型的图像有可能具有类似的底层特征时，根据视觉相似度直接比较的方法往往不能得到准确的检索结果。

另一方面，出现了一些通过基于文本的图像检索(TBIR，Text-Based ImageRetrieval)技术对图像进行标注的方法。通过低级特征寻找待标注图像的相似图像，将相似图像的标签分配给待标注图像，从而可以将图像视觉和相关文本信息结合进行检索。

但是在实现本发明的过程中，发明人发现现有技术的缺陷在于：目前由于图像的低级特征和高级语义之间存在距离，图像标注的准确度低；而如果仅利用人机交互或者手工方式对图像进行标注，则效率低且用户负担重。

发明内容

本发明实施例所要解决的技术问题在于，提供一种图像标注方法。能根据文本和内容，将弱标注图像自动转换为强标注图像，提升图像标注的准确性和效率。

为了解决上述技术问题，本发明实施例提供了一种图像标注方法，包括：获取待标注图像，识别待标注图像的标注类型，图像的标注类型分为无标注图像、强标注图像和弱标注图像，无标注图像表示图像的标签的数量为0，弱标识图像表示图像的标签的数量大于0但是小于某个预设值，强标注图像表示图像的标签的数量大于或等于该预设值，图像标注装置可根据待标注图像的标签的数量来识别待标注图像的标注类型。在待标注图像为弱标注图像的情况下，确定待标注图像的标签的文本，根据标签的文本在预设的优质标注数据集中进行基于文本的图像检索TBIR(Text Based Image Retrieval，基于文本的图像检索)，根据检索到的图像得到第一图像集，其中，优质数据集中的图像均为强标注图像，且各个图像的标签的准确度高。根据待标注图像的内容在第一图像集合中进行基于内容的图像检索CBIR(Content Based Image Retrieval，基于内容的图像检索)，图像的内容包括但不限于颜色、纹理、形状和空间关系中的一种或多种，根据检索到的图像得到第二图像集。在本实施例中待标注图像为行人图像，优质数据集为行人数据集，根据图像的行人身份信息、标签的语义和图像内容采用指定的网络传播方法计算第二图像集中的各个图像的融合相似度值，融合相似度的计算方法可采用网络传播方法，例如：随机游走算法进行计算。图像标注装置从第二图像集中选择融合相似度大于预设的第一阈值的图像，两个图像之间的相似程度与融合相似度呈正比，融合相似度越大，两个图像之间的相似程度越大，反之两个图像之间的相似程度越小；图像标注装置根据选择出的图像得到第一候选图像集，统计第一候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，将满足标签迁移条件的标签迁移到待标注图像上，由于待标注图像为弱标注图像，添加标签后得到强标注图像。

实施上述实施例，在待标注图像为弱标注图像的情况下，根据待标注图像的文本和内容从优质标注数据集中筛选出候选图像，根据候选图像中各个图像的标签的分布情况，将满足标签迁移条件的标签添加到待标注图像上，自动将弱标注图像转换为强标注图像，提升图像标注的效率和准确度。

在本方面的一种可能的实施方式中，在待标注图像的标签的数量等于0的情况下，待标注图像为无标注图像，图像标注装置根据待标注图像的内容在预设的优质标注数据集中进行基于内容的图像检索，根据检索到的图像得到第三图像集，计算第三图像集中各个图像与待标注图像之间的视觉相似度，从第三图像集中选择视觉相似度大于第二阈值的图像，根据选择的图像生成第四图像集；统计第四图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，将满足标签迁移条件的标签添加到待标注图像上。实施上述实施例，在图像为无标注图像的情况下，根据图像的内容从优质数据集中筛选出候选图像，根据后续图像中各个图像的标签的分布情况，将符合标签迁移条件的标签添加到待标注图像上，自动将无标注图像转换为弱标注图像，提升图像标注的效率和准确度。

在本方面的一种可能的实施方式中，在无标注图像添加标签后生成已标注图像，识别已标注图像是否为强标注图像，若为否，确定已标注图像的标签的文本，根据已标注图像的文本在优质标注数据集中进行基于文本的图像检索，根据检索到的图像得到第五图像集，根据已标注图像的内容在第五图像集中进行基于内容的图像检索，根据检索到的图像得到第六图像集，根据图像的行人身份信息，标签的文本和图像的内容对第六图像集中各个图像进行融合计算得到融合相似度，从第六图像集中选择出融合相似度大于第一阈值的图像，根据选择的图像得到第二候选图像集，统计第二候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，以及将满足标签迁移条件的标签添加到已标注图像上，得到强标注图像。

在本方面的一种可能的实施方式中，标签的出现频率与候选图像集中的图像的数量相除得到比例值，标签迁移条件为：该比例值大于预设比例值。

在本方面的一种可能的实施方式中，获取第二图像中各个图像的行人身份信息、标签的文本和图像内容采用随机游走算法计算图像的融合相似度值。

第二方面，本申请还提供了一种图像标注装置，包括处理器和存储器，存储器中存储有程序代码，处理器调用该程序代码用于执行第一方面和第一方面的第一至第四方面的任意一种所述的图像标注方法。

第三方面，本申请还提供了一种存储介质，用于控制计算机设备执行第一方面和第一方面至第四方面的任意一种所述的图像标注方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像标注方法的流程示意图；

图2是本发明实施例提供的一种图像标注方法的另一流程示意图；

图3是本发明实施例提供的一种图像标注装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，为本发明实施例提供的一种图像标注方法的流程示意图，在本发明实施例中，所述方法包括：

S101、在待标注图像为弱标注图像的情况下，确定待标注图像的标签的文本。

具体的，识别待标注图像的标注类型，图像标注装置可根据待标注图像的标签的数量来识别待标注图像的标注类型，在待标注图像的标签的数量为0的情况下，待标注图像为无标注图像；在待标注图像的标签的数量大于0且小于预设值的情况下，待标注图像为弱标注图像；在待标注图像的标签的数量大于或等于预设值的情况下，待标注图像为强标注图像。图像的标签用来描述图片的语义，文本用来描述图像的语义的文本，例如：某个图像的标签的文本为男性、帽子、眼镜、长发。

S102、根据标签的文本在预设的优质标注数据集中进行基于文本的图像检索，根据检索到的图像得到第一图像集。

具体的，在待标注图像的标签的数量为多个的情况下，图像标注装置依次根据每个标签的文本在预设的优质标注数据集中进行基于文本的图像检索，然后根据检索到的图像生成第一图像集，基于文本的图像检索算法可以采用现有技术中的任意算法，本实施例不作限制。优质标注数据集中包括多个强标注图像，且每个强标注图像的标签能准确的描述图像的语义。例如，在行人图像识别领域，优质标注数据集包括但不限于RAP(RichlyAnnotated Pedestrian Dataset，富标注行人数据集)、PETA(large-scale PEdestrianAttribute dataset，大规模行人属性数据集)或APiS(Attribute Pedestrian inSurveillance dataset，行人属性监控数据集)。

例如：待标注图像的标签为标签1、标签2、标签3，图像标注装置分别根据标签1的文本在优质图像数据集进行基于文本的图像检索，根据标签2的文本在优质图像数据集合中进行基于文本的图像检索，根据标签3的文本在优质图像数据集中进行基于文本的图像检索，将三次检索到的图像进行合并得到第一图像集。

S103、根据待标注图像的内容在第一图像集中进行基于内容的图像检索，根据检索到的图像得到第二图像集。

具体的，图像的内容包括颜色、纹理和形状，基于内容的图像检索的算法可以是现有技术中的任意一种算法，本实施例不作限制，图像标注装置在第一图像集合中根据待标签图像的内容进行基于内容的图像检索，根据检索到的图像得到第二图像集。

S104、根据图像的行人身份信息、标签的文本和图像的内容对第二图像集中各个图像进行融合计算得到融合相似度。

在本实施例中待标注图像为行人图像，优质数据集为行人数据集，根据图像的行人身份信息、标签的语义和图像内容采用指定的网络传播方法计算第二图像集中的各个图像的融合相似度值，融合相似度的计算方法可采用网络传播方法，例如：随机游走算法进行计算。

S105、从第二图像集中选择出融合相似度大于预设的第一阈值的图像，根据选择的图像得到第一候选图像集。

具体的，图像标注装置从第二图像集中选择融合相似度大于预设的第一阈值的图像，两个图像之间的相似程度与融合相似度呈正比，融合相似度越大，两个图像之间的相似程度越大，反之两个图像之间的相似程度越小；图像标注装置根据选择出的图像得到第一候选图像集。

S106、统计第一候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，以及将满足标签迁移条件的标签添加到待标注图像上。

具体的，统计第一候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断该标签是否满足预设的标签迁移条件，将满足标签迁移条件的标签添加到待标注图像上，生成强标注图像。

示例性的，第一候选图像集中包括图像1、图像2、图像3、图像4，图像1携带4个标签：男性、帽子、长发、眼镜，图像2携带4个标签：男性、无帽子、短发、无眼镜，图像3携带4个标签：女性、围巾、短发、眼镜，图像4携带4个标签男性、帽子、短发、眼镜。图像标注装置统计第一候选集合中男性的出现频率为3，帽子的出现频率为2，图像标注装置将标签“帽子”与第一候选图像中图像的数量的比值为0.75，假设预收的标签迁移条件为比值大于0.5，则将标签帽子添加到待标注图像上。

参见图2，为本发明实施例提供的一种图像标注方法的另一流程示意图，在本发明实施例中，所述方法包括：

S201、在识别出待标注图像为无标注图像的情况下，根据待标注图像的内容从优质标注数据集中进行基于内容的图像检索，根据检索结果生成第三图像集。

具体的，识别待标注图像的标注类型，图像标注装置可根据待标注的标签的数量来识别待标注图像的标注类型，在待标注图像的标签的数量为0的情况下，识别出待标注图像为无标注图像。图像的标签用来描述图片的语义。文本用来描述图像的语义的文本，例如：某个图像的标签的文本为男性、围巾、眼镜、长发。

S202、计算第三图像集中各个图像与待标注图像之间的视觉相似度。

具体的，计算两个图像的视觉相似度的方法可以是将两个图像的特征映射到空间向量上，计算两个空间向量之间的距离，距离越小相似度越大，越大越大相似度越小，视觉相似度的算法包括但不限于颜色直方图匹配、矩阵分解和特征点匹配。图像标注装置依次将待标注图像和第三图像集合中的各个图像计算视觉相似度，视觉相似度越大两个图像的相似程度越高，视觉相似度越小两个图像的相似程度越低。

S203、从第三图像集中选择视觉相似度大于预设的第二阈值的图像，根据选择的图像生成第四图像集。

其中，预设的第二阈值可根据需要进行设置，本实施例不作限制。

S204、统计第四图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足标签迁移条件，以及将满足标签迁移条件的标签迁移到待标注图像上。

具体的，统计第四图像集中各个图像的标签的出现频率，根据标签的出现频率判断该标签是否满足预设的标签迁移条件，将满足标签迁移条件的标签添加到待标注图像上，生成强标注图像。

示例性的，第四像集中包括图像1、图像2、图像3、图像4，图像1携带4个标签：男性、帽子、长发、眼镜，图像2携带4个标签：男性、无帽子、短发、无眼镜，图像3携带4个标签：女性、围巾、短发、眼镜，图像4携带4个标签男性、帽子、短发、眼镜。图像标注装置统计第一候选集合中男性的出现频率为3，帽子的出现频率为2，图像标注装置将标签“帽子”与第一候选图像中图像的数量的比值为0.75，假设预收的标签迁移条件为比值大于0.5，则将标签帽子添加到待标注图像上。

实施上述实施例，在图像为无标注图像的情况下，根据图像的内容从优质数据集中筛选出候选图像，根据后续图像中各个图像的标签的分布情况，将符合标签迁移条件的标签添加到待标注图像上，自动将无标注图像转换为弱标注图像，提升图像标注的效率和准确度。

可选的，识别已标注图像是否为强标注图像；

若为否，确定所述已标注图像的标签的文本；

根据所述已标注图像的标签的的文本在所述优质标注数据集中进行基于文本的图像检索，根据检索到的图像得到第五图像集；

根据所述已标注图像的内容在所述第五图像集进行基于内容的图像检索，根据检索到的图像得到第六图像集；

根据图像的行人身份信息、标签的文本和图像的内容对所述第六图像集中各个图像进行融合计算得到融合相似度；

从所述第六图像集中选择出融合相似度大于所述第一阈值的图像，根据选择的图像得到第二候选图像集；

统计所述第二候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，以及将满足所述标签迁移条件的标签添加到所述已标注图像上。

其中，在无标注图像进行S201～S204的处理后生成已标注图像，在生成的已标注图像为弱标注图像的情况下，可以根据S101～S106的处理过程将弱标注图像转换为强标注图像，具体过程可参照图1的描述，此处不再赘述。

需要说明的是，将本实施例转换得到的强标注图像加入到扩展数据集中，在扩展数据集中图像的数量大于预设数量的情况下，将扩展数据集联合优质标注数据集，基于预设的训练算法对模型进行重训练，迭代优化模型性能及初始文本标签的精度。

参见图3，图3为本发明实施例提供的一种图像标注装置的结构示意图，在本发明实施例中，图像标注装置3包括处理器30、存储器31和通信接口32。通信接口32用于与外部设备之间收发数据。图像标注装置3中的处理器30的数量可以是一个或多个。本发明的一些实施例中，处理器30、存储器31和收发器32可通过总线系统或其他方式连接。图像标注装置3可以用于执行图1和图2所示的方法。关于本实施例涉及的术语的含义以及举例，可以参考图1和图2对应的实施例。此处不再赘述。

其中，存储器31中存储程序代码。处理器30用于调用存储器31中存储的程序代码，用于执行以下操作：

获取待标注图像；

识别所述待标注图像的标注类型；

若所述待标注图像为弱标注图像，确定所述待标注图像的标签的文本；

根据所述标签的文本在预设的优质标注数据集中进行基于文本的图像检索，根据检索到的图像得到第一图像集；

根据所述待标注图像的内容在所述第一图像集进行基于内容的图像检索，根据检索到的图像得到第二图像集；

根据图像的行人身份信息、标签的语义和图像内容对所述第二图像集中各个图像进行融合计算得到融合相似度；

从所述第二图像集中选择出融合相似度大于预设的第一阈值的图像，根据选择的图像得到第一候选图像集；

统计所述第一候选图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足预设的标签迁移条件，以及将满足所述标签迁移条件的标签添加到所述待标注图像上。

在一种可能的实施方式中，处理器31还用于执行：

在识别出所述待标注图像为无标注图像的情况下，根据所述待标注图像的内容从所述优质标注数据集中进行基于内容的图像检索，根据检索结果生成第三图像集；

计算所述第三图像集中各个图像的与所述待标注图像之间的视觉相似度；

从所述第三图像集中选择视觉相似度大于预设的第二阈值的图像，根据选择的图像生成第四图像集；

统计所述第四图像集中各个图像的标签的出现频率，根据标签的出现频率判断标签是否满足所述标签迁移条件，以及将满足所述标签迁移条件的标签迁移到所述待标注图像上。

在一种可能的实施方式中，处理器31还用于执行：

识别已标注图像是否为强标注图像；

若为否，确定所述已标注图像的标签的文本；

在一种可能的实施方式中，所述标签迁移条件为：标签的出现频率与所述第一候选图像集中图像的数量的比例值大于预设比例值。

在一种可能的实施方式中，处理器31执行所述根据图像的行人身份信息、标签的文本和图像内容对所述第二图像集中各个图像进行融合计算得到融合相似度包括：

基于随机游走算法根据图像的行人身份信息、标签的语义和图像的内容对所述第二图像集中各个图像进行融合计算得到融合相似度值

实施上述实施例，在待标注图像为弱标注图像或无标注图像的情况下，根据待标注图像的文本和内容从优质标注数据集中筛选出候选图像，根据候选图像中各个图像的标签的分布情况，将满足标签迁移条件的标签添加到待标注图像上，自动将弱标注图像和无标注图像转换为强标注图像，提升图像标注的效率和准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明一种可选实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像标注方法，其特征在于，包括：

获取待标注图像；

识别所述待标注图像的标注类型；

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，还包括：

识别已标注图像是否为强标注图像；

若为否，确定所述已标注图像的标签的文本；

4.如权利要求1所述的方法，其特征在于，所述标签迁移条件为：标签的出现频率与所述第一候选图像集中图像的数量的比例值大于预设比例值。

5.如权利要求1所述的方法，其特征在于，所述根据图像的行人身份信息、标签的文本和图像内容对所述第二图像集中各个图像进行融合计算得到融合相似度包括：

基于随机游走算法根据图像的行人身份信息、标签的语义和图像的内容对所述第二图像集中各个图像进行融合计算得到融合相似度值。

6.一种图像标注装置，其特征在于，包括处理器和存储器，所述存储器中存储一组程序代码，所述处理器调用所述存储器中存储的程序代码，用于执行以下操作：

获取待标注图像；

识别所述待标注图像的标注类型；

7.如权利要求6所述的装置，其特征在于，所述处理器还用于执行：

8.如权利要求7所述的装置，其特征在于，所述处理器还用于执行：

识别已标注图像是否为强标注图像；

若为否，确定所述已标注图像的标签的文本；

9.如权利要求6所述的装置，其特征在于，所述标签迁移条件为：标签的出现频率与所述第一候选图像集中图像的数量的比例值大于预设比例值。

10.如权利要求6所述的装置，其特征在于，所述处理器执行所述根据图像的行人身份信息、标签的文本和图像内容对所述第二图像集中各个图像进行融合计算得到融合相似度包括：