CN115952312A

CN115952312A - 一种图像标签的自动标注与排序方法

Info

Publication number: CN115952312A
Application number: CN202211539530.4A
Authority: CN
Inventors: 马楠; 许根宝; 梁晔; 郭聪; 姚永强; 汪成; 张进; 汪墨涵; 肖传胜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-04-11

Abstract

本发明提供一种图像标签的自动标注与排序方法，包括以下步骤：构建基准图像集；对无标签的测试图像进行标注；对测试图像的标签进行排序。本发明提出了一种图像标签的自动标注和排序方法，一方面，通过基准图像集得到标签和视觉词的对应关系，实现测试图像标签的自动标注；另一方面，图像的对象性检测结果具有很强的语义性，将对象性检测技术用于标签排序，排序后的标签带有的语义信息和图像反映出的语义信息一致性更强，更准确的标签信息能够更好的用于图像检索等其他视觉任务，同时也能够为研究提供海量的可靠训练样本。

Description

一种图像标签的自动标注与排序方法

技术领域

本发明涉及图像处理的技术领域，特别是一种图像标签的自动标注与排序方法。

背景技术

随着Web2.0技术的快速发展，社交网站变得越来越流行，其中最具有代表性的社交媒体网站Facebook，Google的社交视频分享网站Youtube以及Yahoo的社交图像分享网站Flickr。社交媒体的一个重要特点是用户不仅可以创建自己的多媒体内容，而且可以使用关键字来描述媒体的内容，该关键字被称为标签(Tag)。这些标签极大地方便了用户组织和索引媒体内容，为大规模信息检索系统提供了有效途径。这些社群标注信息可以直接作为互联网图像索引，然而仍然存在大量的图像并没有标注信息。众所周知，人工标注会耗费大量的人力物力，成本非常昂贵。由于受用户知识背景和主观感情的影响，导致用户对图像内容的描述是模糊的、杂乱无序的，标签质量远远不能满足作为可靠的图像索引关键字的需要。为了给研究提供海量的可靠训练样本，自动图像标签的标注与排序技术一直是研究的热点。对象性检测技术是检测一幅图像中的潜在对象的位置，以矩形框的方式标出，并给出对象存在的可能性，带有很强的语义性。虽然目前有相关文献将对象性检测用于图像显著性分析、目标检测、图像检索等视觉任务，但缺少将对象性用于图像标签排序任务。

2015年3月17日的道客巴巴上公开了一篇题目为《海量图像标签自动排序算法的研究与实现》的北京交通大学硕士学位论文，该论文提出近年来,随着电子摄影产品的迅速普及,数字图像以惊人的速度涌现在网络上。如何从海量的图像中检索出所需图像成为一个亟待解决的问题。合理的图像标签顺序对图像检索和分析有着至关重要的作用,如何对杂乱无序的图像标签进行合理有效的重排序成为当前多媒体领域中一个研究热点。该论文着重研究如何建立有效的学习模型来解决图像标签的自动排序问题。现有的图像标签排序算法大致分为两类：基于相关性(Relevance-based)的标签排序算法和基于视觉显著性(Saliency-based)的标签排序算法。通过分析现有图像标签排序算法的优缺点,该论文提出了一种自适应的图像标签排序算法。该算法同时考虑了图像标签的语义相关性和标签的视觉显著性特征。具体地,首先对图像进行显著区域检测并生成相应的显著度图；然后利用显著度图信息对图像进行显著性分析；最后进行自适应的标签排序。若图像中存在显著区域,其标签按照所对应区域的视觉显著性高低进行重排序；反之,若图像中不存在显著区域,则标签按照与图像的语义相关度进行重排序。在上述标签排序算法中,为了判别图像是否存在显著区域,该论文首次提出了一种基于灰度分布直方图统计的显著性分析方法。该方法充分利用图像的显著度图信息,并借助LIBSVM机器学习技术对图像是否存在显著区域进行自动分析。为了验证基于显著性分析的自适应图像标签排序算法的可行性,该论文在COREL图像库和MSRC图像库上进行了实验,并同已有的方法进行了比较。实验结果表明,这种自适应的标签排序算法是有效可行的。该方法解决的问题是标签的自动排序问题，但是前提是图像已经具有了标签，所以这种方法的缺点是无法实现对无标签的图像标签进行自动标注和排序。此外，论文的方法在标签排序的过程中通过多示例方法将标签对应到图像区域，然后根据区域的显著性进行排序，这种方法的缺点是通过多示例方法将标签对应到图像区域准确度不高，且效率较低。

2015年6月30日的道客巴巴上公开了一篇题目为《海量图像标签自动排序算法的研究与实现》的山东大学博士学位论文，该论文展开了一系列研究工作来提高当前图像检索系统的性能，详细讨论了图像标注、标签相关度学习、标签推荐和图像重排序这四个重要问题。论文中解决标签和视觉词的对应关系时，作者认为：利用二元视觉语言模型来估计包含标签t的所有图像中各视觉词出现的条件概率分布，这个分布描述了各视觉词在空间上的相互依赖关系，可以反映标签t所代表的视觉概念。然而，通过所有视觉词的相互依赖关系来反映标签t的视觉概念的方法科学性不足，所有视觉词的依赖关系很难科学的反映标签的视觉性，因为此方法并没有将标签和视觉词真正的对应起来。

发明内容

为了解决上述的技术问题，本发明提出了一种图像标签的自动标注与排序方法，一方面，通过实现测试图像标签的自动标注，以便实现为研究提供海量的可靠训练样本；另一方面，图像的对象性检测结果具有很强的语义性，将对象性检测技术用于标签排序，排序后的标签带有的语义信息和图像反映出的语义信息一致性更强，更准确的标签信息能够更好的用于图像检索等其他视觉任务，同时也能够为研究提供海量的可靠训练样本。

本发明提供一种图像标签的自动标注与排序方法，包括以下步骤：

步骤1：构建基准图像集，包括以下子步骤：

步骤11：构建正确标签标注与排序的图像集；

步骤12：基于所述正确标签标注与排序的图像集建立视觉词和标签的对应关系；

步骤2：对无标签的测试图像进行标注，包括以下子步骤：

步骤21：测试图像的超像素分割；

步骤22：对超像素进行特征提取；

步骤23：计算超像素区域和标签对应关系；

步骤24：对测试图像x的所有超像素对应的标签进行合并；

步骤3：对测试图像的标签进行排序，包括以下子步骤：

步骤31：进行像素的对象性计算；

步骤32：进行超像素区域的对象性计算；

步骤33：将测试图像x对应的标签集合

映射到图像x的不同区域，得到的标签分割区域序列为

步骤34：进行标签显著度的计算；

步骤35：进行标签排序。

优选的是，所述步骤11包括以下步骤：

步骤111：从所述基本图像中选取数量为Q幅的带有标签信息的图像；

步骤112：对所述带有标签信息的图像进行标签的去噪、缺失标签的添加和标签完善中至少一种工作，得到正确标签标注和排序的图像集A，所述图像集A包含Q幅图像。

在上述任一方案中优选的是，标签的集合T包含N个标签(T₁，……，T_i，……，T_N)，对于图像集A中的图像I_j，对应的标签序列为

其中，

为标签i在图像I_j中出现的情况，如果第i个标签出现，则

否则为

1≤j≤Q，1≤i≤N。

在上述任一方案中优选的是，所述步骤12包括以下子步骤：

步骤121：将所述图像集A的每一幅图像的标签映射到图像区域；

步骤122：计算视觉词字典，得到标签和视觉词的对应关系。

在上述任一方案中优选的是，所述步骤121包括将所述图像I_j对应的标签序列映射到图像I_j的不同区域，即对图像进行分割，得到的分割区域序列为

每幅图像都进行标签对应的图像分割后，得到总的分割区域序列

在上述任一方案中优选的是，所述步骤122包括以下子步骤：

步骤1221：对总的分割区域序列

的子区域序列

进行超像素分割，并对超像素集合进行特征提取，得到第i个标签对应的特征集合f_i；

步骤1222：对f_i中特征进行聚类，聚类为视觉词集合v_i；

步骤1223：对每个子区域序列进行步骤1221到步骤1222的操作后，得到视觉词字典(v₁，……，v_i，……，v_N)。

在上述任一方案中优选的是，所述步骤21包括对测试图像x进行超像素分割，得到K个超像素区域

在上述任一方案中优选的是，所述步骤22包括计算K个超像素区域

的特征，得到特征集合

1≤k≤K。

在上述任一方案中优选的是，所述步骤23包括以下子步骤：

步骤231：计算超像素区域特征

和视觉词字典(v₁，……，v_i，……，v_N)中每个视觉词集合的距离，规定超像素区域特征

和视觉词集合v_i中视觉词的最近距离为超像素区域特征

和视觉词集合v_i的距离，记为d_i；

步骤232：计算(d₁，……，d _i，……，d _N)的最小值，将最小值对应的下标记为y(k)；

步骤233：通过所述视觉词集合和标签的对应关系，得到超像素区域

和标签T_y(k)的对应关系。

在上述任一方案中优选的是，所述步骤24包括保证标签集合中的每个标签是唯一的，得到测试图像的标签集合

M为测试图像的标签个数，1≤s≤M，1≤M≤N,

完成标签的自动标注。

在上述任一方案中优选的是，所述步骤31包括通过对象性检测方法得到若干个代表对象可能发生的矩形框，每个矩形框里面像素具有相同的概率值，代表包含对象的可能性，如果一个像素被多个矩形框包括，则像素的对象性为多个矩形框的概率和。

在上述任一方案中优选的是，所述步骤32包括对于测试图像的任意超像素区域

对于区域

中的所有像素的对象性求和，然后求平均，得到区域

的对象性为

在上述任一方案中优选的是，所述步骤34包括测试图像的标签分割区域序列为

将

包含的超像素区域的对象性进行求和，然后求平均，即为

的对象性，也就是

对应标签

的显著性，记作

在上述任一方案中优选的是，所述步骤35包括对

进行从大到小的排序，即可得到标签集合

的正确排序。

本发明提出了一种图像标签的自动标注与排序方法，将对象性检测技术用于标签排序，排序后的标签带有的语义信息和图像反映出的语义信息一致性更强，更准确的标签信息能够更好的用于图像检索等其他视觉任务。

附图说明

图1为按照本发明的图像标签的自动标注与排序方法的一优选实施例的流程图。

图2为按照本发明的图像标签的自动标注与排序方法的图像与标签的一实施例的示例图。

图3为按照本发明的图像标签的自动标注与排序方法的图像的超像素分割的一实施例的示例图。

图4为按照本发明的图像标签的自动标注与排序方法的对象性语义的一实施例的示例图。

图5为按照本发明的图像标签的自动标注与排序方法的图像对象性计算过程的一实施例的示意图。

图6为按照本发明的图像标签的自动标注与排序方法的测试图像的标签标注与排序过程的一实施例的结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤11000，构建基准图像集，包括以下子步骤：

执行步骤11100，构建正确标签标注于排序的图像集，包括以下子步骤；

执行步骤11110，从所述基本图像中选取数量为Q幅的带有标签信息的图像；

执行步骤11120，对所述带有标签信息的图像进行标签的去噪、缺失标签的添加和标签完善中至少一种工作，得到正确标签标注和排序的图像集A，共包含Q幅图像。标签的集合T包含N个标签(T₁，……，T_i，……，T_N)，对于图像集A中的图像I_j，对应的标签序列为

其中，

为标签i在图像I_j中出现的情况，如果第i个标签出现，则

否则为

1≤j≤Q，1≤i≤N。

执行步骤11200，基于正确标签标注与排序的图像集建立视觉词和标签的对应关系，包括以下子步骤：

执行步骤11210，将所述图像集A的每一幅图像的标签映射到图像区域；

执行步骤11220，计算视觉词字典，得到标签和视觉词的对应关系，包括以下子步骤；

执行步骤11221，对总的分割区域序列

的子区域序列

执行步骤11222，对f_i中特征进行聚类，聚类为视觉词集合v_i；

执行步骤11223，对每个子区域序列进行步骤221到步骤222的操作后，得到视觉词字典(v₁，……，v_i，……，v_N)。

执行步骤12000，对无标签的测试图像进行标注，包括以下子步骤：

执行步骤12100，测试图像的超像素分割。对测试图像x进行超像素分割，得到K个超像素区域

执行步骤12200，对超像素进行特征提取，计算K个超像素区域

的特征，得到特征集合

1≤k≤K。

执行步骤12300，计算超像素区域和标签对应关系，包括以下子步骤：

执行步骤12310，计算超像素区域特征

和视觉词集合v_i中视觉词的最近距离为超像素区域特征

和视觉词集合v_i的距离，记为d_i；

执行步骤12320，计算(d₁，……，d _i，……，d _N)的最小值，将最小值对应的下标记为y(k)；

执行步骤12330，通过所述视觉词集合和标签的对应关系，得到超像素区域

和标签T_y(k)的对应关系。

执行步骤12400，对测试图像x的所有超像素对应的标签进行合并。

执行步骤13000，对测试图像的标签进行排序，包括以下子步骤：

执行步骤13100，进行像素的对象性计算，通过对象性检测方法得到若干个代表对象可能发生的矩形框，每个矩形框里面像素具有相同的概率值，代表包含对象的可能性，如果一个像素被多个矩形框包括，则像素的对象性为多个矩形框的概率和。

执行步骤13200，进行超像素区域的对象性计算，对于测试图像的任意超像素区域

对于区域

中的所有像素的对象性求和，然后求平均，得到区域

的对象性为

执行步骤13300，将测试图像x对应的标签集合

映射到图像x的不同区域，得到的标签分割区域序列为

执行步骤13400，进行标签显著度的计算，测试图像的标签分割区域序列为

将

包含的超像素区域的对象性进行求和，然后求平均，即为

的对象性，也就是

对应标签

的显著性，记作

执行步骤13500，对

进行从大到小的排序，即可得到标签集合

的正确排序。

实施例二

本发明是为了实现图像标签的自动标注和排序，减少科学研究中的海量图像的标注成本。由于受用户知识背景和主观感情的影响，导致用户对图像内容的描述是模糊的、杂乱无序的，标签质量远远不能满足作为可靠的图像索引关键字的需要。针对此问题，一方面，本发明通过基准图像集得到标签和视觉词的对应关系，实现测试图像标签的自动标注；另一方面，图像的对象性检测结果具有很强的语义性，本发明将对象性检测技术用于标签排序，排序后的标签带有的语义信息和图像反映出的语义信息一致性更强，更准确的标签信息能够更好的用于图像检索等其他视觉任务。

发明方法包括两个过程：基准图像集的构建、对无标签的测试图像进行标签标注和排序。

一、基准图像集的构建

1.构建正确标签标注与排序的图像集

选取一定数量的带有标签信息的图像，构成图像集。对于带有标签的图像集，标签往往带有噪音，并且标签顺序也不能完全反映标签的重要程度，因此需要建立正确的标签标注与排序的图像集，即需要人工完成标签的去噪、缺失标签的添加和完善。经过人工处理，得到正确标签标注和排序的图像集A，共包含Q幅图像；标签的集合T包含N个标签(T₁，……，T_i，……，T_N)；对于图像集A中的图像I_j，对应的标签序列为

其中，

为标签i在图像I_j中出现的情况，如果第i个标签出现，则

否则为

1≤j≤Q，1≤i≤N。

2.基于正确标签标注与排序的图像集建立视觉词和标签的对应关系

(1)将图像集A的每一幅图像的标签映射到图像区域

将图像I_j对应的标签序列映射到图像I_j的不同区域，即对图像进行分割，得到的分割区域序列为

(2)计算视觉词字典，得到标签和视觉词的对应关系

对总的分割区域序列

的子区域序列

进行超像素分割，并对超像素集合进行特征提取，得到第i个标签对应的特征集合f_i。对f_i中特征进行聚类，聚类为视觉词集合v_i。对每个子区域序列进行上述操作后，得到视觉词字典(v₁，……，v_i，……，v_N)。因为子区域序列

和标签T_i具有对应关系，所以视觉词字典里的视觉词集合v_i和标签T_i之间能够建立对应关系。

二、无标签的测试图像的标签标注和排序

1.测试图像的超像素分割

对测试图像x进行超像素分割，得到K个超像素区域

2.对超像素进行特征提取

计算K个超像素区域

的特征，得到特征集合

1≤k≤K。

3.超像素区域和标签对应关系计算

计算超像素区域特征

和视觉词集合v_i中视觉词的最近距离为超像素区域特征

和视觉词集合v_i的距离，记为d_i。求(d₁,……,d _i，……，d_N)的最小值，将最小值对应的下标记为y(k)。通过步骤2(2)已知视觉词集合和标签的对应关系，从而得到超像素区域

和标签T_y(k)的对应关系。

4.对测试图像x的所有超像素对应的标签进行合并，保证标签集合中的每个标签是唯一的，得到测试图像的标签集合

M为测试图像的标签个数，1≤s≤M，1≤M≤N,

完成标签的自动标注。

5.基于测试图像的对象性语义图对标签进行排序

(1)像素的对象性计算

通过对象性检测方法得到若干个代表对象可能发生的矩形框，每个矩形框里面像素具有相同的概率值，代表包含对象的可能性。如果一个像素被多个矩形框包括，则像素的对象性为多个矩形框的概率和。

(2)超像素区域的对象性计算

对于测试图像的任意超像素区域

对于区域

中的所有像素的对象性求和，然后求平均，得到区域

的对象性为

(3)将测试图像x对应的标签集合

映射到图像x的不同区域，得到的标签分割区域序列为

(4)标签显著度的计算

图像的对象性既反映了对象出现的可能性和对象出现的位置信息，也反映了图像区域的显著度。经过步骤3可以得到每个超像素区域和标签的对应关系，第k个超像素

对应的标签为T_y(k)；经过步骤5(2)得到每个超像素区域的对象性，超像素

对应的对象性为

测试图像的标签分割区域序列为

将

包含的超像素区域的对象性进行求和，然后求平均，即为

的对象性，也就是

对应标签

的显著性，记作

(5)标签排序

对

进行从大到小的排序，即可得到标签集合

的正确排序。

实施例三

如图2所示，标签列表中与图像内容最相关的标签是”butterfly”和”leaf”，但是这两个标签并没有出现在标签列表的最前面。。

实施例四

如图3所示，采用JSEG算法进行图像的超像素分割，第五幅图像为原图像，第2、3、4、5幅分别为不同分割数量的分割结果。

实施例五

如图4所示，图4的第一行图像为图像通过对象性检测得到的多个矩形框，第二行图像为对象性检测就得到的对象性语义图，像素越亮说明显著度越高。

实施例六

如图5所示，有3个检测得到的矩形框，概率分别为p₁、p₂、p₃。红点像素因为被三个矩形框包围，其对象性为p₁+p₂+p₃；菱形像素被两个矩形框包围，其对象性为p₁+p₂；三角形像素被一个矩形框包围，其对象性为p₃。

实施例七

测试图像的标签标注与排序过程如图6所示。

对测试图像进行超像素分割，并计算超像素特征。超像素特征计算和视觉词集合中的距离，并标注为最近距离的视觉词集合对应的标签。所有超像素计算完毕，则得到测试图像的整体标签。

测试图像的对象性检测。

测试图像的显著性检测。

将对象性和显著性进行融合，形成新的显著性。计算超像素对应的显著性。根据超像素的显著性，计算对应标签的显著性。最后对所有标签根据显著性进行标签排序。

代表对象性检测算法得到的一个矩形框，I(x∈R_i)代表指示函数，标识像素x是否属于矩形R_i，N代表矩形框的个数。

(2)超像素区域的对象性计算

对于测试图像的任意超像素区域

对于区域

中的所有像素的对象性求和，然后求平均，得到区域

的对象性为

(3)将测试图像x对应的标签集合

映射到图像x的不同区域，得到的分割区域序列为

(4)标签显著度的计算

对应的标签为

经过步骤5(2)得到每个超像素区域的对象性，超像素

对应的对象性为

测试图像的标签集合

将标签

对应的超像素区域的对象性进行求和，然后求平均，即为此标签的显著性，记作

(4)标签排序

对

进行从大到小的排序，即为标签集合

的正确排序。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。