CN115952312A - 一种图像标签的自动标注与排序方法 - Google Patents

一种图像标签的自动标注与排序方法 Download PDF

Info

Publication number
CN115952312A
CN115952312A CN202211539530.4A CN202211539530A CN115952312A CN 115952312 A CN115952312 A CN 115952312A CN 202211539530 A CN202211539530 A CN 202211539530A CN 115952312 A CN115952312 A CN 115952312A
Authority
CN
China
Prior art keywords
image
label
labels
labeling
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211539530.4A
Other languages
English (en)
Inventor
马楠
许根宝
梁晔
郭聪
姚永强
汪成
张进
汪墨涵
肖传胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202211539530.4A priority Critical patent/CN115952312A/zh
Publication of CN115952312A publication Critical patent/CN115952312A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种图像标签的自动标注与排序方法,包括以下步骤:构建基准图像集;对无标签的测试图像进行标注;对测试图像的标签进行排序。本发明提出了一种图像标签的自动标注和排序方法,一方面,通过基准图像集得到标签和视觉词的对应关系,实现测试图像标签的自动标注;另一方面,图像的对象性检测结果具有很强的语义性,将对象性检测技术用于标签排序,排序后的标签带有的语义信息和图像反映出的语义信息一致性更强,更准确的标签信息能够更好的用于图像检索等其他视觉任务,同时也能够为研究提供海量的可靠训练样本。

Description

一种图像标签的自动标注与排序方法
技术领域
本发明涉及图像处理的技术领域,特别是一种图像标签的自动标注与排序方法。
背景技术
随着Web2.0技术的快速发展,社交网站变得越来越流行,其中最具有代表性的社交媒体网站Facebook,Google的社交视频分享网站Youtube以及Yahoo的社交图像分享网站Flickr。社交媒体的一个重要特点是用户不仅可以创建自己的多媒体内容,而且可以使用关键字来描述媒体的内容,该关键字被称为标签(Tag)。这些标签极大地方便了用户组织和索引媒体内容,为大规模信息检索系统提供了有效途径。这些社群标注信息可以直接作为互联网图像索引,然而仍然存在大量的图像并没有标注信息。众所周知,人工标注会耗费大量的人力物力,成本非常昂贵。由于受用户知识背景和主观感情的影响,导致用户对图像内容的描述是模糊的、杂乱无序的,标签质量远远不能满足作为可靠的图像索引关键字的需要。为了给研究提供海量的可靠训练样本,自动图像标签的标注与排序技术一直是研究的热点。对象性检测技术是检测一幅图像中的潜在对象的位置,以矩形框的方式标出,并给出对象存在的可能性,带有很强的语义性。虽然目前有相关文献将对象性检测用于图像显著性分析、目标检测、图像检索等视觉任务,但缺少将对象性用于图像标签排序任务。
2015年3月17日的道客巴巴上公开了一篇题目为《海量图像标签自动排序算法的研究与实现》的北京交通大学硕士学位论文,该论文提出近年来,随着电子摄影产品的迅速普及,数字图像以惊人的速度涌现在网络上。如何从海量的图像中检索出所需图像成为一个亟待解决的问题。合理的图像标签顺序对图像检索和分析有着至关重要的作用,如何对杂乱无序的图像标签进行合理有效的重排序成为当前多媒体领域中一个研究热点。该论文着重研究如何建立有效的学习模型来解决图像标签的自动排序问题。现有的图像标签排序算法大致分为两类:基于相关性(Relevance-based)的标签排序算法和基于视觉显著性(Saliency-based)的标签排序算法。通过分析现有图像标签排序算法的优缺点,该论文提出了一种自适应的图像标签排序算法。该算法同时考虑了图像标签的语义相关性和标签的视觉显著性特征。具体地,首先对图像进行显著区域检测并生成相应的显著度图;然后利用显著度图信息对图像进行显著性分析;最后进行自适应的标签排序。若图像中存在显著区域,其标签按照所对应区域的视觉显著性高低进行重排序;反之,若图像中不存在显著区域,则标签按照与图像的语义相关度进行重排序。在上述标签排序算法中,为了判别图像是否存在显著区域,该论文首次提出了一种基于灰度分布直方图统计的显著性分析方法。该方法充分利用图像的显著度图信息,并借助LIBSVM机器学习技术对图像是否存在显著区域进行自动分析。为了验证基于显著性分析的自适应图像标签排序算法的可行性,该论文在COREL图像库和MSRC图像库上进行了实验,并同已有的方法进行了比较。实验结果表明,这种自适应的标签排序算法是有效可行的。该方法解决的问题是标签的自动排序问题,但是前提是图像已经具有了标签,所以这种方法的缺点是无法实现对无标签的图像标签进行自动标注和排序。此外,论文的方法在标签排序的过程中通过多示例方法将标签对应到图像区域,然后根据区域的显著性进行排序,这种方法的缺点是通过多示例方法将标签对应到图像区域准确度不高,且效率较低。
2015年6月30日的道客巴巴上公开了一篇题目为《海量图像标签自动排序算法的研究与实现》的山东大学博士学位论文,该论文展开了一系列研究工作来提高当前图像检索系统的性能,详细讨论了图像标注、标签相关度学习、标签推荐和图像重排序这四个重要问题。论文中解决标签和视觉词的对应关系时,作者认为:利用二元视觉语言模型来估计包含标签t的所有图像中各视觉词出现的条件概率分布,这个分布描述了各视觉词在空间上的相互依赖关系,可以反映标签t所代表的视觉概念。然而,通过所有视觉词的相互依赖关系来反映标签t的视觉概念的方法科学性不足,所有视觉词的依赖关系很难科学的反映标签的视觉性,因为此方法并没有将标签和视觉词真正的对应起来。
发明内容
为了解决上述的技术问题,本发明提出了一种图像标签的自动标注与排序方法,一方面,通过实现测试图像标签的自动标注,以便实现为研究提供海量的可靠训练样本;另一方面,图像的对象性检测结果具有很强的语义性,将对象性检测技术用于标签排序,排序后的标签带有的语义信息和图像反映出的语义信息一致性更强,更准确的标签信息能够更好的用于图像检索等其他视觉任务,同时也能够为研究提供海量的可靠训练样本。
本发明提供一种图像标签的自动标注与排序方法,包括以下步骤:
步骤1:构建基准图像集,包括以下子步骤:
步骤11:构建正确标签标注与排序的图像集;
步骤12:基于所述正确标签标注与排序的图像集建立视觉词和标签的对应关系;
步骤2:对无标签的测试图像进行标注,包括以下子步骤:
步骤21:测试图像的超像素分割;
步骤22:对超像素进行特征提取;
步骤23:计算超像素区域和标签对应关系;
步骤24:对测试图像x的所有超像素对应的标签进行合并;
步骤3:对测试图像的标签进行排序,包括以下子步骤:
步骤31:进行像素的对象性计算;
步骤32:进行超像素区域的对象性计算;
步骤33:将测试图像x对应的标签集合
Figure BDA0003976704670000031
映射到图像x的不同区域,得到的标签分割区域序列为
Figure BDA0003976704670000041
步骤34:进行标签显著度的计算;
步骤35:进行标签排序。
优选的是,所述步骤11包括以下步骤:
步骤111:从所述基本图像中选取数量为Q幅的带有标签信息的图像;
步骤112:对所述带有标签信息的图像进行标签的去噪、缺失标签的添加和标签完善中至少一种工作,得到正确标签标注和排序的图像集A,所述图像集A包含Q幅图像。
在上述任一方案中优选的是,标签的集合T包含N个标签(T1,……,Ti,……,TN),对于图像集A中的图像Ij,对应的标签序列为
Figure BDA0003976704670000042
其中,
Figure BDA0003976704670000043
为标签i在图像Ij中出现的情况,如果第i个标签出现,则
Figure BDA0003976704670000044
否则为
Figure BDA0003976704670000045
1≤j≤Q,1≤i≤N。
在上述任一方案中优选的是,所述步骤12包括以下子步骤:
步骤121:将所述图像集A的每一幅图像的标签映射到图像区域;
步骤122:计算视觉词字典,得到标签和视觉词的对应关系。
在上述任一方案中优选的是,所述步骤121包括将所述图像Ij对应的标签序列映射到图像Ij的不同区域,即对图像进行分割,得到的分割区域序列为
Figure BDA0003976704670000046
每幅图像都进行标签对应的图像分割后,得到总的分割区域序列
Figure BDA0003976704670000047
在上述任一方案中优选的是,所述步骤122包括以下子步骤:
步骤1221:对总的分割区域序列
Figure BDA0003976704670000048
的子区域序列
Figure BDA0003976704670000049
进行超像素分割,并对超像素集合进行特征提取,得到第i个标签对应的特征集合fi
步骤1222:对fi中特征进行聚类,聚类为视觉词集合vi
步骤1223:对每个子区域序列进行步骤1221到步骤1222的操作后,得到视觉词字典(v1,……,vi,……,vN)。
在上述任一方案中优选的是,所述步骤21包括对测试图像x进行超像素分割,得到K个超像素区域
Figure BDA0003976704670000051
在上述任一方案中优选的是,所述步骤22包括计算K个超像素区域
Figure BDA0003976704670000052
的特征,得到特征集合
Figure BDA0003976704670000053
Figure BDA0003976704670000054
1≤k≤K。
在上述任一方案中优选的是,所述步骤23包括以下子步骤:
步骤231:计算超像素区域特征
Figure BDA0003976704670000055
和视觉词字典(v1,……,vi,……,vN)中每个视觉词集合的距离,规定超像素区域特征
Figure BDA0003976704670000056
和视觉词集合vi中视觉词的最近距离为超像素区域特征
Figure BDA0003976704670000057
和视觉词集合vi的距离,记为di
步骤232:计算(d1,……,d i,……,d N)的最小值,将最小值对应的下标记为y(k);
步骤233:通过所述视觉词集合和标签的对应关系,得到超像素区域
Figure BDA0003976704670000058
和标签Ty(k)的对应关系。
在上述任一方案中优选的是,所述步骤24包括保证标签集合中的每个标签是唯一的,得到测试图像的标签集合
Figure BDA0003976704670000059
M为测试图像的标签个数,1≤s≤M,1≤M≤N,
Figure BDA00039767046700000510
完成标签的自动标注。
在上述任一方案中优选的是,所述步骤31包括通过对象性检测方法得到若干个代表对象可能发生的矩形框,每个矩形框里面像素具有相同的概率值,代表包含对象的可能性,如果一个像素被多个矩形框包括,则像素的对象性为多个矩形框的概率和。
在上述任一方案中优选的是,所述步骤32包括对于测试图像的任意超像素区域
Figure BDA00039767046700000511
对于区域
Figure BDA00039767046700000512
中的所有像素的对象性求和,然后求平均,得到区域
Figure BDA0003976704670000061
的对象性为
Figure BDA0003976704670000062
在上述任一方案中优选的是,所述步骤34包括测试图像的标签分割区域序列为
Figure BDA0003976704670000063
Figure BDA0003976704670000064
包含的超像素区域的对象性进行求和,然后求平均,即为
Figure BDA0003976704670000065
的对象性,也就是
Figure BDA0003976704670000066
对应标签
Figure BDA0003976704670000067
的显著性,记作
Figure BDA0003976704670000068
在上述任一方案中优选的是,所述步骤35包括对
Figure BDA0003976704670000069
Figure BDA00039767046700000610
进行从大到小的排序,即可得到标签集合
Figure BDA00039767046700000611
的正确排序。
本发明提出了一种图像标签的自动标注与排序方法,将对象性检测技术用于标签排序,排序后的标签带有的语义信息和图像反映出的语义信息一致性更强,更准确的标签信息能够更好的用于图像检索等其他视觉任务。
附图说明
图1为按照本发明的图像标签的自动标注与排序方法的一优选实施例的流程图。
图2为按照本发明的图像标签的自动标注与排序方法的图像与标签的一实施例的示例图。
图3为按照本发明的图像标签的自动标注与排序方法的图像的超像素分割的一实施例的示例图。
图4为按照本发明的图像标签的自动标注与排序方法的对象性语义的一实施例的示例图。
图5为按照本发明的图像标签的自动标注与排序方法的图像对象性计算过程的一实施例的示意图。
图6为按照本发明的图像标签的自动标注与排序方法的测试图像的标签标注与排序过程的一实施例的结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤11000,构建基准图像集,包括以下子步骤:
执行步骤11100,构建正确标签标注于排序的图像集,包括以下子步骤;
执行步骤11110,从所述基本图像中选取数量为Q幅的带有标签信息的图像;
执行步骤11120,对所述带有标签信息的图像进行标签的去噪、缺失标签的添加和标签完善中至少一种工作,得到正确标签标注和排序的图像集A,共包含Q幅图像。标签的集合T包含N个标签(T1,……,Ti,……,TN),对于图像集A中的图像Ij,对应的标签序列为
Figure BDA0003976704670000071
其中,
Figure BDA0003976704670000072
为标签i在图像Ij中出现的情况,如果第i个标签出现,则
Figure BDA0003976704670000073
否则为
Figure BDA0003976704670000074
1≤j≤Q,1≤i≤N。
执行步骤11200,基于正确标签标注与排序的图像集建立视觉词和标签的对应关系,包括以下子步骤:
执行步骤11210,将所述图像集A的每一幅图像的标签映射到图像区域;
执行步骤11220,计算视觉词字典,得到标签和视觉词的对应关系,包括以下子步骤;
执行步骤11221,对总的分割区域序列
Figure BDA0003976704670000075
的子区域序列
Figure BDA0003976704670000076
进行超像素分割,并对超像素集合进行特征提取,得到第i个标签对应的特征集合fi
执行步骤11222,对fi中特征进行聚类,聚类为视觉词集合vi
执行步骤11223,对每个子区域序列进行步骤221到步骤222的操作后,得到视觉词字典(v1,……,vi,……,vN)。
执行步骤12000,对无标签的测试图像进行标注,包括以下子步骤:
执行步骤12100,测试图像的超像素分割。对测试图像x进行超像素分割,得到K个超像素区域
Figure BDA0003976704670000081
执行步骤12200,对超像素进行特征提取,计算K个超像素区域
Figure BDA0003976704670000082
的特征,得到特征集合
Figure BDA0003976704670000083
Figure BDA0003976704670000084
1≤k≤K。
执行步骤12300,计算超像素区域和标签对应关系,包括以下子步骤:
执行步骤12310,计算超像素区域特征
Figure BDA0003976704670000085
和视觉词字典(v1,……,vi,……,vN)中每个视觉词集合的距离,规定超像素区域特征
Figure BDA0003976704670000086
和视觉词集合vi中视觉词的最近距离为超像素区域特征
Figure BDA0003976704670000087
和视觉词集合vi的距离,记为di
执行步骤12320,计算(d1,……,d i,……,d N)的最小值,将最小值对应的下标记为y(k);
执行步骤12330,通过所述视觉词集合和标签的对应关系,得到超像素区域
Figure BDA0003976704670000088
和标签Ty(k)的对应关系。
执行步骤12400,对测试图像x的所有超像素对应的标签进行合并。
执行步骤13000,对测试图像的标签进行排序,包括以下子步骤:
执行步骤13100,进行像素的对象性计算,通过对象性检测方法得到若干个代表对象可能发生的矩形框,每个矩形框里面像素具有相同的概率值,代表包含对象的可能性,如果一个像素被多个矩形框包括,则像素的对象性为多个矩形框的概率和。
执行步骤13200,进行超像素区域的对象性计算,对于测试图像的任意超像素区域
Figure BDA0003976704670000089
对于区域
Figure BDA00039767046700000810
中的所有像素的对象性求和,然后求平均,得到区域
Figure BDA00039767046700000811
的对象性为
Figure BDA00039767046700000812
执行步骤13300,将测试图像x对应的标签集合
Figure BDA00039767046700000813
映射到图像x的不同区域,得到的标签分割区域序列为
Figure BDA0003976704670000091
执行步骤13400,进行标签显著度的计算,测试图像的标签分割区域序列为
Figure BDA0003976704670000092
Figure BDA0003976704670000093
包含的超像素区域的对象性进行求和,然后求平均,即为
Figure BDA0003976704670000094
的对象性,也就是
Figure BDA0003976704670000095
对应标签
Figure BDA0003976704670000096
的显著性,记作
Figure BDA0003976704670000097
执行步骤13500,对
Figure BDA0003976704670000098
进行从大到小的排序,即可得到标签集合
Figure BDA0003976704670000099
的正确排序。
实施例二
本发明是为了实现图像标签的自动标注和排序,减少科学研究中的海量图像的标注成本。由于受用户知识背景和主观感情的影响,导致用户对图像内容的描述是模糊的、杂乱无序的,标签质量远远不能满足作为可靠的图像索引关键字的需要。针对此问题,一方面,本发明通过基准图像集得到标签和视觉词的对应关系,实现测试图像标签的自动标注;另一方面,图像的对象性检测结果具有很强的语义性,本发明将对象性检测技术用于标签排序,排序后的标签带有的语义信息和图像反映出的语义信息一致性更强,更准确的标签信息能够更好的用于图像检索等其他视觉任务。
发明方法包括两个过程:基准图像集的构建、对无标签的测试图像进行标签标注和排序。
一、基准图像集的构建
1.构建正确标签标注与排序的图像集
选取一定数量的带有标签信息的图像,构成图像集。对于带有标签的图像集,标签往往带有噪音,并且标签顺序也不能完全反映标签的重要程度,因此需要建立正确的标签标注与排序的图像集,即需要人工完成标签的去噪、缺失标签的添加和完善。经过人工处理,得到正确标签标注和排序的图像集A,共包含Q幅图像;标签的集合T包含N个标签(T1,……,Ti,……,TN);对于图像集A中的图像Ij,对应的标签序列为
Figure BDA0003976704670000101
其中,
Figure BDA0003976704670000102
为标签i在图像Ij中出现的情况,如果第i个标签出现,则
Figure BDA0003976704670000103
否则为
Figure BDA0003976704670000104
1≤j≤Q,1≤i≤N。
2.基于正确标签标注与排序的图像集建立视觉词和标签的对应关系
(1)将图像集A的每一幅图像的标签映射到图像区域
将图像Ij对应的标签序列映射到图像Ij的不同区域,即对图像进行分割,得到的分割区域序列为
Figure BDA0003976704670000105
每幅图像都进行标签对应的图像分割后,得到总的分割区域序列
Figure BDA0003976704670000106
(2)计算视觉词字典,得到标签和视觉词的对应关系
对总的分割区域序列
Figure BDA0003976704670000107
的子区域序列
Figure BDA0003976704670000108
进行超像素分割,并对超像素集合进行特征提取,得到第i个标签对应的特征集合fi。对fi中特征进行聚类,聚类为视觉词集合vi。对每个子区域序列进行上述操作后,得到视觉词字典(v1,……,vi,……,vN)。因为子区域序列
Figure BDA0003976704670000109
和标签Ti具有对应关系,所以视觉词字典里的视觉词集合vi和标签Ti之间能够建立对应关系。
二、无标签的测试图像的标签标注和排序
1.测试图像的超像素分割
对测试图像x进行超像素分割,得到K个超像素区域
Figure BDA00039767046700001010
2.对超像素进行特征提取
计算K个超像素区域
Figure BDA00039767046700001011
的特征,得到特征集合
Figure BDA00039767046700001012
Figure BDA00039767046700001013
1≤k≤K。
3.超像素区域和标签对应关系计算
计算超像素区域特征
Figure BDA00039767046700001014
和视觉词字典(v1,……,vi,……,vN)中每个视觉词集合的距离,规定超像素区域特征
Figure BDA0003976704670000111
和视觉词集合vi中视觉词的最近距离为超像素区域特征
Figure BDA0003976704670000112
和视觉词集合vi的距离,记为di。求(d1,……,d i,……,dN)的最小值,将最小值对应的下标记为y(k)。通过步骤2(2)已知视觉词集合和标签的对应关系,从而得到超像素区域
Figure BDA0003976704670000113
和标签Ty(k)的对应关系。
4.对测试图像x的所有超像素对应的标签进行合并,保证标签集合中的每个标签是唯一的,得到测试图像的标签集合
Figure BDA0003976704670000114
M为测试图像的标签个数,1≤s≤M,1≤M≤N,
Figure BDA0003976704670000115
完成标签的自动标注。
5.基于测试图像的对象性语义图对标签进行排序
(1)像素的对象性计算
通过对象性检测方法得到若干个代表对象可能发生的矩形框,每个矩形框里面像素具有相同的概率值,代表包含对象的可能性。如果一个像素被多个矩形框包括,则像素的对象性为多个矩形框的概率和。
(2)超像素区域的对象性计算
对于测试图像的任意超像素区域
Figure BDA0003976704670000116
对于区域
Figure BDA0003976704670000117
中的所有像素的对象性求和,然后求平均,得到区域
Figure BDA0003976704670000118
的对象性为
Figure BDA0003976704670000119
(3)将测试图像x对应的标签集合
Figure BDA00039767046700001110
映射到图像x的不同区域,得到的标签分割区域序列为
Figure BDA00039767046700001111
(4)标签显著度的计算
图像的对象性既反映了对象出现的可能性和对象出现的位置信息,也反映了图像区域的显著度。经过步骤3可以得到每个超像素区域和标签的对应关系,第k个超像素
Figure BDA00039767046700001112
对应的标签为Ty(k);经过步骤5(2)得到每个超像素区域的对象性,超像素
Figure BDA00039767046700001113
对应的对象性为
Figure BDA00039767046700001114
测试图像的标签分割区域序列为
Figure BDA00039767046700001115
Figure BDA00039767046700001116
包含的超像素区域的对象性进行求和,然后求平均,即为
Figure BDA0003976704670000121
的对象性,也就是
Figure BDA0003976704670000122
对应标签
Figure BDA0003976704670000123
的显著性,记作
Figure BDA0003976704670000124
(5)标签排序
Figure BDA0003976704670000125
进行从大到小的排序,即可得到标签集合
Figure BDA0003976704670000126
的正确排序。
实施例三
如图2所示,标签列表中与图像内容最相关的标签是”butterfly”和”leaf”,但是这两个标签并没有出现在标签列表的最前面。。
实施例四
如图3所示,采用JSEG算法进行图像的超像素分割,第五幅图像为原图像,第2、3、4、5幅分别为不同分割数量的分割结果。
实施例五
如图4所示,图4的第一行图像为图像通过对象性检测得到的多个矩形框,第二行图像为对象性检测就得到的对象性语义图,像素越亮说明显著度越高。
实施例六
如图5所示,有3个检测得到的矩形框,概率分别为p1、p2、p3。红点像素因为被三个矩形框包围,其对象性为p1+p2+p3;菱形像素被两个矩形框包围,其对象性为p1+p2;三角形像素被一个矩形框包围,其对象性为p3
实施例七
测试图像的标签标注与排序过程如图6所示。
对测试图像进行超像素分割,并计算超像素特征。超像素特征计算和视觉词集合中的距离,并标注为最近距离的视觉词集合对应的标签。所有超像素计算完毕,则得到测试图像的整体标签。
测试图像的对象性检测。
测试图像的显著性检测。
将对象性和显著性进行融合,形成新的显著性。计算超像素对应的显著性。根据超像素的显著性,计算对应标签的显著性。最后对所有标签根据显著性进行标签排序。
Figure BDA0003976704670000131
代表对象性检测算法得到的一个矩形框,I(x∈Ri)代表指示函数,标识像素x是否属于矩形Ri,N代表矩形框的个数。
(2)超像素区域的对象性计算
对于测试图像的任意超像素区域
Figure BDA0003976704670000132
对于区域
Figure BDA0003976704670000133
中的所有像素的对象性求和,然后求平均,得到区域
Figure BDA0003976704670000134
的对象性为
Figure BDA0003976704670000135
(3)将测试图像x对应的标签集合
Figure BDA0003976704670000136
映射到图像x的不同区域,得到的分割区域序列为
Figure BDA0003976704670000137
(4)标签显著度的计算
图像的对象性既反映了对象出现的可能性和对象出现的位置信息,也反映了图像区域的显著度。经过步骤3可以得到每个超像素区域和标签的对应关系,第k个超像素
Figure BDA0003976704670000138
对应的标签为
Figure BDA0003976704670000139
经过步骤5(2)得到每个超像素区域的对象性,超像素
Figure BDA00039767046700001310
对应的对象性为
Figure BDA00039767046700001311
测试图像的标签集合
Figure BDA00039767046700001312
将标签
Figure BDA00039767046700001313
对应的超像素区域的对象性进行求和,然后求平均,即为此标签的显著性,记作
Figure BDA00039767046700001314
(4)标签排序
Figure BDA00039767046700001315
进行从大到小的排序,即为标签集合
Figure BDA00039767046700001316
的正确排序。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种图像标签的自动标注与排序方法,包括以下步骤:
步骤1:构建基准图像集,包括以下子步骤:
步骤11:构建正确标签标注与排序的图像集;
步骤12:基于所述正确标签标注与排序的图像集建立视觉词和标签的对应关系;
步骤2:对无标签的测试图像进行标注,包括以下子步骤:
步骤21:测试图像的超像素分割;
步骤22:对超像素进行特征提取;
步骤23:计算超像素区域和标签对应关系;
步骤24:对测试图像x的所有超像素对应的标签进行合并;
步骤3:对测试图像的标签进行排序,包括以下子步骤:
步骤31:进行像素的对象性计算;
步骤32:进行超像素区域的对象性计算;
步骤33:将测试图像x对应的标签集合
Figure FDA0003976704660000011
映射到图像x的不同区域,得到的标签分割区域序列为
Figure FDA0003976704660000012
步骤34:进行标签显著度的计算;
步骤35:进行标签排序。
2.如权利要求1所述的图像标签的自动标注与排序方法,其特征在于,所述步骤11包括以下步骤:
步骤111:选取数量为Q幅的带有标签信息的图像;
步骤112:对所述带有标签信息的图像进行标签的去噪、缺失标签的添加和标签完善中至少一种工作,得到正确标签标注和排序的图像集A,所述图像集A包含Q幅图像。
3.如权利要求2所述的图像标签的自动标注与排序方法,其特征在于,标签的集合T包含N个标签(T1,……,Ti,……,TN),对于图像集A中的图像Ij,对应的标签序列为
Figure FDA0003976704660000021
其中,
Figure FDA0003976704660000022
为标签i在图像Ij中出现的情况,如果第i个标签出现,则
Figure FDA0003976704660000023
否则为
Figure FDA0003976704660000024
4.如权利要求3所述的图像标签的自动标注与排序方法,其特征在于,所述步骤12包括以下子步骤:
步骤121:将所述图像集A的每一幅图像的标签映射到图像区域;
步骤122:计算视觉词字典,得到标签和视觉词的对应关系。
5.如权利要求4所述的图像标签的自动标注与排序方法,其特征在于,所述步骤121包括将所述图像Ij对应的标签序列映射到图像Ij的不同区域,即对图像进行分割,得到的分割区域序列为
Figure FDA0003976704660000025
每幅图像都进行标签对应的图像分割后,得到总的分割区域序列
Figure FDA0003976704660000026
6.如权利要求5所述的图像标签的自动标注与排序方法,其特征在于,所述步骤122包括以下子步骤:
步骤1221:对总的分割区域序列
Figure FDA0003976704660000027
的子区域序列
Figure FDA0003976704660000028
进行超像素分割,并对超像素集合进行特征提取,得到第i个标签对应的特征集合fi
步骤1222:对fi中特征进行聚类,聚类为视觉词集合vi
步骤1223:对每个子区域序列进行步骤1221到步骤1222的操作后,得到视觉词字典(v1,……,vi,……,vN)。
7.如权利要求6所述的图像标签的自动标注与排序方法,其特征在于,所述步骤21包括对测试图像x进行超像素分割,得到K个超像素区域
Figure FDA0003976704660000029
序。
8.如权利要求7所述的图像标签的自动标注与排序方法,其特征在于,所述步骤22包括计算K个超像素区域
Figure FDA0003976704660000031
的特征,得到特征集合
Figure FDA0003976704660000032
9.如权利要求8所述的图像标签的自动标注与排序方法,其特征在于,所述步骤23包括以下子步骤:
步骤231:计算超像素区域特征
Figure FDA0003976704660000033
和视觉词字典(v1,……,vi,……,vN)中每个视觉词集合的距离,规定超像素区域特征
Figure FDA0003976704660000034
和视觉词集合vi中视觉词的最近距离为超像素区域特征
Figure FDA0003976704660000035
和视觉词集合vi的距离,记为di
步骤232:计算(d1,……,di,……,d N)的最小值,将最小值对应的下标记为y(k);
步骤233:通过所述视觉词集合和标签的对应关系,得到超像素区域
Figure FDA0003976704660000036
和标签Ty(k)的对应关系。
10.如权利要求9所述的图像标签的自动标注与排序方法,其特征在于,所述步骤24包括保证标签集合中的每个标签是唯一的,得到测试图像的标签集合
Figure FDA0003976704660000037
M为测试图像的标签个数,1≤s≤M,1≤M≤N,
Figure FDA0003976704660000038
完成标签的自动标注。
CN202211539530.4A 2022-12-02 2022-12-02 一种图像标签的自动标注与排序方法 Pending CN115952312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211539530.4A CN115952312A (zh) 2022-12-02 2022-12-02 一种图像标签的自动标注与排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211539530.4A CN115952312A (zh) 2022-12-02 2022-12-02 一种图像标签的自动标注与排序方法

Publications (1)

Publication Number Publication Date
CN115952312A true CN115952312A (zh) 2023-04-11

Family

ID=87286743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211539530.4A Pending CN115952312A (zh) 2022-12-02 2022-12-02 一种图像标签的自动标注与排序方法

Country Status (1)

Country Link
CN (1) CN115952312A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
CN103810274A (zh) * 2014-02-12 2014-05-21 北京联合大学 基于WordNet语义相似度的多特征图像标签排序方法
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN107610136A (zh) * 2017-09-22 2018-01-19 中国科学院西安光学精密机械研究所 基于凸包结构中心查询点排序的显著目标检测方法
CN107944454A (zh) * 2017-11-08 2018-04-20 国网电力科学研究院武汉南瑞有限责任公司 一种针对变电站的基于机器学习的语义标注方法
CN107967480A (zh) * 2016-10-19 2018-04-27 北京联合大学 一种基于标签语义的显著对象提取方法
CN108319985A (zh) * 2018-02-07 2018-07-24 北京航空航天大学 图像语义标注的方法和装置
CN109829449A (zh) * 2019-03-08 2019-05-31 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN113256581A (zh) * 2021-05-21 2021-08-13 中国科学院自动化研究所 基于视觉注意建模融合的缺陷样本自动标注方法及系统
CN113705579A (zh) * 2021-08-27 2021-11-26 河海大学 一种视觉显著性驱动的图像自动标注方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495865A (zh) * 2011-11-28 2012-06-13 南京大学 结合图像内部空间关系及视觉共生关系的图像标注方法
US20140307958A1 (en) * 2013-04-16 2014-10-16 The Penn State Research Foundation Instance-weighted mixture modeling to enhance training collections for image annotation
CN103810274A (zh) * 2014-02-12 2014-05-21 北京联合大学 基于WordNet语义相似度的多特征图像标签排序方法
CN107967480A (zh) * 2016-10-19 2018-04-27 北京联合大学 一种基于标签语义的显著对象提取方法
CN107610136A (zh) * 2017-09-22 2018-01-19 中国科学院西安光学精密机械研究所 基于凸包结构中心查询点排序的显著目标检测方法
CN107944454A (zh) * 2017-11-08 2018-04-20 国网电力科学研究院武汉南瑞有限责任公司 一种针对变电站的基于机器学习的语义标注方法
CN108319985A (zh) * 2018-02-07 2018-07-24 北京航空航天大学 图像语义标注的方法和装置
CN109829449A (zh) * 2019-03-08 2019-05-31 北京工业大学 一种基于超像素时空上下文的rgb-d室内场景标注方法
CN113256581A (zh) * 2021-05-21 2021-08-13 中国科学院自动化研究所 基于视觉注意建模融合的缺陷样本自动标注方法及系统
CN113705579A (zh) * 2021-08-27 2021-11-26 河海大学 一种视觉显著性驱动的图像自动标注方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TIAN WANG等: "Auto-Sorting System Toward Smart Factory Based on Deep Learning for Image Segmentation", IEEE SENSORS JOURNAL, 15 October 2018 (2018-10-15) *
李旻先;赵春霞;唐金辉;侯迎坤;: "基于视觉显著性近邻投票的标签排序方法", 南京理工大学学报, no. 04, 30 August 2012 (2012-08-30) *
李青等: "基于目标识别与显著性检测的图像场景多对象分割", 计算机科学, 31 May 2017 (2017-05-31) *
谢新林等: "《基于图像级标签的弱监督图像语义分割综述》", 《 太原理工大学学报》, 30 November 2021 (2021-11-30) *

Similar Documents

Publication Publication Date Title
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
Gopalakrishnan et al. Random walks on graphs for salient object detection in images
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
Tian et al. Learning complementary saliency priors for foreground object segmentation in complex scenes
CN111651636A (zh) 视频相似片段搜索方法及装置
CN110874618B (zh) 基于小样本的ocr模板学习方法、装置、电子设备及介质
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN108154191B (zh) 文档图像的识别方法和系统
CN107622280B (zh) 基于场景分类的模块化处方式图像显著性检测方法
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
JP2008123486A (ja) デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム
CN112183672A (zh) 图像分类方法、特征提取网络的训练方法和装置
CN111860545B (zh) 一种基于弱检测机制的图像敏感内容识别方法及系统
CN112927776A (zh) 一种面向医学检验报告的人工智能自动解读系统
Lee et al. Bi-directional contrastive learning for domain adaptive semantic segmentation
Li et al. A review of deep learning methods for pixel-level crack detection
CN108647703B (zh) 一种基于显著性的分类图像库的类型判断方法
CN116049397A (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN115344733A (zh) 基于深度哈希的数字藏品检索方法及系统
CN112925905B (zh) 提取视频字幕的方法、装置、电子设备和存储介质
Papapanagiotou et al. Improving concept-based image retrieval with training weights computed from tags
Guo et al. Saliency detection on sampled images for tag ranking
Mallick et al. Video retrieval using salient foreground region of motion vector based extracted keyframes and spatial pyramid matching
CN115952312A (zh) 一种图像标签的自动标注与排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination