CN102298605B - 基于有向图非等概率随机搜索的图像自动标注方法及装置 - Google Patents
基于有向图非等概率随机搜索的图像自动标注方法及装置 Download PDFInfo
- Publication number
- CN102298605B CN102298605B CN 201110147033 CN201110147033A CN102298605B CN 102298605 B CN102298605 B CN 102298605B CN 201110147033 CN201110147033 CN 201110147033 CN 201110147033 A CN201110147033 A CN 201110147033A CN 102298605 B CN102298605 B CN 102298605B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- neighbour
- marked
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 160
- 239000011159 matrix material Substances 0.000 claims abstract description 217
- 239000013598 vector Substances 0.000 claims abstract description 105
- 230000004438 eyesight Effects 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 44
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 claims description 37
- 238000005295 random walk Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 20
- BAWFJGJZGIEFAR-NNYOXOHSSA-N NAD zwitterion Chemical compound NC(=O)C1=CC=C[N+]([C@H]2[C@@H]([C@H](O)[C@@H](COP([O-])(=O)OP(O)(=O)OC[C@@H]3[C@H]([C@@H](O)[C@@H](O3)N3C4=NC=NC(N)=C4N=C3)O)O2)O)=C1 BAWFJGJZGIEFAR-NNYOXOHSSA-N 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000000644 propagated effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 11
- 238000005457 optimization Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000007634 remodeling Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005267 amalgamation Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于有向图非等概率随机搜索的图像自动标注方法,包括:输入待标注图像和已标注图像集,提取待标注图像的多个特征向量,选取近邻图像集;构建针对待标注图像的有向图模型;计算标签间的词义相似度矩阵Se和标签间的共生关系矩阵Co,将词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT;对候选标签集中的每一个候选标签在有向图模型中进行非等概率随机搜索以计算得分,取得分高的多个候选标签作为标注结果。本发明还公开了一种基于有向图非等概率随机搜索的图像自动标注方法装置。本发明充分合理地利用图像间的依赖关系和标签之间的相似关系,可以有效地进行图像的自动标注,具有较好的标注效果。
Description
技术领域
本发明涉及计算机多媒体技术领域,特别涉及一种基于有向图非等概率随机搜索的图像自动标注方法及装置。
背景技术
随着社区网络和数码摄像技术的迅猛发展带来网络图像数据的爆炸式增长,如何对如此海量的图像数据进行有效的存储、管理和检索成为一个严峻的挑战和急迫的需求。传统的基于图像周边文本的检索(如Google图像搜索)由于周边文本噪声太大而无法达到较好的检索精度,而基于图像内容的检索(CBIR)技术则由于无法跨越图像底层特征与高层语义之间的“语义鸿沟”(Semantic Gap)而得不到广泛的认可和应用。近年来的研究表明,基于图像语义内容的自动标注技术将很可能成为以上问题的有效解决途径。
图像自动标注是指对于一张没有或只有极少文本描述的图像,根据其底层特征,由计算机自动寻找出能够有效描述其语义内容的文本标签。图像标注的目标是将图像数据转化为文本数据,并且保证转化的过程中能最大程度上保留图像的语义。通过语义近似等价的转换,添加的文本标签可被用于图像的索引和检索等等,从而方便了后续的管理和应用。图像标注最根本的问题是如何从图像的底层特征映射到高层语义。在计算机领域中,图像的表示是二进制流,而对于生物认知而言,图像本身包含着大量的概念等高层语义信息,如何跨越二进制流和高层语义之间的鸿沟便是图像标注需要集中解决的问题。
现有图像自动标注方法总体上可以划分为两大类:基于模型的标注方法和数据驱动的标注方法。
基于模型的图像自动标注方法主要采用的是分类器方法和统计模型方法。分类器方法将标注问题转化为分类问题,通常是将每一个候选标签视为一个类别,并通过训练数据为每一个候选标签训练相应的分类器,再由分类器判断待标注图像所属的类别,则这些类别所对应的标签将作为标注的结果。统计模型的基本思想是通过应用概率模 型等统计学方法在训练数据集上建立起图像或图像区域与文本标签之间的关系模型,然后根据待标注图像的底层特征,通过应用该关系模型直接评估各个标签的权重,最终选择权重最大的若干个标签作为标注的结果。
统计模型在图像自动标注方面的应用包括以下几种:
将机器翻译的思想应用到图像标注中,首先将训练数据集中的图像进行区域分割和聚类作为“词袋”,然后应用期望最大化(Expectation Maximization)算法,为每一个“词袋”分配相应的文本标签,从而建立起“词袋”与标签之间的关系模型。而对于待标注图像,也可通过区域分割,并根据各个区域所对应的“词袋”获取相应的文本标签作为标注结果。
在“词袋”量化的基础上,根据条件概率思想建立起了另一个标注模型--给定待标注图像的“词袋”表示(假设为{b1,b2,...bm}),利用训练集上的统计数据评估出为其标注上某一个标签w的概率P(w|b1,b2,...bm),最终取条件概率最大的若干个候选标签作为标注结果。
利用贝叶斯法则和独立假设将上述概率公式P(w|b1,b2,...bm)进一步改写为 然后通过训练集的统计数据估算出公式中各部分的取值,并计算出每个候选标签被标注的概率,最后同样以条件概率最大的若干个候选标签作为标注结果。
数据驱动的图像自动标注方法是近年来的研究热点,其主要思想是利用互联网上的海量数据作为标注的语义库,并以此来协助跨越“语义鸿沟”,从而改善标注的效果。在数据驱动的标注方法研究方面,微软亚洲研究院提出的AnnoSearch框架的核心思想是将标注问题转化为搜索问题,通过在互联网上搜索与待标注图像在文本词义和视觉内容两方面均相似的图片,并从搜索结果中挖掘出共有的语义概念作为标注的结果。但是AnnoSearch的应用要求待标注图像必须拥有至少一个能描述其主要内容的文本标签作为搜索词。
从现有技术来看,已有的图像自动标注方法即使应用在人为构造的标准数据集上,准确率(precision)和召回率(recall)也只能达到30%左右,而在实际数据集中,由于存在较大的标签噪声,准确率和召回率将会更低。由此可见,图像自动标注技术还远远不能满足实际的需求。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一。
为此,本发明的第一个目的在于提供一种基于有向图非等概率随机搜索的图像自动标注方法,该方法可以合理地利用图像之间的依赖关系和标签之间的相似关系,有效地进行图像的自动标注,具有较好的标注效果。
本发明的第二个目的在于提供一种基于有向图非等概率随机搜索的图像自动标注装置。
为实现上述目的,本发明的第一方面的实施例提出一种基于有向图非等概率随机搜索的图像自动标注方法,包括如下步骤:
输入待标注图像和已标注图像集,提取所述待标注图像的多个特征向量,根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离,并选取所述融合距离小的前k个已标注图像形成近邻图像集,所述近邻图像集中所有图像的标签作为候选标签集;
计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建视觉依赖矩阵F,计算所述近邻图像集中的任意两个图像的共有标签数量,根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C,将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A,以所述待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重,构建针对所述待标注图像的有向图模型;
计算所述候选标签集中的任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se,计算所述候选标签集中标签间的共生关系矩阵Co,将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT;和
对所述候选标签集中的每一个候选标签在所述有向图模型中进行非等概率随机搜索以获得所述每一个候选标签的得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法,充分合理地利用图像之间的依赖关系和标签之间的相似关系,可以有效地进行图像的自动标注,具有较好的标注效果。
本发明第二方面的实施例提出了一种基于有向图非等概率随机搜索的图像自动标注装置,包括:近邻图像集获取模块,所述近邻图像集获取模块用于接收待标注图像和已标注图像集,提取所述待标注图像的多个特征向量,根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离,并选取所述融合距离小的前k个已标注图像形成近邻图像集,所述近邻图像集中所有图像的标签作为候选标签集;计算模块,所述计算模块用于计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建视觉依赖矩阵F,计算所述近邻图像集中的任意两个图像的共有标签数量,根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C,并且计算所述候选标签集中的任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se,计算所述候选标签集中的标签共生关系矩阵Co;融合模块,所述融合模块用于将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A,以及将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT;有向图模型建立模块,所述有向图模型建立模块用于以所述待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重,构建针对所述待标注图像的有向图模型;随机搜索模块,所述随机搜索模块用于对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置,充分合理地利用图像之间的依赖关系和标签之间的相似关系,可以有效地进行图像的自动标注,具有较好的标注效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法的示意图;
图2为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法的流程图;
图3为根据本发明实施例的图像自动标注方法在标准测试集Corel5K上进行图像自动标注的部分样例效果图;
图4为根据本发明实施例的图像自动标注方法在标准测试集SAIAPR TC-12上进行图像自动标注的部分样例效果;和
图5为根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面参考图1至图2描述根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法。
如图1所示,根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法,包括如下步骤:
S101:选取近邻图像集。
首先输入待标注图像I和已标注图像集,在已标注图像集中包括多个已标注的图像,每个已标注的图像均附带有标签。
S1011:提取待标注图像I的特征向量。
对于输入的待标注图像I,提取所述待标注图像I的一种或多种底层特征向量,并拼合为一个整体向量fI=(p1,p2,...px...,pn),其中px表示第x种特征向量。在本发明的一个实施例中,利用Lire等开源项目提取待标注图像I的一种或多种特征向量。可以理解的是,上述用Lire等开源项目仅出于示例的目的,而不是为了限制本发明的保护范围。
S1012:寻找视觉近邻。
利用步骤S1011中得到的特征向量,根据底层特征向量之间的相似性,从已标注图像集中寻找与待标注图像I相似的k个视觉近邻图像,形成近邻图像集合K。
具体而言,计算待标注图像I与已标注图像集中每一个已标注图像的融合距离d。由于对待标注图像I提取的特征有多种,并且不同特征的距离计算方式不相同,因此需要对各种特征的距离进行归一化和融合。
基于所述待标注图像的多个特征向量的每一个,计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离,对每种特征向量对应的距离进行归一化处理,得到归一化距离dx。归一化的公式为:
其中,dx0表示第x种特征向量计算所得的距离,max{dx0}和min{dx0}分别表示第x种特征向量距离的最大值和最小值。
根据每种特征向量在计算所述融合距离中所占的比重,将所述多种特征向量对应的归一化距离进行融合,得到融合距离d。
其中,d为融合距离,wx表示待标注图像的第x种特征向量在计算所述融合距离中所占的比重,dx表示第x种特征对应的归一化距离,n表示待标注图像的特征的种类个数,其中x∈[1,2,...n]。
在计算出与所有已标注图像的距离之后,选取融合距离d最小的前k个已标注图像作为待标注图像的视觉近邻图像,形成近邻图像集K,同时以所述近邻图像集K中的近邻图像的标签作为自动标注的候选标签集。
S102:构建针对待标注图像的有向图模型。
S1021:计算图像间的视觉依赖矩阵F。
计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建图像间的视觉依赖矩阵F。
通过将所述待标注图像的特征向量fI与重构向量之间的二次范式值最小,计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值。通过将近邻图像集中的任一个已标注图像的特征向量与重构向量之间的二次范式值最小,计算所述近邻图像集中的每一个图像在其他已标注图像重构过程中的权重值。利用权重值构建视觉依赖矩阵F。
视觉依赖反映的是图像特征向量之间的重构关系。待标注图像I与近邻图像集K中的近邻图像{I1,I2,...,Ik}的特征向量重构关系可以通过最优化下式获得:
其中,fI为待标注图像I的特征向量, 为近邻图像集中的图像Ij的特征向量,j∈[1,2,...k],近邻图像集包括图像{I1,I2,...,Ik},ωj为所述近邻图像集中的图像Ij在所述待标注图像重构过程中的权重值,反映了待标注图像I在视觉上对图像Ij的依赖关系。
对上式进行的最优化,获得所有的权重值ωj,使得待标注图像I的特征向量fI与重构向量 之间的二次范式值最小。
令 通过对ε进行如下的变换:
其中,近邻图像集K包括图像{I1,I2,...,Ik},j∈[1,2,...k],ω为由各个权重组成的列向量。在本发明的一个实施例中,通过调用Matlab中的二次规划函数quadprog求解ω向量。矩阵H的第i行第j列的值为
ω向量表示待标注图像I对其近邻图像的视觉依赖关系。
类似地,可以计算近邻图像集中每一个图像对于其他已标注图像的视觉依赖关系,具体的优化公式如下:
使得ωj,h≥0且∑ωj,h=1
其中, 为近邻图像集中的图像Ij的特征向量, 为近邻图像集中的图像Ih的特征向量,h∈[1,2,...,k]且h≠j。所述近邻图像集包括图像{I1,I2,...,Ik},ωj,h为所述近邻图像集中的图像Ih在所述的近邻图像Ij重构过程中的权重值。公式的最优化过程同样可以由上述的Matlab二次规划函数quadprog求解得到。
根据求解出来的所述待标注图像及其近邻图像集对其他已标注图像的视觉依赖关系,可以构造出视觉依赖矩阵F。换言之,根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F,
其中,ω1为近邻图像集中的第一个图像I1在所述待标注图像重构过程中的权重值,ω2为近邻图像集中的第二个图像I2在所述待标注图像重构过程中的权重值,ωk-1为近邻图像集中的第k-1个图像Ik-1在所述待标注图像重构过程中的权重值,ωk为近邻图像集中的第k个图像Ik在所述待标注图像重构过程中的权重值。
ωi,j为所述近邻图像集中的第j个图像Ij在所述近邻图像集中的第i个图像Ii重构过程中的权重值,其中i∈[1,2,...k],j∈[1,2,...k],当i=j时,ωi,j=0。
具体而言,ω1,2为近邻图像集中的第二个图像I2在近邻图像集中的第一个图像I1重构过程中的权重值,ω1,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第一个图像I1重构过程中的权重值,ω1,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第一个图像I1重构过程中的权重值,ω1,k为近邻图像集中的第k个图像Ik在近邻图像集中的第一个图像I1重构过程中的权重值,ω2,1为近邻图像集中的第一个图像I1在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k为近邻图像集中的第k个图像Ik在近邻图像集中的第二个图像I2重构过程中的权重值,ωk-2,1为近邻图像集中的第一个图像I1在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值, ωk-2,2为近邻图像集中的第二个图像I2在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-2,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-2,k为近邻图像集中的第k个图像Ik在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-1,1为近邻图像集中的第一个图像I1在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,2为近邻图像集中的第二个图像I2在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,k为近邻图像集中的第k个图像Ik在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk,1为近邻图像集中的第一个图像I1在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,2为近邻图像集中的第二个图像I2在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第k个图像Ik重构过程中的权重值。
S1022:计算图像间的标签依赖矩阵C。
计算近邻图像集中的任意两个图像的共有标签数量,根据所述共有标签数量和近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C。
根据图像间的统计关系估算图像间的标签依赖关系。首先计算所述标签依赖矩阵C的第i行第j列元素Ci,j,Ci,j为图像Ii对图像Ij的标签依赖量,表征图像Ii对Ij的标签依赖关系。
其中,N(Ii,Ij)表示近邻图像集中的图像Ii和图像Ij共有的标签数量,N(Ij)表示已标注图像Ij的标签数量,j∈[1,2,...k],近邻图像集K包括近邻图像{I1,I2,...,Ik},Ii,Ij∈K。当图像Ij的标签全部出现在图像Ii的标签中,则图像Ii对图像Ij的标签依赖关系为100%。
根据所述标签依赖量Ci,j构建图像间的标签依赖矩阵C。
S1023:融合图像间的依赖关系并构建稳定依赖关系矩阵A。
将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A。
为了表征图像之间的综合依赖关系,需要将计算得到的视觉依赖矩阵F和标签依赖矩阵C分别进行行归一化,然后融合,得到综合的图像依赖关系矩阵G。
G=αF+(1-α)C
其中,α为调整因子,表示视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值,用于决定视觉依赖关系和标签依赖关系的权重。在本发明的一个示例中,α取0.5左右。融合后的G矩阵需要进行行归一化。
由于图像之间的依赖关系可能存在传播现象,需要通过随机游走(Random Walk)过程使G矩阵中的依赖关系稳定。假设图像间的依赖关系以β的概率向后继结点传播,以(1-β)保留初始的依赖关系,则在随机游走过程中,图像间的依赖关系计算公式如下:
其中,an(i,j)表示第n次随机游走过程中图像Ii对图像Ij的依赖关系,an-1(i,q)表示第n-1次随机游走过程中图像Ii对图像Iq的依赖关系,Gi,j为G矩阵中第i行第j列的元素,表示图像Ii对图像Ij的初始依赖关系,pq,j为图像Iq选择图像Ij作为依赖关系传播的后继节点的概率。Iq∈K,K为近邻图像集。
由于G矩阵是行归一化的,并且图像间的初始依赖关系也反映了图像选择后继节点的概率,因此,此处的pq,j近似等价于Gq,j,即
改写为矩阵形式如下:
A(n)=βA(n-1)G+(1-β)G
其中A(n)表示第n次随机游走得到的依赖关系矩阵。由于G是随机矩阵,可以证明,A将趋于稳定,由
A=βAG+(1-β)G
可以解出稳定依赖关系矩阵A为:
A=(1-β)G(E-βG)-1
其中G是依赖关系矩阵,E为单位矩阵,β为调整因子,表示依赖关系矩阵G中的依赖关系向后继节点传播的概率。在本发明的一个示例中,β取0.4左右。对稳定依赖关系矩阵A需要进行行归一化。
S1024:构造有向图模型。
以待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A中元素作为有向边上的权重,构建针对所述待标注图像的有向图模型。
S103:构建标签相似矩阵TT。
S1031:计算标签间的词义相似度矩阵Se。
计算候选标签集中任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se。
计算标签间的词义相似度矩阵Se的第i行第j列元素Sei,j,Sei,j为标签ti和标签tj的词义相似度,其中,ti为候选标签集中的第i个标签,tj为候选标签集中第j个标签,Ii,Ij∈K,近邻图像集K包括近邻图像{I1,I2,...,Ik}。在本发明的一个示例中,标签ti和标签tj之间的词义相似度Sei,j可以通过基于WordNet的词义相似性衡量方法估算得到。Sei,j的取值范围为[0,1]。可以理解的是,上述用WordNet仅出于示例的目的,而不是为了限制本发明的保护范围。
根据上述步骤得到的词义相似度Sei,j构建所述标签间的词义相似度矩阵Se。
S1032:计算标签间的共生关系矩阵Co。
计算所述候选标签集中的标签共生关系矩阵Co。标签间的共生关系体现的是标签在统计方面的相似度。
首先,计算候选标签集中的标签共生关系矩阵Co的第i行第j列元素,Coi,j为标签ti和标签tj之间的共生关系,
其中,ti为候选标签集中的第i个标签,tj为候选标签集中的第j个标签,Nt(ti,tj)表示同时包含标签ti和标签tj的图像的数量,Nt(ti)和Nt(tj)分别表示包含标签ti和标签 tj的图像的数量;
根据上述步骤得到的共生关系Coi,j构建所述标签间的共生关系矩阵Co。
S1033:将词义相似度矩阵Se和标签共生关系矩阵Co进行融合。
为了表征标签之间的综合相似度,需要将标签间的词义相似度矩阵Se和共生关系矩阵Co融合起来,得到综合的标签相似矩阵TT:
TT=γSe+(1-γ)Co,
其中γ是调整因子,为词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值,用于决定词义相似度和共生关系之间的权重关系。在本发明的一个示例中,γ为0.6左右。
S104:对候选标签进行非等概率随机搜索,获取标注结果。
对步骤S101中得到的候选标签集中的每一个候选标签在所述有向图模型中进行非等概率随机搜索预测其得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
S1041:对候选标签进行非等概率随机搜索。
对于每一个候选标签,通过在有向图上的非等概率随机搜索估算其得分。设候选标签ti的得分为r(ti),则其数学期望(即估算公式)为:
其中,Im∈K,K为近邻图像集,p(Im)表示非等概率随机搜索在图像节点Im上返回的概率, 表示从图像Im返回的得分,该得分即为图像节点Im附带的所有标签与候选标签相似度的最大值, 由所述标签相似矩阵TT计算得到,Tag(Im)为Im附带的所有标签。当图像Im包含被预测的候选标签,则返回的得分为1。
下面对概率p(Im)的计算过程进行描述。p(Im)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到,其估算公式为:
其中p(Im,d)和p(In,d)分别表示深度为d的随机搜索到达节点Im和节点In的概率。p(Im,d)的估算公式为:
其中p(In,d-1)表示深度为d-1的随机搜索到达节点In的概率, 表示在节点In上深度为d-1的随机搜索不继续搜索后继节点的概率,p(S(In)=Im)表示在节点In上继续搜索后继结点时选中节点Im的概率,该概率值即为A矩阵中的An,m。
a)如果In包含被预测的候选标签,那么必须返回,不再继续搜索,该值为1;
b)如果In不包含被预测的候选标签,那么可以选择不继续搜索而返回,或者继续搜索后继节点,此时估算不继续搜索的概率需要考虑两个因素:停止搜索时返回的置信度δd-1和继续搜索时能返回的期望置信度θd。 的估算公式为:
而
其中, 表示图像In的所有标签与被预测标签相似度的最大值,p(S(In)=Iq)表示图像In选择Iq作为后继搜索节点的概率,该概率可由稳定依赖关系矩阵A得到,即:
p(S(In)=Iq)=An,q
引入深度为d-1时随机搜索继续搜寻后继节点的前进概率矩阵ψd-1如下所示:
和:深度为d时随机搜索到达各个节点的概率向量Pd:
Pd=(p(I0,d),p(I1,d),...,p(Ik,d))
则上面的公式转化为矩阵形式如下:
Pd=Pd-1ψd-1A。
其中,前进概率矩阵ψd-1的第1行第1列的元素必须为1,表示随机搜索过程不能停止在待标注图像上。
由此可计算任意深度下随机搜索到达各个节点的概率,从而得到:
其中E表示单位矩阵,ψd表示深度为d时随机搜索继续搜寻后继节点的前进概率矩阵,A为稳定依赖关系矩阵,P向量表示随机搜索到达各个节点的概率,由于A矩阵是随机矩阵,故可证明 趋于稳定,从而P值也将趋于稳定。P1为深度为1的随机搜索到达各个图像节点的概率所组成的向量,其估算由以下公式给出:
P1=P0ψ0A
其中ψ0为单位矩阵,P0向量为{0,1}二值向量,且只在待标注图像的位置为1,其他位置均为0,A为图像间的稳定依赖关系矩阵。
在求解P的稳定值时,可设 通过逐渐增加W的取值可最终得到P的近似稳定值。
当|P(W)-P(W-1)|<σ时,P可视为稳定,σ为稳定阈值。在本发明的一个示例中,σ设置在0.01以下。
在求到稳定的P向量之后,则可由 和 估算出每一个候选标签的得分。
S1042:根据预测的标签的得分对所有的候选标签进行排序,获取标注结果。
通过步骤S1042中的非等概率随机搜索预测出所有候选标签的得分之后,根据得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
下面参考图3和图4描述本发明实施例的图像自动标注方法在图像自动标注的标准测试集Corel5K和SAIAPR_TC-12上的部分样例效果。图3和图4示出了选取的图像的标签及每个标签的得分值。
根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法,充分合理地利用图像之间的依赖关系和标签之间的相似关系,可以有效地进行图像的自动标注,具有较好的标注效果。
具体而言,本发明实施例的基于有向图非等概率随机搜索的图像自动标注方法具有以下特点:
(1)以随机搜索模型作为标注的基础。本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法将预测候选标签得分的过程建模为一个在有向图中随机搜索候选标签的过程。通过多次由待标注图像出发的深度不同的随机搜索过程,估算出随机搜索在各个节点返回的概率,结合候选标签与各个节点所包含标签的相似关系,可以估算出候选标签得分的期望值。
(2)以有向图作为随机搜索的基础。在考虑图像之间依赖关系时,本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法考虑到了依赖关系的非对称性,进而设计了有向图作为随机搜索的基础。
(3)以视觉近邻的标签作为标注的候选标签集。对于任意给定的待标注图像,本发明将首先根据视觉特征从已标注的图像中选择若干个最相似的图像作为视觉近邻图像,并且以这些视觉近邻图像的标签作为候选标签集,以此抵抗其他不相关图像所带来的噪声影响。
(4)充分挖掘训练数据中隐含的关系信息。本发明实施例提供的基于有向图非等概率随机搜索的图像自动标注方法充分有效地挖掘了图像与图像的关系、图像与标签的关系、标签与标签的关系,并将这三者合理地结合起来,达到较好的标注效果。
下面参考图5描述根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置500。
如图5所示,根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置500包括近邻图像集获取模块510、计算模块520、融合模块530、有向图模型建立模块540和随机搜索模块550。
近邻图像集获取模块510首先获取输入的待标注图像I和已标注图像集,在已标注图像集中包括多个已标注的图像,每个已标注的图像均附带有标签。
近邻图像集获取模块510对于输入的待标注图像I,提取所述待标注图像I的一种或多种底层特征向量,并拼合为一个整体向量fI=(p1,p2,...px...,pn),其中px表示第x种特征向量。在本发明的一个实施例中,利用Lire等开源项目提取待标注图像I的一种或多种特征向量。可以理解的是,上述用Lire等开源项目仅出于示例的目的,而不是为了限制本发明的保护范围。
近邻图像集获取模块510根据底层特征向量之间的相似性,从已标注图像集中寻找与待标注图像I相似的k个视觉近邻图像,形成近邻图像集合K。
具体而言,近邻图像集获取模块510计算待标注图像I与已标注图像集中每一个已标注图像的融合距离d。由于对待标注图像I提取的特征有多种,并且不同特征的距离计算方式不相同,因此需要对各种特征的距离进行归一化和融合。
近邻图像集获取模块510基于所述待标注图像的多个特征向量的每一个,计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离,对每种特征向量对应的距离进行归一化处理,得到归一化距离dx。归一化的公式为:
其中,dx0表示第x种特征向量计算所得的距离,max{dx0}和min{dx0}分别表示第x种特征向量距离的最大值和最小值。
近邻图像集获取模块510根据每种特征向量在计算所述融合距离中所占的比重,将所述多种特征向量对应的归一化距离进行融合,得到融合距离d。
其中,d为融合距离,wx表示第x种特征向量在计算所述融合距离中所占的比重,dx表示第x种特征对应的归一化距离,n表示特征的种类个数,其中x∈[1,2,..n]。
近邻图像集获取模块510在计算出与所有已标注图像的距离之后,选取融合距离d最小的前k个已标注图像作为待标注图像的视觉近邻图像,形成近邻图像集K,同时以所述近邻图像集K中的近邻图像的标签作为自动标注候选标签集。
计算模块520计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建图像间的视觉依赖矩阵F。
计算模块520通过将所述待标注图像的特征向量fI与重构向量 之间的二次范式值最小,计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值。通过将已标注图像的特征向量 与重构向量 之间的二次范式值最小,计算所述近邻图像集中的每一个图像在其他已标注图像重构过程中的权重值。利用权重值构建视觉依赖矩阵F。
视觉依赖反映的是图像特征向量之间的重构关系。待标注图像I与近邻图像集K中的近邻图像{I1,I2,...,Ik}的特征向量重构关系可以通过最优化下式获得:
其中,fI为待标注图像I的特征向量, 为近邻图像集中的图像Ij的特征向量,j∈[1,2,...k],近邻图像集包括图像{I1,I2,...,Ik},ωj为所述近邻图像集中的图像Ij在所述待标注图像重构过程中的权重值,反映了待标注图像I在视觉上对图像Ij的依赖关系。
令 通过对ε进行如下的变换:
其中,近邻图像集K包括图像{I1,I2,...,Ik},j∈[1,2,...k],ω为由各个权重组成的列向量。在本发明的一个实施例中,通过调用Matlab中的二次规划函数quadprog求解ω向量。矩阵H的第i行第j列的值为
ω向量表示的就是待标注图像对其近邻图像的视觉依赖关系。类似地,可以计算近邻图像集中每一个图像对于其他已标注图像的视觉依赖关系,具体的优化公式如下:
其中, 为近邻图像集中的图像Ij的特征向量, 为近邻图像集中的图像Ih的特征向量,h∈[1,2,...,k]且h≠j。所述近邻图像集包括图像{I1,I2,...,Ik},ωj,h为所述近邻图像集中的图像Ih在所述的近邻图像Ij重构过程中的权重值。公式的最优化过程同样可以由上述的Matlab二次规划函数quadprog求解得到。
计算模块520根据求解出来的所述待标注图像及其近邻图像集对其他已标注图像的视觉依赖关系,可以构造出视觉依赖矩阵F。换言之,根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F,
其中,ω1为近邻图像集中的第一个图像I1在所述待标注图像重构过程中的权重值,ω2为近邻图像集中的第二个图像I2在所述待标注图像重构过程中的权重值,ωk-1为近邻图像集中的第k-1个图像Ik-1在所述待标注图像重构过程中的权重值,ωk为近邻图像集中的第k个图像Ik在所述待标注图像重构过程中的权重值。
ωi,j为所述近邻图像集中的第j个图像Ij在所述近邻图像集中的第i个图像Ii重构过程中的权重值,其中i∈[1,2,...k],j∈[1,2,...k],当i=j时,ωi,j=0。
具体而言,ω1,2为近邻图像集中的第二个图像I2在近邻图像集中的第一个图像I1重 构过程中的权重值,ω1,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第一个图像I1重构过程中的权重值,ω1,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第一个图像I1重构过程中的权重值,ω1,k为近邻图像集中的第k个图像Ik在近邻图像集中的第一个图像I1重构过程中的权重值,ω2,1为近邻图像集中的第一个图像I1在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第二个图像I2重构过程中的权重值,ω2,k为近邻图像集中的第k个图像Ik在近邻图像集中的第二个图像I2重构过程中的权重值,ωk-2,1为近邻图像集中的第一个图像I1在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-2,2为近邻图像集中的第二个图像I2在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-2,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-2,k为近邻图像集中的第k个图像Ik在近邻图像集中的第k-2个图像Ik-2重构过程中的权重值,ωk-1,1为近邻图像集中的第一个图像I1在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,2为近邻图像集中的第二个图像I2在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk-1,k为近邻图像集中的第k个图像Ik在近邻图像集中的第k-1个图像Ik-1重构过程中的权重值,ωk,1为近邻图像集中的第一个图像I1在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,2为近邻图像集中的第二个图像I2在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,k-2为近邻图像集中的第k-2个图像Ik-2在近邻图像集中的第k个图像Ik重构过程中的权重值,ωk,k-1为近邻图像集中的第k-1个图像Ik-1在近邻图像集中的第k个图像Ik重构过程中的权重值。
计算模块520计算近邻图像集中的任意两个图像的共有标签数量,根据所述共有 标签数量和近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C。
计算模块520根据图像间的统计关系估算图像间的标签依赖关系。首先计算所述标签依赖矩阵C的第i行第j列元素Ci,j,Ci,j为图像Ii对图像Ij的标签依赖量,表征图像Ii对Ij的标签依赖关系。
其中,N(Ii,Ij)表示近邻图像集中的图像Ii和图像Ij共有的标签数量,N(Ij)表示已标注图像Ij的标签数量,j∈[1,2,...k],近邻图像集K包括近邻图像{I1,I2,...,Ik},Ii,Ij∈K。当图像Ij的标签全部出现在图像Ii的标签中,则图像Ii对图像Ij的标签依赖关系为100%。
计算模块520根据所述标签依赖量Ci,j构建图像间的标签依赖矩阵C。
融合模块530将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A。
为了表征图像之间的综合依赖关系,融合模块530需要将计算得到的视觉依赖矩阵F和标签依赖矩阵C分别进行行归一化,然后融合,得到综合的图像依赖关系矩阵G。
G=αF+(1-α)C
其中,α为调整因子,表示视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值,并用于决定视觉依赖和标签依赖的权重关系。在本发明的一个示例中,α取0.5左右。融合后的G矩阵需要进行行归一化。
由于图像之间的依赖关系可能存在传播现象,需要通过随机游走(Random Walk)过程使G矩阵中的依赖关系稳定。假设图像间的依赖关系以β的概率向后继结点传播,以(1-β)保留初始的依赖关系,则在随机游走过程中,图像间的依赖关系计算公式如下:
其中,an(i,j)表示第n次随机游走过程中图像Ii对图像Ij的依赖关系,an-1(i,q)表示第n-1次随机游走过程中图像Ii对图像Iq的依赖关系,Gi,j为G矩阵中第i行第j列的元素,表示图像Ii对图像Ij的初始依赖关系,pq,j为图像Iq选择图像Ij作为依赖关系 传播的后继节点的概率。Iq∈K,K为近邻图像集。
由于G矩阵是行归一化的,并且图像间的初始依赖关系也反映了图像选择后继节点的概率,因此,此处的pq,j近似等价于Gq,j,即
改写为矩阵形式如下:
A(n)=βA(n-1)G+(1-β)G
其中A(n)表示第n次随机游走得到的依赖关系矩阵。由于G是随机矩阵,可以证明,A将趋于稳定,由
A=βAG+(1-β)G
可以解出稳定依赖关系矩阵A为:
A=(1-β)G(E-βG)-1
其中G是依赖关系矩阵,E为单位矩阵,β为调整因子,表示依赖关系矩阵G中的依赖关系向后继节点传播的概率。在本发明的一个示例中,β取0.4左右。对稳定依赖关系矩阵A需要进行行归一化。
有向图模型建立模块540以待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A中元素作为有向边上的权重,构建针对所述待标注图像的有向图模型。
计算模块520计算候选标签集中的任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se。
计算模块520计算标签间的词义相似度矩阵Se的第i行第j列元素Sei,j,Sei,j为标签ti和标签tj的词义相似度,其中,ti为候选标签集中的第i个标签,tj为候选标签集中的第j个标签。在本发明的一个示例中,标签ti和标签tj之间的词义相似度Sei,j可以通过基于WordNet的方法估算得到。Sei,j的取值范围为[0,1]。可以理解的是,上述用WordNet仅出于示例的目的,而不是为了限制本发明的保护范围。
计算模块520根据上述得到的词义相似度Sei,j构建所述标签间的词义相似度矩阵Se。
计算模块520计算所述候选标签集中的标签共生关系矩阵Co。标签间的共生关系体现的是标签在统计方面的相似度。
首先,计算模块520计算候选标签集中的标签共生关系矩阵Co的第i行第j列元素Coi,j,Coi,j为标签ti和标签tj之间的共生关系,
其中,ti为候选标签集中的第i个标签,tj为候选标签集中的第j个标签,Nt(ti,tj)表示同时包含标签ti和标签tj的图像的数量,Nt(ti)和Nt(tj)分别表示包含标签ti和标签tj的图像的数量。计算模块520根据上述得到的共生关系Coi,j构建所述标签间的共生关系矩阵Co。
为了表征标签之间的综合相似度,融合模块530需要将标签间的词义相似度矩阵Se和共生关系矩阵Co融合起来,得到综合的标签相似矩阵TT:
TT=γSe+(1-γ)Co
其中γ为调整因子,表示词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值,用于决定词义相似度和共生关系之间的权重关系。在本发明的一个示例中,γ为0.6左右。
随机搜索模块550对近邻图像集获取模块510得到的候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索预测其得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
随机搜索模块550对于每一个候选标签,通过在有向图上的非等概率随机搜索估算其得分。设候选标签ti的得分为r(ti),则其数学期望(即估算公式)为:
其中,Im∈K,K为近邻图像集,p(Im)表示非等概率随机搜索在图像节点Im上返回的概率, 表示从图像Im返回的得分,该得分即为图像节点Im附带的所有标签与候选标签相似度的最大值, 由所述标签相似矩阵TT计算得到,Tag(Im)为Im附带的所有标签。当图像Im包含被预测的候选标签,则返回的得分为1。
下面对概率p(Im)的计算过程进行描述。p(Im)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到的。
p(Im)是通过多次由待标注图像出发的不同深度的非等概率随机搜索过程来估算得到的,其估算公式为:
其中p(Im,d)和p(In,d)分别表示深度为d的随机搜索到达节点Im和节点In的概率。p(Im,d)的估算公式为:
其中p(In,d-1)表示深度为d-1的随机搜索到达节点In的概率, 表示在节点In上深度为d-1的随机搜索不继续搜索后继节点的概率,p(S(In)=Im)表示在节点In上继续搜索后继结点时选中节点Im的概率,该概率值即为A矩阵中的An,m。
a)如果In包含被预测的候选标签,那么必须返回,不再继续搜索,该值为1;
b)如果In不包含被预测的候选标签,那么可以选择不继续搜索而返回,或者继续搜索后继节点,此时估算不继续搜索的概率需要考虑两个因素:停止搜索时返回的置信度δd-1和继续搜索时能返回的期望置信度θd。 的估算公式为:
而
p(S(In)=Iq)=An,q
引入深度为d-1时随机搜索继续搜寻后继节点的前进概率矩阵ψd-1如下所示:
和:深度为d时随机搜索到达各个节点的概率向量Pd:
Pd=(p(I0,d),p(I1,d),...,p(Ik,d))
则上面的公式转化为矩阵形式如下:
Pd=Pd-1ψd-1A。
其中,前进概率矩阵ψd-1的第1行第1列的元素必须为1,表示随机搜索过程不能停止在待标注图像上。
由此可计算任意深度下随机搜索到达各个节点的概率,从而得到:
其中E表示单位矩阵,ψd表示深度为d时随机搜索继续搜寻后继节点的前进概率矩阵,A为稳定依赖关系矩阵,P向量表示随机搜索到达各个节点的概率,由于A矩阵是随机矩阵,故可证明 趋于稳定,从而P值也将趋于稳定。P1是深度为1的随机搜索到达各个图像节点的概率所组成的向量,其估算由以下公式给出:
P1=P0ψ0A
其中ψ0为单位矩阵,P0向量为{0,1}二值向量,且只在待标注图像的位置为1,其他位置均为0,A为图像间的稳定依赖关系矩阵。
在求解P的稳定值时,可设 通过逐渐增加W的取值可最终得到P的近似稳定值。
当|P(W)-P(W-1)|<σ时,P可视为稳定,σ为稳定阈值。在本发明的一个示例中,σ设置在0.01以下。
在求到稳定的P向量之后,则可由 和 估算出每一个标签的得分。
随机搜索模块550通过非等概率随机搜索预测出所有候选标签的得分之后,根据得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
根据本发明实施例的基于有向图非等概率随机搜索的图像自动标注装置,充分合理地利用图像之间的依赖关系和标签之间的相似关系,可以有效地进行图像的自动标注,具有较好的标注效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解为在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。
Claims (20)
1.一种基于有向图非等概率随机搜索的图像自动标注方法,其特征在于,包括如下步骤:
输入待标注图像和已标注图像集,提取所述待标注图像的多个特征向量,根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离,并选取所述融合距离小的前k个已标注图像形成近邻图像集,所述近邻图像集中所有图像的标签作为候选标签集,其中,所述计算待标注图像与已标注图像集中的每一个已标注图像的融合距离,包括如下步骤:
基于所述待标注图像的多个特征向量的每一个,计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离,
对与待标注图像的每种特征向量相对应的距离进行归一化处理,以得到归一化距离dx;
根据所述待标注图像的每种特征向量在计算所述融合距离中所占的比重,将所述多种特征向量对应的归一化距离dx进行融合,得到融合距离d,
其中,d为融合距离,wx表示所述待标注图像的第x种特征向量在计算所述融合距离中所占的比重,dx表示第x种特征对应的归一化距离,n表示所述待标注图像的特征的种类个数,其中x∈[1,2,...n];
计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建视觉依赖矩阵F,计算所述近邻图像集中的任意两个图像的共有标签数量,根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C,将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合和随机游走得到稳定依赖关系矩阵A,以所述待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重,构建针对所述待标注图像的有向图模型;
计算所述候选标签集中的任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se,计算所述候选标签集中任意两个标签间的共生关系矩阵Co,将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT;和
对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
2.如权利要求1所述的图像自动标注方法,其特征在于,所述计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值,包括如下步骤:
其中,fI为待标注图像I的特征向量,为近邻图像集中的图像Ij的特征向量,j∈[1,2,...k],所述近邻图像集包括图像{I1,I2,...,Ik},ωj为所述近邻图像集中的图像Ij在所述待标注图像重构过程中的权重值,K为近邻图像集,
所述计算所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,包括如下步骤:
3.如权利要求2所述的图像自动标注方法,其特征在于,根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F,
其中,ω1为近邻图像集中的第一个图像I1在所述待标注图像重构过程中的权重值,ω2为近邻图像集中的第二个图像I2在所述待标注图像重构过程中的权重值,ωk-1为近邻图像集中的第k-1个图像Ik-1在所述待标注图像重构过程中的权重值,ωk为近邻图像集中的第k个图像Ik在所述待标注图像重构过程中的权重值,
ωi,j为所述近邻图像集中的第j个图像Ij在所述近邻图像集中的第i个图像Ii重构过程中的权重值,其中i∈[1,2,...k],j∈[1,2,...k],当i=j时,ωi,j=0。
4.如权利要求3所述的图像自动标注方法,其特征在于,所述构建标签依赖矩阵C,包括如下步骤:
计算所述标签依赖矩阵C的第i行第j列元素Ci,j,Ci,j为图像Ii对图像Ij的标签依赖量,
其中,N(Ii,Ij)表示近邻图像集中的图像Ii和图像Ij共有的标签数量,N(Ij)表示已标注图像Ij的标签数量,j∈[1,2,...k],近邻图像集K包括近邻图像{I1,I2,...,Ik},Ii,Ij∈K;以及
根据所述标签依赖量Ci,j构建标签依赖矩阵C。
5.如权利要求4所述的图像自动标注方法,其特征在于,所述将视觉依赖矩阵F和所述标签依赖矩阵进行融合并通过随机游走得到稳定依赖关系矩阵A,包括如下步骤:
将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合得到依赖关系矩阵G,
G=αF+(1-α)C
其中,α为视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值;
对所述依赖关系矩阵G进行随机游走,得到稳定依赖关系矩阵A,
A=(1-β)G(E-βG)-1,
其中,G为依赖关系矩阵,E为单位矩阵,β为所述依赖关系矩阵G中的每个权重值向后继节点传播的概率。
6.如权利要求5所述的图像自动标注方法,其特征在于,所述构建针对所述待标注图像的有向图模型,包括如下步骤:
以所述待标注图像和所述近邻图像集中的每一个图像作为节点,所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边上的权重,构建针对所述待标注图像的有向图模型。
7.如权利要求1所述的图像自动标注方法,其特征在于,所述构建标签间的词义相似度矩阵Se,包括如下步骤:
计算所述标签间的词义相似度矩阵Se的第i行第j列元素Sei,j,Sei,j为标签ti和标签tj的词义相似度,其中,ti为第i个候选标签,tj为第j个候选标签;以及
根据所述词义相似度Sei,j构建所述标签间的词义相似度矩阵Se。
8.如权利要求7所述的图像自动标注方法,其特征在于,所述计算所述候选标签集中任意两个标签间的共生关系矩阵Co,包括如下步骤:
计算所述任意两个标签间的共生关系矩阵Co的第i行第j列元素Coi,j,Coi,j为标签ti和标签tj之间的共生关系,
其中,ti为第i个候选标签,tj为第j个候选标签,Nt(ti,tj)表示同时包含标签ti和标签tj的图像的数量,Nt(ti)和Nt(tj)分别表示包含标签ti和标签tj的图像的数量;以及
根据所述共生关系Coi,j构建所述候选标签集中的标签间的共生关系矩阵Co。
9.如权利要求8所述的图像自动标注方法,其特征在于,所述将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT,
TT=γSe+(1-γ)Co,
其中,γ为所述词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值。
11.一种基于有向图非等概率随机搜索的图像自动标注装置,其特征在于,包括:
近邻图像集获取模块,所述近邻图像集获取模块用于接收待标注图像和已标注图像集,提取所述待标注图像的多个特征向量,根据所述多个特征向量计算所述待标注图像与所述已标注图像集中的每一个已标注图像的融合距离,并选取所述融合距离小的前k个已标注图像形成近邻图像集,所述近邻图像集中所有图像的标签作为候选标签集,其中,所述近邻图像集获取模块基于所述待标注图像的多个特征向量的每一个,计算所述待标注图像与所述每一个已标注图像的对应特征向量的距离,对与待标注图像的每种特征向量相对应的距离进行归一化处理,以得到归一化距离dx;根据所述待标注图像的每种特征向量在计算所述融合距离中所占的比重,将所述多种特征向量对应的归一化距离dx进行融合,得到融合距离d,
其中,d为融合距离,wx表示所述待标注图像的第x种特征向量在计算所述融合距离中所占的比重,dx表示第x种特征对应的归一化距离,n表示所述待标注图像的特征的种类个数,其中x∈[1,2,...n];
计算模块,所述计算模块用于计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值以及所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,根据所述权重值构建视觉依赖矩阵F,计算所述近邻图像集中的任意两个图像的共有标签数量,根据所述共有标签数量和所述近邻图像集中的每一个图像的标签数量构建标签依赖矩阵C,并且计算所述候选标签集中的任意两个标签的词义相似度,根据所述标签词义相似度构建标签间的词义相似度矩阵Se,计算所述候选标签集中的任意两个标签间的共生关系矩阵Co;
融合模块,所述融合模块用于将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合并通过随机游走得到稳定依赖关系矩阵A,以及将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT;
有向图模型建立模块,所述有向图模型建立模块用于以所述待标注图像和近邻图像集中的每一个图像作为节点,以所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边的权重,构建针对所述待标注图像的有向图模型;和
随机搜索模块,所述随机搜索模块用于对所述候选标签集中的每一个候选标签在所述有向图模型进行非等概率随机搜索以获得所述每一个候选标签的得分,按照所述得分对所有候选标签进行排序,将得分高的前u个候选标签作为标注结果。
12.如权利要求11所述的图像自动标注装置,其特征在于,所述计算模块通过使得所述待标注图像的特征向量fI与重构向量之间的二次范式值最小,计算所述近邻图像集中的每一个图像在所述待标注图像重构过程中的权重值,
其中,fI为待标注图像I的特征向量,为近邻图像集中的图像Ij的特征向量,j∈[1,2,...k],所述近邻图像集包括图像{I1,I2,...,Ik},ωj为所述近邻图像集中的图像Ij在所述待标注图像重构过程中的权重值,K为近邻图像集,
所述计算模块计算所述近邻图像集中的每一个已标注图像在所述近邻图像集中的其他已标注图像重构过程中的权重值,包括如下步骤:
13.如权利要求12所述的图像自动标注装置,其特征在于,根据所述待标注图像及所述近邻图像集中的每一个图像在重构过程中的权重值构建视觉依赖矩阵F,
其中,ω1为近邻图像集中的第一个图像I1在所述待标注图像重构过程中的权重值,ω2为近邻图像集中的第二个图像I2在所述待标注图像重构过程中的权重值,ωk-1为近邻图像集中的第k-1个图像Ik-1在所述待标注图像重构过程中的权重值,ωk为近邻图像集中的第k个图像Ik在所述待标注图像重构过程中的权重值,
ωi,j为所述近邻图像集中的第j个图像Ij在所述近邻图像集中的第i个图像Ii重构过程中的权重值,其中i∈[1,2,...k],j∈[1,2,...k],当i=j时,ωi,j=0。
14.如权利要求13所述的图像自动标注装置,其特征在于,所述计算模块计算所述标签依赖矩阵C的第i行第j列元素Ci,j,Ci,j为图像Ii对图像Ij的标签依赖量,
其中,N(Ii,Ij)表示近邻图像集中的图像Ii和图像Ij共有的标签数量,N(Ij)表示已标注图像Ij的标签数量,j∈[1,2,...k],近邻图像集K包括近邻图像{I1,I2,...,Ik},Ii,Ij∈K;所述计算模块根据所述标签依赖量Ci,j构建标签依赖矩阵C。
15.如权利要求14所述的图像自动标注装置,其特征在于,所述融合模块将所述视觉依赖矩阵F和所述标签依赖矩阵C进行融合得到依赖关系矩阵G,
G=αF+(1-α)C
其中,α为视觉依赖关系矩阵F在计算依赖关系矩阵G中的权重值;
所述融合模块对所述依赖关系矩阵G进行随机游走,得到稳定依赖关系矩阵A,
A=(1-β)G(E-βG)-1,
其中,G为依赖关系矩阵,E为单位矩阵,β为所述依赖关系矩阵G中的每个权重值向后继节点传播的概率。
16.如权利要求15所述的图像自动标注装置,其特征在于,所述有向图模型建立模块以所述待标注图像和所述近邻图像集中的每一个图像作为节点,所述稳定依赖关系矩阵A的元素作为与所述节点相关联的有向边上的权重,构建针对所述待标注图像的有向图模型。
17.如权利要求11所述的图像自动标注装置,其特征在于,所述计算模块计算所述标签间的词义相似度矩阵Se的第i行第j列元素Sei,j,Sei,j为标签ti和标签tj的词义相似度,其中ti为第i个候选标签,tj为第j个候选标签;所述计算模块根据所述词义相似度Sei,j构建所述标签间的词义相似度矩阵Se。
18.如权利要求17所述的图像自动标注装置,其特征在于,所述计算模块计算所述标签间的任意两个共生关系矩阵Co的第i行第j列元素Coi,j,Coi,j为标签ti和标签tj之间的共生关系,
其中,ti为第i个候选标签,tj为第j个候选标签,Nt(ti,tj)表示同时包含标签ti和标签tj的图像的数量,Nt(ti)和Nt(tj)分别表示包含标签ti和标签tj的图像的数量;所述计算模块根据所述共生关系Coi,j构建所述候选标签集中的标签共生关系矩阵Co。
19.如权利要求18所述的图像自动标注装置,其特征在于,所述融合模块将所述词义相似度矩阵Se和标签间的共生关系矩阵Co进行融合得到标签相似矩阵TT,
TT=γSe+(1-γ)Co,
其中,γ为所述词义相似度矩阵Se在计算所述标签相似矩阵TT中的权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110147033 CN102298605B (zh) | 2011-06-01 | 2011-06-01 | 基于有向图非等概率随机搜索的图像自动标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110147033 CN102298605B (zh) | 2011-06-01 | 2011-06-01 | 基于有向图非等概率随机搜索的图像自动标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102298605A CN102298605A (zh) | 2011-12-28 |
CN102298605B true CN102298605B (zh) | 2013-04-17 |
Family
ID=45359025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110147033 Active CN102298605B (zh) | 2011-06-01 | 2011-06-01 | 基于有向图非等概率随机搜索的图像自动标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102298605B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845424A (zh) * | 2017-11-15 | 2018-03-27 | 海南大学 | 诊断信息处理分析的方法和系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799614B (zh) * | 2012-06-14 | 2015-01-07 | 北京大学 | 基于视觉词语空间共生性的图像检索方法 |
CN103218460B (zh) * | 2013-05-14 | 2016-08-10 | 清华大学 | 基于最优线性稀疏重构的图像标签补全方法 |
CN103473275A (zh) * | 2013-08-23 | 2013-12-25 | 中山大学 | 一种采用多特征融合的图像自动标注方法和系统 |
CN106202051B (zh) * | 2016-07-19 | 2019-01-29 | 华南理工大学 | 基于有向有权图发现新词的方法 |
CN106815351A (zh) * | 2017-01-18 | 2017-06-09 | 腾讯科技(深圳)有限公司 | 一种标签推荐方法及服务器 |
CN110019905B (zh) * | 2017-10-13 | 2022-02-01 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN110019907B (zh) * | 2017-12-01 | 2021-07-16 | 北京搜狗科技发展有限公司 | 一种图像检索方法及装置 |
CN110413821A (zh) * | 2019-07-31 | 2019-11-05 | 四川长虹电器股份有限公司 | 数据标注方法 |
CN110516092B (zh) * | 2019-09-02 | 2020-12-01 | 中国矿业大学(北京) | 一种基于k近邻和随机游走算法的图像自动标注方法 |
CN111080551B (zh) * | 2019-12-13 | 2023-05-05 | 太原科技大学 | 基于深度卷积特征和语义近邻的多标签图像补全方法 |
CN112052356B (zh) * | 2020-08-14 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 多媒体分类方法、装置和计算机可读存储介质 |
CN112598686B (zh) * | 2021-03-03 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN117218396A (zh) * | 2023-10-08 | 2023-12-12 | 深圳海角兰科技有限公司 | 基于大模型的视觉样本数据自动标注方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
CN101963995A (zh) * | 2010-10-25 | 2011-02-02 | 哈尔滨工程大学 | 基于特征场景的图像标注方法 |
-
2011
- 2011-06-01 CN CN 201110147033 patent/CN102298605B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419606A (zh) * | 2008-11-13 | 2009-04-29 | 浙江大学 | 一种基于语义和内容的半自动图像标注方法 |
CN101963995A (zh) * | 2010-10-25 | 2011-02-02 | 哈尔滨工程大学 | 基于特征场景的图像标注方法 |
Non-Patent Citations (2)
Title |
---|
G. Ding等.Semantic classifier based on compressed sensing for image and video annotation.《ELECTRONICS LETTERS》.2010, |
Semantic classifier based on compressed sensing for image and video annotation;G. Ding等;《ELECTRONICS LETTERS》;20100331;全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845424A (zh) * | 2017-11-15 | 2018-03-27 | 海南大学 | 诊断信息处理分析的方法和系统 |
CN107845424B (zh) * | 2017-11-15 | 2021-11-16 | 海南大学 | 诊断信息处理分析的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102298605A (zh) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102298605B (zh) | 基于有向图非等概率随机搜索的图像自动标注方法及装置 | |
CN102298606B (zh) | 基于标签图模型随机游走的图像自动标注方法及装置 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
WO2018196561A1 (zh) | 应用的标签信息生成方法、装置及存储介质 | |
Stein et al. | Intrinsic plagiarism analysis | |
Singh et al. | Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches | |
US9009134B2 (en) | Named entity recognition in query | |
CN102508923B (zh) | 基于自动分类和关键字标注的自动视频注释方法 | |
JP5886733B2 (ja) | 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム | |
US20080319973A1 (en) | Recommending content using discriminatively trained document similarity | |
CN113553429B (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN103299324A (zh) | 使用潜在子标记来学习用于视频注释的标记 | |
CN110175246A (zh) | 一种从视频字幕中提取概念词的方法 | |
Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
Laere et al. | Georeferencing wikipedia documents using data from social media sources | |
CN107239564A (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN111143517B (zh) | 人选标签预测方法、装置、设备和存储介质 | |
Melo et al. | Geocoding textual documents through the usage of hierarchical classifiers | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Sakahara et al. | Domain-independent unsupervised text segmentation for data management | |
Patwardhan et al. | ViTag: Automatic video tagging using segmentation and conceptual inference | |
Berrahou et al. | How to extract unit of measure in scientific documents? | |
Xie et al. | Construction of unsupervised sentiment classifier on idioms resources | |
Kumar et al. | Scene graph generation using depth, spatial, and visual cues in 2D images | |
Velivelli et al. | Automatic video annotation by mining speech transcripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220711 Address after: 501-3, building 3, No. 1390, cangxing street, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province, 311100 Patentee after: Qingruan micro vision (Hangzhou) Technology Co.,Ltd. Address before: 100084-82 box 100084, Beijing, Haidian District Patentee before: TSINGHUA University |