CN105701516B

CN105701516B - 一种基于属性判别的自动图像标注方法

Info

Publication number: CN105701516B
Application number: CN201610036626.7A
Authority: CN
Inventors: 柯逍; 周铭柯; 杜明智
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2019-01-22
Anticipated expiration: 2036-01-20
Also published as: CN105701516A

Abstract

本发明涉及一种基于属性判别的自动图像标注方法：针对数据集不均衡导致整体标注效果不理想的问题，提出一种基于属性判别的图像标注方法，利用每一个关键词的语义概念构建局部均衡数据集，并基于此数据集提出一种有效提升中低频标签标注准确率的语义传播算法。最后结合栈式自动编码器模型，通过判别图像的高低频属性来选择不同标注过程，提升了整体图像标注效果。该方法利用SAE模型较好预测高频标签和SP算法较好预测中低频标签的特点，通过判别未知图像的高低频属性来选择不同的标注过程，提升了整个模型的标注效果，该方法简单灵活，具有较强的实用性。

Description

一种基于属性判别的自动图像标注方法

技术领域

本发明涉及模式识别与计算机视觉领域，特别是一种基于属性判别的自动图像标注方法。

背景技术

随着多媒体影像技术快速发展，互联网上图像信息呈爆炸性增长。这些数字图像的应用非常广泛，如商业、新闻媒体、医学、教育等方面。因此，如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是图像检索和自动图像标注技术。

自动图像标注是指自动给图像添加若干关键词来表示图像的语义内容。自动图像标注可以利用已标注的图像集，自动学习语义概念空间与视觉特征空间的关系模型，并用此模型标注未知语义的图像。一方面，自动图像标注试图给高层语义特征和底层视觉特征之间建立一座桥梁，因此，它可以一定程度解决大多数基于内容图像检索方法存在的语义鸿沟问题，并且具有较好的客观性。另一方面，自动图像标注可以生成与图像内容相关的文字信息，具有更好的准确性。如果能实现自动图像标注，那么现有的图像检索问题实际上可以转化成较成熟的文本检索问题。因此，图像自动标注技术可以很方便地实现基于关键字的图像检索，符合人们的检索习惯。总的来说，自动图像标注涉及计算机视觉、机器学习、信息检索等多方而的内容，具有很强的研究价值和潜在的商业应用，如图像分类、图像检索、图像理解以及智能图像分析等。

根据现有自动图像标注方法的主要实现特点，可以分为两类：基于概率统计的标注方法和基于机器学习的标注方法。基于概率统计的方法虽然可以很方便的扩展到大数据集，但总体标注效果不够理想。基于机器学习的方法，一旦模型训练完毕，就可以进行快速标注，然而大部分图像标注方法都仅用一个模型预测所有的测试图像，只要模型训练好了，每一张测试图片的结果就已经确定了。即便对模型进行了改进，测试效果好的还是原先效果好的那些图片，原本效果不好的图片，改进模型后测试效果还是不够理想。针对这种情况，我们提出了一种基于属性判别的方法。即，在测试每一张图片时，先判断这张图片适合用哪一种模型测试，然后再用最合适的模型进行预测。

发明内容

本发明的目的在于提供一种基于属性判别的自动图像标注方法，以克服现有技术中存在的缺陷，并解决针对多对象多标签的自动图像标注问题。

为实现上述目的，本发明的技术方案是：一种基于属性判别的自动图像标注方法，按照如下步骤实现：

步骤S1：根据每一个关键词对训练集划分语义组，构造未知图像的局部均衡数据集；

步骤S2：利用整个训练集训练栈式自动编码器，获取栈式自动编码器模型；

步骤S3：利用所述局部均衡数据集训练语义重播模型；

步骤S4：从所述语义组中获得全局词频信息，从所述局部均衡数据集中获得局部词频信息，对所述全局词频信息以及所述局部词频信息取交集对未知图像进行属性判别；若判别未知图像为高频属性，则通过所述栈式自动编码器模型预测关键词；若判别未知图像为低频属性，则通过所述语义传播模型预测关键词。

在本发明一实施例中，在所述步骤S1中，通过如下步骤构造所述局部均衡数据集：

步骤S11：划分每一个标签所包含的所有图像为一个语义组，对于每一幅测试图像I，从每一个语义组中选取n幅与所述测试图像I视觉相似度最高的图像构造子训练集；

步骤S12：把每一幅选出来的图像作为一个图像对象，且仅表示一个语义概念，即其所在语义组的语义概念，所述测试图像I的子训练集包含所有关键词，并且每个关键词的出现频次一致，进而得到局部均衡数据集。

在本发明一实施例中，在所述步骤S2中，还包括如下步骤：

步骤S21：定义编码器f_θ以及解码器g_θ'；所述编码器f_θ将输入图像x转换为隐层表达h；所述解码器g_θ'将所述隐层表达h重构为与所述输入图像x维度一致的向量x'；其中，f_θ(x)＝σ(W·x+b)，θ＝{W,b}，W为网络权重，满足W'＝W^T，b为偏置向量，为激活函数；θ'＝{W',b'}；

步骤S22：学习一个函数使输出x'＝g_θ'(f_θ(x))与x近似，且定义损失函数为L(x,x')＝(x-x')²，并通过最小化损失函数进行学习：

步骤S23：记用于图像标注的栈式自动编码器模型有L层，并用序号l∈{1,...,L}表示，用h^l表示第l层的输出向量，W^l和b^l表示第l层的网络权重和偏置，通过自动编码器对{W^l,b^l}以及l∈{1,...,L}逐层预训练；

步骤S24：执行前馈过程并用后向传播算法调优；所述栈式自动编码器模型的前馈操作表述为：h^l+1＝σ(W^l+1h^l+b^l+1)，l∈{0,...,L-1}；所述栈式自动编码器模型的后向传播算法调优表述为：其中，是多个自动编码器模型的合成函数，θ_l为参数{W^l,b^l}，l∈{1,...,L}，损失函数为L(x,y)＝(x-y)²；当模型训练好后，所述栈式自动编码器模型的最后一层的输出即为预测图像的关键词的预测分布D。

在本发明一实施例中，在所述步骤S3中，还包括如下步骤：

步骤S31：构建语义传播求解模型，令G＝{(y₁,X₁),(y₂,X₂),...,(y_M,X_M)}，y_i表示关键词，X_i表示每一个关键词以及该关键词所包含的所有图像，X_i和X_j中的图像可重复，i,j∈{1,...,M},i≠j；用条件概率P(x|y_i)建立给定关键词y_i∈Y的输入图像x的特征分布，将图像标注转化为求解后验概率的问题：其中，P(y_i)和P(x)为先验概率，取固定值；对于测试图像I，其最佳标签为：

步骤S32：求解传播模型的后验概率，令G_i＝(y_i,X_i)，对于测试图像I，从G_i中的X_i中挑选n幅与测试图像I视觉距离最近的图像构成子集每一个集合G_I,i是测试图像I对应于标签y_i的语义组；确定G_I,i后，合并为一个集合G_I＝{G_I,1∪...∪G_I,M}，且各G_I,i间的关键词不同，但有相同的图像，得到进而针对测试图像I的局部均衡数据集

步骤S33：在集合G_I中的每一个关键词都将出现n次，定义给定标签y_k∈Y的图像I的后验概率：其中，P(y_k|x_i)∈{0,1}表示当图像x_i所在语义组G_I,i的语义概念等于标签y_k时为1，否则为0，表示图像x_i的权重，并按如下方式计算：其中，Dis(I,x_i)表示图像I和x_i间的欧式距离。

在本发明一实施例中，在所述步骤S4中，还包括如下步骤：

步骤S41：问题定义，对于一幅测试图像I，构造标签出现次数均匀的局部均衡数据集G_I，再从该局部均衡数据集中G_I取m幅与测试图像I距离最近的图像包括且包含的图像幅数为m；将表示为N维向量当时，表示包含图像x_j，当时，表示不包含图像x_j；

步骤S42：建立未知图像的预测分布D：

其中，ε为常系数，用于控制图像I的属性的判别；φ(y_i)用于判定在集合P中关键词是否属于高频关键词，并定义如下：

其中，c_i表示第i个关键词的出现次数，η为常系数，当φ(y_i)＝1时，表示y_i在P中为高频关键词，当φ(y_i)＝0时，则相反；

用于判定在集合中关键词是否属于高频关键词，并定义如下：

其中，τ为常系数，当时，表示y_i在中为高频关键词，当时，则相反；若与测试图像I距离最近的m个邻居中(m可取M的倍数，比如，m＝1·M,2·M,...)，含高频词的邻居超过了一定的比例，即(ε一般取3或4)，则测试图像I的预测结果由SAE(x)决定，反之，测试图像I的预测结果由决定。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于属性判别的自动图像标注方法，利用SAE深度神经网络强大的特征表达能力，本专利基于对自动图像标注、局部语义传播、图像集高低词频特点和栈式自动编码器的认识，提出针对图像数据集标签不平衡、单个标注模型标注效果差等问题的属性判别的自动图像标注方法，最后得到一种概率统计和判别分类融合的自动图像标注模型，特别是一种基于属性判别的自动图像标注方法。该方法简单，实现灵活，实用性较强。

附图说明

图1为本发明基于属性判别的自动图像标注方法的流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供一种基于属性判别的自动图像标注方法，如图1所示，针对数据集不均衡导致整体标注效果不理想的问题，提出一种基于属性判别的图像标注方法，利用每一个关键词的语义概念构建局部均衡数据集，并基于此数据集提出一种有效提升中低频标签标注准确率的语义传播算法(Semantic Propagation，SP)。最后结合栈式自动编码器(Stacked Auto-Encoder，SAE)模型，通过判别图像的高低频属性来选择不同标注过程，提升了整体图像标注效果。具体步骤如下：

S1：根据每一个关键词对训练集划分语义组，构造未知图像的局部均衡数据集；

S2：利用整个训练集训练栈式自动编码器(SAE)；

S3：利用局部均衡数据集训练语义重播模型(SP)；

S4：分别从语义组和局部均衡数据集获得全局词频信息和局部词频信息，对全局高频词信息和局部高频词信息取交集进行未知图像的属性判别，若判别未知图像为高频属性，则用步骤S2训练好的SAE模型预测关键词；若判别未知图像为低频属性，则用步骤S3训练好的语义传播模型预测关键词。

进一步的，在本实施例中，在步骤S1中，构造局部均衡数据集还包括如下过程：划分每一个标签所包含的所有图像为一个语义组(不同语义组间允许有相同的图像)，对于每一幅测试图像I，从每一个语义组中选取n幅和图像I视觉相似度最高的图像构造子训练集。并且把每一幅选出来的图像看成一个图像对象，仅表示一个语义概念，即它所在语义组的语义概念。因此，图像I的子训练集包含所有关键词，并且每个关键词的出现频次一致，得到了局部均衡数据集。

进一步的，在本实施例中，在步骤S2中训练SAE模型，按照以下步骤实现：

步骤S21：定义编码器f_θ和解码器g_θ'，编码器f_θ将输入图像x转换为隐层表达h，解码器g_θ'将h重构为和x维度一致的向量x'。f_θ(x)＝σ(W·x+b)，其中，θ＝{W,b}，W为网络权重，满足W'＝W^T，b为偏置向量，为激活函数。其中，θ'＝{W',b'}。

步骤S22：学习一个函数使输出x'＝g_θ'(f_θ(x))和x近似，定义损失函数为L(x,x')＝(x-x')²，则该模型可通过最小化损失函数进行学习：

步骤S23：执行前馈过程并用后向传播算法调优，假设用于图像标注的SAE模型有L 层，用序号l∈{1,...,L}表示。用h^l表示第l层的输出向量(h⁰＝x表示输入，h^L表示输出)。W^l 和b^l表示第l层的网络权重和偏置。根据前面所述，{W^l,b^l}，l∈{1,...,L}使用AE逐层预训练。SAE的前馈操作可以表述为：h^l+1＝σ(W^l+1h^l+b^l+1)，l∈{0,...,L-1}，整个模型用后向传播算法调优：其中，是多个AE模型的合成函数，而θ_l为参数{W^l,b^l}，l∈{1,...,L}，损失函数定义为L(x,y)＝(x-y)²，当模型训练好后，SAE的最后一层的输出即为预测图像的关键词的预测分布D。

进一步的，在本实施例中，在步骤S3中训练SP模型按照以下步骤实现：

步骤S31：构建语义传播求解模型，令G＝{(y₁,X₁),(y₂,X₂),...,(y_M,X_M)}，y_i表示关键词，X_i表示每一个关键词和该关键词所包含的所有图像，X_i和X_j中的图像可重复，i,j∈{1,...,M},i≠j。用条件概率P(x|y_i)建立给定关键词y_i∈Y的图像x的特征分布。这样，将图像标注转化为求解后验概率的问题：其中，P(y_i)和P(x)为先验概率，取固定值。因此，对于测试图像I，它的最佳标签可这样得到：

步骤S32：求解传播模型的后验概率，令G_i＝(y_i,X_i)，对于测试图像I，从G_i中的X_i中挑选n幅和I视觉距离最近的图像构成子集每一个集合G_I,i是图像I对应于标签y_i的语义组。一旦G_I,i确定后，将它们合并为一个集合G_I＝{G_I,1∪...∪G_I,M}，各G_I,i间的关键词不同，但可以有相同的图像。通过这一方法，我们得到一个针对图像I的局部均衡数据集这样就容易知道，在集合G_I中的每一个关键词都将出现n次(G_I,i中的图像数少于n的情况除外)。定义给定标签y_k∈Y的图像I的后验概率：其中，P(y_k|x_i)∈{0,1}表示当图像x_i所在语义组G_I,i的语义概念等于标签y_k时为1，否则为0，表示图像x_i的权重，按如下方式计算：其中，Dis(I,x_i)表示图像I和x_i间的欧式距离。

进一步的，在本实施例中，在步骤S4中判别未知图像属性按照以下步骤实现：

步骤S41：问题定义，对于一幅测试图像I，构造标签出现次数均匀的局部均衡数据集G_I，再从G_I取m幅和I距离最近的图像需要注意的是，可能为(因为从G_I中取出的m幅图像，可能都不包含在中)，且包含的图像幅数为m。为了讨论方便，将表示成N维向量当时，表示包含图像x_j，当时，表示不包含图像x_j。

步骤S42：建立未知图像的预测分布D：

其中，ε为常系数，用于控制图像I的属性的判别，φ(y_i)用于判定在集合P中哪些关键词属于高频关键词，哪些不属于，定义如下：

其中，c_i表示第i个关键词的出现次数，η为常系数，当φ(y_i)＝1时，表示y_i在P中为高频关键词，当φ(y_i)＝0时，则相反。用于判定在集合中哪些关键词属于高频关键词，哪些不属于，定义如下：

其中，τ为常系数，当时，表示y_i在中为高频关键词，当时，则相反。由此可知，若和图像I距离最近的m个邻居中，m可取M的倍数，比如，m＝1·M,2·M,...，含高频词的邻居超过了一定的比例，即ε一般取3或4，则图像I的预测结果由SAE(x)决定，反之，图像I的预测结果由决定。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于属性判别的自动图像标注方法，其特征在于，按照如下步骤实现：

步骤S3：利用所述局部均衡数据集训练语义传播模型；

步骤S4：从所述语义组中获得全局词频信息，从所述局部均衡数据集中获得局部词频信息，对所述全局词频信息以及所述局部词频信息取交集对未知图像进行属性判别；若判别未知图像为高频属性，则通过所述栈式自动编码器模型预测关键词；若判别未知图像为低频属性，则通过所述语义传播模型预测关键词；

在所述步骤S3中，还包括如下步骤：

2.根据权利要求1所述的一种基于属性判别的自动图像标注方法，其特征在于，在所述步骤S1中，通过如下步骤构造所述局部均衡数据集：

3.根据权利要求1所述的一种基于属性判别的自动图像标注方法，其特征在于，在所述步骤S2中，还包括如下步骤：

4.根据权利要求1所述的一种基于属性判别的自动图像标注方法，其特征在于，在所述步骤S4中，还包括如下步骤：

步骤S42：建立未知图像的预测分布D：

其中，τ为常系数，当时，表示y_i在中为高频关键词，当时，则相反；若与测试图像I距离最近的m个邻居中，m取M的整数倍，含高频词的邻居超过了一定的比例，即则测试图像I的预测结果由SAE(x)决定，反之，测试图像I的预测结果由决定。