CN106570910A

CN106570910A - 基于自编码特征和近邻模型的图像自动标注方法

Info

Publication number: CN106570910A
Application number: CN201610944327.3A
Authority: CN
Inventors: 徐国清; 袁博; 徐春雨; 靳冰; 贾玉珍
Original assignee: Nanyang Institute of Technology
Current assignee: Nanyang Institute of Technology
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2017-04-19
Anticipated expiration: 2036-11-02
Also published as: CN106570910B

Abstract

本发明涉及一种图像理解领域的标注建模方法，具体是一种基于自编码特征和近邻模型的图像自动标注方法，利用可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征的融合作为图像视觉特征向量，并对视觉特征向量使用深度自编码机进行图像编码，提出近邻方法，使用图像编码特征对测试图像进行自动标注，使用深度学习算法获得图像自编码特征，基于图像自编码特征使用近邻模型实现图像自动标注，获得较高的标注准确性。

Description

基于自编码特征和近邻模型的图像自动标注方法

技术领域

本发明涉及一种图像理解领域的标注建模方法，具体是一种基于自编码特征和近邻模型的图像自动标注方法。

背景技术

在现有技术中，自动图像标注的目标是根据图像内容生成可直观理解的文本语言来描述图像，在图像理解、目标识别、基于语义关键字的图像检索中起着至关重要的作用。自动图像标注的关键在于有效的建立从图像的低层特征到高层语义的映射关系。现有的映射方法重点研究以下是三个方面：一是提取合适的图像低层视觉特征；二是建立图像内容的语义描述方法；三是提供有效的语义映射的方法，建立低层视觉特征到语义描述的映射。

现有技术中的自动图像标注方法分为三大类：一类是基于分类的图像标注方法；二是关联图像和语义的建模方法；三是基于近邻的图像标注方法。这些方法还可以借助相关反馈技术和网络元数据对标注进行改善，但这些模型多属于浅层结构，近年来随着深度学习的发展，一些有效的深度学习模型被用于图像识别，可取得更准确的标注结果。

发明内容

针对利用自编码机对图像特征进行编码，然后使用近邻模型找出测试图像的近邻图像，根据近邻图像的原始标注获得测试图像标注结果，本发明提供基于自编码特征和近邻模型的图像自动标注方法。

本发明的具体技术方案如下：基于自编码特征和近邻模型的图像自动标注方法，包括以下步骤：

A:提取图像库中图像的可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征，获得每幅图像的低层融合特征向量；

B:利用深度自动编码机对图像库所有图像的融合特征向量进行自编码，获得相应的自编码特征；

C:对测试图像根据自编码特征找到28个近邻训练图像，利用该组近邻训练图像的语义标注采用近邻模型完成测试图像自动标注。

步骤A进一步包括：

A1:提取一幅图像的网格颜色矩特征；

A2：提取一幅图像的可伸缩颜色特征；

A3：提取一幅图像的边缘直方图特征；

A4：提取一幅图像的同质纹理特征；

A5：提取一幅图像的小波矩图特征。

步骤A1进一步包括：

A1.1：将图像均匀分割成5行5列共25个小块；

A1.2：对每个小块，计算YUV颜色空间下三个颜色分量的一阶矩、二阶矩和三阶矩；

A1.3：由所有小块的三个矩构成网格颜色矩描述子，大小为225维。

步骤A2进一步包括：

A2.1：将HSV颜色空间下图像的H、S和V分量的取值分别均匀量化为16、4、4个等级，S和V分量的取值范围均匀量化为4个等级，共形成16×4×4＝256种组合；

A2.2：统计每种组合中包含的像素个数，得到图像的像素直方图；

A2.3：对所得的像素直方图进行Haar变换，变换系数作为可伸缩颜色颜色特征。

步骤A3进一步包括：

A3.1：将图像变换为灰度图并均匀分割成4行4列共16个图像块；

A3.2：对每个图像块，统计其包含8×8像素子块的个数，并将每个子块归为水平、竖直、45°边缘、135°边缘和无方向边缘五类之一；

A3.3：由16个图像块的边缘直方图合并为80维的边缘直方图特征。

步骤A4进一步包括：

A4.1：计算图像像素的均值和方差；

A4.2：对图像依次进行radon变换和傅里叶变换，并利用Gabor滤波器组提取频域特征，Gabor变换函数如下：

其中s＝5，r＝6，上式即第s个径向第r个角度的Gabor变换函数，分别表示在第s个径向与第r个角度上变换函数的标准差；

A4.3：针对第i个滤波器变换计算:

e_i＝log[1+p_i]

d_i＝log[1+q_i]

其中：

F(ω,θ)为图像的傅里叶变换。

步骤A5进一步包括：

A5.1：在极坐标下的图像表示f(r,θ)进行角度积分，如下所示：

S_q(r)＝∫_θf(r,θ)e^jqθdθ

其中参数q取值范围为1-9；

A5.2：构造小波函数族：

φ_m,n(r)＝2^m/2φ(2^mr-n/2)

其中m取值为0或1；n＝0,1,…,2^m+1，且：

参数a＝0.697066；c＝3；f₀＝0.409177；σ²＝0.561145；

A5.3：利用上A5.2小波函数进行积分计算

W_mnq＝∫_rφ_m,n(r)rS_q(r)dr

所得72维数据即为同质纹理特征。

每幅图像的可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征组合成一个695维向量作为该图像的视觉特征。

步骤B进一步包括：自动编码机使用多层神经网络将高维输入向量转换为低维编码，使用的自动编码机将权利要求7中获得的695维图像视觉特征作为输入；

所述自动编码机共包含4个限制玻尔兹曼机，第一个限制玻尔兹曼机所学习的特征作为输入用于训练中第二个限制玻尔兹曼机，第二个限制玻尔兹曼机所学习的特征作为输入用于训练中第三个限制玻尔兹曼机，第三个限制玻尔兹曼机所学习的特征作为输入用于训练中第四个限制玻尔兹曼机；4个限制玻尔兹曼机输入输出大小依次为695×8000、8000×2000、2000×400和400×30；

所述自编码机使用误差导数的反向传播进行细调，使用细调后的权重矩阵计算每幅图像的30维自编码特征。

步骤C进一步包括：根据步骤B的自编码特征计算出其与已标注训练图像之间的距离，以确定测试图像的近邻图像集合；

设I_i表示训练图像库T中第i幅图像，采用余弦距离度量图像I_i和I_t之间的距离，并将距离从小到大进行排序，取距离最小的前28幅图像作为I_t的近邻图像集合，利用近邻图像的原始标注关键字标注测试图像，计算方法为：

其中P(w/I_t)为测试图像I_t标注关键字w的概率，N＝28表示紧邻图像个数为28幅，d_ti表示测试图像I_t与第i幅近邻图像的余弦距离，p_wi表示第i幅近邻图像标注了关键字w的次数，根据上式计算出每个关键字标注测试图像I_t的概率，测试图像的标注结果为具有最大标注概率的五个关键字。

本发明的有益之处：

1、在使用包括了颜色、纹理和形状的可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征五种视觉特征表示图像基础上，使用深度学习模型获得图像自编码特征；

2、基于图像自编码特征使用近邻模型实现图像自动标注，获得较高的标注准确性。

附图说明

图1为基于自编码特征和近邻模型的图像自动标注流程；

图2为深度自动编码机的编码与解码；

图3为测试图像标注示例；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

本图像自动标注方法的工作原理：在图像特征自编码阶段，首先提取图像颜色、纹理和形状特征，包括可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征，将上述特征作为深度自动编码机的输入，经过预训练和细调，得到图像自编码特征，使用自编码特征寻找测试图像的近邻图像集合，进行标注时将图像自编码特征间的余弦距离以及图像标注关键字的标注频率作为影响因素。

如图1所示，为本发明基于自编码特征和近邻方法的图像自动标注流程，在一实施例中，标注图像库采用PascalVOC07(Pascal Visual Object Classes Challenge 2007)图像库，该图像库是测试目标检测及分类和自动图像标注算法性能的数据库。PascalVOC07图像库共包括9963幅图像，手工标注有20个独立的关键字，分别是person、bird、cat、cow、dog、horse、sheep、aeroplane、bicycle、boat、bus、car、motorbike、train、bottle、chair、dining table、pottedplant、sofa、以及tv/monitor。每幅图像平均标注有2.47个关键字。对该图像库中的图像做如下处理：

1.图像低层视觉特征提取部分

所使用的图像低层视觉特征包括可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征五个特征。

1.1网格颜色矩特征

对一幅图像，首先判断图像是否为YUV颜色空间，若不是则转换到YUV颜色空间中。然后将图像均匀分割成5×5大小的图像块，如果每行或列的像素数不是5的整倍数，则不能整除部分作为最后一行或列的图像块的一部分。对二十五个图像块，分别计算Y、U、V三个颜色通道的一阶矩、二阶矩和三阶矩数值，将这些数值按照图像块先列后行依次按Y、U、V通道构成255维的向量，作为网格颜色矩描述子。

1.2可伸缩颜色特征

对一幅图像，首先判断图像是否为HSV颜色空间，若不是则转换到HSV颜色空间中。然后将图像的H分量的取值均匀量化为16个等级，S和V分量的取值分别均匀量化为4个等级，共形成16×4×4＝256种组合。根据图像每个像素H、S、V分量取值判断该像素属于256种组合的哪一种，对图像所有像素统计每种组合中包含的像素个数，得到图像的像素直方图。最后对所得的像素直方图进行Haar变换，变换系数作为可伸缩颜色颜色特征。

1.3边缘直方图特征

对一幅图像，首先将图像变换为灰度图，然后均匀分割成4行4列共16个图像块。对每个图像块，统计其包含8×8像素子块的个数，并根据边缘检测算子将每个子块归为五类之一，即：水平、竖直、45°、135°边缘和无方向边缘，对应的边缘检测算子如下表所示：

对每个图像块统计其包含五类边缘个数，把16个图像块的边缘直方图合并，得到一个80维的边缘直方图描述子。

1.4同质纹理特征

对一幅图像，首先求取图像像素的均值和方差。然后对图像进行radon变换，对变换后的图像再进行傅里叶变换。其次利用Gabor滤波器组提取频域特征，Gabor变换函数如下：

上式即表示在第s个径向第r个角度的Gabor变换函数。其中分别表示变换函数在第s个径向与第r个角度上的标准差。将频域空间划分为5个径向方向和6个角度方向，则需要构造出30个滤波器，变换函数的参数取值如下表所示

表1径向方向参数

表2角度方向参数

计算第i个特征通道的能量和方差：

e_i＝log[1+p_i]

d_i＝log[1+q_i]

其中：

F(ω,θ)为图像的傅里叶变换。

1.5小波矩特征

首先在极坐标下的图像表示f(r,θ)进行角度积分，如下所示：

S_q(r)＝∫_θf(r,θ)e^jqθdθ

其中参数q取值范围为1-9。然后构造小波函数族：

φ_m,n(r)＝2^m/2φ(2^mr-n/2)

其中m取值为0或1；n＝0,1,…,2^m+1，且：

参数a＝0.697066；c＝3；f₀＝0.409177；σ²＝0.561145。利用上述小波函数进行积分计算

W_mnq＝∫_rφ_m,n(r)rS_q(r)dr

所得72维数据即为同质纹理特征。

对每幅图像，将上述五个特征依次排列，可以得到一个695维特征向量。

2.图像特征自编码

自动编码机包含4个限制玻尔兹曼机，如图2所示，4个限制玻尔兹曼机输入输出大小依次为695×8000、8000×2000、2000×400和400×30，预训练时第一个限制玻尔兹曼机的输入为图像的695维特征向量，后3个限制玻尔兹曼机的输入依次为前一个限制玻尔兹曼机的输出。4个限制玻尔兹曼机输入层和输出层之间的权重矩阵分别记为w₁、w₂、w₃、w₄。预训练时使用了全部9963幅图像的视觉特征。为了加快训练速度，以100幅图像为一组，共形成100小组图像集，每小组数据集进行预训练后依次更新权重矩阵。每个限制玻尔兹曼机利用全部数据集进行预训练100次。为了提高自动编码机训练精度，使用共轭梯度方法对权重矩阵进行细调。细调时仍然使用全部9963幅图像的视觉特征，以1000幅图像为一组，共形成10组图像集。在10组图像集上重复细调100次，所得权重矩阵作为最后结果。将每幅图像的视觉特征与权重矩阵依次进行矩阵相乘，可得图像对应的30维自编码特征。

3.基于近邻模型的图像标注

如图3所示，为本发明一实施例所测试图像标注的示例，获得图像的自编码特征后，使用近邻方法对测试图像进行标注。进行标注时，使用将8967幅作为训练集，其余996幅作图像为测试集，训练测试比为9:1。训练集合与测试集合中每个关键字标注的图像数目及标注次数统计见下表。

图像库中关键字标注图像数及标注次数统计

对于任一个测试图像I_t，首先根据自编码特征计算出其与已标注训练图像之间的距离，以确定测试图像的近邻图像集合。设I_i表示训练图像库T中第i幅图像，采用余弦距离度量图像I_i和I_t之间的距离，并将距离从小到大进行排序。取距离最小的前28幅图像作为I_t的近邻图像集合。利用近邻图像的原始标注关键字标注测试图像，计算方法为：

其中P(w/I_t)为测试图像I_t标注关键字w的概率，N＝28表示紧邻图像个数为28幅，d_ti表示测试图像I_t与第i幅近邻图像的余弦距离，p_wi表示第i幅近邻图像标注了关键字w的次数，根据上式计算出每个关键字标注测试图像I_t的概率，测试图像的标注结果为具有最大标注概率的五个关键字。衡量标注效果时，采用三种度量方式对标注结果进行评价，包括准确率、标全率。对于某一关键字j，假设在测试图像库中，实际该关键字的图像数目是N_Gj，用上述方法标注了该关键字的图像数目为N_Mj，其中标注正确的图像数目是N_Cj，则准确率、标全率分别用下式计算：

Precision_j＝N_Cj/N_Mj

Recall_j＝N_Cj/N_Gj

下表给出了用上述方法标注结果统计。

各关键字标注结果统计

与基于标签传递机制的标注方法相比，准确率和标全率对比如下：

与基于标签传递方法的标注结果比对

从比对的数据获得，本发明基于深度编码特征利用近邻模型进行图像标注，无论是从准确率还是标全率都较传统的标注方法有更有效的提升，更准确的标注结果。

对于本领域的普通技术人员而言，根据本发明的教导，在不脱离本发明的原理与精神的情况下，对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims

1.基于自编码特征和近邻模型的图像自动标注方法，其特征在于，包括以下步骤：

C:对测试图像根据自编码特征采用近邻方法找到28个近邻训练图像，利用该组近邻训练图像的语义标注从而完成测试图像自动标注。

2.如权利要求1所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤A进一步包括：

A1：提取一幅图像的网格颜色矩特征；

A2：提取一幅图像的可伸缩颜色特征；

A3：提取一幅图像的边缘直方图特征；

A4：提取一幅图像的同质纹理特征；

A5：提取一幅图像的小波矩图特征。

3.如权利要求2所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤A1进一步包括：

A1.1：将图像均匀分割成5行5列共25个小块；

4.如权利要求2所述基于自编码特征和近邻方法的图像自动标注模型，其特征在于，步骤A2进一步包括：

5.如权利要求2所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤A3进一步包括：

6.如权利要求2所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤A4进一步包括：

A4.1：计算图像像素的均值和方差；

G_{p_{s r}} (ω, θ) = \exp [\frac{- {(ω - ω_{s})}^{2}}{2 σ_{ω_{s}}^{2}}] \exp [\frac{- {(θ - θ_{r})}^{2}}{2 σ_{θ_{r}}^{2}}]

A4.3：针对第i个滤波器变换计算:

e_i＝log[1+p_i]

d_i＝log[1+q_i]

其中：

p_{i} = Σ_{ω = 0}^{1} Σ_{θ = 0}^{360} {[G_{p_{s r}} (ω, θ) \cdot F (ω, θ)]}^{2}

q_{i} = \sqrt{Σ_{ω = 0}^{1} Σ_{θ = 0}^{360} {{[G_{p_{s r}} (ω, θ) \cdot F (ω, θ)]}^{2} - p_{i}}^{2}}

F(ω,θ)为图像的傅里叶变换。

7.如权利要求2所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤A5进一步包括：

S_q(r)＝∫_θf(r,θ)e^jqθdθ

其中参数q取值范围为1-9；

A5.2：构造小波函数族：

φ_m,n(r)＝2^m/2φ(2^mr-n/2)

其中m取值为0或1；n＝0,1,…,2^m+1，且：

φ (r) = \frac{4 a^{c + 1}}{\sqrt{2 π (c + 1)}} σ c o s (2 {πf}_{0} (2 r - 1)) \exp (- \frac{{(2 r - 1)}^{2}}{2 σ^{2} (c + 1)})

参数a＝0.697066；c＝3；f₀＝0.409177；σ²＝0.561145；

A5.3：利用上A5.2小波函数进行积分计算

W_mnq＝∫_rφ_m,n(r)rS_q(r)dr

所得72维数据即为同质纹理特征。

8.如权利要求2-7之一所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，每幅图像的可伸缩颜色特征、同质纹理特征、边缘直方图特征、网格颜色矩特征和小波矩特征组合成一个695维向量作为该图像的视觉特征。

9.如权利要求8所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤B进一步包括：自动编码机使用多层神经网络将高维输入向量转换为低维编码，使用的自动编码机将权利要求7中获得的695维图像视觉特征作为输入；

10.如权利要求1所述基于自编码特征和近邻模型的图像自动标注方法，其特征在于，步骤C进一步包括：根据步骤B的自编码特征计算出其与已标注训练图像之间的距离，以确定测试图像的近邻图像集合；

P (w / I_{t}) = Σ_{i = 1}^{N} \frac{p_{w i}}{d_{t i}}