CN105279517A

CN105279517A - 基于半监督关系主题模型的弱标签社交图像识别方法

Info

Publication number: CN105279517A
Application number: CN201510639681.0A
Authority: CN
Inventors: 宋军; 牛振兴; 郑昱; 高新波; 王斌; 宗汝
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-01-27

Abstract

本发明公开了一种基于半监督关系主题模型的弱标签社交图像识别方法，主要解决现有的社交图像识别方法利用图像弱标签不足的缺点。其实现步骤是：1.输入带用户标签的图像集，提取图像集每幅图像的特征，以图像集中每个图像的特征为顶点，图像间的标签关系为边的权重，构建图像间关系无向图；2.根据图像间关系无向图，建立半监督关系主题模型；3.根据半监督关系主题模型，预测图像的类别，完成图像的识别。本发明能充分利用图像的弱标签对图像间关系进行建模，提高了图像识别的准确率，可用于对社交图像的识别。

Description

基于半监督关系主题模型的弱标签社交图像识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种社交图像识别方法，可用于对互联网中社交图像识别。

背景技术

主题模型起初提出来是用于文档感知，近些年，随着人们的深入研究，主题模型在图像感知以及图像识别领域也得到了成功的应用。

L.Fei-FeiandP.Perona在文章“Abayesianhierarchicalmodelforlearningnaturalscenecategories”(CVPR,2005)中通过利用聚类方法对图像的视觉特征进行聚类，得到的每一个聚类中心即为图像集的视觉单词，其中，图像对应为主题模型中的文档，视觉单词对应为主题模型中的词，然后，将隐狄利克雷方法引入到图像识别领域，提出了一种基于隐狄利克雷方法的图像场景识别方法。

A.Bosch,A.Zisserman,andX.Munoz在文章“Sceneclassificationviaplsa”(ECCV,2006)中参照L.Fei-FeiandP.Perona(CVPR,2005)的方法，将概率潜在语义分析方法引入到图像识别领域，提出了一种基于概率潜在语义分析的图像场景识别方法。

Z.Niu,G.Hua,X.Gao,andQ.Tian在文章“Context-awaretopicmodelforscenerecognition”(CVPR,2012)中通过结合图像的上下文信息，对隐狄利克雷方法进行改进，提出了一种基于情境感知主题模型的图像场景识别方法。

上述三种方法的不足之处都是没有考虑图像间的关系，从而导致图像场景识别的准确率不高。

发明内容

本发明的目的在于这对上述现有技术的不足，提出一种基于半监督关系主题模型的弱标签社交图像识别方法，以提高图像识别的准确率。

实现本发明目的的技术思路是，根据图像标签构建图像关系无向图；无向图建立半监督关系主题模型，根据半监督关系主题模型完成对图像的识别。

根据上述思路。本发明技术步骤包括如下：

(1)输入带用户标签的图像集，提取图像集每幅图像的特征，以图像集中每个图像的特征为顶点，图像间的标签关系为边的权重，构建图像间关系无向图。

(2)根据图像间关系无向图，建立半监督关系主题模型：

(2a)对图像在主题上的概率分布随机采样，得到图像主题的采样样本；

(2b)根据图像主题的采样样本，估计图像主题的视觉单词分布参数；

(2c)对图像主题的采样样本求均值，结合图像间的权重关系，估计图像间主题相似度；

(2d)根据图像主题的视觉单词分布参数以及图像间的相似度，得出半监督关系主题公式：

其中w表示视觉单词向量，l表示图像间关系，y表示图像类别，θ表示图像主题概率分布矩阵，φ表示视觉单词分布参数，z表示主题，α,β表示狄利克雷参数，η表示类别标记的分布，D表示图像集，d,d'表示图像集中的两幅不同图像，θ_d表示图像d的主题概率分布，N_d表示图像d中视觉单词个数，n表示视觉单词的序号，z_dn表示图像d中第n个视觉单词的主题，w_dn表示图像d中第n个视觉单词，φ_zdn表示主题z_dn的概率分布，J表示主题向量，k表示主题的序号，φ_k表示主题k的概率分布，y_d表示图像d的类别，z_d,z_d'分别表示图像集中两幅不同图像d,d'的主题均值，l_d,d'表示图像集中两幅不同图像d,d'的权重关系。

(3)根据半监督关系主题模型，预测图像的类别，完成图像的识别。

附图说明

图1为本发明的实现流程图；

图2为半监督关系主题模型图。

具体实施方式

下面结合附图1，对本发明实现的步骤作进一步的详细描述。

步骤1，输入带用户标签的图像集，根据图像标签构建图像关系无向图。

本发明采用NUS-WIDE图像集和MIRFLICKR-25k图像集，其中，NUS-WIDE包含269648幅图像，共1000个不同的用户标签，人工标定了81个类别；MIRFLICKR-25k包含25000幅图像，共1386个不同的用户标签，人工标定了23个类别。根据这些图像标签构建图像关系无向图的步骤如下：

(1a)提取图像局部特征：将图像分成多个10*10的图像块，利用高斯差分法检测出每个图像块的有效点，提取有效点的尺度不变特征转换SIFT特征，构成该SIFT特征集合；

(1b)利用K均值聚类方法对步骤(1a)中提取的SIFT特征集合进行聚类，得到的每一个聚类中心即为视觉字典中的一个视觉单词，所有的视觉单词共同构建视觉字典；

(1c)利用步骤(1b)中得到的视觉字典，采用硬化分的准则，选取距离最近的视觉单词作为图像的特征，得到图像在视觉字典上的特征分布词袋；

(1d)设置图像间权重：当图像间有共同标签时，设图像间权重为1；当图像间没有共同标签时，设图像间权重为-1；

(1e)构建图像关系无向图：以步骤(1c)得到的图像特征分布词袋为无向图的顶点，以步骤(1d)得到的图像量化关系为无向图的边的权重，得到图像间关系无向图。

步骤2，根据图像间关系无向图，建立半监督关系主题模型。

(2a)对图像集中两幅不同图像d，d'分别在主题上的概率分布θ_d随机采样，得到图像主题的采样样本z_dn，z_d'n，其中，θ_d服从参数为α的狄利克雷分布。

(2b)根据图像集中两幅不同图像主题的采样样本z_dn，z_d'n，估计图像主题的视觉单词分布参数φ_k，其中，φ_k服从参数为β的狄利克雷分布。

(2c)对图像集中两幅不同图像主题的采样样本z_dn，z_d'n求均值，结合图像间的权重关系l_d,d'，按照下式估计图像间相似度：

ψ (l_{d, d^{'}} | {\overset{&OverBar;}{z}}_{d}, {\overset{&OverBar;}{z}}_{d^{'}}) = \{\begin{matrix} s_{d, d^{'}}, l_{d, d^{'}} = 1 \\ 1 - s_{d, d^{'}}, l_{d, d^{'}} = - 1 \end{matrix},

其中，k表示主题的序号，分别表示图像集中两幅不同图像中第k个主题的均值；

利用步骤2所建立半监督关系主题模型如图2所示，图2中的白色圆圈表示未知参数，灰色圆圈表示已知参数，

步骤3，根据半监督关系主题模型，预测图像的类别，完成图像的识别。

(3a)对步骤(2d)得到的主题公式进行推导求解，得到图像d的类别分布参数η和图像d的主题均值

(3b)利用步骤(3a)中得到图像的类别分布参数η和图像d的主题均值按照下式，得到图像的类别y_d的概率分布，选概率分布中最大的概率作为图像的类别，完成图像的识别：

ρ (y_{d} | {\overset{&OverBar;}{z}}_{d}, η) = \frac{1}{1 + \exp (- η^{T} {\overset{&OverBar;}{z}}_{d})} .

本发明的效果可以通过以下仿真实验做进一步的说明：

1.仿真条件

本发明是在中央处理器为Intel(R)Corei3-5302.93GHZ、内存4G、WINDOWS7操作系统上，运用MATLAB软件进行的仿真。

2.仿真内容

本发明在NUS-WIDE图像集和MIRFLICKR-25k图像集上进行图片识别仿真实验。

本发明以识别准确率为指标对方法性能进行评测，仿真对比了不同图像识别方法对图像进行识别的准确率，对比的多种图像识别方法包括隐狄利克雷方法+支持向量机分类器、有监督的隐狄利克雷方法和本发明方法。对比实验结果如表1所示。

表1.不同方法下图像识别的准确率

由表1可见，在NUS-WIDE图像集和MIRFLICKR-25k图像集上进行图片识别实验，本发明的准确率是三种方法中最高的。这是因为本发明有效地利用图像的弱标签对图像间关系进行建模，由此获得高于其他两种方法的准确率，进一步验证了本发明的先进性。

Claims

1.一种基于半监督关系主题模型的弱标签社交图像识别方法，包括：

(2)根据图像间关系无向图，建立半监督关系主题模型：

p (w, l, y, θ, φ, z | α, β, η) = \underset{d &Element; D}{Π} p (θ_{d} | α) \underset{n &Element; N_{d}}{Π} p (z_{d n} | θ_{d}) p (w_{d n} | φ_{z_{d n}})

其中w表示视觉单词向量，l表示图像间关系，y表示图像类别，θ表示图像主题概率分布矩阵，φ表示视觉单词分布参数，z表示主题，α,β表示狄利克雷参数，η表示类别标记的分布，D表示图像集，d,d'表示图像集中的两幅不同图像，θ_d表示图像d的主题概率分布，N_d表示图像d中视觉单词个数，n表示视觉单词的序号，z_dn表示图像d中第n个视觉单词的主题，w_dn表示图像d中第n个视觉单词，φ_zdn表示主题z_d,n的概率分布，J表示主题向量，k表示主题的序号，φ_k表示主题k的概率分布，y_d表示图像d的类别，分别表示图像集中两幅不同图像d,d'的主题均值，l_d,d'表示图像集中两幅不同图像d,d'的权重关系。

2.根据权利要求1所述的基于半监督关系主题模型的弱标签社交图像识别方法，其特征在于，所述步骤(1)中提取图像集每幅图像的特征，按如下步骤进行：

(1a)提取图像局部特征：将图像分成多个10*10的图像块，利用高斯差分法检测出每个图像块的有效点，提取有效点的尺度不变特征转换SIFT特征，构成SIFT特征集合；

(1c)利用步骤(1b)中得到的视觉字典，采用硬化分的准则，选取距离最近的视觉单词作为图像的特征，得到图像在视觉字典上的特征分布词袋。

3.根据权利要求1所述的基于半监督关系主题模型的弱标签社交图像识别方法，其特征在于，所述步骤(1)中边的权重，根据图像间是否有共同标签进行定义：图像间有共同标签时，图像间权重为1；图像间没有共同标签时，图像间权重为-1。

4.根据权利要求1所述的基于半监督关系主题模型的弱标签社交图像识别方法，其特征在于，所述步骤(2c)中计图像间主题相似度，根据下式计算：

ψ (l_{d, d^{'}} | {\overset{&OverBar;}{z}}_{d}, {\overset{&OverBar;}{z}}_{d^{'}}) = \{\begin{matrix} s_{d, d^{'}}, l_{d, d^{'}} = 1 \\ 1 - s_{d, d^{'}}, l_{d, d^{'}} = - 1 \end{matrix},

其中，k表示主题的序号，分别表示图像集中两幅不同图像中第k个主题的均值。