CN105718883B

CN105718883B - 一种基于稀疏因子分析的图像视觉属性挖掘方法

Info

Publication number: CN105718883B
Application number: CN201610035845.3A
Authority: CN
Inventors: 邹焕新; 孙浩; 周石琳; 计科峰; 雷琳; 李智勇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2019-01-15
Anticipated expiration: 2036-01-19
Also published as: CN105718883A

Abstract

本发明提供一种基于稀疏因子分析的图像视觉属性挖掘方法。技术方案包括下述步骤：第一步，计算图像集合的特征矩阵。对图像集合I中的每一幅图像I_i计算一个D维的梯度方向直方图特征向量，得到图像集合的特征矩阵X。第二步，挖掘图像集合的视觉属性。初始化视觉属性矩阵A为X的前K列，初始化视觉属性混合系数矩阵Y为单位对角矩阵，采用交替优化进行迭代，得到最优的视觉属性矩阵A。本发明自动挖掘图像视觉属性，避免了属性学习需要大量人工标记样本的缺点，通过在视觉属性混合系数矩阵优化时引入稀疏约束，大大提高了视觉属性的区分性能。

Description

一种基于稀疏因子分析的图像视觉属性挖掘方法

技术领域

本发明涉及图像分析技术领域，特别涉及图像分析中的语义描述技术领域，更具体地说，涉及一种基于稀疏因子分析的图像视觉属性挖掘方法。

背景技术

图像视觉属性(visual attribute)增进了人与计算机对图像内容的一致理解。基于图像视觉属性的语义描述方法在图像目标识别、图像检索和图像内容标记等多个领域取得了很大成功。然而现有的图像视觉属性学习方法通过图像附带的自然语言描述定义视觉属性，需要大量的人工标记图像，存在两方面问题：一是人工标记图像效率低下，不适用于大规模图像集合；二是不同的人对同一副图像的内容理解有差别，引入人工标记偏差。

发明内容

本发明要解决的技术问题是：克服现有图像视觉属性学习方法中的人工标记过程效率低下和标记过程中引入的语义偏差问题，基于数据驱动的思想，采用无监督优化方法直接从大规模图像集合中挖掘同时具有语义性和区分性的图像视觉属性。

本发明的技术方案是：一种基于稀疏因子分析的图像视觉属性挖掘方法，具体包括下述步骤：

第一步，计算图像集合的特征矩阵。

对图像集合I＝{I_i|i＝1,2,...,N}中的每一幅图像I_i计算一个D维的梯度方向直方图特征向量x_i∈R^D，得到图像集合的特征矩阵X∈R^D×N，其中x_i表示为列向量，D的取值根据图像大小和梯度方向直方图特征提取参数确定。

第二步，挖掘图像集合的视觉属性。

设定最大迭代次数(根据经验值确定)，初始化视觉属性矩阵A∈R^D×K(K为属性的种类数，根据经验值确定，K＜min{D,N})为X的前K列，初始化视觉属性混合系数矩阵Y∈R^K×N为单位对角矩阵，采用交替优化进行迭代：

①固定A不变，调整Y，采用NNQP(non-negative quadratic programming，非负二次规划)方法优化下式：

其中Y≥0 (公式一)

其中y_i为Y的第i列，||||_F为计算F范数，||||₁为计算1范数，设经过优化Y变为Y′。

②固定Y′不变，调整A，采用NNQP方法优化下式：

其中A≥0 (公式二)

设经过优化A变为A′。

③对A′的列进行范数归一化得到A″。

④判断是否满足最大迭代次数(根据需要确定)，是则结束迭代，视觉属性矩阵A″即为所求结果；否则令A＝A″，Y＝Y′，返回①。

本发明的有益效果是：

(1)自动挖掘视觉属性的语义。本发明对基于图像视觉属性的生成过程进行建模并利用大规模图像数据推断模型参数，自动挖掘图像视觉属性，避免了属性学习需要大量人工标记样本的缺点。

(2)视觉属性具有区分性。本发明通过在视觉属性混合系数矩阵优化时引入稀疏约束，大大提高了视觉属性的区分性能。

附图说明

图1是本发明的流程示意图；

图2为人脸图像集合上挖掘的视觉属性；

图3为椅子图像集合和台灯图像集合上挖掘的视觉属性及包含该属性图像。

具体实施方式

下面结合附图对本发明提供的基于稀疏因子分析的图像视觉属性挖掘方法进行详细说明。

图1是本发明的流程示意图。如图所示，包括两个步骤：第一步，计算图像集合的特征矩阵，第二步，挖掘图像集合的视觉属性。

图2为采用Caltech101数据集中的435幅人脸图像挖掘的视觉属性结果，第一步对每幅图像提取梯度直方图特征(特征提取参数为：图像分解为8像素×8像素的单元格，在每个单元格内统计0°-180°的梯度方向直方图，然后采用2单元格×2单元格块进行归一化，为每个单元格生成一个描述符(或称特征向量)，最后串联所有单元格描述符生成图像的梯度直方图特征)，第二步设定最大迭代次数为1000和属性的种类数K为12，进行交替优化迭代，挖掘的视觉属性向量图像化后如图2所示，可以看到挖掘的视觉属性有效地刻画了人脸的结构性区分信息。图2的12幅图是视觉属性矩阵的每一列图像化得到的结果。

图3为采用Caltech101数据集中的61幅椅子图像集和61幅台灯图像集提取梯度直方图特征(特征提取参数为：图像分解为8像素×8像素的单元格，在每个单元格内统计0°-180°的梯度方向直方图，然后采用2单元格×2单元格块进行归一化，为每个单元格生成一个描述符，最后串联所有单元格描述符生成图像的梯度直方图特征)，设定最大迭代次数为1000和属性的种类数K为20时挖掘的视觉属性矩阵向量图像化结果，随机选择其中的一个向量(即一列数据，也称视觉属性向量)，该向量对应的混合系数矩阵中相应的分量按照大小排列前4的图像。图3(a)为椅子图像集上的结果，图3(b)为台灯图像集上的结果，其中最左列为挖掘的视觉属性向量图像化结果，从左到右图像中包含的属性的强度依次减弱，可以看到挖掘的视觉属性具有语义性，尽管图像的外观有差别但内容语义相似。

Claims

1.一种基于稀疏因子分析的图像视觉属性挖掘方法，其特征在于，包括下述步骤：

第一步，计算图像集合的特征矩阵：

对图像集合Ι＝{I_i|i＝1,2,...,N}中的每一幅图像I_i计算一个D维的梯度方向直方图特征向量x_i∈R^D，得到图像集合的特征矩阵X∈R^D×N，其中x_i表示为列向量，D的取值根据图像大小和梯度方向直方图特征提取参数确定；

第二步，挖掘图像集合的视觉属性：

根据经验设定最大迭代次数，初始化视觉属性矩阵A∈R^D×K，K为属性的种类数且K＜min{D,N}，A的取值为X的前K列，初始化视觉属性混合系数矩阵Y∈R^K×N，Y为单位对角矩阵，然后进行下述迭代：

①固定A不变，调整Y，采用非负二次规划方法优化下式：

其中Y≥0 (公式一)

其中y_i为Y的第i列，设经过优化Y变为Y′；

②固定Y′不变，调整A，采用非负二次规划方法优化下式：

其中A≥0 (公式二)

设经过优化A变为A′；

③对A′的列进行l₂范数归一化得到A″；

④判断是否满足最大迭代次数，是则结束迭代，视觉属性矩阵A″即为所求结果；否则令A＝A″，Y＝Y′，返回①。