CN103530656B

CN103530656B - 基于隐结构学习的图像摘要生成方法

Info

Publication number: CN103530656B
Application number: CN201310410623.1A
Authority: CN
Inventors: 汤斯亮; 邵健; 方晗吟; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2017-01-11
Anticipated expiration: 2033-09-10
Also published as: CN103530656A

Abstract

本发明公开了一种基于隐结构学习的图像摘要生成方法。它包括如下步骤：1）对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征；2）对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量；3）构造一个带有隐变量的结构支持向量机，从数据库中多次选取训练集合，并利用训练集中不同主题相关的图片集合进行权重系数学习；4）利用上一步学习得到的权重系数，从数据库中选取不同主题相关的图片集，预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。本发明具有更高的信息覆盖率和更低的冗余度可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好，比传统的方法取得更好效果。

Description

基于隐结构学习的图像摘要生成方法

技术领域

本发明涉及图像摘要生成，尤其涉及一种基于隐结构学习的图像摘要生成方法。

背景技术

目前，随着存储技术和网络技术的发展，每天都有海量的图像文件被上传于互联网上。用户一方面能访问到越来越多的图像数据，另一方面数据本身越来越复杂的结构和冗余性也给用户获得有用的信息带来了巨大的困难。例如，用户利用搜索引擎可以通过关键字搜索出大量的图片，但这些图片中含有大量的重度相似图片，阻碍了信息的整体呈现，同时兼顾到信息覆盖度和冗余度的摘要则成为更合理的呈现方式；又如，图片分享网站Flickr上含有大量的个人相册，如何给相册挑选出最具有代表性的图片作为封面，也成为很有趣的问题。因此，研究一种针对图像文件集合的摘要生成方法具有很强的现实意义。

图像文件集合是当前非常常见的信息载体，它由大量的关于同一主题的图片组成，并具有一定的相似性和差异性。如搜索引擎得到的关键字相关图片集合或社交网络中的个人相册。一般来说，图像文件集合具有两个特点。第一，同一主题相关，即图片包含的信息的主体是相同的；第二，图片独立性，即不同的图片含有描述主题的不同方面的信息并且含有一定的噪声信息。第三，主题的差异性，即不同的主题相关图片集所包含和偏好的信息是有差异的。因此，当对图片集合进行摘要生成时，需要将原始图像集合和准备生成的摘要图片集合都当做整体来考虑并且将主题的差异性考虑进去。由于传统的许多摘要方法往往是将摘要中的每张图片独立考虑，没有综合考虑摘要图片集合内部各个图片所蕴涵的互补信息和冗余信息，因此不能很好地综合分析原图片集合并得到良好的摘要。此外，进来提出的一些摘要生成方法虽然将摘要图片集合作为一个整体结构考虑，但是并未将相关主题的差异性纳入考虑，从而无法很好地适应用户需求。

针对图像摘要这一现实需求以及当前方法所存在的不足之处，本发明提供了一种能很好地兼顾摘要整体的信息覆盖度和冗余度并且能将主题相关差异性纳入考虑的图像摘要生成方法。

发明内容

本发明的目的在于提供一种基于隐结构学习的图像摘要的方法。

基于隐结构学习的图像摘要生成方法包括如下步骤：

1）对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征；

2）对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量；

3）构造一个带有隐变量的结构支持向量机，从数据库中多次选取训练集合，并利用训练集中不同主题相关的图片集合进行权重系数学习；

4）利用上一步学习得到的权重系数，从数据库中选取不同主题相关的图片集，预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。

所述的步骤1)包括：

1）对数据库内的所有图片在HSV颜色空间中进行颜色特征提取。首先将图片中的每一个像素计算其在HSV颜色空间中的表达，然后将HSV颜色特征空间均匀地划分为450个区域，最后对每个区域统计落在其中的像素个数，形成450维的颜色直方图特征；

2）对数据库内的每张图片的每个像素，计算它与周围像素之间的差异性，得到128维的SIFT特征点；然后在得到的SIFT特征点基础上，利用K-means方法进行聚类，聚类得到的1000个SIFT点类别就形成了1000维的视觉单词特征；

3）对数据库内的每张图片进行8×8的块划分；对每个划分好的块，计算它与周围块之间的方向梯度；将方向梯度特征的取值范围均匀划分为1000个区域，统计落在这1000个区域中的方向梯度特征数量，就得到了1000维的方向梯度直方图特征；

所述的步骤2)包括：

1）将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序，依次连接融合，得到2450维特征；

2）对上面得到的2450维的融合特征，利用如下公式，将原特征值进行归一化。归一化后，特征的取值范围统一变为0.1到0.9。

x＝0.1+(0.9-0.1)(x-min)(max-min)

所述的步骤3)包括：

1）为实现交叉验证，多次从数据库中设计训练集，并取出其中的主题图片集合；

2）将权重系数参数w初始化为零向量，将隐藏特征选择变量h初始化为全1向量，通过以下的次梯度下降算法同时对w和h进行优化求解，最终输出训练好的权重系数w。

所述的步骤4)包括：

1）多次从数据库中取出不同的需要进行摘要生成的图片集合，将与这个集合相关的隐变量h初始化为全1的向量；

2）将步骤3中学习得到的特征权重系数w带入下述贪心算法选择出符合给定长度的摘要图像集合，并在贪心算法每一次选择的同时优化得到最终的隐变量h。

本发明提出了一套新的基于隐结构学习的方法。由于该方法采用了结构性支持向量机，将摘要图片集合作为整体考虑，因此具有更高的信息覆盖率和更低的信息冗余度。同时，本方法还引入了特征选择的隐变量，可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好，因此比传统的摘要生成方法取得更好效果。

附图说明

图1是本发明的一次摘要生成结果。该图显示内容是一个主题相关图片集合和与之对应的生成摘要图片集合。

图2是隐结构支持向量机输出的摘要图片集合。

具体实施方式

本发明通过隐结构性学习方法，对不同主题相关的图像集合学习得到不同的特征选择隐变量，并且将摘要图片集合视作整体考虑，得到同时兼顾增大信息覆盖度和减小信息冗余度的摘要图片集合。

基于隐结构学习的图像摘要生成方法包括如下步骤：

所述的步骤1)包括：

1）对数据库内的所有图片在HSV颜色空间中进行颜色特征提取。首先将图片中的每一个像素计算其在HSV颜色空间中的表达，然后将HSV颜色特征空间均匀地划分为450个区域，最后对每个区域统计落在其中的像素个数，形成450维的颜色直方图（Color Histogram）特征；

2）对数据库内的每张图片的每个像素，计算它与周围像素之间的差异性，得到128维的SIFT特征点；然后在得到的SIFT特征点基础上，利用K-means方法进行聚类，聚类得到的1000个SIFT点类别就形成了1000维的视觉单词（Bag-of-Visual Words）特征；

视觉单词提取算法：首先构建尺度空间，利用高斯卷积核构建二维图像的尺度空间，定义为

L(x，y，σ)＝G(x，yσ)*I(x，y)

其中G(x,y,σ)是尺度可变高斯函数。

然后在DoG（Derivation of Gaussian）尺度空间中检测出极值点；

接着去除不理想的极值点（兴趣点），通过拟和三维二次函数以精确（达到亚像素精度）确定关键点的位置和尺度，同时去除低对比度的极值点和不稳定的边缘响应点，以增强匹配稳定性、提高抗噪声能力，在这里使用了近似Harris Corner检测器。

然后再为每个兴趣点赋予128维的方向参数，即为每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。

接着以兴趣点为中心取8×8的窗口，对窗口中的每个像素点计算梯度幅值和方向；然后在每4×4的子块上计算八个方向上的梯度方向直方图；在兴趣点周围16×16的窗口中，计算每个像素的梯度，并使用高斯下降函数降低远离中心的像素点的权重，这样得到了SIFT特征点。

最后在得到的SIFT点特征中，利用k-means聚类方法，聚类出1000个类别，作为视觉单词特征。

3）对数据库内的每张图片进行8×8的块划分；对每个划分好的块，计算它与周围块之间的方向梯度；将方向梯度特征的取值范围均匀划分为1000个区域，统计落在这1000个区域中的方向梯度特征数量，就得到了1000维的方向梯度直方图（Histogram of Oriented Gradient）特征；

方向梯度直方图特征的计算：首先将图像灰度化，从彩色图像转化为三位的灰度空间图像；然后将图像划分为2×2的小块，在每个小块上计算每个像素的梯度（即代表了方向）；最后统计每个块上的梯度直方图，就形成了方向梯度描述特征。

所述的步骤2)包括：

3）将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序，依次连接融合，得到2450维特征；

4）对上面得到的2450维的融合特征，利用如下公式，将原特征值进行归一化。归一化后，特征的取值范围统一变为0.1到0.9。

x＝0.1+(0.9-0.1)(x-min)(max-min)

其中min和max分别代表该特征中的最小值和最大值

所述的步骤3)包括：

2）将权重系数参数w初始化为零向量，将隐藏特征选择变量h初始化为全1向量，通过以下的次梯度下降（Subgradient Descent）算法同时对w和h进行优化求解，最终输出训练好的权重系数w。

其中，

ψ (x, y, h) = \underset{i &Element; x, j &Element; y}{Σ} σ (i, j, h) - \underset{i, j &Element; y : i &NotEqual; j}{Σ} σ (i, j, h)

σ(i,j,h)表示句子i和句子j之间的相似度，在此我们使用两个句子中每一维

Δ (y, \hat{y}, h) = \frac{2 pr}{p + r}, p = \frac{< y, \hat{y}, h >}{< \hat{y}, \hat{y}, h >}, r = \frac{< y, \hat{y}, h >}{< y, y, h >}

特征中的较小值作为该维特征的计算结果。

＜a,b,h＞函数代表a和b之间共有的特征数量。

所述的步骤4)包括：

2）将步骤3中学习得到的特征权重系数w带入下述贪心算法（Greedy Algorithm），选择出符合给定长度的摘要图像集合，并在贪心算法每一次选择的同时优化得到最终的隐变量h。

通过上面的贪心算法，利用训练好的参数w可以针对不同主题相关的图片集得到不同的特征选择隐变量，从而生成更符合主题偏好的摘要。

实施例：

对数据库中选出19个图片集合，不同的图片集合关联着不同的主题，例如，飞机坠毁、公文包、大海、工场工人等。每个主题的图片集合包含有30到70张图片，并且人工挑选出了其中的6张图片作为摘要图片集合。首先对这些图片进行颜色直方图、视觉单词以及方向梯度直方图特征的提取，然后将三种特征进行归一化与融合，这样每张图片都投影到了一个2450维的特征空间中。在归一化的过程中，使用了归一化到0.1到0.9的归一化方法。例如，所有图片的颜色直方图特征中，最大值是max，最小值是min，那么对于某一个维的值x，归一化后的特征值将变为0.1+(x-min)(max-min)×(0.9-0.1)。这样一来，颜色直方图特征的最小值被转化到0.1，最大值转化到0.9，其他的值按比例转化到[0.1,0.9]的区间中。对每种特征进行归一化之后再进行拼接融合就不会导致由于某种特征的均值较大而使得其更加重要的误差出现。

完成图像的预处理过程后，将10个图片集及其对应的摘要图片集输入隐结构支持向量机中进行训练，得到2450维的特征权重系数w。然后从数据库中取出一个训练集以外的图片集合进行摘要集合预测。在预测过程中，训练好的系数w不变而针对不同主题则会学习出不同的特征偏好。

图1是用户的输入图片集“flying_objects”，图2是隐结构支持向量机输出的摘要图片集合。

Claims

1. 一种基于隐结构学习的图像摘要生成方法，其特征在于包括如下步骤：

1）对图片提取HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征；

3）构造一个带有隐变量的结构支持向量机，从数据库中多次选取训练集合，并利用训练集合中不同主题相关的图片集合进行权重系数学习；

4）利用上一步学习得到的权重系数，从数据库中选取不同主题相关的图片集合，预测出它们的隐含的特征选择偏好并生成与图片集合对应的摘要图片集合。

2.根据权利要求1所述的一种基于隐结构学习的图像摘要生成方法，其特征在于，所述的步骤1)包括：

1.1）对数据库内的所有图片在HSV颜色空间中进行颜色特征提取，首先将图片中的每一个像素计算其在HSV颜色空间中的表达，然后将HSV颜色空间均匀地划分为450个区域，最后对每个区域统计落在其中的像素个数，形成450维的颜色直方图特征；

1.2）对数据库内的每张图片的每个像素，计算它与周围像素之间的差异性，得到128维的SIFT特征点；然后在得到的SIFT特征点基础上，利用K-means方法进行聚类，聚类得到的1000个SIFT点类别就形成了1000维的视觉单词特征；

1.3）对数据库内的每张图片进行8×8的块划分；对每个划分好的块，计算它与周围块之间的方向梯度；将方向梯度特征的取值范围均匀划分为1000个区域，统计落在这1000个区域中的方向梯度特征数量，就得到了1000维的方向梯度直方图特征；

所述的步骤2)包括：

2.1）将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序，依次连接融合，得到2450维特征；

2.2）对上面得到的2450维的融合特征，利用如下公式，将原特征值进行归一化，归一化后，特征的取值范围统一变为0.1到0.9；

所述的步骤3)包括：

3.1）为实现交叉验证，多次从数据库中设计训练集合，并取出其中的主题图片集合；

3.2）将权重系数w初始化为零向量，将隐藏特征选择变量h初始化为全1向量，通过以下的次梯度下降算法同时对w和h进行优化求解，最终输出训练好的权重系数w；

所述的步骤4)包括：

4.1）多次从数据库中取出不同的需要进行摘要生成的图片集合，将与这个集合相关的隐变量h初始化为全1的向量；

4.2）将步骤3）中学习得到的权重系数w带入下述贪心算法选择出符合给定长度的摘要图像集合，并在贪心算法每一次选择的同时优化得到最终的隐藏特征选择变量h。