CN103530656B - 基于隐结构学习的图像摘要生成方法 - Google Patents
基于隐结构学习的图像摘要生成方法 Download PDFInfo
- Publication number
- CN103530656B CN103530656B CN201310410623.1A CN201310410623A CN103530656B CN 103530656 B CN103530656 B CN 103530656B CN 201310410623 A CN201310410623 A CN 201310410623A CN 103530656 B CN103530656 B CN 103530656B
- Authority
- CN
- China
- Prior art keywords
- feature
- picture
- data base
- weight coefficient
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于隐结构学习的图像摘要生成方法。它包括如下步骤:1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。本发明具有更高的信息覆盖率和更低的冗余度可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好,比传统的方法取得更好效果。
Description
技术领域
本发明涉及图像摘要生成,尤其涉及一种基于隐结构学习的图像摘要生成方法。
背景技术
目前,随着存储技术和网络技术的发展,每天都有海量的图像文件被上传于互联网上。用户一方面能访问到越来越多的图像数据,另一方面数据本身越来越复杂的结构和冗余性也给用户获得有用的信息带来了巨大的困难。例如,用户利用搜索引擎可以通过关键字搜索出大量的图片,但这些图片中含有大量的重度相似图片,阻碍了信息的整体呈现,同时兼顾到信息覆盖度和冗余度的摘要则成为更合理的呈现方式;又如,图片分享网站Flickr上含有大量的个人相册,如何给相册挑选出最具有代表性的图片作为封面,也成为很有趣的问题。因此,研究一种针对图像文件集合的摘要生成方法具有很强的现实意义。
图像文件集合是当前非常常见的信息载体,它由大量的关于同一主题的图片组成,并具有一定的相似性和差异性。如搜索引擎得到的关键字相关图片集合或社交网络中的个人相册。一般来说,图像文件集合具有两个特点。第一,同一主题相关,即图片包含的信息的主体是相同的;第二,图片独立性,即不同的图片含有描述主题的不同方面的信息并且含有一定的噪声信息。第三,主题的差异性,即不同的主题相关图片集所包含和偏好的信息是有差异的。因此,当对图片集合进行摘要生成时,需要将原始图像集合和准备生成的摘要图片集合都当做整体来考虑并且将主题的差异性考虑进去。由于传统的许多摘要方法往往是将摘要中的每张图片独立考虑,没有综合考虑摘要图片集合内部各个图片所蕴涵的互补信息和冗余信息,因此不能很好地综合分析原图片集合并得到良好的摘要。此外,进来提出的一些摘要生成方法虽然将摘要图片集合作为一个整体结构考虑,但是并未将相关主题的差异性纳入考虑,从而无法很好地适应用户需求。
针对图像摘要这一现实需求以及当前方法所存在的不足之处,本发明提供了一种能很好地兼顾摘要整体的信息覆盖度和冗余度并且能将主题相关差异性纳入考虑的图像摘要生成方法。
发明内容
本发明的目的在于提供一种基于隐结构学习的图像摘要的方法。
基于隐结构学习的图像摘要生成方法包括如下步骤:
1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;
2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;
3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;
4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。
所述的步骤1)包括:
1)对数据库内的所有图片在HSV颜色空间中进行颜色特征提取。首先将图片中的每一个像素计算其在HSV颜色空间中的表达,然后将HSV颜色特征空间均匀地划分为450个区域,最后对每个区域统计落在其中的像素个数,形成450维的颜色直方图特征;
2)对数据库内的每张图片的每个像素,计算它与周围像素之间的差异性,得到128维的SIFT特征点;然后在得到的SIFT特征点基础上,利用K-means方法进行聚类,聚类得到的1000个SIFT点类别就形成了1000维的视觉单词特征;
3)对数据库内的每张图片进行8×8的块划分;对每个划分好的块,计算它与周围块之间的方向梯度;将方向梯度特征的取值范围均匀划分为1000个区域,统计落在这1000个区域中的方向梯度特征数量,就得到了1000维的方向梯度直方图特征;
所述的步骤2)包括:
1)将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序,依次连接融合,得到2450维特征;
2)对上面得到的2450维的融合特征,利用如下公式,将原特征值进行归一化。归一化后,特征的取值范围统一变为0.1到0.9。
x=0.1+(0.9-0.1)(x-min)(max-min)
所述的步骤3)包括:
1)为实现交叉验证,多次从数据库中设计训练集,并取出其中的主题图片集合;
2)将权重系数参数w初始化为零向量,将隐藏特征选择变量h初始化为全1向量,通过以下的次梯度下降算法同时对w和h进行优化求解,最终输出训练好的权重系数w。
所述的步骤4)包括:
1)多次从数据库中取出不同的需要进行摘要生成的图片集合,将与这个集合相关的隐变量h初始化为全1的向量;
2)将步骤3中学习得到的特征权重系数w带入下述贪心算法选择出符合给定长度的摘要图像集合,并在贪心算法每一次选择的同时优化得到最终的隐变量h。
本发明提出了一套新的基于隐结构学习的方法。由于该方法采用了结构性支持向量机,将摘要图片集合作为整体考虑,因此具有更高的信息覆盖率和更低的信息冗余度。同时,本方法还引入了特征选择的隐变量,可以隐式地学习出不同主题相关的图片集合在特征选择上的不同偏好,因此比传统的摘要生成方法取得更好效果。
附图说明
图1是本发明的一次摘要生成结果。该图显示内容是一个主题相关图片集合和与之对应的生成摘要图片集合。
图2是隐结构支持向量机输出的摘要图片集合。
具体实施方式
本发明通过隐结构性学习方法,对不同主题相关的图像集合学习得到不同的特征选择隐变量,并且将摘要图片集合视作整体考虑,得到同时兼顾增大信息覆盖度和减小信息冗余度的摘要图片集合。
基于隐结构学习的图像摘要生成方法包括如下步骤:
1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;
2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;
3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;
4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。
所述的步骤1)包括:
1)对数据库内的所有图片在HSV颜色空间中进行颜色特征提取。首先将图片中的每一个像素计算其在HSV颜色空间中的表达,然后将HSV颜色特征空间均匀地划分为450个区域,最后对每个区域统计落在其中的像素个数,形成450维的颜色直方图(Color Histogram)特征;
2)对数据库内的每张图片的每个像素,计算它与周围像素之间的差异性,得到128维的SIFT特征点;然后在得到的SIFT特征点基础上,利用K-means方法进行聚类,聚类得到的1000个SIFT点类别就形成了1000维的视觉单词(Bag-of-Visual Words)特征;
视觉单词提取算法:首先构建尺度空间,利用高斯卷积核构建二维图像的尺度空间,定义为
L(x,y,σ)=G(x,yσ)*I(x,y)
其中G(x,y,σ)是尺度可变高斯函数。
然后在DoG(Derivation of Gaussian)尺度空间中检测出极值点;
接着去除不理想的极值点(兴趣点),通过拟和三维二次函数以精确(达到亚像素精度)确定关键点的位置和尺度,同时去除低对比度的极值点和不稳定的边缘响应点,以增强匹配稳定性、提高抗噪声能力,在这里使用了近似Harris Corner检测器。
然后再为每个兴趣点赋予128维的方向参数,即为每个特征点计算一个方向,依照这个方向做进一步的计算,利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。
接着以兴趣点为中心取8×8的窗口,对窗口中的每个像素点计算梯度幅值和方向;然后在每4×4的子块上计算八个方向上的梯度方向直方图;在兴趣点周围16×16的窗口中,计算每个像素的梯度,并使用高斯下降函数降低远离中心的像素点的权重,这样得到了SIFT特征点。
最后在得到的SIFT点特征中,利用k-means聚类方法,聚类出1000个类别,作为视觉单词特征。
3)对数据库内的每张图片进行8×8的块划分;对每个划分好的块,计算它与周围块之间的方向梯度;将方向梯度特征的取值范围均匀划分为1000个区域,统计落在这1000个区域中的方向梯度特征数量,就得到了1000维的方向梯度直方图(Histogram of Oriented Gradient)特征;
方向梯度直方图特征的计算:首先将图像灰度化,从彩色图像转化为三位的灰度空间图像;然后将图像划分为2×2的小块,在每个小块上计算每个像素的梯度(即代表了方向);最后统计每个块上的梯度直方图,就形成了方向梯度描述特征。
所述的步骤2)包括:
3)将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序,依次连接融合,得到2450维特征;
4)对上面得到的2450维的融合特征,利用如下公式,将原特征值进行归一化。归一化后,特征的取值范围统一变为0.1到0.9。
x=0.1+(0.9-0.1)(x-min)(max-min)
其中min和max分别代表该特征中的最小值和最大值
所述的步骤3)包括:
1)为实现交叉验证,多次从数据库中设计训练集,并取出其中的主题图片 集合;
2)将权重系数参数w初始化为零向量,将隐藏特征选择变量h初始化为全1向量,通过以下的次梯度下降(Subgradient Descent)算法同时对w和h进行优化求解,最终输出训练好的权重系数w。
其中,
σ(i,j,h)表示句子i和句子j之间的相似度,在此我们使用两个句子中每一维
特征中的较小值作为该维特征的计算结果。
<a,b,h>函数代表a和b之间共有的特征数量。
所述的步骤4)包括:
1)多次从数据库中取出不同的需要进行摘要生成的图片集合,将与这个集合相关的隐变量h初始化为全1的向量;
2)将步骤3中学习得到的特征权重系数w带入下述贪心算法(Greedy Algorithm),选择出符合给定长度的摘要图像集合,并在贪心算法每一次选择的同时优化得到最终的隐变量h。
通过上面的贪心算法,利用训练好的参数w可以针对不同主题相关的图片集得到不同的特征选择隐变量,从而生成更符合主题偏好的摘要。
实施例:
对数据库中选出19个图片集合,不同的图片集合关联着不同的主题,例如,飞机坠毁、公文包、大海、工场工人等。每个主题的图片集合包含有30到70张图片,并且人工挑选出了其中的6张图片作为摘要图片集合。首先对这些图片进行颜色直方图、视觉单词以及方向梯度直方图特征的提取,然后将三种特征进行归一化与融合,这样每张图片都投影到了一个2450维的特征空间中。在归一化的过程中,使用了归一化到0.1到0.9的归一化方法。例如,所有图片的颜色直方图特征中,最大值是max,最小值是min,那么对于某一个维的值x,归一化后的特征值将变为0.1+(x-min)(max-min)×(0.9-0.1)。这样一来,颜色直方图特征的最小值被转化到0.1,最大值转化到0.9,其他的值按比例转化到[0.1,0.9]的区间中。对每种特征进行归一化之后再进行拼接融合就不会导致由于某种特征的均值较大而使得其更加重要的误差出现。
完成图像的预处理过程后,将10个图片集及其对应的摘要图片集输入隐结构支持向量机中进行训练,得到2450维的特征权重系数w。然后从数据库中取出一个训练集以外的图片集合进行摘要集合预测。在预测过程中,训练好的系数w不变而针对不同主题则会学习出不同的特征偏好。
图1是用户的输入图片集“flying_objects”,图2是隐结构支持向量机输出的摘要图片集合。
Claims (2)
1. 一种基于隐结构学习的图像摘要生成方法,其特征在于包括如下步骤:
1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征;
2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;
3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集合中不同主题相关的图片集合进行权重系数学习;
4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集合,预测出它们的隐含的特征选择偏好并生成与图片集合对应的摘要图片集合。
2.根据权利要求1所述的一种基于隐结构学习的图像摘要生成方法,其特征在于,所述的步骤1)包括:
1.1)对数据库内的所有图片在HSV颜色空间中进行颜色特征提取,首先将图片中的每一个像素计算其在HSV颜色空间中的表达,然后将HSV颜色空间均匀地划分为450个区域,最后对每个区域统计落在其中的像素个数,形成450维的颜色直方图特征;
1.2)对数据库内的每张图片的每个像素,计算它与周围像素之间的差异性,得到128维的SIFT特征点;然后在得到的SIFT特征点基础上,利用K-means方法进行聚类,聚类得到的1000个SIFT点类别就形成了1000维的视觉单词特征;
1.3)对数据库内的每张图片进行8×8的块划分;对每个划分好的块,计算它与周围块之间的方向梯度;将方向梯度特征的取值范围均匀划分为1000个区域,统计落在这1000个区域中的方向梯度特征数量,就得到了1000维的方向梯度直方图特征;
所述的步骤2)包括:
2.1)将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序,依次连接融合,得到2450维特征;
2.2)对上面得到的2450维的融合特征,利用如下公式,将原特征值进行归一化,归一化后,特征的取值范围统一变为0.1到0.9;
所述的步骤3)包括:
3.1)为实现交叉验证,多次从数据库中设计训练集合,并取出其中的主题图片集合;
3.2) 将权重系数w初始化为零向量,将隐藏特征选择变量h初始化为全1向量,通过以下的次梯度下降算法同时对w和h进行优化求解,最终输出训练好的权重系数w;
所述的步骤4)包括:
4.1)多次从数据库中取出不同的需要进行摘要生成的图片集合,将与这个集合相关的隐变量h初始化为全1的向量;
4.2)将步骤3)中学习得到的权重系数w带入下述贪心算法选择出符合给定长度的摘要图像集合,并在贪心算法每一次选择的同时优化得到最终的隐藏特征选择变量h。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410623.1A CN103530656B (zh) | 2013-09-10 | 2013-09-10 | 基于隐结构学习的图像摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310410623.1A CN103530656B (zh) | 2013-09-10 | 2013-09-10 | 基于隐结构学习的图像摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103530656A CN103530656A (zh) | 2014-01-22 |
CN103530656B true CN103530656B (zh) | 2017-01-11 |
Family
ID=49932652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310410623.1A Active CN103530656B (zh) | 2013-09-10 | 2013-09-10 | 基于隐结构学习的图像摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103530656B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123382B (zh) * | 2014-07-31 | 2018-08-10 | 合肥工业大学 | 一种社会媒体下的图像集摘要生成方法 |
CN105389583A (zh) * | 2014-09-05 | 2016-03-09 | 华为技术有限公司 | 图像分类器的生成方法、图像分类方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003041012A1 (en) * | 2001-11-07 | 2003-05-15 | Davar Pishva | Image highlight correction using illumination specific hsv color coordinates |
CN102024030A (zh) * | 2010-11-30 | 2011-04-20 | 辽宁师范大学 | 基于最大期望参数估计的多分类器集成方法 |
CN102542050A (zh) * | 2011-12-28 | 2012-07-04 | 辽宁师范大学 | 基于支持向量机的图像反馈方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106668B (zh) * | 2011-11-09 | 2016-08-03 | 佳能株式会社 | 基于颜色直方图来描述图像区域的方法和系统 |
-
2013
- 2013-09-10 CN CN201310410623.1A patent/CN103530656B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003041012A1 (en) * | 2001-11-07 | 2003-05-15 | Davar Pishva | Image highlight correction using illumination specific hsv color coordinates |
CN102024030A (zh) * | 2010-11-30 | 2011-04-20 | 辽宁师范大学 | 基于最大期望参数估计的多分类器集成方法 |
CN102542050A (zh) * | 2011-12-28 | 2012-07-04 | 辽宁师范大学 | 基于支持向量机的图像反馈方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103530656A (zh) | 2014-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cetinic et al. | A deep learning perspective on beauty, sentiment, and remembrance of art | |
CN110188228B (zh) | 基于草图检索三维模型的跨模态检索方法 | |
Gosselin et al. | Revisiting the fisher vector for fine-grained classification | |
CN107944035B (zh) | 一种融合视觉特征和用户评分的图像推荐方法 | |
CN106096542B (zh) | 基于距离预测信息的图像视频场景识别方法 | |
Bui et al. | Scalable sketch-based image retrieval using color gradient features | |
CN101477529B (zh) | 一种三维对象的检索方法和装置 | |
CN106844518B (zh) | 一种基于子空间学习的不完整跨模态检索方法 | |
CN101763429A (zh) | 一种基于颜色和形状特征的图像检索方法 | |
CN102750347B (zh) | 一种用于图像或视频搜索重排序的方法 | |
CN102629279B (zh) | 一种用于图像或视频搜索重排序的方法 | |
CN103186538A (zh) | 一种图像分类方法和装置、图像检索方法和装置 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN105868706A (zh) | 一种基于稀疏自编码的三维模型识别方法 | |
Hu et al. | RGB-D semantic segmentation: a review | |
Zhang et al. | 3D object retrieval with multi-feature collaboration and bipartite graph matching | |
CN104484347B (zh) | 一种基于地理信息的层次化视觉特征提取方法 | |
Xia et al. | A regularized optimization framework for tag completion and image retrieval | |
CN113392244A (zh) | 一种基于深度度量学习的三维模型检索方法及系统 | |
CN102831161B (zh) | 用于图像检索的基于流形正则化的半监督排序学习方法 | |
CN107506362A (zh) | 基于用户群优化的图像分类仿脑存储方法 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
KR20120047622A (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN103530656B (zh) | 基于隐结构学习的图像摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20140122 Assignee: TONGDUN HOLDINGS Co.,Ltd. Assignor: ZHEJIANG University Contract record no.: X2021990000612 Denomination of invention: Image summarization generation method based on implicit structure learning Granted publication date: 20170111 License type: Common License Record date: 20211012 |
|
EE01 | Entry into force of recordation of patent licensing contract |