CN110909724B

CN110909724B - 一种多目标图像的缩略图生成方法

Info

Publication number: CN110909724B
Application number: CN201910948957.1A
Authority: CN
Inventors: 程文刚; 姜晓萌; 胡海涛
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2023-11-28
Anticipated expiration: 2039-10-08
Also published as: CN110909724A

Abstract

本发明致力于针对多目标图像生成高质量的缩略图，属于图像处理、图像分析、计算机视觉领域。所述方法包括以下步骤：(1)结合目标识别网络和显著性检测网络，输入图像，生成裁剪框候选集；(2)提取图像中的前景目标及后景，构造前景目标和背景的图关系，并转换为美学特征向量；(3)采用SVM分类器，输入大量正负样本，训练美学评价模型；(4)将裁剪框候选集输入得到的美学评价模型，即可生成高美学评价的缩略图。该发明既保证生成的缩略图不遗失原始图像的重要信息，又兼顾了人们对图像的美学要求。

Description

一种多目标图像的缩略图生成方法

技术领域

本发明涉及图像分割、图像分析、计算机视觉领域，具体是一种多目标图像的缩略图自动生成方法。

背景技术

近年来，随着互联网的快速发展，图像也成为了传播信息的重要媒介，被广泛应用。例如淘宝网的商品展示和YouTube、爱奇艺等视频网站的信息都主要通过图像或视频的形式表达。这些大型网站的每个网页都包含数百个图像或视频，如何更有效的利用展示空间，减少传输时间成了需要解决的问题。缩略图便由此提出。

缩略图是原始图像尺寸缩小的图像，能够在一定的尺寸和长宽比基础上清晰表达原始图像所包含的内容。缩略图有如下几个特点：(1)缩略图应保证前景的可见性；(2)缩略图应易于视觉捕获；(3)缩略图应保证全局代表性。早期，研究人员们提出了基于细缝裁剪的改进算法，主要通过对整张图像进行缩放，但是不能保证缩略图的前景可识别性，并且容易出现扭曲变形等情况。之后，有人提出基于显著性的裁剪方法，通过提取图像最显著部分选择裁剪部分，该方法能够突出显示前景内容，但是失去了全局代表性。目前生成缩略图的方法主要是基于裁剪加缩放的方式，通过两者的结合，很好的兼顾了全局代表性和前景可见性等特点。

神经网络技术正发展得如火如荼，目标识别网络能够准确高效的检测出特定的目标，显著性检测能够通过神经网络检测到具有代表性的区域。而将目标识别和显著性检测应用到缩略图生成技术中，能够极大地提高裁剪区域的前景可见性和全局代表性。此外，现有的图像缩略图生成方法中，基本都是通过单独的显著性检测或目标检测等确定裁剪区域。对于多目标图像，这些方法不能够很好的保证重要目标的完整性及和目标长宽比的匹配度。

发明内容

本发明的目的在于通过深度学习的方法生成兼顾图像目标选取和图像重要信息的缩略图。首先，通过Faster R-CNN网络和Deep Convnet网络对原图进行目标位置计算和显著性检测，以一定的规则进行区域结合，从而确定初始区域并且在初始区域周围生成一系列长宽比和目标缩略图相近的候选集。然后，通过构造无向图关系，再将多目标图像中背景和前景目标的关系转换为美学特征向量，并且经过美学评价模型对候选集进行美学评分，选择得分最高的候选区域进行裁剪缩放生成缩略图。本发明通过以下步骤实现：

步骤1、结合目标识别网络和显著性检测网络，输入图像，生成裁剪候选集；

步骤2、分离前景目标和背景，构建前景目标与背景的图关系模型；

步骤3、将图关系转换为特征向量；

步骤4、输入大量正负样本训练美学评价模型；

步骤5、将裁剪框候选集输入得到的美学评价模型，输出缩略图；

上述方法步骤1中，本发明通过目标识别网络Faster R-CNN检测目标、显著性检测网络Deep Convnet检测显著性，再将目标区域与显著性区域结合，确定初始区域，并在初始区域周围设定与目标缩略图长宽比相近的裁剪框，该裁剪框集合即为裁剪候选集。

上述方法步骤2中，本发明通过显著性检测手段检测出前景目标，使用图像修补技术Generative Inpainting修补移除前景目标后的图像，得到背景。

上述方法步骤2中，本发明构建前景目标与背景的图关系的具体步骤为：

(1)将前景目标与背景看作图中的“点”，通过显著性检测方法寻找背景中的显著性区域，将显著性区域的中心点设为背景点；

(2)将前景目标按占图像总面积比的大小顺序排列，选取其中最大的5个目标，取其中心点为目标点；

(3)构造无向图：

G＝(V,E)；

V＝{g，V_l＝{v₁，v₂，…，v_n}}；

E＝{E_g＝{(g,v_i)},E_l＝{(v_j,v_k)}(i，j，k＝1,2,…,n)；

其中，V表示无向图G的顶点集合，g表示背景点，V_l表示目标点的集合，E表示G边的集合,E_g表示背景点与目标点的边集合，E_l表示目标点之间的边集合，n表示目标点个数。

上述方法步骤3中，本发明用特征向量表示图关系，我们将构造两个不同的特征向量：

局部属性：Φ(i,j)＝{dist(i,j),θ(i,j),σ(i,j)},v_i,v_j∈V_l；

全局属性：Φ(i,g)＝{dist(i,g),θ(i,g),area(i)}；

其中，i,j表示目标点，g表示背景点；dist(i,j)表示目标点之间的距离，θ(i,j)表示两个目标点的边与水平线的夹角，σ(i,j)表示两个目标之间边界框的重叠量；dist(i,g)表示目标点和背景点之间的距离，θ(i,g)表示目标点和背景点的边与水平线的夹角，area(i)表示目标区域面积。

上述方法步骤4中，本发明制作正负样本数据集的方法为：从摄影图片分享平台Flickr下载200张包括草原、高山、海滩和沙漠等不同类别的多目标风景图像作为正样本，同时将正样本图像做随机裁剪，生成负样本数据集。

上述方法步骤4中，本发明使用的美学评价模型的训练过程为：大量正负样本转换为美学特征向量输入SVM分类器，输出为二维向量，分别表示与正负样本的相似度，与正样本相似度越高，表示其更具有美学效果。

上述方法步骤5中，本发明的最终步骤为：将裁剪框候选集输入美学评价模型，美学评价得分最高的即为缩略图裁剪区域，并按此区域对原始图像进行裁剪，最终得到高美学评价缩略图。

附图说明

图1是本方法的总体结构图。

具体实施方式

以下结合附图及实例对本发明进一步详细说明。

本发明涉及缩略图生成技术，结合图像处理和深度学习算法，提出了一种生成兼顾全局代表性和前景可见性并美学评价较高的缩略图方法。如附图1所示，本方法主要由裁剪框候选集生成模块、美学特征构建、美学模型训练这几个模块构成。

缩略图生成第一步需要确定图像的裁剪区域，本发明结合目标识别网络和显著性检测网络来确定图像裁剪的初始区域。首先，对目标检测网络和显著性检测网络进行训练，并生成相应的网络模型，通过网络模型计算目标位置和显著区域。训练网络主要通过PASCAL VOC 2012和SALICON数据集对目标识别网络Faster R-CNN和显著性检测网络DeepConvnet进行训练，并生成相应的网络模型。计算初始区域位置坐标主要将原图分别输入到Faster R-CNN和Deep Convnet网络中。经过Faster R-CNN网络计算输出图像中每个目标的确切位置坐标，每个图像的位置坐标为四维向量，分别为目标区域左上角横纵坐标以及区域的宽和高。经过Deep Convnet网络计算输出值域为[0-255]的图像矩阵，通过与实验设定的阈值比较，输出像素值大于阈值的区域坐标。在得到两个网络输出的位置坐标后，通过算法中包含、相离、相交的规则对坐标表述的区域进行计算，最终输出初始区域的四维向量。

包含：目标区域和重要度图区域的包含情况有两种，分别是重要度图区域包含目标区域或目标区域包含重要度图区域。由于在包含的情况下，更大的区域范围将包含更多的重要信息，所以无论是目标区域包含重要度图区域还是重要度图区域包含目标区域，都选取面积最大的区域作为初始区域。

相离：如果目标区域和重要度图区域相离，则表示相离的目标在整幅图中是不重要的。同时，为了保证产生的初始区域能够以最小的范围包含更多的重要信息，所以在确定初始区域时，将相离的目标舍弃，选择重要度区域作为初始区域。

相交：如果目标区域和重要度区域相交，则说明相交的目标是不可忽略的，其在整个图像中为重要前景，在确定初始区域时应将相交目标包含其中。整个过程通过重要度图确定了目标的重要性，再通过目标的确切位置保证目标完整性，使得最终确定的初始区域既包含重要信息，又能够保证包含的目标完整。

初始区域有效的包含了所要保留的重要前景信息，在全局代表性方面将通过生成候选集的方式保留部分背景信息，从而提高对整个图像的代表性。同时，候选集的生成一定程度决定了后续裁剪图像的长宽比，为了能够保证最后裁剪区域的长宽比与目标缩略图的长宽比尽可能接近，在生成候选集时将目标缩略图的长宽比考虑进去，使得所生成的候选集本身和目标缩略图的长宽比相近。候选集生成过程中，首先在初始区域外围生成一系列尺寸不同的待调候选框，每个待调候选框都包含初始区域，然后通过对待调候选框的长宽进行调整，生成和目标缩略图长宽比一致的候选框。设r＝{8,16,32,64}为初始区域左上角坐标偏移量，s＝{16,32,64,128}为宽高偏移量，初始区域q＝[q_x,q_y,q_w,q_h]，候选框p＝[p_x,p_y,p_w,p_h]。候选框的坐标计算如下列公式：

p_x＝max((q_x-r[i]),0)p_y＝max((q_y-r[i]),0)

p_w＝min((q_w+s[i]),width)p_h＝min((q_h+s[i]),height) (公式1)

式中，i表示初始区域偏移量集合r和s的索引位置，width和height分别表示图像的宽和高，并且必须保证r[i]≤s[i]，从而保证候选区域必须包含初始区域。

生成一系列没有限定长宽比的候选框后，再对候选框的长或宽进行调整，使其和目标缩略图长宽比相近。设目标缩略图的长宽比为α，候选框长宽比为β，调整后的候选框坐标为p′＝[p_x′,p_y′,p_w′,p_h′]。调整候选框有3种情况：当α＝β，候选框不需要调整，长宽比保持不变；当α>β，候选框的调整如公式2：

p_h′＝p_h p_x′＝p_x (公式2)

当α<β，候选框的调整如公式3：

p_w′＝p_w p_y′＝p_y (公式3)

由以上步骤生成一系列候选框即成为裁剪候选框集合。

之后由附图1可知，在训练美学模型之前，需要先构建美学特征向量。本发明将通过构造目标和背景之间的图关系评价整幅图像的美学效果。图关系主要由节点以及边组成，通过节点、边以及边的权重可以直观的表达出各个节点之间的关系。对图像构造目标和背景之间的关系时，将背景和前景目标都看作图的一个节点，而节点之间的边看作是前景目标和背景之间的关系。整个构造过程包括背景点的选取、目标点选取以及构造图关系。

背景点的选取：首先将原图像的目标移除，再通过图像修补方法对移除目标的区域进行修补，生成去除目标的背景图像。本文的修补方法使用Generative Inpainting，使得最终修补生成的背景图像更加真实。最后对背景图像仍使用Deep Convnet网络对其进行显著性检测，确定背景图像显著区域中心作为背景点。

目标点的选取：首先通过目标识别网络计算图像中每个目标的位置坐标，并计算其所占区域面积，然后对每个目标在全局图像的面积占比进行排序，最终按照面积占比从大到小依次选择5个目标，并以该目标区域的中心点为目标点的位置。

构造无向图：

G＝(V,E)；

V＝{g，V_l＝{v₁，v₂，…，v_n}}；

E＝{E_g＝{(g,v_i)},E_l＝{(v_j,v_k)}(i，j，k＝1,2,…,n)；(公式4)

图关系转换为特征向量表示，我们将构造两个不同的特征向量：

局部属性：Φ(i,j)＝{dist(i,j),θ(i,j),σ(i,j)},v_i,v_j∈V_l；

(公式5)

全局属性：Φ(i,g)＝{dist(i,g),θ(i,g),area(i)}；

(公式6)

训练美学评价模型：通过MOL数据集对SVM分类器进行训练，生成能够对美学特征向量分类评分的模型。MOL数据集是从摄影图片分享平台Flickr下载200张包括草原、高山、海滩和沙漠等不同类别的多目标风景图像作为正样本，同时将正样本图像做随机裁剪，生成负样本数据集，最终整个数据集扩充为450张训练集样本，100张测试集样本。

最后，将候选集输入美学评价模型，最终选择的裁剪区域能够很好的保留图像中重要的信息。并且所包含的重要目标完整且没有被切割，解决了目前缩略图生成方法在多目标图像中效果较差的问题。同时，通过对候选集长宽比的调整和构造美学特征，使得最终生成的缩略图能够很好的保证全局代表性，并也尽可能减少了图像缩放时扭曲变形的问题。

Claims

1.一种多目标图像缩略图的生成方法，其特征在于，该生成方法包括以下步骤：

步骤1、结合目标识别网络Faster R-CNN和显著性检测网络Deep Convnet，输入图像，生成裁剪候选集；

步骤2、分离前景目标和背景，构建前景目标与背景的图关系模型,包括以下子步骤：

(3)按照如下方式构造图：

G＝(V,E)；

V＝{g，V_l＝{v₁，v₂，…，v_n}}；

E＝{E_g＝{(g,v_i)},E_l＝{(v_j,v_k)}(i，j，k＝1,2,…,n)；

其中，V表示无向图G的顶点集合，g表示背景点，V_l表示目标点的集合，E表示无向图G边的集合,E_g表示背景点与目标点的边集合，E_l表示目标点之间的边集合，n表示目标点个数；

步骤2中所述的分离前景目标和背景是通过目标识别网络提取前景目标，再使用图像修补技术对前景目标移除后的图像进行修补，得到无目标的背景；

步骤3、将图关系转换为特征向量，具体是根据不同属性构造两个不同的特征向量：

局部属性：Φ(i,j)＝{dist(i,j),θ(i,j),σ(i,j)},v_i,v_j∈V_l；

全局属性：Φ(i,g)＝{dist(i,g),θ(i,g),area(i)}；

其中，i,j表示目标点，g表示背景点；dist(i,j)表示目标点之间的距离，θ(i,j)表示两个目标点的边与水平线的夹角，σ(i,j)表示两个目标之间边界框的重叠量；dist(i,g)表示目标点和背景点之间的距离，θ(i,g)表示目标点和背景点的边与水平线的夹角，area(i)表示目标区域面积；

步骤4、输入大量正负样本训练美学评价模型；

步骤5、将裁剪框候选集输入得到的美学评价模型，生成高美学评价的缩略图。

2.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤1中使用目标识别网络Faster R-CNN检测目标，显著性检测网络Deep Convnet检测显著性，再将目标区域与显著性区域结合，兼顾了图像显著信息的保留和图像中目标的选取，使得确定的初始区域既包含图像显著区域的重要信息，也包含具有显著性的完整目标。

3.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤1中所述的目标识别网络Faster R-CNN，其Faster R-CNN模型是由Fast R-CNN和RPN模型构成，通过共享卷积层特征，交替训练的方式将Fast R-CNN和RPN融合为一个整体网络结构；Faster R-CNN目标检测算法能够将输入图像的目标识别出来，并输出每个目标确切的位置，其位置区域表示为[x,y,width,height]，分别代表目标区域左上角坐标以及宽度和高度。

4.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤1中所述的显著性检测网络Deep Convnet，其网络结构由8个卷积层，2个池化层和1个反卷积层构成，前三个卷积层在训练时通过迁移学习使用VGG的参数初始化；在网络结构中每一层之后加入Relu激活函数，并在最终卷积之后通过反卷积层产生与输入宽度和高度匹配的显著图。

5.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤1中所述的生成裁剪候选集过程为：首先将目标区域和显著性区域结合生成初始区域，然后在初始区域外围生成一系列尺寸不同的待调候选框，通过对待调候选框的长宽进行调整，生成和目标缩略图长宽比一致的候选框。

6.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤4中所述的大量正负样本是指从摄影图片分享平台Flickr下载200张包括草原、高山、海滩和沙漠的不同类别的多目标风景图像作为正样本，同时将正样本图像做随机裁剪，生成负样本数据集。

7.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤4中所述的美学评价模型的训练过程为：大量正负样本转换为美学特征向量输入SVM分类器，输出为二维向量，分别表示与正负样本的相似度，与正样本相似度越高，表示其更具有美学效果。

8.根据权利要求1所述多目标图像缩略图的生成方法，其特征在于，步骤5中所述的缩略图的生成是指将裁剪框候选集输入美学评价模型，美学评价得分最高的即为缩略图裁剪区域，并按此区域对原始图像进行裁剪，最终得到高美学评价缩略图。