CN107392244B

CN107392244B - 基于深度神经网络与级联回归的图像美感增强方法

Info

Publication number: CN107392244B
Application number: CN201710587701.3A
Authority: CN
Inventors: 王菡子; 郭冠军; 刘祎; 严严
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2020-08-28
Anticipated expiration: 2037-07-18
Also published as: CN107392244A

Abstract

本发明实施例提供一种基于深度神经网络与级联回归的图像美感增强方法，包括以下步骤:S1，提供尺寸为C₀的原始图像，通过级联回归算法进行求解获得最小化目标；S2，通过AVA数据集与CHUKPQ数据集训练深度卷积神经网络的提取图像特征功能；S3，通过深度卷积神经网络提取深度特征x^t，并通过深度卷积神经网络的空间金字塔池化层将尺寸为C₀原始图像变转化为(2*2+3*3+4*4)*32的特征向量；S4，将提取的深度特征x^t应用于随机蕨回归器中，并采用梯度下降方法学习获得基元回归器，通过级联回归器

来输出候选结果C_j(1≤j≤4)；不断迭代直到误差不再减小，获得基元回归器

的最小化目标函数；S5，将步骤S4中获得的基元回归器

与深度特征x^t按照迭代的方式进行T次循环，通过多级循环剪切获得最终裁剪图像。

Description

基于深度神经网络与级联回归的图像美感增强方法

技术领域

本发明涉及计算机视觉的技术领域，具体而言，涉及一种基于深度神经网络与级联回归的图像美感增强方法。

背景技术

人类感知世界一个重要来源就通过图像信息，研究表明人类获取外界信息中大约有80％～90％的信息来自于人类眼睛获取的图像信息。而图像信息的理解不仅包括图像分类，物体检测，物体追踪等常见的计算机视觉任务，也包含图像的语义美感信息理解。图像的美感信息的理解有着丰富的应用，比如可以在图像存储库中向用户提供令人产生愉快的美感图像。一般消费者或者设计师可以利用来自动化的图像美感增强系统做出更好的决策。因此，运用计算机视觉实现自动图像美感增强具有重要的现实意义。

目前在学术界，图像美感增强是一个具有挑战性的问题。因为图像美感评价是一种高度主观的评价，难以使用详细的数学方法进行解释。尽管图像美感评价是主观的，人们仍然尝试使用图像中的美学特性来进行美感评价。例如，在2006年，Datta等人提出采用颜色，纹理以及其他低级视觉特征进行训练的分类树模型来进行图像美感评价，从而实现图像美感增强。具体来说，首先对美感图像提取手工设计的特征，然后训练机器学习模型，找出哪些视觉属性在美感评价中具有关键的作用，同时对这些部分进行增强。

原始图像的裁剪是图像美感增强中的重要的一步，目前学术界主流的图像裁剪方法可以分为三类。三大类第一类的方法是基于注意力的，这种裁剪方法围绕着原始图像中的信息对象，信息对象可以是原始图像中较为凸显的部分。例如，Marchesotti等人提出的视觉显著性框架，该框架对原始图像进行检测并从中获取一个或多个显著图。显著图通常是显著的前景区域而非信息对象则成为背景的一部分。Fang等还通过使用空间金字塔显著图方式对原始图像进行裁剪。第二类的方法则是基于裁剪结果的美学评价。采用机器学习的方式来定义裁剪区域同时也考虑了美学元素的空间分布，但是这种方法对如何保留原始图片过于关注。为克服上述问题，Yan等人提出了属于第三种的图像裁剪方法，这种方法称之为基于经验的图像裁剪方法。在该方法中，他们构建了多个裁剪数据集并由三名专业摄影人员对图像裁剪结果进行了注释。然后，提取各种手工特征训练了分类器对专业摄影人员的注释进行了回归。这种方法强调专业人士的经验以及由图像裁剪的操纵引起的变化。尽管这种方法取得了较好的结果，但仍然存在一些缺点。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于深度神经网络与级联回归的图像美感增强方法，以改善现有技术中数据缺乏标记、图像过于关注原图导致美感增强效果较差的问题。

本发明较佳实施例提供了基于深度神经网络与级联回归的图像美感增强方法，所述图像美感增强方法包括以下步骤:

S1，提供尺寸为C₀的原始图像，通过级联回归算法进行求解获得最小化目标为：

其中，

代表一个矩形区域，C为裁剪后图像的尺寸，

为数据集提供的图像裁剪尺寸；

S2，通过AVA数据集与CHUKPQ数据集提供的预训练图像数据，训练深度卷积神经网络的提取图像特征功能；

S3，通过深度卷积神经网络提取原图像的深度特征x^t，并通过深度卷积神经网络的空间金字塔池化层将尺寸为C₀原始图像变转化为特征向量；

S4，将提取的深度特征x^t应用于随机蕨回归器中，并采用梯度下降方法学习获得基元回归器，通过级联回归器

来输出候选结果C_j(1≤j≤4)；

其中，

被称为基元回归器，不断迭代直到误差不再减小，获得基元回归器

的最小化目标函数；

S5，将步骤S4中获得的基元回归器

进一步的，步骤S3中，通过深度卷积神经网络的空间金字塔池化层将尺寸为C₀原始图像变转化为特征向量，特征向量表示为(2*2+3*3+4*4)*32。

进一步的，步骤S4中，通过级联回归器

输出的候选结果C_j(1≤j≤4)是通过累加前j-1次基元回归器的回归值并加上图像初始尺寸值得到：

其中，基元回归器

的最小化目标函数表示为：

其中，Y_ij被称为目标标注，每一个特征向量对应了一个目标标注；

进一步的，步骤S5中，将步骤S4中获得的基元回归器

与深度特征x^t按照迭代的方式进行T次循环，通过多级循环剪切获得最终裁剪图像表示为：

其中，λ为收缩率。

进一步的，所述步骤S2中，具体包括以下步骤：

S21，当原始图像尺寸不是C₀时，对原始图像缩放或扩大为C₀；

S22，将AVA数据集与CHUKPQ数据集提供的预训练图像分为低质量与高质量，每个图像分别用于训练深度卷积神经网络；

优选的，深度卷积神经网络拥有五个卷积层和五个池化层，五个池化层分别为四个最大池化层和一个金字塔池化层；深度卷积神经网络的最大池化层使用2*2的区域。

优选的，深度卷积神经网络的第一个卷积层拥有32个5*5*3的卷积核，用于输出32个原始图像的特征图；之后采用修正线性单元激活函数以及最大池化层，每个卷积层均输出32个特征图；在最后一层使用空间金字塔池化层。

进一步的，所述步骤S4中，基元回归器通过在一组随机蕨回归器中利用梯度下降方法学习得到。

进一步的，所述步骤S5中，循环次数T大于30次。

本发明的有益效果是：基于深度神经网络与级联回归的图像美感增强方法，通过使用级联回归的方式，引入学习专业摄影师的知识来执行图像裁剪。通过两步学习策略解决数据缺乏标记的问题。首先在大型图像美感数据库上训练深度卷积神经网络并使用深度卷积神经网络对图像提取深度特征，然后运用级联回归算法对图像进行进一步的裁剪获取最终的图像美感增强结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实例的整体框架图。

图2为本发明实施例的提取卷积神经网络特征例图。

图3为本发明实施例的美感增强结果示意图。

图4为本发明实施例的美感增强结果示意图。

图5为本发明实施例的美感增强结果示意图。

图6为本发明实施例的美感增强结果示意图。

图7为本发明实施例的美感增强结果示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的发明构思是：对如何保留原始图片过于关注导致图像美感效果不佳，以及数据缺乏标记的问题。本发明基于深度神经网络与级联回归的图像美感增强方法，通过使用级联回归的方式，引入学习专业摄影师的知识来执行图像裁剪。通过两步学习策略解决数据缺乏标记的问题。首先在大型图像美感数据库上训练深度卷积神经网络并使用深度卷积神经网络对图像提取深度特征，然后运用级联回归算法对图像进行进一步的裁剪获取最终的图像美感增强结果。

基于深度神经网络与级联回归的图像美感增强方法，所述图像美感增强方法包括以下步骤:

其中，

代表一个矩形区域，C为裁剪后图像的尺寸，

为数据集提供的图像裁剪尺寸；

来输出候选结果C_j(1≤j≤4)；

其中，

的最小化目标函数；

S5，将步骤S4中获得的基元回归器

进一步的，步骤S4中，通过级联回归器

其中，基元回归器

的最小化目标函数表示为：

进一步的，步骤S5中，将步骤S4中获得的基元回归器

其中，λ为收缩率。

所述步骤S2中，具体包括以下步骤：

具体的，AVA数据集包含25万张图片，每张图片有210人打分，打分范围为1到10，将打分低于5的划分为低质量图像，将打分高于5的划分为高质量图像。CHUKPQ数据集包含从各种摄影网站收集的约30,000张图像，这些图像被标记为低质量或高质量。基于这两个数据集，分别用训练深度卷积神经网络提取图像的深度特征。

进一步的，所述步骤S5中，循环次数T大于30次。

本发明方法与其余算法在方法3所提供的美感区域裁剪数据集上的美感评价结果如下表所示(算法结果评价采用算法裁剪区域与专业摄影师裁剪区域的交并比计算得到)：

方法	数据集1	数据集2	数据集3
				方法1	0.203	0.178	0.199
方法2	0.396	0.394	0.386
				方法3	0.749	0.729	0.732
方法4	0.797	0.786	0.772
				本发明的方法	0.850	0.837	0.828

方法1对应为F.Stentiford等人提出的方法F.Stentiford,Attention basedauto image cropping,ICVS Workshop on Computational Attention&Application,2007.)；

方法2对应为M.Nishiyama等人提出的方法(M.Nishiyama,T.Okabe,Y.Sato,andI.Sato,Sensation-based photo cropping,in ACM MM,2009,pp.669–672.)。

方法3对应为J.Yan等人提出的方法(J.Yan,S.Lin,S.B.Kang,and X.Tang,Learning the change for automatic image cropping,in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),2013,pp.971–978.)。

方法4对应为J.Yan等人提出的方法(J.Yan,S.Lin,S.Kang,and X.Tang,Change-based image cropping with exclusion and compositional features,InternationalJournal of Computer Vision(IJCV),vol.114,pp.1–14,2015.)

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。