CN111369124A

CN111369124A - 一种基于自生成全局特征和注意力的图像美学预测方法

Info

Publication number: CN111369124A
Application number: CN202010125300.8A
Authority: CN
Inventors: 徐亦飞; 张诺; 李晓; 徐武将; 尉萍萍; 朱利
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-03

Abstract

本发明公开了一种基于自生成全局特征和注意力的图像美学预测方法，对深度分类网络中的自生成全局特征和注意力机制模块进行优化训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度，使用面向有序分类的深度学习网络对图形美学进行评估，采用面向有序分类的混合损失函数，无需手工提取特征时需要的技巧性，发觉隐藏在图像和美学评分之间的关联性，突破对图像美学二分的分类方法；本发明在深度网络中嵌入注意力机制和自生成全局特征，在对图像整体进行评估的同时，重点提取相关的图像元素特和图像整体的全局特征，实现更加精准的图像美学评估。

Description

一种基于自生成全局特征和注意力的图像美学预测方法

技术领域

本发明属于人工智能技术领域，涉及一种基于自生成全局特征和注意力的图像美学预测方法。

背景技术

图像美学预测是一个经典的机器视觉任务，它为图像美化，图像排序，图像检索等多媒体应用奠定了基础。特别在商业应用中，修图师需要对海量的原始图片进行筛选，传统的手工挑选需要耗费的大量的人力财力。因此，如何能够对图像美学进行快速的评判是挑选图片的关键技术。

基于深度特征的图像美学预测方法，无需手工提取特征时需要的技巧性，发觉隐藏在图像和美学评分之间的关联性，已经成为图像美学预测的首选方法，然而当该类方法应用于实际的图像美学预测时，通常会遇到以下限制：1)大多数的图像美学预测方法将图像分类到高美学/低美学二分类，但是该分类方法在图像美化等领域不具备实用性，D.Liu,R.Puri,N.Kamath,S.Bhattacharya,2019,Modeling image composition for visualaesthetic assessmen提出了评估图像组成部分对图像整体美学进行评分，尽管该方法在AVA等实验数据集取得较好的效果，但是因缺乏对图像更多等级的评分，无法满足修图师日常的筛图需求。2)当前的基于卷积神经网络的方法忽略图像中不同组成部分对最终图像美学评估的权重影响，导致现有的图像评价方法无法集中在图像的受注意区域。H.Talebi,P.Milanfar，2019,Nima:Neural image assessment提出使用深度特征将图像划分为10个连续的等级，但因未考虑图像中不同元素起到的作用不同，在对元素多元的图像评估效果不佳。3)基于卷积神经网路的方法忽略了对图像的美学评价应当依赖可以反映图像的整体光线特征或者物体类别等信息的总体特征，导致现有的图像美学评价方法集中在局部特征领域，无法客观的反映出图像的整体美学信息。Predicting image aesthetics usingobjects in the scene,in:Proceedings of the 2018International Joint Work-shopon Multimedia Artworks Analysis and Attractiveness Computing inMultimedia,ACM,2018,pp.14–1将图中的目标信息完整性当做美学评价指标，但缺乏对图像整体信息的描述，导致模型在目标较多或者无明显目标的情形下表现不佳。

发明内容

本发明的目的在于提供一种基于自生成全局特征和注意力的图像美学预测方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种基于自生成全局特征和注意力的图像美学预测方法，包括以下步骤：

步骤1)、对深度分类网络中的自生成全局特征和注意力机制模块进行优化训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度；

步骤2)、采用训练后的深度分类网络进行图像的特征提取，对于提取的图像特征进行图像美学评价参数，基于图像美学评价参数进行图像美学的评分。

进一步的，深度分类网络采用基于深度卷积的分类网络，以RGB图像及其多个得分数值作为分类网络的输入，分类网络的输出为图像的美学预测得分分布。

进一步的，自生成全局特征用于分析深度分类网络的网络结构，通过跳转连接和压缩连接融合局部特征和全局特征，在提取局部特征的同时保存全局特征。

进一步的，注意力机制模块考虑图像通道信息和图像空间信息，表示图像包含的与分类任务相关的目标信息，自生成全局特征和注意力机制模块嵌入在深度卷积分类的任意相连的特征图之间。

进一步的，深度分类网络采用RGB图像及RGB图像多个得分数值进行训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度。

进一步的，深度分类网络的训练具体包括以下步骤：

步骤1、采集输入图片并将其划分为训练集T_train和测试集T_test；

步骤2、随机初始化面向分类的网络S(·)中的权重参数、学习率和批大小；

步骤3、将输入图像T_train中的图像X输入到深度分类网络S(·)，使用adam优化方法训练分类网络的目标函数，当训练的回合次数大于最大回合次数E时，训练停止，完成模型S(·)的训练；

步骤4、将测试集T_test通过步骤3)保存的训练模型S(·)得到得分分布向量P_i，并通过平均得分公式计算得分D_i。

进一步的，深度分类网络优化目标为最小化如式(2)所示的损失函数:

L＝αL_s+βL_emd (4)

其中α和β为权重参数，且满足α+β＝1，L_s和L_emd分别为softmax交叉熵损失函数和基于EMD损失函数，EMD通过式(3)得到：

其中CDF_p(k)和

分别为P和

的累加分布，k为类别索引，r＝2。

进一步的，深度分类网络优化训练时采用带有Adam加速器的随机梯度下降方法对目标函数进行优化，其中动量为0.9，权重衰减为10^-4，初始化学习率为2.5×10^-3，最大迭代数E＝100。

进一步的，注意力机制模块应用模型在特征图

运用的结果为：

其中

为矩阵的点乘运算，U'和U”分别为通道注意力机制模块和空间注意力机制模块运用到特征图

上的结果。

进一步的，自生成全局特征的生成：针对大小为M×M×N的分类器特征图，首先将其缩小为M/2×M/2×N，再将其收缩为M/4×M/4×N，对于收缩层M/4×M/4×N，使用SELU激活函数和两个全连接层和SELU激活函数收缩成大小为1×1×N的特征图，然后，将大小为1×1×N的特征图复制成大小为M×M×N的特征图，并与最初大小为的M×M×N特征图相连接形成大小为M×M×2N的特征图，最终，将大小为M×M×2N的特征图收缩为M×M×N。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种基于自生成全局特征和注意力的图像美学预测方法，对深度分类网络中的自生成全局特征和注意力机制模块进行优化训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度，使用面向有序分类的深度学习网络对图形美学进行评估，采用面向有序分类的混合损失函数，无需手工提取特征时需要的技巧性，发觉隐藏在图像和美学评分之间的关联性，突破对图像美学二分的分类方法；本发明在深度网络中嵌入注意力机制和自生成全局特征，在对图像整体进行评估的同时，重点提取相关的图像元素特和图像整体的全局特征，实现更加精准的图像美学评估。

进一步的，使用面向多类的深度分类网络，可根据实际应用需要选取任意的兼容注意力机制模块和自生成全局特征的深度分类网络，本发明使用的混合损失函数同时考虑有序分类和无序分类，分类结果更加精准。

进一步的，使用注意力机制和自生成全局特征，可根据分类结果使深度分类网络在专注需要注意的区域的同时也关注图像的整体美学，有效的提升深度分类网络的性能，从而实现更加精准的图像美学预测。

附图说明

图1为本发明的总体网络架构图。

图2为Inception_resenet_v2为深度分类网络的图像美学评价方法图。

图3为深度分类网络和注意力机制模块计算流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

图1至图3所示，一种基于自生成全局特征和注意力的图像美学预测方法，包括以下步骤：对深度分类网络中的自生成全局特征和注意力机制模块进行训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度；采用训练后的深度分类网络进行图像的特征提取，对于提取的图像特征进行图像美学评价参数，基于图像美学评价参数进行图像美学的评分。

深度分类网络采用基于深度卷积的分类网络，以RGB图像及其多个得分数值作为分类网络的输入，分类网络的输出为图像的美学预测得分分布。

自生成全局特征用于分析深度分类网络的网络结构，通过跳转连接和压缩连接融合局部特征和全局特征，在提取局部特征的同时保存全局特征；注意力机制模块同时考虑图像通道信息和图像空间信息，表示图像包含的与分类任务相关的目标信息，自生成全局特征和注意力机制模块嵌入在深度卷积分类的任意相连的特征图之间。

深度分类网络的训练：深度分类网络采用RGB图像及RGB图像多个得分数值进行训练，其训练的目标为最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度；训练完毕后，通过求取预测得分分布的得分，得到最终图像美学预测评价参数，即得到最终图像美学预测评价得分。

具体包括以下步骤：

设输入图像X的图像大小为H×W×C，其中H,W分别为图像的高与宽，C为输入图像的通道；深度分类网络为S(·)，深度分类网络的分类类别为N,输出为图像得分布向量P＝S(X)，图像的真实得分分部向量为

图像的预测平均得分为D_i，图像的真实平均得分为

最大回合E；

步骤1)、采集输入图片并将其划分为训练集T_train和测试集T_test；步骤2)、随机初始化面向分类的网络S(·)中的权重参数、学习率和批大小；步骤3)、将输入图像T_train中的图像X输入到深度分类网络S(·)，使用adam优化方法训练分类网络的目标函数，当训练的回合次数大于最大回合次数E时，训练停止，完成模型S(·)的训练，然后进行模型保存；步骤4)、将测试集T_test通过步骤3)保存的训练模型S(·)得到得分分布向量P_i，并通过平均得分公式计算得分D_i。

如图3所示，

为特征图，1维的通道注意力图为

2维的空间注意力图为

注意力机制模块应用模型在特征图

运用的结果为：

其中

上的结果。

自生成全局特征包括两个收缩层与其相关的其它部分，每个收缩层由步幅为2的5×5的滤波器、SELU激活函数和批量归一化(Batch Normalization，BN)组成，具体来说，针对大小为M×M×N的分类器特征图，首先将其缩小为M/2×M/2×N，再将其收缩为M/4×M/4×N，接着，对于收缩层M/4×M/4×N，通过使用SELU激活函数和两个全连接层和SELU激活函数收缩为1×1×N特征图，然后，将特征图1×1×N复制成M×M×N，并与最初的M×M×N特征图相连接形成大小为M×M×2N的特征图，最终，将大小为M×M×2N的特征图收缩为M×M×N，上述的自生成全局特征的生成基于深度分类网络，融合了局部特征和全局特征。

对于深度分类网络，其优化目标为最小化如式(2)所示的损失函数

L＝αL_s+βL_emd (8)

其中α和β为权重参数，且满足α+β＝1，L_s和L_emd分别为softmax交叉熵损失函数和基于EMD(earth mover’s distance,搬土距离)损失函数，EMD通过式(3)得到：

其中CDF_p(k)和

分别为P和

的累加分布，k为类别索引，r＝2。

本申请采用美学视觉分析的基准数据库(AVA)来评估本方法，基准数据库(AVA)包含了从线上摄影社区网站(www.dpchallenge.com)上收集的250,000张图像。每张图像都由78到649名评分者进行打分，平均210人进行评分，分数范围为1到10。本实例随机选取230000张图像组成的训练集AVA-TR，以及包含T_test＝20000张图像的训练集。

如图2所示，深度分类网络包括Inception A,Inception B和Inception C三大模块，本申请在每个模块的的激活函数Relu层之前加入如式(1)所示的注意力机制模块，并在主干网络中加入自适应全局特征模块。

训练深度分类网络时，使用带有Adam加速器的随机梯度下降方法对目标函数进行优化，其中动量(momentum＝0.9),权重衰减(weight decay＝10^-4)，初始化学习率为2.5×10^-3，并随着幂为0.95进行多项式衰减。最大迭代数E＝100,在每一次迭代中，本实例同时对分割网络和判定网络进行联合更新，当迭代数大于最大迭代数时候，训练停止并保存训练模型。

本申请使用T_test＝2300张美学图片对上述深度分类网络训练，然后对模型性能进行预测。如式(4)所示，均方根差MSE是在图像美学评估领域的重要的评价指标，该指标越低，证明效果越好，本实例通过计算训练T_test个样本的预测评分得分和真实平均得分的标准差得到MSE的值为0.262，相比未使用注意力机制和EMD损失函数的方法，效果提升了25％。

利用本发明中叙述的方法对图像的美学进行评估，最终得到对图像美学的平均打分。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，深度分类网络采用基于深度卷积的分类网络，以RGB图像及其多个得分数值作为分类网络的输入，分类网络的输出为图像的美学预测得分分布。

3.根据权利要求1所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，自生成全局特征用于分析深度分类网络的网络结构，通过跳转连接和压缩连接融合局部特征和全局特征，在提取局部特征的同时保存全局特征。

4.根据权利要求3所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，注意力机制模块考虑图像通道信息和图像空间信息，表示图像包含的与分类任务相关的目标信息，自生成全局特征和注意力机制模块嵌入在深度卷积分类的任意相连的特征图之间。

5.根据权利要求1所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，深度分类网络采用RGB图像及RGB图像多个得分数值进行训练，最小化输入得分分布和预测得分分布的差异，得到预测得分分布和真实得分输入分布的相似度。

6.根据权利要求5所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，深度分类网络的训练具体包括以下步骤：

7.根据权利要求6所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，深度分类网络优化目标为最小化如式(2)所示的损失函数:

L＝αL_s+βL_emd (1)

其中CDF_p(k)和

分别为P和

的累加分布，k为类别索引，r＝2。

8.根据权利要求7所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，深度分类网络优化训练时采用带有Adam加速器的随机梯度下降方法对目标函数进行优化，其中动量为0.9，权重衰减为10^-4，初始化学习率为2.5×10^-3，最大迭代数E＝100。

9.根据权利要求1所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，注意力机制模块应用模型在特征图

运用的结果为：

其中

上的结果。

10.根据权利要求1所述的一种基于自生成全局特征和注意力的图像美学预测方法，其特征在于，自生成全局特征的生成：针对大小为M×M×N的分类器特征图，首先将其缩小为M/2×M/2×N，再将其收缩为M/4×M/4×N，对于收缩层M/4×M/4×N，使用SELU激活函数和两个全连接层和SELU激活函数收缩成大小为1×1×N的特征图，然后，将大小为1×1×N的特征图复制成大小为M×M×N的特征图，并与最初大小为的M×M×N特征图相连接形成大小为M×M×2N的特征图，最终，将大小为M×M×2N的特征图收缩为M×M×N。