CN110473164B

CN110473164B - 一种基于注意力机制的图像美学质量评价方法

Info

Publication number: CN110473164B
Application number: CN201910553271.2A
Authority: CN
Inventors: 宋丹丹; 杨知水
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-05-31
Filing date: 2019-06-25
Publication date: 2021-10-15
Anticipated expiration: 2039-06-25
Also published as: CN110473164A

Abstract

本发明涉及一种基于注意力机制的图像美学质量评价方法，属于计算机视觉技术领域；首先处理训练数据，然后设计网络结构模型，采用轻量级深度网络作为主干网络，融入注意力机制模块；之后，基于数据均衡思想，设计用于训练网络的损失函数；最后用处理好的训练数据训练网络结构模型，得到一个具有自动评价图像美学质量的网络模型；并基于该模型对输入图片进行美学评分以及将该模型应用于拍摄以辅助用户实时拍出更加美观的图片。对比现有技术，本发明采用的网络结构模型能更加有效的提取图像的特征，采用的损失函数，极大增强了模型对数据的学习能力，相比于其他方法既提高了准确率，又减少了模型的参数量。

Description

一种基于注意力机制的图像美学质量评价方法

技术领域

本发明涉及一种基于注意力机制的图像美学质量评价方法，尤其涉及一种基于轻量级的卷积神经网络、融入注意力机制模块，利用基于数据均衡的损失函数来训练，自动得到图片美学质量得分的方法，属于计算机视觉技术领域。

背景技术

图像美学质量评价(Image Aesthetic Quality Assessment)是利用计算机模拟人的视觉对于美的理解与感受，根据图像的美学质量将其分为高质量/低质量图片，或做出一个客观的评价得分。由于图像美学的抽象性、主观性以及受众的差异性，对于计算机来说，客观的对图片进行美学范围上的评价，是一个极具有挑战性的任务。

图像美学质量评价通常分为两步，首先提取图像特征，再根据特征进行决策。传统的人工设计的特征，提取图像清晰度、亮度、颜色、对比度、景深等摄影学上的特征，或用通用的人工特征。近年来，以卷积神经网络为主的深度学习也被应用到图像美学质量评价领域中来。但是如何同时保留图像的全局信息和局部信息，如何有效提取图像美学特征，仍是该任务的最大难点。

发明内容

本发明的目的是为了克服现有技术的不足，提出一种轻量级深度网络和注意力机制的图像美学质量评价方法，能在提高模型效果的基础上，减少模型参数量，并将该模型移植移动端进行应用。

一方面，本发明提供一种基于注意力机制的图像美学质量评价方法，包括以下步骤：

步骤1：设计网络结构模型；

网络结构模型为：主干网络用n层深度可分离卷积层(Depthwise Separableconvolutions)，主干网络中任意位置插入注意力模块，主干网络后接全局均值池化层(Global Average Pooling)、全连接层以及softmax层；注意力模块用于模拟人的视觉机制，对于图像中的重点区域赋予较大的权重。

作为优选，所述主干网络采用8层深度可分离卷积层，第6层后插入注意力模块。

作为优选，所述注意力模块为双路注意力模块：面向特征图位置和面向特征图通道的注意力模块；面向特征图位置的注意力模块用于捕捉位置上的长语义关联信息；面向特征图通道的注意力模块用于捕捉通道上的长语义关联信息。

作为优选，所述面向特征图位置的注意力模块操作如下：

Step1：输入特征图

C表示通道数，H和W分别表示特征图的高和宽，将A分别经过三个1×1的包含BN和ReLU的卷积层，得到三个新的特征图B、C、D，该卷积操作不改变特征图大小，因此

Step2：将B、C、D重整型(reshape)成

其中N＝H×W；

Step3：将B转置成

与C做矩阵乘法，得到特征图

并对其做softmax得到空间上的注意力映射图

Step4：将S转置成

将D和S的转置做矩阵乘法，得到特征图

再重整型为

Step5：将Step4得到的特征图乘以比例因子α，与原特征图A做元素加和运算，得到最终的输出特征图

作为优选，所述面向特征图通道的注意力模块操作如下：

Step1：输入特征图

将其重整型为

其中N＝H×W；

Step2：将A转置成

A与转置后的A做矩阵乘法，得到特征图

并对其做softmax得到通道上的注意力映射图

Step4：将X转置成

将X的转置和A做矩阵乘法，得到特征图

再重整型为

Step5：将Step4得到的特征图乘以比例因子β，与原特征图A做元素加和运算，得到最终的输出特征图

步骤2：设计用于训练网络的损失函数；

采用如下基于数据均衡的bEMD(balanced Earth Mover’s Distance)损失作为损失函数，该损失函数根据图片的置信度给图片加上权值，即给EMD损失函数加上一个比例系数，给定真实值的概率密度函数p和预测值的概率密度

损失函数定义如下公式：

其中，p为真实值得分的概率分布，

为预测值得分的概率分布；S_i为第i张图片的评分人数，

为整个数据集中图片的平均评分人数,

N为数据集中图片的总数；CDF_p(k)是真实得分累积分布函数

表示图片第j个真实分值的概率，k表示分值的总数；

是预测得分累积分布函数

表示图片第j个预测分值的概率；除去

权重部分，该公式为CDF_p(k)和

的闵可夫斯基距离(Minkowski Distance)定义，r＝1为曼哈顿距离、r＝2为欧氏距离、r→∞时为切比雪夫距离；

步骤3：处理训练数据；

将训练数据处理成满足网络结构模型要求的大小；

作为优选，所述处理训练数据还包括获取图片和相应标签内容，所述将训练数据处理成满足所述网络结构模型要求的大小为先将图片缩放至略大于所述网络结构模型要求的大小，然后再随机裁剪成所述网络结构模型要求的大小，接下来再随机翻转以增强数据；标签为图片每一个分值的得分数，通过以下公式归一化作为图片的真实得分分布：

其中p_i为第i个分值的概率，R_i为第i个分值的评分人数，K为分值的数量。

步骤4：用步骤3中处理好的训练数据、步骤2的损失函数，训练步骤1的网络结构模型得到图像美学质量评价网络；

步骤5：输入图片进行美学评分；

将待评价的图片缩放至所述网络结构模型要求的大小，输入所述图像美学质量评价网络中，得到该图片的每一个评分的概率分布，通过下述公式计算该分布的均值得到图片的美学得分μ：

其中，b_i为第i个分值，

表示第i个分值的概率，K表示分值的数量。

另一方面，本发明提供一种基于图像美学质量评价网络辅助拍摄的方法，包括以下步骤：

(1)、获取摄像头取景的画面A；

(2)、将A采用权利要求1所述步骤5进行美学评分；

(3)、将美学评分显示在取景框中以实时对取景画面进行评分，所述评分用于使用户实时根据评分数值的大小进行拍摄选景及构图，帮助用户拍摄出更加美观的图片。

作为优选，将所述一种基于图像美学质量评价网络辅助拍摄的方法应用于手机时，还包括获取手机摄像头权限。

有益效果

本发明方法，与现有技术相比，具有以下有益效果：

本发明设计的神经网络模型较好的关注图像全局布局特征，能够在融合注意力机制的轻量级网络中更好的完成图像美学质量评价任务。

本发明采用数据增强的方式增加图片个数，以便充分利用图片资源，解决因图片资源不够带来的模型训练效果不好的问题。

本发明提出了并验证了在图像美学质量评价任务中，对于基础CNN网络加入注意力机制的有效性。注意力机制能模拟人的视觉机制，对于图像中的重点区域赋予较大的权重。本文提出的注意力机制模块分为位置注意力模块和通道注意力模块，分别捕捉位置和通道上的长语义关联信息，并有效融合这两部分的信息，提高了网络的特征提取能力。同时采用深度可分离卷积作为主干网络，加入双路注意力机制，用更少的网络层数达到与更多层数接近的大感受野的效果，更好的提取图像特征，在性能提升的同时减少网络参数。

本发明考虑到数据集中的图片的标注评分人数不一而带来的可信度不一致的问题，基于EMD损失函数提出bEMD损失函数，根据每一张图片打分人数，给图片赋予一个相应的权重，加入损失函数中，使得评分人数多的图片对于模型的影响更大，评分人数少的图片给予更少的关注，大大减轻了数据的噪声问题，更加充分的利用数据集，提高数据集中质量较高的图片对于模型的影响，对比实验证明该方法极大提升了模型的准确率。

本发明将深度学习模型应用于生活，对提出的模型进行移动端移植，并简单开发一个安卓APP使人们能对自己的图片进行美学评分，且利用美学质量评分指导自己拍摄时拍出更加美观的照片。

附图说明

图1为本发明方法的流程及创新点示意图；

图2为本发明方法的整体网络结构图；

图3为本发明方法的深度可分离卷积结构图；

图4为本发明方法的基于位置的注意力模块图；

图5为本发明方法的基于通道的注意力模块图；

图6为本发明方法的移动端功能示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本实施例为在8层深度可分离卷积层的第6层后加入双路注意力机制的网络结构，数据集使用AVA数据集。

一种基于注意力机制的图像美学质量评价方法，如图1所示，包括以下几个步骤：

步骤1：预处理训练数据：

在公共数据集上获取图片和相应标签，作为训练数据集。首先将图片进行缩放至256×256大小，再随机裁剪成224×224的图片，再将该图片进行随机翻转，包括水平翻转和垂直翻转。这个随机裁剪和翻转的操作能有效的避免过拟合的问题，相当于增加了训练样本数，尤其对于小数据量的数据集来说更为有效。并将图片标签按公式1归一化得到图片的真实得分概率分布，本实施例使用的AVA数据集中图片评分范围为1至10分，因此得到图片1至10分每一个得分的概率。

步骤2：设计网络结构，主干网络用8层深度可分离卷积层，第6层后插入注意力模块，主干网络后接全局均值池化层、全连接层以及softmax层。网络结构如图2所示，表1详细介绍了该网络各层的具体情况，dw表示深度可分离卷积。当然，本领域技术人员知道，网络结构不限于此，主干网络可以采用任意层数，注意力模块可插入任何位置。本实施例所述仅为较优的实施方案。

输入为224×224×3的原图，经过6个如图3的深度可分离卷积层的特征提取，得到28×28×256的特征图，该特征图分别经过位置注意力模块和通道注意力模块，如图4和图5，得到两个28×28×256的特征图。

其中，位置注意力模块操作如下：

Step1：输入为注意力模块前的主干网络的输出特征图

C表示通道数，此处为256，H和W分别表示特征图的高和宽，此处均为28，将A分别经过三个1×1的包含BN和ReLU的卷积层，得到三个新的特征图B、C、D，该卷积操作不改变特征图大小，因此

Step2：将B、C、D重整型(reshape)成

其中N＝H×W，此处N＝28×28＝784；

Step3：将B转置成

与C做矩阵乘法，得到特征图

并对其做softmax得到空间上的注意力映射图

Step4：将S转置成

将D和S的转置做矩阵乘法，得到特征图

再重整型为

Step5：将上一步得到的特征图乘以比例因子α，与原特征图A做元素加和运算，得到最终的输出特征图

α来控制该注意力模块对于模型的影响其中α初始化为0，并通过学习逐渐增大来给位置注意力部分赋予更大的权重。面向位置的注意力模块提取空间维度上的局部特征的关联信息。

面向特征图通道的注意力模块操作如下：

Step1：输入与位置注意力模块的输入相同，为

将其重整型为

其中N＝H×W，此处C＝256，H和W均为28，N＝784；

Step2：将A转置成

A与转置后的A做矩阵乘法，得到特征图

并对其做softmax得到通道上的注意力映射图

Step4：将X转置成

将A和X的转置做矩阵乘法，得到特征图

再重整型为

Step5：将上一步得到的特征图乘以比例因子β，与原特征图A做元素加和运算，得到最终的输出特征图

β来控制该注意力模块对于模型的影响其中β初始化为0，并通过学习逐渐增大来给通道注意力部分赋予更大的权重。面向通道的注意力模块提通道维度上各通道之间的关联信息。

上述位置注意力模块和通道注意力模块不限于此结构，为了分别捕捉位置和通道的长语义关联信息，也可设计其他类似结构。

将双路注意力模块进行聚合操作为：将双路注意力模块输出的两个特征图分别先过一个1×1的卷积层，将通道降至64维，并接BN、ReLU和保留率为0.9的Dropout层，再通过1×1的卷积层升回256，再将这两个特征图元素相加，最后通过保留率为0.9的Dropout层和一个通道数不变的1×1的卷积层，得到融合了空间和通道注意力信息的28×28×256的特征图。

注意力模块能有效提高网络的特征提取能力，在引入少量参数量的情况下，用更少的层数达到与更多的层数接近的大感受野的效果，层数越少参数量越少。本实施例与标准MobileNet结构相比，参数量减少了近三倍。

聚合操作后再接两层步长为2的深度可分离卷积得到7×7×1024的特征图，经过全局均值池化(Global Average Pooling)层得到1024维向量，最后连接输出为10类的全连接层和softmax得到该图片的得分分布。

步骤3：设计用于训练网络的损失函数。损失函数为bEMD损失函数，即：

该损失函数度量图片真实得分分布和预测得分分布之间的距离，并考虑训练数据中图片标签置信度不一致的问题，增大评分人数多，即置信度高的图片的权重，降低评分人数少的图片的权重。能有效减轻训练数据的噪声问题，更加充分利用数据集，达到更好的训练效果。

上述1、2、3步骤没有严格的顺序，使用本方法时可以根据需要调整先后。

步骤4：用步骤1中处理好的训练数据、步骤3的损失函数，训练步骤2的网络模型得到图像美学质量评价网络。具体步骤如下：

Step1：初始化模型参数，作为基础的主干网络初始化参数为在ImageNet上预训练好的参数，位置注意力部分的卷积层使用Glorot均匀分布初始化方法，bias初始化为0。最后的全连接层随机初始化，保留率为0.75的Dropout层加在最后一层全连接层之前。

Step2：分批次读取训练数据，数据为步骤1中预处理好的图片以及图片真实得分分布。将图片输入到步骤2的网络中，得到图片的1至10分分值的预测分布。

Step3：计算图片真实得分分布和预测得分分布的bEMD损失，然后使用Adam优化方法反向传播计算梯度，更新步骤2中的网络的参数值，所有的网络层都进行参数更新，使得网络预测值越来越接近真实值。Adam学习率为0.001，β1＝0.9，β2＝0.999，一共20个迭代(epoch)大约需要13个小时。所有的实验都在AVA数据集上进行，以标准划分方式划分训练集和测试集。随机选取图片的90％，约23万张图作为大规模训练集，剩下2万张图片作为测试集。

Step4：重复Step2-Step3，直到损失函数值趋于稳定。

经过上述端到端的训练后，得到一个图像美学质量评价模型。

步骤5：输入图片进行美学预测；

将用户待评价的图片resize为224×224×3，输入步骤4得到的图像美学质量评价模型中，得到该图片的每一个评分的概率分布，用公式3计算该分布的均值得到图片的美学得分。

模型移植移动端应用，如图6移动端有两个功能，基础功能为对用户上传的图片打美学分数，使用户能了解图片的美观程度；另外开创性的将美学质量评分用于辅助用户拍摄：获取用户的手机摄像头权限，对于用户拍摄的画面进行实时评分，用户可根据评分数值大小，在拍摄选景以及构图上轻松进行更优选择，帮助用户拍摄出更加美观的图片。

为了说明本发明的内容及实施方法，本说明书给出了上述具体实施例。但是，本领域技术人员应理解，本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于注意力机制的图像美学质量评价方法，其特征在于，包括以下步骤：

步骤1：设计网络结构模型；

网络结构模型为：主干网络用深度可分离卷积层，主干网络中插入注意力模块，主干网络后接全局均值池化层、全连接层以及softmax层；注意力模块用于模拟人的视觉机制，对于图像中的重点区域赋予较大的权重；

所述注意力模块为双路注意力模块：面向特征图位置和面向特征图通道的注意力模块；面向特征图位置的注意力模块用于捕捉位置上的长语义关联信息；面向特征图通道的注意力模块用于捕捉通道上的长语义关联信息；

所述面向特征图位置的注意力模块操作如下：

Step1-1：输入特征图

C表示通道数，H和W分别表示特征图的高和宽，将A分别经过三个1×1的包含BN和ReLU的卷积层，得到三个新的特征图B、E、D，该卷积操作不改变特征图大小，因此

Step1-2：将B、E、D重整型成

其中N＝H×W；

Step1-3：将B转置成

与E做矩阵乘法，得到特征图

并对其做softmax得到空间上的注意力映射图

Step1-4：将S转置成

将D和S的转置做矩阵乘法，得到特征图

再重整型为

Step1-5：将Step1-4得到的特征图乘以比例因子α，与原特征图A做元素加和运算，得到最终的输出特征图

所述面向特征图通道的注意力模块操作如下：

Step2-1：输入特征图

将其重整型为

其中N＝H×W；

Step2-2：将A转置成

A与转置后的A做矩阵乘法，得到特征图

并对其做softmax得到通道上的注意力映射图

Step2-3：将X转置成

将X的转置和A做矩阵乘法，得到特征图

再重整型为

Step2-4：将Step2-3得到的特征图乘以比例因子β，与原特征图A做元素加和运算，得到最终的输出特征图

步骤2：设计用于训练网络的损失函数；

采用下述基于数据均衡的bEMD损失作为损失函数：

其中，p为真实值得分的概率分布，

为预测值得分的概率分布；S_e为第e张图片的评分人数，

为整个数据集中图片的平均评分人数,

N为数据集中图片的总数；CDF_p(k)是真实得分累积分布函数

表示图片第j个真实分值的概率，k表示分值的总数；

是预测得分累积分布函数

表示图片第j个预测分值的概率；除去

权重部分，该公式为CDF_p(k)和

的闵可夫斯基距离定义，r＝1为曼哈顿距离、r＝2为欧氏距离、r→∞时为切比雪夫距离；

步骤3：处理训练数据；

将训练数据处理成满足网络结构模型要求的大小；

步骤5：输入图片进行美学评分；

其中，b_i为第i个分值，

表示第i个分值的概率，k表示分值的总数。

2.根据权利要求1所述的方法，其特征在于，所述主干网络采用8层深度可分离卷积层，第6层后插入注意力模块。

3.根据权利要求1-2任一所述的方法，其特征在于，所述处理训练数据还包括获取图片和相应标签内容，所述将训练数据处理成满足所述网络结构模型要求的大小为先将图片缩放至略大于所述网络结构模型要求的大小，然后再随机裁剪成所述网络结构模型要求的大小，接下来再随机翻转以增强数据；标签为图片每一个分值的得分数，通过以下公式归一化作为图片的真实得分分布：

其中，p_i为第i个分值的概率，R_i为第i个分值的评分人数，R_j为第j个分值的评分人数，k为分值的数量。

4.一种基于图像美学质量评价网络辅助拍摄的方法，其特征在于，包括以下步骤：

(1)、获取摄像头取景的画面；

(2)、将所述画面采用权利要求1所述方法进行美学评分；

(3)、显示美学评分以实时对取景画面进行评分，所述评分用于使用户实时根据评分数值的大小进行拍摄选景及构图，帮助用户拍摄出更加美观的图片。

5.根据权利要求4所述的方法，其特征在于，该方法应用于手机时，还包括获取手机摄像头权限。