CN112183645A

CN112183645A - 基于上下文感知的注意力机制的图像美学质量评价方法

Info

Publication number: CN112183645A
Application number: CN202011057308.1A
Authority: CN
Inventors: 许牧楠; 李楠楠; 任俞睿; 李革
Original assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-05
Anticipated expiration: 2040-09-30
Also published as: CN112183645B

Abstract

基于上下文感知的注意力机制的图像美学质量评价方法，包括：数据预处理得到初始训练数据；将经过归一化的输入图像和美学分数分布标签进入主干基准网络，得到主干基准网络的输出数据特征；输出数据特征进入层次上下文注意力模块，经过融合后形成图像的层次上下文表示；初始训练数据单独进入空间上下文注意力模块，形成图像的空间上下文表示；将空间上下文表示与层次上下文表示融合，生成最终的注意力图；将最终的注意力图与主干基准网络的输出特征相乘，得到主干基准网络的最终输出特征；最终输出特征经过一层全连接层以及S型激活函数层，输出模型模拟的美学分数分布结果。本方法考虑了人类审美的主观性，有效提升了模型的准确率和效率。

Description

基于上下文感知的注意力机制的图像美学质量评价方法

技术领域

本发明涉及图像处理领域，更具体地涉及一种基于上下文感知的注意力机制的图像美学质量评价方法。

背景技术

相似方法：用于图像美学质量评价的基于注意力的多补丁融合(Attention-basedMulti-Patch Aggregation for Image Aesthetic Assessment)方法，请参见参考附录[1]。该方法虽有使用到注意力机制，但是其是基于多补丁方法对图像美学水平进行评价，其中注意力机制用来进行多补丁融合，而不是进行整张图像的上下文感知。

图像美学质量评价方法是利用计算机模拟人类对于图像的美学水平的感受，对图像的美学质量进行打分或者分类。由于审美具有强烈的主观性，计算机在对美学质量进行评价时具有非常大的挑战性。在对图像进行美学质量评价的过程中，融合局部信息(例如，细粒度图像细节)以及全局信息(例如，图像整体布局)是非常重要的。而现有的图像美学质量评价方式大多采用多个子网络来分别学习局部和全局信息，这样的方法假定不同视角的信息之间是彼此分离的，缺少处理全局和局部信息的关联性。而部分其他方法只学习一种信息，例如单独对全局或者局部信息进行处理，缺少关注不同视角信息之间的信息补充。且大部分方法采用二分类准确度进行衡量方法的有效性，对于美学的主观缺少关注。

发明内容

针对现有的质量评价方法对于不同视角关联的关注局限性，且对美学主观性缺少关注的情况下，本发明人提出一种基于上下文感知的注意力机制的图像美学质量评价方法与装置，以克服现有技术存在的上述问题和相关方法的缺陷。

实施本发明的技术方案如下：

基于上下文感知注意力机制的图像美学质量评价方法，方法包括以下步骤：步骤一：数据预处理：将训练数据处理为模型需要的大小和格式，对图像数据进行归一化得到归一化的输入图像以及处理对应的美学分数分布标签来得到初始训练数据；步骤二：将经过归一化的输入图像以及美学分数分布标签进入主干基准网络，得到主干基准网络的输出数据特征；步骤三：经过步骤二得到的输出数据特征进入层次上下文注意力模块，经过融合后形成图像的层次上下文表示；步骤四：步骤一得到的初始训练数据单独进入空间上下文注意力模块，形成图像的空间上下文表示；步骤五：融合多种上下文：将步骤四得到的空间上下文表示与步骤三得到的层次上下文表示融合，生成最终的注意力图；步骤六：将最终的注意力图与步骤二的主干基准网络的输出特征相乘，得到主干基准网络的最终输出特征；步骤七：主干基准网络的最终输出特征经过一层全连接层以及S型(Sigmoid)激活函数层，输出模型模拟的美学分数分布结果。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，在步骤七后还包括：步骤八：将模型模拟的美学分数分布结果与图像的真实分数分布进行对比，设计针对美学分数分布的基于巴氏距离的损失函数如下：

其中y_n代表图像真实分布，x_n代表输入图像，f_θ(·)代表本方法模型；步骤九：按照步骤一至八的顺序训练模型，得到图像美学质量评价模型；步骤十：将待评价的任意图像调整为网络所需的大小，输入模型网络，得到美学打分分数分布。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，将每张图像的大小进行调整，首先将图像的大小缩放为3×384×384，再从其中随机裁剪3×336×336的图片，并同时做水平翻转，以此作为全局视图输入，避免模型过拟合问题；然后，随机从原始分辨率的图像中切割3×336×336的局部区域，作为局部视图输入。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，基准网络可以使用Inception-V3网络模型。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，层次上下文注意力模块的具体融合方式如下：1)将不同层的输出特征别通过全局均值池化层以及全局最大池化层，得到多个特征图，经过全局均值池化层和全局最大池化层的特征图的大小为Ci×1×1；2)经过全局均值池化层和全局最大池化层的特征图分别在通道维度上进行拼接，得到两种特征图A和M，A和M的大小均为C×1×1；3)A和M分别经过两层全连接层以及修正线性单元(ReLU)层的学习，分别得到B和C，B和C的大小为C’×1×1；4)将B和C逐像素相加，得到最终的输出特征D，大小为C’×1×1。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，空间上下文注意力模块的具体融合方式如下：1)建立7层空洞卷积层，每一层之后紧连批归一化层以及修正线性单元(ReLU)激活层，空洞卷积层的空洞数逐层递增至第四层后再逐层递减，空洞卷积率为1、2、5、9、5、2、1；2)将原始训练图像数据输入堆叠的空洞卷积层，最后进入一层池化层，与主干基准网络的特征大小进行匹配，得到图像的空间上下文表示。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，在步骤五中，通过逐元素相乘来融合空间上下文表示和层次上下文表示，后接一个归一化指数(Softmax)层生成范围为0-1的注意力图。

优选的，在上述基于上下文感知注意力机制的图像美学质量评价方法中，训练过程中使用皮尔森相关系数和斯皮尔曼相关系数，二分类准确度来判断模型性能。

本发明基于上下文感知的注意力机制的图像美学质量评价方法与现有技术具有以下有益效果：

1)本发明方法涉及的两个注意力机制模块较好的关注了图像的上下文关系，即不同视图之间的联系，在上下文的基础上选择图像的重点区域，在不割裂多种视图的关系的情况下生成图像美学质量分数。同时，两个注意力机制模块即插即用，可随意更换主干基准网络，更好地提取图像特征；本发明的上下文感知注意力机制，更能有效利用图像的不同区域上下文之间的联系的信息，同时不使用多补丁切割的方法能够更好的融合全局和局部信息表现。

2)本发明方法涉及的算法复杂度较低的基于巴氏距离的损失函数，对美学分数分布进行评价，最终输出美学分数分布作为预测结果，更加充分地利用了数据集中的原始数据，考虑了人类审美的主观性，有效提升了模型的准确率和效率。

3)本发明方法通过使用层次上下文模块和空间上下文模块生成注意力图，在多重上下文的基础上给予部分重点区域更高的关注度。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征将通过以下描述变得容易理解。

附图说明

图1为本发明的流程方框图；

图2为本发明方法中涉及的层次上下文模块；

图3a为使用本发明方法图像的局部表示图；

图3b为使用本发明方法图像的全局表示图；

图4a为本发明方法的输入图像以及输出的分数分布图；

图4b为本发明方法的输入图像以及输出的真实分布对比图。

具体实施方式

为了对本发明基于上下文感知的注意力机制的图像美学质量评价方法实施例的目的、技术方案和优点更加清楚，下面将结合附图，通过具体实施例对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本方面保护的范围。

如附图1所示，为本发明的基于上下文感知注意力机制的图像美学质量评价方法的实施例一，包括以下步骤：

步骤一：数据预处理S1，将训练数据处理为模型需要的大小和格式，对图像数据进行归一化得到归一化的输入图像以及处理对应的美学分数分布标签来得到初始训练数据。具体地，将输入图像分别调整大小作为全局视图输入；同时，为了保留图像的细粒度信息，从完整的图像数据中切割部分局部图像作为局部视图输入，并同时完成图像翻转等数据增强操作。将所有的原始图像经过大小调整后进行归一化，得到主干基准网络的输入图像。其中，相应的美学分数分布标签是选取的图像对应的美学质量打分分布的真实值作为标签。

步骤二：主干基准网S2，将经过归一化的输入图像以及美学分数分布标签进入主干基准网络，得到主干基准网络的输出数据特征，其中，主干基准网络由在图像识别等领域广泛使用的Inception-V3网络构成，其网络参数使用在网络上公开发布的权重参数。

步骤三：上下文注意力模块S3，经过步骤二得到的输出数据特征进入层次上下文注意力模块，经过融合后形成图像的层次上下文表示。层次上下文注意力模块具体操作如图2所示。形成图像的层次上下文表示。层次上下文注意力模块用于增强对于不同层次的图像细节的表示的学习。如附图2所示，本模块利用主干基准网络中多层卷积层的输出特征作为输入，将多层(包括低层次和高层次)的特征(如图2中的特征1、特征2......特征n)经过融合后形成图像的层次上下文表示。具体融合方式如下：

1)将不同层的输出特征分别通过层次上下文注意力模块的全局均值池化层(Global Average Pooling)以及全局最大池化层(Global Max Pooling)(为简单起见，图2中分别示出为平均池化和最大池化)，得到多个特征图。经过全局均值池化层和全局最大池化层的特征图的大小为C_i×1×1。

2)经过全局均值池化层和全局最大池化层的特征图分别在通道维度上进行拼接，得到两种特征图A和M，A和M的大小均为C×1×1。

3)A和M分别经过两层全连接层以及ReLU层的学习，分别得到B和C，B和C的大小为C’×1×1。

4)将B和C逐像素相加。得到最终的输出特征D，大小为C’×1×1。

步骤四:空间注意力模块S4，步骤一得到的初始训练数据单独进入空间上下文注意力模块，形成图像的空间上下文表示。空间注意力模块用于增强对图像空间上不同区域之间的关系的关注，对图像的空间的全局感知进行建模，捕捉空间位置上长语义的关联信息。其具体步骤如下：

1)建立7层空洞卷积层，每一层之后紧连批归一化层以及RELU激活层。空洞卷积层的空洞数逐层递增至第四层后再逐层递减，逐层递增是为了增大网络学习过程中的感受野，以此能够扩大对于图像远距离的信息关联学习，同时避免由于空洞带来的栅格效应。后续空洞率降低是为了更好的捕捉在进行图像美学质量评价时更关注的局部区域。

2)将原始训练图像数据输入堆叠的空洞卷积层，最后进入一层池化层，与主干基准网络的特征大小进行匹配，得到图像的空间上下文表示。

步骤五:融合多种上下文S5，将步骤四得到的空间上下文表示与步骤三得到的层次上下文表示融合，生成最终的注意力图。其中，空间上下文特征大小为1×H×W，层次上下文特征大小为C×1×1，将两者进行逐元素相乘后通过归一化指数(Softmax)层，生成范围为0-1的最终的注意力图。

步骤六：注意力遮罩S6：将最终的注意力图与步骤二的主干基准网络的输出特征相乘，得到主干基准网络的最终输出特征。注意力图的范围为从0到1，即赋予输出特征不同区域不同的权重，代表了不同区域在上下文中的重要程度。

步骤七：美学分数分布S7，主干基准网络的最终输出特征经过一层全连接层以及S型(Sigmoid)激活函数层，输出模型模拟的美学分数分布结果，输入图像实例和对应结果如附图4a和4b所示。

步骤八：将模型模拟的美学分数分布结果与图像的真实分数分布进行对比，设计针对分数分布的基于巴氏距离的损失函数。给定真实美学分数分布以及预测的美学分数分布，损失函数定义如下：

其中y_n代表图像真实分布，x_n代表输入图像，f_θ(·)代表本方法模型。该损失函数可以有效的度量真实分布与预测分布之间的差距，并且相比于其他距离的算法复杂度更低，降低了计算成本。

步骤九：按照步骤一至八的顺序训练模型，得到图像美学质量评价模型。并利用皮尔森相关系数和斯皮尔曼相关系数，二分类准确度共同衡量模型性能。

步骤十：将待评价的图像调整为网络所需的大小，输入模型网络，得到美学打分分数分布。

根据本发明的另一个优选实施例，基于上下文感知注意力机制的图像美学质量评价方法，具体包括下列步骤：

步骤一：数据预处理S1：选取公开数据集中的图像和相应的美学分数分布标签，作为训练数据。本实例中使用大型美学质量评估(AVA)数据集，其共含有25万张图像，美学分数为1-10分，对于每一张图像平均有250人进行了打分。将所有打分按照如下方式归一化为统一的分数分布。

其中s_j为评分者的打分，r_i为1-10个分数种类，p_i代表第i种分数的打分概率。同时，将每张图像的大小进行调整，首先将图像的大小缩放为3×384×384，再从其中随机裁剪3×336×336的图片，并同时做水平翻转，以此作为全局视图输入，避免模型过拟合问题。其次，随机从原始分辨率的图像中切割3×336×336的局部区域，作为局部视图输入，视图的具体大小可以根据网络情况改变，仅需两者保持一致即可。两种视图具体实例如附图3a、3b所示。所有的原始图像经过大小调整后进行归一化，得到网络的输入图像。

步骤二：主干基准网S2，主干基准网络利用Inception-V3，输出特征大小为2048×9×9，但不局限于此，在图像识别等领域有广泛使用的其他网络均可以用于本方法作为主干基准网络，且层数和参数也可以任意。本实施例仅为较优的实施方案。

步骤三：上下文注意力模块S3，训练数据大小为3×336×336，进入层次上下文注意力模块。本模块利用主干网络中11层的输出特征作为输入，在是实际情况中可根据实际需要调整输入特征的数量。本实施例中将11层的特征经过融合后形成图像的层次上下文表示，输出的层次上下文特征大小为512×1×1。具体融合方式如下：

1)将不同层的输出特征别通过全局均值池化层(Global Average Pooling)以及全局最大池化层(Global Max Pooling)，得到多个特征图。经过全局均值池化层和全局最大池化层的特征图的大小为C_i×1×1，其中C₁＝256，C₂＝288，C₃＝288，C₄＝768，C₅＝768，C₆＝768，C₇＝768，C₈＝768，C₉＝1280，C₁₀＝2048，C₁₁＝2048，共有11×2个特征图。

2)经过全局均值池化层和全局最大池化层的特征图分别在通道维度上进行拼接，得到两种特征图A和M，A和M的大小均为C×1×1，其中C＝10048。

3)A和M分别经过一层全连接层以及修正线性单元(ReLU)层的学习，分别得到B和C，B和C的大小为C’×1×1，其中C’＝2048。

4)将B和C逐像素相加，得到最终的输出特征D，大小为C’×1×1，其中C’＝2048。

步骤四:空间注意力模块S4，训练数据进入空间上下文注意力模块。空间上下文注意力模块的卷积参数设置如下：

层数	卷积核大小	步长	空洞率
				1	3×3×3	1	1
2	3×3×3	1	2
				3	3×3×3	1	5
4	3×3×3	1	9
				5	3×3×3	2	5
6	3×3×3	2	2
				7	3×3×3	2	1

将3×336×336训练图像数据输入空间上下文注意力模块后，得到的输出特征大小为3×9×9。此处在7层空洞卷积层后跟1层3×1的卷积层，将通道降至1维，并且这10层卷积层后都紧跟批归一化层、ReLU层，最终输出的空间上下文表征为1×9×9。

上述两种注意力模块的具体层数和参数不局限于此，此处为最优的实例选择。

步骤五:融合多种上下文S5，将步骤四得到的空间上下文表示与步骤三得到的层次上下文表示逐元素相乘，空间上下文表示大小为1×H×W，层次上下文特征大小为C×1×1，此处C＝2048，H＝9，W＝9，将两者进行相乘后通过S型(Sigmoid)激活函数层，生成最终的注意力图，最终的注意力图大小为C×H×W。此处C＝2048，H＝9，W＝9。

步骤六：注意力遮罩S6，将最终的注意力图与步骤二的主干基准网络的输出特征逐元素相乘，两者大小相同同，此处均为2048×9×9，得到主干基准网络的最终输出特征。注意力图的范围为从0到1，即在学习了多重上下文后给予输出特征不同区域不同的权重，代表了不同区域在上下文中的重要程度。

步骤七：美学分数分布S7，主干基准网络的最终输出特征首先经过全局均值池化(Global Average Pooling)层得到1024维向量，然后经过一层全连接层，全连接层输出为10类，且加入了保留率为0.5的Dropout层，紧接着通过归一化指数函数(Softmax)激活层，将输出的10类特征的大小范围调整为0-1，且10维相加为1，此时模型输出为模拟的美学分数分布结果。

步骤八：将模型输出的模拟的美学分数分布结果与图像的真实分数分布进行对比，设计针对分数分布的基于巴氏距离的损失函数用于模型训练，给定真实美学分数分布以及预测的美学分数分布。损失函数定义如下：

该损失函数可以有效的度量真实分布与预测分布之间的差距。

步骤九：按照步骤一至八的顺序训练模型，得到图像美学质量评价模型。具体训练动作如下：

动作1)初始化模型参数，主干基准网络使用Inception-V3在ImageNet预训练好的公开参数，两个注意力模块的网络参数使用Xavier初始化。

动作2)设置训练批大小为64，分批次读取数据集中所有图像和对应的分数分布数据，AVA数据集一共25万张图像，其中23万图像用于训练，剩余2万张用于验证模型效果。其中对部分损坏的图像进行了剔除处理。随后进行步骤一中的预处理操作，进入步骤二至步骤七的网络得到最终的输出分数分布。

动作3)利用步骤八设置的损失函数计算预测的分数分布和真实值之间的差距，得到以巴氏距离为基础的损失值，利用随机梯度下降(SGD)优化器进行反向传播，更新网络参数。SGD的学习率设置为0.003，动量值设置为0.9。如果损失值在连续5次迭代(epoch)中都没有下降，学习率将乘以0.9。模型一共训练30次迭代。

动作4)重复动作2)和动作3)，利用皮尔森相关系数和斯皮尔曼相关系数，二分类准确度来判断模型性能，利用美学分数分布计算美学平均分，即可利用皮尔森相关系数和斯皮尔曼相关系数来衡量模型拟合度。通过美学平均分计算美学质量类(平均分大于5为高质量类，平均分小于等于5为低质量类)，即可利用二分类准确度衡量模型拟合度。训练直至模型效果趋于稳定，性能不再提升。

步骤十：将待评价的任意图像调整为网络所需的大小，此处的图像不需要固定为数据集中的数据，可以为任意其他图像以测试模型泛化性，将其输入已经训练完成的模型网络，得到美学打分分数分布。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下的所作的改变、修饰、替代、组合、简化等均应为等效的置换方式，都包含在本发明的保护范围之内。

参考附录：

[1]Sheng K,Dong W,Ma C,et al.Attention-based multi-patch aggregationfor image aesthetic assessment[C]//ProceedingSof the 26th ACM internationalconference on Multimedia.2018:879-886.

Claims

1.一种基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，具体包括如下步骤：

步骤一：数据预处理：将训练数据处理为模型需要的大小和格式，对图像数据进行归一化得到归一化的输入图像以及处理对应的美学分数分布标签来得到初始训练数据；

步骤二：将经过归一化的输入图像以及美学分数分布标签进入主干基准网络，得到主干基准网络的输出数据特征；

步骤三：经过步骤二得到的输出数据特征进入层次上下文注意力模块，经过融合后形成图像的层次上下文表示；

步骤四：步骤一得到的所述初始训练数据单独进入空间上下文注意力模块，形成图像的空间上下文表示；

步骤五：融合多种上下文：将步骤四得到的所述空间上下文表示与步骤三得到的所述层次上下文表示融合，生成最终的注意力图；

步骤六：将所述最终的注意力图与步骤二的所述主干基准网络的所述输出数据特征相乘，得到所述主干基准网络的最终输出特征；

步骤七：所述主干基准网络的所述最终输出特征经过一层全连接层以及S型(Sigmoid)激活函数层，输出模型模拟的美学分数分布结果。

2.根据权利要求1所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，在步骤七后还包括：

步骤八：将模型模拟的美学分数分布结果与图像的真实分数分布进行对比，设计针对美学分数分布的基于巴氏距离的损失函数为：

其中y_n代表图像真实分布，x_n代表输入图像，f_θ(·)代表本方法模型；

步骤九：按照步骤一至八的顺序训练模型，得到图像美学质量评价模型；

步骤十：将待评价的任意图像调整为网络所需的大小，输入模型网络，得到美学打分分数分布。

3.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，将每张图像的大小进行调整，首先将图像的大小缩放为3×384×384，再从其中随机裁剪3×336×336的图片，并同时做水平翻转，以此作为全局视图输入，避免模型过拟合问题；然后，随机从原始分辨率的图像中切割3×336×336的局部区域，作为局部视图输入。

4.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，基准网络可以使用Inception-V3网络模型。

5.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，所述层次上下文注意力模块的具体融合方式为：

1)将不同层的输出特征别通过全局均值池化层以及全局最大池化层，得到多个特征图，经过全局均值池化层和全局最大池化层的特征图的大小为Ci×1×1；

2)经过所述全局均值池化层和所述全局最大池化层的特征图分别在通道维度上进行拼接，得到两种特征图A和M，A和M的大小均为C×1×1；

3)A和M分别经过两层全连接层以及修正线性单元(ReLU)层的学习，分别得到B和C，B和C的大小为C’×1×1；

4)将B和C逐像素相加，得到最终的输出特征D，大小为C’×1×1。

6.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，所述空间上下文注意力模块的具体融合方式为：

1)建立7层空洞卷积层，每一层之后紧连批归一化层以及修正线性单元(ReLU)激活层，所述空洞卷积层的空洞数逐层递增至第四层后再逐层递减，空洞卷积率为1、2、5、9、5、2、1；

2)将原始训练图像数据输入堆叠的空洞卷积层，最后进入一层池化层，与所述主干基准网络的特征大小进行匹配，得到所述图像的空间上下文表示。

7.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，在步骤五中，通过逐元素相乘来融合所述空间上下文表示和所述层次上下文表示，后接一个归一化指数(Softmax)层生成范围为0-1的注意力图。

8.根据权利要求1或2所述的基于上下文感知注意力机制的图像美学质量评价方法，其特征在于，训练过程中使用皮尔森相关系数和斯皮尔曼相关系数，二分类准确度来判断模型性能。