CN111507941B

CN111507941B - 一种用于美学质量评价的构图表征学习方法

Info

Publication number: CN111507941B
Application number: CN202010214893.5A
Authority: CN
Inventors: 俞俊; 高飞; 尚梅梅
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-06-02
Anticipated expiration: 2040-03-24
Also published as: CN111507941A

Abstract

本发明公开了一种用于美学质量评价的构图表征学习方法。本发明步骤如下：步骤(1)数据预处理，将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小；步骤(2)特征提取及全连接图构建，分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络，分别用来提取全局特征和构图特征；利用提取出来的构图特征构建全连接图；步骤(3)全局特征与构图特征相融合，将提取出来的全局特征与构图特征输入门控单元进行特征融合，获取融合特征；步骤(4)美学分数预测以及准确率度量。本发明提出了利用构图特征构建全连接图并与全局特征融合，而且获得了目前图片美学质量评价中的最好效果。

Description

一种用于美学质量评价的构图表征学习方法

技术领域

本发明提到了一种用于美学质量评价的构图表征学习(RepresentationLearning of Image Composition for Aesthetic Evaluation)的新方法，主要涉及一种利用卷积神经网络进行训练，对得到的深层特征即构图信息和全局信息进行表征学习的方式，以构建一个与人工评价结果更加一致的准确率较高的美学质量评价模型。

背景技术

图像美学质量评价(Photo Quality Assessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。PQA应用空间广泛，例如最优图像筛选和自动搜索相机设置。此外，研究人员已在探索利用PQA从美学角度重构和增强图片。

之前研究人员主要利用手动设计的特征通过“浅表”机器学习技术判断图片是否专业。手工特征主要是基于专家知识的亮度对比，构图几何，构图以及场景构图等，然后利用支持向量机和神经网络等机器学习方法产生二进制美学标签。所以传统方法主要面向分类问题，即明确美学质量的好与坏。近期受到机器学习在各领域取得成功的启发，卷积神经网络(CNN)被用于训练图片美学评价模型，并且取得了不错的进展。

虽然PQA工作有一定的进展，但还是有很大的进步空间。现有方法方法大部分将图片输入CNN模型以取得美学质量评价结果，考虑到裁剪等数据预处理造成图片信息丢失，研究人员提出增加图片块和显著性图等补充信息作为额外输入，但额外的目标检测算法增加了计算复杂度；此外，尽管构图信息与美学质量评价息息相关，现存方法却很少将构图信息纳入图片质量评价体系。

发明内容

本发明的目的是针对现有技术的不足，提供一种利用构图特征进行表征学习用于图片美学质量评价的方法。对一个大型美学数据集AVA(Aesthetic Visual AnalysisDataste)数据集做了实验，该数据集包含超过25万张照片，每张图片平均由超过200人评分，分数范围为0到10分。并且在多个补充数据集(The Comparative Photo Dataset&TheJenAesthetics Subjective Dataset)上进行了有效性验证。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)数据预处理

将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小；

步骤(2)特征提取及全连接图构建

分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络，分别用来提取全局特征和构图特征；

利用提取出来的构图特征构建全连接图；

所述的微调是指用指定的训练集对Moblinet v2进行训练，得到所需参数的指定网络；

步骤(3)全局特征与构图特征相融合

将提取出来的全局特征与构图特征输入门控单元进行特征融合，获取融合特征；

步骤(4)美学分数预测以及准确率度量

将融合特征输入美学评价模块得到美学质量分数，与数据集中原有的人工评分进行比较，计算美学质量分数的准确率。

进一步的，所述的步骤(1)所述的数据预处理：

1-1AVA数据集是一个包含25万多张图片的大型美学数据集，我们按照标准数据集划分方法，随机取80％的图片作为训练集，其余20％的数据集作为测试集；

1-2对图片进行预处理时先将图片缩放到256*256大小，然后对图片进行随机裁剪，大小变为224*224；

为防止过拟合，对训练集图片进行数据增强，所有图片进行随机水平翻转。

进一步的，所述的步骤(2)所述的特征提取及全连接图构建：

2-1分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络用来进行特征提取；

将整张图片分别输入全局特征提取网络和构图特征提取网络，分别得到全局特征F₁和构图特征F₂,F₁,F₂∈R^7×7×1280；

2-2全连接图的构建如下：把构图特征提取网络输出的构图特征F₂中，设每个位置X_i视为一个节点，

其中i＝1,2…,N；X_i位置对应的特征向量为节点特征；任意节点特征之间的余弦相似性视为边；该边的信息即图片的构图特征；对全局特征提取网络输出的全局特征F₁进行全局池化，得到池化后包含全局信息的全局特征；

所述的全局特征F₁和构图特征F₂均为7*7的矩阵，矩阵中的每个位置作为节点；

所述的构图特征提取网络的输出的构图特征F₂有N＝W×H个位置，其中W和H的取值均为7；

所述的任意节点特征之间的余弦相似性的计算如下：

其中，e_i，j代表连接节点i,j的边；边的集合为

节点的集合和边的集合构成全连接图；

所述的对全局特征F₁进行全局池化的实现如下：

所有的节点特征

进行平均池化得到全局特征

其中，x_i是指全局特征F₁的矩阵中第i个位置的特征。

进一步的，所述的步骤(3)所述的全局特征与构图特征相融合：

对池化后的全局特征u和构图特征e，分别赋予不同的权重值，具体实现如下：

将池化后的全局特征u和构图特征e分别经过池化操作得到均值A1,A2,标准差S1,S2,最大值max1,max2,最小值min1,min2；将得到的8个特征值级联起来得到特征向量F，F∈R^h，h表示级联之后输出的向量长度，长度值为8；将特征向量F输入门控单元；

所述特征向量F在门控单元内的实现如下：

特征向量F先经过一层全连接层得到特征向量FC₁，FC₁∈R⁶⁴再经Tanh激活函数，然后经过一层全连接层得特征向量FC₂,FC₂∈R²,FC₂再经过一层Sigmoid得到两个特征值α,β；特征值α,β分别为通过门控单元学习到的全局特征u和构图特征e的权重；将全局特征与构图特征分别与各自权重相乘再级联得到融合特征，即αu⊕βe；

所述的特征值级联的顺序为：A1,A2,S1,S2,max1,max2，min1,min2。

进一步的，所述的步骤(4)所述的美学分数预测以及准确率度量：

4-1将得到的融合特征输入美学评价模块，该美学评价模块包含两个全连接层和一个Softmax层，输出向量a＝[a₁,a₂,…,a₁₀],

其中，k的取值是1-10的自然数；原图片的最终得分为

原图片的人工得分为P＝∑¹⁰k.p_k；a_k和p_k分别表示预测得分和实际得分为k的概率；

4-2损失函数选择EMDLoss，

其中p代表图片真实的美学分数分布；CDF(.)代表累积分布函数；当损失函数约束预测值越靠近真实值，预测结果越准确；

4-3将预测分数S与实际分数P相比较，计算二者的皮尔逊相关系数(PLCC)和斯皮尔曼相关系数(SRCC)，结果比目前最优分别高出0.242和0.238；准确率比目前最优结果高出2％。

本发明有益效果如下：

本发明对于美学评价的准确率和与人工评价的一致性在AVA数据及上处于领先地位，并且再在补充数据集(CPC&JAS)上表现也十分优异，因此在做相关工作时，利用本发明在图片美学质量评价工作上可以获得较高的正确率，与人类主观评分的一致性也较强。

附图说明

图1是利用构图与全局特征相融合的美学质量评价框架示意图；

图2是全局特征及构图特征提取网络的体系结构图；

具体实施细节

下面结合附图对本发明做进一步说明。

如图1和图2所示，一种用于美学质量评价的构图表征学习方法，具体包括如下步骤：

步骤(1)数据预处理

将所有数据集的图片经过调整尺寸和裁剪的操作缩放到统一大小。

步骤(2)特征提取及全连接图构建

分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络，分别用来提取全局特征和构图特征。

利用提取出来的构图特征构建全连接图。

所述的微调是指用指定的训练集对Moblinet v2进行训练，得到所需参数的指定网络。

步骤(3)全局特征与构图特征相融合

将提取出来的全局特征与构图特征输入门控单元进行特征融合，获取融合特征。

步骤(4)美学分数预测以及准确率度量

进一步的，所述的步骤(1)所述的数据预处理：

1-1AVA数据集是一个包含25万多张图片的大型美学数据集，按照标准数据集划分方法，随机取80％的图片作为训练集，其余20％的数据集作为测试集。

1-2对图片进行预处理时先将图片缩放到256*256大小，然后对图片进行随机裁剪，大小变为224*224。

进一步的，所述的步骤(2)所述的特征提取及全连接图构建：

2-1分别对两个预训练的Moblinet v2进行微调构成全局特征提取网络和构图特征提取网络用来进行特征提取。

其中i＝1,2…,N；X_i位置对应的特征向量为节点特征；任意节点特征之间的余弦相似性视为边；该边的信息即图片的构图特征；对全局特征提取网络输出的全局特征F₁进行全局池化，得到池化后包含全局信息的全局特征。

所述的任意节点特征之间的余弦相似性的计算如下：

其中，e_i,j代表连接节点i,j的边。边的集合为

节点的集合和边的集合构成全连接图。

所述的对全局特征F₁进行全局池化的实现如下：

所有的节点特征

进行平均池化得到全局特征

其中，x_i是指全局特征F₁的矩阵中第i个位置的特征；

所述特征向量F在门控单元内的实现如下：

特征向量F先经过一层全连接层得到特征向量FC₁，FC₁∈R⁶⁴再经一层全连接层得特征向量FC₂,FC₂∈R²,FC₂再经过一层Softmax得到两个特征值α,β；特征值α,β分别为通过门控单元学习到的全局特征u和构图特征e的权重。将全局特征与构图特征分别与各自权重相乘再级联得到融合特征，即αu⊕βe。

所述的特征值级联的顺序为：A1,A2,S1,S2,max1,max2，min1,min2；

进一步的，所述的步骤(4)所述的美学分数预测以及相关性和性度量：

在对图片进行美学质量评价的过程中，经过上述步骤能够得到全局特征与构图特征融合之后的特征向量，其中全局特征包含原图的全局信息，构图特包含原图的构图信息。

其中，k的取值是1-10的自然数；原图片的最终得分为

4-2损失函数选择EMDLoss，

4-3将预测分数S与实际分数P相比较，计算二者的皮尔逊相关系数(PLCC)和斯皮尔曼相关系数(SRCC)，值越高说明相关性越大，也即模型预测分数与人工评判分数一致性越高；结果表明皮尔逊相关系数(PLCC)和斯皮尔曼相关系数(SRCC)比目前最优分别高出0.242和0.238；将美学评价视为二分类任务，将预测分数与实际分数按照阈值5分进行分类，高与阈值的标为1，低于阈值的标为0，重新标记后计算模型的分类准确率，准确率比目前最优结果高出2％。