CN114140645A

CN114140645A - 基于改进自监督特征学习的摄影图像美学风格分类方法

Info

Publication number: CN114140645A
Application number: CN202111393879.7A
Authority: CN
Inventors: 张桦; 包尔权; 张灵均; 吴以凡; 叶挺聪; 苟若芸
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-04
Anticipated expiration: 2041-11-23
Also published as: CN114140645B

Abstract

本发明公开了一种基于改进自监督特征学习的摄影图像美学风格分类方法，首先对AVA美学数据集进行预处理；然后建立改进自监督特征学习神经网络，用二分类的AVA美学数据集对改进自监督特征学习神经网络进行预训练；再提取出预训练完成的改进自监督特征学习神经网络的特征提取网络部分，并连接一个SoftMax分类器，建立分类网络模型；最后采用LSTM神经网络结构输出具体的数据增强策略，得到分类精度最佳的摄影图像美学分类模型。本发明采用改进自监督特征学习模型进行预训练，学习到更好的美学特征，从数据集中寻找最佳数据增强策略，得到最佳的摄影图像美学分类模型。

Description

基于改进自监督特征学习的摄影图像美学风格分类方法

技术领域

本发明涉及一种摄影图像美学风格分类方法，特别涉及一个基于改进自监督特征学习的摄影图像美学风格分类方法。

背景技术

计算机视觉领域依靠大规模的有标注数据集取得了很大的成功，特别是卷积神经网络的应用，在图像物体识别领域取得了巨大的成功。但是在美学风格分类任务上也有了初步的尝试，但由于有标签的美学风格分类数据集较少。现有方法主要用有标签的大型图像识别数据集例如ImageNet做特征学习，再通过美学风格分类数据集对模型进行微调。然而ImageNet的标签不适用于美学风格分类任务的特征学习，因此模型分类效果较差。自监督学习是一种具有有监督形式的非监督学习方法，能从大规模无标注数据中挖掘自身的监督信息，并通过这种监督信息对网络进行训练，从而学习到对下游任务有价值的特征。因此，我们可以利用自监督学习，实现针对美学风格分类任务神经网络的定制化改造。

美学风格分类任务主要存在以下问题：有标签的美学风格分类数据集样本量较少，直接用于模型训练容易造成过拟合，导致模型泛化能力差；现有的大规模数据集不适用于美学风格分类任务的特征学习，直接在这些数据集上进行预训练，很难学习到对美学风格分类任务有价值的特征，进而影响模型分类的精度。

发明内容

针对上述问题，本发明提出了一种基于改进自监督特征学习的摄影图像美学风格分类方法。本发明的技术方案为：

一种基于改进自监督特征学习的摄影图像美学风格分类方法，步骤如下：

步骤1：对AVA美学数据集进行预处理。

步骤2：建立改进自监督特征学习神经网络。构建由特征提取网络、投影网络、改进自监督对比学习损失函数构成的神经网络模型。

步骤3：用二分类的AVA美学数据集对改进自监督特征学习神经网络进行预训练。

步骤4：提取出步骤3中预训练完成的改进自监督特征学习神经网络的特征提取网络部分，并连接一个SoftMax分类器，建立分类网络模型。

步骤5：摄影图像美学分类数据集是一个标注摄影属性的数据集，一共有14个摄影属性，采用LSTM神经网络结构输出具体的数据增强策略，并应用于摄影图像美学分类数据集的训练集部分，再训练步骤4中的分类网络模型，以该模型在摄影图像美学分类数据集的验证集中达到的分类精度作为奖励信号更新LSTM神经网络的参数，直到搜索到最佳的数据增强策略，同时得到分类精度最佳的摄影图像美学分类模型。

本发明的有益效果：

1.针对有标签的摄影图像美学分类数据集样本量较少的问题，采用改进自监督特征学习模型进行预训练，学习到更好的美学特征。

2.针对自监督特征学习在摄影图像美学风格分类上的数据增强问题，从数据集中寻找最佳数据增强策略，得到最佳的摄影图像美学分类模型。

附图说明

图1本发明方法实施例流程图。

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。

步骤1：对AVA美学数据集进行预处理。

AVA美学数据集是一个美学质量评估的数据集，包括N(N＝250000)张美学图像，每张图像都有若干人投票，投票的分数从0～9分。计算每张美学图像的平均得分，将大于等于5分的美学图像归类为高质量图像，将小于5分的美学图像归类为低质量图像。

步骤2：建立改进自监督特征学习神经网络。

所述的改进自监督特征学习神经网络由特征提取网络、投影网络、改进自监督对比学习损失函数构成。具体过程如下：

2-1.建立特征提取网络。

针对每个输入样本x，将ResNet50作为特征提取网络得到表征向量

进行归一化到

超球面。

2-2.建立投影网络。

获得表征向量r后，通过投影网络获得向量

投影网络为一个多层感知器网络，包括一个2048维度的隐层和一个D_P＝128的输出层。将向量z再次归一化到超球面。

2-3.建立改进的自监督对比学习损失函数。

对于给定容量为N的随机采样的数据/标签对{x_k，y_k}_k＝1...N进行数据增强(旋转，平移等)，获得数据容量为2N的数据/标签对

用于训练，其中

和

是x_k经过两次不同的数据增强生成的，且标签

在同一批次训练数据中，任意选取

索引的数据作为基准数据，则j(i)是与索引i的数据来源于同一个源数据样本进行数据增强得到的另一个数据索引，A(i)表示其余数据的集合。自监督对比学习损失函数公式如下：

其中，

符号·表示内积运算，

表示温度系数z_i表示数据

经过特征提取网络Enc与投影网络Proj得到的特征向量，

表示该特征向量的维度。则z_j(i)与z_a表示索引为j(i)与索引为(a∈A(i))的数据经过特征提取网络与投影网络得到的特征向量。

在对比学习中，公式(1)不能覆盖到一种情况，即由于数据有标签的存在，属于同一类别的不止一个数据样本。为了应对这种情况，对公式(1)进行改进，得到改进的自监督对比学习损失函数如下：

其中，

表示所有与索引i的数据样本属于同一标签的正样本索引集合，|P(i)|表示这个集合中的数据样本个数。改进的自监督对比学习损失函数有如下3点优势：

1.可以选取任意数量正样本。

公式2相较于公式1最主要的改变是在同一批次数据中对于某一个基准数据，选取了所有的正样本(包括同一标签的剩余数据样本)。由于随机生成的批量数据量远大于类别数，因此公式2相较于公式1更能指导特征提取网络使同一类别的数据表征更为接近，最终形成更鲁棒的聚类表征空间。

2.更多的负样本可增强对比学习能力。

公式2保留了公式1中的分母中关于负样本对比学习的求和部分，这种形式包含了Noise Contrastive Estimation和N-pair loss，其中Noise Contrastive Estimation通过学习数据分布样本即正样本和噪声分布样本即负样本之间的区别，从而发现数据种的一些特性，而N-pair loss则是通过选取多个负样本，即一对正样本对，选取其他所有不同类别的样本作为负样本与其组合得到负样本对。这对于通过自监督对比学习进行的表征学习十分重要，通过增加负样本数量能提高其表征学习的能力。

3.对于难例样本挖掘的能力。

当与归一化一起使用时，公式1引入了一个梯度结构，来自难例样本的梯度贡献大，而容易区分的样本梯度贡献小，导致其对于隐含的难例样本挖掘能力。公式2保留了这个属性并且将其挖掘能力泛化至所有正样本。

步骤5：摄影图像美学分类数据集是一个标注摄影属性的数据集，一共有14个摄影属性，分别是：Complementary Colors、Duotones、High Dynamic Range、Image Grain、LightonWhite、Long Exposure、Macro、Motion Blur、Negative Image、Rule of Thirds、Shallow DOF、Silhouettes、Soft Focus、Vanishing Point。采用LSTM神经网络结构输出具体的数据增强策略，并应用于摄影图像美学分类数据集的训练集部分，再训练步骤4中的分类网络模型，以该模型在摄影图像美学分类数据集的验证集中达到的分类精度作为奖励信号更新LSTM神经网络的参数，直到搜索到最佳的数据增强策略，同时得到分类精度最佳的摄影图像美学分类模型。

具体步骤如下：

5-1.确定搜索空间。

定义1个数据增强策略包含5个子策略，每个子策略包括2个图像处理函数，每个图像处理函数包括3个属性：图像处理函数类型、应用概率和对应图像处理函数的幅度参数。采用14种图像处理函数包括ShearX/Y，TranslateX/Y，Rotate，AutoContrast，Invert，Equalize，Solarize，Posterize，Contrast，Color，Brightness，Sharpness，Cutout，SamplePairing。应用概率离散为11个均匀间距的值。幅度参数范围离散为10个均匀间距的值。因此寻找1个子策略成为了(14×10×11)²种可能的空间中的搜索问题。那么寻找1个数据增强策略具有(14×10×11)⁵种可能。

5-2.确定搜索算法。

搜索算法由两部分组成，一部分是采用LSTM神经网络作为控制器，另一部分采用最近策略优化算法更新控制器的参数。在每一次训练过程中输出30组softmax预测值，因为1个策略包含5个子策略，每个子策略包括2个图像处理函数，每个图像处理函数包括3个属性。

5-3.确定反馈信号。

控制器需要通过一个奖励信号进行训练，该奖励信号定义为某个策略对于步骤4中的分类网络模型泛化能力的优化程度。将摄影图像美学分类数据集划分为训练集与验证集，在训练集上应用5个子策略生成增强的数据训练分类网络模型，然后再验证集上评估分类网络模型的精度，评估结果作为控制器的奖励信号。

5-4.搜索结束时，得到最佳数据增强策略与对应的摄影图像美学分类网络模型。

Claims

1.一种基于改进自监督特征学习的摄影图像美学风格分类方法，其特征在于，步骤如下：

步骤1：对AVA美学数据集进行预处理；

步骤2：建立改进自监督特征学习神经网络；构建由特征提取网络、投影网络、改进自监督对比学习损失函数构成的神经网络模型；

步骤3：用二分类的AVA美学数据集对改进自监督特征学习神经网络进行预训练；

步骤4：提取出步骤3中预训练完成的改进自监督特征学习神经网络的特征提取网络部分，并连接一个SoftMax分类器，建立分类网络模型；

2.根据权利要求1所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法，其特征在于，步骤1具体方法如下：

AVA美学数据集是一个美学质量评估的数据集，包括N(N＝250000)张美学图像，每张图像都有若干人投票，投票的分数从0～9分；计算每张美学图像的平均得分，将大于等于5分的美学图像归类为高质量图像，将小于5分的美学图像归类为低质量图像。

3.根据权利要求2所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法，其特征在于，步骤2具体方法如下：

所述的改进自监督特征学习神经网络由特征提取网络、投影网络、改进自监督对比学习损失函数构成；具体过程如下：

2-1.建立特征提取网络；

进行归一化到

超球面；

2-2.建立投影网络；

获得表征向量r后，通过投影网络获得向量

投影网络为一个多层感知器网络，包括一个2048维度的隐层和一个D_P＝128的输出层；将向量z再次归一化到超球面；

2-3.建立改进的自监督对比学习损失函数；

对于给定容量为N的随机采样的数据/标签对{x_k，y_k}_k＝1...N进行数据增强，获得数据容量为2N的数据/标签对

用于训练，其中

和

是x_k经过两次不同的数据增强生成的，且标签

在同一批次训练数据中，任意选取

索引的数据作为基准数据，则j(i)是与索引i的数据来源于同一个源数据样本进行数据增强得到的另一个数据索引，A(i)表示其余数据的集合；自监督对比学习损失函数公式如下：

其中，

符号·表示内积运算，

表示温度系数z_i表示数据

经过特征提取网络Enc与投影网络Proj得到的特征向量，

表示该特征向量的维度；则z_j(i)与z_a表示索引为j(i)与索引为(a∈A(i))的数据经过特征提取网络与投影网络得到的特征向量；

在对比学习中，公式(1)不能覆盖到一种情况，即由于数据有标签的存在，属于同一类别的不止一个数据样本；为了应对这种情况，对公式(1)进行改进，得到改进的自监督对比学习损失函数如下：

其中，

表示所有与索引i的数据样本属于同一标签的正样本索引集合，|P(i)|表示这个集合中的数据样本个数。

4.根据权利要求3所述的一种基于改进自监督特征学习的摄影图像美学风格分类方法，其特征在于，步骤5具体方法如下：

摄影图像美学分类数据集是一个标注摄影属性的数据集，一共有14个摄影属性，分别是：Complementary Colors、Duotones、High Dynamic Range、Image Grain、LightonWhite、Long Exposure、Macro、MotionBlur、Negative Image、Rule ofThirds、ShallowDOF、Silhouettes、SoftFocus、Vanishing Point；采用LSTM神经网络结构输出具体的数据增强策略，并应用于摄影图像美学分类数据集的训练集部分，再训练步骤4中的分类网络模型，以该模型在摄影图像美学分类数据集的验证集中达到的分类精度作为奖励信号更新LSTM神经网络的参数，直到搜索到最佳的数据增强策略，同时得到分类精度最佳的摄影图像美学分类模型；

具体步骤如下：

5-1.确定搜索空间；

定义1个数据增强策略包含5个子策略，每个子策略包括2个图像处理函数，每个图像处理函数包括3个属性：图像处理函数类型、应用概率和对应图像处理函数的幅度参数；采用14种图像处理函数包括ShearX/Y,TranslateX/Y,Rotate,AutoContrast,Invert,Equalize,Solarize,Posterize,Contrast,Color,Brightness,Sharpness,Cutout,SamplePairing；应用概率离散为11个均匀间距的值；幅度参数范围离散为10个均匀间距的值；因此寻找1个子策略成为了(14×10×11)²种可能的空间中的搜索问题；那么寻找1个数据增强策略具有(14×10×11)⁵种可能；

5-2.确定搜索算法；

搜索算法由两部分组成，一部分是采用LSTM神经网络作为控制器，另一部分采用最近策略优化算法更新控制器的参数；在每一次训练过程中输出30组softmax预测值；

5-3.确定反馈信号；

控制器需要通过一个奖励信号进行训练，该奖励信号定义为某个策略对于步骤4中的分类网络模型泛化能力的优化程度；将摄影图像美学分类数据集划分为训练集与验证集，在训练集上应用5个子策略生成增强的数据训练分类网络模型，然后再验证集上评估分类网络模型的精度，评估结果作为控制器的奖励信号；