CN112132137A

CN112132137A - 一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法

Info

Publication number: CN112132137A
Application number: CN202010982932.6A
Authority: CN
Inventors: 白茹意
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-25

Abstract

本发明涉及一种基于FCN‑SPP‑Focal Net的抽象画图像正确方向的识别方法，目的是解决目前识别抽象画的正确方向比较困难，以及现有识别方法需要对图像进行裁剪破坏原画大小的技术问题，本发明的技术方案为：先旋转并得到不同角度的原画，然后建立FCN‑SPP‑Focal Net模型对图像进行训练和预测，再进行分类和识别，最后对结果进行验证。本发明识别方法可以在不改变抽象画原始大小的情况下，对抽象画图像正确方向进行准确识别。

Description

一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法

技术领域

本发明属于图像处理和计算机视觉处理技术领域，具体涉及一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法。

背景技术

抽象艺术是一种采用形、色和线进行构图，在一定程度上独立于世界的视觉语言，通常在创作抽象画时，艺术家根据自己的审美观念，决定作品的正确悬挂方向，但是，由于抽象画的内容比较含蓄，不明确，因此抽象画的正确方向对其他非专业观众来说并不明显，而且，近些年心理学中的一些研究已经证实正确定位的抽象画会获得更高的审美评价，大多数被试者对正确方向的审美偏好与艺术家的预期取向是一致的，实验结果说明，方向可以作为视觉审美评价的因素之一，这些都为抽象画的方向研究与审美的关系提供了依据。

近些年依据审美感知与计算视觉特征之间的关系，研究人员主要研究了很多抽象画审美评价方法，比如情感、复杂度等，但很少通过计算机辅助的方法识别抽象画的正确方向，目前对图像方向的研究现状如下：

1)图像方向识别的研究主要针对摄影图片，比如自然或场景图像，而且识别率都比较满意，然而，对于抽象画图像而言，其内容和语义相对于摄影图像比较含蓄、不明显，因此识别抽象画的正确方向是比较困难的，近几年的相关工作也比较少。

2)人类一般是通过对图像内容的理解来识别方向，因此大多采用低层特征(颜色，纹理和布局等)来识别图像的方向，但是它的准确性在很大程度上取决于选取的低层特征是否能准确表达图像的方向特性。

3)目前有一部分研究采用深度学习方法采用的图像大小是一致的，因此输入网络前都需要进行裁剪，这样会破坏图像的很多信息，对于抽象画的大小都是艺术家规定好的，而且绘画的长度和宽度对方向识别是重要的因素之一，因此希望在计算过程中能不改变抽象画的原始大小。

发明内容

本发明的目的是针对目前识别抽象画的正确方向比较困难，以及现有识别方法需要对图像进行裁剪破坏原画大小的技术问题，提供一种在不改变抽象画原始大小的情况下，基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，包括以下步骤：

1)旋转并得到不同角度的原画：将所有抽象画图像依次旋转四个方向，分别得到四个不同方向的抽象画，将旋转后的所有抽象画图像用RGB彩色模式进行表示；

2)建立FCN-SPP-Focal Net模型：基于全卷积神经网络FCN(Fully ConvolutionalNetworks)、空间金字塔池化层SPP(Spatial Pyramid Pooling)和Focal损失函数建立FCN-SPP-Focal Net模型；

3)图像训练和预测：将步骤1)中得到的图像放入步骤2)建立的FCN-SPP-FocalNet模型中进行训练和预测；

4)图像分类和识别：将步骤3)中得到的图像分为正确方向和不正确方向两类，然后自动识别抽象画图像的正确方向；

5)识别结果的验证：分别采用不同的性能评价指标对比实验模型，对预测结果进行验证。

进一步的，所述步骤1)中图像的四个旋转方向分别为逆时针旋转0°、90°、180°和270°。

进一步的，所述步骤2)中建立FCN-SPP-Focal Net模型的具体步骤包括：

2.1)以FCN-SPP-Focal Net以FCN为网络基础框架，选取前5个卷积层，激活函数采用ReLU，卷积层利用滤波器对输入样本进行卷积，得到特征图；

2.2)对步骤2.1)中得到的特征图进行3种不同尺度的池化，取每块的最大值作为池化特征，在第5个卷积层之后有1个金字塔池化层(SPP)，池化层对不同尺寸的特征图进行采样，得到同样长度的池化特征；

2.3)FCN-SPP-Focal Net在SPP层之后连接3个全连接层，用于连接所有神经元；

2.4)在步骤2.3)中的最后一个全连接层之后，采用sigmoid激活函数实现二分类；

2.5)基于FCN、SPP和Focal损失函数建立FCN-SPP-Focal Net模型。

进一步的，所述步骤2.1)中的5个卷积层分别为：第1个卷积层由96个7×7个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第2个卷积层由256个5×5个卷积核组，步长为1，padding为‘same’，2×2的最大池化；第3个卷积层由384个3×3的卷积核组成，步长为1，padding为‘same’；第4个卷积层由384个3×3个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第5个卷积层由256个3×3，步长为1的卷积核组成，padding为‘same’；

所述激活函数ReLU，又称线性整流函数，公式为：

式中：x为函数输入，f(x)为函数输出。

进一步的，所述步骤2.2)中的3种不同尺度的池化具体指1×1＝1块，2×2＝4块，4×4＝16块，总共21块，所述第5个卷积层有256个卷积核，所述金字塔池化层(SPP)的池化特征维度为21×256＝5376。

进一步的，所述步骤2.3)中的3个全连接层的维度分别为4096，4096和1024。

进一步的，所述步骤2.4)中的sigmoid激活函数公式为：

式中：z为函数输入，g(z)为函数输出，表示为图像属于某个类的概率。

进一步的，所述步骤2.5)中的Focal是在交叉熵(cross entropy)的基础上进行的改进，所述交叉熵(cross entropy)损失函数中的二分类交叉熵公式为：

式中，y表示样本的标签，正类为1，负类为0；p表示样本预测为正类的概率；所述Focal的计算公式为：

式中：α为平衡参数，γ为聚焦因子，是一个大于0的超参数；

基于Focal的损失函数为：

式中，N为样本总数，y_i表示第i个样本所属类的标签，正类为1，负类为0，p_i表示第i个样本预测为正类的概率。不同类别的平衡参数α_i，表示第i个样本所属类的权重，计算公式为：

式中，在二分类中，y_i∈{0，1}，

表示第i个样本所属类的样本个数；

由以上可得：交叉熵损失函数(CE_LF)为：

其中N为样本的个数。

进一步的，在步骤4)中，所述正确方向的图像为0°的图像，不正确方向的图像为90°、180°和270°方向的图像。

进一步的，在步骤5)中，所述不同的性能评价指标指准确率(accuracy，ACC)、召回率(recall，R)和精准率(precision，P)。

与现有技术相比，本发明的有益效果是：

1、本发明采用深度学习框架实现抽象画图像正确方向的自动识别；

2、本发明采用空间金字塔池化层(SPP)作为深度学习网络框架的池化层，使得网络不同尺寸的输入，得到相同长度的池化特征，保证了图像的尺度不变，而且降低了过拟合；

3、本发明采用的数据集中，正确方向的图像占1/4，不正确方向的图像占3/4，对于深度学习网络来说，正负样本的数量是不相同的，针对这一问题，本发明的网络框架采用Focal Loss Function作为损失函数，借助于Focal的平衡因子α和聚焦因子γ能够挖掘困难样本和调节样本的不平衡性。

为充分证明本发明方法的有效性和适用性，首先利用本发明提出的网络模型来确定γ的最优值。从表1的实验结果中可以看出，参数γ在模型上的最优值为1.8。

表1：

γ	准确率
		0.2	0.67
0.5	0.67
		1.0	0.69
1.4	0.74
		1.6	0.77
1.8	0.79
		2.0	0.78

此外还对比了统一尺寸输入、采用SPP、普通交叉熵函数、Focal损失函数参数α、γ不同取值等在深度学习网络上的训练效果。为了进行客观分析比较,实验中采用了准确率(accuracy，ACC)、召回率(recall，R)和精准率(precision，P)三个性能评价指标详细对比实验模型设置如下：

模型1：FCN+交叉熵损失函数(固定输入224×224)

模型2：FCN+SPP+交叉熵损失函数

模型3：FCN+Focal损失函数(固定输入224×224)

模型4：FCN+SPP+Focal损失函数(固定α＝1，γ＝1.8)

模型5：FCN+SPP+Focal损失函数(α由2.5)决定，γ＝1.8)

表2：

模型	ACC	R	P
				模型1	0.57	0.48	0.52
模型2	0.64	0.57	0.61
				模型3	0.69	0.59	0.65
模型4	0.75	0.68	0.72
				模型5(本发明)	0.79	0.75	0.77

实验结果如表2所示，本发明提出的模型在抽象画图像正确方向的识别率中有很明显的提升。通过对不同方向的抽象画的观察，我们发现内容比较清晰的抽象画本发明中的模型很容易能够识别其方向；而那些内容比较抽象或不清楚的抽象画，模型很难进行判断。因此，今后我们将继续探索与绘画方向相关的特征，改进网络模型，提高抽象画图像正确方向的识别率。综上可见，本发明能有效识别抽象画图像的正确方向，即能够在机器学习的框架下建立图像视觉内容与正确方向之间的关系。

附图说明

图1为抽象画图像正确方向识别方法流程图；

图2为抽象画图像四个旋转方向示意图；

图3为建立FCN-SPP-Focal Net模型的过程流程图；

图4为FCN-SPP-Focal Net模型的结构示意图；

图5为SPP结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-5所示，一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，包括以下步骤：

1)选取WikiArt(http://www.wikiart.org)数据集中的1000幅抽象画，旋转并得到不同角度的原画：将所有抽象画图像依次逆时针旋转四个方向(0°、90°、180°和270°)，分别得到四个不同方向的抽象画，共4000幅，将旋转后的所有抽象画图像用RGB彩色模式进行表示；

建立FCN-SPP-Focal Net模型的具体步骤包括：

2.1)以FCN-SPP-Focal Net以FCN为网络基础框架，选取前5个卷积层，所述5个卷积层分别为：第1个卷积层由96个7×7个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第2个卷积层由256个5×5个卷积核组，步长为1，padding为‘same’，2×2的最大池化；第3个卷积层由384个3×3的卷积核组成，步长为1，padding为‘same’；第4个卷积层由384个3×3个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第5个卷积层由256个3×3，步长为1的卷积核组成，padding为‘same’；激活函数采用ReLU，所述激活函数ReLU，又称线性整流函数，公式为：

式中：x为函数输入，f(x)为函数输出；

卷积层利用滤波器对输入样本进行卷积，得到特征图；

2.2)对步骤2.1)中得到的特征图进行3种不同尺度的池化(1×1＝1块，2×2＝4块，4×4＝16块，总共21块)，取每块的最大值作为池化特征，在第5个卷积层(256个卷积核)之后有1个金字塔池化层(SPP)，所述金字塔池化层(SPP)的池化特征维度为21×256＝5376，池化层对不同尺寸的特征图进行采样，得到同样长度的池化特征；

2.3)FCN-SPP-Focal Net在SPP层之后连接3个全连接层，所述3个全连接层的维度分别为4096、4096和1024，用于连接所有神经元；

2.4)在步骤2.3)中的最后一个全连接层之后，采用sigmoid激活函数实现二分类；所述sigmoid激活函数公式为：

2.5)基于FCN、SPP和Focal损失函数建立FCN-SPP-Focal Net模型；

所述Focal是在交叉熵(cross entropy)的基础上进行的改进，所述交叉熵(crossentropy)损失函数中的二分类交叉熵公式为：

式中，y表示样本的标签，正类为1，负类为0；p表示样本预测为正类的概率；

所述Focal的计算公式为：

基于Focal的损失函数为：

式中，在二分类中，y_i∈{0，1}，

表示第i个样本所属类的样本个数；

由以上可得：交叉熵损失函数(CE_LF)为：

其中N为样本的个数。

3)图像训练和预测：将步骤1)中得到的图像随机选取800幅作为训练集原始图像，200幅绘画作为测试集，因此，原始图像通过旋转后得到最终的训练集样本为3200幅，测试集样本为800幅。放入步骤2)建立的FCN-SPP-Focal Net模型中进行训练和预测；

4)图像分类和识别：将步骤3)中得到的图像分为正确方向(0°)和不正确方向(90°、180°和270°)两类，然后自动识别抽象画图像的正确方向；

5)识别结果的验证：分别采用准确率(accuracy，ACC)、召回率(recall，R)和精准率(precision，P)三个不同的性能评价指标对比实验模型，对预测结果进行验证。

Claims

1.一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：包括以下步骤：

3)图像训练和预测：将步骤1)中得到的图像放入步骤2)建立的FCN-SPP-Focal Net模型中进行训练和预测；

2.根据权利要求1所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤1)中图像的四个旋转方向分别为逆时针旋转0°、90°、180°和270°。

3.根据权利要求1所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2)中建立FCN-SPP-Focal Net模型的具体步骤包括：

2.5)基于FCN、SPP和Focal损失函数建立FCN-SPP-Focal Net模型。

4.根据权利要求3所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2.1)中的5个卷积层分别为：第1个卷积层由96个7×7个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第2个卷积层由256个5×5个卷积核组，步长为1，padding为‘same’，2×2的最大池化；第3个卷积层由384个3×3的卷积核组成，步长为1，padding为‘same’；第4个卷积层由384个3×3个卷积核组成，步长为1，padding为‘same’，2×2的最大池化；第5个卷积层由256个3×3，步长为1的卷积核组成，padding为‘same’；

所述激活函数ReLU，又称线性整流函数，公式为：

式中：x为函数输入，f(x)为函数输出。

5.根据权利要求3所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2.2)中的3种不同尺度的池化具体指1×1＝1块，2×2＝4块，4×4＝16块，总共21块，所述第5个卷积层有256个卷积核，所述金字塔池化层(SPP)的池化特征维度为21×256＝5376。

6.根据权利要求3所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2.3)中的3个全连接层的维度分别为4096，4096和1024。

7.根据权利要求3所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2.4)中的sigmoid激活函数公式为：

8.根据权利要求3所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：所述步骤2.5)中的Focal是在交叉熵(cross entropy)的基础上进行的改进，所述交叉熵(cross entropy)损失函数中的二分类交叉熵公式为：

所述Focal的计算公式为：

基于Focal的损失函数为：

式中，N为样本总数，y_i表示第i个样本所属类的标签，正类为1，负类为0，p_i表示第i个样本预测为正类的概率，不同类别的平衡参数α_i，表示第i个样本所属类的权重，计算公式为：

式中，在二分类中，y_i∈{0，1}，

表示第i个样本所属类的样本个数；

由以上可得：交叉熵损失函数(CE_LF)为：

其中N为样本的个数。

9.根据权利要求1所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：在步骤4)中，所述正确方向的图像为0°的图像，所述不正确方向的图像为90°、180°和270°方向的图像。

10.根据权利要求1所述的一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法，其特征在于：在步骤5)中，所述不同的性能评价指标是指准确率(accuracy，ACC)、召回率(recall，R)和精准率(precision，P)。