CN113128560A

CN113128560A - 一种基于注意力模块增强的cnn楷体书法风格分类方法

Info

Publication number: CN113128560A
Application number: CN202110296395.4A
Authority: CN
Inventors: 张九龙; 于文航; 屈小娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-16
Anticipated expiration: 2041-03-19
Also published as: CN113128560B

Abstract

本发明公开的一种基于注意力模块增强的CNN楷体书法风格分类方法，具体为：步骤1、获取四种不同书法风格的图像，组成数据集并分成训练样本和测试样本；步骤2、组成卷积块结构；步骤3、组成基线模型；步骤4、向步骤3构造的基线模型中的第三个卷积块与第四个卷积块之间嵌入第一个CBAM、第四个卷积块与Flatten层之间嵌入第二个CBAM形成组合模型；步骤5、设置损失函数和训练参数，将步骤1数据集中的训练样本与测试样本输入到步骤4构造的组合模型，进行训练与测试；步骤6、将步骤5中训练结果中测试准确率最高的模型保存下来。该方法解决了现有技术中存在的书法风格分类困难的问题，并提高分类的精准度。

Description

一种基于注意力模块增强的CNN楷体书法风格分类方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于注意力模块增强的CNN楷体书法风格分类方法。

背景技术

中国书法作品是文化瑰宝，具有重要的研究价值。与中国书法字体相比，不同风格的特征对于外行人来说更难识别，例如，对于五种书法字体：篆书，隶书，楷书，行书，草书来说，它们的外形具有较为明显的差异，容易被人们分辨出来。然而，我国古代四位著名书法家，欧阳询，颜真卿，柳公权，赵孟頫创作的作品欧体，颜体，柳体，赵体都属于楷书，它们之间外形上的差异就要比五种字体之间的差异小很多，因此书法风格的分类是一项重要而具有挑战性的任务。本发明为了将四种楷体书法风格，欧体，颜体，柳体，赵体进行更高精度的分类，提出一种基于注意力模块增强的卷积神经网络的书法图像风格分类方法。该分类模型的提出不仅可以自动分类欧体，颜体，柳体，赵体这四种风格的书法图像，还可以为将来的下游视觉任务提供帮助，如目标识别等。

发明内容

本发明的目的是提供一种基于注意力模块增强的CNN楷体书法风格分类方法，解决了现有技术中存在的书法风格分类困难的问题，并提高分类的精准度。

本发明所采用的技术方案是，一种基于注意力模块增强的CNN楷体书法风格分类方法，具体按照以下步骤实施：

步骤1、获取四种不同书法风格的图像，组成数据集并分成训练样本和测试样本；

步骤2、构建由卷积层，池化层，批量归一化层和非线性层组成的卷积块结构；

步骤3、将一个Dropout层、四个步骤2构造的卷积块、一个Flatten层及一个全连接层顺序排列在一起组成基线模型；

步骤4、向步骤3构造的基线模型中的第三个卷积块与第四个卷积块之间嵌入第一个CBAM、第四个卷积块与Flatten层之间嵌入第二个CBAM形成组合模型；

步骤5、设置损失函数和训练参数，将步骤1数据集中的训练样本与测试样本输入到步骤4构造的组合模型，进行训练与测试，训练每经过1个epoch，会在测试集上测试一遍当前网络的分类准确率，这个过程由设置的训练参数自动控制完成；

步骤6、将步骤5中训练结果中测试准确率最高的模型保存下来，作为书法风格分类模型，即为最终得到的书法风格分类器。

本发明的特征还在于，

步骤1具体按照以下步骤实施：

步骤1.1、利用现有的最小包围盒切算法从欧体，颜体，柳体及赵体四不同书法风格的整幅楷书作品中分割出单个字符图像，每种风格的书法字符图像数量相等；

步骤1.2、从步骤1.1中获得的每种风格的书法字符图像中，按照3:1的比例分成训练集和测试集待用。

步骤2具体为：按照顺序将卷积层，最大池化层，批量归一层和非线性层排列在一起，并将它们封装在一个卷积块中；其中，卷积层的滤波器大小为5×5，步长为1；最大池化层的窗口大小为3×3，步长为2；非线性层使用ReLU激活函数。此外，在输入图像之后和第一个卷积块之间添加dropout层来减少过拟合，其概率设置为0.1。在第四个卷积块和全连接层之间添加flatten(扁平)层来改变输入到全连接层的特征图的形状。该层无任何参数。

步骤3中，四个卷积块中的卷积层滤波器组的数量分别为32，32，64，128；全连接层的神经元个数为4，激活函数为ReLU。

步骤4中，CBAM由上下设置的通道模块及空间模块两部分组成；

通道模块由第一全局平均池化层、第一全局最大池化层、由第一全连接层及第二全连接层组成的多层感知机及ADD层组成；其中，全局平均池化层和全局最大池化层在输入特征图的每个通道切片上沿着空间维度进行；多层感知机中第一全连接层的神经元数量为输入特征图通道数的

并使用ReLU激活函数，第二全连接层的神经元数量为输入特征图的通道数；ADD层输出结果对其使用sigmoid激活函数；

空间模块由第二全局平均池化层、第二全局最大池化层、串连接层以及卷积层组成；其中，第二全局平均池化层和第二全局最大池化层在输入特征图的每个像素位置处沿着通道维度进行操作。

步骤5中，损失函数选择交叉熵损失函数，并且使用小批量梯度下降算法优化网络模型；训练参数epoch为200，batch size为32，learning rate为0.0001。

本发明的有益效果是：

1、本发明方法缓解了在模型训练过程出现梯度爆炸现象；

2、本发明方法比现有方法的分类准确率高；

3、本发明方法使用的参数数量较少，效率高。

附图说明

图1是本发明方法中卷积块的内部结构图；

图2是本发明方法中提出的基于注意力模块增强的卷积神经网络的结构图；

图3是本发明方法中CBAM的工作原理图；

图4是实施例的测试准确率结果。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于注意力模块增强的CNN楷体书法风格分类方法，如图1-3所示，具体按照以下步骤实施：

步骤1具体按照以下步骤实施：

步骤4、向步骤3构造的基线模型中的第三个卷积块与第四个卷积块之间嵌入第一个CBAM、第四个卷积块与Flatten层之间嵌入第二个CBAM形成组合模型；如图2所示，所使用到的CBAM结构图如图3所示：

CBAM的内部工作流程为，假设特征图F作为CBAM通道模块的输入，F的大小为H×W×C。在F的每个通道上分别经过第一全局平均池化层的全局平均池化和全局最大池化层的全局最大池化产生2个大小1×1×C的池化特征图，记为：F_Avg(F)和F_Max(F)，其过程如公式(1)，(2)所示：

其中，F为输入的特征图，H，W，C分别为F的长度、宽度和通道数量。x为F的像素值，x_ij为F的(i,j)位置处的像素值。

将上面产生的池化特征图F_Avg(F)和F_Max(F)分别输入到由第一全连接层及第二全连接层组成的多层感知机(MLP)中，产生两个大小为1×1×C通道注意特征图，记为：MLP(F_Avg)和MLP(F_Max)。多层感知机中第一全连接层的神经元个数为

r的值为16，并对结果使用ReLU激活函数，第二全连接层的神经元个数为C，过程如公式(3)，(4)所示：

MLP(F_Avg)＝W₁ReLU(W₀(F_Avg)) (3)

MLP(F_Max)＝W₁ReLU(W₀(F_Max)) (4)

其中F_Avg和F_Max分别为刚才产生的全局平均池化特征图和全局最大池化特征图，W₀和W₁分别为多层感知机中第一全连接层的权重及第二全连接层的权重，W₀的大小为

W₁的大小为

ReLU表示激活函数。

将MLP处理后的两个通道注意特征图MLP(F_Avg)和MLP(F_Max)在ADD层处对应元素相加合并为一个结果。然后对合并后的结果使用sigmoid函数，得到一个1×1×C大小的通道注意特征图M_c(F)。将M_c(F)与输入F对应元素相乘，得到大小为H×W×C通道微调特征图F′，过程如公式(5)，(6)所示：

M_c(F)＝σ(MLP(F_Avg)+MLP(F_Max)) (5)

F′＝F*M_c(F) (6)

其中，σ为sigmoid函数，M_c(F)为合并后的通道注意特征图。公式(6)中F为输入进CBAM通道模块的特征图，F′为通道微调特征图，“*”表示对应元素相乘。

将上面得到的通道微调特征图F′再由CBAM的空间模块进行处理。在F′每个像素位置处，沿着通道维度方向分别通过第二全局平均池化层及第二全局最大池化层进行平均池化和最大池化，得到两个大小为H×W×1池化特征图F_Avg(F′)和F_Max(F′)。接着，通过串连接层处的串连接操作，将F_Avg(F′)和F_Max(F′)合并为一个大小为H×W×2的特征图。然后，使用卷积层处理合并后的特征图，产生一个大小为H×W×1空间注意特征图M_S(F′)。其中卷积层中滤波器大小7×7，步长为1，滤波器组的数量为1，激活函数为sigmoid。最后，将产生的空间注意特征图M_S(F′)与通道微调特征图F′对应元素相乘，得到空间微调特征图F″，其过程如公式(7)，(8)所示，空间微调特征图F″即为CBAM的完整输出，

M_S(F′)＝σ(f^7×7([F_Avg(F′)；F_Max(F′)])) (7)

F″＝F′*M_S(F′) (8)

公式中：F′为通道微调特征图，[F_Avg(F′)；F_Max(F′)]表示串连接操作，f^7×7表示卷积操作，σ为sigmoid函数，M_s(F′)为空间注意特征图，F″为空间微调特征图。

向步骤3构造的基线模型中的第3个卷积块与第4个卷积块之间嵌入第一个CBAM，CBAM中通道模块全连接层的参数C为64。即，让第3个卷积块产生的输出作为CBAM的输入，由CBAM处理后，产生的输出作为第4个卷积块的输入。第4个卷积块与全连接层之间嵌入第二个CBAM，CBAM中通道模块全连接层的参数C为128。即，让第4个卷积块产生的输出作为第二个CBAM的输入。

步骤5中，损失函数选择交叉熵损失函数，并且使用小批量梯度下降算法优化网络模型；训练参数epoch为200，batch size为32，learning rate为0.0001；

实施例

将训练集2400张书法风格图像和测试图像800张书法风格图像，图像大小为64×64。输入到本方法提出的步骤4的组合模型中，根据步骤5设置的训练参数，在训练集上训练组合模型200个epoch，每经过1个epoch，将组合模型在测试集上进行测试，得到测试准确率，本方法的测试准确率结果如图4。因此，该图一共表示200个测试准确率，其中在第131个epoch时，测试准确率达到一个最大值，为97.37％，实现了较高的分类效果。此外，从图中可以可看出，在训练过程中，组合模型的测试准确率变化幅度稳定，说明本方法既是一个性能良好，又是一个鲁棒性高的分类方法。并且，该方法具有的参数数量非常少，组合模型的可训练参数大约为295000，浮点运算次数(FLOPs)为580000左右。

Claims

1.一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，步骤1具体按照以下步骤实施：

3.根据权利要求1所述的一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，步骤2具体为：按照顺序将卷积层，最大池化层，批量归一层和非线性层排列在一起，并将它们封装在一个卷积块中；其中，卷积层的滤波器大小为5×5，步长为1；最大池化层的窗口大小为3×3，步长为2；非线性层使用ReLU激活函数；此外，在输入图像之后和第一个卷积块之间添加dropout层来减少过拟合，其概率设置为0.1；在第四个卷积块和全连接层之间添加flatten层来改变输入到全连接层的特征图的形状。

4.根据权利要求1所述的一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，步骤3中，四个卷积块中的卷积层滤波器组的数量分别为32，32，64，128；全连接层的神经元个数为4，激活函数为ReLU。

5.根据权利要求1所述的一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，步骤4中，CBAM由上下设置的通道模块及空间模块两部分组成；

6.根据权利要求1所述的一种基于注意力模块增强的CNN楷体书法风格分类方法，其特征在于，步骤5中，损失函数选择交叉熵损失函数，并且使用小批量梯度下降算法优化网络模型；训练参数epoch为200，batch size为32，learning rate为0.0001。