CN111709443B

CN111709443B - 一种基于旋转不变卷积神经网络的书法字风格分类方法

Info

Publication number: CN111709443B
Application number: CN202010386734.3A
Authority: CN
Inventors: 张九龙; 于文航; 屈小娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-04-07
Anticipated expiration: 2040-05-09
Also published as: CN111709443A

Abstract

本发明公开的一种基于旋转不变卷积神经网络的书法字风格分类方法，包括以下步骤：步骤1，建立取样样本并预处理数据集；步骤2，划分数据集为训练样本集和测试样本集，并对训练集样本进行数据扩充作为新的训练集；步骤3，对于步骤2得到的训练集中的每一张训练样本，提取16个副本图像，并将他们一一对应输入到完全相同的16个卷积架构中处理；步骤4，将步骤3得到的分类结果带入到交叉熵损失函数中，从而得到训练好的网络模型；步骤5，将待分类测试样本集输入到步骤4训练好的模型中进行书法字风格分类，得到分类准确率。本发明方法，解决了传统方法分类准确率低问题的同时，提高了模型泛化能力。

Description

一种基于旋转不变卷积神经网络的书法字风格分类方法

技术领域

本发明属于人工智能领域，具体涉及一种基于旋转不变卷积神经网络的书法字风格分类方法。

背景技术

中华民族历史悠扬，留下的传统文化不计其数。书法及其作品既是中华民族的传统文化，又是前人给我们留下的文化瑰宝。随着科学技术的发展，将先进的新兴技术应用到传统文化上，不仅有助于我们对珍贵文化遗产的研究，还有利于对传统文化的发扬与传承。

我们国家有许多著名的书法家，他们的书法作品风格自成一派，如欧体、颜体、柳体、赵体。对这些书法风格的自动识别在书法图像研究等方面就具有重要意义。传统的特征操作符有一些缺点，为卷积神经网络等现代方法留下了空间。在许多计算机视觉问题中，卷积神经网络是最先进的。自从大规模图像分类的有效性被证明以来，它在计算机视觉研究中得到了广泛的应用。

发明内容

本发明的目的是提出一种基于旋转不变卷积神经网络的书法字风格分类方法，利用图像的平移和旋转对称性，降低了神经网络架构的参数数量，解决了传统方法分类准确率低问题的同时，提高了模型泛化能力。

本发明所采用的技术方案是，一种基于旋转不变卷积神经网络的书法字风格分类方法，具体按照以下步骤实施：

步骤1，建立取样样本并预处理数据集；

步骤2，划分数据集为训练样本集和测试样本集，并对训练集样本进行数据扩充作为新的训练集；

步骤3，对于步骤2得到的训练集中的每一张训练样本，提取16个副本图像，并将他们一一对应输入到完全相同的16个卷积架构中处理，将处理后得到的16个特征图串连接起来，输入到卷积架构后面的3个串联的全连接层中，得到该训练样本的分类结果；

步骤4，将步骤3得到的分类结果带入到交叉熵损失函数中，计算出本次训练产生的损失，然后求出损失函数关于网络中权值参数的梯度，引入Nesterov动量后使用梯度下降算法不断更新模型的权值参数，使损失函数达到全局最小值，从而得到训练好的网络模型；

步骤5，将待分类测试样本集输入到步骤4训练好的模型中进行书法字风格分类，得到分类准确率。

本发明的特征还在于，

步骤1的具体操作为：

步骤1.1，用最小边框算法从整幅图像中获取单个书法字符；

步骤1.2，将得到的不同书法风格的每张图像按其中心对齐，并将它们裁剪成相同的大小64×64×3，得到取样样本。

步骤2的具体操作为：

步骤2.1，对步骤1获得的取样样本以3：1的比例随机分成训练样本集和测试样本集；

步骤2.2，对训练样本集进行数据扩充操作：即通过随机扰动图像来扩展训练样本集，每个训练样本集都以五种方式进行随机扰动，这五种数据扩充的方式为旋转、平移、缩放、翻转以及图像增亮。

步骤2中，五种数据扩充的方式：旋转、平移、缩放、翻转以及图像增白的具体要求如下：

旋转：随机旋转一个角度，该角度为在0°到360°之间均匀采样；

平移：在x和y方向上移动，移动的距离在-4到4个像素之间均匀采样；移动的大小是有限的，以确保感兴趣的对象仍然在图像的中心；

缩放：使用缩放因子随机缩放，随机因子在0.9到1.1之间均匀采样；

翻转：图像以0.5的概率随机翻转；

增亮：使用PCA来改变RGB通道的强度，即给每个像素加上[P₁，P₂，P₃][α₁λ₁，α₂λ₂，α₃λ₃]；

P_i和λ_i是3×3RGB像素值协方差矩阵的第i个特征向量和特征值，α_i为从均值为0，标准差为0.1的高斯分布中抽取的随机变量，i＝1,2,3。

步骤3的具体操作为：

步骤3.1，提取副本图像的具体操作为：将训练样本不做任何变化作为第一子图像，将训练样本逆时针旋转45°作为第二子图像，将这两张子图像分别水平翻转又得到第三子图像及第四子图像，至此一共得到四张子图像；

对于每一张子图像，从子图像的左上角、右上角、左下角及右下角四个角落分别提取四个45×45×3大小的副本，对从子图像左上角提取到的副本不做变化，从子图像右上角提取到的副本逆时针旋转90°，从子图像左下角提取到的副本顺时针旋转90°，从子图像右下角提取到的副本顺时针旋转180°，使字体的中心在每个副本的右下角。至此从四张子图像中得到16个副本图像；

步骤3.2，将步骤3.1中得到的16个不同的副本分别输入到16个相同的卷积架构中进行处理得到16个不同的特征图；

步骤3.3，将步骤3.2中由卷积架构处理得到的16张特征图，串连接起来输入到后面的3个全连接层中，其中，第一个和第二个是maxout层，第三个是softmax线性层，由softmax线性层得到预测的分数向量S，再通过softmax线性层通过将每个类别得到的分数压缩到[0,1]之间来表示分类结果的概率，如公式(1)所示：

其中j为训练样本，S为全连接层计算得到的分数向量，训练样本的正确标签对应的预测分数为S_j，N是标签种类的数量，p_j是分类结果的概率。

步骤4的具体操作为：

步骤4.1，利用公式(1)得到的分类结果p_j，通过公式(2)交叉熵损失函数，计算出本次训练产生的损失，如公式(2)所示，

L＝-∑y_jlog(p_j) (2)

公式(2)中y_j为训练样本的真实分布概率，p_j为公式(1)中模型预测出正确结果的概率，交叉熵随着网络分类结果p_j的增大而减小；

步骤4.2，求出交叉熵损失函数关于网络中权值参数的梯度，引入Nesterov动量计算出累计梯度，如公式(3)所示：

公式(3)中V′为上一次训练的累计梯度，V为本次训练的累计梯度，

为本次交叉熵损失函数关于权值参数W的梯度，β为动量参数，β＝0.9；

步骤4.3，根据公式(3)得到的本次累计梯度V，使用梯度下降算法不断更新权值参数，最终得到使损失函数最小的一组权值参数作为我们训练好的模型参数，网络参数的更新如公式(4)所示：

W＝W′-αV (4)

式(4)中W为本次训练得到的权值参数，W′为上一次训练的权值参数，α为学习率，α＝0.0004，V为本次训练的累计梯度；

步骤4.4，不断迭代步骤4.3，得到使损失函数最小的一组权值参数作为训练好的模型参数。

步骤5的具体操作为：将测试样本集分为16个组，每组50张图像，迭代计算每个组的分类准确率，最后求得16个组的平均准确率即为测试集样本分类的最终准确率。

本发明的有益效果是：

(1)本发明方法相较于传统方法，卷积神经网络可以学习特征的层次结构，这使它们能够检测图像中的复杂模式；

(2)本发明方法利用了图像的平移和旋转对称性，降低了神经网络架构的参数数量，解决了传统方法分类准确率低问题的同时，提高了模型泛化能力。

附图说明

图1是本发明方法中使用的五种类型的数据扩充示意图；

图2是本发明方法中使用的旋转不变卷积神经网络结构的示意图概述；

图3是本发明方法中使用的副本图像提取方法示意图；

图4是本发明方法中使用的卷积架构的网络结构图。

图中，1.16个副本图像，2.16个卷积架构，3.3个串联的全连接层，4.第一子图像，5.第三子图像，6.第二子图像，7.第四子图像。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于旋转不变卷积神经网络的书法字风格分类方法，如图1-4所示，包括以下步骤：

步骤1，建立取样样本并预处理数据集；

步骤1.1，用最小边框算法从整幅图像中获取单个书法字符；

步骤1.2，将得到的不同书法风格的每张图像按其中心对齐，并将它们裁剪成相同的大小64×64×3，得到取样样本；

步骤2.2，对训练样本集进行数据扩充操作：即通过随机扰动图像来扩展训练样本集，每个训练样本集都以五种方式进行随机扰动，这五种数据扩充的方式为旋转、平移、缩放、翻转以及图像增亮。数据扩充的示意图如图1所示，其中平移和增亮操作对图像的变化是非常微小的；

五种数据扩充方式的具体操作如下：

翻转：图像以0.5的概率随机翻转；

增亮：使用PCA来改变RGB通道的强度，即给每个像素加上[P₁,P₂,P₃][α₁λ₁,α₂λ₂,α₃λ₃]:

通过上述五种数据扩充方式得到新的训练样本集。

步骤3，如图2所示，对于步骤2得到的训练集中的每一张训练样本，提取16个副本图像1，并将他们一一对应输入到完全相同的16个卷积架构2中处理，将处理后得到的16个特征图串连接起来，输入到卷积架构后面的3个串联的全连接层3中，得到该训练样本的分类结果；

步骤3.1，提取副本图像的具体操作为：将训练样本不做任何变化作为第一子图像4，将训练样本逆时针旋转45°作为第二子图像6，将这两张子图像分别水平翻转又得到第三子图像5及第四子图像7，至此一共得到四张子图像；

对于每一张子图像，从子图像的左上角、右上角、左下角及右下角四个角落分别提取四个45×45×3大小的副本，对从子图像左上角提取到的副本不做变化，从子图像右上角提取到的副本逆时针旋转90°，从子图像左下角提取到的副本顺时针旋转90°，从子图像右下角提取到的副本顺时针旋转180°，使字体的中心在每个副本的右下角。至此从四张子图像中得到16个副本图像，如图3所示：

步骤3.2，将步骤3.1中得到的16个不同的副本分别输入到16个相同的卷积架构中进行处理得到16个不同的特征图。该卷积架构中有4个卷积层，在每个卷积层后面有ReLU非线性函数，并且在第1，2，4个卷积层后面有最大池化层，卷积架构的示意图如图4所示；

卷积架构的参数如下表所示：

步骤3.3，将步骤3.2中由卷积架构处理得到的16张特征图，串连接起来输入到后面的3个全连接层中。其中，从左向右，第一个和第二个是maxout层，第三个是softmax线性层。由softmax线性层得到预测的分数向量S，再通过softmax线性层通过将每个类别得到的分数压缩到[0,1]之间来表示分类结果的概率，如公式(1)所示：

其中j为训练样本，S为全连接层计算得到的分数向量，训练样本的正确标签对应的预测分数为S_j，N是标签种类的数量，p_j是分类结果的概率；

全连接层的网络结构参数具体如下表：

通过上述步骤，得到网络对训练样本集中每个训练样本的分类结果。

步骤4，将将步骤3得到的分类结果带入到交叉熵损失函数中，计算出本次训练产生的损失，然后求出损失函数关于网络中权值参数的梯度，引入Nesterov动量后使用梯度下降算法不断更新模型的权值参数，使损失函数达到全局最小值，从而得到训练好的网络模型；

L＝-∑y_jlog(p_j) (2)

W＝W′-αV (4)

步骤5，将待分类测试样本集输入到步骤4训练好的模型中进行书法字风格分类，得到分类准确率；

具体为：将测试样本集分为16个组，每组50张图像，迭代计算每个组的分类准确率，最后求得16个组的平均准确率即为测试集样本分类的最终准确率。

Claims

1.一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，包括以下步骤：

步骤1，建立取样样本并预处理数据集；

2.根据权利要求1所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤1的具体操作为：

步骤1.1，用最小边框算法从整幅图像中获取单个书法字符；

3.根据权利要求2所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤2的具体操作为：

4.根据权利要求3所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤2中，五种数据扩充的方式：旋转、平移、缩放、翻转以及图像增白的具体要求如下：

翻转：图像以0.5的概率随机翻转；

增亮：使用PCA来改变RGB通道的强度，即给每个像素加上[P₁，P₂，P₃][a₁λ₁，α₂λ₂，α₃λ₃]；

5.根据权利要求4所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤3的具体操作为：

对于每一张子图像，从子图像的左上角、右上角、左下角及右下角四个角落分别提取四个45×45×3大小的副本，对从子图像左上角提取到的副本不做变化，从子图像右上角提取到的副本逆时针旋转90°，从子图像左下角提取到的副本顺时针旋转90°，从子图像右下角提取到的副本顺时针旋转180°，使字体的中心在每个副本的右下角，至此从四张子图像中得到16个副本图像；

6.根据权利要求5所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤4的具体操作为：

L＝-∑y_jlog(p_j) (2)

W＝W′-αV (4)

7.根据权利要求6所述的一种基于旋转不变卷积神经网络的书法字风格分类方法，其特征在于，步骤5的具体操作为：将测试样本集分为16个组，每组50张图像，迭代计算每个组的分类准确率，最后求得16个组的平均准确率即为测试集样本分类的最终准确率。