CN111126404B

CN111126404B - 一种基于改进YOLO v3的古文字及字体识别方法

Info

Publication number: CN111126404B
Application number: CN201911277782.2A
Authority: CN
Inventors: 董哲康; 石杰; 高明煜; 齐冬莲; 林辉品; 吴俊洁
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2023-08-22
Anticipated expiration: 2039-12-11
Also published as: CN111126404A

Abstract

本发明公开了一种基于改进YOLO v3的古文字及字体识别方法。该方法基于深度学习的目标检测方法，利用深层的神经网络结构，学习到古文字图像中“整体‑部分”的分解关系，通过特征提取网络获得有用的特征信息，并进行检测定位，再将图片的特征信息送入分类器进行分类识别，并使用包围框在图像中框选出古文字的位置。该方法解决了古文字具有复杂的内部结构，以及使用这些特征进行识别时精度低的问题。本方法提出的改进YOLO v3使用ShuffleNet v2作为模型的主干结构，使其更加高效。在对古文字及字体的识别上准确率达到98.81％，并且具有较好的稳定性和良好的鲁棒性，能够应用于古文字文本、碑帖等古文字识别场景。

Description

一种基于改进YOLO v3的古文字及字体识别方法

技术领域

本发明涉及了一种基于深度学习的目标检测算法的图像识别方法，尤其是涉及了一种基于改进YOLO v3的古文字图像识别方法。

背景技术

古文字记录着古时人们的社会生活，对古文字的研究作为钥匙，打开了研究古人的生活的方便之门。古文字学在研究中国古代历史和文化具有重大作用。在一些实物资料如甲骨、青铜器、石碑、古书等上面的文字内容里，包含有许多重要的历史信息，这些古文字的释读有助于对当时社会情况的了解。但是，古文字图像非常复杂，具有丰富性和逻辑性的结构信息。古文字具有复杂的内部结构，笔画多、笔画复杂、文字的相似度高，以及不同时期书写汉字的风格多变，使得古文字的识别比现代文字识别难度更高。目前存在多为现代汉字或者手写汉字识别，光学字符识别，前者识别准确率较低，很难适用于古文字识别，后者可用于古汉字识别但不能识别其字体。

发明内容

为了解决背景技术中的识别准确率问题，本发明提出了一种基于深度学习目标检测算法改进YOLO v3的古文字图像识别方法，能高准确地识别古汉字及其字体并具有良好稳定性。

本发明的技术方案包括以下步骤：

1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字，收集来自互联网的古文字图片，包含三种不同字体，分别为甲骨文、金文和楚系简帛；

2)对收集的古文字图片进行扩充处理，获得古文字样本图像；

3)遍历古文字样本图像，对每张图像用包围框对古文字进行字形字体标记处理，获得对应的label文件，它与古文字样本图像共同构成图像数据集；

4)将图像数据集划分为训练验证集和测试集，将训练验证集划分为训练集和验证集，针对图像数据集中的古文字样本图像和label文件进行同比例缩放；

5)网络调整，对YOLO v3网络进行轻量化，调整后的主干网络依次为Conv0，Conv1，Stage2，Stage3，Stage4，Stage5，Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元；然后接入N个Shuffle基本单元，Stage2～Stage6的N值分别为2、4、6、6、4；Shuffle基本单元构成为：接入的通道均分为两部分后，一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接，然后进行通道随机混合。Shuffle空间上采样单元构成为：接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv，1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv，对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作，将深度不同的两个分支的卷积结果合并在一起，从而实现了高级和低级信息的特征融合；

6)模型的训练，每次选取多个训练集样本进行训练，获得训练模型，使用Adam算法基于训练数据迭代更新神经网络的权重。训练过程中在验证集样本中对训练模型进行验证，计算得到训练集以及验证集上的损失，观察网络的训练效果，最终选择损失值最小的模型作为model；

7)在测试集上对步骤6)最终获得的model进行测试，在测试集样本图像上预测并标注出古文字及字体的类别和置信度；

8)从拓印本和石碑上获取属于识别类别范围内的古文字图片，经过图像预处理后，输入model中，获得检测结果。

所述的步骤1)中，针对每个类别的古文字在数据集筛选中需要满足其数量较为充足，能够给模型的训练提供足够的样本，才能够获得更好的特征用以分类。实际筛选过程中，选择的是原始图片超过30张的古文字作为数据集。整个数据集包含三种字体100个字共计4000张原始图片。

所述步骤2)中，使用到数据增强，一般而言神经网络的参数都是数以百万计，而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量，提高模型的泛化能力，本方法增加了噪声数据，提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作；

所述步骤3)中，利用标注工具对图片集进行标定，使用一个长方形框作为包围框将古文字框定并标定其真实类别，将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中，每张图片对应一个label文件，每张古文字图片最多含有一个包围框。步骤3)中的数据集则是按上述方法获得。

所述步骤4)中，调整图像尺寸为416×416，对应的label文件也作同比例缩放，然后将数据集按照大约2:1的比例区分训练验证集和测试集，训练验证集再按照大约9:1的比例区分测试集和验证集。

图像缩放使用的方法为双线性插值法，其原理如下：：

记图像的映射函数为f，在任意点(i,j)，其像素值为y＝f(i,j)，其中0<i≤w,0<j≤h，且i,j为整数，w,h分别为图像宽度和高度。已知f(x₁,y₁)，f(x₂,y₂)，f(x₃,y₃)，f(x₄,y₄)，要插值的点为f(x,y)：

在x轴方向线性插值，由实心圆表示的点得到空心圆表示的点：

得到：

在y轴方向线性插值，由空心圆表示的点得到三角形表示的点：

得到：

最后结果：

所述步骤5)中，DWConv的构成为：卷积层+批归一化层，Conv的构成为：卷积层+批归一化层+带泄露修正线性单元层。

所述步骤6)中，每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分，所有mini-batch构成整个训练数据集。每一次迭代训练过程中，每个mini-batch不尽相同，这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性，提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理，对每个隐藏层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落在对输入比较敏感的区域，以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题，因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation，自适应矩估计)算法替代SGD(Stochastic Gradient Descent，随机梯度下降)算法，所需内存更少，计算更高效。

所述步骤7)中，改进YOLO v3借鉴了特征金字塔，通过上采样和融合的方法，获得13×13，26×26，52×52这三个尺度的特征图并进行预测。输入古文字的图像，使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型，最终在三个尺度的特征图上分别作预测。

所述步骤8)中，从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片，然后从中裁剪出属于模型识别范围内的古汉字图片。

本发明具有的有益的效果是：

该方法解决了传统识别方法在古文字识别上精确度低的问题，以及缺少利用深度学习的目标检测算法对古汉字及字体进行检测识别。基于测试集的测试结果，该方法在对古文字及字体上的检测识别均值平均精度可达98.81％。同时对取自拓印本和石碑的古文字图片进行识别的结果表明，该识别方法的准确率达到85.51％，可应用于古文字文本、碑帖等识别。

附图说明

图1为本方法实施例采用的ShuffleNet的基本构件。

图2为本方法实施例古文字图像数据集示例。

图3为本方法实施例数据增强效果图。

图4为本方法实施例采用的双线性插值示意图。

图5为本方法实施例获得识别模型的算法流程图。

图6为本方法实施例采用的改进YOLO v3网络框架结构图。

图7为本方法实施例获得的拓印本古文字示意图。

图8为本方法实施例识别结果图。

具体实施方式

下面结合附图5及具体实施例对本发明作进一步详细说明。

1)根据每个字的原始数据量能否满足神经网络训练的要求和是否属于常用古汉字，选择的原始图片超过30张的古文字作为数据集。整个数据集包含甲骨文、金文和楚系简帛这三种字体100个字共计4000张原始图片，如图2所示；

所述步骤2)中，使用到数据增强，一般而言神经网络的参数都是数以百万计，而要得到可以正确工作的参数需要大量的数据进行训练。为了增加训练的数据量，提高模型的泛化能力，本方法增加了噪声数据，提升模型的鲁棒性。对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊等操作(增强效果见图3)。图3中(a1)为楚系简帛的“夏”字的原始图片，(a2)为进行翻转和添加背景噪声的图片，(b1)为楚系简帛的“君”字的原始图片，(b2)为进行背景加噪和模糊的图片。

对每张图像用包围框对古文字进行字形字体标记处理具体为：利用标注工具对图片集进行标定，使用一个长方形框作为包围框将古文字框定并标定其真实类别，将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中，每张图片对应一个label文件，每张古文字图片最多含有一个包围框。

4)将图像数据集划分为训练验证集和测试集，将训练验证集划分为训练集和验证集，针对图像数据集中的古文字样本图像和label文件进行同比例缩放；调整图像尺寸为416×416，对应的label文件也作同比例缩放，然后将数据集按照大约2:1的比例区分训练验证集和测试集，训练验证集再按照大约9:1的比例区分测试集和验证集。

图像缩放使用的方法为双线性插值法，其原理如下：：

在x轴方向线性插值，如图4(a)所示由实心圆表示的点得到空心圆表示的点：

得到：

在y轴方向线性插值，如图4(b)所示由空心圆表示的点得到三角形表示的点：

得到：

最后结果：

5)网络调整，对YOLO v3网络进行轻量化，调整后的主干网络依次为Conv0，Conv1，Stage2，Stage3，Stage4，Stage5，Stage6。Conv0和Conv1均为3×3的1步长卷积块。每个Stage的开始阶段都是一个Shuffle空间上采样单元；然后接入N个Shuffle基本单元，Stage2～Stage6的N值分别为2、4、6、6、4；Shuffle基本单元构成为：接入的通道均分为两部分后，一部分通过1×1的1步长Conv(卷积块)+3×3的1步长DWConv(深度卷积块)+1×1的1步长Conv后与另一部分进行拼接，然后进行通道随机混合。Shuffle空间上采样单元构成为：接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv，1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv，对两者的输出进行拼接后再进行通道随机混合操作。使用通道随机混合操作，将深度不同的两个分支的卷积结果合并在一起，从而实现了高级和低级信息的特征融合；其中DWConv的构成为：卷积层+批归一化层，Conv的构成为：卷积层+批归一化层+带泄露修正线性单元层，如图1所示；

6)模型的训练

每次选取12个训练集样本构成mini-batch进行训练。每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分，所有mini-batch构成整个训练数据集。每一次迭代训练过程中，每个mini-batch不尽相同，这样的随机性有助于降低模型训练过程中停止在鞍点(Saddle Point)和局部最小点(Local Minimum)的可能性，提升模型的训练速度。同时还引入了批标准化(Batch Normalization)处理，对每个隐藏层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落在对输入比较敏感的区域，以此避免梯度消失问题。批标准化的使用还能够防止过拟合问题，因此删除了网络中的Dropout层。在参数训练中使用Adam(Adaptive Moment Estimation，适应性矩估计)算法替代传统随机梯度下降(Stochastic Gradient Decscent)算法，所需内存更少，计算更高效。

改进YOLO v3借鉴了特征金字塔，通过上采样和融合的方法，获得13×13，26×26，52×52这三个尺度的特征图并进行预测。改进YOLO v3的网络框架结构如图6所示，输入古文字的图像，使用步骤4)所述的双线性插值方法对图像进行缩放后输入给模型，最终在三个尺度的特征图上分别作预测。

8)从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片，然后从中裁剪出属于模型识别范围内的古汉字图片，如图7所示。

本发明的实施例如下：

实验图片共有20000张，其中用于训练的图片有13200张，测试图片6800张，包含100种古文字及字体类别。

采用本文训练的检测模型model去检测古文字测试集图片，得到的结果(部分)如表1所示：

表1古文字检测结果

其中缺省格表示无此类别。由表可知，对测试图片的均值平均精度(mAP)达到98.81％，其中14个类别的AP(平均精度)如图8所示：甲骨文的“夏”、“德”、“牢”、“礼”为99.92％、97.38％、99.73％、99.57％，对金文的“德”、“皇”、“君”、“公”为99.57％、97.32％、99.23％、97.67％，对楚系简帛的“夏”、“牢”、“礼”、“君”、“公”、“乐”为97.38％、97.03％、99.62％、99.89％、98.79％、99.04％。

由此可见，本发明能够实现古文字及字体的识别，并具有较高的准确率，并且具有稳定性好，抗干扰能力强，通用性高等优点，能够应用于古文字文本、碑帖等识别系统中。

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于改进YOLO v3的古文字及字体识别方法，其特征在于，包括以下步骤：

5)网络调整，对YOLO v3网络进行轻量化，调整后的主干网络依次为Conv0，Conv1，Stage2，Stage3，Stage4，Stage5，Stage6；Conv0和Conv1均为3×3的1步长卷积块；每个Stage的开始阶段都是一个Shuffle空间上采样单元；然后接入N个Shuffle基本单元，Stage2～Stage6的N值依次为2、4、6、6、4；Shuffle基本单元构成为：接入的通道均分为两部分后，一部分通过1×1的1步长Conv+3×3的1步长DWConv+1×1的1步长Conv后与另一部分进行拼接，然后进行通道随机混合；Shuffle空间上采样单元构成为：接入通道分别通过3×3的2步长DWConv+1×1的1步长Conv，1×1的1步长Conv+3×3的2步长DWConv+1×1的1步长Conv，对两者的输出进行拼接后再进行通道随机混合操作；使用通道随机混合操作，将深度不同的两个分支的卷积结果合并在一起，从而实现了高级和低级信息的特征融合，其中DWConv为深度卷积块；

6)模型的训练，每次选取多个训练集样本进行训练，获得训练模型，使用Adam算法基于训练数据迭代更新神经网络的权重；训练过程中在验证集样本中对训练模型进行验证，计算得到训练集以及验证集上的损失，观察网络的训练效果，最终选择损失值最小的模型作为model；

2.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述的步骤1)中，选择的是原始图片，超过30张的古文字图片作为数据集；整个数据集包含三种字体100个字共计4000张原始图片。

3.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：对收集的古文字图片进行扩充处理具体为对图片进行缩放、调整亮度与对比度、翻转、旋转、添加噪声、模糊。

4.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤3)中，对每张图像用包围框对古文字进行字形字体标记处理，具体为：利用标注工具对图片集进行标定，使用一个长方形框作为包围框将古文字框定并标定其真实类别，将长方形框的左上角和右下角的横纵坐标以及标定类别信息记录在.xml类型的label文件中，每张图片对应一个label文件，每张古文字图片最多含有一个包围框。

5.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤4)中，调整图像尺寸为416×416，对应的label文件也作同比例缩放，然后将数据集按照大约2:1的比例区分训练验证集和测试集，训练验证集再按照大约9:1的比例区分测试集和验证集；

图像缩放使用的方法为双线性插值法，其原理如下：

记图像的映射函数为f，在任意点(i,j)，其像素值为y＝f(i,j)，其中0<i≤w,0<j≤h，且i,j为整数，w,h分别为图像宽度和高度；已知f(x₁,y₁)，f(x₂,y₂)，f(x₃,y₃)，f(x₄,y₄)为图像上任意四个点，要插值的点为f(x,y)：

在x轴方向线性插值；

得到：

在y轴方向线性插值：

得到：

最后结果：

6.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤5)中，DWConv的构成为：卷积层+批归一化层，Conv的构成为：卷积层+批归一化层+带泄露修正线性单元层。

7.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤6)中，每次选取12个训练集样本构成mini-batch进行训练；每个mini-batch是一次迭代训练中随机选择训练数据集的一个小部分，所有mini-batch构成整个训练数据集；每一次迭代训练过程中，每个mini-batch不尽相同，这样的随机性有助于降低模型训练过程中停止在鞍点和局部最小点的可能性，提升模型的训练速度；同时引入了批标准化处理，对每个隐藏层神经元，把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布，使得非线性变换函数的输入值落在对输入比较敏感的区域，以此避免梯度消失问题。

8.根据权利要求5所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤7)中，YOLO v3借鉴了特征金字塔，通过上采样和融合的方法，获得13×13，26×26，52×52三个尺度的特征图并进行预测；输入古文字的图像，使用步骤4)所述的双线性插值法对图像进行缩放后输入给模型，最终在三个尺度的特征图上分别作预测。

9.根据权利要求1所述的一种基于改进YOLO v3的古文字及字体识别方法，其特征在于：所述步骤8)中，从拓印本和石碑上获取属于识别类别范围内的古文字图片是指使用相机拍摄的拓印本和石碑的照片，然后从中裁剪出属于模型识别范围内的古汉字图片。