CN111310868A

CN111310868A - 一种基于卷积神经网络的水书手写文字识别方法

Info

Publication number: CN111310868A
Application number: CN202010175808.9A
Authority: CN
Inventors: 汤敏丽; 刘向荣; 谢少灵
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-19

Abstract

一种基于卷积神经网络的水书手写文字识别方法，属于文字信息处理技术领域。包括以下步骤：1)进行水书文字数据集准备：将水书影印卷本的原始图片作为样本图片，对样本图片中的文字进行标注，制作数据集；2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；3)实验实施过程：为检验深度学习方法对水书文字识别适用与否，进行实例实验。将深度学习方法运用到水书手写文字的识别上，同时制作了适用于深度学习研究的水书文字数据集，数据集为页面数据集；注重页面图像文字的目标检测。

Description

一种基于卷积神经网络的水书手写文字识别方法

技术领域

本发明属于文字信息处理技术领域，涉及一种非物质文化遗产水书文化，尤其是涉及一种基于卷积神经网络的水书手写文字识别方法。

背景技术

水族是为数不多的拥有自己文字的少数民族之一，其语言被称为“泐睢”，与古汉字有紧密的历史渊源关系。水书是通过历代水书先生代代相传，内容涵盖了语言文字、天文历法、哲学思想、社会历史、宗教信仰和民族民俗等方面，至今仍在水族人民的社会生产生活中起着重要作用，被称为“活着的象形文字”。2006年，水书习俗经国务院批准列入第一批国家级非物质文化遗产名录。水书先生在水族社会中具有较高的社会地位，通常水书只传给本族男性，且人数极少，不会传给女性和外人。

由于高速发展的经济和较滞后的水族民族传统文化保护工作，水书及其文化传统面临着被逐渐边缘化甚至失传的威胁。水书文字有象形字、指事字、会意字和假借字等，因部分文字类似汉字的反写、倒写、改写，外族人称为反书。经近些年水族学者研究，水书文字能够被识读的单字有500余字，含异体字在内则有2000余字。

随着贵州大数据工程的建立以及少数民族文化保护的行动，水书于2015年7月19日完成了水书档案资源数据库建设，成果形式主要是将水书图像和水书善本以图片的形式进行保存，但信息化程度不高，对文字识别传承方面的关注还远远不够，需要进一步进行开发利用。近年来，文字的识别技术已相当成熟，特别是印刷体和标准手写体的汉字识别，已经实现了非常高的识别精准率。但是，相较于汉字识别技术，中国的少数民族文字识别明显落后于汉字识别，特别是诸如水族这样的一些小众少数民族的手写文字识别，更是少之又少，不利于少数民族文化遗产的传承。

对水书古籍手写文字进行识别较英文、汉文识别的难度更大，主要表现在数据集的制作及数量上。首先，水族人口基数极少，加之水书只掌握在水族群众中的极个别水书先生手中，数量更是少之又少，所以水书资料珍贵难得，数据样本收集难度大。此外，水书文字字形结构复杂迥异，书写排列方式欠整齐、规律，致使字符分割更为困难。目前被专家破解识读的水书文字仅为一些常用字，水书数据样本中必然存在一些无法识读的文字难以标记，成为模型训练的盲区。水书古籍文字异形同意的异体字太多，会提高错识的可能性，增加识别的难度导致难以取得较高的识别率。

夏春磊(夏春磊.基于深度学习的水书图像识别算法研究与应用.中央民族大学.2019硕士论文)研究了一个用于水书识别的卷积神经网络模型,并通过一种基于种群进化的超参数优化算法进行训练，实现水书文字识别任务。具体工作如下：1.提出一种基于种群进化的超参数优化算法。结合网格搜索与人工调试的优点，从进化算法中获得启发，提出一种基于种群进化的超参数优化算法,其主要思想是个体进化,种群选择,异步并行迭代训练以达到种群进化的结果。2.设计一个应用于水书识别的卷积神经网络模型。设计一个11层卷积网络结构，并采用提出的基于种群进化的超参数优化算法进行训练,在水书数据集数据量较多的标注集上进行训练验证,证实了模型设计的有效性。3.建立一个水书古籍文字数据集,为深度学习的研究提供了实验数据。水书文字识别的研究可以作为少数民族语言保护和文字识别的一个经验案例，为文字学和深度学习工作者进行深入研究作参考。但该文献采用的数据集数据量少且主要为单字数据集，注重的是单字分类，单字训练的只能识别单字，无法检测识别出页面图片上的小目标文字。

发明内容

本发明的目的在于针对非物质文化遗产水书的识读传承问题，提供一种基于卷积神经网络的水书手写文字识别方法。本发明将深度学习方法中的卷积神经网络运用到水书文字的识别上，同时制作了首个适用于深度学习研究的水书文字数据集，通过实验取得了较好的识别效果，证明此法可作为水书文化传承的新方法。

本发明包括以下步骤：

1)进行水书文字数据集准备：将水书影印卷本的原始图片作为样本图片，对样本图片中的文字进行标注，制作数据集；

2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA(Principal Component Analysis)抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；

3)实验实施过程：为检验深度学习方法对水书文字识别适用与否，进行实例实验。

在步骤1)中，所述水书影印卷本可采用《九星卷》、《九喷卷》、《阴阳五行卷》、《寅申卷》、《八探卷》、《正七卷》等。

在步骤2)中，所述进行图片裁剪可将图片裁剪为1207×1803大小，以提高模型训练速度，同时扩大数据集中的图片数量，提高模型的鲁棒性；所述加入随机噪声可以为高斯噪声、泊松噪声、椒盐噪声等；所述色彩抖动是对图像的饱和度、亮度、对比度以及锐度进行变换；所述PCA抖动即主成分分析法，在原有n维特征的基础上重新构造出全新的正交k维特征，以便获取到图像的重要特征信息。

在步骤3)中，所述实例实验的常用模型有Liu W等人设计的SSD模型(Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multibox detector[C]//Europeanconference on computer vision.Springer,Cham,2016:21-37)；Redmon J等人设计的YOLO模型(Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE conference on computervision and pattern recognition.2016:779-788.)；Girshick R设计的Faster R-CNN模型(Girshick R.Fast R-CNN[C]//Proceedings of the IEEE international conferenceon computer vision.IEEE,2015:1440-1448.)。实验可采用的硬件平台为Intel Core i7-8700K 3.7GHz的CPU，NVIDIAGeForce GTX 1080Ti 11G的GPU，内存为32G。软件平台的操作系统为Ubuntu 18.04，深度学习工具采用TensorFlow、Pytorch，编程语言为Python。

与现有技术相比，本发明的有益效果在于：

文字识别属于深度学习中的目标检测一类，本发明数据集为页面数据集；注重页面图像文字的目标检测，现有单字训练的只能识别单字，无法检测识别出页面图片上的小目标文字。本发明提供了非物质文化遗产水书文化传承的新方法，将深度学习方法运用到水书手写文字的识别上，同时制作了适用于深度学习研究的水书文字数据集，通过实验取得了较好的识别效果，相比于仅仅扫描资料的保存更加智能便捷，让机器代替人脑对水书古籍文字进行识别，避免了水书先生人数逐年减少，水书文字无人能识的处境。

附图说明

图1为本发明实施例采用的模型结构图；

图2为本发明实施例提供的识别效果示例图；

图3为本发明实施例提供的识别效果示例图；

图4为本发明实施例提供的识别效果示例图。

具体实施方式

以下实施例将结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

本发明实施例包括以下步骤：

步骤1：进行数据集准备。

由于目前世界范围内没有公开的水书文字数据集，本技术方案中制作的数据集将是首个用于深度学习研究的水书文字数据集。数据集原始图片来源于《九星卷》、《九喷卷》、《阴阳五行卷》、《寅申卷》、《八探卷》、《正七卷》等多卷水书影印卷本，共431张页面样本图片。针对样本图片中的48个文字进行标注，制作数据集。此数据集包含48个文字类别共47229个字符，字符样本数比例如表1所示。其中，字符样本数量超过一千的有25个字；小于一千大于五百的有7个字；小于五百的有16个字。

步骤2：进行数据增强。

考虑样本图片数量有限，为提高模型的鲁棒性，需进行图片裁剪以扩增数据量。此外，为应对复杂的识别场景，增加数据样本的多样性，还应加入随机噪声、进行色彩抖动以及PCA(Principal Component Analysis)抖动。

1)图片裁剪。由于整个数据集包含的图片样本都比较大，图片的平均宽高为2414×3606。考虑到模型需要的显存及训练速度，将大图片样本进行了上下左右中心裁剪，以缩减图片大小，同时扩大数据集中的图片数量，使用裁剪后获得的图片数量为原来的5倍，裁剪后的样本图片平均大小为1207×1803。

2)随机噪声。添加适量的噪声可以增强网络的泛化能力，本实验添加的噪声主要为椒盐噪声，噪声的比例设置为0.5～0.9区间中随机获取。椒盐噪声也被称为脉冲噪声，通过对图片每个像素的RGB通道进行扰动，随机获取像素点并设置为高亮度点及低灰度点，即图像中随机出现的白点或者黑点。

3)色彩抖动。对图像颜色进行变化是一种常见的数据增强方式，本实验主要对图像的饱和度、亮度、对比度以及锐度进行了变换，随机在0.2～0.8之间选取一个值用作上述四方面的变换因子。

4)PCA抖动。PCA抖动即主成分分析法，是AlexNet中提出的数据增强方式，主要是将n维特征映射到k维上，即在原有n维特征的基础上重新构造出全新的正交k维特征，以便获取到图像的重要特征信息，具有亮度和光照不变性，即包含了样本原本的主要信息。

步骤3：实例实验实施过程。

文字识别属于深度学习中的目标检测一类，常用模型有Liu W等人设计的SSD模型(Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multibox detector[C]//European conference on computer vision.Springer,Cham,2016:21-37)；Redmon J等人设计的YOLO模型(Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2016:779-788.)；Girshick R设计的FasterR-CNN模型(Girshick R.Fast R-CNN[C]//Proceedings of the IEEE internationalconference on computer vision.IEEE,2015:1440-1448.)。实验采用的硬件平台为IntelCore i7-8700K 3.7GHz的CPU，NVIDIAGeForce GTX 1080Ti 11G的GPU，内存为32G。软件平台的操作系统为Ubuntu 18.04，深度学习工具采用TensorFlow、Pytorch，编程语言为Python。实验采用Faster R-CNN模型，由于水书文字属于小目标检测，Faster R-CNN模型较SSD模型与YOLO模型有小目标检测效果更好及检测位置更准确的优点，实验实例采用Faster R-CNN模型，模型结构见图1。为对比不同基础网络对识别效果的影响，实验分别用VGG-16和ResNet-101作为基础网络提取样本图片的特征图进行训练及测试，总共进行了三组实验。在所有实验中，按8︰2的比例将数据集划分为训练集和测试集进行实验。初始学习率设置为0.001，在1w轮之后学习率衰减为0.0001。权重衰减和动量分别设置为0.0001和0.9。由于图片的平均宽高为1000以上，训练时将图片缩放的宽高设置为900到2200，以避免图片被缩放过多，导致图像信息的损失。考虑到一张图片的文字数量比较多，这里将RPN的batchsize设置成512，提供更多的样本用于Fast R-CNN的训练，在测试时，将非极大值抑制后的候选区域设置为400个。针对数据集中待检测字符较小的问题，实验中将锚框大小设置为(2，4，8)。为了避免初始值太大，导致不收敛或者收敛缓慢，将所有样本图片按照对应通道减去通道均值进行颜色均值统计，通道均值统计结果为(B，G，R)＝(186.52954，193.93509，197.77397)。

实验实例分析：

第1组实验：训练和测试均采用未经剪裁的大图片。除了对使用ResNet-101和VGG-16的模型进行对比之外，还设置了采用数据增强和不采用数据增强的对比实验。不采用数据增强的实验不对输入数据做任何处理，直接进行训练和测试；采用数据增强的实验组首先对数据加入随机噪声、色彩抖动以及PCA抖动进行数据增强，之后再进行训练和测试。实验中，由于未采用数据增强的实验组数据量较少，在较少的训练轮数就已经收敛，而采用数据增强的实验组中，由于数据量比较多，需要较多训练轮数才能达到收敛，所以在对比的时候，并没有采用相同的轮数进行对比，而是采用各自收敛轮数的mAP(mean AveragePrecision，均值平均精度)进行比较，对于接下来的第2、3组实验所选取的对比轮数也是同理。

实验结果如表1所示，可以看出，不论是否采用数据增强，以ResNet-101为基础的网络获得的mAP总是好于VGG-16为基础的网络。对于数据增强的采用，当各自达到收敛的时候，使用数据增强的实验组获得的mAP总是高于不使用数据增强的实验组。

表1

第2组实验：训练和测试都是使用裁剪后的小图片。未采用数据增强的实验组直接将裁剪后的小图片送入网络进行训练和测试；采用数据增强的实验组在使用随机噪声、色彩抖动以及PCA抖动对数据进行数据增强后，再进行训练和测试。

实验结果如表2所示，与第1组实验结果类似，不论是否采用数据增强，以ResNet-101为基础的网络获得的mAP总是高于VGG-16为基础的网络；从采用数据增强的实验组可以看到，由于采用了数据增强，训练数据被扩增，以ResNet-101和VGG-16为基础的网络所获得的mAP差距变小；此外，在最终收敛的时候，采用数据增强的组所获得的mAP同样高于不使用数据增强的组。

表2

第3组实验：训练采用裁剪后的小图片，测试使用未裁剪的大图片，其中不采用数据增强的实验组直接将裁剪后的图片送入网络进行训练；采用数据增强的实验组则使用随机噪声、色彩抖动以及PCA抖动进行数据增强。

实验结果如表3所示，与前面两组实验的结果类似，使用数据增强的实验组的mAP要好于不使用数据增强的实验组，但是两者之间的差距变得更小了，这可能是由于两者都是在未裁剪的图片上进行测试造成的。

表3

综上，实验得到的平均识别精度均在90％左右，识别效果示例见图2～4。实验结果表明，基于Faster R-CNN的手写水书文字识别方法适用于少数民族手写古籍文字的识别问题，对手写古籍文字识别具有较高的识别率，为中国少数民族文化传承提供了新方法。示例图片测试效果如图3所示。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的水书手写文字识别方法，其特征在于包括以下步骤：

2)进行水书文字数据集增强：为提高模型的鲁棒性，进行图片裁剪以扩增数据量，并加入随机噪声、进行色彩抖动以及PCA抖动对数据进行增强，增加数据样本的多样性，以应对复杂的识别场景；

2.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤1)中，所述水书影印卷本采用《九星卷》、《九喷卷》、《阴阳五行卷》、《寅申卷》、《八探卷》、《正七卷》。

3.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述进行图片裁剪是将图片裁剪为1207×1803大小，以提高模型训练速度，同时扩大数据集中的图片数量，提高模型的鲁棒性。

4.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述加入随机噪声为高斯噪声、泊松噪声、椒盐噪声中的至少一种。

5.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述色彩抖动是对图像的饱和度、亮度、对比度以及锐度进行变换。

6.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤2)中，所述PCA抖动即主成分分析法，在原有n维特征的基础上重新构造出全新的正交k维特征，以便获取到图像的重要特征信息。

7.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤3)中，所述实例实验的模型采用SSD模型、YOLO模型或Faster R-CNN模型。

8.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤3)中，所述实验采用的硬件平台为Intel Core i7-8700K 3.7GHz的CPU，NVIDIAGeForce GTX 1080Ti 11G的GPU，内存为32G。

9.如权利要求1所述一种基于卷积神经网络的水书手写文字识别方法，其特征在于在步骤3)中，所述实验采用的软件平台的操作系统为Ubuntu 18.04，深度学习工具采用TensorFlow、Pytorch，编程语言为Python。