CN108664996A

CN108664996A - 一种基于深度学习的古文字识别方法及系统

Info

Publication number: CN108664996A
Application number: CN201810355457.2A
Authority: CN
Inventors: 杨帆; 于飞; 李育鑫
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-10-16
Anticipated expiration: 2038-04-19
Also published as: CN108664996B

Abstract

本发明涉及一种基于深度学习的古文字识别方法及系统，方法包括：获取古文字图像数据集并制作分类标签；对图像数据集中的图像进行预处理，并通过图像增广扩充数据集；通过深度神经网络对预处理与图像增广后的图像数据集进行特征提取，并对提取的特征通过分类器分类，以实现不同时间的篆文形体的演变识别；利用人工设计特征，使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步分类。本发明能够根据改进的深度卷积神经网络模型更加精确的实现正确分类，并借助传统人工设计特征进行辅助训练，进一步提高分类准确率，为具有古文字识别需求的用户群提供更好的体验。

Description

一种基于深度学习的古文字识别方法及系统

技术领域

本发明涉及文字识别领域，特别涉及古文字研究领域，具体为一种基于深度学习的古文字识别方法及系统。

背景技术

古文字指的是古代的文字，在中国则特指秦以前留传下来的篆文体系的文字。甲骨文、金文、小篆等篆文字体分别是中国不同历史朝代的产物，从字体的形体结构和数量来说，均已发展形成严密的文字系统。目前，市场还未有全面的篆文识别系统，将篆文形体进行不同年代分类。大连民族学院建立了甲骨文文字识别系统，是一种中国殷商时代的篆文形体；浙江图书馆长期对印章进行收录及数字化，建立了中国历代人物印鉴数据库，印章是人物索引下的内容，尚未对图像中文字形体年代进行梳理。

目前，篆文识别的数字化系统中，字体的收录源是有限的。已经有一些出版物收集汉字的篆文字体：康熙字典对所有字注有小篆书法；《汉语大字典》以楷书单字为索引条目，收录了甲骨文、金文、小篆等篆字形体。截止至1994年之前，世界上收集汉字单字最多的一部字典：《篆书大字典》收录了常用汉字，字例尽可能接近原迹的精神。还有依据国家规范标准建立涵盖蒙古文变体形式的数字化蒙古文数据库。也有一些楷书-篆文开源数据库依据《甲骨文編》、《金文编》以及《说文解字》等书籍收录的字体图像。

目前，篆文识别的已有方法中，大都采用人工设计特征的方式，如采用HOG(Histogram of Oriented Gradients，方向梯度直方图)、SIFT(Scale Invariant FeatureTransform，尺度不变特征变换)等方法提取人工特征并输入到分类器中完成模式分类。这种方式完全取决于人类的先验知识，而且设计过程费时费力，工作量巨大。而深度学习技术在一定程度上解决了以上问题，深度学习技术通过大量隐藏层的深度神经网络可进行特征的自动学习，从像素中提取出更本质、更抽象、更易于模型学习的特征，而且提供的训练样本越多，模型的泛化能力、推广能力越强。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于深度学习的古文字识别方法及系统，能够根据改进的深度卷积神经网络模型更加精确的实现正确分类，并借助传统人工设计特征进行辅助训练，进一步提高分类准确率，为具有古文字识别需求的用户群提供更好的体验。

本发明解决其技术问题所采用的技术方案是：

根据本发明的一个目的，本发明提出了一种基于深度学习的古文字识别的方法，包括：

S1，获取古文字图像数据集并制作分类标签；

S2，对图像数据集中的图像进行预处理，并通过图像增广扩充数据集；

S3，通过深度神经网络对预处理与图像增广后的图像数据集进行特征提取，并对提取的特征通过分类器分类，以实现不同时间的篆文形体的演变识别；

S4，利用人工设计特征，使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步精确分类。

优选的，步骤S1，包括：

通过扫描、拍照或者针对楷书-篆文开源数据库爬虫，获取图像。具体包括以下步骤：

S1.1，楷书单字为索引条目，对《汉语大字典》中的楷书单字的甲骨文、金文和小篆等篆文形体进行扫描，获取标准篆文形体；或者，针对楷书-篆文开源数据库爬虫，获取图像等；

S1.2，针对不同朝代的形体进行字体标注，制作分类标签；

S1.3，数据更新系统，不断从各处获取篆文图像，增加训练样本。

优选的，步骤S2包括：

通过图像预处理获得标准图像，通过图像增广扩充数据集。具体包括以下步骤：

S2.1，对收集到的图像进行平滑和归一化处理，同时将图片归一化成统一大小；

S2.2，对预处理后的图像通过图像水平平移、图像竖直平移和图像旋转等操作进行图像增广，扩充数据集。

优选的，步骤S3包括：

通过卷积神经网络进行特征自动提取。具体包括以下步骤：

S3.1，通过深度卷积神经网络提取特征，主要采用基于改进的Inception_V3结构模型。使用Inception_V3结构单元实现图像的并行压缩，使得特征表示的尺寸温和减少，从而避免传统卷积结构严重压缩特征表示；使用多层池化单元实现图像的并行压缩，并行整合特征，最大限度提取出具有平移不变性的特征；使用多层过滤器替代大尺寸过滤器，避免冗余参数，加快训练速度，减少计算量；使用批量归一化，对数据内部进行标准化处理，使输出规范化到0到1之间的正态分布，从而保证网络可以以较高的学习速率进行，防止发生梯度爆炸或者弥散现象；

S3.2，特征通过分类器分类，实现不同时间的篆文形体的演变识别；具体的，采取softmax函数作为分类器进行计算，所输出的模型预测概率为

其中，表示当前实例属于第k类的概率，n表示总类别数，s_k(x)表示当前实例x属于第k类的得分，exp(·)表示对括号内元素求指数，表示实例x关于从1到n的所有类别的得分的指数值的总和，k的范围为1到n，j的范围为1到n。

优选的，步骤S4包括：

加入传统人工设计特征，使用模板匹配的方法进行辅助训练，对上述分类结果进一步精确分类。传统人工设计特征主要包括HOG、Gabor和SIFT等，模板匹配的方法主要包括余弦相似度和欧几里得距离等。

根据本发明的另一个目的，本发明提出了一种基于深度学习的古文字识别的系统，包含以下模块：

数据输入模块，用于获取古文字图像数据集并制作分类标签；

图像预处理及图像增广模块，用于对图像数据集中的图像进行预处理，并通过图像增广扩充数据集，以便训练出泛化能力更强的模型；

智能识别模型模块，用于通过深度神经网络对预处理与图像增广后的图像数据集进行特征提取，对不同时间的篆文形体进行识别；

文字概率预测模块，用于对提取的特征通过分类器分类，并以概率值的形式由大到小依次输出模型预测结果，以便用户了解此预测结果的可信度；

深入匹配模块，用于利用人工设计特征，对文字概率预测模块分类结果所限定的指定范围内使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步分类，进一步提高分类准确率。

优选的，所述数据输入模块，包括：利用爬虫技术从专业楷书-篆文对应数据库获取篆文图像；纸本扫描图像，对《汉语大字典》中的楷书单字的甲骨文、金文和小篆等篆字形体进行扫描，获取标准篆文形体。

优选的，所述图像预处理及图像增广模块，包括：通过图像预处理获得标准图像，对收集到的图像进行平滑和归一化处理，同时将图片归一化成统一大小。通过图像增广扩充数据集，对预处理后的图像通过图像水平平移，图像竖直平移，图像旋转等操作进行图片增广，扩充数据集，以便训练出泛化能力更强的模型。

优选的，所述智能识别模型模块，包括：通过卷积神经网络进行特征自动提取，主要采用基于改进的Inception_V3结构模型。使用Inception_V3结构单元实现图像的并行压缩，使得特征表示的尺寸温和减少，从而避免传统卷积结构严重压缩特征表示；使用多层池化单元实现图像的并行压缩，并行整合特征，最大限度提取出具有平移不变性的特征；使用多层过滤器替代大尺寸过滤器，避免冗余参数，加快训练速度，减少计算量；使用批量归一化，对数据内部进行标准化处理，使输出规范化到0到1之间的正态分布，从而保证网络可以以较高的学习速率进行，防止发生梯度爆炸或者弥散现象。

优选的，所述文字概率预测模块，包括：系统根据智能识别模块输出的结果，将预测结果和预测概率一同呈现给用户，使用户明确该预测结果的可信度。系统可按照预测概率给出预测结果中最大概率的类别至预测结果中前五大概率的类别以及相应的预测概率。

优选的，所述深入匹配模块，包括：系统根据文字概率预测模块输出的结果，利用传统人工设计特征，在上述限定的预测结果中前三大概率的类别的小范围内进行深入模板匹配，进一步提高分类准确率。

根据本发明的实施例，本发明具有如下有益效果：

(1)能够使用多种图像增广策略处理训练集，增大图像训练集规模，达到增强泛化能力的效果；

(2)能够根据改进的深度卷积神经网络模型更加精确的实现正确分类，并且具有相关领域的可扩展性；

(3)能够借助传统人工设计特征进行辅助训练，进一步提高分类准确率；

(4)能够以概率的形式预测，将预测结果和预测概率一同呈现给用户，使用户明确该预测结果的可信度。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种基于深度学习的古文字识别方法及系统不局限于实施例。

附图说明

图1是根据本发明实施例的基于深度学习的古文字识别方法的流程图；

图2是根据本发明实施例的基于深度学习的古文字识别系统的示意图；

图3是根据本发明一个具体实施例的多层过滤器优化的Inception_V3结构示意图一；

图4是根据本发明一个具体实施例的多层过滤器优化的Inception_V3结构示意图二；

图5是根据本发明一个具体实施例的多层过滤器优化的Inception_V3结构示意图三；

图6是根据本发明一个具体实施例的卷积池化图像压缩方法的流程示意图；

图7是根据本发明一个具体实施例的利用Inception_V3结构并行压缩图像示意图；

图8是根据本发明一个具体实施例的多层池化层并行压缩图像提取特征的结构示意图；

图9是根据本发明一个具体实施例的原始Inception_V3模型和改进的Inception_V3模型示意图；

图10是根据本发明一个具体实施例的分类层的示意图。

具体实施方式

下面详细描述本发明的实施例，需要注意的是参考附图所描述的实施例仅仅是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。以下结合附图描述根据本发明实施例的基于深度学习的古文字识别方法及系统。

需要说明的是，本发明方法的执行主体为终端，所述终端可以为手机、平板电脑、掌上电脑PDA、笔记本或台式机等设备，当然，还可以为其他具有相似功能的设备，具体的本实施方式不加以限制。

参见图1所示，本发明一种基于深度学习的古文字识别方法，包括以下步骤：

S1，获取古文字图像数据集并制作分类标签；

参见图2所示，本发明一种基于深度学习的古文字识别系统，包括以下模块：

数据输入模块201，用于获取古文字图像数据集并制作分类标签；

图像预处理及图像增广模块202，用于对图像数据集中的图像进行预处理，并通过图像增广扩充数据集，以便训练出泛化能力更强的模型；

智能识别模型模块203，用于通过深度神经网络对预处理与图像增广后的图像数据集进行特征提取，对不同时间的篆文形体进行识别；

文字概率预测模块204，用于对提取的特征通过分类器分类，并以概率值的形式由大到小依次输出模型预测结果，以便用户了解此预测结果的可信度；

深入匹配模块205，用于利用人工设计特征，对文字概率预测模块204分类结果所限定的小范围内使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步分类，进一步提高分类准确率。

本实施例中，图1所示的方法在图2所示的系统中得以实现，具体实现过程为：

在数据输入模块201中，利用爬虫技术从专业楷书-篆文对应数据库获取篆文图像，总计获得甲骨文250类汉字，金文250类汉字，合计500类汉字、32120张图像的数据集。其中包括训练集19467张图像、验证集6415张图像、测试集6238张图像。将这些图像根据朝代和对应楷书字形进行字体标注，制作分类标签。

在图像预处理及图像增广模块202中，将训练集和测试集统一归一化大小为64x64像素的形式，并对图像进行平滑和二值化处理。将标签统一成one-hot编码(独热码)格式。对预处理后的图像通过图像水平平移、图像竖直平移和图像旋转等操作进行图片增广，扩充数据集，以便训练出泛化能力更强的模型。

在智能识别模块203中，通过卷积神经网络进行特征自动提取，主要采用基于改进的Inception_V3结构模型。使用Inception_V3结构单元实现图像的并行压缩，使得特征表示的尺寸温和减少，从而避免传统卷积结构严重压缩特征表示；使用多层池化单元实现图像的并行压缩，并行整合特征，最大限度提取出具有平移不变性的特征；使用多层过滤器替代大尺寸过滤器，避免冗余参数，加快训练速度，减少计算量；使用批量归一化，对数据内部进行标准化处理，使输出规范化到0到1之间的正态分布，从而保证网络可以以较高的学习速率进行，防止发生梯度爆炸或者弥散现象。

在深入匹配模块205中，通过借助传统人工设计特征进行深入匹配。本实施例中，使用传统人工设计特征HOG，利用余弦相似度在预测结果中前三大概率的类别的小范围内进行进一步深入匹配。为了进一步保证识别的实时性，我们认为当模型以80％的概率预测出一个结果时，它对这个结果是很自信的，而对于少于这个概率所预测出的结果采取深入匹配进一步提高分类准确率，最终可提升1％的预测结果中最大概率的类别为正确答案的准确率。

改进的Inception_V3结构如图9所示，图9(a)为Inception_V3结构图，图9(b)为改进的Inception_V3图。关于批量归一化操作可在一定程度上帮助收敛，可保证每层都可以以较高的学习率进行学习，故在模型的每层卷积层均加入批量归一化操作，如图9中Conv_BN(其中conv代表卷积过程，BN代表批量归一化过程，即Conv_BN表示卷积层结合批量归一化层)所示。关于图片并行压缩，传统的压缩方式如图6(a)所示，因为池化用来降低特征图大小，为避免特征表示瓶颈，即更有效的保存图像信息，应在池化之前增加滤波器数目，图6(b)虽然满足要求但计算量太大，故采用图7和图8所示的方式，其中图7为Incepool(一种卷积结合最大池化的新型池化结构)，图8为Multipool(一种多层最大池化相结合的新型池化结构)，关于使用Multipool(一种多层最大池化相结合的新型池化结构)改进Inception_V3模型的原因是因为不同尺寸的池化大小可以学习到不同的平移不变性的特征。关于使用多层过滤器替代大尺寸过滤器可显著减少参数，加快计算，如图3、4、5所示，其中图3为Inception_1，图4为Inception_2，图5为Inception_3。模型最后的dropout(一种随机失活的正则化技术)层可起到正则化的作用，通过dropout(一种随机失活的正则化技术)可学得泛化能力更强的模型。需要说明的是，图9中，Maxpool表示最大池化，Inception_i(i＝1,2,3)表示一种网络结构；Incepool表示一种新型池化结构，Avgpool表示平均池化；Linear表示线性层。

在文字概率预测模块中，采取softmax函数作为分类器进行计算，所输出的模型预测概率为

其中，表示当前实例属于第k类的概率，n表示总类别数，s_k(x)表示当前实例x属于第k类的得分，exp(·)表示对括号内元素求指数，表示实例x关于从1到n的所有类别的得分的指数值的总和，k的范围为1到n，j的范围为1到n。具体的，每一张输入系统用来预测的图像(图片)都是一个实例，当前输入系统的这张图像(图片)经过前面网络的特征提取到达最后一层，即softmax分类层，然后计算它的属于每个类的概率。所述总类别数在制作分类标签之后获知。参见图10所示为最后一层分类层的示意图，其中Softmax是激活函数，即图中方块σ那部分。所述得分指的是图中的a，a是上一层网络的输出和这一层网络的权重相乘得到的，并不能表示概率，因此需要用softmax归一化到0和1之间，以表示概率。在本实施例中实现Top1准确率(即预测结果中最大概率的类别为正确答案的准确率)：90％-91％，Top5准确率(即预测结果中前五大概率的类别中包含正确答案的准确率)：97-98％。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不限制本发明，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，所做出的修改、替换和变形均属于本发明的保护之内。

Claims

1.一种基于深度学习的古文字识别方法，其特征在于，包括：

获取古文字图像数据集并制作分类标签；

对图像数据集中的图像进行预处理，并通过图像增广扩充数据集；

对预处理与图像增广后的图像数据集进行特征提取，并对提取的特征通过分类器分类，以实现不同时间的篆文形体的演变识别；

利用人工设计特征，使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步分类。

2.根据权利要求1所述的基于深度学习的古文字识别方法，其特征在于，所述获取古文字图像数据集并制作分类标签，包括：

以楷书单字为索引条目，对指定来源中的楷书单字的篆文形体进行扫描或拍照，获取标准篆文形体；或者，利用爬虫技术从专业楷书-篆文对应数据库获取篆文图像；

针对不同朝代的形体进行字体标注，制作分类标签。

3.根据权利要求1所述的基于深度学习的古文字识别方法，其特征在于，所述对图像数据集中的图像进行预处理，并通过图像增广扩充数据集，包括：

对所述图像数据集中的图像进行平滑去噪处理，同时将图像归一化成统一大小；

对预处理后的图像进行图像增广以扩充数据集；图像增广的方法包括图像水平平移、图像竖直平移和/或图像旋转。

4.根据权利要求1所述的基于深度学习的古文字识别方法，其特征在于，所述对预处理与图像增广后的图像数据集进行特征提取具体为通过深度神经网络对预处理与图像增广后的图像数据集进行特征提取，包括：

使用Inception_V3结构单元实现图像的并行压缩；使用多层池化单元实现图像的并行压缩，并行整合特征，最大限度提取出具有平移不变性的特征；使用多层过滤器替代大尺寸过滤器；使用批量归一化，对数据内部进行标准化处理，使输出规范化到0到1之间的正态分布。

5.根据权利要求1所述的基于深度学习的古文字识别方法，其特征在于，所述对提取的特征通过分类器分类，包括：

将提取的特征通过分类器分类，实现不同时间的篆文形体的演变识别，采取softmax函数作为分类器进行计算，所输出的模型预测概率为

6.一种基于深度学习的古文字识别系统，其特征在于，包括：

图像预处理及图像增广模块，用于对图像数据集中的图像进行预处理，并通过图像增广扩充数据集；

智能识别模型模块，用于对预处理与图像增广后的图像数据集进行特征提取，以实现不同时间的篆文形体的演变识别；

文字概率预测模块，用于对提取的特征通过分类器分类，并以概率值的形式由大到小依次输出模型预测结果；

深入匹配模块，用于利用人工设计特征，对文字概率预测模块分类结果所限定的指定范围内使用模板匹配的方法进行辅助训练，以对分类器的分类结果进一步分类。

7.根据权利要求6所述的基于深度学习的古文字识别系统，其特征在于，所述数据输入模块，包括：

针对不同朝代的形体进行字体标注，制作分类标签。

8.根据权利要求6所述的基于深度学习的古文字识别系统，其特征在于，所述图像预处理及图像增广模块，包括：

对所述图像数据集中的图像进行平滑、归一化处理，同时将图像归一化成统一大小；

9.根据权利要求6所述的基于深度学习的古文字识别系统，其特征在于，所述智能识别模型模块，包括：

10.根据权利要求6所述的基于深度学习的古文字识别系统，其特征在于，所述文字概率预测模块中，概率值的提取方法，包括：