CN109871904A

CN109871904A - 甲骨文字识别模型及训练方法、系统、设备、计算机介质

Info

Publication number: CN109871904A
Application number: CN201910180571.0A
Authority: CN
Inventors: 陈锐; 吴宗泽; 任志刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-06-11

Abstract

本申请公开了一种甲骨文字识别模型及训练方法、系统、设备及计算机介质，该方法包括获取甲骨文图文数据集，将甲骨文图文数据集划分为训练集和测试集；基于训练集和测试集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；其中，甲骨文字识别模型包括：第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层，第三全连接层；且第一卷积层的卷积核尺寸大于11×11。本申请提供的甲骨文字识别模型可以自动对目标甲骨文字进行识别，提高了甲骨文字识别的识别效率。

Description

甲骨文字识别模型及训练方法、系统、设备、计算机介质

技术领域

本申请涉及卷积神经网络模型技术领域，更具体地说，涉及甲骨文字识别模型及训练方法、系统、设备、计算机介质。

背景技术

甲骨文字作为古文字还未进入国家标准，也未进入国际标准，所以甲骨文字在出版物上是以图片出现，这位甲骨文字的检索带来了困难。

为了检索甲骨文字，现有的甲骨文字识别方法包括基于SVM(Support VectorMachine，支持向量机)的甲骨文字识别和基于分形几何的甲骨文字识别方法。

然而，基于SVM的甲骨文字识别需要采用分块直方图的方式，即手工提取的方式，来提取文字特征；而基于分形几何的甲骨文字识别方法利用分形几何的原理，通过计算字形以及各个象限的分形维数，将甲骨文字形式化为一组分形描述码，再通过与甲骨文字的分形特征库进行配准，得到识别结果，其同样需要人工干预过程。也即，现有的基于SVM的甲骨文字识别和基于分形几何的甲骨文字识别方法均需要人工参与，识别效率较低。

综上所述，如何提高甲骨文字识别的识别效率是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种甲骨文字识别模型训练方法，其能在一定程度上解决如何提高甲骨文字识别的识别效率的技术问题。本申请还提供了一种甲骨文字识别模型及训练系统、设备及计算机可读存储介质。

为了实现上述目的，本申请提供如下技术方案：

一种甲骨文字识别模型训练方法，包括：

获取甲骨文图文数据集，在所述甲骨文图文数据集中划分出训练集；

基于所述训练集对所述甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别；

其中，所述甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；且所述第一卷积层的卷积核尺寸大于11×11。

优选的，所述在所述甲骨文图文数据集中划分出训练集之后，所述基于所述训练集对所述甲骨文字识别模型进行训练之前，还包括：

基于所述训练集对所述甲骨文字识别模型对应的浅层模型进行训练，得到训练好的浅层模型；

将所述训练好的浅层模型的权值作为所述甲骨文字识别模型的初始权值；

其中，所述浅层模型包括依次连接的所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第一最大池化层、所述第二最大池化层、所述第三最大池化层、所述第一全连接层、所述第二全连接层和所述第三全连接层。

优选的，所述获取甲骨文图文数据集，在所述甲骨文图文数据集中划分出训练集，包括：

获取所述甲骨文图文数据集；

将所述甲骨文图文数据集中的原始图像像素变换为256×256，得到第一变换图像；

分别在所述第一变换图像、所述第一变换图像对应的水平翻转图像中，抽取5个225×225切片，得到第二变换图像；

在所述第二变换图像中划分出所述训练集。

优选的，所述在所述第二变换图像中划分出所述训练集，包括：

将所述第二变换图像进行旋转，得到第三变换图像；

在所述第三变换图像中划分出所述训练集。

优选的，所述基于所述训练集对所述甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型的过程中，包括：

采用0.55的随机失活率对所述第一全连接层和所述第二全连接层进行随机失活正则化处理。

一种甲骨文字识别模型，用于对目标甲骨文字进行识别，包括：

依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；所述第一卷积层用于接收所述目标甲骨文字，且所述第一卷积层的卷积核尺寸大于11×11。

优选的，所述第一卷积层的卷积核数目为64、所述第二卷积层的卷积核数目为128、所述第三卷积层的卷积核数目为256、所述第四卷积层的卷积核数目为256、所述第五卷积层的卷积核数目为256。

优选的，所述第一卷积层的卷积核尺寸为15×15，步长为3；

所述第二卷积层的卷积核尺寸为5×5，步长为1，填充方式为same填充；

所述第三卷积层、所述第四卷积层和所述第五卷积层的卷积核尺寸为3×3，步长为1，填充方式为所述same填充。

优选的，所述第一最大池化层、所述第二最大池化层和所述第三最大池化层的滤波器尺寸为3×3，步长为2。

一种甲骨文字识别模型训练系统，包括：

第一获取模块，用于获取甲骨文图文数据集，在所述甲骨文图文数据集中划分出训练集；

第一训练模块，用于基于所述训练集对所述甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于所述训练好的甲骨文字识别模型对目标甲骨文字进行识别；

本申请提供的一种甲骨文字识别模型训练方法，获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集；基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；其中，甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；且第一卷积层的卷积核尺寸大于11×11。由甲骨文字识别模型的描述可知，本申请提供的甲骨文字识别模型的类型为卷积神经网络模型，所以甲骨文字识别模型训练完成后，便可以借助甲骨文字识别模型自动对目标甲骨文字进行识别，而无需人工参与，提高了甲骨文字识别的识别效率。本申请提供的一种甲骨文字识别模型及训练系统、设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种甲骨文字识别模型训练方法的第一流程图；

图2为本申请实施例提供的一种甲骨文字识别模型训练方法的第二流程图；

图3为本申请实施例提供的一种甲骨文字识别模型训练系统的结构示意图；

图4为本申请实施例提供的一种甲骨文字识别模型训练设备的结构示意图；

图5为本申请实施例提供的一种甲骨文字识别模型训练设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例提供的一种甲骨文字识别模型训练方法的第一流程图。

本申请实施例提供的一种甲骨文字识别模型训练方法，可以包括以下步骤：

步骤S101：获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集。

实际应用中，可以先获取甲骨文图文数据集，甲骨文图文数据集中包括原始甲骨文字及对应的识别结果。具体的可以先收集并建立甲骨文图文资料库，然后将甲骨文图文资料库中的原始甲骨文字交由甲骨文专家进行表示，得到相应的识别结果，最后将甲骨文图文资料库和识别结果整合为甲骨文图文数据集。在获取甲骨文图文数据集后，便可以在甲骨文图文数据集中划分出训练集，训练集用于对甲骨文字识别模型进行训练，训练过程可以参阅现有技术；具体应用场景中，为了提高甲骨文字识别模型的识别准确率，还可以对训练好的甲骨文字识别模型进行测试，也即可以在甲骨文图文数据集中划分出测试集，测试集用于对甲骨文字识别模型进行测试，具体的测试过程可以参阅现有技术，训练集和测试集中均包括原始甲骨文字和对应的识别结果；具体应用场景中，可以按照3:1的比例将甲骨文图文数据集划分为训练集和测试集。

具体应用场景中，为了解决甲骨文字识别模型过拟合的问题，可以对甲骨文图文数据集进行数据增强，则获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集的过程可以具体为：获取甲骨文图文数据集；将甲骨文图文数据集中的原始图像像素变换为256×256，得到第一变换图像；分别在第一变换图像、第一变换图像对应的水平翻转图像中，抽取5个225×225切片，得到第二变换图像；在第二变换图像中划分出训练集。不难理解，在抽取切片后，甲骨文图文数据集中的数据数量变为原来的10倍，此外，在抽取切片时，可以在图像的中间和四个角的位置上抽取切片。

具体应用场景中，为了进一步对甲骨文图文数据集进行数据增强，将第二变换图像划分为训练集和测试集的过程可以具体为：将第二变换图像进行旋转，得到第三变换图像；在第三变换图像中划分出训练集。具体的，在对第二变换图像进行旋转时，可以从-5°开始对第二变换图像进行旋转，且每次增加1°，直至旋转到+5°，将甲骨文图文数据集的数据量扩展到原来的20倍。

步骤S102：基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；

其中，甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；且第一卷积层的卷积核尺寸大于11×11。

实际应用中，在甲骨文图文数据集中划分出训练集后，便可以基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以便基于训练好的甲骨文字识别模型对目标甲骨文字进行识别。甲骨文字识别模型的结构请参阅本申请的描述，应当指出，可以根据实际需要对本申请提供的甲骨文字识别模型的结构进行调整，比如可以在每个卷积层后加上一个非线性修正单元层，也即ReLU层，还可以在第三全连接层之后设置以softmax loss函数为主的分类器等。由于甲骨文字缺少细微的纹理信息，且甲骨拓片上文字背景噪声较大，因此第一卷积层使用小卷积核，小卷积核指的是本申请由实验证明的小于等于11×11的卷积核，易导致大部分提取的特征为空或者为背景噪声，使得传递到后面几层的卷积核的信息丢失太快，不能很好地获取图片中甲骨文字的结构信息，所以本申请提供的甲骨文字识别模型的第一卷积层使用大于11×11的大尺寸的卷积核，其可以使得第一卷积层得到甲骨文字上更多的结构信息，提高对甲骨文字的识别成功率。具体应用场景中，在训练过程中，可以通过混淆矩阵表计算kappa系数和识别准确率对甲骨文字识别模型进行评价，并根据评价结果对甲骨文字识别模型进行调整。

实际应用中，为了解决甲骨文字识别模型过拟合的问题，可以对全连接进行随机失活正则化处理，为了达到较好的效果，可以采用0.55的随机失活率对全连接层进行随机失活正则化处理，则基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型的过程中可以包括：采用0.55的随机失活率对第一全连接层和第二全连接层进行随机失活正则化处理。

本申请提供的一种甲骨文字识别模型训练方法，获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集；基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；其中，甲骨文字识别模型包括依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；且第一卷积层的卷积核尺寸大于11×11。由甲骨文字识别模型的描述可知，本申请提供的甲骨文字识别模型的类型为卷积神经网络模型，所以甲骨文字识别模型训练完成后，便可以借助甲骨文字识别模型自动对目标甲骨文字进行识别，而无需人工参与，提高了甲骨文字识别的识别效率。

请参阅图2，图2为本申请实施例提供的一种甲骨文字识别模型训练方法的第二流程图。

实际应用中，本申请实施例提供的一种甲骨文字识别模型训练方法可以包括以下步骤：

步骤S201：获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集。

步骤S202：基于训练集对甲骨文字识别模型对应的浅层模型进行训练，得到训练好的浅层模型。

步骤S203：将训练好的浅层模型的权值作为甲骨文字识别模型的初始权值。

实际应用中，为了提高训练效率，可以先对甲骨文字识别模型对应的浅层模型机进行训练，得到训练好的浅层模型，并将训练好的浅层模型的权值作为甲骨文字识别模型的初始权值，以加快对甲骨文字识别模型的训练进度。浅层模型指的是包含甲骨文字识别模型部分结构的模型。

具体应用场景中，在训练浅层模型时，可以根据高斯分布初始化浅层模型的权值，高斯分布的参数值可以如下：μ＝0，σ＝0.01。

步骤S204：基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；

其中，浅层模型包括依次连接的第一卷积层、第二卷积层、第三卷积层、第一最大池化层、第二最大池化层、第三最大池化层、第一全连接层、第二全连接层和第三全连接层。

实际应用中，可以先设计一个浅层模型，设计的浅层模型的每个卷积层有ReLU层和最大池化层，第1个全连接层(FC)的卷积核大小为8×8，与前一层最大池化层的大小相同，且前2个全连接层后加有Dropout层；第3个全连接层的通道数与甲骨文字识别任务的分类数相同，且采用softmax loss函数作为损失函数；浅层模型的三个卷积层的卷积核数目从64开始，依次翻倍，直到256为止。训练好的浅层模型的权值和甲骨文字识别模型的初始权值间的赋值关系可参阅表1。在表1中，深层模型也即本申请中的甲骨文字识别模型，卷积层的参数按照“conv<卷积核大小>-<步长>-<零填充数目>-<卷积核个数>”来定义；最大池化层(Max-Pooling层)的参数按照“MP<池化层大小>-<步长>-<零填充数目>-<通道数>”来定义。

表1浅层模型和深层模型的权值赋值关系

本申请还提供了一种甲骨文字识别模型，用于对目标甲骨文字进行识别，可以包括：

依次连接的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第四卷积层、第五卷积层、第三最大池化层、第一全连接层、第二全连接层、第三全连接层；第一卷积层用于接收目标甲骨文字，且第一卷积层的卷积核尺寸大于11×11。

为了保证甲骨文字识别模型的识别效果，本申请实施例提供的一种甲骨文字识别模型，第一卷积层的卷积核数目可以为64、第二卷积层的卷积核数目可以为128、第三卷积层的卷积核数目可以为256、第四卷积层的卷积核数目可以为256、第五卷积层的卷积核数目可以为256。

为了保证甲骨文字识别模型的识别效果及识别效率，本申请实施例提供的一种甲骨文字识别模型，第一卷积层的卷积核尺寸可以为15×15，步长可以为3；

第二卷积层的卷积核尺寸可以为5×5，步长可以为1，填充方式可以为same填充；

第三卷积层、第四卷积层和第五卷积层的卷积核尺寸均可以为3×3，步长均可以为1，填充方式均可以为same填充。

本申请实施例提供的一种甲骨文字识别模型，第一最大池化层、第二最大池化层和第三最大池化层的滤波器尺寸可以为3×3，步长可以为2。

本申请还提供了一种甲骨文字识别模型训练系统，其具有本申请实施例提供的一种甲骨文字识别模型训练方法具有的对应效果。请参阅图3，图3为本申请实施例提供的一种甲骨文字识别模型训练系统的结构示意图。

本申请实施例提供的一种甲骨文字识别模型训练系统，可以包括：

第一获取模块101，用于获取甲骨文图文数据集，在甲骨文图文数据集中划分出训练集；

第一训练模块102，用于基于训练集对甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型，以基于训练好的甲骨文字识别模型对目标甲骨文字进行识别；

本申请实施例提供的一种甲骨文字识别模型训练系统，还可以包括：

第二训练模块，用于第一获取模块在甲骨文图文数据集中划分出训练集之后，第一训练模块基于训练集对甲骨文字识别模型进行训练之前，基于训练集对甲骨文字识别模型对应的浅层模型进行训练，得到训练好的浅层模型；

第一处理模块，用于将训练好的浅层模型的权值作为甲骨文字识别模型的初始权值；

本申请实施例提供的一种甲骨文字识别模型训练系统，第一获取模块可以包括：

第一获取单元，用于获取甲骨文图文数据集；

第一变换单元，用于将甲骨文图文数据集中的原始图像像素变换为256×256，得到第一变换图像；

第一抽取单元，用于分别在第一变换图像、第一变换图像对应的水平翻转图像中，抽取5个225×225切片，得到第二变换图像；

第一划分单元，用于在第二变换图像中划分出训练集。

本申请实施例提供的一种甲骨文字识别模型训练系统，第一划分单元可以包括：

第一旋转子单元，用于将第二变换图像进行旋转，得到第三变换图像；

第一划分子单元，用于在第三变换图像中划分出训练集。

本申请实施例提供的一种甲骨文字识别模型训练系统，第一训练模块可以包括：

第一处理单元，用于采用0.55的随机失活率对第一全连接层和第二全连接层进行随机失活正则化处理。

本申请还提供了一种甲骨文字识别模型训练设备及计算机可读存储介质，其均具有本申请实施例提供的一种甲骨文字识别模型训练方法具有的对应效果。请参阅图4，图4为本申请实施例提供的一种甲骨文字识别模型训练设备的结构示意图。

本申请实施例提供的一种甲骨文字识别模型训练设备，可以包括：

存储器201，用于存储计算机程序；

处理器202，用于执行存储器中存储的计算机程序时实现如上任一实施例所描述的甲骨文字识别模型训练方法的步骤。

请参阅图5，本申请实施例提供的另一种甲骨文字识别模型训练设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现甲骨文字识别模型训练设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接：无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上任一实施例所描述的甲骨文字识别模型训练方法的步骤。

本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本申请实施例提供的一种甲骨文字识别模型及训练系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的一种甲骨文字识别模型训练方法中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种甲骨文字识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在所述甲骨文图文数据集中划分出训练集之后，所述基于所述训练集对所述甲骨文字识别模型进行训练之前，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取甲骨文图文数据集，在所述甲骨文图文数据集中划分出训练集，包括：

获取所述甲骨文图文数据集；

在所述第二变换图像中划分出所述训练集。

4.根据权利要求3所述的方法，其特征在于，所述在所述第二变换图像中划分出所述训练集，包括：

将所述第二变换图像进行旋转，得到第三变换图像；

在所述第三变换图像中划分出所述训练集。

5.根据权利要求1或2所述的方法，其特征在于，所述基于所述训练集对所述甲骨文字识别模型进行训练，得到训练好的甲骨文字识别模型的过程中，包括：

6.一种甲骨文字识别模型，其特征在于，用于对目标甲骨文字进行识别，包括：

7.根据权利要求6所述的甲骨文字识别模型，其特征在于，所述第一卷积层的卷积核数目为64、所述第二卷积层的卷积核数目为128、所述第三卷积层的卷积核数目为256、所述第四卷积层的卷积核数目为256、所述第五卷积层的卷积核数目为256。

8.根据权利要求7所述的甲骨文字识别模型，其特征在于，所述第一卷积层的卷积核尺寸为15×15，步长为3；

9.根据权利要求8所述的甲骨文字识别模型，其特征在于，所述第一最大池化层、所述第二最大池化层和所述第三最大池化层的滤波器尺寸为3×3，步长为2。

10.一种甲骨文字识别模型训练系统，其特征在于，包括：