CN113408418A

CN113408418A - 一种书法字体与文字内容同步识别方法及系统

Info

Publication number: CN113408418A
Application number: CN202110681231.3A
Authority: CN
Inventors: 张海宾; 黄相喆; 孙文; 秦溢凡
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-17

Abstract

本发明公开了一种书法字体与文字内容同步识别方法及系统，将预处理的书法字体图像集输入到训练好的基于迁移学习的卷积神经网络模型里面，对待识别的中国书法字体与文字内容进行同步识别；卷积神经网络由7个层组成，使用迁移学习技术，固定前三层网络参数，迁移识别书法字体的模型参数识别汉字内容，以实现中国书法字体与文字内容的同步识别，并降低构建模型的时间。通过使用多种高效机器学习技术，包括反向传播算法，基于梯度下降的Adam优化算法，SoftMax回归分类，深度迁移学习网络等技术，成功完成了基于深度迁移学习的模型的训练，以准确实现中国书法字体与文字内容的同步识别，并降低构建模型的时间。

Description

一种书法字体与文字内容同步识别方法及系统

技术领域

本发明属于同步识别技术领域，具体涉及一种书法字体与文字内容同步识别方法及系统。

背景技术

中国书法是一门随着中华文明的发展而发展起来的古老艺术，书法无时无刻不散发着它古老艺术的魅力。研究利用计算机技术对用户的手写书法作品进行智能化的识别对弘扬我国传统文化，促进书法教育发展具有重要意义。

目前，由于中国书法文字众多，不同字体特点鲜明，在书法作品字体未知的情况下对其进行识别是非常困难的。现今常用的采用聚类方法来识别数据，准确率较高，但在图像预处理阶段，需要先对字体进行主体骨架特征提取、去除连笔等操作，这样会主观地去除掉许多文字之间的特性，尤其是去除连笔的字体会丢失重要的特征信息，从而影响识别最终准确率。同时，在聚类过程中，也需要不断地调试参数，这就导致最终的识别结果仍然有人为因素存在，不能满足分类的客观性。

现有的方法虽然能够实现基于对比库的书法字识别，但面对实验训练数据量不充足的情况下，识别局限性很大，很难应用到其他的领域中去。此外，在面对多个字体同时识别的情况下，难以满足实验要求。因此，现有方法在数据量激增且数据质量不能保证的今天，识别局限性很大，难以很好地应对实际较大规模的书法字体与文字内容的同步识别。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种书法字体与文字内容同步识别方法及系统，通过深度迁移学习，采用卷积神经网络的方法可以很好地实现在数据集不充足且数据质量无法保证、未知书法作品字体风格与文字内容的情况下，较大规模书法字体与文字内容同步准确识别，并降低构建模型所需的时间。

本发明采用以下技术方案：

一种书法字体与文字内容同步识别方法，包括以下步骤：

S1、收集K种字体文件，选取N个常用文字并写入word中，用不同的字体进行格式化，放大另存为PDF格式保存，再将PDF格式转化为JPG格式，制作成数据集；

S2、将步骤S1制作的数据集中的字体放大并切割成单个文字，实现对数据集的分割；

S3、采用仿射变换、噪声处理、对比度变换、膨胀腐蚀以及透视变换方法对步骤S2中得到的单个文字图片进行随机组合得到32张图片；

S4、将步骤S3得到的32张图片进行灰度值处理，并给每张图片加上对应的标签；

S5、建立基于深度迁移学习的书法字体与文字内容同步识别模型；

S6、将步骤S1选取的N个文字乘以K种不同的字体，再乘以步骤S4处理的32张图片得到M张图片，将M张图片按照3：1的比例划分成训练集和测试集，将训练集输入步骤S5建立的书法字体与文字内容同步识别模型中；对训练集进行训练，记录模型识别时间、记录损失函数和准确率，查看卷积神经网络学习效果；得出训练结果，将测试集的图片乱序导入训练集进行识别，比较识别结果与实际标签，完成书法字体与文字内容同步识别。

具体的，步骤S3中，仿射变换具体为：通过MATLAB对文字图片进行旋转、缩放、反转、平移和错切变换。

具体的于，步骤S3中，噪声处理具体为：通过MATLAB添加高斯白噪声，泊松噪声，椒盐噪声，零均值高斯白噪声和斑点噪声；

具体的，步骤S3中，对比度变换具体为：采用直方图均衡化方法对图像进行对比度变换，输出图像灰度值S_k为：

其中，k为灰度级数，n为图像总像素个数，n_i为灰度级为i的像素数量。

具体的，步骤S3中，膨胀腐蚀操作包括图像膨胀和图像腐蚀两类；通过MATLAB使用imdilate函数进行图像膨胀操作，采用结构元素领域自定义的二进制矩阵表示结构元素对象，使单个书法字体局部变粗；通过MATLAB使用imerode函数进行图像的腐蚀操作，采用结构元素领域自定义的二进制矩阵来表示结构元素对象，使单个书法字体局部变细。

具体的，步骤S3中，透视变换方法具体为：采用opencv框架的Mat_getPerspectiveTransform函数生成透视变换矩阵，采用warpPerspective函数将图片进行透视变换操作。

具体的，步骤S4中，使用opencv框架将得到的数据集上传到PyCharm中，然后从数据集中读取图片，将每张图片设置为白底黑字，根据文件夹和图片的不同，给每个图片命名，用img.resize函数将图片的像素值变为300*300，读取图片上90000个灰度值，将灰度值低于10的全部设为0，作为黑色，其他的全部设为255，作为白色。

具体的，步骤S5中，设计的基于深度迁移学习的书法字体与文字内容同步识别模型共有七层结构，前四层为卷积池化层，后三层为全连接层，固定前三层卷积池化网络参数，迁移识别书法字体的模型参数，用以识别汉字内容。卷积层卷积核为2*2，步长为1，第一层有6个卷积核，第二层有36个卷积核，第三层有64个卷积核，第四层有128个卷积核；池化层窗口为2*2，步长为2；前六层采用ReLU激活函数，最后一层采用SoftMax回归分类器处理多分类问题；模型优化采用梯度下降与反向传播相结合的方法进行优化迭代处理；使用crossentropy交叉熵计算损失函数。

进一步的，卷积层在卷积运算过程中的函数方程f(x)为：

f(x)＝ω·x+b

其中，f(x)为卷积层输出值，x为输入参数，ω为权值参数，b为偏置量；

ReLU激活函数为：

σ(x)＝max(0,x)

其中，x为卷积层得到的输入映射，σ(x)为池化层输出值；

全连接层的全连接输出值y_j为：

其中，x_i为全连接输入向量值，ω_ji为输入到输出的全连接参数，b_j为输出对应的偏置项；

将前六层神经网络得到结果分别导入最后分类层进行分类判断操作，经过SoftMax回归处理的概率输出，概率分布P为：

其中，X为输入向量，ω_j为迭代训练的模型参数，

为概率分布归一化系数，j为输出类型；

损失函数f(ω)为：

其中，P代表预测值的概率分布，由上一步概率公式得到，Q代表目标值的概率分布，p_j为P的子项，q_j为Q的子项；

模型优化为：

其中，t为迭代索引，ω为待优化参数，f(ω)为损失函数，α为初始学习率，g_t为损失函数关于当前参数的梯度，m_t为一阶动量，β₁为一阶动量参数，V_t为二阶动量，β₂为二阶动量参数，η_t为当前时刻的下降梯度。

本发明的另一技术方案是，一种书法字体与文字内容同步识别系统，包括：

数据模块，收集K种字体文件，选取N个常用文字并写入word中，用不同的字体进行格式化，放大另存为PDF格式保存，再将PDF格式转化为JPG格式，制作成数据集；

分割模块，将数据模块制作的数据集中的字体放大并切割成单个文字，实现对数据集的分割；

组合模块，采用仿射变换、噪声处理、对比度变换、膨胀腐蚀以及透视变换方法对分割模块得到的单个文字图片进行随机组合得到32张图片；

标签模块，将组合模块得到的32张图片进行灰度值处理，并给每张图片加上对应的标签；

模型模块，建立基于深度迁移学习的书法字体与文字内容同步识别模型；

识别模块，将数据模块选取的N个文字乘以K种不同的字体，再乘以标签模块处理的32张图片得到M张图片，将M张图片按照3：1的比例划分成训练集和测试集，将训练集输入模型模块建立的书法字体与文字内容同步识别模型中；对训练集进行训练，记录模型识别时间、记录损失函数和准确率，查看卷积神经网络学习效果；得出训练结果，将测试集的图片乱序导入训练集进行识别，比较识别结果与实际标签，完成书法字体与文字内容同步识别。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种书法字体与文字内容同步识别方法，用于较大规模的同步识别中国书法字体和文字的内容信息，基于迁移学习和卷积神经网络的新型识别技术，与常见的文字内容识别技术不同，可以实现较大规模的中国书法字体和文字内容的同时识别；可以在数据集不充足且数据质量无法保证的情况下依然保证较高的识别精读，识别局限性小；采用深度迁移学习和卷积神经网络相结合的方法，使建模时间大大降低。

进一步的，在书法字体数据集不充足且数据质量无法保证的情况下，要保证中国书法作品字体与文字内容识别的准确性，需进行人为操作增加训练样本，以模拟真实手写书法字体文件常存在的干扰因素；仿射变换是一种二维到二维的坐标变换，用以模拟真实手写书法字体中常见的错位、大小不一致、断笔、斜体等平面书写的干扰因素。

进一步的，噪声处理可以造成基本分辨单元中物体的随机散射，用以模拟实际生活中书法作品和手写文本中不可避免的一些信息情况(如不小心洒落墨水滴等)。

进一步的，对比度变换用于改变图像像元的亮度值来改变图像像元的对比度，可以模拟书法字体中连笔、轻笔等平面书写的干扰因素。

进一步的，膨胀腐蚀操作可以模拟实际生活中书法作品和手写文本中单个书法字体局部粗细不均匀的情况；透视变换是将图片进行投影，投影到一个新的视平面，从二维到三维，再到二维中的变换，通过中心投影散射的方式模拟书法字体的个人独特书写风格(如起笔落笔特征等)。因此本发明采用这五种常用的变换方式，对步骤S2中切割得到的单个字体图片排列组合得到32种相应的变换图片，随机改变训练样本以降低模型对某些属性的依赖，提高模型的泛化能力，使书法字体图片得以增强，从而提高识别的准确性。

进一步的，在中国书法作品字体与文字内容识别过程中，书法字体图片常以白底黑字为主，存在书法笔画轻重、连笔的差异，这决定了书法作品识别不同于彩色图片识别过程，仅需要将书法图片灰度值按照黑白分割，即可提取书法识别所需的特征向量。因模型训练的需要，对本发明制作的数据集每张图片添加相应的标签是检测是否成功识别的重要前提。

进一步的，迁移学习是指把某个领域(源域)学习到的知识应用到另一个相似的领域(目的域)中去指导学习的方法。利用源域和目标域之间的相似性，合理、正确、规范地使用迁移学习算法，可以将模型从源任务上训练，然后迁移到目标任务上，从而达到极大的节约计算资源的目的。通常而言，机器学习要求使用的测试集和训练集独立同分布，但在某些情况下，常缺少足够数量的数据集来完成任务，而迁移学习技术可以对常见的数据集进行的训练，然后再通过针对性的小数据集进一步强化训练，从而降低学习任务对足量数据集的依赖性。基于网络的深度迁移学习技术是指先在源域中训练好一个完整的或者部分的神经网络(模型)，然后把这部分模型迁移到目标域所使用的神经网络中，更改相应的输出参数，从而形成了一个新的网络结构。这种迁移算法的过程是首先在源域中使用训练集来训练网络结构模型，得到一个包含数据特征、参数、网络结构的模型，然后再把这个网络结构迁移到目标域中去，使之成为新网络结构的一部分，再进行参数调整，得到需要的新网络模型。本发明中，卷积神经网络模型在对书法字体进行识别的过程中，所提取到的特征要远多于文字内容识别提取到的特征，并且很多特征可以应用于文字内容的识别，因此本发明采用共享识别书法字体模型的浅层特征以识别文字内容的方法建立基于网络的深度迁移学习模型，在保证识别的有效性的情况下，使参数数量大幅降低。

进一步的，在构造卷积神经网络的过程中，卷积函数用于提取图片的局部纹理特征；池化层(max pooling)和全连接层(FC)需要使用激活函数用于收集和分类特征向量，对于线性函数，ReLU激活函数在构造过程中更具有表现力，对于非线性函数，ReLU激活函数在非负区间的梯度值是一个常数，不存在梯度消失问题，模型的收敛速度会维持在一个稳定状态，更有利于通过优化迭代方法得到更加准确的分类结果；全连接层将经过四层卷积池化操作得到的特征向量分别输入到对应的识别书法字体或文字内容的全连接层进行全连接操作，对提取到的局部特征进行分类收集。

进一步的，在本发明构造的卷积神经网络的最后分类层中，SoftMax回归分类器可以根据输出节点的概率大小来判断输出结果，并且可以通过预测矩阵选择性的输出概率最大的或者前几的判断结果，非常适合处理多分类问题，在本发明的数据模块中，对于每一个待分类数据样本，其书法字体有K种输出类型，文字内容有N种输出类型，若采用传统的全连接网络会得到K*N个输出节点，这是一个极为庞大的数字，采用SoftMax回归分类器归一化输出书法字体和文字内容同步识别结果的方法，在降低分类结果复杂性的同时，提高识别的准确性；在基于深度迁移学习的卷积神经网络训练的过程中，为使预测值和实际值的差距尽可能减小，需通过不断地调整网络参数以使得损失函数的值达到最小，交叉熵损失函数在多分类问题中求导更简单，损失仅与正确类别的概率有关，在最后一层权重的梯度只跟输出值和真实值的差值相关，收敛速度较快，整个权重矩阵的更新快；在卷积神经网络正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，若在输出层无法得到期望的输出值时，取交叉熵函数作为损失函数，转入反向传播，继而求出损失函数对各神经元权值的偏导数，结合基于梯度下降的Adam算法构造目标函数对权值向量的梯度，计算一阶动量和二阶动量，以此作为修改权值的依据，迭代降低梯度使神经网络的学习在权值修改过程中完成，最后误差达到所期望值时，使损失函数得到一个符合要求的最小结果，采用反向传播算法与基于梯度下降的Adam算法相结合的优化方法，通过反馈信息逐步迭代得到一个最优解，在保证损失函数可靠的同时，加入了一阶动量和二阶动量，降低了迭代时间复杂度。

综上所述，本发明书法字体识别局限性小，迁移性好，可实现较大规模的中国书法字体和文字内容的同时识别，大大降低构建模型所需的时间。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的卷积神经网络结构图；

图2为本发明的工作流程示意图，其中，(a)为工作流程示意图，(b)为同步识别系统结构流程图；

图3为本发明选取的文字图片，其中，(a)为选取的500个文字，(b)为文字格式化和放大之后文字的局部图片；

图4为本发明图片处理效果图，其中，(a)为数据增强处理效果图，(b)为数据增强五种变换排列组合得到的32张图片，(c)为灰度值处理和添加标签之后的效果图；

图5为本发明书法字体和文字内容识别结果图，其中，(a)为书法字体识别的训练集和测试集的损失函数和准确率的结果图，(b)为文字内容识别的训练集和测试集的损失函数和准确率的结果图，(c)为单个文字识别结果图。

具体实施方式

本发明提出了一种书法字体与文字内容同步识别方法，将已经进行预处理的书法字体图像集输入到训练好的基于迁移学习的卷积神经网络模型里面，然后自动对待识别的中国书法字体与文字内容进行同步识别。该卷积神经网络由7个层组成，与其他CNN不同的是，该网络结构通过具体实践，使用迁移学习技术，固定前三层网络参数，迁移识别书法字体的模型参数，来识别汉字内容，以实现中国书法字体与文字内容的同步识别，并降低构建模型的时间。通过使用多种高效机器学习技术，包括反向传播算法，基于梯度下降的Adam优化算法，SoftMax回归分类，深度迁移学习网络等技术，成功完成了基于深度迁移学习的模型的训练，以准确实现中国书法字体与文字内容的同步识别，并降低构建模型的时间。

请参阅图2，一种书法字体与文字内容同步识别方法，包括以下步骤：

S1、数据准备：网上收集楷书、草书、行书、隶书、篆书五种字体文件，筛选出真正适合文字生成的字体文件。

发明样例中，选取具有书法字体代表性的方正黄草简体草书、李旭科毛笔行书、欧阳询书法楷书、华文隶书以及汉仪篆书繁五种字体作为文字数据集字体；

数据集的初步制作：如图3a及3b所示，选取500个中国常用的文字，在word中写入这500个字，用不同的字体进行格式化，将文字放大到初号并存为PDF格式保存，利用网络工具将PDF格式转化为JPG格式，以模拟真实书法字帖文件图片；

S2、数据集分割：将字帖图片导入MATLAB，并将字体放大到300pp，采用矩阵切割方法将字帖切割成单个文字；

S3、数据增强：如图4a及4b所示，对上一步中得到的单个文字图片采用仿射变换、噪声处理、对比度变换、膨胀腐蚀以及透视变换五种方法进行随机组合得到32张图片；

下面介绍各种变换的步骤及功能：

S301、仿射变换包括旋转(线性变换)、缩放、反转、平移(向量加)、错切等，它是一种二维到二维的坐标变换，用以模拟真实手写书法字体中常见的错位、大小不一致、断笔、斜体等平面书写的干扰因素，具体操作为将单个文字图片导入MATLAB，并与相应参数的变换矩阵进行矩阵乘法、转置、正交等矩阵变换操作得到相应的二维图片。

S302、噪声处理：通过MATLAB添加高斯白噪声，泊松噪声，椒盐噪声，零均值高斯白噪声和斑点噪声。在MATLAB软件中，使用函数imnoise实现对上述五种噪声的添加，此函数有三个参数值，第一个参数是输入图片，第二个参数是对图片添加噪声的类型(即上述的五种噪声)，第三个参数是设置输出图片的大小。这些噪声可以造成基本分辨单元中物体的随机散射，是成像系统中的一个重要特征。对于图片处理而言，噪声是不利的，不仅降低了图片的质量，还严重地影响图像的分类、分割、目标检测等对主题信息定量的提取。本发明通过添加这些噪声模拟实际生活中书法作品和手写文本中不可避免的一些信息情况(如不小心洒落墨水滴等)，以增加数据集的数量，保证模型识别的可靠性。

S303、对比度变换是指通过改变图像像元的亮度值来改变图像像元的对比度，从而改善图像质量，同时模拟书法字体中连笔、轻笔等平面书写的干扰因素；本发明采用直方图均衡化方法，公式为：

其中，k为灰度级数，n为图像总像素个数，n_i为灰度级为i的像素数量，S_k为输出图像灰度值。

S304、膨胀腐蚀包括图像膨胀和图像腐蚀两类操作。本发明通过膨胀腐蚀操作模拟实际生活中书法作品和手写文本中单个书法字体粗细不均匀的情况。

图像膨胀：通过MATLAB实现图像的膨胀处理。在MATLAB软件中，使用imdilate函数来进行图像的膨胀，该函数包括输入图片和结构元素对象两个基本参数，输出图片的大小和输入图片是否为打包的二进制图像两个可选参数。其中，本发明采用结构元素领域自定义的二进制矩阵来表示结构元素对象，使单个书法字体局部变粗。

图像腐蚀：通过MATLAB实现图像的腐蚀处理。在MATLAB软件中，使用imerode函数来进行图像的腐蚀。该函数包括输入图片和结构元素对象两个基本参数，输出图片的大小、输入图片是否为打包的二进制图像和原始图像的行数三个可选参数。其中，本发明采用结构元素领域自定义的二进制矩阵来表示结构元素对象，使单个书法字体局部变细。

S305、透视变换是指将图片进行投影，投影到一个新的视平面，从二维到三维，再到二维中的变换，通过中心投影散射的方式模拟书法字体的个人独特书写风格(如起笔落笔特征等)；本发明采用opencv框架的Mat_getPerspectiveTransform函数生成变换矩阵，并采用warpPerspective函数将图片进行透视变换操作。

S4、将数据增强得到的图片进行灰度值处理并给每张图片加上对应的标签；

使用opencv框架将S3步骤中得到的数据集上传到PyCharm中，从数据集中读取图片，如图4c所示，将每张图片设置为白底黑字，根据文件夹和图片的不同，给每个图片命制一个新的形如“字体_文字内容_序号.jpg”格式的命名，用img.resize函数将图片的像素值更改为300*300，读取图片上90000个灰度值，将灰度值低于10的全部设为0(即黑色)，其他的全部设为255(即白色)。

至此，数据集预处理阶段结束。

S5、建立基于深度迁移学习的中国书法字体与文字内容同步识别模型；

如图1所示，设计的基于深度迁移学习的中国书法字体与文字内容同步识别模型共有七层结构，前四层为卷积池化层，后三层为全连接层，固定前三层卷积池化网络参数，迁移识别书法字体的模型参数，用以识别汉字内容。卷积层卷积核为2*2，步长为1，第一层有6个卷积核，第二层有36个卷积核，第三层有64个卷积核，第四层有128个卷积核；池化层窗口为2*2，步长为2；前六层采用ReLU激活函数，最后一层采用SoftMax回归分类器处理多分类问题；模型优化采用梯度下降与反向传播相结合的方法进行优化迭代处理；使用crossentropy交叉熵计算损失函数。在后面的步骤S6具体实验结果中，本发明会分析选择迁移识别书法字体前三层的特征参数以识别汉字内容的原因。模型将300*300的书法文字图片经过七层CNN结构的输入和输出操作，最终识别得到5种字体中的一种，500个文字中的一个。

下面介绍神经网络各部分的步骤及功能：

S501、卷积层：能够实现局部连接和权值共享两个功能。局部连接是指卷积层的节点仅仅和其前一层的部分节点相连接，只用来学习局部特征；权值共享是指让同一个卷积层中的卷积核内参数在卷积核移动的过程中不发生改变。这两个功能相结合有利于极大地减少卷积过程中的参数量。在卷积运算过程中，函数方程为：

f(x)＝ω·x+b (5.1)

其中，f(x)为卷积层输出值，x为输入参数，ω为权值参数，b为偏置量。权值参数ω和偏置量b由反向传播迭代自动学习得到。

S502、池化层：将卷积层得到的特征矩阵采用max pooling方法进行池化操作。该操作选取2*2的池化窗口，池化窗口不重叠，在整个特征矩阵中以步长为2的大小进行遍历，选取窗口中元素的最大值，池化后的结果通过激活函数ReLU输出，然后作为下一层计算的输入。ReLU函数定义公式为：

σ(x)＝max(0,x) (5.2)

其中，x为卷积层得到的输入映射，σ(x)为池化层输出值。

经过一层池化操作，特征参数量减半，模型的复杂度得以降低。

经过前四层卷积池化操作，将特征向量分别展平，转入对应的全连接层。

S503、全连接层：将经过四层卷积池化操作得到的特征向量分别输入到对应的识别书法字体或文字内容的全连接层进行全连接操作。全连接公式为：

其中x_i为输入向量值，ω_ji为输入到输出的全连接参数，b_j为输出对应的偏置项，y_j为全连接输出值。

将全连接输入层向量与各层对应的各种输出类型进行全连接操作，其中全连接参数和偏置项由神经网络学习得到，三层全连接层之间采用ReLU函数激活。

S504、SoftMax回归分类：将前六层神经网络得到结果分别导入最后分类层进行分类判断操作，经过SoftMax回归处理的概率输出，概率分布P为：

其中，X为输入向量，由前一层的全连接输出值得到，ω_j为迭代训练的模型参数，

为概率分布归一化系数，j为输出类型。

参照图1神经网络模型，将每一个待分类数据样本分别导入SoftMax回归分类，得到书法字体和文字内容识别结果的概率分布。

S505、迭代优化方法：本发明模型在卷积层和全连接层采用梯度下降与反向传播相结合的方法进行优化迭代处理。在卷积神经网络的训练中，为使预测值和实际值的差距尽可能小，使用交叉熵计算损失函数，通过不断的梯度下降调整网络参数来使得损失函数的值最小。

损失函数f(ω)为：

其中，p代表预测值的概率分布，由上一步概率公式得到，Q代表目标值的概率分布，p_j为P的子项，q_j为Q的子项。

本发明采用Adam优化方法，优化公式为：

其中，t为迭代索引，ω为待优化参数，f(ω)为损失函数，α为初始学习率，初值置为0.01，g_t为损失函数关于当前参数的梯度，m_t为一阶动量，β₁为一阶动量参数，默认值为0.9，V_t为二阶动量，β₂为二阶动量参数，默认值为0.999，η_t为当前时刻的下降梯度。

在卷积神经网络正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，若在输出层无法得到期望的输出值时，取交叉熵函数作为损失函数，转入反向传播，继而求出损失函数对各神经元权值的偏导数，结合梯度下降算法构造目标函数对权值向量的梯度，以此作为修改权值的依据，迭代降低梯度使神经网络的学习在权值修改过程中完成，最后误差达到所期望值时，使损失函数得到一个符合要求的最小结果。

S6、将数据集500文字*5种字体*每种字体的每个文字32张图片，共计80000张图片，按照3：1的比例划分训练集和测试集，得到训练集图片60000张，测试集图片20000张，将训练集输入步骤S5建立的书法字体与文字内容同步识别模型中；对训练集进行训练，采用python自带的系统函数记录模型识别时间，训练数据集并记录损失函数和准确率，当训练集识别结果达到一个稳定并较好的情况时，模型训练完成，将测试集图片乱序导入进行识别，比较识别结果与实际标签，进行性能测试和评估。

本发明再一个实施例中，提供一种书法字体与文字内容同步识别系统，该系统能够用于实现上述书法字体与文字内容同步识别方法，具体的，该书法字体与文字内容同步识别系统包括数据模块、分割模块、组合模块、标签模块、模型模块以及识别模块。

其中，数据模块，收集K种字体文件，选取N个常用文字并写入word中，用不同的字体进行格式化，放大另存为PDF格式保存，再将PDF格式转化为JPG格式，制作成数据集；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于书法字体与文字内容同步识别方法的操作，包括：

收集K种字体文件，选取N个常用文字并写入word中，用不同的字体进行格式化，放大另存为PDF格式保存，再将PDF格式转化为JPG格式，制作成数据集；将数据集中的字体放大并切割成单个文字，实现对数据集的分割；采用仿射变换、噪声处理、对比度变换、膨胀腐蚀以及透视变换方法对单个文字图片进行随机组合得到32张图片；将32张图片进行灰度值处理，并给每张图片加上对应的标签；建立基于深度迁移学习的书法字体与文字内容同步识别模型；将选取的N个文字乘以K种不同的字体，再乘以32张图片得到M张图片，将M张图片按照3：1的比例划分成训练集和测试集，将训练集输入建立的书法字体与文字内容同步识别模型中；对训练集进行训练，记录模型识别时间、记录损失函数和准确率，查看卷积神经网络学习效果；得出训练结果，将测试集的图片乱序导入训练集进行识别，比较识别结果与实际标签，完成书法字体与文字内容同步识别。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关书法字体与文字内容同步识别方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图5，由图5(a)书法字体识别的训练集和测试集的损失函数和准确率的结果图和图5(b)文字内容识别的训练集和测试集的损失函数和准确率的结果图显示，书法字体识别和文字内容识别的训练集的准确率都达到了100％，但是书法字体测试集的识别准确率有91.06％，文字内容测试集的识别准确率只有86.00％，究其原因，首先是从数据集的数量上来说，书法字体的数量有500*32种，而每种字体的每个字的数量只有32种；其次是书法字体的输出只有5种，文字内容输出有500种，这样的话，字体的识别准确率明显要高于文字内容的识别准确率。

表1是采用不使用迁移学习的经典LeNet-5模型和本发明采用的固定不同层数的迁移学习模型对书法字体和文字内容识别的准确率和所用时间(以下的时间都没有计算读取图片的时间)的汇总：

表1迁移不同层数网络识别结果汇总

	书法字体识别	文字内容识别
			基于LeNet-5模型	92.11％ 3.93h(14140s)	85.60％ 3.72h(13400s)
固定一层卷积的迁移学习	91.77％ 3.09h(11140s)	86.40％ 3.06h(11020s)
			固定两层卷积的迁移学习	92.29％ 2.82h(10180s)	86.63％ 2.78h(10020)
固定三层卷积的迁移学习	91.06％ 2.50h(9000s)	86.00％ 2.46h(8840s)

实验条件：windows 10(64位)操作系统，PyTorch框架，python3.7.3，cuda10.0；

实验机器主要配置：i7-8750H六核CPU(主频2.2GHz)，NVIDIA GeForce RTX2060GPU(显存6G)，8GB内存，512GB固态硬盘。

通过对比实验结果，可以从中看出，在应用了迁移学习(固定三层卷积)之后，准确率并没有太大的变化，其中，书法字体的识别准确率下降了1.05个百分点，而文字内容的识别准确率上升了0.4个百分点。另一方面，统计这四种方法建模所需要的时间，其中读取80000张图片需要的时间约为3.5h(12740s)，基于LeNet-5模型的书法字体识别建模需要的时间是3.93h(14140s)，文字内容识别建模需要的时间是3.72h(13400s)，基于迁移学习的书法字体识别建模需要的时间是2.50h(9000s)，文字内容识别建模需要的时间是2.46h(8840s)，以上的四种时间都是除去了读取图片的时间。可以清楚的知道，读取图片的时间占据了一半甚至高达60％，这是因为在读取图片的时候，在实验的设备上，使用的是CPU进行读取，比较慢，而在建模，跑网络结构的时候，使用的是GPU，从这方面来看，很明显前者要慢很多，这也是现在迁移学习越来越受重视的原因之一。从另一个角度来分析，利用迁移学习来识别文字内容，除了必要的读取图片的时间之外，需要的建模的时间则会少很多，在本发明中减少了(13400-8840)/13440＝33.92％的时间，同样的字体识别的时间减少了(14140-9000)/14140＝36.35％。

综上所述，本发明一种书法字体与文字内容同步识别方法及系统，可以实现较大规模的中国书法字体和文字内容的同时识别，与传统书法字体识别技术相比，该技术可以在数据集不充足且数据质量无法保证的情况下依然保证较高的识别精读，识别局限性小，采用深度迁移学习和卷积神经网络相结合的方法，使建模所需时间大大降低。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种书法字体与文字内容同步识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S3中，仿射变换具体为：通过MATLAB对文字图片进行旋转、缩放、反转、平移和错切变换。

3.根据权利要求1所述的方法，其特征在于，步骤S3中，噪声处理具体为：通过MATLAB添加高斯白噪声，泊松噪声，椒盐噪声，零均值高斯白噪声和斑点噪声。

4.根据权利要求1所述的方法，其特征在于，步骤S3中，对比度变换具体为：采用直方图均衡化方法对图像进行对比度变换，输出图像灰度值S_k为：

5.根据权利要求1所述的方法，其特征在于，步骤S3中，膨胀腐蚀操作包括图像膨胀和图像腐蚀两类；通过MATLAB使用imdilate函数进行图像膨胀操作，采用结构元素领域自定义的二进制矩阵表示结构元素对象，使单个书法字体局部变粗；通过MATLAB使用imerode函数进行图像的腐蚀操作，采用结构元素领域自定义的二进制矩阵来表示结构元素对象，使单个书法字体局部变细。

6.根据权利要求1所述的方法，其特征在于，步骤S3中，透视变换方法具体为：采用opencv框架的Mat_getPerspectiveTransform函数生成透视变换矩阵，采用warpPerspective函数将图片进行透视变换操作。

7.根据权利要求1所述的方法，其特征在于，步骤S4中，使用opencv框架将得到的数据集上传到PyCharm中，然后从数据集中读取图片，将每张图片设置为白底黑字，根据文件夹和图片的不同，给每个图片命名，用img.resize函数将图片的像素值变为300*300，读取图片上90000个灰度值，将灰度值低于10的全部设为0，作为黑色，其他的全部设为255，作为白色。

8.根据权利要求1所述的方法，其特征在于，步骤S5中，设计的基于深度迁移学习的书法字体与文字内容同步识别模型共有七层结构，前四层为卷积池化层，后三层为全连接层，固定前三层卷积池化网络参数，迁移识别书法字体的模型参数，用以识别汉字内容；卷积层卷积核为2*2，步长为1，第一层有6个卷积核，第二层有36个卷积核，第三层有64个卷积核，第四层有128个卷积核；池化层窗口为2*2，步长为2；前六层采用ReLU激活函数，最后一层采用SoftMax回归分类器处理多分类问题；模型优化采用梯度下降与反向传播相结合的方法进行优化迭代处理；使用crossentropy交叉熵计算损失函数。

9.根据权利要求8所述的方法，其特征在于，卷积层在卷积运算过程中的函数方程f(x)为：

f(x)＝ω·x+b

ReLU激活函数为：

σ(x)＝max(0,x)

其中，x为卷积层得到的输入映射，σ(x)为池化层输出值；

全连接层的全连接输出值y_j为：

其中，X为输入向量，ω_j为迭代训练的模型参数，

为概率分布归一化系数，j为输出类型；

损失函数f(ω)为：

模型优化为：

10.一种书法字体与文字内容同步识别系统，其特征在于，包括：