CN111104912B

CN111104912B - 一种书法字体类型与文字内容同步识别方法

Info

Publication number: CN111104912B
Application number: CN201911334050.2A
Authority: CN
Inventors: 王俊平; 张亚琼; 方永强
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-11-23
Anticipated expiration: 2039-12-23
Also published as: CN111104912A

Abstract

本发明公开了一种书法字体类型与文字内容同步识别方法，属于图像处理技术领域，更进一步涉及图像文字识别技术领域中的一种书法字体类型与文字内容同步识别方法。首先生成训练集，然后构建一个7层的深度卷积神经网络，分别以字体和文字内容为标签，训练得到字体类型识别网络和文字内容识别网络，最后将字体类型识别网络与文字识别网络组成字体类型与文字内容同步识别网络，用于对单个书法字图像的字体类型和文字内容进行同步识别。本发明利用深度迁移学习技术，提高了网络的训练和识别效率，利用在线数据增强技术，提高了识别的鲁棒性。在书法教学，书法评价等场景下具有广阔的应用前景。

Description

一种书法字体类型与文字内容同步识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像文字识别技术领域中的一种书法字体类型与文字内容同步识别方法。本发明用于对单个书法字图像的字体类型以及文字内容进行同步识别，可应用在智能书法教学、书法评价等场景。

背景技术

中国书法文字众多，不同字体特点鲜明。从书法字识别的类型来划分，主要分为字体风格识别和文字内容识别两大类。然而，在很多场景下，需要同时识别出单个书法字图像的字体风格以及文字内容。单个书法字图像的字体风格与文字内容同步识别，就是对一张含有单个书法字符的图像，同时识别出其对应的书法字体风格与文字内容(“隶书-安”、“行书-备”、“篆书-和”等)。例如，进行智能书法评价时，需要同时以字体风格和文字内容检索出标准字，进而进行对比评价；进行智能书法教学时，需要同时展示书法字的字体风格以及文字内容。因此，书法字体风格与文字内容的同步识别具有很大的现实意义。

上海海事大学在其申请的专利文献“一种书法字风格的识别方法”(专利申请号：CN201510626566.X，公开号：CN105117741A)中提出了一种单个书法字图像的字体类型识别方法。该方法首先构造单个书法字图像训练样本，对训练样本进行字体类型标注，计算每种字体类型的特征值，然后计算待识别书法字的字体类型特征值，根据字体类型特征值计算待识别书法字属于书法字训练样本中每一种字体类型的条件概率，根据条件概率的大小判断待识别书法字的字体类型。该发明采用特征值对书法字的字体类型进行量化表达，使原先在艺术领域中主观的书法字字体类型变成客观的、可自动分类的。但是，该方法仍然存在的不足之处是：该方法对书法字角度(要求垂直正放)以及书法字颜色(要求白底黑字)有要求；只能对单个书法字图像的字体风格进行识别。

浙江大学在其申请的专利文献“书法字识别方法”(专利申请号：CN201310020510.0，公开号：CN103093240A)中提出了一种单个书法字图像的文字内容识别方法。该方法首先搜集单个书法字图像，人工标注单个书法字图像对应的汉字语义，对单个书法字图像进行二值化、去噪和归一化处理后提取单个书法字图像中书法字的特征信息，存入特征数据库，特征信息包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、投影值、轮廓点，之后对待识别的单个书法字图像也进行处理，提取待识别书法字的特征信息，初步筛选后，再进行形状匹配比较，筛选出特征数据库里与待识别书法字形状相似的书法字，最后进行权重计算、合并汉字语义相同书法字图像，给出识别结果。该发明计算量小，能够在较短时间内给准确的识别结果；对用户所提供的待识别书法字图像没有具体要求。但是，该方法仍然存在的不足之处是：识别过程繁琐，且识别准确率和效率都相对较低；只能对单个书法字图像的文字内容进行识别。

发明内容

本发明针对上述现有技术的不足之处，提出了一种书法字体类型与文字内容同步识别方法，用于对单个书法字图像的字体类型以及文字内容进行同步识别。

实现本发明的具体步骤如下：

(1)生成训练集：

(1a)选取单个书法字图像至少2500张，其中，5种字体类型各选500张，每张为一个常用汉字；

(1b)将图像尺寸重置为103×103像素；

(1c)标注每张图像对应的字体类型和文字内容；

(1d)将标注后的2500张图像组成训练集；

(2)构建深度卷积神经网络：

(2a)搭建一个7层的深度卷积神经网络，其结构依次为：输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→全连接层→输出层；

(2b)将输入层尺寸设置为103×103，将第一卷积层、第二卷积层的卷积核的大小分别设置为11×11、5×5，通道数分别设置为64、128，步长均设置为2，均采用不补零valid方式，均采用ReLU激活函数，将第一最大池化层、第二最大池化层的窗口大小分别设置为11×11、3×3，通道数分别设置为64、128，步长分别设置为2、1，将全连接层神经元个数设置为256，采用ReLU激活函数；

(2c)用于字体类型识别时，将深度卷积神经网络的输出层神经元个数设置为5，用于文字内容识别时，设置为500，均采用softmax激活函数；

(3)训练深度卷积神经网络：

(3a)选用交叉熵损失函数作为深度卷积神经网络的目标函数，动量因子设置为0.9，学习率设置为0.001；

(3b)将训练集按照每32张图像为1个批次进行划分，将每个批次的图像依次输入到深度卷积神经网络中，以每张图像对应的字体类型为标签，对输入的每个批次的图像进行在线数据增强后，使用带动量的随机梯度下降算法对深度卷积神经网络进行迭代训练，直至目标函数函数小于0.001时，得到训练好的用于字体类型识别的深度卷积神经网络；

(3c)将训练集按照字体类型划分为5个训练子集，将每个训练子集按照每32张图像为1个批次进行划分，分别将5个训练子集每个批次的图像依次输入到训练好的用于字体类型识别的深度卷积神经网络中，均以每张图像对应的文字内容为标签，对输入的每个批次的图像进行在线数据增强后，利用深度迁移学习技术，固定输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层的网络权重，使用带动量的随机梯度下降算法对深度卷积神经网络中的全连接层、输出层网络权重进行迭代训练，直至目标函数函数小于0.001时终止训练，得到5个训练好的用于文字内容识别的深度卷积神经网络；

(4)构建字体类型与文字内容同步识别网络：

将训练好的用于字体类型识别的深度卷积神经网络的第1至5层组成公共模块，将训练好的用于字体类型识别的深度卷积神经网络的第6至7层作为第1分支模块，将5个训练好的用于文字识别的深度卷积神经网络的第6至7层分别作为第2至6分支模块；将第1至6分支模块并联后再与公共模块进行串联，得到字体类型与文字内容同步识别网络；

(5)生成字体类型与文字内容同步识别向量：

(5a)将待识别的一张单个书法字图像输入到字体类型与文字内容同步识别网络中，经过公共模块输出128张17×17的特征图像；

(5b)将128张特征图像分别输入到6个分支模块，第1分支模块输出1个字体类型识别向量，第2至6分支模块每个分支模块输出1个文字内容识别向量，得到5个不同字体类型的文字识别向量；

(5c)将字体类型识别向量的字体类型概率分别与每个不同字体类型的文字识别向量相乘，将得到的5个字体类型与文字内容同步识别子向量拼接组成字体类型与文字内容同步识别向量；

(6)同步识别字体类型与文字内容：

(6a)将字体类型识别向量每个维度对应的字体类型依次进行编号后得到字体类型序列，将文字内容识别向量每个维度对应的文字内容依次进行编号后得到文字内容序列；

(6b)用字体类型与文字内容同步识别向量中最大值的维度索引除以500，将得到的商数作为字体类型索引，余数作为文字内容索引。

本发明与现有技术相比具有以下优点：

第一，由于本发明构建了一种书法字字体类型与文字内容同步识别网络，将用于字体类型识别的深度卷积神经网络和用于文字内容识别的深度卷积神经网络进行了组合，克服了现有技术只能单一的识别书法字字体类型或者文字内容的问题，使得本发明具有更广泛的应用场景。

第二，由于本发明深度卷积神经网络在训练时采用自学习方式，且同步识别单个书法字图像字体类型和文字内容的过程是端到端的，克服了现有技术需要二值化、去噪、归一化、特征提取、形状匹配等多个步骤导致的识别准确率低、处理过程繁琐的问题，使得本发明具有准确率高、使用简单的优点。

第三，由于本发明在训练深度卷积神经网络时采用了在线数据增强技术，克服了现有技术要求书法字垂直正放以及要求书法字是白底黑字的问题，使得本发明具有鲁棒性强的优点。

第四，由于本发明在训练文字内容识别网络时采用了深度迁移学习技术，克服了现有技术采用多个网络时识别效率低的问题，使用公共模块节省了计算时间，提高了训练效率和识别效率，使得本发明具有实时性强的优点。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图1对本发明做进一步的描述。

步骤1，生成训练集。

选取单个书法字图像至少2500张，其中，5种字体类型各选500张，每张为一个常用汉字。

将图像尺寸重置为103×103像素。

标注每张图像对应的字体类型和文字内容。

将标注后的2500张图像组成训练集。

步骤2，构建深度卷积神经网络。

搭建一个7层的深度卷积神经网络，其结构依次为：输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→全连接层→输出层。

将输入层尺寸设置为103×103，将第一卷积层、第二卷积层的卷积核的大小分别设置为11×11、5×5，通道数分别设置为64、128，步长均设置为2，均采用不补零valid方式，均采用ReLU激活函数，将第一最大池化层、第二最大池化层的窗口大小分别设置为11×11、3×3，通道数分别设置为64、128，步长分别设置为2、1，将全连接层神经元个数设置为256，采用ReLU激活函数。

用于字体类型识别时，将深度卷积神经网络的输出层神经元个数设置为5，用于文字内容识别时，设置为500，均采用softmax激活函数。

步骤3，训练深度卷积神经网络。

选用交叉熵损失函数作为深度卷积神经网络的目标函数，动量因子设置为0.9，学习率设置为0.001。

将训练集按照每32张图像为1个批次进行划分，将每个批次的图像依次输入到深度卷积神经网络中，以每张图像对应的字体类型为标签，对输入的每个批次的图像进行在线数据增强后，使用带动量的随机梯度下降算法对深度卷积神经网络进行迭代训练，直至目标函数函数小于0.001时，得到训练好的用于字体类型识别的深度卷积神经网络。

所述的在线数据增强是指在网络训练过程中，当获得每一个批次的图像数据以后，从以下4种数据增强方式中随机选取一种进行数据增强。

第一种，对所获得批次的图像数据进行取反变换，得到取反变换后的在线数据增强图像。

第二种，对所获得批次的图像数据进行膨胀、腐蚀变换，得到膨胀、腐蚀变换后的在线数据增强图像。

第三种，对所获得批次的图像数据进行透视变换，得到透视变换后的在线数据增强图像。

第四种，在所获得批次的图像中添加椒盐噪声，设置膨胀、腐蚀运算的结构元素为菱形，将添加了椒盐噪声的图像先膨胀m个像素得到膨胀运算后的图像，再将膨胀运算后的图像腐蚀n个像素，n<m，得到添加了斑点噪声的在线数据增强图像。

将训练集按照字体类型划分为5个训练子集，将每个训练子集按照每32张图像为1个批次进行划分，分别将5个训练子集每个批次的图像依次输入到训练好的用于字体类型识别的深度卷积神经网络中，均以每张图像对应的文字内容为标签，对输入的每个批次的图像进行在线数据增强后，利用深度迁移学习技术，固定输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层的网络权重，使用带动量的随机梯度下降算法对深度卷积神经网络中的全连接层、输出层网络权重进行迭代训练，直至目标函数函数小于0.001时终止训练，得到5个训练好的用于文字内容识别的深度卷积神经网络。

步骤4，构建字体类型与文字内容同步识别网络。

将训练好的用于字体类型识别的深度卷积神经网络的第1至5层组成公共模块，将训练好的用于字体类型识别的深度卷积神经网络的第6至7层作为第1分支模块，将5个训练好的用于文字识别的深度卷积神经网络的第6至7层分别作为第2至6分支模块；将第1至6分支模块并联后再与公共模块进行串联，得到字体类型与文字内容同步识别网络。

步骤5，生成字体类型与文字内容同步识别向量。

将待识别的一张单个书法字图像输入到字体类型与文字内容同步识别网络中，经过公共模块输出128张17×17的特征图像。

将128张特征图像分别输入到6个分支模块，第1分支模块输出1个字体类型识别向量，第2至6分支模块每个分支模块输出1个文字内容识别向量，得到5个不同字体类型的文字识别向量。

将字体类型识别向量的字体类型概率分别与每个不同字体类型的文字识别向量相乘，将得到的5个字体类型与文字内容同步识别子向量拼接组成字体类型与文字内容同步识别向量。

所述的字体类型识别向量的字体类型概率是指字体类型识别向量中，每一维数据代表识别为对应字体类型的概率。

步骤6，同步识别字体类型与文字内容。

将字体类型识别向量每个维度对应的字体类型依次进行编号后得到字体类型序列，将文字内容识别向量每个维度对应的文字内容依次进行编号后得到文字内容序列。

用字体类型与文字内容同步识别向量中最大值的维度索引除以500，将得到的商数作为字体类型索引，余数作为文字内容索引。

下面结合实施例对本发明做进一步的描述。

步骤A，生成训练集。

搜集字库文件：通过在互联网上搜集并下载、安装楷书、行书、草书、隶书、篆书等5种字体的“.ttf”字库文件。

生成书法文字：针对每种字体，利用“word”文档编辑器编辑得到5种字体各500个常用汉字字符，共计5×500＝2500个字符，并保存为“pdf”文件。将得到的“pdf”文件通过在线转换工具转换为“jpg”文件

图片分割、灰度化、尺寸重置：通过Matlab图像处理工具箱对“jpg”图片进行分割并转化为灰度图像，再将灰度图像尺寸重置为103×103像素的图像，每个图像对应一个文件，即2500个图像文件。

图像标注并生成训练集：对每个图像文件按照“字体类型-文字内容”进行标注，例如“楷-王”、“草-张”、“隶-安”，将标注后的2500个图像文件构成训练集。

步骤B，构建深度卷积神经网络。

利用Matlab2015a深度学习工具箱搭建一个7层的深度卷积神经网络，其结构依次为：输入层→第一卷积层→第一最大池化层→第二卷积层→第二最大池化层→全连接层→输出层，将输入层尺寸设置为103×103，将第一卷积层、第二卷积层的卷积核的大小分别设置为11×11、5×5，通道数分别设置为64、128，步长均设置为2，均采用不补零valid方式，均采用ReLU激活函数，将第一最大池化层、第二最大池化层的窗口大小分别设置为11×11、3×3，通道数分别设置为64、128，步长分别设置为2、1，将全连接层神经元个数设置为256，采用ReLU激活函数，用于字体类型识别时，将深度卷积神经网络的输出层神经元个数设置为5，用于文字内容识别时，设置为500，均采用softmax激活函数。

步骤C，训练用于字体类型识别的深度卷积神经网络。

设置训练参数：设置目标函数为交叉熵损失函数，设置训练方法为为带动量的损及梯度法(SGDM)，动量因子设置为0.9，学习率(LearnRate)设置为0.001，批次大小(BatchSize)设置为32，迭代数(Epoch)设置为10。

对网络进行训练：以每张图像对应的字体类型为标签。对于每张输入的图像，每次随机采用以下4种方式之一进行在线数据增强：

第一种为取反变换，用

公式对图像中每个像素的灰度值i进行变换，得到变换后的像素灰度值

第二种为膨胀腐蚀变换，选用菱形核，每次随机对图像中的每个像素膨胀或腐蚀1至3个像素。

第三种为透视变换，用

对像素原坐标x,y进行变换，得到变换后的像素坐标

第四种为添加随机斑点噪声，首先按照0.2至0.4的概率随机产生椒盐噪声，然后进行膨胀运算，再进行腐蚀运算，要求膨胀运算核半径大于腐蚀运算核半径。

训练完成后，得到训练好的用于字体类型识别的深度卷积神经网络。

步骤D，训练用于文字内容识别的深度卷积神经网络。

设置训练参数：设置目标函数为交叉熵损失函数，设置训练方法为带动量的损及梯度法(SGDM)，动量因子设置为0.9，学习率(LearnRate)设置为0.001，批次大小(BatchSize)设置为32，迭代数(Epoch)设置为5。

网络训练：将训练集按照字体类型划分为5个训练子集，将训练好的用于字体类型识别的深度卷积神经网络复制5份，然后以每张图像对应的文字内容为标签，分别将5个训练子集输入到5个训练好的用于字体类型识别的深度卷积神经网络中，对输入的每张图像按照与步骤3同样的在线数据增强方式，固定每个网络的输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层的网络权重，对深度卷积神经网络中的全连接层、输出层网络权重进行迭代训练，得到5个训练好的用于文字内容识别的深度卷积神经网络。

步骤E，构建字体类型与文字内容同步识别网络。

步骤F，构建测试集。

在互联网上搜集印刷体书法字测试集和手写体书法字测试集，分别包括2541张单个印刷体书法字图像和3246张单个手写体书法字图。

步骤G，利用测试集进行测试。

将两个测试集中的每一张单个书法字图像输入到字体类型与文字内容同步识别网络中，经过公共模块输出128张17×17的特征图像，将128张特征图像输入到分支模块，分支模块的第1分支输出1个字体类型识别向量，第2至6分支每个分支输出1个文字内容识别向量，得到5个不同字体类型的文字识别向量，将字体类型识别向量的字体类型概率分别与每个不同字体类型的文字识别向量相乘，将得到的5个字体类型与文字内容同步识别子向量拼接组成字体类型与文字内容同步识别向量。。

将字体类型识别向量每个维度对应的字体类型依次进行编号后得到字体类型序列，将文字内容识别向量每个维度对应的文字内容依次进行编号后得到文字内容序列，用字体类型与文字内容同步识别向量中最大值的维度索引除以500，将得到的商数作为字体类型索引，余数作为文字内容索引，按照字体类型索引和文字内容索引输出字体类型与文字内容同步识别结果。

最后分别统计两个数据集上的识别准确率，包括仅字体类型识别正确所占的百分比，仅文字内容识别正确所占的百分比，字体类型和文字内容均识别正确所占的百分比3项数据。

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Intel Core(TM)i7-6700@3.40GHZ×8，GPUNVIDIA GeForce GTX 1060,6GB内存。

本发明的仿真实验的软件平台为：Windows 10操作系统和Matlab R2015a。

本发明用到的图像数据集包括：印刷体测试集和手写体测试集，其中印刷体测试集由2541张单个印刷体书法字图像组成，手写体测试集由3246张单个手写体书法字图像组成，所有图像涵盖了楷书、行书、草书、隶书、篆书5种字体，均属于训练集所用到的500个常用汉字之一。

2.仿真内容和结果：

本发明的仿真实验是，利用本发明的方法构建字体类型与文字内容同步识别网络，分别将印刷体测试集和手写体测试集中的每张单个书法字图像输入到字体类型与文字内容同步识别网络中，得到字体类型与文字内容同步识别结果，按照公式

计算对两个数据集进行仿真后得到的识别结果的准确率，其中N为数据集书法字图像总数，m为识别正确的书法字图像个数，分别统计仅字体类型识别的准确率，仅文字内容识别的准确率，字体类型和文字内容同步识别的准确率。结果如表1所示。

表1，字体类型与文字内容识别准确率结果

	文字内容识别	字体类型识别	字体类型与文字内容同步识别
				印刷体测试集	98.66％	99.37％	98.15％
手写体测试集	95.87％	96.18％	94.89％

对照表1第4列的结果，本发明可同步识别单个书法字图像的书法字体类型和文字内容，在印刷体测试集和手写体测试集上的识别准确率分别为98.15％、94.89％，因此可用于手写体和印刷体的单个书法字图像的书法字体类型和文字内容同步识别。对照表1第2和第3列的结果，我们的方法应用在文字内容分识别或字体类型识别时，在手写体测试集上识别准确率分别为98.66％、99.37％，在手写体测试集上识别准确率分别为95.87％、96.18％，因此也可用于传统的单个书法字图像的文字内容识别和字体类型识别任务。

Claims

1.一种书法字体类型与文字内容同步识别方法，其特征在于，构建深度卷积神经网络，利用在线数据增强技术、深度迁移学习技术构建字体类型与文字内容同步识别网络，同步识别字体类型与文字内容，该方法包括以下步骤：

(1)生成训练集：

(1b)将图像尺寸重置为103×103像素；

(1c)标注每张图像对应的字体类型和文字内容；

(1d)将标注后的2500张图像组成训练集；

(2)构建深度卷积神经网络：

(3)训练深度卷积神经网络：

(3b)将训练集按照每32张图像为1个批次进行划分，将每个批次的图像依次输入到深度卷积神经网络中，以每张图像对应的字体类型为标签，对输入的每个批次的图像进行在线数据增强后，使用带动量的随机梯度下降算法对深度卷积神经网络进行迭代训练，直至目标函数小于0.001时，得到训练好的用于字体类型识别的深度卷积神经网络；

(3c)将训练集按照字体类型划分为5个训练子集，将每个训练子集按照每32张图像为1个批次进行划分，分别将5个训练子集每个批次的图像依次输入到训练好的用于字体类型识别的深度卷积神经网络中，均以每张图像对应的文字内容为标签，对输入的每个批次的图像进行在线数据增强后，利用深度迁移学习技术，固定输入层、第一卷积层、第一最大池化层、第二卷积层、第二最大池化层的网络权重，使用带动量的随机梯度下降算法对深度卷积神经网络中的全连接层、输出层网络权重进行迭代训练，直至目标函数小于0.001时终止训练，得到5个训练好的用于文字内容识别的深度卷积神经网络；

(4)构建字体类型与文字内容同步识别网络：

(5)生成字体类型与文字内容同步识别向量：

(6)同步识别字体类型与文字内容：

2.根据权利要求1所述的一种书法字体类型与文字内容同步识别方法，步骤(3b)、步骤(3c)中所述的在线数据增强是指在网络训练过程中，当获得每一个批次的图像数据以后，从以下4种数据增强方式中随机选取一种进行数据增强：

第一种，对所获得批次的图像数据进行取反变换，得到取反变换后的在线数据增强图像；

第二种，对所获得批次的图像数据进行膨胀、腐蚀变换，得到膨胀、腐蚀变换后的在线数据增强图像；

第三种，对所获得批次的图像数据进行透视变换，得到透视变换后的在线数据增强图像；

3.根据权利要求1所述的一种书法字体类型与文字内容同步识别方法，步骤(5c)中所述的字体类型识别向量的字体类型概率是指字体类型识别向量中，每一维数据代表识别为对应字体类型的概率。