CN116416628A

CN116416628A - 基于手写字体识别的方法及识别系统

Info

Publication number: CN116416628A
Application number: CN202310658892.3A
Authority: CN
Inventors: 徐丹; 白世亮
Original assignee: Guangzhou Hongtu Digital Technology Co ltd
Current assignee: Guangzhou Hongtu Digital Technology Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-11

Abstract

本发明涉及文字识别技术领域，具体涉及一种基于手写字体识别的方法及识别系统，包括，步骤S1，文字采集模块采集不同的手写字体图像；步骤S2，数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块；步骤S3，数据预处理模块将各所述转换后图像和各所述掩码图输送至模型训练模块；步骤S4，所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型；步骤S5，批量生成数据模块进行批量数据生成处理以生成风格迁移后的目标图像数据，完成手写字体识别。克服现有技术中在对离线手写字体识别时无法对文字图像进行风格迁移处理时保留目标图像颜色导致针对文字识别精度低。

Description

基于手写字体识别的方法及识别系统

技术领域

本发明设计文字识别技术领域，具体涉及一种基于手写字体识别的方法及识别系统。

背景技术

手写字体识别可分为在线识别和离线识别，在线字体识别是指在通过触摸屏等输入设备手写字体过程中，计算机根据书写字体的笔画走向、笔画顺序、书写速度等多种信息进行识别，由于信息量多且具有连续性，因此识别难度较小，识别准确率也较高。离线字体识别提供的信息量少，仅仅通过识别一个字体的二维图像来提取字体特征，所以识别难度较大，识别准确率也较低。

目前，基于深度学习的计算机视觉技术不断发展，大量研究采用基于深度学习的方法来识别手写文字，但是，深度学习算法需要大量手写文字数据训练网络。数据集图像的数量和数据集的针对性往往决定了检测网络的准确度和泛化能力。但是，由于图像识别文字的情况千变万化，对于图像的清晰度，图像内文字的风格、颜色、部分缺失等情况。

图像风格迁移技术，就是通过将风格图像和目标图像中的风格和内容进行分离，将风格图像中的风格与目标图像的内容进行重新组合，从而生成一张具有风格图像风格的目标图像。现有的风格迁移网络主要分为两个部分，一是基于卷积神经网络的风格迁移，核心运用到VGG19网络；二是基于对抗神经网络的风格迁移。前者具有迁移稳定，效果好的优点，迁移速度慢的缺点，后者具有迁移速度快的优点，缺点是无法处理图像形状发生改变的情况。

基于上述，提出一种基于手写字体识别的方法及识别系统。

发明内容

为此，本发明提供一种基于手写字体识别的方法及识别系统，用以克服现有技术中在对离线手写字体识别时无法对文字图像进行风格迁移处理时保留目标图像颜色导致针对文字识别精度低的问题。

一方面，本发明提供一种基于手写字体识别的方法，包括：

步骤S1，文字采集模块采集不同的手写字体图像并输送至数据准备模块；

步骤S2，所述数据准备模块将用以迁移风格的手写字体图像记为目标图像，数据准备模块选取字体库图像，将其记为风格图像并将该风格图像的风格作为目标图像风格迁移后的风格标准；所述数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块；

步骤S3，所述数据预处理模块对所述风格图像进行裁切处理以使风格图像的尺寸与所述目标图像尺寸相同，数据预处理模块在完成对风格图像的裁切后依次制作针对风格图像和目标图像的掩码图并对各图像进行颜色格式转换处理；所述数据预处理模块将各转换后图像和各所述掩码图输送至模型训练模块；

步骤S4，所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型输送至批量生成数据模块；

步骤S5，所述批量生成数据模块在接收到所述最优参数模型后进行批量数据生成处理以生成风格迁移后的目标图像数据，完成手写字体识别。

进一步地，在所述步骤S3中，所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括：

步骤S31，所述数据预处理模块采用Opencv+Python程序对所述风格图像进行随机裁剪以使裁剪后的风格图像的尺寸与所述目标图像的尺寸相同；

步骤S32，所述数据预处理模块采用labelme软件对所述目标图像中字体区域的图像信息进行割离以完成对目标掩码图的制作，数据预处理模块采集所述风格图像中的风格特征并隔离风格图像中的非风格特征以完成对风格掩码图的制作，数据预处理模块用语义描述字体区域以使目标掩码图和风格掩码图在同一编码的区域进行风格迁移；

步骤S33，所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式；所述数据预处理模块在所述模型训练模块完成针对各所述掩码图和各所述转换后图像的模型训练后将目标图像的YUV颜色格式转化为RGB颜色格式并以RGB颜色格式保存目标图像。

进一步地，在所述步骤S33中，所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定，其中，

当所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式时，该目标图像中的YUV值的计算方式如下：

Y=0.299×R+0.587×G+0.114×B；

U=-0.169×R-0.331×G+0.5×B；

V=0.5×R-0.419×G-0.081×B；

当所述数据预处理模块将所述目标图像的YUV颜色格式转化成RGB颜色格式时，该目标图像中的RGB值的计算方式如下：

R=(Y-16)+1.140×(V-128)；

G=(Y-16)-0.394×(U-128)-0.581×(V-128)；

B=(Y-16)+2.032×(U-128)。

进一步地，在所述步骤S4中，所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移，包括以下步骤：

步骤S41，设置使用模型的层数，对于所述目标图像，所述模型训练模块选择网络浅层参数，使用第一层参数和第二层参数提取目标掩码图的特征且其各层参数的权重均为0.5；对于所述风格图像，所述模型训练模块选择网络深层参数来提取风格特征，层数配置前五层参数且各层权重按照顺序依次为0.1、0.1、0.2、0.3和0.3；

步骤S42，设置内容损失和风格损失比重，并确定模型迭代次数，所述模型训练模块将在字体模拟中最优损失比设置为1/1000，并将模型迭代次数设置为500次；

步骤S43，所述模型训练模块通过随机噪点生成模拟字体图片，根据生成图片的清晰度、迁移纹理和保留色彩判断该图片是否达到预期标准并在该图片达到预期标准时保存该图片中的各项参数；所述模型训练模块在所述模拟字体图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准。

进一步地，所述模型训练模块中设置有总损失函数，模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进，改进后的总损失函数表示如下：

Lt(p,a,f)＝αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco

其中，Lt(p,a,f)为总损失函数，Lc(p,f)为内容损失函数，Ls(a,f)为风格损失函数，α为内容损失的权重，β为风格损失的权重，Ltv为图像平滑函数，Lm为掩码损失函数，Lco为颜色损失函数。

进一步地，对于所述内容损失函数Lc（p，f），其定义如下：

其中，

。

进一步地，对于所述风格损失函数Ls（a，f），其定义如下：

其中，

为与生成图经过卷积层得到的特征图自相关得到的Gram矩阵，/>

为与风格图经过卷积层得到的特征图自相关得到的Gram矩阵。

进一步地，对于所述颜色损失函数Lco，其定义如下：

其中，

为目标图像的标准差，/>

为风格图像的标准差，/>

为风格图像的平均亮度，

为目标图像的平均亮度。

进一步地，在所述步骤S5中，所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中，并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。

另一方面，本发明还提供一种基于手写字体识别系统，包括：

文字采集模块，用以采集手写字体图像；

数据准备模块，其与所述文字采集模块相连，用以准备目标图像和风格图像；

数据预处理模块，其与所述数据准备模块相连，用以预处理所述目标图像和所述风格图像；所述预处理包括裁切处理所述风格图像，制作针对风格图像和所述目标图像的掩码图并对各图像进行颜色格式转换处理；

模型训练模块，其与所述数据预处理模块相连，用以对所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型；

批量生成数据模块，其与所述模型训练模块相连，用以对进行批量数据生成处理以生成风格迁移后的目标图像数据。

与现有技术相比，本发明的有益效果在于，本发明通过构建基于风格迁移的神经网络模型，提高了生成文字图像的清晰度和图像质量，以及生成速度，确保离线识别过程中采集的文字的快速识别。

进一步地，本发明的风格迁移神经网络，在生成文字图像保留目标图像的结构和颜色上有很大的改进，在训练过程中，通过掩码的作用，使图像特定区域的迁移成为可能，这样会使生成文字图像能够保留很好的结构，在训练之前，对图片的颜色格式进行转换，保留目标图像的颜色。

进一步地，本发明通过保留目标图像的结构和颜色，进而提高了数据集的真实性，从而进一步提高了不同手写风格的文字的识别精确度。

进一步地，本发明在模型训练过程中设置了内容损失和风格损失比重，并确定模型迭代次数，在文字图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准，保证了模型训练的精准度。

进一步地，本发明还在模型训练模块中设置有总损失函数，模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进，保证了生成文字图像的清晰度和图像质量。

附图说明

图1为本发明实施例基于手写字体识别的方法的流程图；

图2为本发明实施例手写字体识别的方法的框架图；

图3为本发明实施例手写字体识别系统的结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明所述基于手写字体识别的方法的流程图，图2为本发明所述基于手写字体识别系统的结构示意图。

本发明实施例基于手写字体识别的方法的流程图，包括：

具体而言，在所述步骤S3中，所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括：

具体而言，在所述步骤S33中，所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定，其中，

Y=0.299×R+0.587×G+0.114×B；

U=-0.169×R-0.331×G+0.5×B；

V=0.5×R-0.419×G-0.081×B；

R=(Y-16)+1.140×(V-128)；

G=(Y-16)-0.394×(U-128)-0.581×(V-128)；

B=(Y-16)+2.032×(U-128)。

具体而言，在所述步骤S4中，所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移，包括以下步骤：

具体而言，所述模型训练模块中设置有总损失函数，模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进，改进后的总损失函数表示如下：

Lt(p,a,f)＝αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco

具体而言，对于所述内容损失函数Lc（p，f），其定义如下：

其中，

为内容图经过单层卷积层得到的特征图，/>

为生成图经过卷积层生成的特征图。

具体而言，对于所述风格损失函数Ls（a，f），其定义如下：

其中，

为与风格图经过卷积层得到的特征图自相关得到的Gram矩阵。

具体而言，对于所述颜色损失函数Lco，其定义如下：

其中，

为目标图像的标准差，/>

为风格图像的标准差，/>

为风格图像的平均亮度，

为目标图像的平均亮度。

具体而言，在所述步骤S5中，所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中，并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。

另一方面，本发明实施例基于手写字体识别系统，包括：

文字采集模块，用以采集手写字体图像；

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于手写字体识别的方法，其特征在于，包括：

2.根据权利要求1所述的基于手写字体识别的方法，其特征在于，在所述步骤S3中，所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括：

3.根据权利要求2所述的基于手写字体识别的方法，其特征在于，在所述步骤S33中，所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定，其中，

Y=0.299×R+0.587×G+0.114×B；

U=-0.169×R-0.331×G+0.5×B；

V=0.5×R-0.419×G-0.081×B；

R=(Y-16)+1.140×(V-128)；

G=(Y-16)-0.394×(U-128)-0.581×(V-128)；

B=(Y-16)+2.032×(U-128)。

4.根据权利要求1所述的基于手写字体识别的方法，其特征在于，在所述步骤S4中，所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移，包括以下步骤：

5. 根据权利要求4所述的基于手写字体识别的方法，其特征在于，所述模型训练模块中设置有总损失函数，模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进，改进后的总损失函数表示如下：

Lt(p,a,f)＝αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco

6.根据权利要求5所述的基于手写字体识别的方法，其特征在于，对于所述内容损失函数Lc（p，f），其定义如下：

其中，

为内容图经过单层卷积层得到的特征图，/>

为生成图经过卷积层生成的特征图。

7.根据权利要求6所述的基于手写字体识别的方法，其特征在于，对于所述风格损失函数Ls（a，f），其定义如下：

其中，

为与风格图经过卷积层得到的特征图自相关得到的Gram矩阵。

8.根据权利要求7所述的基于手写字体识别的方法，其特征在于，对于所述颜色损失函数Lco，其定义如下：

其中，

为目标图像的标准差，/>

为风格图像的标准差，/>

为风格图像的平均亮度，/>

为目标图像的平均亮度。

9.根据权利要求1所述的基于手写字体识别的方法，其特征在于，在所述步骤S5中，所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中，并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。

10.一种使用权利要求1-9任一项权利要求的方法的识别系统，其特征在于，包括：

文字采集模块，用以采集手写字体图像；