CN115661825A

CN115661825A - 一种文字识别方法和系统

Info

Publication number: CN115661825A
Application number: CN202211150690.XA
Authority: CN
Inventors: 钟德海
Original assignee: Fujian Jieyu Computer Technology Co ltd
Current assignee: Fujian Jieyu Computer Technology Co ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-31

Abstract

本发明涉及一种文字识别方法和系统，具体方法步骤包括：收集若干常用的单个字符的原始图像Input；获取若干组特征图像；搭建文字识别网络，所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet，先将原始图像Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域，通过迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，通过迭代输出最优偏旁部首识别模型。

Description

一种文字识别方法和系统

技术领域

本发明涉及互联网信息处理领域，具体为一种文字识别方法和系统。

背景技术

在这个互联网高度发展下的信息时代，手动记录文本信息不能说它已经过时，但是说它不够效率跟不上时代却是没什么问题的，对应产生的文字识别技术可以解决人工记录文本效率低下的问题。在各种各样的文字文本中，中文和其它各种语言相比较，是数据量最大、种类最多的一种文字文本。正因为其数据量最大、种类繁多，其识别难度，识别准确率和识别效率面临巨大挑战。在现有技术CN111079503A 一种文字识别方法及电子设备中提出先采集原始图像Input，再利用 OCR方式对书写笔迹进行文字联想识别，以识别出目标文字，再对目标文字按照不同的顺序进行两次拆分，比较两次拆分结果确定最终识别文字。在现有技术中，先对图像进行联想识别，输出目标文字，在这个过程中已经可能出现识别误差，再对输出的目标文字进行拆分，对拆分后的偏旁部首进行识别，比较两次不同顺序的拆分结果来确定最终识别结果，后续步骤可能造成识别误差的进一步加大。同时，该方案没有给出具体的偏旁部首的识别方法。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种文字识别方法和系统。

本发明的技术方案如下：

一方面，本发明提出一种文字识别方法，具体步骤包括：

S1、收集若干常用的单个字符的原始图像Input；

S2、获取若干组特征图像，每组特征图像包括单个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含的所有偏旁部首的对应形状，并对各组特征图像添加原图或偏旁部首或偏旁部首形状的图像标签，形成训练样本集；

S3、搭建文字识别网络，所述文字识别网络包括图层蒙版网络 MaskNet和偏旁部首识别网络RecNet，先将原始图像Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input 中汉字的每个偏旁部首的所在区域，以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练，结束迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练，结束迭代输出最优偏旁部首识别模型；

S4、利用最优的偏旁部首识别模型对输入的图像按照顺序进行偏旁部首识别，输出的偏旁部首按照顺序组合输出文字完成文字识别。

作为优选实施方式，所述偏旁部首图片InputR的具体计算公式为：

InputR＝Input*(OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

作为优选实施方式，所述将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中，构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别，所述损失函数具体为：

Loss＝abs(Lb-Ls)

式中，Lb为偏旁部首识别网络RecNet的输出，Ls为实际的偏旁部首,abs为绝对值函数。

另一方面，本发明提出一种文字识别系统，包括：

文字图像收集模块：收集若干常用的单个字符的原始图像Input；

特征图像处理模块：获取若干组特征图像，每组特征图像包括单个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含的所有偏旁部首的对应形状，并对各组特征图像添加原图或偏旁部首或偏旁部首形状的图像标签，形成训练样本集；

识别模型训练模块：搭建文字识别网络，所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet，先将原始图像 Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域，以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练，结束迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练，结束迭代输出最优偏旁部首识别模型。

InputR＝Input*(OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

Loss＝abs(Lb-Ls)

另一方面，本发明提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明任一实施例所述的文字识别方法。

另一方面，本发明提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的文字识别方法。

本发明具有如下有益效果：

1、本发明提出一种文字识别方法，相较于人工记录图像中包含的文字文本数据，能够更加高效的识别原始图像Input中的文字。

2、本发明提出一种文字识别方法，通过偏旁部首图像预测网络和偏旁部首识别网络两个网络对原始图像Input中的文字所包含的所有偏旁部首逐一识别，提高了识别的准确率。

3、本发明提出一种文字识别方法，偏旁部首图像预测网络和偏旁部首识别网络两个网络同时运行，提高了文字识别的效率和稳定性。

附图说明

图1为本发明的流程图；

图2为偏旁部首识别网络RecNet图；

图3为偏旁部首形状识别网络MaskNet图；

图4为输入汉字图；

图5为偏旁部首形状识别网络MaskNet输出图；

图6为汉字图与图层蒙版网络MaskNet叠加后生成的部分偏旁部首图；

图7为汉字图与图层蒙版网络MaskNet叠加后生成的剩余部分偏旁部首图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一：

参见图1，本发明提出一种文字识别方法，具体步骤包括：

S1、收集若干常用的单个字符的原始图像Input；

具体实施时，图像中可能存在多行文字，先检测出单行文字，然后再对单行文字进行分割出单个字符，就可以得到大量常用的单个字符的原始图像Input。

具体实施时，在S1步骤中收集到的大量单个字符的原始图像 Input中，在训练样本集中可以获取多组相同文字的不同原始图像 Input，形成提高后续步骤中文字识别网络的准确率。

具体实施时，可以再获取若干组特征图像作为测试样本集，将上述步骤中的训练样本集代入训练模型中进行迭代训练，输出最优训练模型后利用测试样本集对最优训练模型进行测试，确定训练模型的准确率。

具体实施时，通过上述步骤获得的最优的偏旁部首识别模型实现对中文字符的快速精准识别。

作为本实施例的优选实施方式，所述偏旁部首图片InputR的具体计算公式为：

InputR＝Input*(1-OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

作为本实施例的优选实施方式，所述将所述偏旁部首图片InputR 输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中，构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别，所述损失函数具体为：

Loss＝abs(Lb-Ls)

以一个实际识别过程为例做具体说明：

1.在进行所有步骤前，需要对常用的偏旁部首进行编号，保证编号的唯一性。

2.将单个汉字图片如图4所示为一个“访”字作为Input输入偏旁部首形状识别网络MaskNet中，得到各个偏旁部首的图层蒙版，如图5所示。

3.再将预测图层蒙版与输入的汉字图片相乘，得到输入的汉字图片的各个偏旁部首图片，即图4与图5相乘可以得到偏旁部首的图片，为图6所示的“言”字旁和图7所示的“方”字旁图片。

4.继续将获得的各个偏旁部首图片输入偏旁部首识别网络 RecNet中，可以得到图6和图7中对应的偏旁部首及其对应的编号。

假设得到的“言”字旁的编号为01，“方”字旁的标号为02，那么输出结果为0102，输出结果对应的汉字为“访”，即识别成功。

需要注意的是，在文字识别网络中训练的图片分割顺序按照从左到右，从上到下的顺序依次进行。

在本发明中，利用偏旁部首识别网络RecNet的损失 Loss＝abs(Lb-Ls)使用随机梯度下降的方法完成偏旁部首形状识别网络MaskNet和偏旁部首识别网络RecNet的训练。

实施例二：

本发明提出一种文字识别系统，包括：

识别模型训练模块：搭建文字识别网络，所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet，先将原始图像 Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域，以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练，结束迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像 Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练，结束迭代输出最优偏旁部首识别模型；

InputR＝Input*(OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

Loss＝abs(Lb-Ls)

实施例三：

本实施例一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明任一实施例所述的文字识别方法。

实施例四：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的文字识别方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文字识别方法，其特征在于，具体步骤包括：

S1、收集若干常用的单个字符的原始图像Input；

S3、搭建文字识别网络，所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet，先将原始图像Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域，以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练，结束迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练，结束迭代输出最优偏旁部首识别模型；

2.根据权利要求1所述的一种文字识别方法，其特征在于，所述偏旁部首图片InputR的具体计算公式为：

InputR＝Input*(OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

3.根据权利要求2所述的一种文字识别方法，其特征在于，所述将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中，构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别，所述损失函数具体为：

Loss＝abs(Lb-Ls)

4.一种文字识别系统，其特征在于，包括：

识别模型训练模块：搭建文字识别网络，所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet，先将原始图像Input输入图层蒙版网络MaskNet，生成图层蒙版，所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域，以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练，结束迭代输出最优的图层蒙版生成模型，再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR，继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练，结束迭代输出最优偏旁部首识别模型。

5.根据权利要求4所述的一种文字识别系统，其特征在于，所述偏旁部首图片InputR的具体计算公式为：

InputR＝Input*(OutputM)

式中，Input为原始图像，OutputM为图层蒙版网络MaskNet的输出。

6.根据权利要求5所述的一种文字识别方法，其特征在于，所述将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet，输出偏旁部首识别结果，以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中，构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别，所述损失函数具体为：

Loss＝abs(Lb-Ls)

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一权利要求所述的文字识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任一种文字识别方法。