CN115661825A - 一种文字识别方法和系统 - Google Patents
一种文字识别方法和系统 Download PDFInfo
- Publication number
- CN115661825A CN115661825A CN202211150690.XA CN202211150690A CN115661825A CN 115661825 A CN115661825 A CN 115661825A CN 202211150690 A CN202211150690 A CN 202211150690A CN 115661825 A CN115661825 A CN 115661825A
- Authority
- CN
- China
- Prior art keywords
- radical
- recognition
- character
- network
- layer mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及一种文字识别方法和系统,具体方法步骤包括:收集若干常用的单个字符的原始图像Input;获取若干组特征图像;搭建文字识别网络,所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet,先将原始图像Input输入图层蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域,通过迭代输出最优的图层蒙版生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR,继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,通过迭代输出最优偏旁部首识别模型。
Description
技术领域
本发明涉及互联网信息处理领域,具体为一种文字识别方法和系 统。
背景技术
在这个互联网高度发展下的信息时代,手动记录文本信息不能说 它已经过时,但是说它不够效率跟不上时代却是没什么问题的,对应 产生的文字识别技术可以解决人工记录文本效率低下的问题。在各种 各样的文字文本中,中文和其它各种语言相比较,是数据量最大、种 类最多的一种文字文本。正因为其数据量最大、种类繁多,其识别难 度,识别准确率和识别效率面临巨大挑战。在现有技术CN111079503A 一种文字识别方法及电子设备中提出先采集原始图像Input,再利用 OCR方式对书写笔迹进行文字联想识别,以识别出目标文字,再对目 标文字按照不同的顺序进行两次拆分,比较两次拆分结果确定最终识别文字。在现有技术中,先对图像进行联想识别,输出目标文字,在 这个过程中已经可能出现识别误差,再对输出的目标文字进行拆分, 对拆分后的偏旁部首进行识别,比较两次不同顺序的拆分结果来确定 最终识别结果,后续步骤可能造成识别误差的进一步加大。同时,该 方案没有给出具体的偏旁部首的识别方法。
发明内容
为了解决上述现有技术中存在的问题,本发明提出了一种文字识 别方法和系统。
本发明的技术方案如下:
一方面,本发明提出一种文字识别方法,具体步骤包括:
S1、收集若干常用的单个字符的原始图像Input;
S2、获取若干组特征图像,每组特征图像包括单个字符的原始图 像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含 的所有偏旁部首的对应形状,并对各组特征图像添加原图或偏旁部首 或偏旁部首形状的图像标签,形成训练样本集;
S3、搭建文字识别网络,所述文字识别网络包括图层蒙版网络 MaskNet和偏旁部首识别网络RecNet,先将原始图像Input输入图层 蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为原始图像Input 中汉字的每个偏旁部首的所在区域,以图层蒙版与各个偏旁部首的所 属区域最为贴合为目标进行迭代训练,结束迭代输出最优的图层蒙版 生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素 点叠加的方式得到汉字的各个偏旁部首图片InputR,继续将所述偏 旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识 别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进 行迭代训练,结束迭代输出最优偏旁部首识别模型;
S4、利用最优的偏旁部首识别模型对输入的图像按照顺序进行偏 旁部首识别,输出的偏旁部首按照顺序组合输出文字完成文字识别。
作为优选实施方式,所述偏旁部首图片InputR的具体计算公式 为:
InputR=Input*(OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的 输出。
作为优选实施方式,所述将所述偏旁部首图片InputR输入偏旁 部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结 果与实际偏旁部首间的区别最小为目标进行迭代训练中,构造一个损 失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所述损失函 数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁 部首,abs为绝对值函数。
另一方面,本发明提出一种文字识别系统,包括:
文字图像收集模块:收集若干常用的单个字符的原始图像Input;
特征图像处理模块:获取若干组特征图像,每组特征图像包括单 个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每 个字符中所包含的所有偏旁部首的对应形状,并对各组特征图像添加 原图或偏旁部首或偏旁部首形状的图像标签,形成训练样本集;
识别模型训练模块:搭建文字识别网络,所述文字识别网络包括 图层蒙版网络MaskNet和偏旁部首识别网络RecNet,先将原始图像 Input输入图层蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为 原始图像Input中汉字的每个偏旁部首的所在区域,以图层蒙版与各 个偏旁部首的所属区域最为贴合为目标进行迭代训练,结束迭代输出 最优的图层蒙版生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR, 继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输 出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练,结束迭代输出最优偏旁部首识别模型。
作为优选实施方式,所述偏旁部首图片InputR的具体计算公式 为:
InputR=Input*(OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的 输出。
作为优选实施方式,所述将所述偏旁部首图片InputR输入偏旁 部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结 果与实际偏旁部首间的区别最小为目标进行迭代训练中,构造一个损 失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所述损失函 数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁 部首,abs为绝对值函数。
另一方面,本发明提出一种电子设备,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所 述程序时实现本发明任一实施例所述的文字识别方法。
另一方面,本发明提出一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现本发明任一实施例所述的文字 识别方法。
本发明具有如下有益效果:
1、本发明提出一种文字识别方法,相较于人工记录图像中包含 的文字文本数据,能够更加高效的识别原始图像Input中的文字。
2、本发明提出一种文字识别方法,通过偏旁部首图像预测网络 和偏旁部首识别网络两个网络对原始图像Input中的文字所包含的 所有偏旁部首逐一识别,提高了识别的准确率。
3、本发明提出一种文字识别方法,偏旁部首图像预测网络和偏 旁部首识别网络两个网络同时运行,提高了文字识别的效率和稳定 性。
附图说明
图1为本发明的流程图;
图2为偏旁部首识别网络RecNet图;
图3为偏旁部首形状识别网络MaskNet图;
图4为输入汉字图;
图5为偏旁部首形状识别网络MaskNet输出图;
图6为汉字图与图层蒙版网络MaskNet叠加后生成的部分偏旁部 首图;
图7为汉字图与图层蒙版网络MaskNet叠加后生成的剩余部分偏 旁部首图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为 对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定 实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利 要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数 形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、 元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步 骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合 以及所有可能组合,并且包括这些组合。
实施例一:
参见图1,本发明提出一种文字识别方法,具体步骤包括:
S1、收集若干常用的单个字符的原始图像Input;
具体实施时,图像中可能存在多行文字,先检测出单行文字,然 后再对单行文字进行分割出单个字符,就可以得到大量常用的单个字 符的原始图像Input。
S2、获取若干组特征图像,每组特征图像包括单个字符的原始图 像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含 的所有偏旁部首的对应形状,并对各组特征图像添加原图或偏旁部首 或偏旁部首形状的图像标签,形成训练样本集;
具体实施时,在S1步骤中收集到的大量单个字符的原始图像 Input中,在训练样本集中可以获取多组相同文字的不同原始图像 Input,形成提高后续步骤中文字识别网络的准确率。
S3、搭建文字识别网络,所述文字识别网络包括图层蒙版网络 MaskNet和偏旁部首识别网络RecNet,先将原始图像Input输入图层 蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为原始图像Input 中汉字的每个偏旁部首的所在区域,以图层蒙版与各个偏旁部首的所 属区域最为贴合为目标进行迭代训练,结束迭代输出最优的图层蒙版 生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素 点叠加的方式得到汉字的各个偏旁部首图片InputR,继续将所述偏 旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识 别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进 行迭代训练,结束迭代输出最优偏旁部首识别模型;
具体实施时,可以再获取若干组特征图像作为测试样本集,将上 述步骤中的训练样本集代入训练模型中进行迭代训练,输出最优训练 模型后利用测试样本集对最优训练模型进行测试,确定训练模型的准 确率。
S4、利用最优的偏旁部首识别模型对输入的图像按照顺序进行偏 旁部首识别,输出的偏旁部首按照顺序组合输出文字完成文字识别。
具体实施时,通过上述步骤获得的最优的偏旁部首识别模型实现 对中文字符的快速精准识别。
作为本实施例的优选实施方式,所述偏旁部首图片InputR的具 体计算公式为:
InputR=Input*(1-OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的 输出。
作为本实施例的优选实施方式,所述将所述偏旁部首图片InputR 输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部 首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中,构 造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所 述损失函数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁 部首,abs为绝对值函数。
以一个实际识别过程为例做具体说明:
1.在进行所有步骤前,需要对常用的偏旁部首进行编号,保证编 号的唯一性。
2.将单个汉字图片如图4所示为一个“访”字作为Input输入偏 旁部首形状识别网络MaskNet中,得到各个偏旁部首的图层蒙版,如 图5所示。
3.再将预测图层蒙版与输入的汉字图片相乘,得到输入的汉字图 片的各个偏旁部首图片,即图4与图5相乘可以得到偏旁部首的图片, 为图6所示的“言”字旁和图7所示的“方”字旁图片。
4.继续将获得的各个偏旁部首图片输入偏旁部首识别网络 RecNet中,可以得到图6和图7中对应的偏旁部首及其对应的编号。
假设得到的“言”字旁的编号为01,“方”字旁的标号为02, 那么输出结果为0102,输出结果对应的汉字为“访”,即识别成功。
需要注意的是,在文字识别网络中训练的图片分割顺序按照从左 到右,从上到下的顺序依次进行。
在本发明中,利用偏旁部首识别网络RecNet的损失 Loss=abs(Lb-Ls)使用随机梯度下降的方法完成偏旁部首形状识别网 络MaskNet和偏旁部首识别网络RecNet的训练。
实施例二:
本发明提出一种文字识别系统,包括:
文字图像收集模块:收集若干常用的单个字符的原始图像Input;
特征图像处理模块:获取若干组特征图像,每组特征图像包括单 个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每 个字符中所包含的所有偏旁部首的对应形状,并对各组特征图像添加 原图或偏旁部首或偏旁部首形状的图像标签,形成训练样本集;
识别模型训练模块:搭建文字识别网络,所述文字识别网络包括 图层蒙版网络MaskNet和偏旁部首识别网络RecNet,先将原始图像 Input输入图层蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为 原始图像Input中汉字的每个偏旁部首的所在区域,以图层蒙版与各 个偏旁部首的所属区域最为贴合为目标进行迭代训练,结束迭代输出 最优的图层蒙版生成模型,再将各个偏旁部首的图层模板与原始图像 Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR, 继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输 出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练,结束迭代输出最优偏旁部首识别模型;
作为本实施例的优选实施方式,所述偏旁部首图片InputR的具 体计算公式为:
InputR=Input*(OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的 输出。
作为本实施例的优选实施方式,所述将所述偏旁部首图片InputR 输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部 首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中,构 造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所 述损失函数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁 部首,abs为绝对值函数。
实施例三:
本实施例一种电子设备,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现 本发明任一实施例所述的文字识别方法。
实施例四:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处 理器执行时实现本发明任一实施例所述的文字识别方法。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范 围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变 换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明 的专利保护范围内。
Claims (8)
1.一种文字识别方法,其特征在于,具体步骤包括:
S1、收集若干常用的单个字符的原始图像Input;
S2、获取若干组特征图像,每组特征图像包括单个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含的所有偏旁部首的对应形状,并对各组特征图像添加原图或偏旁部首或偏旁部首形状的图像标签,形成训练样本集;
S3、搭建文字识别网络,所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet,先将原始图像Input输入图层蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域,以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练,结束迭代输出最优的图层蒙版生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR,继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练,结束迭代输出最优偏旁部首识别模型;
S4、利用最优的偏旁部首识别模型对输入的图像按照顺序进行偏旁部首识别,输出的偏旁部首按照顺序组合输出文字完成文字识别。
2.根据权利要求1所述的一种文字识别方法,其特征在于,所述偏旁部首图片InputR的具体计算公式为:
InputR=Input*(OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的输出。
3.根据权利要求2所述的一种文字识别方法,其特征在于,所述将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中,构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所述损失函数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁部首,abs为绝对值函数。
4.一种文字识别系统,其特征在于,包括:
文字图像收集模块:收集若干常用的单个字符的原始图像Input;
特征图像处理模块:获取若干组特征图像,每组特征图像包括单个字符的原始图像Input和每个字符中所包含的所有偏旁部首与每个字符中所包含的所有偏旁部首的对应形状,并对各组特征图像添加原图或偏旁部首或偏旁部首形状的图像标签,形成训练样本集;
识别模型训练模块:搭建文字识别网络,所述文字识别网络包括图层蒙版网络MaskNet和偏旁部首识别网络RecNet,先将原始图像Input输入图层蒙版网络MaskNet,生成图层蒙版,所述图层蒙版为原始图像Input中汉字的每个偏旁部首的所在区域,以图层蒙版与各个偏旁部首的所属区域最为贴合为目标进行迭代训练,结束迭代输出最优的图层蒙版生成模型,再将各个偏旁部首的图层模板与原始图像Input通过像素点叠加的方式得到汉字的各个偏旁部首图片InputR,继续将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练,结束迭代输出最优偏旁部首识别模型。
5.根据权利要求4所述的一种文字识别系统,其特征在于,所述偏旁部首图片InputR的具体计算公式为:
InputR=Input*(OutputM)
式中,Input为原始图像,OutputM为图层蒙版网络MaskNet的输出。
6.根据权利要求5所述的一种文字识别方法,其特征在于,所述将所述偏旁部首图片InputR输入偏旁部首识别网络RecNet,输出偏旁部首识别结果,以偏旁部首识别结果与实际偏旁部首间的区别最小为目标进行迭代训练中,构造一个损失函数度量偏旁部首识别结果与实际偏旁部首间的区别,所述损失函数具体为:
Loss=abs(Lb-Ls)
式中,Lb为偏旁部首识别网络RecNet的输出,Ls为实际的偏旁部首,abs为绝对值函数。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一权利要求所述的文字识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一种文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150690.XA CN115661825A (zh) | 2022-09-21 | 2022-09-21 | 一种文字识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211150690.XA CN115661825A (zh) | 2022-09-21 | 2022-09-21 | 一种文字识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115661825A true CN115661825A (zh) | 2023-01-31 |
Family
ID=84983264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211150690.XA Pending CN115661825A (zh) | 2022-09-21 | 2022-09-21 | 一种文字识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661825A (zh) |
-
2022
- 2022-09-21 CN CN202211150690.XA patent/CN115661825A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN110807102A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN114155244B (zh) | 缺陷检测方法、装置、设备及存储介质 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN109741410A (zh) | 基于深度学习的荧光编码微球图像生成及标注方法 | |
CN112949408A (zh) | 一种过鱼通道目标鱼类实时识别方法和系统 | |
CN113298146A (zh) | 一种基于特征检测的图像匹配方法、装置、设备及介质 | |
JPH08508128A (ja) | 分布マップを用いる画像の分類方法及び装置 | |
CN108992033B (zh) | 一种视觉测试的评分装置、设备和存储介质 | |
CN110991357A (zh) | 一种答案匹配方法、装置和电子设备 | |
CN110020638A (zh) | 人脸表情识别方法、装置、设备和介质 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN111612045A (zh) | 一种获取目标检测数据集的通用方法 | |
CN111291754A (zh) | 一种文本级联检测方法、装置及存储介质 | |
CN116503885A (zh) | 表格识别方法、装置、电子设备及存储介质 | |
CN109785376B (zh) | 深度估计装置的训练方法、深度估计设备及存储介质 | |
CN115661825A (zh) | 一种文字识别方法和系统 | |
CN113313213B (zh) | 一种加速目标检测算法训练的数据集处理方法 | |
US6009194A (en) | Methods, systems and computer program products for analyzing information in forms using cell adjacency relationships | |
CN111783737B (zh) | 一种数学公式的识别方法和识别装置 | |
CN114898155A (zh) | 车辆定损方法、装置、设备及存储介质 | |
CN115050025A (zh) | 基于公式识别的知识点抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |