CN110399912B

CN110399912B - 一种字符识别的方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110399912B
Application number: CN201910631142.0A
Authority: CN
Inventors: 刘学文
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2023-04-07
Anticipated expiration: 2039-07-12
Also published as: CN110399912A

Abstract

本申请公开了一种字符识别的方法，包括：接收输入的训练字符图像集及待识别字符图像集确定字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将待补充字符图像的标签补充为长度为该阈值的标签；利用补充后的训练字符图像集训练预设卷积神经网络，得到字符识别模型；利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到字符识别结果。本申请不需要对字符图像降噪、分隔或者其他预处理，便可完成对不定长度的字符图像的识别，简化了字符识别流程，提高了字符识别的效率。本申请同时还提供了一种字符识别的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种字符识别的方法、系统、设备及计算机可读存储介质

技术领域

本申请涉及字符识别领域，特别涉及一种字符识别的方法、系统、设备及计算机可读存储介质。

背景技术

字符图像识别是计算机视觉研究领域的分支之一，有着广泛的应用场景。相关应用涉及了身份证识别、车牌号识别、快递单识别、银行卡号识别等等，这类字符通常属于印刷体，字体比较工整且图像背景的噪音信息比较少。然而现实生活中有很多扭曲的字符，比如街景中的艺术字和图像验证码等，而且字数长度不固定，同时伴随着很多噪声信息，给字符识别带来很大难度。

传统的字符识别，如光学字符识别通过检测字符暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字，适合识别没有噪音的印刷体字符，但对带噪音信息且扭曲的字符识别能力很差。另外一种常用的方法通常是使用字符分割算法，比如腐蚀膨胀法、投影直方图法等，对字符图片进行分割，然后对单个字符图片进行识别，但这类分割算法通常需要对图片进行大量的预处理，比如灰度处理、二值化、增加对比度、倾斜校正、降噪等，同时对带有很多噪音信息且扭曲粘连在一起的字符很难分割准确，对这类字符识别效果不理想。

因此，如何对不定长字符图像进行识别是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种字符识别的方法、系统、设备及计算机可读存储介质，用于对不定长字符图像进行识别。

为解决上述技术问题，本申请提供一种字符识别的方法，该方法包括：

接收输入的训练字符图像集及待识别字符图像集；其中，所述字符训练集中的每个字符图像具有标签，所述标签与所述字符图像的字符内容一致；

确定所述字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将所述待补充字符图像的标签补充为长度为所述阈值的标签；

利用补充后的所述训练字符图像集训练预设卷积神经网络，得到字符识别模型；

利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果。

可选的，所述利用补充后的所述训练字符图像集训练预设卷积神经网络，得到字符识别模型，包括：

确定所述训练字符图像集中每个所述字符图像的标签在预设字符集中的第一索引值；

对每个所述第一索引值进行独热编码，并将得到的编码值进行拼接，得到每个所述字符图像的第一标签编码值；

对所述训练字符图像集中每个所述字符图像进行归一化处理，得到归一化像素矩阵；

将每个所述归一化像素矩阵作为所述预设卷积神经网络的输入，将每个所述第一标签编码值作为所述预设卷积神经网络的输出，对所述预设卷积神经网络进行训练，得到所述字符识别模型。

可选的，所述利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果，包括：

利用所述字符识别模型对所述待识别字符图像集进行识别，得到所述待识别字符图像中每个所述字符图像的第二标签编码值；

根据每个所述第二标签编码值确定第二索引值，并根据所述第二索引值及所述预设字符集确定所述待识别字符图像中每个所述字符图像对应的字符；

将每个所述字符中的所述预设符号删除，得到所述字符识别结果。

可选的，在得到字符识别结果之后，还包括：

输出字符识别完成的提示信息至预设位置。

本申请还提供一种字符识别的系统，该系统包括：

接收模块，用于接收输入的训练字符图像集及待识别字符图像集；其中，所述字符训练集中的每个字符图像具有标签，所述标签与所述字符图像的字符内容一致；

标签补充模块，用于确定所述字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将所述待补充字符图像的标签补充为长度为所述阈值的标签；

训练模块，用于利用补充后的所述训练字符图像集训练预设卷积神经网络，得到字符识别模型；

字符识别模块，用于利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果。

可选的，所述训练模块包括：

第一确定子模块，用于确定所述训练字符图像集中每个所述字符图像的标签在预设字符集中的第一索引值；

编码子模块，用于对每个所述第一索引值进行独热编码，并将得到的编码值进行拼接，得到每个所述字符图像的第一标签编码值；

归一化子模块，用于对所述训练字符图像集中每个所述字符图像进行归一化处理，得到归一化像素矩阵；

训练子模块，用于将每个所述归一化像素矩阵作为所述预设卷积神经网络的输入，将每个所述第一标签编码值作为所述预设卷积神经网络的输出，对所述预设卷积神经网络进行训练，得到所述字符识别模型。

可选的，所述字符识别模块包括：

识别子模块，用于利用所述字符识别模型对所述待识别字符图像集进行识别，得到所述待识别字符图像中每个所述字符图像的第二标签编码值；

第二确定子模块，用于根据每个所述第二标签编码值确定第二索引值，并根据所述第二索引值及所述预设字符集确定所述待识别字符图像中每个所述字符图像对应的字符；

删除子模块，用于将每个所述字符中的所述预设符号删除，得到所述字符识别结果。

可选的，还包括：

输出模块，用于在得到字符识别结果之后，输出字符识别完成的提示信息至预设位置。

本申请还提供一种字符识别设备，该字符识别设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述字符识别的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述字符识别的方法的步骤。

本申请所提供字符识别的方法，包括：接收输入的训练字符图像集及待识别字符图像集；其中，字符训练集中的每个字符图像具有标签，标签与字符图像的字符内容一致；确定字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将待补充字符图像的标签补充为长度为该阈值的标签；利用补充后的训练字符图像集训练预设卷积神经网络，得到字符识别模型；利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到字符识别结果。

本申请所提供的技术方案，通过利用预设符号补充待补充字符图像的标签，并利用具有标签的字符训练集训练预设卷积神经网络，得到字符识别模型，最后利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到最终的字符识别结果，不需要对字符图像降噪、分隔或者其他预处理，便可完成对不定长度的字符图像的识别，简化了字符识别流程，提高了字符识别的效率。本申请同时还提供了一种字符识别的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种字符识别的方法的流程图；

图2为图1所提供的一种字符识别的方法中S103的一种实际表现方式的流程图；

图3为图1所提供的一种字符识别的方法中S104的一种实际表现方式的流程图；

图4为本申请实施例所提供的一种字符识别的系统的结构图；

图5为本申请实施例所提供的另一种字符识别的系统的结构图；

图6为本申请实施例所提供的一种字符识别设备的结构图。

具体实施方式

本申请的核心是提供一种字符识别的方法、系统、设备及计算机可读存储介质，用于对不定长字符图像进行识别。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种字符识别的方法的流程图。

其具体包括如下步骤：

S101：接收输入的训练字符图像集及待识别字符图像集；

基于传统的字符识别对带噪音信息且扭曲的字符识别能力很差，而字符分割算法需要对图片进行大量的预处理，比如灰度处理、二值化、增加对比度、倾斜校正、降噪等，同时对带有很多噪音信息且扭曲粘连在一起的字符很难分割准确，对这类字符识别效果不理想，本申请提供了一种字符识别的方法，用于解决上述问题；

这里提到的字符训练集中的每个字符图像具有标签，标签与字符图像的字符内容一致，其目的在于便于对预设卷积神经网络进行训练；

可选的，该字符训练集的获取方式具体可以为用户自行输入，也可以为系统连接到预设服务器进行下载，还可以使用程序生成图像，例如，可以使用python的captcha模块生成宽度为160，高度为60的图像，在字符图像中，字符包括10个阿拉伯数字和26个大写英文字符，其中训练字符图像集30000张图像，待识别字符图像集10000张图像；本申请对字符训练集的获取方式不做具体限定，可依据实际情况做出选择。

S102：确定字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将待补充字符图像的标签补充为长度为该阈值的标签；

现有技术对不定长字符图像识别的难点在于，字数不固定使得模型在识别过程中容易出现多字、漏字或识别错误的情况，基于此，本申请利用预设符号将每个长度小于阈值的标签补充为长度为阈值的标签，使得对不定长字符图像的识别变成了对定长字符图像的识别，极大的降低了字符识别的难度；

例如，当该阈值为6时，则表明每张字符图像中最多6个字符，而如果遇到4个字符的图像时，则利用预设符号‘*’将该图像的标签补充为长度为6的标签；再比如，一张字符图像中的字符为“01AB”，首先计算标签的长度，如“01AB”的长度为4，长度小于6，则在后面补两个预设符号，使其标签变成“01AB**”；

该阈值可依据实际情况进行设置，可选的，当接收到输入的阈值更改命令时，还可以执行该阈值更改命令对该阈值进行更改。

S103：利用补充后的训练字符图像集训练预设卷积神经网络，得到字符识别模型；

可选的，这里提到的预设卷积神经网络具体可以为resnet50网络，为了便于预测一张图像中的多个带有噪音信息且扭曲粘连在一起的字符，本申请舍弃了resnet50中基于softmax激活函数的全连接输出层，使用基于sigmoid激活函数的全连接输出层；同时，全连接输出层的神经元个数为(N+1)×M，其中N表示有N种字符，1表示预设符号，M表示每张图像中最多有M个字符，例如，当有36种字符(26个大写英文字母，10个阿拉伯数字号)且每张图最多有6个字符时，全连接输出层的神经元个数为(36+1)×6＝222个；

进一步的，在模型训练阶段损失函数可以使用均方误差

优化器可以使用Adam优化器。

S104：利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到字符识别结果。

在利用预设符号将待补充字符图像的标签补充为长度为该阈值的标签之后，利用补充后的训练字符图像集训练预设卷积神经网络，使得得到的字符识别模型能够对不定长字符图像进行识别，得到具有预设符号的识别结果，此时将识别结果中的预设符号删除，得到最终的字符识别结果；

可选的，在得到字符识别结果之后，还可以输出字符识别完成的提示信息至预设位置，以使用户能够及时获取到该字符识别结果。

基于上述技术方案，本申请所提供的一种字符识别的方法，通过利用预设符号补充待补充字符图像的标签，并利用具有标签的字符训练集训练预设卷积神经网络，得到字符识别模型，最后利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到最终的字符识别结果，不需要对字符图像降噪、分隔或者其他预处理，便可完成对不定长度的字符图像的识别，简化了字符识别流程，提高了字符识别的效率。

针对于上一实施例的步骤S103，其中所描述的利用补充后的训练字符图像集训练预设卷积神经网络，得到字符识别模型，其具体也可以为如图2所示的步骤，下面结合图2进行说明。

请参考图2，图2为图1所提供的一种字符识别的方法中S103的一种实际表现方式的流程图。

其具体包括以下步骤：

S201：确定训练字符图像集中每个字符图像的标签在预设字符集中的第一索引值；

S202：对每个第一索引值进行独热编码，并将得到的编码值进行拼接，得到每个字符图像的第一标签编码值；

这里以字符数量为37进行举例说明，字符‘1’在经过one-hot编码后，在位置0上的编码为1，其他36个位置的编码为0。再比如预设符号‘*’经过one-hot编码后，在位置36上的编码为1，其他36个位置的编码为0。最后将6个字符的one-hot编码按顺序拼接起来，最终维度为37*6＝222。

S203：对训练字符图像集中每个字符图像进行归一化处理，得到归一化像素矩阵；

例如，读入图像的像素矩阵最大值为255，最小值为0，则将像素矩阵除以255，得到归一化的像素矩阵的值都在[0，1]区间内。

S204：将每个归一化像素矩阵作为预设卷积神经网络的输入，将每个第一标签编码值作为预设卷积神经网络的输出，对预设卷积神经网络进行训练，得到字符识别模型。

在此基础上，针对于上一实施例的步骤S104，其中所描述的利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到字符识别结果，其具体也可以为如图3所示的步骤，下面结合图3进行说明。

请参考图3，图3为图1所提供的一种字符识别的方法中S104的一种实际表现方式的流程图。

其具体包括以下步骤：

S301：利用字符识别模型对待识别字符图像集进行识别，得到待识别字符图像中每个字符图像的第二标签编码值；

S302：根据每个第二标签编码值确定第二索引值，并根据第二索引值及预设字符集确定待识别字符图像中每个字符图像对应的字符；

S303：将每个字符中的预设符号删除，得到字符识别结果。

请参考图4，图4为本申请实施例所提供的一种字符识别的系统的结构图。

该系统可以包括：

接收模块100，用于接收输入的训练字符图像集及待识别字符图像集；其中，字符训练集中的每个字符图像具有标签，标签与字符图像的字符内容一致；

标签补充模块200，用于确定字符训练集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将待补充字符图像的标签补充为长度为该阈值的标签；

训练模块300，用于利用补充后的训练字符图像集训练预设卷积神经网络，得到字符识别模型；

字符识别模块400，用于利用字符识别模型对待识别字符图像集进行识别，并将识别结果中的预设符号删除，得到字符识别结果。

请参考图5，图5为本申请实施例所提供的另一种字符识别的系统的结构图。

该训练模块300可以包括：

第一确定子模块，用于确定训练字符图像集中每个字符图像的标签在预设字符集中的第一索引值；

编码子模块，用于对每个第一索引值进行独热编码，并将得到的编码值进行拼接，得到每个字符图像的第一标签编码值；

归一化子模块，用于对训练字符图像集中每个字符图像进行归一化处理，得到归一化像素矩阵；

训练子模块，用于将每个归一化像素矩阵作为预设卷积神经网络的输入，将每个第一标签编码值作为预设卷积神经网络的输出，对预设卷积神经网络进行训练，得到字符识别模型。

该字符识别模块400可以包括：

识别子模块，用于利用字符识别模型对待识别字符图像集进行识别，得到待识别字符图像中每个字符图像的第二标签编码值；

第二确定子模块，用于根据每个第二标签编码值确定第二索引值，并根据第二索引值及预设字符集确定待识别字符图像中每个字符图像对应的字符；

删除子模块，用于将每个字符中的预设符号删除，得到字符识别结果。

该系统还可以包括：

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图6，图6为本申请实施例所提供的一种字符识别设备的结构图。

该字符识别设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在字符识别设备600上执行存储介质630中的一系列指令操作。

字符识别设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图3所描述的字符识别的方法中的步骤由字符识别设备基于该图6所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种字符识别的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种字符识别的方法，其特征在于，包括：

接收输入的训练字符图像集及待识别字符图像集；其中，所述训练字符图像集中的每个字符图像具有标签，所述标签与所述字符图像的字符内容一致；

确定所述训练字符图像集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将所述待补充字符图像的标签补充为长度为所述阈值的标签；

利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果；

其中，所述利用补充后的所述训练字符图像集训练预设卷积神经网络，得到字符识别模型，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果，包括：

3.根据权利要求1所述的方法，其特征在于，在得到字符识别结果之后，还包括：

输出字符识别完成的提示信息至预设位置。

4.一种字符识别的系统，其特征在于，包括：

接收模块，用于接收输入的训练字符图像集及待识别字符图像集；其中，所述训练字符图像集中的每个字符图像具有标签，所述标签与所述字符图像的字符内容一致；

标签补充模块，用于确定所述训练字符图像集中标签长度小于阈值的字符图像为待补充字符图像，并利用预设符号将所述待补充字符图像的标签补充为长度为所述阈值的标签；

字符识别模块，用于利用所述字符识别模型对所述待识别字符图像集进行识别，并将识别结果中的所述预设符号删除，得到字符识别结果；

其中，所述训练模块包括：第一确定子模块，用于确定所述训练字符图像集中每个所述字符图像的标签在预设字符集中的第一索引值；

5.根据权利要求4所述的系统，其特征在于，所述字符识别模块包括：

6.根据权利要求4所述的系统，其特征在于，还包括：

7.一种字符识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述字符识别的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述字符识别的方法的步骤。