CN112036221A

CN112036221A - 对字符图像进行处理的装置、方法和介质

Info

Publication number: CN112036221A
Application number: CN201910481906.2A
Authority: CN
Inventors: 汪留安; 于小亿; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2020-12-04
Also published as: JP2020198090A

Abstract

公开了一种对字符图像进行处理的装置、方法和介质。所述装置包括：第一识别单元，其利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；第二识别单元，其利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；对齐单元，其使所述第一字符识别结果与所述第二字符识别结果对齐；以及调整单元，其基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果，其中，所述第一识别单元还通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

Description

对字符图像进行处理的装置、方法和介质

技术领域

本公开涉及字符图像处理的技术领域，具体地涉及对字符图像进行处理的装置和方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

手写字符的识别非常重要。由于书写风格的多样性、无约束语言域、大字符集、字符形状变化以及由可变字符大小等引起的字符分割问题，识别是一项具有挑战性的任务。输入图像供人识别非常清晰，但机器可能无法识别正确的结果。因此，可能需要对输入图像进行修正。这将有助于自动获得更准确的识别结果。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种字符图像处理方法，其有效地提高了字符识别的精度。本公开的字符图像处理方法利用了两种不同的字符识别方法，其中，基于一种字符识别的结果对另一种字符识别的结果进行训练过程中的参数调整，从而获得更加准确的字符识别结果。

根据本公开的一方面，提供了一种对字符图像进行处理的装置，包括：第一识别单元，其利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；第二识别单元，其利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；对齐单元，其使所述第一字符识别结果与所述第二字符识别结果对齐；以及调整单元，其基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果，其中，所述第一识别单元还通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

根据本公开的另一方面，提供了一种对字符图像进行处理的方法，包括：利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；使所述第一字符识别结果与所述第二字符识别结果对齐；基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果；以及通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的对字符图像进行处理的方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1为根据本公开的一个实施例的对字符图像进行处理的装置100的框图；

图2为根据本公开的另一个实施例的对字符图像进行处理的装置200的框图；

图3为根据本公开的一个实施例的手写地址图像经分割处理后的多个粗略块；

图4为根据本公开的一个实施例的通过卷积神经网路CNN粗识别后的多个候选地址字符串；

图5为根据本公开的一个实施例的手写地址图像的最终识别结果；

图6为根据本公开的一个实施例的对字符图像进行处理的方法的流程图；以及

图7为其中可以实现根据本公开的实施例的对字符图像进行处理的装置和方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

本公开的目的在于提供一种字符图像处理装置，其有效地提高了字符识别的精度。本公开的字符图像处理装置利用了两种不同的字符识别方法，其中，基于一种字符识别的结果对另一种字符识别的结果进行训练过程中的参数调整，从而获得更加准确的字符识别结果。

根据本公开的一个实施例，提供了一种对字符图像进行处理的装置，包括：第一识别单元，其利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；第二识别单元，其利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；对齐单元，其使所述第一字符识别结果与所述第二字符识别结果对齐；以及调整单元，其基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果，其中，所述第一识别单元还通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

如图1所示，根据本公开的对字符图像进行处理的装置100可以包括第一识别单元101、第二识别单元102、对齐单元103和调整单元104。

第一识别单元101可以利用第一字符识别模型对字符图像进行第一粗识别处理，以获得第一字符识别结果。所述第一字符识别模型可以是对图片文件中的文字进行分析和识别的模型。例如，根据本公开的一个实施例，第一识别单元101可以利用光学字符识别(OCR)引擎对字符图像进行粗识别，以获得一个粗识别结果。这里，本领域技术人员应该清楚，所述OCR引擎仅是示例性的，本公开并不限于此。

然后，第二识别单元102可以利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果。所述第二字符识别模型可以是基于神经网络的图片文字识别的模型例如卷积循环神经网络(CRNN)模型。CRNN模型可以描述为一种修改的卷积神经网络(CNN)模型，其中，CNN的最后一个卷积层可以由RNN替换。在CRNN模型中，CNN可以用作特征提取器，而RNN可以用作时间摘要生成器。采用RNN来聚合特征可以使得网络能够考虑全局结构，而剩余的卷积层可以用来提取局部特征。根据本公开的一个实施例，例如，将包含字符序列的输入图像馈送到CRNN模型中。然后，可以通过端到端训练来获得识别结果。这里，本领域技术人员应该清楚，所述CRNN模型仅是示例性的，本公开并不限于此。

接下来，对齐单元103可以使所述第一识别单元101识别的粗识别结果与所述第二识别单元102识别的识别结果对齐。这里，可以采用任何现有技术中的对齐方法，例如基于编辑距离的对齐方法等。

然后，调整单元104可以基于所述第二识别单元102识别的识别结果对所述第一粗识别过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果。这里，根据本公开的实施例，在第一粗识别过程中，可能产生多个候选粗识别结果序列，根据本公开的调整单元104可以基于所述第二识别单元102识别的识别结果分别对所述第一粗识别过程中产生的多个候选粗识别结果序列中的字符进行调整，以获得多个调整后的字符识别结果序列。

接下来，根据本公开的实施例的第一识别单元101可以通过路径估计及搜索算法的方式，对所述多个调整后的字符识别结果序列进行处理，以获得最终的字符识别结果。

使用根据本公开的字符图像处理装置，有效地提高了字符识别的精度。本公开的字符图像处理装置利用了两种不同的字符识别方法，其中，基于一种字符识别的结果对另一种字符识别的结果进行训练过程中的参数调整，从而获得更加准确的字符识别结果。

根据本公开的一个实施例，对字符图像进行处理的装置还可以包括预处理单元，其对所述字符图像进行预处理，所述预处理包括图像去噪处理、归一化处理和二值化处理。

如图2所示，根据本公开的对字符图像进行处理的装置200还可以包括预处理单元105。所述预处理单元105可以对所述字符图像进行预处理。所述预处理包括但不限于图像去噪处理、归一化处理和二值化处理。例如，根据本公开的一个实施例，在所述字符图像经所述预处理单元105预处理之后可以获得所述字符图像的连通分量。接下来，通过分析所述连通分量和轮廓，根据本公开的实施例的第一识别单元101可以利用例如过分割算法对所述字符图像进行字符分割。

根据本公开的一个实施例，所述第一粗识别处理可以包括第一分割处理和基于卷积神经网络(CNN)的识别处理。所述第一分割处理可以是过分割处理。根据本公开的一个实施例，所述过分割处理可以包括：将所述字符图像中的字符串分割成多个粗略块。然后，经分割后的多个粗略块可以经训练的CNN模型识别为多个候选字符串。

例如，如图3所述，以手写地址图像为例，根据本公开实施例的分割处理可以是将手写地址图像分割成如图3所示的多个粗略块。然后，可以使用训练的CNN模型对分割后的粗略块进行识别，其中，如图4所示，针对每个块，提供了多个候选地址串。

接下来，根据本公开的一个实施例，可以通过路径估计及搜索算法例如集束搜索算法获得最终的如图5所示的手写地址的第一识别结果。所述路径估计可以基于字符分类、几何上下文和语言上下文的不同组合。根据本公开的一个实施例，可以通过找出具有最大路径评估分数的路径来获得最终的识别结果。这里，本领域技术人员应该清楚，所述集束搜索算法仅是示例性的，本公开并不限于此。

然后，根据本公开的一个实施例，可以同时利用CRNN模型对所述手写地址图像进行第二分割处理。然后，可以通过端到端训练来获得手写地址的第二识别结果。

接下来，根据本公开的一个实施例，对齐单元103可以使通过所述第一粗识别处理获得的手写地址的第一识别结果与利用CRNN模型分割的手写地址的第二识别结果对齐。如上所述，可以采用任何现有技术中的对齐方法。

接下来，根据本公开的一个实施例，调整单元104可以基于CRNN模型分割的手写地址的第二识别结果，根据替换字符操作、插入字符操作和删除字符操作等对所述第一粗识别处理过程中的每个候选地址串的有关CNN识别的系数进行调整。例如，根据本公开的一个实施例，当对候选地址串中的字符进行替换或插入字符操作时，可以通过将CNN识别相关的系数例如k1调整为2(K1＝2)来增加CNN分数，而当对候选地址串中的字符进行删除操作时，可以通过将CNN识别相关的系数例如K2调整为0.5(K2＝0.5)来降低CNN分数。这里，本领域技术人员应该清楚，对所述第一粗识别处理过程中的字符操作仅是示例性的，本公开并不限于此。另外，本领域技术人员应该清楚，对CNN识别相关的系数的调整也是示例性的，本公开并不限于此，本领域技术人员可以根据不同字符操作根据实践经验或实际需求设定不同的CNN识别系数。

接下来，根据本公开的一个实施例，所述第一识别单元101可以再次通过路径估计及搜索算法的方式，对经CNN识别系数调整后的字符识别结果进行处理，以获得最终的字符识别结果。

使用根据本公开的字符图像处理装置，有效地提高了字符识别的精度。根据本实施例的字符图像处理装置利用了过分割和CRNN两种不同的字符识别方法，其中，基于CRNN字符识别结果对过分割的识别结果进行过分割处理后CNN训练过程中的参数调整，从而获得更加准确的字符识别的结果。

下面将结合图6来描述根据本公开的实施例的对字符图像进行处理的方法。如图6所示，根据本公开的实施例的对字符图像进行处理的方法开始于步骤S610。

在步骤S610中，利用第一字符识别模型对字符图像进行第一粗识别处理，以获得第一字符识别结果。

接下来，在步骤S620中，利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果。

接下来，在步骤S630中，使所述第一字符识别结果与所述第二字符识别结果对齐。

接下来，在步骤S640中，基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果。

最后，在步骤S650中，通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

根据本公开的一个实施例的对字符图像进行处理的方法还包括对所述字符图像进行预处理的步骤，所述预处理包括图像去噪处理、归一化处理和二值化处理。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，根据替换字符操作、插入字符操作和删除字符操作对所述第一粗识别处理过程中的每个粗识别结果的系数进行调整。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，所述第一粗识别处理包括第一分割处理和基于卷积神经网络的识别处理。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，所述第一分割处理是过分割处理。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，所述过分割处理包括将所述字符图像中的字符串分割成多个粗略块的步骤。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，所述第二字符识别模型是卷积循环神经网络模型。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，采用编辑距离的方式使所述第一字符识别结果与所述第二字符识别结果对齐。

根据本公开的一个实施例的对字符图像进行处理的方法，其中，通过集束搜索算法对所述调整后的字符识别结果进行处理。

根据本公开的实施例的对字符图像进行处理的方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的对字符图像进行处理的方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其他适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

图7为其中可以实现根据本公开的实施例的对字符图像进行处理的方法的通用个人计算机1300的示例性结构的框图。

如图7所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种对字符图像进行处理的装置，包括：

第一识别单元，其利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；

第二识别单元，其利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；

对齐单元，其使所述第一字符识别结果与所述第二字符识别结果对齐；以及

调整单元，其基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果，

其中，所述第一识别单元还通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

附记2.根据附记1所述的装置，还包括预处理单元，其对所述字符图像进行预处理，所述预处理包括图像去噪处理、归一化处理和二值化处理。

附记3.根据附记1所述的装置，其中，所述调整单元根据替换字符操作、插入字符操作和删除字符操作对所述第一粗识别处理过程中的每个粗识别结果的系数进行调整。

附记4.根据附记1所述的装置，其中，所述第一粗识别处理包括第一分割处理和基于卷积神经网络的识别处理。

附记5.根据附记4所述的装置，其中，所述第一分割处理是过分割处理。

附记6.根据附记5所述的装置，其中，所述过分割处理包括：将所述字符图像中的字符串分割成多个粗略块。

附记7.根据附记5所述的装置，其中，所述第二字符识别模型是卷积循环神经网络模型。

附记8.根据附记1所述的装置，其中，所述对齐单元采用编辑距离的方式使所述第一字符识别结果与所述第二字符识别结果对齐。

附记9.根据附记1所述的装置，其中，所述第一识别单元还通过集束搜索算法对所述调整后的字符识别结果进行处理。

附记10.一种对字符图像进行处理的方法，包括：

利用第一字符识别模型对所述字符图像进行第一粗识别处理，以获得第一字符识别结果；

利用第二字符识别模型对所述字符图像进行第二分割处理，以获得第二字符识别结果；

使所述第一字符识别结果与所述第二字符识别结果对齐；

基于所述第二字符识别结果对所述第一粗识别处理过程中的每个粗识别结果进行调整，以获得调整后的字符识别结果；以及

通过路径估计及搜索算法的方式，对所述调整后的字符识别结果进行处理，以获得最终的字符识别结果。

附记11.根据附记10所述的方法，还包括对所述字符图像进行预处理，所述预处理包括图像去噪处理、归一化处理和二值化处理。

附记12.根据附记10所述的方法，其中，根据替换字符操作、插入字符操作和删除字符操作对所述第一粗识别处理过程中的每个粗识别结果的系数进行调整。

附记13.根据附记10所述的方法，其中，所述第一粗识别处理包括第一分割处理和基于卷积神经网络的识别处理。

附记14.根据附记13所述的方法，其中，所述第一分割处理是过分割处理。

附记15.根据附记14所述的方法，其中，所述过分割处理包括将所述字符图像中的字符串分割成多个粗略块。

附记16.根据附记10所述的方法，其中，所述第二字符识别模型是卷积循环神经网络模型。

附记17.根据附记10所述的方法，其中，采用编辑距离的方式使所述第一字符识别结果与所述第二字符识别结果对齐。

附记18.根据附记10所述的方法，其中，通过集束搜索算法对所述调整后的字符识别结果进行处理。

附记19.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记10-18中任何一项所述的方法。

Claims

1.一种对字符图像进行处理的装置，包括：

2.根据权利要求1所述的装置，还包括预处理单元，其对所述字符图像进行预处理，所述预处理包括图像去噪处理、归一化处理和二值化处理。

3.根据权利要求1所述的装置，其中，所述调整单元根据替换字符操作、插入字符操作和删除字符操作对所述第一粗识别处理过程中的每个粗识别结果的系数进行调整。

4.根据权利要求1所述的装置，其中，所述第一粗识别处理包括第一分割处理和基于卷积神经网络的识别处理。

5.根据权利要求4所述的装置，其中，所述第一分割处理是过分割处理。

6.根据权利要求5所述的装置，其中，所述过分割处理包括：

将所述字符图像中的字符串分割成多个粗略块。

7.根据权利要求5所述的装置，其中，所述第二字符识别模型是卷积循环神经网络模型。

8.根据权利要求1所述的装置，其中，所述对齐单元采用编辑距离的方式使所述第一字符识别结果与所述第二字符识别结果对齐。

9.一种对字符图像进行处理的方法，包括：

使所述第一字符识别结果与所述第二字符识别结果对齐；

10.一种机器可读存储介质，其上携带有程序产品，所述程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据权利要求9所述的方法。