CN111680688B

CN111680688B - 字符识别方法及装置、电子设备、存储介质

Info

Publication number: CN111680688B
Application number: CN202010527692.0A
Authority: CN
Inventors: 张发恩; 吴佳洪
Original assignee: Innovation Qizhi Chengdu Technology Co ltd
Current assignee: Innovation Qizhi Chengdu Technology Co ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-08-08
Anticipated expiration: 2040-06-10
Also published as: CN111680688A

Abstract

本申请提供一种字符识别方法及装置、电子设备、计算机可读存储介质，该方法包括：基于边缘检测算法计算待识别图像中待识别对象的边缘信息；依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像；依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像；将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的所述待识别图像中的字符；基于所述字符位置信息排列对应的字符，获得与所述字符区域框对应的字符识别结果。本申请实施例提供的技术方案，可以在字符识别时区分不同位置的字符，获得信息量丰富的字符识别结果。

Description

字符识别方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种字符识别方法及装置、电子设备、计算机可读存储介质。

背景技术

光学字符识别（Optical Character Recognition，OCR）技术被广泛应用于生产、生活的多种场景中，用于将图像上的形状翻译成计算机文字。目前普遍将深度学习的方法应用于字符识别。如果字符识别的待识别图像中多个位置存在字符，各位置的字符表征不同信息，在识别时需区分不同位置的字符，从而获得信息量丰富的字符识别结果。

发明内容

本申请实施例的目的在于提供一种字符识别方法及装置、电子设备、计算机可读存储介质，用以从图像中识别字符。

一方面，本申请提供了一种字符识别方法，包括：

基于边缘检测算法计算待识别图像中待识别对象的边缘信息；

依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像；

依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像；

将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的所述待识别图像中的字符；

基于所述字符位置信息排列对应的字符，获得与所述字符区域框对应的字符识别结果。

在一实施例中，所述依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像，包括：

基于所述边缘信息，判断是否对所述待识别图像中所述待识别对象进行仿射变换；

若否，从所述待识别图像中裁切所述待识别对象所处的局部图像，作为所述目标图像；

若是，对所述待识别对象在所述待识别图像中的局部图像进行仿射变换，得到所述目标图像。

在一实施例中，在裁切所述待识别子图像之前，所述方法还包括：

将所述目标图像与预设的多个模板图像进行比对，获得与所述目标图像匹配的模板图像。

在一实施例中，所述将所述目标图像与预设的多个模板图像进行比对，获得与所述目标图像匹配的模板图像，包括：

针对每一模板图像，基于所述模板图像中核对区域图像的核对位置信息，从所述目标图像中获取对应的目标子图像；

判断所述核对区域图像与所述目标子图像的相似度是否大于相似度阈值；

若是，确定所述模板图像与所述目标图像匹配；

若所述目标图像与所有模板图像不匹配，将所述目标图像绕中心点旋转180度，并将旋转后的目标图像重新与每一模板图像进行比对，直至确定与所述目标图像匹配的模板图像；其中，旋转后的目标图像用于裁切所述待识别子图像。

在一实施例中，所述分类模型包括多个处理不同字符的字符分类模型，针对每一字符区域框，各字符分类模型具有不同的优先级；

所述将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的每一待识别图像中的字符，包括：

针对每一字符区域框，将所述字符区域框中裁切出的所述待识别子图像，输入优先级最高的所述字符分类模型，获得字符分类结果；其中，所述字符分类结果包括对应于多个字符的置信度；

判断所述字符分类结果中最大置信度是否达到预设第一阈值；

若是，将所述最大的置信度对应的字符，作为所述待识别子图像中的字符。

在一实施例中，所述方法还包括：

若否，依照优先级从高至低的次序，将所述待识别子图像输入下一字符分类模型，获得字符分类结果；

返回判断所述字符分类结果中最大置信度是否达到所述第一阈值的步骤；

重复这个过程，直至获得所述待识别子图像中的字符。

在一实施例中，所述字符区域框包括被配置为关联组合的字符区域框，所述关联组合中包括至少两个存在关联关系的字符区域框，所述方法还包括：

判断所述目标图像在所述关联组合中字符区域框内是否存在水印；

若所述目标图像在任一字符区域框内存在水印，基于与所述字符区域框存在关联关系的字符区域框对应的字符识别结果，校正存在水印的字符区域框对应的字符识别结果。

另一方面，本申请还提供了一种字符识别装置，包括：

检测模块，用于将待识别图像作为已训练的边缘检测模型的输入，获得所述边缘检测模型输出的所述待识别图像中待识别对象的边缘信息；

矫正模块，用于依据所述边缘信息，从所待识别图像中获取所述待识别对象所处的目标图像；

裁切模块，用于依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像；

分类模块，用于将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的所述待识别图像中的字符；

识别模块，用于基于所述字符位置信息排列对应的字符，获得与所述字符区域框对应的字符识别结果。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述字符识别方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述字符识别方法。

本申请技术方案，检测出待识别图像中待识别对象的边缘信息后，可以依据该边缘信息从待识别图像中获取待识别对象所处的目标图像，然后基于模板图像中多个字符区域框的字符位置信息，从目标图像中裁切出多个待识别子图像，通过分类模型识别出待识别子图像中的字符后，可以依据字符位置信息排列对应的字符，从而获得与字符区域框对应的字符识别结果；通过上述措施，可以在字符识别时区分不同位置的字符，获得信息量丰富的字符识别结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的字符识别方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的字符识别方法的流程示意图；

图4为本申请一实施例提供的待识别图像的示意图；

图5为本申请一实施例提供的目标图像的示意图；

图6为本申请一实施例提供的模板图像的示意图；

图7为本申请一实施例提供的裁切目标图像的示意图；

图8为本申请又一实施例提供的字符识别方法的流程示意图；

图9为本申请一实施例提供的字符识别装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的字符识别方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是采集待识别图像的摄像机，可向服务端30传输待识别图像，服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以对客户端20上传的待识别图像，执行字符识别的业务。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的字符识别方法。

参见图3，为本申请一实施例提供的字符识别方法的流程示意图，如图3所示，该方法可以包括以下步骤310-步骤350。

步骤310：基于边缘检测算法计算待识别图像中待识别对象的边缘信息。

其中，待识别图像可以是拍摄待识别对象的照片；待识别对象可以是表面存在字符的事物，比如，包装盒、身份证、传单、告示牌等；字符可以包括汉字、英文字母和数字。参见图4，为本申请一实施例提供的待识别图像的示意图，待识别图像40内的待识别对象是身份证正面41。

边缘检测算法是用于检测待识别对象在待识别图像中的边缘信息的算法，边缘检测算法可以是PSENet（Progressive Scale Expansion Net，渐进式规模扩张网络）、HNN（Holistically-nested networks，整体嵌套网络）、高斯滤波等算法中的任意一种。

边缘信息用于表征待识别对象在待识别图像中的轮廓。

在一实施例中，服务端可以将待识别图像输入已训练的PSENet模型，获得PSENet模型输出的边缘信息。此时，该边缘信息可以是与待识别图像尺寸相同的掩膜（mask），该掩模的每一像素点与待识别图像中的像素点相对应。待识别图像中待识别对象所在位置的像素点在掩模中对应的像素点的值为0，待识别图像中背景部分的像素点在掩模中对应的像素点的值为1。

步骤320：依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像。

其中，目标图像指去除了待识别图像中的背景、用于后续处理的图像。

待识别对象在待识别图像中可能存在姿态不正、尺寸过大或过小的情况，这会影响后续的字符识别处理。服务端可以基于上述边缘信息，判断是否对待识别图像中待识别对象进行仿射变换。

在一实施例中，服务端可以从边缘信息中获取待识别对象的各个顶点的坐标。其中，本申请提及的坐标指的是以待识别图像的中点为原点建立的图像坐标系中的坐标，单位是毫米。比如，若待识别对象为四边形，服务端可以获取四个顶点的坐标，分别表示为（x₁，y₁）、（x₂，y₂）、（x₃，y₃）和（x₄，y₄）。

服务端以获取到的坐标生成尺寸为3*K（K表示顶点坐标的数量）的顶点坐标矩阵，该顶点坐标矩阵可表示为。

服务端根据指定顶点坐标，生成尺寸为3*K的指定顶点坐标矩阵，该指定顶点坐标矩阵可表示为。其中，指定顶点坐标是指待识别对象在姿态和尺寸正确时各个顶点的坐标，顶点坐标（x_i，y_i）在对应的指定顶点坐标为（x’_i，y’_i）。这里，顶点坐标和指定顶点坐标的对应关系根据坐标之间的相互关系来判断，在一实施例中，若待识别对象为四边形，基于四个顶点的坐标可判断四个顶点分别位于左上方、左下方、右上方、右下方；而指定顶点的相互关系同样使得四个指定顶点分别位于左上方、左下方、右上方、右下方。在这种情况下，左上方的顶点对应于左上方的指定顶点，右上方的顶点对应于右上方的指定顶点，依此类推。

指定顶点坐标矩阵和顶点坐标矩阵之间的关系可以通过如下公式（1）来表示：

*/>=/>（1）

其中，表示仿射变换矩阵，参数a₁、a₂、a₃、a₄表示旋转、缩放等变化，（tx，ty）表示顶点到对应的指定顶点所需要的平移量。

服务端通过顶点坐标矩阵和指定顶点坐标矩阵，可以计算出上述仿射变换矩阵。

一方面，如果顶点坐标矩阵与指定顶点坐标矩阵一致，则上述仿射变换矩阵为单位矩阵，在这种情况下，无需对待识别图像中的待识别对象进行仿射变换。

另一方面，如果顶点坐标矩阵与指定顶点坐标矩阵不一致，则上述仿射变换矩阵不为单位矩阵，在这种情况下，需要对待识别图像中的待识别对象进行仿射变换。

在不需要仿射变换的情况下，服务端可以从上述待识别图像中裁切待识别对象所处的局部图像，并将裁切得到的局部图像作为目标图像。

在需要仿射变换的情况下，服务端可以对待识别对象在待识别图像中的局部图像进行仿射变换，得到目标图像。

服务端可以利用上述仿射变换矩阵，对待识别对象在待识别图像中局部图像的每一像素点进行仿射变换。局部图像中的任意像素点坐标可表示为（x_m，y_n），表示局部图像中第m行、第n列的像素点。该像素点经仿射变换后的坐标可表示为（x’_m，y’_n）。可以通过如下公式（2）计算出新的坐标：

*/>=/>（2）

其中，表示仿射变换矩阵。

获得局部图像的所有像素点仿射变换后的坐标后，服务端获得目标图像，该目标图像包括所有仿射变换后的像素点。如图4所示，身份证正面41需要仿射变换，服务端对身份证正面41的每一像素点进行仿射变换后，得到目标图像。参见图5，为本申请一实施例提供的目标图像的示意图，图5中目标图像由图4中身份证正面41仿射变换得到。

步骤330：依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像。

其中，模板图像为与目标图像尺寸相同的图像，模板图像上存在多个字符区域框。在一实施例中，可以将模板图像和目标图像在同一图像坐标系中进行对齐，此时模板图像中字符区域框的字符位置信息，可以认为指示目标图像中字符的位置。

字符区域框用于限定目标图像上待识别的字符所处的位置。字符区域框内可以仅包括一个字符，也可以包括多个字符，因此，字符区域框的字符位置信息可以是一个或多个。

待识别子图像中依据字符位置信息从目标图像的字符区域框内裁切出的图像，每一待识别子图像内存在最多一个字符，换而言之，待识别子图像内可能有一个字符，也可能不存在字符。

参见图6，为本申请一实施例提供的模板图像的示意图，如图6所示，模板图像50为身份证正面的模板图像，模板图像上的虚线框表示字符区域框，字符区域框预配置字符位置信息。在识别身份证上的身份信息的应用场景中，不同的身份证上同一字符区域框内的字符数可能是不同的。以图6中的字符区域框501为例，该字符区域框内的字符数可能是两个、三个、四个甚至更多个。为解决这个问题，每一字符区域框配置该字符区域框可能存在的最多个数的字符位置信息。仍以图6中字符区域框501为例，该字符区域框可以预设6个字符位置信息。

服务端可以依据字符区域框的字符位置信息，从目标图像中裁切出多个待识别子图像。

参见图7，为本申请一实施例提供的裁切目标图像的示意图。如图7所示，服务端通过图6示出的模板图像，对图5中的目标图像进行裁切，获得待识别子图像。以字符区域框501为例，服务端可在该字符区域框内裁切出对应于汉字“张”和“某”的待识别子图像，用于后续识别；此外，服务端还可以裁切出字符区域框501内不存在字符的待识别子图像，这些不存在字符的待识别子图像中不会识别出字符，所以对字符区域框501的字符识别结果没有影响。

步骤340：将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的所述待识别图像中的字符。

其中，分类模型可以是CRNN（Convolutional Recurrent Neural Network，卷积递归神经网络）、ResNet、EfficientNet等网络模型中的任意一种。

服务端通过分类模型对待识别子图像进行计算，可以获得对应于待识别子图像的多维向量，该多维向量的维度是分类模型可以识别的所有字符的类别数，多维向量中的元素为对应于每一字符的置信度。服务端可以将多维向量中最大的置信度对应的字符，作为待识别子图像中的字符。

步骤350：基于所述字符位置信息排列对应的字符，获得与所述字符区域框对应的字符识别结果。

在获得上述待识别子图像中的字符后，服务端可以基于与待识别子图像对应的字符位置信息，对字符进行排列，从而获得可表征具体信息的字符识别结果。

以图7为例，服务端可以获得字符区域框501内的字符“张”和“某”，依据这两个字符所在的待识别子图像对应的字符位置信息，可以确定“张”在“某”的左侧，服务端可依据从左往右的顺序对字符进行排序，获得字符串“张某”，该字符串为字符区域框501对应的字符识别结果。针对地址栏右侧的字符区域框，服务端获得其中的多个字符后，可依据字符位置信息以从左往右、从上往下的顺序进行排序，从而获得表征地址信息的字符串，作为字符识别结果。

服务端对各字符区域框内的字符进行排序后，可以获得与每一字符区域框对应的字符串，作为字符识别结果。

在一实施例中，模板图像中的字符区域框包括被配置为关联组合的字符区域框，该关联组合中包括至少两个存在关联关系的字符区域框。其中，关联关系表示不同字符区域框内存在相同的字符，每一关联关系被预配置不同的字符区域框内相同字符的字符位置信息之间的映射关系。

在该实施例中，服务端可以通过字符区域框之间的关联关系，对字符识别结果进行校正。

服务端可以判断目标图像在关联组合中字符区域框内是否存在水印。在一实施例中，服务端可以计算目标图像在关联组合中每一字符区域框内的像素点密度，并判断各字符区域框对应的像素点密度是否大于预设密度阈值。其中，该密度阈值可以是经验值，用以区分存在水印的图像。

一方面，如果所有字符区域框对应的像素点密度均不大于密度阈值，说明目标图像在关联组合的各字符区域框内没有水印，无需校正字符识别结果。

另一方面，如果任一字符区域框对应的像素点密度大于密度阈值，说明目标图像在该字符区域框内存在水印。在这种情况下，服务端可以基于与字符区域框存在关联关系的字符区域框对应的字符识别结果，校正存在水印的字符区域框对应的字符识别结果。服务端可以检查存在水印的字符区域框内第一字符位置信息上的字符，是否与该指定字符位置信息对应的第二字符区域框内字符位置信息上的字符一致。这里，第一字符位置信息经配置与第二字符位置信息存在映射关系，第一字符位置信息上的字符与第二字符位置信息上的字符应当相同。如果两者不一致，服务端可以根据第二字符位置信息上的字符，替换第一字符位置信息上的字符，从而校正存在水印的字符区域框对应的字符识别结果。

以图7为例，出生栏指示年份信息的字符区域框可与公民身份号码右侧的字符区域框建立关联关系，两个字符区域框中均包括指示年份信息的字符串，则该关联关系可以记录两个字符区域框中相同字符的字符位置信息的映射关系。当服务端确定出生栏右侧的字符区域框中存在水印，且该字符区域框中的年份信息与公民身份号码右侧的字符区域框中的年份信息不一致时，可以根据公民身份号码右侧的字符区域框对应的字符识别结果中的年份信息，校正出生栏右侧字符区域框中的年份信息。

在一实施例中，假设服务端需对不同类型的目标图像进行字符识别，此时，不同类型的目标图像对应的模板图像不同。比如，当待识别图像中包括身份证正面和身份证反面时，服务端为身份证正面和身份证反面选择的模板图像不同。

在这个实施例中，执行步骤330之前，服务端可以将目标图像与预设的多个模板图像进行比对，获得与目标图像匹配的模板图像。

其中，模板图像与目标图像相匹配，指模板图像与目标图像存在相同特征。比如：模板图像与目标图像存在相同的局部图像，则说明两者相匹配。

模板图像可以预配置核对区域图像的核对位置信息。其中，核对区域图像是用以与目标图像的局部图像进行核对的图像，核对位置信息用以指示核对区域图像在模板图像中的位置。以图6示出的模板图像为例，实线框502内的局部图像是核对区域图像。

为获得与目标图像匹配的模板图像，在一实施例中，服务端可以针对每一模板图像，基于模板图像中核对区域图像的核对位置信息，从目标图像中获取对应的目标子图像。其中，目标子图像是目标图像中对应于核对位置信息的局部图像。

服务端可以通过相似度算法计算上述核对区域图像与上述目标子图像之间的相似度，并判断核对区域图像与目标子图像的相似度是否大于相似度阈值。其中，相似度阈值可以是经验值，用于区分足够近似的两个图像。相似度算法可以是SSIM（StructuralSimilarity Index，结构相似度指数）算法、PSNR（Peak Signal to Noise Ratio，峰值信噪比）算法、MSE（Mean Squared Error，均方误差）等任意一种。

一方面，如果核对区域图像与目标子图像的相似度大于相似度阈值，确定模板图像与目标图像匹配。服务端可以基于该模板图像执行步骤330。

另一方面，若所有模板图像的核对区域图像与目标子图像的相似度均不大于相似度阈值，可能是目标图像上下颠倒。此时，服务端可以将目标图像绕中心点旋转180度，并将旋转后的目标图像重新与每一模板图像进行比对。重新比对时，服务端从旋转后的目标图像中获取与核对位置信息对应的目标子图像，并通过新的目标子图像与各模板图像的核对区域图像之间的相似度，确定与旋转后的目标图像匹配的模板图像。在这种情况下，服务端执行步骤330时，从旋转后的目标图像中裁切待识别子图像。

在一实施例中，上述分类模型包括多个处理不同字符的字符分类模型，比如，在针对身份证进行字符识别的应用场景中，分类模型可以包括用于识别数字的字符分类模型、用于识别字母的字符分类模型和用于识别汉字的字符分类模型。对于限定特定信息的字符区域框，该字符区域框内的字符的种类与特定信息是对应的。比如：在对身份证进行字符识别的应用场景中，限定身份证号码的字符区域框内的字符，绝大多数是数字、存在少量字母，不存在汉字。

有鉴于此，为提高分类模型的分类效率和准确度，针对每一字符区域框，个字符分类模型预配置不同的优先级。比如：在对身份证进行字符识别的应用场景中，对于限定身份证号码的字符区域框，用于识别数字的字符分类模型的优先级最高，用于识别字母的字符分类模型的优先级较低；对于限定地址的字符区域框，用于识别汉字的字符分类模型的优先级最高，用于识别数字的字符分类模型的优先级较低，用于识别字母的字符分类模型的优先级最低。

在执行步骤340时，服务端可以通过上述多个字符分类模型实现字符分类。参见图8，为本申请一实施例提供的字符识别方法的流程示意图，如图8所示，在执行步骤340时，可以包括步骤341-步骤344。

步骤341：针对每一字符区域框，将字符区域框中裁切出的待识别子图像，输入优先级最高的字符分类模型，获得字符分类结果。

其中，字符分类结果是对应于待识别子图像的多维向量，该多维向量的维度是字符分类模型可以识别的所有字符的类别数，多维向量中的元素为对应于每一字符的置信度。

对于每一字符区域框，服务端可以将从该字符区域框裁切出的每一待识别子图像逐个输入优先级最高的字符分类模型，从而获得对应于每一待识别子图像的字符分类结果。

步骤342：判断字符分类结果中最大置信度是否达到第一阈值。

其中，第一阈值用于区分正确的字符分类结果，该第一阈值可以是经验值0.7。

服务端可以对每一待识别子图像对应的字符分类结果进行判断，基于不同的判断结果进行执行步骤343或步骤344。

一种情况下，如果字符分类结果中最大置信度大于第一阈值，此时，服务端可以执行步骤343：将最大置信度对应的字符，作为待识别子图像中的字符。服务端对该待识别子图像的字符识别过程结束。

另一种情况下，如果字符分类结果中最大置信度不大于第一阈值，此时，服务端可以执行步骤344：依照优先级从高至低的次序，将待识别子图像输入下一字符分类模型，获得字符分类结果。比如：在对身份证进行字符识别的应用场景中，对于限定身份证号码的字符区域框中的待识别子图像，服务端从用于识别数字的字符分类模型获得字符分类结果，该字符分类结果中最大置信度不大于第一阈值，说明该待识别子图像中的字符不是数字，按照优先级从高至低的次序，服务端可以将该待识别子图像输入用于识别字母的字符识别模型，获得新的字符识别结果。

在执行步骤344后，服务端重新执行步骤342：判断字符分类结果中最大置信度是否达到第一阈值。服务端可以重新基于判断结果，执行步骤343或步骤344，重复这个过程，直至获得待识别子图像中的字符。

在一实施例中，执行步骤340之前，服务端可以对深度学习模型进行训练，从而获得分类模型。其中，深度学习模型可以是未经训练的CRNN、ResNet、EfficientNet等网络模型中的任意一种。

当分类模型包括多个字符分类模型时，服务端可以分别训练用于识别数字的字符分类模型、用于识别字母的字符分类模型和用于识别汉字的字符分类模型。

在训练用于识别数字的字符分类模型时，服务端可以将携带第一标签的第一样本图像输入深度学习模型，获得深度学习模型的分类结果。其中，第一样本图像是存在唯一数字的图像，第一标签指示第一样本图像中的数字。

服务端依据分类结果与第一标签之间的差异，调整深度学习模型的网络参数。这个过程反复迭代，直至深度学习模型收敛，得到用于识别数字的字符分类模型。

在训练用于识别字母的字符分类模型时，服务端可以将携带第二标签的第二样本图像输入深度学习模型，获得深度学习模型的分类结果。其中，第二样本图像是存在唯一字母的图像，第二标签指示第二样本图像中的字母。

服务端依据分类结果与第二标签之间的差异，调整深度学习模型的网络参数。这个过程反复迭代，直至深度学习模型收敛，得到用于识别字母的字符分类模型。

由于常用汉字的数量较多，可以通过多个字符分类模型来识别汉字。在这种情况下，服务端可以对大量第三样本图像进行聚类，获得预设数量的簇，每个簇中包含特征近似的第三样本图像。其中，第三样本图像是存在唯一汉字的图像，第三样本图像携带第三标签，该第三标签指示第三样本图像中的汉字。当不同的第三样本图像中汉字的字形相似时，它们的特征近似。

比如：服务端对大量记录八千多个常用汉字的第三样本图像进行聚类，获得4个簇，每个簇中存在特征近似的记录两千多个汉字的第三样本图像。其中，汉字“大”所在的第三样本图像与汉字“太”所在的第三样本图像会被划分至同一个簇中。

针对每个簇中的第三样本图像，服务端可以将携带第三标签的第三样本图像输入深度学习模型，获得深度学习模型的分类结果。服务端依据分类结果与第三标签之间的差异，调整深度学习模型的网络参数。这个过程反复迭代，直至深度学习模型收敛，得到用于识别这个簇中第三样本图像上的汉字的字符分类模型。服务端利用每个簇的第三样本图像分别训练字符分类模型后，可以获得多个用于识别汉字的字符分类模型。用于识别汉字的多个字符分类模型对于任一字符区域框而言，优先级是相同的。

图9是本发明一实施例提供的字符识别装置的框图。如图9所示，该装置可以包括：检测模块910、矫正模块920、裁切模块930、分类模块940、识别模块950。

检测模块910，用于将待识别图像作为已训练的边缘检测模型的输入，获得所述边缘检测模型输出的所述待识别图像中待识别对象的边缘信息。

矫正模块920，用于依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像。

裁切模块930，用于依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像。

分类模块940，用于将所述待识别子图像作为已训练的分类模型的输入，获得所述分类模型输出的所述待识别图像中的字符。

识别模块950，用于基于所述字符位置信息排列对应的字符，获得与所述字符区域框对应的字符识别结果。

在一实施例中，矫正模块920，用于：

在一实施例中，裁切模块930，用于：

若是，确定所述模板图像与所述目标图像匹配；

在一实施例中，分类模块940，用于：

重复这个过程，直至获得所述待识别子图像中的字符。

在一实施例中，识别模块950，用于：

上述装置中各个模块的功能和作用的实现过程具体详见上述字符识别方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种字符识别方法，其特征在于，包括：

依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像；所述待识别子图像内存在最多一个字符；

2.根据权利要求1所述的方法，其特征在于，所述依据所述边缘信息，从所述待识别图像中获取所述待识别对象所处的目标图像，包括：

3.根据权利要求1所述的方法，其特征在于，在裁切所述待识别子图像之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标图像与预设的多个模板图像进行比对，获得与所述目标图像匹配的模板图像，包括：

若是，确定所述模板图像与所述目标图像匹配；

5.根据权利要求1所述的方法，其特征在于，所述分类模型包括多个处理不同字符的字符分类模型，针对每一字符区域框，各字符分类模型具有不同的优先级；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

重复这个过程，直至获得所述待识别子图像中的字符。

7.根据权利要求1所述的方法，其特征在于，所述字符区域框包括被配置为关联组合的字符区域框，所述关联组合中包括至少两个存在关联关系的字符区域框，所述方法还包括：

8.一种字符识别装置，其特征在于，包括：

裁切模块，用于依据预设模板图像中多个字符区域框的字符位置信息，从所述目标图像中裁切出多个待识别子图像；所述待识别子图像内存在最多一个字符；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的字符识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的字符识别方法。