CN113903036B

CN113903036B - 一种文本识别方法、装置、电子设备、介质及产品

Info

Publication number: CN113903036B
Application number: CN202111329026.7A
Authority: CN
Inventors: 刘珊珊; 乔美娜; 吴亮; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2023-11-03
Anticipated expiration: 2041-11-10
Also published as: CN113903036A

Abstract

本公开提供了一种文本识别方法、装置、电子设备、介质及产品，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于文字识别技术领域。具体实现方案为：获取待识别图片，然后基于待识别图片的长度确定滑窗，并利用滑窗对待识别图片进行裁剪，得到多个子图片，其中滑窗的宽度为待识别图片的宽度，滑窗的长度为指定长度，相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型，得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果，确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。

Description

一种文本识别方法、装置、电子设备、介质及产品

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于文字识别技术领域。

背景技术

光学字符识别(optical character recognition，OCR)可以从图片中识别文本。OCR技术的应用广泛，例如，智能词典笔可以通过摄像头扫描文字，得到包括文本的图片，并进一步对图片采用OCR技术得到图片中的文本。

发明内容

本公开提供了一种文本识别方法、装置、电子设备、介质及产品。

本公开实施例的第一方面，提供了一种文本识别方法，包括：

获取待识别图片；

基于所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片的宽度相同，所述滑窗的长度小于所述待识别图片的长度，相邻的子图片之间存在重叠区域；

将各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；

根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果。

本公开实施例的第二方面，提供了一种文本识别装置，包括：

获取模块，用于获取待识别图片；

裁剪模块，用于基于所述获取模块获取的所述待识别图片的长度确定滑窗，并利用所述滑窗对待识别图片进行裁剪，得到多个子图片，其中，所述滑窗的宽度与所述待识别图片的宽度相同，所述滑窗的长度小于所述待识别图片的长度，相邻的子图片之间存在重叠区域；

输入模块，用于将所述裁剪模块裁剪的各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；

确定模块，用于根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果。

本公开实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的文本识别方法。

本公开实施例的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述任一项所述的文本识别方法。

本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一项所述的文本识别方法。

本公开实施例提供的文本识别方法、装置、电子设备、介质及产品，可以基于待识别图片的长度确定滑窗，并利用滑窗将待识别图片裁剪成多个子图片，然后利用识别模型分别对各子图片进行识别，再基于子图片对应的输出结果得到待识别图片的文本识别结果。本公开实施例对图片进行裁剪后分别识别，可以提高对图片中文本的识别准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种文本识别方法的流程图；

图2是本公开实施例提供的一种图像裁剪的示例性示意图；

图3是本公开实施例提供的另一种文本识别方法的流程图；

图4是本公开实施例提供的另一种文本识别方法的流程图；

图5是本公开实施例提供的一种初始图片的示例性示意图；

图6是本公开实施例提供的另一种初始图片的示例性示意图；

图7是本公开实施例提供的另一种初始图片的示例性示意图；

图8是本公开实施例提供的另一种文本识别方法的流程图；

图9是本公开实施例提供的一种文本识别过程的示例性示意图；

图10是本公开实施例提供的一种文本识别装置的结构示意图；

图11是用来实现本公开实施例的文本识别的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

光学字符识别(optical character recognition，OCR)技术可以对图片中的文本进行识别。OCR技术的应用范围广，例如在教育领域中，智能词典笔可以通过扫描获得包含文字的图片，并通过OCR技术识别图片中的文字，以进一步进行翻译和搜索等功能。如果对文本的识别出错，那么后续的翻译和搜索也会存在问题，因此文本识别的准确性十分重要。在实际应用场景中，图片中的文本的形式较为复杂，例如，图片中可能包含排列密集的文本、超长的文本以及尺寸过小的文本，这些情况对文本识别带来了巨大的挑战。

目前，对于对图片中文本的识别所采用的识别模型分为两类，第一类是以神经网络的时序类分类模型为基础(Connectionist temporal classification based，CTCbased)的模型，第二类是以注意力模型为基础(ATTENTION based)的模型。

第二类模型对输入特征采用串行预测方式，模型占用内存大、且预测速度慢。

第一类模型对输入特征采用并行预测方式，模型占用内存小且预测速度快，但是第一类模型缺乏语义信息。在缺乏语义信息时，模型对长文本的识别准确率低。而且模型对图片中的密集文本和过小文本的识别准确度低。另外如果图片过长，模型对图片中文本的识别速度较慢，因此模型一般会对图片进行压缩，而图片压缩后图片中的特殊文本(包括长文本、密集文本和过小文本)的识别难度会进一步提升，导致模型的识别准确率低，甚至无法识别或者识别乱码。

为了提高对图片中文本的识别准确率，本公开实施例提供了一种文本识别方法，该方法可以应用于电子设备，其中电子设备可以是手机、计算机或者词典笔等具备图片处理能力的设备。如图1所示，本公开实施例提供的文本识别方法可以包括如下步骤：

S101、获取待识别图片。

其中，待识别图片中包括文本。

S102、基于待识别图片的长度确定滑窗，并利用滑窗对待识别图片进行裁剪，得到多个子图片。

其中，滑窗的宽度与待识别图片的宽度相同，滑窗的长度小于待识别图片的长度，例如滑窗的长度为指定长度。相邻的子图片之间存在重叠区域，例如相邻的子图片之间的重叠区域尺寸为预设尺寸。

一种实施方式中，可以判断待识别图片的长度是否超过预设长度。在待识别图片的长度超过预设长度时，识别待识别图片的宽度，然后设置一个宽度与待识别图片宽度相同，且长度为指定长度的滑窗。然后设置滑窗与待识别图片左端对齐，将滑窗覆盖区域作为第一个子图片。然后按照指定步长，将滑窗向右移动，再将滑窗覆盖区域作为第二个子图片，以此类推，直至将待识别图片裁剪完成。其中，预设长度可以根据实际情况设置，例如预设长度为1000像素(pixel)。

可选的，在待识别图片的长度不超过预设长度时，可以利用识别模型直接对待识别图片进行识别，得到文本识别结果，从而提高文本识别的效率。

可以理解的，对待识别图片进行裁剪，可能导致待识别图片中的部分文字被裁剪，使得这部分文字在子图片中不完整，影响识别准确率。为了避免该问题，本公开实施例在对待识别图片进行裁剪时，设置子图片之间包含重叠区域，该重叠区域的尺寸可以设置为大于一个文字或者一个单词的尺寸。

例如，如图2所示，图2中的实线长方框为待识别图片，虚线方框为滑窗的覆盖范围，滑窗对应的实线短方框为裁剪出的子图片。假设待识别图片的宽度为240pixel，长度为2000pixel，预设长度为1000pixel。设置一个长度为600pixel且宽度为240pixel的滑窗，利用该滑窗对待识别图片进行裁剪，得到子图片1～5，各相邻子图片之间的重叠区域尺寸为200pixel。

S103、将各子图片分别输入预先训练的识别模型，得到识别模型对每个子图片的输出结果。

其中，识别模型可以是对卷积递归神经网络(Convolutional Recurrent NeuralNetwork，CRNN)进行训练得到的模型，训练时所采用的损失函数可以为CTC loss。CRNN可以基于文本的词级或者行级的标注中学习，学习时不需要详细的字符级的标注，因此提高识别模型的训练速度。可选的，训练模型的主干网络(backbone)可采用第三代移动网络(Mobilenet-v3)结构，Mobilenet-v3是一种轻量化网络，方便部署在各种电子设备中。

S104、根据各子图片对应的输出结果，确定对待识别图片的文本识别结果。

一种实现方式中，子图片对应的输出结果可以包括子图片中的文字以及每个文字的位置。电子设备可以按照各子图片中每个文字的位置，对各子图片中的文字进行合并，并删除处于相同位置的重复的文字，得到待识别图片的文本识别结果。

本公开实施例提供的文本识别方法，可以基于待识别图片的长度确定滑窗，并利用滑窗将待识别图片裁剪成多个子图片，然后利用识别模型分别对各子图片进行识别，再基于子图片对应的输出结果得到待识别图片的文本识别结果。本公开实施例对图片进行裁剪后分别识别，避免了识别模型识别的图片中文本过长的问题，因此提高了对图片中长文本的识别准确率。

而且本公开实施例对待识别图片进行裁剪，子图片中包括的文字少，因此每个文字在图片中所占比例增大，因此提高了模型对密集文本和过小文本的识别准确率。

此外，与将图片进行压缩后输入模型的方式相比，本公开实施例没有对图片进行压缩，因此不会增加图片中特殊文本(包括长文本、密集文本和过小文本)的识别难度，因此提高了对图片的识别准确率。

在本公开的一个实施例中，子图片对应的输出结果包括子图片中的文字、每个文字的位置和置信度。子图片对应的输出结果中，每个文字与其在子图片中的位置以及置信度对应。例如，子图片对应的输出结果包括：[位置1，X，a％]，其中，位置1表示X在子图片中的位置，X表示文字，a％表示X的置信度。

示例性的，每个文字的位置包括每个文字的最小外接矩形的长度和宽度，以及该最小外接矩形左上角的位置。

基于此，上述S104根据各子图片对应的输出结果，确定对待识别图片的文本识别结果的方式，可以实现为：按照每个子图片在待识别图片中的排列顺序，针对每个子图片，保留该子图片中非重叠区域的文本，并针对该子图片与相邻子图片的重叠区域，对比该重叠区域中相同位置的文字的置信度，保留置信度最高的文字，得到文本识别结果。

一种实施方式中，S102利用滑窗裁剪出子图片时，可以记录每个子图片在待识别图片中的位置，根据各子图片在待识别图片中的位置，可以得到各子图片在待识别图片中的排列顺序。针对从待识别图片中裁剪出的第一个子图片，由于重叠区域的尺寸是预设尺寸，因此可以将第一个子图片右边预设尺寸的区域与第二个子图片左边预设尺寸的区域确定为重叠区域，并将子图片中重叠区域以外的区域确定为非重叠区域。根据第一个子图片中每个文字的位置，保留处于第一个子图片中非重叠区域的文字。对于第一个子图片与第二个子图片的重叠区域，确定重叠区域中相同位置的文字，对比相同位置的文字的置信度，保留该位置上置信度最高的文字。后续再针对第二个子图片，保留第二个子图片中非重叠区域的文字，再按照上述方法根据置信度筛选重叠区域的文字，以此类推，直至确定最后一个子图片中非重叠区域的文字和重叠区域的文字。其中，在保留文字时，可以按照文字的位置，按照从左到右的顺序，对保留的文字进行排序。

由于置信度能够表示对应位置处的文字为识别模型输出的文字的概率，即模型对该处文字的识别准确率。因此对于子图片之间的重叠区域，对于相同位置的文字，选择保留置信度最高的文字。

例如，以图2为例，图2中的矩形1、2、3、4、5分别表示子图片1、2、3、4、5。以图2中的子图片1和子图片2为例，假设识别模型对子图片1进行识别后，输出结果包括：

[位置1，“长”，90％]、[位置2，“文”，80％]、[位置3，“本”，80％]；

识别模型对子图片2进行识别后，输出结果包括：

[位置3，“木”，60％]、[位置4，“识”，90％]、[位置5，“别”，80％]。

从子图片1开始，假设子图片1右边与子图片2左边的重叠区域尺寸为200pixel，电子设备识别到位置3属于子图片1右边200pixel范围(或子图片2左边200pixel范围)内，确定位置3处于重叠区域；且电子设备识别到位置1和位置2不属于子图片1右边200pixel范围内，确定位置1和位置2处于子图片1的非重叠区域。且电子设备识别到位置4和位置5不属于子图片2左边200pixel范围，确定位置4和位置5处于子图片2的非重叠区域。因此保留位置1的“长”和位置2的“文”；对于位置3，选择置信度较高的“本”；并保留位置4的“识”和位置5“别”，最后得到“长文本识别”。

采用上述方法，将待识别图片裁剪为多个子图片，一方面每个字符在子图片中所占比重大于每个字符在待识别图片中所占比重，因此可以提高模型的识别准确率。另一方面子图片的尺寸比待识别图片的尺寸小，可以提高识别模型识别每个子图片中文本的识别速度。

在本公开的一个实施例中，如图3所示，在上述S102基于待识别图片的长度确定滑窗之前，电子设备还可以对待识别图片进行尺寸调整(resize)，包括如下步骤：

S301、设置待识别图片的宽度为预设宽度。

预设宽度可以根据实际情况设置，例如预设宽度为240pixel。需要说明的是，在对识别模型进行训练时，所基于的训练样本的预测宽度与预设宽度相同。

S302、确定待识别图片的长度所属的目标长度范围，并设置待识别图片的长度为目标长度范围的最小值。

一种实现方式中，本公开实施例可以预先设置多个长度范围，然后在这多个长度范围中，确定待识别图片的长度所属的长度范围，将待识别图片的长度所属的长度范围作为目标长度范围，并将待识别图片的长度调整为目标长度范围的最小值。

例如，长度范围包括[240,400)、[400,640)、[640,+∞)。当待识别图片的长度为300时，确定待识别图片的长度所属的目标长度范围为[240,400)，因此将待识别图片的长度调整为240。当待识别图片的长度为500时，确定待识别图片的长度所属的目标长度范围为[400,640)，因此将待识别图片的长度调整为400。当待识别图片的长度为700时，确定待识别图片的长度所属的目标长度范围为[640,+∞)，因此将待识别图片的长度调整为640。

可选的，若待识别图片的长度小于各长度范围的最小值，则待识别图片的长度过小，此时减小待识别图片的长度可能会加大识别模型的识别难度，因此此时可以不对待识别图片的长度进行调整。

当待识别图片的宽度固定时，长度越长识别模型的速度越慢，本公开实施例采用图3的方式对待识别图片的尺寸进行自适应调整，能够提高识别模型对图片的识别速度和准确率。经测试发现，本公开实施例对识别模型的识别速度提升10％以上。

在本公开的一个实施例中，参见图4，上述S101获取待识别图片的方式，包括如下步骤：

S401、获取初始图片。

初始图片可以是拍摄、扫描、通过截图等方式得到的图片。

例如，当电子设备为词典笔时，词典笔可以移动过程中拍摄一行文字，得到连续的视频帧序列。对这些视频帧序列进行关键帧抽取，并采用特征提取和特征点匹配等算法，将视频中的文字片段进行拼接，得到包含文本的长图片，该长图片为初始图片。

示例性的，初始图片如图5或者图6所示，初始图片中包括的文字可以是各类文字。

S402、将初始图片输入预先训练的检测模型，得到检测模型输出的多个检测框。其中，每个检测框内包括文字。

其中，检测模型可以是对可微的二值化(Differentiable Binarization，DB)网络训练得到的模型。本公开实施例中将二值化阈值加入模型的训练过程中学习，二值化阈值不是一个固定的值，图片每个位置均对应的阈值，从而更好地将输入图片的前景区域与背景区域分离，进而更准确地确定检测框边界，方便后续进行文本识别。基于DB网络得到的检测模型的检测速度快且占用内存小，方便在各种电子设备中部署。

本公开实施例中的检测模型也可以基于其他网络获得，本公开实施例对此不作具体限定，例如基于渐进式尺度扩张网络(Progressive Scale Expansion Network，PSEnet)训练得到的模型。

例如，如图7所示，图7中的白色方框为检测模型识别的检测框，图7中包括3个检测框。

S403、确定初始图片的第一中心线。

其中，第一中心线与初始图片的底边平行。即第一中心线为经过初始图片中心的横线。

S404、分别计算每个检测框的第二中心线与第一中心线之间的距离，将第二中心线与第一中心线之间的距离小于预设距离的检测框作为候选框。

其中，每个检测框的第二中心线与自身的底边平行。第一中心线和第二中心线均为直线。

本公开实施例将与第一中心线距离较近的检测框作为候选框，可以减少非图片中心处的文字对于处于图片中心处的文字的识别影响。

S405、将各候选框合并，并计算合并后的候选框的最小外接矩形，得到待检测框。

S406、在初始图片中按照待检测框进行裁剪，得到待识别图片。

对初始图片按照待检测框进行裁剪，能够减小待识别图片的尺寸，提高识别模型识别待识别图片的效率；而且还能够避免待检测框以外的内容对于待检测框内的文本的识别影响。

采用上述方法，本公开实施例可以对处于图片中心的候选框进行合并，减少检测框之间重叠的情况，即减少了检测框中的文字粘连情况，提高了对图片的检测准确率。

对于图片中文本过长、文本密集或者文本过小等场景下，相关技术对图片进行检测时，容易出现黏连或者断行现象。其中粘连指的是同一行文本被检测为属于不同的行，相邻的两行文字被检测为超过两行，使得检测框之间存在重叠，后续基于检测框会错误地识别出重复或错误的文本，识别效果差。

结合图7，对于包括“春”和“入”的两个检测框，利用识别模型对这两个检测框内的文字进行分别识别，然后需要额外的融合这两个识别结果。由于图片中边界噪声对于融合的干扰，最终得到的结果可能并不是处于一行的“春入”，而是“春”“入”，或者“春、入”，或者“春三入”等，导致识别结果出错。

而本公开实施例中，可以对检测框进行筛选，然后合并，从而将一行文本包括在一个检测框中，减少检测框之间重叠的情况，即减少了文字粘连的现象，因此提高了模型的识别准确率。

在本公开的一个实施例中，如图8所示，在S402将初始图片输入预先训练的检测模型之前，本公开实施例还可以对初始图片进行resize，包括如下步骤：

S801、判断初始图片的长度是否大于等于指定长度。若是，则执行S802；若否，则执行S803。

指定长度可以预先根据实际需要设置，例如，指定长度为1500pixel。

S802、将初始图片的长度设置为第一长度。其中，第一长度小于指定长度。

第一长度可以预先根据实际需要设置，例如，第一长度为512pixel。

S803、将初始图片的长度设置为第二长度。其中，第二长度小于第一长度，即第二长度<第一长度<指定长度。

第二长度可以预先根据实际需要设置，例如，第二长度为256pixel。

S804、按照预设的长宽比，根据初始图片的长度，设置初始图片的宽度。

长宽比可以预先根据实际需要设置。例如长宽比为2:1，当初始图片长度为512pixel，设置初始图片宽度为256pixel；当初始图片长度为256pixel，设置初始图片宽度为128pixel。

可选的，检测模型可以存在多个，用于识别不同尺寸的图片。因此在对初始图片进行resize之后，可以按照初始图片的尺寸，将初始图片输入对应的检测模型中进行识别。

采用上述方法，本公开实施例可以对初始图片进行自适应的尺寸调整，提高模型检测速度，保证文本识别的实时性。例如本公开实施例可以提高词典笔从扫描文本到展示文本翻译的速度。

如果将图片统一调整为一种尺寸，那么对于图片中包含密集文本或者小文本的情况，会导致图片中的文字压缩过渡，降低检测模型的识别准确率。而本公开实施例可以采用图8中的方法对图片的尺寸进行自适应调整，减少对图片进行过渡压缩的情况，提高模型的识别准确率。

本公开实施例中，基于文本识别结果，电子设备除了可以进一步确定文本的翻译之外，还可以直接展示识别到的文本、对识别出的文本进行检索、或者根据识别出的文本进行多媒体信息推荐等。

参见图9，以下结合应用场景，以上述电子设备为词典笔为例，对本公开实施例提供的文本识别方法的整体流程进行说明：

图像采集模块模块包括高速相机，高速相机配置有广角镜头，利用高速相机拍摄词典笔移动过程中笔尖划过的文本，得到连续的视频帧。

对各视频帧进行图像拼接处理，包括对视频帧进行特征提取、特征匹配、图像变换以及图像融合，得到初始图片。

对初始图片进行OCR检测，包括：对初始图片进行resize，即如果初始图片的长度大于等于1500，则将初始图片长度调整为512；如果初始图片的长度小于1500，则将初始图片长度调整为256；之后按照预设长宽比调整初始图片的宽度。然后将resize后的初始图片输入基于DB的检测模型，得到该检测模型识别的检测框。再对检测框进行优化(refine)，即按照检测框的第二中心线与初始图片的第一中心线之间的距离，对检测框进行筛选，保留该距离小于预设距离的检测框，对筛选后的检测框进行合并，将合并后的检测框的最小外接矩形作为待检测框。按照待检测框对初始图片进行裁剪，得到待识别图片。

然后对待识别图片进行OCR识别，包括：对待识别图片进行resize，即设置待识别图片的宽度为240，并在待识别图片的长度小于240时，保持待识别图片的长度；在待识别图片的长度属于[240,400)时，将待识别图片的长度调整为240；在待识别图片的长度属于[400,640)时，将待识别图片的长度调整为400；在待识别图片的长度处于[640,+∞)时，将待识别图片的长度调整为640。然后利用滑窗将resize后的图片裁剪为多个子图片。再利用基于CRNN的识别模型分别对每个子图片进行识别，接着结合识别模型对多个子图片的输出结果，保留子图片中处于非重叠区域的文字，并对于子图片的重叠区域中相同位置的文字，保留该位置上置信度最高的文字，得到最终的文本识别结果。

后续，还可以利用翻译模型对文本识别结果进行翻译，将翻译结果传输至上游模块。其中上游模块可以是调用文本识别和翻译的模块。

采用上述方法，本公开实施例可以对检测框检测框进行合并，减少检测框中文本粘连现象，提高了对图片中小文本和长文本的识别准确率。而且本公开实施例可以对图片裁剪为多个子图片进行识别，从而避免对图片进行压缩导致的图片无法识别的问题，提高了对图片中长文本、密集文本和小文本的识别效率。

基于相同的发明构思，对应于上述方法实施例，本公开实施例提供了一种文本识别装置，如图10所示，该装置包括：获取模块1001、裁剪模块1002、输入模块1003和确定模块1004；

获取模块1001，用于获取待识别图片；

裁剪模块1002，用于基于获取模块1001获取的待识别图片的长度确定滑窗，并利用滑窗对待识别图片进行裁剪，得到多个子图片，其中，滑窗的宽度与待识别图片的宽度相同，滑窗的长度小于待识别图片的长度，相邻的子图片之间存在重叠区域；

输入模块1003，用于将裁剪模块1002裁剪的各子图片分别输入预先训练的识别模型，得到识别模型对每个子图片的输出结果；

确定模块1004，用于根据各子图片对应的输出结果，确定对待识别图片的文本识别结果。

本公开实施例提供的文本识别装置，可以基于待识别图片的长度确定滑窗，并利用滑窗将待识别图片裁剪成多个子图片，然后利用识别模型分别对各子图片进行识别，再基于子图片对应的输出结果得到待识别图片的文本识别结果。本公开实施例对图片进行裁剪后分别识别，避免了识别模型识别的图片中文本过长的问题，因此提高了对图片中长文本的识别准确率。而且本公开实施例没有对图片进行压缩，因此不会增加图片中密集文本和过小文本的识别难度，因此提高了对图片中密集文本和过小文本的识别准确率。

在本公开的一个实施例中，子图片对应的输出结果包括子图片中的文字、每个文字的位置和置信度，确定模块1004，具体用于：

按照每个子图片在待识别图片中的排列顺序，针对每个子图片，保留该子图片中非重叠区域的文本，并针对该子图片与相邻子图片的重叠区域，对比该重叠区域中相同位置的文字的置信度，保留置信度最高的文字，得到文本识别结果。

在本公开的一个实施例中，该装置还可以包括：设置模块；

设置模块，用于在基于待识别图片的长度确定滑窗之前，设置待识别图片的宽度为预设宽度；

设置模块，还用于确定待识别图片的长度所属的目标长度范围，并设置待识别图片的长度为目标长度范围的最小值。

在本公开的一个实施例中，获取模块1001，具体用于：

获取初始图片；

将初始图片输入预先训练的检测模型，得到检测模型输出的多个检测框，每个检测框内包括文字；

确定初始图片的第一中心线，第一中心线与初始图片的底边平行；

分别计算每个检测框的第二中心线与第一中心线之间的距离，将第二中心线与第一中心线之间的距离小于预设距离的检测框作为候选框，每个检测框的第二中心线与自身的底边平行；

将各候选框合并，并计算合并后的候选框的最小外接矩形，得到待检测框；

在初始图片中按照待检测框进行裁剪，得到待识别图片。

在本公开的一个实施例中，该装置还可以包括：判断模块和设置模块；

判断模块，用于在将初始图片输入预先训练的检测模型之前，判断初始图片的长度是否大于等于指定长度；若判断模块的判断结果为是，则将初始图片的长度设置为第一长度，第一长度小于指定长度；若判断模块的判断结果为否，则将初始图片的长度设置为第二长度，第二长度小于第一长度；

设置模块，用于按照预设的长宽比，根据初始图片的长度，设置初始图片的宽度。

本公开的技术方案中，所涉及的图片和文本信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如文本识别方法。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的文本识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别方法，包括：

获取待识别图片；

将各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；子图片对应的输出结果包括子图片中的文字和每个文字的位置；

根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果；

其中，所述获取待识别图片，包括：

获取初始图片；

将所述初始图片输入预先训练的检测模型，得到所述检测模型输出的多个检测框，每个检测框内包括文字；

确定所述初始图片的第一中心线，所述第一中心线与所述初始图片的底边平行；

分别计算每个检测框的第二中心线与所述第一中心线之间的距离，将第二中心线与所述第一中心线之间的距离小于预设距离的检测框作为候选框，每个检测框的第二中心线与自身的底边平行；

在所述初始图片中按照所述待检测框进行裁剪，得到所述待识别图片。

2.根据权利要求1所述的方法，其中，子图片对应的输出结果还包括子图片中的每个文字的置信度，所述根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果，包括：

按照每个子图片在所述待识别图片中的排列顺序，针对每个子图片，保留该子图片中非重叠区域的文本，并针对该子图片与相邻子图片的重叠区域，对比该重叠区域中相同位置的文字的置信度，保留置信度最高的文字，得到所述文本识别结果。

3.根据权利要求1所述的方法，在所述基于所述待识别图片的长度确定滑窗之前，所述方法还包括：

设置所述待识别图片的宽度为预设宽度；

确定所述待识别图片的长度所属的目标长度范围，并设置所述待识别图片的长度为所述目标长度范围的最小值。

4.根据权利要求1-3任一项所述的方法，在所述将所述初始图片输入预先训练的检测模型之前，所述方法还包括：

判断所述初始图片的长度是否大于等于指定长度；

若是，则将所述初始图片的长度设置为第一长度，所述第一长度小于指定长度；

若否，则将所述初始图片的长度设置为第二长度，所述第二长度小于第一长度；

按照预设的长宽比，根据所述初始图片的长度，设置所述初始图片的宽度。

5.一种文本识别装置，包括：

获取模块，用于获取待识别图片；

输入模块，用于将所述裁剪模块裁剪的各子图片分别输入预先训练的识别模型，得到所述识别模型对每个子图片的输出结果；子图片对应的输出结果包括子图片中的文字和每个文字的位置；

确定模块，用于根据各子图片对应的输出结果，确定对所述待识别图片的文本识别结果；

所述获取模块，具体用于：

获取初始图片；

6.根据权利要求5所述的装置，其中，子图片对应的输出结果还包括子图片中的每个文字的置信度，所述确定模块，具体用于：

7.根据权利要求5所述的装置，所述装置还包括：设置模块；

所述设置模块，用于在所述基于所述待识别图片的长度确定滑窗之前，设置所述待识别图片的宽度为预设宽度；

所述设置模块，还用于确定所述待识别图片的长度所属的目标长度范围，并设置所述待识别图片的长度为所述目标长度范围的最小值。

8.根据权利要求5-7任一项所述的装置，所述装置还包括：判断模块和设置模块；

所述判断模块，用于在所述将所述初始图片输入预先训练的检测模型之前，判断所述初始图片的长度是否大于等于指定长度；若所述判断模块的判断结果为是，则将所述初始图片的长度设置为第一长度，所述第一长度小于指定长度；若所述判断模块的判断结果为否，则将所述初始图片的长度设置为第二长度，所述第二长度小于第一长度；

所述设置模块，用于按照预设的长宽比，根据所述初始图片的长度，设置所述初始图片的宽度。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法。