CN111860479B

CN111860479B - 光学字符识别方法、装置、电子设备及存储介质

Info

Publication number: CN111860479B
Application number: CN202010550694.1A
Authority: CN
Inventors: 恩孟一; 刘珊珊; 李轩; 章成全; 许海伦; 张晓强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2024-03-26
Anticipated expiration: 2040-06-16
Also published as: JP7217313B2; CN111860479A; EP3926526A2; KR20210156228A; EP3926526A3; US11694461B2; JP2021197190A; US20210390296A1

Abstract

本申请公开了光学字符识别方法、装置、电子设备及存储介质，涉及人工智能领域和深度学习领域，其中的方法可包括：针对待识别的图片，确定出其中的文本区域的包围框，根据所述包围框从待识别的图片中提取出文本区域图片；确定出文本区域图片中的文本行的包围框，根据所述包围框从文本区域图片中提取出文本行图片；对文本行图片进行文本序列识别，得到识别结果。应用本申请所述方案，可提升识别速度等。

Description

光学字符识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术，特别人工智能和深度学习领域的光学字符识别方法、装置、电子设备及存储介质。

背景技术

光学字符识别(OCR，Optical Character Recognition)技术在工业界有着广泛的应用，如证件识别等。目前的OCR实现方法通常都比较复杂，从而导致识别速度较慢等。

发明内容

本申请提供了光学字符识别方法、装置、电子设备及存储介质。

一种光学字符识别方法，包括：

针对待识别的图片，确定出其中的文本区域的包围框，根据所述包围框从所述待识别的图片中提取出文本区域图片；

确定出所述文本区域图片中的文本行的包围框，根据所述包围框从所述文本区域图片中提取出文本行图片；

对所述文本行图片进行文本序列识别，得到识别结果。

一种光学字符识别装置，包括：第一图片处理模块、第二图片处理模块以及文本识别模块；

所述第一图片处理模块，用于针对待识别的图片，确定出其中的文本区域的包围框，根据所述包围框从所述待识别的图片中提取出文本区域图片；

所述第二图片处理模块，用于确定出所述文本区域图片中的文本行的包围框，根据所述包围框从所述文本区域图片中提取出文本行图片；

所述文本识别模块，用于对所述文本行图片进行文本序列识别，得到识别结果。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：可首先对待识别的图片进行文本区域提取，之后可从文本区域中进一步提取出文本行，进而可对文本行进行文本序列识别，从而得到识别结果，在保证较高识别精度的前提下，具有逻辑简单、计算量小等特点，从而提升了识别速度，可在GPU及CPU等各种计算环境下运行，具有广泛适用性。应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述光学字符识别方法实施例的流程图；

图2为本申请所述光学字符识别方法的整体实现过程示意图；

图3为本申请所述光学字符识别装置实施例30的组成结构示意图；

图4为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述光学字符识别方法实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，针对待识别的图片，确定出其中的文本区域的包围框，根据包围框从待识别的图片中提取出文本区域图片。

在102中，确定出文本区域图片中的文本行的包围框，根据包围框从文本区域图片中提取出文本行图片。

在103中，对文本行图片进行文本序列识别，得到识别结果。

上述方法具有逻辑简单、计算量小等特点，从而可提升识别速度，并可在图形处理器(GPU，Graphics Processing Unit)及中央处理器(CPU，Central Processing Unit)等各种计算环境下运行，具有广泛适用性。

在确定出文本区域图片中的文本行的包围框之前，还可确定出文本区域图片的调整方式，并可按照确定出的调整方式对文本区域图片进行尺寸调整。

在实际应用中，可能从待识别的图片中确定出一个文本区域，也可能确定出多个文本区域，当为多个文本区域时，各文本区域可按照相同的方式进行处理。

在同一图片中，文本的尺寸变化可能非常大，对于一些尺寸过大或过小的文本，单模型、单尺度的检测往往很难精确地检测到完整的文本行。传统的处理方式是，对于一张输入图片，先将其按比例缩放到几种不同的尺寸，缩放后的图片再分别输入文本检测器进行检测，最后通过后处理策略如非极大值抑制(NMS，Non Maximum Suppression)等，将不同输入尺寸下的检测结果整合在一起得到最终的检测结果。这种方式建立在一个假设上，即经过不同尺寸的缩放，每个文本行都会有至少一次被缩放到文本检测器较为适合检测的尺寸。但这种处理方式至少存在以下问题：1)由于需要处理多张不同尺寸的输入整图，而整图级别的计算量是相当可观的，因此效率低下，而且，如果缩放尺寸选择不合适，文本行并没有被缩放到合适的尺寸，势必会造成计算资源的浪费；2)对于同一文本行，如果在多个尺寸下均被文本检测器检测出来，那么需要通过一定的先验规则来选择保留哪个结果，而这种人工设计的先验规则往往鲁棒性不佳，会造成精度的损失等。

针对上述问题，本实施例中提出，可将待识别的图片输入预先训练得到的轻量级文本尺度预判模型，得到输出的单通道的文本区域掩膜(TM，Text Mask)图以及文本尺度(TS，Text Scale)图，其中，文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率，文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值，文本行的边包括宽和高，通常来说，相比于宽，高的尺寸会更小。相应地，可根据文本区域掩膜图确定出待识别的图片中的文本区域的包围框，可根据文本尺度图确定出文本区域图片的调整方式。

轻量级文本尺度预判模型中可包括：第一特征提取模块、第一预测模块以及第二预测模块，其中，第一特征提取模块用于对输入的图片进行特征提取，第一预测模块用于根据特征提取结果生成文本区域掩膜图，第二预测模块用于根据特征提取结果生成文本尺度图。

轻量级文本尺度预判模型可为一个全卷积网络，第一特征提取模块可为一个小型的卷积神经网络(CNN，Convolutional Neural Network)，基于第一特征提取模块的特征提取结果，第一预测模块可对图片中的文本区域进行分割，第二预测模块可预测每个文本区域中的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值(比例)。第一预测模块和第二预测模块中可分别包含3个卷机层。相应地，轻量级文本尺度预判模型的最终输出为两个单通道的分割图，即文本区域掩膜图以及文本尺度图。在文本区域掩膜图中，各像素点的取值分别表示对应像素点属于文本区域的概率，所述概率可为0到1之间的值，在文本尺度图中，各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。

训练阶段，对于文本区域掩膜图，背景区域即非文本区域中的各像素点的取值可为0，而文本区域中的各像素点的取值可为1，对于文本尺度图，各像素点的取值即为对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。最佳尺寸可以是一个超参数，具体取值可根据实际需要而定。在损失函数的选取方面，第一预测模块可选用dice-loss，第二预测模块可选用smooth-L1 loss。

预测阶段，将待识别的图片输入轻量级文本尺度预判模型，得到输出的文本区域掩膜图以及文本尺度图，之后，可通过连通域分析，确定出文本区域掩膜图中的所有文本连通域，每个文本连通域分别表示一个单独的文本区域，针对任一文本连通域，即针对每个文本连通域，可分别确定出待识别的图片中包含该文本连通域的最小矩形，作为该文本连通域对应的文本区域的包围框，进而可根据所述包围框从待识别的图片中提取出文本区域图片。

针对每个文本区域图片，可分别确定出该文本区域图片中的各像素点在文本尺度图中的取值，该文本区域图片中的各像素点在文本尺度图中的取值相同，也就是说，本实施例中，假定同一文本区域中的各文本行的尺寸相同，如同一文本区域中的各文本行的高的尺寸相同，相比于宽，高的尺寸通常较小。那么，对于每个文本区域图片，其对应的调整方式可为：在保留该文本区域图片的宽高比的前提下，对该文本区域图片的宽和高的尺寸进行调整，使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。

通过上述处理方式，可基于轻量级文本尺度预判模型输出的文本区域掩膜图以及文本尺度图，快速准确地确定出待识别的图片中的文本区域，并可直接将文本区域图片的尺寸调整为适合的尺寸，从而方便了后续处理，提升了后续处理结果的准确性，并避免了传统方式中将图片缩放为多个不同尺寸所造成的效率低下及精度损失等问题。

针对每个文本区域图片，可分别确定出该文本区域图片中的各文本行的包围框，并可根据所述包围框从文本区域图片中提取出各文本行图片。

可将文本区域图片输入预先训练得到的轻量级文本检测模型，得到输出的单通道的文本中心线(TCL，Text Center Line)响应图以及四通道的文本边界区域偏移(TBO，TextBorder Offset)图。其中，文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率，文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离。

轻量级文本检测模型中可包括：第二特征提取模块、第三预测模块以及第四预测模块，其中，第二特征提取模块用于对输入的图片进行特征提取，第三预测模块用于根据特征提取结果生成文本中心线响应图，第四预测模块用于根据特征提取结果生成文本边界区域偏移图。

轻量级文本检测模型可以是在现有的单发任意形状文本(SAST，Single-ShotArbitrarily-Shaped Text)模型的基础上进行适当简化得到的，其中的第二特征提取模块可采用轻量级的深度残差网络，如Resnet-18，从而将特征提取的计算量尽量降低，并可将SAST的四个预测分支简化为两个分支，即上述第三预测模块和第四预测模块，第三预测模块和第四预测模块可分别包含4个卷积层。因此，轻量级文本检测模型为一个全卷积网络，最终的输出包括文本中心线响应图和文本边界区域偏移图，文本中心线响应图为单通道的，其中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率，所述概率可为0到1之间的值，文本边界区域偏移图为四通道的，其中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离，也就是说，对于任一像素点的取值来说，分别表示对应像素点距离其所属文本行的上边界的水平距离、距离其所属文本行的上边界的垂直距离、距离其所属文本行的下边界的水平距离以及距离其所属文本行的下边界的垂直距离。

训练阶段，可沿用SAST的配置，文本中心线响应图可采用dice-loss进行监督，文本边界区域偏移图可采用smooth-L1 loss进行监督。

预测阶段，将文本区域图片输入轻量级文本检测模型，得到输出的文本中心线响应图以及文本边界区域偏移图，之后，可结合文本中心线响应图以及文本边界区域偏移图确定出文本区域图片中的文本行的包围框。优选地，可通过对文本中心线响应图进行连通域分析，确定出各文本行的中心线，对于每条中心线，可分别结合中心线上的像素点在文本边界区域偏移图中的取值等确定出该中心线对应的文本行的包围框，并可将所述包围框对应到文本区域图片中，进而可根据所述包围框从文本区域图片中提取出文本行图片。

通过上述处理方式，可基于轻量级文本检测模型输出的文本中心线响应图以及文本边界区域偏移图，快速准确地确定出文本区域图片中的文本行，而且，针对获取到的各文本区域图片，可并行地进行处理，从而进一步提升了处理速度。

针对获取到的各文本行图片，可分别对其进行文本序列识别，得到识别结果。优选地，可将文本行图片输入预先训练得到的轻量级文本序列识别模型，从而得到输出的识别结果。具体地，针对输入的文本行图片，轻量级文本序列识别模型可首先经过一个特征提取卷积网络得到文本行图片的特征，进而可将该特征序列化为若干帧后，输入双向门控循环单元(GRU，Gated Recurrent Unit)对各帧分别进行分类预测等，具体实现为现有技术。训练阶段，可采用经典的ctc loss来对文本序列识别进行监督。

对于轻量级文本序列识别模型的上述结构，特征提取部分的卷积网络的计算量占了整个模型的计算量的很大部分，为了让模型的计算开销更低，可采用更轻量的特征提取卷积网络结构。

本实施例中，可摒弃传统的手工设计网络结构的方式，而是可采用自动机器学习(AutoML，Automated Machine Learning)技术，通过自动搜索的方式来得到网络结构，也就是说，轻量级文本序列识别模型中的特征提取卷积网络结构可采用自动机器学习模型搜索方式确定。

具体地，整个网络搜索任务可由一个可以预测网络配置的循环神经网络(RNN，Recurrent Neural Network)控制器来控制，通过强化学习的方式，以模型精度和预测耗时共同作为训练目标来优化该控制器，并通过该控制器来选择最优的网络结构。搜索空间方面，可将整个特征提取卷积网络划分为若干个子模块，出于模型轻量化考虑，子模块的数量可为3，各子模块的结构相同，每个子模块均可由若干层组成，每一层由多个运算符构成，如卷积，池化，捷径(shortcut)连接等。那么该网络搜索任务的搜索空间即可包括：每个子模块中使用的层的具体配置(如运算符的选择以及连接方式等)，以及每个子模块中包含的层的数量等。

相比于手工设计网络结构的方式，上述方式可大大降低人力成本，而且，具有更高的精度，另外，由于精度有了保证，在进行文本序列识别时，可采用简单的时序分类(CTC，Connectionist Temporal Classification)解码逻辑进行文本识别解码，从而降低了实现复杂度，进而进一步提升了处理速度等。

基于上述介绍，图2为本申请所述光学字符识别方法的整体实现过程示意图，具体实现请参照前述相关说明，不再赘述。

综上，本实施例中提出了一种由轻量级文本尺度预判模型+轻量级文本检测模型+轻量级文本序列识别模型等组成的轻量级通用光学字符识别方法，在保证较高识别精度的前提下，具有逻辑简单、计算量小等特点，从而提升了识别速度，并可在GPU及CPU等各种计算环境下运行，具有广泛适用性等。

需要说明的是，对于前述的方法实施例，为了简单描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3为本申请所述光学字符识别装置实施例30的组成结构示意图。如图3所示，包括：第一图片处理模块301、第二图片处理模块302以及文本识别模块303。

第一图片处理模块301，用于针对待识别的图片，确定出其中的文本区域的包围框，根据包围框从待识别的图片中提取出文本区域图片。

第二图片处理模块302，用于确定出文本区域图片中的文本行的包围框，根据包围框从文本区域图片中提取出文本行图片。

文本识别模块303，用于对文本行图片进行文本序列识别，得到识别结果。

针对提取出的文本区域图片，第一图片处理模块301还可确定出文本区域图片的调整方式，并按照确定出的调整方式对文本区域图片进行尺寸调整。

第一图片处理模块301可将待识别的图片输入预先训练得到的轻量级文本尺度预判模型，得到输出的单通道的文本区域掩膜图以及文本尺度图；其中，文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率，文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。进一步地，第一图片处理模块301可根据文本区域掩膜图确定出待识别的图片中的文本区域的包围框，根据文本尺度图确定出文本区域图片的调整方式。

具体地，第一图片处理模块301可通过连通域分析确定出文本区域掩膜图中的文本连通域，针对任一文本连通域，可分别确定出待识别的图片中包含该文本连通域的最小矩形，作为该文本连通域对应的文本区域的包围框。

第一图片处理模块301还可针对任一文本区域图片，分别确定出该文本区域图片中的各像素点在文本尺度图中的取值，该文本区域图片中的各像素点在文本尺度图中的取值相同。相应地，确定出的该文本区域图片的调整方式可包括：在保留该文本区域图片的宽高比的前提下，对该文本区域图片的宽和高的尺寸进行调整，使得调整后的文本行的最短边的尺寸等于最佳尺寸。

第二图片处理模块302可将文本区域图片输入预先训练得到的轻量级文本检测模型，得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图；其中，文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率，文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离。相应地，第二图片处理模块302可结合文本中心线响应图以及文本边界区域偏移图确定出文本区域图片中的文本行的包围框。

具体地，第二图片处理模块302可通过对文本中心线响应图进行连通域分析，确定出各文本行的中心线，针对任一中心线，可分别结合该中心线上的像素点在文本边界区域偏移图中的取值确定出该中心线对应的文本行的包围框，并将所述包围框对应到文本区域图片中。

文本识别模块303可将文本行图片输入预先训练得到的轻量级文本序列识别模型，得到输出的识别结果；其中，轻量级文本序列识别模型中的特征提取卷积网络结构可采用自动机器学习模型搜索方式确定。

图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请装置实施例所述方案，可采用由轻量级文本尺度预判模型+轻量级文本检测模型+轻量级文本序列识别模型等组成的轻量级通用光学字符识别方式来进行光学字符识别，在保证较高识别精度的前提下，具有逻辑简单、计算量小等特点，从而提升了识别速度，并可在GPU及CPU等各种计算环境下运行，具有广泛适用性等；另外，可基于轻量级文本尺度预判模型输出的文本区域掩膜图以及文本尺度图，快速准确地确定出待识别的图片中的文本区域，并可直接将文本区域图片的尺寸调整为适合的尺寸，从而方便了后续处理，提升了后续处理结果的准确性，并避免了传统方式中将图片缩放为多个不同尺寸所造成的效率低下及精度损失等问题；再有，可基于轻量级文本检测模型输出的文本中心线响应图以及文本边界区域偏移图，快速准确地确定出文本区域图片中的文本行，而且，针对获取到的各文本区域图片，可并行地进行处理，从而进一步提升了处理速度；再有，可采用自动机器学习模型搜索方式确定出轻量级文本序列识别模型中的特征提取卷积网络结构，摒弃了传统的手工设计网络结构的方式，从而大大降低了人力成本，且具有更高的精度等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网、广域网、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种光学字符识别方法，其特征在于，包括：

将待识别的图片输入预先训练得到的轻量级文本尺度预判模型，得到输出的单通道的文本区域掩膜图，所述文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率；

针对所述待识别的图片，根据所述文本区域掩膜图确定出其中的文本区域的包围框，根据所述包围框从所述待识别的图片中提取出文本区域图片；

将所述文本区域图片输入预先训练得到的轻量级文本检测模型，得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图，其中，所述文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率，所述文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离；

结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框，根据所述包围框从所述文本区域图片中提取出文本行图片；

对所述文本行图片进行文本序列识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：在确定出所述文本区域图片中的文本行的包围框之前，确定出所述文本区域图片的调整方式，并按照确定出的调整方式对所述文本区域图片进行尺寸调整。

3.根据权利要求2所述的方法，其特征在于，

该方法进一步包括：输出所述文本区域掩膜图的同时，输出文本尺度图，所述文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值；

所述确定出所述文本区域图片的调整方式包括：根据所述文本尺度图确定出所述文本区域图片的调整方式。

4.根据权利要求1所述的方法，其特征在于，

所述根据所述文本区域掩膜图确定出所述待识别的图片中的文本区域的包围框包括：

通过连通域分析确定出所述文本区域掩膜图中的文本连通域；

针对任一文本连通域，分别确定出所述待识别的图片中包含所述文本连通域的最小矩形，作为所述文本连通域对应的文本区域的包围框。

5.根据权利要求3所述的方法，其特征在于，

所述根据所述文本尺度图确定出所述文本区域图片的调整方式包括：

针对任一文本区域图片，分别确定出所述文本区域图片中的各像素点在所述文本尺度图中的取值，所述文本区域图片中的各像素点在所述文本尺度图中的取值相同；

所述文本区域图片的调整方式包括：在保留所述文本区域图片的宽高比的前提下，对所述文本区域图片的宽和高的尺寸进行调整，使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。

6.根据权利要求3所述的方法，其特征在于，

所述轻量级文本尺度预判模型中包括：第一特征提取模块、第一预测模块以及第二预测模块；其中，所述第一特征提取模块用于对输入的图片进行特征提取，所述第一预测模块用于根据特征提取结果生成所述文本区域掩膜图，所述第二预测模块用于根据所述特征提取结果生成所述文本尺度图。

7.根据权利要求1所述的方法，其特征在于，

所述结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框包括：

通过对所述文本中心线响应图进行连通域分析，确定出各文本行的中心线；

针对任一中心线，分别结合所述中心线上的像素点在所述文本边界区域偏移图中的取值确定出所述中心线对应的文本行的包围框，并将所述包围框对应到所述文本区域图片中。

8.根据权利要求1所述的方法，其特征在于，

所述轻量级文本检测模型中包括：第二特征提取模块、第三预测模块以及第四预测模块；其中，所述第二特征提取模块用于对输入的图片进行特征提取，所述第三预测模块用于根据特征提取结果生成所述文本中心线响应图，所述第四预测模块用于根据所述特征提取结果生成所述文本边界区域偏移图。

9.根据权利要求1所述的方法，其特征在于，

所述对所述文本行图片进行文本序列识别，得到识别结果包括：将所述文本行图片输入预先训练得到的轻量级文本序列识别模型，得到输出的识别结果；其中，所述轻量级文本序列识别模型中的特征提取卷积网络结构采用自动机器学习模型搜索方式确定。

10.一种光学字符识别装置，其特征在于，包括：第一图片处理模块、第二图片处理模块以及文本识别模块；

所述第一图片处理模块，用于将待识别的图片输入预先训练得到的轻量级文本尺度预判模型，得到输出的单通道的文本区域掩膜图，所述文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率；针对所述待识别的图片，根据所述文本区域掩膜图确定出其中的文本区域的包围框，根据所述包围框从所述待识别的图片中提取出文本区域图片；

所述第二图片处理模块，用于将所述文本区域图片输入预先训练得到的轻量级文本检测模型，得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图，其中，所述文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率，所述文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离；结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框，根据所述包围框从所述文本区域图片中提取出文本行图片；

11.根据权利要求10所述的装置，其特征在于，

所述第一图片处理模块进一步用于，确定出所述文本区域图片的调整方式，按照确定出的调整方式对所述文本区域图片进行尺寸调整。

12.根据权利要求11所述的装置，其特征在于，

所述第一图片处理模块进一步用于，输出所述文本区域掩膜图的同时，输出文本尺度图，所述文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值；

所述第一图片处理模块根据所述文本尺度图确定出所述文本区域图片的调整方式。

13.根据权利要求10所述的装置，其特征在于，

所述第一图片处理模块通过连通域分析确定出所述文本区域掩膜图中的文本连通域，针对任一文本连通域，分别确定出所述待识别的图片中包含所述文本连通域的最小矩形，作为所述文本连通域对应的文本区域的包围框。

14.根据权利要求12所述的装置，其特征在于，

所述第一图片处理模块针对任一文本区域图片，分别确定出所述文本区域图片中的各像素点在所述文本尺度图中的取值，所述文本区域图片中的各像素点在所述文本尺度图中的取值相同；

15.根据权利要求12所述的装置，其特征在于，

16.根据权利要求10所述的装置，其特征在于，

所述第二图片处理模块通过对所述文本中心线响应图进行连通域分析，确定出各文本行的中心线，针对任一中心线，分别结合所述中心线上的像素点在所述文本边界区域偏移图中的取值确定出所述中心线对应的文本行的包围框，并将所述包围框对应到所述文本区域图片中。

17.根据权利要求10所述的装置，其特征在于，

18.根据权利要求10所述的装置，其特征在于，

所述文本识别模块将所述文本行图片输入预先训练得到的轻量级文本序列识别模型，得到输出的识别结果；其中，所述轻量级文本序列识别模型中的特征提取卷积网络结构采用自动机器学习模型搜索方式确定。

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。