CN113657213A

CN113657213A - 文本识别方法、装置和计算机可读存储介质

Info

Publication number: CN113657213A
Application number: CN202110875277.9A
Authority: CN
Inventors: 曾志强; 徐昌; 黄期峰
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-16

Abstract

本发明公开了一种文本识别方法、装置和计算机可读存储介质，方法包括：获取输入图像；根据输入图像获得多个处于同一分辨率的图形特征；对图形特征进行预测，得到概率图与阈值图；根据概率图和阈值图得到文本区域；根据文本区域得到输出文本。本方法能够整合该需求检测场景图像中字符顶层与底层的特征，实现在复杂背景下，水平排列、倾斜排列、弯曲排列、颠倒排列等多种排列方式的字符位置和内容进行准确检测识别。

Description

文本识别方法、装置和计算机可读存储介质

技术领域

本发明涉及计算机视觉识别技术领域，尤其涉及一种文本识别方法、装置和计算机可读存储介质。

背景技术

随着计算机视觉识别技术的发展，文字识别技术的应用已遍布国民生活的各个角落。OCR 识别(Optical Character Recognition，光学文本识别)是指对文本资料等的图像文件进行分析识别处理，获取文字及版面信息的过程。在自然场景下的文本通常含有大量的背景干扰，例如图像光照影响等，并且不同语言文字的长宽比变化较为剧烈，这也会影响文本的识别。然而，相关技术中文本识别方法通常只能够识别较清晰的文本中的字符，而没有办法识别在复杂环境下的文本字符。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例的主要目的在于提出一种文本识别方法、装置和计算机可读存储介质，使用该文本识别方法能够在复杂背景下识别多种形态的文本。

第一方面，本发明实施例提供了一种文本识别方法，包括：

获取输入图像；

根据所述输入图像获得多个处于同一分辨率的图形特征；

对所述图形特征进行预测，得到概率图与阈值图；

根据所述概率图和所述阈值图得到文本区域；

根据所述文本区域得到输出文本。

根据本发明实施例的文本识别方法，至少具有如下有益效果：在获取了输入图像后，对输入图像进行处理，得到多个处于同一分辨率的图形特征，然后对这些图形特征进行预测，得到概率图和阈值图，并根据阈值图和概率图得到文本区域，最后根据文本区域得到输出文本。本方法通过设计新型的神经网络结构，能够整合该需求检测场景图像中字符顶层与底层的特征，实现在复杂背景下，水平排列、倾斜排列、弯曲排列、颠倒排列等多种排列方式的字符位置和内容进行准确检测识别。

根据本发明第一方面的一些实施例，所述根据所述输入图像获得多个处于同一分辨率的图形特征，包括：根据所述输入图像建立特征金字塔网络；根据所述特征金字塔网络得到多个不同分辨率的所述图形特征；对不同分辨率的所述图形特征进行在同一分辨率尺度的采样，得到多个处于同一分辨率的所述图形特征。由于在复杂背景下，输入图像可能含有不同角度拍摄到的文本，即输入图像中包括了不同分辨率的图形特征，因此需要针对这些图形特征进行采样处理，将这些图形特征转换到同一分辨率上，便于统一进行文本识别。

根据本发明第一方面的一些实施例，所述根据所述概率图和所述阈值图得到文本区域，包括：根据所述概率图和所述阈值图得到二值图；根据所述二值图得到文本区域。使用概率图和阈值图得到二值图的方法，不仅能够将文本区域从背景上分开，还能够将输入图像中紧挨在一起的文本区分开，方便了后续文本的识别操作。

根据本发明第一方面的一些实施例，所述根据所述二值图得到文本区域，包括：对所述二值图进行自适应阈值分割处理，得到文本区域。通过自适应阈值分割处理，能够判断出文本的边界区域，进而得到文本区域。

根据本发明第一方面的一些实施例，所述根据所述文本区域得到输出文本，包括：对所述文本区域进行卷积处理，得到序列特征；对所述序列特征中的每一帧进行处理，得到标签序列；对所述标签序列进行转录，得到输出文本。对文本区域进行卷积处理得到序列特征，并由序列特征得到标签序列，从而识别出宽高比例不同的多种文本。

根据本发明第一方面的一些实施例，所述对所述标签序列进行转录，得到输出文本，包括：对每一个所述标签序列进行概率预测，得到所述标签序列对应的概率值；根据所述概率值确定所述概率值最高的所述标签序列；根据所述概率值最高的所述标签序列得到输出文本。

根据本发明第一方面的一些实施例，所述对所述序列特征中的每一帧进行处理，得到标签序列，包括：使用预先建立的循环网络对所述序列特征进行处理，得到标签序列。

根据本发明第一方面的一些实施例，在所述根据所述文本区域得到输出文本之后，还包括：将所述输出文本与预设数据进行比对，得到比对结果，所述预设数据为与所述输入图像相对应的文本信息。即，通过这一方法能够对该文本识别方法的正确率进行检测。

第二方面，本发明实施例提供了一种文本识别装置，所述文本识别装置包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如上述第一方面所述的文本识别方法。

第三方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面的文本识别方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明一实施例提供的文本识别方法的流程图；

图2是本发明一实施例提供的文本识别方法的另一流程图；

图3是本发明一实施例提供的文本识别方法的另一流程图；

图4是本发明一实施例提供的文本识别方法的另一流程图；

图5是本发明一实施例提供的文本识别方法的另一流程图；

图6是本发明一实施例提供的文本识别方法的另一流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统架构示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一实施例提供的文本识别方法的流程图。可以理解的是，本发明提出了一种文本识别方法，该方法包括但不限于有步骤S100，步骤S200，步骤S300，步骤S400以及步骤S500。

步骤S100，获取输入图像。

步骤S200，根据输入图像获得多个处于同一分辨率的图形特征。

步骤S300，对图形特征进行预测，得到概率图与阈值图。

步骤S400，根据概率图和阈值图得到文本区域。

步骤S500，根据文本区域得到输出文本。

可以理解的是，在获取了输入图像后，对输入图像进行处理，得到多个处于同一分辨率的图形特征，然后对这些图形特征进行预测，得到概率图和阈值图，并根据阈值图和概率图得到文本区域，最后根据文本区域得到输出文本。本方法通过设计新型的神经网络结构，能够整合该需求检测场景图像中字符顶层与底层的特征，实现在复杂背景下，水平排列、倾斜排列、弯曲排列、颠倒排列等多种排列方式的字符位置和内容进行准确检测识别。

如图2所示，图2是本发明一实施例提供的文本识别方法的另一流程图。可以理解的是，图1所示的实施例中的步骤S200，包括但不限于有步骤S210，步骤S220以及步骤S230。

步骤S210，根据输入图像建立特征金字塔网络。

步骤S220，根据特征金字塔网络得到多个不同分辨率的图形特征。

步骤S230，对不同分辨率的图形特征进行在同一分辨率尺度的采样，得到多个处于同一分辨率的图形特征。

可以理解的是，由于在复杂背景下，输入图像可能含有不同角度拍摄到的文本，即输入图像中包括了不同分辨率的图形特征，因此需要针对这些图形特征进行采样处理，将这些图形特征转换到同一分辨率上，便于统一进行文本识别。

如图3所示，图3是本发明一实施例提供的文本识别方法的另一流程图。可以理解的是，图1所示的实施例中的步骤S400，包括但不限于有步骤S410和步骤S420。

步骤S410，根据概率图和阈值图得到二值图。

步骤S420，根据二值图得到文本区域。

可以理解的是，使用概率图和阈值图得到二值图的方法，不仅能够将文本区域从背景上分开，还能够将输入图像中紧挨在一起的文本区分开，方便了后续文本的识别操作。

需要说明的是，图3所示实施例中的步骤S420，具体为：对二值图进行自适应阈值分割处理，得到文本区域。过自适应阈值分割处理，能够判断出文本的边界区域，进而得到文本区域。通过该方法，可以在分割网络中执行二值化过程，并且能够自适应地设置二值化阈值，不仅简化了后处理的步骤，而且提高了文本检测的性能。和传统的检测方法比较，本方法的检测效果更好，处理更方便。

如图4所示，图4是本发明一实施例提供的文本识别方法的另一流程图。可以理解的是，图1所示的实施例中的步骤S500，包括但不限于有步骤S510，步骤S520以及步骤S530。

步骤S510，对文本区域进行卷积处理，得到序列特征。

步骤S520，对序列特征中的每一帧进行处理，得到标签序列。

步骤S530，对标签序列进行转录，得到输出文本。

如图5所示，图5是本发明一实施例提供的文本识别方法的另一流程图。可以理解的是，图4所示的实施例中的步骤S530，包括但不限于有步骤S531，步骤S532以及步骤S533。

步骤S531，对每一个标签序列进行概率预测，得到标签序列对应的概率值。

步骤S532，根据概率值确定概率值最高的标签序列。

步骤S533，根据概率值最高的标签序列得到输出文本。

可以理解的是，该方法首先将图片输入特征金字塔，接着，在特征金字塔网络上采样得到同一分辨率下的图形特征，然后使用这些图形特征来同时预测概率图和阈值图，由概率图和阈值图计算后近似得到二值图。随后使用阈值的方法显示文本边界区域，随后使用一种可变形卷积，它可以为我们的模型提供一个灵活的感受野，这对于不同纵横比的文本很有利。随后可以生成标签。接下来，使用神经循环网络模型进行文字识别，首先将得到的检测区域输入卷积层，用于提取特征，接着，将特征图放入一个循环网络层，这样可以在卷积特征的基础上继续提取文字特征，最后根据文字特征得到字符输出。本方法通过设计新型的神经网络结构，能够整合该需求检测场景图像中字符顶层与底层的特征，实现在复杂背景下，水平排列、倾斜排列、弯曲排列、颠倒排列的字符位置和内容进行准确检测识别。

需要说明的是，由于卷积层、最大池化层、激活函数层作用于局部区域，它们实际上是不变的，因此，特征图对应的每一列都对应于原始图像的一个矩形区域(也称为感受野)，这些矩形区域与特征图上对应的顺序从左到右是一一对应的。

需要说明的是，在图5所示的实施例中的步骤S520，具体为：使用预先建立的循环网络对所述序列特征进行处理，得到标签序列。

如图6所示，图6是本发明一实施例提供的文本识别方法的另一流程图。可以理解的是，图1所示的实施例中，在步骤S500之后，还包括但不限于有步骤S600。

步骤S600，将输出文本与预设数据进行比对，得到比对结果，预设数据为与输入图像相对应的文本信息。即，通过这一方法能够对该文本识别方法的正确率进行检测。

另外，本发明的另一个实施例还提供了一种文本识别装置，该文本识别装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过数据总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的文本识别方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的文本识别方法，例如，执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S210至S230、图3中的方法步骤S410至S420、图4中的方法步骤S510至S530，图5中的方法步骤S531至S533以及图6中的方法步骤S600。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述文本识别装置实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的文本识别方法，例如，执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S210至S230、图3中的方法步骤S410至S420、图4中的方法步骤S510至S530，图5中的方法步骤S531 至S533以及图6中的方法步骤S600。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质 (或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据) 的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种文本识别方法，其特征在于，包括：

获取输入图像；

根据所述输入图像获得多个处于同一分辨率的图形特征；

对所述图形特征进行预测，得到概率图与阈值图；

根据所述概率图和所述阈值图得到文本区域；

根据所述文本区域得到输出文本。

2.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述输入图像获得多个处于同一分辨率的图形特征，包括：

根据所述输入图像建立特征金字塔网络；

根据所述特征金字塔网络得到多个不同分辨率的所述图形特征；

对不同分辨率的所述图形特征进行在同一分辨率尺度的采样，得到多个处于同一分辨率的所述图形特征。

3.根据权利要求2所述的文本识别方法，其特征在于，所述根据所述概率图和所述阈值图得到文本区域，包括：

根据所述概率图和所述阈值图得到二值图；

根据所述二值图得到文本区域。

4.根据权利要求3所述的文本识别方法，其特征在于，所述根据所述二值图得到文本区域，包括：

对所述二值图进行自适应阈值分割处理，得到文本区域。

5.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述文本区域得到输出文本，包括：

对所述文本区域进行卷积处理，得到序列特征；

对所述序列特征中的每一帧进行处理，得到标签序列；

对所述标签序列进行转录，得到输出文本。

6.根据权利要求5所述的文本识别方法，其特征在于，所述对所述标签序列进行转录，得到输出文本，包括：

对每一个所述标签序列进行概率预测，得到所述标签序列对应的概率值；

根据所述概率值确定所述概率值最高的所述标签序列；

根据所述概率值最高的所述标签序列得到输出文本。

7.根据权利要求5所述的文本识别方法，其特征在于，所述对所述序列特征中的每一帧进行处理，得到标签序列，包括：

使用预先建立的循环网络对所述序列特征进行处理，得到标签序列。

8.根据权利要求1所述的文本识别方法，其特征在于，在所述根据所述文本区域得到输出文本之后，还包括：

将所述输出文本与预设数据进行比对，得到比对结果，所述预设数据为与所述输入图像相对应的文本信息。

9.一种文本识别装置，其特征在于，所述文本识别装置包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至8任一项所述的文本识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1至8任意一项所述的文本识别方法。