CN111191649A

CN111191649A - 一种识别弯曲多行文本图像的方法与设备

Info

Publication number: CN111191649A
Application number: CN201911413441.3A
Authority: CN
Inventors: 周康明; 陈猛
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22

Abstract

本申请的目的是提供一种识别弯曲多行文本图像的方案。该方案先获取待处理的文本图像，检测所述文本图像是否存在倾斜、弯曲等情况，对于存在倾斜、弯曲等情况的所述文本图像进行矫正处理，然后提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图，对所述图像特征图进行卷积和激活操作后，再将所述图像特征图输入长短期记忆网络，得到识别结果。与现有技术相比，本申请可以有效地解决文字倾斜、弯曲，文字图像较小，特征信息在文本图像中占比例小和多行文字识别的问题，提高了特征提取的有效性，实用性强，识别效率高。

Description

一种识别弯曲多行文本图像的方法与设备

技术领域

本申请涉及信息技术领域，尤其涉及一种识别弯曲多行文本图像的技术。

背景技术

文本图像在我们的生活和工作中无处不在，随着计算机硬件和视觉识别技术的高速发展，在某些场景中，依赖计算机视觉进行文本图像的识别技术已取代大量的人力，提高了工作效率，节省了大量成本。但由于场景文本的复杂性，文本定位存在文本多角度、多尺度、多分辨率等问题，例如文字有部分遮挡或者模糊，现有的CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)的框架，主要是CNN(ConvolutionalNeural Networks，卷积神经网络)提取图像特征，然后沿着高的方向,将图像转换成一个个特征序列作为LSTM(Long Short-Term Memory Network，长短期记忆网络)的每一步输入，然后将LSTM的每一步输出作为识别结果进行CTC(Connectionist temporalclassification，连接主义时间分类)的转录。由于切分图像的操作为将特征图进行等比例切分，CRNN并不能很好地处理弯曲或者倾斜的样本和多行文本，且对文本图像的抗干扰能力比较弱。

发明内容

本申请的一个目的是提供一种识别弯曲多行文本图像的方法与设备。

根据本申请的一个方面，提供了一种识别弯曲多行文本图像的方法，其中，该方法包括：

获取待处理的文本图像；

检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理；

提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图；

对所述图像特征图进行卷积和激活操作后，将所述图像特征图输入长短期记忆网络，得到识别结果。

根据本申请的另一个方面，还提供了一种识别弯曲多行文本图像的设备，其中，该设备包括：

输入模块，用于获取待处理的文本图像；

图像矫正模块，用于检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理；

特征融合模块，用于提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图；

识别模块，用于对所述图像特征图进行卷积和激活操作后，将所述图像特征图输入长短期记忆网络，得到识别结果。

根据本申请的又一个方面，还提供了一种计算设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行所述的识别弯曲多行文本图像的方法。

根据本申请的又一个方面，还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现所述的识别弯曲多行文本图像的方法。

本申请提供的方案中，先获取待处理的文本图像，检测所述文本图像是否存在倾斜、弯曲等情况，对于存在倾斜、弯曲等情况的所述文本图像进行矫正处理，然后提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图，对所述图像特征图进行卷积和激活操作后，再将所述图像特征图输入长短期记忆网络，得到识别结果。与现有技术相比，本申请可以有效地解决文字倾斜、弯曲，文字图像较小，特征信息在文本图像中占比例小和多行文字识别的问题，提高了特征提取的有效性，实用性强，识别效率高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其他特征、目的和优点将会变得更明显：

图1是根据本申请实施例的一种识别弯曲多行文本图像的方法流程图；

图2是根据本申请实施例的一种STN(空间变换网络)示意图；

图3是根据本申请实施例的一种改进的VGG(用于大规模图像识别的深卷积网络)示意图；

图4是根据本申请实施例的一种类Inception网络示意图；

图5是根据本申请实施例的一种采用CTC(连接主义时间分类)对识别结果进行概率分布预测的示意图；

图6是根据本申请实施例的一种识别弯曲多行文本图像的流程图；

图7是根据本申请实施例的一种识别弯曲多行文本图像的设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请实施例提供了识别弯曲多行文本图像的方法，可以解决CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)提取特征序列方式的局限性问题；若所述文本图像中的文字存在倾斜、弯曲等情况，本方法也可以很好地加以处理；若所述文本图像包含多行文字，本方法的实用性强于基础的CRNN(卷积循环神经网络)。

在实际场景中，执行该方法的设备可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备。其中，所述用户设备包括但不限于个人计算机(PC)等终端设备，所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(Cloud Computing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。

图1是根据本申请实施例的一种识别弯曲多行文本图像的方法流程图，该方法包括步骤S101、步骤S102、步骤S103和步骤S104。

步骤S101，获取待处理的文本图像。

例如，所述待处理的文本图像可以包括常用的和认可度较高的文本识别数据集(样本数据集，包含了多个文本图像)，以便后续在识别时较好地验证模型的鲁棒性。

步骤S102，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理。

例如，如果所述文本图像中的文字存在倾斜、弯曲、扭曲等情况，不利于后续的处理。在此，可以对所述文本图像进行角度调整和矫正，以便于后续网络的学习。

在一个实施例中，步骤S102包括：将所述文本图像输入STN(空间变换网络)，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理。

例如，如图6所示，依次将每张文本图像输入网络模型，先进入如图2所示的STN(空间变换网络)，对文本图像中的文字方向进行矫正，即对所述文本图像进行矫正处理。在基网络提取特征的时候加入STN(空间变换网络)，可以在很大程度上解决多方向文字的问题。

在一个实施例中，步骤S102包括：将所述文本图像输入局部网络，得到所述文本图像和目标图像之间的映射矩阵；根据所述映射矩阵进行运算，采用网格生成器得到所述目标图像中每个像素坐标点v对应到所述文本图像的像素坐标点u；采样器根据所述目标图像中的坐标信息，在所述文本图像中进行采样，将所述文本图像中的像素复制到所述目标图像中，得到矫正处理后的文本图像。

具体地，如图2所示，先将所述文本图像输入局部网络(Localization net)，得到输入的文本图像U和目标图像V之间映射矩阵Θ；再以目标图像V中的所有像素坐标点v为自变量，以Θ为参数做一个矩阵运算，采用网格生成器(Grid Generator)得到与输入的文本图像U中像素坐标点u对应的输入图U的坐标点v，即获取目标图V中的每个点对应到U的坐标点；然后，采样器(Sampler)采用双线性插值的方法对目标图像进行填充，采样器根据目标图像中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中，得到矫正后的文本图像，具体实现公式如下：

其中，V_i ^c是目标图像的像素值，U_nm是输入特征图U通道c中位置为(n,m)的灰度值，V_i是像素点i的灰度值，

是像素点i的灰度值。

步骤S103，提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图。

例如，如图6所示，可以先将所述文本图像输入如图3所示的改进的VGG-16卷积基网络提取不同尺度的图像特征并进行融合处理，得到融合特征图，然后再将所述融合特征图输入如图4所示的类Inception网络中作空洞卷积，以增大模型的感受野，增强网络对于不同尺度信息的获取，使获取的文本特征更丰富和具有代表性。

在一个实施例中，步骤S103包括：将所述文本图像输入到改进的VGG-16卷积基网络，提取所述文本图像的不同尺度的图像特征，并对所述不同尺度的图像特征进行融合处理，得到融合特征图。具体地，如图3所示，在基网络中，采用类特征金字塔提取输入特征图的不同尺度的特征，同时将浅层信息和深层信息融合，加强小样本信息。

在一个实施例中，步骤S103包括：将所述融合特征图输入类Inception网络，对所述融合特征图进行空洞卷积操作，得到图像特征图。具体地，如图4所示，采用类Inception结构提高感受野，选取特征后并concat(连接)在一起，输出更丰富的图像特征图。其中，Inception结构除了第一层之外，其他各层用的是空洞卷积，这样在维持参数量不变的情况下可以进一步扩大网络的感受野。将多类型尺度感受野做一个拼接，使网络自己选择不同感受野及卷积大小的偏向权重。本实施例有效地提高了对弯曲倾斜和多行文字的识别率。

步骤S104，对所述图像特征图进行卷积和激活操作后，将所述图像特征图输入长短期记忆网络，得到识别结果。

例如，在此通过卷积操作可以降低网络的参数量，如图6所示，对所述图像特征图进行卷积和激活操作后，将其输入多维的长短期记忆网络(Long Short-Term MemoryNetwork，LSTM)识别文字图像特征，得到识别结果。

在一个实施例中，步骤S104包括：对所述图像特征图进行卷积和激活操作，标记目标特征周边上下左右的四个方向的序列特征；采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息，得到识别结果。具体地，可以将目标特征周边上下左右的四个方向的序列特征标记为：A、B、C、D；然后采用多维的长短期记忆网络(LSTM)学习这四个方向的特征信息，使得提取的每一个文本特征既受到左右两边双向的影响，也受到上下左右四个方向的递归影响，从而解决多行文本识别的问题。

在一个实施例中，由于网络输入的文本图像在经过网络切分后预测出的结果值会存在重复和缺词，对后面的识别结果会造成影响。为解决此问题，本实施例采用CTC(Connectionist Temporal Classification，连接主义时间分类)对特征序列对齐输出。具体地，假设输入的序列为：X＝[x₁,x₂,...,x_T]，坐标序列对齐并输出，输出的序列为：Y＝[y₁,y₂,...,y_U]。在训练过程中，X和Y的长度都是变化的，而且X和Y中的序列特征没有严格对齐，CTC通过引入的一个新的占位符用于输出对齐的结果，如果一句话中有两个字是重复的，CTC在这两个字中间加入占位符，最后会作去重操作，将占位符去除，得到合理的输出。然后，根据CTC的结果对预测结果进行预测概率分布计算，找出最大概率的识别结果，p(Y|X)表示在输入是X的条件下，输出为Y的概率，具体实现公式如下：

如图5所示，如果预测概率较低则会出发二次识别机制，进入带注意力(Attention)机制的二级多维长短期记忆网络(LSTM)上识别。

在一个实施例中，所述方法还包括：采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测，得到概率值；若所述概率值大于特定阈值，则输出所述识别结果；若所述概率值小于或等于特定阈值，则将所述识别结果再次输入所述长短期记忆网络，得到新的识别结果。例如，可以将该特定阈值设为0.7，如图5所示，若CTC预测概率值大于0.7，则认为识别成功，输出所述识别结果，结束；若CTC预测概率值小于或等于0.7，则触发注意力(Attention)机制，再次进入多维长短期记忆网络(LSTM)中进行识别判断。

图7是根据本申请实施例的一种识别弯曲多行文本图像的设备示意图，该设备包括输入模块701、图像矫正模块702、特征融合模块703和识别模块704。

输入模块701获取待处理的文本图像。

图像矫正模块702检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理。

在一个实施例中，图像矫正模块702将所述文本图像输入STN(空间变换网络)，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理。

在一个实施例中，图像矫正模块702将所述文本图像输入局部网络，得到所述文本图像和目标图像之间的映射矩阵；根据所述映射矩阵进行运算，采用网格生成器得到所述目标图像中每个像素坐标点v对应到所述文本图像的像素坐标点u；采样器根据所述目标图像中的坐标信息，在所述文本图像中进行采样，将所述文本图像中的像素复制到所述目标图像中，得到矫正处理后的文本图像。

是像素点i的灰度值。

特征融合模块703提取所述文本图像的图像特征并进行融合处理，得到融合特征图，对所述融合特征图进行空洞卷积操作，得到图像特征图。

在一个实施例中，特征融合模块703将所述文本图像输入到改进的VGG-16卷积基网络，提取所述文本图像的不同尺度的图像特征，并对所述不同尺度的图像特征进行融合处理，得到融合特征图。具体地，如图3所示，在基网络中，采用类特征金字塔提取输入特征图的不同尺度的特征，同时将浅层信息和深层信息融合，加强小样本信息。

在一个实施例中，特征融合模块703将所述融合特征图输入类Inception网络，对所述融合特征图进行空洞卷积操作，得到图像特征图。具体地，如图4所示，采用类Inception结构提高感受野，选取特征后并concat(连接)在一起，输出更丰富的图像特征图。其中，Inception结构除了第一层之外，其他各层用的是空洞卷积，这样在维持参数量不变的情况下可以进一步扩大网络的感受野。将多类型尺度感受野做一个拼接，使网络自己选择不同感受野及卷积大小的偏向权重。本实施例有效地提高了对弯曲倾斜和多行文字的识别率。

识别模块704对所述图像特征图进行卷积和激活操作后，将所述图像特征图输入长短期记忆网络，得到识别结果。

在一个实施例中，识别模块704对所述图像特征图进行卷积和激活操作，标记目标特征周边上下左右的四个方向的序列特征；采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息，得到识别结果。具体地，可以将目标特征周边上下左右的四个方向的序列特征标记为：A、B、C、D；然后采用多维的长短期记忆网络(LSTM)学习这四个方向的特征信息，使得提取的每一个文本特征既受到左右两边双向的影响，也受到上下左右四个方向的递归影响，从而解决多行文本识别的问题。

在一个实施例中，该设备还采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测，得到概率值；若所述概率值大于特定阈值，则输出所述识别结果；若所述概率值小于或等于特定阈值，则将所述识别结果再次输入所述长短期记忆网络，得到新的识别结果。例如，可以将该特定阈值设为0.7，如图5所示，若CTC预测概率值大于0.7，则认为识别成功，输出所述识别结果，结束；若CTC预测概率值小于或等于0.7，则触发注意力(Attention)机制，再次进入多维长短期记忆网络(LSTM)中进行识别判断。

综上所述，本申请实施例提供的方案结合了深度学习中文本识别的方法和传统图像处理方法，发挥各种方法在其领域的优势，可以有效地解决文字倾斜、弯曲，文字图像较小，特征信息在文本图像中占比例小和多行文字识别的问题，提高了特征提取的有效性，实用性强，识别效率高。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此，本申请的一些实施例提供了一种计算设备，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述本申请的多个实施例的方法和/或技术方案。

此外，本申请的一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种识别弯曲多行文本图像的方法，其中，该方法包括：

获取待处理的文本图像；

2.根据权利要求1所述的方法，其中，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理，包括：

将所述文本图像输入STN(空间变换网络)，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理。

3.根据权利要求2所述的方法，其中，将所述文本图像输入STN(空间变换网络)，检测所述文本图像是否存在倾斜或弯曲的情况，若存在，对所述文本图像进行矫正处理，包括：

将所述文本图像输入局部网络，得到所述文本图像和目标图像之间的映射矩阵；

根据所述映射矩阵进行运算，采用网格生成器得到所述目标图像中每个像素坐标点对应到所述文本图像的像素坐标点；

采样器根据所述目标图像中的坐标信息，在所述文本图像中进行采样，将所述文本图像中的像素复制到所述目标图像中，得到矫正处理后的文本图像。

4.根据权利要求1所述的方法，其中，提取所述文本图像的图像特征并进行融合处理，得到融合特征图，包括：

将所述文本图像输入到改进的VGG-16卷积基网络，提取所述文本图像的不同尺度的图像特征，并对所述不同尺度的图像特征进行融合处理，得到融合特征图。

5.根据权利要求1所述的方法，其中，对所述融合特征图进行空洞卷积操作，得到图像特征图，包括：

将所述融合特征图输入类Inception网络，对所述融合特征图进行空洞卷积操作，得到图像特征图。

6.根据权利要求1所述的方法，其中，对所述图像特征图进行卷积和激活操作后，将所述图像特征图输入长短期记忆网络，得到识别结果，包括：

对所述图像特征图进行卷积和激活操作，标记目标特征周边上下左右的四个方向的序列特征；

采用多维的长短期记忆网络(LSTM)学习所述四个方向的特征信息，得到识别结果。

7.根据权利要求1至6中任一项所述的方法，其中，所述方法还包括：

采用CTC(连接主义时间分类)对所述识别结果进行概率分布预测，得到概率值；

若所述概率值大于特定阈值，则输出所述识别结果；

若所述概率值小于或等于特定阈值，则将所述识别结果再次输入所述长短期记忆网络，得到新的识别结果。

8.一种识别弯曲多行文本图像的设备，其中，该设备包括：

输入模块，用于获取待处理的文本图像；

9.一种计算设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行权利要求1至7中任一项所述的方法。

10.一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。