CN112380899A

CN112380899A - 一种广告图像内的文本识别方法、装置及设备

Info

Publication number: CN112380899A
Application number: CN202011069703.1A
Authority: CN
Inventors: 孙悦; 李天驰; 王帅
Original assignee: Shenzhen Dianmao Technology Co Ltd
Current assignee: Shenzhen Dianmao Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-19

Abstract

本发明公开了一种广告图像内的文本识别方法、装置及设备，该方法包括：获取带文本的广告图像，对广告图像进行特征提取，生成文本特征；根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核；根据广度搜索算法及文本核，对文本区域进行渐进式搜索；根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测。本发明实施例采用基于深度学习图像分割的文本检测方法，比采用回归的方法的结果更加精确，对弯曲文本的效果提升更明显；是采用渐进式尺度扩展的方法，该方法对于两个相邻很近的文本区域，可以很好的区分出来，避免文本区域粘连，文本检测框交叉的情况出现。

Description

一种广告图像内的文本识别方法、装置及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种广告图像内的文本识别方法、装置及设备。

背景技术

图像中的文本检测识别技术是当前图像处理领域非常重要的一个分支之一，该技术主要目的是通过计算机技术将图片中的文本信息检测出来然后进行识别，故该技术主要分为两个部分：文本检测和文本识别。其中在文本检测部分中，传统的图像处理方法是通过对图像进行一系列的阈值处理，将文本信息与图像中的其他的信息分割出来，以达到检测图像中文本的目的。这类方法的一个最大的缺点就是，阈值处理不能适用所有的环境，图像中的光照等环境特别影响阈值的设定，导致很难有一个稳定的阈值来界定文本分割的界限。

随着人工智能的兴起，深度学习越来越受大家的关注，逐渐有深度学习的方法来进行图像文本检测。比较经典的深度学习OCR(Optical Character Recognition，光学字符识别)技术，比如CTPN(Connectionist Text Proposal Network,连接文本提议网络)算法，是通过回归检测框的方法来进行检测图像中的文本信息的，如果图像中的文本是水平或者垂直的，这种回归的方法检测效果是较好的，但是对于一些弯曲类型的文本，特别在广告图片中为了增加艺术效果，有一些文本是弯曲的，这种回归类型的深度学习方法效果就不好了，检测效果不能达到人们的要求。因为回归框的特点是矩形的，对于弯曲的广告文本，不能很好的得到文本区域的检测。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种广告图像内的文本识别方法、装置及设备，旨在解决现有技术中基于回归检测框的广告图像内的文本识别方法对广告文本进行识别时，当广告文本为不规则的文本时，无法精确的检测到文本区域的技术问题。

本发明的技术方案如下：

一种广告图像内的文本识别方法，所述方法包括：

获取带文本的广告图像，对广告图像进行特征提取，生成文本特征；

根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核；

根据广度搜索算法及文本核，对文本区域进行渐进式搜索；

根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测。

进一步地，所述获取带文本的广告图像，对广告图像进行特征提取，生成文本特征，包括：

获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行卷积运算，获取卷积运算的结果，所述卷积运算结果为所述文本特征。

进一步优选地，所述获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行卷积运算，获取卷积运算的结果，所述卷积运算结果为所述文本特征，包括：

获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行三层下采样操作；

获取三层下采样后的采样结果，所述采样结果为所述文本特征。

进一步优选地，所述获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行三层下采样操作，包括：

获取带文本的广告图像，根据卷积神经网络的第一卷积核对广告图像进行卷积运算，生成广告图像的第一特征图像；

对第一特征图像进行下采样操作，生成第一下采样图像；

对第一下采样图像进行下采样操作，生成第二下采样图像；

对第二下采样图像进行下采样操作，生成第三下采样图像。

优选地，所述根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核，包括：

根据第二卷积核对广告图像进行卷积运算生成广告图像的第二特征图像；

对所述广告图像的第二特征图像进行上采样操作，生成第一上采样图像；

对第一上采样图像进行上采样操作，生成第二上采样图像；

对第二上采样图像进行上采样操作，生成第三上采样图像；

将第一上采样图像与第一下采样图像进行融合，生成第一融合图像；

将第二上采样图像与第二下采样图像进行融合，生成第二融合图像；

将第三上采样图像与第三下采样图像进行融合，生成第三融合图像；

将第一融合图像、第二融合图像及第三融合图像进行计算，生成文本区域的文本核。

进一步地，所述根据广度搜索算法及文本核，对文本区域进行渐进式搜索，包括：

根据广度搜索算法从最小尺度的文本核进行搜索，逐渐扩增到最大的文本核。

进一步地，所述根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测，包括：

检测到最小尺度的文本核，逐步在较大核中加入像素扩展文本核的区域；

当检测到当前文本核最大时，则判定当前文本核为文本区域，完成广告图像文本检测。

本发明的另一实施例提供了一种广告图像内的文本识别设置，装置包括：

文本特征生成模块，用于获取带文本的广告图像，对广告图像进行特征提取，生成文本特征；

图像分割模块，用于根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核；

渐进式搜索模块，用于根据广度搜索算法及文本核，对文本区域进行渐进式搜索；

文本区域确定模块，用于根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测。

本发明的另一实施例提供了一种广告图像内的文本识别设备，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的广告图像内的文本识别方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的广告图像内的文本识别方法。

有益效果：本发明实施例采用基于深度学习图像分割的文本检测方法，比采用回归的方法的结果更加精确，对弯曲文本的效果提升更明显；是采用渐进式尺度扩展的方法，该方法对于两个相邻很近的文本区域，可以很好的区分出来，避免文本区域粘连，文本检测框交叉的情况出现。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种广告图像内的文本识别方法较佳实施例的流程图；

图2为本发明一种广告图像内的文本识别装置的较佳实施例的功能模块示意图；

图3为本发明一种广告图像内的文本识别设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

本发明实施例提供了一种广告图像内的文本识别方法。请参阅图1，图1为本发明一种广告图像内的文本识别方法较佳实施例的流程图。如图1所示，其包括步骤：

步骤S100、获取带文本的广告图像，对广告图像进行特征提取，生成文本特征；

步骤S200、根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核；

步骤S300、根据广度搜索算法及文本核，对文本区域进行渐进式搜索；

步骤S400、根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测。

具体实施时，本发明实施例针对现有技术中广告图像中弯曲文本检测效果不好的问题，提出一种新的广告图像内的文本识别方法，本方法是基于深度学习图像分割的，得到的是文本区域文本核的分割结果，如果文本是弯曲的，得到的就是弯曲的文本核，文本核的形状完全跟随文本的形状。其次，本方法采用了渐进式尺度扩展搜索的方法，对于得到的文本核，进行广度搜索的方法寻找文本区域的边界，直至找到边界为止。

首先将带有文本的广告图像进行特征的提取，得到文本特征后，进行图像文本的分割，最终得到的是文本区域最小的核。接着，将文本核采用广度搜索的方法，渐进式的进行文本边缘的搜索，寻找文本边界，最终确定文本区域的位置，从而得到广告图像文本检测的结果。

进一步地，获取带文本的广告图像，对广告图像进行特征提取，生成文本特征，包括：

具体实施时，获取带有文本的广告图像，通过卷积神经网络的方法，对带有文本的广告图像进行特征的提取，得到文本特征后，进行图像文本的分割，最终得到的是文本区域最小的核。

进一步地，获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行卷积运算，获取卷积运算的结果，所述卷积运算结果为所述文本特征，包括：

具体实施时，卷积神经网络的进行卷积运算是一个自底向上的线路，一个自顶向下的线路以及横向连接三部分组成。自底向上的线路是一个下采样的过程，图像一共经过了三层的下采样，形成了一个金字塔形状的网络，三层下采样后的采样结果的就是获取文本特征。

进一步地，获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行三层下采样操作，包括：

对第一特征图像进行下采样操作，生成第一下采样图像；

对第一下采样图像进行下采样操作，生成第二下采样图像；

对第二下采样图像进行下采样操作，生成第三下采样图像。

具体实施时，卷积神经网络最普通的前向传播的过程，每一层的特征图都会经过一定大小的卷积核进行卷积运算，经过卷积运算后，特征图的大小就会变小，具体的，本发明实施例的卷积神经网络采用ResNet网络，ResNet是当前应用较广泛的卷积神经网络特征提取网络。本发明实施例中的ResNet网络使用的是每一次下采样阶段的最后一个特征激活输出，该输出可以代表每一层特征图的最强的特征输出。

进一步地，根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核，包括：

对第一上采样图像进行上采样操作，生成第二上采样图像；

对第二上采样图像进行上采样操作，生成第三上采样图像；

具体实施时，自顶向下的线路是一个上采样的过程，图像一共经过了三层的上采样，形成了一个倒金字塔形状的网络，该过程是把每一次上采样中表达特征最强的部分进行了上采样到下一层。横向连接部分是参与在三层下采样层与对应的三层上采样层中间的，目的是将对应的一个上采样层与一个下采样层进行图像融合，横向连接的两层在空间尺度上必须是相同的。最后将三个图像融合的结果进行计算，得到文本的最小的核。

进一步地，根据广度搜索算法及文本核，对文本区域进行渐进式搜索，包括：

具体实施时，每个文本行不同的文本核，这些核的大小和形状与原文本的大小和形状完全一致，并且中心就是文本的中心，每个文本行有N个不同尺度的文本核，最大的文本核其实就是文本区域本身。对这些文本核采用广度搜索的方式，从最小的文本核开始，逐渐扩增到最大的文本核，这种方法可以很好的区别不同文本的边缘像素，而且每一级扩增的文本核都受到前一个文本核的约束，因此可以很好的区分不同的文本区域。

进一步地，根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测，包括：

具体实施时，对于预测的n个分割实例S1……Sn，为了得到最终的检测结果，主要进行以下操作：从具有最小尺度的核S1开始(在此步骤中可以区分实例，不同实例有不同的连通域)；通过逐步在较大的核中加入更多的像素来扩展它们的区域；完成直至发现最大的核。

由以上方法实施例可知，本发明实施例提供了一种广告图像内的文本识别方法，基于深度学习图像分割的方法，得到的是文本区域最小的核，即使是弯曲的文本，得到的也是弯曲的文本核，再对得到的文本核进行渐进式尺度扩展搜索文本边界，最终达到检测广告图像中的任意形状文本的目的。

本发明实施例比采用回归的方法的检测结果更加精确，对弯曲文本的效果提升更明显。

采用渐进式尺度扩展的方法，该方法对于两个相邻很近的文本区域，可以很好的区分出来，避免文本区域粘连，文本检测框交叉的情况出现。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种广告图像内的文本识别装置，如图2所示，装置1包括：

文本特征生成模块11，用于获取带文本的广告图像，对广告图像进行特征提取，生成文本特征；

图像分割模块12，用于根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核；

渐进式搜索模块13，用于根据广度搜索算法及文本核，对文本区域进行渐进式搜索；

文本区域确定模块14，用于根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测。

具体实施方式见方法实施例，此处不再赘述。

本发明另一实施例提供一种广告图像内的文本识别设备，如图3所示，设备10包括：

一个或多个处理器110以及存储器120，图3中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器110用于完成，设备10的各种控制逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的广告图像内的文本识别方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的广告图像内的文本识别方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的广告图像内的文本识别方法，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的广告图像内的文本识别方法。例如，执行以上描述的图1中的方法步骤S100至步骤S400。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供广告图像内的文本识别方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种广告图像内的文本识别方法,其特征在于,所述方法包括：

根据广度搜索算法及文本核，对文本区域进行渐进式搜索；

2.根据权利要求1所述的广告图像内的文本识别方法，其特征在于，所述获取带文本的广告图像，对广告图像进行特征提取，生成文本特征，包括：

3.根据权利要求2所述的广告图像内的文本识别方法，其特征在于，所述获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行卷积运算，获取卷积运算的结果，所述卷积运算结果为所述文本特征，包括：

4.根据权利要3所述的广告图像内的文本识别方法，其特征在于，所述获取带文本的广告图像，根据卷积神经网络的卷积核对广告图像进行三层下采样操作，包括：

对第一特征图像进行下采样操作，生成第一下采样图像；

对第一下采样图像进行下采样操作，生成第二下采样图像；

对第二下采样图像进行下采样操作，生成第三下采样图像。

5.根据权利要求4所述的广告图像内的文本识别方法，其特征在于，所述根据文本特征对广告图像的文本进行分割，分割后生成文本区域的文本核，包括：

对第一上采样图像进行上采样操作，生成第二上采样图像；

对第二上采样图像进行上采样操作，生成第三上采样图像；

6.根据权利要求5所述的广告图像内的文本识别方法，其特征在于，所述根据广度搜索算法及文本核，对文本区域进行渐进式搜索，包括：

7.根据权利要求6所述的广告图像内的文本识别方法，其特征在于，所述根据搜索结果获取文本边界，根据文本边界确定文本区域的位置，完成广告图像文本检测，包括：

8.一种广告图像内的文本识别装置，其特征在于，所述装置包括：

9.一种广告图像内的文本识别设备，其特征在于，所述设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的广告图像内的文本识别方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的广告图像内的文本识别方法。