CN109977729A

CN109977729A - 一种文本检测方法及装置

Info

Publication number: CN109977729A
Application number: CN201711450669.0A
Authority: CN
Inventors: 夏向兰
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-05

Abstract

本发明公开了一种文本检测方法及装置，该方法包括：根据最大稳定极值区域算法，对待检测图像进行处理，获得第一候选区域；根据边缘检测算法，对所述待检测图像进行处理，获得第二候选区域；根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。采用本发明的方法及装置，可提高对文本区域检测的准确度。

Description

一种文本检测方法及装置

技术领域

本发明涉及移动通信技术领域，尤其涉及一种文本检测方法及装置。

背景技术

文字作为一种重要的信息来源，与场景中的一般视觉形成互补。挖掘和利用蕴藏在文字中的高层语义，可以获取更加准确和丰富的上下文信息。现代科技和人类社会的发展也对自然场景中的文字检测和识别提出了迫切的需求，或许在不久的将来，具备文字识别能力的无人驾驶汽车可以根据路牌上的指示准确找到目的地，盲人借助可自动读取文字的设备可以轻松的阅读或逛街购物。

目前，自然场景中的文本检测，仍是一个开放又挑战的难题。在现有技术中，通常是利用最大稳定极值区域(Maximally Stable Extremal Regions，MSER)算法，检测自然场景中的文本区域，然后再对文本区域中的字符进行识别。

但是，在现有技术中，当自然场景中图片的质量较差、分辨率较低或环境中的噪声较大时，如果采用MSER算法，对自然场景中的文本区域进行检测，将会使得文本检测的准确度较低，比如，将自然场景中的非文本区域，误判为文本区域。

发明内容

本发明实施例提供一种文本检测方法及装置，可提高对文本区域检测的准确度。

第一方面，提供一种文本检测方法，包括：

根据最大稳定极值区域算法，对待检测图像进行处理，获得第一候选区域；

根据边缘检测算法，对所述待检测图像进行处理，获得第二候选区域；

根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。

可选的，所述根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域，包括：

将所述第一候选区域与所述第二候选区域取交集，获得所述待检测图像中的文本区域。

可选的，在所述根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域之后，所述方法还包括：

对所述待检测图像中的文本区域进行处理，获得第一字符，所述第一字符中包括文本字符和非文本字符；

在所述第一字符中，识别所述文本字符；

对所述识别的文本字符进行拼接，获得拼接的文本区域；

识别所述拼接的文本区域中的文本字符。

可选的，在所述第一字符中，识别所述文本字符，包括：

将所述第一字符，输入至字符分类器中，获得所述文本字符，所述字符分类器为预先训练的，能够区分所述文本字符和所述非文本字符。

可选的，所述识别所述拼接的文本区域中的文本字符，包括：

将所述拼接的文本区域，输入至预设的文本字符识别器中，识别所述文本字符，所述文本字符识别器为预先训练的，能够识别所述文本字符。

第二方面，提供一种文本检测装置，包括：

第一处理单元，用于根据最大稳定极值区域MSER算法，对待检测图像进行处理，获得第一候选区域；

第二处理单元，用于根据边缘检测算法，对所述待检测图像进行处理，获得第二候选区域；

第三处理单元，用于根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。

可选的，所述第三处理单元，具体用于：

可选的，所述装置还包括：

第四处理单元，用于对所述待检测图像中的文本区域进行处理，获得第一字符，所述第一字符中包括文本字符和非文本字符；

第一识别单元，用于在所述第一字符中，识别所述文本字符；

拼接单元，用于对所述识别的文本字符进行拼接，获得拼接的文本区域；

第二识别单元，用于识别所述拼接的文本区域中的文本字符。

可选的，所述第一识别单元，具体用于：

可选的，所述第二识别单元，具体用于：

第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得所述计算机执行第一方面或第二方面所述的方法。

由上可见，在本发明实施例中，首先根据MSER算法，对待检测图像进行处理，获得第一候选区域；然后根据Canny算法，对待检测图像进行处理，获得第二候选区域；再然后根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。采用本发明实施例提供的上述方法，相对于现有技术中，直接采用MSER算法，确定文本区域，可提高确定文本区域的准确度，减少对非文本区域的误判。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本检测方法的一流程示意图；

图2为本发明实施例提供的文本检测方法的另一流程示意图；

图3为本发明实施例提供的文本检测装置的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供一种文本检测的方法，该方法可应用于对自然场景图像中的文本区域进行检测，尤其对模糊图像、分辨率低的图像或者小字母的图像，有较准确的检测率。如图1所示，该方法具体如下：

步骤S11：根据最大稳定区域(Maximally Stable Extremal Regions，MSER)算法，对待检测图像进行处理，获得第一候选区域。

所述MSER算法基于分水岭的概念：对图像进行二值化，二值化阈值取[0,255]，这样二值化图像就经历一个从全黑到全白的过程(就像水位不断上升的俯瞰图)。在这个过程中，有些连通区域面积随阈值上升的变化很小，这种区域即称为MSER区域。

在本发明实施例中，可用下述公式(1)，表示下述过程：

其中，所述R表示区域R的稳定极值区域，所述R(+Δ)表示包含R域的Δ变化时的极值区域，所述R(+Δ)-R表示不同于以上两个区域时的面积，当υ(R_X)小于给定阈值时，可认为该区域为MSER。

步骤S12：根据边缘检测Canny算法，对待检测图像进行处理，获得第二候选区域。

在本发明实施例中，所述Canny算法，可包括以下过程：彩色图像转换为灰度图像；对图像进行高斯模糊；计算图像梯度，根据梯度计算图像边缘幅值与角度；非最大信号压制处理(边缘细化)；双阈值边缘连接处理；二值化图像输出结果。

步骤S13：根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。

在本发明实施例中，可通过高斯滤波或者方向梯度，获取MSER与Canny边界检测的交集。

本申请还提供一种文本识别的方法，该方法可具体应用于上述图1所示文本检测方法之后，即可采用图1所示的方法，检测待检测图像中的文本区域，然后采用下述图2所示的方法，对文本区域中的文本字符进行识别。如图2所示，所述方法包括：

步骤S21：对所述待检测图像中的文本区域进行处理，获得第一字符，所述第一字符包括文本字符和非文本字符。

步骤S22：在所述第一字符中，识别所述文本字符。

在本发明实施例中，可预先生成字符分类器，然后使用字符笔画宽度变化相邻像素的平均差(也称为平滑度)、长度宽度、高度和相位比率等特征，对所述字符分类器进行训练，以使得所述字符分类器可区分文本字符和非文本字符。

假设上述第一字符用x表示，且所述x中有m个文本字符，n个非文本字符，那么x是m、n的一个函数，且m(m∈N，m≥2)，n(n∈N，n≤m)。其中，文本的概率可表示为P[X(m,n；p)|text]＝P^m-n(1-P)ⁿ，非文本的概率可表示为P[X(m,n；p)|non_text]＝P^m-n(1-P)ⁿ。

在本发明实施例中，参考贝叶斯函数，T的非文本后验概率可以表示为如下述公式(2)所示：

其中，P(text)表示T文本的先验概率，P(non_text)表示T的非文本的先验概率。

P(X(m,n；p))表示为目标区域的概率，可参见下述公式(3)；

其中，在P(non_text|X(m,n；p))≥ε的条件下可以剔除非文本候选区，其中ε是阈值。

步骤S23：对所述识别的文本字符进行拼接，获得拼接的文本区域；

步骤S24：识别所述拼接的文本区域中的文本字符。

在本发明实施例中，可采用高斯混合模型(Gaussian Mixture Model，GMM)生成一个字符识别器，所述字符识别器通过训练，可识别10个阿位伯数据、52个区分大小写的英文字符，共计62个字符。在本发明实施例中，将所述拼接的文本区域输入至上述字符识别器中，即可识别出文本字符。

在本发明实施例中，对于不同的字体样式，字符描述有助于获取更准确的识别结果。针对文本字符描述，本发明提出了一种新的字符描述模型，该模型结合MSER检测器检测出笔画组件，然后再由随机检测器以随机模式的方式提取预设文字，过程具体如下：

第一部分：高斯混合模型GMM。

高斯混合模型，通常用来拟合未知参数的向量。在本发明实施例中，密集检测器产生一个统一的8×8的关键点阵列，随机检测器产生64个关键点。我们使用8个类的高斯分布进行聚类。建立高斯混合模型GMM，首先要计算K中心的定向梯度直方图(HOG)描述符，其中K表示聚类(K＝8)。

其中，第S个中心作为混合高斯模型GMM中第S个高斯函数的初始均值μ_s。通过均值可以计算得到协方差σ_s和初始权重ω_s。然后使用最大期望化算法(EM)来估计三个参数：均值、协方差、权重。

在本发明实施例中，所述高斯的似然向量表示可参见下述公式(4)和公式(5)如示：

其中，x表示在a关键点处时基于HOG的特征向量。P_X表示特征向量x的似然向量。P_s(x|μ_s,σ_s)表示x在第s个高斯函数的概率值。在SVM模型中，使用字符描述器作为特征向量作为字符块来训练识别器。

第二部分，字符笔画设置

在本发明实施例中，在像素等级的前瞻性观点中，笔画是由两个平行边界限定的区域。一个字符结构由多个笔画构成。两个平行边界的距离称之为笔画宽度。相同的字符具有相同的笔画。我们使用笔画校准方法评估笔画配置的平均值，该方法可以评估任意风格、字体、大小的文本。笔画校准定义可参见下述公式(6)和公式(7)所示：

其中，S表示笔画配置的平均值，S_i表示第i个笔画设置。T_i表示第i个笔画的变换。D表示两个相邻字符笔画之间的笔画距离，p表示峰值。

本发明与现有的MSER或Canny边界检测技术不同，采用的是MSER与Canny边界检测协作技术，取两者的交集获取文本位置的检测；文字检测和文字识别本质上都是模式分类问题，但是属于不同的层次。在文字检测中，核心的任务是区分图像中的文字成分和非文字成分，这是一个粗略的分类任务，而在文字识别中，主要的任务是在文字成分中进一步区分不同类别的字符，这是一种更精细的分类任务。本发明提出的文本检测和识别时一种端到端文字识别算法，将文字检测和文字识别融合到了一个框架中，利用相同的描述特征和分类结构执行两个层次的分类任务，从而达到同时进行文字检测和识别的目的；本发明能够检测自然场景中的文本，并且识别文本区域；本发明采用MSER和Canny边缘检测互补的特性，可以克服图片模糊、或者字符较小的问题。

本发明实施例还提供一种文本检测装置，如图3所示，包括：

第一处理单元301，用于根据最大稳定极值区域MSER算法，对待检测图像进行处理，获得第一候选区域；

第二处理单元302，用于根据边缘检测算法，对所述待检测图像进行处理，获得第二候选区域；

第三处理单元303，用于根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域。

在本发明实施例中，所述第三处理单元，具体用于：将所述第一候选区域与所述第二候选区域取交集，获得所述待检测图像中的文本区域。

在本发明实施例中，所述装置还包括：第四处理单元，用于对所述待检测图像中的文本区域进行处理，获得第一字符，所述第一字符中包括文本字符和非文本字符；第一识别单元，用于在所述第一字符中，识别所述文本字符；拼接单元，用于对所述识别的文本字符进行拼接，获得拼接的文本区域；第二识别单元，用于识别所述拼接的文本区域中的文本字符。

在本发明实施例中，所述第一识别单元，具体用于：将所述第一字符，输入至字符分类器中，获得所述文本字符，所述字符分类器为预先训练的，能够区分所述文本字符和所述非文本字符。

在本发明实施例中，所述第二识别单元，具体用于：将所述拼接的文本区域，输入至预设的文本字符识别器中，识别所述文本字符，所述文本字符识别器为预先训练的，能够识别所述文本字符。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得所述计算机上述检测文本的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域，包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述根据所述第一候选区域和所述第二候选区域，获得所述待检测图像中的文本区域之后，所述方法还包括：

在所述第一字符中，识别所述文本字符；

对所述识别的文本字符进行拼接，获得拼接的文本区域；

识别所述拼接的文本区域中的文本字符。

4.根据权利要求3所述的方法，其特征在于，在所述第一字符中，识别所述文本字符，包括：

5.根据权利要求3所述的方法，其特征在于，所述识别所述拼接的文本区域中的文本字符，包括：

6.一种文本检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第三处理单元，具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述第一识别单元，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第二识别单元，具体用于：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得所述计算机执行如权利要求1至5任一项所述的方法。