CN105608456B

CN105608456B - 一种基于全卷积网络的多方向文本检测方法

Info

Publication number: CN105608456B
Application number: CN201510989079.XA
Authority: CN
Inventors: 白翔; 章成全; 张拯; 姚聪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2017-07-18
Anticipated expiration: 2035-12-22
Also published as: CN105608456A

Abstract

本发明公开了一种基于全卷积网络的多方向文本检测方法，首先获取训练数据集中的文本块，并训练全卷积网络模型；然后利用训练好的全卷积网络模型对测试数据集中的图片进行检测，获取文本块；然后提取文本块的字符成分，并根据字符成分的位置信息估算图像中的候选文本条位置；最后训练针对文本条中字符成分的全卷积网络模型，利用训练好的模型对候选文本条进行检测，获取其中的字符成分，根据字符成分过滤掉不需要的文本条，得到图像中文本条的位置。本发明方法文本检测方法检测率高，且能够克服光照、遮挡、模糊等不利因素的影响。

Description

一种基于全卷积网络的多方向文本检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于全卷积网络的多方向文本检测方法。

背景技术

人们在生产和生活的过程中，要处理大量的文本、报表和文字，利用计算机自动识别字符，是计算机视觉应用中的一个重要领域。在文本的处理中，有大量的文本信息是以图片的形式保存的，如何利用计算机自动的从这些图片中提取出这些文本信息，是目前计算机视觉领域的一个重要的研究方向。文本检测是提取图片中文本信息的关键步骤，检测效果将直接影响文本的识别精度，进而影响文本信息提取的可信度。文本检测技术是以计算机视觉、模式识别和图像处理为基础，要求能够将文本从复杂的自然场景下检测出来，为文本识别以及文本信息提取能取得更好的效果做好铺垫。

发明内容

本发明的目的在于提供一种基于全卷积网络的多方向文本检测方法，该方法文本检测过程简单易行，且检测准确率高。

为实现上述方法，本发明提供了一种基于全卷积网络的文本检测方法，包括下述步骤：

(1)获得待检测图像中的文字条显著区域：

(1.1)对训练图像集中的各文本图像，根据文本在文本图像中的位置，获取各文本图像中的文字条显著区域，得到文字条显著区域集；

具体地，对给定的训练图像集，用人工标注的方法将训练图像集中各文本图像上的文本区域用矩形框标记出来，获取训练图像集中的文字条显著区域集；

(1.2)利用文字条显著区域集训练文本块全卷积网络模型；

具体地，对标注好的训练图像集中的文字条显著区域集，以这些文字条显著区域为正样本训练全卷积网络，得到文本块全卷积网络模型；

(1.3)利用训练得到的文本块全卷积网络模型获取待检测图像的文字条显著区域；

具体地，利用训练好的文本块全卷积网络模型对待检测图像进行检测，得到一张概率图，概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率，概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点，这些像素点连成的区域即为得到的待检测图像中的文字条显著区域，其中TB为判断概率图中某像素点是否在文字条显著区域内的像素点灰度级的阈值，比如可以取0.2，灰度级在阈值TB以上的像素点连成的区域为待检测图像的文字条显著区域，表示为其中表示获取的第i个文字条显著区域，BNum为文字条显著区域的个数，Bs表示获取的所有文字条显著区域的集合。

(2)获取待检测图像中的多方向候选文本条：

(2.1)在获取的待检测图像的文字条显著区域中提取其中的字符成分；

具体地，对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分，并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选，排除掉不满足条件的字符成分，对某个文字条显著区域记从该区域提取的字符成分集合为其中，表示在某文本块中提取的第j个字符成分，表示文本块中提取的字符成分的个数；

(2.2)估计获取的待检测图像的文字条显著区域的方向；

具体地，根据步骤(2.1)中获取的每个文字条显著区域中提取的字符成分的位置信息，估算该文字条显著区域的方向，其估算的方法如下式所示：

其中，Φ(θ,h)表示当该估算的文字条显著区域的中心点位置纵坐标为h、区域方向为θ时在该估算区域内的文字成分的数量，得到的角度即为估算出的该文字条显著区域的方向；

(2.3)提取待检测图像的候选文本条；

(2.3.1)获取待检测图像的文本块的字符成分组；

具体地，对步骤(2.1)中提取的文本块的字符成分集按照规则进行分组，其中分组规则为：对两个字符成分A和B，如果满足下述条件，则被划分到同一组，需要满足的条件如下式所示：

其中，H(A)和H(B)分别表示字符成分A和B的高度，O(A,B)表示字符成分A和B的区域中心的方向，为步骤(2.2)中估算出的文本块的方向，这样，可以对文本块中提取的所有字符成分进行分组，最终得到该区域的所有的字符成分组的集合，记为：其中β_k＝{c_j}，表示文本块中的字符成分经过分组后的第k个字符成分组，表示区域中提取的字符成分集合的第j个字符成分，表示区域中字符成分组的个数；

(2.3.2)获取待检测图像的文本块的文本条边界点集；

具体地，对步骤(2.3.1)中获取的文本块的某字符成分组β＝{c_j}，得到一条以步骤(2.2)中估算得到的文本块的方向为方向，且穿过该字符成分组β中心的直线l，则文本条边界点即为直线l与字符成分组β的边界的交点，文本条边界点集Ps表示为：

其中表示区域中提取的字符成分集合的第j个字符成分，表示区域的所有字符成分边界点的集合，p_m为直线l与区域的边界的第m个交点，PNum表示直线l与区域的边界的交点个数；

(2.3.3)获取待检测图像的候选文本条；

具体地，对步骤(2.3.1)中得到的文本块的字符成分组集合中的每一个字符成分组β和步骤(2.3.2)中得到的边界点集Ps，计算文本条的最小包围盒bb，计算方法如下式所示：

bb＝∪{β,Ps}

其中∪表示计算包含字符成分组β中的所有字符成分和边界点集Ps中所有的点的最小区域，候选文本条的位置即为最小包围盒bb，则文本块中提取的候选文本条集合可表示为其中bb_n表示显著区域中提取的第n个文本条的包围盒，表示显著区域中候选文本条的个数，显著区域中的文本条集合表示为其中tl_a表示中的第a个文本条，为中文本条个数，且

(3)获取待检测图像中文本条位置：

(3.1)获取待检测图像中文本条中的字符中心位置；

(3.1.1)获取待检测图像中文本条中的字符中心位置概率图；

具体地，首先对训练图像集中标注好的图像块，用步骤(2)中的方法获取文本条，并利用人工标注的方法获取文本条中字符集，并利用标注的字符集训练字符全卷积网络模型，然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文本条tl进行检测，得到文本条中的字符中心位置概率图，概率图中的每个点的像素值表示该点为字符中心的概率；

(3.1.2)获取待检测图像中文本条中的字符中心位置；

具体地，对步骤(3.1.1)中得到的字符中心位置概率图，计算其极值点集，记为其中e_b表示概率图的第b个极值点的位置，分数s_b表示概率图在该极值点处的像素值，ENum表示极值点的个数，这些极值点即为文本条中字符中心的位置。

(3.2)获取待检测图像中文本条的位置；

具体地，对候选的文本条进行筛选，过滤掉不符合要求的文本条，最终得到的即为图像中的文本条，其中筛选的规则有：

(3.2.1)对于一个候选文本条，计算步骤(3.1.2)中得到的极值点个数Nc以及极值点分数的平均值Savg，如果Nc＜thresNc或者Savg＜thresS，则删掉该候选文本条，其中thresNc表示极值点个数的阈值，比如可以取2，thresS表示极值点分数平均值的阈值，比如可以取0.6，s_b表示该候选文本条的第b个极值点的分数；

(3.2.2)对一个候选文本条，计算文本条中字符中心位置之间方向角度的均值μ和标准差σ，其中均值和标准差的计算方法如下：

其中Nc表示候选文本条中极值点的个数，O(e_q,e_r)表示文本条的第q和第r个极值点e_q和e_r之间的方向角度，如果或则删掉该文本条；

对筛选出来的文本条做非最大抑制，其中非最大抑制所需要的每个文本条的得分为文本条中所有极值点的得分的和，非最大抑制之后得到的文本条即为图像中检测得到的文本条。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

1、自然场景下的文本图像容易受光照、灰尘、空气质量以及相机分辨率和拍摄角度等因素的影响而变得不容易辨认，现有的文本检测算法无法适应外界环境的变化，无法在各种复杂场景下都提供高的检测率。本发明方法采用先检测文本块的方法，文本块相对字符部件较为稳定，自然场景中单个字符级别部件的检测，往往是容易受到复杂背景的干扰而不容易被检测到，如：光照、遮挡、模糊等，相对于较为细粒度的字符部件检测，文本块是基于整个文字条区域来定义的，个别字符级别部件受干扰对整个文字区域的提取的影响较小，所以较为稳定；本发明方法利用全卷积网络模型进行文本块以及字符中心的检测，全卷积网络能实现文本块区域的有效检测，运用于像素级别的识别任务，该网络在判决的时候充分考虑多层感知域卷积特征，以卷积层替代全链接层的操作使得判决实现高速有效的端到端输出；因此，本发明方法可以有效克服光照、遮挡、模糊等不利因素的影响；

2、本发明方法检测图像中的文本条，采用先检测文本块，然后检测文本块中的字符，然后利用字符检测的信息确定文本条的方法，和传统的自底而上的文字条检测方法不同，本发明方法对字符部件的提取要求比较低，只要保证大部分落在文本块内的字符部件被找到，就可以很好检测到文本条的位置；本发明方法根据字符部件的投影统计预测出多方向文字条的分布规律，提取文字条的时候充分利用了文本块信息和字符部件信息；因此，本发明方法充分考虑了全局和局部的信息，提高了多方向文本条检测的精度；

3、本发明方法在检测文本条的位置的步骤，针对字符中心训练的小规模全卷积网络，能够快速简洁的实现候选文字条的字符中心预测；本发明方法基于字符中心的响应概率和分布规则来滤除虚警，相对于简单的分类器过滤方法而言，更合乎文本条的特性，高效便捷；因此，本发明方法对多方向文本条的检测更加简单、有效。

附图说明

图1是本发明基于全卷积网络的文本检测的流程图；

图2是本发明一实施例中利用训练好的全卷积网络模型获取图像文本块位置概率图的示意图；

图3是本发明一实施例中利用训练好的全卷积网络模型获取候选文本条中字符中心位置概率图的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

全卷积网络：网络模型全由卷基层和非线性变换层组成，不同于卷积神经网络，全卷积的末端去处掉了全连接层，因此对输入图像没有大小限制，能够实现端到端的像素级别预测。

最大稳定极值区域：图像在灰度空间上根据连续的不同阈值进行区域分割过程中，在比较宽的阈值范围内保持稳定的区域即为最大稳定极值区域。

本发明基于全卷积网络的文本检测方法包括以下步骤：

(1)获得待检测图像中的文字条显著区域：

(1.1)对训练图像集中的各文本图像，根据文本在文本图像中的位置信息，获取各文本图像中的文字条显著区域，得到文字条显著区域集；

具体地，对给定的训练图像集，用人工标注的方法将训练图像集中文本图像上的文本区域用矩形框标记出来，获取训练图像中的文字条显著区域集；

(1.2)利用训练文本块的全卷积网络模型；

具体地，对标注好的训练图像集中的文字条显著区域集，以这些文字条显著区域为正样本训练全卷积网络，并得到文本块的全卷积网络模型；

(1.3)利用训练得到的文本块全卷积网络模型获取待检测图像中的文字条显著区域；

具体地，利用训练好的文本块全卷积网络模型对待检测图像进行检测，能够得到一张概率图，概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率，如图2所示，为本发明一实施例中利用训练好的全卷积网络模型获取图像文本块位置概率图的示意图，那么概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点，这些像素点连成的区域即为得到的待检测图像中的文字条显著区域，其中TB为判断概率图中某像素点是否在文字条显著区域内的像素点灰度级的阈值，比如可以取0.2，灰度级在阈值TB以上的像素点连成的区域为待检测图像的文字条显著区域，表示为其中表示获取的第i个文字条显著区域，BNum为文字条显著区域的个数，Bs表示获取的所有文字条显著区域的集合。

(2)获取待检测图像中的多方向候选文本条：

具体地，对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域最为候选的字符成分，并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选，排除掉不满足条件的字符成分，对某个文字条显著区域记从该区域提取的字符成分集合为其中，表示在某文本块中提取的第j个字符成分，表示文本块中提取的字符成分的个数；

(2.2)估计获取的待检测图像的文字条显著区域的方向；

(2.3)提取待检测图像的候选的文本条；

(2.3.1)获取待检测图像的文本块的字符成分组；

(2.3.2)获取待检测图像的文本块的文本条边界点集；

具体地，对步骤(2.3.1)中获取的文本块的某字符成分组β＝{c_j}，可以得到一条以步骤(2.2)中估算得到的文本块的方向为方向，且穿过该字符成分组β的直线l，则文本条边界点即为直线l与字符成分组β的边界的交点，文本条边界点集Ps表示为：

(2.3.3)获取待检测图像的候选文本条；

bb＝∪{β,Ps}

(3)获取待检测图图像中文本条位置：

(3.1)获取待检测图像的文本条中的字符中心位置；

(3.1.1)获取待检测图像的文本条中的字符中心位置概率图；

具体地，首先对训练图像集中标注好的图像块，用步骤(2)中的方法获取文本条，并利用人工标注的方法获取文本条中字符集，并利用标注的字符集训练字符的全卷积网络模型，然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文本条tl进行检测，得到文本条中的字符中心位置概率图，如图3所示，为本发明一实施例中利用训练好的全卷积网络模型获取候选文本条中的字符中心位置概率图的示意图，概率图中的每个点的像素值表示该点为字符中心的概率；

(3.1.2)获取待检测图像的文本条中的字符中心位置；

(3.2)获取待检测图像中文本条的位置；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于全卷积网络的多方向文本检测方法，其特征在于，所述方法包括下述步骤：

(1)获得待检测图像中的文字条显著区域：

(1.2)利用文字条显著区域集训练文本块全卷积网络模型；

(2)获取待检测图像中多方向的候选文字条显著区域：

(2.2)根据步骤(2.1)提供的字符成分，估计获取的待检测图像的文字条显著区域的方向；

(2.3)根据步骤(2.1)提供的字符成分和步骤(2.2)获得的方向，提取待检测图像的候选文字条显著区域，即得到多方向的候选文字条显著区域；

(3)获取待检测图像中多方向的文字条显著区域的位置：

(3.1)获取步骤(2)中所得的待检测图像中多方向的候选文字条显著区域中的字符中心位置；

(3.2)根据步骤(3.1)获取的字符中心位置，获取待检测图像中多方向的文字条显著区域的位置。

2.根据权利要求1所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(1.3)具体为：利用训练好的文本块全卷积网络模型对待检测图像进行检测，得到一张概率图，概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率，概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点，这些像素点连成的区域即为得到的待检测图像中的文字条显著区域。

3.根据权利要求1所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.1)具体为：对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分，并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选，排除掉不满足条件的字符成分，对某个文字条显著区域记从该区域提取的字符成分集合为其中，表示在某文字条显著区域中提取的第j个字符成分，表示文字条显著区域中提取的字符成分的个数。

4.根据权利要求2所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.1)具体为：对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分，并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选，排除掉不满足条件的字符成分，对某个文字条显著区域记从该区域提取的字符成分集合为其中，表示在某文字条显著区域中提取的第j个字符成分，表示文字条显著区域中提取的字符成分的个数。

5.根据权利要求3所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.2)具体为：根据步骤(2.1)中获取的每个文字条显著区域中提取的字符成分的位置信息，估算该文字条显著区域的方向，其估算的方法如下式所示：

θ r (\partial) = \arg \underset{θ}{m a x} \underset{h}{m a x} Φ (θ, h)

其中，Φ(θ,h)表示当该估算的文字条显著区域的中心点位置纵坐标为h、区域方向为θ时在该估算区域内的文字成分的数量，得到的角度即为估算出的该文字条显著区域的方向。

6.根据权利要求3所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.3)具体为：

(2.3.1)获取待检测图像的文本块的字符成分组；

(2.3.2)获取待检测图像的文本块的文字条显著区域边界点集；

(2.3.3)获取待检测图像的候选文字条显著区域。

7.根据权利要求5所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.3)具体为：

(2.3.1)获取待检测图像的文本块的字符成分组；

(2.3.2)获取待检测图像的文本块的文字条显著区域边界点集；

(2.3.3)获取待检测图像的候选文字条显著区域。

8.根据权利要求7所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.3.1)具体为：

对步骤(2.1)中提取的文字条显著区域的字符成分集按照规则进行分组，其中分组规则为：对两个字符成分A和B，如果满足下述条件，则被划分到同一组，需要满足的条件如下式所示：

(i)

(ii)

其中，H(A)和H(B)分别表示字符成分A和B的高度，O(A,B)表示字符成分A和B的区域中心的方向，为步骤(2.2)中估算出的文字条显著区域的方向，这样，可以对文字条显著区域中提取的所有字符成分进行分组，最终得到该区域的所有的字符成分组的集合，记为：其中β_k＝{c_j}，表示文字条显著区域中的字符成分经过分组后的第k个字符成分组，表示区域中提取的字符成分集合的第j个字符成分，表示区域中字符成分组的个数。

9.根据权利要求6所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.3.2)具体为：

对步骤(2.3.1)中获取的文字条显著区域的某字符成分组β＝{c_j}，得到一条以步骤(2.2)中估算得到的文字条显著区域的方向为方向，且穿过该字符成分组β的直线l，则文字条显著区域边界点即为直线l与字符成分组β的边界的交点，文字条显著区域边界点集Ps表示为：

P s = {p_{m}}_{m = 1}^{P N u m}, p_{m} &Element; l \cap B D s (\partial)

其中表示区域中提取的字符成分集合的第j个字符成分，表示区域的所有字符成分边界点的集合，p_m为直线l与区域的边界的第m个交点，PNum表示直线l与区域的边界的交点个数。

10.根据权利要求7所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(2.3.3)具体为：

对步骤(2.3.1)中得到的文字条显著区域的字符成分组的集合中的每一个字符成分组β和步骤(2.3.2)中得到的边界点集Ps，计算文字条显著区域的最小包围盒bb，计算方法如下式所示：

bb＝∪{β,Ps}

其中∪表示计算包含字符成分组β中的所有字符成分和边界点集Ps中所有的点的最小区域，候选文字条显著区域的位置即为最小包围盒bb，则文字条显著区域中提取的候选文字条显著区域集合可表示为其中bb_n表示显著区域中提取的第n个文字条显著区域的包围盒，表示显著区域中候选文字条显著区域的个数，显著区域中的文字条显著区域集合表示为其中tl_a表示中的第a个文字条显著区域，为中文字条显著区域个数，且

11.根据权利要求1至10任一项所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(3.1)具体为：

(3.1.1)首先对训练图像集中标注好的图像块，用步骤(2)中的方法获取文字条显著区域，并利用人工标注的方法获取文字条显著区域中字符集，并利用标注的字符集训练字符全卷积网络模型，然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文字条显著区域tl进行检测，得到文字条显著区域中的字符中心位置概率图，概率图中的每个点的像素值表示该点为字符中心的概率；

(3.1.2)对步骤(3.1.1)中得到的字符中心位置概率图，计算其极值点集，记为其中e_b表示概率图的第b个极值点的位置，分数s_b表示概率图在该极值点处的像素值，ENum表示极值点的个数，这些极值点即为文字条显著区域中字符中心的位置。

12.根据权利要求1至10任一项所述的基于全卷积网络的多方向文本检测方法，其特征在于，所述步骤(3.2)具体为:

对候选的文字条显著区域进行筛选，过滤掉不符合要求的文字条显著区域，最终得到的即为图像中的文字条显著区域，其中筛选的规则有：

(3.2.1)对于一个候选文字条显著区域，计算步骤(3.1.2)中得到的极值点个数Nc以及极值点分数的平均值Savg，如果Nc＜thresN或者Savg＜thresS，则删掉该候选文字条显著区域，其中thresNc表示极值点个数的阈值，thresS表示极值点分数平均值的阈值，s_b表示该候选文字条显著区域的第b个极值点的分数；

(3.2.2)对一个候选文字条显著区域，计算文字条显著区域中字符中心位置之间方向角度的均值μ和标准差σ，其中均值和标准差的计算方法如下：

μ = \frac{1}{N c} Σ_{q = 1}^{N c} Σ_{r = 1}^{N c} O (e_{q}, e_{r})

σ = \sqrt{\frac{1}{N C} Σ_{q = 1}^{N c} Σ_{r = 1}^{N c} {(O (e_{q}, e_{r}) - μ)}^{2}}

其中Nc表示候选文字条显著区域中极值点的个数，O(e_q,e_r)表示文字条显著区域的第q和第r个极值点e_q和e_r之间的方向角度，如果或则删掉该文字条显著区域；

对筛选出来的文字条显著区域做非最大抑制，其中非最大抑制所需要的每个文字条显著区域的得分为文字条显著区域中所有极值点的得分的和，非最大抑制之后得到的文字条显著区域即为待检测图像中检测得到的文字条显著区域。