CN106845475A

CN106845475A - 基于连通域的自然场景文字检测方法

Info

Publication number: CN106845475A
Application number: CN201611157997.7A
Authority: CN
Inventors: 冯冬竹; 余航; 郑毓; 杨旭坤; 何晓川; 刘清华; 许录平
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2017-06-13

Abstract

本发明公开了一种基于连通域的自然场景文字检测的方法，主要解决现有的文字检测方法准确率低的问题。其实现步骤是：1)对输入的原始图像进行灰度变换得到灰度图像I_G；2)从I_G中提取字符候选区域，得到字符候选区域图像I_m；3)过滤掉I_m中一些不含有字符的候选区域，得到初步过滤后的图像I₁；4)过滤掉I₁中一些不含有字符的候选区域，得到最终的图像I₂；5)将I₂中剩余的字符候选区域合并为文本行区域；6)将文本行区域依次输入到卷积神经网络文字检测器中，过滤掉不含有文字的文本行区域，得到最终含有文字的文本行区域。本发明通过多次过滤掉不含有文字的候选区域，提高了文字检测的准确率，可用于自动提取图像中的文字。

Description

基于连通域的自然场景文字检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及自然场景图像文字检测方法，可用于自动提取图像中的文字。

背景技术

随着移动互联网的飞速发展及智能手机等移动电子设备的普及，自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文字包含了丰富的信息，人们期待计算机能代替人类自动地检测并提取图像的文字信息，并将这项技术走向产业化发展，投向日常的生产和生活中，如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。

与传统的光学字符识别不同，自然场景中的文字信息提取难点在于待检测和识别的文字处于复杂的自然场景中，如真实的街道和商场场景等，因此图像具有复杂性和多变性的特点，且存在噪声、模糊以及角度倾斜、文字字体多变等问题。近年来，面向自然场景的文字识别研究虽然取得了一定的成果，但是与实际应用要求还存在较大的差距。因此，面向自然场景的文字识别方法的研究不仅具有重要的理论研究意义，而且具有广阔的应用前景。

自然场景文字识别主要包含了两个子问题：文字检测和字符识别。其中最受关注的是文字检测问题。文字检测是指对图像中是否存在文字信息进行确认，若存在文字信息则需要对文字进行定位及分割。因此，如何准确的提取出文字区域对自然场景文字识别有重要的意义。

目前，在提取文字区域方法中，最常用的是最大极值稳定区域算子MSER。MSER是一种经典的连通区域检测算子。MSER算子具有非常强的鲁棒性，可以检测到低质量的文字，例如低对比度、低分辨率和模糊退化。同时因为在自然场景中有很多类似文字的场景元素的存在，如门窗、栏杆、树叶网孔、灯柱等，而且这些非文字元素在形状和颜色上与文字非常的相似，所以检测到了许多不是文字的MSER连通区域，导致文字检测的准确率下降。这是基于最大极值稳定区域进行文字定位的最主要挑战之一。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于连通域的自然场景图像文字检测的方法，以保证检测速度，提高文字检测的准确率。

本发明的思路是：直接对自然场景图像进行灰度变换，利用连通域检测算子MSER提取字符候选区域，根据字符的基本几何特性以及笔画宽度特性来滤掉一些非字符区域，将剩余字符区域合并为文本行后，依次输入到训练好的卷积神经网络CNN字符检测器中进行检测，过滤掉没有字符的区域，得到最终的文字区域。其技术方案包括如下步骤：

1)输入原始图像I，并对其进行灰度变换得到灰度图像I_G；

2)对灰度图像I_G，利用最大稳定极值区域算子MSER提取字符候选区域，得到字符候选区域图像I_m；

3)根据字符区域的基本几何特性过滤掉I_m中一些不含有字符的候选区域，得到初步过滤后的字符候选区域图像I₁；

3a)计算I_m每一个字符候选区域的外接矩形边界框；

3b)计算每个外接矩形边界框的长宽比，将长宽比大于10的字符候选区域去除；

3c)计算剩余字符候选区域的欧拉数，将欧拉数小于-4的字符候选区域去除；

3d)计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率，将离心率大于0.995的候选区域去除；

3e)计算剩余字符候选区域的固靠性程度值，将该值小于0.3的候选区域去除，得到初步过滤后的字符候选区域图像I₁；

4)根据字符笔画宽度特性进一步过滤掉I₁中一些不含有字符的候选区域，得到最终的过滤后字符区域候选图像I₂；

4a)分别计算出I₁中每个字符候选区域的笔画宽度均值和笔画宽度标准偏差；

4b)计算出笔画宽度均值与标准偏差的比值，将比值大于0.5的字符候选区域去掉，得到再次过滤后字符候选区域图像I₂；

5)将I₂中剩余的字符候选区域合并为文本行区域；

5a)将I₂中剩余的字符候选区域用边界框标定；

5b)分别计算每一对相邻的边界框的重叠区域面积值S_r和这两个重叠区域的总面积值S_a，获得这两个面积的比值；

5c)依次将比值为非零的字符候选区域进行连接，合并成文本行区域；

6)将文本行区域依次输入到卷积神经网络CNN文字检测器中，去除掉不含有文字的文本行区域，得到最终含有文字的文本行区域。

本发明由于对输入的自然场景图像进行灰度变换后，利用最大极值稳定区域算子MSER提取字符候选区域，并通过所述的三个步骤过滤掉不含有文字的候选区域，从而准确的检测出自然场景图像中的文字。与现有的技术相比，在保证检测速度的同时，极大的提高了文字检测的准确率。

附图说明

图1是本发明的实现流程图；

图2是用本发明对谷歌街景图像库中的自然场景图像进行文字检测的结果图；

图3是用本发明对谷歌街景图像库中的字体倾斜的图像进行文字检测的结果图；

图4是用本发明对ICDAR 2011图像库中的含有商店标题的图像进行文字检测的结果图；

图5是用本发明对ICDAR 2011图像库中的有遮挡的图像进行文字检测的结果图。

具体实施方式

参照图1，本发明基于连通域的自然场景图像文字检测的方法，包括如下步骤：

步骤1：获取灰度图像I_G。

输入原始图像I，对原始图像进行灰度变换，得到该图像的灰度图像I_G。

步骤2：获取字符候选区域图像I_m。

利用连通区域检测算子MSER对灰度图像I_G进行区域检测，得到包含有文字和非文的连通区域，将这些连通区域作为字符候选区域，并将这些字符候选区域在图像I_G上以彩色形式显示出来，得到字符候选区域图像I_m。

步骤3：过滤掉字符候选区域图像I_m中一些不含有文字的候选区域，得到初步过滤后的字符候选区域图像I₁。

3a)依次计算字符候选区域图像I_m中每个字符候选区域的最上边的像素点坐标(x_u,y_u)、最下边的像素点坐标(x_d,y_d)、最右边的像素点坐标(x_r,y_r)、最左边的像素点坐标(x_l,y_l)，其中x_u、x_d、x_r、x_l分别代表最上边、最下边、最右边、最左边的像素点横坐标，y_u、y_d、y_r、y_l分别代表最上边、最下边、最右边、最左边的像素点纵坐标；

3b)根据如下公式计算出每个候选区域的中心坐标(x_c,y_c)：

x_c＝(x_r+x_l)/2

y_c＝(y_u+y_d)/2

其中x_c代表区域中心的横坐标，y_c代表区域中心的纵坐标；

3c)计算每个字符候选区域对应的外接矩形的宽w和长l：

w＝x_r-x_l，l＝y_u-y_d；

3d)依次以点(x_c,y_c)为中心绘制宽为w，长为l的矩形边界框；

3e)计算w和l的比值，将比值大于10的字符候选区域去除；

3f)依次统计剩余的每个字符候选区域的连接体数C和孔洞数H；

3g)计算候选区域欧拉数的值E：E＝C-H；

3h)将E小于-4的字符候选区域去除；

3I)计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率e，即通过调用Matlab中的regionprops函数求解得到椭圆离心率e：

e＝regionprops(L,'eccentricity')

其中，e代表离心率的值，L代表待检测的字符候选区域，eccentricity代表离心率参数；

3J)将e大于0.995的字符候选区域去除；

3k)计算剩余字符候选区域的固靠性程度值s，即通过调用Matlab中的regionprops函数求解得到固靠性程度值s：

s＝regionprops(L,'solidity')

其中，s代表固靠性程度值，L代表待检测的字符候选区域，solidity代表固靠性程度值参数。

3l)将s小于0.3的候选区域去除，得到初步过滤后的字符候选区域图像I₁。

步骤4：对初步过滤后的字符候选区域图像I₁中的不含有文字的候选区域进一步过滤，得到最终过滤后的字符区域候选图像I₂。

4a)通过调用Matlab中的距离变换bwdist函数求得初步过滤后的字符候选区域图像I₁中的每个字符候选区域的笔画宽度矩阵S：

S＝bwdist(L)

其中L代表待检测的字符候选区域；

4b)通过调用Matlab中的mean函数求得S对应的笔画宽度均值Y：

Y＝mean(S)

4c)通过调用Matlab中的std函数求得S对应的笔画宽度方差δ：δ＝std(S)；

4d)计算Y与δ的比值，将比值大于0.5的字符候选区域去掉，得到最终过滤后字符候选区域图像I₂；

步骤5：将剩余的字符候选区域合并为文本行区域。

5a)将I₂中剩余的字符候选区域用边界框标定；

5c)依次将比值为非零的字符候选区域进行连接，合并成文本行区域。

步骤6：将文本行区域依次输入到卷积神经网络CNN文字检测器中，过滤掉不含有文字的文本行区域，得到最终含有文字的文本行区域。

本发明的效果可通过以下仿真实验进一步说明：

1、仿真实验条件

本发明的仿真在windows 7，CPU Intel(R)core(TM)i5-2400，基本频率3.20GHz，软件平台为Matlab 2015b运行。

仿真实验数据来自谷歌街景图像库和ICDAR 2011图像库。

2、仿真内容与结果

仿真一，用本发明对谷歌街景图像库中的自然场景图像进行文字检测，结果如图2。

从图2可以看出，本发明能够准确的检测出自然场景图像中的文字。

仿真二，用本发明对谷歌街景图像库中的字体倾斜的图像进行文字检测，结果如图3。

从图3可以看出，在拍摄角度倾斜的情况下，本发明能够准确的检测出字体倾斜的图像中的文字。

仿真三，用本发明对ICDAR 2011图像库中的含有商店标题的图像进行文字检测，结果如图4。

从图4可以看出，本发明能够准确的检测出含有商店标题的图像中的文字。

仿真四，用本发明对ICDAR 2011图像库中的有遮挡的图像进行文字检测，结果如图5。

从图5可以看出，在有遮挡的情况下，本发明能够准确的检测出有遮挡的图像中的文字。

Claims

1.一种基于连通域的自然场景文本检测方法，包括：

1)输入原始图像I，并对其进行灰度变换得到灰度图像I_G；

3a)计算I_m每一个字符候选区域的外接矩形边界框；

5)将I₂中剩余的字符候选区域合并为文本行区域；

5a)将I₂中剩余的字符候选区域用边界框标定；

2.根据权利要求1所述的方法，其中步骤3a)中计算I_m每一个字符候选区域的外接矩形边界框，按如下步骤进行：

3a1)依次计算每个字符候选区域的最上边的像素点坐标(x_u,y_u)、最下边的像素点坐标(x_d,y_d)、最右边的像素点坐标(x_r,y_r)、最左边的像素点坐标(x_l,y_l)，其中x_u、x_d、x_r、x_l分别代表最上边、最下边、最右边、最左边的像素点横坐标，y_u、y_d、y_r、y_l分别代表最上边、最下边、最右边、最左边的像素点纵坐标；

3a2)根据如下公式计算出每个候选区域的中心坐标(x_c,y_c)：

x_c＝(x_r+x_l)/2

y_c＝(y_u+y_d)/2

其中x_c代表区域中心的横坐标，y_c代表区域中心的纵坐标；

3a3)计算每个字符候选区域对应的外接矩形的宽w和长l：

w＝x_r-x_l，l＝y_u-y_d；

3a4)依次以点(x_c,y_c)为中心绘制宽为w，长为l的矩形边界框。

3.根据权利要求1所述的方法，其中步骤3c)中计算剩余字符候选区域的欧拉数，按如下步骤进行：

3c1)依次统计出每个字符候选区域的连接体数C和孔洞数H；

3c2)连接体数C和孔洞数H，计算候选区域欧拉数的值E：E＝C-H。

4.根据权利要求1所述的方法，其中步骤3d)中计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率，通过调用Matlab中的regionprops函数求解得到，该函数形式如下：

e＝regionprops(L,'eccentricity')

其中，e代表离心率的值，L代表待检测的字符候选区域，eccentricity代表离心率参数。

5.根据权利要求1所述的方法，其中步骤3e)中计算剩余字符候选区域的固靠性程度值，通过调用Matlab中的regionprops函数求解得到，该函数形式如下：

s＝regionprops(L,'solidity')

6.根据权利要求1所述的方法，其中步骤4a)中分别计算出I₁中每个字符候选区域的笔画宽度均值和笔画宽度标准偏差，按如下步骤进行：

4a1)通过调用Matlab中的距离变换bwdist函数求得每个候选文字区域的笔画宽度矩阵S：

S＝bwdist(L)

其中L代表待检测的字符候选区域；

4a2)通过调用Matlab中的mean函数求得S对应的笔画宽度均值Y：

Y＝mean(S)

4a3)通过调用Matlab中的std函数求得S对应的笔画宽度方差δ：δ＝std(S)。