CN108073931A

CN108073931A - 一种复杂背景图像下去除非文字图形的方法

Info

Publication number: CN108073931A
Application number: CN201610977030.7A
Authority: CN
Inventors: 许健才
Original assignee: Guangzhou City Polytechnic
Current assignee: Guangzhou City Polytechnic
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2018-05-25

Abstract

本发明涉及一种图像处理技术领域的方法，具体涉及一种复杂背景图像下去除非文字图形的方法。包含以下步骤：对原始图像进行灰度化，并通过“平方”变换增强灰度图像文字信息显示；基于该灰度图像进行自适应局部二值化，得到“黑字”、“白字”目标二值化图像；同样基于该灰度图像进行Canny算子的边缘检测，标记图像边缘，进而对边缘图像通过形态学操作获取文字分布候选区域；结合“黑字”、“白字”目标二值化图像与文字分布候选区域，分别提炼出部分非文字图形，以此重构出绝大部分的非文字图形，进而从目标图像中将该部分非文字图形去除，综合得到去除非文字图形后的图像。本发明方法新颖准确率高，能够有效地去除复杂彩色背景图像中的非文字图形。

Description

一种复杂背景图像下去除非文字图形的方法

技术领域

本发明涉及一种图像处理技术领域的方法，具体涉及一种复杂背景图像下去除非文字图形的方法。

背景技术

随着移动互联网的在大众生活中越来越普及，网上购物平台也越来越受到商家的青睐。但网上购物平台却无法为用户提供实物体验，大量的商品信息通过图片的形式呈现给客户，图片中商品信息的表述是否与实际商品相符很大程度影响到客户对该商家信用评分，甚至购买意愿。因而对商品图片文字信息进行识别，及时发现对销售商品的错误介绍已经迫在眉睫。

传统的图像文字识别步骤有三大步骤：文字定位→文字分割→文字识别，其中文字定位的精准性直接关系到文字识别的准确率以及覆盖率，是实现图像文字识别最重要的基础工作。文字定位的难点在于如何一步步过滤非文字的图形信息，完整地保存文字。按普遍的做法，是先对图像进行灰度化，再提取灰度图像边缘，定义众多文字特征条件将非文字图形过滤，文字特征条件需要确定的参数都会比较多，效果也不稳定。

鉴于此基础上本发明提出一种复杂背景图像下去除非文字图形的方法。此发明通过新颖的方案先将图像中的非文字图形去除，完整地保存文字信息，基本上可以达到文字定位的效果。其关键做法包括：对原始图像进行灰度化，并通过“平方”变换增强灰度图像文字信息显示；基于该灰度图像进行自适应局部二值化，得到“黑字”、“白字”目标二值化图像；同样基于该灰度图像进行Canny算子的边缘检测，标记图像边缘，进而对边缘图像通过形态学操作获取文字分布候选区域；结合“黑字”、“白字”目标二值化图像与文字分布候选区域，分别提炼出部分非文字图形，以此重构出绝大部分的非文字图形，进而从目标图像中将该部分非文字图形去除，综合得到去除非文字图形后的图像。

发明内容

本发明的目的在于现有技术的不足，提出了一种复杂背景图像下去除非文字图形的方法。该方法在去除非文本图形的方法上大胆创新，并且能够有效地保全文本信息，但也容易把较大的字体去掉。

本发明包括以下步骤：

①对原始图像进行灰度化，并通过“平方”变换增强灰度图像文字信息的显示；

②对该灰度图像进行自适应局部二值化，得到“黑字”、“白字”目标二值化图像；

③对该灰度图像进行Canny算子的边缘检测，标记图像边缘，进而对边缘图像通过形态学操作获取文字分布候选区域；

④结合“黑字”、“白字”目标二值化图像与文字分布候选区域，分别提炼出部分非文字图形，以此重构出绝大部分的非文字图形，进而从目标图像中将该部分非文字图形去除，综合得到去除非文字图形后的图像。

在上述步骤①中，首先将读入的原始彩色复杂图像变成灰度图像。为了能够更好地显示文字信息，使用了“平方”变换运算，对单通道灰度图像进行灰度强化。公式如下所示：

式中表示单通道灰度矩阵中的任意像素值，表示“平方”变换的结果。经过“平方”变换运算后，再将结果映射到[0,255]区间内：

式中、表示单通道灰度矩阵中的最大值与最小值，表示“平方”变换结果映射值。

在上述步骤②中提到获取“黑字”、“白字”目标二值化图像的方法。二值化是进一步简化图像的有效方法。由于图像的复杂性，不仅非文本图形多变，文本信息在二值化过程中亦存在黑、白两种颜色。为了能够有效地去除图像中的非文本图形，同时又保证文本信息的完整性，将目标定位成黑字、白字两类。

首先，确定白色作为前景颜色，黑色作为背景颜色。“黑字”目标图像是指以黑色字体的文字信息作为目标的二值图像，在二值化过程中将黑色转换为白色，那么黑字就转换成白色前景；“白字”目标图像是指以白色字体的文本信息作为目标的二值图像，白字已经是前景信息。

其次，使用最大类间方差法确定图像二值化的阈值。最大类间方差法对噪声和目标的大小都比较敏感，但是运行效率最高。记图像二值化阈值为。

l 以如下函数计算“黑字”目标二值图像的像素值：

为当前像素值，为二值化值。

l 以如下函数计算“白字”目标二值图像的像素值：

进一步，在上述步骤②中提到的自适应局部二值化方法。

从整张图像来看，图像构造以及颜色分布比较复杂，图像噪声比较多，且文字大小不统一，如果对灰度图直接全局二值化，不仅影响非文字图形的去除，也会造成文字信息的遗漏。但是从图像的局部范围观察，构图则相对简单，对于寻找最佳二值化阈值更加有利。同时也可以起到去除噪声点，完整保留文字信息的效果。

第一步：生成两个与原图像维度一致的矩阵和，中的元素全为0，中的元素全为1。

其作用是作为每次局部二值化结果的“载体”，即存储二值化结果。

第二步：创建一个大小为的滑块，在灰度图中以从左往右、从上至下的顺序滑动来进行自适应局部二值化操作。滑块从左往右滑动时，每次位移个单位长度；从上至下滑动时，每次位移个单位长度，并且每次只针对滑块所处的范围内进行二值化阈值分割。每次二值化阈值分割后，都将结果反馈到或中。

经多次试验结果的检验，滑块取时效果较好，也基本可以满足需求。

l 获取“黑字”目标二值图像

将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“或”逻辑运算。“或”运算处理的结果为：

“0”表示二值图中的黑色；“1”表示二值图中的白色。通过“或”逻辑运算可以最大程度地保存图像信息。

l 获取“白字”目标二值图像

将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“与”逻辑运算。“与”运算处理的结果为：

通过“与”逻辑运算可以初步去除一些图像中的非文字图形信息。

在上述步骤③中，对灰度图用canny算子检测边缘，标记图像边缘，得到边缘图像。

对边缘图像进行水平和垂直两个方向的形态学“线性核”膨胀处理。

膨胀所使用的“线形”结构元素如下所示：

1×40 40×1

经多次试验结果的检验，使用40以上的图像膨胀结果变化不大，故选用40个像素。

通过逻辑“与”操作，提取水平“线性核”膨胀图像和垂直“线性核”膨胀图像的公共部分图像。

在“水平膨胀”和“垂直膨胀”共同作用下，文字部分可以很好地被“保护”在一个矩形区域，而非文字部分则很难被“保全”，易遗漏部分非文字图形，故称该公共部分为文字分布的候选区域。

在上述步骤④中，首先去除“黑字”目标图像中的小部分非文字图形，主要对和使用“与”和“取反”操作实现：

“取反”运算处理的结果为：

其次从中将文字分布候选区域保存，达到保留文字信息而再次去除大量非文字图形的目的。实现如下：

从中将文字分布候选区域去除，从而获得部分非文字图形：

利用图像重构技术将部分非文字图形根据模板复原出整个非文字图形。

其中为掩模，为标记，表示图像重构。

经过图像重构后便可以得到非文字图形，中有原图像中的文字信息和部分的非文字图像信息，此时从中去除便可以达到清除非文字图形并保存文本信息的效果。实现过程如下：

是“黑字”目标图像去除非文字图形的效果图，以同样的方式获取“白字”目标图像去除非文字图形的效果图。

最后一步是将和进行“或”运算，以保全所有文字信息，同时达到去除非文字图形的效果。实现如下：

本发明的原理是：通过“平方”变换将灰度图进行强化，使得图形的区分度增大。然后根据文字颜色将图像二值化成“黑字”目标图像和“白字”目标图像，以便后期可以将文字保存得更完整。其次对边缘图像进行水平、垂直膨胀，取二膨胀效果图的交集来缩小文字候选区域。分别结合两目标图像和文字候选区域分布图，提取对应的部分非文字图形，重构出绝大部分的非文字图形，再去除这部分非文字图形，综合得到具有完整文字信息，同时又去除了非文字图形信息的效果图。

本发明的有益效果在于：在复杂背景图像下，依然能够完整地保全文字信息，同时对非文字图形的去除方法大胆创新。

附图说明

图1是本发明所述方法的流程图；

图2是输入图片；

图3是灰度图及“平方”变换图

图4是“黑字”、“白字”目标图像

图5是获取文字分布区域流程图

图6是边缘图像

图7是边缘水平、垂直膨胀的图像

图8是文字分布区域图像

图9是“黑字”目标图像去除非文字图形流程图

图10是“白字”目标图像去除非文字图形流程图

图11是文字候选区域的图像信息

图12是部分非文字图形

图13是重构的非文字图形

图14是“黑字”目标图像去除非文字图形效果

图15是“白字”目标图像去除非文字图形效果

图16是最终去除非文字图形的效果图。

具体实施方式

下面结合附图和实施方式对本发明作进一步详细的描述。

（1）如图1所示，这种新的针对复杂背景图像的去除非文字图形的方法，包含以下步骤：“平方”变换增强文字信息的显示；自适应局部二值化，生成“黑字”、“白字”目标图像；Canny算子获取边缘图像，并对边缘图像进行形态学操作获取文字分布候选区域；对前面的成果进行运算，重构出非文字图形并去除。

（2） “平方”变换增强文字信息的显示

图2为输入的复杂背景图像，是一张服装商品的规格说明图，图中不仅包含了大面积的商品图片，而且文字被表格所框住，文字颜色存在黑白两种极端色彩。在图像灰度化后，再进行“平方”变换，结果如图3所示，初始灰度图像在“平方”变换后，文字灰度加深，显示更清晰。

（3）自适应局部二值化，生成“黑字”、“白字”目标图像

对“平方”变换后的灰度图进行自适应局部二值化处理：

第一步：生成两个与图1像维度一致的矩阵和，中的元素全为0，中的元素全为1。

第二步：创建一个大小为的滑块，在灰度图中以从左往右、从上至下的顺序滑动来进行自适应局部二值化操作。滑块从左往右滑动时，每次位移10个单位长度；从上至下滑动时，每次位移4个单位长度，并且每次只针对滑块所处的范围内进行二值化阈值分割。每次二值化阈值分割后，都将结果反馈到或中。

确定图像二值化阈值的方法为最大类间方差法，记图像二值化阈值为。

更进一步，获取“黑字”目标二值图像时，将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“或”逻辑运算；获取“白字”目标二值图像时，将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“与”逻辑运算。

处理结果如图4所示，由于“黑字”目标图像是通过“或”运算得到，该图在局部二值化的过程中保留每一次将图形置为前景的结果，图形展示更加全面；而“白字”目标图像是通过“与”运算得到，对前景的筛选条件更为严苛，图像中也可以看出有大部分本应置为前景的区域都变成了背景，而这一部分在后期处理时也是要被去掉的。

（4）Canny算子获取边缘图像，并对边缘图像进行形态学变换操作获取文字分布候选区域

如图5所示是获取文字分布区域的流程图：获取边缘图像；对图像进行膨胀，得到水平“线性核”膨胀图像和垂直“线性核”膨胀图像；对图像和图像做“与”运算，得到文字分布候选区域图像。

第一步，选用Canny算子对“平方”变换的灰度图提取边缘，得到的边缘图像如图6所示。此时可以看见，图像中所有的文字以及非文字图形都被标记。可用于下一步对边缘进行形态学变换。

第二步，对边缘图像进行水平和垂直两个方向的形态学“线性核”膨胀处理。

膨胀所使用的“线形”结构元素如下所示：

1×40 40×1

经多次试验结果的检验，使用40个像素以上的图像膨胀结果变化不大，故选用40个像素。图7为水平、垂直膨胀的图像。

第三步，通过逻辑“与”操作，提取水平“线性核”膨胀图像和垂直“线性核”膨胀图像的公共部分图像。

在“水平膨胀”和“垂直膨胀”共同作用下，文字部分可以很好地被“保护”在一个矩形区域，而非文字部分则很难被“保全”，易遗漏部分非文字图形，结果如图8所示。

（5）对前面的成果进行运算，重构出非文字图形并去除

结合“黑字”、“白字”目标二值化图像与文字分布候选区域，分别提炼出部分非文字图形，以此重构出绝大部分的非文字图形，进而从目标图像中将该部分非文字图形去除，综合得到去除非文字图形后的图像。图9和图10 分别为“黑字”、“白字”目标图像去除非文字图形的流程图。因为处理方式基本一致，以下以“黑色”目标图像的处理过程作为示例进行详细讲解。

首先去除“黑字”目标图像中的小部分非文字图形，主要对和使用“与”和“取反”操作实现：

“取反”运算处理的结果为：

其次从中将文字分布候选区域保存，达到保留文字信息再次去除大量非文字图形的目的。结果如图11所示，“黑字”都可以显示出来，但是像原本的表格图像就已经被去掉，模特、沙发之类的事物也只是显示了一部分而已。实现如下：

从中将文字分布候选区域去除，从而获得部分非文字图形。结果如图12所示，图中已经看不到文字信息，只是显现了部分模特、沙发、表格之类的非文字图形。实现如下：

利用图像重构技术将部分非文字图形根据模板复原出整个非文字图形。结果如图13所示，可以看到非文字的图像信息基本都可以被重构出来。实现如下：

其中为掩模，为标记，表示图像重构。

是“黑字”目标图像去除非文字图形的效果图，如图14所示。图中完整地将“黑字”目标保存下来，非文字图形已经基本去除。

以同样的方式也获取“白字”目标图像去除非文字图形的效果图，如图14所示。图中完整地将“白字”目标保存下来，非文字图形也已经基本去除。

最后一步是将和进行“或”运算，以保全所有文字信息，又去除非文字图形的最终结果。实现如下：

结果如图15所示，这个结果已经基本去除了图中的非文字图形，但是黑白字体的文本信息也能有效地保留。

综合以上分析，本发明所述的一种复杂背景图像下去除非文字图形的方法，主要创新点在于：通过“平方”变换增强灰度图像文字信息显示；基于该灰度图像进行自适应局部二值化，得到“黑字”、“白字”目标二值化图像；同样基于该灰度图像进行Canny算子的边缘检测，标记图像边缘，进而对边缘图像通过形态学操作获取文字分布候选区域；结合“黑字”、“白字”目标二值化图像与文字分布候选区域，分别提炼出部分非文字图形，以此重构出绝大部分的非文字图形，进而从目标图像中将该部分非文字图形去除，综合得到去除非文字图形后的图像。

实践证明该方法效果很好，同时该方法突破传统的图像去除非文字图形，且保留文字信息的思维做法，为图像处理识别文字提供一种新的方向。

Claims

1.一种复杂背景图像下去除非文字图形的方法，其特征在于，包括以下步骤：

2.如1所述的复杂背景图像下去除非文字图形的方法，其特征是：在上述步骤①中：

首先将读入的原始彩色复杂图像转换成单通道灰度图，使用“平方”变换运算，对单通道灰度图像进行灰度强化，以增强文字信息的显示，公式如下所示：

式中表示单通道灰度矩阵中的任意像素值，表示“平方”变换的结果，经过“平方”变换运算后，再将结果映射到[0,255]区间内：

式中表示单通道灰度矩阵中的最大值与最小值，表示“平方”变换结果映射值。

3.如1所述的复杂背景图像下去除非文字图形的方法，其特征是：在上述步骤②中“黑字”、“白字”目标二值化图像：

首先，确定白色作为前景颜色，黑色作为背景颜色，“黑字”目标图像是指以黑色字体的文字信息作为目标的二值图像，在二值化过程中将黑色转换为白色，那么黑字就转换成白色前景；“白字”目标图像是指以白色字体的文本信息作为目标的二值图像，白字已经是前景信息；

其次，使用最大类间方差法确定图像二值化的阈值，记图像二值化阈值为，

以如下函数计算“黑字”目标二值图像的像素值：

为当前像素值，为二值化值，

以如下函数计算“白字”目标二值图像的像素值：

如1所述的复杂背景图像下去除非文字图形的方法，其特征是：在上述步骤②中自适应局部二值化：

第一步：生成两个与原图像维度一致的矩阵和，中的元素全为0，中的元素全为1，

第二步：创建一个大小为的滑块，在灰度图中以从左往右、从上至下的顺序滑动来进行自适应局部二值化操作，滑块从左往右滑动时，每次位移个单位长度；从上至下滑动时，每次位移个单位长度，并且每次只针对滑块所处的范围内进行二值化阈值分割，每次二值化阈值分割后，都将结果反馈到或中，

经多次试验结果的检验，滑块取时效果较好，也基本可以满足需求，

获取“黑字”目标二值图像

将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“或”逻辑运算，“或”运算处理的结果为：

“0”表示二值图中的黑色；“1”表示二值图中的白色，通过“或”逻辑运算可以最大程度地保存图像信息，

获取“白字”目标二值图像

将每次滑块所处范围内的二值化处理结果与中对应位置的矩阵子块做“与”逻辑运算，“与”运算处理的结果为：

4.如1所述的复杂背景图像下去除非文字图形的方法，其特征是：在上述步骤③中：

对灰度图用canny算子检测边缘，标记图像边缘，得到边缘图像，

5.膨胀所使用的“线形”结构元素如下所示：

1×40 40×1

经多次试验结果的检验，使用40个像素以上的图像膨胀结果变化不大，故选用40个像素，

通过逻辑“与”操作，提取水平“线性核”膨胀图像和垂直“线性核”膨胀图像的公共部分图像，

在“水平膨胀”和“垂直膨胀”共同作用下，文字部分可以很好地被“保护”在一个矩形区域，而非文字部分则很难被“保全”，易遗漏部分非文字图形。

6.如1所述的复杂背景图像下去除非文字图形的方法，其特征是：在上述步骤④中：

“取反”操作~的结果：

其次从中将文字分布候选区域保存，达到保留文字信息而再次去除大量非文字图形的目的，实现如下：

从中将文字分布候选区域去除，从而获得部分非文字图形：

利用图像重构技术将部分非文字图形根据模板复原出整个非文字图形，

其中为掩模，为标记，表示图像重构，

经过图像重构后便可以得到非文字图形，中有原图像中的文字信息和部分的非文字图像信息，此时从中去除便可以达到清除非文字图形并保存文本信息的效果，实现过程如下：

是“黑字”目标图像去除非文字图形的效果图，以同样的方式获取“白字”目标图像去除非文字图形的效果图，

最后一步是将和进行“或”运算，以保全所有文字信息，同时达到去除非文字图形的效果，实现如下：

。