CN109214322A

CN109214322A - 一种文档图像视觉效果的优化方法及系统

Info

Publication number: CN109214322A
Application number: CN201810981513.3A
Authority: CN
Inventors: 刘嘉; 张旗川
Original assignee: XIAMEN ZHELIN SOFTWARE TECHNOLOGY Co Ltd
Current assignee: XIAMEN ZHELIN SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-01-15

Abstract

本发明涉及一种文档图像视觉效果的优化方法及系统，方法包括：对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域；对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域；进行背景处理，合成背景图像；所述进行背景处理包括对底色区域和背景区域进行处理；对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上。本发明能够从原始图像中区分出前景和背景，并通过对背景和前景进行处理，实现文档图像视觉效果的优化，从而提升后续的诸如光学文字识别(OCR)等图像处理的效果。

Description

一种文档图像视觉效果的优化方法及系统

技术领域

本发明涉及图像设备和图像处理技术领域，特别是涉及一种高清拍摄仪设备，更确切的说，本发明涉及用于提高高清拍摄仪拍摄图像视觉效果的优化方法及系统。

背景技术

由于高清拍摄仪是一种开放环境的图像采集设备，因此无法保证图像获取环境的稳定性。图像设备获取的原始图像，由于光照条件的不确定性，以及光学元器件存在的不一致性，原始图像极大可能存在阴影。图像如果存在阴影，对于后续基于图像的各种处理，都将产生不利影响，例如：

导致人眼感观效果变差；

可能导致基于OCR(光学文字识别)的图像信息提取准确度大幅度降低；

可能导致基于图像匹配技术的票据验真、印章验真以及类似的技术环节，错判的概率大幅度增大；

可能导致需要打印图像的场合，打印出来的图像发黑。

目前，常见的减弱高清拍摄仪设备处理“阴影”的方法有如下两种：其一，提高高清拍摄仪摄像头硬件设备的对比度参数，使图像背景的整体RGB值更趋向白色，从而在视觉上造成一种减轻“阴影”的效果；其二，高清拍摄仪设备获取图像之后，通过算法拉伸图像的灰度值，从而提高原始图像中背景区域的灰度级。上述两种方法，最终的出图效果并不能完全去除“阴影”，而且可能会影响图像中的“有效信息”。本发明区别于以上的现有技术，并较传统算法在特征分析精度、图像重构效率方面有较大提高。

发明内容

本发明的目的在于克服现有技术的不足，提出一种文档图像视觉效果的优化方法及系统，能够从原始图像中区分出前景“有效信息”部分和底色“阴影”部分，并通过对底色和前景进行处理，实现文档图像视觉效果的优化。

本发明解决其技术问题所采用的技术方案是：

一方面，本发明一种文档图像视觉效果的优化方法，包括：

对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域；

对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域；

进行背景处理，合成背景图像；所述进行背景处理包括对底色区域和背景区域进行处理；

对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上。

优选的，所述对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域，具体包括：

对所述文档图像进行局部阈值二值化处理，基于二值图像判断出所述文档图像中的前景区域和背景区域；

基于训练好的分类器对所述前景区域进行识别判断，检测出所述前景区域中的文本区域和图形图像区域。

优选的，对所述文档图像进行局部阈值二值化处理，基于二值图像判断出所述文档图像中的前景区域和背景区域，具体包括：

对所述文档图像中的每个像素点进行处理，得到二值图像；其中，二值图像中像素值为1的点属于前景区域，二值图像中像素值为0的点属于背景区域。

优选的，所述基于训练好的分类器对所述前景区域进行识别判断，检测出所述前景区域中的文本区域和图形图像区域，具体包括：

构建多层卷积神经网络作为分类器，并利用有标记的样本数据训练分类器；

将预设大小的窗口滑过前景区域，利用训练好的分类器对窗口内图像的类别进行判断，滑动窗口直到获得前景区域中每个像素点的判断结果，检测出所述前景区域中的文本区域和图形图像区域。

将预设大小的窗口滑过文档图像，利用训练好的分类器对窗口内图像区域的类别进行判断，继续滑动窗口直到获得整幅文档图像每个像素点的判断结果；所述类别包括文本区域、图形图像区域和背景区域。

优选的，对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域，具体包括：

对所述文本区域中的每个像素点进行处理，得到二值图像；其中，二值图像中像素值为1的点属于文本笔画区域，二值图像中像素值为0的点属于底色区域。

优选的，所述进行背景处理，合成背景图像，具体包括：

利用纯色作为背景图像，或者，提取背景纹理，调整背景灰度级作为背景图像。

优选的，所述提取背景纹理，调整背景灰度级作为背景图像，包括：

将文档图像转到HSV颜色空间；

提取图像V通道的亮度值，得到亮度图像G；

对G进行指定窗口大小的中值滤波，得到背景平均灰度级图像J；

亮度调整，将G中每个像素的灰度级减去J中对应像素的灰度级，再与一个参考的灰度级b求和，得到背景亮度图像K；

将文档图像V通道的亮度图像替换成K，将图像从HSV空间转到RGB颜色空间。

优选的，对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上，具体包括：

估计所述图形图像区域的灰度级，根据背景灰度级进行灰度级拉伸，将处理后的图像叠加到背景图像上；

截取所述文本笔画区域在原图中的像素值，并叠加到背景图像上，或者，估计所述文本笔画区域的灰度级，根据背景灰度级进行灰度级拉伸，将处理后的图像叠加到背景图像上。

另一方面，本发明一种文档图像视觉效果的优化系统，包括：

类别判断模块，用于对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域；

文本区域类别判断模块，用于对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域；

背景图像合成模块，用于进行背景处理，合成背景图像；所述进行背景处理包括对底色区域和背景区域进行处理；

前景目标处理模块，用于对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上。

与现有技术相比，本发明具有如下有益效果：

本发明能够利用多层卷积神经网络作为分类器从原始图像中识别“文本区域”，“图形图像区域”和“背景区域”，然后进行相应的图像重构，实现文档图像视觉效果的优化，从而提升后续的诸如光学文字识别(OCR)等图像处理的效果。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种文档图像视觉效果的优化方法及系统不局限于实施例。

附图说明

图1是本发明一种文档图像视觉效果的优化方法的处理流程图；

图2是高清拍摄仪采集的文档图像；

图3是本发明的将纯色作为背景对图2的文档图像进行处理得到的输出图像；

图4是本发明的调整背景灰度级作为背景对图2的文档图像进行处理得到的输出图像。

具体实施方式

下面结合附图详细描述本发明的实施例，需要注意的是附图所描述的实施例仅仅是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。以下结合附图描述根据本发明实施例的文档图像视觉效果的优化方法及系统。

实施例1

参见图1所示，一方面，本发明一种文档图像视觉效果的优化方法，包括如下步骤：

步骤101，对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域；

具体的，包括如下步骤：

步骤1011，利用文本区域和图形图像区域局部灰度级变化较大，存在较多的边缘，而背景区域局部的灰度级变化较小的特性，对文档图像进行局部阈值二值化处理，基于二值图像判断图像中的前景区域(文本区域和图形图像区域)和背景区域。

具体的，将文档图像中一个像素点的自适应阈值定义为以该像素为中心、半径为r的圆形区域内像素的平均值再减去一个常量g；如果该像素点的值小于该阈值，则将该像素点的值置1，否则该像素点的值置0；对文档图像中的每个像素点进行处理，得到二值图像，二值图像中像素值为1的点属于前景区域，二值图像中像素值为0的点属于背景区域。

步骤1012，基于训练好的分类器对前景区域进行识别判断，检测出文本区域和图形图像区域。

具体的，包括如下步骤：

步骤10121，构建分类器，本实施例采用多层卷积神经网络作为分类器。所述多层卷积神经网络共6层：3个卷积层、2个全连接层和一个输出层。所述卷积神经网络采用的激活函数为relu，relu函数定义为relu(u)＝max(0,u)。输入到第一个卷积层的是一个64x64像素大小的3通道图像；第一个卷积层包括32个大小为5x5的滤波器，之后接的是一个2x2大小的最大池化层；第二个卷积层包括64个大小为3x3的滤波器，之后接的是一个2x2大小的最大池化层；第三个卷积层和第二个卷积层是一样的；卷积层后连接的两个全连接层分别有1024个激活单元；最后是一个softmax输出层，输出结果为文本区域和图形图像区域。

步骤10122，标注样本图像，训练神经网络。神经网络的训练原理为：利用链式求导计算损失函数对每个权重的偏导数(梯度)，然后根据梯度下降公式更新权重，训练算法为反向传播算法。检测过程可以反复使用已经训练好的神经网络。

步骤10123，利用训练好的神经网络对前景区域进行识别判断。固定图像处理的窗口大小为64x64，滑动窗口，取窗口内的图像作为分类器的输入，对窗口内图像区域的类别进行判断，得到图像区域的判断结果；滑动窗口直到获得前景区域每个像素点的判断结果。

步骤102，对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域。

具体的，利用文字笔画的灰度级低，而背景底色的灰度级高的特性，求出局部阈值；再根据局部阈值对文本区域进行二值化，得到二值图像，标记底色区域和文本笔画区域。

本实施例中采用的一种局部阈值二值化的方法如下：

将文本区域中的一个像素点的自适应阈值定义为以该像素为中心，半径为r的圆形区域内像素的平均值再减去一个常量g；如果该像素点的值小于该阈值，则将该像素点的值置1，代表“文本笔画”，否则该像素点的值置0，代表“底色”。

步骤103，进行背景处理，合成背景图像；

具体的，所述进行背景处理包括对底色区域和背景区域进行处理，以下将步骤101判断的背景区域和步骤102判断的底色区域统称为背景区域，进行背景处理，合成背景图像。

将背景的像素值都设置为一个固定值，以纯色作为背景，得到背景图像。对图2进行处理，得到如图3所示的图像。

或者，提取背景纹理，调整背景灰度级作为背景图像，得到如图4所示的图像。

所述提取背景纹理，调整背景灰度级作为背景图像，具体包括：

步骤1031，将原始文档图像转到HSV颜色空间；

步骤1032，提取图像V通道的亮度值，得到亮度图像G；

步骤1033，对G中的背景区域，进行窗口大小为n x n的中值滤波，中值滤波只使用背景区域的像素，得到背景的平均灰度级图像J；

步骤1034，将G中每个像素的灰度级减去J中对应像素的灰度级，再加上一个参考的灰度级b，最后得到亮度调整之后的背景亮度图像K；

步骤1035，将文档图像V通道的亮度图像替换成K，将图像从HSV空间转到RGB颜色空间。

步骤104，前景目标处理，即对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上，具体包括如下步骤：

步骤1041，将原始文档图像中图形图像区域的像素RGB值转换到HSV空间；

步骤1042，利用V通道的信息，根据图形图像区域周边背景灰度级调整前后的比例值作为系数，乘以图形图像区域中每个像素的V通道值进行亮度调整；

步骤1043，将图形图像区域中每个像素的HSV值换到RGB值；

步骤1043，将处理后的图形图像区域叠加到背景图像上；

步骤1044，对所述文本笔画区域，截取其在原图中的像素值叠加到背景图像上，或者，估计所述文本笔画区域的灰度级，根据背景灰度级进行灰度级拉伸，将处理后的图像叠加到背景图像上。

上述各模块功能的详细实现方法参见前面所述的一种文档图像视觉效果的优化方法，本发明实施例不再重复表述。

实施例2

本实施例与实施例1的区别在于步骤101，本实施例文档图像的文本区域、图形图像区域和背景区域的检测均是通过多层卷积神经网络分类器实现的。

具体的，本实施例中步骤101具体描述如下。

具体的，包括如下步骤：

步骤1011，构建分类器，本实施例采用多层卷积神经网络作为分类器。所述多层卷积神经网络共6层：3个卷积层、2个全连接层和一个输出层。所述卷积神经网络采用的激活函数为relu，relu函数定义为relu(u)＝max(0,u)。输入到第一个卷积层的是一个64x64像素大小的3通道图像；第一个卷积层包括32个大小为5x5的滤波器，之后接的是一个2x2大小的最大池化层；第二个卷积层包括64个大小为3x3的滤波器，之后接的是一个2x2大小的最大池化层；第三个卷积层和第二个卷积层是一样的；卷积层后连接的两个全连接层分别有1024个激活单元；最后是一个Softmax输出层，输出结果为文本区域、图形图像区域或背景区域。

步骤1012，标注样本图像，训练神经网络。神经网络的训练原理为：利用链式求导计算损失函数对每个权重的偏导数(梯度)，然后根据梯度下降公式更新权重，训练算法为反向传播算法。

步骤1013，利用训练好的分类器对输入图像进行识别判断。固定窗口大小为64x64，滑动窗口，取窗口内的图像作为分类器的输入，对窗口内图像区域的类别进行判断，得到图像区域的判断结果；

继续滑动窗口直到获得整幅文档图像每个像素点的判断结果；所述类别包括文本区域、图形图像区域和背景区域。

本实施例的其他步骤与实施例1相同，本实施例不再重复描述。

以上所述的具体实施例，对本发明的目的、技术方案和效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不限制本发明，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，所做出的修改、替换和变形均属于本发明的保护之内。

Claims

1.一种文档图像视觉效果的优化方法，其特征在于，包括：

2.根据权利要求1所述的文档图像视觉效果的优化方法，其特征在于，所述对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域，具体包括：

3.根据权利要求2所述的文档图像视觉效果的优化方法，其特征在于，对所述文档图像进行局部阈值二值化处理，基于二值图像判断出所述文档图像中的前景区域和背景区域，具体包括：

4.根据权利要求2所述的文档图像视觉效果的优化方法，其特征在于，所述基于训练好的分类器对所述前景区域进行识别判断，检测出所述前景区域中的文本区域和图形图像区域，具体包括：

5.根据权利要求1所述的文档图像视觉效果的优化方法，其特征在于，所述对输入的文档图像进行识别判断，检测出图像中的文本区域、图形图像区域和背景区域，具体包括：

6.根据权利要求1所述的文档图像视觉效果的优化方法，其特征在于，对所述文本区域进行处理，判断出文本区域中的底色区域和文本笔画区域，具体包括：

对所述文本区域中的每个像素点进行处理，得到二值图像；其中，二值图像中像素值为1的点属于文本笔画区域，二值图像中像素值为0的点的属于底色区域。

7.根据权利要求1所述的文档图像视觉效果的优化方法，其特征在于，所述进行背景处理，合成背景图像，具体包括：

8.根据权利要求7所述的文档图像视觉效果的优化方法，其特征在于，所述提取背景纹理，调整背景灰度级作为背景图像，包括：

将文档图像转到HSV颜色空间；

提取图像V通道的亮度值，得到亮度图像G；

9.根据权利要求1所述的文档图像视觉效果的优化方法，其特征在于，对所述图形图像区域和文本笔画区域进行灰度级拉伸，再将处理后的图像叠加到所述背景图像上，具体包括：

10.一种文档图像视觉效果的优化系统，其特征在于，包括：