CN112785508A

CN112785508A - 一种电子文档图片去噪的方法和装置

Info

Publication number: CN112785508A
Application number: CN201911094253.9A
Authority: CN
Inventors: 陆瑾
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-11

Abstract

本发明公开了一种电子文档图片去噪的方法，包括：将所述电子文档图片转换成灰度图，并将得到的灰度图转换为二值化图；根据所述二值化图，形成连通域图；根据所述连通域图中的各个连通域确定疑似噪点区域；根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片。本发明还公开了一种电子文档图片去噪的装置。

Description

一种电子文档图片去噪的方法和装置

技术领域

本发明涉及电子文档处理领域，尤其涉及一种电子文档图片去噪的方法和装置。

背景技术

图像在生成和传输过程中常常因受到各种噪声的干扰和影响而使图像降质，这对后续图像的处理和图像视觉效应将产生不利影响，如对后续的图像分割、目标识别、边缘提取、光学字符识别(Optical Character Recognition，OCR)等将产生不利影响。所以，为了获取高质量数字图像，很有必要对图像进行降噪处理，尽可能的保持原始信息完整性的同时，又能够去除图像中干扰的信息。

图像去噪的最终目的是改善给定的图像，解决实际图像由于噪声干扰而导致图像质量下降的问题。更好的体现原来图像所携带的信息，是一种重要的预处理手段。

在现有的去噪算法中，主要是针对照片、图片去噪，有的去噪算法在低维信号图像处理中取得较好的效果，却不适用于高维信号图像处理；或者，去噪效果较好，却丢失部分图像边缘信息。本领域中存在一些相关的去噪算法，例如：基于空间域的方法，如中值滤波、均值滤波、高斯滤波等，基于小波域的小波阈值去噪，以及基于变分法思想的ROF(Rudin-Osher-Fatemi)去噪算法。由于这类平滑滤波器会使得边缘变得平滑，当应用到电子文档中去噪时，对于文字这种包含大量点、尖笔画的情况，会使得文字笔画模糊；如要保留笔画，则去噪效果不佳。在电子文档中，主要都是文字信息，边缘细节信息尤为重要，而在OCR识别文档中的文字信息时，噪点会造成很大的干扰。

现在技术方案中，没有专门针对电子文档的特点而提出的去噪方案。因此，为了有效提升电子文档OCR文字识别的准确率，改善电子文档的阅读效果，需要有区别于一般图像的去噪方案，既能使电子文档中文字、符号等细节信息不模糊，又能去除污点噪声的去噪方法。

发明内容

鉴于上述问题，本发明提供一种电子文档图片去噪的方法和装置，解决了针对电子文档图片特点的去噪方案，既能使电子文档中文字、符号等细节信息不模糊，又能去除污点噪声。

为了解决上述问题，本发明提供了一种电子文档图片去噪的方法，包括：

将所述电子文档图片转换成灰度图，并将得到的灰度图转换为二值化图；

根据所述二值化图，形成连通域图；

根据所述连通域图中的各个连通域确定疑似噪点区域；

根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片。

可选地，所述将得到的灰度图转换为二值化图，包括：根据预设的转换阈值将所述灰度图转换为二值化图。

可选地，所述根据所述二值化图，形成连通域图，包括：

通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，得到所述连通域图。

可选地，所述通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，包括：

定义一个x*x的结构元，x为大于或等于2的整数，使用形态学的腐蚀算法对所述二值化图进行运算；

定义一个y*y的结构元，y为大于或等于1的整数，y小于x，通过形态学的膨胀算法对腐蚀算法处理后的二值化图进行运算，得到所述连通域图。

可选地，所述根据所述连通域图中的各个连通域确定疑似噪点区域，包括：

使用轮廓检测算法提取所述连通域图中各个连通域在连通域图中的位置坐标信息；

根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域。

可选地，所述根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域，包括：

根据所提取的各个连通域的位置坐标信息确定各个连通域的大小，将大小低于噪点阈值的连通域，定义为疑似噪点区域，标记为1，反之标记为0；

根据标记，针对整个连通域图形成噪点矩阵图；其中，所述噪点阈值根据所述电子文档图片的分辨率确定。

可选地，所述方法还包括：预设分辨率和噪点阈值的对应关系；

所述噪点阈值根据所述电子文档图片的分辨率确定，包括：根据电子文档图片的分辨率，依据预设的分辨率和噪点阈值的对应关系，确定对应的噪点阈值。

可选地，所述根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片，包括：

对所述电子文档图片进行滤波处理，得到滤波结果图；

根据所述噪点矩阵图，将所述滤波结果图中非疑似噪点对应的区域的像素值都置为0，得到疑似区域结果图；

根据所述噪点矩阵图，将所述电子文档图片中疑似噪点对应的区域的像素值都置为0，得到非疑似区域结果图；

将所述疑似区域结果图和非疑似区域结果图进行矩阵加法运算，得到去噪后的文档图片。

可选地，所述滤波处理包括：中值滤波、均值滤波或高斯滤波。

为了解决上述问题，本发明还提供了一种电子文档图片去噪的装置，包括：

转换模块，设置为将所述电子文档图片转换成灰度图，并将得到的灰度图转换为二值化图；

连通域生成模块，设置为根据所述二值化图，形成连通域图；

噪点确定模块，设置为根据所述连通域图中的各个连通域确定疑似噪点区域；

去噪模块，设置为根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片。

本发明提供的一种电子文档图片去噪的方法和装置，针对电子文档图片的特点，解决了一般去噪方案应用于电子文档时，会将文字断点、标点符号误判为噪点，以及造成文字边缘模糊丢失细节的问题。本发明提供的一种电子文档图片去噪的方法和装置既能使电子文档中文字、符号等细节信息不模糊，又能去除污点噪声，有效提升了电子文档OCR识别的准确率，改善了用户的电子文档阅读体验。

附图说明

图1为本发明实施例一提供的一种电子文档图片去噪的方法流程图；

图2为本发明实施例二提供的一种电子文档图片去噪的方法流程图；

图3为本发明实施例二提供的一种电子文档图片去噪的方法的过程示意图；

图4为本发明提供的电子文档图片去噪的效果对比图；

图5为本发明实施例三提供的一种电子文档图片去噪装置的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例一

本实施例提供一种电子文档图片去噪的方法，如图1所示，包括：

步骤101，将所述电子文档图片转换成灰度图，并将得到的灰度图转换为二值化图；

步骤102，根据所述二值化图，形成连通域图；

步骤103，根据所述连通域图中的各个连通域确定疑似噪点区域；

步骤104，根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片。

可选地，步骤101中，可以采用灰度图片的方式读取所述电子文档图片以获得灰度图。

可选地，步骤101中，将得到的灰度图转换为二值化图，包括：根据预设的转换阈值将所述灰度图转换为二值化图。

可选地，在步骤101之前，预设所述转换阈值。

可选地，在步骤102中，根据所述二值化图，形成连通域图，包括：通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，得到所述连通域图。通过腐蚀运算和膨胀运算，使电子文档中的文字，文字连同邻近的符号和噪点实现分离，并各自形成单独的连通域；电子文档图片中的全部文字，文字连同邻近的符号，以及噪点的连通域一起构成连通域图。

可选地，其中，通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，得到所述连通域图，包括：

定义一个x*x的结构元，x为大于或等于2的整数，使用形态学的腐蚀算法对所述二值化图进行运算；该算法使得使单个文字形成一个包围的整体；并且，如果单个文字附近的符号与文字相隔很近，也能与相邻的文字形成一个整体，从而达到分离噪点的目的。

定义一个y*y的结构元，y为大于或等于1的整数，y小于x，通过形态学的膨胀算法对腐蚀算法处理后的二值化图进行运算，使得电子文档的背景颜色向黑色区域扩张，通过这个操作离群的个体面积会缩小，从而更好的通过大小区分噪点和文字、符号；其中，噪点一般表现为离群的个体。

可选地，所述x和y可以根据电子文档图片的不同设置不同的取值，可以设置为，x的取值大于y的取值；或者x的取值为y的取值的2倍。

通过上述两个步骤后，每个文字，文字连同邻近的符号和噪点都分别形成各自的连通域。整个电子文档图片中的单个文字和/或者单个文字加相邻的符号和/或噪点各自形成的连通域一起构成连通域图。

可选地，在步骤103中，根据所述连通域图中的各个连通域确定疑似噪点区域，包括：使用轮廓检测算法FindContours提取所述连通域图中各个连通域在连通域图中的位置坐标信息；根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域。

其中，所述根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域，包括：

根据标记，针对整个连通域图生成疑似噪点分布区域的噪点矩阵图，即0-1噪点矩阵图；

其中，所述噪点阈值根据所述电子文档图片的分辨率确定。

可选地，步骤104中，根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片，包括：对原电子文档图片(记为原图1)进行滤波，如中值滤波，得到滤波后图片(记为滤波结果图2)；根据噪点矩阵图，将滤波结果图2中非疑似噪点对应的区域的像素值都置为0，得到疑似区域结果图(记为疑似区域结果图3)；根据噪点矩阵图，将原电子文档图片(原图1)中疑似噪点对应的区域的像素值都置为0，得到非疑似区域结果图(记为非疑似区域结果图4)；将前面得到的疑似区域结果图3和非疑似区域结果图4的像素矩阵进行矩阵加法运算，得到去噪后的电子文档图片(记为去噪结果图5)。

可选地，该方法还包括，在步骤101或103之前，预设分辨率和噪点阈值的对应关系；可选地，分辨率越高对应的噪点阈值越大。例如，分辨率为800*600时，对应的噪点阈值为20个像素；分辨率为1200*800时，对应的噪点阈值为30个像素。可以根据电子文档图片的分辨率特点对应设置不同的对应关系。

其中，所述噪点阈值根据所述电子文档图片的分辨率确定，包括：根据电子文档图片的分辨率，依据预设的分辨率和噪点阈值的对应关系，确定对应的噪点阈值。当电子文档图片的分辨率不能与预设数据正好对应时，可以选择接近的噪点阈值；或者，根据相关算法计算确定一个噪点阈值。其具体确定方法不限于本实施例所记载的方式。

可选地，所述滤波处理包括：中值滤波、均值滤波或高斯滤波等空间滤波处理。

实施例二

图2是本发明电子文档图片去噪方法的流程图：

步骤201)，将电子文档图片转换成灰度图片，并根据预设的转换阈值，如，250，将灰度图转换为二值化图；该转换阈值可以根据电子文档图片的不同设置不同的值。

步骤202)，定义一个n*n的结构元，n为偶数，默认为6(也可以设为其他数值)，使用形态学的腐蚀算法对整个电子文档图片的二值化图进行运算，该算法会使单个文字形成一个包围的整体；并且，如果单个文字附近的符号相隔很近，也能与相邻的文字形成一个整体，从而达到分离噪点的目的；再定义一个(n/2)*(n/2)的结构元，通过形态学的膨胀算法对腐蚀算法处理后的二值化图进行运算，使得电子文档图片的背景颜色向黑色区域扩张，通过这个操作离群的个体面积会缩小，从而更好的通过大小区分噪点和文字、符号；其中，离群的个体被理解为噪点。通过这两个步骤，每个文字，文字连同相邻的符号和噪点都分别形成了一个连通域。整个电子文档图片中的单个文字和/或者单个文字加相邻的符号和/或噪点各自形成的连通域一起构成了连通域图。

步骤203)，使用轮廓检测算法FindContours提取所有通过步骤202形成的各个连通域在连通域图中的位置坐标信息。

步骤204)，根据电子文档图片的分辨率，确定一个阈值，默认阈值是50个像素点(可选地，默认阈值设置为其他数值)，根据步骤203所提取的各个连通域的位置坐标信息确定各个连通域的大小，将大小低于阈值的连通域，定义为疑似噪点区域，将这个区域标记为1，反之标记为0。最终，针对整个连通域图生成一张疑似噪点分布区域的0-1噪点矩阵图。

步骤205)，利用0-1噪点矩阵图对电子文档图片中的疑似噪点区域进行滤波处理，得到去噪后的电子文档图片。

可选地，包括：对原电子文档图片(记为原图1)进行滤波，如中值滤波，得到滤波后图片(记为滤波结果图2)；根据0-1噪点矩阵图，将滤波结果图2中非疑似噪点对应的区域的像素值都置为0，即，滤波结果图2的像素矩阵与0-1噪点矩阵图做点乘运算，得到疑似区域结果图(记为疑似区域结果图3)；根据0-1噪点矩阵图，将原电子文档图片(原图1)中疑似噪点对应的区域的像素值都置为0，即，原图1的像素矩阵与1减去0-1噪点矩阵的结果做点乘运算，得到非疑似区域结果图(记为非疑似区域结果图4)；将前面得到的疑似区域结果图3和非疑似区域结果图4的像素矩阵进行矩阵加法运算，得到去噪后的电子文档图片(记为去噪结果图5)。

如图3所示，步骤501，对原图1执行滤波操作，得到滤波结果图2；步骤502，根据0-1噪点矩阵图，对滤波结果图2中非疑似噪点对应的区域的像素值都置为0，得到疑似区域结果图3；步骤503，根据0-1噪点矩阵图，对原图1中疑似噪点对应的区域的像素值都置为0，得到非疑似区域结果图4；步骤504，将疑似区域结果图3和非疑似区域结果图4进行矩阵加法运算，得到去噪结果图5。

可选地，其中步骤205)中的滤波可以替换为均值滤波器、高斯滤波器等空间域滤波器执行的滤波。

图4中展示了几种电子文档图片去噪的效果对比图。其中，a)为原电子文档图片，b)为ROF算法去噪后效果图，c)为中值滤波处理去噪后效果图，d)为本发明实施例二所述方法去噪后效果图。

可以看到，如b)所示的ROF算法去噪效果相比于本发明实施例二的去噪效果d)来说，噪点去除效果欠佳；如c)所示的中值滤波处理去噪效果相比于本发明实施例二的去噪效果d)来说，虽然噪点去除相比于b)有所提高，但是文字变得模糊。

相比之下，本发明实施例二的去噪效果图d)所体现的去噪结果，既能有效地去除噪点，又能保持原始图像中文字信息的完整性和清晰度，减小文字边缘的丢失，大大提升了后续基于图片的OCR文字识别的准确率，同时有效提升了电子文档图片的阅读体验。

实施例三

本实施例提供一种电子文档图片去噪装置30，如图5所示，所述装置包括：

转换模块301，设置为将所述电子文档图片转换成灰度图，并将得到的灰度图转换为二值化图；

连通域生成模块302，设置为根据所述二值化图，形成连通域图；

噪点确定模块303，设置为根据所述连通域图中的各个连通域确定疑似噪点区域；

去噪模块304，设置为根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片。

可选地，所述转换模块301设置为，根据预设的转换阈值将所述灰度图转换为二值化图。

可选地，所述连通域生成模块302设置为，通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，得到所述连通域图。

可选地，所述连通域生成模块302设置为，定义一个x*x的结构元，x为大于或等于2的整数，使用形态学的腐蚀算法对所述二值化图进行运算；该算法使得使单个文字形成一个包围的整体；并且，如果单个文字附近的符号相隔很近，也能与相邻的文字形成一个整体，从而达到分离噪点的目的。

通过所述连通域生成模块302的上述处理后，每个文字，文字连同邻近的符号和噪点都分别形成各自的连通域。整个电子文档图片中的单个文字和/或者单个文字加相邻的符号和/或噪点各自形成的连通域一起构成连通域图。

可选地，所述噪点确定模块303设置为，使用轮廓检测算法FindContours提取所述连通域图中各个连通域在连通域图中的位置坐标信息；根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域。

其中，所述噪点确定模块303还设置为，根据所提取的各个连通域的位置坐标信息确定各个连通域的大小，将大小低于噪点阈值的连通域，定义为疑似噪点区域，标记为1，反之标记为0；

所述噪点确定模块303还设置为，根据标记，针对整个连通域图生成一张疑似噪点分布区域的噪点矩阵图，即0-1噪点矩阵图；

其中，所述噪点阈值根据所述电子文档图片的分辨率确定。

可选地，所述装置还包括：预设模块305，设置为预设分辨率和噪点阈值的对应关系；可选地，分辨率越高对应的噪点阈值越大。例如，分辨率为800*600时，对应的噪点阈值为20个像素；分辨率为1200*800时，对应的噪点阈值为30个像素。可以根据电子文档图片的分辨率特点对应设置不同的对应关系。

可选地，所述噪点确定模块303还设置为，根据电子文档图片的分辨率，依据预设的分辨率和噪点阈值的对应关系，确定对应的噪点阈值。当电子文档图片的分辨率不能与预设数据正好对应时，可以选择接近的噪点阈值；或者，可以根据相关算法计算确定一个噪点阈值。具体确定方法不限于本实施例所记载的方式。

可选地，所述去噪模块304设置为，对整个原电子文档图片(记为原图1)进行滤波，如中值滤波，得到滤波后图片(记为滤波结果图2)；根据噪点矩阵图，将滤波结果图2中非疑似噪点对应的区域的像素值都置为0，得到疑似区域结果图(记为疑似区域结果图3)；根据噪点矩阵图，将原电子文档图片(原图1)中疑似噪点对应的区域的像素值都置为0，得到非疑似区域结果图(记为非疑似区域结果图4)；将前面得到的疑似区域结果图3和非疑似区域结果图4的像素矩阵进行矩阵加法运算，得到去噪后的电子文档图片(记为去噪结果图5)。

其中，所述滤波处理包括：中值滤波、均值滤波或高斯滤波等空间滤波处理。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种电子文档图片去噪的方法，其特征在于，包括：

根据所述二值化图，形成连通域图；

根据所述连通域图中的各个连通域确定疑似噪点区域；

2.根据权利要求1所述的方法，其特征在于，

所述将得到的灰度图转换为二值化图，包括：根据预设的转换阈值将所述灰度图转换为二值化图。

3.根据权利要求1或2所述的方法，其特征在于，

所述根据所述二值化图，形成连通域图，包括：

4.根据权利要求3所述的方法，其特征在于，

所述通过不同大小的结构元对所述二值化图依次进行腐蚀运算和膨胀运算，包括：

5.根据权利要求4所述的方法，其特征在于，

所述根据所述连通域图中的各个连通域确定疑似噪点区域，包括：

6.根据权利要求5所述的方法，其特征在于，

所述根据所述位置坐标信息，分别判断所述连通域图中的各个连通域是否为疑似噪点区域，包括：

7.根据权利要求6所述的方法，其特征在于，

所述方法还包括：预设分辨率和噪点阈值的对应关系；

8.根据权利要求6所述的方法，其特征在于，

所述根据所述疑似噪点区域对所述电子文档图片进行滤波处理，得到去噪后的文档图片，包括：

对所述电子文档图片进行滤波处理，得到滤波结果图；

9.根据权利要求1或8所述的方法，其特征在于，

所述滤波处理包括：中值滤波、均值滤波或高斯滤波。

10.一种电子文档图片去噪的装置，其特征在于，包括：