CN102750686B

CN102750686B - 一种基于学习的超分辨文档图像复原处理方法

Info

Publication number: CN102750686B
Application number: CN201210193064.9A
Authority: CN
Inventors: 朱敏
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2012-06-12
Filing date: 2012-06-12
Publication date: 2014-12-24
Anticipated expiration: 2032-06-12
Also published as: CN102750686A

Abstract

本发明涉及一种基于学习的超分辨文档图像复原处理方法，其特征在于，该方法用于低分辨率文档图像的复原，所述的方法包括以下几个步骤：1)图像获取模块获得已知的多个高分辨率图像；2)图像获取模块获得高分辨率图像所对应的低分辨率图像，所述的高分辨率图像和低分辨率图像相对对齐；3)训练模块将获得的高分辨率图像和低分辨率图像作为训练样本，进行训练学习，建立学习模型；4)向复原模块输入待复原低分辨率图像；5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。与现有技术相比，本发明具有复原效果好、操作方便等优点。

Description

一种基于学习的超分辨文档图像复原处理方法

技术领域

本发明涉及一种文档图像处理方法，尤其是涉及一种基于学习的超分辨文档图像复原处理方法。

背景技术

在实际的应用环境中，由于扫描仪及打印机等外界硬件设备等条件的限制，采集到的电子文档图像分辨率较低或降质严重，例如图书馆藏的书籍的电子化、传真图像等。经常出现笔画的缺失、断裂、粘连等问题，使得阅读困难、OCR识别率下降。因此，对该类低分辨率文档图像进行复原来提高其显示效果和OCR识别率具有重要意义。

在文档图像复原领域，低分辨率文档图像将直接影响文字识别的正确率。如何在低分辨率条件下对文档图像进行识别，并保持较高的识别率是研究的重点。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种复原效果好的基于学习的超分辨文档图像复原处理方法。

本发明的目的可以通过以下技术方案来实现：

一种基于学习的超分辨文档图像复原处理方法，该方法用于低分辨率文档图像的复原，所述的方法包括以下几个步骤：

1)图像获取模块获得已知的多个高分辨率图像；

2)图像获取模块获得高分辨率图像所对应的低分辨率图像，所述的高分辨率图像和低分辨率图像坐标相对对齐；

3)训练模块将获得的高分辨率图像和低分辨率图像作为训练样本，进行训练学习，建立学习模型；

4)向复原模块输入待复原低分辨率图像；

5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。

所述的步骤2)中的获得高分辨率图像所对应的低分辨率图像的具体方法包括将高分辨率图像以1/3-1/2的比例进行压缩或缩小。

所述的步骤3)中的训练学习过程具体包括以下步骤：

31)对高分辨率图像和低分辨率图像进行图像预处理，消除图像中无关的信息并进行二值化处理；

32)将高分辨率图像与低分辨率图像划分成块数一致、且坐标一一对应的图像块；

33)对这些图像块进行特征值标示，确定图像块之间的位置关系；

34)根据图像块的特征值标示进行类别统计，将相同特征值的块归为一类；

35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系，建立学习模型。

所述的步骤31)中的二值化处理是指图像上的像素点的灰度值设置为0或者1，呈现出黑白效果。

所述的步骤5)中的复原过程具体步骤包括：

51)对待复原低分辨率图像X_L进行切分，将其切分成与训练样本对应块数的待修复图像块，设图像块数为n；

52)对每一个待修复图像块x分别寻找其在低分辨率图像类别中所属的类；

53)根据学习模型中高分辨率图像类别与低分辨率图像类别之间的概率关系，获得与待修复图像块x对应的具有最大概率的高分辨率图像块y；

54)根据获得的高分辨率图像块y，生成高分辨率复原图像Y_H。

所述的步骤53)具体为：

531)降低算法时间复杂度：将公式转化为

532)将待修复图像块x与高分辨率图像块间的概率关系按概率值从大到小排序，按顺序选取前k个概率值所对应的图像块{y₁,y₂,y₃,…y_k}作为候选块，将与待修复图像块x相邻的8块低分辨率图像{x₁,x₂,….x₈}分别找出它们各自的前k个候选块；

533)获得与待修复图像块x对应的具有最大概率的高分辨率图像块y：

上述P(Y_H,X_L)为高分辨率图像Y_H与待复原低分辨率图像X_L的联合概率，ψ(y_i,y_j)为高分辨率图像块y_i与高分辨率图像块y_j间的概率关系，y_i≠y_j，为待复原图像块x_i与高分辨率图像块y_j间的概率关系，t为互异的高分辨率图像块数目，w_i为权重，

与现有技术相比，本发明首先对样本图像进行块划分，通过训练学习获得低分辨率图像块和高分辨率图像块之间的先验概率，利用贝叶斯公式对待复原的低分辨率文档图像进行复原，本发明对低分辨率文档图像能够有较好的复原效果，同时也可提高OCR识别率。

附图说明

图1为本发明方法的流程示意图；

图2为本发明训练过程示意图；

图3为本发明复原过程示意图；

图4为实施例2中待修复低分辨率图像；

图5为实施例2中修复好的高分辨率图像。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例1

如图1所示，一种基于学习的超分辨文档图像复原处理方法，该方法用于低分辨率文档图像的复原，所述的方法包括以下几个步骤：

1)获得已知的多个高分辨率图像；

2)将高分辨率图像以1/3的比例进行压缩或缩小，获得高分辨率图像所对应的低分辨率图像，所述的高分辨率图像和低分辨率图像坐标相对对齐；

3)将获得的高分辨率图像和低分辨率图像作为训练样本，进行训练学习，建立学习模型；

4)输入待复原低分辨率图像；

5)根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。

如图2所示，步骤3)中的训练学习过程具体包括以下步骤：

32)将高分辨率图像与低分辨率图像划分成块数一致、且坐标一一对应的图像块，高低分辨率图像块的大小比例关系即为高低分辨率图像之间的比例关系；

35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系，如表1所示，建立学习模型。

表1：φ(x_i,y_j)

φ	y₁	y₂	…	y_t
					x₁	p₁	p₂	…	p₄
x₂	p₅	p₆	…	p₈
					…	…	…	…	…
x_s	p_w	p_w+1	…	p_z

上表中，p_i表示高分辨率图像与低分辨率图像类别之间的概率关系。

如图3所示，所述的步骤5)中的复原过程具体步骤包括：

53)根据学习模型中高分辨率图像类别与低分辨率图像类别之间的概率关系，获得与待修复图像块x对应的具有最大概率的高分辨率图像块y：

531)降低算法时间复杂度：将公式转化为

54)根据获得的高分辨率图像块y，生成高分辨率复原图像Y_H。

实施例2

参考图1-图3所示，一种基于学习的超分辨文档图像复原处理方法，收集了100张高分辨率文档图像，对其进行降质处理，降质为1/2(即图像的宽度和高度只有高分辨率图像的一半)生成对应的100张低分辨率图像，以此作为训练样本。本实施例中，将高分辨率图像块的大小设置为10*10，低分辨率图像块的大小设置为5*5。根据实施例1中的步骤对待修复低分辨率文档图像进行复原。在类别统计过程中，将特征值相同的图像块归为一类。通过训练学习，求得表1所示概率关系。再利用学习到的数据对输入的待修复低分辨率文档图像进行了复原，结果如图4和图5所示。

Claims

1.一种基于学习的超分辨文档图像复原处理方法，其特征在于，该方法用于低分辨率文档图像的复原，所述的方法包括以下几个步骤：

1)图像获取模块获得已知的多个高分辨率图像；

4)向复原模块输入待复原低分辨率图像；

5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像；

所述的步骤3)中的训练学习过程具体包括以下步骤：

35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系，建立学习模型；

所述的步骤5)中的复原过程具体步骤包括：

54)根据获得的高分辨率图像块y，生成高分辨率复原图像Y_H。

2.根据权利要求1所述的一种基于学习的超分辨文档图像复原处理方法，其特征在于，所述的步骤2)中的获得高分辨率图像所对应的低分辨率图像的具体方法包括将高分辨率图像以1/3-1/2的比例进行压缩或缩小。

3.根据权利要求1所述的一种基于学习的超分辨文档图像复原处理方法，其特征在于，所述的步骤31)中的二值化处理是指图像上的像素点的灰度值设置为0或者1，呈现出黑白效果。

4.根据权利要求1所述的一种基于学习的超分辨文档图像复原处理方法，其特征在于，所述的步骤53)具体为：

531)降低算法时间复杂度：将公式转化为