CN108416748A

CN108416748A - Jpeg压缩文档的图像预处理方法及装置

Info

Publication number: CN108416748A
Application number: CN201810162773.8A
Authority: CN
Inventors: 余宙; 杨永智; 郭萌
Original assignee: A Bozzi De (beijing) Science And Technology Co Ltd
Current assignee: A Bozzi De (beijing) Science And Technology Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-17
Also published as: US10817984B2; US20190266703A1

Abstract

本发明涉及JPEG压缩文档的图像预处理方法及装置，所述方法包括步骤：接收待处理的JPEG图像；利用预先训练的全卷积网络模型对接收到的JPEG图像进行去噪处理，以得到去除噪声且分辨率提高的图像。所述全卷积网络模型中例如可以包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。本发明方法及装置可以有效提升电子文档中图像的清晰度，为后续的基于图像的文档分析，如OCR、CHART解析提供有效的帮助。

Description

JPEG压缩文档的图像预处理方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种JPEG压缩文档的图像预处理方法及装置。

背景技术

图像去噪的主要目的是去除图像噪声并且尽可能的保留图像中有用的信息。常见的图像处理去噪方法包括：中值滤波、高斯滤波、双边滤波等，不同的滤波方法在处理不同噪声上效果不同。中值滤波在处理椒盐噪声时效果较好，高斯滤波在高斯噪声上效果较好，双边滤波在去除噪声的时候能较好的保留边缘信息。然而在已有的图像去噪算法中，还未有见过专门针对电子图表文件JPEG压缩引起的噪声进行去噪的有效方法。

发明内容

本发明的目的在于改善现有技术中所存在的没有专门针对图表文件JPEG压缩引起的噪声进行去噪的有效方法的不足，提供一种JPEG压缩文档的图像预处理方法及装置。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一方面，本发明实施例提供了一种JPEG压缩文档的图像预处理方法，包括：

接收待处理的JPEG图像；

利用预先训练的全卷积网络模型对接收到的JPEG图像进行去噪处理，以得到去除噪声且分辨率提高的图像。

所述全卷积网络模型中包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。

所述全卷积网络模型通过以下步骤训练得到：

a，随机初始化全卷积网络模型的参数；

b，随机选取batchsize张样本图片，并在每张样本图片上随机截取W*H尺寸的图像，作为本次迭代目标图像样本，其中batchsize表示批尺寸；

c，将目标图像样本中的每个像素归一化处理；

d，将目标图像样本进行双线性插值的n倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为n为正整数；

e，将步骤d得到的batchsize张JPEG图像作为输入，传入到步骤a中的全卷积网络模型中，得到输出图像，尺寸为W*H；

f，计算本次迭代当前均方误差损失loss：其中target为目标图像样本的目标值，output为对应的降低n倍分辨率后的JPEG图像输入到全卷积网络模型中得到的输出值；

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

另一方面，本发明实施例提供了一种JPEG压缩文档的图像预处理装置，包括：

图像接收模块，用于接收待处理的JPEG图像；

图像预处理模块，用于利用预先训练的全卷积网络模型对所述图像接收模块所接收的待处理的JPEG图像进行去噪处理，得到去除噪声且分辨率提高的图像。

与现有技术相比，本发明的有益效果：本发明采用了基于深度学习的方法，进行图像去JPEG噪声和图像分辨率提升，输入是一个JPEG格式的图像，输出是一个分辨率提升一倍的且去掉JPEG压缩噪声的无损图像格式文件。本发明可以有效去除电子文档中经JPEG压缩产生的噪声，提升电子文档中图像的清晰度，为后续的基于图像的文档分析，如OCR、CHART解析提供有效的帮助。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例中的全卷积网络模型的结构图。

图2为本发明较佳实施例提供的全卷积网络模型的训练流程图。

图3为本发明较佳实施例提供的JPEG压缩文档的图像预处理装置的功能模块示意图。

图4a-d分别为原始JPEG图像、双线性插值提升分辨率一倍的效果图、高斯滤波法去噪后的效果图、本发明方法去噪后的效果图。

图5为实施例中提供的一种电子设备的结构示意框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的JPEG压缩文档的图像预处理方法，包括以下步骤：

步骤A，接收待处理的JPEG图像。

步骤B，将接收到的JPEG图像输入预先训练的全卷积网络模型，以对待处理的JPEG图像进行去噪处理，得到去除噪声且分辨率提高的图像。所述全卷积网络模型的结构例如如图1所示，可以包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。在该结构中，残差模块例如可以采用残差网络(RESNET)的残差模块，用以提升网络最终输出精度。亚像素层可以用来提升图像的分辨率。

全卷积网络模型是一种端到端的深度学习模型，通过结构中引入残差模块和亚像素层，可以有效的提升图像质量，提升图像分辨率，为后续图表数据结构化还原提供图像基础。

请参阅图2，本实施例中，上述全卷积网络模型可以通过以下步骤训练得到：

a，随机初始化全卷积网络模型的参数；

c，将目标图像样本中的每个像素归一化到-1～1之间。

需要说明的是，在深度学习的数据预处理中，通常需要将数据归一化，以加速网络收敛。原则上，可以不用对像素归一化到-1～1之间，其他范围也是可以的。此处将目标图像样本中的每个像素归一化到-1～1之间，即是0均值，目的是进一步加快网络收敛，减少运行时间。

d，将目标图像样本进行双线性插值的2倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为此步骤为尽可能地仿真得到实际文档中噪声图像的样式。通过随机压缩比，可以得到各种JPEG图像质量的图像，使得模型的适应性更强。

需要说明的是，针对于实施例中图4所举例的应用场景中，只需要将JPEG图像分辨率提升2倍即可满足后续文档分析工作，因此此处是进行2倍分辨率降低，针对于不同的应用场景，可以进行不同的设置，设置为n，例如可以设置为2倍，4倍，8倍，全卷积网络模型结构中只需要增加相应的亚像素层即可，一个亚像素层可以提升一倍分辨率。2倍倍率的设置不仅满足应用要求，还可以简化模型结构。

e，将步骤d得到的一批(即batchsize张)JPEG图像作为输入，传入到经步骤a初始化的全卷积网络模型中，得到输出图像，尺寸为W*H；

f，计算本次迭代当前均方误差损失loss：

其中，target为目标图像样本的目标值，output为对应的低分辨率(即经过2倍分辨率降低后的分辨率)JPEG图像输入到全卷积网络模型中得到的输出值；

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

举例说明，为了使得全卷积网络模型具有去噪及提高分辨率的效果，训练所需的样本以PNG高清图像的形式给出，低分辨率JPEG图像在模型训练中随机生成。目标生成的PNG图像可以通过矢量PDF按照指定的高分辨率(例如分辨率为1600*1200)进行绘制随机选择了10万张图像用于模型的训练，将其作为样本图片存储在磁盘中。

a，随机初始化全卷积网络模型的参数。

b，随机选取32(batchsize)张PNG格式的样本图片，并在每张样本图片上随机截取128*128尺寸的图像，作为本次迭代目标图像样本target(RGB 3通道)，尺寸为32(batchsize)*128(height)*128(width)*3(channels)。

c，将目标图像样本中的每个像素归一化到-1～1之间。具体的，由于目标图像样本(PNG格式)中的像素值为0到255，为了将其归一化到-1～1之间，则需要将像素值x，减去128再除以128，即每个像素的像素值执行(x-128)/128运算，即可归一化到-1～1。

d，将目标图像样本进行双线性插值的2倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，其尺寸为32*64*64*3。

e，将步骤d得到的32(batchsize)张JPEG图像作为输入，传入到步骤a中的全卷积网络模型中，得到输出图像，其尺寸为32*128*128*3。

从步骤d和e可以看出，JPEG压缩图像经过全卷积网络模型输出后，分辨率提升了一倍，由64*64提升为128*128。

f，计算本次迭代当前均方误差损失loss：

本举例应用中，W＝128，H＝128，batchsize＝3，target和output的尺寸均为32*128*128*3，即batchsize*W*H*3。

g，利用BP算法最小化batchsize张目标图像样本的平均损失，更新当前全卷积网络模型的参数。BP算法是神经网络中参数更新的标准方法，进行参数更新的时候，采用梯度下降法，即要找到最优解loss对应的权重参数W的方法。具体步骤是：对损失函数中每个参数W求导数，找到每个参数的负梯度方向dW，然后进行一小步更新，即权重更新为W＝W+learning_rate*dW，其中learning_rate为学习率或理解成更新步长，例如设置为0.001。迭代此步骤。求导时由于是复合函数求导(多层神经网络)，因此，需要采用微积分中的链式法则，链式法则在神经网络中的体现就是反向传播(BP)，是神经网络中的专用术语。dW从最后一层依次向前计算。

循环执行步骤b～g，直至预先设定的迭代次数。迭代次数根据经验值设定，例如此处可以设定迭代10万次。设定迭代次数时，迭代次数的最小值至少应保障最小化平均损失不再下降。

待处理的JPEG图像经过上述方法预处理后，可以去除JPEG噪声，并提升图像分辨率。请参阅图4a-d，其中图4a是原始JPEG图像(一张完整的低分辨率图像的局部)，图4b为双线性插值将图像分辨率提升一倍的效果，图4c为将图4b进行高斯滤波去噪后的效果图，高斯滤波去噪虽然一定程度去掉了噪声，但同时也使得图像模糊，图4d为采用上述训练的全卷积网络模型输出的效果图，可以明显看出图像质量的提升。

由于经过上述全卷积网络模型输出的图像中每个像素的像素值为0～255之间，而常规RGB图像中每个像素的值为0～255中的整数，因此，为了便于对全卷积网络模型输出的图像进行后续分析处理，上述预处理方法中，还包括步骤C：将得到的去除噪声且分辨率提高的图像中的每个像素去归一化到0～255之间。

基于与上述方法相同的发明构思，本申请实施例还提供了一种JPEG压缩文档的图像预处理装置，如图3所示，该装置主要包括：模型训练模块31、图像接收模块32、图像预处理模块33以及可选的去归一化模块34。

其中，模型训练模块31通过如下方式训练得到所述全卷积网络模型：

a，随机初始化全卷积网络模型的参数；

b，随机选取batchsize张样本图片，并在每张样本图片上随机截取W*H尺寸的图像，作为本次迭代目标图像样本；

c，将目标图像样本中的每个像素归一化到-1～1之间；

d，将目标图像样本进行双线性插值的2倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为

e，将步骤d得到的一批JPEG图像作为输入，传入到步骤a中的全卷积网络模型中，得到输出图像，尺寸为W*H；

f，计算本次迭代当前均方误差损失loss：

其中target为目标图像样本的目标值，output为对应的降低2倍分辨率后的JPEG图像输入到全卷积网络模型中得到的输出值；

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

其中，图像接收模块32，用于接收待处理的JPEG图像；

其中，图像预处理模块33，用于利用预先训练的全卷积网络模型对所述图像接收模块所接收的待处理的JPEG图像进行去噪处理，得到去除噪声且分辨率提高的图像。

作为一个可选模块，去归一化模块34，用于将得到的去除噪声且分辨率提高的图像中的每个像素去归一化到0～255之间。

本JPEG压缩文档的图像预处理装置的实施例中未涉及之处，请参见前述JPEG压缩文档的图像预处理方法实施例中的相应描述。

如图5所示，本实施例同时提供了一种电子设备，该电子设备可以包括处理器51和存储器52，其中存储器52耦合至处理器51。值得注意的是，该图是示例性的，还可以使用其他类型的结构来补充或替代该结构，实现数据提取、图表重绘、通信或其他功能。

如图5所示，该电子设备还可以包括：输入单元53、显示单元54和电源55。值得注意的是，该电子设备也并不是必须要包括图5中显示的所有部件。此外，电子设备还可以包括图5中没有示出的部件，可以参考现有技术。

处理器51有时也称控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器51接收输入并控制电子设备的各个部件的操作。

其中，存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种，可存储上述处理器51的配置信息、处理器51执行的指令、记录的图表数据等信息。处理器51可以执行存储器52存储的程序，以实现信息存储或处理等。在一个实施例中，存储器52中还包括缓冲存储器，即缓冲器，以存储中间信息。

输入单元53例如用于向处理器51提供包含样本图像或待处理的JPEG图像。显示单元54用于显示经过预处理后的效果图，该显示单元例如可以为LCD显示器，但本发明并不限于此。电源55用于为电子设备提供电力。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种JPEG压缩文档的图像预处理方法，包括：

接收待处理的JPEG图像；

2.根据权利要求1所述的方法，其特征在于，所述全卷积网络模型中包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。

3.根据权利要求1所述的方法，其特征在于，所述全卷积网络模型通过以下步骤训练得到：

a，随机初始化全卷积网络模型的参数；

c，将目标图像样本中的每个像素归一化处理；

d，将目标图像样本进行双线性插值的n倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为

f，计算本次迭代当前均方误差损失loss：

其中target为目标图像样本的目标值，output为对应的降低n倍分辨率后的JPEG图像输入到全卷积网络模型中得到的输出值；

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

4.根据权利要求1所述的方法，其特征在于，所述得到去除噪声且分辨率提高的图像之后还包括步骤：将得到的去除噪声且分辨率提高的图像中的每个像素去归一化到0～255之间。

5.一种JPEG压缩文档的图像预处理装置，其特征在于，包括：

图像接收模块，用于接收待处理的JPEG图像；

6.根据权利要求5所述的装置，其特征在于，所述全卷积网络模型中包括输入层、卷积层、激活层、残差模块、BN层和亚像素层。

7.根据权利要求5所述的装置，其特征在于，还包括模型训练模块，用于训练得到所述全卷积网络模型。

8.根据权利要求7所述的装置，其中所述模型训练模块通过如下方式训练得到所述全卷积网络模型：

a，随机初始化全卷积网络模型的参数；

c，将目标图像样本中的每个像素归一化处理；

d，将归一化处理后的目标图像样本进行双线性插值的n倍分辨率降低，并按照随机压缩比进行JPEG压缩，得到仿真的JPEG压缩图像，尺寸为

e，将步骤d得到的batchsize张仿真的JPEG压缩图像作为输入，传入到经步骤a初始化的全卷积网络模型中，得到输出图像，尺寸为W*H；

f，计算本次迭代当前均方误差损失loss：

g，利用BP算法更新当前全卷积网络模型的参数；

循环执行步骤b～g，直至预先设定的迭代次数。

9.根据权利要求5所述的装置，其特征在于，还包括去归一化模块，用于将得到的去除噪声且分辨率提高的图像中的每个像素去归一化到0～255之间。

10.一种包括计算机可读指令的计算机可读存储介质，其特征在于，所述计算机可读指令在被执行时使处理器执行权利要求1-4任一所述方法中的操作。

11.一种电子设备，其特征在于，所述的设备包括：

存储器，存储程序指令；

处理器，与所述存储器相连接，执行存储器中的程序指令，实现权利要求1-4任一所述方法中的步骤。