CN110263610A

CN110263610A - 一种基于深度学习的退化文档图像二值化方法及系统

Info

Publication number: CN110263610A
Application number: CN201910149315.5A
Authority: CN
Inventors: 文静; 唐倩; 王翊; 刘学军; 向秩仪
Original assignee: Chongqing Peiyun Information Technology Co Ltd; Chongqing University
Current assignee: Chongqing Peiyun Information Technology Co Ltd; Chongqing University
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-09-20

Abstract

本发明公开了一种基于深度学习的退化文档图像二值化方法及系统，该系统网络包括第一运算模块、第二运算模块和二分类器，第一运算模块使用浅层的网络将退化文档图像降解成不同比例且分辨率逐级降低的特征图，从而来预测文本像素在不同特征层次上的变化。再使用反卷积以一种由粗至细的方式将前一层的详细信息结合起来，依次重构前景图像。第二运算模块在浅层网络结构之后，级联一个较深层次的网络进行二次训练，在网络结构的最后，连接一个二分类器，用于区分背景噪声与前景文字，以优化最终的二值化效果，大大提高了退化文档二值化的精度和准确性。

Description

一种基于深度学习的退化文档图像二值化方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习的退化文档图像二值化方法及系统。

背景技术

纸质文件(例如图书和票据等)随着存续时间的延长，存在字符模糊、背景漏色、墨迹晕散、折痕等问题。对于退化文档图像，二值化非常复杂。由于老化的影响、存储方式的不完善、维护条件的不完善，历史记录发生了严重的降解，包括强度不均匀、背景复杂、渗透等。图1展示了退化文档图像二值化的一些困难示例，很难区分文本和非文本区域。

为了解决文档退化问题，目前有一种图像的阈值计算方法，其中包括基于直方图的全局阈值法(全局阈值法的代表性有简单迭代法、Otsu算法、Histogram Peaks算法等)，即更根据整张图像，选定一个固定的阈值，根据这个阈值，将图像分成前景与背景两个部分；这种全局阈值法算法简单，但是对于含有复杂背景的退化文档图像，选用固定阈值可能会丢失前景信息，或者保留大量的噪声信息，这都不是二值化处理的理想结果。另外一种基于直方图的方法为局部阈值法(局部阈值法的代表算法包括Niblack算法、Sauvola算法、Wolf算法等方法；以及基于局部对比度的二值化算法，如Bernsen算法、LMM算法、Gatos算法，以及BESE算法等)，即采用滑动窗口技术，根据滑动窗口与图像的卷积，在不同点有不同的阈值。相对于全局阈值法选取单一的阈值，局部阈值效果更加精准，但由于该方法的阈值调整根据滑动窗口的大小变化结果会有不同，存在前景背景误判等现象。

以上基于直方图的传统方法，对于背景和前景单一的图像，有较好的效果，但对于含有噪声或不均匀光照的图像，效果不理想。除了以上基于直方图的一些方法外，另一些根据图像特征来选择阈值的方法也孕育而生，进而提出了一种基于纹理特征的阈值分割算法。该方法首先利用Otsu算法迭代提取候选阈值，然后从运行长度直方图中提取与每个候选阈值相关的纹理特征。最后选择了最优阈值，以保持理想的文档纹理特征。也有学者将图像考虑为三维地形，提出了一种水流模型，通过阈值化的方法从背景中提取字符。与基于直方图的方法相比较，基于特征的方法通常可以得到更健壮的二值化结果，因为高分辨的图像特征用于对前景和背景像素进行分类。但是这些方法的特征选取比较复杂，且选定一个特征之后，模型的泛化能力较差。

最近，一些研究人员提出了基于学习的方法。这些方法的基本思想是直接从数据中学习图像二值化特征。研究人员建议使用非随机树对退化的文档图像进行二值化，将所有关于像素是否为前景文本的启发式编码为高维特征向量，并学习一种更复杂的决策函数来实现精确的图像二值化。与传统方法相比，基于学习的方法严重依赖训练数据，且选定一个特征之后，模型的泛化能力较差。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种一种基于深度学习的退化文档图像二值化方法及系统。

为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种基于深度学习的退化文档图像二值化方法及系统，其包括如下步骤：

S1，向第一运算模块输入退化文档图像，所述第一运算模块包括n1个卷积层、至少一个归一化层和至少一个激活层，利用n1个卷积层对输入的原始图像进行逐级分解并压缩分辨率，利用m1层反卷积层对处理后的图像特征图进行逐级上采样，重建得到的特征图与输入图像进行融合，所述m1、n1均为正整数；

S2，将原始图像与第一运算模块的输出图像融合后输入第二运算模块，所述第二运算模块包括n2个卷积层、至少一个归一化层、至少一个激活层、至少一个池化层，利用n2个卷积层对输入的输入图像进行逐级分解并压缩分辨率，利用m2层反卷积层对处理后的图像特征图进行逐级上采样，生成分辨率升高后的新特征图，所述m2、n2均为正整数；

S3，使用卷积核大小为1*1的卷积层代替全连接层(在原始的卷积网络中都是使用的全连接层连接在卷积层之后，我们使用卷积核大小1*1的卷积层代替全连接层，能够达到相同的效果，还不需要统一输入图像的大小)，使卷积网络在包括多个区域的输入图片上滑动，得到每个区域的输出；

S4，对得到的结果在进行二分类处理，区分前景文字与背景噪声，输出最终的二值化图像。

本发明的基于深度学习的退化文档图像二值化方法采用端到端的两个神经网络结构直接提取特征，模型泛化能力强；采用卷积层代替全连接层可以让卷积网络在一张更大的输入图片上滑动，得到每个区域的输出，突破了输入尺寸的限制。通过构建一个二分类器，将得到的图像分为前景部分与背景部分，从而更好的消除透过来的部分噪声，从而得到更好的二值化效果。在本发明的一种优选实施方式中，采用损失函数衡量反卷积层的重构损失，将每一层的输出样本向上采样到Ground Truth前景图像的大小，然后计算出真实标签的前景和重建前景之间的损失函数，具体损失函数包括字符损失函数和/或标签一致性损失函数；

对中文和英文字符检测的字符损失函数：

其中，H(x,y)表示输入的图像，x表示水平方向，y表示垂直方向，z表示与x轴夹角45°方向，k表示与x轴135度夹角，Ω表示积分的空间区域；

前景像素和背景像素的标签是相互关联的，要求两个相邻像素的标签具有相似的颜色，为了使标签具有这样的一致性，引入标签一致性损失函数:

z＝x*cos 45°

k＝x*cos 135°；

其中H(x,y)计的前景图像，W(x,y)为编码相邻像素相似性的加权函数，定义如下:

其中，I是RGB三通道的输入图像，λ是一个预定义的参数，c为，r，g，b为RGB三通道值。

在本发明的另一种优选实施方式中，将损失函数绑定到每个重构层，对于每个重构层，将每一层的输出样本向上采样到Ground Truth(理想的二值化效果图像)前景图像的大小，然后计算出Ground Truth前景和重建前景之间的二元交叉熵损失函数，其中f_j来表示分类评分向量f的第j个元素，其定义如下：

f表示分类评分向量。

将损失函数绑定到每个重构层，把一些监督信息直接引入到网络深层的训练中，使训练过程正则化。

为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种基于深度学习的退化文档图像二值化系统，其包括第一运算模块和第二运算模块，所述第一运算模块输入退化文档图像，所述第一运算模块包括n1个卷积层、至少一个归一化层和至少一个激活层，利用n1个卷积层对输入的原始图像进行分解并压缩分辨率，利用m1层反卷积层对处理后的图像特征图进行逐级上采样，重建得到的特征图，所述m1、n1均为正整数；原始图像与第一运算模块的输出图像融合后输入第二运算模块，所述第二运算模块包括n2个卷积层、至少一个归一化层、至少一个激活层、至少一个池化层，利用n2个卷积层对输入的输入图像进行分解并压缩分辨率，利用m2层反卷积层对处理后的图像特征图进行逐级上采样，生成分辨率升高后的新特征图，所述m2、n2均为正整数；还包括卷积核大小为1*1的卷积层和二分类器，所述卷积核大小为1*1的卷积层可代替全连接层；所述第二运算模块输出的图像输入二分类器，所述二分类器区分前景文字与背景噪声，输出最终的二值化图像。

本发明采用端到端的两个神经网络结构直接提取特征，模型泛化能力强；采用卷积层代替全连接层可以让卷积网络在一张更大的输入图片上滑动，得到每个区域的输出，突破了输入尺寸的限制。通过构建一个二分类器，将得到的图像分为前景部分与背景部分，从而更好的消除透过来的部分噪声，从而得到更好的二值化效果。本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是部分退化文档的示意图；

图2是本发明一种优选实施方式中基于深度学习的退化文档图像二值化方法的流程图

图3是本发明一种优选实施方式中基于深度学习的退化文档图像二值化系统的网络总体结构图；

图4是选取部分测试样例图；

图5是使用本方法的二值化化效果图像；

图6是一个优选实施方式中二分类处理之前的二值化细节放大图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在进行退化文档的二值化识别之前，先要准备数据集。在本实施方式中，数据集主要来源于官方数据集DIBCO。为了增加数据集，提高实验的泛化能力，我们对数据集进行扩充，主要使用明暗变化，旋转、滤波、缩放、锐化等操作增加数据集。

在进行训练模型时，将得到的图像随机裁剪成小的图像块，在本发明的一种优选实施方式中，一共构造了36000张图像块用于模型的训练，其中验证集与训练集的比例是2:8。

本发明还提供了一种基于深度学习的退化文档图像二值化方法，如图2和图3所示，

图3中每一层左侧的数字表示该图层的类型，在图3中右侧标识框中有具体说明，标识框中以数字“1、2、3、4、5”依次标识各图层，从上而下的图层英文对应的中文含义为：Conv+BN+LeakyRELU表示卷积层，归一化层以及激活函数；Pooling表示池化层；Deconv+BN+LeakyRELU表示反卷积层，归一化层以及激活函数；Concatenate表示连接两个层；SoftMax为激活函数。

该基于深度学习的退化文档图像二值化方法包括如下步骤：

S1，向第一运算模块输入退化文档图像，所述第一运算模块包括n1个卷积层、至少一个归一化层和至少一个激活层，利用n1个卷积层对输入的原始图像进行逐级分解并压缩分辨率，利用m1层反卷积层对处理后的图像特征图进行逐级上采样，重建得到的特征图与输入图像进行融合，所述m1、n1均为正整数，优选地，m1＝n1。

S2，将原始图像与第一运算模块的输出图像融合后输入第二运算模块，所述第二运算模块包括n2个卷积层、至少一个归一化层、至少一个激活层、至少一个池化层，利用n2个卷积层对输入的输入图像进行逐级分解并压缩分辨率，利用m2层反卷积层对处理后的图像特征图进行逐级上采样，生成分辨率升高后的新特征图，所述m2、n2均为正整数，优选地，m2＝n2.

S3，使用卷积核大小为1*1的卷积层代替全连接层，使卷积网络在包括多个区域的输入图片上滑动，得到每个区域的输出。卷积核的计算是并行的，不需要同时读入内存中，所以使用卷积层的方式代替全连接层可以加速模型的优化，此外，由于全连接的参数是随前层大小的变化而变的，如果输入图片大小不一样，那么全连接层之前的特征图也不一样，那全连接层的参数数量就不能确定，所以必须实现固定输入图像的大小。采用卷积层代替全连接层可以让卷积网络在一张更大的输入图片上滑动，得到每个区域的输出，这样就突破了输入尺寸的限制。

S4，对得到的结果在进行二分类处理，区分前景文字与背景噪声，输出最终的二值化图像，优选使用Soft Max对得到的图像进行二分类(图4为未加分类器的二值化细节放大图)，用来区分前景文字与背景噪声，从而更好的区分噪声部分与前景文字区域，最后输出最终的二值化图像。

在本实施方式中，在步骤S1中使用反卷积层进行特征图重建时，对于每个重构层，首先将前一层的特征图导入积卷积层，然后是激活层，以恢复相应比例的前景图像。

采用损失函数衡量反卷积层的重构损失，将每一层的输出样本向上采样到GroundTruth前景图像的大小，然后计算出真实标签的前景和重建前景之间的损失函数，具体损失函数包括字符损失函数和/或标签一致性损失函数；

对中文和英文字符检测的字符损失函数：

z＝x*cos 45°

k＝x*cos 135°；

其中，I是RGB三通道的输入图像，λ是一个预定义的参数，在实验中,可以设置λ＝1，C表示图像的通道，输入图片的通道分别为R、G、B三个通道，r，g，b为RGB三通道值。

在本实施方式中，将损失函数绑定到每个重构层，对于每个重构层，将每一层的输出样本向上采样到Ground Truth(理想的二值化效果图像，在本实施方式中，理想的情况是指前景文字部分全部保留，而背景杂质部分全部去除掉，使得前景与背景之间能够以较高的对比度呈现，而没有噪声干扰的二值图像)前景图像的大小，然后计算出Ground Truth前景和重建前景之间的二元交叉熵损失函数，其中f_j来表示分类评分向量f的第j个元素，其定义如下：

f表示分类评分向量，i表示第i组数据；y_i则为表示类别的一个数；表示第i组数据对应类别为yi的分类评分向量的值。

本发明还提供了一种基于深度学习的退化文档图像二值化系统，其包括第一运算模块和第二运算模块，所述第一运算模块输入退化文档图像，所述第一运算模块包括n1个卷积层、至少一个归一化层和至少一个激活层，利用n1个卷积层对输入的原始图像进行分解并压缩分辨率，利用m1层反卷积层对处理后的图像特征图进行逐级上采样，重建得到的特征图，所述m1、n1均为正整数；

原始图像与第一运算模块的输出图像融合后输入第二运算模块，所述第二运算模块包括n2个卷积层、至少一个归一化层、至少一个激活层、至少一个池化层，利用n2个卷积层对输入的输入图像进行分解并压缩分辨率，利用m2层反卷积层对处理后的图像特征图进行逐级上采样，生成分辨率升高后的新特征图，所述m2、n2均为正整数；

还包括卷积核大小为1*1的卷积层和二分类器，所述卷积核大小为1*1的卷积层可代替全连接层；

图4(a)、(b)、(c)展示出了选取的三幅英文测试样例图，图4(d)、(e)展示出了选取的两幅中文测试样例图，经过第一运算模块和第二运算模块的处理后，第二运算模块输出的图像输入二分类器，所述二分类器区分前景文字与背景噪声，输出最终的二值化图像，如图5(a)、(b)、(c)所示，其中，图5(a)为图4(a)对应的清晰的二值化图像，图5(b)为图4(b)对应的清晰的二值化图像，图5(c)为图4(c)对应的清晰的二值化图像，图5(d)为图4(d)对应的清晰的二值化图像，图5(e)为图4(e)对应的清晰的二值化图像。图6为细节放大图像展示，图6(b)为图6(a)二值化后的结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于深度学习的退化文档图像二值化方法，其特征在于，包括如下步骤：

S3，使用卷积核大小为1*1的卷积层代替全连接层，使卷积网络在包括多个区域的输入图片上滑动，得到每个区域的输出；

2.根据权利要求1所述的基于深度学习的退化文档图像二值化方法，其特征在于，在步骤S1中使用反卷积层进行特征图重建时，对于每个重构层，首先将前一层的特征图导入反卷积层，然后通过激活层，最后输出前景图像。

3.根据权利要求1所述的基于深度学习的退化文档图像二值化方法，其特征在于，采用损失函数衡量反卷积层的重构损失，将每一层的输出样本向上采样到Ground Truth前景图像的大小，然后计算出真实标签的前景和重建前景之间的损失函数，具体损失函数包括字符损失函数和/或标签一致性损失函数；

对中文和英文字符检测的字符损失函数：

z＝x*cos 45°

k＝x*cos 135°；

其中，I是RGB三通道的输入图像，λ是一个预定义的参数，C表示图像的通道，输入图片的通道分别为R、G、B三个通道；r，g，b为RGB三通道值。

4.根据权利要求3所述的基于深度学习的退化文档图像二值化方法，其特征在于，将损失函数绑定到每个重构层，对于每个重构层，将每一层的输出样本向上采样到GroundTruth前景图像的大小，然后计算出Ground Truth前景和重建前景之间的二元交叉熵损失函数，其中f_j来表示分类评分向量f的第j个元素，其定义如下：

5.一种基于深度学习的退化文档图像二值化系统，其特征在于，包括第一运算模块和第二运算模块，所述第一运算模块输入退化文档图像，所述第一运算模块包括n1个卷积层、至少一个归一化层和至少一个激活层，利用n1个卷积层对输入的原始图像进行分解并压缩分辨率，利用m1层反卷积层对处理后的图像特征图进行逐级上采样，重建得到的特征图，所述m1、n1均为正整数；

所述第二运算模块输出的图像输入二分类器，所述二分类器区分前景文字与背景噪声，输出最终的二值化图像。