CN110717523A

CN110717523A - 一种基于D-LinkNet的低质量文档图像二值化方法

Info

Publication number: CN110717523A
Application number: CN201910891399.XA
Authority: CN
Inventors: 熊炜; 贾锈闳; 王鑫睿; 李敏; 王娟; 曾春艳; 李利荣
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-21

Abstract

本发明公开了一种基于D‑LinkNet的低质量文档图像二值化方法，首先将彩色文档图像降维处理为灰度图像；然后对步骤1中获得的灰色图像，进行数据裁剪与扩增，获得统一大小的文档图像；接着将步骤2中获得的文档图像输入D‑LinkNet模型中，训练D‑LinkNet模型；通过反向传播优化损失函数；最后对图像进行测试得到二值化图像；本发明可以有效提取图像文本特征，忽略不重要信息，从而有效分割文本与背景；转移学习可以加速网络收敛，而且可以毫无损失的提升性能；采用扩张卷积可以在增加特征点感受野的同时保持细节信息。

Description

一种基于D-LinkNet的低质量文档图像二值化方法

技术领域

本发明属于数字图像处理、计算机视觉、机器学习等多个技术领域，特别涉及一种基于编码解码模型以及扩张卷积的文档图像二值化方法。

背景技术

文档图像二值化是将灰度或者彩色图像转换为黑白二值图像的过程，将每个像素标记为前景或背景。二值化作为很多文档图像处理系统的组成部分，极大地影响着文档处理任务的性能，比如光学字符识别(OCR)、公式识别以及文档轮廓分析(DLA)。

尽管文档图像二值化比较简单，但是对于低质量文档图像，二值化处理却相当复杂。由于年代久远，储存方式差以及不适当的保存条件，文档图像出现严重的退化问题，包括不均匀光照、复杂背景以及墨迹渗漏。目前已经提出了许多算法来对文档图像进行二值化处理，根据阈值选取方式的不同，大致分为全局和局部二值化方法，全局阈值法是将提取的图像特征应用在整副图像上，经典的是Otsu方法，其根据最小类内和最大类间方差选取适当的阈值进行分类，从而判断是前景文本还是背景噪声。全局方法还包括基于熵和聚类的方法，当文档图像具有明显的双峰特征时，全局法分割图像的效果很好，但是由于文档图像一般背景复杂，且存在墨迹浸润、污渍、光照不均等问题，研究人员随后提出了局部方法来进行处理。局部处理方法主要是根据像素点的邻域值对其进行前背景预测。主要有Niblack算法、Sauvola算法、LMM算法、Wolf算法。最近几年Howe提出采用能量最小化的方法来处理文档图像二值化，效果在原先的基础上有所提升，这些都属于非监督算法。

近年来，深度学习发展迅速，对于解决大量实际问题都展现了优良的效果。深度学习的框架也开始用来解决文档图像二值化问题，之前的非监督类算法由于文档图像低质量现象的复杂性只能在某些特定图像上取得较好的分割性能。寻找一种合适的网络框架来对文档图像进行二值化处理变得尤为重要。

发明内容

为了解决上述技术问题，本发明提供了一种基于D-LinkNet的低质量文档图像二值化方法。

本发明所采用的技术方案是：一种基于D-LinkNet的低质量文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：使用PCA将彩色文档图像降维处理为灰度图像；

步骤2：对步骤1中获得的灰色图像，进行数据裁剪与扩增，获得统一大小的文档图像；

步骤3：将步骤2中获得的文档图像输入D-LinkNet模型中，训练D-LinkNet模型；

所述D-LinkNet模型包括：编码部分、扩张卷积、解码部分；D-LinkNet使用ResNet34作为编码器，中间加了扩张卷积，用于在扩大感受野的同时保存空间的细节信息；每个卷积层伴随着一个ReLU激活层，除了最后一个卷积层使用了sigmoid激活，解码部分采用上采样和卷积；

步骤4：通过反向传播优化损失函数，使得结果图像更加接近真值图像；

步骤5：对图像进行测试得到二值化图像；

输入原始彩色文档图像，首先降维处理为灰度图像，然后进行数据裁剪与扩增，获得统一大小的文档图像；将文档图像输入步骤3中训练得到的D-LinkNet模型中，利用步骤3中训练得到的D-LinkNet模型去测试，然后将输出图像与原始图像一一对应；最后，对每次预测的概率值取均值，使用0.5作为预测阈值来产生二值化输出。

本发明提出了一种基于D-LinkNet网络的文档图像二值化算法，与现有算法相比，其显著优点在于：

(1)采用PCA降维可以有效提取图像文本特征，忽略不重要信息，从而有效分割文本与背景。

(2)转移学习在计算机视觉中是一种有效的方法，尤其是训练图片的数量有限时，将ImageNet预训练模型作为网络的编码部分在语义分割领域中被广泛使用。在低质量文档图像二值化处理过程中，转移学习可以加速网络收敛，而且可以毫无损失的提升性能。

(3)传统的卷积神经网络采用最大池化层和卷积层相结合的方式增加感受野，而最大池化层会导致低级信息的丢失，从而对精确分割造成严重影响。本发明采用扩张卷积可以在增加特征点感受野的同时保持细节信息。

附图说明

图1为本发明实施例的算法流程图；

图2为本发明实施例的D-LinkNet的网络框架图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

有限的训练数据，文档图像采用的是每年的国际文档图像二值化竞赛中的数据，每年只有10张或者20张，而且图像尺寸大小不一，每年的图像复杂情况不一，如何提取到文档图像的文字特征，从而准确的实现前/背景分割对于二值化处理是一个极大的挑战。

之前的方法在处理人为因素噪声的实现上不具有鲁棒性，尤其是背景与前景极其相似的情况。另外，新的数据集所具有的新特征在旧的数据集训练得到的参数中无法得到好的分割效果，测试集与训练集的特征脱节使得之前的先验知识无法发挥作用。

文字的特征与背景特征相似，随着文档图像质量的严重低下，我们发现从原先的污渍，墨迹，光照不均，渗漏，到最近多种噪声综合在一起的复杂情况，浅层的神经网络可以学到低水平的特征，深层次网络虽然可以学到高水平的特征，却可能造成误判。如何找到一种有效的提取文字前景的算法框架尤其重要。

请见图1，本发明提供的一种基于D-LinkNet的低质量文档图像二值化方法，包括以下步骤：

步骤1：将彩色文档图像降维处理为灰度图像；

为了在保证文档信息完整的基础上凸显出文档主要信息，本实施例首先将彩色图像进行主成分分析降维处理，主成分分析的原理是将一个高维向量x通过一个特殊的协方差矩阵U投影到一个低维的向量空间中，从而表征为一个低维向量y。PCA降维不仅可以节约训练时间，并且不会损失文档图像的主要信息。也就是说，通过低维表征的向量和特征向量矩阵，还可以基本重构出所对应的原始高维向量。在文档图像二值化处理中，协方差矩阵U称为特征空间，因此其中的特征向量u_i进行量化后可以增强文档图像的对比度。

设文档图像样本的个数为N，每个样本由其像素灰度值组成一个向量x_i，则样本图像的像素点数即为x_i的维数M，M＝高度×宽度，由向量构成的训练样本集为{x₁,x₂,...,x_i}。

该样本集的平均向量为：

样本集的协方差矩阵为：

本实施例中，步骤1的具体实现包括以下子步骤：

1、根据公式(1)和公式(2)求得样本集的协方差矩阵U；

2、根据求得的协方差矩阵求对应的特征向量u_i和特征值λ_i；

3、将协方差矩阵的特征值按照从小到大排序，λ₁≥λ₂≥…≥λ_d≥λ_d+1≥…；

4、由于λ_d的λ_i对应的特征向量构成主成分，主成分构成的变换矩阵为：U＝(u₁,u₂,...,u_d)。本实施例中需要降维为2维，所以取d＝2；

5、由此每一张文档图像都可以投影到U构成的特征子空间中，U的维度为M×d，有了这样一个降维的子空间，任何一张文档图像都可以向其作投影y＝U^Tx，即并获得一组坐标系数，即低维向量y，维数为d×1。

在训练阶段，本实施例想充分利用所提供的数据，由于原始的文档图像大小不一，为了对整个图像进行二值化处理，本实施例先对其进行裁剪，裁剪成单个重叠的256×256图像，并提取出每个图像的中心128×128补丁(边界区域除外)，从而确保每个像素都有足够的文字供D-LinkNet进行分类，为了便于后期的拼接，在裁剪过程中对裁剪的位置顺序返回。本实施例对图像进行数据增强，包括水平翻转，垂直翻转，对角线翻转以及颜色空间的变换。

D-LinkNet模型包括：编码部分、扩张卷积、解码部分；D-LinkNet使用ResNet34作为编码器，中间加了扩张卷积，用于在扩大感受野的同时保存空间的细节信息；每个卷积层伴随着一个ReLU激活层，除了最后一个卷积层使用了sigmoid激活，解码部分采用上采样和卷积；

编码部分：

网络先对输入图片进行卷积操作，其中卷积核大小为7×7，步长为2。D-LinkNet使用ImageNet数据上预训练的ResNet34作为编码部分。ResNet34原本是用来做大小为256×256的中分辨率的图像的分类任务的。编码部分有四层残差网络，分别采用ResNet layer1、ResNet layer2、ResNet layer3、ResNet layer4。

扩张卷积：

考虑到文档图像笔画的连贯性、复杂性，在中心部分增加特征点的感受野和保持细节信息尤为重要。采用过多的池化层可以极大地增加特征点的感受野，但是会减少中心层的分辨率和丢失空间信息，扩张卷积层可以作为池化层的理想替代方案。D-LinkNet在中心部分使用5个扩张卷积和跳跃连接。扩张卷积可以被堆放成级联模型。如果堆放的扩张卷积层的扩张率分别是1、2、4、8、16，那么每一层的感受野将是3、7、15、31、63。计算公式如式(3)，其中n为扩张卷积层的扩张率，k为卷积核的大小，l为感受野大小。

l＝(n-1)*(k+1)+k (3)

编码部分(ResNet34)有5个下采样层。如果大小为256×256的图像经过一个编码部分，输出的特征图是8×8。在这种情况下，D-LinkNet在中间部分采用扩张率为1、2、4、8的扩张卷积。因此最后一个中心层的特征点在第一层特征图上会看到31×31个点，覆盖了第一层中心特征图。D-LinkNet利用了多分辨率特征，D-LinkNet的中间部分可以被视为并联模式。

解码部分：

D-LinkNet的解码部分与原始的LinkNet一样，运算效率高。解码部分采用上采样层进行上采样，保证了特征图的分辨率从8×8到256×256。解码部分每个部分先进行一个卷积操作，卷积核为1×1，步长为1。紧接着进行反卷积操作，卷积核为3×3，步长为2。最后再进行卷积核为1×1的卷积操作。

进行解码之后，对图像进行4×4的卷积操作，后面紧跟着1×1的扩张卷积，最后采用sigmoid非线性计算，输出概率值，以0.5作为阈值进行分割。

LinkNet网络具体包括四个最大池化单元、四个上采样单元、四个残差块，所述设定的训练策略为端到端的训练方式，网络随机选择256×256的图片作为输入，输出为二值化图像。

在低质量文档图像二值化处理过程中，本实施例使用PyTorch作为深度学习框架，所有的模型都在NVIDIA GTX 1080GPU上进行训练与测试。

对于最好的模型，本实施例采用BCE(binary cross entropy)+骰子系数损失作为损失函数，并且选择Adam作为我们的优化器。学习率原始设为2e-4，在训练过程中损失值逐渐下降时学习率降为原来的3到5倍。Batch size固定设置为4，迭代到60代网络收敛。

损失函数为dice coeff loss+Binary cross entropy loss，可以用式(4)表示。其中P_i指代的是网络输出的二值化图像，GT值代表标签真实值，N是指Batch size。

步骤5：对图像进行测试得到二值化图像；

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于D-LinkNet的低质量文档图像二值化方法，其特征在于，包括以下步骤：

步骤1：将彩色文档图像降维处理为灰度图像；

步骤5：对图像进行测试得到二值化图像；

2.根据权利要求1所述的基于D-LinkNet的低质量文档图像二值化方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：设文档图像样本的个数为N，每个样本由其像素灰度值组成一个向量x_i，则样本图像的像素点数即为x_i的维数M，M＝高度×宽度，由向量构成的训练样本集为{x₁,x₂,...,x_i}；

求样本集的协方差矩阵U；

其中，样本集的平均向量为：

样本集的协方差矩阵为：

步骤1.2：根据求得的协方差矩阵求对应的特征向量u_i和特征值λ_i；

步骤1.3：将协方差矩阵的特征值按照从小到大排序，λ₁≥λ₂≥…≥λ_d≥λ_d+1≥…；

步骤1.4：由于λ_d的λ_i对应的特征向量构成主成分，主成分构成的变换矩阵为：U＝(u₁,u₂,...,u_d)；

步骤1.5：将每一张文档图像x均投影到U构成的特征子空间中，U的维度为M×d，投影函数为y＝U^Tx，即获得一组坐标系数，即低维向量y，维数为d×1。

3.根据权利要求1所述的基于D-LinkNet的低质量文档图像二值化方法，其特征在于：步骤2中，先对其进行裁剪，裁剪成单个重叠的256×256图像，并提取出每个图像的中心128×128补丁；然后对图像进行数据增强，包括水平翻转，垂直翻转，对角线翻转以及颜色空间的变换。

4.根据权利要求1所述的基于D-LinkNet的低质量文档图像二值化方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：编码；

D-LinkNet对输入图片进行卷积操作，D-LinkNet使用ImageNet数据上预训练的ResNet34作为编码部分；编码部分有四层残差网络，分别采用ResNet layer1、ResNetlayer2、ResNet layer3、ResNet layer4；

步骤3.2：扩张卷积；

D-LinkNet在中心部分使用N个扩张卷积和跳跃连接，计算公式如式(3)，其中n为扩张卷积层的扩张率，k为卷积核的大小，l为感受野大小，N为预设值；

l＝(n-1)*(k+1)+k (3)

其中，扩张卷积可以被堆放成级联模型，D-LinkNet的中间部分为并联模式；

步骤3.3：解码；

解码部分采用上采样层进行上采样，解码部分每个部分先进行一个卷积操作，卷积核为1×1，步长为1；紧接着进行反卷积操作，卷积核为3×3，步长为2；最后再进行卷积核为1×1的卷积操作；

5.根据权利要求1所述的基于D-LinkNet的低质量文档图像二值化方法，其特征在于：步骤4中，所述损失函数为：

其中，P_i指代的是网络输出的二值化图像，GT值代表标签真实值，N是指Batch size；

选择Adam作为优化器，学习率原始设为2e-4，在训练过程中损失值逐渐下降时学习率降为原来的3到5倍；Batch size固定设置为4，迭代到60代网络收敛。