CN111582119A

CN111582119A - 一种文档图像处理方法以及二值化模型的训练方法

Info

Publication number: CN111582119A
Application number: CN202010357563.1A
Authority: CN
Inventors: 刘晋; 余超
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-25

Abstract

本发明公开了一种文档图像处理方法以及二值化模型的训练方法，所述方法包括：获取待处理的文档图像；将所述文档图像输入至多粒度特征提取模型，获得多粒度特征图；将所述多粒度特征图输入至图像精度增强模型，获得图像细节信息特征图；将所述图像细节信息特征图输入至二值化处理模型，获得二分类结果图。应用本发明实施例，通过全卷积神经网络进行字符图像的二值化，与传统的阈值二值化算法相比，具有较强的智能性，真正意义上的对字符笔画特征本身进行了理解，大大的提高了识别的准确率。

Description

一种文档图像处理方法以及二值化模型的训练方法

技术领域

本发明涉及图像处理与深度学习技术领域，尤其涉及一种文档图像处理方法以及二值化模型的训练方法。

背景技术

随着移动互联网的快速发展与广泛普及，通过移动终端应用中图像的获取和传递进行信息的共享成为了现代人们的日常生活方式。对于获取的图像信息中，文字信息往往是用户首先会去注意和理解的内容，而二值化是字符分割，字符识别过程中不可或缺的一部分。然而由于低质的文档图像存在光照强度不均匀，存在大量退化，背景复杂，文字墨迹复杂，噪声干扰高等一系列因素的影响，导致很多针对关于文档图像的二值化方法无法取得较好的效果。

目前较为主流的文本图像二值化方法是基于阈值的二值化方法，主要包括了基于点的全局阈值方法、基于区域的全局阈值方法、局部阈值方法和多阈值方法这四类。四类方法的核心思想相似，通过对图像所有像素的颜色值进行分析，并从中选取出若干个颜色阈值，以阈值为标准划分出图像的前景区域和背景区域。全局阈值方法实现难度小但对光照不均匀的图像适应力不强，局部阈值克服了这一缺陷，但是对噪音干扰的抵抗能力不足。

综上，由于人工设定的阈值，特征，规则受较多的主观因素影响，通用性较差，对于多种变化的复杂的文档图像情况使用传统的二值化方法往往不尽人意。

发明内容

本发明的目的在于提供一种文档图像处理方法以及二值化模型的训练方法，旨在解决人工设定的阈值，特征，规则受较多的主观因素影响，通用性较差，对于多种变化的复杂的文档图像情况使用传统的二值化方法往往不尽人意的问题。

为了实现上述目的，本发明提供一种文档图像处理方法，所述方法包括：

获取待处理的文档图像；

将所述文档图像输入至多粒度特征提取模型，获得多粒度特征图；

将所述多粒度特征图输入至图像精度增强模型，获得图像细节信息特征图；

将所述图像细节信息特征图输入至二值化处理模型，获得二分类结果图。

优选的，所述将所述文档图像输入至多粒度特征提取模型，获得多粒度特征图的步骤，包括：

根据每个单粒度特征提取模型结构中的卷积层，设置不同尺寸的图像感受野；

将所有单粒度特征提取模型得到的特征图通过矩阵级联进行合并,获得多粒度特征图。

优选的，所述将所述多粒度特征图输入至图像精度增强模型，获得图像细节信息特征图的步骤，包括：

通过图像精度增强模型中的卷积层，获得图像局部像素之间的细节特征；

通过转置卷积层将细节特征进行上采样，获得图像细节信息特征图。

一种实现方式中，所述将所述图像细节信息特征图输入至二值化处理模型，获得二分类结果图的步骤，包括：

将所述图像细节信息特征图输入至二值化处理模型，获得第一处理结果；

对所述第一处理结果进行归一化指数函数处理，获得二分类结果图。

本发明还提供一种文档图像二值化模型的训练方法：

收集复杂背景下的包含文本行的非二值图像；

标注所述非二值图像的二值化真值结果；

根据样本输入与对应标注更新模型权重参数；

当二值化模型所输出的损失值或精度值达到阈值标准后停止训练。

应用本发明实施例提供的一种文档图像处理方法以及二值化模型的训练方法，通过全卷积神经网络进行字符图像的二值化，与传统的阈值二值化等算法相比，具有较强的智能性，真正意义上的对字符笔画特征本身进行了理解，大大的提高了识别的准确率，能够显著的改善在复杂背景下文档图像二值化的效果。

附图说明

图1是本发明实施例一种文档图像处理方法的一种流程示意图。

图2是本发明实施例文档图像二值化方法模型的整体架构图。

图3是本发明实施例单粒度特征提取模型的结构示意图。

图4是本发明实施例一种文档图像处理方法的使用不同粒度的卷积核所产生的感受野的区别的示意图。

图5是本发明实施例多粒度特征提取模型的结构示意图。

图6是本发明实施例图像精度增强模型的结构示意图

图7是本发明实施例一种文档图像处理方法的一种结构示意图。

图8是本发明实施例一种二值化模型的训练方法流程图。

图9是本发明实施例非二值图像样本图。

图10是本发明实施例与非二值图像样本图对应的二值化真值标注图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-10。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1-2本发明提供一种文档图像处理方法，所述方法包括：

S101,获取待处理的文档图像；

S102,将所述文档图像输入至多粒度特征提取模型，获得多粒度特征图；

可以理解的是，多粒度特征模型包含若干个单粒度特征提取模型，且对每个单粒度特征提取模型结构中的卷积层设置了不同尺寸的图像感受野，最后将所有单粒度特征提取模型得到的特征图通过矩阵级联进行合并获得多粒度特征图

通过设置不同的感受野能够更好的对图像中每个像素周围的文本区域信息和非文本区域信息进行分析，从而提供更加丰富的图像数据特征。在本方法的一个本实施例中设置了3个单粒度特征模型，模型的卷积层感受野分别设置为3*3，5*5，7*7。

上述单粒度特征提取模型特征在于：采用带有跳跃结构的全卷积神经网络对输入文档图像

进行语义分割处理,在本方法的一个实施例中采用了SegNet型的全卷积神经网络作为单粒度特征提取模型。该模型由编码路径与解码路径组成，以粒度为3x3的单粒度特征提取模型为例，其中编码路径由9个3x3x8的卷积层和2个2x2的最大池化层组成，解码路径由9个转置卷积层与2个2x2的上采样层组成。编码路径和解码路径所使用的激活函数均为修正线性单元函数。通过矩阵级联的方式将编码路径与解码路径中尺寸相同的特征进行拼接，使模型中高级的图像语义特征信息和低级的图像边缘特征信息进行融合来提高语义分割处理的精度。

需要说明的是，文档中通常含有大小尺寸不同的文字，使用单一粒度对图像进行特征提取容易损失对其他尺寸的文字笔画的特征，因此需结合多粒度的图像特征提取模型进行处理。在本发明的一个具体实施例中，使用三种不同的粒度的单粒度特征提取模型，如图3所示。另外，低质的文档图像中存在笔迹退化的问题，字符中笔画的颜色深浅，背景文字浸染对二值化的效果干扰严重。仅对低级的笔画特征进行提取容易被噪声所干扰，仅对高级的图像语义特征进行提取容易失去文字边缘细节信息。因此需要寻找一种方法将两种特征进行融合处理。在本发明的一个具体实施例中，采用了SegNet型的全卷积神经网络作为单粒度特征提取模型，选取其中以粒度为3x3的单粒度特征提取模型为例，模型的结构图如图4所示，模型的详细结构信息如下表1：

表1

结构类型	参数配置	数目
			卷积层	滤波器：3x3x8，步长：1	3
激活层	激活函数：修正线性单元函数	1
			池化层	滤波器：2x2x1，步长：2	1
卷积层	滤波器：3x3x16，步长：1	3
			激活层	激活函数：修正线性单元函数	1
池化层	滤波器：2x2x1，步长：2	1
			卷积层	滤波器：3x3x32，步长：1	3
激活层	激活函数：修正线性单元函数	1
			转置卷积层	滤波器：3x3x32，步长：1	3
激活层	激活函数：修正线性单元函数	1
			上采样层	滤波器：2x2x1，步长：2	1
卷积层	滤波器：3x3x32，步长：1	1
			拼接层	/	1
转置卷积层	滤波器：3x3x16，步长：1	3
			激活层	激活函数：修正线性单元函数	1
上采样层	滤波器：2x2x1，步长：2	1
			卷积层	滤波器：3x3x16，步长：1	1
拼接层	/	1
			卷积层	滤波器：3x3x8，步长：1	3

S103,将所述多粒度特征图输入至图像精度增强模型，获得图像细节信息特征图；

可以理解的是，低质文档中存在部分图像分辨率低的问题，对字符笔画特征提取产生了干扰。本发明提供一种图像精度增强的模型，该模型采用一种超分辨率图像处理技术，根据低分辨率的图像重建出对应的高分辨率的图像，从而对高精度下的特征图进行图像的细节分析以及信息提取。模型的结构图如图5所示，图像精度增强的模型的详细结构信息如下表2：

表2

结构类型	参数配置	数目
			卷积层	滤波器：3x3x8，步长：1	3
激活层	激活函数：修正线性单元函数	1
			转置卷积层	滤波器：3x3x8，步长：1	3
激活层	激活函数：修正线性单元函数	1
			转置卷积层	滤波器：3x3x16，步长：1	3
激活层	激活函数：修正线性单元函数	1

所述图像增强模型由3个3x3x8的卷积层和6个3x3x8的转置卷积层组成，激活函数为修正线性单元函数。通过模型的卷积层中获得图像局部像素之间的细节特征，再通过转置卷积层将其进行上采样得到图像细节信息特征图

从而达到提高图像分辨率的作用。

S104,将所述图像细节信息特征图输入至二值化处理模型，获得二分类结果图。

需要说明的是，二值化处理任务中的输入和输出都是固定尺寸的图像，即是一种端到端的像素级别的分类任务。本发明提供一种基于全卷积神经网络的图像二值化处理模型，通过设置多个卷积层对于提取得到的特征图进行分析和处理，并在模型最后设置归一化指数函数实现图像中像素级别的分类获得二值化的结果，并通过将图像中的为1的灰度值修改为255便以展示图像二值化效果。归一化指数函数的公式表达为：

其中V代表一个输出值，V_i代表V中第i个元素值，l代表V的长度，即输出向量中的每个元素的归一化指数的值为该元素对e的指数比上所有元素对e的指数之和所得到的结果。二值化处理模型的结构图如图6所示，模型的详细结构如下表3：

表3

结构类型	参数配置	数目
			卷积层	滤波器：3x3x16，步长：1	1
池化层	滤波器：2x2x1，步长：2	1
			卷积层	滤波器：3x3x16，步长：1	3
激活层	激活函数：修正线性单元函数	1
			池化层	滤波器：2x2x1，步长：2	1
卷积层	滤波器：3x3x8，步长：1	3
			激活层	激活函数：修正线性单元函数	1

本发明中所使用的所有模型仅包含神经网络模型，不包含传统的规则算法用于图像的预处理，所以能够保证本发明提出的模型的运行不会有额外的时间消耗。在一个具体的实施例中，本方法的模型整体结构如图7所示。

可以理解的是，二值化处理模型由4个3x3x16与3个3x3x8的卷积层和2个2x2的最大池化层组成，激活函数为修正线性单元函数。二值化处理模型的输出经过归一化指数函数得到像素级别的二分类结果图

所述结果图中的每一个像素仅由0与1两种结果值组成，实现了图像二值化的目标。

需要说明的是，上述卷积层通过利用卷积核将低层次的局部特征通过卷积操作映射到更高层次的全局特征上，卷积层的输出特征图的计算方法是通过将上一层中的所有特征图通过卷积核卷积得到的结果进行求和并偏置后通过矩阵级联拼接得到，其具体计算公式为：

其中

代表第l层中的第浡个通道维度图像特征图，M代表了卷积层中输入的图像特征图的集合，

代表了第l层中的第浡个卷积核，

代第l层中的第浡个偏置值。

上述转置卷积层实质为卷积层的逆操作，卷积层中的卷积运算可以抽象表示为y＝C乹，其中乹表示卷积输入，y表示卷积输出，C表示卷积操作对应的参数矩阵。则转置卷积的参数矩阵可以表示为C^T。C^T是C的转置矩阵。

所述的文档图像二值化方法中采用的所有神经网络模型都使用自适应动量估计方法作为训练过程的优化器。

如图8，本发明还提供一种文档图像二值化模型的训练方法：

S901，收集复杂背景下的包含文本行的非二值图像。

具体来说，图像可以是彩色的或灰度化的，也可以是有模糊，污损，浸染或者光照不均匀的。文字可以是不同语种，字体，颜色，尺寸和形变的。也不需要保证文字是否完整，截断或遮挡的文字等因素不影响本方法的使用。样本图像的数量应当至少多于3000张。图9为样本数据的原图，图10为样本数据的标注图。

S902，标注上述非二值图像的二值化真值结果。

具体来说，可以使用数据集原本自带的真值结果，可以通过人工方法自行对图像进行标注，也可以直接通过其他的二值化方法对图像进行二值化后人工进行修正。

S903，根据样本输入与对应标注更新模型权重参数。

具体来说，就是将样本图像输入至初始化后的二值化模型中后得到的模型输出图像中的各像素值与标注图像中对应位置的像素值通过预先设定好的损失函数进行计算得到损失值，再通过设定好的优化器方法将得到的损失值反向传播至二值化模型中的各个节点中并对节点中的权重进行修改调整。在本发明的一个具体实施例中，模型所使用的损失函数为交叉熵函数，其公式表达如下：

其中x为输入特征数目，乹为输入，y为预期输出值，y_l为实际输出值。

S904，当二值化模型所输出的损失值或精度值达到阈值标准后停止训练；

具体来说，就是二值化模型所产生的损失值低于预先设定好的损失值阈值，或者对验证图像的二值化结果精度高于预先设定好的精度阈值时完成二值化模型的训练。

上述基于多粒度特征提取和图像精度增强的文档图像二值化方法，通过全卷积神经网络进行字符图像的二值化，与传统的阈值二值化等算法相比，具有较强的智能性，真正意义上的对字符笔画特征本身进行了理解，大大的提高了识别的准确率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种文档图像处理方法，其特征在于，所述方法包括：

获取待处理的文档图像；

2.根据权利要求1所述的一种文档图像处理方法，其特征在于，所述将所述文档图像输入至多粒度特征提取模型，获得多粒度特征图的步骤，包括：

3.根据权利要求1所述的一种文档图像处理方法，其特征在于，所述将所述多粒度特征图输入至图像精度增强模型，获得图像细节信息特征图的步骤，包括：

4.根据权利要求1所述的一种文档图像处理方法，其特征在于，所述将所述图像细节信息特征图输入至二值化处理模型，获得二分类结果图的步骤，包括：

5.一种文档图像二值化模型的训练方法：

收集复杂背景下的包含文本行的非二值图像；

标注所述非二值图像的二值化真值结果；

根据样本输入与对应标注更新模型权重参数；