CN113361445A

CN113361445A - 一种基于注意力机制的文档二值化处理方法及系统

Info

Publication number: CN113361445A
Application number: CN202110690169.4A
Authority: CN
Inventors: 韦钟嵘; 金连文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-07
Anticipated expiration: 2041-06-22
Also published as: CN113361445B

Abstract

本发明公开一种基于注意力机制的文档二值化处理方法及系统，包括数据准备：采用公开的文档图像二值化基准数据集DIBCO数据集；数据扩增：对训练集图像进行几何变换、灰度变换和加噪处理来实现数据扩增；构造网络：构造一个基于注意力机制的全卷积网络；网络训练：将训练集数据输入网络训练；网络预测：将测试集输入训练好的网络中预测，得到二值分割结果。本发明利用基于注意力机制的全卷积网络实现了端到端的文档图像二值化，适应于多种退化类型的文档。

Description

一种基于注意力机制的文档二值化处理方法及系统

技术领域

本发明涉及图像处理与人工智能领域，具体涉及一种基于注意力机制的文档二值化处理方法及系统。

背景技术

随着互联网和大数据技术的普及，人们开始使用计算机等电子设备来存储信息，保存文字的载体逐渐由纸质媒介过渡到电子文档。在信息时代，每天都将产生海量的新数据，仅依靠纸质媒介来记录信息显然已经无法满足存储需求。不仅如此，由于纸质媒介容易出现物理退化现象，为了更好的保存作为人类文化遗产的历史文献，将古籍文档数字化保存，并进一步转化为电子文档已成为一项亟需解决的任务。

为了保存古籍文档中的信息，需要应用到光学字符识别，即OCR技术。OCR是一项能将数字化的文档图像转换为电子文档的技术。通常OCR系统流程包括图像预处理、文字特征提取、模式识别以及后处理等步骤。二值化是一种常用的图像预处理方法，是指将图像中的像素分为前景和背景两个类别，并分别赋予两个不同的灰度值。二值化通过简化图像表达，减少冗余信息的干扰来突出图像处理任务所关心的目标，使得后续的识别效果得到有效提升。

近年来，深度学习相关技术发展迅速，其端到端的学习方式取代了人工特征设计，很快在图像的分类、识别与检测等任务上取得了里程碑式的进展。采用基于深度学习的方法进行文档二值化也逐渐成为国内外相关研究的主流。

发明内容

为了解决现有技术问题，本发明提供了一种基于注意力机制的文档二值化处理方法，包括以下步骤，

采集文档图像二值化基准数据，通过对所述文档图像二值化基准数据进行剪裁，构建测试集和训练集；

通过设置五层卷积层并在每个卷积层后连接批归一化层和第一ReLU激活函数，构建编码器；

通过设置五层反卷积层并在每个反卷积层后连接所述批归一化层和所述第一ReLU激活函数，构建解码器；

基于注意力机制，通过所述编码器和所述解码器，构建初始全卷积网络模型，通过所述训练集对所述初始全卷积网络模型进行训练后，通过所述测试集对训练后的所述初始全卷积网络模型进行测试，获得文档二值化全卷积网络模型，所述文档二值化全卷积网络模型用于获得所述文档图像二值化基准数据的二值分割图。

优选地，在构建所述测试集和所述训练集的过程中，

对所述文档图像二值化基准数据的每张原始图像，通过512×512的滑动窗口进行遍历，获得所述训练集和所述测试集，其中，滑动窗口的滑动步长为256，对于宽或高小于512的所述原始图像，将所述原始图像的保持比例地缩放到512后再进行裁剪。

优选地，在获得所述训练集和所述测试集的过程后，对所述训练集和所述测试集通过几何变换、灰度变换和加噪进行数据扩增，基于扩增后的所述训练集和所述测试集，获得所述文档二值化全卷积网络模型。

优选地，在构建所述编码器的过程中，每个所述卷积层的卷积核大小为5x5，第一通道数为64，卷积步长为2；

在构建所述解码器的过程中，每个所述反卷积层的反卷积核大小为5x5，第二通道数为64，反卷积步长为2。

优选地，在构建所述初始全卷积网络模型的过程中，所述初始全卷积网络模型还包括若干个跳跃连接；

每个所述跳跃连接，通过下述过程，将所述编码器的每一层编码器特征与对应层数的解码器特征进行融合：首先，基于所述注意力机制，对所述编码器特征进行处理，获得注意力加权后的特征，然后，将所述注意力加权后的特征与所述解码器对应层数的解码器特征按元素相加，再经过第二ReLU激活函数进行运算，得到最终融合结果，其中，所述跳跃连接用于恢复图像细节。

优选地，基于所述注意力机制，构建注意力机制模块，将所述注意力机制模块部署在每一个所述跳跃连接之上；

在每一个所述注意力机制模块中，将所述编码器特征作为所述注意力机制模块的第一输入向量，将所述解码器对应层数的下一层特征作为所述注意力机制模块的第二输入向量，获得注意力系数热图，通过所述注意力系数热图对所述编码器特征进行加权，得到经过了注意力机制模块处理的所述编码器特征。

优选地，在获得所述注意力系数热图的过程中，所述注意力系数热图的获得公式为：

其中，v和q表示两个特征映射，

均表示卷积操作，b_q和b_ψ分别是W_q和ψ的偏置，C_v、C_q和C_int分别为v、q和中间层的通道数，σ₁表示ReLU激活函数，σ₂表示Sigmoid激活函数。

优选地，在对所述初始全卷积网络模型进行训练的过程中，采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。

优选地，在获得所述二值分割图后，基于所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的所述二值分割图，获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值，基于所述平均值对结果进行评价。

一种基于注意力机制的文档二值化处理系统，包括，

数据采集模块，用于采集所述文档图像二值化基准数据；

数据预处理模块，与所述数据采集模块连接，用于将所述文档图像二值化基准数据进行图像分割后，将分割后的图像进行几何变换、灰度变换和加噪处理，获得数据集；

二值化图像处理模块，与所述数据预处理模块连接，用于通过构建具有跳跃连接的全卷积网络，并将注意力机制应用在所述跳跃连接上，基于所述数据集对所述全卷积网络进行训练和测试后，获得所述文档图像二值化基准数据的二值分割图，其中，通过DiceLoss和Focal Loss相结合的损失函数监督网络的所述训练过程；

评价模块，与所述二值化图像处理模块连接，用于通过比较所述所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的二值分割图，获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值，生成评价结果；

显示模块，用于显示所述文档图像二值化基准数据、所述二值分割图、所述评价结果。

本发明公开了以下技术效果：

本发明利用基于注意力机制的全卷积网络实现了端到端的文档图像二值化，识别精度高，程序架构紧凑合理，适应于多种退化类型的文档，为文档二值化分割识别提供了新的技术依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还根据这些附图获得其他的附图。

图1为本发明实施例所述的文档二值化方法的流程图；

图2为本发明实施例所述的数据准备流程图；

图3为本发明实施例所述的数据扩增示意图；

图4为本发明实施例所述的网络整体结构图；

图5为本发明实施例所述的二值化结果示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-5所示，本发明提供了一种基于注意力机制的文档二值化处理方法，包括以下步骤，

采集文档图像二值化基准数据，通过对文档图像二值化基准数据进行剪裁，构建测试集和训练集；

通过设置五层反卷积层并在每个反卷积层后连接批归一化层和第一ReLU激活函数，构建解码器；

基于注意力机制，通过编码器和解码器，构建初始全卷积网络模型，通过训练集对初始全卷积网络模型进行训练后，通过测试集对训练后的初始全卷积网络模型进行测试，获得文档二值化全卷积网络模型，文档二值化全卷积网络模型用于获得文档图像二值化基准数据的二值分割图。

在构建测试集和训练集的过程中，对文档图像二值化基准数据的每张原始图像，通过512×512的滑动窗口进行遍历，获得训练集和测试集，其中，滑动窗口的滑动步长为256，对于宽或高小于512的原始图像，将原始图像的保持比例地缩放到512后再进行裁剪。

在获得训练集和测试集的过程后，对训练集和测试集通过几何变换、灰度变换和加噪进行数据扩增，基于扩增后的训练集和测试集，获得文档二值化全卷积网络模型。

在构建编码器的过程中，每个卷积层的卷积核大小为5x5，第一通道数为64，卷积步长为2；

在构建解码器的过程中，每个反卷积层的反卷积核大小为5x5，第二通道数为64，反卷积步长为2。

在构建初始全卷积网络模型的过程中，初始全卷积网络模型还包括若干个跳跃连接，每个跳跃连接，通过下述过程，将编码器的每一层编码器特征与对应层数的解码器特征进行融合：首先，编码器特征经过注意力机制模块的处理，得到注意力加权后的特征，然后，与解码器对应层数的解码器特征按元素相加，再经过第二ReLU激活函数的运算，得到最终融合结果；跳跃连接用于恢复图像细节。

基于注意力机制，将注意力机制模块部署在每一个跳跃连接之上；在每一个注意力机制模块中，将编码器特征作为注意力机制模块的第一输入向量，将解码器对应层数的下一层特征作为注意力机制模块的第二输入向量，获得注意力系数热图，通过注意力系数热图对编码器特征进行加权，得到经过了注意力机制模块处理的编码器特征。

在获得注意力系数热图的过程中，注意力系数热图的获得公式为：

其中，v和q表示两个特征映射，

在对初始全卷积网络模型进行训练的过程中，采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。

在获得二值分割图后，基于文档图像二值化基准数据以及文档图像二值化基准数据对应的二值分割图，获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值，基于平均值对结果进行评价。

一种基于注意力机制的文档二值化处理系统，包括，

数据采集模块，用于采集文档图像二值化基准数据；

数据预处理模块，与数据采集模块连接，用于将文档图像二值化基准数据进行图像分割后，将分割后的图像进行几何变换、灰度变换和加噪处理，获得数据集；

二值化图像处理模块，与数据预处理模块连接，用于通过构建具有跳跃连接的全卷积网络，并将注意力机制应用在跳跃连接上，基于数据集对全卷积网络进行训练和测试后，获得文档图像二值化基准数据的二值分割图，其中，通过Dice Loss和Focal Loss相结合的损失函数监督网络的训练过程；

评价模块，与二值化图像处理模块连接，用于通过比较文档图像二值化基准数据以及文档图像二值化基准数据对应的二值分割图，获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值，生成评价结果；

显示模块，用于显示文档图像二值化基准数据、二值分割图、评价结果。

实施例1：本发明基于注意力机制的全卷积网络文档二值化方案，流程框图如附图1所示，包括下列步骤：

(1)数据准备：选择公开的文档图像二值化基准数据集DIBCO数据集来对本发明进行验证，该数据集可以从网络途径获取。从2009年起，DIBCO大赛组委会每年发布10到20张低质量文档图像，直至2019年为止，共发布了136张低质量文档图像，包含了多种退化类型，其中多数的图像为宽或高超过1000像素的高清大图，因此需要将每张图像都裁剪为512x512的切片才能输入网络中训练和测试，在构建训练集时可直接裁剪成切片。具体裁剪方式为：使用一个512x512的滑动窗口在原始图像上遍历，滑动步长设置为256，对于宽或高小于512的原始图像，将其保持比例地缩放到512再进行裁剪。DIBCO数据集可以根据发布年份进行划分，例如DIBCO2018数据集、DIBCO2019数据集。在划分训练集和测试集时，我们选择了DIBCO2017的20张图片作为测试集，其余年份均作为训练集。

(2)对步骤(1)构建的数据集进行几何变换、灰度变换和加噪处理，实现数据集扩增，主要扩增方式有以下几种：

(2-1)包括翻转、缩放、平移、旋转在内的几何变换；

(2-2)包括线性变换、对数变换、伽马变换在内的灰度变换；

(2-3)包括高斯噪声、椒盐噪声在内的加噪处理。

以上扩增方式中可能涉及到的参数，例如翻转方向、缩放的比例等，均由随机数生成。对训练集中的每张原始图像随机生成三张扩增图像，然后对所有的图像进行步长为256的滑窗裁剪，大约可以得到7000到8000张512x512大小的训练用切片。

(3)构造网络。包括以下步骤：

(3-1)设计主干网络：

由于文档二值化是图像到图像的生成任务，我们设计了一个编码器-解码器结构的全卷积网络作为主干网络，它包括编码器、解码器和跳跃连接三个部分。

(3-2)设计编码器：

编码器用于提取文档图像的特征，由五层带步长的卷积构成，其中每层卷积的核大小均为5x5，通道数均为64，卷积步长均为2，并且每层卷积后面都紧接一层批归一化层和ReLU激活函数。带步长的卷积不断扩大网络的感受野，同时不会损失过多图像细节。

(3-3)设计解码器：

解码器用于将编码后的特征上采样至与原图尺寸一致，由五层步长为2的反卷积构成，且每层卷积的核大小、通道数均与编码器一致，与编码器构成对称。同理，每层反卷积后面都紧接一层批归一化层和ReLU激活函数。解码器的输出是一张与输入图像大小一致的单通道概率图，此概率图再经过Sigmoid函数激活即可得到最终的二值分割结果。

(3-4)设计跳跃连接：

跳跃连接将编码器每一层特征与解码器对应层数的特征进行融合，用于恢复图像细节。融合的方式是按元素相加后紧接一层ReLU激活函数。

(3-5)设计注意力机制模块：

注意力机制模块可以作为附加模块融入到任何一种模型架构中。注意力机制模块接收query和value两个输入向量，输出注意力系数向量。其过程如下：

将该注意力模块融入到全卷积网络中，则v和q表示两个特征映射，

均表示卷积操作，b_q和b_ψ分别是W_q和ψ的偏置，C_v、C_q和C_int分别为v、q和中间层的通道数，σ₁表示ReLU激活函数，σ₂表示Sigmoid激活函数。最后的输出α是一张单通道的注意力系数热图。

(3-6)在全卷积网络中融入注意力机制模块：

将(3-5)中的注意力机制模块部署到解码器的每一层跳跃连接上，以编码器特征作为value向量，解码器特征作为query向量，生成的注意力系数热图对编码器特征进行加权，然后再与解码器特征进行融合。

(3-7)设计损失函数：

采用了Dice Loss和Focal Loss相结合的损失函数来监督网络的训练。其中DiceLoss的公式如下：

其中X为预测的二值分割图，Y为Ground Truth，ε为平滑系数，通常取1e-8。FocalLoss的公式如下：

其中，γ和α均为可调参数，一般取γ＝2，而α在本方案中取0.5。最终的损失函数定义为：

L＝L_Dice+λ·L_Focal

其中λ是用来调整两个损失在总损失中占比的常数，本方案中λ＝5。

(4)将裁剪好的512x512大小的训练集切片输入到网络中训练。包括以下步骤：

(4-1)网络初始化：使用Kaiming Normalization对模型中的权重参数进行初始化；

(4-2)设置相关的超参数：采用Adam方法更新模型参数，设置初始学习率为lr＝2e-4，每一次批量训练的图片数目为batch_size＝20，最大训练周期为max_epoch＝50，学习率更新策略为多项式衰减，如下所示：

其中lr0为初始学习率，lrn为第n次训练周期的学习率，power是衰减系数,本方案中，将power设置为0.9。

(4-3)训练卷积神经网络：将裁剪成512x512的训练集图片转换成灰度图并反相后输入到网络中训练，在计算网络损失时，Ground Truth同样需要先进行反相再计算损失。

(5)使用测试集对训练好的网络进行测试。包含以下步骤：

(5-1)将裁剪成512x512的测试集图片输入到训练好的模型中进行前向推理，然后将推理的二值分割结果重新拼接成完整的图像。

(5-2)对每个测试图像的二值分割结果计算F-measure、Pseudo F-measure、PSNR和DRD四项评价指标，然后取平均值作为最终的评价结果。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的文档二值化处理方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在构建所述测试集和所述训练集的过程中，

3.根据权利要求2所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在获得所述训练集和所述测试集的过程后，对所述训练集和所述测试集通过几何变换、灰度变换和加噪进行数据扩增，基于扩增后的所述训练集和所述测试集，获得所述文档二值化全卷积网络模型。

4.根据权利要求3所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在构建所述编码器的过程中，每个所述卷积层的卷积核大小为5x5，第一通道数为64，卷积步长为2；

5.根据权利要求4所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在构建所述初始全卷积网络模型的过程中，所述初始全卷积网络模型还包括若干个跳跃连接；

6.根据权利要求5所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

基于所述注意力机制，构建注意力机制模块，将所述注意力机制模块部署在每一个所述跳跃连接之上；

7.根据权利要求6所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在获得所述注意力系数热图的过程中，所述注意力系数热图的获得公式为：

其中，v和q表示两个特征映射，

8.根据权利要求7所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在对所述初始全卷积网络模型进行训练的过程中，采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。

9.根据权利要求1所述的一种基于注意力机制的文档二值化处理方法，其特征在于，

在获得所述二值分割图后，基于所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的所述二值分割图，获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值，基于所述平均值对结果进行评价。

10.一种基于注意力机制的文档二值化处理系统，其特征在于，包括，

数据采集模块，用于采集所述文档图像二值化基准数据；

二值化图像处理模块，与所述数据预处理模块连接，用于通过构建具有跳跃连接的全卷积网络，并将注意力机制应用在所述跳跃连接上，基于所述数据集对所述全卷积网络进行训练和测试后，获得所述文档图像二值化基准数据的二值分割图，其中，通过Dice Loss和Focal Loss相结合的损失函数监督网络的所述训练过程；