CN113361445B - 一种基于注意力机制的文档二值化处理方法及系统 - Google Patents

一种基于注意力机制的文档二值化处理方法及系统 Download PDF

Info

Publication number
CN113361445B
CN113361445B CN202110690169.4A CN202110690169A CN113361445B CN 113361445 B CN113361445 B CN 113361445B CN 202110690169 A CN202110690169 A CN 202110690169A CN 113361445 B CN113361445 B CN 113361445B
Authority
CN
China
Prior art keywords
attention mechanism
attention
encoder
module
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110690169.4A
Other languages
English (en)
Other versions
CN113361445A (zh
Inventor
韦钟嵘
金连文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110690169.4A priority Critical patent/CN113361445B/zh
Publication of CN113361445A publication Critical patent/CN113361445A/zh
Application granted granted Critical
Publication of CN113361445B publication Critical patent/CN113361445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于注意力机制的文档二值化处理方法及系统,包括数据准备:采用公开的文档图像二值化基准数据集DIBCO数据集;数据扩增:对训练集图像进行几何变换、灰度变换和加噪处理来实现数据扩增;构造网络:构造一个基于注意力机制的全卷积网络;网络训练:将训练集数据输入网络训练;网络预测:将测试集输入训练好的网络中预测,得到二值分割结果。本发明利用基于注意力机制的全卷积网络实现了端到端的文档图像二值化,适应于多种退化类型的文档。

Description

一种基于注意力机制的文档二值化处理方法及系统
技术领域
本发明涉及图像处理与人工智能领域,具体涉及一种基于注意力机制的文档二值化处理方法及系统。
背景技术
随着互联网和大数据技术的普及,人们开始使用计算机等电子设备来存储信息,保存文字的载体逐渐由纸质媒介过渡到电子文档。在信息时代,每天都将产生海量的新数据,仅依靠纸质媒介来记录信息显然已经无法满足存储需求。不仅如此,由于纸质媒介容易出现物理退化现象,为了更好的保存作为人类文化遗产的历史文献,将古籍文档数字化保存,并进一步转化为电子文档已成为一项亟需解决的任务。
为了保存古籍文档中的信息,需要应用到光学字符识别,即OCR技术。OCR是一项能将数字化的文档图像转换为电子文档的技术。通常OCR系统流程包括图像预处理、文字特征提取、模式识别以及后处理等步骤。二值化是一种常用的图像预处理方法,是指将图像中的像素分为前景和背景两个类别,并分别赋予两个不同的灰度值。二值化通过简化图像表达,减少冗余信息的干扰来突出图像处理任务所关心的目标,使得后续的识别效果得到有效提升。
近年来,深度学习相关技术发展迅速,其端到端的学习方式取代了人工特征设计,很快在图像的分类、识别与检测等任务上取得了里程碑式的进展。采用基于深度学习的方法进行文档二值化也逐渐成为国内外相关研究的主流。
发明内容
为了解决现有技术问题,本发明提供了一种基于注意力机制的文档二值化处理方法,包括以下步骤,
采集文档图像二值化基准数据,通过对所述文档图像二值化基准数据进行剪裁,构建测试集和训练集;
通过设置五层卷积层并在每个卷积层后连接批归一化层和第一ReLU激活函数,构建编码器;
通过设置五层反卷积层并在每个反卷积层后连接所述批归一化层和所述第一ReLU激活函数,构建解码器;
基于注意力机制,通过所述编码器和所述解码器,构建初始全卷积网络模型,通过所述训练集对所述初始全卷积网络模型进行训练后,通过所述测试集对训练后的所述初始全卷积网络模型进行测试,获得文档二值化全卷积网络模型,所述文档二值化全卷积网络模型用于获得所述文档图像二值化基准数据的二值分割图。
优选地,在构建所述测试集和所述训练集的过程中,
对所述文档图像二值化基准数据的每张原始图像,通过512×512的滑动窗口进行遍历,获得所述训练集和所述测试集,其中,滑动窗口的滑动步长为256,对于宽或高小于512的所述原始图像,将所述原始图像的保持比例地缩放到512后再进行裁剪。
优选地,在获得所述训练集和所述测试集的过程后,对所述训练集和所述测试集通过几何变换、灰度变换和加噪进行数据扩增,基于扩增后的所述训练集和所述测试集,获得所述文档二值化全卷积网络模型。
优选地,在构建所述编码器的过程中,每个所述卷积层的卷积核大小为5x5,第一通道数为64,卷积步长为2;
在构建所述解码器的过程中,每个所述反卷积层的反卷积核大小为5x5,第二通道数为64,反卷积步长为2。
优选地,在构建所述初始全卷积网络模型的过程中,所述初始全卷积网络模型还包括若干个跳跃连接;
每个所述跳跃连接,通过下述过程,将所述编码器的每一层编码器特征与对应层数的解码器特征进行融合:首先,基于所述注意力机制,对所述编码器特征进行处理,获得注意力加权后的特征,然后,将所述注意力加权后的特征与所述解码器对应层数的解码器特征按元素相加,再经过第二ReLU激活函数进行运算,得到最终融合结果,其中,所述跳跃连接用于恢复图像细节。
优选地,基于所述注意力机制,构建注意力机制模块,将所述注意力机制模块部署在每一个所述跳跃连接之上;
在每一个所述注意力机制模块中,将所述编码器特征作为所述注意力机制模块的第一输入向量,将所述解码器对应层数的下一层特征作为所述注意力机制模块的第二输入向量,获得注意力系数热图,通过所述注意力系数热图对所述编码器特征进行加权,得到经过了注意力机制模块处理的所述编码器特征。
优选地,在获得所述注意力系数热图的过程中,所述注意力系数热图的获得公式为:
Figure BDA0003126369900000041
其中,v和q表示两个特征映射,
Figure BDA0003126369900000042
均表示卷积操作,bq和bψ分别是Wq和ψ的偏置,Cv、Cq和Cint分别为v、q和中间层的通道数,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数。
优选地,在对所述初始全卷积网络模型进行训练的过程中,采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。
优选地,在获得所述二值分割图后,基于所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的所述二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,基于所述平均值对结果进行评价。
一种基于注意力机制的文档二值化处理系统,包括,
数据采集模块,用于采集所述文档图像二值化基准数据;
数据预处理模块,与所述数据采集模块连接,用于将所述文档图像二值化基准数据进行图像分割后,将分割后的图像进行几何变换、灰度变换和加噪处理,获得数据集;
二值化图像处理模块,与所述数据预处理模块连接,用于通过构建具有跳跃连接的全卷积网络,并将注意力机制应用在所述跳跃连接上,基于所述数据集对所述全卷积网络进行训练和测试后,获得所述文档图像二值化基准数据的二值分割图,其中,通过DiceLoss和Focal Loss相结合的损失函数监督网络的所述训练过程;
评价模块,与所述二值化图像处理模块连接,用于通过比较所述所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,生成评价结果;
显示模块,用于显示所述文档图像二值化基准数据、所述二值分割图、所述评价结果。
本发明公开了以下技术效果:
本发明利用基于注意力机制的全卷积网络实现了端到端的文档图像二值化,识别精度高,程序架构紧凑合理,适应于多种退化类型的文档,为文档二值化分割识别提供了新的技术依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还根据这些附图获得其他的附图。
图1为本发明实施例所述的文档二值化方法的流程图;
图2为本发明实施例所述的数据准备流程图;
图3为本发明实施例所述的数据扩增示意图;
图4为本发明实施例所述的网络整体结构图;
图5为本发明实施例所述的二值化结果示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-5所示,本发明提供了一种基于注意力机制的文档二值化处理方法,包括以下步骤,
采集文档图像二值化基准数据,通过对文档图像二值化基准数据进行剪裁,构建测试集和训练集;
通过设置五层卷积层并在每个卷积层后连接批归一化层和第一ReLU激活函数,构建编码器;
通过设置五层反卷积层并在每个反卷积层后连接批归一化层和第一ReLU激活函数,构建解码器;
基于注意力机制,通过编码器和解码器,构建初始全卷积网络模型,通过训练集对初始全卷积网络模型进行训练后,通过测试集对训练后的初始全卷积网络模型进行测试,获得文档二值化全卷积网络模型,文档二值化全卷积网络模型用于获得文档图像二值化基准数据的二值分割图。
在构建测试集和训练集的过程中,对文档图像二值化基准数据的每张原始图像,通过512×512的滑动窗口进行遍历,获得训练集和测试集,其中,滑动窗口的滑动步长为256,对于宽或高小于512的原始图像,将原始图像的保持比例地缩放到512后再进行裁剪。
在获得训练集和测试集的过程后,对训练集和测试集通过几何变换、灰度变换和加噪进行数据扩增,基于扩增后的训练集和测试集,获得文档二值化全卷积网络模型。
在构建编码器的过程中,每个卷积层的卷积核大小为5x5,第一通道数为64,卷积步长为2;
在构建解码器的过程中,每个反卷积层的反卷积核大小为5x5,第二通道数为64,反卷积步长为2。
在构建初始全卷积网络模型的过程中,初始全卷积网络模型还包括若干个跳跃连接,每个跳跃连接,通过下述过程,将编码器的每一层编码器特征与对应层数的解码器特征进行融合:首先,编码器特征经过注意力机制模块的处理,得到注意力加权后的特征,然后,与解码器对应层数的解码器特征按元素相加,再经过第二ReLU激活函数的运算,得到最终融合结果;跳跃连接用于恢复图像细节。
基于注意力机制,将注意力机制模块部署在每一个跳跃连接之上;在每一个注意力机制模块中,将编码器特征作为注意力机制模块的第一输入向量,将解码器对应层数的下一层特征作为注意力机制模块的第二输入向量,获得注意力系数热图,通过注意力系数热图对编码器特征进行加权,得到经过了注意力机制模块处理的编码器特征。
在获得注意力系数热图的过程中,注意力系数热图的获得公式为:
Figure BDA0003126369900000081
其中,v和q表示两个特征映射,
Figure BDA0003126369900000082
均表示卷积操作,bq和bψ分别是Wq和ψ的偏置,Cv、Cq和Cint分别为v、q和中间层的通道数,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数。
在对初始全卷积网络模型进行训练的过程中,采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。
在获得二值分割图后,基于文档图像二值化基准数据以及文档图像二值化基准数据对应的二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,基于平均值对结果进行评价。
一种基于注意力机制的文档二值化处理系统,包括,
数据采集模块,用于采集文档图像二值化基准数据;
数据预处理模块,与数据采集模块连接,用于将文档图像二值化基准数据进行图像分割后,将分割后的图像进行几何变换、灰度变换和加噪处理,获得数据集;
二值化图像处理模块,与数据预处理模块连接,用于通过构建具有跳跃连接的全卷积网络,并将注意力机制应用在跳跃连接上,基于数据集对全卷积网络进行训练和测试后,获得文档图像二值化基准数据的二值分割图,其中,通过Dice Loss和Focal Loss相结合的损失函数监督网络的训练过程;
评价模块,与二值化图像处理模块连接,用于通过比较文档图像二值化基准数据以及文档图像二值化基准数据对应的二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,生成评价结果;
显示模块,用于显示文档图像二值化基准数据、二值分割图、评价结果。
实施例1:本发明基于注意力机制的全卷积网络文档二值化方案,流程框图如附图1所示,包括下列步骤:
(1)数据准备:选择公开的文档图像二值化基准数据集DIBCO数据集来对本发明进行验证,该数据集可以从网络途径获取。从2009年起,DIBCO大赛组委会每年发布10到20张低质量文档图像,直至2019年为止,共发布了136张低质量文档图像,包含了多种退化类型,其中多数的图像为宽或高超过1000像素的高清大图,因此需要将每张图像都裁剪为512x512的切片才能输入网络中训练和测试,在构建训练集时可直接裁剪成切片。具体裁剪方式为:使用一个512x512的滑动窗口在原始图像上遍历,滑动步长设置为256,对于宽或高小于512的原始图像,将其保持比例地缩放到512再进行裁剪。DIBCO数据集可以根据发布年份进行划分,例如DIBCO2018数据集、DIBCO2019数据集。在划分训练集和测试集时,我们选择了DIBCO2017的20张图片作为测试集,其余年份均作为训练集。
(2)对步骤(1)构建的数据集进行几何变换、灰度变换和加噪处理,实现数据集扩增,主要扩增方式有以下几种:
(2-1)包括翻转、缩放、平移、旋转在内的几何变换;
(2-2)包括线性变换、对数变换、伽马变换在内的灰度变换;
(2-3)包括高斯噪声、椒盐噪声在内的加噪处理。
以上扩增方式中可能涉及到的参数,例如翻转方向、缩放的比例等,均由随机数生成。对训练集中的每张原始图像随机生成三张扩增图像,然后对所有的图像进行步长为256的滑窗裁剪,大约可以得到7000到8000张512x512大小的训练用切片。
(3)构造网络。包括以下步骤:
(3-1)设计主干网络:
由于文档二值化是图像到图像的生成任务,我们设计了一个编码器-解码器结构的全卷积网络作为主干网络,它包括编码器、解码器和跳跃连接三个部分。
(3-2)设计编码器:
编码器用于提取文档图像的特征,由五层带步长的卷积构成,其中每层卷积的核大小均为5x5,通道数均为64,卷积步长均为2,并且每层卷积后面都紧接一层批归一化层和ReLU激活函数。带步长的卷积不断扩大网络的感受野,同时不会损失过多图像细节。
(3-3)设计解码器:
解码器用于将编码后的特征上采样至与原图尺寸一致,由五层步长为2的反卷积构成,且每层卷积的核大小、通道数均与编码器一致,与编码器构成对称。同理,每层反卷积后面都紧接一层批归一化层和ReLU激活函数。解码器的输出是一张与输入图像大小一致的单通道概率图,此概率图再经过Sigmoid函数激活即可得到最终的二值分割结果。
(3-4)设计跳跃连接:
跳跃连接将编码器每一层特征与解码器对应层数的特征进行融合,用于恢复图像细节。融合的方式是按元素相加后紧接一层ReLU激活函数。
(3-5)设计注意力机制模块:
注意力机制模块可以作为附加模块融入到任何一种模型架构中。注意力机制模块接收query和value两个输入向量,输出注意力系数向量。其过程如下:
Figure BDA0003126369900000111
将该注意力模块融入到全卷积网络中,则v和q表示两个特征映射,
Figure BDA0003126369900000112
均表示卷积操作,bq和bψ分别是Wq和ψ的偏置,Cv、Cq和Cint分别为v、q和中间层的通道数,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数。最后的输出α是一张单通道的注意力系数热图。
(3-6)在全卷积网络中融入注意力机制模块:
将(3-5)中的注意力机制模块部署到解码器的每一层跳跃连接上,以编码器特征作为value向量,解码器特征作为query向量,生成的注意力系数热图对编码器特征进行加权,然后再与解码器特征进行融合。
(3-7)设计损失函数:
采用了Dice Loss和Focal Loss相结合的损失函数来监督网络的训练。其中DiceLoss的公式如下:
Figure BDA0003126369900000121
其中X为预测的二值分割图,Y为Ground Truth,ε为平滑系数,通常取1e-8。FocalLoss的公式如下:
Figure BDA0003126369900000122
其中,γ和α均为可调参数,一般取γ=2,而α在本方案中取0.5。最终的损失函数定义为:
L=LDice+λ·LFocal
其中λ是用来调整两个损失在总损失中占比的常数,本方案中λ=5。
(4)将裁剪好的512x512大小的训练集切片输入到网络中训练。包括以下步骤:
(4-1)网络初始化:使用Kaiming Normalization对模型中的权重参数进行初始化;
(4-2)设置相关的超参数:采用Adam方法更新模型参数,设置初始学习率为lr=2e-4,每一次批量训练的图片数目为batch_size=20,最大训练周期为max_epoch=50,学习率更新策略为多项式衰减,如下所示:
Figure BDA0003126369900000131
其中lr0为初始学习率,lrn为第n次训练周期的学习率,power是衰减系数,本方案中,将power设置为0.9。
(4-3)训练卷积神经网络:将裁剪成512x512的训练集图片转换成灰度图并反相后输入到网络中训练,在计算网络损失时,Ground Truth同样需要先进行反相再计算损失。
(5)使用测试集对训练好的网络进行测试。包含以下步骤:
(5-1)将裁剪成512x512的测试集图片输入到训练好的模型中进行前向推理,然后将推理的二值分割结果重新拼接成完整的图像。
(5-2)对每个测试图像的二值分割结果计算F-measure、Pseudo F-measure、PSNR和DRD四项评价指标,然后取平均值作为最终的评价结果。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于注意力机制的文档二值化处理方法,其特征在于,包括以下步骤,
采集文档图像二值化基准数据,通过对所述文档图像二值化基准数据进行剪裁,构建测试集和训练集;
通过设置五层卷积层并在每个卷积层后连接批归一化层和第一ReLU激活函数,构建编码器;
通过设置五层反卷积层并在每个反卷积层后连接所述批归一化层和所述第一ReLU激活函数,构建解码器;
基于注意力机制,通过所述编码器和所述解码器,构建初始全卷积网络模型,通过所述训练集对所述初始全卷积网络模型进行训练后,通过所述测试集对训练后的所述初始全卷积网络模型进行测试,获得文档二值化全卷积网络模型,所述文档二值化全卷积网络模型用于获得所述文档图像二值化基准数据的二值分割图;
在构建所述初始全卷积网络模型的过程中,所述初始全卷积网络模型还包括若干个跳跃连接;
每个所述跳跃连接,通过下述过程,将所述编码器的每一层编码器特征与对应层数的解码器特征进行融合:首先,基于所述注意力机制,对所述编码器特征进行处理,获得注意力加权后的特征,然后,将所述注意力加权后的特征与所述解码器对应层数的解码器特征按元素相加,再经过第二ReLU激活函数进行运算,得到最终融合结果,其中,所述跳跃连接用于恢复图像细节;
基于所述注意力机制,构建注意力机制模块,将所述注意力机制模块部署在每一个所述跳跃连接之上;
在每一个所述注意力机制模块中,将所述编码器特征作为所述注意力机制模块的第一输入向量,将所述解码器对应层数的下一层特征作为所述注意力机制模块的第二输入向量,获得注意力系数热图,通过所述注意力系数热图对所述编码器特征进行加权,得到经过了注意力机制模块处理的所述编码器特征。
2.根据权利要求1所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在构建所述测试集和所述训练集的过程中,
对所述文档图像二值化基准数据的每张原始图像,通过512×512的滑动窗口进行遍历,获得所述训练集和所述测试集,其中,滑动窗口的滑动步长为256,对于宽或高小于512的所述原始图像,将所述原始图像的保持比例地缩放到512后再进行裁剪。
3.根据权利要求2所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在获得所述训练集和所述测试集的过程后,对所述训练集和所述测试集通过几何变换、灰度变换和加噪进行数据扩增,基于扩增后的所述训练集和所述测试集,获得所述文档二值化全卷积网络模型。
4.根据权利要求3所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在构建所述编码器的过程中,每个所述卷积层的卷积核大小为5x5,第一通道数为64,卷积步长为2;
在构建所述解码器的过程中,每个所述反卷积层的反卷积核大小为5x5,第二通道数为64,反卷积步长为2。
5.根据权利要求1所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在获得所述注意力系数热图的过程中,所述注意力系数热图的获得公式为:
Figure FDA0004213422000000031
其中,v和q表示两个特征映射,
Figure FDA0004213422000000032
均表示卷积操作,bq和bψ分别是Wq和ψ的偏置,Cv、Cq和Cint分别为v、q和中间层的通道数,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数。
6.根据权利要求5所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在对所述初始全卷积网络模型进行训练的过程中,采用Dice Loss和Focal Loss相结合的损失函数来监督网络模型的训练过程。
7.根据权利要求1所述的一种基于注意力机制的文档二值化处理方法,其特征在于,
在获得所述二值分割图后,基于所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的所述二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,基于所述平均值对结果进行评价。
8.一种基于注意力机制的文档二值化处理系统,其特征在于,包括,
数据采集模块,用于采集文档图像二值化基准数据;
数据预处理模块,与所述数据采集模块连接,用于将所述文档图像二值化基准数据进行图像分割后,将分割后的图像进行几何变换、灰度变换和加噪处理,获得数据集;
二值化图像处理模块,与所述数据预处理模块连接,用于通过构建具有跳跃连接的全卷积网络,并将注意力机制应用在所述跳跃连接上,基于所述数据集对所述全卷积网络进行训练和测试后,获得所述文档图像二值化基准数据的二值分割图,其中,通过Dice Loss和Focal Loss相结合的损失函数监督网络的所述训练过程;
在构建全卷积网络模型的过程中,全卷积网络模型还包括若干个跳跃连接;
每个所述跳跃连接,通过下述过程,将编码器的每一层编码器特征与对应层数的解码器特征进行融合:首先,基于所述注意力机制,对所述编码器特征进行处理,获得注意力加权后的特征,然后,将所述注意力加权后的特征与所述解码器对应层数的解码器特征按元素相加,再经过第二ReLU激活函数进行运算,得到最终融合结果,其中,所述跳跃连接用于恢复图像细节;
基于所述注意力机制,构建注意力机制模块,将所述注意力机制模块部署在每一个所述跳跃连接之上;
在每一个所述注意力机制模块中,将编码器特征作为所述注意力机制模块的第一输入向量,将所述解码器对应层数的下一层特征作为所述注意力机制模块的第二输入向量,获得注意力系数热图,通过所述注意力系数热图对所述编码器特征进行加权,得到经过了注意力机制模块处理的所述编码器特征;
评价模块,与所述二值化图像处理模块连接,用于通过比较所述文档图像二值化基准数据以及所述文档图像二值化基准数据对应的二值分割图,获得F-measure评价指标、Pseudo F-measure评价指标、PSNR评价指标和DRD评价指标后取平均值,生成评价结果;
显示模块,用于显示所述文档图像二值化基准数据、所述二值分割图、所述评价结果。
CN202110690169.4A 2021-06-22 2021-06-22 一种基于注意力机制的文档二值化处理方法及系统 Active CN113361445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110690169.4A CN113361445B (zh) 2021-06-22 2021-06-22 一种基于注意力机制的文档二值化处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110690169.4A CN113361445B (zh) 2021-06-22 2021-06-22 一种基于注意力机制的文档二值化处理方法及系统

Publications (2)

Publication Number Publication Date
CN113361445A CN113361445A (zh) 2021-09-07
CN113361445B true CN113361445B (zh) 2023-06-20

Family

ID=77535859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110690169.4A Active CN113361445B (zh) 2021-06-22 2021-06-22 一种基于注意力机制的文档二值化处理方法及系统

Country Status (1)

Country Link
CN (1) CN113361445B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172787B (zh) * 2024-05-09 2024-07-30 南昌航空大学 一种轻量级文档版面分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717523A (zh) * 2019-09-20 2020-01-21 湖北工业大学 一种基于D-LinkNet的低质量文档图像二值化方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111681252A (zh) * 2020-05-30 2020-09-18 重庆邮电大学 一种基于多路径注意力融合的医学图像自动分割方法
CN112102283A (zh) * 2020-09-14 2020-12-18 北京航空航天大学 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717523A (zh) * 2019-09-20 2020-01-21 湖北工业大学 一种基于D-LinkNet的低质量文档图像二值化方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111681252A (zh) * 2020-05-30 2020-09-18 重庆邮电大学 一种基于多路径注意力融合的医学图像自动分割方法
CN112102283A (zh) * 2020-09-14 2020-12-18 北京航空航天大学 一种基于深度多尺度注意力卷积神经网络的视网膜眼底血管分割方法
CN112183258A (zh) * 2020-09-16 2021-01-05 太原理工大学 一种基于上下文信息和注意力机制的遥感图像道路分割方法

Also Published As

Publication number Publication date
CN113361445A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN112330682B (zh) 一种基于深度卷积神经网络的工业ct图像分割方法
CN109711481B (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN112016507B (zh) 基于超分辨率的车辆检测方法、装置、设备及存储介质
CN110189255B (zh) 基于两级检测的人脸检测方法
Noor et al. Median filters combined with denoising convolutional neural network for Gaussian and impulse noises
CN113487576B (zh) 一种基于通道注意力机制的虫害图像检测方法
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
Zhang et al. Dense haze removal based on dynamic collaborative inference learning for remote sensing images
Li et al. Densely connected network for impulse noise removal
CN116188272B (zh) 适用于多模糊核的两阶段深度网络图像超分辨率重建方法
CN111812647A (zh) 一种用于干涉合成孔径雷达相位解缠方法
CN113361445B (zh) 一种基于注意力机制的文档二值化处理方法及系统
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
Wang Remote sensing image semantic segmentation algorithm based on improved ENet network
Wen et al. A self-attention multi-scale convolutional neural network method for SAR image despeckling
CN114202473A (zh) 一种基于多尺度特征和注意力机制的图像复原方法及装置
CN113191237A (zh) 一种基于改进YOLOv3的果树图像小目标检测方法及装置
CN115620120B (zh) 街景图像多尺度高维特征构建量化方法、设备及存储介质
CN116704382A (zh) 一种无人机影像语义分割方法、装置、设备及存储介质
CN116704206A (zh) 图像处理方法、装置、计算机设备和存储介质
CN116229073A (zh) 一种基于改进型ERFNet网络的遥感图像分割方法及装置
CN113095185B (zh) 人脸表情识别方法、装置、设备及存储介质
CN111915621B (zh) 一种融合深度神经网络与cv模型的污损图像分割方法
Kezzoula et al. Bi-ESRGAN: A New Approach of Document Image Super-Resolution Based on Dual Deep Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant