CN110287969A

CN110287969A - 基于图残差注意力网络的摩尔文本图像二值化系统

Info

Publication number: CN110287969A
Application number: CN201910514286.8A
Authority: CN
Inventors: 郭艳卿; 姬彩娟; 郑欣
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-27
Anticipated expiration: 2039-06-14
Also published as: CN110287969B

Abstract

本发明公开一种基于图残差注意力网络的摩尔文本图像二值化系统，首先利用多尺度卷积神经网络提取不同分辨率的特征，分别去除不同分辨率特征中的摩尔纹图案并保留文本图像中内容信息，避免梯度消失；再通过三重注意力模块利用通道信息和空间信息以及各分支之间的关系，引导网络关注特征中的目标区域，进一步去除摩尔纹图案；所设置的图像二值化模块利用多个顺次连接的生成自适应局部阈值的卷积层和促进二值化的参数化层，能准确地将去除摩尔纹文本图像进行二值化；可以充分去除不同频带范围和通道上的摩尔纹、提高图像二值化精度。

Description

基于图残差注意力网络的摩尔文本图像二值化系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种训练简单、性能鲁棒的基于图残差注意力网络的摩尔文本图像二值化系统。

背景技术

文本图像二值化是大多数文本分析任务(如文本内容识别，光字符识别)的基础和关键步骤，其本质上是给文本图像的目标文字和背景分配不同的二进制值。很多情况下人们需要利用相机等设备记录电子屏幕上的文档，而摩尔纹的出现给这类文本图像的二值化带来了新的挑战。目前，深度学习的兴起分别给图像二值化和去除摩尔纹问题带来了突破，大幅度地提升了图像二值化系统和去摩尔纹系统的性能。但是目前深度学习网络在去摩尔纹的同时，可能会丢失部分内容信息，并且由于未考虑各尺度分支之间的联系使得去摩尔纹不彻底；同时现有二值化网络并不适用处理带有摩尔纹文本的图像，尤其是难以处理有大规模摩尔纹的图像。迄今为止，并没有专门用于摩尔文本图像二值化的系统。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种训练简单、性能鲁棒的基于图残差注意力网络的摩尔文本图像二值化系统。

本发明的技术解决方案是：一种基于图残差注意力网络的摩尔文本图像二值化系统，其特征在于：由去摩尔纹模块和图像二值化模块相接而成且将去摩尔纹模块的输出特征与图像二值化模块的输出特征相减，所述去摩尔纹模块由相互连接的多尺度卷积残差模块和三重注意力模块构成，所述图像二值化模块包括多个顺次连接的生成自适应局部阈值的卷积层、非线性激活函数层和参数化层；

所述多尺度卷积残差模块包括5个并列的分辨率分支，每个分辨率分支由依次连接的下采样层、残差模块和上采样层构成；所述下采样层是卷积核为3×3、步长为2、通道为64或32的卷积层；所述残差模块由6个级联的子残差块构成，每个子残差块包括两层卷积核为3×3、步长为1、通道为64的卷积层、参数归一化层和非线性激活函数层，每个子残差块输入特征与输出特征进行融合；所述上采样层为卷积核为4×4、步长为2、通道分别为64或者32的反卷积层和卷积核为3×3、步长为1、通道为1的卷积层；

所述三重注意力模块设有5个通道注意力模块和5个空间注意力模块，每个通道注意力模块依次通过相对应的空间注意力模块与图残差注意力模块相接；

所述通道注意力模块包括最大池化、平均池化、共享多层感知网络和非线性激活，按照公式(1)获取通道注意力模块的输出特征：

其中，F_i(i＝1,2,...,5)表示第i个分辨率分支的上采样层输出特征，F_i'(i＝1,2,...,5)表示第i个通道注意力模块的输出特征，F_i平均表示第i个分辨率分支的上采样层输出特征经平均池化后的输出特征，F_i最大表示第i个分辨率分支的上采样层输出特征经最大池化后的输出特征，W₀，W₁表示共享多层感知网络的两个权重矩阵，σ(·)表示非线性激活函数操作，表示矩阵相乘操作；

所述每个空间注意力模块包括最大池化、平均池化、7×7卷积层和非线性激活层，按照式(2)获取第i个空间注意力模块的输出特征，

其中，F_i'(i＝1,2,...,5)表示第i个通道注意力模块的输出特征，F_i”(i＝1,2,...,5)表示第i个空间注意力模块的输出特征，F'_i平均表示第i个通道注意力模块的输出特征经平均池化后的输出特征，F'_i最大表示第i个通道注意力模块的输出特征经过最大池化后的输出特征，f^7×7(·)表示对F'_i平均和F'_i最大进行通道上级联并经过7×7卷积，σ(·)表示非线性激活函数操作，表示矩阵相乘操作；

所述图残差注意力模块按照式(3)获取输出特征，

F_i输出＝R([softmax(D·D^T)·D]_i+N_i) (3)

其中，N_i表示第i个空间注意力模块输出特征向量化后的向量，即节点_i，F_i输出表示图残差注意力模块第i个分支的输出特征，D和D^T分别表示N_i级联得到的融合矩阵以及其矩阵转置，D和DT经过softmax计算权重再与D相乘得到更新矩阵，[·]_i表示将更新矩阵拆分为各个分支的输出向量，即输出节点_i，N_i与[·]_i通过跳跃连接进行特征融合，R(·)_i表示将特征融合结果进行矩阵化操作；

所述去摩尔纹模块和图像二值化模块在训练阶段同时进行训练，损失函数如下所示：

L_总＝L_去摩+L_二值

其中，L_去摩为去摩尔纹模块对应的损失函数，L_二值为图像二值化模块对应的损失函数；

其中，表示L₂范数的平方，X_d为去摩尔纹模块的输出图像，X_c是与X_d对应的原始干净的文本图像；

其中，Y是图像二值化模块的输出图像，X_b是与Y对应的原始二值文本图像。

本发明采用深度卷积神经网络，首先利用多尺度卷积神经网络提取不同分辨率的特征，分别去除不同分辨率特征中的摩尔纹图案并保留文本图像中内容信息，避免梯度消失；再通过三重注意力模块利用通道信息和空间信息以及各分支之间的关系，引导网络关注特征中的目标区域，进一步去除摩尔纹图案；所设置的图像二值化模块利用多个顺次连接的生成自适应局部阈值的卷积层和促进二值化的参数化层，能准确地将去除摩尔纹文本图像进行二值化；可以充分去除不同频带范围和通道上的摩尔纹、提高图像二值化精度。本发明采用模块化设计，各模块之间可以相互独立，方便模型的构建和更新，具有训练简单、性能鲁棒等优点。

附图说明

图1是本发明实施例的结构框图。

图2是本发明实施例三重注意力模块的结构示意图。

图3是本发明实施例图残差注意力模块的结构示意图。

图4是本发明实施例与现有技术对比的实验效果图。

具体实施方式

本发明的一种基于图残差注意力网络的摩尔文本图像二值化系统如图1所示，由去摩尔纹模块和图像二值化模块相接而成且将去摩尔纹模块的输出特征与图像二值化模块的输出特征相减，去摩尔纹模块由相互连接的多尺度卷积残差模块和三重注意力模块构成，图像二值化模块包括多个顺次连接的生成自适应局部阈值的卷积层、非线性激活函数层和参数化层；

所述多尺度卷积残差模块包括5个并列的分辨率分支，每个分辨率分支由依次连接的下采样层、残差模块和上采样层构成；所述下采样层是卷积核为3×3、步长为2、通道为64或32的卷积层，逐次将原始图像的特征下采样为不同分辨率的特征；所述残差模块由6个串联的子残差块构成，每个子残差块包括两层卷积核为3×3、步长为1、通道为64的卷积层、参数归一化层和非线性激活函数层，每个子残差块输入特征与输出特征进行融合，去除下采样层输出的不同分辨率特征中的摩尔纹的同时，保留文本图像中内容信息，避免梯度消失；所述上采样层为卷积核为4×4、步长为2、通道分别为64或者32的反卷积层和卷积核为3×3、步长为1、通道为1的卷积层，将残差模块输出的不同分辨率特征上采样为与本发明输入图像相同的分辨率；

所述通道注意力模块如图2所示包括最大池化、平均池化、共享多层感知网络和非线性激活，将上采样层输出特征经过最大池化和平均池化，得到的两个特征通过共享网络后进行特征融合，具体按照公式(1)获取通道注意力模块的输出特征：

所述每个空间注意力模块如图2所示包括最大池化、平均池化、7×7卷积层和非线性激活层，将通道注意力模块的输出特征经过最大池化和平均池化，得到的两个特征通过特征提取层获取所述空间注意力模块的输出，具体按照式(2)获取第i个空间注意力模块的输出特征，

所述图残差注意力模块如图3所示，输入特征1～5为5个空间注意力模块的输出特征，节点1～5为5个空间注意力模块输出特征向量化后的向量，经过级联得到融合矩阵、矩阵转置、权重计算及更新矩阵，获得处理后的向量，即输出节点1～5，节点1～5分别与输出节点1～5跳跃连接实现特征融合，再将融合结果进行矩阵化操作，得到输出特征1～5，具体按照式(3)获取输出特征，

F_i输出＝R([softmax(D·D^T)·D]_i+N_i) (3)

其中，N_i表示第i个空间注意力模块输出特征向量化后的向量，即节点_i，F_i输出表示图残差注意力模块第i各分支的输出特征，D和D^T分别表示N_i级联得到的融合矩阵以及其矩阵转置，D和D^T经过softmax计算权重再与D相乘得到更新矩阵，[·]_i表示将更新矩阵拆分为各个分支的输出向量，即输出节点_i，N_i与[·]_i通过跳跃连接进行特征融合，R(·)_i表示将融合结果进行矩阵化操作；图残差注意力模块利用各分支特征之间的关系，引导关注特征中目标区域并进一步抑制摩尔纹图案，通过跳跃连接避免图像信息丢失，保证内容的完整性；

L_总＝L_去摩+L_二值

图4是本发明和其他方法在用相同数据集测试后的实验效果图中，Otsu为传统二值化方法，FCNs是现有的关于深度学习方法。

结果表明：本发明提供的基于图残差注意力网络的摩尔文本二值化系统可以充分挖掘文本和摩尔纹的特征，利用通道和空间信息以及各分支之间的关系，充分的去除摩尔纹图案，精准地实现文本图像二值化，提高二值化图像的视觉效果和定量精度。

Claims

1.一种基于图残差注意力网络的摩尔文本图像二值化系统，其特征在于：由去摩尔纹模块和图像二值化模块相接而成且将去摩尔纹模块的输出特征与图像二值化模块的输出特征相减，所述去摩尔纹模块由相互连接的多尺度卷积残差模块和三重注意力模块构成，所述图像二值化模块包括多个顺次连接的生成自适应局部阈值的卷积层、非线性激活函数层和参数化层；

所述空间注意力模块包括最大池化、平均池化、7×7卷积层和非线性激活层，按照式(2)获取第i个空间注意力模块的输出特征，

所述图残差注意力模块按照式(3)获取输出特征，

F_i输出＝R([softmax(D·D^T)·D]_i+N_i) (3)

其中，N_i表示第i个空间注意力模块输出特征向量化后的向量，即节点_i，F_i输出表示图残差注意力模块第i个分支的输出特征，D和D^T分别表示N_i级联得到的融合矩阵以及其矩阵转置，D和D^T经过softmax计算权重再与D相乘得到更新矩阵，[·]_i表示将更新矩阵拆分为各个分支的输出向量，即输出节点_i，N_i与[·]_i通过跳跃连接进行特征融合，R(·)_i表示将特征融合结果进行矩阵化操作；

L_总＝L_去摩+L_二值