CN116934613A

CN116934613A - 一种用于文字修复的分支卷积通道注意力模块

Info

Publication number: CN116934613A
Application number: CN202310723482.2A
Authority: CN
Inventors: 赵龙; 袁宗龙; 娄煜昊
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-10-24

Abstract

本发明涉及一种用于文字修复的分支卷积通道注意力模块，属于文字修复领域。包括字符自编码器，CAE是一个基于U‑Net的生成器和一个判别器；生成器由编码器和解码器组成；编码器为下采样层，该层通过不断减小空间分辨率实现将图像信息压缩到低维表示，CAE使用BCCAM替换下采样层，对文字特征进行逐层下采样，将文字特征学习到一个长度为128的向量；解码器为上采样层，通过不断增加特征映射大小重新增加分辨率，精确地重建原始图像。本发明的分支卷积通道注意力模块可以处理文字特征的遮挡区域和未遮挡区域的权重问题，对单通道特征进行全局加权平均来学习通道之间的相关性，并通过尺寸为1的逐点卷积来增强特征表达。

Description

一种用于文字修复的分支卷积通道注意力模块

技术领域

本发明涉及一种用于文字修复的分支卷积通道注意力模块，是利用神经网络模型来修复笔画缺失或涂抹不清楚的文字，目的是数字化保护文化遗产和提高手写汉字识别的准确率，是一种端到端的修复网络，涉及到的技术包括U-net、扩张卷积(Dilatedconvolution)、RepVGG和高效通道注意力机制(Efficient Channel Attention for DeepConvolutional Neural Networks,ECA-net)等，属于文字修复技术领域。

背景技术

目前，研究文字修复的学者不多，提出的文字修复方法更是寥寥无几。文字修复是图像修复的一个具体应用，属于图像修复的一个分支，是一个小众研究。

图像修复的概念很早就被提出，在发展过程中也设计了很多优秀的算法。根据修复方法的不同，可以分为传统纯算法修复和神经网络修复。传统的图像修复主要有偏微分方程和补丁匹配这两类。

偏微分方程只能修复小的划痕，利用偏微分方程将周围的像素扩散到缺失区域。补丁匹配可以修复稍大一点的区域，但也只是从原图或其他图像中匹配最相似的像素块填充到缺失区域，无法生成出新的区域。

手写汉字变化多样，有复杂的结构信息，其次每个人都有自己的写字风格，不能用像素扩散和像素块填充的方法来修复。因此，传统的纯算法修复方法是很难完成文字修复任务的。

神经网络的图像修复模型分为生成对抗网络(Generate Adversarial networks,GANs)、变分自编码器(Auto-Encoding Variational Bayes,VAE)、双重编码器、并行编码器和Vision Transformer(ViT)五大类。其中，目前的文字修复模型主要借鉴前两类图像修复网络。

生成对抗网络直接用随机生成的100维噪声生成文字，然后对100维噪声进行优化或筛选，使生成器能根据筛选出的100维噪声生成出和待修复文字相似的文字，以达到文字修复的目的。变分自编码器由编码器和解码器组成，编码器利用卷积神经网络学习文字的结构特征，解码器根据编码器学习到的文字特征解码重建文字。

双重编码器相当于两个变分自编码器，分为粗修和精修或者先修轮廓再修颜色两个阶段，模型复杂，参数量大。并行编码器是双重自编码器的改进版本，对双重编码器进行了优化，仅使用一个编码器提取图像特征，两个解码解码器进行图像重建。ViT是借鉴自然语言处理(Natural Language Processing,NLP)领域的Transformer，为了输入和文本同规模大小的图像，MAE只把图像中未被遮挡的像素块输入到Transformer中。

陈善雄老师的团队设计出了一种双判别器GANs的古彝文字符修复方法，该模型在深度生成网络(Deep Convolutional Generative Adversarial Networks,DCGAN)的基础添加一个字符筛选器，筛选出能生成出和待修复字符相似的随机噪声，生成器再利用这些筛选出的噪声生成字符。这类模型有一个很大的缺陷，就是没有学习待修复字符的结构信息，而是直接利用随机100维噪声进行文字生成，这可能会导致生成的字符和待修复的字符有差别。但也有一个很大的优势，那就是可以获得很多不同的修复结果，这是其他类模型做不到的，能提供人们更多的选择。

18年Lv等人改进U-net，使用U-net作为模型的生成器对文字进行修复。U-net是VAE的改进，U-net在VAE的基础上添加了跳跃连接操作，编码器向解码器传递学习到的局部特征。Song等人将VAE和自注意力机制结合起来了，编码器学习文字特征，自注意力机制处理学习到的特征，解码器根据处理完的特征解码重建文字。基于VAE和U-Net的生成器先学习文字的特征，然后再根据文字的特征重建文字。这类模型有学习文字的特征，但文字比图像的结构更复杂，并且模型的输入一般是遮挡文字，普通下采样模块在文字特征提取上存在缺陷。

发明内容

为了解决现有技术的不足，本发明提供一种用于文字修复的分支卷积通道注意力模块。

编码器提取遮挡文字的特征是文字修复中关键步骤之一。编码器和解码器合作完成文字修复任务，编码器负责学习文字的结构特征，解码器负责根据学习到的特征解码重构文字。如果编码器不能给解码器提供完整准确的文字特征，解码器就不能根据文字特征解码重建出语义细节更合理的文字。也可以说解码器完全依赖编码器提供的文字特征。

文字相比普通的图像有更复杂的结构信息，因此，普通卷积在提取文字的结构特征时能力有限，这是文字重建任务的一个阻碍。其次，在修复文字时，模型的输入一般遮挡住要修复的区域。模型在学习文字特征时，遮挡区域和未遮挡区域有同样的权重，这样提取出的特征是不够准确的，提取出地遮挡区域的特征对文字的重建任务是没有任何价值的。

本发明把RepVGG和ECA-net结合起来组成一个新的模块，分支卷积通道注意力模块(Branching Convolutional Channel Attention Module,BCCAM)，下采样模块和BCCAM如图1所示；

本发明采用以下技术方案：

一种用于文字修复的分支卷积通道注意力模块，包括字符自编码器(CharacterAuto-Encoder,CAE)，字符自编码器CAE的结构图如图2所示：

CAE整体上是一个基于U-Net的生成器和一个判别器，生成器负责文字修复任务，判别器负责监督生成器完成文字修复任务；CAE的生成器由编码器和解码器组成；

编码器是一个下采样层，该层通过不断减小空间分辨率实现将图像信息压缩到低维表示，CAE使用BCCAM替换下采样层，对文字特征进行逐层下采样，将文字特征学习到一个长度为128的向量。

CAE的前面还设置有4层扩张卷积，4层扩张卷积是辅助编码学习遮挡文字的整体特征，扩张卷积有更大的感受野，非常适合学习遮挡图像的语义特征。

解码器是上采样层，该阶段层级结构与前面的下采样阶段完全相同，但它通过不断增加特征映射大小重新增加分辨率，则可以精确地重建原始图像；

判别器类似于编码器，也是由下采样模块组成，不过是使用的普通下采样模块。判别器将输入的文字学习到4x4的特征矩阵进行判别。

优选的，训练CAE时用到了三个损失函数，分别是最小二乘对抗损失(LeastSquares Adversarial Loss)、像素重建损失和纹理损失，损失函数是引导优化器对生成器进行优化的目标，是模型训练中关键的部分。

最小二乘对抗损失的作用是辅助并监督生成器生成出更像训练集的文字，即使生成器生成出地文字更加真实，更符合人类的视觉。当然该损失函数还有一个更重要的作用就是防止生成器生成出不存在的文字，这样是没有意义的。

最小二乘损失函数如下所示：

其中，D(·)和G(·)分别表示模型的判别器和生成器，x和z是训练集数据和随机噪声，M(·)是遮挡函数，该函数完成训练集文字的随机遮挡任务。

最小化像素重建损失可以使生成器学习到数据表示的正态分布或者均匀分布的同时，保留足够的图像信息，完成图像重构任务。像素重建损失可以表示为：

L_pixel(x)＝||x-G(M(x))||²

使用纹理损失可以让生成器生成具有与输入纹理相似的文字，使其在视觉上与原始纹理看起来非常相似。纹理损失函数如下所示：

L_texture＝||x_i,j-G(M(x))_i,j||²

其中，x_i,j是原文字的Gram matrix，表示通道i和通道j之间的相关性大小，同理G(M(x))_i,j是生成文字的Gram matrix。

最后对三个损失进行加权训练CAE，总的损失函数可以表示为：

其中，λ₁、λ₂andλ₃分别表示三个损失在生成损失中的权重，模型训练时，设置λ₁＝1,λ₂＝100和λ₃＝100。

本发明未详尽之处，均可参见现有技术。

本发明的有益效果为：

本发明的分支卷积通道注意力模块(BCCAM)的分支结构比普通卷积有更强的特征提取能力，可以弥补普通卷积的特征提取能力有限的问题。BCCAM使用了可微分的结构来代替传统卷积层中的非线性运算，从而使得整个网络结构变得更加规则并具有更好的可解释性。BCCAM的通道注意力可以处理文字特征的遮挡区域和未遮挡区域的权重问题。通道注意力可以对单通道特征进行全局加权平均来学习通道之间的相关性，并通过尺寸为1的逐点卷积来增强特征表达。

文字修复不管是在古籍修复方面还是在手写汉字修复方面都有非常重要的意义。本发明提出的BCCAM可以替换编码器的下采样模块应用到大部分文字修复网络中。除此之外，BCCAM也可以用于大部分图像修复模型，它是一个通用的模块，和下采样模块一样通用。

另外，本发明还使用BCCAM设计了CAE，CAE使用基于U-Net的生成器，U-net本身的跳跃连接，把编码器学习到的局部特征跳跃连接到解码器的对应层，解码器结合解码的整体特征和跳跃连接的局部特征进行文字重建。CAE兼顾了文字修复的特征提取和文字重建两个过程。

在训练生成器时，本发明使用了最小二乘对抗损失，最小二乘对抗损失比最大最小对抗损失对生成器生成的文字和原文字的区分度更高，能监督生成器生成出更真实的文字。相比最大最小对抗损失，最小二乘对抗损失的核心思想是在拟合的意义上从判断两个分布是否“靠近”，变为判断两个分布是否“相似”。

本发明还加入了拉格拉姆矩阵计算生成文字和原文字的纹理损失，加入纹理损失可以使生成的文字和原手写汉字在风格上更相似。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为下采样模块和BCCAM，其中(a)为下采样模块，(b)为BCCAM；

图2为CAE结构图，其中包括一个生成器(上半部分)，一个判别器(下半部分)；

图3为预处理好的HWDB1.1数据集；

图4为预处理好的碑文数据集；

图5为CAE训练HWDB1.1数据集测试的结果；

其中，第1行和第3行是原手写汉字；第2行和第5行中心遮挡25％面积的遮挡手写汉字，是模型的输入；第3行和第6行是重建的文字，是模型的输出。

图6为CAE训练碑文数据集测试的结果；

具体实施方式

为了使本技术领域的人员更好的理解本说明书中的技术方案，下面结合本说明书实施中的附图，对本发明书实施例中的技术方案进行清楚、完整的描述，但不仅限于此，本发明未详尽说明的，均按本领域常规技术。

实施例1

一种用于文字修复的分支卷积通道注意力模块，如图1～6，包括字符自编码器(Character Auto-Encoder,CAE)，字符自编码器CAE的结构图如图2所示：

实施例2

一种用于文字修复的分支卷积通道注意力模块，如实施例1所述，所不同的是，训练CAE时用到了三个损失函数，分别是最小二乘对抗损失(Least Squares AdversarialLoss)、像素重建损失和纹理损失，损失函数是引导优化器对生成器进行优化的目标，是模型训练中关键的部分。

最小二乘损失函数如下所示：

L_pixel(x)＝||x-G(M(x))||²

L_texture＝||x_i,j-G(M(x))_i,j||²

实施例3

一种用于文字修复的分支卷积通道注意力模块，如实施例2所述，所不同的是，本实施例用到两个数据集，一个是已经公开的HWDB1.1数据集，一个是我们自己收集的碑文数据集。CASIA在线和离线中文手写体数据库中包含了三个数据集，特征数据集、手写汉字样本数据集和文本页数据集，自2020年2月后，所有数据集都公开访问。

HWDB1.1包含了人们日常生活中常用的3755个汉字，每个汉字由300不同的人手写组成，随机选择240个作为训练集，剩下60个用作测试集。手写汉字样本数据集下载地址:http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html。

下载完HWDB1.1压缩包后，先解压得到.gnt格式文件，然后使用python语言(其他编程语言也可以)将.gnt格式的文件转换为.png格式图片，处理完的HWDB1.1数据集如图3所示。

HWDB1.1数据集中的手写汉字的大小和手写汉字的结构相关，大小不一。CAE的输入是64x64大小的文字，因此还要使用OpenCV对手写汉字进行重置大小的处理。如果直接使用Torchvision中的transforms包对手写汉字进行重置大小会切掉手写汉字的边缘部分，破坏手写汉字的完整性。

碑文数据集原碑文来自柳公权的《金钢经》和《玄秘塔碑》。本发明把碑文中的文字截图提取出来，使用OpenCV进行去噪，去掉残缺不全的文字组成碑文数据集。碑文数据集部分示例如图4所示。

本实施例使用的编程语言为Python3.7，深度学习框架为Pytorch1.10.0，操作系统为Win11，集群显卡为RTX2080Ti。

将预处理完的数据集分批喂给生成器，训练生成器。并使用Adam优化器根据像素重建损失、最小二乘对抗损失和纹理损失三个损失的加权对生成器进行优化。模型训练300轮，固定学习率为0.0002，每5轮保存生成器权重。

模型训练完后，根据测试集使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structural similarity,SSIM)两个指标找出指标最高的权重。模型训练两个数据集的修复结果如图5和图6所示。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于文字修复的分支卷积通道注意力模块，其特征在于，包括字符自编码器，即CAE，CAE是一个基于U-Net的生成器和一个判别器，生成器负责文字修复任务，判别器负责监督生成器完成文字修复任务；CAE的生成器由编码器和解码器组成；

编码器是一个下采样层，该层通过不断减小空间分辨率实现将图像信息压缩到低维表示，CAE使用BCCAM替换下采样层，对文字特征进行逐层下采样，将文字特征学习到一个长度为128的向量；CAE的前面还设置有4层扩张卷积；

解码器是上采样层，通过不断增加特征映射大小重新增加分辨率，精确地重建原始图像；

判别器由下采样模块组成，判别器将输入的文字学习到4x4的特征矩阵进行判别。

2.根据权利要求1所述的用于文字修复的分支卷积通道注意力模块，其特征在于，训练CAE时采用了三个损失函数，分别是最小二乘对抗损失、像素重建损失和纹理损失，损失函数是引导优化器对生成器进行优化的目标，是模型训练中关键的部分；

最小二乘对抗损失的作用是辅助并监督生成器生成出更像训练集的文字，即使生成器生成出地文字更加真实，更符合人类的视觉；

最小二乘损失函数如下所示：

其中，D(·)和G(·)分别表示模型的判别器和生成器，x和z是训练集数据和随机噪声，M(·)是遮挡函数，该函数完成训练集文字的随机遮挡任务；

最小化像素重建损失能够使生成器学习到数据表示的正态分布或者均匀分布的同时，保留足够的图像信息，完成图像重构任务，像素重建损失表示为：

L_pixel(x)＝||x-G(M(x))||²

使用纹理损失能够让生成器生成具有与输入纹理相似的文字，使其在视觉上与原始纹理看起来非常相似，纹理损失函数如下所示：

L_texture＝||x_i,j-G(M(x))_i,j||²

其中，x_i,j是原文字的Gram matrix，表示通道i和通道j之间的相关性大小，G(M(x))_i,j是生成文字的Gram matrix；