CN116258652A

CN116258652A - 基于结构注意和文本感知的文本图像修复模型及方法

Info

Publication number: CN116258652A
Application number: CN202310525565.0A
Authority: CN
Inventors: 赵启军; 刘雨轩; 格桑多吉; 高定国; 潘帆; 普布旦增; 扎西多吉
Original assignee: Sichuan University; Tibet University
Current assignee: Sichuan University; Tibet University
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-06-13
Anticipated expiration: 2043-05-11
Also published as: CN116258652B

Abstract

本发明公开了基于结构注意和文本感知的文本图像修复模型及方法，模型包括结构先验重建网络和生成网络，结构先验重建网络包括第一CNN编码器、仅解码器的Transformer及第一CNN解码器，生成网络包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器。本发明以Transformer为基础构建一个结构先验重建网络，捕捉全局依赖关系重建文本骨架和边缘结构先验图像，采用门控融合注意力模块将图像纹理特征和文本先验特征进行融合，利用跳跃连接将其融合到修复网络中，在文本感知损失等联合损失的监督下，使修复后的文本笔划连贯，内容真实自然，语义合理，能增强修补过程中纹理和结构的一致和连续性。

Description

基于结构注意和文本感知的文本图像修复模型及方法

技术领域

本发明涉及文本图像修复技术，具体是基于结构注意和文本感知的文本图像修复模型及方法。

背景技术

图像修复是对受损图像的缺失区域进行重建的过程，广泛应用于物体去除、旧照片恢复、图像编辑等领域。文本图像修复作为图像修复的一部分，目前对其研究主要分为以下两部分：

一部分研究的重点是文本图像盲修复，主要目的是重建完整的文本，提高识别率。现阶段这种方式只对二值图像进行完全文本笔画恢复，不考虑原始RGB图像的视觉效果和语义一致性。因此，这种修复方式易导致修复后图像存在视觉不完整、语义不合理的缺陷。

另一部分研究的重点是在文本图像修复任务中使用现有基于学习的图像修复方法，不考虑文本图像的特点，通过学习大量的图像集合，合成与真实纹理一致的结构。因目前的图像修复方法多用于自然图像和人脸图像，一些方法首先重建整体结构先验信息，如边缘、分割映射或粗预测图像，然后利用预测信息对修复结果进行细化。因文本图像的结构特征与自然图像、人脸图像的结构先验信息不一致，修补过程中纹理和结构的一致性、连续性不能得到保障。现有基于学习的图像修复方法也利用注意机制来利用全局上下文信息，然而，这种方式不能提取有用的笔画序列信息来促进文本修复。现有基于学习的图像修复方法大多对网络进行联合损失的训练，如重建损失、对抗损失等，因没有专注于文本本身，无法重建正确的文本笔画。

综上所述，现有技术无论是采用文本图像盲修复方法，还是采用基于学习的图像修复方法，都不适合实际的文本修复任务。

发明内容

本发明的目的在于解决现有文本图像修复方法存在的语义不合理，修补过程中文本图像一致性和连续性不能得到保障的问题，提供了一种基于结构注意和文本感知的文本图像修复模型及方法，其应用时能使修复后文本图像语义合理，能增强修补过程中纹理和结构的一致和连续性。

本发明的目的主要通过以下技术方案实现：基于结构注意和文本感知的文本图像修复模型，包括结构先验重建网络和生成网络，所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器，所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样，在每个空间位置对特征增加一个可学习的绝对位置嵌入；所述仅解码器的Transformer包括多层叠加的Transformer模块，所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像；所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小，得到先验图像；其中，所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像；

所述生成网络采用具有跳跃连接的编码器-解码器结构，其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器，所述第二CNN编码器与第三CNN编码器共享权重，所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样，所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样，所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征；所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征，采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征，再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合, 所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器；所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样，在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息，然后输出修复后文本图像。

进一步的，所述第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。

进一步的，所述第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块，所述轻量门控融合模块的数量为三个，三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。

进一步的，所述轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层，轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。

进一步的，所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层，带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份，其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算，再采用softmax函数归一化权重后得到注意力图，注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘，再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。

进一步的，所述Transformer模块包括多头自注意力层、全连接层及两个层归一化层，所述Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后，再与Transformer模块输入图像进行第一次矩阵相加，第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后，然后再与第一次矩阵相加后图像进行矩阵相加后输出。

进一步的，所述结构先验重建网络在训练时采用二值交叉熵损失优化边缘图像的重建，采用二值交叉熵损失和骰子损失来优化骨架图像的重建，总损失L ₁表述为:

式中，

表示文本骨架图像的二分类交叉熵损失，/>

表示边缘图像的二分类交叉熵损失，/>

表示文本骨架图像的骰子损失,/>

为平衡系数。

进一步的，所述文本图像修复模型在文本图像修复过程中采用重建损失、感知损失、风格损失、对抗损失及文本感知损失进行图像修复联合监督，所述文本感知损失包括文本梯度先验损失和文本先验损失，所述文本梯度先验损失采用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异，文本梯度先验损失

的公式如下：

式中，

和/>

表示原始图像和修复图像的梯度场；

所述文本先验损失利用预训练过的文本识别模型来预测图像种的文本，采用CRNN模型作为文本先验生成器，对字符的概率序列进行预测，其是一个具有A维概率向量的序列，其中，A表示用CRNN模型学习的字符个数；对于输出图像和真实图像，分别用L1范数距离和KL散度度量两者之间的相似性；文本先验损失函数的表述如下：

其中，

表示文本先验损失，其中/>

，/>

分别表示输出图像和真实图像经文本先验生成器之后的概率序列输出，/>

表示输出图像和真实图像间的KL散度，/>

表示一个很小的正数，以避免除法和对数中的数字错误；

文本感知损失

表示为：

其中，

和/>

均为平衡系数；

重建损失使用平均绝对误差计算修复图像

和原始图像/>

像素级别的差异，重建损失/>

计算公式为：

/>

式中，

表示平均绝对误差的计算；

感知损失利用高级语义特征衡量图像差异，感知损失

的计算公式为：

式中，

为预训练网络的第i层激活层输出的特征图；

风格损失用于风格迁移任务，计算图像特征之间相似度，风格损失

的计算公式为：

；

式中，

是指从激活层输出的特征图创建的格雷姆矩阵运算；

对抗损失将

视为真图像，/>

视为假图像，对抗损失/>

计算公式为：

式中，

表示判别网络；

文本图像修复模型的总损失

表示为：

其中，式中

和/>

为平衡系数。

基于上述的基于结构注意和文本感知的文本图像修复模型的文本图像修复方法，包括以下步骤：

步骤S1、将待修复文本图像输入结构先验重建网络；其中，待修复文本图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像；

步骤S2、对文本图像下采样，并在每个空间位置对特征增加一个可学习的绝对位置嵌入；

步骤S3、重建边缘和文本骨架图像；

步骤S4、上采样使输出图像达到输入待修复文本图像大小，得到先验图像；

步骤S5、将先验图像输入生成网络，对于跳跃连接传递的多尺度的特征，采用轻量级的门控融合策略来融合先验特征和图像纹理特征，然后在上采样阶段将融合后特征在通道维度拼接起来，以补充其在上采样阶段丢失的空间信息；

对于包含高级语义信息的最后一层编码层的特征，首先利用自注意力机制对纹理特征的中的长期依赖关系进行建模，以获取全局上下文特征，再利用门控融合模块融合先验特征和纹理特征，然后将融合后的特征输入后续的残差模块以提取有用的深层特征。

文本图像修复是图像修复的一部分，有两个目标。一种是对图像上的不完整文本进行恢复，以利于后续任务。另一个目标是使恢复的图像在视觉上完整，语义上合理。为了恢复真实的纹理和一致的结构，重建正确的文本，本发明提出了一种两阶段的文本修复网络。第一阶段网络只使用仅解码器的Transformer重建文本结构的先验图像。根据人类视觉感知系统，骨架结构可以描述笔划方向等文本形状特征。因此，本发明利用文本骨架和边缘同时作为结构先验来指导文本图像的修复。在第二阶段，为了充分利用先验信息来恢复纹理细节，本发明提出了一种门控融合注意力模块，结合跳跃连接，使得编码器在不同尺度下提取的先验特征和纹理特征进行充分交互。然后采用门控注意力作为其主要结构，利用结构特征来增强纹理修复。最后，本发明还提出了一种文本感知损失，即分别从图像和语义级别约束网络生成具有清晰笔画和正确语义的图像。而且，这种损失不会在测试阶段带来额外的时间开销。

综上所述，本发明与现有技术相比具有以下有益效果：（1）本发明提出了一种两阶段的方法，先对破损区域的轮廓和骨架进行修复，然后第二阶段使用修复的轮廓和骨架对缺失区域的RGB像素数值进行估计和填充，能使修复后文本图像语义合理。

（2）本发明使用文本骨架和边缘图像作为先验信息，并提出了一种门控融合注意力模块，以充分利用在不同尺度感受野下的先验信息，增强修补过程中纹理和结构的一致和连续性。

（3）本发明提出了一种文本感知损失，约束网络生成在图像和语义上都正确的文字，并且该损失不会在测试时带来额外的时间浪费。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一个具体实施例的网络结构示意图；

图2为本发明一个具体实施例中轻量门控融合模块的网络结构示意图；

图3为本发明一个具体实施例中带自注意力的门控融合模块的网络结构示意图；

图4为本发明一个具体实施例中一层仅解码器的Transformer模块的网络结构示意图；

图5为本发明一个具体实施例应用时的流程图；

图6为本发明一个具体实施例的模型与现有技术中模型的定性比较结果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：

如图1所示，基于结构注意和文本感知的文本图像修复模型，包括结构先验重建网络和生成网络，所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器，所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样，在每个空间位置对特征增加一个可学习的绝对位置嵌入；所述仅解码器的Transformer包括多层叠加的Transformer模块，所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像；所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小，得到先验图像；其中，所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像。

本实施例的生成网络采用具有跳跃连接的编码器-解码器结构，其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器，所述第二CNN编码器与第三CNN编码器共享权重，所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样，所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样，所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征；所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征，采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征，再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合, 所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器；所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样，在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息，然后输出修复后文本图像。其中，残差模块使得网络结构具有自适应特性，对网络深度不会过于敏感，有利于网络收敛。SE模块使用通道注意力机制对两个方向的全局特征进行加权，这使网络能够自适应地调整不同上下文的重要性，从而更有效地捕获文本图像中的上下文信息。

在以往的图像修复方法中，已经证明了结构先验的有效性。许多方法选择边缘图像作为后续图像恢复的先导，有效地解决了边缘图像过于平滑或模糊的问题，并产生了更详细的结果。然而，在文本图像中，边缘图像的结果包含了复杂背景的纹理，而不是单纯的文本笔画，这是语义歧义，可能导致文本笔画重构中的误导。因此，为了指导网络在修复过程中准确地重构文本笔画，本实施例引入了文本骨架的先验。与自然物体不同，人类主要根据文字的骨架或形状来区分不同的字符。文本骨架保留了文本图像中的大部分上下文语义信息，广泛应用于许多文本编辑任务和文本超分辨率任务中。将文本骨架应用于文本图像修复，可以有效地指导后续修复网络区分背景和文本本身，重建健壮、可读的文本。

本实施例的第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。表1为本实施例中结构先验重建网络中编码器-解码器结构，其体现了本实施例中第一CNN编码器和第一CNN解码器的卷积模块具体参数。

由于Transformer在恢复全局结构方面的性能优于CNN，本实施例在第一阶段引入了仅解码器的Transformer作为边缘和文本骨架重建的主要架构。如图4所示，本实施例的Transformer模块包括多头自注意力层、全连接层及两个层归一化层，Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后，再与Transformer模块输入图像进行第一次矩阵相加，第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后，然后再与第一次矩阵相加后图像进行矩阵相加后输出。

本实施例的仅解码器的Transformer模块包括N层Transformer模块组成。在第n层中，编码器的计算表示为：

其中LN、MSA和MLP分别代表层归一化、多头自注意力和全连接层。其中，层归一化为了稳定训练和帮助网络快速收敛，多头自注意力保证网络关注多个区域，更好地学习边缘图像重建和骨架图像重建两个任务，全连接层应用于自注意力层之间，进行特征变换和非线性。

同时，为了降低计算复杂度，在输入Transformer模块之前，本实施例先对图像进行下采样，然后在每个空间位置对特征增加一个可学习的绝对位置嵌入。经过Transformer模块后，本实施例使用CNN对图像进行采样，使其达到原来的大小。本实施例的结构先验重建网络在训练时使用二值交叉熵损失（Binary Cross Entropy Loss, BCE Loss）来优化边缘图像的重建，同时利用二值交叉熵损失（BinaryCross Entropy Loss, BCE Loss）和骰子损失（Dice Loss）来优化骨架图像的重建。总损失L ₁表述为：

式中，

表示文本骨架图像的二分类交叉熵损失，/>

表示边缘图像的二分类交叉熵损失，/>

表示文本骨架图像的骰子损失。/>

为平衡系数，在本实施例中设为0.8。

在以往的先验引导修复方法中，先验图像和破损图像直接在通道维数上进行连接，然后送入编码器-解码器的修复网络进行修复。在这种简单的纠缠结构中，先验图像和受损图像在卷积过程中隐式耦合，在纹理恢复过程中缺乏适当的相互作用。它没有充分利用结构先验的信息来帮助修复受损的RGB图像的纹理细节。因此，本实施例设计了一个门控融合注意力模块来融合从编码器提取的先前图像和受损图像的特征，使用跳跃连接使用多尺度的融合特征补充缺失的纹理空间信息。

本实施例的第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块，所述轻量门控融合模块的数量为三个，三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。本实施例将第二CNN编码器、第三CNN编码器及第二CNN解码器依次设置的四个卷积模块分别定义为第一卷积模块、第二卷积模块、第三卷积模块及第四卷积模块，三个轻量门控融合模块分别定义为第一轻量门控融合模块、第二轻量门控融合模块及第三轻量门控融合模块，其中，第一轻量门控融合模块融合第二CNN编码器中第一卷积模块和第三CNN编码器中第一卷积模块的特征并输出至第二CNN解码器第四卷积模块，第二轻量门控融合模块融合第二CNN编码器中第二卷积模块和第三CNN编码器中第二卷积模块的特征并输出至第二CNN解码器第三卷积模块，第三轻量门控融合模块融合第二CNN编码器中第三卷积模块和第三CNN编码器中第三卷积模块的特征并输出至第二CNN解码器第二卷积模块。

表2为本实施例中生成网络的编码器-解码器结构，其体现了本实施例中第二CNN编码器、第三CNN编码器及第二CNN解码器的卷积模块具体参数。

如图2所示，本实施例的轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层，轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。

如图3所示，本实施例的所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层，带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份，其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算，再采用softmax函数归一化权重后得到注意力图，注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘，再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。其中，注意力图指的是两个特征卷积后得到的特征，一个转置后再和另一个特征进行矩阵相乘，这样就能得到注意力图，softmax为注意力图计算的方式。

本实施例应用时，对于跳跃连接传递的多尺度的特征，采用了一种轻量级的门控融合策略来融合先验特征

和图像纹理特征/>

，然后在上采样阶段将融合后特征

在通道维度拼接起来，以补充其在上采样阶段丢失的空间信息。

对于包含高级语义信息的最后一层编码层的特征，本实施例首先利用自注意力机制对纹理特征的

中的长期依赖关系进行建模，以获取全局上下文特征。然后利用门控融合模块融合先验特征/>

和纹理特征/>

，然后将融合后的特征/>

输入后续的残差模块以提取有用的深层特征。

在文本图像修复过程中，本实施例使用重建损失、感知损失、风格损失及对抗损失作为损失函数。此外，为了约束网络在图像和语义上产生一致的纹理，本实施例使用了一个文本感知损失，它由两个部分组成。第一部分是文本梯度先验损失。文本梯度先验损失使用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异。梯度场指的是像素的RGB值的空间梯度，在文本图像中，由于文字和背景区域RGB值相差很多，因此文字与背景区域边界的梯度场很大，在图像级别，这个约束迫使网络在文本和背景之间生成更清晰的边界，从而在修复后的图像中产生更清晰的笔画细节。文本梯度先验损失

的公式如下：

式中，

和/>

表示原始图像和修复图像的梯度场。

本实施例的文本先验损失借鉴了感知损失的思想，关注每个字符的内容以生成符合上下文语义的图像。利用预训练过的文本识别模型来预测图像种的文本。本实施例采用CRNN模型作为文本先验生成器，对字符的概率序列进行预测，这是一个具有A维概率向量的序列，其中A表示用CRNN模型学习的字符个数。对于输出图像和真实图像，分别用L1范数距离和KL散度度量两者之间的相似性。文本先验损失函数的表述如下：

其中，

表示文本先验损失，其中/>

，/>

表示输出图像和真实图像间的KL散度，/>

表示一个很小的正数，以避免除法和对数中的数字错误；

文本感知损失

表示为：

其中，

和/>

均为平衡系数，本实施例的模型中设为0.001和1。

本实施例除了文本感知损失外，还使用重建损失、感知损失、风格损失和对抗损失联合和训练。重建损失使用平均绝对误差（Mean Absolute Error, MAE）计算修复图像

和原始图像/>

像素级别的差异，重建损失/>

表示为：

式中，

表示MAE的计算。

感知损失利用高级语义特征衡量图像差异，使用在ImageNet上预训练过的VGG-19网络，感知损失

计算公式为：

式中，

为预训练网络的第i层激活层输出的特征图。在模型中，选用VGG-19网络的RELU1_1，RELU2_1，RELU3_1，RELU4_1，RELU5_1层。

风格损失多用于风格迁移任务，计算图像特征之间相似度。风格损失与感知损失相似，都使用了在ImageNet上预训练网络的激活层输出，风格损失

计算公式为：

式中，

是指从激活层输出的特征图创建的格雷姆矩阵运算。

对抗损失使用生成网络和判别网络串联训练，将网络优化问题转换为极小极大优化问题，使得生成器生成更加真实逼真的图像，对抗损失将

视为真图像，/>

视为假图像，对抗损失/>

计算公式为：

式中，

表示判别网络。

文本图像修复模型的总损失

表示为：

其中，式中

和/>

为平衡系数，在模型中分别设置为1.0，0.1，250，0.1和1。

如图5所示，本实施例应用时包括以下步骤：步骤S1、将待修复文本图像输入结构先验重建网络；其中，待修复文本图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像；步骤S2、对文本图像下采样，并在每个空间位置对特征增加一个可学习的绝对位置嵌入；步骤S3、重建边缘和文本骨架图像；步骤S4、上采样使输出图像达到输入待修复文本图像大小，得到先验图像；步骤S5、将先验图像输入生成网络，对于跳跃连接传递的多尺度的特征，采用轻量级的门控融合策略来融合先验特征和图像纹理特征，然后在上采样阶段将融合后特征在通道维度拼接起来，以补充其在上采样阶段丢失的空间信息；对于包含高级语义信息的最后一层编码层的特征，首先利用自注意力机制对纹理特征的中的长期依赖关系进行建模，以获取全局上下文特征，再利用门控融合模块融合先验特征和纹理特征，然后将融合后的特征输入后续的残差模块以提取有用的深层特征。

目前很多图像修复模型采用注意力机制从未缺失的背景区域获取上下文信息，并在缺失部分和剩余部分之间建立联系，以辅助图像修复。现有采用注意力机制的图像修复模型都在自然图像或人脸图像基础上发掘建立缺失区域和背景区域的联系，或使用多尺度的结构结合不同尺度的特征信息以提高图像修复的性能。在文本图像中，文字是主要信息，现有方法无法对文本图像中的文本序列特征信息进行有效提取和利用。

为保证修复后图像的结构连贯性，越来越多的方法使用额外的先验来提高图像修复的性能，例如边缘、线条、用户草图、低分辨率图像，分割图，和描述性文本等。现有图像修复方法采用的是比较通用的先验信息，在人脸和自然图像中都可以适用，然而对于文本图像，这些先验信息不足以指导文本图像中的字符的修复。

本实施例提出了一种两阶段的文本图像修复网络。在第一阶段，网络以损坏的图像、掩码、损坏的边缘和损坏的文本骨架图像作为输入，并利用仅解码器的Transformer来重建完整的边缘和文本骨架图像。在第二阶段，生成网络采用具有跳跃连接的编码器-解码器结构，其中图像的编码器分支和先验的编码器分支共享权重。然后采用门控融合注意力模块对不同尺度的先验特征和图像特征进行充分融合，以生成更详细的纹理。为了保证网络能够从图像和语义两方面产生更合理的文本图像，本实施例设计了一个文本感知损失，联合其他图像修复的损失共同训练网络。

由于现有的文本数据集大多是用于场景文本检测和识别的场景文本数据集，为了更好地模拟古籍文档中的文本图像，本实施例构建了一个英文文本数据集。本实施例使用五种字体文件，包括手写字体和打印字体，收集15张带有噪声的文档背景图像。在合成过程中，随机选择单词、小说等语料库中的文本、噪声背景、以及字体文件，然后将所选文本写在背景图像中的任意位置，并执行诸如倾斜和噪声之类的随机转换。最后从背景图像中裁剪出整个文本行图像。图像大小从50像素到200像素不等。该数据集共包含100000张训练图像和25000张测试图像。对于随机不规则的掩模，其遮挡比例为10%-60%。对于生成文本骨架图像，在保留和细化文本笔画的同时去除背景。利用Canny边缘检测算法生成边缘图像。

由于文本修复的目的是恢复完整的二值文本图像而不是RGB图像，所以本实施例将所提出的方法与具有不同策略的四种场景修复模型进行了比较：

Pconv：一种具有部分卷积的编码器解码器网络。

EC：首先重建边缘图像，然后利用它们来提高修复性能的两阶段GAN模型。

CTSDG：一种将纹理合成和结构重构相结合的双流网络，以获得更好的修复效果。

LGNet：一个由粗到细的三级网络，它实现了粗糙的初始结果，然后使用小的和大的感受野分别进行细化。

本实施例使用Pytorch实现模型构建，并在CPU Intel i7-8700F和NVIDIAGeForce GTX 1080Ti-11G上进行了实验。在训练和测试中，本实施例将文本图像调整为256×256以供输入。在评价过程中，将输出图像调整为原始图像的大小来计算相应指标。在训练的第一阶段，本实施例使用了AdamW优化器，学习率为3e-4。在第二阶段，使用Adam优化器，并将学习速率设置为1e-4。文本先验生成器使用了官方预训练的CRNN。在输出图像和真实图像采用非共享的文本先验生成器，并对输出分支的生成器进行微调。

在定性比较方面，本实施例展示了一些文本图像修复的结果，各模型得定性比较结果如图6所示，图6（b）为模型输入，图6（c）-（g）为对比模型和本实施例模型得修复结果。

Pconv在修复时未采用任何先验信息和注意力机制增强图像修复效果，缺失区域修复纹理模糊有伪影，且图像上被遮挡的文本修复存在明显错误。EC方法和CTSDG方法，在背景区域修复效果很好，缺失面积小时效果可以，但文字与背景边界模糊，有大面积文字缺失时，在文字的修复细节上效果不够好，文字修复有语义错误。LGNet方法修复结果缺失区域和背景区域文字衔接不一致，文字出现部分修复错误，没有达到文本修复的目的。

综合以上结果可见，本实施例可以更加精确地修复文本图像中的文本笔划，且在掩膜遮挡尺寸较大时效果更好。和其他模型结果对比，做到修复区域自然真实，人眼视觉感受效果较好。

在定量比较方面，对于评价指标，本实施例首先比较了本实施例和其他修复方法在图像质量评价指标上的差异。本实施例使用了平均绝对误差(MAE)、峰值噪声(PSNR)和结构相似性指数(SSIM)三种常用度量。PSNR是人类对重建质量感知的近似值，用来衡量图像失真的程度，其计算公式为：

式中，

为图像中最大可能的像素值，计算结果单位为dB。dB数值越大，表示修复结果失真越小，图像质量越好。

SSIM主要关注边缘和纹理相似性来模仿人类感知，对于两张图像x和y，SSIM的计算公式为：

式中

为图像/>

的均值；/>

为图像/>

的方差；

为图像/>

的协方差；/>

为两个常数。SSIM数值在0到1之间，SSIM越大，表示两图像之间差异越小。

MAE表示修复图像和原始图像像素值之间绝对误差的平均值，对于两张图像x和y，其计算公式为

式中，

表示图像所有像素点的个数。MAE越小，表示两个图像之间的差异越小。

表3展示了在图像质量上得定量实验的比较结果。结果表明，本实施例相较于其他方法，具有良好的图像质量。

除了图像质量指标外，本实施例还采用文本识别指标来展示文本的修复效果。本实施例选择ASTER和MORAN识别器，载入了官方预训练的模型，使用文本识别准确率和字符识别精度作为评价指标，比较结果如表4所示。文本识别准确率计算公式为：

其中，

表示全部识别正确的文本图像的数量，/>

表示总测试文本图像的数量。

字符识别准确率（Character Accuracy，C.Acc）计算公式为:

式中，

表示识别出的文本字符串和真实文本字符串之间的莱温斯坦距离(Levenshtein Distance)，其定义为将一个字符串变换为另一个字符串所需删除、插入、替换操作的次数。/>

表示真实文本的字符长度。

由表4中数据可以看出，本实施例在每个识别器上都优于其他对比方法。表明本实施例可以有效地修复文本图像中的文字笔画，使得修复后的文本图像拥有正确的语义。

本实施例提出了一种两阶段的文本图像修复模型，用于更好地解决文本图像修复的问题。该模型从文本图像的特征以及文本图像修复的目的出发，针对现有图像修复模型在文本图像修复方面的不足，借鉴现有图像修复模型的思想，提出了先进行结构先验重建，然后在先验指导下通过门控融合注意力模块充分利用文本先验特征进行文本图像修复的方法，同时结合文本感知损失使得模型能够关注文字本身，有效修复缺损的文本图像，在英文数据集上的修复结果表明，本实施例得到的修复图像的人类主观视觉效果和客观的图像质量评价指标以及OCR识别结果等都比其他模型更好。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于结构注意和文本感知的文本图像修复模型，其特征在于，包括结构先验重建网络和生成网络，所述结构先验重建网络包括依次设置的第一CNN编码器、仅解码器的Transformer及第一CNN解码器，所述第一CNN编码器用于输入待修复文本图像并对文本图像下采样，在每个空间位置对特征增加一个可学习的绝对位置嵌入；所述仅解码器的Transformer包括多层叠加的Transformer模块，所述仅解码器的Transformer用于重建第一CNN编码器输出图像的边缘和文本骨架图像；所述第一CNN解码器用于将仅解码器的Transformer输出图像进行上采样使输出图像达到输入待修复文本图像大小，得到先验图像；其中，所述第一CNN编码器输入的图像为以损坏的图像、掩码、损坏的边缘及损坏的文本骨架图像拼接的图像；

所述生成网络采用具有跳跃连接的编码器-解码器结构，其包括第二CNN编码器、第三CNN编码器、轻量门控融合模块、带自注意力的门控融合模块、残差模块、SE模块及第二CNN解码器，所述第二CNN编码器与第三CNN编码器共享权重，所述第二CNN编码器用于输入第一CNN解码器输出的先验图像并对先验图像下采样，所述第三CNN编码器用于输入损坏的图像并对损坏的图像下采样，所述轻量门控融合模块用于融合跳跃连接传递的多尺度的特征中第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征；所述带自注意力的门控融合模块用于获取第三CNN编码器最后一层编码层包含高级语义信息的纹理特征，采用自注意力机制对纹理特征的长期依赖关系进行建模以获取全局上下文特征，再获取第二CNN编码器最后一层编码层输出的先验特征与采用自注意力机制处理后的纹理特征融合,所述带自注意力的门控融合模块进行特征融合后将融合后特征依次经残差模块和SE模块输入第二CNN解码器；所述第二CNN解码器对输入SE模块后得到的输出特征进行上采样，在上采样阶段将轻量门控融合模块融合后特征在通道维度拼接起来以补充上采样阶段丢失的空间信息，然后输出修复后文本图像。

2.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述第一CNN编码器和第一CNN解码器均包括四个依次设置的卷积模块。

3.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述第二CNN编码器、第三CNN编码器及第二CNN解码器均包括四个依次设置的卷积模块，所述轻量门控融合模块的数量为三个，三个所述的轻量门控融合模块分别融合第二CNN编码器和第三CNN编码器两者前三个卷积模块的特征并分别输出至第二CNN解码器后三个卷积模块。

4.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述轻量门控融合模块包括Relu层、sigmod函数层及三个1×1卷积层，轻量门控融合模块输入的第二CNN编码器生成的先验特征和第三CNN编码器生成的图像纹理特征分别经一个1×1卷积层后进行矩阵相加进行融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，得到的权重特征再与轻量门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。

5.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述带自注意力的门控融合模块包括Relu层、sigmod函数层及六个1×1卷积层，带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征复制三份，其中两份图像纹理特征分别经过1×1卷积层后进行矩阵相乘实现相似度计算，再采用softmax函数归一化权重后得到注意力图，注意力图特征与另一份经过1×1卷积层处理的第三CNN编码器生成的图像纹理特征进行矩阵相乘，再次经过1×1卷积层处理后与带自注意力的门控融合模块输入的经过一个1×1卷积层处理的第二CNN编码器生成的先验特征进行矩阵相加进行特征融合，融合后特征再依次经Relu层、1×1卷积层及sigmod函数层处理，然后再与带自注意力的门控融合模块输入的第三CNN编码器生成的图像纹理特征进行矩阵相乘实现再次融合后再输出融合后特征。

6.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述Transformer模块包括多头自注意力层、全连接层及两个层归一化层，所述Transformer模块输入图像经依次经一个层归一化层和多头自注意力层处理后，再与Transformer模块输入图像进行第一次矩阵相加，第一次矩阵相加后图像依次经另一个层归一化层和全连接层处理后，然后再与第一次矩阵相加后图像进行矩阵相加后输出。

7.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述结构先验重建网络在训练时采用二值交叉熵损失优化边缘图像的重建，采用二值交叉熵损失和骰子损失来优化骨架图像的重建，总损失L ₁表述为:

式中，

表示文本骨架图像的二分类交叉熵损失，/>

表示边缘图像的二分类交叉熵损失，/>

表示文本骨架图像的骰子损失,/>

为平衡系数。

8.根据权利要求1所述的基于结构注意和文本感知的文本图像修复模型，其特征在于，所述文本图像修复模型在文本图像修复过程中采用重建损失、感知损失、风格损失、对抗损失及文本感知损失进行图像修复联合监督，所述文本感知损失包括文本梯度先验损失和文本先验损失，所述文本梯度先验损失采用L1范数来约束修复后的文本图像的梯度场与原始图像梯度场差异，文本梯度先验损失