CN116012835A

CN116012835A - 一种基于文本分割的两阶段场景文本擦除方法

Info

Publication number: CN116012835A
Application number: CN202310138579.7A
Authority: CN
Inventors: 张国栋; 赖沁玲
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-04-25

Abstract

本发明公开了一种基于文本分割的两阶段场景文本擦除方法，方法包括以下步骤：构建数据集：将现有的文本分割数据集和场景文本擦除数据集整理并收集；场景文本分割：利用训练好的多尺度注意力文本分割网络对场景文本进行分割，从而得到文本图像；场景文本擦除：利用训练好的文本擦除网络进行场景文本擦除，生成真实的无文本图像。本发明采用两阶段的训练方法，可以有效的擦除场景文本图像中的文字，并且可以选择性擦除文本，可应用于图像隐私保护、去除水印、场景文本编辑等多领域，提供更加真实的背景图像。

Description

一种基于文本分割的两阶段场景文本擦除方法

技术领域

本发明属于图像处理技术与人工智能领域，尤其是一种基于文本分割的两阶段场景文本擦除方法。

背景技术

场景文本是我们生活中不可或缺的一部分，不论是在现实生活中还是在虚拟世界中，它们都与人们的生活、生产密切相关。除了公共信息，如新闻、报纸、招聘广告等外，场景文本还包含大量的私人或敏感信息，比如交易记录、通信内容、征信信息、账号密码、财产信息以及行踪轨迹等。保护个人隐私免受不法分子的侵害是非常重要的，它直接关系到个人的生命和财产安全。目前，最常见的保护隐私的方法是直接删除图像文字中的敏感信息，但这需要大量的人工成本。随着人工智能的发展，基于深度学习的自然场景文本擦除已成为一个新兴的研究领域。

文本擦除的过程类似于图像修复，但它的难度却更大。这是因为，文本擦除不仅需要重新填充文本区域，同时也需要保护非文本区域，防止非文本区域被误判为文本区域并被擦除。因此，文本擦除比图像修复更为复杂。

近年来，基于深度学习的自然场景文本擦除方法主要可以分为一阶段方法和两阶段方法。

一阶段文本擦除方法使用端到端技术，即用一个网络框架完成任务。如Nakamura等人在《Scene text eraser》中提出了一种基于单尺度滑动窗口的神经网络，使用图像变换快速处理图像裁剪，保留非文本区域。Liu等人在《EraseNet:End-to-end text removalin the wild》中将文本检测网络和背景修复网络并行训练，通过引入从粗到精的体系结构和额外的分割头来帮助定位文本，提出了EraseNet。但一阶段方法并没有很好的区分文本区域和非文本区域，存在擦除非文本区域的问题。

两阶段的方法是将文字检测和背景修复作为上下游任务。首先检测图像中的文本区域，然后将文本区域的掩码输入到背景修复网络中进行修复。如Tursun等人在《MTRNet:AGeneric Scene Text Eraser》提出MTRNet，利用人工提供的文本掩码改进检测网络定位文本，实现可控文本擦除。Tang等人在《Stroke-based scene text erasing usingsynthetic data fortraining》提出预测单词图像上的文字笔画，然后将笔画和图像都输入到图像修复网络，生成无文本图像。但依旧存在文字检测不准确的问题，且如果是矩形文文本掩码，依然存在擦除部分非文本区域的问题。

自然场景文本图像往往存在字体多变、文本方向随意或背景复杂等问题，现有方法难以准确识别文本区域和非文本区域，影响擦除效果。并且，准确获取对应的文本掩码也是一项艰巨的挑战，如果不能获取非常完整的文本掩码，可能导致相反的效果。因此，本发明提出了一种基于文本分割的两阶段场景文本擦除方法，以解决现有技术中的不足之处。

发明内容

本发明的首要目的是提供一种基于文本分割的两阶段场景文本擦除方法，该方法利用文本分割得到的文本掩码，利用文本掩码可以有效的擦除场景文本图像中的文字，并且可以选择性擦除文本，可应用于图像隐私保护、去除水印、场景文本编辑等多领域，提供更加真实的背景图像。

基于此，本发明是按如下方式实现的：

一种基于文本分割的两阶段场景文本擦除方法，包括步骤如下：

构建数据集：将现有的文本分割数据集和场景文本擦除数据集整理并收集，并为场景文本擦除数据集人工标注出精确的文本掩码，利用这些文本掩码，通过场景文本大小编辑技术，合成更多的含有不同尺寸文本的自然场景图像；

场景文本分割：构建一个多尺度注意力文本分割网络，将训练集预处理后输入到多尺度注意力文本分割网络中进行训练，利用训练好的多尺度注意力文本分割网络对场景文本进行分割，从而得到文本图像；

场景文本擦除：构建一个基于生成式对抗网络的文本擦除网络，将标注好的含有文本掩码的场景文本擦除数据集输入到文本擦除网络中训练，最后，利用训练好的文本擦除网络进行场景文本擦除，生成真实的无文本图像。

本发明是个两阶段方法，构建数据集是网络训练的前提准备，且多尺度注意力文本分割网络和文本擦除网络是分开训练的。训练完成后，先将一张自然场景文本图片输入到全多尺度注意力文本分割网络模型中，得到的输出是分理出的文本图像，之后将该图像和自然场景文本图片一起传入文本擦除网络的生成器网络中，生成器网络的输出即为最后的预测结果。

进一步的改进在于，数据集具体通过如下方法构建：收集并整理目前已有的文本分割数据集和场景文本擦除数据集，使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码。

进一步，收集含有不多纹理的背景图像，利用已有的文字掩码，使用OPenCV和图像合成方法，合成更多的多尺寸文本的自然场景文本图像，以增加背景和文字多样性；

更进一步，将数据集划分为训练集、验证集和测试集，并对训练集进行预处理操作，随机选取训练数据集的图像对，对图像对进行变换操作，变换操作包括旋转、放大和缩小。

进一步的改进在于，场景文本分割阶段，多尺度注意力文本分割网络由三个主要模块组成，具体为文本信息增强模块、文本分割模块、双感知解码器，整体结构是基于经典编码器-解码器结构进行设计的，它的输入是一张自然场景文本图片。

进一步，文本信息增强模块引入了更高层次的文本语义信息，并提供文本注意力图作为先验知识，以促进文本识别，通过使模型更多地关注图像中的文本区域而不是背景，不仅可以减少背景中类似纹理对文本分割的干扰，还可以减少网络的计算量。

进一步，在特征编码阶段，所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模，它赋予全局文本同等的关注权重，以重新激活那些具有罕见纹理的文本，因为它们与主导文本有很强的语义关联，此外，它还适应不规则的多尺度场景文本，以消除背景噪声的干扰，从而捕获更有效的局部特征。

更进一步，在解码阶段，像素聚合到特定类别中是通过上采样过程实现的，然而，深度特征图的微小偏差可能导致文本分割结果不准确或扭曲，特别是在具有复杂形状的场景文本上，为了解决这个问题，我们提出了一种双感知解码器，它的参数可以动态调整以适应空间和信道内容。

进一步的改进在于，多尺度注意力文本分割网络的总损失函数由三个损失函数组成，具体如公式(1)所示：

L_final＝L_sem+αL_tri+βL_tv (1)

其中，α，β表示各个损失函数的权重；

输入到网络中训练的图像为x，经过网络提取特征，并且经过激活函数得到每个像素点对应每个类别的概率即为预测分割图x_sem，预测分割图由真实分割图x_gt进行监督，得到交叉熵损失函数，具体如公式(2)所示

L_sem＝CrossEntropy(x_sem，x_gt) (2)

与其他分割任务不同的是，文字边缘边界对文本分割的效果十分重要，所以这里L_tri表示用文字边缘边界来做一个加权的交叉熵损失，可以进一步提高文本精度。WCE操作是以w为权重的x和y之间的交叉嫡损失，w_tri为图片中文字边界区域的二进制映射值，在文本边界上w_tri＝1，否则为0。

L_tri＝WCE(x_out，x_gt，w_tri) (3)

此外，考虑到文本风格的多样性，多语言文本有很多复杂的笔画，我们加入了L_tv损失来抑制背景噪声，使分割结果中的文本笔划连贯和平滑，具体如公式(5)所示：

进一步的改进在于，文本擦除网络是一种基于生成对抗网络技术构建的模型，由一个生成器和一个鉴别器组成。

进一步，该生成器利用AOT块聚集多尺度上下文特征，以提高对远距离特征和丰富结构细节的捕捉能力，而鉴别器利用Soft Mask-Guided PatchGAN，使其能够更好地识别生成的部分和原图片的部分，同时也有助于生成器合成细粒度纹理。

更进一步，AOT块采用了拆分转换聚合三个步骤的策略，与标准的残差块相比，没有引入额外的模型参数和计算成本。

进一步的改进在于，文本擦除网络的损失由四部分组成，即重建损失、风格损失、感知损失和提议的SM-PatchGAN的对抗性损失，具体如公式(6)所示：

其中，λ_rec，λ_sty，λ_per，λ_adv表示各个损失函数的权重；

重建损失就是直接计算通过网络生成的图片x与真实图片的像素误差，具体如公式(7)所示：

L_rec＝||x-G(x⊙(1-m)，m)||₁ (7)

风格损失是计算通过网络生成的图片x与真实图片的SSIM，感知损失计算通过网络生成的图片x与真实图片经过在ImageNet上预训练的VGG19模型输出的各层特征图的L1损失，公式如下所示：

提议的SM-PatchGAN的对抗性损失采用的最小二乘损失，具体如公式(10)所示:

本发明的有益效果为：通过扩充数据集后，多尺度注意力文本分割网络可以准确的分割多语言，含有不同尺度大小的场景文本图像，利用分割出的文本图像，文本擦除网络可以生成更加真实的高分辨率的非文本图像预测，且可以擦除选定的文本，同时，本发明的方法简单方便，具有很强的实用性。

附图说明

图1是本发明方法训练的流程示意图。

图2是本发明方法测试的流程示意图。

图3是本发明文本分割网络的流程示意图。

图4是本发明文本擦除网络的流程示意图。

图5是本发明AOT块的流程示意图。

具体实施方式

为了使人们更容易理解本发明的技术手段、目的与效果，下面将通过具体实施方式加以说明。

图1和图2给出了本实施例的训练和测试流程示意图，提出了一种基于文本分割的两阶段场景文本擦除方法，包括以下步骤：

构建数据集的具体方式如下：

收集并整理目前已有的文本分割数据集和场景文本擦除数据集，如TextSeg、TextLogo3K、ICDAR2013，使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码。

进一步，收集含有不多纹理的背景图像，利用已有的文字掩码，使用OPenCV和图像合成方法，合成更多的多尺寸文本的自然场景文本图像，以增加背景和文字多样性。

将数据集划分为训练集、验证集和测试集，并对训练集进行预处理操作，随机选取训练数据集的图像对，对图像对进行变换操作，变换操作包括旋转、放大和缩小。

训练集用于训练文本分割网络和文本擦除网络，验证集用于评估表现，调整模型的超参数，最后测试集对模型进行最终评估。

图3是本发明文本分割网络的流程示意图，它的输入是一张自然场景文本图片，输出是分割出的文本图像。

多尺度注意力文本分割网络由三个主要模块组成，具体为文本信息增强模块、文本分割模块、双感知解码器，整体结构是基于经典编码器-解码器结构进行设计的。

文本信息增强模块引入了更高层次的文本语义信息，并提供文本注意力图作为先验知识，以促进文本识别，通过使模型更多地关注图像中的文本区域而不是背景，不仅可以减少背景中类似纹理对文本分割的干扰，还可以减少网络的计算量。

在特征编码阶段，所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模，它赋予全局文本同等的关注权重，以重新激活那些具有罕见纹理的文本，因为它们与主导文本有很强的语义关联，此外，它还适应不规则的多尺度场景文本，以消除背景噪声的干扰，从而捕获更有效的局部特征。

在解码阶段，像素聚合到特定类别中是通过上采样过程实现的，然而，深度特征图的微小偏差可能导致文本分割结果不准确或扭曲，特别是在具有复杂形状的场景文本上，为了解决这个问题，我们提出了一种双感知解码器，它的参数可以动态调整以适应空间和信道内容。

多尺度注意力文本分割网络的总损失函数由三个损失函数组成，具体如公式(1)所示：

L_final＝L_sem+αL_tri+βL_tv (1)

其中，α，β表示各个损失函数的权重。

L_sem＝CrossEntropy(x_sem，x_gt) (2)

L_tri＝WCE(x_out，x_gt，w_tri) (3)

使用梯度下降算法进行优化。

图4是本发明文本擦除网络的流程示意图，它的输入是场景文本图像和文本掩码，输出是生成的无文本场景文本图像。

文本擦除网络是一种基于生成对抗网络技术构建的模型，由一个生成器和一个鉴别器组成。

该生成器利用AOT块聚集多尺度上下文特征，以提高对远距离特征和丰富结构细节的捕捉能力，而鉴别器利用Soft Mask-Guided PatchGAN，使其能够更好地识别生成的部分和原图片的部分，同时也有助于生成器合成细粒度纹理。

图5是本发明AOT块的流程示意图，AOT块采用了拆分转换聚合三个步骤的策略，与标准的残差块相比，没有引入额外的模型参数和计算成本。

文本擦除网络的损失由四部分组成，即重建损失、风格损失、感知损失和提议的SM-PatchGAN的对抗性损失，具体如公式(6)所示：

其中，λ_rec，λ_sty，λ_per，λ_adv表示各个损失函数的权重；

L_rec＝||x-G(x⊙(1-m)，m)||₁ (7)

提议的SM-PatchGAN的对抗性损失采用的最小二乘损失，具体如公式(10)所示：

使用梯度下降算法进行优化。

本发明采用的是两阶段方法，可以生成更加真实的高分辨率的非文本图像预测，且可以擦除选定的文本，同时，实现方法简单方便，具有很强的实用性。

上述仅为本发明的最佳实现方式，不应视为对本发明的局限。任何在本发明精神和原则内的修改、替代和改进等应被视为在本发明保护范围内。

Claims

1.一种基于文本分割的两阶段场景文本擦除方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，数据集具体通过如下方法构建：

收集并整理目前已有的文本分割数据集和场景文本擦除数据集，使用LabelMe软件为场景文本擦除数据集人工标注准确的文字掩码；

收集含有不多纹理的背景图像，利用已有的文字掩码，使用OPenCV和图像合成方法，合成更多的多尺寸文本的自然场景文本图像，以增加背景和文字多样性；

3.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，多尺度注意力文本分割网络由三个主要模块组成，具体为文本信息增强模块、文本分割模块、双感知解码器，整体结构是基于经典编码器-解码器结构进行设计的，它的输入是一张自然场景文本图片。

4.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，文本信息增强模块引入了更高层次的文本语义信息，并提供文本注意力图作为先验知识，以促进文本识别，通过使模型更多地关注图像中的文本区域而不是背景，不仅可以减少背景中类似纹理对文本分割的干扰，还可以减少网络的计算量。

5.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，在特征编码阶段，所提出的文本分割模块被用来通过容纳全局和局部的特征对复杂的文本分割特征进行建模，它赋予全局文本同等的关注权重，以重新激活那些具有罕见纹理的文本，因为它们与主导文本有很强的语义关联，此外，它还适应不规则的多尺度场景文本，以消除背景噪声的干扰，从而捕获更有效的局部特征。

6.如权利要求3所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，在解码阶段，像素聚合到特定类别中是通过上采样过程实现的，然而，深度特征图的微小偏差可能导致文本分割结果不准确或扭曲，特别是在具有复杂形状的场景文本上，为了解决这个问题，我们提出了一种双感知解码器，它的参数可以动态调整以适应空间和信道内容。

7.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，多尺度注意力文本分割网络的总损失函数由三个损失函数组成，具体如公式(1)所示：

L_final＝L_sem+αL_tri+βL_tv (1)

其中，α，β表示各个损失函数的权重；

L_sem＝CrossEntropy(x_sem，x_gt) (2)

与其他分割任务不同的是，文字边缘边界对文本分割的效果十分重要，所以这里L_tri表示用文字边缘边界来做一个加权的交叉熵损失，进一步提高文本精度；WCE操作是以w为权重的x和y之间的交叉嫡损失，w_tri为图片中文字边界区域的二进制映射值，在文本边界上w_tri＝1，否则为0；

L_tri＝WCE(x_out，x_gt，w_tri) (3)

8.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，文本擦除网络是一种基于生成对抗网络技术构建的模型，由一个生成器和一个鉴别器组成；该生成器利用AOT块聚集多尺度上下文特征，以提高对远距离特征和丰富结构细节的捕捉能力；而鉴别器利用Soft Mask-Guided PatchGAN，使其能够更好地识别生成的部分和原图片的部分，同时也有助于生成器合成细粒度纹理。

9.如权利要求8所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，文本擦除网络的损失由四部分组成，即重建损失、风格损失、感知损失和提议的SM-PatchGAN的对抗性损失，具体如公式(6)所示：

其中，λ_rec，λ_sty，λ_per，λ_adv表示各个损失函数的权重；

L_rec＝||x-G(x⊙(1-m)，m)||₁ (7)

10.如权利要求1所述的一种基于文本分割的两阶段场景文本擦除方法，其特征在于，多尺度注意力文本分割网络和文本擦除网络是分开训练的，训练完成后，先将一张自然场景文本图片输入到全多尺度注意力文本分割网络模型中，得到的输出是分理出的文本图像，之后将该图像和自然场景文本图片一起传入文本擦除网络的生成器网络中，生成器网络的输出即为最后的预测结果。