CN116051686A

CN116051686A - 图上文字擦除方法、系统、设备及存储介质

Info

Publication number: CN116051686A
Application number: CN202310068849.1A
Authority: CN
Inventors: 连德富; 葛铁铮; 陈恩红; 蒋刚玮; 王诗瑶; 周敏; 姜宇宁
Original assignee: University of Science and Technology of China USTC; Alibaba China Co Ltd
Current assignee: University of Science and Technology of China USTC; Alibaba China Co Ltd
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-05-02
Anticipated expiration: 2043-01-13
Also published as: CN116051686B

Abstract

本发明公开了一种图上文字擦除方法、系统、设备及存储介质，采用了无监督特征抽取、预训练、任务特定的自监督下游训练方法，消除了文字擦除模型对于标注数据的需求，它低成本且高效的模拟图像分布，并在下游训练的过程中提高对文字位置与样式的感知，自适应地优化文字擦除模型的效果，同时该方法有效的建模了图像中的结构与纹理信息，能够恢复得到更加清晰的图像。在不依赖标注数据的情况下，本发明为各类场景的图像提供低迁移成本的文字擦除能力。

Description

图上文字擦除方法、系统、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图上文字擦除方法、系统、设备及存储介质。

背景技术

文字擦除方案负责擦除图像(原始素材)中的文字，得到擦除文字后的图像可以作为素材图像进行二次加工。目前字擦除方案是利用计算机视觉技术将原始素材中不美观、不吸引用户的文字部分擦除(例如常见的“牛皮癣”)，从而支持后续的二次加工，例如，图像上文案改写、布局生成等。

以往的文字擦除方案使用大量擦除前后的标注样本进行模型训练，这些标注样本通常是一个二元组(x,y)，其中x是待擦除图像，y是擦除文字后的标签图像。以往的技术围绕这种有监督文字擦除的框架进行了一定的研究，它们尝试通过各种深度神经网络来有效建模输入输出(输入为待擦除图像，输出擦除文字后的图像)之间的关系，来达到最终目标。其中基于对抗生成网络的技术取得了一定的成功，能够一定程度上擦除图上文字。然而，当面临大规模且多样的创意图片时，这种方法的效率是及其低下的，且对数据的标注需要高昂的代价。

发明内容

本发明的目的是提供一种图上文字擦除方法、系统、设备及存储介质，采用了无监督特征抽取、预训练、任务特定的自监督下游训练方法，大大提升了文字擦除的效率，降低了文字擦除的成本

本发明的目的是通过以下技术方案实现的：

一种图上文字擦除方法，包括：

构建文字擦除模型，包含变分自动编码器与Transformer模型；

训练阶段包括初步训练与微调训练；初步训练时：对输入的原始图像进行掩码操作，获得掩码图像，将掩码图片作为文字擦除模型的输入图像，原始图片作为监督信号，对文字擦除模型的输出图像进行监督；微调训练时：通过渲染函数在原始图像上生成文字，获得带有文字的图像，将原始图像作为标签图像，将所述带有文字的图像输入至变分自动编码器进行特征提取，获得量化特征，并输入至初步训练后的Transformer模型的解码层预测量化特征的类别，对应于擦除文字后的图像的特征类别，根据特征类别在码本中提取相应的量化特征再输入至变分自动编码器，通过变分自动编码器中的解码器获得擦除文字后的图像，并根据擦除文字后的图像与原始图像构建第二训练损失，对所述初步训练后的Transformer模型进行微调训练，其中，所述码本为变分自动编码器中的编码器获得量化特征时使用的码本；变分自动编码器与微调训练后的Transformer模型称为训练后的文字擦除模型；

将待擦除图像输入至所述训练后的文字擦除模型，获得擦除文字后的图像。

一种图上文字擦除系统，包括：

模型构建单元，用于构建文字擦除模型，包含变分自动编码器与Transformer模型；

模型训练单元，用于训练所述文字擦除模型；训练阶段包括初步训练与微调训练；初步训练时：对输入的原始图像进行掩码操作，获得掩码图像，将掩码图片作为文字擦除模型的输入图像，原始图片作为监督信号，对文字擦除模型的输出图像进行监督；微调训练时：通过渲染函数在原始图像上生成文字，获得带有文字的图像，将原始图像作为标签图像，将所述带有文字的图像输入至变分自动编码器进行特征提取，获得量化特征，并输入至初步训练后的Transformer模型的解码层预测量化特征的类别，对应于擦除文字后的图像的特征类别，根据特征类别在码本中提取相应的量化特征再输入至变分自动编码器，通过变分自动编码器中的解码器获得擦除文字后的图像，并根据擦除文字后的图像与原始图像构建第二训练损失，对所述初步训练后的Transformer模型进行微调训练，其中，所述码本为变分自动编码器中的编码器获得量化特征时使用的码本；变分自动编码器与微调训练后的Transformer模型称为训练后的文字擦除模型；

文字擦除单元，用于将待擦除图像输入至所述训练后的文字擦除模型，获得擦除文字后的图像。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，采用了无监督特征抽取、预训练、任务特定的自监督下游训练方法，消除了文字擦除模型对于标注数据的需求，它低成本且高效的模拟图像分布，并在下游训练的过程中提高对文字位置与样式的感知，自适应地优化文字擦除模型的效果，同时该方法有效的建模了图像中的结构与纹理信息，能够恢复得到更加清晰的图像。在不依赖标注数据的情况下，本发明为各类场景的图像提供低迁移成本的文字擦除能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种图上文字擦除方法的流程图；

图2为本发明实施例提供的变分自动编码器的处理流程图；

图3为本发明实施例提供的文字擦除模型的示意图；

图4为本发明实施例提供的一种图上文字擦除系统的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种图上文字擦除方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种图上文字擦除方法，利用大规模无标注数据学习高质量特征表示，结合额外设置的自监督下游任务，可以有效的获取文字擦除能力。本发明在检测文字位置与恢复图片纹理的过程中，表现出了极高的性能，能够广泛服务于各类场景中的图上文字擦除。

如图1所示，本发明提供的上述方案主要包括如下步骤：

步骤1、构建文字擦除模型。

本发明实施例中，所述文字擦除模型主要包括：变分自动编码器与Transformer模型。

本发明实施例中，所述变分自动编码器可以采用VQVAE模型实现，VQVAE模型结合了矢量量化(VQ)的思想，其编码器输出离散而非连续的特征表示；并且先验(即后文所述的码本)是学习的而不是静态的。通过将特征表示与自回归先验配对，变分自动编码器可以在无监督学习的范式下，生成高质量的图像、视频和语音，并提取高质量的数据特征，以便于后续步骤中transformer模型处理。

本领域技术人员可以理解，码本是由特征表示的聚类中心组成。

本发明实施例中，可以通过欧氏距离的远近将特征表示与自回归先验配对，特征表示与距离其最近的聚类中心为一对。

如图2所示，为变分自动编码器的处理流程图，主要包括：将无标签图像输入至变分自动编码器，通过变分自动编码器中的编码器进行离散化，然后通过码本进行量化，获得量化特征，随后得量化特征经过变分自动编码器中的解码器获得恢复图像。变分自动编码器需要预先进行训练，训练时使用无标签图像作为训练数据，无标签图像可以从网络端收集；训练方式如下：使用前述介绍的处理流程，获得恢复图像，之后，根据恢复图像与无标签图像构建损失(例如，可使用均方误差损失)，训练所述变分自动编码器，直至收敛。利用训练结束的变分自动编码器，能到得到图像的高质量的量化特征。

本发明实施例中，码本是由特征表示的聚类中心组成，量化特征是通过码本对离散化特征进行量化得到的，量化过程中也会产生特征对应的聚类中心，该聚类中心的编号即为量化特征对应的类别，量化特征对应的类别将在后文训练过程中使用。

本发明实施例中，通过所述Transformer模型对图像中的结构与纹理信息进行建模，以便这些通用的知识帮助后续文字擦除任务的完成。所述Transformer模型为预训练模型，其中的编码层与解码层均为多个Transformer层堆叠而成，二者共同协作完成对图像中的结构与纹理信息进行建模。示例性的，编码层与解码层均可以使用六层Transformer层堆叠而成，Transformer层的参数均使用预训练参数初始化，所述的预训练模型是指目前已经利用数据集进行训练获得的模型，预训练参数即为预训练后的模型参数。

步骤2、模型训练。

本发明实施例中，训练阶段包括初步训练与微调训练。

1)初步训练。

如图3所示，为文字擦除模型的示意图。本发明实施例中，所述初步训练使用一种结合掩码恢复与下一个项目预测的预训练任务进行训练；对输入的原始图像进行掩码操作时，通过遮盖原始图像的一部分像素区域生成掩码图像，用于后续的恢复任务，即将掩码图片作为文字擦除模型的输入，原始图片作为监督信号，对文字擦除模型的输出图像进行监督，以此初步训练文字擦除模型(具体为训练Transformer模型)；Transformer模型中的编码层通过之前所有位置的向量预测之后的一个位置的向量，Transformer模型中的解码层采用了teaching forcing(强迫教学)的训练机制，将完整的量化特征(即整个掩码图像的量化特征)一次性输入解码层。具体流程如下：

对输入的原始图像进行掩码操作，获得掩码图像，将原始图像与掩码图像分别输入至变分自动编码器进行特征提取，通过变分自动编码器中的编码器获得各自的量化特征，并输入至Transformer模型；所述Transformer模型包含编码层与解码层，所述编码层的输入为掩码图像的量化特征，输出掩码图像的特征，包含掩码图像的结构信息与纹理信息，所述解码层的输入为原始图像的量化特征，以及所述掩码图像的特征，输出预测的原始图像量化特征类别；根据预测的原始图像量化特征类别与所述原始图像的量化特征的真实类别构建第一训练损失(例如，交叉熵损失)，对所述Transformer模型进行初步训练。此处真实类别也是通过变分自编码器获得，但是，如之前所述，解码层采用了teaching forcing，因此，可以避免模型提前获取已知信息。

本发明实施例中，通过所述变分自动编码器进行特征提取获取量化特征后，在所述量化特征中加入位置编码与模式编码，再对应的输入至所述Transformer模型的编码层与解码层；其中，位置编码与模式编码即为特征位置(表示对应图片的具体区域)以及训练模式(如训练任务的差异)赋予可训练的嵌入向量，分别加到得到的量化特征向量上，得到最终的模型输入。

本发明实施例中，利用第一损失函数优化Transformer模型中的参数，直至收敛，完成初步训练。

2)微调训练时。

在初步训练的基础上，引入任务特定的自监督下游训练方式，即使用擦除任务相关的自监督下游任务来帮助模型的微调，具体的：通过渲染函数在原始图像上生成文字，获得带有文字的图像，将原始图像作为标签图像，将所述带有文字的图像输入至变分自动编码器进行特征提取，通过变分自动编码器中的编码器获得量化特征，并输入至初步训练后的Transformer模型的解码层预测量化特征的类别，对应于擦除文字后的图像的特征类别，根据特征类别在码本中提取相应的量化特征再输入至变分自动编码器，通过变分自动编码器中的解码器获得擦除文字后的图像，并根据擦除文字后的图像与原始图像构建第二训练损失(例如，可以使用均方误差损失)，对所述初步训练后的Transformer模型进行微调训练，其中，所述码本为变分自动编码器中的编码器获得量化特征时使用的码本；变分自动编码器与微调训练后的Transformer模型称为训练后的文字擦除模型。

本发明实施例中，所述通过渲染函数在原始图像上生成文字，获得带有文字的图像包括：通过渲染函数生成文本，再将文本粘贴至原始图像上无文字的区域，获得带有文字的图像；其中，通过渲染函数生成文本包括：使用最大稳定极值区域(MSER)技术从原始图像中包含文字的原始区域提取文本像素，作为生成文本；或者，通过设定字体、文本大小、文本颜色和艺术形式来选择具体的合成文本风格，并最后通过python工具渲染生成文本。

步骤3、图上文字擦除。

本发明实施例中，将待擦除图像输入至所述训练后的文字擦除模型，获得擦除文字后的图像；此部分流程与前述微调训练流程相同，即：待擦除图像经变分自动编码器进行特征提取，通过变分自动编码器中的编码器获得量化特征，再通过训练后的Transformer模型的解码层预测擦除文字后的图像的特征类别，根据预测出的特征类别在码本中提取相应的量化特征，将提取的量化特征输入至变分自动编码器，通过变分自动编码器中的解码器获得擦除文字后的图像。

优选的，考虑到大多数场景下，可以花费较小的代价获得一批少量的有标签擦除数据集，因此，可以进一步利用少量的有标签的擦除数据集，提高文字擦除模型在真实场景中的处理能力。因而，可以根据具体的应用场景，收集少量(即数目不超过阈值)带有标签的擦除数据集，例如，收集30～100个，利用擦除数据集对所述训练后的文字擦除模型进行微调，此阶段中仅需要根据标签图像进行模型微调，此部分微调与前述微调训练的工作流程相同，并设计验证集(带有标签的擦除图像数据)进行模型的早停，防止模型发生过拟合。其中，带有标签的擦除数据集中每一样本为待擦除图像与擦除文字后的标签图像构成的图像对；再将相应应用场景下的待擦除图像输入至微调后的文字擦除模型，获得相应应用场景下的擦除文字后的图像。

本领域技术人员可以理解，微调属于本领域专用术语，它表示在在已训练的基础上进行训练。

此外，需要说明的是，附图2～图3中展示的原始图像仅为举例，且考虑隐私问题原始图像文字部分也做了模糊处理，但并不影响本发明技术方案的理解与实现。

本发明实施例提供的上述方案，采用了无监督特征抽取、预训练、任务特定的自监督下游训练方法，消除了文字擦除模型对于标注数据的需求，它低成本且高效的模拟图像分布，并在下游训练的过程中提高对文字位置与样式的感知，自适应地优化文字擦除模型的效果，同时该方法有效的建模了图像中的结构与纹理信息(隐式的包含在transformer模型的学习过程之中)，能够恢复得到更加清晰的图像。在不依赖标注数据的情况下，本发明为各类场景的图像提供低迁移成本的文字擦除能力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种图上文字擦除系统，其主要基于前述实施例提供的方法实现，如图4所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种图上文字擦除方法，其特征在于，包括：

构建文字擦除模型，包含变分自动编码器与Transformer模型；

2.根据权利要求1所述的一种图上文字擦除方法，其特征在于，所述变分自动编码器预先进行了训练，训练时使用无标签图像作为训练数据；训练方式如下：

将无标签图像输入至变分自动编码器，通过变分自动编码器中的编码器进行离散化，然后通过码本进行量化，获得量化特征，量化特征经过变分自动编码器中的解码器获得恢复图像；根据恢复图像与无标签图像构建损失，训练所述变分自动编码器。

3.根据权利要求1所述的一种图上文字擦除方法，其特征在于，所述Transformer模型为预训练模型，其中的编码层与解码层均为多个Transformer层堆叠而成。

4.根据权利要求1所述的一种图上文字擦除方法，其特征在于，该方法还包括：通过所述变分自动编码器进行特征提取获取量化特征后，在所述量化特征中加入位置编码与模式编码后，再对应的输入至所述Transformer模型的编码层与解码层。

5.根据权利要求1所述的一种图上文字擦除方法，其特征在于，初步训练的流程包括：

将原始图像与掩码图像分别输入至变分自动编码器进行特征提取，获得各自的量化特征，并输入至Transformer模型；所述Transformer模型包含编码层与解码层，所述编码层的输入为掩码图像的量化特征，输出掩码图像的特征，掩码图像的特征包含掩码图像的结构信息与纹理信息，所述解码层的输入为原始图像的量化特征，以及所述掩码图像的特征，输出预测的原始图像量化特征类别；根据预测的原始图像量化特征类别与所述原始图像的量化特征的真实类别构建第一训练损失，对所述Transformer模型进行初步训练。

6.根据权利要求1所述的一种图上文字擦除方法，其特征在于，所述通过渲染函数在原始图像上生成文字，获得带有文字的图像包括：

通过渲染函数生成文本，再将文本粘贴至原始图像上无文字的区域，获得带有文字的图像；

其中，通过渲染函数生成文本包括：

使用最大稳定极值区域技术从原始图像中包含文字的原始区域提取文本像素，作为生成文本；

或者，通过设定字体、文本大小、文本颜色和艺术形式来选择具体的合成文本风格，并最后通过python工具渲染生成文本。

7.根据权利要求1所述的一种图上文字擦除方法，其特征在于，该方法还包括：根据应用场景，收集带有标签的擦除数据集，利用擦除数据集对所述训练后的文字擦除模型进行微调；其中，带有标签的擦除数据集中每一样本为待擦除图像与擦除文字后的标签图像构成的图像对；再将相应应用场景下的待擦除图像输入至微调后的文字擦除模型，获得相应应用场景下的擦除文字后的图像。

8.一种图上文字擦除系统，其特征在于，基于权利要求1～7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。