CN115862030B

CN115862030B - 清除图像中文本的算法模型及其构建方法、装置及应用

Info

Publication number: CN115862030B
Application number: CN202310159965.4A
Authority: CN
Inventors: 李圣权; 王国梁; 陈娜华; 韩致远; 雷卓
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-16
Anticipated expiration: 2043-02-24
Also published as: CN115862030A

Abstract

本方案提出了一种清除图像中文本的算法模型及其构建方法、装置及应用，包括以下步骤：获取至少一待清除图像，将待清除图像输入到清除图像中文本的算法模型中；使用清除图像中文本的算法模型中的编码器对待输入图像进行编码得到编码特征，并将所述编码特征输入到解码器中；解码器对所述编码特征进行解码得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像，并将其输入到第二生成器中得到第一结果图像进行输出。本方案通过构建端到端的模型来准确定位图像中的文本区域，并通过反向传播对模型训练，使得模型可以准确去除图片中的文本。

Description

清除图像中文本的算法模型及其构建方法、装置及应用

技术领域

本申请涉及人工智能图像识别技术领域，尤其涉及一种清除图像中文本的算法模型及其构建方法、装置及应用。

背景技术

当前，图像中的文本识别技术被充分的运用到生活中和各行各业的实际生产活动中，但获取得到的图像往往会包含各种各样的敏感信息，如地址、手机号和其他的个人可识别信息，一些自动文本识别引擎可以收集这些信息从而造成隐私泄露，并且将泄露的信息用于营销、和身份盗窃等违法行为。

为了解决上述问题，需要一些文字擦除技术来对图片中的文字进行擦除，文字擦除是指擦除图像中的文字区域而不改变图像中其他区域的像素值，文字擦除技术现在被应用于很多领域，如隐私保护、自动驾驶、视力障碍者的支持系统、展览馆的信息提示系统和翻译系统，例如，翻译系统在进行图片翻译时要擦除一种语言（如英语）的文字后，再插入另一种语言（如中文）从而完成翻译。

然而，在图像中擦除文本是有难度的，这是因为图像中的文本通常没有边界线，且文本和背景并没有明显区别，很难利用边界线或背景颜色来检测文本区域，另外，如果图像是以倾斜的角度拍摄的，那么文本字符的重叠会使文本识别变得困难。

在现有技术中，识别文本并对其进行擦除需要一个多阶段结合的方法，比如CN115578403A，CN115578403A首先要确定文本的位置，然后使用一个分割的掩码来移除文本，然而CN115578403A的效果很大程度取决于其中确定文本位置的准确程度，此外，一些文本检测算法需要首先识别单个字符，然后将它们连接起来形成词，但是这些技术都需要先假定字符的大小是统一的，或者对文本位置做其他假设，所以现有技术对自然场景下的文字识别并不擅长。

综上所述，亟需一种对图像中的文本进行擦除的技术，且可以消除背景、纹理、格式、照明条件、字体和版面变化造成的影响。

发明内容

本申请方案提供一种清除图像中文本的算法模型的构建方法、装置及应用，可以通过端到端的算法模型准确定位图像中的文本区域，并对其去除得到去除文本后的图像。

第一方面，本申请提供一种清除图像中文本的算法模型的构建方法，包括：

获取至少一待清除图像，将所述待清除图像输入到清除图像中文本的算法模型中，所述清除图像中文本的算法模型包括第一生成器和第二生成器，所述第一生成器由编码器和解码器组成；

使用所述编码器对所述待清除图像进行特征提取得到编码特征，将所述编码特征输入到所述解码器中得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像；

所述解码器由多个相同的解码模块进行串联，每一解码模块由第一解码子模块、第二解码子模块、第三解码子模块和注意力模块组成，其中，所述第一解码子模块、第二解码子模块、第三解码子模块并联，将所述编码特征输入到第一解码子模块得到预测滤波图像，将所述编码特征输入到第二解码子模块得到预测分割图像，将所述编码特征输入到第三解码子模块得到预测无文本图像，所述注意力模块将预测滤波图像和预测分割图像进行连接，再与预测无文本图像相乘得到新的预测无文本图像，将预测滤波图像、预测分割图像和新的预测无文本图像输入到下一个解码模块中，最后一个解码模块的输出为最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和最终预测无文本图像进行连接后输入到第二生成器中，所述第二生成器根据所述最终预测分割图像和最终预测无文本图像生成结果图像；

所述第一生成器内引入第一鉴别器和第二鉴别器进行对抗学习，所述第二生成器内引入第三鉴别器和第四鉴别器进行对抗学习，计算所述清除图像中文本的算法模型的损失，其中所述损失包括第一生成器的损失和第二生成器的损失，当所述第一生成器和所述第二生成器的损失均小于第一设定阈值，完成模型训练得到训练好的清除图像中文本的算法模型。

第二方面，本申请提供一种清除图像中文本的方法，包括：

获取一待清除图像，将所述待清除图像输入到训练好的清除图像中文本的算法模型中；

清除图像中文本的算法模型第一生成器中的编码器对所述待清除图像进行编码得到编码特征，将所述编码特征输入到第一生成器中的解码器中进行解码；

所述解码器对所述编码特征进行解码得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和所述最终预测无文本图像进行连接后输入到第二生成器中，所述第二生成器根据所述最终预测分割图像和所述最终预测无文本图像生成第一结果图像，将所述第一结果图像进行输出。

第三方面，本申请提供一种清除图像中文本的算法模型的构建装置，包括：

获取模块：获取至少一待清除图像，将所述待清除图像输入到清除图像中文本的算法模型中，所述清除图像中文本的算法模型包括第一生成器和第二生成器，所述第一生成器由编码器和解码器组成；

编码模块：使用所述编码器对所述待清除图像进行特征提取得到编码特征，将所述编码特征输入到所述解码器中得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像；

解码模块：所述解码器由多个相同的解码模块进行串联，每一解码模块由第一解码子模块、第二解码子模块、第三解码子模块和注意力模块组成，其中，所述第一解码子模块、第二解码子模块、第三解码子模块并联，将所述编码特征输入到第一解码子模块得到预测滤波图像，将所述编码特征输入到第二解码子模块得到预测分割图像，将所述编码特征输入到第三解码子模块得到预测无文本图像，所述注意力模块将预测滤波图像和预测分割图像进行连接，再与预测无文本图像相乘得到新的预测无文本图像，将预测滤波图像、预测分割图像和新的预测无文本图像输入到下一个解码模块中，最后一个解码模块的输出为最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和最终预测无文本图像进行连接后输入到第二生成器中，所述第二生成器根据所述最终预测分割图像和最终预测无文本图像生成结果图像；

生成模块：所述第一生成器内引入第一鉴别器和第二鉴别器进行对抗学习，所述第二生成器内引入第三鉴别器和第四鉴别器进行对抗学习，计算所述清除图像中文本的算法模型的损失，其中所述损失包括第一生成器的损失和第二生成器的损失，当所述第一生成器和所述第二生成器的损失均小于第一设定阈值，完成模型训练得到训练好的清除图像中文本的算法模型。

第四方面，本申请提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种清除图像中文本的算法模型的构建方法或一种清除图像中文本的方法。

第五方面，本申请提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种清除图像中文本的算法模型的构建方法或一种清除图像中文本的方法。

相较现有技术，本技术方案具有以下特点和有益效果：

本方案在进行编码之前先将待清除图像转换成低纬度图像，这是因为从低纬度图像中产生特征比从高纬度图像中产生特征要简单的多，另外，本方案采用添加鉴别器的方式构建对抗网络，从而使得本模型为端到端的模型，无需在训练时进行大量的人工标注，节省了人力资源。

采用PVT编码器来对待清除图像进行编码，PVT编码器可以在更多的图像块上进行训练，以产生高的输出分辨率，同时PVT编码器可以节省更多的计算量和计算内存；

本方案采用多头解码器结构，多头解码器结构可以同时预测分割图、滤波图和无文本图，并且通过注意力模块将滤波图和分割图学到的特征进行融合后对无文本图进行修正；本方案解码器中的每个分支都可以向其他两个分支提供额外的学习表征以帮助模型更好的进行训练；本方案将分割图作为鉴别器的条件的对抗性损失，使得本模型可以更准确的确定图像中的文本位置；本方案在训练时通过与真实图像进行损失计算，并对计算结果进行反向传播，使得在训练时无需对训练样本进行标注，大大节省了人力资源，此外，鉴别器可以通过将真实的数据与预测的数据进行比对，并根据比对结果对整个网络进行反向传播，使得模型可以获得更好的参数。

本方案在第二成生成器中采用卷积网络来进行特征提取，并通过构建SE模块来使得注意力可以保持在图像的关键部分上，使得生成的图像更加精准。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种清除图像中文本的算法模型的构建方法的流程示意图；

图2是根据本申请实施例的一种解码器的结构示意图；

图3是根据本申请实施例的一种解码模块的结构示意图；

图4是根据本申请实施例的一种解码子模块的结构示意图；

图5是根据本申请实施例的一种注意力模块的结构示意图；

图6是根据本申请实施例的一种第一生成子模块的结构示意图；

图7是根据本申请实施例的一种在解码器后添加鉴别器的结构示意图；

图8是根据本申请实施例的一种在生成器后添加鉴别器的结构示意图；

图9是根据本申请实施例的一种清除图像中文本的算法模型的结构示意图；

图10是根据本申请实施例的一种清除图像中文本的算法模型的构建装置的结构框图；

图11是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请方案提供了一种清除图像中文本的算法模型的构建方法，参考图1，所述方法包括：

在一些具体实施例中，在“使用所述编码器对所述待清除图像进行特征提取”步骤之前，将所述待清除图像调整为合适的大小。

具体的，将所述待清除图像的大小调整为256*256。

在一些具体实施例中，在“使用所述编码器对所述待清除图像进行特征提取”步骤中，所述编码器为PVT结构，好处在于PVT结构的编码器可以在更多的图像块上进行训练，以产生更高的输出分辨率，高分辨率图像对于模型的稠密预测是至关重要的，而且PVT结构的编码器还存在一个逐渐缩小的金字塔结构，以尽量减少大特征图的计算量，而常规的ViT结构编码器由于资源限制只能产生低分辨率的输出，同时ViT需要更大的计算量和计算内存，PVT结构的编码器用金字塔结构扩展了Transformer框架，使其能够为稠密预测应用产生多尺度特征图，因此PVT结构的编码器汇集了CNN和Transformer的有点。

具体的，PVT为金字塔视觉变换器，是一种编码器。

本方案通过使用PVT结构的编码器来获取可以成功消除文本区域所需的表征知识。

具体的，图像分割的目标是将图像的每个像素所属类别进行标注，再通过预测图像中的每个像素来进行分割，这个任务通常被称为稠密预测。

在一些具体实施例中，本方案所使用的解码模块为4个。

在一些实施例中，所述解码器为多头解码器，所述解码器同时对所述编码特征进行解码得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像。

具体的，所述最终预测滤波图像、最终预测分割图像和最终预测无文本图像为特征向量的形式。

在一些具体实施例中，当所述解码模块的数量为4时，所述解码器的结构如图2所示，每个解码模块都存在三个输入以及三个输出。

在一些实施例中，所述解码模块的结构如图3所示，每一解码模块包含三个解码子模块和一个注意力模块。

具体的，所述多头解码器存在三个分支，三个分支分别对所述预测滤波特征图、预测分割特征图和预测无文本特征图进行解码并提供对应的三个解码结果，使用三个分支分别进行解码可以使每个分支都能更好的预测自己的输出，每一分支都可以向其他两个分支提供额外的学习表征来帮助其他两个分支进行更好的预测。

在一些实施例中，所述第一解码子模块、第二解码子模块、第三解码子模块结构相同，但输出不同，其结构如图4所示，所述第一解码子模块、第二解码子模块、第三解码子模块的输入为所述编码特征，每一解码子模块由三部分组成，第一部分由上采样层和连接层顺序串联组成，第二部分由卷积层、归一层和SE层顺序串联组成，第三部分由两个卷积层和一个激活层顺序串联组成，将所述编码特征输入到第一部分，所述上采样层对所述编码特征进行上采样后在连接层进行跳线连接得到连接结果，将所述连接结果作为第二部分和第三部分的输入，所述连接结果在第二部分的卷积层进行卷积后得到第一卷积结果，将所述第一卷积结果在所述归一层进行归一化后输入到SE层得到SE结果，所述连接结果在第三部分经过两个相邻的卷积层得到第二卷积结果，所述第二卷积结果与所述SE结果进行相加后输入到激活层进行激活得到对应解码子模块的输出。

具体的，所述跳线连接为特征金字塔结构编码器的一种常规连接方式，本方案在此不再进行赘述。

具体的，所述第二部分的卷积层为一个1*1的卷积，所述卷积层用来进行特征增强，所述SE层提供对全局信息的访问。

具体的，所述第三部分的卷积层用来进行特征增强。

进一步的，所述第三部分的每个卷积层由一个3*3的卷积、批量归一化层和高斯误差线性单元层顺序串联组成。

在一些实施例中，所述注意力模块由连接层、卷积层、激活层、运算层顺序串联组成，其结构如图5所示，将所述预测滤波图像和所述预测分割图像在所述连接层进行连接后送入卷积层得到第三卷积结果，所述第三卷积结果经过激活层激活后与所述预测无文本图像相乘得到新的预测无文本图像。

具体的，所述注意力模块的卷积层为1*1的卷积。

具体的，所述注意力模块将所述第一解码子模块输出的预测滤波图像和所述第二解码子模块输出的预测分割特征图像连接后，与所述第三解码子模块输出的预测无文本图像进行特征融合。

具体的，每一个解码模块中的第三解码子模块的输入来自于上一个解码模块中的注意力模块所生成的新的预测无文本图像，所述注意力模块生成的新的预测无文本图像可以从预测滤波图像和预测分割图像中收益，生成所述预测滤波图像的目的是增强图像的边缘区分能力，生成预测分割图像的目的是确定图像中文本的确切位置。

具体的，最后一个解码模块的输出结果为：

由最后一个解码模块中的第一解码子模块生成的最终预测滤波图像；

由最后一个解码模块中的第二解码子模块生成的最终预测分割图像；

由最后一个解码模块中的注意力模块生成的最终预测无文本图像。

具体的，所述最终预测滤波图像有助于学习和恢复图像的结构知识，所述最终预测分割图像可以准确定位待清除图像中的文本区域。

具体的，由于消除地分辨率图像的噪声比消除高分辨率图像的噪声更简单，基于此，本方案的编码器解码器学习图像特征并创建了一个低分辨率的无文字图像。

在一些实施例中，在“所述第二生成器根据所述最终预测分割图像和最终预测无文本图像生成结果图像”步骤中，所述第二生成器由转置前部分、转置卷积层、转置后部分组成，所述转置前部分和转置后部分结构相同，都是由多个第二生成器子模块串联组成，所述第一生成子模块的结构如图6所示，每一第二生成器子模块包含第一卷积块、第二卷积块、第三卷积块、第四卷积块和一个转置前SE块，第一卷积块、第二卷积块、第三卷积块顺序串联，第三卷积块的输出结果为第三卷积块结果，将第一卷积块的输出结果作为SE块的输入得到转置前SE结果，将所述第三卷积块结果和转置前SE结果进行相乘得到第一乘积，将第一乘积输入到所述第四卷积块中得到第四卷积块结果，所述第四卷积块结果与所述第一卷积块结果连接得到该第二生成器子模块的输出结果，将最后一个第二生成器子模块的输出结果作为所述转置卷积层的输入得到转置卷积结果，将所述转置卷积结果作为转置后部分的输出，所述转置后部分的输出为所述结果图像。

进一步的，所述转置后部分与转置前部分的结构和原理完全相同，本方案在此不再进行赘述。

具体的，所述转置前部分和所述转置后部分中的第二生成器子模块个数相同。

在一些具体实施例中，所述转置前部分和所述转置后部分中的第一生成器子模块个数为4个。

具体的，所述第二生成器子模块中的卷积块用来进行特征提取，SE块保证注意力在图像上的关键部分。

具体的，所述第二生成器采用跳过连接的方式与所述解码器进行连接，目的是为了维持整个所述清除图像中文本的算法模型的信息流。

具体的，由于第二生成器的输入为256*256像素的图像，所说所述转置卷积层对其输入进行上采样操作，以得到一个512*512像素的图像。

具体的，所述第二生成器通过网络学习的方式将学习到的特征来预测一个高分辨率的无文字图像。

在一些实施例中，在所述清除图像中文本的算法模型进行训练时，获取每一待清除图像的真实滤波图像、真实分割图像和真实无文本图像。

具体的，可以通过多种现有技术获取一个图像的真实滤波图像、真实分割图像和真实无文本图像，本方案在此不再进行赘述。

在一些实施例中，当所述清除图像中文本的算法模型进行训练时，在所述第一生成器之后添加两个鉴别器，如图7所示，分别为第一鉴别器和第二鉴别器，并再添加一个第三生成器，如图8所示，所述第三生成器与所述第二生成器结构相同，输入输出不同，在所述第二生成器和所述第三生成器后添加鉴别器，分别为第三鉴别器和第四鉴别器，所述第三鉴别器与所述第二生成器对应，所述第四鉴别器与所述第三生成器对应。

进一步的，所述第一鉴别器的输入与所述第二生成器的输入相同，所述第二鉴别器与所述第三生成器的输入为与输入的待清除图像相对应的真实分割图像和真实无文本图像进行连接后的结果。

具体的，本方案中所有的鉴别器均采用PatchGAN鉴别器，所述第一鉴别器与所述第二鉴别器的输入为最终预测分割图像和最终预测无文本图像进行连接后的矢量信息。

具体的，所述第一鉴别器和所述第二鉴别器并不确认其输入为真或者假，而是对输入图像中的内容进行分析标记，确认预测结果和真实结果的误差，并反向传播给编码器和解码器。

具体的，本方案通过鉴别器来计算损失函数，并将鉴别器计算的误差反向传播到模型的各个层之中，调整所述清除图像中文本的算法模型的权重以及参数，直到模型收敛或达到预期的效果为止，所以，本方案所构建的清除图像中文本的算法模型为端到端的模型，无需对训练样本进行数据标注，从而节省了大量的人力资源。

在一些实施例中，所述第二生成器的生成结果为第一结果图像，所述第三生成器的生成结果为第二结果图像，获取与输入的待清除图像相对应的清除后图像，所述清除后图像是不包含文本的待清除图像，将所述清除后图像与所述第一结果图像连接后送入第三鉴别器进行鉴别，将所述清除后图像与所述第二结果图像进行连接后送入第四鉴别器进行鉴别。

具体的，所述第三鉴别器和所述第四鉴别器对输入图像中的内容进行分析标记，确认预测结果和真实结果的误差，并反向传播给生成器中的各个模块。

在一些实施例中，所述清除图像中文本的算法模型的损失函数由两部分构成，一部分为第一生成器的损失，一部分为第二生成器的损失。

具体的，所述第一鉴别器和所述第二鉴别器共享参数，所述第三鉴别器和所述第四鉴别器共享参数。

在一些具体实施例中，使用G1(.)来代表第一生成器，使用D1(.)来代表第一鉴别器和第二鉴别器，G1(.)的损失为四个损失的组合：

1.最终预测滤波图像的损失Hloss；

2.最终预测分割图像的损失Sloss；

3.最终预测无文本图像的损失TFloss；

4.G1(.)和D1(.)之间的对抗性损失GANloss。

所以，G1(.)的总体损失公式为：

其中G1_loss为第一生成器的损失，H_g256为真实滤波图像，H_p256为最终预测滤波图像，S_g256为真实分割图像，S_p256为最终预测分割图像，TF_g256为真实无文本图像，TF_p256为最终预测无文本图像。

最终预测滤波图像的损失Hloss负责评估所述真实滤波图像和最终预测滤波图像之间的差别，具体公式如下：

进一步的，本方案是使用L1损失计算法和BCE-Dice损失计算法来评估最终预测分割图像的损失Sloss，在BCE-Dice损失计算法中，Dice相当于从全局上进行考察，BCE相当于从微观上进行逐像素拉进和角度互补，使用BCE-Dice损失计算法来计算损失函数可以是模型更准确的学习到分割图像的分割掩码，而L1损失计算法可以调节离群值，具体公式如下：

进一步的，本方案采用L1损失计算法和SSIM损失计算法来计算最终预测无文本图像的损失TFloss，使用L1损失计算法衡量最终预测无文本图像和真实无文本图像在单个像素上所含信息方面的差异程度，SSIM损失计算法说明了两个图像的结构细节，如尖锐的边缘、颜色捕捉和对比度特征，SSIM损失计算法增强了真实无文本图像和最终预测无文本图像之间的相似度指标，具体公式如下：

进一步的，G1(.)和D1(.)之间的对抗性损失GANloss的计算公式如下所示：

其中为最大似然估计(Maximum Likelihood Estimation)。

具体的，由于最终预测分割图像和真实分割图像提供了文本在图像中的精确位置，所说在计算GANloss时将最终预测分割图像和真实分割图像作为条件变量而不是输入图像。

具体的，本方案以最终预测分割图像和真实分割图像作为条件变量使得本方案的模型可以准确地定位待清除图像中的文本位置。

在一些具体实施例中，使用D2(.)来表示第三鉴别器和第四鉴别器，在计算所述第二生成器的损失时，将第一结果图像记为TFp512，将第二结果图像记为TFp512_o，将清除后图像记为TFg512。

则所述第二生成器的损失计算公式如下所示：

其中，G2_loss为所述第二生成器的总体损失函数。

在一些具体实施例中，本方案以1e-4的初始学习率进行学习训练，并使用AdamW优化器来对两个生成器进行训练，使用RMSprop来对编码器和解码器进行训练，使用Adam优化器来对鉴别器进行训练。

具体的，众所周知，低分辨率的图像在进行学习时会更加简单，由于编码器和解码器使用低分辨率图像作为输入，所以使用RMSprop来作为编码器和解码器的优化器，由于编码器和解码器的训练会比生成器的训练更快完成，所以所述清除图像中文本的算法模型的过拟合会发生在第二生成器部分，当编码器、解码器和生成器同时训练时，对编码器和解码器使用RMSprop优化器会使它的拟合步子变小，而使用Adam优化器会使生成器存在更大的飞跃，可以让彼此的学习速度进行互补，且对第一生成器和第二生成器都使用余弦退火调度器，余弦调度会根据一个余弦函数来调整学习率，使得模型不容易过拟合。

具体的，当所述第一生成器和所述第二生成器的损失函数均小于第一设定阈值时，完成模型的训练，得到训练好的清除图像中文本的算法模型，其结构如图9所示。

实施例二

本申请提出一种清除图像中文本的方法，包括：

实施例三

基于相同构思，参考图10，本申请还提出了一种清除图像中文本的算法模型的构建装置，包括：

编码模块：使用所述编码器对所述待清除图像进行特征提取得到编码特征，将所述编码特征输入到所述解码器中得到预测滤波特征图、预测分割特征图和预测无文本特征图；

解码模块：所述解码器由多个相同的解码模块进行串联，每一解码模块由第一解码子模块、第二解码子模块、第三解码子模块和注意力模块组成，其中，所述第一解码子模块、第二解码子模块、第三解码子模块并联，将所述编码特征输入到第一解码子模块得到预测滤波图像，将所述编码特征输入到第二解码子模块得到预测分割图像，将所述编码特征输入到第三解码子模块得到预测无文本图像，所述注意力模块将预测滤波图像和预测分割图像进行连接，再与预测无文本图像相乘得到新的预测无文本图像，将预测滤波图像、预测分割图像和新的预测无文本图像输入到下一个解码模块中，最后一个解码模块的输出为最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和最终预测无文本图像进行连接后输入到第二生成器中；

实施例四

本实施例还提供了一种电子装置，参考图11，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项清除图像中文本的算法模型的构建方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种清除图像中文本的算法模型的构建方法的实施过程。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（RadioFrequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是待清除图像、预测滤波特征图、预测分割特征图、预测无文本特征图等，输出的信息可以是最终预测滤波图像、最终预测分割图像、最终预测无文本图像和第一结果图像等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、获取至少一待清除图像，将所述待清除图像输入到清除图像中文本的算法模型中，所述清除图像中文本的算法模型包括第一生成器和第二生成器，所述第一生成器由编码器和解码器组成；

S102、使用所述编码器对所述待清除图像进行特征提取得到编码特征，将所述编码特征输入到所述解码器中得到预测滤波特征图、预测分割特征图和预测无文本特征图；

S103、所述解码器由多个相同的解码模块进行串联，每一解码模块由第一解码子模块、第二解码子模块、第三解码子模块和注意力模块组成，其中，所述第一解码子模块、第二解码子模块、第三解码子模块并联，将所述编码特征输入到第一解码子模块得到预测滤波图像，将所述编码特征输入到第二解码子模块得到预测分割图像，将所述编码特征输入到第三解码子模块得到预测无文本图像，所述注意力模块将预测滤波图像和预测分割图像进行连接，再与预测无文本图像相乘得到新的预测无文本图像，将预测滤波图像、预测分割图像和新的预测无文本图像输入到下一个解码模块中，最后一个解码模块的输出为最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和最终预测无文本图像进行连接后输入到第二生成器中；

S104、所述第一生成器内引入第一鉴别器和第二鉴别器进行对抗学习，所述第二生成器内引入第三鉴别器和第四鉴别器进行对抗学习，计算所述清除图像中文本的算法模型的损失，其中所述损失包括第一生成器的损失和第二生成器的损失，当所述第一生成器和所述第二生成器的损失均小于第一设定阈值，完成模型训练得到训练好的清除图像中文本的算法模型。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图11中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种清除图像中文本的算法模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的一种清除图像中文本的算法模型的构建方法，其特征在于，所述第一解码子模块、第二解码子模块、第三解码子模块的输入为所述编码特征，每一解码子模块由三部分组成，第一部分由上采样层和连接层顺序串联组成，第二部分由卷积层、归一层和SE层顺序串联组成，第三部分由两个卷积层和一个激活层顺序串联组成，将所述编码特征输入到第一部分，所述上采样层对所述编码特征进行上采样后在连接层进行跳线连接得到连接结果，将所述连接结果作为第二部分和第三部分的输入，所述连接结果在第二部分的卷积层进行卷积后得到第一卷积结果，将所述第一卷积结果在所述归一层进行归一化后输入到SE层得到SE结果，所述连接结果在第三部分经过两个相邻的卷积层得到第二卷积结果，所述第二卷积结果与所述SE结果进行相加后输入到激活层进行激活得到对应解码子模块的输出。

3.根据权利要求1所述的一种清除图像中文本的算法模型的构建方法，其特征在于，所述注意力模块由连接层、卷积层、激活层、运算层顺序串联组成，将所述预测滤波图像和所述预测分割图像在所述连接层进行连接后送入卷积层得到第三卷积结果，所述第三卷积结果经过激活层激活后与所述预测无文本图像相乘得到新的预测无文本图像。

4.根据权利要求1所述的一种清除图像中文本的算法模型的构建方法，其特征在于，在“所述第二生成器根据所述最终预测分割图像和最终预测无文本图像生成结果图像”步骤中，所述第二生成器由转置前部分、转置卷积层、转置后部分组成，所述转置前部分和转置后部分结构相同，都是由多个第二生成器子模块串联组成，每一第二生成器子模块包含第一卷积块、第二卷积块、第三卷积块、第四卷积块和一个转置前SE块，第一卷积块、第二卷积块、第三卷积块顺序串联，第三卷积块的输出结果为第三卷积块结果，将第一卷积块的输出结果作为SE块的输入得到转置前SE结果，将所述第三卷积块结果和转置前SE结果进行相乘得到第一乘积，将第一乘积输入到所述第四卷积块中得到第四卷积块结果，所述第四卷积块结果与所述第一卷积块结果连接得到该第二生成器子模块的输出结果，将最后一个第二生成器子模块的输出结果作为所述转置卷积层的输入得到转置卷积结果，将所述转置卷积结果作为转置后部分的输出，所述转置后部分的输出为所述结果图像。

5.根据权利要求1所述的一种清除图像中文本的算法模型的构建方法，其特征在于，在所述清除图像中文本的算法模型进行训练时，获取每一待清除图像的真实滤波图像、真实分割图像和真实无文本图像。

6.根据权利要求1所述的一种清除图像中文本的算法模型的构建方法，其特征在于，所述清除图像中文本的算法模型进行训练时，在所述第一生成器之后添加两个鉴别器，分别为第一鉴别器和第二鉴别器，并再添加一个第三生成器，所述第三生成器与所述第二生成器结构相同，输入输出不同，在所述第二生成器和所述第三生成器后添加鉴别器，分别为第三鉴别器和第四鉴别器，所述第三鉴别器与所述第二生成器对应，所述第四鉴别器与所述第三生成器对应。

7.根据权利要求6所述的一种清除图像中文本的算法模型的构建方法，其特征在于，所述第一鉴别器的输入与所述第二生成器的输入相同，所述第二鉴别器与所述第三生成器的输入为与输入的待清除图像相对应的真实分割图像和真实无文本图像进行连接后的结果。

8.根据权利要求6所述的一种清除图像中文本的算法模型的构建方法，其特征在于，所述第二生成器的生成结果为第一结果图像，所述第三生成器的生成结果为第二结果图像，获取与输入的待清除图像相对应的清除后图像，所述清除后图像是不包含文本的待清除图像，将所述清除后图像与所述第一结果图像连接后送入第三鉴别器进行鉴别，将所述清除后图像与所述第二结果图像进行连接后送入第四鉴别器进行鉴别。

9.一种清除图像中文本的方法，其特征在于，包括：

所述解码器对所述编码特征进行解码得到最终预测滤波图像、最终预测分割图像和最终预测无文本图像，所述解码器由多个相同的解码模块进行串联，每一解码模块由第一解码子模块、第二解码子模块、第三解码子模块和注意力模块组成，其中，所述第一解码子模块、第二解码子模块、第三解码子模块并联，将所述编码特征输入到第一解码子模块得到预测滤波图像，将所述编码特征输入到第二解码子模块得到预测分割图像，将所述编码特征输入到第三解码子模块得到预测无文本图像，所述注意力模块将预测滤波图像和预测分割图像进行连接，再与预测无文本图像相乘得到新的预测无文本图像，将预测滤波图像、预测分割图像和新的预测无文本图像输入到下一个解码模块中，最后一个解码模块的输出为最终预测滤波图像、最终预测分割图像和最终预测无文本图像，将所述最终预测分割图像和所述最终预测无文本图像进行连接后输入到第二生成器中，所述第二生成器根据所述最终预测分割图像和所述最终预测无文本图像生成第一结果图像，将所述第一结果图像进行输出。

10.一种清除图像中文本的算法模型的构建装置，其特征在于，包括：

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1到8任一所述的一种清除图像中文本的算法模型的构建方法或权利要求9所述的一种清除图像中文本的方法。

12.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1-8任一所述的一种清除图像中文本的算法模型的构建方法或权利要求9所述的一种清除图像中文本的方法。