CN117351032A

CN117351032A - 一种印章去除方法和系统

Info

Publication number: CN117351032A
Application number: CN202311388301.1A
Authority: CN
Inventors: 丁宝进; 夏鑫
Original assignee: Hangzhou Hexin Software Technology Co ltd
Current assignee: Hangzhou Hexin Software Technology Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-05
Anticipated expiration: 2043-10-23
Also published as: CN117351032B

Abstract

本说明书涉及图像处理领域，特别涉及一种印章去除方法和系统，该方法包括：获取待处理图像，待处理图像为包括印章的图像；基于待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像；无印章预测图像为去除印章后的图像；基于待处理图像和印章遮罩图像，生成保留图像；基于无印章预测图像和保留图像，确定目标图像。

Description

一种印章去除方法和系统

技术领域

本说明书涉及图像处理领域，特别涉及一种印章去除方法和系统。

背景技术

印章是一种常见的文档认证方式，但印章的存在会对文档识别时产生一定的干扰。因为印章通常会盖在文本的一部分或全部，导致文档识别的结果可能包含印章部分的信息，从而影响识别结果的准确性和可靠性。

通常在文档数字化和自动化处理的过程中，需要对文档中的印章进行去除处理。但现有印章去除需要进行人工抠图或像素值分类等操作，处理速度慢且对复杂图像处理效果不佳。

因此，需要一种高效且适应性强的印章去除方法。

发明内容

本说明书实施例之一提供一种印章去除方法，包括：获取待处理图像，所述待处理图像为包括印章的图像；基于所述待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像；所述无印章预测图像为去除所述印章后的图像；基于所述待处理图像和所述印章遮罩图像，生成保留图像；基于所述无印章预测图像和所述保留图像，确定目标图像。

本说明书实施例之一提供一种印章去除系统，包括：图像获取模块，用于获取待处理图像，所述待处理图像为包括印章的图像；印章去除模块，用于基于所述待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像；所述无印章预测图像为去除所述印章后的图像；保留图像生成模块，用于基于所述待处理图像和所述印章遮罩图像，生成保留图像；目标图像确定模块，用于基于所述无印章预测图像和所述保留图像，确定目标图像。

本说明书实施例之一提供一种印章去除装置，包括处理器，处理器用于执行上述印章去除方法。

本说明书实施例之一提供一种计算机可读存储介质，存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行上述印章去除方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的印章去除方法的示例性流程图；

图2是根据本说明书一些实施例所示的印章去除模型的结构示意图；

图3是根据本说明书一些实施例所示的印章去除模型训练过程的示意图；

图4是根据本说明书一些实施例所示的印章去除系统的模块化示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

为了提高印章去除的效率，在一些实施例中，可以使用机器学习模型对原始图像进行处理以实现印章去除，但该方案下机器学习模型会对整个图像进行处理，容易导致非印章区域的像素发生变化，影响图片的效果或影响后续OCR识别的准确性。

有鉴于此，本说明书的一些实施例提供了一种印章去除方法，无需人工选取或剪裁印章区域，即高效的实现印章去除，并保留无印章区域的像素。

图1是根据本说明书一些实施例所示的印章去除方法的示例性流程图。如图1所示，流程100包括下述步骤。在一些实施例中，流程100中的一个或多个步骤可由处理器执行。

步骤110，获取待处理图像。在一些实施例中，步骤110可由图像获取模块410执行。

待处理图像为包括印章的图像。在一些实施例中，待处理图像中可能还包含文字、背景或图片等信息。在一些实施例中，待处理图像可以是黑白图像或彩色图像。

在一些实施例中，图像获取模块410可以通过如扫描、拍摄或光学字符识别等方式获取待处理图像。例如，图像获取模块410可以获取含有印章的文档的扫描图像文件作为待处理图像。

步骤120，基于待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像。在一些实施例中，步骤120可由印章去除模块420执行。

印章去除模型为机器学习模型，在一些实施例中，印章去除模型可以包括生成对抗网络(GAN)或生成对抗网络中的一部分。

印章去除模型可以用于将待处理图像中的印章区域与不含有印章的区域分开，以及将待处理图像中的印章去除。在一些实施例中，印章去除模型输入为待处理图像，输出为无印章预测图像和印章遮罩图像。关于印章去除模型的更多描述可以参见后文中图2和图3相关描述。

无印章预测图像为待处理图像去除印章后的图像。在一些实施例中，无印章预测图像的尺寸可以与待处理图像一致。

印章遮罩图像为待处理图像中对应印章区域的遮罩图。在一些实施例中，印章遮罩图像的尺寸可以与待处理图像一致，印章遮罩图像可以为二值化的图像，其中，像素值为1表示该像素对应印章、像素值为0表示该像素对应非印章。

步骤130，基于待处理图像和印章遮罩图像，生成保留图像。在一些实施例中，步骤130可由保留图像生成模块430执行。

保留图像对应待处理图像中的非印章像素区域。由于无印章预测图像是经过印章去除模型对整个图像进行处理得到，可能存在非印章像素区域像素发生改变的情况，因此需要确定并保留非印章像素区域像素，即保留图像。

在一些实施例中，保留图像生成模块430可以将待处理图像和对应印章区域的印章遮罩图像叠加，生成保留图像。例如，由于印章遮罩图像为二值化的图像，可以将待处理图像和对应印章区域的印章遮罩图像的像素值对位相乘，使得得到的结果中的印章区域像素值为0，非印章区域像素值为原始值，即生成保留图像。

步骤140，基于无印章预测图像和保留图像，确定目标图像。在一些实施例中，步骤140可由目标图像确定模块440执行。

目标图像为最终预测的无印章图像，即待处理图像进行印章去除后的最终图像。

在一些实施例中，目标图像确定模块440可以基于保留图像，确定需要保留的待处理图像中的非印章像素区域，而印章像素区域采用无印章预测图的对应像素区域，将两部分像素叠加，以得到目标图像。

通过上述印章去除方法，可以无需对带印章图像进行剪裁，即实现高效的印章去除，并且印章去除后的得到的目标图像的非印章区域像素不会发生变化，适用各种复杂场景。

应当注意的是，上述有关流程100的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程100进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图2是根据本说明书一些实施例所示的印章去除模型的结构示意图；图3是根据本说明书一些实施例所示的印章去除模型训练过程的示意图。

在一些实施例中，印章去除模型200可以包括生成网络210。生成网络210可以是生成对抗网络中的生成器，用于基于待处理图像，获取无印章预测图像和印章遮罩图像。关于无印章预测图像和印章遮罩图像的更多描述可以参见前文中步骤120相关内容。

在一些实施例中，生成网络210至少包括卷积层、下采样层和上采样层。其中，卷积层可以由3×3卷积核、bn函数、relu函数以及softmax函数等基本网络结构中的一个或多个组成。在实际使用时，处理器可以根据印章去除任务的难度、图像的尺寸和印章的场景(如电子印章还是物理印章等)设置不同的网络结构或卷积层。

在一些实施例中，生成网络210可以进一步包括恢复网络220和改善网络230。

恢复网络220被配置为基于待处理图像，确定印章遮罩图像、特征图以及第一图像。恢复网络220可以通过训练得到，关于恢复网络220的训练可以参见后文相关描述。

在一些实施例中，恢复网络220至少包括顺序连接的第一部分、第二部分、第三部分和输出层；第一部分包括顺序连接的卷积层和下采样层、第二部分包括卷积层、第三部分包括顺序连接的上采样层和卷积层、输出层包括一个卷积层或多个并联的卷积层。其中，顺序连接表示前一部分的输出为后一部分的输入。

在一些实施例中，输出层可以包括三个并联的卷积层，分别输出特征图、第一图像以及印章遮罩图像。

特征图为反映待处理图像特征信息的图像，特征图的尺寸可以与待处理图像一致。

在一些实施例中，若输入恢复网络220的待处理图像通道数量为3(分别对应R(红色)、G(绿色)、B(蓝色)三个通道)，恢复网络220输出的特征图经过卷积层进行特征提取后的通道数量，可以大于待处理图像的通道数量，如32通道。为了便于描述，在后文中沿用待处理图像通道数量为3作为示例进行说明。

第一图像为未经过(改善网络230)优化的无印章预测图像，第一图像中印章可能在一定程度上得到去除。在一些实施例中，第一图像的尺寸和通道数量可以与待处理图像一致。

本说明书中各个图像对应的图像矩阵可以是M×N×K的形式，后文中不再赘述。其中M表示图像横向的像素值；N表示图像纵向的像素值；K表示图像的通道数，即矩阵中每个元素对应值的数量；示例性的，若通道数量为3，则图像中每个像素(元素)对应3个值。

示例性，恢复网络220的第一部分包括顺序连接的三个多层结构，分别命名为第一多层结构至第三多层结构，每个多层结构按顺序由卷积层和下采样层组成。第一部分的输入每经过卷积层得到多个中间特征图，中间特征图每经过一次下采样尺寸缩小一半。对于第一部分的三个多层结构，第i多层结构输出下采样后的图像矩阵为(400×2^-i)×(400×2^-i)×(32×2ⁱ)，其中，1≤i≤3。第三多层结构的输出可以作为恢复网络220的第二部分的输入。

恢复网络220的第二部分中包括一个卷积层，可以命名为第四多层结构，其输入为前述第三多层结构的输出，第四多层结构不改变其输入的中间特征图尺寸和通道数，输出的图像矩阵为50×50×256。第四多层结构的输出可以作为恢复网络220的第三部分的输入。

恢复网络220的第三部分包括顺序连接的三个多层结构，分别命名为第五多层结构至第七多层结构，每个多层结构的输入为前一多层结构的输出。每个多层结构按顺序包含顺序连接的上采样层和卷积层，每个多层结构的输入经过上采样层，输出的中间特征图尺寸增大。令m＝8-j(5≤j≤7)，则对于第j层多层结构，将其输入经过上采样层上采样后，得到的中间特征图尺寸与第m层多层结构输出的中间特征图尺寸保持一致，并将第j层多层结构输出的中间特征图和第m层多层结构输出的中间特征图拼接起来，然后经过第j层多层结构中的卷积层将拼接后的中间特征图数量减少，得到的图像矩阵为(400×2^-(m-1))×(400×2^-(m-1))×(32×2^m)的中间特征图。第四多层结构的输出可以作为恢复网络220的输出层的输入。

输出层可以包括三个并联的卷积层，分别输出图像矩阵为400×400×32特征图、图像矩阵为400×400×3的第一图像以及图像矩阵为400×400×1的印章遮罩图像。

在一些实施例中，恢复网络220还可以对印章遮罩图像的第三个通道进行复制，得到图像矩阵为400×400×3的印章遮罩真值图。

通过上述恢复网络220的设计，可以使得对于任意尺寸图像的输入，均能分别输出具有固定尺寸的特征图、第一图像以及印章遮罩图像。

关于印章遮罩图像的描述，可以参见前文中步骤120相关内容。在一些实施例中，印章遮罩图像的通道数量可以小于或等于待处理图像。

改善网络230被配置为基于特征图、第一图像以及印章遮罩图像，确定无印章预测图像。

在一些实施例中，改善网络230至少包括多个卷积层。

在一些实施例中，改善网络230通过将尺寸相同的特征图、第一图像以及待处理图像的各通道拼接后进行卷积处理，得到尺寸、通道数量与待处理图像一致的无印章预测图像。

基于前述示例，对于恢复网络220输出的图像矩阵为400×400×32特征图、图像矩阵为400×400×3的第一图像以及图像矩阵为400×400×1的印章遮罩图像，改善网络230可以拼接得到图像矩阵为400×400×36的拼接图像。

改善网络230可以包括4个卷积层，分别命名为第一卷积层至第四卷积层；其中，第一卷积层、第二卷积层、第三卷积层与第四卷积层依次连接，第二卷积层、第三卷积层与第四卷积层的输入为前一层的输出。改善网络230将图像矩阵为400×400×36的拼接图像依次输入第一卷积层、第二卷积层、第三卷积层与第四卷积层，第四卷积层输出图像矩阵为400×400×3的优化后的无印章预测图像。

在一些实施例中，为了提高改善网络230的效果，可以在改善网络230的每两个单元(如改善网络230中的每个卷积层可以称为一个单元)间进行恒等跳跃链接。

通过生成网络210对待处理图像进行印章去除处理，得到去除印章的图像效果更好，并且生成网络210还可以识别出印章区域并作为后续处理的限定区域，保证后续处理区域的准确性。

在一些实施例中，生成网络210可以通过训练得到。生成网络210的训练流程包括：获取训练数据集；以及，基于训练数据集，对判别网络240和生成网络210通过生成对抗网络方法进行训练。

在一些实施例中，判别网络240至少包括多个卷积层。判别网络240的最后一个卷积层可以配置成输出的图像尺寸与输入图像的尺寸一致、图像通道数量为1(如仅包括灰度通道)。

继续前述改善网络230(生成网络210)输出图像矩阵为400×400×3的无印章预测图像的示例，判别网络240可以包括4个卷积层，分别命名为第五卷积层至第八卷积层；其中，第五卷积层、第六卷积层、第七卷积层与第八卷积层依次连接，第五卷积层、第六卷积层、第七卷积层与第八卷积层的输入为前一层的输出。400×400×3的无印章预测图像依次输入第五卷积层、第六卷积层、第七卷积层与第八卷积层，前三个卷积层输出均为400×400×64的图像矩阵；第八卷积层的输出为400×400×1的概率预测矩阵图。

训练数据集可以包括若干训练样本以及对应的标签，在一些实施例中，样本待处理图像可以作为训练样本，该样本待处理图像对应的样本无印章图为训练样本的标签。

在一些实施例中，可以通过分别获取待处理图像以及无印章图像得到训练数据集。示例性的，可以先获取一个文档的样本无印章图，然后在该文档内添加印章(如盖章)后得到样本待处理图像。关于训练数据集的更多描述，可以参见后文中相关内容。

如前文所述，生成网络210可以是生成对抗网络中的生成器，与生成网络210同时训练的判别网络240可以是生成对抗网络中的判别器。判别网络240用于判断生成网络210输出的无印章预测图像是否逼真，在一些实施例中，是否逼真的判断条件可以是图像中是否完全没有(判别网络240)可识别到的印章。

在一些实施例中，基于训练数据集，对判别网络240和生成网络210通过生成对抗网络方法进行训练可以包括多轮，每轮包括两个阶段。其中，第一阶段包括：固定生成网络210的参数，训练判别网络240，调整判别网络240的参数；其中，若当前为第一轮训练时，生成网络210的参数为初始参数，若不为第一轮训练时，生成网络210的参数为上一轮训练中的第二阶段确定的参数。第二阶段包括：固定判别网络240的参数，训练生成网络210，调整生成网络210的参数；其中，判别网络240的参数为该轮训练中，经第一阶段调整后得到的参数。处理器可以将第二阶段所得的生成网络210与第一阶段所得的判别网络240组成一个复合模型，在该复合模型中，可以将生成网络210输出的数据输入判别网络240中进行判断。

重复上述第一阶段和第二阶段，通过多轮的训练，可以不断调整生成网络210和判别网络240的参数，其中随着生成网络210输出的数据越来越逼真，最终可以骗过判别器，即判别网络240在生成网络210的输出中，完全无法识别到印章时，最终满足预设条件，获得训练好的生成网络210。

其中，预设条件可以是损失函数收敛、循环的次数达到阈值等。损失函数可以通过训练数据集中的标签和网络的输出结果构建得到，生成对抗网络的损失函数包括对应生成网络210的损失函数和对应判别网络240的损失函数。

在一些实施例中，对判别网络240和生成网络210进行参数调整的方式可以包括使用Adam优化器等算法，对此本说明书中不做限制。

生成网络210的损失函数用于恢复网络220和改善网络230的联合训练。在一些实施例中，生成网络210的损失函数包括恢复网络220的损失函数以及改善网络230的损失函数。

恢复网络220的损失函数反映二值印章遮罩图与印章遮罩真值图的差异、第一样本预测图像与样本无印章图的差异。

二值印章遮罩图和第一样本预测图像为将训练样本输入生成网络210的恢复网络220得到的输出。二值印章遮罩图为灰度二值化的印章遮罩图像，印章遮罩真值图可以通过将二值印章遮罩图的第三个通道进行复制得到。

在一些实施例中，二值印章遮罩图与印章遮罩真值图均可以通过像素值取1表示图中的该像素对应印章、像素值取0表示图中的该像素对应非印章。

在一些实施例中，恢复网络220的损失函数LG1可以表示为：

LG1＝MSE(SMO,SM)+L1(N1⊙SM,D⊙SM) (1)；

其中，⊙表示元素对位相乘；MSE(·)表示均方根误差；L1(·)表示L1 Loss(即平均绝对误差)；SMO表示二值印章遮罩图的图像矩阵；SM表示印章遮罩真值图的图像矩阵；N1表示第一样本预测图像的图像矩阵；D表示样本无印章图的图像矩阵。

改善网络230的损失函数反映第二样本预测图像与样本无印章图的差异、样本目标图像与样本无印章图的差异。

第二样本预测图像为改善网络230基于对第一样本预测图像和二值印章遮罩图的处理得到的输出，样本目标图像为基于第二样本预测图像得到的无印章预测图像。在一些实施例中，处理器可以基于二值印章遮罩图确定样本待处理图像中的印章区域，并利用第二样本预测图像中的对应区域(即无印章区域)像素替换样本待处理图像的印章区域，得到样本目标图像。在一些实施例中，确定样本目标图像N的图像矩阵的计算方式可以表示为：

N＝N2⊙SM+D⊙(1-SM) (2)；

其中，N2表示第二样本预测图像的图像矩阵。

基于公式(2)，在一些实施例中，改善网络230的损失函数LG2可以表示为：

LG2＝L1(N2⊙SM,D⊙SM)+Per(N,D) (3)；

其中，Per(·)表示感知损失函数。

在一些实施例中，可以将样本无印章图D以及公式(2)得到的样本目标图像N输入至判别网络240，得到对应样本无印章图D的输出样本无印章图的判别结果DD，以及对应样本目标图像N的样本目标图像的判别结果ND，判别结果(如前述判别结果DD和判别结果ND)可以反映输入至判别网络240的图像的各个像素值是否为印章的概率预测矩阵图。

在一些实施例中，生成网络210的损失函数还用于与判别网络240的循环训练，因此，在一些实施例中，结合上述公式(1)～(3)，生成网络210的损失函数LG可以表示为：

LG＝LG1+LG2+BCE(ND⊙SM,E1⊙SM) (4)；

其中，BCE(·)为交叉熵函数；E1为全一图像的图像矩阵。其中，如前文定义，印章遮罩真值图SM图像矩阵中定义像素值为1时，表示图中的该像素对应印章，则可以构造得到尺寸与样本无印章图的判别结果DD一致，且图像全部像素值均为1的全一图像。

判别网络240的损失函数反映样本目标图像的判别结果与全零图像的差异、与全一图像的差异。

在一些实施例中，判别网络240的损失函数LD可以表示为：

LD＝BCE(ND*SM,E0*SM)+BCE(DD*SM,E1*SM) (5)；

其中，E0为全零图像的图像矩阵，全零图像即该图像全部像素值为0，且全零图像E0的尺寸与样本无印章图的判别结果DD一致。

通过训练完成的生成网络210和判别网络240，可以直接对待处理图像中印章进行去除，而无需手动选取印章区域并进行如剪裁处理等其他预处理，提高印章去除效率。

在前文中已经说明，若干训练样本中的一个训练样本包括一个样本待处理图像，训练样本对应的标签包括生成样本待处理图像时选取的样本无印章图；在一些实施例中，样本待处理图像以及样本无印章图可以通过样本纯印章图像集和纯文本图像集得到。

在一些实施例中，样本纯印章图像集的获取方式可以包括：从真实图像中截取纯印章图像，对纯印章图像进行带有约束条件的随机尺寸缩放和/或随机颜色调整，得到样本纯印章图像；基于样本纯印章图像构造样本纯印章图像集。

真实图像是在构造训练数据集过程中，获取的包含印章的图像。在一些实施例中，可以通过人工从真实图像中截取纯印章图像。样本纯印章图像为各种尺寸、颜色的纯印章图像，在一些实施例中，样本纯印章图像可以基于对纯印章图像进行带有约束条件的随机尺寸缩放和/或随机颜色调整得到，以实现通过少量人工截取的纯印章图像，可以生成较多数量的样本纯印章图像。

在一些实施例中，约束条件包括尺寸约束，随机尺寸缩放可以包括如等比缩放、目标尺寸缩放等，还可以包括如翻转和镜像等处理。在一些实施例中，随机尺寸缩放过程可以限制在尺寸约束内(如限制在400×400像素内)，当随机尺寸缩放后得到的图像超过尺寸范围时，进行缩小或剪裁至满足尺寸约束。

在一些实施例中，随机颜色调整可以包括对纯印章图像的颜色通道(R、G、B通道)的值进行随机调整，以得到不同颜色的样本纯印章图像。

在一些实施例中，处理器可以将多个不同颜色、不同尺寸的样本纯印章图像构造样本纯印章图像集。

在一些实施例中，样本无印章图集的获取方式可以包括：从真实图像中截取预设尺寸的纯文本图像，得到样本无印章图；基于样本无印章图构造纯文本图像集。

样本无印章图可以从真实图像中截取得到，在一些实施例中，可以在真实图像中截取纯印章图像后的图像中随机截取预设尺寸的纯文本图像作为样本无印章图。

在一些实施例中，样本无印章图除文本外，还可以包含如图像和背景等元素。在一些实施例中，截取预设尺寸的纯文本图像时，可以分别选取不同排版风格、不同字体、不同字号的图像作为纯文本图像。

在一些实施例中，样本无印章图和样本纯印章图像的尺寸和通道数可以一致，例如，通道数量均为3。

在一些实施例中，处理器可以基于多个样本纯文本图像构造样本纯文本图像集。

在一些实施例中，处理器可以对样本纯印章图像集中的样本纯印章图像以及纯文本图像集中的样本无印章图进行叠加，得到样本待处理图像。

在一些实施例中，将样本纯印章图像和样本无印章图叠加，即可得到同时含有文字和印章的样本待处理图像，由于样本纯印章图像集中的样本纯印章图像以及纯文本图像集中的样本无印章图数量较大，则可以快速的获取大量成对的(即训练样本和标签对)样本待处理图像和样本纯印章图像，以构成训练数据集。

在一些实施例中，以分别准备40000张图像矩阵为400×400×3的样本纯印章图像S和图像矩阵为400×400×3的样本纯文本图像D，进而构造训练数据集为例进行说明。

在一些实施例中，首先对真实图像中截取的纯印章图像进行随机尺寸的缩放得到第一中间图像S1。当第一中间图像S1的长或宽大于400时，对其进行缩小，使其最长边不超过400。假设图像S1的长和宽分别为w、h，则缩小公式可以表示为：max_size＝max(w,h)；scale＝max(max_size/400,1)；s_w＝floor(w/scale)；s_h＝floor(h/sclae)；S2＝resize(S1,(s_w,s_h))；其中，max(·)为取较大值函数，floor(·)为向下取整函数，resize(·)代表图像缩放函数。

第一中间图像S1则缩放到图像矩阵为s_w×s_h×3的第二中间图像S2，然后将第二中间图像S2进行二值化处理获得像素值为1的印章区域，并将第二中间图像S2的非印章区域像素置为0，获得第三中间图像S3。

接着，再生成一张图像矩阵为400×400×3的全黑图像B(像素值全为0)，在全黑图像B图中随机位置划出s_w×s_h的区域，并将第三中间图像S3填充到该区域，最后获得图像矩阵为400×400×3样本纯印章图像S，其非印章区域像素值均为0。

缩放或截取后得到的样本纯印章图像S，其包含各种风格的图案，同时还可以对样本纯印章图像S的颜色通道(R、G、B通道)的值进行随机调整，以生成各种颜色的印章。最终获得的样本纯印章图像S数量为40000。

从真实图像中随机截取只包含文本内容的纯文本图像D。截取得到的纯文本图像D的图像矩阵为400×400×3，并且纯文本图像D中涵盖各种大小和风格的文本以及图案，最终获得的纯文本图像D数量为40000。

通过对少量真实图像进行裁剪和变化，得到样本纯印章图像集和纯文本图像集，进而可以快速生成大量成对的训练样本及标签，以进行模型训练，避免了真实的训练数据难以获取的问题。

为了使叠加生成的带印章图像(样本待处理图像)更接近真实数据，在样本纯印章图像以及样本无印章图进行叠加时，还可以对图像增加随机的JPG/JPEG压缩(JPEGartifacts)，此外还可以调整图像的随机亮度值、随机像素值以及随机仿射变换中的一种或多种。

在一些实施例中，样本纯印章图像以及样本无印章图进行叠加时，可以对样本无印章图的不同区域以不同叠加方式进行叠加。样本无印章图的不同区域可以包括印章和文本重合区域以及背景区域，以下分别进行说明。

在一些实施例中，对于样本无印章图中的印章和文本重合区域，叠加方式包括：对重合区域进行基于随机量的alpha通道叠加。

在一些实施例中，在印章和文本重合区域，可以对样本纯印章图像以及样本无印章图的叠加过程中加入随机量，则重合区域像素I(t)可以表示为：

I(t)＝D(t)*α+S(t)*β (6)；

其中，D(t)表示样本无印章图中的重合区域像素；S(t)表示样本纯印章图像中的重合区域像素；α和β为叠加系数，满足0.1≤α≤0.9，β＝(1-α-0.1)*rand(0,1)+0.1；其中，rand(·)表示随机数。

在一些实施例中，为了能够更加逼真的模拟真实场景下，印章盖在纸上复杂的像素叠加方式，可以限制叠加系数满足条件：α+β≠1。

在一些实施例中，对于样本无印章图中的背景区域，叠加方式包括：对背景区域进行乘性叠加。由于在背景区域，印章几乎是完整的盖在文档中，因此，乘性叠加得到的背景区域像素I(nt)可以表示为：

I(nt)＝D(nt)*S(nt)/255 (7)；

其中，D(nt)表示样本无印章图中的背景区域像素；S(nt)表示样本纯印章图像中的背景区域像素。

继续前述示例，根据上述样本无印章图D、样本纯印章图像S进行数据生成为例，通过(x,y,:)表示图像矩阵中像素值；其中，x和y表示的像素的位置“：”表示各通道的值，0≤x<400，0≤y<400，生成带印章图像表示为I，则对于带印章图像I的重合区域t的像素值可以表示为：

I(x,y,:)＝[D(x,y,:)*α+S(x,y,:)*β],(x,y)∈t (8)；

对于带印章图像I的背景区域nt的印章区域e的像素值可以表示为：

I(x,y,:)＝D(x,y,:)*S(x,y,:)/255,(x,y)∈nt∩e (9)；

对于带印章图像I的背景区域nt的非印章区域ne，则保留原像素即可，即可以表示为：

I(x,y,:)＝D(x,y,:),(x,y)∈nt∩ne (10)。

通过上述叠加方式，可以使得生成的样本待处理图像更接近真实数据，而更真实的训练数据可以显著提高模型的训练效果。

如图4所示，本说明书一些实施例提供的印章去除系统400可以包括图像获取模块410、印章去除模块420、保留图像生成模块430和目标图像确定模块440。

图像获取模块410用于获取待处理图像，待处理图像为包括印章的图像。

在一些实施例中，关于待处理图像的更多内容，可以参见步骤110相关描述。

印章去除模块420用于基于待处理图像，通过印章去除模型200，获取无印章预测图像和印章遮罩图像；无印章预测图像为去除印章后的图像。

在一些实施例中，关于印章去除模型200的更多内容，可以参见步骤120以及图2和图3相关描述。

保留图像生成模块430，用于基于待处理图像和印章遮罩图像，生成保留图像。

在一些实施例中，关于保留图像的更多内容，可以参见步骤130相关描述。

目标图像确定模块440，用于基于无印章预测图像和保留图像，确定目标图像。

在一些实施例中，关于目标图像的更多内容，可以参见步骤140相关描述。

应当理解，图4所示的印章去除系统400及其模块可以利用各种方式来实现。需要注意的是，以上对于印章去除系统400及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图4中披露的保留图像生成模块430和目标图像确定模块440可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

本说明书的一些实施例还提供一种印章去除装置，包括处理器，所述处理器用于执行如上述印章去除方法中的一个或多个步骤。在一些实施例中，处理器可以是单个的处理器或者处理器群组。所述处理器群组可以是集中式的或分布式的(例如，处理器可以是分布式的系统)。在一些实施例中，处理器可以是本地的或远程的。例如，处理器可以通过网络访问存储在存储设备或可读存储介质中的信息和/或数据。再例如，处理器可以直接连接到存储设备或可读存储介质以访问存储的信息和/或数据。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种印章去除方法，包括：

获取待处理图像，所述待处理图像为包括印章的图像；

基于所述待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像；所述无印章预测图像为去除所述印章后的图像；

基于所述待处理图像和所述印章遮罩图像，生成保留图像；

基于所述无印章预测图像和所述保留图像，确定目标图像。

2.如权利要求1所述的方法，其中：所述印章去除模型包括生成网络，所述生成网络包括恢复网络和改善网络；

所述恢复网络被配置为基于所述待处理图像，确定所述印章遮罩图像、特征图以及第一图像；

所述改善网络被配置为基于所述特征图、所述第一图像以及所述印章遮罩图像，确定所述无印章预测图像。

3.如权利要求2所述的方法，其中，所述生成网络的训练流程包括：

获取训练数据集；

基于所述训练数据集，对判别网络和所述生成网络通过生成对抗网络方法进行训练；其中，

所述生成网络的损失函数包括所述恢复网络的损失函数以及所述改善网络的损失函数；

所述判别网络的损失函数反映样本目标图像的判别结果与全零图像的差异、样本无印章图的判别结果与全一图像的差异；

所述恢复网络的损失函数反映二值印章遮罩图与印章遮罩真值图的差异、第一样本预测图像与所述样本无印章图的差异；

所述改善网络的损失函数反映第二样本预测图像与所述样本无印章图的差异、样本目标图像与所述样本无印章图的差异。

4.如权利要求3所述的方法，其中，所述训练数据集包括若干训练样本以及对应的标签，所述若干训练样本中的一个训练样本包括一个样本待处理图像，所述训练样本对应的所述标签包括生成所述样本待处理图像时选取的样本无印章图；

所述样本待处理图像以及所述样本无印章图的确定包括：

从真实图像中截取纯印章图像，对所述纯印章图像进行带有约束条件的随机尺寸缩放和/或随机颜色调整，得到样本纯印章图像；

基于所述样本纯印章图像构造样本纯印章图像集；

从所述真实图像中截取预设尺寸的纯文本图像，得到样本无印章图；

基于所述样本无印章图构造纯文本图像集；

对所述样本纯印章图像集中的所述样本纯印章图像以及所述纯文本图像集中的所述样本无印章图进行叠加，得到所述样本待处理图像。

5.如权利要求4所述的方法，其中，所述叠加包括对所述样本无印章图的不同区域以不同叠加方式进行叠加；其中，

对于所述样本无印章图中的印章和文本重合区域，所述叠加方式包括：对所述重合区域进行基于随机量的alpha通道叠加；

对于所述样本无印章图中的背景区域，所述叠加方式包括：对所述背景区域进行乘性叠加。

6.一种印章去除系统，包括：

图像获取模块，用于获取待处理图像，所述待处理图像为包括印章的图像；

印章去除模块，用于基于所述待处理图像，通过印章去除模型，获取无印章预测图像和印章遮罩图像；所述无印章预测图像为去除所述印章后的图像；

保留图像生成模块，用于基于所述待处理图像和所述印章遮罩图像，生成保留图像；

目标图像确定模块，用于基于所述无印章预测图像和所述保留图像，确定目标图像。

7.如权利要求6所述的系统，其中：所述印章去除模型包括生成网络，所述生成网络包括恢复网络和改善网络；

8.如权利要求7所述的系统，其中，所述生成网络的训练流程包括：

获取训练数据集；

9.如权利要求8所述的系统，其中，所述训练数据集包括若干训练样本以及对应的标签，所述若干训练样本中的一个训练样本包括一个样本待处理图像，所述训练样本对应的所述标签包括生成所述样本待处理图像时选取的样本无印章图；

所述样本待处理图像以及所述样本无印章图的确定包括：

基于所述样本纯印章图像构造样本纯印章图像集；

基于所述样本无印章图构造纯文本图像集；

10.如权利要求9所述的系统，其中，所述叠加包括对所述样本无印章图的不同区域以不同叠加方式进行叠加；其中，

对于所述样本无印章图中的印章和文本的重合区域，所述叠加方式包括：对所述重合区域进行基于随机量的alpha通道叠加；

11.一种印章去除装置，包括处理器，其特征在于，所述处理器用于执行如权利要求1～5任一项所述的印章去除方法。

12.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1～5任一项所述的印章去除方法。