CN110516577B

CN110516577B - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN110516577B
Application number: CN201910770050.0A
Authority: CN
Inventors: 刘钰安
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-07-12
Anticipated expiration: 2039-08-20
Also published as: CN110516577A

Abstract

本申请公开了一种图像处理方法、装置、电子设备及存储介质，该图像处理方法包括：获取第一文档图像；将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像；获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。本方法利用基于生成式对抗网络训练的文档图像的图像生成模型，完成文档图像到的指定页面风格的转换，从而得到清晰的文档图像。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

在数字信息化时代，很多纸质书籍会进行数字化的加工，以将书籍内容进行长期保存。其中，纸质书籍图像的数字化加工通常是采集纸质书籍的图像进行保存，但采集的图像中可能存在污渍、清晰度差等问题，导致用户在阅读保存的书籍图像体验较差。

发明内容

鉴于上述问题，本申请提出了一种图像处理方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种图像处理方法，所述方法包括：获取第一文档图像；将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像；获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。

第二方面，本申请实施例提供了一种图像处理装置，所述装置包括：图像获取模块、图像输入模块以及图像输出模块，其中，所述图像获取模块用于获取第一文档图像；所述图像输入模块用于将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像；所述图像输出模块用于获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的图像处理方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的图像处理方法。

本申请提供的方案，通过获取待处理的第一文档图像，将第一文档图像输入至已训练的图像生成模型，该图像生成模型由生成式对抗网络训练得到，图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像，可以获得图像生成模型基于第一文档图像输出的第二文档图像，并且第二文档图像具有该指定页面风格，从而可以实现将文档图像处理为指定页面风格，去除文档图像中的污渍，获得字迹清晰的文档图像。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的图像处理方法流程图。

图2a及图2b示出了本申请实施例提供的文档图像通过图像生成模型生成目标页面风格的文档图像的一种对比图。

图3示出了根据本申请另一个实施例的图像处理方法流程图。

图4示出了本申请另一个实施例提供的对抗式生成网络的训练过程的示意图。

图5示出了根据本申请另一实施例提供的重建损失的示意图。

图6示出了根据本申请一个实施例的图像处理装置的一种框图。

图7示出了根据本申请一个实施例的图像处理装置的另一种框图。

图8是本申请实施例的用于执行根据本申请实施例的图像处理方法的电子设备的框图。

图9是本申请实施例的用于保存或者携带实现根据本申请实施例的图像处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

古籍是中国的宝贵财富和民族文化发展的缩影，古籍文化也是中华民族思想传承的载体，但是古籍的纸张不宜于保存，因此在信息数字化的时代，将古籍进行数字化加工是古籍长期保存的发展趋势。其中，对古籍进行数字化加工，通常是通过获取古籍文档内容的图像，然后进行图像处理后进行保存。

影印的古籍文档图像通常会存在页面泛黄、泛黑、墨迹浸润、页面污渍等现象。因此，会对古籍文档图像进行二值化处理、古籍文档的边框检测、污点检测等，以获取修复后的可用于保存的古籍文档图像。

发明人经过长时间的研究发现，传统的对文档图像的处理方法，通常采用的是工作人员手工设计的处理流程，以及手工的特征工程对文档图像进行处理，但是各种阈值计算的公式相对复杂，并且二值化算法、阈值和领域窗口半径的选取影响着图像处理的效果，因此对工作人员的要求较高。另外，传统的文档图像处理方案仅能针对有限的污染类型的处理，泛化性不强，不能覆盖到多种情况。

针对上述问题，发明人提出了本申请实施例提供的图像处理方法、装置、电子设备以及存储介质，可以实现通过能根据输入的文档图像，输出具有指定页面风格的文档图像的图像生成模型，对文档图像进行处理而生成指定页面风格的文档图像，实现无需用户设计复杂的阈值算法，即可实现生成各种风格的文档图像，并且去除文档图像的污渍等。其中，具体的图像处理方在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的图像处理方法的流程示意图。所述图像处理方法通过能根据输入的文档图像，输出具有指定页面风格的文档图像的图像生成模型，对文档图像进行处理而生成指定页面风格的文档图像，实现无需用户设计复杂的阈值算法，即可实现生成各种风格的文档图像，并且去除文档图像的污渍等。在具体的实施例中，所述图像处理方法应用于如图7所示的图像处理装置400以及配置有所述图像处理装置400的电子设备100(图8)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为智能手机、平板电脑、个人计算机(personalcomputer，PC)、笔记本电脑、服务器等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述图像处理方法具体可以包括以下步骤：

步骤S110：获取第一文档图像。

在本申请实施例中，电子设备可以获取需要进行处理的第一文档图像。第一文档图像中至少包括文字内容，文字内容的具体类型可以不作为限定，例如汉字、甲骨文文字、象形文字等。

在一些实施方式中，第一文档图像可以是纸质文档的拍摄图像，例如古籍文档的拍摄图像、现代书籍的拍摄图像等；第一文档图像也可以是页面上生成的包括文字内容的电子图像，例如根据文档生成软件中生成的文档所生成的图像，在此不作限定。

在一些实施方式中，第一文档图像可以由电子设备采集，也可以由电子设备预先存储，也可以由电子设备从其他设备获取，在此不作限定。

步骤S120：将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像。

在本申请实施例中，电子设备可以将第一文档图像输入至图像生成模型，从而图像生成模型对第一文档图像进行处理，将第一文档图像处理为具有指定页面风格的文档图像。其中，指定页面风格可以为具有相应背景和文字颜色的页面风格，并且该图像生成模型能且仅能将输入的图像转换为指定页面风格。

在一些实施方式中，图像生成模型可以存储于电子设备本地，电子设备可以直接从本地读取该图像生成模型的文件；图像生成模型也可以存储于服务器，电子设备在需要对第一文档图像进行处理时，可以调用服务器中的图像生成模型，在此不做限定。

在本申请实施例中，图像生成模型被预先训练，从而可以实现根据输入的文档图像，将文档图像处理为具有指定页面风格的文档图像。

在一些实施方式中，图像生成模型可以根据大量训练样本，对生成式对抗网络进行训练得到。训练样本可以包括文档图像以及指定页面风格的风格图像。其中，生成式对抗网络(GAN,Generative Adversarial Networks)是一种无监督学习的深度学习模型，生成式对抗网络至少包括生成器和判别器，生成式对抗网络由于其生成器和判别器的相互博弈学习产生较好的输出，生成器和判别器可以为深度神经网络，也可以为其他模型，在此不作为限定。

在训练生成式对抗网络时，可以将训练样本中的文档图像，以及指定页面风格的风格图像，对生成式对抗网络的生成器和判别器进行训练，以得到图像生成模型。

在一些实施方式中，可以将文档图像作为生成器的输入，将该输入图像和生成器输出的文档图像作为判别器的输入，对生成器和判别器进行交替迭代训练。具体的，在交替训练生成器和判别器时，先优化判别器，因为生成器一开始生成的图像与风格图像有较大的偏差，判别器一开始容易判别出输入的文档图像是否是风格图像，在对生成器进行优化后，生成器的损失函数慢慢变小，同时也提高判别器的二分类能力，最后经过多次迭代训练，使得生成器输出的文档图像容易被判别器判别为训练样本中的风格图像，从而就完成了对生成器生成指定页面风格的文档图像的训练，后续则生成器可以根据输入的文档图像输出该指定页面风格的文档图像，并且保证输出的文档图像中的页面内容(文字、线框等)相对输入的文档图像的页面内容不会变化，此时的生成器即可作为上述图像生成模型。

在古籍文档的处理场景中，用户可以根据需求而利用文档图像和指定页面风格的风格图像，对生成式对抗网络进行训练，从而使得生成器能够将古籍文档图像处理为具有某种指定页面风格的电子古籍图像，例如，用户需求去除古籍文档图像的背景中污渍，则可以利用古籍文档图像以及具有纯净背景的页面风格的风格图像，对生成式对抗网络进行训练，从而训练得到的图像生成模型可以根据输入的背景中有污渍的古籍文档图像，输出纯净背景的页面风格的电子古籍图像，并且保持输入的古籍文档图像中的文档内容与输出的电子古籍图像中的文字内容一致。

步骤S130：获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。

在本申请实施例中，在将第一文档图像输入至图像生成模型以后，图像生成模型则可以根据输入的第一文档图像，实现将第一文档图像处理为具有指定页面风格的第二文档图像，从而电子设备可以获得具有指定页面风格的第二文档图像，实现将第一文档图像处理为指定页面风格的文档图像。

在古籍文档的处理场景中，假如已训练的图像生成模型能将输入的古籍文档图像处理为具有白底黑字(即白色背景和黑色文字)的页面风格的文档图像，则用户可以将待处理的古籍文档图像输入至图像生成模型，从而获得处理为白底黑字的页面风格的文档图像。例如，如图2a和图2b所示，在将图2a所示的文档图像输入至图像生成模型后，则可以获得的图像生成模型根据输入的文档图像，而输出的文档图像具有白底黑字的页面风格，实现将古籍文档图像处理为白底黑字的页面风格的文档图像(即图2b所示的文档图像)，并且输出的文档图像与输入的文档图像具有相同的文字内容。

本申请实施例提供的图像处理方法，通过能根据输入的文档图像，输出具有指定页面风格的文档图像的图像生成模型，将第一文档图像输入至该图像生成模型，可以获得图像生成模型基于第一文档图像输出的第二文档图像，并且获得的第二文档图像具有该指定页面风格，从而无需用户设计复杂的阈值算法，即可实现生成指定页面风格的文档图像，并且能够达到去除文档图像中的污渍等效果，提升文档图像中的字迹清晰度。

请参阅图3，图3示出了本申请另一个实施例提供的图像处理方法的流程示意图。该方法应用于上述移动终端，下面将针对图3所示的流程进行详细的阐述，所述图像处理方法具体可以包括以下步骤：

步骤S210：获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，所述风格图像为具有所述指定页面风格的文档图像。

在本申请实施例中，针对前述实施例中的图像生成模型，本申请实施例中还包括对该图像生成模型的训练方法，值得说明的是，对图像生成模型的训练可以是根据获取的训练数据集合预先进行的，后续在每次需要对文档图像进行处理时，则可以利用训练得到的图像生成模型进行，而无需每次对文档图像进行处理时对图像生成模型进行训练。

在一些实施方式中，训练数据集合可以包括多张文档图像以及多张指定页面风格的风格图像。风格图像中的文字内容及位置排列可以与文档图像的文字内容及位置排列相同；由于生成式对抗网络的训练为无监督的深度学习，因此风格图像中的文字内容及位置排列也可以与文档图像的文字内容及位置排列不同，此时的风格图像的文字内容及位置排列与文档图像的文字内容及位置排列可以大致相同即可。其中，指定页面风格的风格图像的数量可以为文档图像的数量的多倍，例如2倍等，具体数量可以不作为限定。

在一些实施方式中，训练数据集合可以来源于包括大量文档图像的数据集，该数据集的具体来源可以不作为限定。

在一些实施方式中，训练数据集合也可以通过构建的方式获取。具体的，可以包括：获取多张纸质文档的图像，作为所述训练数据集合中的多张文档图像；按照所述纸质文档的文字排列方式，在所述指定页面风格的电子文档页面编辑多个电子文档，所述电子文档中文字参数与所述纸质文档中文字参数相同；获取所述多个电子文档的图像作为所述训练数据集合中的风格图像。

其中，按照所述纸质文档的文字排列方式，在指定页面风格的电子文档页面编辑多个电子文档，可以使编辑的电子文档中文字的排列方式与纸质文档相同，如若纸质文档为横排排列，则该电子文档中的文字也横排排列，若纸质文档为竖排排列，则该电子文档中的文字为竖排排列。可以编辑电子文档中的字体与纸质文档中的字体类似，具体类似的对应可以预先设置，即预先设置纸质文档中字体与电子文档字体的对应关系，从而根据当前纸质文档的字体确定电子文档对应的字体，如纸质文档为楷书、行书等，电子文档对应的字体可以是宋体、楷体、黑体等。可以根据纸质文档中的文字大小，编辑文字大小在所述纸质文档中文字大小的预设范围内的多个电子文档，该预设范围可以由相关人员根据经验设置。

在一些实施方式中，在对生成式对抗网络进行训练之前，还可以对训练数据集合进行数据增强处理，以增加数据量，提升泛化性。因此，可以对获取的多张文档图像以及多张风格图像进行数据增强处理，根据多张文档图像、多张风格图像以及数据增强处理后得到的图像，获得所述训练数据集合。其中，数据增强处理可以包括对获取的文档图像以及风格图像进行随机裁剪、随机左右翻转等处理，在此不做限定。

步骤S220：获取生成式对抗网络。

在本申请实施例中，在训练得到图像生成模型时，可以构建生成式对抗网络，生成式对抗网络可以包括生成器、判别器以及边缘检测器。所述生成器用于根据输入的文档图像输出风格变化后的图像；所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，所述图像域包括源域以及目标域；所述边缘检测器用于根据输入的文档图像而输出边缘图像。

其中，图像域包括源域或者目标域，源域指训练数据集合中文档图像对应的图像域，而目标域指训练数据集合中风格图像对应的图像域。生成器可以根据不同图像域的标签而获知将输入的图像往标签对应的图像域进行转换。判别器对生成器输出的文档图像进行图像域的分类，即判别器可以分类出生成器输出的文档图像为源域的图像，还是为具目标域的图像。

在本申请实施例中，生成器和判别器均可以为卷积神经网络。例如，输入生成器的文档图像经过卷积、批归一化(BN)和激活函数(Relu)激活后，再进行有卷积、批归一化和Relu函数的激活，然后再通过多个残差块及卷积层后，输出一张与输入的文档图像具有相同大小的文档图像。判别器根据输入的文档图像，经过多次卷积、批归一化以及激活函数激活后，再经过激活函数处理后的输出文档图像是否为训练数据集合中的图像。

在一些实施方式中，由于需要训练得到的图像生成模型能完成多目标域的图像翻译任务(即能完成将输入的文档图像转换成多种页面风格中任意页面风格的文档图像)，因此对生成器和判别器特征表示能力要求比较高，从而可以使用较多层数的卷积神经网络。图像翻译指将源域的一张图像转换成目标域的一张图像，学习一个像素到像素和图像到图像的映射。例如，判别器可以使用一个3层深的卷积神经网络，生成器使用“Encoder(编码器)-Decoder(解码器)”风格的全卷积神经网络，下采样使用步长为2的卷积，上采样阶段使用转置卷积实现。Encoder(解码器)可以堆叠6个深度可分离卷积块，相比于普通的卷积层，提升了特征表达能力同时减少了运算量。

在本申请实施例中，边缘检测器可以采用Sobel(索贝尔)算子实现，由于Sobel算子较为简单，因此不会增加过多运算量。Sobel算子包含两组3x3的矩阵，分别为横向及纵向，将之与图像作平面卷积，即可分别得出横向及纵向的亮度差分近似值。如果以A代表原始图像，Gx及Gy分别代表经横向及纵向边缘检测的图像，其公式如下：

图像的每一个像素的横向及纵向梯度近似值可用公式

结合，来计算梯度的大小。

梯度方向可以由以下公式计算：

其中，如果以上的角度θ等于零，即代表图像该处拥有纵向边缘，左方较右方暗。

具体通过Sobel算子检测图像的边缘获得边缘图像的方式在本申请实施例中并不进行赘述。

在本申请实施例中，生成式对抗网络中的边缘检测器主要用于检测文档图像中图像内容的边缘特征，例如文字、线框等的边缘特征。边缘检测器根据输入的文档图像输出的边缘图像，主要用于计算边缘损失，边缘损失主要用于衡量生成器生成的图像与原图的边缘图像的差异。由于本申请实施例提供的图像处理方法是对文档图像进行处理，因此加入边缘检测器，以便计算边缘损失，从而克服生成式对抗网络本身的缺陷，即擅长处理纹理而并不擅长处理形变，只会学习到风格而未能学习到形变。因此，通过在生成式对抗网络中构建边缘检测器以及计算边缘损失，可以保留输入的文档图像中的字形至生成器输出的文档图像中。

步骤S230：根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得所述图像生成模型。

在本申请实施例中，在对生成式对抗网络进行训练时，可以利用以上获取的训练数据集合，对生成式对抗网络进行迭代训练，以获得训练后的生成式对抗网络。

在一些实施方式中，可以根据训练数据集合以及边缘检测器，对判别器以及所述生成器进行交替迭代训练，直至生成式对抗网络收敛，将训练后的生成器作为图像生成模型。

在一种具体的实施方式中，根据训练数据集合以及边缘检测器，对判别器以及生成器进行交替迭代训练，可以包括：获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。其中，生成式对抗网络收敛的条件可以为：所述损失函数的值固定不变。

可以理解的，损失函数用于计算判别器的损失以及生成器的损失。生成器的损失可以来源于生成器生成的图像的判别损失、生成器生成的图像的边缘损失、生成器对生成的图像的重建损失以及生成器生成的图像的域分类损失。其中，判别损失以及域分类损失可以用于衡量生成器将输入的文档图像转换为相应页面风格时风格的损失，判别损失以及域分类损失越大，则表示生成器生成的文档图像与相应页面风格相差较大，而无法被判别器判别为真图像(即训练数据集合中的风格图像)，也无法被分类为目标域的图像。边缘损失用于衡量生成器生成的文档图像相对输入的图像中边缘特征的损失，由于该方法用于文档图像的处理，而文档图像中通常有较多文字、线框等内容，因此计算边缘损失，可以很好的衡量生成器生成的文档图像相对输入的文档图像的内容损失，边缘损失较大时，则表示生成的文档图像中文字的字形等与输入的文档图像相差较大。计算重建损失，则可以确保生成器较好的学习到从目标域到源域的映射。

在根据训练数据集合对判别器以及生成器进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对判别器和生成器的参数进行优化，则判别器的第一损失函数以及生成器的第二损失函数越来越小，最后变小为一个固定值，此时，则表示生成式对抗网络已收敛。

下面结合图4，对生成式对抗网络的训练进行说明。

在一个训练周期中，遍历所有X域图像并不放回地选取Y域图像分别作为原图X和原图Y，其中X域为源域，Y域为目标域，源域图像为训练数据集合中的文档图像，目标域图像为训练数据集合中的风格图像。

并且，每个训练周期中，可以先固定住生成器的参数来训练判别器，然后固定住判别器的参数来训练生成器。

在图4所示的生成式对抗网络的训练过程的示意图中，将原图X，Y送入生成器得到映射图像G(X)，G(Y)，将原图X与G(Y)，原图Y与G(X)，送入判别器，得到真假判断以及域分类结果，然后对判别器的所有损失(判别损失以及域分类损失)求和，并对判别器执行反向传播算法来优化和更新判别器的参数。

在对生成器进行训练时，将原图X和Y域的映射图像G(X)，原图X送入边缘检测模块得到边缘图Ed(X)将G(X)和目标域标记LX送入生成器G重新映射到X域，得到重建图像G(G(X))，将映射图G(X)送入判别器D得到真假判断以及域分类结果；将映射图G(X)送入判别器D，计算GAN损失以及域分类损失Domain Classification Loss(DC Loss)；计算边缘图Ed(X)和映射图G(X)之间的边缘损失Edge Loss；计算原图X和重建图像G(G(X))之间的重建损失Cyclic Loss；将原图Y和one-hot编码之后的目标域标记LX在深度维度上拼接送入生成器G，得到原图Y到X域的映射图片G(Y)，将原图Y送入边缘检测模块得到边缘图Ed(Y)，将G(Y)和目标域标记LY送入生成器G重新映射到Y域，得到重建图像G(G(Y))，将映射图G(Y)送入判别器D得到真假判断以及域分类结果；然后计算判别损失(GAN损失)、域分类损失、边缘图Ed(Y)和映射图G(Y)之间的边缘损失及原图X和重建图像G(G(X))之间的重建损失；然后对所有损失进行求和，执行反向传播算法来更新和优化生成器的参数。

重复上述对判别器以及生成器的训练，在经过多次的训练后，生成式对抗网络将会收敛，此时，判别器的损失以及生成器的损失将会维持在一个定值。

网络训练过程中，按如下方式进行优化：

在该优化公式中，D表示判别器,G表示生成器。优化时，最大化D的损失，最小化G上的损失，通过反向传播算法更新生成器以及判别器的参数。

其中，损失函数

表示所有损失之和的损失函数，具体为：

其中，损失函数

是GAN损失

循环重建损失

域分类损失

以及边缘损失

的和。GAN损失为确保能够正确地执行源域到目标域的映射，循环重建损失则在于从目标域到源域的映射。边缘损失是为确保边缘不改变。由于去除掉边缘检测模块的网络，适合处理纹理改变而不适合处理形变，所以边缘检测模块配合边缘损失是非常有必要的，可以确保产生纹理改变的同时不产生不想要的形变。

判别器的判别损失(GAN损失)的具体计算公式如下：

其中，判别器的判别损失(GAN损失)的具体计算公式如下：

判别损失是一个0或1的二分类损失，GAN损失是判断收到的图片是生成的图片还是真实的图片，判别损失用于确保能够正确的执行源域到目标域的映射。域分类损失(Domain Classification Loss)采用交叉熵损失的形式，将图片属于哪个域进行分类，域分类损失确保了多个域的图像进行转换的时候能产生正确的结果。D(y)是判别器D收到目标域图像Y后将其判断为真实的目标域的图像的概率，而D(G(x))是判别器D收到映射图G(X)后将其判断为真实的目标域的图像的概率。D(x)判别器D收到源域图像X后将其判断为真实的源域的图像的概率，D_X(G(y))是判别器D收到映射图G(Y)后将其判断为真实的源域的图像的概率。

因为目标域图像本身就是真实的目标域的图像，所以对于判别器D而言，D(x)和D(y)的值越接近1越好，表示判别器D的性能越好。由于假图像本身不是真实的目标域的图像，而是生成的目标域的图像，所以，对于判别器D而言，D(G(x))和D_X(G(y))越小越好，表示判别器D的性能越好。从而，对于判别器D而言，判别损失

越大越好，所以最大化判别器D的判别损失

可以获得更好的判别器D。从而，在优化过程中，最大化D的损失。

另外，对于生成器而言，生成的图像越接近真实越好。例如，对于生成器G，生成的假图像被判别器D进行判别后的判别结果越接近1，表示该生成器G的性能越好。因此，对于生成器而言，D(G(x))以及D_X(G(y))越大表示生成器G的性能越好，则判别损失越小越好，即最小化生成器G的损失，可以获得性能更好的生成器G。

重建损失Cyclic loss具体公式如下：

其中，G(G(x))以及G(G(y))表示上述的重建图像，x表示源域图像，y表示目标域图像。如图5示出了一种重建损失的示意图，重建损失采用L1距离衡量源域图像与源域图像映射到目标域再映射回到源域的图像之间的相似性，采用L1距离衡量目标域图像与目标域图像映射到源域再映射回到目标域的图像之间的相似性。G重建损失的采用L1距离衡量原图X与映射到Y域再映射回到X域，原图Y与映射到X域再映射回到Y域之间图片的相似性。期望经过两次映射之后图片应当尽可能相似。

边缘损失具体公式如下：

边缘损失采用L1距离衡量通过生成器生成的文档图像与源域图像的边缘图的差异。由于执行的任务是古籍文档图像的翻译处理，若是去除掉边缘检测模块以及边缘损失，则由于生成式对抗网络本身的缺陷，即擅长处理纹理而并不擅长处理形变，这样只学习到风格而未能学习到形变，会与本申请达到的目的相违背。因此，边缘检测模块和边缘损失可以保留字体的边缘以及字形。

在优化过程中，根据该判别损失进行优化后，确定生成器能正确地执行源域到目标域的映射。根据该重建损失进行优化后，确保生成器能正确地执行目标域到源域的映射。根据该边缘损失进行优化后，确保生成的目标域的图像的边缘不改变。根据域分类损失进行优化后，确保能正确地执行源域到目标域的映射。

在一个训练周期中，每个循环都可以判定生成式对抗网络是否收敛。可选的，判定生成式对抗网络是否收敛的方式可以是，判断最近预设次数的循环中，所有损失的和是否稳定在预设的数值区间内；或者是，判断最近预设次数的循环中，所有损失的和的波动范围是否在预设范围内。当然也可能是其他判定方式。

步骤S240：获取第一文档图像。

在本申请实施例中，获取第一文档图像的方式，可以包括：拍摄一纸质文档，获得包含所述纸质文档的内容的图像作为所述第一文档图像；或者接收其他设备发送的纸质文档的图像，作为所述第一文档图像。可以理解的，电子文档可以通过现场拍摄纸质文档的图像作为待处理的文档图像，也可以通过接收其他合并发送的纸质文档图像作为待处理的文档图像。

步骤S250：将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像。

步骤S260：获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。

在本申请实施例中，步骤S250以及步骤S260可以参阅前述实施例的内容，在此不再赘述。

本申请实施例提供的图像处理方法，提供了训练图像生成模型的方法，通过获取训练数据集合，构件包括生成器、判别器以及边缘检测器的对抗式生成网络，再构建生成器以及判别器的损失函数，然后利用损失函数以及训练数据集合对生成器以及判别器进行交替迭代训练，在生成式对抗网络收敛时，将训练得到的生成器保存，并作为图像生成模型，在利用指定页面风格的风格图像对生成式对抗网络进行训练后，则可以得到能生成指定页面风格的文档图像的图像生成模型。从而可以利用该图像生成模型，对文档图像处理为指定页面风格的文档图像，而无需用户设计复杂的算法流程，即可实现文档图像的处理。

请参阅图6，其示出了本申请实施例提供的一种图像处理装置400的结构框图。该图像处理装置400应用上述的移动终端，该图像处理装置400包括：图像获取模块410、图像输入模块420以及图像输出模块430。其中，所述图像获取模块410用于获取第一文档图像；所述图像输入模块420用于将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像；所述图像输出模块430用于获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述指定页面风格。

在本申请实施例中，请参见图7，该图像处理装置400还可以包括数据集获取模块440、网络获取模块450以及网络训练模块460。数据集获取模块440用于获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，所述风格图像为具有所述指定页面风格的文档图像；网络获取模块450用于获取生成式对抗网络；网络训练模块460用于根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得所述图像生成模型。

在一些实施方式中，所述生成式对抗网络包括生成器、判别器以及边缘检测器，其中，所述生成器用于根据输入的文档图像输出风格变化后的图像；所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，所述图像域包括源域以及目标域；所述边缘检测器用于根据输入的文档图像而输出边缘图像。

进一步的，网络训练模块460可以具体用于：根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

在该实施方式下，网络训练模块460根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型，可以包括：获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

在一些实施方式中，训练集获取模块440可以具体用于：获取多张纸质文档的图像，作为所述训练数据集合中的多张文档图像；按照所述纸质文档的文字排列方式，在所述指定页面风格的电子文档页面编辑多个电子文档，所述电子文档中文字参数与所述纸质文档中文字参数相同；获取所述多个电子文档的图像作为所述训练数据集合中的风格图像。

在一些实施方式中，图像获取模块410可以具体用于：拍摄一纸质文档，获得包含所述纸质文档的内容的图像作为所述第一文档图像；或者接收其他设备发送的纸质文档的图像，作为所述第一文档图像。

在一些实施方式中，所述第一文档图像中至少包括文字内容，具有所述指定页面风格的所述第二文档图像中至少包括指定背景以及具有指定颜色的所述文字内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过获取待处理的第一文档图像，将第一文档图像输入至已训练的图像生成模型，该图像生成模型由生成式对抗网络训练得到，图像生成模型用于根据输入的文档图像，输出具有唯一指定页面风格的文档图像，可以获得图像生成模型基于第一文档图像输出的第二文档图像，并且第二文档图像具有该指定页面风格，从而可以实现将文档图像处理为指定页面风格，去除文档图像中的污渍，获得字迹清晰的文档图像。

请参考图8，其示出了本申请实施例提供的一种移动终端的结构框图。该移动终端100可以是智能手机、平板电脑、PC、服务器等能够运行应用程序的移动终端。本申请中的移动终端100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个移动终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行移动终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取第一文档图像；

将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出多种页面风格中任一页面风格的文档图像，训练所述图像生成模型的过程中采用的损失函数包括生成器生成图像的判别损失、所述生成器对生成图像的重建损失、所述生成器对图像的边缘损失以及判别器基于交叉熵损失函数对所述生成器生成的图像的图像域确定的域分类损失，所述多种页面风格包括背景为纯色，且不同字体类型和/或不同字体大小构成的页面风格；所述生成式对抗网络包括生成器、判别器以及边缘检测器，其中，所述生成器用于根据输入的文档图像输出风格变化后的图像；所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，所述图像域包括源域以及目标域；所述边缘检测器用于根据输入的文档图像而输出边缘图像；

获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述多种页面风格中的指定页面风格，所述指定页面风格是根据用户需求确定得到。

2.根据权利要求1所述的方法，其特征在于，所述图像生成模型通过如下步骤训练得到：

获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，所述风格图像为具有所述指定页面风格的文档图像；

获取生成式对抗网络；

根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得所述图像生成模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得所述图像生成模型，包括：

根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型，包括：

获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；

根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

5.根据权利要求2所述的方法，其特征在于，所述获取训练数据集合，包括：

获取多张纸质文档的图像，作为所述训练数据集合中的多张文档图像；

按照所述纸质文档的文字排列方式，在所述指定页面风格的电子文档页面编辑多个电子文档，所述电子文档中文字参数与所述纸质文档中文字参数相同；

获取所述多个电子文档的图像作为所述训练数据集合中的风格图像。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取第一文档图像，包括：

拍摄一纸质文档，获得包含所述纸质文档的内容的图像作为所述第一文档图像；或者

接收其他设备发送的纸质文档的图像，作为所述第一文档图像。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述第一文档图像中至少包括文字内容，具有所述指定页面风格的所述第二文档图像中至少包括指定背景以及具有指定颜色的所述文字内容。

8.一种图像处理装置，其特征在于，所述装置包括：图像获取模块、图像输入模块以及图像输出模块，其中，

所述图像获取模块用于获取第一文档图像；

所述图像输入模块用于将所述第一文档图像输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像，输出多种页面风格中任一页面风格的文档图像，训练所述图像生成模型的过程中采用的损失函数包括生成器生成图像的判别损失、所述生成器对生成图像的重建损失、所述生成器对图像的边缘损失以及判别器基于交叉熵损失函数对所述生成器生成的图像的图像域确定的域分类损失，所述多种页面风格包括背景为纯色，且不同字体类型和/或不同字体大小构成的页面风格；所述生成式对抗网络包括生成器、判别器以及边缘检测器，其中，所述生成器用于根据输入的文档图像输出风格变化后的图像；所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，所述图像域包括源域以及目标域；所述边缘检测器用于根据输入的文档图像而输出边缘图像；

所述图像输出模块用于获得所述图像生成模型基于所述第一文档图像输出的第二文档图像，所述第二文档图像具有所述多种页面风格中的指定页面风格，所述指定页面风格是根据用户需求确定得到。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。