CN110516201B

CN110516201B - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN110516201B
Application number: CN201910770049.8A
Authority: CN
Inventors: 刘钰安
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-03-28
Anticipated expiration: 2039-08-20
Also published as: CN110516201A

Abstract

本申请公开了一种图像处理方法、装置、电子设备及存储介质，该图像处理方法包括：获取第一文档图像；获取目标页面风格；将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。本方法利用基于生成式对抗网络训练的文档图像的图像生成模型，可以实现对多种风格的转换，满足用户的不同需求。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

在数字信息化时代，很多纸质书籍会进行数字化的加工，以将书籍内容进行长期保存。其中，纸质书籍图像的处理是数字化加工中的难点。目前，对于书籍图像的处理通常采用人工设计的图像处理方法，其需要多种阈值计算的公式，给处理人员带来了较大困难。

发明内容

鉴于上述问题，本申请提出了一种图像处理方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种图像处理方法，所述方法包括：获取第一文档图像；获取目标页面风格；将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

第二方面，本申请实施例提供了一种图像处理装置，所述装置包括：图像获取模块、风格获取模块、图像输入模块以及图像输出模块，其中，所述图像获取模块用于获取第一文档图像；所述风格获取模块用于获取目标页面风格；所述图像输入模块用于将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；所述图像输出模块用于获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的图像处理方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的图像处理方法。

本申请提供的方案，通过获取第一文档图像以及目标页面风格，将第一文档图像以及目标页面风格对应的标签输入至已训练的图像生成模型，该图像生成模型由生成式对抗网络训练得到，该图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与输入的标签对应的页面风格的文档图像，可以获得图像生成模型基于第一文档图像以及目标页面风格对应的标签输出的第二文档图像，并且获得的第二文档图像具有该目标页面风格，从而无需用户设计复杂的阈值算法，即可实现将文档图像转换至用户需求的风格，减少工作人员的工作量，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的图像处理方法流程图。

图2a及图2b示出了本申请实施例提供的文档图像通过图像生成模型生成目标页面风格的文档图像的一种对比图。

图3示出了根据本申请另一个实施例的图像处理方法流程图。

图4示出了本申请另一个实施例提供的对抗式生成网络的训练过程的示意图。

图5示出了根据本申请又一个实施例的图像处理方法流程图。

图6示出了本申请又一个实施例提供的一种界面示意图。

图7示出了根据本申请一个实施例的图像处理装置的一种框图。

图8示出了根据本申请一个实施例的图像处理装置的另一种框图。

图9是本申请实施例的用于执行根据本申请实施例的图像处理方法的电子设备的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的图像处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

古籍是中国的宝贵财富和民族文化发展的缩影，古籍文化也是中华民族思想传承的载体，但是古籍的纸张不宜于保存，因此在信息数字化的时代，将古籍进行数字化加工是古籍长期保存的发展趋势。其中，对古籍进行数字化加工，通常是通过获取古籍文档内容的图像，然后进行图像处理后进行保存。

影印的古籍文档图像通常会存在页面泛黄、泛黑、墨迹浸润、页面污渍等现象。因此，会对古籍文档图像进行二值化处理、古籍文档的边框检测、污点检测等，以获取修复后的可用于保存的古籍文档图像。

发明人经过长时间的研究发现，传统的对文档图像的处理方法，通常采用的是工作人员手工设计的处理流程，以及手工的特征工程对文档图像进行处理，但是各种阈值计算的公式相对复杂，并且二值化算法、阈值和领域窗口半径的选取影响着图像处理的效果，因此对工作人员的要求较高。并且，传统的文档图像的处理，仅能对单一的风格进行处理，无法实现将文档图像转换至多种风格的图像。

针对上述问题，发明人提出了本申请实施例提供的图像处理方法、装置、电子设备以及存储介质，可以实现通过能根据输入的文档图像以及输入的标签，输出具有与输入的标签对应的页面风格的文档图像的图像生成模型，对文档图像进行处理而生成需求的页面风格的文档图像，实现无需用户设计复杂的阈值算法，即可实现生成各种风格的文档图像。其中，具体的图像处理方在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的图像处理方法的流程示意图。所述图像处理方用于通过能根据输入的文档图像以及输入的标签，输出具有与输入的标签对应的页面风格的文档图像的图像生成模型，对文档图像进行处理而生成需求的页面风格的文档图像，实现无需用户设计复杂的阈值算法，即可实现生成各种风格的文档图像。在具体的实施例中，所述图像处理方法应用于如图7所示的图像处理装置400以及配置有所述图像处理装置400的电子设备100(图9)。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为智能手机、平板电脑、个人计算机(personal computer，PC)、笔记本电脑、服务器等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述图像处理方法具体可以包括以下步骤：

步骤S110：获取第一文档图像。

在本申请实施例中，电子设备可以获取需要进行处理的第一文档图像。第一文档图像中至少包括文字内容，文字内容的具体类型可以不作为限定，例如汉字、甲骨文文字、象形文字等。

在一些实施方式中，第一文档图像可以是纸质文档的拍摄图像，例如古籍文档的拍摄图像、现代书籍的拍摄图像等；第一文档图像也可以是页面上生成的包括文字内容的电子图像，例如根据文档生成软件中生成的文档所生成的图像，在此不作限定。

在一些实施方式中，第一文档图像可以由电子设备采集，也可以由电子设备预先存储，也可以由电子设备从其他设备获取，在此不作限定。

步骤S120：获取目标页面风格。

在本申请实施例中，电子设备还可以获取第一文档图像需要转换成的目标页面风格，也就是第一文档图像在经过后续处理后得到的文档图像所具有的页面风格。其中，不同的页面风格可以由不同的页面背景和不同的字体颜色，页面风格的具体内容可以不作为限定。

在一些实施方式中，目标页面风格可以由用户选取，例如电子设备展示页面风格选取的界面，以供用户选取；目标页面风格也可以根据不同的场景而设定，例如在应用于古籍文档的保存时，则目标页面风格可以为纯色背景且字体颜色鲜明的页面风格，又例如在应用于现代书籍的查阅时，则目标页面风格可以为背景颜色暗淡但字体颜色鲜明的页面风格，在此不作限定。

在一些实施方式中，通常在对文档图像进行处理时，会处理多张文档图像，因此在对多张文档图像的处理过程中，每张文档图像需要处理至的页面风格可以为同一页面风格(例如上述目标页面风格)，也可以是部分文档图像处理至相同的页面风格，还可以是每张图像处理至不同的页面风格，在此不作限定。

步骤S130：将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像。

在本申请实施例中，电子设备可以根据第一文档图像待处理至的目标页面风格，将第一文档图像以及目标页面风格对应的标签输入至图像生成模型，从而图像生成模型可以根据目标页面风格的标签，对第一文档图像进行处理，将第一文档图像处理为具有目标页面风格的文档图像。

在一些实施方式中，图像生成模型可以存储于电子设备本地，电子设备可以直接从本地读取该图像生成模型的文件；图像生成模型也可以存储于服务器，电子设备在需要对第一文档图像进行处理时，可以调用服务器中的图像生成模型，在此不做限定。

在本申请实施例中，图像生成模型被预先训练，从而可以实现根据输入的文档图像以及输入的标签，将文档图像处理为具有该输入的标签所对应的风格的文档图像。

在一些实施方式中，图像生成模型可以根据大量训练样本，对生成式对抗网络进行训练得到。训练样本可以包括文档图像以及多种页面风格的风格图像。其中，生成式对抗网络(GAN,Generative Adversarial Networks)是一种无监督学习的深度学习模型，生成式对抗网络至少包括生成器和判别器，生成式对抗网络由于其生成器和判别器的相互博弈学习产生较好的输出，生成器和判别器可以为深度神经网络，也可以为其他模型，在此不作为限定。

在训练生成式对抗网络时，可以将训练样本中的文档图像，以及多种页面风格的风格图像，对生成式对抗网络的生成器和判别器进行训练，以得到图像生成模型。

在一些实施方式中，可以将文档图像以及标签作为生成器的输入，将该输入图像和生成器输出的文档图像作为判别器的输入，对生成器和判别器进行交替迭代训练。具体的，在交替训练生成器和判别器时，先优化判别器，因为生成器一开始生成的图像与风格图像有较大的偏差，判别器一开始容易判别出输入的文档图像是否是风格图像，在对生成器进行优化后，生成器的损失函数慢慢变小，同时也提高判别器的二分类能力，最后经过多次迭代训练，使得生成器输出的文档图像容易被判别器判别为训练样本中的风格图像，从而就完成了对生成器生成一种页面风格的文档图像的训练，并且学习到将该标签与该页面风格关联，后续再将文档图像以及该标签输入至生成器时，则生成器可以获知根据输入的文档图像输出该页面风格的文档图像。通过如上训练，在根据文档图像以及多种页面风格的风格图像，对生成式对抗网络进行训练后，则得到的生成器能根据输入的文档图像和输入的标签，输出具有与输入的标签对应的页面风格的文档图像，并且保证输出的文档图像中的页面内容(文字、线框等)相对输入的文档图像的页面内容不会变化，此时的生成器即可作为上述图像生成模型。

在古籍文档的处理场景中，用户可以根据需求而利用文档图像和不同页面风格的风格图像，对生成式对抗网络进行训练，从而使得生成器能够将古籍文档图像处理为具有某种页面风格的电子古籍图像，例如，用户需求去除古籍文档图像的背景中污渍，则可以利用古籍文档图像以及具有纯净背景的页面风格的风格图像，对生成式对抗网络进行训练，从而训练得到的图像生成模型可以根据输入的背景中有污渍的古籍文档图像，输出纯净背景的页面风格的电子古籍图像，并且保持输入的古籍文档图像中的文档内容与输出的电子古籍图像中的文字内容一致。

步骤S140：获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

在本申请实施例中，在将第一文档图像以及目标页面风格对应的标签输入至图像生成模型以后，图像生成模型则可以根据输入的第一文档图像，实现将第一文档图像处理为具有目标页面风格的第二文档图像，从而电子设备可以获得具有目标页面风格的第二文档图像，实现将第一文档图像处理为需求的文档图像。

在古籍文档的处理场景中，假如已训练的图像生成模型能将输入的古籍文档图像处理为具有白底黑字(即白色背景和黑色文字)、红底黑字(即红色背景和黑色文字)、白底红字(即白色背景和红色文字)、绿底黑字(即绿色背景和黑色文字)和白底绿字(即白色背景和绿色文字)等页面风格的文档图像，则用户可以根据其需求，选择一种页面风格，并将待处理的古籍文档图像输入至图像生成模型，从而获得处理为相应页面风格的文档图像。例如，如图2a和图2b所示，如果用户选择白底黑字的页面风格，则获得的图像生成模型根据输入的文档图像，而输出的文档图像具有白底黑字的页面风格，实现将古籍文档图像处理为白底黑字的页面风格的文档图像，并且输出的文档图像与输入的文档图像具有相同的文字内容。

本申请实施例提供的图像处理方法，通过能根据输入的文档图像以及输入的标签，输出具有与输入的标签对应的页面风格的文档图像的图像生成模型，将第一文档图像以及目标页面风格对应的标签输入至该图像生成模型，可以获得图像生成模型基于第一文档图像以及目标页面风格对应的标签输出的第二文档图像，并且获得的第二文档图像具有该目标页面风格，从而无需用户设计复杂的阈值算法，即可实现生成多种风格中任意风格的文档图像。

请参阅图3，图3示出了本申请另一个实施例提供的图像处理方法的流程示意图。该方法应用于上述电子设备，下面将针对图3所示的流程进行详细的阐述，所述图像处理方法具体可以包括以下步骤：

步骤S210：获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，其中，所述多张风格图像中包括多种页面风格的文档图像。

在本申请实施例中，针对前述实施例中的图像生成模型，本申请实施例中还包括对该图像生成模型的训练方法，值得说明的是，对图像生成模型的训练可以是根据获取的训练数据集合预先进行的，后续在每次需要对文档图像进行处理时，则可以利用训练得到的图像生成模型进行，而无需每次对文档图像进行处理时对图像生成模型进行训练。

在一些实施方式中，训练数据集合可以包括多张文档图像以及多张风格图像，多张风格图像中包括多种页面风格的文档图像。风格图像中的文字内容及位置排列可以与文档图像的文字内容及位置排列相同；由于生成式对抗网络的训练为无监督的深度学习，因此风格图像中的文字内容及位置排列也可以与文档图像的文字内容及位置排列不同，此时的风格图像的文字内容及位置排列与文档图像的文字内容及位置排列可以大致相同即可。其中，每种页面的风格图像的数量可以为多张，每种页面的风格图像的数量可以为文档图像的数量的多倍，例如2倍等，具体数量可以不作为限定。

在一些实施方式中，训练数据集合可以来源于包括大量文档图像的数据集，该数据集的具体来源可以不作为限定。

在一些实施方式中，训练数据集合也可以通过构建的方式获取。具体的，电子设备可以拍摄多张纸质文档的图像，作为训练数据集合中的多张文档图像，然后按照纸质文档的文字排列方式，在指定页面风格的电子文档页面编辑多个电子文档，电子文档中文字参数与所述纸质文档中文字参数相同，然后获取所述多个电子文档的图像作为训练数据集合中的风格图像。

在一些实施方式中，在对生成式对抗网络进行训练之前，还可以对训练数据集合进行数据增强处理，以增加数据量，提升泛化性。因此，可以对获取的多张文档图像以及多张风格图像进行数据增强处理，根据多张文档图像、多张风格图像以及数据增强处理后得到的图像，获得所述训练数据集合。其中，数据增强处理可以包括对获取的文档图像以及风格图像进行随机裁剪、随机左右翻转等处理，在此不做限定。

步骤S220：获取生成式对抗网络。

在本申请实施例中，在训练得到图像生成模型时，可以构建生成式对抗网络，生成式对抗网络可以包括生成器、判别器以及边缘检测器。生成器用于根据输入的文档图像输出风格变化后的文档图像，判别器用于判断生成器输出的文档图像是否为训练数据集合中的图像，以及用于对输出的文档图像进行图像域的分类，每种图像域对应一种图像风格的标签，边缘检测器用于根据输入的文档图像而输出边缘图像。

其中，图像域包括源域或者目标域，源域指训练数据集合中文档图像对应的图像域，而目标域指训练数据集合中风格图像对应的图像域，并且不同的页面风格的风格图像对应不同的目标域。生成器可以根据不同图像域的标签而获知将输入的图像往标签对应的图像域进行转换。判别器对生成器输出的文档图像进行图像域的分类，即判别器可以分类出生成器输出的文档图像为源域的图像，还是为具体的何种目标域的图像。

在本申请实施例中，生成器和判别器均可以为卷积神经网络。例如，输入生成器的文档图像经过卷积、批归一化(BN)和激活函数(Relu)激活后，再进行有卷积、批归一化和Relu函数的激活，然后再通过多个残差块及卷积层后，输出一张与输入的文档图像具有相同大小的文档图像。判别器根据输入的文档图像，经过多次卷积、批归一化以及激活函数激活后，再经过激活函数处理后的输出文档图像是否为训练数据集合中的图像。

在一些实施方式中，由于需要训练得到的图像生成模型能完成多目标域的图像翻译任务(即能完成将输入的文档图像转换成多种页面风格中任意页面风格的文档图像)，因此对生成器和判别器特征表示能力要求比较高，从而可以使用较多层数的卷积神经网络。图像翻译指将源域的一张图像转换成目标域的一张图像，学习一个像素到像素和图像到图像的映射。例如，判别器可以使用一个10层深的卷积神经网络，生成器使用“Encoder(编码器)-Decoder(解码器)”风格的20层全卷积神经网络，下采样使用步长为2的卷积，上采样阶段使用转置卷积实现。

进一步的，为保证卷积神经网络的网络深度的同时运算量不至于太大，还可以在判别器以及生成器的Encoder(解码器)阶段的可以引入深度可分离卷积块以减少运算量，同时增加表征能力。

在本申请实施例中，边缘检测器可以采用Sobel(索贝尔)算子实现，由于Sobel算子较为简单，因此不会增加过多运算量。Sobel算子包含两组3x3的矩阵，分别为横向及纵向，将之与图像作平面卷积，即可分别得出横向及纵向的亮度差分近似值。如果以A代表原始图像，Gx及Gy分别代表经横向及纵向边缘检测的图像，其公式如下：

图像的每一个像素的横向及纵向梯度近似值可用公式

结合，来计算梯度的大小。

梯度方向可以由以下公式计算：

其中，如果以上的角度θ等于零，即代表图像该处拥有纵向边缘，左方较右方暗。

具体通过Sobel算子检测图像的边缘获得边缘图像的方式在本申请实施例中并不进行赘述。

在本申请实施例中，生成式对抗网络中的边缘检测器主要用于检测文档图像中图像内容的边缘特征，例如文字、线框等的边缘特征。边缘检测器根据输入的文档图像输出的边缘图像，主要用于计算边缘损失，边缘损失主要用于衡量生成器生成的图像与原图的边缘图像的差异。由于本申请实施例提供的图像处理方法是对文档图像进行处理，因此加入边缘检测器，以便计算边缘损失，从而克服生成式对抗网络本身的缺陷，即擅长处理纹理而并不擅长处理形变，只会学习到风格而未能学习到形变。因此，通过在生成式对抗网络中构建边缘检测器以及计算边缘损失，可以保留输入的文档图像中的字形至生成器输出的文档图像中。

步骤S230：根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得图像生成模型。

在本申请实施例中，在对生成式对抗网络进行训练时，可以利用以上获取的训练数据集合，对生成式对抗网络进行迭代训练，以获得训练后的生成式对抗网络。

在一些实施方式中，可以根据训练数据集合以及边缘检测器，对判别器以及所述生成器进行交替迭代训练，直至生成式对抗网络收敛，将训练后的生成器作为图像生成模型。

在一种具体的实施方式中，根据训练数据集合以及边缘检测器，对判别器以及生成器进行交替迭代训练，可以包括：获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。其中，生成式对抗网络收敛的条件可以为：所述损失函数的值固定不变。

可以理解的，损失函数用于计算判别器的损失以及生成器的损失。生成器的损失可以来源于生成器生成的图像的判别损失、生成器生成的图像的边缘损失、生成器对生成的图像的重建损失以及生成器生成的图像的域分类损失。其中，判别损失以及域分类损失可以用于衡量生成器将输入的文档图像转换为相应页面风格时风格的损失，判别损失以及域分类损失越大，则表示生成器生成的文档图像与相应页面风格相差较大，而无法被判别器判别为真图像(即训练数据集合中的风格图像)，也无法被分类为目标域的图像。边缘损失用于衡量生成器生成的文档图像相对输入的图像中边缘特征的损失，由于该方法用于文档图像的处理，而文档图像中通常有较多文字、线框等内容，因此计算边缘损失，可以很好的衡量生成器生成的文档图像相对输入的文档图像的内容损失，边缘损失较大时，则表示生成的文档图像中文字的字形等与输入的文档图像相差较大。计算重建损失，则可以确保生成器较好的学习到从目标域到源域的映射。

在根据训练数据集合对判别器以及生成器进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对判别器和生成器的参数进行优化，则损失函数越来越小，最后变小为一个固定值，此时，则表示生成式对抗网络已收敛。

下面结合图4，对生成式对抗网络的训练进行说明。

在一个训练周期中，可以先固定住生成器的参数来训练判别器，然后固定住判别器的参数来训练生成器。

在图4所示的生成式对抗网络的训练过程的示意图中，第一部分501为训练判别器的示意图，可以遍历所有源域图像(即训练数据集合中的文档图像)并送入生成器产生假图像(Fake Image)，然后将Fake Image送入判别器产生真假判断以及域分类结果，选取一种目标域的目标域图像(即一种页面风格的风格图像)作为真图像送入判别器产生真假判断以及域分类结果，然后对判别器的所有损失(判别损失以及域分类损失)求和，并对判别器执行反向传播算法来优化和更新判别器的参数。

其中，判别器的判别损失(GAN损失)的具体计算公式如下：

判别损失是一个0或1的二分类损失，GAN损失是判断收到的图片是生成的图片还是真实的图片，判别损失用于确保能够正确的执行源域到目标域的映射。域分类损失(Domain Classification Loss)采用交叉熵损失的形式，将图片属于哪个域进行分类，域分类损失确保了多个域的图像进行转换的时候能产生正确的结果。D(x)是判别器D收到目标域图像Y后将其判断为真实的目标域的图像的概率，而D(G(y))是判别器D收到映射图像后将其判断为真实的目标域的图像的概率。

在图4所示的生成式对抗网络的训练过程的示意图中，第二部分502为训练生成器的示意图，可以将源域图像(即训练数据集合中的文档图像)作为输入图像送入边缘检测器得到输入图像对应的边缘图，并将输入图像与经过One-Hot(独热)编码的目标域的标签经过深度维度上的拼接后，送入生成器得到源域图像到目标域的映射图像(假图像)；将假图像送入边缘检测器得到假图像对应的边缘图，并将假图像与源域的标签拼接后送入生成器，获得重建图像；再将假图像送入判别器，获得真假判断以及域分类的结果；然后计算假图像与输入图像对应的边缘图之间的边缘损失，计算重建图像与假图像对应的边缘图之间的边缘损失，计算输入图像与输出图像之间的重建损失，根据判别器的判别结果以及计算GAN损失的公式计算判别损坏，以及根据判别器的域分类的结果计算域分类的分类损失；再将计算的所有损失相加，获得生成器的所有损失，并根据所有损失执行反向传播算法来优化和更新生成器的参数。

重复上述对判别器以及生成器的训练，在经过多次的训练后，生成式对抗网络将会收敛，此时，判别器的损失以及生成器的损失将会维持在一个定值。

网络的训练过程中，按如下优化公式进行优化：

在该优化公式中，D表示判别器,G表示生成器。优化时，最大化D的损失，最小化G上的损失，通过反向传播算法更新生成器以及判别器的参数。

其中，损失函数

表示所有损失之和的损失函数，具体为：

其中，损失函数L(G，D)是GAN损失

循环重建损失

域分类损失/>

以及边缘损失/>

的和。GAN损失为确保能够正确地执行源域到目标域的映射，循环重建损失则在于从目标域到源域的映射。边缘损失是为确保边缘不改变。由于去除掉边缘检测模块的网络，适合处理纹理改变而不适合处理形变，所以边缘检测模块配合边缘损失是非常有必要的，可以确保产生纹理改变的同时不产生不想要的形变。

GAN损失可以参见上述的判别损失函数。因为目标域图像本身就是真实的目标域的图像，所以对于判别器D而言，D(x)的值越接近1越好，表示判别器D的性能越好。由于假图像本身不是真实的目标域的图像，而是生成的目标域的图像，所以，对于判别器D而言，D(G(y))越小越好，表示判别器D的性能越好。从而，对于判别器D而言，判别损失

越大越好，所以最大化判别器D的判别损失/>

可以获得更好的判别器D。

另外，对于生成器而言，生成的图像越接近真实越好。例如，对于生成器F，生成的假图像被判别器D进行判别后的判别结果D(G(y))越接近1，表示该生成器F的性能越好。因此，对于生成器而言，D(G(y))越大表示生成器F的性能越好，则判别损失越小越好，即最小化生成器F的损失，可以获得性能更好的生成器F。

重建损失Cyclic loss具体公式如下：

其中，G(G(x))以及G(G(y))表示重建图像，X表示源域图像，y表示目标域图像。重建损失的采用L1距离衡量原图X与映射到Y域再映射回到X域，原图Y与映射到X域再映射回到Y域之间图片的相似性。期望经过两次映射之后图片应当尽可能相似。

边缘损失具体公式如下：

边缘损失采用L1距离衡量通过生成器生成的文档图像与源域图像的边缘图的差异。由于执行的任务是古籍文档图像的翻译处理，若是去除掉边缘检测模块以及边缘损失，则由于生成式对抗网络本身的缺陷，即擅长处理纹理而并不擅长处理形变，这样只学习到风格而未能学习到形变，会与本申请达到的目的相违背。因此，边缘检测模块和边缘损失可以保留字体的边缘以及字形。

在优化过程中，根据该判别损失进行优化后，确定生成器能正确地执行源域到目标域的映射。根据该重建损失进行优化后，确保生成器能正确地执行目标域到源域的映射。根据该边缘损失进行优化后，确保生成的目标域的图像的边缘不改变。根据域分类损失进行优化后，确保能正确地执行源域到目标域的映射。

在一个训练周期中，每个循环都可以判定生成式对抗网络是否收敛。可选的，判定生成式对抗网络是否收敛的方式可以是，判断最近预设次数的循环中，所有损失的和是否稳定在预设的数值区间内；或者是，判断最近预设次数的循环中，所有损失的和的波动范围是否在预设范围内。当然也可能是其他判定方式。

步骤S240：获取第一文档图像。

步骤S250：获取目标页面风格。

步骤S260：将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像。

步骤S270：获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

在本申请实施例中，步骤S240至步骤S270可以参阅前述实施例的内容，在此不再赘述。

本申请实施例提供的图像处理方法，提供了训练图像生成模型的方法，通过获取训练数据集合，构件包括生成器、判别器以及边缘检测器的对抗式生成网络，再构建生成器以及判别器的损失函数，然后利用损失函数以及训练数据集合对生成器以及判别器进行交替迭代训练，在生成式对抗网络收敛时，将训练得到的生成器保存，并作为图像生成模型，在利用多种页面风格的风格图像对生成式对抗网络进行训练后，则可以得到能生成多种页面风格的文档图像的图像生成模型。从而可以利用该图像生成模型，对文档图像处理为需求的页面风格的文档图像，而无需用户设计复杂的算法流程，即可实现文档图像的处理。

请参阅图5，图5示出了本申请又一个实施例提供的图像处理方法的流程示意图。该方法应用于上述电子设备，下面将针对图10所示的流程进行详细的阐述，所述图像处理方法具体可以包括以下步骤：

步骤S310：获取第一文档图像。

在一些实施方式中，本申请实施例提供的图像处理方法应用于古籍、现代书籍等纸质文档的处理时，电子设备可以对纸质文档进行图像采集，从而获得包含纸质文档的文档内容的图像，并且可以将采集得到的图像作为待处理的第一文档图像。

在一些实施方式中，电子设备也可以接收其他电子设备发送的第一文档图像，例如，电子设备为服务器时，服务器可以接收客户端发送的第一文档图像，并后续对第一文档图像处理得到第二文档图像后，将第二文档图像返回至客户端。

步骤S320：根据用户对页面风格的选取操作，将用户选取的页面风格为所述第一文档图像需转换至的目标页面风格。

在一些实施方式中，第一文档图像待处理成的目标页面风格，可以由用户选取。在一种具体的实施方式中，电子设备可以显示页面风格选择界面，以便用户进行页面风格的选取。例如，请参阅图6，电子设备可以显示页面风格选择界面A1，页面风格选择界面A1中可以包括图像生成模型可以处理的多种页面风格，例如页面风格1、页面风格2、页面风格3、页面风格4、页面风格5等，用户可以通过对页面风格进行选择，以选择第一文档图像待处理成的目标页面风格。电子设备在显示页面风格选择界面后，则可以检测于风格选择界面中的操作，并在检测到用户对页面风格的选择操作时，响应该选取操作，将用户选取的页面风格作为第一文档图像需转换至的目标页面风格。需要说明的是，用户可以选择一种目标页面风格，也可以选择多种目标页面风格，如果选择一种目标页面风格时，则后续可以获得一张具有该目标页面风格的文档图像，如果选择多种目标页面风格，则后续可以获得多张具有不同目标页面风格的文档图像，每张文档图像对应一种目标页面风格。

在一些实施方式中，电子设备还可以显示页面风格的预览画面，以便用户查看相应的页面风格的效果，方便用户选取页面风格。

在一些实施方式中，目标页面风格的确定方式除用户选取的方式以外，还可以为，将图像生成模型可输出的所有页面风格，作为第一文档图像需转换至的目标页面风格，从而后续可以获得多张

步骤S330：获取所述目标页面风格对应的标签。

在本申请实施例中，电子设备在获取到第一文档图像需转换至的目标页面风格之后，则可以根据电子设备中预先存储的页面风格与标签的对应关系，获取目标页面风格对应的标签。可以理解的，电子设备根据用户选取的目标页面风格，即可获取到用于输入图像生成模型的标签，以便图像生成模型获知将第一文档图像往具体哪个目标域进行转换，以转换为目标页面风格对应的目标域的文档图像。

步骤S340：将所述第一文档图像与所述目标页面风格对应的标签进行拼接后输入至图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像。

在本申请实施例中，电子设备在获取到第一文档图像，以及目标页面风格对应的标签之后，则可以将第一文档图像以及该标签输入至图像生成模型，以便获得具有目标页面风格的文档图像。在一些实施方式中，电子设备可以将第一文档图像与该标签在深度维度上进行拼接后，送入到图像生成模型，图像生成模型可以识别出第一文档图像以及该标签，从而将第一文档图像处理为该标签对应的目标域(即目标页面风格对应的图像域)。

步骤S350：获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

在本申请实施例中，步骤S350可以参阅前述实施例的内容，在此不再赘述。

本申请实施例提供的图像处理方法，通过获取待处理的第一文档图像，并且显示页面风格选择界面供用户选取需求的页面风格，使用户可以自行选择各种页面风格，然后将第一文档图像与目标页面风格对应的标签进行拼接后，输入至图像生成模型，最后获得具有目标页面风格的第二文档图像，无需用户设计复杂的阈值算法，即可实现生成多种风格中任意风格的文档图像，减少工作人员的工作量。

请参阅图7，其示出了本申请实施例提供的一种图像处理装置400的结构框图。该图像处理装置400应用上述的电子设备，该图像处理装置400包括：图像获取模块410、风格获取模块420、图像输入模块430以及图像输出模块440。其中，所述图像获取模块410用于获取第一文档图像；所述风格获取模块420用于获取目标页面风格；所述图像输入模块430用于将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型由生成式对抗网络训练得到，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；所述图像输出模块440用于获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格。

在本申请实施例中，请参见图8，该图像处理装置400还可以包括数据集获取模块450、网络获取模块460以及网络训练模块470。数据集获取模块450用于获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，其中，所述多张风格图像中包括多种页面风格的文档图像；网络获取模块460用于获取生成式对抗网络；网络训练模块470用于根据所述训练数据集合，对所述生成式对抗网络进行迭代训练，直至所述生成式对抗网络收敛，获得所述图像生成模型。

在一些实施方式中，所述生成式对抗网络包括生成器、判别器以及边缘检测器，所述生成器用于根据输入的文档图像输出风格变化后的文档图像，所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，每种图像域对应一种图像风格的标签，所述边缘检测器用于根据输入的文档图像而输出边缘图像。

进一步的，网络训练模块470可以具体用于：根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

在该实施方式下，网络训练模块470根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型，可以包括：获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。其中，生成式对抗网络收敛的条件可以为：所述损失函数的值固定不变。

在一些实施方式中，训练集获取模块450可以具体用于：获取多张文档图像以及多张风格图像，多张文档图像由多种风格的文档图像构成；对所述多张文档图像以及多张风格图像进行数据增强处理，根据所述多张文档图像、多张风格图像以及所述数据增强处理后得到的图像，获得所述训练数据集合。

在本申请实施例中，风格获取模块420可以具体用于：将所述图像生成模型可输出的所有页面风格，作为所述第一文档图像需转换至的目标页面风格；或者根据用户对页面风格的选取操作，将用户选取的页面风格为所述第一文档图像需转换至的目标页面风格。

在本申请实施例中，图像输入模块430可以具体用于：获取所述目标页面风格对应的标签；将所述第一文档图像与所述目标页面风格对应的标签进行拼接后输入至所述图像生成模型。

在本申请实施例中，所述第一文档图像中至少包括文字内容，具有所述目标页面风格的所述第二文档图像中至少包括目标背景以及具有目标颜色的所述文字内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过获取第一文档图像以及目标页面风格，将第一文档图像以及目标页面风格对应的标签输入至已训练的图像生成模型，该图像生成模型由生成式对抗网络训练得到，该图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与输入的标签对应的页面风格的文档图像，可以获得图像生成模型基于第一文档图像以及目标页面风格对应的标签输出的第二文档图像，并且获得的第二文档图像具有该目标页面风格，从而无需用户设计复杂的阈值算法，即可实现将文档图像转换至用户需求的风格，减少工作人员的工作量，提升用户体验。

请参考图9，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、PC、服务器等能够运行应用程序的设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取第一文档图像；

获取目标页面风格；

将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；

获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格；

所述图像生成模型通过如下步骤训练得到：

获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，其中，所述多张风格图像中包括多种页面风格的文档图像；

获取生成式对抗网络，所述生成式对抗网络包括生成器、判别器以及边缘检测器，所述生成器用于根据输入的文档图像输出风格变化后的文档图像，所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，每种图像域对应一种图像风格的标签，所述边缘检测器用于根据输入的文档图像而输出边缘图像；

根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型，包括：

获取损失函数，所述损失函数用于表征所述判别器对所述生成器生成的图像的判别损失、所述生成器对生成的图像的重建损失、所述生成器对生成的图像的边缘损失以及所述判别器对所述生成器生成的图像的图像域的分类损失；

根据所述训练数据集合、所述损失函数，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

3.根据权利要求1所述的方法，其特征在于，所述获取训练数据集合，包括：

获取多张文档图像以及多张风格图像，多张文档图像由多种风格的文档图像构成；

对所述多张文档图像以及多张风格图像进行数据增强处理，根据所述多张文档图像、多张风格图像以及所述数据增强处理后得到的图像，获得所述训练数据集合。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取目标页面风格，包括：

将所述图像生成模型可输出的所有页面风格，作为所述第一文档图像需转换至的目标页面风格；或者

根据用户对页面风格的选取操作，将用户选取的页面风格为所述第一文档图像需转换至的目标页面风格。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，包括：

获取所述目标页面风格对应的标签；

将所述第一文档图像与所述目标页面风格对应的标签进行拼接后输入至所述图像生成模型。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述第一文档图像中至少包括文字内容，具有所述目标页面风格的所述第二文档图像中至少包括目标背景以及具有目标颜色的所述文字内容。

7.一种图像处理装置，其特征在于，所述装置包括：图像获取模块、风格获取模块、图像输入模块、图像输出模块、数据集获取模块、网络获取模块以及网络训练模块，其中，

所述图像获取模块用于获取第一文档图像；

所述风格获取模块用于获取目标页面风格；

所述图像输入模块用于将所述第一文档图像以及所述目标页面风格对应的标签输入至已训练的图像生成模型，所述图像生成模型用于根据输入的文档图像以及输入的标签，输出具有与所述输入的标签对应的页面风格的文档图像；

所述图像输出模块用于获得所述图像生成模型基于所述第一文档图像以及所述目标页面风格对应的标签输出的第二文档图像，所述第二文档图像具有所述目标页面风格；

所述数据集获取模块用于获取训练数据集合，所述训练数据集合包括多张文档图像以及多张风格图像，其中，所述多张风格图像中包括多种页面风格的文档图像；

所述网络获取模块用于获取生成式对抗网络，所述生成式对抗网络包括生成器、判别器以及边缘检测器，所述生成器用于根据输入的文档图像输出风格变化后的文档图像，所述判别器用于判断所述生成器输出的文档图像是否为所述训练数据集合中的图像，以及用于对所述输出的文档图像进行图像域的分类，每种图像域对应一种图像风格的标签，所述边缘检测器用于根据输入的文档图像而输出边缘图像；

所述网络训练模块用于根据所述训练数据集合以及所述边缘检测器，对所述判别器以及所述生成器进行交替迭代训练，直至所述生成式对抗网络收敛，将训练后的生成器作为所述图像生成模型。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。

9.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。