CN113807353A

CN113807353A - 图像转换模型训练方法、装置、设备及存储介质

Info

Publication number: CN113807353A
Application number: CN202111150295.7A
Authority: CN
Inventors: 刘海伦
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-17
Anticipated expiration: 2041-09-29
Also published as: CN113807353B

Abstract

本发明涉及人工智能技术领域，揭露了一种图像转换模型训练方法、装置、设备及存储介质，该方法通过将对待训练图像进行文本识别得到的待训练图像文本输入至预设图像处理模型的第一对抗生成网络，得到第一预测图像文本；将对目标真实图像进行文字识别得到的目标图像文本输入至预设图像处理模型的第二对抗生成网络，得到第二预测图像文本；根据第一对抗生成网络的第一损失参数以及第二对抗生成网络的第二损失参数确定总损失值；在总损失值未达到预设的收敛条件时，迭代更新预设图像处理模型中的初始参数，直至总损失值达到收敛条件时，将收敛之后的预设图像处理模型记录为图像转换模型。本发明提高了图像转换的效率以及准确率。

Description

图像转换模型训练方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像转换模型训练方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，人工智能技术也逐渐应用在不同的领域当中，例如文本识别、语音文本转换等。在文本识别领域中，常常会通过人工智能技术将图像中的文本提取出来，进而提高了如文本信息采集等的速率。

现有技术中，往往通过如OCR文本识别技术对图像进行文本识别，但是图像往往是人为拍摄上传的，因此可能会由于如光照条件、是否对焦、图像是否清晰等因素导致拍摄的图像质量较低，进而导致文本识别错误率较高，因此如何有效提高图像质量是一个需要解决的问题。

发明内容

本发明实施例提供一种图像转换模型训练方法、装置、设备及存储介质，以解决图像质量较低导致文本识别错误率较高的问题。

一种图像转换模型训练方法，包括：

获取待训练图像集；所述待训练图像集中包括至少一个待训练图像以及与所述待训练图像一一对应的目标真实图像；

对所述待训练图像进行文本识别，得到至少一个待训练图像文本，以及对所述目标真实图像进行文字识别，得到至少一个目标图像文本；一个所述待训练图像文本对应一个所述目标图像文本；

将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本；将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本；

获取所述第一对抗生成网络的第一损失参数，以及获取所述第二对抗生成网络的第二损失参数；所述第一损失参数包括根据各所述待训练图像文本以及与其对应的所第一预测图像文本确定的第一特征损失值；所述第二损失参数包括根据所述目标图像文本以及所述第二预测图像文本确定的第二特征损失值；

根据所述第一损失参数以及所述第二损失参数，确定所述预设图像处理模型的总损失值；

在所述总损失值未达到预设的收敛条件时，迭代更新所述预设图像处理模型中的初始参数，直至所述总损失值达到所述收敛条件时，将收敛之后的所述预设图像处理模型记录为图像转换模型。

一种图像转换模型训练装置，包括：

训练图像获取模块，用于获取待训练图像集；所述待训练图像集中包括至少一个待训练图像以及与所述待训练图像一一对应的目标真实图像；

图像文本识别模块，用于对所述待训练图像进行文本识别，得到至少一个待训练图像文本，以及对所述目标真实图像进行文字识别，得到至少一个目标图像文本；一个所述待训练图像文本对应一个所述目标图像文本；

图像转换模块，用于将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本；将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本；

损失参数获取模块，用于获取所述第一对抗生成网络的第一损失参数，以及获取所述第二对抗生成网络的第二损失参数；所述第一损失参数包括根据各所述待训练图像文本以及与其对应的所第一预测图像文本确定的第一特征损失值；所述第二损失参数包括根据所述目标图像文本以及所述第二预测图像文本确定的第二特征损失值；

总损失值确定模块，用于根据所述第一损失参数以及所述第二损失参数，确定所述预设图像处理模型的总损失值；

模型训练模块，用于在所述总损失值未达到预设的收敛条件时，迭代更新所述预设图像处理模型中的初始参数，直至所述总损失值达到所述收敛条件时，将收敛之后的所述预设图像处理模型记录为图像转换模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像转换模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述图像转换模型训练方法。

上述图像转换模型训练方法、装置、设备及存储介质，通过两个对抗生成网络(也即第一对抗生成网络和第二对抗生成网络)分别对文本识别后得到的待训练图像文本以及目标图像文本进行循环对抗生成处理，如此使得待训练图像以及目标真实图像均对对抗生成网络的训练作出贡献，从而提高了预设图像处理模型的训练准确率和效率；进一步地，本发明还引入了第一特征损失值以及第二特征损失值，也即除了对抗生成网络中的对抗损失之外，还考虑了图像文本之间的特征损失，提高了预设图像处理模型的训练效率，且提高了训练完成的图像转换模型对模糊低质量图像进行转换时的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中图像转换模型训练方法的一应用环境示意图；

图2是本发明一实施例中图像转换模型训练方法的一流程图；

图3是本发明一实施例中图像转换模型训练装置的一原理框图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的图像转换模型训练方法，该图像转换模型训练方法可应用如图1所示的应用环境中。具体地，该图像转换模型训练方法应用在图像转换模型训练系统中，该图像转换模型训练系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决图像质量较低导致文本识别错误率较高的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种图像转换模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待训练图像集；所述待训练图像集中包括至少一个待训练图像以及与所述待训练图像一一对应的目标真实图像。

可以理解地，待训练图像即为质量较低(如模糊)的图像，该待训练图像可以为在人为拍摄时得到的(如拍摄时手抖、或者对焦不准确)，亦或者可以对目标真实图像进行虚化、模糊等处理得到。目标真实图像即为清晰、且没有其它错误(如存在污点、被遮挡等)的图像，该目标真实图像可以通过人为正常准确拍摄得到。进一步地，待训练图像和目标真实图像为相同内容，但质量不同的图像，待训练图像为低质量图像(低质量图像是指图像清晰度较低的图像)，目标真实图像为高质量图像(高质量图像是指图像清晰度较高的图像)。

S20：对所述待训练图像进行文本识别，得到至少一个待训练图像文本，以及对所述目标真实图像进行文字识别，得到至少一个目标图像文本；一个所述待训练图像文本对应一个所述目标图像文本。

可以理解地，本实施例中的文本识别方法可以采用如OCR(Optical CharacterRecognition，光学字符识别)识别技术等，以通过文本识别方法对待训练图像进行文本区域划分，进而得到与待训练图像对应的至少一个待训练图像文本，一个待训练图像文本表征待训练图像中的一个文本区域；同理，通过文本识别方法对目标真实图像进行文本区域划分，进而得到与目标真实图像对应的至少一个目标图像文本。进一步地，由于基于OCR的文本识别技术在进行文本区域划分后，还可以得到每一文本区域对应的位置信息，且在上述说明中指出待训练图像和目标真实图像为相同内容但质量不同的图像，因此相同位置信息的一个待训练图像文本与一个目标图像文本对应。

S30：将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本；将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本。

可以理解地，预设图像处理模型中包含两个对抗生成网络，也即第一对抗生成网络以及第二对抗生成网络。在第一对抗生成网络中存在两个生成器以及两个判别器，在第二对抗生成网络中同样存在两个生成器以及两个判别器，且第一对抗生成网络与第二对抗生成网络中的生成器和判别器均相同，也即第一对抗生成网络和第二对抗生成网络中的生成器和判别器同步更新且参数均相同。

进一步地，一个生成器用于将低质量图像文本(如上述待训练图像文本)转换为高质量图像文本；另一个生成器用于将高质量图像文本转换为低质量图像文本；如在第一对抗生成网络中通过其中一个生成器将待训练图像文本转换生成为一个新的高质量图像文本，再通过另一个生成器将一个新的高质量图像文本转换为新的低质量图像文本。其中，一个判别器用于判别转换生成新的高质量图像文本与目标图像文本之间的是否为同一图像文本；另一个判别器用于判别转换生成新的低质量图像文本与待训练图像文本是否为同一图像文本。

S40：获取所述第一对抗生成网络的第一损失参数，以及获取所述第二对抗生成网络的第二损失参数；所述第一损失参数包括根据各所述待训练图像文本以及与其对应的所第一预测图像文本确定的第一特征损失值；所述第二损失参数包括根据所述目标图像文本以及所述第二预测图像文本确定的第二特征损失值。

可以理解地，针对于第一对抗生成网络以及第二对抗生成网络均存在图像文本转换错误的可能，因此需要通过第一损失参数和第二损失参数对预设图像处理模型的初始参数进行调整，从而提高图像文本的转换的准确率。其中，第一损失参数包括对抗损失值以及第一特征损失值。对抗损失值包含第一对抗生成网络中第一生成器以及第二生成器的损失值。第一特征损失值是指待训练图像文本与第一预测图像文本之间的特征差异对应的损失值。第二损失参数包括对抗损失值以及第二特征损失值，该对抗损失值包含第二对抗生成网络中第一生成器以及第二生成器的损失值，需要说明的是，由于第一对抗生成网络和第二对抗生成网络中的第一生成器以及第二生成器相同，但是输入至第一生成器和第二生成器的图像文本不同，因此第一对抗生成网络中的对抗损失值与第二对抗网络中的对抗损失值不同，因此通过两个对抗生成网络的损失值同步调整预设图像处理模型的初始参数，可以提高预设图像处理模型的训练速度。第二特征损失值是指目标图像文本与第二预测图像文本之间的差异对应的损失值。

进一步地，由于一个待训练图像文本与一个目标图像文本对应关联，因此上述中指出的第一损失参数中对抗损失值为多个待训练图像文本对应的对抗损失的加权，第一特征损失值也为多个待训练图像文本和与其对应的第一预测图像文本之间的特征损失的加权；同理，第二损失参数中的对抗损失值为多个目标图像文本对应的对抗损失的加权；第二特征损失值为多个目标图像文本和与其对应的第二预测图像文本之间的特征损失的加权。

S50：根据所述第一损失参数以及所述第二损失参数，确定所述预设图像处理模型的总损失值。

具体地，根据第一损失参数中的对抗损失值(如下述的第一对抗损失值和第二对抗损失值)和第一特征损失值，与第二损失参数中的对抗损失值(如下述的第三对抗损失值和第四对抗损失值)和第二特征损失值之间的线性叠加，即为总损失值。

S60：在所述总损失值未达到预设的收敛条件时，迭代更新所述预设图像处理模型中的初始参数，直至所述总损失值达到所述收敛条件时，将收敛之后的所述预设图像处理模型记录为图像转换模型。

可以理解地，该收敛条件可以为总损失值小于设定阈值的条件，也即在总损失值小于设定阈值时，停止训练；收敛条件还可以为总损失值经过了10000次计算后值为很小且不会再下降的条件，也即总损失值经过10000次计算后值很小且不会下降时，停止训练，将收敛之后的所述预设图像处理模型记录为疾病特征识别模型。

进一步地，根据所述第一损失参数以及所述第二损失参数，确定所述预设图像处理模型的总损失值之后，在总损失值未达到预设的收敛条件时，根据该总损失值调整预设图像处理模型的初始参数，并将该待训练图像对应的各待训练图像文本，以及目标真实图像对应的各目标图像文本重新输入至调整初始参数后的预设图像处理模型中，以在该待训练图像的总损失值达到预设的收敛条件时，选取待训练图像集中另一个待训练图像，并执行上述步骤S30至S50并得到与该待训练图像对应的总损失值，并在该总损失值未达到预设的收敛条件时，根据该总损失值再次调整预设图像处理模型的初始参数，使得该待训练图像的总损失值达到预设的收敛条件。

如此，在通过待训练图像集中所有待训练图像对预设图像处理模型进行训练之后，使得预设图像处理模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有待训练图像的总损失值均达到预设的收敛条件时，将收敛之后的所述预设图像处理模型记录为图像转换模型。

在本实施例中，通过两个对抗生成网络(也即第一对抗生成网络和第二对抗生成网络)分别对文本识别后得到的待训练图像文本以及目标图像文本进行循环对抗生成处理，如此使得待训练图像以及目标真实图像均对对抗生成网络的训练作出贡献，从而提高了预设图像处理模型的训练准确率和效率；进一步地，本发明还引入了第一特征损失值以及第二特征损失值，也即除了对抗生成网络中的对抗损失之外，还考虑了图像文本之间的特征损失，提高了预设图像处理模型的训练效率，且提高了训练完成的图像转换模型对模糊低质量图像进行转换时的准确率。

在一实施例中，步骤S30中，也即将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本，包括：

将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本。

可以理解地，第一生成器用于将模糊低质量图像转换为清晰高质量图像，进而待训练图像文本为模糊低质量图像，因此将待训练图像文本输入至第一对抗生成网络的第一生成器之后，第一生成器会对该待训练图像文本进行图像转换，以提高待训练图像文本的图像质量，得到预测真实图像文本。该预测真实图像文本和与待训练图像文本对应的目标图像文本之间可能存在差异，因此需要对第一生成器进行训练，以使得第一生成器生成的预测真实图像文本可以与目标图像文本越来越靠近，进而使得第一对抗生成网络中的第一判别器无法判别该预测真实图像文本是真的目标图像文本，还是通过第一生成器生成的预测真实图像文本，此时第一生成器的图像转换准确率较高。

将所述预测真实图像文本输入至所述第一对抗生成网络中的第二生成器，以通过所述第二生成器生成与所述预设真实图像文本对应的第一预测图像文本。

可以理解地，第二生成器用于将清晰高质量图像转换为模糊低质量图像，进而预测真实图像文本为清晰高质量图像，因此将预测真实图像文本输入至第二对抗生成网络中的第二生成器之后，第二生成器会对预测真实图像文本进行图像转换，以将预测真实图像文本转换为模糊低质量图像文本，也即第一预测图像文本，此时该第一预测图像文本与待训练图像文本之间也可能存在差异，因此需要对第二生成器进行训练，使得与第二生成器对应的第二判别器无法判别第一预测图像文本是否为待训练图像文本，或者通过第二生成器生成的第一预测图像文本时，第二生成器训练完成。

在一实施例中，所述将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本，包括：

通过所述第一生成器中的初始卷积层对所述待训练图像文本进行初始卷积处理，得到初始图像文本。

可以理解地，本实施例中的初始卷积层中包含三层卷积层，该三层卷积层对应的卷积核大小分别为7x7,3x3,3x3，三层卷积层对应的步长分别为1,2,2。

具体地，在将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器之后，通过第一生成器中的初始卷积层对待训练图像文本进行初始卷积处理，以降低待训练图像文本的分辨率，进而得到初始图像文本。例如，待训练图像文本的分辨率为256x256，则经过初始卷积处理之后得到的初始图像文本的分辨率为64x64。

通过所述第一生成器中的中间卷积层对所述初始图像文本进行中间卷积处理，得到中间图像文本。

可以理解地，本实施例中的中间卷积层包括若干resblock结构(如9个)，该resblock中的卷积层的卷积核均为3x3。中间卷积层用于进一步提取初始图像文本中的特征。

具体地，在通过第一生成器中的初始卷积层对待训练图像文本进行初始卷积处理，得到初始图像文本之后，通过所述第一生成器中的中间卷积层对所述初始图像文本进行中间卷积处理，以进一步提取初始图像文本中的特征，进而得到中间图像文本。

通过所述第一生成器中的反卷积层对所述中间图像文本进行上采样处理，得到上采样图像文本；

其中，反卷积层用于对中间图像文本进行上采样处理，本实施例中的反卷积层为至少一个，优选地，本实施例中反卷积层设定为两个。示例性地，假设中间图像文本的图像分辨率为64x64，则经过反卷积层之后该上采样图像文本的图像分辨率提升为256x256。

将所述上采样图像文本输入至输出卷积层，以通过所述输出卷积层对所述上采样图像文本进行卷积处理之后，得到所述预测真实图像文本。

可以理解地，输出卷积层是一个卷积核为7x7的卷积层。

具体地，在通过所述第一生成器中的反卷积层对所述中间图像文本进行上采样处理，得到上采样图像文本之后，将所述上采样图像文本输入至输出卷积层，以通过输出卷积层对上采样图像文本进行卷积处理，进而输出预测真实图像文本，也即完成了对待训练图像进行图像清晰度等转换的过程，该预测真实图像文本的清晰度高于待训练图像，但预测真实图像文本不一定为目标真实图像。

进一步地，在本实施例中，第一生成器与第二生成器的内部结构相同，但是第一生成器和第二生成器的用途不同，因此第二生成器与第一生成器之间的结构是相同的，以根据不同的输入，输出不同的图像文本，如在第一对抗生成网络中，第一生成器是输出与待训练图像文本对应的预测真实图像文本，而第二生成器则是输出与预测真实图像文本对应的第一预测图像文本。

在一实施例中，步骤S40之前，也即所述获取所述第一对抗生成网络的第一损失参数之前，还包括：

根据所述预测真实图像文本以及与所述待训练图像文本对应的所述目标图像文本，生成所述与所述第一生成器对应的第一对抗损失值。

可以理解地，该第一对抗损失值可以由与第一生成器对应的第一判别器得到，进一步地，该第一判别器用于确定预测真实图像文本属于目标图像文本的概率。

具体地，在将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本之后，可以通过与第一生成器对应关联的第一判别器判别预测真实图像文本属于目标图像文本的概率，进而通过该预测真实图像文本属于目标图像文本的概率确定第一对抗损失值。

根据所述第一预测图像文本以及所述待训练图像文本生成与所述第二生成器对应的第二对抗损失值。

可以理解地，第二对抗损失值可以由与第二生成器对应的第二判别器得到，进一步地，该第二判别器用于确定第一预测图像文本属于待训练图像文本的概率。

具体地，在将所述预测真实图像文本输入至所述第一对抗生成网络中的第二生成器，以通过所述第二生成器生成与所述预设真实图像文本对应的第一预测图像文本之后，可以通过与第二生成器对应的第二判别器确定第一预测图像文本属于待训练图像文本的概率，进而通过该第一预测图像文本属于待训练图像文本的概率确定第二对抗损失值。

根据所述第一预测图像文本以及所述待训练图像文本生成所述第一特征损失值。

具体地，在将所述预测真实图像文本输入至所述第一对抗生成网络中的第二生成器，以通过所述第二生成器生成与所述预设真实图像文本对应的第一预测图像文本之后，将第一预测图像文本以及待训练图像文本之间进行特征比较，进而得到第一特征损失值。

根据所述第一对抗损失值、第二对抗损失值以及第一特征损失值，生成所述第一损失参数。

具体地，在确定第一对抗损失值，第二对抗损失值以及第一特征损失值之后，进而可以将第一对抗损失值、第二对抗损失值以及第一特征损失值关联记录为第一损失参数。

在一实施例中，步骤S30中，也即将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本，包括：

将所述目标图像文本输入至所述第二对抗网络中的第二生成器，以通过所述第二生成器生成与所述目标图像文本对应的预测模糊图像文本；

可以理解地，在上述说明中指出第一对抗生成网络以及第二对抗生成网络中的生成器与判别器均相同，因此第二对抗网络中具有与第一对抗网络相同的第一生成器以及第二生成器。在将目标图像文本输入至第二对抗网络中的第二生成器之后，第二生成器将目标图像文本转换为模糊低质量图像文本，也即预测模糊图像文本，该预测模糊图像文本可能与上述步骤中生成的第一预测图像文本相同，也可能不同。

将所述预测模糊图像文本输入至所述第二对抗网络中的第一生成器，以通过所述第一生成器生成与所述预测模糊图像文本对应的第二预测图像文本。

同理，在第二对抗生成网络中具有与第一对抗生成网络相同的第一生成器，进而将预测模糊图像文本输入至第一生成器之后，第一生成器会将预测模糊图像文本转换为清晰高质量的图像文本，也即第二预测图像文本，该第二预测图像文本与上述步骤中的预测真实图像文本可能相同，也可能不同。

进一步地，第二对抗生成网络中的第一生成器和第二生成器的具体步骤与上述第一对抗生成网络中第一生成器的具体步骤类似，只是输入的数据不同，导致输出的数据也不同，例如在第二对抗生成网络中第一生成器输出与预测模糊图像文本对应的第二预测图像文本，第二生成器则是输出与目标图像文本对应的预测模糊图像文本，在此不再赘述第一生成器和第二生成器的具体处理过程。

如此，分别基于待训练图像和目标图像文本对两个对抗生成网络进行训练，从而使得训练效率较高且准确率较高，并且使得最终得到的第一生成器具有较高的图像质量提升的效果。

在一实施例中，步骤S40之前，也即所述获取所述第二对抗生成网络的第二损失参数之前，还包括：

根据所述预测模糊图像文本以及与所述目标图像文本对应的所述待训练图像文本，生成所述与所述第二生成器对应的第三对抗损失值。

具体地，在将所述目标图像文本输入至所述第二对抗网络中的第二生成器，以通过所述第二生成器生成与所述目标图像文本对应的预测模糊图像文本之后，可以通过与第二生成器关联对应的第二判别器确定预测模糊图像文本属于待训练图像文本的概率，进而根据该预测模糊图像文本属于待训练图像文本的概率确定第三对抗损失值。

根据所述第二预测图像文本以及所述目标图像文本生成与所述第一生成器对应的第四对抗损失值。

具体地，在将所述预测模糊图像文本输入至所述第二对抗网络中的第一生成器，以通过所述第一生成器生成与所述预测模糊图像文本对应的第二预测图像文本之后，通过与第一生成器关联对应的第一判别器确定第二预测图像文本属于目标图像文本的概率，进而通过该第二预测图像文本属于目标图像文本的概率确定第三对抗损失值。

根据所述第二预测图像文本以及所述目标图像文本生成所述第二特征损失值。

具体地，在将所述预测模糊图像文本输入至所述第二对抗网络中的第一生成器，以通过所述第一生成器生成与所述预测模糊图像文本对应的第二预测图像文本之后，将第二预测图像文本以及目标图像文本之间进行特征比较，进而得到第一特征损失值。

根据所述第三对抗损失值、第四对抗损失值以及第二特征损失值，生成所述第二损失参数。

具体地，在确定第三对抗损失值，第四对抗损失值以及第二特征损失值之后，进而可以将第三对抗损失值、第四对抗损失值以及第二特征损失值关联记录为第二损失参数。

在一实施例中，提出一种图像转换方法，包括：

获取待转换图像，并对所述待转换图像进行文本识别，得到至少一个待转换图像文本。

可以理解地，待转换图像可以为对如书籍、报告等纸质文档拍摄时，清晰度较低的图像。文本识别方法可以采用如OCR(Optical Character Recognition，光学字符识别)识别技术，以通过文本识别方法对待转换图像进行文本区域划分，进而得到与待转换图像对应的至少一个待转换图像文本。

将各所述待转换图像文本输入至图像转换模型中，以通过所述图像转换模型中的第一生成器生成与所述待转换图像文本对应的清晰图像文本。

可以理解地，在上述说明中指出图像转换模型训练方法中第一生成器用于将模糊低质量图像文本转换为清晰高质量图像文本，第二生成器用于将清晰高质量图像文本转换为模糊低质量图像文本，本实施例中主要立足于将模糊低质量图像转换为清晰高质量图像，因此本实施例中仅采用第一生成器，且通过该第一生成器生成与待转换图像文本对应的清晰图像文本。

根据各所述清晰图像文本生成与所述待转换图像对应的清晰图像。

具体地，在将各所述待转换图像文本输入至图像转换模型中，以通过所述图像转换模型中的第一生成器生成与所述待转换图像文本对应的清晰图像文本之后，即可根据各待转换图像文本对应的清晰图像文本拼接恢复生成与待转换图像对应的清晰图像文本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种图像转换模型训练装置，该图像转换模型训练装置与上述实施例中图像转换模型训练方法一一对应。如图3所示，该装置包括训练图像获取模块10、图像文本识别模块20、图像转换模块30、损失参数获取模块40、总损失值确定模块50和模型训练模块60。各功能模块详细说明如下：

训练图像获取模块10，用于获取待训练图像集；所述待训练图像集中包括至少一个待训练图像以及与所述待训练图像一一对应的目标真实图像；

图像文本识别模块20，用于对所述待训练图像进行文本识别，得到至少一个待训练图像文本，以及对所述目标真实图像进行文字识别，得到至少一个目标图像文本；一个所述待训练图像文本对应一个所述目标图像文本；

图像转换模块30，用于将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本；将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本；

损失参数获取模块40，用于获取所述第一对抗生成网络的第一损失参数，以及获取所述第二对抗生成网络的第二损失参数；所述第一损失参数包括根据各所述待训练图像文本以及与其对应的所第一预测图像文本确定的第一特征损失值；所述第二损失参数包括根据所述目标图像文本以及所述第二预测图像文本确定的第二特征损失值；

总损失值确定模块50，用于根据所述第一损失参数以及所述第二损失参数，确定所述预设图像处理模型的总损失值；

模型训练模块60，用于在所述总损失值未达到预设的收敛条件时，迭代更新所述预设图像处理模型中的初始参数，直至所述总损失值达到所述收敛条件时，将收敛之后的所述预设图像处理模型记录为图像转换模型。

在一实施例中，所述图像转换模块，包括：

第一图像生成单元，用于将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本；

第二图像生成单元，用于将所述预测真实图像文本输入至所述第一对抗生成网络中的第二生成器，以通过所述第二生成器生成与所述预设真实图像文本对应的第一预测图像文本。

关于图像转换模型训练装置的具体限定可以参见上文中对于图像转换模型训练方法的限定，在此不再赘述。上述图像转换模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种图像转换装置，包括：

文本识别模块，用于获取待转换图像，并对所述待转换图像进行文本识别，得到至少一个待转换图像文本；

图像转换模块，用于将各所述待转换图像文本输入至图像转换模型中，以通过所述图像转换模型中的第一生成器生成与所述待转换图像文本对应的清晰图像文本；

图像生成模块，用于根据各所述清晰图像文本生成与所述待转换图像对应的清晰图像。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中图像转换模型训练所使用的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像转换模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的图像转换模型训练方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的图像转换模型训练方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种图像转换模型训练方法，其特征在于，包括：

2.如权利要求1所述图像转换模型训练方法，其特征在于，所述将所述待训练图像文本输入至包含初始参数的预设图像处理模型的第一对抗生成网络中，得到第一预测图像文本，包括：

将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本；

3.如权利要求2所述图像转换模型训练方法，其特征在于，所述将所述待训练图像文本输入至所述第一对抗生成网络中的第一生成器，以通过所述第一生成器生成与所述待训练图像文本对应的预测真实图像文本，包括：

通过所述第一生成器中的初始卷积层对所述待训练图像文本进行初始卷积处理，得到初始图像文本；

通过所述第一生成器中的中间卷积层对所述初始图像文本进行中间卷积处理，得到中间图像文本；

4.如权利要求2所述图像转换模型训练方法，其特征在于，所述获取所述第一对抗生成网络的第一损失参数之前，还包括：

根据所述预测真实图像文本以及与所述待训练图像文本对应的所述目标图像文本，生成所述与所述第一生成器对应的第一对抗损失值；

根据所述第一预测图像文本以及所述待训练图像文本生成与所述第二生成器对应的第二对抗损失值；

根据所述第一预测图像文本以及所述待训练图像文本生成所述第一特征损失值；

5.如权利要求1所述图像转换模型训练方法，其特征在于，所述将与所述待训练图像文本对应的所述目标图像文本输入至所述预设图像处理模型的第二对抗生成网络中，得到第二预测图像文本，包括：

6.如权利要求5所述图像转换模型训练方法，其特征在于，所述获取所述第二对抗生成网络的第二损失参数之前，还包括：

根据所述预测模糊图像文本以及与所述目标图像文本对应的所述待训练图像文本，生成所述与所述第二生成器对应的第三对抗损失值；

根据所述第二预测图像文本以及所述目标图像文本生成与所述第一生成器对应的第四对抗损失值；

根据所述第二预测图像文本以及所述目标图像文本生成所述第二特征损失值；

7.一种图像转换模型训练装置，其特征在于，包括：

8.如权利要求7所述的图像转换模型训练装置，其特征在于，所述图像转换模块，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述图像转换模型训练方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述图像转换模型训练方法。