CN113627567A

CN113627567A - 图片处理方法、文本处理方法、相关设备及存储介质

Info

Publication number: CN113627567A
Application number: CN202110975132.6A
Authority: CN
Inventors: 张恒
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-09
Anticipated expiration: 2041-08-24
Also published as: CN113627567B

Abstract

本公开关于图片处理方法、文本处理方法、相关设备及存储介质，其中，图片处理方法包括：获取待处理图片，对待处理图片进行切片处理得到图片块序列；将图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个图片块对应的嵌入向量；各图片块对应的嵌入向量构成图片向量序列；将图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。本公开简化了图片生成文本模型的模型结构，并提升了图片生成文本的准确性和稳定性。

Description

图片处理方法、文本处理方法、相关设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及图片处理方法、文本处理方法、相关设备及存储介质。

背景技术

目前，在一些应用场景下，需要根据输入的文本信息自动生成符合该文本信息的图片，例如根据用户的描述文本来自动生成视频或者直播的封面等；而在另一些应用场景下，需要根据图片内容自动生成符合该图片的描述文本，例如根据商品图片自动生成相应的商品描述。

相关技术中，在需要文本生成图片的场景中一般采用生成对抗式网络模型来实现，但是生成对抗式网络模型仅能实现单向的从文本生成图片，因此在需要图片生成文本时还需要构建不同结构的网络模型，导致相关技术在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂，并且模型的准确性和鲁棒性均较差。

发明内容

本公开提供图片处理方法、文本处理方法、相关设备及存储介质，以至少解决相关技术中在文本生成图片和图片生成文本这两种应用场景下的模型结构设计复杂，以及模型的准确性和鲁棒性均较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图片处理方法，包括：

获取待处理图片，对所述待处理图片进行切片处理得到图片块序列；

将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个所述图片块对应的嵌入向量；各所述图片块对应的嵌入向量构成图片向量序列；

将所述图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。

在一个示例性的实施方式中，所述图片生成文本模型的训练方法包括：

获取第一样本图片文本对；所述第一样本图片文本对包括第一样本图片和所述第一样本图片的描述文本；

对所述第一样本图片文本对中的第一样本图片进行切片处理，得到第一样本图片块序列；

将所述第一样本图片块序列中的第一样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第一样本图片块对应的嵌入向量；各所述第一样本图片块对应的嵌入向量构成第一样本图片向量序列；

将所述第一样本图片向量序列输入第一预设神经网络进行文本预测，得到输出的预测文本；

根据所述预测文本与所述描述文本之间的差异，对所述第一预设神经网络进行训练，得到所述图片生成文本模型。

在一个示例性的实施方式中，所述方法还包括：

获取第一原始样本图片文本对；所述第一原始样本图片文本对包括第一原始样本图片和所述第一原始样本图片的描述文本；

对所述第一原始样本图片文本对中的第一原始样本图片进行图片增强处理，得到所述第一原始样本图片对应的多个第一增强样本图片；

对所述第一原始样本图片文本对中所述第一原始样本图片的描述文本进行文本增强处理，得到多个第一增强样本文本；

根据所述多个第一增强样本图片和所述多个第一增强样本文本，生成多个第一增强样本图片文本对；

根据所述第一原始样本图片文本对和所述多个第一增强样本图片文本对，得到所述第一样本图片文本对。

在一个示例性的实施方式中，所述第一预设神经网络为Transformer网络。

根据本公开实施例的第二方面，提供一种文本处理方法，包括：

获取待处理文本；

将所述待处理文本输入文本生成图片模型，得到输出的图片向量序列；所述图片向量序列包括多个嵌入向量，每个所述嵌入向量对应一个图片块；

将所述图片向量序列输入自编码网络的解码器进行解码处理，得到输出的所述待处理文本对应的描述图片。

在一个示例性的实施方式中，所述文本生成图片模型的训练方法还包括：

获取第二样本图片文本对；所述第二样本图片文本对包括第二样本图片和所述第二样本图片的描述文本；

对所述第二样本图片文本对中的第二样本图片进行切片处理，得到第二样本图片块序列；

将所述第二样本图片块序列中的第二样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第二样本图片块对应的嵌入向量；各所述第二样本图片块对应的嵌入向量构成参考样本图片向量序列；

将所述第二样本图片文本对中所述第二样本图片的描述文本输入第二预设神经网络进行图片预测，得到输出的第二样本图片向量序列；所述第二样本图片向量序列包括多个样本嵌入向量，每个所述样本嵌入向量对应一个所述第二样本图片块；

根据所述第二样本图片向量序列与所述参考样本图片向量序列之间的差异，对所述第二预设神经网络进行训练，得到所述文本生成图片模型。

在一个示例性的实施方式中，所述方法还包括：

获取第二原始样本图片文本对；所述第二原始样本图片文本对包括第二原始样本图片和所述第二原始样本图片的描述文本；

对所述第二原始样本图片文本对中的第二原始样本图片进行图片增强处理，得到所述第二原始样本图片对应的多个第二增强样本图片；

对所述第二原始样本图片文本对中所述第二原始样本图片的描述文本进行文本增强处理，得到多个第二增强样本文本；

根据所述多个第二增强样本图片和所述多个第二增强样本文本，生成多个第二增强样本图片文本对；

根据所述第二原始样本图片文本对和所述多个第二增强样本图片文本对，得到所述第二样本图片文本对。

在一个示例性的实施方式中，所述第二预设神经网络为Transformer网络。

根据本公开实施例的第三方面，提供一种图片处理装置，包括：

图片获取单元，被配置为执行获取待处理图片，对所述待处理图片进行切片处理得到图片块序列；

第一编码处理单元，被配置为执行将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个所述图片块对应的嵌入向量；各所述图片块对应的嵌入向量构成图片向量序列；

文本生成单元，被配置为执行将所述图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。

在一个示例性的实施方式中，所述装置还包括用于训练图片生成文本模型的第一训练单元，所述第一训练单元包括：

第一获取单元，被配置为执行获取第一样本图片文本对；所述第一样本图片文本对包括第一样本图片和所述第一样本图片的描述文本；

第一切片处理单元，被配置为执行对所述第一样本图片文本对中的第一样本图片进行切片处理，得到第一样本图片块序列；

第二编码单元，被配置为执行将所述第一样本图片块序列中的第一样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第一样本图片块对应的嵌入向量；各所述第一样本图片块对应的嵌入向量构成第一样本图片向量序列；

文本预测单元，被配置为执行将所述第一样本图片向量序列输入第一预设神经网络进行文本预测，得到输出的预测文本；

第一训练子单元，被配置为执行根据所述预测文本与所述描述文本之间的差异，对所述第一预设神经网络进行训练，得到所述图片生成文本模型。

在一个示例性的实施方式中，所述装置还包括：

第二获取单元，被配置为执行获取第一原始样本图片文本对；所述第一原始样本图片文本对包括第一原始样本图片和所述第一原始样本图片的描述文本；

第一图片增强单元，被配置为执行对所述第一原始样本图片文本对中的第一原始样本图片进行图片增强处理，得到所述第一原始样本图片对应的多个第一增强样本图片；

第一文本增强单元，被配置为执行对所述第一原始样本图片文本对中所述第一原始样本图片的描述文本进行文本增强处理，得到多个第一增强样本文本；

第一增强样本图片文本对生成单元，被配置为执行根据所述多个第一增强样本图片和所述多个第一增强样本文本，生成多个第一增强样本图片文本对；

第一样本图片文本对确定单元，被配置为执行根据所述第一原始样本图片文本对和所述多个第一增强样本图片文本对，得到所述第一样本图片文本对。

根据本公开实施例的第四方面，提供一种文本处理装置，包括：

文本获取单元，被配置为执行获取待处理文本；

图片向量确定单元，被配置为执行将所述待处理文本输入文本生成图片模型，得到输出的图片向量序列；所述图片向量序列包括多个嵌入向量，每个所述嵌入向量对应一个图片块；

第一解码单元，被配置为执行将所述图片向量序列输入自编码网络的解码器进行解码处理，得到输出的所述待处理文本对应的描述图片。

在一个示例性的实施方式中，所述装置还包括用于训练文本生成图片模型的第二训练单元，所述第二训练单元包括：

第三获取单元，被配置为执行获取第二样本图片文本对；所述第二样本图片文本对包括第二样本图片和所述第二样本图片的描述文本；

第二切片处理单元，被配置为执行对所述第二样本图片文本对中的第二样本图片进行切片处理，得到第二样本图片块序列；

第三编码单元，被配置为执行将所述第二样本图片块序列中的第二样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第二样本图片块对应的嵌入向量；各所述第二样本图片块对应的嵌入向量构成参考样本图片向量序列；

图片预测单元，被配置为执行将所述第二样本图片文本对中所述第二样本图片的描述文本输入第二预设神经网络进行图片预测，得到输出的第二样本图片向量序列；所述第二样本图片向量序列包括多个样本嵌入向量，每个所述样本嵌入向量对应一个所述第二样本图片块；

第二训练子单元，被配置为执行根据所述第二样本图片向量序列与所述参考样本图片向量序列之间的差异，对所述第二预设神经网络进行训练，得到所述文本生成图片模型。

在一个示例性的实施方式中，所述装置还包括：

第四获取单元，被配置为执行获取第二原始样本图片文本对；所述第二原始样本图片文本对包括第二原始样本图片和所述第二原始样本图片的描述文本；

第二图片增强单元，被配置为执行对所述第二原始样本图片文本对中的第二原始样本图片进行图片增强处理，得到所述第二原始样本图片对应的多个第二增强样本图片；

第二文本增强单元，被配置为执行对所述第二原始样本图片文本对中所述第二原始样本图片的描述文本进行文本增强处理，得到多个第二增强样本文本；

第二增强样本图片文本对生成单元，被配置为执行根据所述多个第二增强样本图片和所述多个第二增强样本文本，生成多个第二增强样本图片文本对；

第二样本图片文本对生成单元，被配置为执行根据所述第二原始样本图片文本对和所述多个第二增强样本图片文本对，得到所述第二样本图片文本对。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的图片处理方法，或者上述第二方面的文本处理方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面的图片处理方法，或者上述第二方面的文本处理方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面的图片处理方法，或者上述第二方面的文本处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对待处理图片进行切片处理得到图片块序列，并将该图片块序列中的图片块输入自编码网络的编码器进行编码处理得到每个图片块对应的嵌入向量，各图片块对应的嵌入向量构成图片向量序列，进而将该图片向量序列输入图片生成文本模型得到输出的该待处理图片对应的描述文本，从而简化了图片生成文本模型的模型结构，并提升了图片生成文本的准确性和稳定性；通过将待处理文本输入文本生成图片模型得到输出的图片向量序列，该图片向量序列包括多个嵌入向量，每个嵌入向量对应一个图片块，进而将该图片向量序列输入自编码网络的解码器进行解码处理得到输出的该待处理文本对应的描述图片，从而简化了文本生成图片模型的模型结构，并提升了文本生成图片的准确性和稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图；

图2是根据一示例性实施例示出的一种图片处理方法的流程图；

图3a是根据一示例性实施例示出的自编码网络的结构示意图；

图3b是根据一示例性实施例示出的基于自编码网络的编码器确定待处理图片对应的图片向量序列的示意图；

图4是根据一示例性实施例示出的训练图片生成文本生成模型的示意图；

图5a是根据一示例性实施例示出的确定第一样本图片文本对的流程图；

图5b是根据一示例性实施例示出的基于图片增强处理产生大量增强样本图片的示意图；

图6是根据一示例性实施例示出的一种文本处理方法的流程图；

图7是根据一示例性实施例示出的训练文本生成图片模型的示意图；

图8是根据一示例性实施例示出的确定第二样本图片文本对的流程图；

图9是根据一示例性实施例示出的一种图片处理装置的框图；

图10是根据一示例性实施例示出的一种文本处理装置的框图；

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其所示为根据一示例性实施例示出的一种应用环境的示意图，该应用环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供数据处理功能的客户端软件如应用程序(Application，简称为App)，该数据处理可以包括图片处理和文本处理，该应用程序可以是独立的应用程序，也可以是应用程序中的子程序。示例性的，该应用程序可以包括视频类应用程序、直播类应用程序等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供数据处理服务的服务器，具体的，数据处理服务可以是图片与文本相互生成的服务。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个示例性的应用场景中，服务器120中可以存储有训练好的自编码网络、图片生成文本模型和文本生成图片模型。示例性的，服务器120可以按照预定周期对上述的自编码网络、图片生成文本模型和文本生成图片模型进行训练更新。终端110在需要对待处理图片或者待处理文本进行处理时，可以将该待处理图片或者待处理文本发送给服务器120，由服务器调用相应的模型进行处理得到处理结果并将该处理结果返回给终端110，该处理结果可以是待处理图片对应的描述文本或者待处理文本对应的描述图片。

在另一个示例性的应用场景中，终端110也可以从服务器120下载训练好的自编码网络、图片生成文本模型和文本生成图片模型，并在本地存储，当需要处理待处理图片或者待处理文本时，终端110可以直接调用本地存储的相应模型对待处理图片或者待处理文本进行处理得到处理结果。

本公开实施例的图片处理方法以及文本处理方法可以由电子设备来执行，该电子设备可以是终端或者服务器，可以由终端或者服务器单独执行，也可以是终端和服务器相互配合执行。

图2是根据一示例性实施例示出的一种图片处理方法的流程图，如图2所示，包括以下步骤：

在步骤S201中，获取待处理图片，对所述待处理图片进行切片处理得到图片块序列。

其中，待处理图片可以是用户上传的图片或者视频中的帧图片。

具体的实施中，切片处理可以是对待处理图片进行均匀切片，也即图片块序列中的图片块大小一致，当然，也可以根据实际需要采用其他方式进行切片。

具体的实施中，在对待处理图片进行切片处理后，可以按照预设排列规则对各图片块进行排序以得到图片块序列，其中，预设排列规则可以根据实际需要进行设定，例如可以是从左到右和从上到下的顺序。

在步骤S203中，将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个所述图片块对应的嵌入向量，各所述图片块对应的嵌入向量构成图片向量序列。

本公开实施例中的自编码网络为预先训练好的，自编码网络是非监督学习领域的一种，可以自动从无标注的数据中学习特征，是一种以重构输入信息为目标的神经网络。具体的实施中，该自编码网络可以是变分自编码网络VAE(variational auto encoding)，也可以是矢量量化变分自编码网络VQ-VAE(Vector Quantised-Variational AutoEncoder)。

以自编码网络是VQ-VAE为例，图3a是VQ-VAE的结构示意图，VQ-VAE自编码网络包括编码器和解码器，并维护有一个嵌入层(Embedding Space)，该嵌入层对应一个预训练编码向量表(Codebook)，其中，预训练编码向量表(即Embedding Space)可以记为E＝[e₁，e₂，…，e_k]，编码器和解码器可以是卷积神经网络(Convolutional Neural Networks,CNN)。在训练VQ-VAE自编码网络时，可以将样本图片x输入VQ-VAE自编码网络的编码器，得到该编码器输出的编码向量z_e(x)，然后通过嵌入层在预训练编码向量表中查找与该编码向量z_e(x)最接近(比如欧式距离最近)的预训练编码向量e_i，用其index来表示该预训练编码向量e_i，可以得到图3a中的q(z|x)，将z_e(x)用预训练编码向量表中最近的e_i替换后可以得到图3a中的z_q(x)，将该z_q(x)作为VQ-VAE自编码网络的解码器的输入，由该解码器重构图片得到生成的图片x′，进而利用生成的图片x′与样本图片x之间的差距作为损失去更新整个VQ-VAE自编码网络的参数，直至满足训练结束条件得到训练好的VQ-VAE自编码网络，其中，训练结束条件可以是生成的图片x′与样本图片x之间的差距达到最小，也可以是迭代次数达到预设次数阈值。

基于此，在将图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个图片块对应的嵌入向量时，如图3b所示，可以将各图片块分别输入自编码网络的编码器进行编码处理得到各图片块对应的编码向量，然后确定预训练编码向量表中与各编码向量距离最近的预训练编码向量，该距离最近的预训练编码向量即为相应图片块对应的嵌入向量，各嵌入向量构成图片向量序列。

在步骤S205中，将所述图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。

其中，图片生成文本模型可以包括编码器和解密器，该编码器和解码器的结构可以相同，例如可以均采用预训练的N层的原始Transformer网络，其中N可以根据实际需要进行设定，一般N设定的越大越有利于提高模型的准确性和稳定性。

可以理解的，图片生成文本模型中编码器和解码器的结构也可以不同，例如编码解码网络的编码器为原始Transformer网络，其解码器为GPT(Generative Pre-trainingTransformer)网络或者Transformer的变种网络。

本公开实施例通过对待处理图片进行切片，分成一个一个的小图片块，并将每个图片块送入训练好的自编码网络的编码器进行编码处理得到每个图片块对应的嵌入向量，进而可以将各图片块当作词来处理，将各嵌入向量构成的图片向量序列输入图片生成文本模型以得到符合待处理图片的描述文本，简化了用于实现由图片生成文本的图片生成文本模型的模型结构，并提高了生成的描述文本的准确性和稳定性。

在一个示例性的实施方式中，本公开实施例的图片处理方法还可以包括图片生成文本模型的训练方法，该图片生成文本模型的训练方法可以包括：

(1)获取第一样本图片文本对；所述第一样本图片文本对包括第一样本图片和所述第一样本图片的描述文本。

(2)对所述第一样本图片文本对中的第一样本图片进行切片处理，得到第一样本图片块序列。

(3)将所述第一样本图片块序列中的第一样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第一样本图片块对应的嵌入向量；各所述第一样本图片块对应的嵌入向量构成第一样本图片向量序列。

具体的，在对第一样本图片进行切片处理后可以按照预设排列规则对各第一样本图片块进行排序以得到第一样本图片块序列，其中，预设排列规则可以根据实际需要进行设定，例如可以是从左到右和从上到下的顺序。在得到第一样本图片块序列后，可以将第一样本图片块序列中的各第一样本图片块输入预先训练好的自编码网络的编码器，得到该编码器输出的各第一样本图片块对应的编码向量，然后通过自编码网络的嵌入层在预训练编码向量表中查找各第一样本图片块对应的编码向量最近的预训练编码向量，从而得到各第一样本图片块对应的嵌入向量，将各第一样本图片块对应的嵌入向量构成的序列作为第一样本图片向量序列。

(4)将所述第一样本图片向量序列输入第一预设神经网络进行文本预测，得到输出的预测文本。

其中，第一预设神经网络可以是具有编码器和解码器的网络。为了提高图片生成文本模型的准确性和稳定性，该第一预设神经网络可以为Transformer网络。

(5)根据所述预测文本与所述描述文本之间的差异，对所述第一预设神经网络进行训练，得到所述图片生成文本模型。

具体的，如图4所示为训练图片生成文本生成模型的示意图，其中，第一预设神经网络为Transformer网络，具体可以为经过预训练的Transformer网络。

如图4所示，以第一样本图片文本对中第一样本图片对应的描述文本是“蓝天下的建筑”，第一样本图片如图4中所示为例，将第一样本图片对应的第一样本图片向量序列作为第一预设神经网络中编码器的输入，构建该编码器的Key矩阵(即K_encoder)和Value矩阵(即V_encoder)，并将该K_encoder和V_encoder提供给该第一预设神经网络的解码器，从而使得该解码器在第一样本图片的指导下进行文本预测得到预测文本，同时在该训练过程中将第一样本图片对应的描述文本作为期望输出输入至该第一预设神经网络的解码器，进而可以根据预测文本和该第一样本图片对应的描述文本之间的差异确定损失值，并根据该损失值调整第一预设神经网络的模型参数直至满足第一训练结束条件结束训练，将训练结束时的模型参数对应的第一预设神经网络作为本公开实施例的图片生成文本模型。

其中，损失值可以基于预设损失函数计算，该预设损失函数用于表征预测文本和描述文本之间的差异，示例性的，损失函数可以是交叉熵损失函数。第一训练结束条件可以是损失值达到最小或者迭代次数达到预设迭代次数，该预设迭代次数可以根据实际经验来设定。

本公开实施例在训练图片生成文本模型时利用样本图片指导第一预设神经网络中解码器进行文本预测，从而使得图片生成文本模型中融合了文本模态和图片模态，提升了各个单独模态的表达能力，进而提升了图片生成文本模型的准确性和稳定性。

为了进一步提高图片生成文本模型的表达能力，以提升图片生成文本的准确性和稳定性，在一个示例性的实施方式中，该方法还可以包括第一样本图片文本对的确定方法，如图5a，第一样本图片文本对的确定方法可以包括：

在步骤S501中，获取第一原始样本图片文本对；所述第一原始样本图片文本对包括第一原始样本图片和所述第一原始样本图片的描述文本。

具体的实施中，可以从微博、维基百科、百度百科等网络资源爬取相关图片和相关描述文本的图片文本对，然后将爬取的图片和文本数据做清洗，比如去除长度过长或者过短的文本、质量较差(比如清晰度不高)的图片以及特殊字符等；还可以从一些视频类或直播类平台获取用户上传的视频数据和文本数据，或者电商平台中的图片和描述文本数据等，并对获取的图片和文本数据做数据清洗等筛选处理，最终将上述各途径得到的图片和文本对作为第一原始样本图片文本对。

在步骤S503中，对所述第一原始样本图片文本对中的第一原始样本图片进行图片增强处理，得到所述第一原始样本图片对应的多个第一增强样本图片。

具体的，在步骤S501中可以获取到多个第一原始样本图片文本对，针对每个第一原始样本图片文本对，对其中的第一原始样本图片进行图片增强处理，图片增强处理可以包括旋转、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换、遮挡等操作，从而由一张第一原始样本图片得到多张第一增强样本图片。如图5b所示的图片增强处理后的示意图，由一张土拨鼠的图片经过图片增强处理可以得到若干张土拨鼠的图片。

在步骤S505中，对所述第一原始样本图片文本对中所述第一原始样本图片的描述文本进行文本增强处理，得到多个第一增强样本文本。

具体的，针对每个第一原始样本图片对，对其中的描述文本进行文本增强处理以生成相同语义表达的不同句子，示例性的，文本增强处理可以包括近义词替换、随机置换邻近的字、中文等价字替换、翻译互转、倒装句式替换等一系列的形式，从而可以由一个描述文本得到多个第一增强样本文本。

可以理解的，步骤S503与步骤S505的执行顺序并不限于上述示例，还可以先执行步骤S505后执行步骤S503，或者步骤S503与步骤S505同时执行。

在步骤S507中，根据所述多个第一增强样本图片和所述多个第一增强样本文本，生成多个第一增强样本图片文本对。

具体的实施中，可以从多个第一增强样本图片和多个第一增强样本文本中分别随机挑选一个组成第一增强样本图片文本对，从而可以得到n₁*n₂个第一增强样本图片文本对，其中，n₁表示多个第一增强样本图片的数量，n₂表示多个第一增强样本文本的数量。

可以理解的，还可以将n₁个第一增强样本图片分别与第一原始样本图片文本对中的描述文本进行配对以得到n₁个第一增强样本图片文本对；将n₂个第一增强样本文本分别与第一原始样本图片文本对中的第一原始样本图片进行配对以得到n₂个第一增强样本图片文本对。从而通过图片增强处理和文本增强处理可以得到(n₁*n₂)+n₁+n₂个第一增强样本图片文本对，当然，实际应用中可以根据实际情况确定第一增强样本图片文本对的数量。

在步骤S509中，根据所述第一原始样本图片文本对和所述多个第一增强样本图片文本对，得到所述第一样本图片文本对。

具体的实施中，可以将第一原始样本图片文本对和所述多个第一增强样本图片文本对中的任一样本图片文本对作为第一样本图片文本对。

本公开实施例通过使用图片增强处理和文本增强处理的方式去产生大量的样本图片文本对，扩充了训练数据集，进而提高了基于该扩充的训练数据集训练得到的图片生成文本模型的表达能力，提升了图片生成文本模型的准确性和稳定性，另外还节省了大量的人力物力。

本公开实施例还提供了一种文本处理方法，如图6是根据一示例性实施方式示出的一种文本处理方法的流程图，该方法包括：

在步骤S601中，获取待处理文本。

其中，待处理文本可以包括用户的评论文本、用户对视频或者直播的描述文本等等。

在步骤S603中，将所述待处理文本输入文本生成图片模型，得到输出的图片向量序列。

其中，所述图片向量序列包括多个嵌入向量，每个所述嵌入向量对应一个图片块，各图片块可以构成下述待生成的描述图片。

文本生成图片模型可以包括编码器和解码器，该编码器和解码器的结构可以相同，例如可以均采用预训练的N层的原始Transformer网络，其中N可以根据实际需要进行设定，一般N设定的越大越有利于提高模型的准确性和稳定性。

可以理解的，文本生成图片模型中编码器和解码器的结构也可以不同，例如编码解码网络的编码器为原始Transformer网络，其解码器为GPT(Generative Pre-trainingTransformer)网络或者Transformer的变种网络。

在步骤S605中，将所述图片向量序列输入自编码网络的解码器进行解码处理，得到输出的所述待处理文本对应的描述图片。

其中，自编码网络可以是本公开实施例前述图片处理方法中提及的自编码网络，关于该自编码网络的具体内容可以参见本公开实施例的前述相关部分，在此不再赘述。

本公开实施例通过文本生成图片模型确定待处理文本对应的图片向量序列，并结合自编码网络的解码器解码该图片向量序列，从而得到待处理文本对应的描述图片，即简化了用于实现由文本生成图片的文本生成图片模型的模型结构，又提高了生成的描述图片的准确性和稳定性。

在一个示例性的实施方式中，本公开实施例的文本处理方法还可以包括文本生成图片模型的训练方法，该文本生成图片模型的训练方法可以包括：

(1)获取第二样本图片文本对；所述第二样本图片文本对包括第二样本图片和所述第二样本图片的描述文本。

(2)对所述第二样本图片文本对中的第二样本图片进行切片处理，得到第二样本图片块序列。

(3)将所述第二样本图片块序列中的第二样本图片块输入所述自编码网络的编码器进行编码处理，得到每个所述第二样本图片块对应的嵌入向量；各所述第二样本图片块对应的嵌入向量构成参考样本图片向量序列。

具体的，在对第二样本图片进行切片处理后可以按照预设排列规则对各第二样本图片块进行排序以得到第二样本图片块序列，其中，预设排列规则可以根据实际需要进行设定，例如可以是从左到右和从上到下的顺序。在得到第二样本图片块序列后，可以将第二样本图片块序列中的各第二样本图片块输入预先训练好的自编码网络的编码器，得到该编码器输出的各第二样本图片块对应的编码向量，然后通过自编码网络的嵌入层在预训练编码向量表中查找各第二样本图片块对应的编码向量距离最近的预训练编码向量，从而得到各第二样本图片块对应的嵌入向量，将各第二样本图片块对应的嵌入向量构成的序列作为参考样本图片向量序列。

(4)将所述第二样本图片文本对中所述第二样本图片的描述文本输入第二预设神经网络进行图片预测，得到输出的第二样本图片向量序列。

其中，所述第二样本图片向量序列包括多个样本嵌入向量，每个所述样本嵌入向量对应一个所述第二样本图片块。

第二预设神经网络可以是具有编码器和解码器的网络。为了提高文本生成图片模型的准确性和稳定性，该第二预设神经网络可以为Transformer网络。

在一个示例性的实施方式中，为了简化图片生成文本和文本生成图片这两种场景下的模型结构设计，提高训练效率，第二预设神经网络与前述第一预设神经网络可以是具有相同的网络结构。

(5)根据所述第二样本图片向量序列与所述参考样本图片向量序列之间的差异，对所述第二预设神经网络进行训练，得到所述文本生成图片模型。

具体的，如图7所示为训练文本生成图片模型的示意图，其中，第二预设神经网络为Transformer网络，该Transformer网络可以是经过预训练的。

以第二样本图片文本对中第二样本图片对应的描述文本是“蓝天下的建筑”，第二样本图片如图7中所示为例，将第二样本图片文本对中的描述文本“蓝天下的建筑”作为第二预设神经网络中编码器的输入，构建该编码器中的Key矩阵(即K_encdec)和Value矩阵(即V_encdec)，并将该K_encdec和V_encdec提供给该第二预设神经网络中的解码器，从而使得该解码器在该描述文本的指导下进行图片预测得到第二样本图片向量序列，同时在该训练过程中将第二样本图片对应的参考样本图片向量序列作为期望输出输入到该第二预设神经网络的解码器，进而可以根据上述预测结果和该参考样本图片向量序列之间的差异确定损失值，并根据该损失值调整第二预设神经网络的模型参数直至满足第二训练结束条件结束训练，将训练结束时的模型参数对应的第二预设神经网络作为本公开实施例的文本生成图片模型。

其中，损失值可以基于预设损失函数计算，该预设损失函数用于表征预测的第二样本图片向量序列和参考样本图片向量序列之间的差异，示例性的，损失函数可以是交叉熵损失函数。第二训练结束条件可以是损失值达到最小或者迭代次数达到预设迭代次数，该预设迭代次数可以根据实际经验来设定。

本公开实施例在训练文本生成图片模型时利用样本图片文本对中的描述文本指导第二预设神经网络中解码器进行图片预测，从而使得文本生成图片模型融合了文本模态和图片模态，提升了各个单独模态的表达能力，进而提升了文本生成图片模型的准确性和稳定性。

为了进一步提高文本生成图片模型的表达能力，以提升文本生成图片的准确性和稳定性，在一个示例性的实施方式中，该方法还可以包括第二样本图片文本对的确定方法，如图8所示，第二样本图片文本对的确定方法可以包括：

在步骤S801中，获取第二原始样本图片文本对；所述第二原始样本图片文本对包括第二原始样本图片和所述第二原始样本图片的描述文本。

具体的实施中，可以从微博、维基百科、百度百科等网络资源爬取相关图片和相关描述文本的图片文本对，然后将爬取的图片和文本数据做清洗，比如去除长度过长或者过短的文本、质量较差(比如清晰度不高)的图片以及特殊字符等；还可以从一些视频类或直播类平台获取用户上传的视频数据和文本数据，或者电商平台中的图片和描述文本数据等，并对获取的图片和文本数据做数据清洗等筛选处理，最终将上述各途径得到的图片和文本对作为第二原始样本图片文本对。

在步骤S803中，对所述第二原始样本图片文本对中的第二原始样本图片进行图片增强处理，得到所述第二原始样本图片对应的多个第二增强样本图片。

具体的，在步骤S801中可以获取到多个第二原始样本图片文本对，针对每个第二原始样本图片文本对，对其中的第二原始样本图片进行图片增强处理，图片增强处理可以包括旋转、翻转变换、缩放变换、平移变换、尺度变换、噪声扰动、颜色变换、遮挡等操作，从而由一张第二原始样本图片得到多张第二增强样本图片。

在步骤S805中，对所述第二原始样本图片文本对中所述第二原始样本图片的描述文本进行文本增强处理，得到多个第二增强样本文本。

具体的，针对每个第二原始样本图片对，对其中的描述文本进行文本增强处理以生成相同语义表达的不同句子，示例性的，文本增强处理可以包括近义词替换、随机置换邻近的字、中文等价字替换、翻译互转、倒装句式替换等一系列的形式，从而可以由一个描述文本得到多个第二增强样本文本。

可以理解的，步骤S803与步骤S805的执行顺序并不限于上述示例，还可以先执行步骤S805后执行步骤S803，或者步骤S803与步骤S805同时执行。

在步骤S807中，根据所述多个第二增强样本图片和所述多个第二增强样本文本，生成多个第二增强样本图片文本对。

具体的实施中，可以从多个第二增强样本图片和多个第二增强样本文本中分别随机挑选一个组成第二增强样本图片文本对，从而可以得到n₁*n₂个第二增强样本图片文本对，其中，n₁表示多个第二增强样本图片的数量，n₂表示多个第二增强样本文本的数量。

可以理解的，还可以将n₁个第二增强样本图片分别与第二原始样本图片文本对中的描述文本进行配对以得到n₁个第二增强样本图片文本对；将n₂个第二增强样本文本分别与第二原始样本图片文本对中的第二原始样本图片进行配对以得到n₂个第二增强样本图片文本对。从而通过图片增强处理和文本增强处理可以得到(n₁*n₂)+n₁+n₂个第二增强样本图片文本对，当然，实际应用中可以根据实际情况确定第二增强样本图片文本对的数量。

在步骤S809中，根据所述第二原始样本图片文本对和所述多个第二增强样本图片文本对，得到所述第二样本图片文本对。

具体的实施中，可以将第二原始样本图片文本对和所述多个第二增强样本图片文本对中的任一样本图片文本对作为第二样本图片文本对。

本公开实施例通过使用图片增强处理和文本增强处理的方式去产生大量的样本图片文本对，扩充了训练数据集，进而提高了基于该扩充的训练数据集训练得到的文本生成图片模型的表达能力，提升了文本生成图片模型的准确性和稳定性，另外还节省了大量的人力物力。

图9是根据一示例性实施例示出的一种图片处理装置的框图。参照图9，该图片处理装置900包括图片获取单元910、第一编码处理单元920和文本生成单元930，其中：

图片获取单元910，被配置为执行获取待处理图片，对所述待处理图片进行切片处理得到图片块序列；

第一编码处理单元920，被配置为执行将所述图片块序列中的图片块输入自编码网络的编码器进行编码处理，得到每个所述图片块对应的嵌入向量；各所述图片块对应的嵌入向量构成图片向量序列；

文本生成单元930，被配置为执行将所述图片向量序列输入图片生成文本模型，得到输出的所述待处理图片对应的描述文本。

在一个示例性的实施方式中，所述装置还包括：

图10是根据一示例性实施例示出的一种文本处理装置的框图。参照图10，该文本处理装置1000包括文本获取单元1010、图片向量确定单元1020和第一解码单元1030，其中：

文本获取单元1010，被配置为执行获取待处理文本；

图片向量确定单元1020，被配置为执行将所述待处理文本输入文本生成图片模型，得到输出的图片向量序列；所述图片向量序列包括多个嵌入向量，每个所述嵌入向量对应一个图片块；

第一解码单元1030，被配置为执行将所述图片向量序列输入自编码网络的解码器进行解码处理，得到输出的所述待处理文本对应的描述图片。

在一个示例性的实施方式中，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个示例性的实施方式中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现本公开实施例中提供的任意一种图片处理方法或者文本处理方法。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图11是根据一示例性实施例示出的一种电子设备的框图，如图11所示，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1130，一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中，存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1110可以设置为与存储介质1120通信，在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1140，和/或，一个或一个以上操作系统1121，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中，输入输出接口1140包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1140可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1100还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

在一个示例性的实施方式中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1130，上述指令可由装置1100的处理器1110执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一个示例性的实施方式中，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例中提供的任意一种图片处理方法或者文本处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图片处理方法，其特征在于，包括：

2.根据权利要求1所述的图片处理方法，其特征在于，所述图片生成文本模型的训练方法包括：

3.根据权利要求2所述的图片处理方法，其特征在于，所述方法还包括：

4.一种文本处理方法，其特征在于，包括：

获取待处理文本；

5.根据权利要求4所述的文本处理方法，其特征在于，所述文本生成图片模型的训练方法还包括：

6.根据权利要求5所述的文本处理方法，其特征在于，所述方法还包括：

7.一种图片处理装置，其特征在于，包括：

8.一种文本处理装置，其特征在于，包括：

文本获取单元，被配置为执行获取待处理文本；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的图片处理方法，或者权利要求4至6中任一项所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至3中任一项所述的图片处理方法，或者权利要求4至6中任一项所述的文本处理方法。