CN116630480A

CN116630480A - 一种交互式文本驱动图像编辑的方法、装置和电子设备

Info

Publication number: CN116630480A
Application number: CN202310862442.6A
Authority: CN
Inventors: 陈岱渊; 王之宇; 张音捷; 白冰; 张兴明; 刘恬; 黎海燕; 韩孟玲; 范逸飞
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-22
Anticipated expiration: 2043-07-14
Also published as: CN116630480B

Abstract

本发明涉及交互式文本驱动图像编辑的方法、装置和电子设备，方法包括获取图像样本并判断图像样本是否合规；将图像样本输入到图像逆向模型得到原始图像逆向特征；获取文本样本并判断文本样本是否合规；将文本样本输入到文本编码器中得到文本特征；将原始图像逆向特征和文本特征输入到多模态融合模型得到编辑图像特征；将编辑图像特征输入到图像生成器得到编辑后图像；询问用户是否继续输入文本样本，若继续，继续获取文本样本；否则输出最终编辑后图像。与现有技术相比，本发明放开了传统编辑场景对于输入文本内容的限制，可实现针对于同一张原始图像进行多次文本输入，渐进式修改对应图像区域，提高图像编辑方法灵活性。

Description

一种交互式文本驱动图像编辑的方法、装置和电子设备

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种交互式文本驱动图像编辑的方法、装置和电子设备。

背景技术

文本驱动图像编辑场景基于输入的文本和原始图像，编辑原始图像中不符合文本语义的区域，生成高质量的编辑后图像，如公开号为CN113448477A的发明公开的一种交互式图像编辑方法、装置、可读存储介质及电子设备。

但通常对于输入文本内容和原始图像类别有较多限制，比如，限制使用人脸，车辆，家居等图像，限制修改内容不能过于复杂，仅针对于五官表情，车辆颜色，家居结构等内容进行编辑，图像编辑限制多、灵活性低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种交互式文本驱动图像编辑的方法、装置和电子设备，放开了文本驱动图像编辑方法对于用户输入文本内容的限制，允许通过多次输入文本样本，对图像进行多次修改，提高了图像编辑方法的通用性。

本发明的目的可以通过以下技术方案来实现：

根据本发明的第一方面，提供了一种交互式文本驱动图像编辑的方法，包括以下步骤：

图像样本处理步骤：获取图像样本；判断所述图像样本是否合规，若不合规，则重新获取图像样本；若合规，则将所述图像样本输入到预先建立并训练好的图像逆向模型中得到原始图像逆向特征；

文本样本处理步骤：获取文本样本；判断所述文本样本是否合规，若不合规，则重新获取文本样本；若合规，则将文本样本输入到预先建立并训练好的文本编码器中得到文本特征；

图像编辑步骤：将所述原始图像逆向特征和文本特征输入到预先建立并训练好的多模态融合模型中，得到编辑图像特征，将该编辑图像特征输入到图像生成器得到编辑后图像，然后执行循环步骤；

循环步骤：获取是否继续输入文本样本的指令信息，若继续输入文本样本，则将原始图像逆向特征赋值为编辑后图像，并重新依次执行文本样本处理步骤和图像编辑步骤；若不继续输入文本样本，则输出最终的编辑后图像。

进一步地，所述图像样本的合规判断包括对图像内容和图像质量的合规判断。

进一步地，所述文本样本的合规判断包括文本内容和文本拼写是否正确的合规判断。

进一步地，所述图像逆向模型为预训练的专注于图像逆向任务的深度神经模型，包括但不限于e4e模型、pSp模型、E2Style模型和HyperInverter模型。

进一步地，所述图像生成器为预训练的专注于图像生成任务的深度神经模型，包括但不限于BigGAN模型、StyleGAN模型和StyleGAN2模型。

根据本发明的第二方面，提供了一种如上所述的一种交互式文本驱动图像编辑的方法的模型训练方法，包括以下步骤：

S1：获取图像训练样本和文本训练样本；

S2：判断所述图像训练样本和文本训练样本是否合规，若不合规，则重新获取图像训练样本和文本训练样本；

S3：将所述图像训练样本输入到预先建立并训练好的图像逆向模型得到原始图像逆向特征；将所述文本训练样本输入到预先建立并训练好的文本编码器得到文本特征；

S4：将所述原始图像逆向特征和文本特征输入到预先建立的双模态融合模型，得到编辑图像特征；

S5：将所述编辑图像特征输入到预先建立并训练好的图像生成器得到编辑后图像，根据该编辑后图像计算损失函数，对所述双模态融合模型进行反馈；

S6：判断所述编辑后图像是否满足预先设定的收敛条件，若不满足，则返回步骤S4；若满足，则得到训练后的双模态融合模型。

进一步地，所述双模态融合模型首先对输入的原始图像逆向特征和文本特征进行语义对齐，然后利用所述文本特征对对齐后的特征进行指导，最终生成编辑图像特征。

进一步地，所述语义对齐的过程包括：

以所述原始图像逆向特征的层级特征进行交叉注意力计算，以所述文本特征作为检索标定，计算基于层级特征的交叉注意力机制权重；

以所述原始图像逆向特征的通道级特征进行交叉注意力计算，以所述文本特征作为检索标定，计算基于通道级特征的交叉注意力机制权重；

根据计算得到的基于层级特征的交叉注意力机制权重和基于通道级特征的交叉注意力机制权重，将所述原始图像逆向特征进行重新拼合，得到语义对齐后的特征。

进一步地，所述利用文本特征对对齐后的特征进行指导最终生成编辑图像特征的过程具体为：

根据所有的图像训练样本的图像特征计算均值和方差，对所述对齐后的特征进行层归一化；然后基于文本特征，对层归一化后的特征进行伸缩和偏移变换，得到编辑图像特征。

进一步地，所述双模态融合模型的损失函数包括但不限于以下任一损失函数或多个损失函数的结合：

图像质量损失函数，采用用于图像分类的深度神经网络，分别提取编辑后图像和图像训练样本的语义特征，并计算两语义特征的均方误差；

语义一致性损失函数，采用预训练的多模态网络，分别对编辑后图像和文本特征进行图像语义特征和文本语义特征提取，计算语义一致性；

图像语义一致性损失函数，采用预训练的多模态网络，分别对编辑后图像和图像训练样本进行图像语义特征提取，计算图像语义一致性；

人脸解析损失函数，采用预训练的用于解析人脸五官的深度神经网络，分别对编辑后图像和图像训练样本进行人脸的五官分割特征提取，计算编辑后图像和图像训练样本的人脸五官特征一致性；

人脸身份损失函数，采用预训练的用于的人脸识别的深度神经网络，分别对编辑后图像和图像训练样本进行身份特征提取，计算编辑后图像和图像训练样本的人脸身份一致性。

进一步地，所述收敛条件包括但不限于以下任一判断方法或多个判断方法的结合：

基于损失函数的收敛判断方法，用于根据损失函数的曲线变化趋势，判断曲线斜率是否小于预设的斜率阈值，若曲线斜率小于斜率阈值时，则判断双模态融合模型训练达到收敛；

基于超参数的收敛判断方法，用于根据训练相关的超参数，设定对应的超参数阈值，但达到超参数阈值时，则判断双模态融合模型训练达到收敛。

根据本发明的第三方面，提供了一种交互式文本驱动图像编辑装置，包括：样本获取模块、模型获取模块、交互式编辑模块和结果输出模块；

样本获取模块，被配置为获取图像样本和文本样本；

模型获取模块，被配置为获取预先构建并训练好的图像逆向模型、文本编码器，双模态融合模型和图像生成器；

交互式编辑模块，被配置为利用图像逆向模型将图像样本处理为原始图像逆向特征，利用文本编码器将文本样本处理为文本特征，利用双模态融合模型将所述原始图像逆向特征和文本特征处理为编辑图像特征，利用图像生成器根据编辑图像特征生成编辑后图像；

若样本获取模块继续获取到文本样本，则将原始图像逆向特征赋值为编辑后图像，并重新依次执行生成编辑后图像的流程；

结果输出模块，被配置为输出交互式编辑模块的最终结果，以及样本获取模块获取的图像样本和文本样本。

根据本发明的第二方面，提供了一种交互式文本驱动图像编辑电子设备，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上所述的交互式文本驱动图像编辑的方法。

进一步地，所述电子设备还包括输入装置和输出装置，所述存储器、处理器、输入装置和输出装置均接入总线。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上所述的交互式文本驱动图像编辑的方法。

与现有技术相比，本发明具有以下优点：

（1）本发明提供了一种交互式文本驱动图像编辑的方法，在推理过程中，允许多次输入文本样本，对同一图像进行无限制的编辑操作，降低用户使用门槛，提高图像编辑效率，提升方法实用性；

（2）本发明提供了一种交互式文本驱动图像编辑的训练方法，基于预训练的图像逆向模型，文本编码器和图像生成器，不要求输入成对的图像样本和文本样本，只需使用少量计算资源训练双模态融合模型，减小图像编辑训练成本。

附图说明

图1为本发明实施例中提供的一种交互式文本驱动图像编辑的训练过程示意图；

图2为本发明实施例中提供的一种交互式文本驱动图像编辑的方法流程示意图；

图3为本发明实施例中提供的一种交互式文本驱动图像编辑装置的结构示意图；

图4为本发明实施例中提供的一种交互式文本驱动图像编辑电子设备的框架示意图；

图5为本发明实施例中提供的一种计算机可读存储介质的使用状态示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例

本实施例首先提供一种交互式文本驱动图像编辑的方法的模型训练过程，如图1所示，包括以下步骤：

步骤101，获取图像和文本训练样本；

值得注意地，本发明提供的一种交互式文本驱动图像编辑的训练过程不要求提供真实编辑后图像，训练样本不要求成对。即，不要求图像样本和文本样本语义匹配，可以是同一张图像样本对应多个文本样本，也可以是一个文本样本对应多张图像样本。

具体地，图像样本表示为，文本样本表示为/>， />表示为第个样本。

步骤102，判断获取样本是否合规，若不合规，则返回步骤101；

值得注意地，在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

具体地，针对于图像样本的合规判定，包括但不限于：1）图像内容的合规。即，获取图像不能涉及违法违规内容。2）图像质量应满足阈值，有图像尺寸、分辨率、质量指标评估等。具体阈值数值，可根据具体模型规模，算力配置和编辑场景需求灵活设定。

针对于文本样本的合规判定，包括但不限于：1）文本内容的合规。即，获取文本不能涉及地区，文化等内容。2）文本拼写正确。

步骤103，将图像样本输入到图像逆向模型得到原始图像逆向特征；

具体地，为减少交互式文本驱动图像编辑训练方法的训练成本，图像逆向模型可使用预训练的专注于图像逆向任务的深度神经模型，力求达到图像复原性和可编辑性的平衡。可使用开源的预训练e4e（Designing an Encoder for StyleGAN ImageManipulation），pSp（Encoding in Style: a StyleGAN Encoder for Image-to-ImageTranslation），E2Style（Improve the Efficiency and Effectiveness of StyleGANInversion），HyperInverter（Improving StyleGAN Inversion via Hypernetwork）等网络。图像逆向模型表示为，原始图像逆向特征表示为/>，特征形状为/>。

步骤104，将文本样本输入到文本编码器得到文本特征；

同样地，文本编码器可使用开源的预训练CLIP（Hierarchical Text-ConditionalImage Generation with CLIP Latents）text encoder，表示为，文本特征表示为/>，特征形状为/>。

步骤105，将原始图像逆向特征和文本特征输入到双模态融合模型得到编辑图像特征；

具体地，双模态融合模型先对图像特征和文本特征进行语义对齐，再利用文本特征对对齐后特征进行指导，最终生成编辑图像特征。

首先，利用交叉注意力机制对文本特征和图像特征进行语义对齐。详细地，对于图像逆向特征的层级特征进行交叉注意力计算，文本特征作为检索标定，随机初始化形状为的/>，/>的/>，/>的/>矩阵，分别计算：

更进一步地，基于层级特征的交叉注意力机制权重计算如下：

对于图像逆向特征的通道级特征进行交叉注意力计算，文本特征作为检索标定，随机初始化形状为的/>，/>的/> ，/>的/>矩阵，分别计算：

更进一步地，基于通道级特征的交叉注意力机制权重计算如下：

进一步地，基于层级注意力权重和通道级注意力权重进行文本特征和图像特征的对齐操作，得到语义对齐后的特征：

接着再利用文本特征对对齐后特征进行指导，生成编辑图像特征。具体地，改进原始深度学习领域常用的层归一化操作，具体计算如下：

首先基于对齐根据计算出来的均值和方差/>，对对齐特征进行层归一化，得到归一化后对齐特征/>。再利用文本特征进行迁移指导，随机初始化形状为 />的/>和/>矩阵，分别表示对归一化后对齐特征进行伸缩和偏移变换，具体计算如下：

最终得到编辑图像特征。

步骤106，将编辑图像特征输入到图像生成器得到编辑后图像；

图像生成器表示为。为减少交互式文本驱动图像编辑训练方法的训练成本，图像生成器可使用预训练的专注于图像生成任务的深度神经模型，力求充分利用预训练模型的生成能力。可使用开源的预训练BigGAN（Large Scale GAN Training forHigh Fidelity Natural Image Synthesis），StyleGAN（A Style-Based GeneratorArchitecture for Generative Adversarial Networks），StyleGAN2（Analyzing andImproving the Image Quality of StyleGAN）等模型。编辑后图像表示为。

步骤107，判断编辑后图像是否收敛，若不收敛，则返回步骤105；

为了保证编辑后图像质量，需要采用多个损失函数结合的方式进行训练。每个损失函数约束的目标不同。

具体地，为保证编辑后图像与图像样本感知质量一致，基于特征级别，构造图像质量损失函数：

其中是预训练的用于图像分类的深度神经网络用作提取输入图像的语义特征，常用Vgg，LPIPS等网络。其中/>指均方误差MSE（mean squared error）。

为保证编辑后图像语义匹配文本样本，可利用预训练的多模态网络对编辑后图像和文本特征分别进行图像语义特征和文本语义特征提取，构造语义一致性损失函数：

进一步地，为保证编辑前后图像语义匹配，可再利用对图像样本和编辑后图像进行图像语义特征提取，构造图像语义一致性损失函数：

可选地，如果图像样本是人脸图像可进一步约束人脸身份和五官信息前后一致，提升编辑前后身份的一致性。具体地，为了加强约束编辑后生成图像和图像样本人脸身份一致，基于特征级别，构造人脸解析损失函数：

其中是预训练的用于解析人脸五官的深度神经网络，用作提取人脸的五官分割特征。

为保证编辑后生成图像和原始图像人脸身份一致，基于特征级别，构造人脸身份损失函数：

其中是预训练的用于的人脸识别的深度神经网络，用作提取输入图像的身份特征。

值得注意地，以上损失函数仅为一个实施例的说明，在此不限制各个损失函数的部分选择和加权使用，在具体实施例中，可根据具体使用场景增加或减少其他的损失函数，只要能实现本公开的技术方案所期望的结果，在此不进行内容和数量上的限制。

可选地，判断编辑后图像收敛的方式可选择下述的一种或多种方法相结合：

1、通过记录编辑图像训练损失函数曲线变化趋势进行判断。具体地，当曲线斜率小于预先设定的阈值时，可确定编辑后图像达到收敛；

2、通过设定训练总步数、时长等与训练相关的超参数，当达到预先设定的阈值时，即作为停止/收敛的条件。

步骤108，输出收敛编辑后图像。

在本实施例中，应输出。

双模态融合模型训练完成后，即可用于进行交互式文本驱动图像编辑，如图2所示，本实施例提供一种交互式文本驱动图像编辑的方法，包括以下步骤：

步骤201，获取图像样本；

图像样本表示为，/>代表为第个样本。

步骤201，判断图像样本是否合规，若不合规，则返回步骤201；

相较于步骤102中对于图像样本的合规判别，考虑到交互式文本驱动图像编辑的实际应用场景，在此额外增加产品级别的图像合规判别，包括对图像中的涉黄、涉暴、不良场景等内容的识别和过滤。在实际应用中，可根据具体应用场景，选择使用人工审核或第三方图像智能审核工具。

步骤203，将图像样本输入到图像逆向模型得到原始图像逆向特征；

在本实施例中，步骤203具体操作已在图1所示的实施例中步骤103进行了详细地介绍，在此不再赘述。图像逆向模型表示为，原始图像逆向特征表示为。

步骤204，获取文本样本；

图像样本表示为， /> 代表为第个样t本。

步骤205，判断文本样本是否合规，若不合规，则返回步骤204；

相较于步骤102中对于文本样本的合规判别，考虑到交互式文本驱动图像编辑的实际应用场景，在此额外增加产品级别的文本合规判别。包括识别文本中是否存在涉黄、辱骂、违禁等不合规范的内容，如色情、低俗、血腥等；识别文本中是否存在敏感、禁限等不符合法律法规的内容，如刀枪、毒品等；在实际应用中，可根据具体应用场景，选择使用人工审核或第三方图像智能审核工具。

步骤206，将文本样本输入到文本编码器中得到文本特征；

在本实施例中，步骤206具体操作已在图1所示的实施例中步骤104进行了详细地介绍，在此不再赘述。文本编码器可使用开源的预训练text encoder，表示为，文本特征表示为/> 。

步骤207，将原始图像逆向特征和文本特征输入到多模态融合模型得到编辑图像特征；

在本实施例中，步骤207具体操作已在图1所示的实施例中步骤105进行了详细地介绍，在此不再赘述。编辑图像特征表示为。

步骤208，将编辑图像特征输入到图像生成器得到编辑后图像；

在本实施例中，步骤208具体操作已在图1所示的实施例中步骤106进行了详细地介绍，在此不再赘述。图像生成器表示为，编辑后图像表示为。

步骤209，询问用户是否继续输入文本样本，若继续，则返回步骤204；

考虑到交互式文本驱动图像编辑实际应用场景，可将图像样本备份至数据库，在此将图像样本赋值为编辑后图像，有。无论用户是否选择继续输入样本，也可以保证交互式图像编辑流程的正常运行。具体地，若用户选择继续输入文本样本，即继续进行文本驱动图像编辑操作，则之后的编辑操作基于上次编辑后图像即可。

步骤210，输出最终编辑后图像。

在本实施例中，应输出。

图3示出了可以用来实施本公开的实施例的一种交互式文本驱动图像编辑装置300，包括样本获取模块301，模型获取模块302，交互式编辑模块303，结果输出模块304。

其中，样本获取模块301，被配置为获取用户上传的图像样本和文本样本；

模型获取模块302，被配置为根据样本获取模块，获取预训练的图像逆向模型，文本编码器，双模态融合模型和图像生成器；

交互式编辑模块303，被配置为利用图像逆向模型将图像样本处理为原始图像逆向特征，利用文本编码器将文本样本处理为文本特征，利用双模态融合模型将原始图像逆向特征和文本特征处理为编辑图像特征，利用图像生成器生成编辑后图像；

结果输出模块304，被配置为输出交互式文本驱动图像编辑最终结果，应包含，样本获取模块获取的图像样本和文本样本，以及交互式模块输出的编辑后图像。

根据本公开的又一方面，本发明提供了一种交互式文本驱动图像编辑电子设备，包括存储器和至少一个处理器。存储器存储有可执行代码，至少一个处理器用于执行一种交互式文本驱动图像编辑装置中任一模块操作。

图4示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子

设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

如图4所示，电子设备包括：包括存储器401，处理器402，输入装置403，输出装置404。各个部件通过总线进行连接，可以被安装在公共主板上或根据实际需要以其他方式进行安装。图4所示的部件、部件的连接和关系和部件的功能仅作为展示实例，并不意在限制文本中描述的和/或者要求的实现。

当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，如图5所示，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种交互式文本驱动图像编辑的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种交互式文本驱动图像编辑的方法，其特征在于，所述图像样本的合规判断包括对图像内容和图像质量的合规判断。

3.根据权利要求1所述的一种交互式文本驱动图像编辑的方法，其特征在于，所述文本样本的合规判断包括文本内容和文本拼写是否正确的合规判断。

4.根据权利要求1所述的一种交互式文本驱动图像编辑的方法，其特征在于，所述图像逆向模型为预训练的专注于图像逆向任务的深度神经模型，包括但不限于e4e模型、pSp模型、E2Style模型和HyperInverter模型。

5.根据权利要求1所述的一种交互式文本驱动图像编辑的方法，其特征在于，所述图像生成器为预训练的专注于图像生成任务的深度神经模型，包括但不限于BigGAN模型、StyleGAN模型和StyleGAN2模型。

6.一种如权利要求1-2任一所述的一种交互式文本驱动图像编辑的方法的模型训练方法，其特征在于，包括以下步骤：

S1：获取图像训练样本和文本训练样本；

7.根据权利要求6所述的模型训练方法，其特征在于，所述双模态融合模型首先对输入的原始图像逆向特征和文本特征进行语义对齐，然后利用所述文本特征对对齐后的特征进行指导，最终生成编辑图像特征。

8.根据权利要求7所述的模型训练方法，其特征在于，所述语义对齐的过程包括：

9.根据权利要求7所述的模型训练方法，其特征在于，所述利用文本特征对对齐后的特征进行指导最终生成编辑图像特征的过程具体为：

10.根据权利要求6所述的模型训练方法，其特征在于，所述双模态融合模型的损失函数包括但不限于以下任一损失函数或多个损失函数的结合：

11.根据权利要求6所述的模型训练方法，其特征在于，所述收敛条件包括但不限于以下任一判断方法或多个判断方法的结合：

12.一种交互式文本驱动图像编辑装置，其特征在于，包括：样本获取模块、模型获取模块、交互式编辑模块和结果输出模块；

样本获取模块，被配置为获取图像样本和文本样本；

13.一种交互式文本驱动图像编辑电子设备，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-5中任一项所述的交互式文本驱动图像编辑的方法。

14.根据权利要求13所述的电子设备，其特征在于，所述电子设备还包括输入装置和输出装置，所述存储器、处理器、输入装置和输出装置均接入总线。

15.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-5中任一项所述的交互式文本驱动图像编辑的方法。