CN114820885A

CN114820885A - 图像编辑方法及其模型训练方法、装置、设备和介质

Info

Publication number: CN114820885A
Application number: CN202210556462.6A
Authority: CN
Inventors: 章成全; 庾悦晨; 吴亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29
Anticipated expiration: 2042-05-19
Also published as: US20230377225A1; CN114820885B

Abstract

本公开提供了一种图像编辑方法及其模型训练方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉领域。该方法包括：将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定关注区域对应的内容作为关注内容样本；将背景图像样本和关注内容样本，输入图像编辑模型中；采用图像编辑模型，将背景图像特征和关注区域特征，基于关注区域在原始图像中的位置进行融合处理以形成融合特征；采用图像编辑模型，根据融合特征进行图像重构操作，以输出重构图像；以原始图像作为监督结果，根据重构图像和原始图像之间的损失关系，对图像编辑模型进行优化训练。本公开可以降低获取模型训练样本的难度和成本。

Description

图像编辑方法及其模型训练方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可适用于OCR(Optical Character Recognition，光学字符识别)场景。

背景技术

在广告图片编辑、拍照文档去除手写笔迹、AR(增强现实)翻译等各种应用场景下，均会出现对图像的编辑处理需求。例如，将图像上的文本进行语种翻译，或将图像上的文本进行隐藏擦除，或实现图像的局部调整等各种图像编辑处理的需求。

为了提高图像编辑处理的自动化处理程度，现有技术可选择基于机器学习模型进行图像处理。但是为了满足具体的图像处理需求，就需要足够的训练样本对机器学习模型进行训练。

上述现有技术，往往强依赖于训练样本数据的规模和真实性，但真实的数据场景很难获取成对的数据，人工标注的成本巨大。

公开内容

本公开提供了一种图像编辑方法及其模型训练方法、装置、设备和介质。

根据本公开的一方面，提供了一种图像编辑模型的训练方法，包括：

将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定所述关注区域对应的内容作为关注内容样本；

将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征；

采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征；

采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像；

以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

根据本公开的另一方面，提供了一种图像编辑方法，包括：

确定待编辑图像中的关注区域，以及在所述关注区域中进行处理的编辑内容；

将所述待编辑图像中的关注区域进行遮盖处理，以形成背景图像；

将所述背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置，输入图像编辑模型，以所述编辑内容对所述关注区域的图像进行编辑处理；

其中，所述图像编辑模型采用本公开任意实施例所提供的图像编辑模型的训练方法训练而成。

根据本公开的另一方面，提供了一种图像编辑模型的训练装置，包括：

样本生成模块，用于将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定所述关注区域对应的内容作为关注内容样本；

特征提取模块，用于将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征；

特征融合模块，用于采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征；

图像重构模块，用于采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像；

模型监督模块，用于以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

根据本公开的另一方面，提供了一种图像编辑装置，包括：

编辑内容确定模块，用于确定待编辑图像中的关注区域，以及在所述关注区域中进行处理的编辑内容；

背景图像形成模块，用于将所述待编辑图像中的关注区域进行遮盖处理，以形成背景图像；

图像编辑处理模块，用于将所述背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置，输入图像编辑模型，以所述编辑内容对所述关注区域的图像进行编辑处理；

根据本公开的又一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所提供的图像编辑模型的训练方法或者图像编辑方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任意实施例所提供的图像编辑模型的训练方法或者图像编辑方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所提供的图像编辑模型的训练方法或者图像编辑方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是根据本公开一实施例提供的一种图像编辑模型的训练方法的示意图；

图1B是根据本公开一实施例提供的一种图像编辑模型训练流程示意图；

图1C是根据本公开一实施例提供的一种图像编辑模型使用流程示意图；

图2是根据本公开又一实施例提供的一种图像编辑模型的训练方法的示意图；

图3是根据本公开又一实施例提供的一种图像编辑模型的训练方法的示意图；

图4是根据本公开又一实施例提供的一种图像编辑方法的示意图；

图5是根据本公开又一实施例提供的一种图像编辑方法的示意图；

图6是根据本公开又一实施例提供的一种图像编辑模型的训练装置的示意图；

图7是根据本公开又一实施例提供的一种图像编辑装置的示意图；

图8是用来实现本公开实施例方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1A是根据本公开实施例提供的一种图像编辑模型的训练方法的示意图，本公开实施例可适用于通过样本对图像编辑模型进行训练的情况。该方法可由一种图像编辑模型的训练装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图1A，该方法具体包括如下：

S110、将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定所述关注区域对应的内容作为关注内容样本；

S120、将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征；

S130、采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征；

S140、采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像；

S150、以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

其中，原始图像为存在需要编辑区域的图像，关注区域为原始图像中需编辑内容所在的图像区域。对图像的编辑可以包括对原有内容的更改、替换、或删除，还可以包括在关注区域添加新的内容。图像编辑模型用于对图像中文本、面部器官等特定图像内容或空白区域，按照需求进行内容编辑。对文本编辑的典型示例如，文本语种翻译或特定文本隐藏等。

具体的，确定原始图像中需要被编辑的关注区域，将关注区域中的图像内容作为关注内容样本。通过掩膜(mask)遮盖原始图像中关注区域作为背景图像样本，遮盖后的背景图像样本，由于其遮盖区域与非遮盖区域存在明显差异，因此能够被图像编辑模型识别出来。图像编辑模型中存在特征提取模块，以对输入图像编辑模型的背景图像样本和关注内容样本进行特征提取，得到前者的背景图像特征和后者的关注区域特征。

在背景图像特征和关注区域特征进行特征融合时，以关注区域在原始图像中的位置为基准融合，使图像编辑模型在训练时可以学习到关注区域和背景图像的位置关系，相应融合特征中不仅存在关注区域和背景图像的信息，还有两者相对位置的信息。

将融合特征通过图像融合模型中解码器进行解码，通过对融合特征进行解码，得到关注区域样本和融合区域样本融合得到的重构样本。由于关注内容样本和背景图像样本均基于背景图像得到，所以两者的最优重构图像应是原始图像，此时可以将原始图像作为重构图像的监督图像，重构图像和原始图像之间的损失关系表征了图像编辑模型在重构图像过程中分别处理关注区域内容和非关注区域图像再进行组合时的误差，基于该损失关系反馈调整图像编辑模型中待训练参数，实现对图像编辑模型的优化训练。

利用原始图像生成关注内容样本和背景图像样本，从而可以将原始图像作为重构图像的监督结果来训练图像编辑模型，降低了图像编辑模型在训练过程中对样本的成对要求，丰富了图像编辑模型训练时的样本数据集来源。

本公开实施例打破了图像编辑模型对真实数据依赖的问题，以原图原始图像拆分的方式，形成训练样本。将原始图像中关注区域的内容进行分离后，分别提取两部分内容的样本特征，融合后再进行训练，能够通过图像编辑模型学习两部分特征之间的关联。由此，当需要以其他内容编辑关注区域的原始内容时，图像编辑模型也能良好的反馈出这两部分内容之间的关联。采用本公开实施例，样本获得难度和成本均有效降低，简化了对训练数据集的数据标注要求，能够驱动大规模的数据训练，让图像编辑模型真正做到了真实场景的泛化。

在一种可选的实施例中，所述关注内容样本包括文本或设定内容图像；所述设定内容图像包括人脸图像或人体图像。

具体的，如果关注区域内的图像内容是文本，关注内容样本则是该文本的内容，此时图像编辑可以是对该文本内容进行翻译、字体放大等编辑方式。如果关注区域内的图像内容为非文字内容，则关注内容样本可以是设定内容图像，当设定内容图像为人脸图像时，此时图像编辑可以是对关注区域内人脸图像进行AI换脸，证件照生成等图像编辑方式，当设定内容图像为人体图像时，此时图像编辑可以是人体服装VR试穿等图像编辑方式。通过设定不同类型关注内容样本，可以使图像编辑模型完成文本操作，AI换脸、人体服装VR试穿等不同编辑需求的训练。

在一种可选的实施例中，训练完成后的所述图像编辑模型用于输入所述背景图像、编辑内容以及关注区域在待编辑图像中的位置，以生成编辑后的目标图像；其中，所述编辑内容用于对所述关注区域的图像进行编辑处理。

具体的，在图像编辑模型使用时，向模型输入覆盖待编辑图像中关注区域而形成的背景图像、为对关注区域中图像内容进行修改而给出的编辑内容，以及关注区域在待编辑图像中的位置，图像编辑模型将编辑内容按照关注区域在待编辑图像中的位置，与背景图像融合得到图像编辑结果。通过控制输入图像编辑模型的编辑内容，来对待编辑图像的关注区域中图像内容进行替换，提高了图像编辑编辑模型的可用性和泛用性。

示例性的，图1B是本公开实施例提供的一种图像编辑模型训练流程示意图。图1C是本公开实施例提供的一种图像编辑模型使用流程示意图。在图像编辑模型训练时，原始图像中文本“用科技让复杂的世界更简单”为关注内容，将该文本作为关注内容样本，遮盖该文本所在关注区域得到背景图像样本，通过图像编辑模型依次两者进行特征提取、融合、重构得到重构图像，比对重构图像和作为监督结果的原始图像，可基于设定损失函数计算损失关系，进而基于损失对图像编辑模型进行优化训练。在图像编辑模型时，如果想要将待处理图像中关注内容文本“用科技让复杂的世界更简单”翻译为英文，将该文本所在关注区域遮盖得到背景图像，将文本的英文翻译“Using technology to make the word morecomplicated”作为编辑内容，将编辑内容和背景图像输入到图像编辑模型，之后图像编辑模型的输出结果则为编辑图像，编辑结果中成功将待处理图像中中文“用科技让复杂的世界更简单”翻译为英文“Using technology to make the word more complicated”，并正确显示于关注区域中。

在一种可选的实施例中，所述编辑内容包括下述至少一种：

空白内容；所述关注区域中原文本的设定语种翻译文本；所述关注区域中原图像的替换图像；在所述关注区域中添加的新文本或新图像。

具体的，如果输入图像编辑模型的编辑内容是空白内容，则此时图像编辑的类型为删除关注区域内图像内容；如果输入图像编辑模型的编辑内容是设定语种翻译文本，则此时图像编辑的类型为将关注区域内文本翻译为设定语种；如果输入图像编辑模型的编辑内容是关注区域中原图像的替换图像，则此时图像编辑的类型为替换图像对关注区域内原图像的替换；如果输入图像编辑模型的编辑内容是关注区域中添加的新文本或新图像，则此时的图像编辑的类型为在待处理图像中插入文本或图像。通过编辑内容的不同，使图像编辑模型满足多种图像编辑的需求，提高图像编辑模型的可用性。

图2为本公开又一实施例提供的一种图像编辑模型的训练方法的流程图，本实施例在上述实施例的基础上进行了优化改进。如图2所示，该方法包括：

S211、将原始图像中确定的关注区域的像素值，采用设定像素值替换，以形成背景图像样本；

其中，所述设定像素值包括：固定像素值、随机像素值或所述图像编辑模型的自学习像素值；所述设定像素值具有设定规律，以区分于所述原始图像中关注区域之外的像素值规律。

其中，图像编辑模型的自学习像素值是指图像编辑模型在训练过程中根据重构图像和原始图像的差异，学习到能够使遮盖区域和非遮盖区域之间的差异明显，易于学习的像素值。

具体的，以设定像素值替换原始图像中关注区域的原始像素值，将设定像素值作为对关注区域的遮盖，形成背景图像样本。设定像素值可以是固定像素值、随机像素值或所述图像编辑模型的自学习像素值中任一种，但是无论是何种设定像素值，都应具有设定规律，该设定规律与背景图像部分的背景规律不同，使得被替换的遮盖区域像素值与周边背景图像区域像素值有明显差异，图像编辑模型可以根据像素值上的明显差异来确定背景图像和被遮盖部分的位置，无需标注被遮盖区域的位置也能学习到被遮盖区域。对于自然的原始图像来说，背景图像的像素值符合图像内容的表达需求，没有明显的数值变化规律。而遮盖区域的替换像素值是设定的带有明显变化规律的像素值，所以能够方便图像编辑模型识别出这两种区域。

S212、确定所述关注区域对应的内容作为关注内容样本。

S220、将所述背景图像样本和关注内容样本，输入图像编辑模型中；采用图像编辑模型中的背景特征提取模块，从所述背景图像样本中提取背景图像特征；采用所述图像编辑模型中的关注特征提取模块，从所述关注内容样本中提取关注区域特征。

具体的，图像编辑模型中存在两个分支，背景图像样本通过背景特征提取模块进行特征编码，得到背景图像特征；关注内容样本通过关注特征提取模块进行特征编码，得到关注区域特征。关注区域特征和背景图像特征分别通过图像编辑模型中不同特征提取模块提取，以便分别学习不同内容的特定提取参数。

可选的，响应于所述关注内容样本为文本，所述关注特征提取模块用于提取文本语义特征，响应于所述关注内容样本为设定内容图像，所述关注特征提取模块用于提取图像语义特征。

具体的，文本和图像的特征存在较大差异，相应对两者特征的提取方式也应有所调整，对于前者应通过关注特征提取模块提取文本内容的文本语义特征，而对于后者应通过关注特征提取模块提取设定内容图像的图像语义特征，以训练图像编辑模型对文本和内容图像均保持较好的编辑效果。

S230、采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征。

S240、采用所述图像编辑模型中的解码器，根据所述融合特征进行图像重构操作，以输出重构图像。

具体的，图像编辑模型中特征提取模块在对特征进行提取时，相当于进行了编码操作，因此对于背景图像特征和关注区域特征的融合特征，需要进行解码才能得到重构图像，图像编辑模型中解码器接收融合特征，然后经过上采样解码得到与原始图像大小相同的重构图像，作为图像编辑模型的输出。通过对背景图像样本和关注区域样本进行特征编码，并在特征融合后进行解码，实现关注区域样本和背景图像样本的快速融合，提高了图像编辑模型的编辑效率。

S250、以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

本公开实施例通过设定被遮盖区域上像素值具有设定规律，以区分于所述原始图像中关注区域之外的像素值规律，使被遮盖区域的图像编辑模型可以根据像素值上的明显差异来确定背景图像和被遮盖部分的位置，无需标注被遮盖区域的位置；关注区域特征和背景图像特征分别通过图像编辑模型中不同特征提取模块提取，提高图像编辑模型对关注区域特征和背景图像特征的学习能力。

图3为本公开又一实施例提供的一种图像编辑模型的训练方法的流程图，本实施例在上述实施例的基础上进行了优化改进。如图3所示，该方法包括：

S310、对所述原始图像进行文本框检测，以确定一个或多个文本框；从检测到的文本框中确定至少一个文本框，作为所述关注区域。

具体的，可以通过光学字符识别(Optical Character Recognition,OCR)等文本识别技术检测原始图像中是否存在文本内容，如果原始图像中存在文本内容，则以文本框的方式标记检测到各文本在原始图像中位置，每一文本框均可作为关注区域。通过训练前对原始图像中进行文本框检测，并将文本框作为关注区域，丰富原始图像中关注区域，可以基于一张原始图像中不同关注区域反复训练图像编辑模型，提高了图像编辑模型的训练效率。

可选的，从检测到的文本框中确定至少一个文本框，作为所述关注区域包括：

从检测到的文本框中，基于用户选择或设定选择规则，确定至少一个文本框，作为所述关注区域。

具体的，当原始图像中存在多个文本框时，可以由用户从中选择文本框作为关注区域，也可以按照设定选择规则，对多个文本框的文本置信度、文本清晰度等文本框属性进行检测，从各文本框中选择属性检测结果满足设定选择规则的文本框作为关注区域。通过人工或设定选择规则对文本框进行筛选，避免无效文本框作为关注区域，影响对图像编辑模型的训练效果。

可选的，所述设定选择规则包括所述文本框的文本置信度达到设定条件。

具体的，文本置信度是指文本框内的图像内容为真实文本的可信度，利用文本框检测技术检测到的文本框，无法避免对图像中文本内容的遗漏、错误识别等情况。为避免将图像中非文本内容错误识别为文本内容，获取各文本框的文本置信度，如果某一文本框的文本置信度不能达到设定选择规则中对于文本置信度的设定条件，则不会将该文本框作为关注区域。通过文本框文本置信度对检测到的文本框进行筛选，提高了关注区域的真实性和有效性。

S320、将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定所述关注区域对应的内容作为关注内容样本。

S330、将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征。

S340、采用所述图像编辑模型中的融合模块，按照所述关注区域在所述原始图像中的位置，将所述关注区域特征与对应位置的背景图像特征进行融合处理，以形成所述融合特征。

具体的，融合模块根据背景图像中被遮盖部分的位置，对关注区域在原始图像中的位置进行学习，并基于学习到的关注区域在原始图像中的位置，将匹配位置的关注区域特征和背景图像特征融合，形成所述融合特征。通过在融合关注区域特征和背景图像特征时，对关注区域在所述原始图像中的位置进行学习和使用，以实现两者的对应位置融合，提高了图像编辑模型的训练效果。

可选的，所述关注内容样本为文本；所述背景特征提取模块为卷积神经网络模型，提取的所述背景图像特征为二维特征图；所述关注特征提取模块为文本特征提取模型，提取的文本语义特征为字符的一维向量。

其中，文本特征提取模型可以是基于转换器的双向编码表征(BidirectionalEncoder Representation from Transformers，BERT)结构或者基于持续学习的语义理解预训练框架(Enhanced Representation through Knowledge Integration，ERNIE)结构，文本特征提取模型可以是卷积神经网络(Convolutional Neural Network,CNN)或者视觉变形(Vision Transformers，ViT)结构。

具体的，背景图像样本和关注内容样本分别为图像和文字，因此两者通过特征提取模块所提取的特征维度也是不同的。基于背景特征提取模块对背景图像样本进行特征提取处理，所得到的特征是背景图像的二维特征图；基于关注特征提取模块对关注内容样本进行特征提取，所得到的特征是关注内容样本中字符的一维向量。

可选的，采用所述图像编辑模型中的融合模块，按照所述关注区域在所述原始图像中的位置，将所述关注区域特征与对应位置的背景图像特征进行融合处理，以形成所述融合特征包括：

采用所述图像编辑模型中的融合模块，将所述字符的一维向量，拼接或累加到所述关注区域的二维特征图的对应位置，进行融合处理，以形成所述融合特征。

其中，累加是指相同像素点的特征累加，拼接是指相同像素点的特征首尾相连。

具体的，文本经过模型提取了语义特征后，为字符的一维向量，将字符的一维向量填充到图中的对应位置，从而形成语义特征的二维图。将语义特征二维图与背景图像的二维特征图进行相同像素点的特征首尾相连，或相同像素点的特征累加，以实现特征融合形成融合特征。通过对字符的一维向量以拼接或累加的方式与背景图像的二维特征图进行融合，在特征融合时最大程度保留了两者的原有信息，减少图像融合过程中信息损失。

示例性的，参见图1B，其中：背景特征提取模块用来对整图(大小是N*3*H*W)的上下文视觉特征进行编码，得到的特征一般大小是N*C*h*w。关注特征提取模块用来对文本内容进行特征编码，得到的特征向量可以表示为N*C*1*1为了让特征维度和视觉特征维度对齐，直接将特征膨胀复制成和视觉特征一样的维度N*C*h*w。解码器接受来自于视觉和文本的融合特征，然后经过上采样操作得到N*3*H*W的大小生成图像。

可选的，将所述字符的一维向量，拼接或累加到所述关注区域的二维特征图的对应位置之前，还包括：

采用所述图像编辑模型中的融合模块，如果确定所述关注内容样本的字符包括多个，则将多个字符的一维向量进行平均化处理，以形成平均化字符的一维向量。

具体的，当存在文本字符中存在多个字符时，将所有字符的一维向量进行平均化处理，形成平均化字符的一维向量，并基于平均化的一维向量与二维特征图进行融合。

示例性的，当一个文本框中存在多个字符时，经过语义识别，可识别输出每个字符的语义特征向量。对于该文本框，可以将所有字符的语义特征向量进行平均化处理，形成统一的文本语义特征。将该文本语义特征，融合到该文本框在背景图像特征对应位置处每个像素点上。

S350、采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像。

S360、以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

本公开实施例通过人工和设定选择规则对文本框进行筛选，避免无效文本框作为关注区域，影响对图像编辑模型的训练效果，或者也可以由此基于同一原始图像的不同文本框产生多个训练样本；通过在融合关注区域特征和背景图像特征时，对关注区域在所述原始图像中的位置进行学习和使用，以实现两者的准确融合，提高了图像编辑模型的训练效果。

图4是根据本公开实施例提供的一种图像编辑方法的示意图，本公开实施例可适用于通过图像编辑模型对待处理图像进行编辑的情况。该方法可由一种图像编辑装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图4，该方法具体包括如下：

S410、确定待编辑图像中的关注区域，以及在所述关注区域中进行处理的编辑内容；

S420、将所述待编辑图像中的关注区域进行遮盖处理，以形成背景图像；

S430、将所述背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置，输入图像编辑模型，以所述编辑内容对所述关注区域的图像进行编辑处理；

其中，所述图像编辑模型采用任一本公开实施例所提供的图像编辑模型的训练方法训练而成。

具体的，将待编辑图像中待被编辑的区域确定为关注区域，对待编辑图像中关注区域进行遮盖，遮盖了关注区域的待处理图像即为背景图像。关注区域在所述待编辑图像中的位置以背景图像中被遮盖区域与图像其他区域的明显差异来输入图像编辑模型，将背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置输入图像编辑模型，由图像编辑模型将编辑内容编辑到背景图像中被遮盖的关注区域中。其中，图像编辑模型采用本公开上述任意实施例所提供的图像编辑模型的训练方法训练而成

本公开实施例通过对待处理图像进行遮盖后，与编辑内容和关注区域在所述待编辑图像中的位置一并输入图像编辑模型，以完成对待处理的编辑。由于图像编辑模型在训练时简化数据标注要求，因而能够驱动大规模的数据训练，使得图像编辑模型可根据编辑内容完成对各类待编辑图像的处理，实现真实场景的泛化。

在一种可选的实施例中，所述编辑内容包括下述至少一种：

具体的，通过设置不同编辑内容，使图像编辑模型实现多种图像编辑的需求，提高图像编辑模型的可用性。

图5为本公开又一实施例提供的一种图像编辑方法的流程图，本实施例在上述实施例的基础上进行了优化改进。如图5所示，该方法包括：

S511、对所述待编辑图像进行文本框检测，以确定一个或多个文本框；从检测到的文本框中确定至少一个文本框，作为所述关注区域。

具体的，如果待编辑图像中存在多个存在文本内容的文本框，可以由用户从其中选择文本框作为关注区域，也可以由设备根据设定选择规则从中选择选择文本框作为关注区域。通过在待处理图像中存在多个文本框时对作为关注区域的文本框进行选择，避免多个文本框时在进行图像编辑时互相干扰。

S512、确定所述关注区域中进行处理的编辑内容。

S520、将所述待编辑图像中的关注区域进行遮盖处理，以形成背景图像。

S530、将所述背景图像、每个关注区域的编辑内容以及各自关注区域在所述待编辑图像中的位置，串行或并行输入所述图像编辑模型，以所述编辑内容对相应位置的关注区域的图像进行编辑处理。

具体的，当待编辑图像中存在多个关注区域时，可以是串行的逐一输入各关注区域的背景图像、编辑内容以及所述待编辑图像中的位置至图像编辑模型，来先后依次对各个关注区域进行图像编辑。或者也可以根据要处理的多个关注区域确定一个总关注区域，而后并行输入多个用于替换总关注区域中各分关注区域的编辑内容至图像编辑模型进行处理，在总关注区域中存在多个分关注区域时需要将分关注区域在总关注区域或待处理图像中具体位置一并输入图像编辑模型，以便图像编辑模型对并行输入的多个编辑内容能有效区分和处理。通过以串行或并行的方式，快速完成对待处理图像中多个关注区域的编辑，提高图像编辑模型的编辑效率。

本公开实施例通过在待处理图像中存在多个文本框时对作为关注区域的文本框进行选择，避免多个文本框时在进行图像编辑时互相干扰；通过以串行或并行的方式，快速完成对待处理图像中多个关注区域的编辑，提高图像编辑模型的编辑效率。

图6为本公开又一实施例提供的一种图像编辑模型的训练装置的结构示意图。如图6所示，该装置包括：

样本生成模块610，用于将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本，并确定所述关注区域对应的内容作为关注内容样本；

特征提取模块620，用于将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征；

特征融合模块630，用于采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征；

图像重构模块640，用于采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像；

模型监督模块650，用于以所述原始图像作为监督结果，根据所述重构图像和原始图像之间的损失关系，对所述图像编辑模型进行优化训练。

本公开实施例所提供的图像编辑模型的训练装置可执行本公开任意实施例所提供的图像编辑模型的训练方法，具备执行方法相应的功能模块和有益效果

可选的，所述关注内容样本包括文本或设定内容图像；所述设定内容图像包括人脸图像或人体图像。

可选的，所述样本生成模块610包括像素替换单元，用于将原始图像中确定的关注区域的像素值，采用设定像素值替换，以形成背景图像样本；其中，所述设定像素值包括：固定像素值、随机像素值或所述图像编辑模型的自学习像素值；所述设定像素值具有设定规律，以区分于所述原始图像中关注区域之外的像素值规律。

可选的，所述装置还包括关注区域确定模块，所述关注区域确定模块包括：

文本框检测单元，用于对所述原始图像进行文本框检测，以确定一个或多个文本框；

第一关注区域确定单元，用于从检测到的文本框中确定至少一个文本框，作为所述关注区域。

可选的，所述第一关注区域确定单元，具体用于从检测到的文本框中，基于用户选择或设定选择规则，确定至少一个文本框，作为所述关注区域。

可选的，所述图像重构模块640，具体用于采用所述图像编辑模型中的解码器，根据所述融合特征进行图像重构操作，以输出重构图像。

可选的，所述特征提取模块620，具体用于将所述背景图像样本和关注内容样本，输入图像编辑模型中；采用图像编辑模型中的背景特征提取模块，从所述背景图像样本中提取背景图像特征；采用所述图像编辑模型中的关注特征提取模块，从所述关注内容样本中提取关注区域特征。

可选的，响应于所述关注内容样本为文本，所述关注特征提取模块用于提取文本语义特征，响应于所述关注内容样本为设定内容图像，所述关注特征提取模块用于图像语义特征。

可选的，所述特征融合模块630，具体用于采用所述图像编辑模型中的融合模块，按照所述关注区域在所述原始图像中的位置，将所述关注区域特征与对应位置的背景图像特征进行融合处理，以形成所述融合特征。

可选的，所述特征融合模块630还用于采用所述图像编辑模型中的融合模块，将所述字符的一维向量，拼接或累加到所述关注区域的二维特征图的对应位置，进行融合处理，以形成所述融合特征。

可选的，所述装置还包括字符向量平均模块，用于采用所述图像编辑模型中的融合模块，如果确定所述关注内容样本的字符包括多个，则将多个字符的一维向量进行平均化处理，以形成平均化字符的一维向量。

可选的，训练完成后的所述图像编辑模型用于输入所述背景图像、编辑内容以及所述关注区域在待编辑图像中的位置，以生成编辑后的目标图像；其中，所述编辑内容用于对所述关注区域的图像进行编辑处理。

可选的，所述编辑内容包括下述至少一种：空白内容；所述关注区域中原文本的设定语种翻译文本；所述关注区域中原图像的替换图像；在所述关注区域中添加的新文本或新图像。

进一步说明的图像编辑模型的训练装置也可执行本公开任意实施例所提供的图像编辑模型的训练方法，具备执行方法相应的功能模块和有益效果。

图7为本公开又一实施例提供的一种图像编辑装置的结构示意图。如图7所示，该装置包括：

编辑内容确定模块710，用于确定待编辑图像中的关注区域，以及在所述关注区域中进行处理的编辑内容；

背景图像形成模块720，用于将所述待编辑图像中的关注区域进行遮盖处理，以形成背景图像；

图像编辑处理模块730，用于将所述背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置，输入图像编辑模型，以所述编辑内容对所述关注区域的图像进行编辑处理。

本公开实施例所提供的图像编辑装置可执行本公开任意实施例所提供的图像编辑方法，具备执行方法相应的功能模块和有益效果

可选的，所述图像编辑处理模块730，具体用于将所述背景图像、每个关注区域的编辑内容以及各自关注区域在所述待编辑图像中的位置，串行或并行输入所述图像编辑模型，以所述编辑内容对相应位置的关注区域的图像进行编辑处理。

可选的，所述编辑内容包括下述至少一种：

可选的，所述编辑内容确定模块710包括第二关注区域确定单元，用于对所述待编辑图像进行文本框检测，以确定一个或多个文本框；从检测到的文本框中确定至少一个文本框，作为所述关注区域。

进一步说明的图像编辑装置也可执行本公开任意实施例所提供的图像编辑方法，具备执行方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像编辑模型的训练方法或图像编辑方法。例如，在一些实施例中，图像编辑模型的训练方法或图像编辑方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像编辑模型的训练方法或图像编辑方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像编辑模型的训练方法或图像编辑方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像编辑模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，将原始图像中确定的关注区域进行遮盖处理，以形成背景图像样本包括：

将原始图像中确定的关注区域的像素值，采用设定像素值替换，以形成背景图像样本；

3.根据权利要求1所述的方法，其中，将原始图像中确定的关注区域进行遮盖处理之前，还包括：

对所述原始图像进行文本框检测，以确定一个或多个文本框；

从检测到的文本框中确定至少一个文本框，作为所述关注区域。

4.根据权利要求3所述的方法，其中，从检测到的文本框中确定至少一个文本框，作为所述关注区域包括：

5.根据权利要求4所述的方法，其中，所述设定选择规则包括所述文本框的文本置信度达到设定条件。

6.根据权利要求1所述的方法，其中，采用所述图像编辑模型，根据所述融合特征进行图像重构操作，以输出重构图像包括：

采用所述图像编辑模型中的解码器，根据所述融合特征进行图像重构操作，以输出重构图像。

7.根据权利要求1所述的方法，其中，将所述背景图像样本和关注内容样本，输入图像编辑模型中，以分别从所述背景图像样本中提取背景图像特征，从关注内容样本中提取关注区域特征包括：

将所述背景图像样本和关注内容样本，输入图像编辑模型中；

采用图像编辑模型中的背景特征提取模块，从所述背景图像样本中提取背景图像特征；

采用所述图像编辑模型中的关注特征提取模块，从所述关注内容样本中提取关注区域特征。

8.根据权利要求7所述的方法，其中，响应于所述关注内容样本为文本，所述关注特征提取模块用于提取文本语义特征，响应于所述关注内容样本为设定内容图像，所述关注特征提取模块用于图像语义特征。

9.根据权利要求7或8所述的方法，其中，采用所述图像编辑模型，将所述背景图像特征和关注区域特征，基于所述关注区域在所述原始图像中的位置进行融合处理，以形成融合特征包括：

采用所述图像编辑模型中的融合模块，按照所述关注区域在所述原始图像中的位置，将所述关注区域特征与对应位置的背景图像特征进行融合处理，以形成所述融合特征。

10.根据权利要求9所述的方法，其中，所述关注内容样本为文本；所述背景特征提取模块为卷积神经网络模型，提取的所述背景图像特征为二维特征图；所述关注特征提取模块为文本特征提取模型，提取的文本语义特征为字符的一维向量。

11.根据权利要求10所述的方法，其中，采用所述图像编辑模型中的融合模块，按照所述关注区域在所述原始图像中的位置，将所述关注区域特征与对应位置的背景图像特征进行融合处理，以形成所述融合特征包括：

12.根据权利要求11所述的方法，其中，将所述字符的一维向量，拼接或累加到所述关注区域的二维特征图的对应位置之前，还包括：

13.根据权利要求1所述的方法，其中，训练完成后的所述图像编辑模型用于输入所述背景图像、编辑内容以及所述关注区域在待编辑图像中的位置，以生成编辑后的目标图像；其中，所述编辑内容用于对所述关注区域的图像进行编辑处理。

14.根据权利要求13所述的方法，其中，所述编辑内容包括下述至少一种：

空白内容；

所述关注区域中原文本的设定语种翻译文本；

所述关注区域中原图像的替换图像；

在所述关注区域中添加的新文本或新图像。

15.根据权利要求1所述的方法，其中，所述关注内容样本包括文本或设定内容图像；所述设定内容图像包括人脸图像或人体图像。

16.一种图像编辑方法，包括：

其中，所述图像编辑模型采用权利要求1-15任一所述图像编辑模型的训练方法训练而成。

17.根据权利要求16所述的方法，其中，如果所述关注区域为多个，则将所述背景图像、所述编辑内容以及所述关注区域在所述待编辑图像中的位置，输入图像编辑模型，以所述编辑内容对所述关注区域的图像进行编辑处理包括：

将所述背景图像、每个关注区域的编辑内容以及各自关注区域在所述待编辑图像中的位置，串行或并行输入所述图像编辑模型，以所述编辑内容对相应位置的关注区域的图像进行编辑处理。

18.根据权利要求16所述的方法，其中，所述编辑内容包括下述至少一种：

空白内容；

所述关注区域中原文本的设定语种翻译文本；

所述关注区域中原图像的替换图像；

在所述关注区域中添加的新文本或新图像。

19.根据权利要求16所述的方法，其中，确定待编辑图像中的关注区域包括：

对所述待编辑图像进行文本框检测，以确定一个或多个文本框；

20.一种图像编辑模型的训练装置，包括：

21.一种图像编辑装置，包括：

22.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的图像编辑模型的训练方法或执行权利要求16-19中任一项所述的图像编辑方法。

23.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的图像编辑模型的训练方法或执行权利要求16-19中任一项所述的图像编辑方法。