CN116168119A

CN116168119A - 图像编辑方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN116168119A
Application number: CN202310199309.7A
Authority: CN
Inventors: 李国豪; 杨虎; 冯知凡; 崔骁鹏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-26
Anticipated expiration: 2043-02-28
Also published as: CN116168119B

Abstract

本公开提供了一种图像编辑方法、装置、电子设备、存储介质及程序产品，涉及深度学习、生成式模型、语音识别等人工智能技术领域。该方法包括：获取待编辑图像和用户发出的原始编辑指令；利用预设的目标生成式语言模型，将原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，编辑类型包括：去除、替换和新增，旧元素和新元素仅可择一为空；根据三元组编辑指令确定待编辑图像中的待编辑区域；根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。应用该方法仅需用户发出编辑指令就可以全自动执行，无需用户手动圈定待编辑区域，使得图像编辑操作更加便利、快捷、高效率。

Description

图像编辑方法、装置、电子设备、存储介质及程序产品

技术领域

本公开涉及图像处理技术领域，具体涉及深度学习、生成式模型、语音识别等人工智能技术领域，尤其涉及一种图像编辑方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着人工智能在摄影和图像编辑中的广泛应用，人们对图像的质量和创意性要求也更高。图像编辑技术可以协助用户进行更加快捷、精准的批量图像设计，节约各类图像编辑操作的时间，使用户集中于全局设计，为用户提供丰富灵感，激发创造力。此外，图像编辑技术也可以极大节约图像处理时间，能够根据创作者的需求，迅速提供不同风格的大样本图片进行测试，且由于其依赖用户构建的文本进行编辑的特性，也非常有利于搭建交互友好的平台和环境，在平面设计、新闻编辑、广告、动画制作、美术教育等行业领域具有良好的商业应用前景。

如何更加便利、快捷、高效率的完成图像编辑，是本领域技术人员亟待解决的问题。

发明内容

本公开实施例提出了一种图像编辑方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种图像编辑方法，包括：获取待编辑图像和用户发出的原始编辑指令；利用预设的目标生成式语言模型，将原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，编辑类型包括：去除、替换和新增，旧元素和新元素仅可择一为空；根据三元组编辑指令确定待编辑图像中的待编辑区域；根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

第二方面，本公开实施例提出了一种图像编辑装置，包括：待编辑图像及原始编辑指令获取单元，被配置成获取待编辑图像和用户发出的原始编辑指令；指令转换单元，被配置成利用预设的目标生成式语言模型，将原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，编辑类型包括：去除、替换和新增，旧元素和新元素仅可择一为空；待编辑区域确定单元，被配置成根据三元组编辑指令确定待编辑图像中的待编辑区域；图像编辑单元，被配置成根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

第三方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面描述的图像编辑方法。

第四方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的图像编辑方法。

第五方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面描述的图像编辑方法的步骤。

本公开所提供的图像编辑方案，将用户发出的以自然语言形式表示的原始编辑指令通过目标生成式语言模型转换为包含编辑类型、新元素和旧元素的三元组编辑指令，并充分结合编辑类型和与编辑类型对应的新元素和/或旧元素，得以准确的确定待编辑图像中的待编辑区域，进而对待编辑区域进行相应图像内容的编辑(例如新增与新元素对应的图像内容、去除与旧元素对应的图像内容以及将旧元素对应的图像内容替换为新元素对应的图像内容)得到满足用户需求的编辑后图像。即整个方案仅需要用户发出编辑指令就可以全自动执行，无需用户手动圈定待编辑区域，使得图像编辑操作更加便利、快捷、高效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构；

图2为本公开实施例提供的一种图像编辑方法的流程图；

图3为本公开实施例提供的图像编辑方法中一种确定新元素对应待编辑区域的方法的流程图；

图4为本公开实施例提供的针对不同编辑类型的图像编辑方法的分支示意图；

图5a、图5b、图5c和图5d分别为一张示例性图像的原图、在原图基础上增加围巾、在原图基础上增加眼镜、将原图环境替换为热带雨林的图像；

图6a为本公开示出的将原图中的田园狗替换为柯基狗的效果对比图；

图6b为本公开示出的为原图人物增加帽子的效果对比图；

图7为本公开实施例提供的一种图像编辑装置的结构框图；

图8为本公开实施例提供的一种适用于执行图像编辑方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的图像编辑方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如图像编辑类应用、模型训练类应用、模型调用类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供基图像编辑服务的图像编辑类应用为例，服务器105在运行该图像编辑类应用时可实现如下效果：首先，通过网络104接收终端设备终端101、102、103传入的待编辑图像和用户发出的原始编辑指令；然后，通过调用预先存储在本地的目标生成式语言模型，将该原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令，编辑类型包括：去除、替换和新增，旧元素和新元素仅可择一为空；接着，根据该三元组编辑指令确定待编辑图像中的待编辑区域；最后，根据该三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

进一步的，服务器105还可以将该编辑后图像返回给传入该原始编辑指令的终端设备101、102、103。

需要指出的是，待编辑图像和用户发出的原始编辑指令除可以从终端设备101、102、103通过网络104临时获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理图像编辑任务)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括终端设备101、102、103和网络104。

由于图像编辑需要占用较多的运算资源和较强的运算能力，因此本公开后续各实施例所提供的图像编辑方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，图像编辑装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力和运算资源时，终端设备101、102、103也可以通过其上安装的图像编辑类应用完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下，但图像编辑类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时，可以让终端设备来执行上述运算，从而适当减轻服务器105的运算压力，相应的，图像编辑装置也可以设置于终端设备101、102、103中。在此种情况下，示例性系统架构100也可以不包括服务器105和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本公开实施例提供的一种图像编辑方法的流程图，其中流程200包括以下步骤：

步骤201：获取待编辑图像和用户发出的原始编辑指令；

本步骤旨在由图像编辑方法的执行主体(例如图1所示的服务器105)获取待编辑图像和用户发出的原始编辑指令。

其中，待编辑图像可以直接由发出该原始编辑指令的用户直接传入，也可以是由该用户告知网络访问地址或网络存储地址的情况下由上述执行主体按照地址获取得到；而该用户发出的原始编辑指令，通常是指用户基于自身的语言表达习惯对想要到达的图像编辑目的的自然语言表述，例如“将图像中的狗换成柯基狗”、“在天空中加一只鸟”、“去掉商店门前的那个行人”等。具体的，该原始编辑指令也可以是由对用户发出的以语音信号表示的原始编辑语音，在经过语音转文本处理后所得到的以文本形式表示的原始编辑指令。

步骤202：利用预设的目标生成式语言模型，将原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；

在步骤201的基础上，本步骤旨在由上述执行主体利用经预先训练得到的目标生产式语言模型，将以自然语言形式表示的原始编辑指令转换为更便于机器(即上述执行主体)理解的三元组编辑指令。之所以将其称为三元组编辑指令，是因为该编辑指令包含三个主要组成部分：编辑类型、新元素和旧元素，其中，编辑类型主要包括：去除(或称删除)、替换和新增三种，即去除是指去除待编辑图像中原有的某个图像对象(即旧元素)的图像内容；替换则是指将待编辑图像中原有的某个图像对象(即旧元素)的图像内容变更为某个原不存在的新图像对象(即新元素)的图像内容；新增则是指为待编辑图像中新增某个原不存在的新图像对象(即新元素)的图像内容。

以原始编辑指令—“将原图中的田园狗换成柯基狗”为例，可转换得到的三元组编辑指令为：{替换，田园狗，柯基狗}，该指令中，“替换”表示编辑类型、“田园狗”表示旧元素、“柯基狗”表示新元素，即该指令中同时包含编辑类型、新元素和旧元素三个主要组成部分，且按照“编辑类型、旧元素、新元素”的顺序构成该指令，以便于明确“田园狗”是新元素还是“旧元素”。

需要说明的是，虽然本公开将上述指令称为三元组编辑指令，但具体在“去除”和“新增”这两种编辑类型的情况下，也可以缺少其中一个主要组成部分，即在“去除”这种编辑类型下，由于不需要存在新元素，此时就可以使得转换得到的三元组编辑指令中表示新元素的部分为空，例如当原始编辑指令为：“去掉商店门前的那个行人”的情况下，其三元组编辑指令就可以为：{去除，商店门前的行人，null}，即此时用null表示“新元素”为空；同理，在“新增”这种编辑类型下，由于不需要存在旧元素，此时就可以使得转换得到的三元组编辑指令中表示旧元素的部分为空，例如当原始编辑指令为：“添加一只鸟”的情况下，其三元组编辑指令就可以为：{新增，null，鸟}。

其中，该目标生成式语言模型，在本公开中用于表征原始编辑指令与包含编辑类型、旧元素和新元素构成的三元组指令之间的对应关系，也可以用于表征识别原始编辑指令中编辑类型、旧元素和新元素这三种主要对象的提取和识别能力。

在机器学习中，对于有监督学习可以将其分为两类模型：判别式模型和生成式模型。简单地说，判别式模型是针对条件分布建模，而生成式模型则针对联合分布进行建模。假设有训练数据(X,Y)，X是属性集合，Y是类别标记。这时来了一个新的样本x，需要预测它的类别y，即此时的最终的目的是求得最大的条件概率P(y|x)作为新样本的分类。

在这一需求下，判别式模型将根据训练数据得到分类函数和分界面，比如说根据SVM(Support Vector Machine，支持向量机)模型得到一个分界面，然后直接计算条件概率P(y|x)，并将最大的P(y|x)作为新输入样本的预测分类，即判别式模型是对条件概率建模，学习不同类别之间的最优边界，无法反映训练数据本身的特性，能力有限，其只能确定分类的类别。与此不同的是，生成式模型则一般会对每一个类建立一个模型，有多少个类别，就建立多少个模型。比如说类别标签有{猫，狗，猪}，那首先根据猫的特征学习出一个猫的模型，再根据狗的特征学习出狗的模型，之后分别计算新样本X跟三个类别的联合概率P(y|x)，然后根据贝叶斯公式分别计算P(y|x)，选择三类中最大的P(y|x)作为样本的分类。即虽然两者的最终的判断依据都是条件概率P(y|x)，但是生成式模型先计算了联合概率P(x,y)，再由贝叶斯公式计算得到条件概率。因此，生成式模型可以体现更多数据本身的分布信息，其普适性更广。

基于上述生成式模型的基本原理，以及其在文本处理领域下的生成式语言模型，本公开将其具体应用在对以自然语言表示的图像编辑指令的处理方面，以尽可能的从中提取到包含全面的编辑参数的三元组编辑指令。需要说明的是，由于生成式语言模型是针对联合分布进行建模，因此即使在原始编辑指令中缺少某些用于确定三元组的三个主要部分的直接信息时，仍可以通过对大量训练样本所学习到的知识，自行结合待编辑图像的实际图像内容来进行逻辑推理或猜测，从而提升使用的便利性和准确性。

一种训练得到该目标生成式语言模型的过程可以为：

获取使用基础训练集训练得到的标准生成式语言模型；

构造有对编辑类型、旧元素和/或新元素的部分指令内容进行三元组成分标记的微调训练样本集；

利用微调训练样本即训练标准生成式语言模型，得到目标生成式语言模型。

即在构造微调训练样本集的阶段，需要对原始编辑指令中所包含的编辑类型、旧元素和新元素进行相应成分的标记，以使得标准生成式语言模型根据标记学习到应当将哪部分原始指令内容提取或识别为相应成分的关键信息。进而在完成对微调训练样本集的构造后，在已经使用基础训练集训练得到的标准生成式语言模型的基础上，借助该微调训练样本集对标准生成式语言模型进行微调即可，以提升获得可用的目标生成式语言模型的效率。

一种具体的通过人工标注+微调已有语言模型的方式实现编辑区域预测模型的方案可以为：

在目的是将用户的自然语言指令(即上文中所描述的原始编辑指令)解析为结构化三元组(编辑类型、旧元素、新元素)(即上文中所描述的三元组指令文本)的情况下，可具体为：

1)收集人工标注数据：人工书写编辑指令文本(如，把原图中的自行车变成摩托车)及标注(包括，编辑类型、旧元素、新元素)。其中，编辑类型包括增加元素、去除元素、替换元素等，旧元素为预计删除/修改的图片中主体，新元素为预计新增的主体。

具体例子如：

把自行车变成摩托车→(替换元素，自行车，摩托车)；

去掉图中的树→(删除元素，树，null)；

增加一只飞鸟→(新增元素，null，飞鸟)。

2)微调语言模型：在已经经过大规模预训练的生成式语言模型的基础上，将指令文本作为上下文，微调训练模型，使其具有能够生成结构化的标注信息的能力。

步骤203：根据三元组编辑指令确定待编辑图像中的待编辑区域；

在步骤202的基础上，本步骤旨在由上述执行主体三元组编辑指令中包含的编辑类型以及与该编辑类型对应所需的新元素和/或旧元素，来共同确定待编辑图像中的待编辑区域。

即对于“去除”这种编辑类型而言，仅需要在该编辑需求下将待编辑图像中作为去除对象的“旧元素”所在区域作为待编辑区域即可；即对于“替换”这种编辑类型而言，可能仅需要将待编辑图像中作为去除对象的“旧元素”所在区域作为待编辑区域，或者需要同时结合作为被替换掉的“旧元素”所在区域和作为替换用的“新元素”的占据区域来确定待编辑区域；而对于“新增”这种编辑类型，往往由于没有明确的新增需求，若将某个区域随意作为待编辑区域很明显大概率不符合用户的需求，因此往往还需要结合新增的“新元素”的元素特性来确定其应出现在待编辑图像的哪个区域比较合适。

即一种包括且不限于的针对新增情况下的待编辑区域确定方法可以为：

根据构成三元组编辑指令中的新元素，确定元素特性；

将待编辑图像中匹配元素特性的图像区域，确定为待编辑区域。

其中，该元素特性可以包括：基础的物理特性、生物特性，以及额外赋予的自定义特性，例如针对“为原图添加一只鸟”的原始编辑指令，在明确“新元素”为“鸟”的情况下，可获知其基础的物理特性和生物特性为：动物、活物、具有飞行能力、飞翔于空中，那么此时在获知这些特性之后，很明显将“鸟”添加至待编辑图像中存在的天空区域中将显得更加合理。

同理，具有其它特性的其它新元素也可以根据上述逻辑确定合适的待编辑区域，例如某个虚构物体此时不存在基础的物理和生物特性，将拥有用户对其自定义的某些特性，例如会发光、会弯曲、会悬浮等等，那么也应当依据这些特性确定合适的增设区域。

步骤204：根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

在步骤203的基础上，本步骤旨在由上述执行主体根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，即针对“去除”这种编辑类型，就需要将待编辑图像中的“旧元素”去掉；针对“替换”这种编辑类型，就需要将待编辑图像中的“旧元素”替换为“新元素”；针对“新增”这种编辑类型，就需要将待编辑图像中的“新元素”增加上，以最终得到符合用户需求的编辑后图像。

本公开实施例提供的图像编辑方法，将用户发出的以自然语言形式表示的原始编辑指令通过目标生成式语言模型转换为包含编辑类型、新元素和旧元素的三元组编辑指令，并充分结合编辑类型和与编辑类型对应的新元素和/或旧元素，得以准确的确定待编辑图像中的待编辑区域，进而对待编辑区域进行相应图像内容的编辑(例如新增与新元素对应的图像内容、去除与旧元素对应的图像内容以及将旧元素对应的图像内容替换为新元素对应的图像内容)得到满足用户需求的编辑后图像。即整个方案仅需要用户发出编辑指令就可以全自动执行，无需用户手动圈定待编辑区域，使得图像编辑操作更加便利、快捷、高效率。

针对“新增”这种编辑类型，本公开实施例还通过图3示出了一种借助编辑区域预测模型来确定待编辑区域的实现方案，以借助该编辑区域预测模型在经历大量训练样本的学习训练后所具有的普适性和泛化能力，来提升对表示类似需求的各式表达的准确识别能力，其中流程300包括以下步骤：

步骤301：利用预设的编辑区域预测模型中的元素特性确定模块，确定新元素的元素特性；

即该元素特性确定模块用于表征不同元素与其所应具有的元素特性之间的对应关系，此时的元素特性可以包括基础的物理特性、生物特性以及常见的自定义特性。

步骤302：利用编辑区域预测模型中的区域图像特性确定模块，确定构成待编辑图像的每个图像区域的图像特性；

即该区域图像特性确定模块用于表征不同区域图像与其图像内容所应具有的图像特性之间的对应关系，例如天空背景图像应具有天空特性、悬浮特性、飞行特性，海洋或海水图像应具有潜水、水生物等特性。

步骤303：利用编辑区域预测模型中的特性匹配模块，将具有匹配元素特性的图像特性的图像区域，确定为待编辑区域。

在步骤301和302的基础上，本步骤旨在由上述执行主体利用编辑区域预测模型中的特性匹配模块，将具有匹配元素特性的图像特性的图像区域，确定为待编辑区域。即在某个新元素具有飞行特性的情况下，所匹配到的应该也是具有飞行特性的图像区域，例如将“鸟”这一新元素匹配值天空背景的区域图像。

即本实施例中的编辑区域预测模型至少包括元素特性确定模块、区域图像特性确定模块和特性匹配模块这三个必要功能模块，除此之外，还可以包含其它用于支持实现这三个功能模块的其它功能模块，此处不再一一赘述。

本实施例通过步骤301-步骤303提供了一种利用编辑区域预测模型确定新增的新元素应新增在待编辑图像的哪个区域的待编辑区域确定方案，相比于常规方案，通过预先使用大量训练样本训练得到的编辑区域预测模型，在元素特性确定模块、区域图像特性确定模块和特性匹配模块的支持下，将具有对未学习过样本的较好准确识别能力。

在本公开的一些其它实施例中，对于元素新增功能，考虑到待新增元素在图中一般不存在，因此无法直接使用图像定位模型，可以通过有监督的训练得到该编辑区域预测模型，来生成一个可行的编辑区域。该模型需要学习到新增元素和图像上下文的关联关系(如，鸟一般应该出现在空中或者枝头)。具体的可以包括如下步骤：

1)自监督构造训练数据

从大量训练图像中，构造(图像、待新增元素的文本、待编辑区域)三元组数据，具体的，可通过已有的图像分割模型，将训练图像进行场景分割，随机选取其中的元素内容区域作为待编辑区域，对应的元素名称作为待新增元素的文本；通过元素删除(背景补全)产出一个新图像作为三元组中的图像。

基于三元组数据，可训练模型：(背景补全的图像，待新增元素的文本)→待编辑区域。

为明确上述实施例的步骤204将如何具体实现图像编辑，本实施例还通过图4对每种编辑类型各给出了一种具体的图像编辑方案，请参见图4：

响应于编辑类型为去除，去除待编辑区域中与旧元素对应的图像内容，并对留白部分进行背景补全，得到编辑后图像；

对于去除这种图像编辑类型，编辑过程主要在对于旧元素对应的图像内容的去除操作，通常可采用将构成该图像内容的所有像素块的像素值置为255(即纯白，当然也可以将其置为0即纯黑)，以便于区分其它图像内容的像素块，即此时将得到由留白部分的图像，为了协调本实施例还将对留白部分进行背景补全，即将其参考附近其它像素块的像素值来进行补全，已达成更好的视觉效果，而不让其它用户一眼看出某个区域“缺”东西。

响应于编辑类型为替换，去除待编辑区域中与旧元素对应的图像内容、在待编辑区域中新增新元素的图像内容，并对新元素的图像内容进行与相邻图像区域的色彩协调处理，得到编辑后图像；

对于替换这种图像编辑类型，就需要在去除旧元素对应的图像内容的去除操作的基础上，继续在待编辑区域中新增新元素的图像内容，并对新元素的图像内容进行与相邻图像区域的色彩协调处理，以得到新元素替换上之后显得像原图一样的编辑后图像。

此种编辑类型可参见图5a、图5d之间的变化，以及图6a所呈现的变化。

响应于编辑类型为新增，在待编辑区域中新增新元素的图像内容，并对新元素的图像内容进行与相邻图像区域的色彩协调处理，得到编辑后图像。

对于新增这种图像编辑类型，编辑过程主要在对于新元素对应的图像内容的增加操作上，即在待编辑区域中新增新元素的图像内容，并对新元素的图像内容进行与相邻图像区域的色彩协调处理，以得到新元素替换上之后显得像原图一样的编辑后图像。

此种编辑类型可参见图5a、图5b和图5c之间的变化，以及图6b所呈现的变化。

需要说明的是，本实施例仅对于某个编辑类型的分支给出了一种示例性的具体编辑实现方案，在某些其它实施例中可以换用其它可实现类似效果的编辑实现方案。

在本公开的一些其它实现方式中，上述三种情况的图像编辑实现，还可以通过经预先训练得到的无条件/文本条件图像修补模型来实现，具体的：

1)元素去除：

可通过无条件图像修补模型，对输入的原始图片和待编辑区域，输出背景补全的图像；

2)元素替换、新增：

可通过文本条件图像修补模型，对输入的原始图片、新元素、待编辑区域，输出编辑后的图片。

在上述任意实施例的基础上，若接收到用户针对编辑后图像返回的编辑修正指令(即用户认为编辑后图像所呈现的对待编辑图像的编辑效果仍有不符合需求的地方)，那么可根据编辑修正指令中的编辑修正参数，继续由上述执行主体对编辑后图像进行二次编辑，直至用户不再继续返回编辑修正指令；其中，编辑修正参数包括：新元素增加位置修正参数、旧元素去除范围修正参数、元素替换错漏指示修正参数；

在接收到对用户经二次编辑后得到的二次编辑图像或经更多次编辑后得到的多次编辑图像返回的编辑确认信息时，还可以基于编辑修正参数修正用于确定得到待编辑区域的过程参数，以根据用户反馈有针对性的修正上述步骤的实现参数或所借助使用模型的模型参数，以提升后续的一次成功率。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种图像编辑装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的图像编辑装置700可以包括：待编辑图像及原始编辑指令获取单元701、指令转换单元702、待编辑区域确定单元703、图像编辑单元704。其中，待编辑图像及原始编辑指令获取单元701，被配置成获取待编辑图像和用户发出的原始编辑指令；指令转换单元702，被配置成利用预设的目标生成式语言模型，将原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，编辑类型包括：去除、替换和新增，旧元素和新元素仅可择一为空；待编辑区域确定单元703，被配置成根据三元组编辑指令确定待编辑图像中的待编辑区域；图像编辑单元704，被配置成根据三元组编辑指令对待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

在本实施例中，图像编辑装置700中：待编辑图像及原始编辑指令获取单元701、指令转换单元702、待编辑区域确定单元703、图像编辑单元704的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，图像编辑装置700中还可以包括被配置成训练得到目标生成式语言模型的模型训练单元，模型训练单元被进一步配置成：

获取使用基础训练集训练得到的标准生成式语言模型；

在本实施例的一些可选的实现方式中，响应于编辑类型为去除或替换，待编辑区域确定单元703可以包括：

第一区域确定子单元，被配置成将待编辑图像中属于旧元素的图像内容所在的图像区域，确定为待编辑区域。

在本实施例的一些可选的实现方式中，响应于编辑类型为新增，待编辑区域确定单元703可以包括：

元素特性确定子单元，被配置成根据构成三元组编辑指令中的新元素，确定元素特性；其中，元素特性包括：基础的物理特性、生物特性，以及额外赋予的自定义特性；

第二区域确定子单元，被配置成将待编辑图像中匹配元素特性的图像区域，确定为待编辑区域。

在本实施例的一些可选的实现方式中，元素特性确定子单元可以被进一步配置成：

利用预设的编辑区域预测模型中的元素特性确定模块，确定新元素的元素特性；

对应的，第二区域确定子单元可以被进一步配置成：

利用编辑区域预测模型中的区域图像特性确定模块，确定构成待编辑图像的每个图像区域的图像特性；

利用编辑区域预测模型中的特性匹配模块，将具有匹配元素特性的图像特性的图像区域，确定为待编辑区域。

在本实施例的一些可选的实现方式中，图像编辑单元704可以被进一步配置成：

在本实施例的一些可选的实现方式中，待编辑图像及原始编辑指令获取单元701可以包括被配置成获取用户发出的原始编辑指令的原始编辑指令获取子单元，原始编辑指令获取子单元可以被进一步配置成：

响应于仅获取到用户发出的以语音信号表示的原始编辑语音，对原始编辑语言进行语音转文本处理，得到以文本形式表示的原始编辑指令。

在本实施例的一些可选的实现方式中，图像编辑装置700中还可以包括：

二次编辑单元，被配置成响应于接收到用户针对编辑后图像返回的编辑修正指令，根据编辑修正指令中的编辑修正参数，对编辑后图像进行二次编辑；其中，编辑修正参数包括：新元素增加位置修正参数、旧元素去除范围修正参数、元素替换错漏指示修正参数；

过程参数修正单元，被配置成响应于用户经二次编辑后得到的二次编辑图像返回编辑确认信息，基于编辑修正参数修正用于确定得到待编辑区域的过程参数。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的图像编辑装置，将用户发出的以自然语言形式表示的原始编辑指令通过目标生成式语言模型转换为包含编辑类型、新元素和旧元素的三元组编辑指令，并充分结合编辑类型和与编辑类型对应的新元素和/或旧元素，得以准确的确定待编辑图像中的待编辑区域，进而对待编辑区域进行相应图像内容的编辑(例如新增与新元素对应的图像内容、去除与旧元素对应的图像内容以及将旧元素对应的图像内容替换为新元素对应的图像内容)得到满足用户需求的编辑后图像。即整个方案仅需要用户发出编辑指令就可以全自动执行，无需用户手动圈定待编辑区域，使得图像编辑操作更加便利、快捷、高效率。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的图像编辑方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的图像编辑方法。

根据本公开的实施例，本公开还提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的图像编辑方法的步骤。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像编辑方法。例如，在一些实施例中，图像编辑方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的图像编辑方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像编辑方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

根据本公开实施例的技术方案，将用户发出的以自然语言形式表示的原始编辑指令通过目标生成式语言模型转换为包含编辑类型、新元素和旧元素的三元组编辑指令，并充分结合编辑类型和与编辑类型对应的新元素和/或旧元素，得以准确的确定待编辑图像中的待编辑区域，进而对待编辑区域进行相应图像内容的编辑(例如新增与新元素对应的图像内容、去除与旧元素对应的图像内容以及将旧元素对应的图像内容替换为新元素对应的图像内容)得到满足用户需求的编辑后图像。即整个方案仅需要用户发出编辑指令就可以全自动执行，无需用户手动圈定待编辑区域，使得图像编辑操作更加便利、快捷、高效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像编辑方法，包括：

获取待编辑图像和用户发出的原始编辑指令；

利用预设的目标生成式语言模型，将所述原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，所述编辑类型包括：去除、替换和新增，所述旧元素和所述新元素仅可择一为空；

根据所述三元组编辑指令确定所述待编辑图像中的待编辑区域；

根据所述三元组编辑指令对所述待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

2.根据权利要求1所述的方法，其中，训练得到所述目标生成式语言模型的过程包括：

获取使用基础训练集训练得到的标准生成式语言模型；

利用所述微调训练样本即训练所述标准生成式语言模型，得到所述目标生成式语言模型。

3.根据权利要求1所述的方法，其中，响应于所述编辑类型为所述去除或所述替换，所述根据所述三元组编辑指令确定所述待编辑图像中的待编辑区域，包括：

将所述待编辑图像中属于所述旧元素的图像内容所在的图像区域，确定为所述待编辑区域。

4.根据权利要求1所述的方法，其中，响应于所述编辑类型为所述新增，所述根据所述三元组编辑指令确定所述待编辑图像中的待编辑区域，包括：

根据构成所述三元组编辑指令中的新元素，确定元素特性；其中，所述元素特性包括：基础的物理特性、生物特性，以及额外赋予的自定义特性；

将所述待编辑图像中匹配所述元素特性的图像区域，确定为所述待编辑区域。

5.根据权利要求4所述的方法，其中，所述根据构成所述三元组编辑指令中的新元素，确定元素特性，包括：

利用预设的编辑区域预测模型中的元素特性确定模块，确定所述新元素的元素特性；

对应的，所述将所述待编辑图像中匹配所述元素特性的图像区域，确定为所述待编辑区域，包括：

利用所述编辑区域预测模型中的区域图像特性确定模块，确定构成所述待编辑图像的每个图像区域的图像特性；

利用所述编辑区域预测模型中的特性匹配模块，将具有匹配所述元素特性的图像特性的图像区域，确定为所述待编辑区域。

6.根据权利要求1所述的方法，其中，所述根据所述三元组编辑指令对所述待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像，包括：

响应于所述编辑类型为所述去除，去除所述待编辑区域中与所述旧元素对应的图像内容，并对留白部分进行背景补全，得到所述编辑后图像；

响应于所述编辑类型为所述替换，去除所述待编辑区域中与所述旧元素对应的图像内容、在所述待编辑区域中新增所述新元素的图像内容，并对所述新元素的图像内容进行与相邻图像区域的色彩协调处理，得到所述编辑后图像；

响应于所述编辑类型为所述新增，在所述待编辑区域中新增所述新元素的图像内容，并对所述新元素的图像内容进行与相邻图像区域的色彩协调处理，得到所述编辑后图像。

7.根据权利要求1-6任一项所述的方法，其中，获取用户发出的原始编辑指令，包括：

响应于仅获取到用户发出的以语音信号表示的原始编辑语音，对所述原始编辑语言进行语音转文本处理，得到以文本形式表示的原始编辑指令。

8.根据权利要求7所述的方法，还包括：

响应于接收到所述用户针对所述编辑后图像返回的编辑修正指令，根据所述编辑修正指令中的编辑修正参数，对所述编辑后图像进行二次编辑；其中，所述编辑修正参数包括：新元素增加位置修正参数、旧元素去除范围修正参数、元素替换错漏指示修正参数；

响应于所述用户经所述二次编辑后得到的二次编辑图像返回编辑确认信息，基于所述编辑修正参数修正用于确定得到所述待编辑区域的过程参数。

9.一种图像编辑装置，包括：

待编辑图像及原始编辑指令获取单元，被配置成获取待编辑图像和用户发出的原始编辑指令；

指令转换单元，被配置成利用预设的目标生成式语言模型，将所述原始编辑指令转换为包含编辑类型、旧元素和新元素的三元组编辑指令；其中，所述编辑类型包括：去除、替换和新增，所述旧元素和所述新元素仅可择一为空；

待编辑区域确定单元，被配置成根据所述三元组编辑指令确定所述待编辑图像中的待编辑区域；

图像编辑单元，被配置成根据所述三元组编辑指令对所述待编辑区域中的图像内容进行相应的图像编辑，得到编辑后图像。

10.根据权利要求9所述的装置，还包括被配置成训练得到所述目标生成式语言模型的模型训练单元，所述模型训练单元被进一步配置成：

获取使用基础训练集训练得到的标准生成式语言模型；

11.根据权利要求9所述的装置，其中，响应于所述编辑类型为所述去除或所述替换，所述待编辑区域确定单元包括：

第一区域确定子单元，被配置成将所述待编辑图像中属于所述旧元素的图像内容所在的图像区域，确定为所述待编辑区域。

12.根据权利要求9所述的装置，其中，响应于所述编辑类型为所述新增，所述待编辑区域确定单元包括：

元素特性确定子单元，被配置成根据构成所述三元组编辑指令中的新元素，确定元素特性；其中，所述元素特性包括：基础的物理特性、生物特性，以及额外赋予的自定义特性；

第二区域确定子单元，被配置成将所述待编辑图像中匹配所述元素特性的图像区域，确定为所述待编辑区域。

13.根据权利要求12所述的装置，其中，所述元素特性确定子单元被进一步配置成：

对应的，所述第二区域确定子单元被进一步配置成：

14.根据权利要求9所述的装置，其中，所述图像编辑单元被进一步配置成：

15.根据权利要求9-14任一项所述的装置，其中，所述待编辑图像及原始编辑指令获取单元包括被配置成获取用户发出的原始编辑指令的原始编辑指令获取子单元，所述原始编辑指令获取子单元被进一步配置成：

16.根据权利要求15所述的装置，还包括：

二次编辑单元，被配置成响应于接收到所述用户针对所述编辑后图像返回的编辑修正指令，根据所述编辑修正指令中的编辑修正参数，对所述编辑后图像进行二次编辑；其中，所述编辑修正参数包括：新元素增加位置修正参数、旧元素去除范围修正参数、元素替换错漏指示修正参数；

过程参数修正单元，被配置成响应于所述用户经所述二次编辑后得到的二次编辑图像返回编辑确认信息，基于所述编辑修正参数修正用于确定得到所述待编辑区域的过程参数。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的图像编辑方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的图像编辑方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-8中任一项所述图像编辑方法的步骤。