CN116740210A

CN116740210A - 一种图像内容再生成方法、装置、设备及存储介质

Info

Publication number: CN116740210A
Application number: CN202310697242.XA
Authority: CN
Inventors: 张辉; 刘思远; 甘启; 章子维; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-12

Abstract

本申请公开了一种图像内容再生成方法、装置、设备及存储介质，涉及图像生成技术领域。该方法包括：获取针对图像修改的描述文本；通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。针对已生成的图像，可以通过改变其中某些内容来获取另外的图像，实现自动对图像的可控编辑，实现图像定制化生成，大幅度提升了AI绘画的应用范围；并且，直接利用目标对象替换待修改区域的内容，不需要对模型进行其余训练，即无训练成本。

Description

一种图像内容再生成方法、装置、设备及存储介质

技术领域

本发明涉及图像生成技术领域，特别涉及一种图像内容再生成方法、装置、设备及存储介质。

背景技术

目前，随着数字图像处理技术的不断进步和发展，数字图像处理已经成为了计算机视觉领域的重要研究方向之一。在传统的图像编辑方法中，通常需要手动选择区域进行编辑，这种方法操作繁琐、效率低下且不够精确，因此，如何高效、自动化实现图像区域编辑，实现图像定制化生成是目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像内容再生成方法、装置、设备及介质，能够实现自动对图像的可控编辑，实现图像定制化生成。其具体方案如下：

第一方面，本申请公开了一种图像内容再生成方法，包括：

获取针对图像修改的描述文本；

通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；

通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。

可选的，所述利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象，包括：

利用所述目标扩散模型对所述描述文本进行解析，根据所述描述文本中描述的第一对象的特征，从所述待修改图像中确定出第一对象；

根据所述第一对象的位置确定出所述待修改区域；

根据所述描述文本中描述的第二对象，生成所述目标对象。

可选的，所述根据所述第一对象的位置确定出所述待修改区域，包括：

判断所述第一对象是否为待替换对象；

若是，则将所述待替换对象所在的区域作为所述待修改区域；

若否，则根据所述第一对象在待修改图像中的位置以及所述描述文本中所述第一对象关联的方位描述，确定出所述待修改区域。

可选的，所述获取针对图像修改的描述文本，包括：

获取目标扩散模型基于初始描述文本生成的初始图像，并将所述初始图像作为所述待修改图像；

获取对所述初始描述文本进行修改后得到的修改文本，将所述修改文本作为所述针对图像修改的描述文本。

可选的，所述获取针对图像修改的描述文本之后，还包括：

若所述描述文本为针对待修改图像对应的原始文本中目标词的增强描述，则通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域；

提高所述待修改区域的权重，得到再生图像。

可选的，所述通过将待修改图像和所述描述文本输入至目标扩散模型，包括：

通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，以便利用所述反向文本调整编辑路径，以便根据编辑路径生成编辑后的再生图像。

可选的，所述通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，包括：

通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型；

根据所述描述文本和所述反向文本，利用所述目标扩散模型中交叉注意力模块进行文本协调。

第二方面，本申请公开了一种图像内容再生成装置，包括：

文本获取模块，用于获取针对图像修改的描述文本；

解析模块，用于通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；

替换模块，用于通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的图像内容再生成方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的图像内容再生成方法。

本申请中，获取针对图像修改的描述文本；通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。可见，通过确定待修改图像中的待修改区域以及待修改图像中需要添加的目标对，然后利用目标对象替换待修改区域的内容，以得到再生图像，由此，针对已生成的图像，可以通过改变其中某些内容来获取另外的图像，实现自动对图像的可控编辑，实现图像定制化生成，大幅度提升了AI绘画的应用范围；并且，直接利用目标对象替换待修改区域的内容，不需要对模型进行其余训练，即无训练成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种图像内容再生成方法流程图；

图2为本申请提供的一种具体的图像内容再生成方法流程图；

图3为本申请提供的一种图像内容再生成装置结构示意图；

图4为本申请提供的一种电子设备结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，在传统的图像编辑方法中，通常需要手动选择区域进行编辑，这种方法操作繁琐、效率低下且不够精确。为克服上述技术问题，本申请提出一种图像内容再生成方法，能够实现自动对图像的可控编辑，实现图像定制化生成。

本申请实施例公开了一种图像内容再生成方法，参见图1所示，该方法可以包括以下步骤：

步骤S11：获取针对图像修改的描述文本。

本实施例中，首先获取针对图像修改的描述文本，即文本引导的修改，由用户通过自然语言提示的方式，输入对图像的编辑需求。例如，用户可以输入“将这张猫坐着火箭的照片改成猫坐着车的照片”来指导对图像进行修改。通过对输入文本的解析和理解，模型能够确定编辑的目标和方向。

本实施例中，所述获取针对图像修改的描述文本，可以包括：获取目标扩散模型基于初始描述文本生成的初始图像，并将所述初始图像作为所述待修改图像；获取对所述初始描述文本进行修改后得到的修改文本，将所述修改文本作为所述针对图像修改的描述文本。例如图2所示，本实施例对图像的编辑可以是在原扩散模型基于输入文本生成的图像的基础上，根据描述文本进行的再编辑。并且，上述描述文本可以是对图像的编辑需求，例如，将这张猫坐着火箭的照片改成猫坐着车的照片，也可以是在原输入文本上的修改，例如原输入文本为坐着火箭的猫，修改的描述文本为坐着车的猫，或者其余能够表征图像内容修改的文本均可。

步骤S12：通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象。

本实施例中，通过将待修改图像和描述文本输入至目标扩散模型，利用目标扩散模型内语言子模型对描述文本进行解析，确定待修改图像中的待修改区域以及待修改图像中需要添加的目标对象。即确定出需要编辑的区域和需要更新的内容，以便根据给定的控制条件，使用模型区域修改来实现模型编辑。可以理解的是，可以是将待修改图像中某个元素替换为新的元素，也可以是在图中某个区域添加新的元素。

本实施例中，所述利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象，可以包括：利用所述目标扩散模型对所述描述文本进行解析，根据所述描述文本中描述的第一对象的特征，从所述待修改图像中确定出第一对象；根据所述第一对象的位置确定出所述待修改区域；根据所述描述文本中描述的第二对象，生成所述目标对象。以“猫坐着火箭的照片改成猫坐着车的照片”为例，第一对象为火箭，根据第一对象的特征确定出图中火箭的位置，第二对象为车，生成车的图像替换火箭所在的区域。

本实施例中，所述根据所述第一对象的位置确定出所述待修改区域，可以包括：判断所述第一对象是否为待替换对象；若是，则将所述待替换对象所在的区域作为所述待修改区域；若否，则根据所述第一对象在待修改图像中的位置以及所述描述文本中所述第一对象关联的方位描述，确定出所述待修改区域。例如，描述文本为猫坐着火箭的照片改成猫坐着车的照片，则第一对象为代替换对象，若描述文本为在猫的下方添加火箭，则待修改区域为猫的下方区域。

本实施例中，所述通过将待修改图像和所述描述文本输入至目标扩散模型，可以包括：通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，以便利用所述反向文本调整编辑路径，以便根据编辑路径生成编辑后的再生图像。可以理解的是，在确定了编辑区域后，系统需要进一步控制编辑路径，以实现编辑需求，本实施例中采用了迭代更新的负向文本，从而在保持原图区域的同时，调整编辑路径；例如描述文本为添加一只猫，则反向文本可以为不要添加狗；通过引入不同的负向文本，能够对编辑路径进行精细调整，从而实现更加精准的编辑效果。

本实施例中，所述通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，可以包括：通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型；根据所述描述文本和所述反向文本，利用所述目标扩散模型中交叉注意力模块进行文本协调。即针对输入的编辑需求，系统需要定位到需要进行修改的图像区域，这可以通过修改模型交叉注意力模块(cross attention部分)的内容来实现，具体而言，模型可以通过关注输入文本中描述的对象特征，来确定需要进行修改的图像区域。也即，为了保证生成效果的效果，对编辑可靠性进行约束。由此，利用了扩散模型的原理，并通过交叉注意力控制的方式将两者相互协调，从而实现了高度自适应的图像编辑。

步骤S13：通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。

本实施例中，最后通过目标扩散模型，利用目标对象替换待修改区域的内容，以得到再生图像。由此，基于目标扩散模型的图像内容映射及图像内容再生成，通过自然语言提示，用户可以直观地表达对图像的编辑需求，无需掌握复杂的图像编辑技能，具有极高的实用价值。能够在一个生成过程中，对图像多次修改，即对一些生成得到的图像，进行二次编辑来获得更多类似但是不同的图像，来实现更为定制化的图像生成，能够高度自适应地实现图像编辑效果，对实际应用有着十分良好的前景。

本实施例中，所述获取针对图像修改的描述文本之后，还可以包括：若所述描述文本为针对待修改图像对应的原始文本中目标词的增强描述，则通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域；提高所述待修改区域的权重，得到再生图像。可以理解的是，每个描述的词汇都有其对应的文本嵌入标记，以及映射得到的注意图(attention map)，对于直接的换词可以直接替换注意图；对于加词的，则是直接在对应位置加入新的注意图；如果对某个词进行增强，则可以直接提高对应的区域图的权重。

本实施例中，采用交叉注意力控制，结合了语言模型和图像生成模型，实现高度自适应的图像编辑，通过这种方法，用户可以通过自然语言提示来实现对图像的高效编辑，在容许范围内对生成图像的再编辑，真实图像的编辑起到非常好的效果，大幅度提升了AI绘画的应用范围，具有很高的实用价值。

由上可见，本实施例中获取针对图像修改的描述文本；通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。可见，通过确定待修改图像中的待修改区域以及待修改图像中需要添加的目标对，然后利用目标对象替换待修改区域的内容，以得到再生图像，由此，针对已生成的图像，可以通过改变其中某些内容来获取另外的图像，实现自动对图像的可控编辑，实现图像定制化生成，大幅度提升了AI绘画的应用范围；并且，直接利用目标对象替换待修改区域的内容，不需要对模型进行其余训练，即无训练成本。

相应的，本申请实施例还公开了一种图像内容再生成装置，参见图3所示，该装置包括：

文本获取模块11，用于获取针对图像修改的描述文本；

解析模块12，用于通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象；

替换模块13，用于通过所述目标扩散模型利用所述目标对象替换所述待修改区域的内容，以得到再生图像。

在一些具体实施例中，所述解析模块12具体可以包括：

对象确定单元，用于利用所述目标扩散模型对所述描述文本进行解析，根据所述描述文本中描述的第一对象的特征，从所述待修改图像中确定出第一对象；

区域确定单元，用于根据所述第一对象的位置确定出所述待修改区域；

对象生成单元，用于根据所述描述文本中描述的第二对象，生成所述目标对象。

在一些具体实施例中，所述区域确定单元具体可以包括：

判断单元，用于判断所述第一对象是否为待替换对象；

第一区域确定单元，用于若所述判断单元的判断结果为是，则将所述待替换对象所在的区域作为所述待修改区域；

第二区域确定单元，用于若所述判断单元的判断结果为否，则根据所述第一对象在待修改图像中的位置以及所述描述文本中所述第一对象关联的方位描述，确定出所述待修改区域。

在一些具体实施例中，所述文本获取模块11具体可以包括：

待修改图像获取单元，用于获取目标扩散模型基于初始描述文本生成的初始图像，并将所述初始图像作为所述待修改图像；

描述文本获取单元，用于获取对所述初始描述文本进行修改后得到的修改文本，将所述修改文本作为所述针对图像修改的描述文本。

在一些具体实施例中，所述图像内容再生成装置具体可以包括：

解析单元，用于若所述描述文本为针对待修改图像对应的原始文本中目标词的增强描述，则通过将待修改图像和所述描述文本输入至目标扩散模型，利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域；

权重修改单元，用于提高所述待修改区域的权重，得到再生图像。

在一些具体实施例中，所述解析模块12具体可以用于通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，以便利用所述反向文本调整编辑路径，以便根据编辑路径生成编辑后的再生图像。

在一些具体实施例中，所述解析模块12具体可以包括：

输入单元，用于通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型；

解析单元，用于根据所述描述文本和所述反向文本，利用所述目标扩散模型中交叉注意力模块进行文本协调。

进一步的，本申请实施例还公开了一种电子设备，参见图4所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的图像内容再生成方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括描述文本在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的图像内容再生成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的图像内容再生成方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种图像内容再生成方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像内容再生成方法，其特征在于，包括：

获取针对图像修改的描述文本；

2.根据权利要求1所述的图像内容再生成方法，其特征在于，所述利用所述目标扩散模型对所述描述文本进行解析，确定所述待修改图像中的待修改区域以及所述待修改图像中需要添加的目标对象，包括：

根据所述第一对象的位置确定出所述待修改区域；

根据所述描述文本中描述的第二对象，生成所述目标对象。

3.根据权利要求2所述的图像内容再生成方法，其特征在于，所述根据所述第一对象的位置确定出所述待修改区域，包括：

判断所述第一对象是否为待替换对象；

4.根据权利要求1所述的图像内容再生成方法，其特征在于，所述获取针对图像修改的描述文本，包括：

5.根据权利要求1所述的图像内容再生成方法，其特征在于，所述获取针对图像修改的描述文本之后，还包括：

提高所述待修改区域的权重，得到再生图像。

6.根据权利要求1所述的图像内容再生成方法，其特征在于，所述通过将待修改图像和所述描述文本输入至目标扩散模型，包括：

7.根据权利要求6所述的图像内容再生成方法，其特征在于，所述通过将所述待修改图像、所述描述文本和反向文本输入至所述目标扩散模型，包括：

8.一种图像内容再生成装置，其特征在于，包括：

文本获取模块，用于获取针对图像修改的描述文本；

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的图像内容再生成方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像内容再生成方法。