CN117808933B

CN117808933B - 一种图像要素分解与重构方法及装置

Info

Publication number: CN117808933B
Application number: CN202410225064.5A
Authority: CN
Inventors: 陈尧森; 刘跃根; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-24
Anticipated expiration: 2044-02-29
Also published as: CN117808933A

Abstract

本发明提供了一种图像要素分解与重构方法及装置，包括：要素分解：对原始图像进行语义理解，分解出图像中的原始要素；要素处理：对原始要素进行处理，得到优化后的要素；要素重组：创建画布，并将优化后的要素进行缩放、旋转和/或平移操作，完成相应要素的布局重组；融合生成：对重组后的要素进行融合生成，得到相应尺寸的重构图像。本发明通过分解和重组图像要素来引导图像生成，得到保留原始要素的高质量重构图像，充分利用了生成模型的创造性并具有较强的可控性，可以广泛应用于图像编辑和图像生成。

Description

一种图像要素分解与重构方法及装置

技术领域

本发明涉及图像生成和深度学习技术领域，特别涉及一种图像要素分解与重构方法及装置。

背景技术

近年来，图像生成模型飞速发展，目前部分方法使用潜在扩散模型将噪声数据压缩到潜空间进行迭代去噪生成了照片级的图像，并且能够在较低算力的设备上以较短时间生成高清图片，极大地降低了模型落地的门槛，广泛地应用于图像编辑和生成领域。图像要素分解是图像编辑和创作的关键步骤，目前大多数方法借助视觉理解领域的各种方法包括目标检测、语义分割等，可以很好的分解出图像中的各个要素。而对分解后的要素进行重构并得到一张高质量的新图像并没有一个有效的方法，常用的方式是直接将各种要素粘贴到一个背景上完成重构，但是这种方式得到的重构图片质量较低并且仅适用于简单的背景。

发明内容

针对现有技术中存在的问题，提供了一种图像要素分解与重构方法及装置，采用潜在扩散模型来解决目前图像要素分解与重构中存在的重构效果差和通用性差的问题。

本发明第一方面提出了一种图像要素分解与重构方法，包括：

要素分解：对原始图像进行语义理解，分解出图像中的原始要素；

要素处理：对原始要素进行处理，得到优化后的要素；

要素重组：创建画布，并将优化后的要素进行缩放、旋转和/或平移操作，完成相应要素的布局重组；

融合生成：对重组后的要素进行融合生成，得到相应尺寸的重构图像。

作为一种优选方案，所述要素分解具体过程包括：

采用目标检测算法获取原始图像中的目标对象；

采用图像分割算法获取原始图像中所有的语义掩码；

采用光学字符识别算法获取原始图像中包含的所有文字内容；

从获取的所有要素中根据需求选择所需的要素作为原始要素。

作为一种优选方案，所述要素处理具体过程包括：

对原始要素中的文字内容进行颜色改变、字体改变操作；

采用风格迁移算法对原始要素中的目标对象进行风格改变操作；

根据输入的文本提示词和参考图片，使用可控生成模型对原始要素进行定制优化。

作为一种优选方案，所述使用可控生成模型对原始要素进行定制优化的具体过程包括：

根据输入的参考图片获取图片控制特征；

将文本提示词和图片控制特征作为输入，通过稳定扩散模型进行图像生成，使用控制网络将图片控制特征融入图像生成的过程中，引导生成具有丰富细节的优化要素。

作为一种优选方案，所述稳定扩散模型包括：

图像编码器和文本编码器，用于将输入压缩到潜空间，节约计算资源；

去噪模型，由编码和解码两部分组成的U型网络结构，用于预测噪声以及去除噪声；所述U型网络结构的主干分为对称的左右两部分，右半部分包含8个编码块，左半部分包含8个解码块，每个块中包含残差卷积模块和视觉注意力模块；

图片解码器，用于将潜空间的去噪结果还原为RGB格式的图片。

作为一种优选方案，所述通过稳定扩散模型进行图像生成的具体过程包括：

随机初始化一张噪声图片并通过图像编码器将其转换到潜空间，得到初始噪声；

通过文本编码器处理输入的文本提示词，得到文本控制特征输入；

将图片控制特征输入控制网络处理，得到图片控制特征输入；

将初始噪声直接输入去噪模型，将文本控制特征输入通过交叉注意力的方式引入去噪模型的编码和解码部分，图片控制特征输入则直接与解码部分的输出特征相加，通过模型前向传播完成噪声预测；

通过初始噪声减去预测噪声完成去噪，将去噪结果输入去噪模型再次进行噪声预测和去噪，迭代多次得到最终的去噪结果；

将最终的去噪结果输入图像解码器得到最终的生成图像，即优化后的要素。

作为一种优选方案，所述要素重组的具体过程包括：

新建任意尺寸的画布并将所需的优化后的要素导入；

对要素进行平移、旋转和缩放，完成要素的重新布局；

将重新的布局结果导出，得到背景为空的要素重组结果图像。

作为一种优选方案，所述融合生成的具体过程包括：

通过要素重组结果图像得到背景处值为0、图像要素处值为1的二值化掩码图像；

将要素重组结果图像、二值化掩码图像和文本提示词输入稳定扩散模型，得到补全背景的重构图像。应当注意，得到补全背景的重构图像时所采用的稳定扩散模型与对原始要素进行定制优化时所采用的稳定扩散模型结构相同，区别尽在与输入不同，在步骤中，用于图像修复的稳定扩散模型增加了掩码图像和待修复图像作为输入。

作为一种优选方案，所述得到补全背景的重构图像的具体过程包括：

获取初始噪声，使用图像编码器将要素重组结果图像压缩到潜空间，再将掩码图片下采样到相同的分辨率，最后将三者叠加得到初始输入；

将初始噪声输入去噪模型进行噪声预测，文本控制特征输入通过交叉注意力的方式引入去噪模型的编码和解码部分；

用初始噪声减去预测噪声和掩码图像的乘积，实现局部去噪，再将去噪结果输入去噪模型再次进行噪声预测和去噪，迭代多次得到最终的去噪结果；

将去噪结果输入图像解码器得到最终的重构图像。

本发明第二方面提出了一种图像要素分解与重构装置，包括：

要素分解模块，用于利用目标识别、语义分割、光学字符识别等方法对原始图像进行语义理解，分解出图像中存在的各种原始要素；

要素处理模块，用于对得到的图像原始要素进行处理，得到对应的优化后的要素；

要素重组模块，用于创建任意大小的画布，并将优化后的要素在画布上进行缩放、旋转和平移操作，实现相应要素的布局重组；

融合生成模块，用于利用生成式图像修复方法对重组后的要素进行融合生成，得到相应尺寸的重构图像。

与现有技术相比，采用上述技术方案的有益效果为：本发明通过分解和重组图像要素来引导生成保留原始要素的高质量图像，充分利用了生成模型的创造性并具有较强的可控性，可以广泛应用于图像编辑和图像创作。

附图说明

图1为本发明提出的图像要素分解与重构方法的流程示意图。

图2为本发明一实施例中提出的要素处理的实例结果示意图。

图3为本发明一实施例中提出的控制网络引导稳定扩散模型进行图像生成的流程示意图。

图4为本发明一实施例中提出的要素重组的结果示意图。

图5为本发明一实施例中提出的融合生成结果示意图。

图6为本发明一实施例中提出的用于图像修复的稳定扩散模型的推理过程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

传统方案中，通常直接利用文本提示词或者图片来引导图片生成，但是这种方式生成的图片往往存在极强的随机性，难以在保留原始图片要素的情况下生成高质量的新图片，在实际应用中难以满足用户的要求。为了解决该问题，本发明实施例提出了一种图像要素分解与重构方法，通过分解和重组图像要素来引导生成保留原始要素的高质量图像，充分利用了生成模型的创造性并具有较强的可控性，可以广泛应用于图像编辑和图像创作，使其具有更高的实用价值。

请参考图1，该图像要素分解与重构方法主要包括要素分解、要素处理、要素重组以及融合生成四个部分。具体方案如下：

S100、要素分解：对原始图像进行语义理解，分解出图像中的原始要素。

本实施例中，主要采用目标识别、语义分割、光学字符识别等方法进行语义理解。具体包括：

采用YOLOV5目标检测方法来获取原始图像中目标对象；

采用SAM(Segement Anything Model)图像分割算法来获取原始图像中所有的语义掩码；

采用MaskOCR光学字符识别算法来获取原始图像中包含的所有文字内容；

获取的目标对象、语义掩码、文字内容均为候选要素，从所有候选要素中挑选出需要的要素作为原始要素。

S200、要素处理：对原始要素进行处理，得到优化后的要素。

本实施例中，对原始要素主要包括字体转写、风格迁移、控制生成等处理，如图2所示为一要素处理的示例结果。具体包括：

对使用光学字符识别算法提取的原始要素（即文字内容）进行颜色改变、字体改变等操作。采用风格迁移算法对使用目标检测得到的原始要素（即目标对象）进行风格更改。根据输入的文本提示词和参考图片，使用可控生成模型对原始要素进行定制优化。

同时，本实施例还提供了对原始要素进行定制优化的具体方法：

S210、获取输入的文本提示词和参考图片，由文本提示词确定原始要素的优化方向。

S220、使用边缘检测和深度估计等算法获取输入的参考图片所提供的图片控制特征，其目的在于提取参考图片的纹理、色彩等信息，方便融入后续的图片生成过程；

S230、以文本提示词和图片控制特征作为输入，通过稳定扩散模型进行图像生成，使用控制网络将图片控制特征融入图像生成的过程，进而引导其生成具有丰富细节的优化要素。其中，控制网络属于稳定扩散模型的一种特殊图像生成模型，用于对图像的可控生成。

请参考图3，本实施例中还提出了相应的稳定扩散模型组成结构。该稳定扩散模型包括图像编码器、文本编码器、去噪模型以及图像解码器。其中，

去噪模型，为由编码和解码两部分组成的U型网络结构，用于预测噪声以及去除噪声；该U型网络结构的主干分为对称的左右两部分，右半部分包含8个编码块，左半部分包含8个解码块，每个块中包含残差卷积模块和视觉注意力模块；

基于该稳定扩散模型，本实施例中还给出了利用该稳定扩散模型进行图像生成的具体方法，包括：

S231、随机初始化一张噪声图片并通过图像编码器将其转换到低分辨率的潜空间，得到初始噪声；

S232、通过文本编码器处理输入的文本提示词，得到文本控制特征输入；

S233、将图片控制特征输入控制网络处理，得到图片控制特征输入；

S234、将初始噪声直接输入去噪模型，而文本控制特征输入通过交叉注意力的方式引入去噪模型的编码和解码部分，图片控制特征输入则和解码部分的输出特征直接相加，进而通过模型前向传播完成噪声预测，其中文本输入和控制输入是为了引导生成的方向，得到满意的图像；

S235、用初始噪声减去预测噪声完成去噪，将去噪结果输入去噪模型再次进行噪声预测和去噪，迭代多次得到最终的去噪结果；

S236、将去噪结果输入图像解码器得到最终的生成图像，即优化后的要素。

需要说明的是，本实施例提出的要素处理方法既保留了原始要素的信息又利用稳定扩散模型实现了要素的优化，强化了重构图像的可控性。

S300、要素重组：创建画布，并将优化后的要素进行缩放、旋转和/或平移操作，完成相应要素的布局重组。

请参考图4，要素重组的步骤包括：

S310、新建一个任意尺寸的画布并且将需要的要素导入；

S320、对要素进行平移、旋转和缩放，完成要素的重新布局；

S320、将重新的布局结果导出，得到背景为空的要素重组结果图像。

图4仅示出了一种重新布局方式，实际应用时，可以根据需求做任意调制。

S400、对重组后的要素进行融合生成，得到相应尺寸的高质量重构图像。

本实施例中，采用生成式图像修复方法来实现对重组后的要素进行融合生成，包括：

S410、通过要素重组结果图像得到背景处值为0，图像要素处值为1的二值化掩码图像；

S420、将要素重组结果图像、二值化掩码图像和文本提示词输入专门用于图像修复的稳定扩散模型,得到补全背景的结果图像，如图5所示。

需要说明的是，本实施例中，专门用于图像修复的稳定扩散模型与前述S203所使用的稳定扩散模型结构一致，其区别在于输入不同，用于图像修复的稳定扩散模型增加了掩码图像和待修复图像作为输入。

请参考图6，利用稳定扩散模型得到补全背景的结果图像的过程包括：

S421、获取初始输入。

在该步骤中，首先随机初始化一张噪声图片并通过图像编码器将其转换到低分辨率的潜空间，得到初始噪声；其次使用图像编码器将要素重组结果图像压缩到潜空间；再将掩码图片下采样到相同的分辨率，最后将三者叠加得到初始输入；通过新增了要素重组结果图像和二值化掩码图像作为输入，使得模型只针对掩码区域进行生成而保留原有的图像元素。

S422、通过文本编码器处理输入的文本提示词，得到文本输入。

S423、将初始噪声输入去噪模型进行噪声预测，文本输入通过交叉注意力的方式引入去噪模型的编码和解码部分。

S424、用初始噪声减去预测噪声和掩码图像的乘积，实现局部去噪，再将去噪结果输入去噪模型再次进行噪声预测和去噪，迭代多次得到最终的去噪结果。

S425、将去噪结果输入图像解码器得到最终的重构图像。

为了更好的实现提出的图像要素分解与重构方法，本实施例还提出了一种图像要素分解与重构装置，包括：

要素分解模块，用于利用目标识别、语义分割、光学字符识别等方法对原始图像进行语义理解，分解出图像中存在的各种要素；

要素处理模块，用于利用字体转写、风格迁移、控制生成等方法对得到的图像原始要素进行处理，得到对应的优化后的要素；

融合生成模块，用于利用生成式图像修复方法对重组后的要素进行融合生成，得到相应尺寸的高质量重构图像。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的图像要素分解与重构方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的图像要素分解与重构方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像要素分解与重构方法，其特征在于，包括：

要素处理：对原始要素进行处理，得到优化后的要素；

融合生成：对重组后的要素进行融合生成，得到相应尺寸的重构图像；

所述要素处理的具体过程包括：

对原始要素中的文字内容进行颜色改变、字体改变操作；

对原始要素中的目标对象进行风格改变操作；

根据输入的参考图片获取图片控制特征；将文本提示词和图片控制特征作为输入，通过稳定扩散模型进行图像生成，使用控制网络将图片控制特征融入图像生成的过程中，引导生成优化后的要素；

所述稳定扩散模型包括：

图像编码器和文本编码器，用于将输入压缩到潜空间；

图像解码器，用于将潜空间的去噪结果还原为RGB格式的图片；

所述通过稳定扩散模型进行图像生成的具体过程包括：

2.根据权利要求1所述的图像要素分解与重构方法，其特征在于，所述要素分解的具体过程包括：

采用目标检测算法获取原始图像中的目标对象；

采用图像分割算法获取原始图像中所有的语义掩码；

3.根据权利要求1所述的图像要素分解与重构方法，其特征在于，所述要素重组的具体过程包括：

新建任意尺寸的画布并将所需的优化后的要素导入；

对要素进行平移、旋转和缩放，完成要素的重新布局；

4.根据权利要求1所述的图像要素分解与重构方法，其特征在于，所述融合生成的具体过程包括：

将要素重组结果图像、二值化掩码图像和文本提示词输入稳定扩散模型，得到补全背景的重构图像。

5.根据权利要求4所述的图像要素分解与重构方法，其特征在于，所述得到补全背景的重构图像的具体过程包括：

将去噪结果输入图像解码器得到最终的重构图像。

6.一种图像要素分解与重构装置，用于实现权利要求1~5任一项所述的图像要素分解与重构方法，其特征在于，包括：

要素分解模块，用于对原始图像进行语义理解，分解出图像中存在的各种原始要素；