CN117911515A

CN117911515A - 一种修改图片中目标位置的方法及设备

Info

Publication number: CN117911515A
Application number: CN202410079219.9A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mido Honey Nest Intelligent Technology Co ltd
Current assignee: Shanghai Mido Honey Nest Intelligent Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-19

Abstract

本申请的目的是提供一种修改图片中目标位置的方法及设备，本申请通过获取原始图像的空间嵌入信息，其中，所述空间嵌入信息包括图像视觉特征、文本特征和位置特征；根据原始图像的描述信息确定原始图像中目标位置，抽取每一目标位置对应的文本特征和位置特征；根据每一目标位置对应的文本特征和位置特征确定条件特征；根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，将解码器模块最终的输出作为新图像。从而基于坐标位置进行修改图片中的指定位置的目标，生成新图像，不需要手动选择目标位置，减少繁琐步骤以及减少人力成本。

Description

一种修改图片中目标位置的方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种修改图片中目标位置的方法及设备。

背景技术

当前，随着数字图像处理技术的不断进步和发展，图片修改技术已经广泛应用，在传统的图像编辑方法中，比如使用Photoshop(PS)软件进行修改，需要手动选择图像中物体的区域进行编辑，这种方法操作繁琐、效率低下且不够精确。

发明内容

本申请的一个目的是提供一种修改图片中目标位置的方法及设备，解决现有技术中需要手动修改图片中物体位置，效率低、需要大量的人力成本的问题。

根据本申请的一个方面，提供了一种修改图片中目标位置的方法，该方法包括：

获取原始图像的空间嵌入信息，其中，所述空间嵌入信息包括图像视觉特征、文本特征和位置特征；

根据原始图像的描述信息确定原始图像中目标位置，抽取每一目标位置对应的文本特征和位置特征；

根据每一目标位置对应的文本特征和位置特征确定条件特征；

根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，将解码器模块最终的输出作为新图像。

可选地，根据每一目标位置对应的文本特征和位置特征确定条件特征，包括：

对每一目标位置对应的位置特征和文本特征进行融合，得到融合后的位置特征和融合后的文本特征；

根据图像视觉特征、融合后的位置特征和融合后的文本特征得到新的空间嵌入信息，将新的空间嵌入信息与图像视觉特征进行拼接，得到条件特征。

可选地，对每一目标位置对应的位置特征和文本特征进行融合，得到融合后的位置特征和融合后的文本特征，包括：

将每一目标位置对应的位置特征和文本特征在时间维度上进行拼接操作，将拼接后的结果输入到自注意力模型中，得到输出特征；

经过多层感知机，在时间维度上将输出特征进行分离，得到每一目标位置的目标的文本特征和目标的位置特征；

将各个目标的文本特征进行矩阵元素的相加操作，得到融合后的文本特征；

将各个目标的位置特征进行矩阵元素的相加操作，得到融合后的位置特征。

可选地，根据图像视觉特征、融合后的位置特征和融合后的文本特征得到新的空间嵌入信息，包括：

将得到的融合后的文本特征作为K输入，将得到的融合后的位置特征作为V输入，将图像视觉特征作为Q输入；

将Q输入、K输入及V输入作为交叉注意力模型的输入，输出新的空间嵌入信息。

可选地，根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，包括：

将解码器模块中每一块按顺序进行串联，其中，所述解码器模块包括多个块，每一个块包括Q输入、K输入和V输入；

将图像视觉特征作为第一个块的Q输入，将条件特征作为第一个块的K输入和V输入；

确定第一个块的输出，将该输出作为第二个块的Q输入，后续的每一个块的Q输入为前一个块的输出，将条件特征作为每一个块的K输入和V输入。

可选地，确定第一个块的输出，包括：

将图像视觉特征进行转置二维卷积后输入到自注意力模型后经过多层感知机，得到第一输出；

将图像视觉特征进行转置二维卷积转置二维卷积后输入到交叉注意力模型后经过多层感知机，得到第二输出；

将所述第一输出与第二输出进行矩阵元素的相加操作，将相加后结果分别进行通道归一化和批量归一化处理，归一化处理后进行拼接操作；

将拼接操作的结果输入到注意力模型中的前馈神经网络中，得到第一个块的输出。

可选地，抽取每一目标位置对应的文本特征和位置特征，包括：

将每一目标位置的目标输入到clip的文本编码器中，抽取到每一目标位置的文本特征；

将每一个目标位置进行mlp调整得到每一目标位置的位置特征。

根据本申请又一个方面，还提供了一种修改图片中目标位置的设备，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取原始图像的空间嵌入信息，其中，所述空间嵌入信息包括图像视觉特征、文本特征和位置特征；根据原始图像的描述信息确定原始图像中目标位置，抽取每一目标位置对应的文本特征和位置特征；根据每一目标位置对应的文本特征和位置特征确定条件特征；根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，将解码器模块最终的输出作为新图像。从而基于坐标位置进行修改图片中的指定位置的目标，生成新图像，不需要手动选择目标位置，减少繁琐步骤以及减少人力成本，提供了一种图片修改的可玩性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种修改图片中目标位置的方法流程示意图；

图2示出本申请一实施例中利用坐标信息修改图片中目标位置的方法流程示意图；

图3示出本申请一实施例中特征融合的流程示意图；

图4示出本申请一实施例中解码器模块的设计示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种修改图片中目标位置的方法流程示意图，该方法包括：步骤S11～步骤S14，其中，

步骤S11，获取原始图像的空间嵌入信息，其中，所述空间嵌入信息包括图像视觉特征、文本特征和位置特征；在此，图像的空间嵌入信息(embeddinds)有3种特征，分别为图像视觉(Vision)、文本(Text)和位置(Location)信息，可以通过clip的图像编码器对原始图像的embeddinds进行抽取，得到图像视觉特征V_embeddinds；其中，clip(ContrastiveLanguage-Image Pre-training)为一种经过对比学习训练得到的模型，包括一个图像编码器和一个文本编码器，其中，图像编码器用于抽取图像的特征，文本编码器用于抽取文本的特征。

步骤S12，根据原始图像的描述信息确定原始图像中目标位置，抽取每一目标位置对应的文本特征和位置特征；在此，获取原始图像的描述信息，该描述信息包括何人或何物在何地做何事，从而根据该描述信息可以确定出想要移动的位置的目标，想要移动的位置为目标位置，目标为人或物，比如图片中的人(person)、猫(cat)以及书包(bag)为目标，则依次抽取出对应位置的人物、猫以及书包的特征，即抽取到人的文本特征和位置特征、猫的文本特征和位置特征、书包的文本特征和位置特征，其中，比如使用T_emb of person表示person目标的文本特征，L_emb of person表示person目标新的位置特征。

步骤S13，根据每一目标位置对应的文本特征和位置特征确定条件特征；在此，进行融合目标位置特征和目标文本特征，将每一个目标位置对应的两个特征在时间维度上进行拼接操作，进行融合处理，以上述图像中人、猫和书包为目标为例，将3个目标的文本特征和位置特征进行融合处理，最后得到条件特征。

步骤S14，根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，将解码器模块最终的输出作为新图像。在此，设计解码器模块(decoder block)，利用抽取出的图像视觉特征以及融合处理后得到的条件特征来设计解码器模块中每一块(block)的输入，并将这些块按顺序进行串联，从而最终解码器模块的输出为新图像，完成对目标位置的修改。通过使用新的坐标信息来修改原始图像中指定目标的位置，并生成新的图像。

在本申请一实施例中，在步骤S12中，将每一目标位置的目标输入到clip的文本编码器中，抽取到每一目标位置的文本特征；将每一个目标位置进行mlp调整得到每一目标位置的位置特征。在此，如图2所示，通过blip获取原始图像的描述信息，根据该描述信息得到目标位置的目标，如人、猫和书包，则将人、猫和书包依次输入到clip的文本编码器中，得到人的文本特征、猫的文本特征以及书包的文本特征；修改坐标信息(layout)，用于新图像中关注目标的新位置，表示为[x_left、x_right、y_top、y_bottom]，也就是以原始图像左上角为原点的2个x值和2个y值(矩形框)，每一个目标都有四个值(即人位置、猫位置和书包位置)，接着经过一个mlp分别抽取到每个位置的特征，即得到人的位置特征、猫的位置特征和书包的位置位置。其中，blip(Bootstrapping Language-Image Pre-training)是一种可用于对图像进行文本描述的模型，mlp(Multilayer Perceptron，多层感知机)用于线性变化、特征空间的转化，使用mlp可以抽取出位置的特征。

在本申请一实施例中，在步骤S13中，对每一目标位置对应的位置特征和文本特征进行融合，得到融合后的位置特征和融合后的文本特征；根据图像视觉特征、融合后的位置特征和融合后的文本特征得到新的空间嵌入信息，将新的空间嵌入信息与图像视觉特征进行拼接，得到条件特征。其中，将得到的融合后的文本特征作为K输入，将得到的融合后的位置特征作为V输入，将图像视觉特征作为Q输入；将Q输入、K输入及V输入作为交叉注意力模型的输入，输出新的空间嵌入信息。在此，继续参考图2，经过上述步骤得到每一目标位置的文本特征和位置特征后，进行特征融合处理，得到融合后的文本特征(T_embeddings)和位置特征(L_embeddings)，将T_embeddings作为K输入，L_embeddings作为V输入，步骤S11中通过clip的图像编码器得到的图像视觉特征(V_embeddings)作为Q输入，QKV输入到交叉注意力模型(cross-attention)中，输出新的embeddings，随后将该新的embeddings与V_embeddings进行时间维度上的拼接操作，得到条件特征，进而将该条件特征与V_embeddings一起输入到解码器模块中，得到新图像。需要说明的是，Q为查询Query，(K,V)为数据库Key-Value。

接上述实施例，将每一目标位置对应的位置特征和文本特征在时间维度上进行拼接操作，将拼接后的结果输入到自注意力模型中，得到输出特征；经过多层感知机，在时间维度上将输出特征进行分离，得到每一目标位置的目标的文本特征和目标的位置特征；将各个目标的文本特征进行矩阵元素的相加操作，得到融合后的文本特征；将各个目标的位置特征进行矩阵元素的相加操作，得到融合后的位置特征。在此，如图3所示，将每一个目标位置的目标的文本特征和位置特征先进行拼接操作，以目标为人、猫及书包为例，将人的文本特征和位置特征在时间维度上进行拼接操作，再将拼接后的结果输入到自注意力模型中，经过mlp，接着在时间维度上将输出特征进行分离，得到人的T_embeddings和L_embeddings；同样的道路，将猫的文本特征和位置特征进行特征融合，得到猫的T_embeddings和L_embeddings，将书包的文本特征和位置特征进行特征融合，得到书包的T_embeddings和L_embeddings，从而对三个T_embeddings进行矩阵元素的相加操作(element-wise addition)得到融合后的T_embeddings，对三个L_embeddings进行矩阵元素的相加操作得到融合后的L_embeddings。

在本申请一实施例中，在步骤S14中，将解码器模块中每一块按顺序进行串联，其中，所述解码器模块包括多个块，每一个块包括Q输入、K输入和V输入；将图像视觉特征作为第一个块的Q输入，将条件特征作为第一个块的K输入和V输入；确定第一个块的输出，将该输出作为第二个块的Q输入，后续的每一个块的Q输入为前一个块的输出，将条件特征作为每一个块的K输入和V输入。在此，设计解码器模块(decoder block)，解码器模块中包括多个block，在本申请实施例中以32个block进行设计为例说明，将32个block按顺序串联起来组成解码器，每一个块都会包括QKV输入，设计第一个block时，是将通过原始图像得到的V_embeddings作为Q，将得到的条件特征作为K和V，输出作为第二个block的Q，第2个至第32个block的K和V始终为条件特征，前一个block的输出作为后一个block的Q，最终解码器的输出作为新图像，新图像中的目标(比如人、猫和书包)的位置均是根据坐标信息进行了调整，从而能够通过使用新的坐标信息来修改原始图像中指定目标的位置，并生成新的图像，提供一种图片修改的可玩性。

接上述实施例，确定第一块的输出时，是将图像视觉特征进行转置二维卷积后输入到自注意力模型后经过多层感知机，得到第一输出；将图像视觉特征进行转置二维卷积后输入到交叉注意力模型后经过多层感知机，得到第二输出；将所述第一输出与第二输出进行矩阵元素的相加操作，将相加后结果分别进行通道归一化和批量归一化处理，归一化处理后进行拼接操作；将拼接操作的结果输入到注意力模型中的前馈神经网络中，得到第一个块的输出。在此，如图4所示，V_embeddings经过转置二维卷积(transpose conv2d)后分别做自注意力模型+mlp和交叉注意力模型(K和V均为条件特征)+mlp操作，将两个输出进行矩阵元素的相加操作后，再分别经过通道(layer)归一化和批量(batch)归一化，接着在特征维度上进行拼接，然后输入到注意力模型的ffn(feed forward networks，前馈神经网络)中，得到第一个block的输出。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种修改图片中目标位置的方法。

在本申请一实施例中，还提供了一种修改图片中目标位置的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种修改图片中目标位置的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据每一目标位置对应的文本特征和位置特征确定条件特征，包括：

3.根据权利要求2所述的方法，其特征在于，对每一目标位置对应的位置特征和文本特征进行融合，得到融合后的位置特征和融合后的文本特征，包括：

4.根据权利要求2所述的方法，其特征在于，根据图像视觉特征、融合后的位置特征和融合后的文本特征得到新的空间嵌入信息，包括：

5.根据权利要求1所述的方法，其特征在于，根据图像视觉特征以及条件特征确定解码器模块中每一块的输入，包括：

6.根据权利要求5所述的方法，其特征在于，确定第一个块的输出，包括：

7.根据权利要求1所述的方法，其特征在于，抽取每一目标位置对应的文本特征和位置特征，包括：

8.一种修改图片中目标位置的设备，其特征在于，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。

9.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。