CN112101330A

CN112101330A - 图像处理方法、装置、电子设备以及存储介质

Info

Publication number: CN112101330A
Application number: CN202011310996.8A
Authority: CN
Inventors: 白亚龙; 张炜; 梅涛; 周伯文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2020-12-18
Anticipated expiration: 2040-11-20
Also published as: CN112101330B

Abstract

本申请实施例提供一种图像处理方法、装置、电子设备以及存储介质，获取场景图，对场景图使用布局生成器处理获得多个对象之间的相对关系，对多个对象之间的相对关系使用布局生成器处理，确定多个对象的布局图，根据场景图和多个对象的布局图获得目标图像。根据各个对象的相互关系生成相应布局图，可以适应任意场景图，进而提高所生成场景图的准确度，提高所还原图像的准确度。

Description

图像处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、电子设备以及存储介质。

背景技术

场景图是一个结构化的语义信息，用于描述各个对象之间的关系。基于场景图生成图像技术是指通过对场景图中语义信息进行还原得到图像过程。

现有技术中，通常是构建并训练图像生成模型，再使用已训练的图像生成模型对场景图进行处理还原图像。其中，图像生成模型中设有布局生成器，该布局生成器用于根据场景图生成各个对象布局图，布局图作为图像生成模型中其他生成器的输入，使图像生成模型最终输出所还原的图像。其中，现有布局生成器通过确定每个对象在图像中位置，再根据每个对象在图像中位置生成布局图。

然而，现有布局生成器根据每个对象在图像中位置生成布局图，导致所生成布局图准确度低，进而影响还原图像的准确度。

发明内容

本申请实施例提供一种图像处理方法、装置、电子设备以及存储介质，旨在提高根据场景图所生成的目标图像的准确度。

第一方面，本申请一种图像处理方法，包括：

获取场景图，其中，场景图表示多个对象的语义关系；

对场景图使用布局生成器处理获得多个对象之间的相对关系；

对多个对象之间的相对关系使用布局生成器处理，确定多个对象的布局图；

根据场景图和多个对象的布局图获得目标图像。

可选地，对场景图使用布局生成器处理获得多个对象之间的相对关系，具体包括：

对场景图使用布局生成器处理，获得多个对象之间的相对位置。

可选地，多个对象之间的相对位置为多个对象在图像中的边界框之间的相对位置，或者多个对象在图像中的中心之间的相对位置。

在上述技术方案中，根据两个对象之间相对位置确定多个对象的布局图，可以提高所生成布局图的准确性，进而提高所生成目标图像的准确性。

可选地，对场景图使用布局生成器处理获得多个对象在图像中的相对关系，具体包括：

对场景图使用布局生成器处理获得多个对象之间的相对尺寸。

可选地，多个对象之间的相对尺寸为多个对象在图像中的边界框之间的相对尺寸。

在上述技术方案中，根据两个对象之间相对尺寸确定多个对象的布局图，可以提高所生成布局图的准确性，进而提高所生成目标图像的准确性。

可选地，根据场景图和多个对象的布局图获得目标图像，具体包括：

对场景图处理使用特征图生成器，获得多个对象的特征图；

对特征图和布局图使用图像生成器处理，获得目标图像。

可选地，对场景图处理使用特征图生成器，获得多个对象的特征图，具体包括：

对场景图使用特征图生成器处理，获得多个对象之间的相对位置；

对多个对象之间的相对位置使用特征图生成器，获得多个对象的特征图。

在上述技术方案中，并根据对象之间的相对位置确定对象特征图，可以进一步提高特征图的准确性，进而提高所生成目标图像的准确性。

可选地，方法还包括：

对布局生成器、特征图生成器以及图像生成器使用图像判别器和场景图判别器进行参数训练。

可选地，对布局生成器、特征图生成器以及图像生成器使用图像判别器和场景图判别器进行参数训练，具体包括：

使用图像判断器对训练图像和图像样本处理获得图像判别结果；

使用场景图判别器对训练场景图和场景图样本处理，获得场景图判别结果；

使用图像判别结果和场景图判别结果修正布局生成器、特征图生成器以及图像生成器的参数；

其中，训练图像是对场景图样本使用布局生成器、特征图生成器以及图像生成器处理生成的，场景图样本是根据图像样本生成的，训练场景图是对训练图像进行特征提取生成的。

在上述技术方案中，使用场景图判别器和图像判别器对各个生成器中参数进行训练，可以得到更优的生成器的参数，提高图像处理的准确性。

第二方面，本申请提供一种图像处理装置，包括：

获取模块，用于获取场景图，其中，场景图表示多个对象的语义关系；

处理模块，用于对场景图使用布局生成器处理获得多个对象之间的相对关系；

处理模块还用于对多个对象之间的相对关系使用布局生成器处理，确定多个对象的布局图；

处理模块还用于根据场景图和多个对象的布局图获得目标图像。

第三方面，本申请提供一种电子设备，包括：存储器，处理器；

存储器；用于存储处理器可执行指令的存储器；

其中，处理器被配置为实现第一方面及可选方案所涉及的图像处理方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现第一方面及可选方案所涉及的图像处理方法。

本申请实施例提供一种图像处理方法、装置、电子设备以及存储介质，获取表示多个对象之间关系场景图，使用布局生成器对场景图处理获得多个对象之间关系，并根据多个对象之间关系确定多个对象的布局图，再根据布局图和场景图获得目标图像。由于在不同场景图中各个对象之间相互关系遵循相应规律，但不同场景图中对象绝对位置是任意变换。因此，根据各个对象的相互关系生成相应布局图，可以适应任意场景图，进而提高所生成布局图的准确度，提高所获得目标图像的准确度，可根据场景图准确还原目标图像。

附图说明

图1为本申请一实施例提供的图像处理方法流程示意图；

图2为本申请另一实施例提供的场景图的示意图；

图3A为本申请另一实施例提供的对象相对关系的分布示意图；

图3B为本申请另一实施例提供的对象相对关系的分布示意图；

图4为本申请另一实施例提供的处理模型的模型结构示意图；

图5为本申请另一实施例提供的图像处理装置的结构示意图；

图6为本申请另一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中，通常是构建并训练图像生成模型，再使用已训练的图像生成模型对场景图进行处理还原图像。其中，图像生成模型中设有布局生成器，该布局生成器用于根据场景图生成各个对象布局图，布局图作为图像生成模型中其他生成器的输入，使图像生成模型最终输出所还原的图像。

现有布局生成器通过确定每个对象在图像中位置，再根据每个对象在图像中位置生成布局图。然而，由于不同场景图中对象绝对位置是任意变换，无法获得最优布局生成器的参数，以适应任意的场景图，导致所生成布局图准确度低，进而影响还原图像的准确度。

本申请实施例提供一种图像处理方法、装置、电子设备以及存储介质，旨在提高根据场景图得到目标图像的准确度。本申请发明构思为：将对象之间相互关系考虑在生成模型中。也就是根据使用布局生成器对场景图处理获得多个对象在图像中相对关系，并根据多个对象在图像中相对关系确定多个对象的布局图。由于在不同场景图中各个对象之间相互关系遵循相应规律，根据各个对象的相互关系生成相应布局图，可以适应任意场景图，进而提高所生成场景图的准确度，提高所还原图像的准确度。此外，场景图中不同对象之间的复杂关系会增加形状外观的多样性。对于每个对象应同时考虑其类别和分配的空间布置，以推断出纹理和局部外观，因此，根据对象之间的相对位置确定对象特征图，可以进一步提高特征图的准确性，进而提高所生成目标图像的准确性。

如图1所示，本申请一实施例提供一种图像处理方法，该方法的执行主体可以为计算机设备、智能设备等电子设备。该方法包括如下步骤：

S101、获取场景图。

其中，场景图表示多个对象的语义关系，可以用多个三元组表示V表示。每个三元组又可以使用如下公式表示：

（1）

其中，

和

均表示对象，

表示两个对象之间关系。

场景图通过对文本进行语义识别处理获得的，也就是现对文本进行语义识别，确定各个对象以及各个对象之间关系，进而获得表示多个对象语义关系的场景图。

下面举例说明获得场景图的过程。待处理的文本为“在庭院里有一个男孩，男孩的后面站着一个男人，在这个男人的左边有另一男人在投掷飞盘”。通过解析得到5个对象，分别为“男人A”、“男人B”、“男孩”、“庭院”以及“飞盘”。可以构成4个三元组，如下所示：

V1=（男人A，投掷，飞盘），V2=（男人B，位于右边，男人A），V3=（男人B，位于后方，男孩），V4=（男孩，位于内部，庭院）。则可以构建图2所示的场景图。

S102、对场景图使用布局生成器处理获得多个对象之间的相对关系。

其中，布局生成器包括关系回归网络，通过训练关系回归网络中参数，使得关系回归网络可以输出多个对象在图像中的相对关系。也就是确定多个对象中两两对象之间的相对关系。例如：在图像中两个对象之间的相对位置，或者两个对象之间的相对尺寸等。

其中，关系回归网络的具体结构可以使用常见用于图像处理的回归网络，此处不再赘述。

S103、对多个对象之间的相对关系使用布局生成器处理，确定多个对象的布局图。

其中，布局生成器还包括布局图生成模块，通过训练布局图生成模块中参数，使得布局图生成模块通过对多个对象在图像中的相对关系确定多个对象的布局图。

其中，布局图生成模块的具体结构可以使用常见的模块结构，此处不再赘述。

S104、根据场景图和多个对象的布局图获得目标图像。

其中，特征图生成器包括卷积神经网络，通过训练卷积神经网络中参数，使得特征图生成器对场景图处理获得多个对象的特征图。

图像生成器又包括下采样处理、卷积处理以及上采样处理，通过对特征图和布局图进行下采样处理、卷积处理以及上采样处理获得目标图像。

下面说明本申请实施例可以提供更加准确的布局图的原理：如图3A所示，通过对HICO图像数据集（图中用1表示）和VG图像数据集（图中用2表示）中所有人骑在滑板车上的图像进行统计，相对位置集中在0.2-0.4范围内和相对尺寸的分布规律集中在1.0-5.0范围内。如图3B所示，通过对HICO图像数据集（图中用1表示）和VG图像数据集（图中用2表示）中所有人座在长椅上的图像进行统计，相对位置的分布规律集中在0.08-0.24范围内和相对尺寸的分布规律集中在0.5-1.5范围内。

由图3A和图3B可知，两个具有相互关系的对象在图像上的相对位置或者相对尺寸是有规律的，通过训练布局生成器中关系回归网络，可以是关系回归网络可以准确输出两个对象在图像中相互关系，进而可以获得更加准确的对象布局图。

在本申请实施例提供的图像处理方法中，由于在不同场景图中各个对象之间相互关系遵循相应规律，使用布局生成器对场景图处理获得多个对象在图像中的相对关系，并根据图像中的相对关系生成对象布局图，布局生成器可以适应各种场景图，生成更加准确的布局图，进而提高所生成目标图像的准确性。

本申请另一实施例提供一种图像处理方法，该方法的执行主体可以为计算机设备、智能设备等电子设备。该方法包括如下步骤：

S201、获取场景图。

其中，该步骤已经在S101中详细说明，此处不再赘述。

S202、使用布局生成器对场景图处理获得多个对象之间的相对关系。

其中，图像中多个对象之间相对关系包括相对位置和/或相对尺寸。也就是有三种情况，通过训练布局生成器，使布局生成器可以根据布局生成器获得多个对象之间的相位位置。或者通过训练布局生成器，使布局生成器根据布局生成器获得多个对象之间的相对尺寸。又或者通过训练布局生成器，使布局生成器根据布局生成器获得多个对象之间的相对尺寸和相对位置。

在任意场景下，相较于每个对象在图像中的绝对位置，两个具有相互关系的对象之间的相对位置是具有规律的，通过制作训练样本对布局生成器进行训练，使得布局生成器可以对场景图进行关系回归，准确获得各个对象之间的相对位置。其中，训练输入样本为场景图，训练输出样本为两两对象之间相对位置。使用训练输入样本和训练输出样本训练布局生成器，优化布局生成器的关系回归网络中参数，使得布局生成器对场景图进行处理可以准确获得多个对象在图像中的相对位置。

优选地，多个对象之间的相对位置为多个对象在图像中的边界框之间的相对位置，或者多个对象在图像中的中心之间的相对位置。

在任意场景下，相较于每个对象在图像中的绝对位置，两个具有相互关系的对象之间的相对尺寸是具有规律的，通过制作训练样本对对布局生成器进行训练，使得布局生成器可以对场景图进行关系回归，准确获得各个对象之间的相对尺寸，其中，训练输入样本为场景图，训练输出样本为两两对象之间相对尺寸。使用训练输入样本和训练输出样本训练布局生成器，优化布局生成器关系回归网络中参数，使得布局生成器对场景图进行处理，可以准确获得多个对象在图像中的相对尺寸。

优选地，多个对象之间的相对尺寸为多个对象在图像中的边界框之间的相对尺寸。

S203、使用布局生成器根据多个对象在图像中相对关系确定多个对象的布局图。

其中，通过训练布局图生成模块中参数，使得布局图生成模块可根据相对位置或者相对尺寸生成多个对象的布局图。

S204、根据多个对象的布局图和多个对象的场景图获得目标图像。

其中，根据场景图和多个对象的布局图获得目标图像具体包括如下步骤：对场景图处理使用特征图生成器获得多个对象的特征图。对特征图和布局图使用图像生成器处理获得目标图像。

其中，对场景图处理使用特征图生成器，获得多个对象的特征图又具体包括如下步骤：对场景图使用布局生成器处理获得多个对象之间的相对位置，对多个对象之间的相对位置使用特征图生成器获得多个对象的特征图。

由于场景图中不同对象之间的复杂关系会增加形状外观的多样性。对于每个对象应同时考虑其类别和分配的空间布置，以推断出纹理和局部外观。根据对多个对象之间的相对位置使用特征图生成器获得多个对象的特征图，可以提高所生成特征图的准确性。

对特征图和布局图使用图像生成器处理获得目标图像的过程已经在上述实施例中详细说明，此处不再赘述。

在本申请实施例提供的图像处理方法中，根据两个对象之间相对位置或者相对尺寸确定多个对象的布局图，可以提高所生成特征图的准确性，并根据对象之间的相对位置确定对象特征图，可以进一步提高特征图的准确性，进而提高所生成目标图像的准确性。

S301、对布局生成器、特征图生成器以及图像生成器使用图像判别器和场景图判别器进行参数训练。

其中，如图4所示，图像处理方法所使用的模型架构包括布局生成器、特征图生成器以及图像生成器。在对布局生成器、特征图生成器以及图像生成器进行训练时，使用图像判别器和场景图判别器对布局生成器、特征图生成器以及图像生成器进行训练。

针对使用图像判别器训练的过程，获得与图像判别器对应的训练样本对，训练输入样本为场景图样本，训练输出样本为图像样本。其中，场景图样本是根据图像样本生成的。对场景图样本使用布局生成器、特征图生成器以及图像生成器处理后获得训练图像。对训练图像和图像样本使用图像判断器处理获得图像判别结果。用图像判别结果修正布局生成器、特征图生成器以及图像生成器的参数。

针对使用特征图判别器训练的过程，获得与特征图判别器对应的训练样本对，训练输入样本为场景图样本，训练输出样本为特征图样本。其中，特征图样本是根据图像样本生成的。对场景图样本使用布局生成器、特征图生成器以及图像生成器处理后获得训练图像。对训练图像进行特征提取获得训练场景图。对训练场景图和场景图样本使用场景图判别器处理获得场景图判别结果。使用场景图判别结果修正布局生成器、特征图生成器以及图像生成器的参数。

需要说明的是，在使用判别器进行训练时，可以使用图像判别器和场景图判别器对布局生成器、特征图生成器以及图像生成器进行训练。也可以使用图像判别器和场景图判别器中任意一个对布局生成器、特征图生成器以及图像生成器进行训练。此处不做限制。

S302、获取场景图。

其中，在在复杂场景图数据集Visual Genome和人与物品交互数据集HICO-DET中随机选取场景图，以人坐在长椅上的场景图为例说明。

S303、使用布局生成器对场景图处理获得多个对象之间的相对关系。

其中，场景图为人坐在长椅上时，在多个具有人坐在长椅上的目标图中中，人和长椅之间相对位置的分布是集中的，人和长椅的相对尺寸的分布是集中的。通过训练布局生成器中参数，可以使布局生成器对人坐在长椅上的场景图进行处理，准确得到人和长椅的相对位置和相对尺寸。

S304、使用布局生成器根据多个对象在图像中相对关系确定多个对象的布局图。

其中，在获得人和长椅的相对位置和相对尺寸之后，在根据布局生成器根据人和长椅的相对位置和相对尺寸确定人和长椅的布局图。

S305、对场景图处理使用特征图生成器获得多个对象的特征图。

其中，人坐在长椅上时，人的特征图是一个坐着的姿势，且人坐在长椅上姿势的分布也是集中的，通过训练布局生成器中参数，可以使布局生成器对人坐在长椅上的场景图进行处理，准确得到人的特征图。相应地，也可以准确得到长椅的特征图。

S306、对特征图和布局图使用图像生成器处理获得目标图像。

其中，使用训练后的图像生成器根据人的特征图、长椅的特征图、以及人和长椅的布局图获得目标图像。

在获得目标图像后，使用IS和FID这两个指标判断图像质量，IS是InceptionScore缩写，IS会使用到Google的Inception Net。FID表示Fréchet Inception Distance，并且使用到了64像素、128像素和256像素的目标图片进行目标图像的质量判定，采用本方案可以获得更加准确目标图像。

在本申请实施例提供的图像处理方法中，使用场景图判别器和图像判别器对各个生成器中参数进行训练，可以得到更优的生成器的参数，提高图像处理的准确性。

如图5所示，本申请另一实施例提供一种图像处理装置400，该图像处理装置400包括：

获取模块401，用于获取场景图，其中，场景图表示多个对象的语义关系；

处理模块402，用于对场景图使用布局生成器处理获得多个对象之间的相对关系；

处理模块402还用于对多个对象之间的相对关系使用布局生成器处理，确定多个对象的布局图；

处理模块402还用于根据场景图和多个对象的布局图获得目标图像。

可选地，处理模块402具体用于：

对场景图处理使用特征图生成器，获得多个对象的特征图；

对特征图和布局图使用图像生成器处理，获得目标图像。

可选地，处理模块402具体用于：

可选地，处理模块402还用于：

可选地，可选地，处理模块402具体用于：

如图6所示，本申请另一实施例提供的状态服务器500包括：发送器501、接收器502、存储器503、及处理器504。

发送器501，用于发送指令和数据；

接收器502，用于接收指令和数据；

存储器503，用于存储计算机执行指令；

处理器504，用于执行存储器存储的计算机执行指令，以实现上述实施例中图像处理方法所执行的各个步骤。具体可以参见前述图像处理方法实施例中的相关描述。

可选地，上述存储器503既可以是独立的，也可以跟处理器504集成在一起。当存储器503独立设置时，该处理设备还包括总线，用于连接存储器503和处理器504。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上处理设备所执行的图像处理方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取场景图，其中，所述场景图表示多个对象的语义关系；

对所述场景图使用布局生成器处理获得所述多个对象之间的相对关系；

对所述多个对象之间的相对关系使用所述布局生成器处理，确定所述多个对象的布局图；

根据所述场景图和所述多个对象的布局图获得目标图像。

2.根据权利要求1所述的图像处理方法，其特征在于，对所述场景图使用布局生成器处理获得所述多个对象之间的相对关系，具体包括：

对所述场景图使用所述布局生成器处理，获得所述多个对象之间的相对位置。

3.根据权利要求2所述的图像处理方法，其特征在于，所述多个对象之间的相对位置为所述多个对象在图像中的边界框之间的相对位置，或者所述多个对象在图像中的中心之间的相对位置。

4.根据权利要求1至3中任意一项所述的图像处理方法，其特征在于，对所述场景图使用布局生成器处理获得所述多个对象之间的相对关系，具体包括：

对所述场景图使用所述布局生成器处理获得所述多个对象之间的相对尺寸。

5.根据权利要求4所述的图像处理方法，其特征在于，所述多个对象之间的相对尺寸为所述多个对象在图像中的边界框之间的相对尺寸。

6.根据权利要求1所述的图像处理方法，其特征在于，根据所述场景图和所述多个对象的布局图获得目标图像，具体包括：

对所述场景图处理使用特征图生成器，获得所述多个对象的特征图；

对所述特征图和所述布局图使用图像生成器处理，获得所述目标图像。

7.根据权利要求6所述的图像处理方法，其特征在于，对所述场景图处理使用特征图生成器，获得所述多个对象的特征图，具体包括：

对所述场景图使用所述特征图生成器处理，获得所述多个对象之间的相对位置；

对所述多个对象之间的相对位置使用所述特征图生成器，获得所述多个对象的特征图。

8.根据权利要求6所述的图像处理方法，其特征在于，所述方法还包括：

对所述布局生成器、所述特征图生成器以及所述图像生成器使用图像判别器和场景图判别器同时进行参数训练。

9.根据权利要求8所述的图像处理方法，其特征在于，对所述布局生成器、所述特征图生成器以及所述图像生成器使用图像判别器和场景图判别器同时进行参数训练，具体包括：

使用所述图像判别器对训练图像和图像样本处理，获得图像判别结果；

使用所述场景图判别器对训练场景图和场景图样本处理，获得场景图判别结果；

使用所述图像判别结果和场景图判别结果修正所述布局生成器、所述特征图生成器以及所述图像生成器的参数；

其中，所述训练图像是对场景图样本使用所述布局生成器、所述特征图生成器以及所述图像生成器处理生成的，所述场景图样本是根据图像样本生成的，所述训练场景图是对所述训练图像进行特征提取生成的。

10.一种图像处理装置，其特征在于，包括：

获取模块，用于获取场景图，其中，所述场景图表示多个对象的语义关系；

处理模块，用于对所述场景图使用布局生成器处理获得所述多个对象之间的相对关系；

所述处理模块还用于对所述多个对象之间的相对关系使用所述布局生成器处理，确定所述多个对象的布局图；

所述处理模块还用于根据所述场景图和所述多个对象的布局图获得目标图像。

11.一种电子设备，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为实现如权利要求1至9中任一项所述的图像处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的图像处理方法。