CN115439845A

CN115439845A - 基于图神经网络的图像外推方法、装置、存储介质及终端

Info

Publication number: CN115439845A
Application number: CN202210922254.3A
Authority: CN
Inventors: 马占宇; 郑雯青; 杜若一; 梁孔明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-12-06
Anticipated expiration: 2042-08-02
Also published as: CN115439845B

Abstract

本申请涉及一种基于图神经网络的图像外推方法、装置、存储介质及终端。其中，所述方法包括：获取图像外推的原始图像；根据所述原始图像和目标检测器，确定所述图像外推的无向场景图；根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图；根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。本申请能够根据原始图像生成外推图像，且生成的外推图像更具真实性。

Description

基于图神经网络的图像外推方法、装置、存储介质及终端

技术领域

本发明涉及图像外推技术领域，更为具体来说，本发明涉及一种基于图神经网络的图像外推方法、装置、存储介质及终端。

背景技术

图像外推技术在视觉外拓、图片编辑和纹理合成等方面有广泛应用。图像外推是指输入一张无损真实场景图像，通过相关方法分析其边缘特征和场景语义信息继而延伸扩充原图的过程，并且外推后的图像在人眼看来具有逼真自然的特性。

传统图像外推方法是基于扩散机制来处理的，使用来自现有区域的像素来填充到外推区域。虽然该方法可以为背景修复连续的纹理，但它通常无法捕捉高级语义，容易产生具有重复图案的非真实图像，在全局结构方面仍然缺乏一致性。

发明内容

本申请实施例提供了一种基于图神经网络的图像外推方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于图神经网络的图像外推方法，该方法包括：

获取图像外推的原始图像；

根据所述原始图像和目标检测器，确定所述图像外推的无向场景图；

根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图；

根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。

可选的，所述根据所述原始图像和目标检测器，确定所述图像外推的无向场景图，包括：

将所述原始图像输入所述目标检测器，输出所述图像外推的原始物体以及原始物体信息；

根据所述原始物体和所述原始物体信息，构成所述图像外推的无向场景图。

可选的，所述原始物体信息包括：原始物体位置信息、原始物体特征信息和原始物体类别信息。

可选的，所述根据所述原始物体和所述原始物体信息，构成所述图像外推的无向场景图，包括：

将每一所述原始物体作为原始节点、所述原始物体信息作为原始节点特征；

将所有的所述原始节点进行连接，构成所述图像外推的无向场景图。

可选的，所述根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图，包括：

将所述无向场景图输入所述图神经网络，输出推断的所述图像外推的新增节点；

根据所述无向场景图和所述新增节点，生成所述图像外推的外推场景图。

可选的，所述根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像，包括：

将所述外推场景图输入所述生成对抗网络包括的生成器，输出所述图像外推的预测外推图像；

将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，输出所述图像外推的外推图像。

可选的，所述将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，输出所述图像外推的外推图像，包括：

将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，在所述预测外推图像和所述原始图像经过场景图层面和整体图像层面的判别之后，输出所述图像外推的外推图像。

第二方面，本申请实施例提供了一种基于图神经网络的图像外推装置，该装置包括：

原始图像获取模块，用于获取图像外推的原始图像；

场景图确定模块，用于根据所述原始图像和目标检测器，确定所述图像外推的无向场景图；

外推特征确定模块，用于根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图；

外推图像确定模块，用于根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。

第三方面，本申请实施例提供一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，所述基于图神经网络的图像外推方法、装置、存储介质及终端。首先获取图像外推的原始图像，然后根据所述原始图像和目标检测器，确定所述图像外推的无向场景图，其次根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图，最后根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。本申请能够根据原始图像生成外推图像，且生成的外推图像更具真实性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种基于图神经网络的图像外推方法的流程示意图；

图2是本申请实施例提供的一种基于图神经网络的图像外推方法的整体过程示意图；

图3是本申请实施例提供的一种基于图神经网络的图像外推装置的装置示意图；

图4是本申请实施例提供的一种终端示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参见图1和图2，为本申请实施例提供了一种基于图神经网络的图像外推方法的流程示意图。如图1和图2所示，本申请实施例的方法可以包括以下步骤：

随着深度学习的出现，基于深度学习的图像外推方法使用通过卷积过程的特征提取方法捕捉抽象信息，结合生成对抗网络，使得外推图像与原始图像具有感知相似性，以端到端方式重建这些可学习特征。人眼对真实场景图像有天生的结构化理解能力和想象力，本申请实施例的图像外推方法考虑到图像的结构信息，对图像的场景进行理解，解决了以下弊端：

(1)没有利用到图像的结构化信息，缺乏对图片的场景理解和结构化外推能力；

(2)仅限于对给定图像内部已经存在的物体进行外推，没有推测生成新物体的能力；

(3)缺乏有效的评估方式判别生成的外推图像的真实性。

S100,获取图像外推的原始图像。

S200,根据所述原始图像和目标检测器，确定所述图像外推的无向场景图。具体地，S200包括：

S210,将所述原始图像输入所述目标检测器，输出所述图像外推的原始物体以及原始物体信息；其中，所述原始物体信息包括：原始物体位置信息、原始物体特征信息和原始物体类别信息。

在本申请实施例中，将原始图像输入目标检测器的预训练模型，能够检测出原始图像内存在的原始物体，并用矩形框标出原始物体的位置；能够推测得到检测出的原始物体数量。

每个检测出的原始物体包含三种信息：一是原始物体位置信息，包含标出原始物体矩形框的左上角和右下角的坐标组合，所述坐标组合是4维的；二是原始物体特征信息，是指在目标检测器包括的目标检测神经网络的最后一层输出的特征向量，本申请使用了1024维作为每个原始物体的特征向量，原始物体的特征向量与原始物体位置信息拼接起来，总共是1028维；三是原始物体类别信息，是指通过目标检测器判别出的每个原始物体的类别标签。

在本申请实施例中，对于训练目标检测神经网络使用到的训练数据，需要将所述原始图像的外围一圈覆盖起来，使得外围一圈变成空白色，此时，外围一圈称为已覆盖图片。取中间部分的原始图像作为需要外推的图像，中间部分的原始图像称为未覆盖图片。目标检测器分别对未覆盖图片和已覆盖图片进行目标检测。

对于测试数据，目标检测器只需对已覆盖图片进行目标检测。

S220,根据所述原始物体和所述原始物体信息，构成所述图像外推的无向场景图。S220包括：

将每一所述原始物体作为原始节点、所述原始物体信息作为原始节点特征；所述原始节点特征可以为上述原始物体的特征向量。

将所有的所述原始节点进行连接，构成所述图像外推的无向场景图。在本申请实施例中，每个原始节点之间两两相连生成的无向场景图，用于代表原始图像的结构化信息。

S300,根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图。具体地，S300包括：

在本申请实施例中，在图神经网络的训练阶段，将无向场景图的中间节点特征(对应上文中的未覆盖图片部分的原始物体特征信息和原始物体类别信息)保留，外围节点特征(对应上文中的已覆盖图片部分的原始物体特征信息和原始物体类别信息)用高斯噪声替代，将它们作为图神经网络训练的真实标签，经过有监督的学习训练之后的图神经网络具备推断生成外围节点(即本申请的新增节点)的能力。

在本申请实施例中，在通过图神经网络进行外推的阶段，将所述无向场景图输入所述图神经网络，图神经网络可以根据无向场景图中的原始节点推断生成新的节点作为新增节点，并输出推断的所述图像外推的新增节点；从而根据所述无向场景图和新增节点，生成所述图像外推的外推场景图。

S400,根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。

在本申请实施例中，可将外推场景图和原始图像都输入生成对抗网络。所述生成对抗网络包含生成器和判别器，其中，所述生成器可以依据一个输入特征向量(或者依据一个输入噪声向量)生成一张图像，所述判别器则用于判断生成器生成的图像是否真实。

具体地，S400包括：

S410,将所述外推场景图输入所述生成对抗网络包括的生成器，输出所述图像外推的预测外推图像。

在本申请实施例中，可将所述外推场景图输入所述生成对抗网络的生成器，所述生成器生成符合所述外推场景图的初步外推图像；更具体地，生成器能够根据外推场景图给定的外推尺寸，生成符合外推尺寸的初步外推图像。

根据所述外推场景图的新增节点特征，生成所述图像外推的新物体图像；将所述新物体图像填补在所述初步外推图形的外围区域，形成所述图像外推的预测外推图像。

S420,将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，输出所述图像外推的外推图像。在生成对抗网络中设计有不同的判别器。S420包括：

将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，在所述预测外推图像和所述原始图像经过场景图层面和整体图像层面的判别之后，若判别出的所述预测外推图像为真，则判定所述预测外推图像为所述外推图像，所述判别器输出所述外推图像。

在本申请实施例中，通过判别器同时在场景图层面和整体图像层面做判别，能够判别所述预测外推图像的真实性，使得最终确定的所述外推图像在结构性层面和语义层面都符合自然逼真的效果，提高了外推图像的自然性。

在本申请实施例中，基于图神经网络的图像外推方法将原始图像转变为外推图像的整体过程可以为如图2所示的内容。

在本申请实施例中，所述基于图神经网络的图像外推方法。首先获取图像外推的原始图像，然后根据所述原始图像和目标检测器，确定所述图像外推的无向场景图，其次根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图，最后根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。本申请能够根据原始图像生成外推图像，且生成的外推图像更具真实性。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图3，其示出了本发明一个示例性实施例提供的一种基于图神经网络的图像外推装置的结构示意图。该装置1包括：原始图像获取模块10、场景图确定模块20、外推特征确定模块30和外推图像确定模块40。

原始图像获取模块10，用于获取图像外推的原始图像；

场景图确定模块20，用于根据所述原始图像和目标检测器，确定所述图像外推的无向场景图；

外推特征确定模块30，用于根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图；

外推图像确定模块40，用于根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。

需要说明的是，上述实施例提供的基于图神经网络的图像外推装置在执行基于图神经网络的图像外推方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于图神经网络的图像外推装置与基于图神经网络的图像外推方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请实施例中，所述基于图神经网络的图像外推装置。首先获取图像外推的原始图像，然后根据所述原始图像和目标检测器，确定所述图像外推的无向场景图，其次根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图，最后根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像。本申请能够根据原始图像生成外推图像，且生成的外推图像更具真实性。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于图神经网络的图像外推方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的基于图神经网络的图像外推方法。

请参见图4，为本申请实施例提供了一种终端的结构示意图。如图4所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于图神经网络的图像外推应用程序。

在图4所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于图神经网络的图像外推应用程序，并具体执行以下操作：

获取图像外推的原始图像；

在一个实施例中，处理器1001在执行所述根据所述原始图像和目标检测器，确定所述图像外推的无向场景图时，具体执行以下操作：

将所述原始图像输入所述目标检测器，输出所述图像外推的原始物体以及原始物体信息；所述原始物体信息包括：原始物体位置信息、原始物体特征信息和原始物体类别信息；

在一个实施例中，处理器1001在执行所述根据所述原始物体和所述原始物体信息，构成所述图像外推的无向场景图时，具体执行以下操作：

在一个实施例中，处理器1001在执行所述根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图时，具体执行以下操作：

根据所述无向场景图和新增节点，生成所述图像外推的外推场景图。

在一个实施例中，处理器1001在执行所述根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像时，具体执行以下操作：

在一个实施例中，处理器1001在执行所述将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，输出所述图像外推的外推图像时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种基于图神经网络的图像外推方法，其特征在于，包括以下步骤：

获取图像外推的原始图像；

2.根据权利要求1所述的图像外推方法，其特征在于，所述根据所述原始图像和目标检测器，确定所述图像外推的无向场景图，包括：

3.根据权利要求2所述的图像外推方法，其特征在于，所述原始物体信息包括：原始物体位置信息、原始物体特征信息和原始物体类别信息。

4.根据权利要求2所述的图像外推方法，其特征在于，所述根据所述原始物体和所述原始物体信息，构成所述图像外推的无向场景图，包括：

5.根据权利要求1所述的图像外推方法，其特征在于，所述根据所述无向场景图和图神经网络，推测所述图像外推的外推场景图，包括：

6.根据权利要求1所述的图像外推方法，其特征在于，所述根据所述外推场景图、所述原始图像和生成对抗网络，生成所述图像外推的外推图像，包括：

7.根据权利要求6所述的图像外推方法，其特征在于，所述将所述预测外推图像和所述原始图像输入所述生成对抗网络包括的判别器，输出所述图像外推的外推图像，包括：

8.一种基于图神经网络的图像外推装置，其特征在于，包括：

原始图像获取模块，用于获取图像外推的原始图像；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1-7任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项的方法步骤。