CN111428726A

CN111428726A - 基于图神经网络的全景分割方法、系统、设备及存储介质

Info

Publication number: CN111428726A
Application number: CN202010521249.2A
Authority: CN
Inventors: 邓夏君; 王若梅; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-07-17
Anticipated expiration: 2040-06-10
Also published as: CN111428726B

Abstract

本发明公开了一种基于图神经网络的全景分割方法，包括：从图片中提取多个目标特征；通过实例分割头部网络以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络以得到图片的初步语义分割结果；通过前景类别概率对新前景图进行处理以生成实例分类结果，并根据掩膜结果从实例分类结果中提取目标实例分割掩膜；通过背景类别概率及初步语义分割结果对新背景图进行处理以生成目标语义分割结果；采用启发式算法对目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。本发明还公开了一种基于图神经网络的全景分割系统、计算机设备及计算机可读存储介质。采用本发明，可利用物体之间的相互关系优化图片的全景分割效果。

Description

基于图神经网络的全景分割方法、系统、设备及存储介质

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种基于图神经网络的全景分割方法、基于图神经网络的全景分割系统、计算机设备及计算机可读存储介质。

背景技术

图像分割（image segmentation）技术是计算机视觉领域的研究热点，它在人们生活中的方方面面都有着非常广泛的应用，如自动驾驶领域的地图构建、医学影像领域的自动化诊断、日常生活中的虚拟试穿等。

图像分割技术分为语义分割（Semantic Segmentation）、实例分割（InstanceSegmentation）及全景分割（Panoptic Segmentation）。其中：

语义分割要求对图像中的每一个像素都赋予一个类别标签，但是不对相同物体的不同实例进行区分。比如，如果一个像素被标记为红色，那就代表这个像素所在的位置是一个人，但是如果有两个都是红色的像素，则无法判断它们是属于同一个人还是不同的人，也就是说语义分割只能判断类别，无法区分个体。

实例分割则要求识别出图像中的每个物体以及区分物体实例，而忽略背景像素的分割。也就是说，实例分割不需要对每个像素进行标记，它只需要找到感兴趣物体的边缘轮廓就行。

全景分割是语义分割和实例分割的结合，要求对图像中的每个像素都赋予类别，并且对属于可数物体的像素，还要区分物体实例。但是，现有的全景分割技术没有考虑图片中前景和前景、背景和背景、前景和背景之间的关系，仅仅是两个独立的任务，没有像人类一样从物体关系的层面来进行推断。比如，一般来说，在湖上的物体更可能是一艘船而不是一辆车；如果背景是天空，那么前景物体更可能是小鸟而不是鱼；人牵着的更可能是一只狗而不是一匹狼。因此，现有的全景分割技术预测效果并不好，经常有误判的情况发生。

发明内容

本发明所要解决的技术问题在于，提供一种基于图神经网络的全景分割方法、系统、计算机设备及计算机可读存储介质，可将全景分割网络应用于图片处理中，使预测更准确，网络解释性更强。

为了解决上述技术问题，本发明提供了一种基于图神经网络的全景分割方法，包括：通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征；通过实例分割头部网络并根据所述目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果；通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据所述掩膜结果从所述实例分类结果中提取目标实例分割掩膜；通过背景图神经网络对原始背景图进行处理以生成新背景图，通过所述背景类别概率及初步语义分割结果对所述新背景图进行处理以生成目标语义分割结果；采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。

作为上述方案的改进，所述通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征的步骤包括：通过ResNet-50网络对图片进行特征提取，以提取初步特征；通过FPN网络对所述初步特征进行特征提取，以提取多个目标特征。

作为上述方案的改进，所述通过实例分割头部网络并根据目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果的步骤包括：通过RPN网络对每一目标特征分别进行处理，以生成多个候选区域；对每一候选区域分别进行池化处理，以生成候选区域特征；通过全连接层对每一候选区域特征分别进行处理，以生成初步特征图；通过全连接层对每一初步特征图进行处理，以生成前景类别概率；通过全连接层对每一初步特征图进行处理，以生成背景类别概率；对每一候选区域特征分别进行卷积处理，以生成每一类别的掩模结果。

作为上述方案的改进，所述通过语义分割头部网络并根据目标特征以得到图片的初步语义分割结果的步骤包括：对每一目标特征分别进行上采样处理；将所有上采样结果相加，以生成特征；将所述特征进行上采样处理，以生成语义分割特征；将所述特征进行卷积处理；将卷积结果进行上采样处理，以生成初步语义分割结果。

作为上述方案的改进，所述通过前景图神经网络对原始前景图进行处理以生成新前景图，通过前景类别概率对新前景图进行处理以生成实例分类结果，并根据掩膜结果从实例分类结果中提取目标实例分割掩膜的步骤包括：通过前景图神经网络对原始前景图进行节点特征的传播及节点表示的更新，以生成新前景图；对所述前景类别概率中的每一行向量分别进行归一化处理，将每一归一化结果分别作为实例注意力系数，将每一实例注意力系数与新前景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成实例一维向量；将所述实例一维向量与初步特征图中对应的行向量进行拼接，以生成新实例特征图；通过全连接层对所述新实例特征图进行处理，以生成实例分类结果；提取实例分类结果中每一行的概率最大值，根据所述概率最大值提取候选区域对应的类别，并根据所述类别提取对应的掩模结果以得到目标实例分割掩膜。

作为上述方案的改进，所述通过背景图神经网络对原始背景图进行处理以生成新背景图，通过背景类别概率及初步语义分割结果对新背景图进行处理以生成目标语义分割结果的步骤包括：通过背景图神经网络对原始背景图进行节点特征的传播及节点表示的更新，以生成新背景图；对所述背景类别概率中的每一行向量分别进行归一化处理，将所有归一化结果相加以作为第一注意力系数；对所述初步语义分割结果中每一像素所对应的向量分别进行归一化处理，将每一归一化结果分别作为第二注意力系数；将每一第二注意力系数与第一注意力系数分别相加并求均值以作为语义注意力系数，将每一语义注意力系数与新背景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成语义一维向量；将每一语义一维向量与所述语义分割特征中对应像素的向量分别进行拼接，以生成新语义特征图；将所述新语义特征图输入卷积层，以生成目标语义分割结果。

作为上述方案的改进，，所述采用启发式算法对目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果的步骤包括：判断图片中的像素在所述目标实例分割掩膜中是否存在对应的标签；判断为是时，则将所述目标实例分割掩膜中对应的标签赋值给所述像素；判断为否是，则将所述目标语义分割结果中对应的标签赋值给所述像素。

相应地，本发明还提供了一种基于图神经网络的全景分割系统，包括：特征提取单元，用于通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征；初步分割单元，用于通过实例分割头部网络并根据所述目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果；实例分割单元，用于通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据所述掩膜结果从所述实例分类结果中提取目标实例分割掩膜；语义分割单元，用于通过背景图神经网络对原始背景图进行处理以生成新背景图，通过所述背景类别概率及初步语义分割结果对所述新背景图进行处理以生成目标语义分割结果；全景分割单元，用于采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述全景分割方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述全景分割方法的步骤。

实施本发明，具有如下有益效果：

本发明基于图神经网络的全景分割方法能够考虑前景之间、背景之间以及前景和背景之间的关系，利用了注意力机制来分配权重，从而能够更好地纠正错误的预测结果，让全景分割网络对图片数据预测得更加准确，且网络的解释性更强。

同时，本发明的图节点使用语义的词嵌入表示，和视觉特征一起进行特征提取，相当于将语义信息和视觉信息相结合，给网络提供了更丰富的信息，也更符合人类的推理过程。

附图说明

图1是本发明基于图神经网络的全景分割方法的实施例流程；

图2是本发明中前景类别概率、背景类别概率及掩膜结果的生成流程图；

图3是本发明中初步语义分割结果的生成流程图；

图4是本发明中目标实例分割掩膜的生成流程图；

图5是本发明中目标语义分割结果的生成流程图；

图6是本发明中基于图神经网络的全景分割方法的示意图；

图7是本发明基于图神经网络的全景分割系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

参见图1，图1显示了本发明基于图神经网络的全景分割方法的实施例流程图，包括：

S101，通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征。

具体地，所述通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征的步骤包括：

（1）通过ResNet-50网络对图片进行特征提取，以提取初步特征。

ResNet又名残差神经网络，指的是在传统卷积神经网络中加入残差学习（residual learning）的思想，解决了深层网络中梯度弥散和精度下降（训练集）的问题，使网络能够越来越深，既保证了精度，又控制了速度。本发明中采用50层的ResNet网络。

（2）通过FPN网络对所述初步特征进行特征提取，以提取多个目标特征。

需要说明的是，所述FPN网络为四层的FPN网络。其中，FPN（Feature PyramidNetwork）网络即特征金字塔网络，特征金字塔网络通过自底向上的特征提取、自顶向下的特征上采样以及横向连接来把底层特征和顶层特征结合起来，在每一层能够获得不同尺寸大小的特征信息。

因此，本发明将图片输入ResNet-50网络进行处理后，输出初步特征；再将初步特征输入一个四层的FPN网络进行处理后，输出目标特征P1、P2、P3及P4。

S102，通过实例分割头部网络并根据目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据目标特征以得到图片的初步语义分割结果。

经步骤S101提取出来的目标特征分别通过两个分割头部网络，一个是实例分割头部网络，另一个是语义分割头部网络。具体地：

从FPN网络出来的目标特征需要经过实例分割头部网络的三个分支：

（1）实例分类分支。目标特征经过实例分类分支得到前景类别概率C_ins；

（2）掩模分支。目标特征经过掩膜分支得到对应每个类别的掩膜结果M_ins；

（3）背景类别分支。目标特征经过背景类别分支则输出在该前景类别情况下的背景类别概率P_b。

从FPN网络出来的目标特征需要经过语义分割头部网络，得到图片的初步语义分割结果M_sem。

S103，通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据掩膜结果从实例分类结果中提取目标实例分割掩膜。

S104，通过背景图神经网络对原始背景图进行处理以生成新背景图，通过背景类别概率及初步语义分割结果对新背景图进行处理以生成目标语义分割结果。

需要说明的是，本发明中设有两个图神经网络，一个是前景图网络G_f，一个是背景图网络G_b。其中，原始前景图N_ins经过前景图神经网络G_f得到传播更新后的新前景图N_{ins_g}，原始背景图N_sem经过图神经网络G_b得到传播更新后的新背景图N_{sem_g}。

一般情况下，前景指图片中可数的物体，如人、车、飞机、猫、狗等；背景指图片中不可数的物体，如天空、草地、湖等。本发明中，原始前景图即原始前景图谱，原始背景图即原始背景图谱。原始前景图及原始背景图均由多个节点构成，节点采用类别语义的词嵌入表示。其中，词嵌入是一个一维向量，本发明采用GLoVe（Global Vectors for WordRepresentation，全局词向量）方法来获得类别语义的词嵌入表示，因此每个节点是一个300维的向量，而节点与节点之间的邻接矩阵是使用余弦距离计算而得的。

因此，本发明中的图节点使用语义的词嵌入表示，和视觉特征一起进行特征提取，相当于将语义信息和视觉信息相结合，给网络提供了更丰富的信息，也更符合人类的推理过程。

S105，采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。

具体地，所述采用启发式算法对目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果的步骤包括：

（1）判断图片中的像素在目标实例分割掩膜中是否存在对应的标签；

（2）判断为是时，则将目标实例分割掩膜中对应的标签赋值给所述像素；

（3）判断为否是，则将目标语义分割结果中对应的标签赋值给所述像素。

本发明采用使用启发式算法对目标实例分割掩膜M_{ins_g}及目标语义分割结果M_{sem_g}进行融合。需要说明的是，对于图片中的每一个像素，优先采用目标实例分割掩膜M_{ins_g}中的标签，如果一个像素在目标实例分割掩膜M_{ins_g}中没有标签，则给该像素赋值目标语义分割结果M_{sem_g}中的标签。

因此，本发明在网络中加入了图谱，通过图谱能够更好地编码前景与前景、背景与背景以及前景与背景之间的关系，能够有效纠正预测结果的偏差，使得预测结果更加准确。

如图2所示，所述通过实例分割头部网络并根据目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果的步骤包括：

S201，通过RPN网络对每一目标特征分别进行处理，以生成多个候选区域。

目标特征P1、P2、P3及P4分别通过RPN网络（Region Proposal Network，区域候选网络），得到可以检测不同尺寸实例的候选区域。

需要说明的是，区域候选网络用于在特征图上选取若干候选区域，让后续网络对候选区域内的内容进行检测操作。

S202，对每一候选区域分别进行池化处理，以生成候选区域特征。

使用RoIPooling（Region of Interest Pooling，感兴趣区域池化）对候选区域进行操作，可以得到候选区域特征，此时，多个不同大小的候选区域特征已经被池化到统一大小。

需要说明的是，由于经过RPN网络得到的候选区域大小可能不相同，为了方便后面的操作，需要将不同大小的候选区域变成统一大小的特征。感兴趣区域池化就是通过对不同大小的特征进行池化操作，从而达到统一特征大小的目的。

S203，通过全连接层对每一候选区域特征分别进行处理，以生成初步特征图。

用于预测候选区域类别以及bbox（bounding box，包围框）参数的特征被统一成7×7的大小，然后通过两个全连接层，得到初步特征图

。需要说明的是，包围框指的是选出来包围某个物体实例的框的坐标，是一个四元组，表示为（x,y,w,h），其中，x为包围框左上角点的横坐标，y为包围框左上角点的纵坐标，w为包围框的宽，h为包围框的高。

相应地，可通过一个全连接层对每一初步特征图进行处理，以生成回归的bbox参数

。

S204，通过全连接层对每一初步特征图进行处理，以生成前景类别概率。

用一个分类的全连接层得到前景类别概率

，其中，N为候选区域的数量，C_f为前景类别的数量，1表示类别为背景；

S205，通过全连接层对每一初步特征图进行处理，以生成背景类别概率。

初步特征图经过一个用于预测背景类别概率的全连接层，得到背景类别概率P_b。

S206，对每一候选区域特征分别进行卷积处理，以生成每一类别的掩模结果。

对每个类别预测一个掩模的特征向量被统一成14×14的大小，本发明采用全卷积网络，最终得到对应于每一个类别的掩模结果

。

因此，通过步骤S201~S206即可利用实例分割头部网络的三个分支，高效、精确地得到前景类别概率C_ins、掩膜结果M_ins及背景类别概率P_b。

如图3所示，所述通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果的步骤包括：

S301，对每一目标特征分别进行上采样处理；

S302，将所有上采样结果相加，以生成特征；

S303，将所述特征进行上采样处理，以生成语义分割特征；

S304，将所述特征进行卷积处理；

S305，将卷积结果进行上采样处理，以生成初步语义分割结果。

为了进行全图的语义分割，将目标特征P1、P2、P3、P4分别进行上采样到相同的大小，并且进行相加，得到相加后的特征

；将特征P进行上采样，得到语义分割特征

；同时，将特征P输入一个卷积核为1×1的卷积层进行处理，使得输出的特征维度为背景类别数量+1（表示所有属于前景）；最后，进行上采样，得到初步语义分割结果

。

因此，通过步骤S301~ S305即可利用语义分割头部网络，快速地得到图片的初步语义分割结果M_sem。

如图4所示，所述通过前景图神经网络对原始前景图进行处理以生成新前景图，通过前景类别概率对新前景图进行处理以生成实例分类结果，并根据掩膜结果从实例分类结果中提取目标实例分割掩膜的步骤包括：

S401，通过前景图神经网络对原始前景图进行节点特征的传播及节点表示的更新，以生成新前景图。

原始前景图

经过一个两层的前景图神经网络G_f进行节点特征的传播和节点表示的更新，得到新前景图

。

S402，对前景类别概率中的每一行向量分别进行归一化处理，将每一归一化结果分别作为实例注意力系数，将每一实例注意力系数与新前景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成实例一维向量。

需要说明的是，每个候选区域的前景类别概率C_ins中，每一行代表一个候选区域对应的前景类别概率，每一行的向量C_{ins_i}为一个1×（C_f+1）的向量，因此，对行向量进行一个softmax（softmax是一个常用的映射函数，能够把输入映射为0-1之间的实数，并且归一化保证和为1）的操作，使得前景类别概率C_ins都归一到0到1之间；然后，以此作为实例注意力系数，和新前景图N_{ins_g}进行相乘；相乘后，对每一行对应的值进行相加并求均值，得到一个图的一维向量

。由于有N个候选区域的行向量，因此会得到N个一维向量N_{ins_rep}。

S403，将实例一维向量与初步特征图中对应的行向量进行拼接，以生成新实例特征图

。

将对应的一维向量N_{ins_rep}与初步特征图X对应的行向量进行拼接，得到新特征图

。

S404，通过全连接层对所述新实例特征图进行处理，以生成实例分类结果

。

令新特征图Xg再经过一个全连接层，输出维度为

，得到最终的实例分类结果

。

S405，提取实例分类结果中每一行的概率最大值，根据所述概率最大值提取候选区域对应的类别，并根据所述类别提取对应的掩模结果以得到目标实例分割掩膜。

对实例分类结果C_{ins_g}每一行的概率取最大值，选出该候选区域对应的类别，并使用该类别选取对应的掩模，得到目标实例分割掩膜M_{ins_g}。

因此，本发明使用实例分割头部网络的前景类别概率C_ins作为实例注意力系数，并将实例注意力系数与新前景图N_{ins_g}进行结合，再将结合结果

和用于分类的初步特征图X进行拼接，通过一个全连接层，重新得到纠正后的实例分类结果C_{ins_g}，以此选出最终的目标实例分割掩膜M_{ins_g}。

如图5所示，所述通过背景图神经网络对原始背景图进行处理以生成新背景图，通过背景类别概率及初步语义分割结果对新背景图进行处理以生成目标语义分割结果的步骤包括：

S501，通过背景图神经网络对原始背景图进行节点特征的传播及节点表示的更新，以生成新背景图。

原始背景图

，经过一个两层的背景图神经网络Gb进行节点特征的传播和节点表示的更新，得到新背景图

。

S502，对背景类别概率中的每一行向量分别进行归一化处理，将所有归一化结果相加以作为第一注意力系数。

提取背景类别概率

，并对背景类别概率

按行进行softmax操作，然后将所有行的值进行相加，作为从实例分割分支得到第一注意力系数

。

S503，对初步语义分割结果中每一像素所对应的向量分别进行归一化处理，将每一归一化结果分别作为第二注意力系数。

提取初步语义分割结果M_sem，由于初步语义分割结果M_sem中每个像素值都由一个

的向量表示，该向量经过softmax进行归一化后，作为第二注意力系数

。

S504，将每一第二注意力系数与第一注意力系数分别相加并求均值以作为语义注意力系数，将每一语义注意力系数与新背景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成语义一维向量。

需要说明的是，由于初步语义分割结果有H×W个像素，因此有H×W个第二注意力系数

；将每个第二注意力系数

和第一注意力系数

相加并求均值，作为语义注意力系数，和新背景图N_{sem_g}相乘；相乘后，对加权后的图表示每一行对应的值进行相加并求均值，得到一个图的一维向量

；本发明中一共会得到H×W个一维向量N_{sem_rep}。

S505，将每一语义一维向量与语义分割特征中对应像素的向量分别进行拼接，以生成新语义特征图。

将对应的语义一维向量N_{sem_rep}与步骤S302得到的特征Y中对应像素的向量进行拼接，得到新的特征图

。

S506，将新语义特征图输入卷积层，以生成目标语义分割结果。

将新语义特征图Y_g输入一个卷积核为1×1的卷积层后，得到最终的目标语义分割结果M_{sem_g}。

因此，本发明将实例分割头部网络的背景类别概率P_b和语义分割头部网络的初步语义分割结果M_sem进行加权求均值，作为语义注意力系数，并将语义注意力系数与新背景图N_{sem_g}进行结合，再将结合结果

拼接到语义分割特征Y上，再经过一个卷积层，得到经过纠正的目标语义分割结果M_{sem_g}。

结合图6可知，本发明基于图神经网络的全景分割方法能够考虑前景之间、背景之间以及前景和背景之间的关系，利用了注意力机制来分配权重，从而能够更好地纠正错误的预测结果，让全景分割网络预测得更加准确，且网络的解释性更强。

参见图7，图7显示了本发明基于图神经网络的全景分割系统100的具体结构，其包括：

特征提取单元1，用于通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征。具体地，先通过ResNet-50网络对图片进行特征提取以提取初步特征，再通过FPN网络对所述初步特征进行特征提取以提取多个目标特征。

初步分割单元2，用于通过实例分割头部网络并根据所述目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果。具体地，通过RPN网络对每一目标特征分别进行处理，以生成多个候选区域；对每一候选区域分别进行池化处理，以生成候选区域特征；通过全连接层对每一候选区域特征分别进行处理，以生成初步特征图；通过全连接层对每一初步特征图进行处理，以生成前景类别概率；通过全连接层对每一初步特征图进行处理，以生成背景类别概率；对每一候选区域特征分别进行卷积处理，以生成每一类别的掩模结果。另外，还对每一目标特征分别进行上采样处理；将所有上采样结果相加，以生成特征；将所述特征进行上采样处理，以生成语义分割特征；将所述特征进行卷积处理；将卷积结果进行上采样处理，以生成初步语义分割结果。

实例分割单元3，用于通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据所述掩膜结果从所述实例分类结果中提取目标实例分割掩膜。具体地，通过前景图神经网络对原始前景图进行节点特征的传播及节点表示的更新，以生成新前景图；对所述前景类别概率中的每一行向量分别进行归一化处理，将每一归一化结果分别作为实例注意力系数，将每一实例注意力系数与新前景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成实例一维向量；将所述实例一维向量与初步特征图中对应的行向量进行拼接，以生成新实例特征图；通过全连接层对所述新实例特征图进行处理，以生成实例分类结果；提取实例分类结果中每一行的概率最大值，根据所述概率最大值提取候选区域对应的类别，并根据所述类别提取对应的掩模结果以得到目标实例分割掩膜。

语义分割单元4，用于通过背景图神经网络对原始背景图进行处理以生成新背景图，通过所述背景类别概率及初步语义分割结果对所述新背景图进行处理以生成目标语义分割结果。具体地，通过背景图神经网络对原始背景图进行节点特征的传播及节点表示的更新，以生成新背景图；对所述背景类别概率中的每一行向量分别进行归一化处理，将所有归一化结果相加以作为第一注意力系数；对所述初步语义分割结果中每一像素所对应的向量分别进行归一化处理，将每一归一化结果分别作为第二注意力系数；将每一第二注意力系数与第一注意力系数分别相加并求均值以作为语义注意力系数，将每一语义注意力系数与新背景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成语义一维向量；将每一语义一维向量与所述语义分割特征中对应像素的向量分别进行拼接，以生成新语义特征图；将所述新语义特征图输入卷积层，以生成目标语义分割结果。

全景分割单元5，用于采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。需要说明的是，对于图片中的每一个像素，优先采用目标实例分割掩膜M_{ins_g}中的标签，如果一个像素在目标实例分割掩膜M_{ins_g}中没有标签，则给该像素赋值目标语义分割结果M_{sem_g}中的标签。

因此，本发明能够考虑前景之间、背景之间以及前景和背景之间的关系，利用了注意力机制来分配权重，从而能够更好地纠正错误的预测结果，让全景分割网络对图片数据预测得更加准确，且网络的解释性更强。同时，本发明的图节点使用语义的词嵌入表示，和视觉特征一起进行特征提取，相当于将语义信息和视觉信息相结合，给网络提供了更丰富的信息，也更符合人类的推理过程。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述全景分割方法的步骤。同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述全景分割方法的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于图神经网络的全景分割方法，其特征在于，包括：

通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征；

通过实例分割头部网络并根据所述目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果；

通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据所述掩膜结果从所述实例分类结果中提取目标实例分割掩膜；

通过背景图神经网络对原始背景图进行处理以生成新背景图，通过所述背景类别概率及初步语义分割结果对所述新背景图进行处理以生成目标语义分割结果；

采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。

2.如权利要求1所述的基于图神经网络的全景分割方法，其特征在于，所述通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征的步骤包括：

通过ResNet-50网络对图片进行特征提取，以提取初步特征；

通过FPN网络对所述初步特征进行特征提取，以提取多个目标特征。

3.如权利要求1所述的基于图神经网络的全景分割方法，其特征在于，所述通过实例分割头部网络并根据目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果的步骤包括：

通过RPN网络对每一目标特征分别进行处理，以生成多个候选区域；

对每一候选区域分别进行池化处理，以生成候选区域特征；

通过全连接层对每一候选区域特征分别进行处理，以生成初步特征图；

通过全连接层对每一初步特征图进行处理，以生成前景类别概率；

通过全连接层对每一初步特征图进行处理，以生成背景类别概率；

对每一候选区域特征分别进行卷积处理，以生成每一类别的掩模结果。

4.如权利要求3所述的基于图神经网络的全景分割方法，其特征在于，所述通过语义分割头部网络并根据目标特征以得到图片的初步语义分割结果的步骤包括：

对每一目标特征分别进行上采样处理；

将所有上采样结果相加，以生成特征；

将所述特征进行上采样处理，以生成语义分割特征；

将所述特征进行卷积处理；

将卷积结果进行上采样处理，以生成初步语义分割结果。

5.如权利要求3所述的基于图神经网络的全景分割方法，其特征在于，所述通过前景图神经网络对原始前景图进行处理以生成新前景图，通过前景类别概率对新前景图进行处理以生成实例分类结果，并根据掩膜结果从实例分类结果中提取目标实例分割掩膜的步骤包括：

通过前景图神经网络对原始前景图进行节点特征的传播及节点表示的更新，以生成新前景图；

对所述前景类别概率中的每一行向量分别进行归一化处理，将每一归一化结果分别作为实例注意力系数，将每一实例注意力系数与新前景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成实例一维向量；

将所述实例一维向量与初步特征图中对应的行向量进行拼接，以生成新实例特征图；

通过全连接层对所述新实例特征图进行处理，以生成实例分类结果；

提取实例分类结果中每一行的概率最大值，根据所述概率最大值提取候选区域对应的类别，并根据所述类别提取对应的掩模结果以得到目标实例分割掩膜。

6.如权利要求4所述的基于图神经网络的全景分割方法，其特征在于，所述通过背景图神经网络对原始背景图进行处理以生成新背景图，通过背景类别概率及初步语义分割结果对新背景图进行处理以生成目标语义分割结果的步骤包括：

通过背景图神经网络对原始背景图进行节点特征的传播及节点表示的更新，以生成新背景图；

对所述背景类别概率中的每一行向量分别进行归一化处理，将所有归一化结果相加以作为第一注意力系数；

对所述初步语义分割结果中每一像素所对应的向量分别进行归一化处理，将每一归一化结果分别作为第二注意力系数；

将每一第二注意力系数与第一注意力系数分别相加并求均值以作为语义注意力系数，将每一语义注意力系数与新背景图分别相乘以生成加权结果，将每一行的加权结果相加并求均值以生成语义一维向量；

将每一语义一维向量与所述语义分割特征中对应像素的向量分别进行拼接，以生成新语义特征图；

将所述新语义特征图输入卷积层，以生成目标语义分割结果。

7.如权利要求1所述的基于图神经网络的全景分割方法，其特征在于，所述采用启发式算法对目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果的步骤包括：

判断图片中的像素在所述目标实例分割掩膜中是否存在对应的标签；

判断为是时，则将所述目标实例分割掩膜中对应的标签赋值给所述像素；

判断为否是，则将所述目标语义分割结果中对应的标签赋值给所述像素。

8.一种基于图神经网络的全景分割系统，其特征在于，包括：

特征提取单元，用于通过ResNet-50网络及FPN网络对图片进行特征提取，以提取多个目标特征；

初步分割单元，用于通过实例分割头部网络并根据所述目标特征以得到图片的前景类别概率、背景类别概率及掩膜结果，通过语义分割头部网络并根据所述目标特征以得到图片的初步语义分割结果；

实例分割单元，用于通过前景图神经网络对原始前景图进行处理以生成新前景图，通过所述前景类别概率对所述新前景图进行处理以生成实例分类结果，并根据所述掩膜结果从所述实例分类结果中提取目标实例分割掩膜；

语义分割单元，用于通过背景图神经网络对原始背景图进行处理以生成新背景图，通过所述背景类别概率及初步语义分割结果对所述新背景图进行处理以生成目标语义分割结果；

全景分割单元，用于采用启发式算法对所述目标实例分割掩膜及目标语义分割结果进行融合，生成全景分割结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。