CN116758104A

CN116758104A - 一种基于改进GCNet的多实例人像抠图方法

Info

Publication number: CN116758104A
Application number: CN202311050411.7A
Authority: CN
Inventors: 刘庆一; 成锦; 白培瑞
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-09-15
Anticipated expiration: 2043-08-21
Also published as: CN116758104B

Abstract

本发明属于图像处理技术领域，公开了一种基于改进GCNet的多实例人像抠图方法。该方法基于GCNet检测跟踪模型以及SegNet抠图模型实现。本发明针对GCNet检测模块和跟踪模块引入全局相关网络层来回归边界框的绝对坐标和大小，实现检测跟踪为每个实例生成矩形边界框，将实例ID信息传递给SegNet抠图模型进行抠图，最终可实现每个实例的抠图图像。同时，全局相关网络层有效减小了模型的大小，将全局信息编码到每个位置的特征中。当目标遮挡时，本发明不会将两个实例识别成一个实例，因而不会丢失目标信息。本发明在精度和稳定性能方面均有较大提升。

Description

一种基于改进GCNet的多实例人像抠图方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于改进GCNet的多实例人像抠图方法。

背景技术

移动互联网技术的快速发展引发了多媒体行业的快速发展，数字图像处理领域也在不断创新与进步。在远程视频会议、短视频、AI换脸兴起的今天，越来越多的人们依赖手机等移动设备来拍摄视频和照片，人像分割技术也引起越来越多的关注。

实例分割的目的是区分实例，但它只能产生尖锐的对象边界，没有考虑到半透明性；软分割能够区分不同类之间的多个实例，具有实例感知特性，但不能处理同一类的实例。

传统的抠图方法旨在提取精确的alpha图，但缺乏实例感知。

如今，随着深度神经网络在人像抠图中的广泛应用，使得这一技术取得了显著的进步，在现有的语义抠图技术的基础上，对区分实例也提出了更高要求。

目前，人像实例抠图技术主要面临的挑战性在于目标遮挡与重叠、目标的尺度变化、环境背景复杂、高质量的自然图像抠图需花费大量的计算资源等。遮挡情况是目标检测一大挑战，这将导致失去目标的检测框，丢失检测目标影响抠图效果。

现有的基于给定trimap（静态图像抠图算法）或已知对象类别的区域分割方法无法区分实例，因此许多方法将检测跟踪同语义抠图结合起来，顺利的实现在多目标场景下对每个实例的抠图任务。

目前，有关人像抠图的方法可以按照先进行实例分割，如Mask R-CNN（Mask R-CNN是Kaiming He等人在2017年提出的，可实现像素级别的图像实例分隔），再对其mask产生精细化alpha图实现实例抠图，也可以在语义抠图方法的基础上结合检测跟踪网络结构，使其能在多目标场景下实现实例抠图。Mask R-CNN是近年来广泛应用的简单通用且性能强大的两阶段网络模型，不断改进后其精细化了实例掩模，抠图准确率高。

然而，Mask R-CNN也存在一定局限性。比如在一定程度上严重依赖精确的目标检测，且得到的实例掩码分辨率较低，对于多实例的复杂场景，由于两阶段方法在前期需要单独设计网络生成大量候选区域，其推理时间与建议框的数量成正比，因此在推断速度上缓慢，仍然无法得到的同一类别重叠的不同实例个体且掩码分割细节不够平滑。

综上，密集目标的相互遮挡与重叠、目标的尺度变换引起的抠图误差、繁琐精细的数据标注耗费大量人力与时间等问题，都会对分割实例带来困难。

另外，人像抠图具有较高计算量，导致模型难以部署在计算资源有限的设备上。

发明内容

本发明的目的在于提出一种基于改进GCNet的多实例人像抠图方法，该方法由GCNet实现检测跟踪为每个实例生成矩形框，多实例图像经过SegNet抠图模型获得隐藏特征，再利用矩形边界框的特征信息传入深度引导滤波器进行抠图，最终实现每个实例的抠图图像。

本发明为了实现上述目的，采用如下技术方案：

一种基于改进GCNet的多实例人像抠图方法，包括如下步骤：

步骤1. 搭建多实例人像抠图模型；

搭建的多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型；

其中，GCNet检测跟踪模型用于接收视频图像输入，并对视频图像中每个实例均进行加框处理，然后输出带有ID边界框的视频图像；

GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块；其中，GCNet检测模块包括分类分支以及回归分支两部分；

GCNet检测模块的分类分支用于输出热力图作为置信映射；GCNet检测模块的回归分支则将热力图和特征图作为输入，计算目标实例的边界框；

GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入，为每个历史轨迹输出跟踪置信度和边界框；

SegNet抠图模型用于接收视频图像输入并获取特征，同时结合GCNet检测跟踪模型的输出，对每个实例生成alpha图，最终完成多目标的实例抠图；

步骤2. 利用训练集训练多实例人像抠图模型，将训练好的模型用于多实例人像抠图。

本发明具有如下优点：

如上所述，本发明述及了一种基于改进GCNet（全局相关网络, GlobalCorrelation Network）的多实例人像抠图方法，该方法基于GCNet检测跟踪模型以及SegNet抠图模型实现。本发明针对检测模块和跟踪模块采用共同的方式，即引入全局相关网络层来回归边界框的绝对坐标和大小，实现检测跟踪为每个实例生成矩形边界框，将实例ID信息传递给SegNet抠图模型进行抠图，最终可实现每个实例的抠图图像。同时，GCNet检测跟踪模型中的全局相关网络层有效减小了模型的大小，将全局信息编码到每个位置的特征中。当目标遮挡时，不会将两个实例识别成一个实例，从而导致丢失目标信息。SegNet抠图模型的深导滤波器可用于处理4K和HD这样的高分辨率视频，更好地拟合出边缘精确的分割结果。其中采用GhostNet进行特征提取，保留部分固有特征，通过固有特征的线性变换模拟生成相对冗余的特征，降低计算量的同时，保证了特征的多样性。本发明方法在精度和稳定性能方面均有较大提升。

附图说明

图1为本发明实施例中基于改进GCNet的多实例人像抠图方法的流程图。

图2为本发明实施例中实例抠图简要模型图。

图3为本发明实施例中GCNet检测跟踪模型的检测模块网络结构示意图。

图4为本发明实施例中GCNet检测跟踪模型的跟踪模块网络结构示意图。

图5为本发明实施例中SegNet抠图模块示意图。

图6为本发明实施例中SPPCSPC模块结构图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本实施例述及了一种基于改进GCNet的多实例人像抠图方法，其包括如下步骤：

步骤1. 搭建多实例人像抠图模型，如图2所示，本实施例中搭建的多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型。

通过引入GCNet检测跟踪模型，以改善有遮挡情况下的目标追踪效果。

GCNet检测跟踪模型引入了一种全局相关网络层，将全局信息编码到每个位置的特征中。通过线性变换和函数运算使其可以回归出相应位置的目标边界框的绝对大小，当进行目标检测和跟踪时可以利用同样的方式完成，以大大加快网络速度，降低网络复杂度。

其中，GCNet检测跟踪模型用于接收视频图像输入，并对视频图像中每个实例均进行加框处理，然后输出带有ID边界框的视频图像。

GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块；其中，GCNet检测模块的网络结构如图3所示，其包括分类分支以及回归分支两部分。

本实施例中GCNet检测跟踪模型是将检测模块和跟踪模块两个任务的特征提取融入一个网络中，以端到端得方式实现了联合多目标检测和跟踪。

GCNet检测模块的分类分支是一个全卷积网络，输出热力图作为置信映射；GCNet检测模块的回归分支则将热力图和特征图作为输入，计算目标实例的边界框。

特征图F和检测置信度热力图Y_d进入回归分支，计算三个特征图Q、K、V：

Q=BN_Q(Conv_Q(F,1,1,c)+P) （1）

K=Gate[BN_K(Conv_K(F,1,1,c)+P),Y_d] （2）

V=Conv_V(F,1,1,c) （3）

其中，Conv_Q(F,1,1,c)表示在特征图Q中的核尺寸为1、步长为1、核数目为c的卷积层，BN_Q表示对特征图Q批量归一化； Conv_K(F,1,1,c)表示在特征图K中的核尺寸为1、步长为1、核数目为c的卷积层，BN_K表示对特征图K批量归一化；Conv_V(F,1,1,c)表示在特征图V中的核尺寸为1、步长为1、核数目为c的卷积层。

计算特征图Q、K之前加入位置编码P，位置编码P的计算方式如下：

（4）

其中，P_ijk表示位置编码向量，i、j、k分别表示x方向、y方向、z方向上的坐标；h、ω分别表示原图像的高度、宽度，h＇、ω＇分别表示特征图F的高度、宽度。

其中，h＇=h/8，ω＇=ω/8，0≤i＜h＇，0≤j＜ω＇。

通过位置编码，位置上距离较近的两个嵌入向量余弦相似度较大，距离较远的两个嵌入向量余弦相似度较小，因而可以减少跟踪时类似对象的负面影响。

对于特征图F通过两个线性变换计算特征图Q和特征图K，计算式如下：

（5）

其中，Q_ij表示局部特征向量，K_ij表示全局特征映射，F_ij表示特征图，W_q表示对向量Q做线性变换，W_k表示对向量K做线性变换。

下标i、j表示行列的位置，例如X_ij表示X 在第i行第j列位置的特征向量。

接着，对每个局部特征向量Q_ij，计算Q_ij与所有的全局特征映射K_ij之间的余弦距离，然后再通过矩阵W进行线性变换，即得到相关向量C_ij，它的形式如下：

（6）

每个C_ij都编码了局部特征向量Q_ij和全局特征映射K_ij之间的相关性，因此能够用于图像中相应位置的目标的绝对边界框，所有相关向量构建一个相关性特征图C∈ R^h ^×ω×c′ ，c′表示特征图C的通道数。

因此，通过简单的1x1卷积得到边框预测B∈ R ^h×ω×4。

在进行目标检测时，使用同一帧图像中的K和Q；在进行目标跟踪时，使用上一帧图像中的Q和当前帧图像中的K；将检测和跟踪统一在同一个框架下，即为全局相关性。

全局相关网络（Global Correlation）用于回归bbox的绝对大小以及坐标，而不是相对坐标和偏移量。在传统的卷积神经网络中，由于感受野受限，局部特征并不会包含全局信息，全局相关网络将全局信息编码到每个位置的特征中，流程简单，不需要复杂的跟踪策略，可生成带有实例ID的矩形边界框，起到区分实例的作用，降低计算复杂度。

计算相关性特征图C后，计算最终的边界框B_d,i,j=[x_i,j，y_i,j，h_i,j ，w_i,j]。

其中，d代表detection检测，x_i,j表示框的顶部左侧点的水平坐标，y_i,j表示框的顶部左侧点的垂直坐标，h_i,j表示边界框的高，w_i,j表示边界框的宽。

GCNet直接回归的是目标边界框的绝对坐标和尺寸，计算公式如公式（7）所示。

B_d,i,j=W·BN([C_ij V_ij])（7）

其中，W表示线性变换。

V_ij表示特征图F经过卷积得到的特征向量，计算公式如式（3）所示。

输入原视频通过主干网络进行高级特征提取。为了获得高分辨率并保持较大的感受野，本发明采用与FPN（Feature Pyramid Networks--特征金字塔）相同的跳过连接结构，仅使用FPN输出中最好的一个特征图记为F。

经过主干网络进行特征提取后进入分类分支的全卷积网络，输出检测的置信度热力图记为Yd。在分类分支中，通过在每个实例的中心放置热力图来标记每个实例，热力图为靠近中心的点提供了高权重值，随着距离的增加，值下降。

在本实施例中，热力图层设置为网络训练阶段的地面真值。每一层包含同一类别的所有实例的热力图，其参数随目标长轴和短轴的变化而归一化高斯分布。

定义热力图Y_gt∈R^{h′×ω′×n}，以及二维高斯公式如下：

（8）

（9）

其中，gt是指ground truth真实值，h＇、ω＇、n分别表示热力图的高度、宽度、类别数量，且h＇=h/8，ω＇=ω/8，h、ω分别表示原图像的高度、宽度。

Y_gt,ijk表示真实值的热力图，i、j表示行列位置，k表示目标类别。

N_k是类为k的对象的数量；G_ijn表示在i、j位置处二维高斯卷积核的值，[x_n, y_n]为检测的目标的中心，方差σ²与目标大小有关，σ_x和σ_y的表达式如下：

（10）

其中，IoU_threshold表示IoU阈值，本实施例中设为0.3。

该分类分支接收大小为512×512的原始图像，依次进行一系列深度可分离卷积，最大池化层以及激活函数。在实现过程中，逐步增加通道数量，提取不同尺度的潜在信息，然后输出8×8×288尺寸热力图，其中分类分支还采用了残差结构，以减少信息的丢失。

在GCNet检测模块回归分支中，本发明引入CBAM（卷积模块的注意力机制,Convolutional Block Attention Module）模块，将分类结果合并到回归分支中作为空间注意力图并有效地补充了通道注意力，有利于回归分支的训练。

CBAM模块能够在空间维度和通道维度上进行操作，将检测模块中的分类分支产生的置信度Y_d和主干网络提取的特征图F作为输入，生成特征向量。

CBAM模块是将通道注意力和空间注意力融合在一起。

其中，在GCNet检测模块中，分类分支的置信度图Y_d直接作为空间注意力。

跟踪模块的体系结构如图4所示，GCNet跟踪模块的处理流程如下：

GCNet跟踪模块用于接收当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量输入，为每个历史轨迹输出跟踪置信度和边界框。

其中，跟踪置信度用于表明跟踪目标仍旧在当前帧上的概率。

将GCNet检测跟踪模型输出的实例ID信息同步到SegNet抠图模型中。

SegNet抠图模型用于接收视频图像输入并获取特征，同时结合GCNet检测跟踪模型的输出，对每个实例生成alpha图，最终完成多目标的实例抠图，SegNet抠图模型如图5所示，

SegNet抠图模型包括编码器、循环解码器和深度引导滤波器DGF。在编码器提取到不同尺度的特征后，经过SPPCSPC模块将不同尺度的特征图调整到统一的大小，并且多次使用跳跃连接进行特征融合。循环解码器包括瓶颈模块Bottleneck block、上采样模块Upsampling block和输出模块Output block。Bottleneck block的ConvGRU（Convolutional Gated Recurrent Unit，卷积门控循环单元）模块来聚合时间信息，可减少参数，提高模型效率。

编码器的作用是提取特征，通过GhostNet提取特征后引入SPPCSPC模块，主要作用是增加感受野。SPP结构又被称为空间金字塔池化，能将任意大小的特征图转换成固定大小的特征向量。SPP结构通过最大池化来获得不同感受野，以适应不同分辨率的图像。经过分别为1×1，5×5，9×9，13×13大小卷积核的maxpool操作。

其中CSP模块，首先将特征部分分为两部分，其中的一个部分进行常规的处理，另外一个部分进行SPP结构的处理，最后把这两个部分合并在一起。

SegNet抠图模型采用GhostNet作为主干网络进行特征提取，减少计算量的同时又不影响提取特征的丰富度。此网络保留部分固有特征，通过固有特征的线性变换模拟生成相对冗余的特征，降低计算量的同时，保证了特征的多样性。

GhostNet网络作为主干网络进行特征提取的过程如下：

先利用1x1卷积获得输入特征的必要特征浓缩，再利用深度可分离卷积获得特征浓缩的相似特征图Ghost，最终将两者在通道上进行拼接达到想要的效果。

SegNet抠图模块采用GhostNet作为主干网络，将原始的卷积层分成两部分，先使用更少的卷积核来生成少量内在特征图，然后通过简单的线性变化操作来进一步高效地生成Ghost特征图，减少计算量的同时又不影响提取特征的丰富度。

SegNet抠图模块采用GhostNet作为主干网络进行高级特征提取，保留部分固有特征（intrinsic features），通过固有特征的线性变换（cheap operation）模拟生成相对冗余的特征（ghost features），降低计算量的同时，保持了特征的多样性。

信号在SegNet抠图模型中的处理流程如下：

将GCNet检测跟踪模型输出带有实例ID的特征送入编码器，编码器对单个帧进行操作，并提取1/2、1/4、1/8和1/16尺度的特征。

SPPCSPC模块如图6所示，有四条分支分别使用池化层，将不同尺度的特征图调整到统一的大小，并且多次使用跳跃连接进行特征融合，将深层特征与浅层特征进行融合。

将浅层的特征传输到深层，避免随着网络深度的增加造成的特征丢失。

SPPCSPC模块包含CBS模块、最大池化模块和融合模块。CBS模块是由一个卷积层Convolution layer、一个归一化层Normalization layer以及一个激活层Silu layer组成。

CBS模块有两种，分别为第一CBS模块（即图6中实线框内表示的CBS模块）以及第二CBS模块（即图6中虚线框内表示的CBS模块）。

其中，第一CBS模块的卷积核为1×1、步长为1，第一CBS模块起到改变通道数的作用；第二CBS模块的卷积核为3×3、步长为1，第二CBS模块用于提取特征。

对输入数据依次经过一个第一CBS模块、第二CBS模块以及第一CBS模块处理后，分别对处理后的数据进行5×5、9×9和13×13的最大池化操作。

融合模块包括第一融合连接模块和第二融合连接模块。

第一融合连接模块将最大池化三个不同尺度的池化结果进行融合，融合后的结果依次经过一个第一CBS模块和一个第二CBS模块进行处理，得到第一中间处理结果。SPPCSPC模块输入后的数据经过一个第一CBS模块后得到第二中间处理结果。第二融合连接模块将第一中间处理结果与第二中间处理结果融合，再将融合结果经过一个第一CBS模块后输出。

SPPCSPC模块中SPP（Spatial Pyramid Pooling，空间金字塔池化）结构的作用是能够增大感受野，使得算法适应不同的分辨率图像，它是通过最大池化来获得不同感受野，四种不同的感受野用来区别大目标和小目标。CSP（Cross-Stage-Partial，跨阶段部分连接）结构将特征分成两个分支，一条分支进行常规的处理，另一分支进行SPP结构的处理，最后把这两个部分合并在一起。这样能进一步减少计算量，提高运行速度和精度。

在SPPCSPC模块后，循环解码器的瓶颈模块对1/16规模大小的特征进行操作。

ConvGRU模块来聚合时间信息，形式上被定义为：

。

其中，z_t表示更新门，取值范围在0到1之间，可以看作是一个控制参数。r_t表示重置门，类似于更新门，r_t的取值范围也在0到1之间；o_t表示输出门，基于当前的输入和记忆状态，决定哪些信息会被传递给下一个时间步作为输出；h_t表示隐藏状态：是ConvGRU在每个时间步的主要输出，包含了之前时间步的信息，并根据更新门、重置门和输出门的控制来进行更新和筛选；运算符*和分别是卷积和元素积，和σ分别代表双曲正切和双弯曲函数，W和b是卷积核和偏置项，隐藏状态h_t在当前时间步被用作输出和传递到下一个时间步作为h_t−1的循环状态，初始循环状态h₀是一个全零张量。

现在的大多数方法都是将视频的每一帧作为独立的图像，因此，这些方法忽略了视频中的时间信息。时序特征可以对抠图的结果带来较大的提升。视频帧之间预测的结果是存在序列相关性的，因而可以根据这个相关性得到更加鲁棒的抠图结果。使用序列帧作为输入，可以随着目标的移动学习到丰富的背景信息。

上采样模块Upsampling block重复运用1/8、1/4和1/2规模大小的特征。

将前一个块的双线性上采样输出、编码器相应尺度的特征图和重复2×2平均池化下采样的输入图像连接起来，然后进行卷积、批归一化和ReLU激活进行特征合并和通道缩减。

输出模块Output block不使用ConvGRU，仅使用常规卷积来优化结果。

首先连接输入图像和前一个块的双线性上采样输出以及GCNet检测跟踪模型的ID位置信息，采用两次重复卷积、批归一化和ReLU激活生成最终的隐藏特征。

在处理高分辨率视频（如4K和HD）时，通过编解码器网络之前，将输入帧的采样量减少一个因子s，然后将低分辨率的alpha图、最终隐藏特征以及高分辨率的输入帧提供给DGF模块，产生高分辨率的alpha图。

步骤2. 利用训练集训练多实例人像抠图模型，如图1所示，训练好多实例人像抠图模型之后，将训练好的模型用于多实例人像抠图。具体训练过程如下：

步骤2.1．准备样本集I，其中包括含多个目标的RGB人像视频、每个实例添加矩形边界框的人像视频；准备样本集II，其中包括含多个目标的RGB人像视频、RGB原始人像视频对应的原始透明遮罩，并将样本集I、II划分成训练集和验证集。

其中样本集I用于训练GCNet检测跟踪模型，样本集II用于训练SegNet抠图模型。

步骤2.2．通过GCNet检测跟踪模型实现对多目标实例的检测跟踪，使用训练好的模型进行检测跟踪，初始化轨迹集合、置信度集合、特征向量集合以及候选集合为空集。

对当前帧进行检测，并对已存在的轨迹和候选检测框进行跟踪。

置信度小于p2的轨迹和候选对象将被删除，而其他轨迹、候选对象以及相应的特征将会被更新。更新策略，即Y_i = min(2×Y_i×Y_{t , i}, 1.5 )。其中，Y_i表示轨迹置信度，Y_{t , i}表示跟踪置信度，min(2×Y_i×Y_{t , i}, 1.5 )表示取2×Y_i×Y_{t , i}和1.5的最小值。

检测结果中IoU高于p₃或者置信度低于p₂的结果会被忽略；然后剩下的检测框中，检测置信度高于p₁的会开始生成新的轨迹，再次剩下的检测框会加入到候选集合C中；其中，超参数p1、p2、p3分别设置为0.5、0.3和0.5。

步骤2.3．首先在SegNet抠图模型中没有DGF模块的低分辨率数据集上，训练15个epoch，将样本集II送入编码器进行编码得到浅层纹理信息、中层特征信息和高层语义表征信息，将其输送至解码器进行特征提取和融合，GhostNet替换MobileNetV3-Large作为主干网络为循环解码器提取1/2、1/4、1/8和1/16规模大小的特征；提取特征后进入SPPCSPC模块，通过最大池化来获得不同感受野，使得模型算法适应不同的分辨率图像。

步骤2.4．附加DGF模块，并用高分辨率的样本进行1 epoch的训练；由于高分辨率会消耗更多的GPU内存，所以序列长度必须设置得很短；为了避免的循环网络对非常短的序列过拟合，在低分辨率的长序列和高分辨率的短序列上训练的网络。

步骤2.5．将步骤2.2中GCNet检测跟踪模型的输出带有边界框的轨迹集合送入循环解码器，在多尺度上采用ConvGRU对时间信息进行聚合将低分辨率的alpha图、最终隐藏特征以及高分辨率的输入帧提供给DGF模块，产生高分辨率的alpha图，生成每个实例的图结果。

在训练过程中的损失包括GCNet检测跟踪模型的损失和SegNet抠图模型的损失。

GCNet检测跟踪模型的损失函数包括两部分：图像I_t-m的检测损失和两幅图像I_t-m、I_t之间的跟踪损失；检测和跟踪损失均包括分类分支损失和回归分支损失。

分类分支损失采用带惩罚因子的焦点损失Focal Loss，公式如下：

；

（11）

其中，L_d,_cla是指检测模块分类分支损失，对应的跟踪模块分类分支损失为L_t,_cla；h＇、ω＇、n分别表示热力图的高度、宽度、通道数。

Y_d,_ijk表示检测模块的热力图，对应的跟踪模块的热力图为Y_t,_ijk。

回归分支将CIoU作为损失函数，公式如下：

；

（12）

其中，L_d,_reg表示检测模块回归分支损失，对应的跟踪模块回归分支损失为L_t,_reg。

B_gt,_ij表示真实标注的边界框，B_d,_ij表示检测模块预测的边界框，对应的跟踪模块预测的边界框为B_t,_ij，β是一个超参数，用于调整预测框与真实框中心点距离的差异。

G_ijn表示二维高斯核；如果存在且，此时[ij]=1，表示对应的B_d,_ij被赋值为ground truth，即真实值。

通过预先训练的检测模块对整个网络进行微调；在该训练步骤中，一次输入两个图像I_t-m和I_t，其中m在1到5之间；损失包括两部分：I_t-m的检测损失和两幅图像之间的跟踪损失。

跟踪模块的真实值由目标ID决定。

如果I_t-m中的[ij]等于1，且I_t中也存在相应的目标，则B_t,_ij、Y_t,_ijk为正。

GCNet检测跟踪模型训练总损失如式(13)所示。

（13）

跟踪现有轨迹和候选轨迹，利用跟踪置信区间更新置信度集合和候选轨迹，删除置信度较小的轨迹和候选点，更新其他轨迹、候选点和相应特征，提高目标的检测性能。

输入视频图像和对应的透明度遮罩（alpha图），在SegNet抠图模块进行抠图训练。

对于抠图损失，首先使用L₁损失和拉普拉斯金字塔损失，并考虑到视频的时序特性引入alpha图时序相关性损失，人像分割损失则采用二值交叉熵损失的形式。

（14）

（15）

（16）

其中，表示alpha图的L₁损失，表示模型预测的alpha图，表示与之对应的真实alpha图；表示alpha图的拉普拉斯金字塔损失，s表示拉普拉斯金字塔的层数，表示alpha图的拉普拉斯金字塔的第s层；表示alpha图的时间相关性损失。

（17）

（18）

其中，表示前景F的L1损失，表示前景，表示与之对应的真实值前景；公式（18）中，表示前景F的时间相关性损失。

SegNet抠图模型抠图总损失如公式（19）所示：

（19）

本发明采用语义分割结合抠图算法的模型，并且采用GCNet检测跟踪模型以端到端的方式实现联合多目标检测和跟踪，为抠图模型提供实例信息，最终实现多目标实例抠图任务。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于改进GCNet的多实例人像抠图方法，其特征在于，包括如下步骤：

步骤1. 搭建多实例人像抠图模型；

多实例人像抠图模型包括GCNet检测跟踪模型以及SegNet抠图模型；

其中，GCNet检测跟踪模型用于接收视频图像输入，并对输入的视频图像中每个实例均进行加框处理，然后输出带有ID边界框的视频图像；

GCNet检测跟踪模型包括GCNet检测模块以及GCNet跟踪模块；

GCNet检测模块包括分类分支以及回归分支两部分；

2.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述步骤1中，GCNet检测模块中信号处理流程如下：

特征图F和检测置信度热力图Y_d进入回归分支，计算三个特征图Q、K、V；计算特征图Q、K之前加入位置编码P；对于特征图F通过两个线性变换计算特征图Q和特征图K；

在进行目标检测时，使用同一帧图像中的K和Q；在进行目标跟踪时，使用上一帧图像中的Q和当前帧图像中的K；将检测和跟踪统一在同一个框架下，即为全局相关性；

计算相关性特征图C后，计算最终的边界框B_d,i,j=[x_i,j，y_i,j，h_i,j ，w_i,j]；

其中，d代表detection检测，x_i,j表示框的顶部左侧点的水平坐标，y_i,j表示框的顶部左侧点的垂直坐标，h_i,j表示边界框的高，w_i,j表示边界框的宽；

GCNet直接回归的是目标边界框的绝对坐标和尺寸，计算公式如下所示；

B_d,i,j=W·BN([C_ij V_ij])；

其中，W表示线性变换，V_ij表示特征图F经过卷积得到的特征向量，C_ij表示相关向量。

3.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

在GCNet检测模块中引入CBAM模块作为注意力机制；

CBAM模块能够在空间维度和通道维度上进行操作，将GCNet检测模块中的分类分支产生的置信度Y_d和主干网络提取的特征图F作为输入，生成特征向量；

CBAM模块将通道注意力和空间注意力融合在一起；

在GCNet检测模块中，将分类分支的置信度图Y_d直接作为空间注意力。

4.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述步骤1中，GCNet跟踪模块的处理流程如下：

当前帧的特征图K、当前帧的检测置信度图即热力图以及历史轨迹的特征向量送入GCNet跟踪模块，为每个历史轨迹输出一个跟踪置信度和边界框；

5.根据权利要求2所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述步骤1中，在GCNet检测模块的分类分支中，通过在每个实例的中心放置热力图来标记每个实例，热力图为靠近中心的点提供高权重值，随着距离的增加，值下降。

6.根据权利要求1所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述SegNet抠图模型包括编码器、循环解码器和深度引导滤波器DGF；

信号在SegNet抠图模型中的处理流程如下：

将GCNet检测跟踪模型输出的带有实例ID的特征送入编码器，编码器对单个帧进行操作，并提取1/2、1/4、1/8和1/16尺度的特征；

SPPCSPC模块有四条分支分别使用池化层，将不同尺度的特征图调整到统一的大小，并且多次使用跳跃连接进行特征融合，将深层特征与浅层特征进行融合；

在经过SPPCSPC模块后，瓶颈模块Bottleneck block对1/16规模大小的特征进行操作；

上采样模块Upsampling block重复运用1/8、1/4和1/2规模大小的特征；

将前一个块的双线性上采样输出、编码器相应尺度的特征图和重复2×2平均池化下采样的输入图像连接起来，然后进行卷积、批归一化和ReLU激活进行特征合并和通道缩减；

输出模块Output block不使用ConvGRU，仅使用常规卷积来优化结果；

首先连接输入图像和前一个块的双线性上采样输出以及GCNet检测跟踪模型的ID位置信息，采用两次重复卷积、批归一化和ReLU激活生成最终的隐藏特征；

将低分辨率的alpha图、最终隐藏特征以及高分辨率的输入帧提供给深度引导滤波器DGF模块，产生高分辨率的alpha图，生成每个实例的图结果。

7.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述SegNet抠图模型采用GhostNet作为主干网络进行特征提取；

具体过程如下：首先利用1x1卷积获得输入特征的必要特征浓缩，再利用深度可分离卷积获得特征浓缩的相似特征图Ghost，最后在通道上将两者进行拼接。

8.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述SPPCSPC模块包含CBS模块、最大池化模块和融合模块；CBS模块是由卷积层Convolution layer、归一化层Normalization layer以及激活层Silu layer组成；

CBS模块有两种，分别为第一CBS模块以及第二CBS模块；

其中，第一CBS模块的卷积核为1×1、步长为1，第一CBS模块用于改变通道数；第二CBS模块的卷积核为3×3、步长为1，第二CBS模块用于提取特征；

对输入数据依次经过一个第一CBS模块、第二CBS模块以及第一CBS模块处理后，分别对处理后的数据进行5×5、9×9和13×13的最大池化操作；

融合模块包括第一融合连接模块和第二融合连接模块；

第一融合连接模块将最大池化三个不同尺度的池化结果进行融合，融合后的结果依次经过一个第一CBS模块和一个第二CBS模块进行处理，得到第一中间处理结果；SPPCSPC模块输入后的数据经过一个第一CBS模块后得到第二中间处理结果；第二融合连接模块将第一中间处理结果与第二中间处理结果融合，再将融合结果经过一个第一CBS模块后输出。

9.根据权利要求6所述的基于改进GCNet的多实例人像抠图方法，其特征在于，

所述步骤2具体为：

步骤2.1．准备样本集I，其中包括含多个目标的RGB人像视频、每个实例添加矩形边界框的人像视频；准备样本集II，其中包括含多个目标的RGB人像视频、RGB原始人像视频对应的原始透明遮罩，并将样本集I、II划分成训练集和验证集；

步骤2.2．通过GCNet检测跟踪模型实现对多目标实例的检测跟踪，使用训练好的模型进行检测跟踪，初始化轨迹集合、置信度集合、特征向量集合以及候选集合为空集；

对当前帧进行检测，并对已存在的轨迹和候选检测框进行跟踪；

置信度小于p₂的轨迹和候选对象将被删除，而其他轨迹、候选对象以及相应的特征将会被更新；更新策略，即Y_i = min(2×Y_i×Y_{t , i}, 1.5 )；其中，Y_i表示轨迹置信度，Y_{t , i}表示跟踪置信度；设定超参数p₁、p₂、p₃，检测结果中IoU高于p₃或者置信度低于p₂的结果会被忽略；然后剩下的检测框中，检测置信度高于p₁的会开始生成新的轨迹，再次剩下的检测框会加入到候选集合C中；

步骤2.3．首先在SegNet抠图模型中没有DGF模块的低分辨率数据集上，训练15个epoch，将样本集II送入编码器进行编码得到浅层纹理信息、中层特征信息和高层语义表征信息，将其输送至解码器进行特征提取和融合，GhostNet作为主干网络为循环解码器提取1/2、1/4、1/8和1/16规模大小的特征；提取特征后进入SPPCSPC模块，通过最大池化来获得不同感受野；

步骤2.4．附加DGF模块，并用高分辨率的样本进行1 epoch的训练；