CN114120202A

CN114120202A - 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

Info

Publication number: CN114120202A
Application number: CN202111451336.6A
Authority: CN
Inventors: 阳春华; 高博聪; 赵于前
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-01
Anticipated expiration: 2041-12-01
Also published as: CN114120202B

Abstract

本发明公开了一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，包括：获取视频分割相关数据集以及对应的分割标签；构建特征提取模块，提取视频图像中所包含的信息；构建多尺度目标模型，捕获不同尺度的目标外观细节，同时提升推理速度；构建由特征融合模块、通道注意力模块以及细化残差模块构成的分割解码器，突出视频的帧间目标变化，并将目标外观信息恢复至高分辨率，得到对应帧的目标分割结果；构建缓存池用于多尺度目标模型的参数更新，逐帧对视频序列进行推理，得到视频目标分割结果。本发明方法能够有效提升对视频中小目标、难分割目标的分割精度，同时可保证视频目标分割的快速性。

Description

一种基于多尺度目标模型和特征融合的半监督视频目标分割方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多尺度目标模型和特征融合的半监督视频目标分割方法。

背景技术

视频目标分割(VOS)是计算机视觉中的一项具有挑战性的任务，在自动驾驶、视频摘要、人机交互等方面均有着广泛的应用。其中半监督视频目标分割是给定一段视频和第一帧的目标物体，在视频的其余帧中分割出该目标物体。在一个视频序列中，目标物体往往会因为一些复杂因素如形变、遮挡、镜头抖动等而发生很大的外观改变，同时视频中往往会存在高速移动的物体，非常容易造成预测偏移。因此，研究一种高效、准确的半监督视频目标分割方法对于自动驾驶、视频摘要等应用场景具有重要意义。

现有的半监督视频目标分割方法一般可分为基于运动和基于检测两大类。基于运动的方法利用目标运动的时空相关性，将目标分割看作为目标掩膜从第一帧到后续帧的传播；这类分割技术当遇到目标物体在视频序列中消失等情况时，由于无法捕捉目标物体，导致准确率大幅降低。基于检测的方法并不使用时间信息，而是学习外观模型，在每一帧中对目标进行像素级分割；这类分割技术鲁棒性较强，保证了分割的准确性，但需要在每一帧上对整个网络进行微调，严重影响推理速度。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，该方法通过多尺度目标模型学习目标外观信息，设计特征融合模块捕捉帧间动态变化，从而有效利用视频帧间的关联信息，提高模型的准确性和鲁棒性，并保证高效的推理速度。

一、技术原理

现有的半监督视频目标分割方法大多考虑目标物体在视频序列中的时空关联信息，将目标分割看作为目标掩膜从第一帧到后续帧的传播，但现有技术并不能很好的解决目标消失或者严重遮挡等复杂情况带来的分割偏差，而后续传播则会进一步放大偏差，影响分割效果。为了更好地解决偏差影响，本发明提出了特征融合模块：通过对来自不同帧的目标特征信息进行自适应融合，来捕捉不同视频帧之间目标的动态变化，提升视频目标分割的准确率。

另外还有一些半监督视频目标分割方法不考虑目标物体在视频序列中的时空关联信息，通过对每一帧视频图像进行网络微调，来拟合目标外观模型，由于网络微调的庞大运算量，这类方法往往速度较慢，难以实现实时的视频推理。为了更加快速地实现视频目标分割，本发明提出了多尺度目标模型，使用两个独立的浅层模型来提取不同尺度的目标外观信息，在充分保证目标外观细节的前提下代替整个网络进行微调，在保证视频分割准确率的同时大幅提升视频推理速度。

二、根据上述原理，本发明通过以下方案实现：

一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，包括以下步骤：

(1)获取数据集与分割标签：

获取半监督视频目标分割数据集与对应的分割标签；

(2)构建分割模型，具体包括以下步骤：

(2-a)构建特征提取器，其中共包括一层卷积模块和四层残差模块，视频图像依次经过卷积模块及四层残差模块，分别得到残差模块对应的中间特征图x^r1、x^r2、x^r3、x^r4；第一层残差模块包括一个池化层和三个残差卷积模块，每个残差卷积模块内包括三个卷积模块，第一层残差模块的输出为中间特征图x^r1；第二层残差模块包括四个残差卷积模块，每个残差卷积模块内包括三个卷积模块，第二层残差模块的输出为中间特征图x^r2；第三层残差模块包括六个残差卷积模块，每个残差卷积模块内包括三个卷积模块，第三层残差模块的输出为中间特征图x^r3；第四层残差模块包括三个残差卷积模块，每个残差卷积模块内包括三个卷积模块，第四层残差模块的输出为中间特征图x^r4；

(2-b)构建多尺度目标模型，该模型由两个独立的目标模型T^l和T^h构成，两者各包括一个1×1卷积模块和一个3×3卷积模块，将步骤(2-a)得到的中间特征图x^r2和x^r3分别作为T^l和T^h的输入；目标模型T^l和T^h中的1×1卷积模块都是对特征进行降维；目标模型T^l中的3×3卷积模块得到低维目标外观信息cs^l，目标模型T^h中的3×3卷积模块得到高维目标外观信息cs^h；该模型的作用是在视频推理阶段学习目标外观信息，提升视频推理速度，具体公式可表示为：

其中

和

分别表示T^l中的1×1卷积模块和3×3卷积模块，

和

分别表示T^h中的1×1卷积模块和3×3卷积模块，·表示卷积操作；

(2-c)构建分割解码器，其中包括四层解码结构，第一层解码结构包括一个特征融合模块，一个全局池化模块，一个通道注意力模块和一个细化残差模块；第二、三、四层解码结构均包括一个特征融合模块，一个通道注意力模块和一个细化残差模块；

特征融合模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合，来捕捉不同视频帧之间目标的动态变化，该模块包括尺度转换和自适应融合两个部分，其中尺度转换部分将目标外观信息与中间特征图映射到同一尺度并拼接到一起，自适应融合部分计算拼接后的特征图中的各特征通道权重并进行适应性加权，具体过程为：

q^d＝Concat[U(cs^l),U(cs^h),R(x^rd)]

其中x^rd表示步骤(2-a)中得到的中间特征图，x^rd中d的值取1,2,3,4，分别对应中间特征图x^r1、x^r2、x^r3、x^r4，cs^l和cs^h表示(2-b)中得到的低维和高维目标外观信息，R表示降维操作，U表示上采样操作，

表示逐像素相乘操作，

表示逐像素相加操作，Concat表示拼接操作，q^d表示拼接后的特征图；Pool表示全局池化操作，Gate表示1×1卷积操作，σ表示sigmoid函数，Conv表示3×3卷积操作，s^d表示融合特征图；

通道注意力模块的作用是将不同层的特征图进行通道注意力优化，提升分割效果；通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化，得到初始通道权重，其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替；初始通道权重依次通过由1×1卷积块、ReLU函数、1×1卷积块和sigmoid函数组成的通道注意力结构进行权重优化；将优化后的通道权重与融合特征图进行逐像素相乘，再将相乘结果与经过上采样操作的目标特征图进行逐像素相加，得到注意力特征图。

细化残差模块的作用是对特征图进行进一步细化，优化目标细节；细化残差模块的输入为同一特征层中步骤(2-c)中通道注意力模块得到的注意力特征图，将注意力特征图依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块后得到的特征图与原注意力特征图通过1×1卷积块后得到的特征图进行逐像素相加，再通过ReLU函数得到目标特征图。

(2-d)将步骤(2-a)中得到的中间特征图x^r4与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第一层解码结构内的特征融合模块中，得到融合特征图s⁴，对s⁴进行全局池化操作，其结果与s⁴一起输入到第一层解码结构内的通道注意力模块，再经过细化残差模块，得到目标特征图o⁴；

将步骤(2-a)中得到的中间特征图x^r3与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第二层解码结构内的特征融合模块中，得到融合特征图s³，将s³与第一层解码结构输出的目标特征图o⁴一起输入到第二层解码结构内的通道注意力模块中，再经过细化残差模块，得到目标特征图o³；

将步骤(2-a)中得到的中间特征图x^r2与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第三层解码结构内的特征融合模块中，得到融合特征图s²，将s²与第二层解码结构输出的目标特征图o³一起输入到第三层解码结构内的通道注意力模块中，再经过细化残差模块，得到目标特征图o²；

将步骤(2-a)中得到的中间特征图x^r1与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第四层解码结构内的特征融合模块中，得到融合特征图s¹，将s¹与第三层解码结构输出的目标特征图o²一起输入到第四层解码结构内的通道注意力模块中，再经过细化残差模块，得到目标特征图o¹；

将目标特征图o¹进行上采样，得到分割结果

完成分割模型的构建；

(3)训练分割模型：

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型，该模型中的特征提取器使用预训练模型，不更新模型参数；使用交叉熵作为分割模型的损失函数得到损失值，并使用Adam算法更新分割模型内除特征提取器外的模型参数，直到损失值不再下降，得到训练好的分割模型；

(4)推理：

将测试视频数据逐帧输入至分割模型；输入初始帧后，使用步骤(2-a)中构建的特征提取器提取特征，并初始化缓存池M，缓存池M用于存储步骤(2-a)中得到的中间特征图x^r2和x^r3、步骤(2-d)中得到的分割结果

以及每帧的样本权重θ，缓存池具体结构可表示为：

其中N为缓存池最大容量，N为整数，且50≤N≤100，x^r2和x^r3为步骤(2-a)中得到的中间特征图，

存在两种情况：在初始帧中

表示该帧对应标签，在其余帧中

则表示步骤(2-d)中得到的分割结果，θ表示样本权重；

接着按顺序输入其余帧，使用步骤(2-a)中构建的特征提取器提取特征，使用步骤(2-b)中构建的多尺度目标模型提取目标外观信息，使用(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息，得到对应帧的分割结果

将步骤(2-a)中得到的中间特征图x^r2和x^r3、步骤(2-c)中得到的分割结果

以及对应的样本权重θ制作成新的样本数据存入缓存池；更新缓存池样本权重θ：

θ_i＝θ_i-1·(1+δ)

其中θ_i表示第i帧对应的样本权重，θ_i-1表示第i-1帧对应的样本权重，δ为权重更新参数，且0≤δ≤1；当缓存池容量达到N后，通过删除权重最小的样本来更新权重；

(5)视频目标分割：

获取推理阶段中测试视频序列的各帧分割结果，与原图进行混合加权融合，并制作成视频流，得到视频目标分割结果。

本发明与现有技术相比，有以下优点：

(1)本发明提出的多尺度目标模型，能够获取不同尺度的视频图像特征信息，从而捕捉更丰富的目标外观细节，同时避免在推理阶段对整个网络进行微调来拟合外观模型，大幅提升推理速度。

(2)本发明提出的特征融合模块，能够将多尺度目标模型生成的特征图与主干特征进行适应性融合，通过注意力机制进行权重分配，突出视频内不同帧之间的目标动态变化情况，提升分割精度。

附图说明

图1本发明实施方式的基于多尺度目标模型和特征融合的半监督视频目标分割方法流程图；

图2本发明实施方式中构建的视频目标分割模型总体框架及推理流程图；

图3本发明实施方式分割模型中的多尺度目标模型结构图；

图4本发明实施方式分割模型中的分割解码器结构图；

图5本发明实施方式分割解码器中的特征融合模块结构图；

图6本发明实施方式分割解码器中的通道注意力模块结构图；

图7本发明实施方式分割解码器中的细化残差模块结构图；

图8本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。

具体实施方式

下面说明本发明具体实施方式：

实施例1

图1所示为本发明实施方式的基于多尺度目标模型和特征融合的半监督视频目标分割方法流程图，具体步骤如下：

步骤1，获取数据集与分割标签。

获取视频目标分割公开数据集与对应的分割标签。

步骤2，构建分割模型。

图2所示为本发明实施方式中构建的视频目标分割模型总体框架及推理流程图，具体步骤如下：

(2-a)构建特征提取器，其中共包括一组卷积模块和四组残差模块，视频图像依次经过卷积模块及四组残差模块：第一层残差模块包括一个池化层和三个残差卷积模块，每个残差卷积模块内包括三个卷积模块，输入为3×480×864的可见光图像，输出为256×240×432的中间特征图x^r1，第二层残差模块包四个残差卷积模块，每个残差卷积模块内包括三个卷积模块，输入为256×240×432的特征图，输出为512×120×216的中间特征图x^r2；第三层残差模块包括六个残差卷积模块，每个残差卷积模块内包括三个卷积模块，输入为512×120×216的特征图，输出为1024×60×108的中间特征图x^r3；第四层残差模块包括三个残差卷积模块，每个残差卷积模块内包括三个卷积模块，输入为1024×60×108的特征图，输出为2048×30×54的中间特征图x^r4；

(2-b)构建多尺度目标模型，图3所示为本发明实施方式总体模型中的多尺度目标模型结构图。多尺度目标模型为两个独立模型，两者各自包括两个卷积模块，将步骤(2-a)得到的中间特征图中的低维特征x^r2和高维特征x^r3分别作为两个模型的输入，第一个卷积模块尺寸为1×1，目的是将特征通道降至64维，两个独立模型分别得到64×120×216和64×60×108的中间特征图；第二个卷积模块尺寸为3×3，两个独立模型分别得到1×120×216的低维目标信息cs^l和1×60×108的高维目标信息cs^h，多尺度目标模型的具体公式可表示为：

其中

和

分别表示T^l中的1×1卷积模块和3×3卷积模块，

和

分别表示T^h中的1×1卷积模块和3×3卷积模块，·表示卷积操作.

(2-c)构建分割解码器，图4所示为本发明实施方式总体模型中的分割解码器结构图。其中包含三种重要结构：特征融合模块、通道注意力模块和细化残差模块。

图5所示为本发明实施方式分割解码器中的特征融合模块结构图，特征融合模块将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合，来捕捉不同视频帧之间目标的动态变化，具体过程为：

q^d＝Concat[U(cs^l),U(cs^h),R(x^rd)]

其中x^rd表示步骤(2-a)中得到的中间特征图，x^rd中d的值取1,2,3,4，分别对应中间特征图x^r1、x^r2、x^r3、x^r4，以第三层中间层(d＝3)为例，输入尺寸为1024×60×108的中间特征图x^r3；cs^l和cs^h为(2-b)中得到的低维和高维目标外观信息，低维度尺寸为1×120×216，高维度为1×60×108；R表示为降维操作，将中间特征图降至64维，输出尺寸为64×60×108；U表示上采样操作，将多尺度目标外观信息cs^l和cs^h上采样至和中间特征图x^r3相同的尺寸；进而通过拼接操作Concat将三者合并，输出为66×60×108的特征图q³；将合并后的特征图q³进行全局池化操作Pool，再通过1×1卷积块Gate以及sigmoid函数σ，得到尺寸为66×1×1的通道权重值；将权重与特征图q³进行逐像素相乘

得到各通道的适应性占比，进而将比值与特征图q³进行逐像素相加

并通过3×3卷积块Conv，得到最后尺寸为66×60×108融合特征图s³；

图6所示为本发明实施方式分割解码器中的通道注意力模块结构图，通道注意力模块将不同层的特征图进行通道注意力优化，提升分割效果；通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化，得到初始通道权重，其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替；以第三层中间层为例，左侧输入为66×60×108的融合特征图s³，下侧输入为66×30×54的目标特征图o⁴，两个合并后进行全局池化，得到132×1×1的初始通道权重；而后依次通过1×1卷积块(降维至66维)、ReLU函数、1×1卷积块和sigmoid函数的注意力结构进行权重优化，得到66×1×1的通道权重占比；将通道权重占比与融合特征图s³进行逐元素相乘，再相乘结果与经过上采样操作的目标特征图进行逐元素相加，得到最后尺寸为66×60×108的注意力特征图；

图7所示为本发明实施方式分割解码器中的细化残差模块结构图，以第三层中间层为例，输入为66×60×108的注意力特征图，依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块，将得到的特征图与原注意力特征图逐像素相加，并通过ReLU函数输出66×60×108的目标特征图；

(2-d)图4所示为本发明实施方式总体模型中的分割解码器结构图，分割解码器的具体运行流程为：将步骤(2-a)中得到的尺寸为2048×30×54的中间特征图x^r4与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第一层解码结构内的特征融合模块中得到66×30×54的融合特征图s⁴，再经过通道注意力模块和细化残差模块得到输出为66×30×54的解码特征图o⁴；将步骤(2-a)中得到的尺寸为1024×60×108的中间特征图x^r3与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第二层解码结构内的特征融合模块中得到66×60×108的融合特征图s³，并将第一层解码结构的输出o⁴输入到第二层解码结构内的通道注意力模块中，再经过通道注意力模块和细化残差模块得到输出为66×60×108的解码特征图o³；将步骤(2-a)中得到的尺寸为512×120×216的中间特征图x^r2与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第三层解码结构内的特征融合模块中得到66×120×216的融合特征图s²，并将第二层解码结构的输出o³输入到第三层解码结构内的通道注意力机制中，再经过通道注意力模块和细化残差模块得到输出为66×120×216的解码特征图o²；将步骤(2-a)中得到的尺寸为256×240×432的中间特征图x^r1与步骤(2-b)得到的多维信息cs^l和cs^h输入到步骤(2-c)构建的第四层解码结构内的特征融合模块中得到66×240×432的融合特征图s¹，并将第三层解码结构的输出o²输入到第四层解码结构内的通道注意力机制中，再经过通道注意力模块和细化残差模块得到输出为66×240×432的解码特征图o¹；将第四层解码结构的输出o¹进行上采样操作并降维，得到尺寸为1×480×864的预测结果y，完成分割模型的构建。

步骤3，训练分割模型。

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型，其中步骤(2-a)构建的特征提取器使用预训练模型，模型权重不再更新；使用交叉熵作为整个模型的损失函数得到损失值，并使用ADAM算法更新分割模型内的参数，迭代次数为240次，初始学习率0.0001，后133次迭代的学习率衰减至设为直到损失值不再下降，得到训练好的分割模型。

步骤4，推理阶段。

图2所示为本发明实施方式中构建的视频目标分割模型总体框架及推理流程图，将测试视频数据逐帧输入至分割网络；输入初始帧后，使用步骤(2-a)中构建的特征提取器提取特征，并初始化缓存池M，缓存池M存储样本信息来更新多尺度目标模型，缓存池M整体可表示为：

存在两种情况：在初始帧中

表示该帧对应标签，在其余帧中

则表示步骤(2-d)中得到的分割结果，θ表示样本权重；

接着按顺序输入其余帧，使用步骤(2-a)中构建的特征提取器得到中间特征图x^r1、x^r2、x^r3、x^r4，使用步骤(2-b)中构建的多尺度目标模型得到目标外观信息cs^l和cs^h，使用步骤(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息，得到对应帧的分割结果

θ_i＝θ_i-1·(1+δ)

其中θ_i表示第i帧对应的样本权重，θ_i-1表示第i-1帧对应的样本权重，δ为权重更新参数，且0≤δ≤1；当缓存池容量达到N后，通过删除权重最小的样本来更新权重。

步骤5，视频目标分割。

获取推理阶段中测试视频序列的各帧预测结果，与原图做图像混合加权融合，制作成视频流，得到视频目标分割结果。

实施例2

采用实施例1中的方法对公开数据集DAVIS-16(Densely Annotated VIdeoSegmentation 2016)和DAVIS-17(Densely Annotated VIdeo Segmentation 2017)进行半监督视频目标分割实验。其中DAVIS-16数据集为二分类数据集，分割类别有两种：前景和背景；DAVIS-17数据集为多分类数据集，前景存在多个类别。本实验操作系统为Linux ubuntu16.06版本，基于CUDA10.0和cuDNN7.6.0的PyTorch1.5.0框架实现，使用搭载了Intel XeonBronze 3104 CPU(1.70Ghz)和NVIDIA GeForce RTX 2080 Ti(11GB)硬件的个人电脑训练并测试。

本实施例采用区域相似度(Region Similarity)、轮廓精确度(ContourAccuracy)、推理速度以及整体评测度(区域相似度和轮廓精确度的均值)四个指标对OSMN、RGMP、Siam R-CNN、FEELVOS、FRTM五个分割网络与本发明方法在DAVIS-16测试集上进行对比；采用区域相似度、轮廓精确度和整体评测度三个指标对五个分割网络与本发明方法在DAVIS-17测试集上进行对比。区域相似度在所有样例中的平均结果以M_J指代，计算公式如下：

式中S表示视频样例分割结果，G表示视频样例对应标签，∩和∪分别表示交集和并集操作。

轮廓精确度在所有样例中的平均结果以M_F指代，计算公式如下：

式中P_c和R_c分别表示分割结果和标签轮廓点的查准率(precision)及查全率(recall)。

整体评测度为区域相似度和轮廓精确度的均值，在所有样例中的平均结果以M_J&F指代，计算公式如下：

对比结果如表1和表2所示，可以发现，使用本发明相较于其他方法，能够在较快的推理速度下得到更加准确的分割结果，充分保证了推理速度和分割精度的均衡。

图8所示为本发明实施方式对视频序列的分割结果与其他方法分割结果对比图。其中图8(a)为测试数据集的视频测试样例，图8(b)为测试样例对应的标签，图8(c)-(f)依次为本发明、FRTM、RANet、RGMP的分割结果，可以看到图8(e)方法和图8(f)方法对存在着多目标物体之间遮挡交互的视频序列分割效果不佳，有误分类和遗漏现象发生，比如第3行测试样例中摩托车上的人以及第5行测试样例中右侧的宠物犬；图8(d)方法对小目标物体的分割较为粗糙，比如第4行测试样例中人手里的枪械，同时该方法对部分物体存在着割裂现象，比如第2行测试样例中的赛车。可以看出，本发明相较于以上方法，具备更好的分割效果，能更加有效地处理物体遮挡、物体尺寸过小等异常情况。

以上所述实施例仅为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围之内。

表1

表2

Claims

1.一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于包括以下步骤：

(1)获取数据集与分割标签：

获取半监督视频目标分割数据集与对应的分割标签；

(2)构建分割模型，具体包括以下步骤：

(2-b)构建多尺度目标模型，该模型由两个独立的目标模型T^l和T^h构成，两者各包括一个1×1卷积模块和一个3×3卷积模块，将步骤(2-a)得到的中间特征图x^r2和x^r3分别作为T^l和T^h的输入；目标模型T^l和T^h中的1×1卷积模块都是对特征进行降维；目标模型T^l中的3×3卷积模块得到低维目标外观信息cs^l，目标模型T^h中的3×3卷积模块得到高维目标外观信息cs^h；

(2-c)构建分割解码器，其中包括四层解码结构，第一层解码结构包括一个特征融合模块，一个通道注意力模块，一个细化残差模块和一个全局池化模块；第二、三、四层解码结构均包括一个特征融合模块，一个通道注意力模块和一个细化残差模块；其中特征融合模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合，来捕捉不同视频帧之间目标的动态变化，该模块包括尺度转换和自适应融合两个部分，其中尺度转换部分将目标外观信息与中间特征图映射到同一尺度并拼接到一起，自适应融合部分计算拼接后的特征图中的各特征通道权重并进行适应性加权；通道注意力模块的作用是将不同层的特征图进行通道注意力优化；细化残差模块的作用是对特征图进行进一步细化，优化目标细节；

将目标特征图o¹进行上采样，得到分割结果

完成分割模型的构建；

(3)训练分割模型：

(4)推理：

以及每帧的样本权重θ；接着按顺序输入其余帧，使用步骤(2-a)中构建的特征提取器提取特征，使用步骤(2-b)中构建的多尺度目标模型提取目标外观信息，使用(2-c)中构建的包含特征融合模块的分割解码器捕捉帧间动态变化并细化特征信息，得到对应帧的分割结果，将分割结果与步骤(2-a)中得到的中间特征图存入缓存池M；更新缓存池样本权重θ，达到缓存池容量上限后，删除权重最小的样本；

(5)视频目标分割：

2.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于，所述步骤(2-b)中的多尺度目标模型，该模型的作用是在视频推理阶段学习目标外观信息，提升视频推理速度，具体公式可表示为：

其中

和

分别表示T^l中的1×1卷积模块和3×3卷积模块，

和

分别表示T^h中的1×1卷积模块和3×3卷积模块，*表示卷积操作。

3.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于，所述步骤(2-c)中的分割解码器中的特征融合模块，该模块的作用是将步骤(2-b)中多尺度目标模型得到的目标外观信息与步骤(2-a)中提取的中间特征图进行融合，来捕捉不同视频帧之间目标的动态变化，具体过程为：

q^d＝Concat[U(cs^l),U(cs^h),R(x^rd)]

表示逐像素相乘操作，

表示逐像素相加操作，Concat表示拼接操作，q^d表示拼接后的特征图；Pool表示全局池化操作，Gate表示1×1卷积操作，σ表示sigmoid函数，Conv表示3×3卷积操作，s^d表示融合特征图。

4.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于，所述步骤(2-c)中的分割解码器中的通道注意力模块，该模块的作用是将不同层的特征图进行通道注意力优化，提升分割效果；通道注意力模块将同一特征层中通过步骤(2-c)中特征融合模块得到的融合特征图与前一特征层中通过步骤(2-c)中细化残差模块得到的目标特征图合并后进行全局池化，得到初始通道权重，其中最底层的目标特征图用对最底层的融合特征图进行全局池化操作得到的特征图来代替；初始通道权重依次通过由1×1卷积块、ReLU函数、1×1卷积块和sigmoid函数组成的通道注意力结构进行权重优化；将优化后的通道权重与融合特征图进行逐像素相乘，再将相乘结果与经过上采样操作的目标特征图进行逐像素相加，得到注意力特征图。

5.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于，所述步骤(2-c)中的分割解码器中的细化残差模块，该模块的作用是对特征图进行进一步细化，优化目标细节；细化残差模块的输入为同一特征层中步骤(2-c)中通道注意力模块得到的注意力特征图，将注意力特征图依次通过1×1卷积块、3×3卷积块、批归一化操作、ReLU函数以及3×3卷积块后得到的特征图与原注意力特征图通过1×1卷积块后得到的特征图进行逐像素相加，再通过ReLU函数得到目标特征图。

6.如权利要求1所述的一种基于多尺度目标模型和特征融合的半监督视频目标分割方法，其特征在于，所述步骤(4)中的推理，推理阶段将测试视频数据逐帧输入至分割模型，输入初始帧后，使用步骤(2-a)中构建的特征提取器提取特征，并初始化缓存池M；缓存池M存储样本信息来更新多尺度目标模型，缓存池M可表示为：

其中N为缓存池最大容量，N为整数，且50≤N≤100，x^r2和x^r3为步骤(2-a)中得到的中间特征图，θ表示样本权重，

存在两种情况：在初始帧中

表示该帧对应标签，在其余帧中

则表示步骤(2-d)中得到的分割结果；

θ_i＝(1+δ)θ_i-1