CN116311002B

CN116311002B - 一种基于光流信息的无监督视频目标分割方法

Info

Publication number: CN116311002B
Application number: CN202310570895.1A
Authority: CN
Inventors: 余锋; 陈钊翔; 李会引; 姜明华; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-11
Anticipated expiration: 2043-05-19
Also published as: CN116311002A

Abstract

本发明公开了一种基于光流信息的无监督视频目标分割方法，所述的基于光流的无监督视频目标分割方法，包括以下步骤：首先设计基于光流信息的视频目标分割网络，然后设计伪目标损失函数，确定训练过程中调节参数的策略，最后训练得到无监督视频目标分割模型，该模型可以将输入的视频中运动的目标分割出来。本发明通过改进深度学习算法可以明显提升视频目标分割的性能，提供了一种无监督视频目标分割方法，大大节省了人力，无需人力标注真实标签，可以较为快速的移植到其他视频目标分割任务中。

Description

一种基于光流信息的无监督视频目标分割方法

技术领域

本发明涉及无监督视频目标分割领域，并且更具体地，涉及一种基于光流信息的无监督视频目标分割方法。

背景技术

无监督视频分割任务近年来显示出越来越突出了作用,它的主要目的是在无人为干涉的情况下分割出视频中的主要运动物体。无监督视频分割广泛地被应用于视频推理，视频理解等领域。其中基于像素匹配和传播的算法可以对模型进行端到端的训练,避免了中间结果的影响,但是相似的物体会有相似的特征表现,因此该种方法会造成物体时域上联系失败。因此在无监督领域，在相似特征中寻找出目标的特征表示来引导学习，这是提升无监督视频对象分割的关键。

公开号为CN113139502A的中国专利公开了“无监督视频分割方法”，提出了同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位，来辅助视频目标分割，这种方法确实可以在一定程度上提升视频目标分割的精度，但是同时读取所有视频帧其网络消耗很大，且这些视频存在大量的冗余信息会对目标对象产生干扰。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种基于光流信息的无监督视频目标分割方法，其目的在于通过深度学习算法自动实现对视频目标的分割，在没有真实分割标签的条件下提高对视频中目标的分割精度。

为实验上述目的，按照本发明的一个方面，提供了一种基于光流信息的无监督视频目标分割方法，包括以下步骤：

步骤1，构建基于光流信息的视频目标分割网络；

所述的视频目标分割网络包括两条分支，分别为外观特征提取分支和运动特征提取分支，具体是由外观特征模块，运动特征模块，以及共享的多源信息聚合模块和目标解码模块构成，其中外观分支主要用来提取当前帧的空间图像特征，而运动特征提取分支用来提取光流图中的运动信息，多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合，目标解码模块用来还原特征图信息；两个特征提取分支的输入不同，由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片，而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像，如果当前帧是第一帧，那么两个分支的输入都是当前视频帧；

步骤2，使用视频帧数据集和视频帧对应的光流图，训练视频目标分割网络；

步骤3，利用光流图和当前视频帧生成目标伪标签，使用伪标签损失计算网络输出的分割结果与目标伪标签误差；

步骤4，根据伪标签损失误差，通过反向传播更新视频目标分割网络的参数，重复步骤2到步骤4，直至模型收敛；

步骤5，利用训练好的模型实现视频目标分割。

进一步的，所述的视频目标分割网络具体处理流程如下：

外观特征提取分支由4个外观特征模块组成，分别记为M1，M2，M3和M4，运动特征图提取分支也是有4个运动特征模块组成，分别记为N1，N2，N3和N4，以上这些模块都是按照次序执行的；多源信息聚合模块有3个，分别记为D1，D2和D3，目标解码模块有4个，分别记为B1，B2，B3和B4；D1的输入为M4和N4的输出特征图，D2的输入为M3，N3和B1的输出特征图，D3的输入为M2，N2和B2的输出特征图； B1的输入是D1的输出，B2的输入是D2的输出，B3的输入是D3的输出，B4的输入是B3的输出。

进一步的，多源信息聚合模块和目标解码模块的具体流程为：D1的具体流程是先将M4和N4的输出特征图进行特征相加，再进行1×1分组卷积来信息整合；D2的具体流程是先将M3和N3的输出特征图进行特征相加，然后将得到的特征图与B1的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数；D3的具体流程是将M2和N2的输出特征图进行特征相加，然后将得到的特征图与B2的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数；B1的具体流程是使用3×3深度卷积对D1的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B2的具体流程是使用3×3深度卷积对D2的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B3的具体流程是使用3×3深度卷积对D3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B4的具体流程是使用3×3深度卷积对B3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小，用于区分视频目标中的前景与背景。

进一步的，所述步骤2中的光流图的生成方法，在训练过程中使用的是已经生成好的光流图以提升训练的速度，而在应用过程中采用在线生成光流图的方式。

进一步的，所述步骤3中的伪标签损失函数：

公式中F_t代表视频目标分割网络最终的预测特征图，G_t代表根据当前帧和当前帧对应的光流图生成的伪目标标签，n代表当前视频帧的帧数，ε代表伪标签误差的第二部分权重系数，如果当前帧为第一帧，则伪目标标签为初始设定的一个矩形区域。

进一步的，所述外观特征模块的具体构成如下：

每个外观特征模块中包含有多个外形特征提取卷积块，其中的卷积块采用残差结构，有两条分支，第一条分支包括5×5卷积，1×1分组卷积，3×3深度卷积和1×1分组卷积，而第二条分支只包括一个3×3平均池化，这两条分支同时处理输入特征图，然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出；这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu，而1×1分组卷积使用的激活函数是Relu。

进一步的，所述运动特征模块的具体构成如下：

每个运动特征模块中包含有多个运动特征提取卷积块，其中的卷积块采用残差结构，有两条分支，第一条分支包括5×5卷积，1×1分组卷积，3×3深度卷积和1×1分组卷积，而第二条分支中有两个小分支，其中一个小分支是3×3平均池化，另一个小分支是3×3最大池化，将这两条小分支的进行特征图拼接，然后使用1×1分组卷积输出通道数为1的特征图；将两条主分支输出的特征图进行特征图相乘得到最终输出，有助于网络对特征显著位置的学习，这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu，而1×1分组卷积使用的激活函数是Relu。

进一步的，所述外观特征模块中卷积块的设置：M1，M2，M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积和3×3平均池化的步长为1。

进一步的，所述运动特征模块中卷积块的设置：N1，N2，N3和N4中的第一个运动特征提取卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为1。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）首先通过加深网络的深度结合在运动特征提取卷积块中增加对空间信息的提取，有效的提高模型识别的精确度和模型的学习能力。

（2）使用创新的损失函数，使模型训练的更加关注预测目标标签与伪目标标签的平均差异，同时防止了损失过大的情况。

（3）网络训练无需人工标注的真实目标标签，可以节省人工且可以较快的移植到各种视频目标分割任务中。

附图说明

图1 本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图。

图2本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。

图3本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图。

图4本发明实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种基于光流信息的无监督视频目标分割方法的技术方案，请参见附图1，图1是实施用例提供的一种基于光流信息的无监督视频目标分割方法的技术方案流程图，具体包含如下步骤：

（1）构建基于光流信息的视频目标分割网络；

所述的视频目标分割网络，请参见附图2，图2是实施用例提供的一种基于光流信息的无监督视频目标分割方法的网络框架示意图。其是由两条分支构成，分别为外观特征提取分支和运动特征提取分支；

具体的，视频目标分割网络是由外观特征模块，运动特征模块，多源信息聚合模块和目标解码模块组合构成的。其中两个特征提取分支的输入不同，由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片，而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像，如果当前帧是第一帧，那么两个分支的输入都是当前视频帧，这可以使网络不那么依赖于光流图。

具体的，视频目标分割网络具体处理流程如下：外观特征提取分支由4个外观特征模块组成，分别记为M1，M2，M3和M4，运动特征图提取分支也是有4个运动特征模块组成，分别记为N1，N2，N3和N4，以上这些模块都是按照次序执行的。而多源信息聚合模块有3个，分别记为D1，D2和D3，目标解码模块有4个，分别记为B1，B2，B3和B4。这里D1的输入为M4和N4的输出特征图，D2的输入为M3，N3和B1的输出特征图，D3的输入为M2，N2和B2的输出特征图。这里B1的输入是D1的输出，B2的输入是D2的输出，B3的输入是D3的输出，B4的输入是B3的输出。

其中多源信息聚合模块和目标解码模块的具体流程为：D1的具体流程是先将M4和N4的输出特征图进行特征相加，再进行1×1分组卷积来信息整合。D2的具体流程是先将M3和N3的输出特征图进行特征相加，然后将得到的特征图与B1的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数。D3的具体流程是将M2和N2的输出特征图进行特征相加，然后将得到的特征图与B2的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数。B1的具体流程是使用3×3深度卷积对D1的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数。B2的具体流程是使用3×3深度卷积对D2的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数。B3的具体流程是使用3×3深度卷积对D3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数。B4的具体流程是使用3×3深度卷积对B3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小，用于区分视频目标中的前景与背景。

具体的，外观特征模块和运动特征模块的具体构成。主要注意的是外观特征模块M1，M2，M3和M4中的外形特征提取卷积块数量分别为3,3,9和3，运动特征模块N1，N2，N3和N4中的运动特征提取卷积块数量分别也是3,3,9和3。

其中，每个外观特征模块中包含有多个外形特征提取卷积块，请参见附图3，图3是实施例提供的一种基于光流信息的无监督视频目标分割方法的外形特征提取卷积块示意图，其中的卷积块采用残差结构有两条分支，第一条分支由5×5卷积，1×1分组卷积，3×3深度卷积和1×1分组卷积，而第二条分支有一个3×3平均池化，这两条分支同时处理输入特征图，然后这两条分支的输出进行特征图的相加得到运动特征提取卷积块的最终输出。这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu，而1×1分组卷积使用的激活函数是Relu。

其中，每个运动特征模块中包含有多个运动特征提取卷积块，请参见附图4，图4是实施例提供的一种基于光流信息的无监督视频目标分割方法的运动特征提取卷积块示意图。其中的卷积块采用残差结构有两条分支，第一条分支由5×5卷积，1×1分组卷积，3×3深度卷积和1×1分组卷积，而第二条分支中有两个小分支，其中一个小分支是3×3平均池化，另一个小分支是3×3最大池化，将这两条小分支的进行特征图拼接，然后使用1×1分组卷积输出通道数为1的特征图。将两条主分支输出的特征图进行特征图相乘得到最终输出，这个有助于网络对特征显著位置的学习，这里的激活函数设置同上。

具体的，外观特征模块和运动特征模块中卷积块的设置如下：M1，M2，M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积和3×3平均池化的步长为1。N1，N2，N3和N4中的第一个运动特征提取卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为1。

（2）使用视频帧数据集和视频帧对应的光流图，训练视频目标分割网络；

具体的，在训练过程中使用的是已经生成好的光流图以提升训练的速度，而在应用过程中我们采用在线生成光流图的方式。

（3）利用光流图和当前视频帧生成的目标伪标签，使用伪标签损失计算网络输出的分割结果与目标伪标签误差；

具体的，伪标签损失函数如下：

公式中F_t代表视频目标分割网络最终的预测特征图，G_t代表根据当前帧和当前帧对应的光流图生成的伪目标标签，n代表当前视频帧的帧数，ε代表伪标签误差的第二部分权重系数，其中ε通常取值为1.2，如果当前帧为第一帧，则G_t的伪目标标签为初始设定的一个矩形区域，目标区域参数为[X_x,X_y,X_w,X_h]，其中X_x和X_y代表矩形区域的左上坐标，X_w和X_h代表矩形区域的高宽信息，X_x,X_y,X_w和X_h通常设置为特征图高宽的四分之一。这个损失函数可以通过超参数的设置有效的通过预测特征图与伪目标标签误差，调节网络参数的学习，提高视频对象分割准确性。

（4）根据伪标签损失误差，通过反向传播更新视频目标分割网络的参数，重复实施用例（2）到（4），直至模型收敛。

（5）利用训练好的模型实现视频目标分割。

本发明提供一种基于光流信息的无监督视频目标分割方法，我们的模型在无需人工标注的视频目标标签情况下，也可以达到不错的模型识别精度。通过上述实施用例方法设计无监督视频目标分割网络，并训练得到的基于光流信息的无监督视频目标分割模型，在现实情况下的验证中，我们的方法在DAVIS 2017 Unsupervised验证集上的平均交并比达到了80.9%，已达到目前的先进水平。

本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于光流信息的无监督视频目标分割方法，其特征在于，包括以下步骤：

步骤1，构建基于光流信息的视频目标分割网络；

所述的视频目标分割网络包括两条分支，分别为外观特征提取分支和运动特征提取分支，具体是由外观特征模块，运动特征模块，以及共享的多源信息聚合模块和目标解码模块构成，其中外观特征提取分支用来提取当前帧的空间图像特征，而运动特征提取分支用来提取光流图中的运动信息，多源信息聚合模块用来将外观特征分支和运动特征分支中的信息融合，目标解码模块用来还原特征图信息；两个特征提取分支的输入不同，由外观特征提取模块组成的外观特征提取分支的输入是当前视频帧图片，而由运动特征提取模块组成的运动特征提取分支的输入是前一视频帧与当前视频帧生成的光流图像，如果当前帧是第一帧，那么两个分支的输入都是当前视频帧；

所述的视频目标分割网络具体处理流程如下：

外观特征提取分支由4个外观特征模块组成，分别记为M1，M2，M3和M4，运动特征提取分支也是由4个运动特征模块组成，分别记为N1，N2，N3和N4，以上这些模块都是按照次序执行的；多源信息聚合模块有3个，分别记为D1，D2和D3，目标解码模块有4个，分别记为B1，B2，B3和B4； D1的输入为M4和N4的输出特征图，D2的输入为M3，N3和B1的输出特征图，D3的输入为M2，N2和B2的输出特征图； B1的输入是D1的输出，B2的输入是D2的输出，B3的输入是D3的输出，B4的输入是B3的输出；

步骤5，利用训练好的模型实现视频目标分割。

2.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：多源信息聚合模块和目标解码模块的具体流程为：D1的具体流程是先将M4和N4的输出特征图进行特征相加，再进行1×1分组卷积来信息整合；D2的具体流程是先将M3和N3的输出特征图进行特征相加，然后将得到的特征图与B1的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B1输出特征图的通道数；D3的具体流程是将M2和N2的输出特征图进行特征相加，然后将得到的特征图与B2的输出特征图特征拼接，再使用1×1分组卷积来将特征图的通道数调整为原来B2输出特征图的通道数；B1的具体流程是使用3×3深度卷积对D1的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B2的具体流程是使用3×3深度卷积对D2的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B3的具体流程是使用3×3深度卷积对D3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积来调整特征图的通道数；B4的具体流程是使用3×3深度卷积对B3的输出进行处理，然后使用一个双线性上采样层来还原特征图信息，最后使用1×1分组卷积输出通道数为2的特征图其高宽大小为原图大小，用于区分视频目标中的前景与背景。

3.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述外观特征模块的具体构成如下：

每个外观特征模块中包含有多个外形特征提取卷积块，其中的卷积块采用残差结构，有两条分支，第一条分支包括5×5卷积，1×1分组卷积，3×3深度卷积和1×1分组卷积，而第二条分支只包括一个3×3平均池化，这两条分支同时处理输入特征图，然后这两条分支的输出进行特征图的相加得到外观特征提取卷积块的最终输出；这里的5×5卷积和3×3深度卷积之后使用的激活函数是Leaky Relu，而1×1分组卷积使用的激活函数是Relu。

4.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述运动特征模块的具体构成如下：

5.如权利要求3所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述外观特征模块中卷积块的设置：M1，M2，M3和M4中的第一个外形特征提取卷积块中的5×5卷积和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积和3×3平均池化的步长为1。

6.如权利要求4所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述运动特征模块中卷积块的设置：N1，N2，N3和N4中的第一个运动特征提取卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为2，用于缩小特征图的高宽，其余的卷积块中的5×5卷积，3×3最大池化和3×3平均池化的步长为1。

7.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述步骤2中的光流图的生成方法，在训练过程中使用的是已经生成好的光流图以提升训练的速度，而在应用过程中采用在线生成光流图的方式。

8.如权利要求1所述的一种基于光流信息的无监督视频目标分割方法，其特征在于：所述步骤3中的伪标签损失函数：

;