CN111652081B

CN111652081B - 一种基于光流特征融合的视频语义分割方法

Info

Publication number: CN111652081B
Application number: CN202010401842.3A
Authority: CN
Inventors: 周世杰; 王蒲; 程红蓉; 刘启和; 廖永建; 潘鸿韬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2022-08-05
Anticipated expiration: 2040-05-13
Also published as: CN111652081A

Abstract

本发明公开了一种基于光流特征融合的视频语义分割方法，包括如下步骤：步骤1，判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像；若为关键帧图像，则执行步骤2，若为非关键帧图像，则执行步骤3；步骤2，提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图；步骤3，通过计算光流场得到当前视频帧图像的高层语义特征图；步骤4，对步骤2和步骤3得到的高层语义特征图进行上采样，得到语义分割图。本发明的方法中融入了光流场和注意力机制思想，可以提升视频语义分割的速率和准确率。

Description

一种基于光流特征融合的视频语义分割方法

技术领域

本发明涉及视频处理技术领域，尤其是一种基于光流特征融合的视频语义分割方法。

背景技术

伴随着汽车主动安全和智能化市场需求的不断增加，越来越多的企业和研究机构开始致力于自动驾驶系统的研究和开发。自动驾驶系统中的环境感知技术作为自动驾驶车辆的眼、耳，为自动驾驶的行为决策系统提供支撑作用。在自动驾驶环境感知技术中，对车辆摄像头所采集的实时视频数据进行快速、准确的语义分割是其中至关重要的技术。

自动驾驶汽车对真实驾驶场景进行语义分割，核心问题是对道路语义信息进行提取，以及提高算法的分割速度和在各类复杂环境中对驾驶场景的分割精度。在自动驾驶高动态环境下，常规的基于图像特征的视觉算法难以发挥出实用性效果。近年来，随着基于深度卷积神经网络的语义分割算法的快速发展，在各类图像分割应用中取得了良好的效果。目前，采用深度卷积网络学习方法进行图像语义分割已经成为主流。但是，随着自动驾驶等领域的发展，图像语义分割已经不能满足这些领域的需要，视频语义分割任务逐渐成为新的重点研究方向。相对于图像数据而言，视频数据更加容易获得，它更是目前信息传播的主要载体，因此如何高效地完成视频语义分割任务是目前计算机视觉领域所面临的重要难题之一。它的困难主要表现在两个方面：

第一，在自动驾驶应用领域中，视频数据中的实例多而复杂，导致视频语义分割算法语义分割精度低。

第二，与图像语义分割任务相比，视频语义分割任务所处理的数据量更大，导致视频语义分割算法计算量更大，分割延迟性高。

针对上面所描述的两个问题，当前的视频语义分割算法主要是从两个方面来研究视频语义分割任务：一方面是捕捉视频序列的更多特征信息，通过这些信息提升特征图对视频帧的语义表征能力，从而提升视频帧的语义分割准确率；另一方面是基于视频序列之间的相关性，通过选取视频序列关键帧的方式，减少整个视频序列的计算量，提升视频语义分割算法的分割速度。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种基于光流特征融合的视频语义分割方法。

本发明采用的技术方案如下：

一种基于光流特征融合的视频语义分割方法，包括如下步骤：

步骤1，判定视频序列的当前视频帧图像为关键帧图像或非关键帧图像；若为关键帧图像，则执行步骤2，若为非关键帧图像，则执行步骤3；

步骤2，提取当前视频帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图；

步骤3，通过计算光流场得到当前视频帧图像的高层语义特征图；

步骤4，对步骤2和步骤3得到的高层语义特征图进行上采样，得到语义分割图。

进一步地，步骤1包括如下子步骤：

步骤1.1，从视频序列中选取第一个视频帧图像作为第一个关键帧图像；

步骤1.2，采用第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度expectscore；

步骤1.3，将步骤1.2得到的相似度expect score与设定的相似度阈值target进行比较：

当expect score＞target时，则当前视频帧图像判定为非关键帧图像；

当expect score＜target时，则当前视频帧图像判定为关键帧图像，并将该判定为关键帧图像的当前视频帧图像作为新的关键帧图像，用于判定视频序列中的后续视频帧图像是否为关键帧图像。

进一步地，步骤1.2中的所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层。

进一步地，步骤2包括如下步骤：

步骤2.1，采用第二深层卷积网络提取关键帧图像的高层语义特征图；

步骤2.2，将步骤2.1得到的高层语义特征图送入位置注意力模块，得到融合位置依赖信息的高层语义特征图；

步骤2.3，将步骤2.1得到的高层语义特征图送入通道注意力模块，得到融合通道依赖信息的高层语义特征图；

步骤2.4，对步骤2.2和步骤2.3的结果采用对位相乘的方式进行融合，得到融合位置依赖信息和通道依赖信息的高层语义特征图。

进一步地，步骤2.2包括如下子步骤：

步骤2.2.1，将三份由步骤2.1中得到的高层语义特征图进行1*1卷积，得到高层语义特征图A、B、C，其中A、B、C的大小均为K*H*W；

步骤2.2.2，将A进行reshape并ranspose得到A′，大小为N*K且N＝H*W，将B、C分别reahape得到B′、C′，大小为K*N且N＝H*W；

步骤2.2.3，将步骤2.2.2得到的A′与B′相乘并做归一化处理，得到位置注意力特征图S，S的大小为K*K；

步骤2.2.4，将C′与位置注意力特征图相乘S，得到位置注意力特征图D₁；

步骤2.2.5，将位置注意力特征图D与通过第二深度卷积网络得到的高层语义特征图进行融合，得到融合位置依赖信息的高层语义特征图E；表示为：

E＝αD₁+feat_key_i

其中，α表示融合位置依赖信息的权重系数；feat_key_i表示通过第二深度卷积网络得到的高层语义特征图。

进一步地，步骤2.3包括如下子步骤：

步骤2.3.1，将一份由步骤2.1中得到的高层语义特征图，进行reshape并transpose得到A″，大小为N*K且N＝H*W；将两份由步骤2.1中得到的高层语义特征图进行reshape得到B″、C″，大小为K*N且N＝H*W；

步骤2.3.2，将步骤2.3.1得到的A″与B″相乘并做归一化处理，得到通道注意力特征图X；

步骤2.3.3，将C″与通道注意力特征图X相乘，得到通道注意力特征图D₂；

步骤2.3.4，将通道注意力特征图D₂与通过第二深度卷积网络得到的高层语义特征图进行融合，得到融合通道依赖信息的高层语义特征图F；表示为：

F＝βD₂+feat_key_i

其中，β表示融合通道依赖信息的权重系数；feat_key_i表示通过第二深度卷积网络得到的高层语义特征图。

进一步地，所述第二深层卷积网络的结构由多个卷积层和池化层交替组成。

进一步地，步骤3包括如下子步骤：

步骤3.1，采用第三深度卷积网络计算判定为非关键帧图像的当前视频帧图像和关键帧图像(即在处理当前视频帧图像时，由步骤1中确定的当前关键帧图像)的光流场；

步骤3.2，融合步骤3.1得到的光流场以及步骤2得到的关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图，得到判定为非关键帧图像的当前视频帧图像的高层语义特征图。

进一步地，所述第三深度卷积网络的结构包括：收缩部分和扩大部分；收缩部分采用9个卷积层对输入图像进行下采样，以提取输入图像的特征得到特征图；扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。

进一步地，步骤4中进行上采样的方法为通过反卷积运算的形式实现。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明的方法中融入了光流场，可以快速获得非关键帧图像的高层语义特征图，以此提升了视频语义分割速率。

2、本发明的方法中融入了注意力机制的思想，增加了位置注意力模块和通道注意力模块，丰富了高层语义特征图的语义信息，由此提升了视频语义分割的准确率。

将光流网络应用到语义分割任务中，将视频序列中大部分非关键帧获得高层语义特征由传统的复杂、缓慢的深度卷积网络，转化为光流特征融合的方法，以此节约模型计算时间，提升视频流语义分割的速率。同时，利用注意力机制的思想，在关键帧高层语义特征的提取中增加注意力模块，以捕捉视频帧的位置依赖性与通道依赖性，并丰富高层次语义信息，提升特征图对视频帧的语义表征能力，提高视频语义分割精度，

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的基于光流特征融合的视频语义分割方法的流程框图。

图2为本发明实施例的基于光流特征融合的视频语义分割方法的原理图。

图3为本发明实施例的第一深度卷积网络的结构示意图。

图4为本发明实施例的第三深度卷积网络的结构示意图。

图5为本发明实施例的融合关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图以及光流场的原理图。

具体实施方式

如图1所示，本发明提供的一种基于光流特征融合的视频语义分割方法，包括如下步骤：

以下结合实施例对本发明的特征和性能作进一步的详细描述。

本实施例的一种基于光流特征融合的视频语义分割方法如图2所示，具体地：

由于连续的视频序列具有强烈的相关性，且相邻视频帧之间的变化很小，因此，可以通过区分视频序列中的视频帧图像为关键帧图像或非关键帧图像的方式，减少视频语义分割模型对视频流的计算量。具体地，步骤1包括如下子步骤：

也就是说，对于一个包含无数视频帧的视频序列，默认选择视频序列的第一个视频帧作为该视频序列的第一个关键帧，用以计算后续视频帧与关键帧的相似度。表示为：

I_key＝I₀

本实施例中，设I_n表示视频序列的视频帧，其中n＝0,1,2,…，即I₀表示视频序列的第一个视频帧；I_key表示关键帧；

步骤1.2，采用第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度expect score；

为了保证视频语义分割的精度，需要对关键帧图像和非关键帧图像的相似度进行判别，因此需要对当前视频帧图像和视频序列的当前关键帧图像之间的相似度进行计算。本实施例采用一个简单的第一深度卷积网络计算当前视频帧图像和关键帧图像之间的相似度；如图3所示，所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层，计算公式如下：

expect score＝DN(I_c,I_key)

其中，expect score表示当前视频帧图像和关键帧图像之间的相似度；DN()表示该第一深度卷积网络；I_c表示当前视频帧图像；I_key表示视频序列中的当前关键帧图像。

步骤1.3，将步骤1.2得到的相似度expect score与设定的相似度阈值target进行比较；

经步骤1.2得到了当前视频帧图像与关键帧图像的相似度expect score，为保证整个视频流的分割精度，则需要将expect score与系统给定的可接受的两帧之间最低的相似度(相似度阈值)target进行比较。具体地：

当expect score＞target时，表示当前视频帧图像与关键帧图像之间的相似度较高，可以通过光流特征融合的方式得到该当前视频帧图像的高层语义特征，即将当前视频帧图像判定为非关键帧图像；

当expect score＜target时，表示当前视频帧图像与关键帧图像之间差异较大，为保证语义分割精度，则需要将该当前视频帧图像通过深度卷积网络的方式提取得到高层语义特征，即将当前视频帧图像判定为关键帧图像，并将该判定为关键帧图像的当前视频帧图像作为新的关键帧图像，用于判定视频序列中的后续视频帧图像是否为关键帧图像；表示为：

I_key＝I_c

I_c表示当前视频帧图像。

本实施例首先通过一个深度卷积网络对当前视频帧图像(即经过步骤1判定为关键帧图像的当前视频帧图像)的高层语义特征图进行提取，但由于卷积操作是稀疏的，在经过深度卷积网络得到当前视频帧图像的高层语义特征，都是采用局部感受野对特征进行提取，所以进行一次卷积运算根本不能覆盖一张视频帧图像全部的语义信息。同时，考虑到视频帧图像上不同位置的像素点在空间上的依赖性和不同通道的依赖性将对分割的结果产生影响。因此本发明利用注意力机制思想，对深度卷积网络提取的高层语义特征图融入位置依赖信息和通道依赖信息，以此提升高层语义特征图对视频帧图像的语义表征能力。具体地，步骤2包括如下子步骤：

如图4所示，所述第二深层卷积网络的结构由多个卷积层和池化层交替组成，其中卷积层的作用是局部感知当前视频帧图像的信息，池化层的作用是对卷积层提取到的特征进行降维，输入为当前视频帧图像，输出为高层语义特征图。表示为：

feat_key_i＝Conv(I_k)

其中，I_k表示判定为关键帧图像的当前视频帧图像，Conv()函数表示一系列卷积池化操作，feat_key_i表示提取判定为关键帧图像的当前视频帧图像的高层语义特征图。

步骤2.2，将步骤2.1得到的高层语义特征图送入位置注意力模块，得到融合位置依赖信息的高层语义特征图；该步骤2.2包括如下子步骤：

步骤2.2.1，将三份由步骤2.1中得到的高层语义特征图进行1*1卷积，得到高层语义特征图A、B、C，其中A、B、C的大小均为K*H*W；表示为：

A、B、C＝Conv1(feat_key_i)

步骤2.2.2，步骤2.2.2，将A进行reshape并ranspose(reshape是将矩阵改变形状操作，transpose是转置操作)得到A′，大小为N*K且N＝H*W，将B、C分别reshape得到B′、C′，大小为K*N且N＝H*W；表示为：

A′＝reshape&transpose(A)

B′＝reshape(B)

C′＝reshape(C)

步骤2.2.3，将步骤2.2.2得到的A′与B′相乘并做归一化处理，得到位置注意力特征图S；表示为：

S＝Softmax(B′*A′)

其中Softmax()表示归一化函数，S的大小为K*K。

步骤2.2.4，将C′与位置注意力特征图相乘S，得到位置注意力特征图D₁；表示为：

D₁＝C′*S

E＝αD₁+feat_key_i

步骤2.3，将步骤2.1得到的高层语义特征图送入通道注意力模块，得到融合通道依赖信息的高层语义特征图；该步骤2.3包括如下子步骤：

步骤2.3.1，将一份由步骤2.1中得到的高层语义特征图，进行reshape并transpose得到A″，大小为N*K且N＝H*W；将两份由步骤2.1中得到的高层语义特征图进行reshape得到B″、C″，大小为K*N且N＝H*W；表示为：

A″＝reshape&transpose(feat_key_i)

B″＝reshape(feat_key_i)

C″＝reshape(feat_key_i)

步骤2.3.2，将步骤2.3.1得到的A″与B″相乘并做归一化处理，得到通道注意力特征图X；表示为：

X＝Softmax(B″*A″)

其中Softmax()表示归一化函数，X的大小为K*K。

步骤2.3.3，将C″与通道注意力特征图X相乘，得到通道注意力特征图D₂；表示为：

D₂＝C″*X

F＝βD₂+feat_key_i

步骤2.4，对步骤2.2和步骤2.3的结果采用对位相乘(element-wise)的方式进行融合，得到融合位置依赖信息和通道依赖信息的高层语义特征图feat_key；表示为：

feat_key＝E⊙F

为了提取视频序列中的每一帧视频帧图像的高层语义特征图，传统的方法是利用深度卷积网络，来进行复杂的深层运算得到。但是这种形式对于视频流来说，计算量很大，因此通过相似帧图像之间的光流场原理，采用当前视频帧图像与关键帧图像之间的光流场和关键帧图像的高层语义特征图进行融合得到当前视频帧图像的高层语义特征图的方式，就能大大缩短高层语义特征图提取的时间，由此提升语义分割的速度。也就是说，本发明通过计算关键帧图像与非关键帧图像之间的光流场，能够快速得到判定为非关键帧图像的当前视频帧图像的高层语义特征图。具体地，步骤3包括如下子步骤：

光流场包含了视频帧图像中的物体实例(如天空、树木、车辆等)在关键帧图像和非关键帧图像之间的相对位移，也即对应关系，同时这种对应关系同样表现在两视频帧图像的高层语义特征图之间。因此，可以通过该光流场和关键帧图像的高层语义特征图获得判定为非关键帧图像的当前视频帧图像的高层语义特征图。

传统计算光流场的方法有很多种，主要包括：基于匹配的方法、基于梯度的方法、基于相位的方法、基于能量的方法以及神经动力学的方法这五类。由于传统计算方法速度较慢、精度较低，因此本实施例采用第三深度卷积网络来计算光流场。所述第三深度卷积网络的输入为判定为非关键帧图像的当前视频帧图像和关键帧图像，输出为两者之间的光流场，该第三深度卷积网络的结构包括收缩部分和扩大部分；收缩部分采用9个卷积层对输入图像进行下采样，以提取输入图像的特征得到特征图；实例中，其中6个导致卷积核翻倍的卷积层的步长(stride)为2，其余卷积层的步长为1，在所述6个卷积层的每一个后面连接一个非线性激活函数ReLu；并且第1个卷积层的卷积核尺寸为7*7，第2-3个卷积层的卷积核尺寸为5*5，第4-9个卷积层的卷积核尺寸为3*3；扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。表示为：

其中，

表示当前视频帧图像I_i到关键帧图像I_key的光流场，FlowNet()表示光流网络，即第三深度卷积网络。

步骤3.2，如图5所示，融合步骤2得到的关键帧图像的融合位置依赖信息和通道依赖信息的高层语义特征图以及步骤3.1得到的光流场，得到判定为非关键帧图像的当前视频帧图像的高层语义特征图；

由步骤3.1可知，光流场不仅是两视频帧图像中的物体实例在关键帧图像和非关键帧图像之间的相对位移，同时也是其在高层语义特征图的对应关系。即，判定为非关键帧图像的当前视频帧图像的高层语义特征图可以看作是由关键帧图像的高层语义特征图经过光流场传播而来。本实施例依据这种关系，通过一个融合函数将步骤2得到的关键帧的融合位置依赖信息和通道依赖信息的高层语义特征图和步骤3.1所得到的光流场进行融合得到判定为非关键帧图像的当前视频帧图像的高层语义特征图；表示为：

其中，Warp()是一个融合函数，例如双线性插值映射函数，feat_key是步骤2得到的关键帧的融合位置依赖信息和通道依赖信息的高层语义特征图，feat_i是融合得到的判定为非关键帧图像的当前视频帧图像的高层语义特征图。

步骤4，对步骤2和步骤3得到的高层语义特征图进行上采样，得到语义分割图；

本发明最终要得到视频序列的语义分割结果，即要得到整个视频序列的每一个视频帧图像的像素级别分类。因此，由步骤2和步骤3分别得到了判定为关键帧图像和非关键帧图像的当前视频帧图像的高层语义特征图，该高层语义特征图包含了当前视频帧图像的语义信息。因此，为了得到和输入的视频序列中视频帧图像同等大小的语义分割图，还需将这些高层语义特征图进行上采样，本实施例进行上采样的方法为通过反卷积运算的形式实现；表示为：

Semantic_result_i＝Deconv(feat_i)

其中，Deconv()表示反卷积运算，feat_i表示视频序列第i帧图像的高层语义特征图，其中不论第i帧图像是否为关键帧图像。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于光流特征融合的视频语义分割方法，其特征在于，包括如下步骤：

步骤2包括如下步骤：

步骤2.4，对步骤2.2和步骤2.3的结果采用对位相乘的方式进行融合，得到融合位置依赖信息和通道依赖信息的高层语义特征图；

步骤2.2包括如下子步骤：

步骤2.2.2，将A进行reshape并ranspose得到A′，大小为N*K且N＝H*W，将B、C分别reshape得到B′、C′，大小为K*N且N＝H*W；

E＝αD₁+feat_key_i

其中，α表示融合位置依赖信息的权重系数；feat_key_i表示通过第二深度卷积网络得到的高层语义特征图；

步骤2.3包括如下子步骤：

F＝βD₂+feat_key_i

其中，β表示融合通道依赖信息的权重系数；feat_key_i表示通过第二深度卷积网络得到的高层语义特征图；

所述第二深层卷积网络的结构由多个卷积层和池化层交替组成。

2.根据权利要求1所述的基于光流特征融合的视频语义分割方法，其特征在于，步骤1包括如下子步骤：

3.根据权利要求2所述的基于光流特征融合的视频语义分割方法，其特征在于，步骤1.2中的所述第一深度卷积网络的结构包括依次连接的一个卷积层和三个全连接层。

4.根据权利要求1所述的基于光流特征融合的视频语义分割方法，其特征在于，步骤3包括如下子步骤：

步骤3.1，采用第三深度卷积网络计算判定为非关键帧图像的当前视频帧图像和关键帧图像的光流场；所述关键帧图像是在处理当前视频帧图像时，由步骤1中确定的当前关键帧图像；

5.根据权利要求4所述的基于光流特征融合的视频语义分割方法，其特征在于，所述第三深度卷积网络的结构包括：收缩部分和扩大部分；收缩部分采用9个卷积层对输入图像进行下采样，以提取输入图像的特征得到特征图；扩大部分则采用反卷积的方式对收缩部分输出的特征图进行上采样。

6.根据权利要求1所述的基于光流特征融合的视频语义分割方法，其特征在于，步骤4中进行上采样的方法为通过反卷积运算的形式实现。