CN110147763B

CN110147763B - 基于卷积神经网络的视频语义分割方法

Info

Publication number: CN110147763B
Application number: CN201910420733.3A
Authority: CN
Inventors: 何胜阳; 任广辉; 樊如愿; 熊阿龙; 魏俊杰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2023-02-24
Anticipated expiration: 2039-05-20
Also published as: CN110147763A

Abstract

基于卷积神经网络的视频语义分割方法，属于自动驾驶技术领域。为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的问题。本发明将卷积神经网络模型应用到视频语义分割中，并采用注意力机制和深度可分离卷积，构建W形网络，并在W形网络的基础上利用帧间相关信息，结合光流场的特征聚合算法，来实现不同帧之间的特征传播，进一步提升视频语义分割的速度，大大降低分割所需要的时间。本发明用于视频语义分割。

Description

基于卷积神经网络的视频语义分割方法

技术领域

本发明属于自动驾驶技术领域，具体涉及自动驾驶过程中目标的实时视频语义分割方法。

背景技术

语义分割就是根据每个像素的语义信息进行分割，同一语义的像素被赋予相同的颜色，既能够分割成不同区域，又能识别出其中的内容，而视频语义分割是指对视频中的每一帧都进行上述的语义分割操作。从20世纪70年代开始，美国、英国、德国等发达国家开始进行无人驾驶汽车的研究，中国从20世纪80年代也开始进行无人驾驶汽车的研究，无人车发展到现在在可行性和实用化方面都取得了突破性的进展，其对于汽车行业甚至是交通运输业有着深远的影响。视觉传感器是无人驾驶环境感知最重要的传感器之一，视觉传感器价格低廉，同时可以获取大量信息。利用视觉传感器可以获取图像信息，图像的语义分割是计算机视觉中重要的基本问题之一，其目的是对图像的每个像素点进行分类，将图像分割为若干个视觉上有意义的或感兴趣的区域，以利于后续的图像分析和视觉理解，这将非常适合自动驾驶的场景，在自动驾驶中，语义分割可以用来识别交通标志，车道线和障碍物，所以利用视觉传感器在对驾驶过程中的场景自动地进行理解和语义分割的研究在学术界，工业界都有着十分重要的意义。

通常来说视觉传感器获取图像视频信号的过程对效率的要求非常高，因为视频的数据量非常庞大，假设一秒钟视频有24帧，则一分钟包含1500帧，相当于一个中型数据库，用传统处理图像的方式处理视频并不合适。该研究领域普遍关注的是分割像素级的准确率，并没有考虑实际运用时候的实时性，但是自动驾驶领域，对紧急情况做出及时的处理至关重要。另一方面在视频信息中，帧与帧之间具有很强时间上下文信息，利用帧与帧间的大量相关信息，一方面可以加速模型，另一方面可以提高模型的精度。

发明内容

本发明的目的为了解决现有自动驾驶领域对实时的目标分割处理速度过慢的缺点，而提出一种基于卷积神经网络的视频语义分割方法。

基于卷积神经网络的视频语义分割方法，包括以下步骤：

步骤一：构建基于注意力机制的W形网络模型，W形网络模型包括两条支路：

一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图；

另外一条支路通过Xception模块或者ResNet模块进行深度下采样，分别得到16倍和32倍下采样特征图，将两个下采样特征图进行通道注意力模型处理后，分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图；将该支路下的2倍、4倍的双线性插值上采样作为两个子支路，分为记为第2支路和第3支路；

之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次经过通过通道注意力模块得到深层特征；然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果；

步骤二：在W形网络的基础上，利用光流场算法对帧与帧之间的特征进行传播和融合；

步骤三：将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试，得到训练好的基于卷积神经网络的视频语义分割模型；

利用训练好的基于卷积神经网络的视频语义分割模型进行视频语义分割。

进一步地，所述步骤二中在W形网络的基础上，构建光流场算法对帧与帧之间的特征进行传播和融合的过程如下：

采用深度特征流算法，仅在稀疏的关键帧上运行深度卷积网络，并通过光流场将它们的深度特征图传输到其他帧；

将W形网络分成两部分，一个是前端子网络W_low，即W形网络的除去最后一层的前层网络；另一个是末端子网络W_high，即W形网络的最后一层；

在关键帧上运行深度卷积网络，即W形网络，通过输入深层特征，输出语义分割结果；

非关键帧不运行整个深度卷积网络，而是利用当前帧图像和关键帧图像，通过Flownet计算出两帧图像间的光流场信息，然后通过光流场和关键帧提取的特征输入，通过双线性插值输出关键帧传播到当前帧的特征。

进一步地，所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下：

图像首先通过conv+bn+relu处理来实现2倍下采样，

然后再通过conv+bn+relu处理实现2倍下采样，得到4倍下采样的特征图；

然后再通过上述操作进行2倍下采样，得到八分之一原图像精度的特征图。

进一步地，所述通道注意力模型如下：

输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量，接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量，一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。

进一步地，所述进行视频语义分割训练过程中，具体损失函数式如下所示：

其中l_p(X；W)为主损失函数，X为主支路经过8倍上采样后得到的最后的分割图像，W为原始真实的参考图像；l_i(X_i；W)为辅助损失函数，i为第i条支路，i＝2、3即表示所述的第2支路和第3支路；X_i为第i条支路经过上采样得到的最后的分割图像；α为权重系数；

主损失函数l_p监督整个W形网络模型的输出，两个特殊的辅助损失函数l_i分别监督提取16倍和32倍下采样整体特征信息的网络的输出，借助参数α以平衡主损失函数和辅助损失函数的权重；

网络的输出结果用Softmax表示，主损失函数和辅助损失函数都使用交叉熵损失函数，如下式所示：

其中N为选取的训练样本的总个数，k代表训练时选取的第k个样本，j为数据集的类别数目；p_k表示第k个样本的概率，p_k表示第j类的概率。

本发明的有益效果为：

本发明设计了针对视频语义分割的基于注意力机制的U形网络和W形网络，利用该两者模型来实现对图像的语义分割，然后在W形网络的基础上，进一步的利用帧间相关信息，结合光流场的特征聚合算法融合视频序列中不同帧之间的相关性，构建新的光流场模型对数据进行训练，实现视频语义分割的加速，大大降低分割所需要的时间。此方法与原有方法相比，不仅分割精度进一步提高，处理时间也得到大幅度的降低。与目前最先进的视频语义分割方法相比，保持在未大幅度降低分割精度的基准下，进一步的提高分割的实时性和处理速度。

附图说明

图1为基于卷积神经网络的视频语义分割方法原理框图；

图2为通道注意力模块结构图；

图3为基于通道注意力机制的W形网络结构流程图；

图4为基于光流的视频语义分割示意图；

图5(a)是传统的未经过光流场传播的视频分割方法(不区分关键帧和非关键帧)，图5(b)显示的为光流场传播的视频分割方法。

具体实施方式

具体实施方式一：结合图1说明本实施方式，

基于卷积神经网络的视频语义分割方法，包括以下步骤：

步骤一：构建基于注意力机制的W形网络模型，整个模型结构由两条支路构成，可以同时识别整体信息和细节信息。

如图3所示，W形网络模型包括两条支路：

一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图，尽可能保留原图的细节信息；

另外一条支路通过Xception模块或者ResNet模块进行深度下采样，扩大感受野，分别得到16倍和32倍下采样特征图，将两个下采样特征图进行通道注意力模型处理后，分别进行2倍、4倍的双线性插值上采样得到两个八分之一原图像精度的特征图；将该支路下的2倍、4倍的双线性插值上采样作为两个子支路，分为记为第2支路和第3支路；

之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次经过通过通道注意力模块得到既包含整体信息、又包含细节信息的深层特征；然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果。

步骤二：在W形网络的基础上，利用光流场算法对帧与帧之间的特征进行传播和融合。此算法采用了深度特征流算法，仅在稀疏的关键帧上运行计算量极大的深度卷积网络，并通过流场将它们的深度特征图传输到其他帧。

步骤三：将选取的数据集中的样本输入到整体网络进行视频语义分割训练和测试，得到训练好的基于卷积神经网络的视频语义分割模型。在本次实验中，选取的对模型进行训练和测试的数据集为Camvid数据集，将数据集随机分为训练集，交叉验证集和测试集，来完成实验的训练和测试。

本发明主要利用深度卷积神经网络对特征强大的提取能力，设计了针对视频语义分割的基于注意力机制的W形网络，然后在W形网络的基础上，进一步的利用帧间相关信息，结合光流场的特征聚合算法融合视频序列中不同帧之间的相关性，构建新的光流场模型对数据进行训练，实现视频语义分割的加速，大大降低分割所需要的时间。

具体实施方式二：

本实施方式所述步骤二中在W形网络的基础上，构建光流场算法对帧与帧之间的特征进行传播和融合的过程如下：

采用深度特征流算法，该算法结合了特征之间的传播对应关系，仅在稀疏的关键帧上运行计算量极大的深度卷积网络，并通过光流场将它们的深度特征图传输到其他帧。由于光流计算方法对比整个深度卷积网络计算量较少，运行速度较快，所以算法得到了明显的加速。其中光流场的计算也是采用卷积神经网络模型，因此整个框架实现了端到端的训练，进而提高识别精度。由于中间卷积特征图与输入图像拥有相同的空间大小，它们保留了低级图像内容与中高级语义内容之间的空间对应关系，这种对应关系通过空间形变给附近帧之间的特征传播提供了机会，如图4所示。两个中间特征图分别对应“汽车”和“人”。它们在两个相邻帧上是相似的。从关键帧传播到当前帧之后，传播的特征与原始特征相似。

更进一步，光流算法的具体流程如图5(b)所示，图5(a)是传统的未经过光流场传播的视频分割方法(不区分关键帧和非关键帧)，图5(b)显示的为光流场传播的视频分割方法，如图5(b)中左侧关键帧所示，在关键帧上运行计算量极大的深度卷积网络，即W形网络，其中W_low是W形网络结构的前端子网络，它的计算量极大，用来提出图像中的深层特征，W_high是W形网络结构的末端子网络，是一个相对轻型的子网络，通过输入深层特征，输出语义分割结果。图5(b)中的非关键帧不运行整个计算量极大的深度卷积网络，而是利用当前帧图像和关键帧图像，通过Flownet计算出两帧图像间的光流场信息，然后通过光流场和关键帧提取的特征输入，通过双线性插值输出关键帧传播到当前帧的特征。Flownet即帧之间的光流特征对应关系，可以由不同帧之间的特征训练得到。光流场也由网络进行估计时，整个网络架构进行端对端的训练，为识别任务同时优化图像识别网络和光流网络，最后使得识别准确性得到显著提升。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：

本实施方式所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下：

图像首先通过conv+bn+relu处理来实现2倍下采样，

其他步骤和参数与具体实施方式一或二相同。

具体实施方式四：

本实施方式所述通道注意力模型如下：

对于语义分割来讲，不同尺度的特征图有着不同的作用，较低尺度的特征图对目标的类别识别贡献比较大，较高尺度的特征图对目标边缘的细节信息的识别贡献比较大，本发明采用了通道注意力模块，具体框架如图2所示，输入特征图经过全局池化和1×1卷积之后变成元素数量为通道数的一维向量，接着经过Batch Norm和Sigmoid激活函数输出数值范围为(0,1)的一维向量，一维向量中的元素对输入特征图进行加权后的输出作为通道注意力模块的最终输出结果。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：

本实施方式所述进行视频语义分割训练过程中，由于需要同时提取特征图的整体信息和细节信息，那么我们需要同时对两种信息分别进行训练，需要注意的是反向传播包含三部分，具体损失函数式如下所示：

其中N为选取的训练样本的总个数，k代表训练时选取的第k个样本，j为数据集的类别数目；p_k表示第k个样本的概率，p_k表示第j类的概率；

所述步骤三中将选取的数据集中的样本输入到整体网络中进行视频语义分割训练和测试的具体过程如下：

选取的对模型进行训练和测试的数据集为Camvid数据集，数据集图片大小为920×720，在总共的700幅图像中，随机分为训练集，交叉验证集和测试集，其中训练集包含420张图像，交叉验证集和测试集分别包含112和168张图像。除此之外，为了进一步的减少模型计算量，加快实时的分割效率并在原始图像的基础上保证一定的分类精度，图像均为裁剪为512×512尺寸，保留了较大部分的空间信息。在视频分割实验的实验中，常用的评价指标有准确率(Accuracy)，精准率(Precision)，召回率(Recall)，F1值，平均交并比(mIOU)，每帧的处理时间(T)。通过网络输出的分割结果图与测试样本本身的标签对比可以计算出整个语义分割系统的分割精度的定量衡量，并且最终的结果可以得出每帧的处理时间。

在视频分割实验的实验中，常用的评价指标有准确率(Accuracy)，精准率(Precision)，召回率(Recall)，F1值，平均交并比(mIOU)，每帧的处理时间(T)。各个参数指标的定义分别如下：

TP(True Positive)：真实为正类，预测结果为正类。

FP(False Positive)：真实为负类，预测结果为正类。

TN(True Negative)：真实为负类，预测结果为负类。

FN(False Negative)：真实为正类，预测结果为负类。

Accuracy＝(TP+TN)/(TP+TN+FP+FN)

Precision＝TP/(TP+FP)

Recall＝TN/(TP+FN)

F1＝2*Precision*Recall/(Precision+Recall)

其中N为数据集的类别数目，A为每一类的预测值，B为每一类的真实值。首先计算每类内的交并比，然后计算均值。

其它步骤及参数与具体实施方式一至四之一相同。

Claims

1.基于卷积神经网络的视频语义分割方法，其特征在于，包括以下步骤：

之后所有支路得到的八分之一原图像精度的特征图通过特征拼接、卷积、批标准化、ReLU激活融合后再次通过通道注意力模块得到深层特征；然后经过8倍的双线性插值上采样最终得到与原图像尺寸一致的语义分割结果；

步骤二：在W形网络的基础上，利用光流场算法对帧与帧之间的特征进行传播和融合，过程如下：

非关键帧不运行整个深度卷积网络，而是利用当前帧图像和关键帧图像，通过Flownet计算出两帧图像间的光流场信息，然后通过光流场和关键帧提取的特征输入，通过双线性插值输出关键帧传播到当前帧的特征；

2.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述一条支路由图像输入经过3次卷积进行下采样得到八分之一原图像精度的特征图具体过程如下：

图像首先通过conv+bn+relu处理来实现2倍下采样，

3.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述通道注意力模型如下：

4.根据权利要求1所述的基于卷积神经网络的视频语义分割方法，其特征在于，所述进行视频语义分割训练过程中，具体损失函数式如下所示：

其中N为选取的训练样本的总个数，k代表训练时选取的第k个样本，j为数据集的类别数目；p_k表示第k个样本的概率，p_j表示第j类的概率。