CN113269133A

CN113269133A - 一种基于深度学习的无人机视角视频语义分割方法

Info

Publication number: CN113269133A
Application number: CN202110667185.1A
Authority: CN
Inventors: 秦攀; 蔡嘉文; 顾宏; 夏安飞; 李丹
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-17

Abstract

本发明属于无人机视觉领域，涉及一种基于深度学习的无人机视角视频语义分割方法。本发明针对图像语义分割问题，设计一种“编码器‑解码器”非对称网络结构，其中编码器阶段融合通道分片(Channel Split)和通道重组(ChannelShuffle)去改进Bottleneck结构，以进行下采样和特征提取，解码器阶段基于空间金字塔多特征融合模块以抽取丰富的特征并进行融合，最后进行上采样得到分割结果。随后，针对视频语义分割问题，将本发明设计的图像分割模型作为视频语义分割的分割模块，结合光流法改进关键帧选择策略并进行特征传递，减少冗余，加快视频分割速度。

Description

一种基于深度学习的无人机视角视频语义分割方法

技术领域

本发明属于无人机视觉领域，涉及一种基于深度学习的无人机视角视频语义分割方法。

背景技术

在计算机视觉领域，神经网络目前的主要应用有图像识别、目标定位与检测以及语义分割。语义分割是一个典型的计算机视觉问题，其涉及将一些原始数据(例如二维图像)作为输入并将它们转换成具有突出显示的感兴趣区域的掩膜。换句话说就是，在语义分割中我们需要将视觉输入分为不同的语义可解释类别，比如，我们可能需要归类出图像中属于汽车的所有像素，并将这些像素涂成某种特定的颜色。如今，语义分割是计算机视觉的关键问题之一，越来越多的应用场景需要精确并且高效的分割技术，例如自动驾驶、室内导航、医疗影像分析等。最近这几年，深度学习技术的兴起让相关的领域发生了翻天覆地的变化。所以，许多计算机视觉问题都开始使用深度架构来解决。

在自动驾驶、无人机等智能化场景中，语义分割可以辅助避障、跟踪、路径规划等基本功能，例如在自动驾驶中，需要对行驶环境精细化的感知和分析，同时要重点关注行人、车辆、道路、交通标识等区域，语义分割在其中必不可少。相比激光雷达等传感器，摄像机功耗低、尺寸小、成本低、适应范围广，而且能获取丰富的信息，因此，基于视觉进行图像和视频语义分割对于环境智能化感知具有重要应用价值和现实意义。

视频本质上是连续的单张图像，视频语义分割的目的则是利用空间和时间特征对每个视频帧进行图像语义分割，但如果将视频的每帧图像都送入图像分割模型，将带来巨大的计算开销。同时由于视频中场景的快速变化，也会导致分割结果的不确定性，所以视频语义分割则需要在图像语义分割的基础上开展进一步工作。目前，主要研究方向一是利用视频的时序信息保证分割精度，二是减少视频冗余，提高分割速度。

针对方向一，Fayyaz等人提出使用经典的LSTM模块学习视频的时间特征并辅助空间特征传播，但这会严重影响运行速度。Gadde等人提出的Netwarp结构则将利用光流将前一帧的特征与当前帧特征进行融合，起到特征增强的作用。Nilsson等人提出的STGRU模块则在图像语义分割模型的基础上把当前帧的前后多帧作为输入进行训练，使用光流将前后帧的分割结果转接到当前帧，这种多帧信息融合的方式有利于加强特征表示，有效提高了分割精度。

针对方向二，Zhu等人提出的经典的DFF结构结合固定间隔的关键帧选取策略，在当前帧的特征提取过程中直接将之前关键帧的特征利用光流法转换过来，光流法的计算量远小于特征提取的计算量，所以模型效率大大提高。基于DFF结构，Xu等人提出的DVSNet中新增了一个浅层的神经网络结构用以判别当前帧是否为关键帧，同时可以通过改变判别网络置信度阀值来调整模型精度。

发明内容

本发明提供了一种基于无人机视觉的视频语义分割算法，目前语义分割主要应用领域还是在无人驾驶汽车方面，无人机方面的应用则寥寥无几。而最近这几年，无人机凭借其机动性强、经济上较为实惠等方面的优势，越来越受到人们的青睐。本发明从现实应用场景需求出发，同时考虑模型精度及速度，研究在有限的计算和存储条件下的图像和视频实时语义分割问题。通过设计轻量化的深度学习模型，重点研究网络结构简化、模型参数减少、全局和局部特征信息融合、视频帧时空特征关联、关键帧选取等问题，通过理论分析、仿真实验、数据对比等方式验证所提方法的优越性。

本发明的技术方案：

针对图像语义分割问题，设计一种“编码器-解码器”非对称网络结构，其中编码器阶段融合通道分片(Channel Split)和通道重组(Channel Shuffle)去改进Bottleneck结构，以进行下采样和特征提取，解码器阶段基于空间金字塔多特征融合模块以抽取丰富的特征并进行融合，最后进行上采样得到分割结果。随后，针对视频语义分割问题，将本发明设计的图像分割模型作为视频语义分割的分割模块，结合光流法改进关键帧选择策略并进行特征传递，减少冗余，加快视频分割速度。具体步骤如下：

(1)无人机图像数据获取：代码通过调用OpenCV库的VideoCapture方法可直接实时获取搭载在无人机上的摄像头的图像流，并将图像流作为视频语义分割框架的输入。

(2)将图像数据送入视频语义分割框架：如图4所示是本发明提出的基于光流法的视频语义分割模型总体框架，本框架所用一些常见的数学符号如表1所示。

表1本框架数学符号汇总表

本框架主要有两大步骤，并由光流分支和分割分支两个分支组成，设I_i和I_i+1为两个待处理的当前帧，I_k是它们前序最近的关键帧(第一帧图像默认作为关键帧)，假设I_i与I_k差别较小，I_i+1与I_k差别较大。

1)步骤一：当前帧I_i或I_i+1与关键帧I_k经过预处理后同时输入光流计算网络得到两帧间的光流场，随后光流场输入到判别网络(Decision Network,DN)，判别网络开始分析输入的两个视频帧之间的相似度，计算得到两帧之间的预测值置信度。判别网络将预测值置信度与设定的置信度阈值t进行大小比较，若预测值置信度大于t则该当前帧送入光流分支继续处理，若预测值置信度小于t则该当前帧送入分割分支继续处理。所以在图1中，当前帧I_i通过光流分支进行处理(红色流程图)，当前帧I_i+1通过分割分支(蓝色流程图)进行处理。预测值置信度越大表明该当前帧与关键帧越相似，通过光流分支进行转换得到的分割结果越好，同时t值决定了两个分支的使用频率，也影响了最终的分割速度和精度。

2)步骤二：判别网络根据当前帧与关键帧的相似度将每个视频帧依次送入后续不同的两个分支，以得到当前帧的分割结果。其中分割分支直接将当前帧送入语义分割网络进行处理，与一般的图像语义分割处理流程相同。光流分支则将步骤一中当前帧与关键帧的光流场作为输入，通过传播函数W将先前已经处理好的关键帧分割图转换到当前帧的分割结果，不再需要通过分割网络进行处理。需要注意的是光流分支仅仅依靠光流计算网络是无法得到分割结果的，必须使用前序最近邻关键帧的分割图和传播函数。

(3)输出结果：可视化语义分割结果，实时显示当前fps以及所执行的是光流分支还是原始语义分割分支，并保存分割结果于文件夹中。

本发明所述方法中，从得到搭载在无人机上的摄像头图像，进行一系列数据处理、网络预测，最终得到语义分割后的可视化结果。

本发明的有益效果：

本发明对操作平台没有限制，使用灵活方便，程序小(仅几MB)，可移植性强。

附图说明

图1为基于光流法的视频语义分割框架结构图；

图2为QNet模型总体示意图；

图3(a)为本发明设计的Bottleneck结构；

图3(b)为初始化模块；

图4为本发明设计的空间金字塔结构；

图5为基于光流法的特征传播策略结构图；

图6为判别网络结构示意图及其训练策略；

图7为Cityscapes数据集上不同视频语义分割框架的结果对比图；

图8为Cityscapes数据集上图像语义分割和视频语义分割结果对比图；

图9为无人机低空视角下的实际场景分割效果图。

具体实施方式

以下结合发明内容详细说明本发明的具体实施方式:

下面详细介绍了使用无人机进行实时的语义分割过程。本发明通过以下案例进一步说明本发明的用途和使用方法，但本发明并不受限于此。

1.实验设备与环境配置

实验设备：大疆Matrice 210RTK V2无人机、高性能机载计算机Manifold2、禅思ZENMUSE X7云台相机

软件系统：LinuxUbuntu 16.04LTS Server系统

编程语言：Python3.6

深度学习框架：Tensorflow1.14

2.实验方法

(1)无人机图像数据获取：在Ubuntu系统下，代码通过调用OpenCV库的VideoCapture方法可直接实时获取搭载在无人机上的摄像头的图像流，并将图像流作为视频语义分割框架的输入。

(2)视频语义分割网络预测：执行主文件夹目录下的inference.py文件(即终端定位到主文件夹目录下，输入pythoninference.py并回车)。终端将显示当前图像帧采用的是光流分支还是原始语义分割分支，并显示实时性指标fps和分割结果。

其中，原始语义分割分支所采用的语义分割网络为本发明设计并命名的一个轻量级网络QNet。针对图像语义分割的精度与速度权衡问题，本发明设计的语义分割网络以轻量级、高性能为核心目标，采用自编码器为基础网络结构。自编码器可以起到数据降噪和非线性特征降维的作用，但传统的对称结构的自编码器一般泛化能力较差，因此本发明采用编码-解码非对称结构设计了整个图像语义分割网络。其中编码端主要在进行特征提取的同时尽可能简化模型结构，减少参数量，提高计算效率，解码端为了保证最终的分割精度在恢复特征信息的过程中充分融合不同尺度的特征图。本发明设计的轻量级图像语义分割模型命名为Quick Network(QNet)，网络结构如表2所示，模型结构示意图如图2所示。

在提高实时性方面，本发明主要在编码端设计了轻量级的特征提取模块，未采用计算复杂度较大的预训练模型。基于ResNet的基本单元设计了新的特征提取单元，融合了非对称卷积、空洞卷积等策略，可以大幅降低参数量和计算量，另外解码端通过减少特征图通道数进一步提高计算效率。

在保证准确率方面，本发明主要在解码端使用了改进的空间金字塔结构，通过6分支获取更大的感受野，进行不同尺度特征图的融合，解码端的特征还原性能可以大幅提高。另外编码端引入了通道分片和通道重组策略进行不同通道间的信息交流融合，进一步提高了所提取特征的有效性。

表2QNet网络结构组成表(输入尺寸设为360×480，C表示语义类别数)

其中初始化阶段，为了加快模型推理速度，本发明借鉴ENet网络，设计了初始化模块用来降低输入图片尺寸并增加通道数。如图3(b)所示，其中最大池化是在不重叠的2×2窗口下进行的，卷积层有13个卷积核，Concat后的特征图通道为16，尺寸为输入图片的1/2。

其中编码阶段主要使用本发明设计的基于通道分片(Channel Split)和通道重组(Channel Shuffle)的特征提取单元，Block1由五个基本单元组成，其中第一个单元进行降采样，Block2由九个基本单元组成，其中第一个单元进行降采样。解码阶段主要使用本发明设计的空间金字塔多特征融合模块，提高了对编码特征图的理解能力，通过多尺度的特征图充分利用了空间信息，同时考虑了计算成本和效率。

为进一步提高网络性能，本发明的网络在一些模块使用了非对称卷积和空洞卷积，具体设置处和参数如表2所示。

1)非对称卷积(Asymmetric Convolution)：将n×n的卷积分解成1×n和n×1卷积的串联，先进行一次1×n卷积，再进行一次n×1卷积，和直接进行n×n卷积的结果是一致的。但乘法运算计算量从n×n变成了2×n，所以非对称卷积可以在保持感受野不变的前提下可以大幅度降低参数量，减少卷积参数冗余，提高推理速度，且n越大，非对称卷积降低运算量的效果越明显。例如n＝3，分解后就能节省33％的计算量。同时非对称卷积整合了多个非线性激活层，代替单一非线性激活层，增加了网络的判别能力。通过测试也发现非对称卷积用在网络中靠中间的层级才有较好的效果。

2)空洞卷积(Dilated Convolution)：传统的基于深度学习的图像处理领域一般采用先卷积再池化进行下采样来降低图像尺寸，池化可以增大感受野以获取更多特征信息，最后进行上采样恢复尺寸，但图像在先减小再增大尺寸的过程中，有一些信息损失掉了，影响了最终的分类精度。为了避免过度下采样降低特征图分辨率丢失信息，空洞卷积可利用添加空洞扩大感受野，不采用池化操作，在相同参数量和计算量下获得更大的感受野，获取更多全局信息，捕获多尺度上下文信息，同时保留特征图相对的空间位置信息。例如原本3×3的卷积核可拥有5×5(Dilated rate＝2)或者更大的感受野。为了提高空洞卷积的性能，叠加卷积的Dilated rate不能有大于1的公约数，要设计成锯齿状结构，且需要满足式(1)。

M_i＝max[M_i+1-2r_i,M_i+1-2(M_i+1-r_i),r_i] (1)

其中r_i是i层的Dilated rate，而M_i是指在i层的最大Dilated rate，假设总共有n层，默认m_n＝r_n。本发明按照这些规则将Dilated rate设计成不规则非循环结构，即[1，2，5，1，9，17]。

其中，通道分片(Channel split)可以有效提高网络推理速度，通道重组(Channelshuffle)可以帮助信息在不同特征通道中的流动，采用更多的分组后，在相同的计算约束下可以使用更多的通道数，或者说特征图数量增加，网络的特征提取能力增强，网络性能得到提升，因此通过Channel split和Channel shuffle可以构建高性能的轻量级网络模型。

基于Bottleneck结构和Channel split、Channel shuffle操作，采用ResNet的基本结构，本发明设计了一种新的特征提取单元，如图3(a)所示。基本的Bottleneck结构是一个包含3层的残差单元，首先是1×1卷积，然后是为了降低计算量的3×3卷积，紧接着是1×1卷积，最后是一个短路连接，将输入直接加到输出上。本发明设计的单元由两个分支进行像素级别的相加而成，其中主分支第一步进行输入图像通道的分片，本发明是分为两组通道数相等的分支，再同时进行Bottleneck中的分步卷积。第一个1×1卷积单元降低通道数为输入的1/4，主卷积单元(即图中的Conv)的卷积大小为3×3，类型有普通卷积、空洞卷积、非对称卷积，最后一个1×1卷积单元扩展通道数，卷积操作后再进行通道相叠(Concat)，最后再与副分支的短路逐像素相加后进行通道重组，输出特征图。若该单元需要进行下采样缩小特征图尺寸，则副分支需要增加Maxpooling层，同时进行Padding操作，使两个分支的输出尺寸相匹配。主分支则将第一个1×1卷积单元换为2×2卷积，卷积步长也改为2，这样两个分支的输出尺寸均为输入尺寸的1/2，最后两个分支的特征图相加后再进行通道混洗，以促进信息融合。为了加快网络训练时梯度下降速度，减少训练时间，本发明在所有卷积之间都加入了Batch Normalization，同时为了减小网络的过拟合风险，提高网络泛化能力，本发明使用了PRelu激活函数和Dropout操作。

其中，本发明借鉴空间金字塔多特征融合结构(SPP)，设计了一种改进的多特征融合模块，如图4所示，本发明采用1×1、2×2、4×4、8×8、16×16、32×32的池化核和步长，将编码端得到的特征图经过平均池化操作后得到6种不同尺寸的特征图，得到若干个不同的子区域。为了保持全局特征的权重，随后使用1×1的卷积将各个特征图的通道降为原来的1/2，再通过双线性插值对这些低维特征图进行上采样，使它们与原始特征图尺度相同。同时将6个特征图分两组相加，最后和原输入特征图Concat到一起，将不同层级的特征图叠加为最终的金字塔池化全局特征。此模块利用不同尺寸的感受野聚合了输入特征图不同区域的信息，减少了不同区域之间的信息损失，同时将全局信息和不同尺度的局部信息充分融合，获取了不同尺度、不同子区域间的信息，提升了网络利用全局上下文信息的能力和解码端整体的推理能力，同时降低通道数和最后直接Concat的操作也充分保证了较低的计算量。

其中，本发明为了进一步提高计算效率和加快推理速度，将不在特征提取环节进行特征传播，而是直接将关键帧的分割图通过光流法传播到当前帧，以获得当前帧的分割结果。

当前帧I_i输入后，与前序最近的关键帧I_k一同通过光流网络计算得到两帧之间的光流场F_k→i，当前帧I_i中的像素点p的位置通过光流场投影回关键帧I_k中对应p+δp，其中δp＝F_k→i(p)，由于δp一般是非整数的，可以通过双线性插值实现特征转换，如式(2)和(3)所示：

S_i(p)＝∑_qG(q,p+δp)S_k(q) (2)

G(q,p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y) (3)

其中g(a,b)＝max(0,1-|a-b|)。最终可以将当前帧分割图与关键帧分割图之间传播函数简写为式(4)：

S_i＝W(S_k,F_k→i) (4)

本发明采用FlowNet2-s作为光流计算网络，其在数据训练和模型结构方面相比FlowNet均有显著改善，模型总体性能也是目前最佳。语义分割网络采用本发明设计的轻量级图像语义分割网络QNet，整体分割性能尤其是实时性方面相比其他主流方法均有显著提升。基于光流法的特征传播策略示意图如图5所示，首先通过光流计算网络FlowNet2-s得到当前帧和前序关键帧之间的光流场，其中关键帧在先前已通过语义分割网络QNet计算得到分割结果，随后将关键帧的分割图和两帧之间的光流场进行融合计算得到当前帧的分割图。

本发明提出的基于光流法的特征传播策略将语义分割网络和光流计算网络集成在一起构建了新的模型，两个网络均可直接使用先前的预训练模型，整体模型不需要再进行新的训练和测试，极大降低了计算成本。通过此策略构建视频语义分割网络可以避免对每个视频帧进行语义分割，有效降低了计算量，整体网络将得到充分加速，同时先进的光流计算网络保证了特征传播的精度，满足视频任务的实时性和准确性要求。

其中，本发明采用基于质量的关键帧选取方法，同时使用光流法进行辅助，提高总体质量和效率。如图6是基于判别网络的关键帧调度策略总体结构图和判别网络的训练策略。判别网络是一个仅由单个卷积层和三个全连接层组成的轻量级卷积神经网络，其输入为光流网络的输出。

在判别网络的训练阶段，当前帧I_i与最近邻关键帧I_k共同作为输入，其训练目标是得到预测值置信度得分以表示输入的两个图像的相似性。当前帧和关键帧一起输入后，由光流网络FlowNet2-s计算得到两者的光流场F_k→i和Warp函数W，再将关键帧的语义分割结果通过Wrap函数计算得到当前帧的语义分割输出O_i，另一分支直接通过本发明所提出的图像语义分割网络QNet计算得到语义分割输出S_i，定义标签值置信度得分为O_i和S_i的期望相似性，其计算公式如式(5)所示：

其中P是当前帧中的像素总数，p是P的索引，O_i(p),S_i(p)分别表示两个分支计算所得像素p的语义类别标签，C(u,v)是一个示性函数，仅当u等于v时输出1，否则为0。

判别网络分支输出的是预测值置信度得分，分割分支输出的是标签值置信度得分，两者计算方式不同，相当于分别代表模型的预测值和真值。基于两者可以构建回归模型进行训练，以均方误差作为损失函数，所以标签值置信度得分仅用于判别网络的训练过程，在测试过程中判别网络输出的只有预测值置信度得分。

设定一个置信度阈值t，将当前帧的预测值置信度得分与t进行大小比较，如果大于t则表明当前帧与前一关键帧的相似度较高，该视频帧可设为非关键帧，反之若小于t则表明当前帧与前一关键帧的相似度较低，可将当前帧提取为新的关键帧。置信度阈值t是人为设置的，过高则所提取的关键帧精度较高，但会导致所提取的关键帧数量相对较多，后续分割分支需要处理更多视频帧，整体分割精度会有所提高，但同时带来了更大的计算量，影响了实时性。反之若t值过小则模型运行速度较快，但会降低后续分割精度。所以要根据具体数据集或应用场景需求做好权衡，合理调整置信度阈值t。通过本发明所提出的基于判别网络的关键帧调度策略可以自适应地提取关键帧，根据视频内容进行灵活调整，在限制计算量的同时有效提高了关键帧调度性能，有助于提高后续分割任务的效率和精度。

3.实验结果

(1)对比实验：

为了更直观全面的展示对比实验结果，除了对比各个视频分割框架的结果，还比较了基础图像分割网络和对应的视频语义分割框架的分割效果。

表3 Cityscapes数据集的图像和视频分割准确度及实时性对比结果(t＝90)

将单独的图像语义分割网络QNet、PSPNet、ICNet和对应的视频语义分割框架QNet+FlowNet2-s、PSPNet+FlowNet2-s、ICNet+FlowNet2-s进行精度和速度上的全面对比，采用Cityscapes数据集通用的Class IoU、Category IoU以及Frame等指标，实验结果如表3所示。本发明提出的QNet+FlowNet2-s视频语义分割框架相比其他框架在IoU等精度指标上没有优势，但在计算量FLOPs、参数量、模型大小的指标上性能更为先进。每秒处理的视频帧数达到23.4FPS，明显高于其他框架，说明本发明所提的框架在计算能力和存储条件有限的条件下更有优势，更适用于实际场景中的移动端设备。(数据表中斜体表示图像语义分割模型的同组最优值，粗体表示视频语义分割框架的同组最优值。)

图7比较了各种视频语义分割框架的分割结果图，可以发现基于光流法的视频语义分割框架是有效的，各个物体分割清晰，边缘明确，能较准确的反映场景的语义信息，其中ICNet+FlowNet2-s整体效果较好，误差点较少，物体轮廓清晰。本发明所提出的QNet+FlowNet2-s精度有一定的保证，同时还可以分割出不明显的电线杆等小物体，所分割出各个物体与实际画面可以对应。

图8比较了本发明提出的图像语义分割网络QNet和视频语义分割框架QNet+FlowNet2-s的分割结果图，可以发现单纯的图像语义分割相较加入光流法后的视频语义分割效果更好，分割的物体边缘更加整齐，噪点更少，这也验证了本章的理论分析。为了加快分割速度，相同条件下使用相同的分割方法，视频语义分割将损失一定的精度。

(2)实际场景测试结果：

为了进一步验证本章所提出的语义分割框架的有效性，还在实际场景中进行了实验。本发明使用大疆M210 RTK V2无人机搭载ZENMUSE X5相机在大连理工大学主校区北辰路进行了低空飞行获得类似Cityscapes街景数据集的视频数据，再使用QNet+FlowNet2-s直接进行了语义分割，整体效果如图9所示。可以发现整体分割效果良好，道路、行人、汽车、树木等主要物体分割清晰，但部分图像噪点较多，有一定的误分割，尤其是无人机飞行速度不稳定或场景过于复杂时。

Claims

1.一种基于深度学习的无人机视角视频语义分割方法，其特征在于，步骤如下：

第一步，无人机图像数据获取：代码通过调用OpenCV库的VideoCapture方法可直接实时获取搭载在无人机上的摄像头的图像流，并将图像流作为视频语义分割框架的输入；

第二步，将图像数据送入视频语义分割框架；

其中，k为关键帧索引；i为当前帧索引；I_k，I_i代表视频帧；

S_k，S_i指代视频帧的语义分割结果；W特征传播函数；

F_k→i为帧间光流场；

p，q为两帧图像对应的像素点

2.1当前帧I_i或I_i+1与关键帧I_k经过预处理后同时输入光流计算网络得到两帧间的光流场，随后光流场输入到判别网络(Decision Network,DN)，判别网络开始分析输入的两个视频帧之间的相似度，计算得到两帧之间的预测值置信度；判别网络将预测值置信度与设定的置信度阈值t进行大小比较，若预测值置信度大于t则该当前帧送入光流分支继续处理，若预测值置信度小于t则该当前帧送入分割分支继续处理；预测值置信度越大表明该当前帧与关键帧越相似，通过光流分支进行转换得到的分割结果越好，同时t值决定了两个分支的使用频率，也影响了最终的分割速度和精度；

2.2判别网络根据当前帧与关键帧的相似度将每个视频帧依次送入后续不同的两个分支，以得到当前帧的分割结果；其中分割分支直接将当前帧送入语义分割网络进行处理，与一般的图像语义分割处理流程相同；光流分支则将步骤一中当前帧与关键帧的光流场作为输入，通过传播函数W将先前已经处理好的关键帧分割图转换到当前帧的分割结果，不再需要通过分割网络进行处理；需要注意的是光流分支仅仅依靠光流计算网络是无法得到分割结果的，必须使用前序最近邻关键帧的分割图和传播函数；

2.3输出结果：可视化语义分割结果，实时显示当前fps以及所执行的是光流分支还是原始语义分割分支，并保存分割结果于文件夹中。