CN112347933A

CN112347933A - 一种基于视频流的交通场景理解方法及装置

Info

Publication number: CN112347933A
Application number: CN202011233585.3A
Authority: CN
Inventors: 肖钟雯; 余言勋; 王耀农
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09

Abstract

本发明提供了一种基于视频流的交通场景理解方法及装置，其中，该方法包括：对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；对该多个目标检测结果进行融合，得到融合后的目标检测结果，并对该多个语义分割结果进行融合，得到融合后的语义分割结果；根据该融合后的目标检测结果与该融合后的语义分割结果进行交通场景理解，可以解决相关技术中基于多任务学习的场景理解，对于没有深度信息的单目图像无法进行场景理解的问题，不需要额外的雷达等传感器或双目图像获取深度信息，便可获得更为精确的场景理解信息，实现对单目相机或双目相机的监控视频流的场景理解。

Description

一种基于视频流的交通场景理解方法及装置

技术领域

本发明涉及智能交通领域，具体而言，涉及一种基于视频流的交通场景理解方法及装置。

背景技术

随着现代化安防的发展，智能交通成为了安防领域很重要的一部分。在监控视频图像分析领域，交通场景理解是一个很重要的环境感知环节，准确的交通场景理解对智能交通系统中交通事件自动检测和违章判罚等起着重要的作用。

现有的交通场景理解技术，一方面，大多技术基于自动驾驶场景的车道线检测，或基于激光雷达、双目等设备辅助感知，然而，监控场景不同于自动驾驶场景，涉及的场景更复杂，涵盖的场景更多，道路面也不止一个，因此，自动驾驶场景的很多方法对于监控场景都不适用；另一方面，部分现有技术基于全图的场景分割，获得路面、树木、天空、建筑等分割区域，但该分割结果只是获取一个较粗的场景理解信息，仅仅是一个中间结果，要获得车道线、交通标志、地面标志具体位置和车道方向、机动车道与非机动车道区分等这些精细的场景信息还需要结合场景目标和内容进行更进一步的场景理解。

相关技术中基于多任务学习的场景理解方法，包括同方差不确定性的多任务学习，多任务似然函数，场景理解模型。先执行每个单独任务的损失的加权线性和，学习最优的任务权重，接着推导一个多任务损失函数，定义概率模型，将可能性定义为模型输出给出的平均值的高斯函数，最后构建在像素级别学习回归和分类输出的模型，包括语义分割、实例分割和深度回归。深度回归需要从传感器或立体图像获得反向深度标签，对于没有深度信息的单目图像则该场景理解方法不适用。

针对相关技术中基于多任务学习的场景理解，对于没有深度信息的单目图像无法进行场景理解的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种基于视频流的交通场景理解方法及装置，可以解决相关技术中基于多任务学习的场景理解，对于没有深度信息的单目图像无法进行场景理解的问题。

根据本发明的一个实施例，提供了一种基于视频流的交通场景理解方法，包括：

对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；

对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果；

根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解。

可选地，对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果包括：

分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型中，得到所述目标卷积神经网络模型输出的所述多个目标检测结果和所述多个语义分割结果。

可选地，分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型中，得到所述目标卷积神经网络模型输出的所述多个目标检测结果和所述多个语义分割结果包括：

分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型的特征提取网络中，得到所述特征提取网络输出的特征图；

将所述特征图输入到所述目标卷积神经网络模型的金字塔结构中，得到所述金字塔结构输出的金字塔特征图；

根据所述金字塔特征图对目标进行检测，得到所述多个目标检测结果；同时将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图，其中，所述多个语义分割结果为所述多个分割掩码图。

可选地，将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图包括：

分别通过所述解码器获取与所述多帧图像大小相同的解码特征图；

分别通过softmax函数，从所述解码特征图中获取分割掩码图，得到所述多个分割掩码图。

可选地，对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果包括：

分别对所述多个目标检测结果中的动态目标、静态目标进行融合，得到所述融合后的目标检测结果，其中，所述动态目标包括行人、机动车辆与非机动车辆，所述静态目标包括交通标志与路面标志；

对多个分割掩码图中每个位置的像素点对应分割类别的置信度进行累加，得到每个位置对应一个或多个分割类别的总置信度值，其中，所述多个语义分割结果为所述多个分割掩码图；

确定所述每个位置的目标分割类别为所述总置信度值中的最大值对应的分割类别，得到所述融合后的语义分割结果。

可选地，根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解包括以下至少之一：

根据所述融合后的语义分割结果进行车道线拟合，得到拟合后的车道线和车道面，其中，所述语义分割结果包括一个或多个车道面、多条车道线；

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面进行交通场景理解。

可选地，根据所述融合后的目标检测结果、所述拟合后的车道线和车道面进行交通场景理解包括：

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定一个或多个车道中目标的通过情况；

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的运动轨迹，其中，所述融合后的目标检测结果包括动态目标与静态目标；

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的车辆运动轨迹，并根据多帧图像的车辆运动轨迹确定一个或多个车道的车流方向；

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定机动车道与非机动车道。

根据本发明的另一个实施例，还提供了一种基于视频流的交通场景理解装置，包括：

检测模块，用于对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；

融合模块，用于对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果；

场景理解模块，用于根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解。

可选地，所述检测模块，还用于

可选地，所述检测模块包括：

第一输入子模块，用于分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型的特征提取网络中，得到所述特征提取网络输出的特征图；

第二输入子模块，用于将所述特征图输入到所述目标卷积神经网络模型的金字塔结构中，得到所述金字塔结构输出的金字塔特征图；

检测子模块，用于根据所述金字塔特征图对目标进行检测，得到所述多个目标检测结果；同时将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图，其中，所述多个语义分割结果为所述多个分割掩码图。

可选地，所述检测子模块包括：

第一获取单元，用于分别通过所述解码器获取与所述多帧图像大小相同的解码特征图；

第二获取单元，用于分别通过softmax函数，从所述解码特征图中获取分割掩码图，得到所述多个分割掩码图。

可选地，所述融合模块包括：

融合子模块，用于分别对所述多个目标检测结果中的动态目标、静态目标进行融合，得到所述融合后的目标检测结果，其中，所述动态目标包括行人、机动车辆与非机动车辆，所述静态目标包括交通标志与路面标志；

累加子模块，用于对多个分割掩码图中每个位置的像素点对应分割类别的置信度进行累加，得到每个位置对应一个或多个分割类别的总置信度值，其中，所述多个语义分割结果为所述多个分割掩码图；

确定子模块，用于确定所述每个位置的目标分割类别为所述总置信度值中的最大值对应的分割类别，得到所述融合后的语义分割结果。

可选地，所述场景理解模块包括：

拟合子模块，用于根据所述融合后的语义分割结果进行车道线拟合，得到拟合后的车道线和车道面，其中，所述语义分割结果包括一个或多个车道面、多条车道线；

场景理解子模块，用于根据所述融合后的目标检测结果、所述拟合后的车道线和车道面进行交通场景理解。

可选地，所述场景理解模块包括以下至少之一：

第一确定单元，用于根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定一个或多个车道中目标的通过情况；

第二确定单元，用于根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的运动轨迹，其中，所述融合后的目标检测结果包括动态目标与静态目标；

第三确定单元，用于根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的车辆运动轨迹，并根据多帧图像的车辆运动轨迹确定一个或多个车道的车流方向；

第四确定单元，用于根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定机动车道与非机动车道。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果，分别对多个目标检测结果和多个语义分割结果进行融合，即基于视频流的图像进行融合，结合视频流多帧信息，有效避免因遮挡、噪声等造成的误检和漏检，可以解决相关技术中基于多任务学习的场景理解，对于没有深度信息的单目图像无法进行场景理解的问题，基于视频流的交通场景理解，采用纯视觉技术，不需要额外的雷达等传感器或双目图像获取深度信息，便可获得更为精确的场景理解信息，实现对单目相机或双目相机的监控视频流的场景理解。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的基于视频流的交通场景理解方法的移动终端的硬件结构框图；

图2是根据本发明实施例的基于视频流的交通场景理解方法的流程图；

图3是根据本发明实施例神经网络模型的网络结构的示意图；

图4是根据本发明实施例的金字塔结构的示意图；

图5是根据本发明实施例的目标检测结果的示意图；

图6是根据本发明实施例的基于视频流的交通场景理解装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的基于视频流的交通场景理解方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的基于视频流的交通场景理解方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的分布式数据库的数据处理方法，图2是根据本发明实施例的基于视频流的交通场景理解方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；

本实施例中的语义分割结果可以包括一个或多个车道面、多条车道线。

步骤S204，对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果；

步骤S206，根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解。

通过上述步骤S202至S206，可以解决相关技术中基于多任务学习的场景理解，对于没有深度信息的单目图像无法进行场景理解的问题，基于视频流的交通场景理解，采用纯视觉技术，不需要额外的雷达等传感器或双目图像获取深度信息，便可获得更为精确的场景理解信息，实现对单目相机或双目相机的监控视频流的场景理解。

本发明实施例中，上述步骤S202中，可以通过神经网络模型确定，具体的，分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型中，得到所述目标卷积神经网络模型输出的所述多个目标检测结果和所述多个语义分割结果。

对于上述的目标神经网络模型，具体可以包括编码器，金字塔结构，之后分为检测分支与分割分支，分割分支具体可以包括解码器，通过检测分支便可得到目标检测结果，通过分割分支便可得到语义分割结果，具体的，上述步骤S202进一步可以包括：分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型的特征提取网络中，得到所述特征提取网络输出的特征图；将所述特征图输入到所述目标卷积神经网络模型的金字塔结构中，得到所述金字塔结构输出的金字塔特征图；根据所述金字塔特征图对目标进行检测，得到所述多个目标检测结果；同时将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图，其中，所述多个语义分割结果为所述多个分割掩码图。

在一可选的实施例中，将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图具体可以包括：分别通过所述解码器获取与所述多帧图像大小相同的解码特征图，分别通过softmax函数，从所述解码特征图中获取分割掩码图，得到所述多个分割掩码图。

本发明实施例中，上述步骤S204具体可以包括：分别对所述多个目标检测结果中的动态目标、静态目标进行融合，得到所述融合后的目标检测结果，其中，所述动态目标包括行人、机动车辆与非机动车辆，所述静态目标包括交通标志与路面标志；对多个分割掩码图中每个位置的像素点对应分割类别的置信度进行累加，得到每个位置对应一个或多个分割类别的总置信度值，其中，所述多个语义分割结果为所述多个分割掩码图；确定所述每个位置的目标分割类别为所述总置信度值中的最大值对应的分割类别，得到所述融合后的语义分割结果。

本发明实施例中，上述步骤S206具体可以包括：根据所述融合后的语义分割结果进行车道线拟合，得到拟合后的车道线和车道面，其中，所述语义分割结果包括一个或多个车道面、多条车道线；根据所述融合后的目标检测结果、所述拟合后的车道线和车道面进行交通场景理解，具体的，根据所述融合后的目标检测结果、所述拟合后的车道线和车道面可以确定一个或多个车道中目标的通过情况、一个或多个车道的车流方向、动态目标的运动轨迹，其中，所述融合后的目标检测结果包括动态目标与静态目标；根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的车辆运动轨迹，并根据多帧图像的车辆运动轨迹确定一个或多个车道的车流方向，根据所述融合后的目标检测结果、所述拟合后的车道线和车道面还可以确定机动车道与非机动车道。

本发明实施例，在监控场景中基于视频流的交通场景理解，实现对车道线的检测，车道面的识别，车道方向识别，地面标志识别，交通标志识别、机动车道与非机动车道区分等。本提案首先基于多任务的卷积神经网络，一个分支进行机动车、非机动车、行人、道路标志、交通标志的检测，另一个分支进行车道线、道路面的分割，接着，基于视频流中多帧的上述检测和分割结果进行融合，包括检测结果动、静目标的融合、分割结果的融合。本提案的交通场景理解方法获得的场景理解结果更丰富，不仅仅单纯识别道路中的车道线，可以识别车道面区域，区分不同车道，结合机动车、非机动车、行人识别车道方向及区分非机动车道和机动车道，为交通场景下的交通事件检测或违章判罚等任务提供准确而丰富的场景理解信息。

基于视频流的交通场景理解方法包含两步，第一步，基于深度学习技术，设计一个多任务的卷积神经网络模型，对图片进行目标检测和语义分割，目标检测的对象包括：行人、机动车、非机动车、交通标志、地面标志，语义分割的对象包括：道路面、车道线。第二步，综合视频流每帧图片第一步的识别结果，进行融合及后处理，得到场景理解的最终结果。

图3是根据本发明实施例神经网络模型的网络结构的示意图，如图3所示，为一个多任务网络，输出包含两个分支，一个检测分支：输出检测结果，一个语义分割分支：输出分割结果。通过该网络，尽可能把图片中对场景理解有用的信息都检测或分割出来。该网络输入一张图片，检测分支输出目标检测的结果(包括：行人、机动车、非机动车、交通标志、地面标志)，分割分支输出道路面、车道线的分割掩码图。

该网络结构采用分割里常用的编码-解码的结构，输入图片后，经过编码器，得到该图像的特征图，编码器为一个特征提取网络，该编码器可以采用ResNet、GoogleNet、DLA、HRNet等网络，经编码器出来的特征图的宽高为输入的1/N(一般N为4或8)。

图4是根据本发明实施例的金字塔结构的示意图，如图4所示，为了增加特征的感受野，在编码器和解码器中间加入金字塔结构，编码器输出的特征图0，特征图0的维度为：W*H*C(宽：W，高：H，通道数：C)，并行地经过3个不同大小的池化层，该池化层为均值池化，池化后得到的特征图1_1,特征图2_1,特征图3_1的大小分别为：2*2*C，6*6*C，8*8*C，接着，分别经过图中的卷积层1,2,3，该卷积层的卷积核大小均为1*1*C/3，是对池化后的特征图进行降维至2*2*C/3，6*6*C/3，8*8*C/3。接着经过上采样层，上采样层采用双线性的插值操作，将宽(W)和高(H)的恢复到与特征图0一致，特征图1_2,2_2,3_2的大小均为：W*H*C/3。最后，将特征图0、1_2、2_2、3_2连接，得到W*H*2C的金字塔特征图。该金字塔特征图融合了不同感受野特征图，充分结合全局或局部特征，对后续进行语义分割和目标检测提供了最有效的特征表达。

图5是根据本发明实施例的目标检测结果的示意图，如图5所示，检测分支，基于anchor-free的检测方法，通过回归关键点和回归目标框的宽、高对目标进行检测。检测内容包括：行人、机动车、非机动车、交通标志、路面标志，还可以通过不同颜色的检测框代表不同的类别(例如,红色：机动车，橙色：交通标志，青色：路面标志)。分割分支，通过解码器，获得与原图大小相同的解码特征图，再经过softmax函数，获得分割掩码图。分割的内容包括：道路面、车道线，可以通过不同的颜色分别代表：道路面、虚线、实线的分割结果，例如，蓝色表示白实线，绿色表示白虚线，青色表示道路面，当然也可以通过其他颜色表示。

训练时，检测分支和分割分支同步训练，训练时总的损失函数为检测分支和分割分支的损失按动态比例叠加，loss＝αloss_d+βloss_s，loss_d为检测分支的损失，loss_s为分割分支的损失，α,β为比例因子，为了均衡两个分支的损失，α,β设为动态调节参数，训练过程中均初始化为0.5，每迭代1个epoch(1个epoch代表遍历了一遍训练样本)，统计该epoch总的loss_d和总的loss_s，因此，α,β在下个epoch调整为：

其中，δ为调节因子，取一个较小的数(例如：0.0001)。

该网络的好处在于，该网络为全卷积连接，无全连接层，输入可以为任意尺度，因此，为了增加网络的鲁棒性和对场景的适应性，训练时采用多尺度输入。测试时，为了提高效率，采用固定大小的输入。

第一步对视频流的单帧图片进行识别，得到每帧的检测和分割结果，接着，第二步，将多帧的识别结果进行融合，融合包括：检测结果融合和分割结果融合。检测结果融合中，包括静态目标和动态目标，静态目标为交通标志和路面标志，动态的目标为：人、机动车、非机动车。根据连续帧的结果，动态目标则根据多帧检测结果获得车辆的位移信息，从而获取该车道的车流方向。静态目标则以连续n帧均检测出该目标，且每两帧的交并比为0.8以上，则认为该静态目标存在，其中，n的大小可调，n越大结果越准确。

分割结果融合，由第一步分割分支，可以获得该图像的掩码图，掩码图中，每个像素点均由N+1个置信度组成(N+1为分割类别数+背景)，N+1个置信度对应背景，类别1，类别2，类别3……，类别N的概率值，一般，0为背景，1、2、3…N代表不同的类别(例如：道路面、白实线、白虚线、白虚实线、双黄线、单黄线……)。以连续n帧的分割结果采用置信度相关的投票得分机制进行融合，将每帧相同位置的像素点类别进行统计。假设在位置(i,j)的像素点x_i,j连续8帧的分割结果为：{P_i,j,1,P_i,j,2,P_i,j,3,P_i,j,4,P_i,j,5,P_i,j,6,P_i,j,7,P_i,j,8}(右下角的数字代表帧号)，单帧P_i,j,m为分割分支最后经过softmax层的输出结果，具体为

即每个类别对应一个置信度(第m帧类别N的置信度为

)，求取P_i,j,m的最大值，

再根据此最大置信度及最大置信度对应的类别进行融合，每帧最大类别的置信度和对应的类别索引值如表1所示，则融合结果：类别0的得分：0.65，类别1的得分:0.82+0.83+0.91+0.83+0.89＝4.28，类别2的得分：0.65+0.66＝1.18，取最高得分对应的类别：即像素点x_i,j的为类别1。当出现两个或以上的类别得分相同时，说明该像素点比较难区分，则在相同得分中随机取一个类别。

获得融合的分割结果后，获取连通域，进行车道线的拟合和车道边界的确定。车道线的拟合采用局部线段的方式表示，因此，不局限于直线，曲线也同样适用。

表1

帧号	1	2	3	4	5	6	7	8
									类别索引(max)	1	1	0	2	1	1	1	2
置信度(max)	0.82	0.83	0.65	0.52	0.91	0.83	0.89	0.66

采用多帧结果融合的目的，其一，多帧的行人、机动车、非机动车的检测结果融合可以判断车辆的运动轨迹，从而确定该车辆所在车道的行驶方向。其二，当车辆较多或拥堵，地面标志或车道线被遮挡，单帧的识别结果会受遮挡影响较大，结合多帧的融合，尤其是对分割结果采用置信度相关的投票得分机制进行融合，可以解决因车辆遮挡等产生的误检或漏检，使识别结果更准确。

根据多帧获取的机动车、人、非机动车所在的车道区域，可以统计每个车道机动车、非机动车、人的通过量，若累积S的时间，该车道均为人和非机动且处于边界车道，则可以判定该车道为非机动车道。

在帧数的选取中，可以不选完全连续的帧，完全连续的帧中帧与帧之间差别较小，隔帧或隔多帧选取n帧进行融合效果会更好。实际应用中，先基于前n帧给出初始场景理解结果，随着视频流的推进，不断修正之前的结果，时间越长，场景分析的结果越准确。

本发明实施例的交通场景理解，采用纯视觉技术，不需要额外的雷达等传感器或双目图像获取深度信息。本发明实施例的交通场景理解获得的场景理解结果更丰富，不仅仅单纯识别道路中的车道线和车道线类别，可以识别车道面区域，车道边界，区分不同车道，结合机动车、非机动车、行人识别车道方向及区分非机动车道和机动车道，获得更为精确的场景理解信息。通过多任务的卷积神经网络模型，包括检测分支和分割分支，同时实现目标检测和语义分割任务，利用深度学习相关技术，与传统图像处理方法相比精度更高，鲁棒性更强，由于网络均为全卷积网络的结构，训练时采用可以多尺度输入，进一步增加网络对场景的适应性。同时，基于视频流的图像进行融合，结合视频流多帧信息，有效避免因遮挡、噪声等造成的误检和漏检问题。同时对车道面和车道线进行分割，车道线按线型类别进行分割，不仅可以获取每个车道线位置及线型类别，可以根据车道面的分割结果，获得车道边界，对于多个道路面的场景，可以区分不同道路面(来向和去向)，该方法对任意交通场景均适用。

实施例2

根据本发明的另一个实施例，还提供了一种基于视频流的交通场景理解装置，图6是根据本发明实施例的基于视频流的交通场景理解装置的框图，如图6所示，包括：

检测模块62，用于对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；

融合模块64，用于对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果；

场景理解模块66，用于根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解。

可选地，所述检测模块62，还用于

可选地，所述检测模块62包括：

可选地，所述检测子模块包括：

可选地，所述融合模块64包括：

可选地，所述场景理解模块66包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果；

S2，对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果；

S3，根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频流的交通场景理解方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对视频流的多帧图像进行目标检测和语义分割，得到多个目标检测结果和多个语义分割结果包括：

3.根据权利要求2所述的方法，其特征在于，分别将所述多帧图像输入到预先训练好的目标卷积神经网络模型中，得到所述目标卷积神经网络模型输出的所述多个目标检测结果和所述多个语义分割结果包括：

4.根据权利要求3所述的方法，其特征在于，将所述金字塔特征图输入到所述目标卷积神经网络模型的解码器中，得到所述解码器输出的多个分割掩码图包括：

5.根据权利要求1所述的方法，其特征在于，对所述多个目标检测结果进行融合，得到融合后的目标检测结果，并对所述多个语义分割结果进行融合，得到融合后的语义分割结果包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，根据所述融合后的目标检测结果与所述融合后的语义分割结果进行交通场景理解包括：

7.根据权利要求6所述的方法，其特征在于，根据所述融合后的目标检测结果、所述拟合后的车道线和车道面进行交通场景理解包括以下至少之一：

根据所述融合后的目标检测结果、所述拟合后的车道线和车道面确定动态目标的车辆运动轨迹，其中，所述融合后的目标检测结果包括动态目标与静态目标；

8.一种基于视频流的交通场景理解装置，其特征在于，包括：

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。