CN110956146A

CN110956146A - 一种道路背景建模方法、装置、电子设备和存储介质

Info

Publication number: CN110956146A
Application number: CN201911230231.0A
Authority: CN
Inventors: 陈瑶; 程邦胜; 方晓波; 张辉
Original assignee: Newpoint Enterprise Management Group Co Ltd
Current assignee: Newpoint Enterprise Management Group Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-03
Anticipated expiration: 2039-12-04
Also published as: CN110956146B

Abstract

本申请提供了一种道路背景建模方法、装置、电子设备和存储介质，方法包括：获取待检测道路的视频图像；将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像；其中，所述背景模型是通过卷积神经网络对样本视频图像进行训练得到的；所述样本视频图像是在昼夜、各种季节以及各种气候下获得的。本申请训练时输入的不仅是样本和对应的标注文件，还有采集时该图像记录的采集时间、气候、季节等信息；进行背景建模时不仅考虑了图像空间上的变化，还考虑了前后帧的差异。为了减少计算量，本申请在时间序列上，对每一帧进行标记的图像，加入了从当前帧的前几秒内采集的图像范围内按以相隔2的指数次方帧数筛选出来的图像，一同进行训练。

Description

一种道路背景建模方法、装置、电子设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种道路背景建模方法、装置、电子设备和存储介质。

背景技术

在数字轨、车路协同、自动驾驶、环境感知、辅助驾驶等技术领域内，其核心在于对当前行驶路况的实时检测与更新，行驶车辆能根据实时感知结果做出科学的行驶方案。

目前相关技术是通过在车辆上安装多种车载传感器(如摄像头、激光雷达、毫米波雷达等)，通过传感器的组合来实现环境感知，但由于车载传感器的监控范围有限，以及车辆在不断行驶时无法细致全面地感知道路状况，难以处理城市道路的复杂场景。在具体场合中，监控场景往往比较复杂，对背景的有效建模有一定的干扰，例如，随风摆动的树叶、监控设备发生抖动使得监控视频发生轻微错位、不同时间段的光照变化和形成的投影、正在等待红绿灯的行人、不同气候条件等等。

因此，亟需一种技术，可以基于道路实时监控实现对环境的大范围感知，将实时感知结果通过传输设备传输到自动驾驶车辆，供车辆使用。

发明内容

本申请提供一种道路背景建模方法、装置、电子设备和存储介质，以解决上述问题。

本申请第一方面提供了一种道路背景建模方法，所述方法包括：

获取待检测道路的视频图像；

将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像；

其中，所述背景模型是通过卷积神经网络对样本视频图像进行训练得到的；所述样本视频图像是在昼夜、各种季节以及各种气候下获得的。

进一步地，所述背景模型是按照如下方式训练得到的：

对卷积神经网络进行权重初始化；

向卷积神经网络输入样本视频图像，以及所述样本视频图像对应的标注文件，进行前向传播，获得在初始权重下，卷积神经网络的输出图像；其中，所述标注文件包括所述样本视频图像相应的时间信息、季节信息以及气候信息；

判断所述卷积神经网络的输出图像与标准标注样本图像之间的误差是否小于等于第一期望阈值；

当所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差不小于第一期望阈值时，根据所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差进行反向传播，调整所述卷积神经网络的权重，直至获得的卷积神经网络的输出图像与标准标注样本图像之间的误差小于等于第一期望阈值；

停止所述卷积神经网络的训练，完成所述背景模型的构建。

进一步地，所述样本视频图像是按照如下方式获得的：

获取样本监控视频；所述样本监控视频包括在多种时间、多种季节、多种气候以及多种振动强度下获得的监控视频；

根据所述样本监控视频，获得第一样本视频图像集；其中，所述第一样本视频图像集是由所述样本监控视频中的每一帧视频图像、按照拍摄时间顺序构成的；

对所述第一样本视频图像集进行至少一次抽样，获得第二样本视频图像集；

对第二样本视频图像集中的第二样本视频图像进行图像畸变处理，获得所述样本视频图像。

进一步地，所述标准标注样本图像和所述标注文件是按照如下方式获得的：

利用第三方标注工具对所述样本视频图像进行背景分割和分类标注，获得标准标注样本图像和对应的标注文件。

进一步地，对所述第一样本视频图像集进行至少一次抽样，获得第二样本视频图像集，具体包括：

在所述第一样本视频图像集中，按照每间隔a帧第一样本视频图像抽取一帧第一样本视频图像的方式，获得第一训练集；其中，第一训练集包含所有被抽取的第一样本视频图像；a为正整数，a小于所述第一样本视频图像集中的第一样本视频图像的总数；

对所述第一训练集中的所有第一样本视频图像进行标记，获得标记第一训练集；

将所述标记第一训练集中所有第一样本视频图像重新放入所述第一样本视频图像集中原来各自所处的位置，构成待选第一样本视频图像集；

以所述待选第一样本视频图像集中具有标记的第一样本视频图像为节点，取所述节点前的N帧第一样本视频图像；

针对每个节点获取的每组N帧第一样本视频图像，以相应的节点为起点，从该组中的N帧第一样本视频图像中，依次取间隔2ⁿ帧第一样本视频图像后的一帧第一样本视频图像，获得时序训练子集；其中n依次取自然数；

根据所有的时序训练子集，获得第二训练集；

根据所述第一训练集和所述第二训练集，获得第二样本视频图像集。

进一步地，所述样本视频图像包括：在各个季节中多种气候下获得的视频图像；在各个季节中夜间、白天获得的视频图像；其中，所述样本视频图像中，在各个季节中获得的视频图像数量相同；在各种气候下获得的视频图像的数量相同；在夜间和白天各自获得的视频图像数量相同。

进一步地，将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像的同时，还包括：获得所述视频图像中所摄场景的季节概率、昼夜概率以及气候概率。

本申请第二方面提供了一种道路背景建模装置，所述装置包括：

获取模块，用于获取待检测道路的视频图像；

背景掩码图像获取模块，用于将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像；

本申请第三方面提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现一种道路背景建模方法。

本申请第四方面提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行实现一种道路背景建模方法。

与现有技术相比，本申请包括以下优点：

本申请训练时输入的不仅是样本和对应的标注文件，还有采集时该图像记录的采集时间、气候、季节等信息；进行背景建模时不仅考虑了图像空间上的变化，还考虑了前后帧的差异。为了减少计算量，本申请在时间序列上，对每一帧进行标记的图像，加入了从当前帧的前几秒内采集的图像范围内按以相隔2的指数次方帧数筛选出来的图像，一同进行训练；

本申请不仅能在各种气候条件下输出监控区域的背景，还能输出该测试样本的气候、季节等信息。

本申请中的背景模型泛化能力强，所建立的背景模型包含了所有一年四季中几乎所有的气候条件，模型不仅能够给出背景图像，而且能够给出检测图像对应的的季节与气候等信息。

本申请硬件成本大幅降低，相比于其他硬件设备，如红外传感器造价昂贵，实现大范围的普及有很大的压力，因此现在还处于小规模的研究阶段，而基于视觉的摄像头造价便宜一个数量级。

本申请算法设计难度低，相比于相关技术，红外传感器基于原距离测距精度降低，使得提取障碍物较为困难；基于多传感器融合可以使障碍物检测更加精准，但算法设计难度大，并且各传感器由于各自的设计原理，很难实现真正的同步。本申请对于仅仅基于视觉的传感器不仅成本降低，算法设计难度也较低。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请各个实施例的技术方案，下面将对本申请各个实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请中一种道路背景建模方法的流程图；

图2是本申请中构建背景模型的流程图；

图3是本申请中一种道路背景建模方法所依赖的硬件系统框图；

图4是本申请中一种道路背景建模方法的软件流程图；

图5是本申请中全天候道路背景建模系统流程图；

图6是本申请中图像采集模块流程图；

图7是本申请中图像预处理标注模块流程图；

图8是本申请中全天候背景模型建立模块流程图；

图9是本申请中图像检测模块结构框图；

图10是本申请中一种道路背景建模装置框图；

图11是本申请中电子设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

在城市新型基础设施、未来社区等愿景的推动下，对自动驾驶相关的技术需求较大。自动驾驶的核心在于对当前行驶路况的实时检测与更新，行驶车辆能根据实时感知结果做出科学的行驶方案。

目前主流的方法是通过在自动驾驶车辆上安装多种车载传感器，如摄像头、激光雷达、毫米波雷达等，并通过多种车载传感器的组合来实现环境感知。然而，车辆在不断行驶时，由于车载传感器的监控范围有限，导致无法细致全面地感知道路状况，因此，难以处理城市道路的复杂场景。在此基础上，基于道路实时监控，可以依赖于对背景的环境建模，实现对环境的大范围感知，将实时感知结果通过传输设备传输到自动驾驶车辆，供车辆使用。

在具体场合中，监控场景往往比较复杂，对背景的有效建模有一定的干扰，例如，随风摆动的树叶、监控设备发生抖动使得监控视频发生轻微错位、不同时间段的光照变化和形成的投影、正在等待红绿灯的行人、不同气候条件等等。

现有的背景建模的方法有很多，早期最流行的是基于高斯混合模型和该模型的改进的方法，但这一类方法在前景对象移动频繁且速度较快时性能较差。

之后为了应对复杂背景，提出了具有时间和空间特征的的递归贝叶斯架构，在对复杂环境下的渐变和突变的背景进行建模。

为了更好的利用时空的上下文信息提出了一种将每个像素量化程码本的压缩背景模型，但是在实际应用中，很难得到理想背景序列。

ViBe也是较为常用的背景模型，ViBe算法根据视频图像的第一帧，为每个像素点用随机采样的方式进行建模，利用每个像素点的相邻像素具有相似的特征，随机选取邻域像素值进行背景建模或更新背景，不需要大量的统计、估计或者运算，因此相比于混合高斯背景建模，ViBe算法具有复杂度低，运行速度快等优势。

在ViBe的基础上也出现了许多改进的方法，但在运动背景和恶劣气候条件下效果也并不尽如人意。

相关技术中还提出一种适应于各种复杂场景的背景建模方法，该方法首先针对多个视频图像帧，将每帧图像划分为多个图像块；之后根据所述多个视频图像帧的第一帧建立初始背景模型，并对每一个背景点存储一个对应的样本集；最后对于第一帧的后续帧，通过与初始背景模型进行匹配来构造针对多个图像块的背景模型，以形成背景图。

这些方法都只能在简单背景下效果明显，但是在复杂背景下效果都并不理想。

此外，光照变化是一个重要的因素，光照变化主要体现在以下两方面，一方面是渐变型关照，如太阳光被云层逐渐遮挡时的变化；另一方面是突变型光照，例如，漆黑的室内突然开灯，再例如，入夜时分路边灯光突然开启。

为了适应光照的变化，相关技术提出了另一种方式，先利用单个高斯信号创建多个背景模型，之后用相关度最高的模型来进行模型匹配。因此高斯混合模型对光照变化有一定的健壮性。

另外，图像抖动也是一个需要着重考虑的问题，图像抖动会造成前后帧之间发生图像位置和视野错位，并且图像会变得模糊，因此处理的方法主要是对图像去模糊和位置匹配。

相关技术中也有专门消除图像抖动影响的方法，例如，一种通过对图像中的像素分贝建立HSV通道的高斯模型，并判断图像中的模糊像素属于哪一种高斯模型，之后根据高斯模型更新背景模型，最后根据高斯分布进行模型像素的判定并消除模型像素。

再例如，通过获取视频流数据，并根据振动状态信息对视频流数据进行抖动补偿，以便于在流媒体后视镜中显示抖动补偿后的视频流数据。

再例如，一种对图像进行抖动判定和消除的方法。抖动判定是通过对图像进行频域分析，当图像存在周期性的高频分量，则判定视频存在抖动。抖动消除是：先采用卡尔曼滤波器滤除图像抖动导致的高频分量；之后通过抖动补偿和特征帧替换模块，以及根据原始轨迹和平滑后的期望轨迹，对运动矢量图像进行反向补偿，得到防抖后的视频；最后由于这样防抖处理后的视频帧存在不连续和物体畸变的情况，对不连续的视频帧，采用特征帧的对应像素，对不连续像素进行替换；对于存在畸变的像素点，采用边缘提取、特征轮廓保持、加权平均的平滑方式消除畸变。

但是以上所提到的相关技术都易受运动背景和雨雪等气候的干扰。其中，动态背景，例如包含飘动的树叶的场景、摄像机抖动造成的效果，都会造成视频和背景帧之间的像素位置不再重叠。因此一定程度上可一起处理。

此外，前景目标长时间静止也是一个需要考虑的因素，这时候可能相关技术中的模型会将长时间静止的目标误判为背景。这可以根据当前帧和前几帧图像之间的相似度呈现随着帧间间隔越大相似度越低的趋势，可以通过这一特性来解决这一问题。

申请人在上述相关技术的背景下，发现了基于反馈机制的神经网络方法在目标检测和分割等领域有成功的应用。神经网络最大的特点就是能自主地学习样本的特征而不用人为地设计特征提取算子。

其中，相关技术提出了一种基于视频背景的评估方法，将拍摄获得的视频帧和事先处理好的真实分割样本一同输入到卷积神经网络中进行训练，由于输出结果在边界效果不理想，还运用了空间滤波进行后处理。

相关技术还提出了一种基于KDE的图像背景差分结构，首先，为每一个像素定义一个名为MV(Mino Vector)的数据结构和场景像素的动态性质(DN)并根据DN对其进行排序，得到量化结果，命名为动态秩；在此基础上，采用了变化了KDE算法，大大提高了估计精度；为每一个像素设置一个自适应阈值，提出一个Tetris的更新计划来更新背景模型。

虽然上述两种相关技术，采用神经网络进行训练并最终获得的背景模型都能有较好的效果，但这两种方法中并没有对光照、摄像机抖动和动态背景进行特殊的处理。

然而，相关技术中并没有一个能够在一年四季各种气候条件下都适用的背景模型。对于某一监控区域，现有方案中，传统方案大都基于人工手动设计特征，该特征不可训练，适用场景也很有限；虽然也有采用神经网络训练的方式，但是现在并没有能够在一年四季各种气候条件下都适用的背景模型，并且也无法判断测试图像拍摄的季节与气候。

申请人为了解决上述技术问题，利用神经网路对某一特定的场景进行背景建模。本申请所提出的一种道路背景建模方法，不仅能够对全天候多季节的背景建模，而且能判断出该输入的图像拍摄的季节与气候，有效地提高环境感知系统的稳定性和鲁棒性。

本申请可以通过数字轨路测单元(DRSU)对某一监控区域全天候多季节拍摄的视频图像进行自适应背景建模，要实现全天候多季节的自适应背景建模，需要解决多季节下各种气候对背景生成的有效性能的影响，需要相关的技术能够在这复杂环境的影响下(雾霾天气除外)，进行有效背景建模，增强模型的耦合性和抗干扰能力，保证前景目标的精确检测，最终确保自动驾驶的安全性。其中，数字轨路测单元(DRSU)：一种路测信息感知处理系统，硬件设备包括感知设备、计算设备和通讯设备，其中感知设备包括并不局限于：摄像头，激光雷达，毫米波雷达。

本申请提供的一种道路背景建模方法，如图1所示，所述方法包括：

步骤S11，获取待检测道路的视频图像；

本申请中利用摄像头采集待检测道路的视频图像，该视频图像可以是在以下情况下拍摄获得：白天、黑夜、刮风、下雨、下雪、春夏秋冬。

步骤S12，将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像；其中，所述背景模型是通过卷积神经网络对样本视频图像进行训练得到的；所述样本视频图像是在昼夜、各种季节以及各种气候下获得的。

将视频图像输入背景模型后，可以获得该视频图像的背景掩码图像。其中，背景掩码图像是指一帧视频图像中去掉前景后的背景图像。例如，视频图像中包括一个人正踩着自行车通过、一个垃圾桶、一堵墙、一辆白色轿车正进入拍摄场景(处于行驶状态)、道路两边有电线杆以及树木，那么，前景是指“一个人正踩着自行车通过”、“一辆白色轿车正进入拍摄场景(处于行驶状态)”，而背景图像中应有的就是：一个垃圾桶、一堵墙、道路两边有电线杆以及树木。

此外，将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像的同时，还包括：获得所述视频图像中所摄场景的季节概率、昼夜概率以及气候概率。

例如，根据输入的视频图像，可以判别出该视频图像中的场景属于冬季的概率大小、属于晴天的概率大小、属于白天的概率大小等。

通过5G网络传输设备将建立的背景模型传输存储设备中，供后期对该监控区域开发环境感知系统做准备。

如图2所示，本申请中的背景模型是按照如下方式训练得到的：

步骤S21，对卷积神经网络进行权重初始化；

权重属于卷积神经网络内部的参数，将权重初始化，为初始训练做准备。权重包括模型参数与超参数，其中，模型参数是指由模型通过学习得到的变量，如权重w和偏置b等；模型超参数是指在开始学习过程之前设置的变量，主要根据经验进行设定，影响到权重w和偏置b的大小，如学习率、迭代次数等。

步骤S22，向卷积神经网络输入样本视频图像，以及所述样本视频图像对应的标注文件，进行前向传播，获得在初始权重下，卷积神经网络的输出图像；其中，所述标注文件包括所述样本视频图像相应的时间信息、季节信息以及气候信息；

样本视频图像是指：未经过任何标注的视频图像，可以认为是原始视频图像。

所述样本视频图像是按照如下方式获得的：

步骤S2201，获取样本监控视频；所述样本监控视频包括在多种时间、多种季节、多种气候以及多种振动强度下获得的监控视频；

时间可以是白天、黑夜，也可以是清晨、上午、正午、下午、傍晚、黄昏、黑夜、午夜、凌晨等。

季节可以是春夏秋冬，也可以是按照二十四节气进行划分，例如，立春、雨水、惊蛰、春分、清明、谷雨、立夏、小满、芒种、夏至、小暑、大暑、立秋、处暑、白露、秋分、寒露、霜降、立冬、小雪、大雪、冬至、小寒、大寒。

气候可以是刮风、下雨、晴天、阴天、雪天等。

振动可以是由于车辆经过时产生的振动，也可以是风吹过时产生的振动。

优选地，本申请采集各个季节阴天背景监控区域的数据，例如采集早上6点到7点间的无间隔的一段监控视频图像。选取这个时间段的原因在于：监控区域内的前景目标较少，能较好的还原背景区域，再者，阴天一天中的环境都一样，不用全天隔时间段采集；并且这时候天空也放亮，也能满足摄像头对光照的要求。

本申请采集各个季节应对太阳光光照改变的数据。因为太阳光的光照变化很微弱，因此，选择7点到17点，每隔15分钟采集1分钟视频图像，这样可以包含白天不同时间段光照变化。

本申请采集各个季节夜间灯光下的监控区域数据。由于夜间路侧灯光是不变的，因此为了更好的建立夜间监控区域的背景模型，选择19点到5点时间段，也每隔15分钟采集1分钟视频图像。这段时间前景障碍物较多，训练这部分数据可以增强模型的健壮性。

本申请采集各个季节雨天监控区域数据。为了使背景模型也能适用于下雨等动态背景，需要采集雨天监控区域的数据。由于雨天又能下大雨、中雨和小雨。因此可以关注天气预报，在各种下雨条件下进行采集白天和晚上监控区域的数据。

本申请采集冬季下雪天气下的道路监控区域数据。

所述样本视频图像包括：在各个季节中多种气候下获得的视频图像；在各个季节中夜间、白天获得的视频图像；其中，所述样本视频图像中，在各个季节中获得的视频图像数量相同；在各种气候下获得的视频图像的数量相同；在夜间和白天各自获得的视频图像数量相同。对于采集的数据，保证用于模型训练的数据量之间是持平的，防止因为各类型的图像之间的训练数据量相差较大而导致模型产生对训练集过多数据的倾向性。

本申请综合考虑了以下因素，可以提高所构建的背景模型增强获得前景与背景的正确性，为道路障碍物的识别提供技术支撑。

1)白天各时间段光照强度对路面背景的影响；

2)白天各时间段光照对背景中遮挡物形成的路面阴影不一致；

3)白天太阳光和晚上路侧灯光对路面背景造成的影响不同；

4)运动背景下(摆动的树叶和下雨、下雪、等恶劣天气)对背景建模的影响；

5)安装的摄像头由于风吹和大型车辆经过产生振动引起摄像头的轻微抖动对拍摄视频的影响；

6)长时间静止的障碍物会被判别为背景；

7)不同季节场景发生局部变化时对建模的影响，如对于道路两旁景观树木，冬季枯枝，春季嫩芽，夏季树叶茂盛和秋季树叶枯黄等。

步骤S2202，根据所述样本监控视频，获得第一样本视频图像集；其中，所述第一样本视频图像集是由所述样本监控视频中的每一帧视频图像、按照拍摄时间顺序构成的；

样本监控视频是由一帧帧的第一样本视频图像构成的，对样本监控视频进行处理，得到每帧第一样本视频图像，从而构成第一样本视频图像集。第一样本视频图像集中的第一样本视频图像是按照拍摄顺序进行排列的。

步骤S2203，对所述第一样本视频图像集进行至少一次抽样，获得第二样本视频图像集；

由于第一样本视频图像集中具有样本监控视频中所有帧的图像，其数据量较大，如果将其全部作为训练集，对背景模型进行训练，会导致处理的数据量巨大，计算量巨大。为了减少相对的数据量，需要对第一样本视频图像集中的第一样本视频图像集进行抽样，获得其中的一部分视频图像，作为训练背景模型的基础。

要对DRSU拍摄的一段指定区域的监控视频进行背景建模，由于场景是固定的，背景的建模又由于气候、时间、季节等一些干扰因素而无法精确的构建背景模型，又因为要对路况进行建模，拍摄到的视频帧图像中一定都包含了障碍物，所以必须同时考虑时间序列和空间区域上场景的变化。

为了检测长时间静止的物体，需要考虑时间序列上的像关系。在时间序列上，通过拍摄的视频可以提取出每一帧图像(每秒M帧)，由于相邻帧图像之间有很大的相关性，这种相关性在时间跨度上呈现相隔时间越长，相关性越小的趋势；因此采取对当前帧进行处理时，考虑距它几秒区间内的图像之间的关系。对前几秒内图像不做抽样，对后面的视频帧处理时要考虑在当前帧前几秒内的所有视频帧中按照间隔递增的方式进行抽样得到的视频帧。这样既充分考虑了时间上的变化，精切捕捉时间序列上前后帧的差异，也减少了计算量。

在空间范围内，提取视频帧图像中的前景和背景的特征，以此识别前景和背景，并进一步精确分割出前景和背景的边界。精确分割每一帧的前景和背景，再结合前几秒内图像之间的差异性。

以上述构思为指导，本申请提出了以下抽样方式，具体包括：

步骤S220301，在所述第一样本视频图像集中，按照每间隔a帧第一样本视频图像抽取一帧第一样本视频图像的方式，获得第一训练集；其中，第一训练集包含所有被抽取的第一样本视频图像；a为正整数，a小于所述第一样本视频图像集中的第一样本视频图像的总数；

间隔a帧抽取一帧的方式的原因在于，以第1帧为例，第2帧与第1帧的关系非常密切，有可能两张是完全相同的，随着时间的推移，距离获得第1帧的时间间隔越长，获得的视频图像与第1帧之间的关联越小。因此，为了减少数据量，同时也考虑所得视频图像在空间上的关联程度，通过间隔a帧抽取一帧的方式，去获取第一训练集。

为了更清楚的说明抽样的方式，现提出一个示例，具体如下：

第一样本视频图像集中包括100帧第一样本视频图像，分别记为第1帧、第2帧、第3帧等，其中，a取4。

即每间隔4帧取一帧，第1帧、第2帧、第3帧、第4帧，间隔4帧后，需要提取第5帧作为第一训练集中的一帧，后续以此类推，则获取的第一训练集则包括：第5帧、第10帧、第15帧、第20帧、第25帧等。

步骤S220302，对所述第一训练集中的所有第一样本视频图像进行标记，获得标记第一训练集；

将第一训练集中的视频图像进行标记，标记是为了区别第一训练集中的视频图像与第一样本视频图像集中未被抽取的视频图像。

步骤S220303，将所述标记第一训练集中所有第一样本视频图像重新放入所述第一样本视频图像集中原来各自所处的位置，构成待选第一样本视频图像集；

例如，第1帧、第2帧、第3帧、第4帧、第5z帧、第6帧、第7帧、第8帧、第9帧、第10z帧等。

步骤S220304，以所述待选第一样本视频图像集中具有标记的第一样本视频图像为节点，取所述节点前的N帧第一样本视频图像；

步骤S220305，针对每个节点获取的每组N帧第一样本视频图像，以相应的节点为起点，从该组中的N帧第一样本视频图像中，依次取间隔2ⁿ帧第一样本视频图像后的一帧第一样本视频图像，获得时序训练子集；其中n依次取自然数；

以该种方式获得时序训练子集的目的在于，充分考虑选取的样本视频图像在时间上的关联程度，距离节点越近的视频图像与之关联的程度越大，反之越小，所以充分考虑与节点之间的距离以及相应的关联程度进行二次选取。

例如，此处取N为8。

第1帧、第2帧、第3帧、第4帧、第5z帧、第6帧、第7帧、第8帧、第9帧、第10z帧；

第11帧、第12帧、第13帧、第14帧、第15z帧、第16帧、第17帧、第18帧、第19帧、第20z帧；

……

第81帧、第82帧、第83帧、第84帧、第85z帧、第86帧、第87帧、第88帧、第89帧、第90z帧；

第91帧、第92帧、第93帧、第94帧、第95z帧、第96帧、第97帧、第98帧、第99帧、第100z帧。

其中第5z帧是第一个节点，由于第5z帧之前的视频图像的数量不够8帧，所以在第5z帧之前不需要抽取；

在第10z帧之前的视频图像的数量满足8帧，所以可以在第10z帧之前的8帧中进行第二次选取，可以选择的视频图像包括：第3帧、第4帧、第5z帧、第6帧、第7帧、第8帧、第9帧、第10z帧。

以第10z帧为节点，往前数，依次间隔2⁰、2¹、2²、2³、2⁴帧，获得相应的视频图像，当n取0时，即与第10z帧间隔2⁰帧，获得第8帧；当n取1时，即与第10z帧间隔2¹帧，获得第7帧；当n取2时，即与第10z帧间隔2²帧，获得第5z帧。所以当以第10z帧为节点时，获得的时序训练子集包括第8帧、第7帧、第5z帧。

后续的节点第15z帧、第20z帧等均以上述相同的方式进行选取，获得相应的时序训练子集。

步骤S220306，根据所有的时序训练子集，获得第二训练集；

将根据节点获得所有时序训练子集综合，获得第二训练集。

步骤S220307，根据所述第一训练集和所述第二训练集，获得第二样本视频图像集。

将第一训练集和第二训练集共同输入背景模型进行训练，既考虑了视频图像在空间上的相关性，也考虑了视频图像在时序上的关联程度，可以使得背景模型更准确。

步骤S2204，对第二样本视频图像集中的第二样本视频图像进行图像畸变处理，获得所述样本视频图像。

由于视频图像在拍摄的过程中，由于摄像机的参数或者拍摄环境等造成了图像的变形，因此对图像进行畸变处理，使得背景模型的输入端的数据更准确，进而提高背景模型训练的准确度。

标注文件是指：与样本视频图像中相应的时间信息、季节信息以及气候信息。例如，时间可以是白天、黑夜，或者可以是清晨、傍晚、黄昏、正午等；所处的季节可以是春夏秋冬，也可以是初春、中夏、深秋、初冬等对季节进行详细划分后的季节；刮风、下雨、下雪、晴天、阴天等。

标注文件是按照如下方式获得的：

其中，第三方标注工具可以是labelme。利用公开的标注工具如labelme对抽样的视频帧图像按照神经网络学习的要求进行前景背景分割和分类标注。

其中，前向传播就是搭建去雾模型的计算过程，让背景模型具有推理能力，可以针对一组输入给出相应的输出。此处的输入是指样本视频图像和对应的标注文件，此处的输出是指卷积神经网络的输出图像。

卷积神经网络的输出图像是经过卷积神经网络训练后，通过使用标注文件中的信息对样本视频图像进行标注后的卷积神经网络的输出图像。

步骤S23，判断所述卷积神经网络的输出图像与标准标注样本图像之间的误差是否小于等于第一期望阈值；

为了判断在初始化权重下的卷积神经网络输出的卷积神经网络的输出图像是否符合相应的要求，需要对卷积神经网络的输出图像进行比较，即将卷积神经网络的输出图像与标准标注样本图像之间进行比较，判断两者之间的误差是否满足相应的误差范围(即第一期望阈值)。

其中，标准标注样本图像是按照如下方式获得的：

当所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差小于第一期望阈值时，则说明当前的背景模型已经可以满足对背景分割的需求了，可以停止训练。

步骤S24，当所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差不小于第一期望阈值时，根据所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差进行反向传播，调整所述卷积神经网络的权重，直至获得的卷积神经网络的输出图像与标准标注样本图像之间的误差小于等于第一期望阈值；

当所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差不小于第一期望阈值时，则说明当前的背景模型还不能满足背景分割的需求，需要对当前的背景模型的权重进行反向传播，调整权重，再依次执行步骤S23、步骤S24，直到获得的卷积神经网络的输出图像与标准标注样本图像之间的误差小于等于第一期望阈值。

其中，反向传播是指背景模型参数(即权重)，在所有参数(权重)上用梯度下降，使神经网络模型在训练数据上的损失函数最小。

例如，输入的样本图像是一帧冬季、下雪、黑夜、具有一个正在行驶通过道路的白色汽车、一个垃圾桶的图像，经过当前背景模型的标注，获得卷积神经网络的输出图像中表现的是具有一个正在行驶通过道路的白色汽车，标注的是春天、雨天、傍晚，那说明当前的背景模型还未完成训练，需要调整权重，重新训练，直至该背景模型输出的是卷积神经网络的输出图像中表现的是一个垃圾桶，标注的是冬季、雪天、黑夜，才能说明该背景模型训练完成。

步骤S25，停止所述卷积神经网络的训练，完成所述背景模型的构建。

本申请训练时输入的不仅是样本和对应的标注文件，还有采集时该图像记录的采集时间、气候、季节等信息；

进行背景建模时不仅考虑了图像空间上的变化，还考虑了前后帧的差异。为了减少计算量，本申请在时间序列上，对每一帧进行标记的图像，加入了从当前帧的前几秒内采集的图像范围内按以相隔2的指数次方帧数筛选出来的图像，一同进行训练；

本申请还提供了一种全天候视频背景建模硬件系统，如图3所示，包括感知设备、计算设备、传输设备和存储设备，其中感知设备用于采集待检测路段的视频图像，计算设备为背景模型的载体，对视频图像进行分析，传输设备将背景模型的输出传输至存储设备进行存储。

本申请还提供了一种全天候视频背景建模软件系统，如图4和图5所示，其中图4为软件系统的流程图，图5是软件系统的框图，具体包括图像数据采集模块、数据标注模块、全天候道路背景模型建立模块和将检测结果进行传输并存储的背景储存模块。

图像数据采集模块执行的功能是：利用摄像头采集指定监控区域的监控视频。

数据标注模块执行的功能是：对图像进行人为的标记出前景和背景。

背景模型建立模块执行的功能是：通过将前期标注的数据输入深度卷积神经网络进行训练，得到适应于全天候多种气候条件的背景模型。

最后将得到的背景模型存放的指定设备中，供后期相关开发使用。

本申请的数据采集设备是摄像头，在需要监控的路段(如十字路口)架设采集该装置，并按现场条件调整拍摄角度、进行相机校正，之后便可打开该装置进行实时路况视频采集。由于本申请需要建立多季节全天候多气候环境背景模型，因此采集的视频数据要包含不同季节和不同气候条件下的监控区域，并且要记录下采集数据时的季节与气候条件和采集的具体时间段等信息。

其中，数据采集模块的工作流程如图6所示，选定采集路段，布置采集设备，记录气候、采集时间段、摄像机帧率，对视频图像进行采集。

数据预处理与标注模块流程图如图7所示:

将监控视频采集到之后，对该视频进行前期处理。

首先，需要先提取出该视频采集的时间段、采集当天的季节和气候条件，并将该视频转化为视频帧图像。

其次，由于采集设备的影响，采集到的视频帧可能会出现一定程度的图像畸变，因此需要对图像帧进行图像畸变校正处理。

然后，由于采集到的视频帧图像数量众多，且相邻帧之间的数据冗余率很高，因此不必对每一帧进行处理，选择等间距的方式对视频帧数据进行抽样。

最后，利用公开的标注工具如labelme对抽样的视频帧图像按照神经网络学习的要求进行前景背景分割和分类标注，得到源图像和对应的标注文件，并且由于要考虑时间序列的变化，从当前标注图像的前几秒内采集的图像范围内按间隔2的指数次方的方式筛选图像，和标注文件一起划分为训练集和测试集。

全天候道路背景模型建立模块流程图如图8所示：

步骤1，将训练集数据额对应的采集时记录的时间季节信息送入网络。

步骤2，对网络进行权重初始化，为网络训练做准备。

步骤3，训练神经网络。

首先输入图像进行前向传播得到输出值；

其次，求出网络的输出值与目标值之间的误差；

然后，当误差大于我们的期望值时，将误差进行反向传播，根据求得的误差进行权重更新；

最后，重复前向与反向权重更新流程，直至误差等于或小于我们的期望值时结束训练。

步骤4，将测试集输入到步骤3得到的网络模型中测试模型的性能，

如果测试测试通过则将该模型视为基于该训练集的背景模型；

如果测试未通过，则需要调节模型参数并重新进行训练。

参数调节具体按照参数重要性原则调试参数，由学习率、小批量数目、迭代次数、动量大小等，最后也可改变网络的特征提取结构和激活函数等等。直到最后模型通过测试集的测试。

图像检测模型流程如图9所示：输入待检测的图像，加载训练好的背景模型，输入模型判断的该属于哪个季节哪个气候条件下的图像；并且给出该图像属于背景的图像。

本申请基于同一构思，提出了一种道路背景建模装置，如图10所示，所述装置包括：

获取模块101，用于获取待检测道路的视频图像；

背景掩码图像获取模块102，用于将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像；

概率获取模块，用于将所述视频图像输入背景模型，获得所述视频图像中所摄场景的季节概率、昼夜概率以及气候概率。

其中，背景掩码图像获取模块具体包括：初始化子模块，用于对卷积神经网络进行权重初始化；

前向传播子模块，用于向卷积神经网络输入样本视频图像，以及所述样本视频图像对应的标注文件，进行前向传播，获得在初始权重下，卷积神经网络的输出图像；其中，所述标注文件包括所述样本视频图像相应的时间信息、季节信息以及气候信息；所述样本视频图像包括：在各个季节中多种气候下获得的视频图像；在各个季节中夜间、白天获得的视频图像；其中，所述样本视频图像中，在各个季节中获得的视频图像数量相同；在各种气候下获得的视频图像的数量相同；在夜间和白天各自获得的视频图像数量相同。

判断子模块，用于判断所述卷积神经网络的输出图像与标准标注样本图像之间的误差是否小于等于第一期望阈值；

反向传播子模块，用于当所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差不小于第一期望阈值时，根据所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差进行反向传播，调整所述卷积神经网络的权重，直至获得的卷积神经网络的输出图像与标准标注样本图像之间的误差小于等于第一期望阈值；

构建子模块，用于停止所述卷积神经网络的训练，完成所述背景模型的构建。

所述前向传播子模块具体包括：

第一获取子模块，用于获取样本监控视频；所述样本监控视频包括在多种时间、多种季节、多种气候以及多种振动强度下获得的监控视频；

第二获取子模块，用于根据所述样本监控视频，获得第一样本视频图像集；其中，所述第一样本视频图像集是由所述样本监控视频中的每一帧视频图像、按照拍摄时间顺序构成的；

抽样子模块，用于对所述第一样本视频图像集进行至少一次抽样，获得第二样本视频图像集；

畸变处理子模块，用于对第二样本视频图像集中的第二样本视频图像进行图像畸变处理，获得所述样本视频图像。

其中，背景掩码图像获取模块还具体包括标注子模块，用于利用第三方标注工具对所述样本视频图像进行背景分割和分类标注，获得标准标注样本图像和对应的标注文件。

其中，抽样子模块具体包括：

第一训练集获取子模块，用于在所述第一样本视频图像集中，按照每间隔a帧第一样本视频图像抽取一帧第一样本视频图像的方式，获得第一训练集；其中，第一训练集包含所有被抽取的第一样本视频图像；a为正整数，a小于所述第一样本视频图像集中的第一样本视频图像的总数；

标记子模块，用于对所述第一训练集中的所有第一样本视频图像进行标记，获得标记第一训练集；

插入子模块，用于将所述标记第一训练集中所有第一样本视频图像重新放入所述第一样本视频图像集中原来各自所处的位置，构成待选第一样本视频图像集；

节点确定子模块，用于以所述待选第一样本视频图像集中具有标记的第一样本视频图像为节点，取所述节点前的N帧第一样本视频图像；

时序训练子集获取子模块，用于针对每个节点获取的每组N帧第一样本视频图像，以相应的节点为起点，从该组中的N帧第一样本视频图像中，依次取间隔2ⁿ帧第一样本视频图像后的一帧第一样本视频图像，获得时序训练子集；其中n依次取自然数；

第二训练集获取子模块，用于根据所有的时序训练子集，获得第二训练集；

第二样本视频图像集获取子模块，用于根据所述第一训练集和所述第二训练集，获得第二样本视频图像集。

本申请还提供了一种电子设备，如图11所示，包括：

处理器111；

用于存储所述处理器111可执行指令的存储器112；

其中，所述处理器111被配置为执行以实现一种道路背景建模方法。

本申请还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器111执行时，使得电子设备能够执行实现一种道路背景建模方法。

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种道路背景建模方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种道路背景建模方法，其特征在于，所述方法包括：

获取待检测道路的视频图像；

2.根据权利要求1所述的方法，其特征在于，所述背景模型是按照如下方式训练得到的：

对卷积神经网络进行权重初始化；

当所述卷积神经网络的输出视频图像与所述标准标注样本图像之间的误差不小于第一期望阈值时，根据所述卷积神经网络的输出图像与所述标准标注样本图像之间的误差进行反向传播，调整所述卷积神经网络的权重，直至获得的所述卷积神经网络的输出图像与标准标注样本图像之间的误差小于等于第一期望阈值；

停止所述卷积神经网络的训练，完成所述背景模型的构建。

3.根据权利要求2所述的方法，其特征在于，所述样本视频图像是按照如下方式获得的：

4.根据权利要求3所述的方法，其特征在于，所述标准标注样本图像和所述标注文件是按照如下方式获得的：

5.根据权利要求3所述的方法，其特征在于，对所述第一样本视频图像集进行至少一次抽样，获得第二样本视频图像集，具体包括：

根据所有的时序训练子集，获得第二训练集；

6.根据权利要求2所述的方法，其特征在于，所述样本视频图像包括：在各个季节中多种气候下获得的视频图像；在各个季节中夜间、白天获得的视频图像；其中，所述样本视频图像中，在各个季节中获得的视频图像数量相同；在各种气候下获得的视频图像的数量相同；在夜间和白天各自获得的视频图像数量相同。

7.根据权利要求1-6任一所述的方法，其特征在于，将所述视频图像输入背景模型，获得所述视频图像的背景掩码图像的同时，还包括：获得所述视频图像中所摄场景的季节概率、昼夜概率以及气候概率。

8.一种道路背景建模装置，其特征在于，所述装置包括：

获取模块，用于获取待检测道路的视频图像；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现如权利要求1至7中任一项所述的一种道路背景建模方法。

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行实现如权利要求1至7中任一项所述的一种道路背景建模方法。