CN110096981A

CN110096981A - 一种基于深度学习的视频大数据交通场景分析方法

Info

Publication number: CN110096981A
Application number: CN201910322213.9A
Authority: CN
Inventors: 张斯尧; 王思远; 谢喜林; 张�诚; 黄晋; 蒋杰
Original assignee: Changsha Qianshitong Intelligent Technology Co Ltd
Current assignee: Changsha Qianshitong Intelligent Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-08-06

Abstract

本发明公开了一种基于深度学习的视频大数据交通场景分析方法，涉及计算机视觉领域，具体包括如下步骤：S1、系统视频前景与背景分析：采用SOBS进行背景建模，去除视频定格中的前景，保留背景视频；S2、系统视频交通标识的检测与分类：采用R‑FCN算法对背景图像马路信息进行检测并进行二次结构化；S3、统计各项数据，分析马路上的信息，综合汇总，结合车辆自动检测系统做出车辆违章统计与道路规划。本发明可运用于城市交通智慧大脑中，通常配合车辆自动检测平台结合使用，能高效准确地判断出车流量，车辆道路违章等事件，为安全城市与智能交通提供了很好的软件基础。

Description

一种基于深度学习的视频大数据交通场景分析方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的视频大数据交通场景分析方法。

背景技术

随着现代化交通、安防等行业的迅速发展，深度学习技术越来越受到人们的重视，是近年来计算机视觉与模式识别技术在智能交通领域的重要研究课题之一。同时，近年来国家大力度推展智慧安全城市和智能交通系统，也使二者结合成为了可能。

智能交通系统是将先进的信息技术、定位导航技术、数据通信技术、电子传感器技术、自动控制技术、图像处理技术、计算机网络技术、人工智能技术等有效地综合运用于交通运输管理体系，加强了车辆、道路、使用者三者间的联系，从而实现交通运输服务和管理的智能化，在综合集成思想指导下，建立一种大范围、全方位实时、准确的综合交通运输系统。

城市智能交通系统中核心之一就是视频大数据场景分析。而目前来说，在现有的交通系统平台里，大部分城市均有应用道路大数据系统，能对交通场景视频进行结构化处理。但是一般交通视频进行结构化系统指望用户输入背景或环璄有关的信息。通常来说，有经验的标注人员，往往需要十分钟标注一段视频，而智能交通系统中，摄像机的普及，需要大量人力物力及维护标注去进行生成和提取相应信息和数据。同时，现有的交通视频分析系统主要是针对动态的车辆和行人，而相对静止的背景信息，例如马路的位置，交通灯号的位置及交通指示路牌等常常容易被忽略。针对这些实际的特定问题，本发明提出了一种基于深度学习的视频大数据交通场景分析方法。

发明内容

本发明的主要目的是提供一种基于深度学习的视频大数据交通场景分析方法，旨在针对现行智能交通系统存在的这些特定难点问题，提高系统的辨识度与智能化程度，实现自主判断道路对车辆或者行人的规章制度要求，同时节约成本，减少人为错误并使其满足实时性需求。

为实现上述目的，本发明提供一种基于深度学习的视频大数据交通场景分析方法，具体包括如下步骤：

S1、系统视频前景与背景分析：采用SOBS进行背景建模，去除视频定格中的前景，保留背景视频；

S2、系统视频交通标识的检测与分类：采用R-FCN算法对背景图像马路信息进行检测并进行二次结构化，具体步骤如下：

S2.1、对S1中处理过后的背景图像进行基于PCA的数据增强处理；

S2.2、对数据增强后的背景图像做基于R-FCN的背景交通标识图像检测模型训练；

S2.3、将训练好的背景交通标识图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出判别交通标识的模型，按其性质可以分成全局、路面和路边三大项，然后对R-FCN检测输出的结果进行二次分类；

S3、统计各项数据，分析马路上的信息，综合汇总，结合车辆自动检测系统做出车辆违章统计与道路规划。

优选地，所述步骤S1包括：

S1.1、背景建模：将背景模型中的一个像素映射到模型中的多个位置，直至SOBS背景模型建立完成；

S1.2、视频帧图像的前景检测与背景更新：对于新进来的视频帧，将其对应位置的像素与背景模型中对应位置的模型进行比较；计算当前像素点与其对应的模型块里像素点的最小距离，对于视频图像，若最小距离小于阈值，则判定为背景，更新背景模型；若判定为阴影，则只标识为背景，不更新背景模型。

优选地，所述步骤S1.1中，映射方式为：对于每个像素，在背景模型中采用n×n来表示，在背景模型初始化时，将图像转换到HSV颜色空间，模型中的每个值用a_i＝(h_i,s_i,v_i)表示，对于原图中(x,y)处的一个像素，则对应于背景模型中的(i,j)，其定义为：

i＝n*x,n*x+1,...,x*(n+1)-1),j＝n*y,n*y+1,...,y*(n+1)-1)。

优选地，所述步骤S1.2中，对应位置的像素与模型比较中，在HSV颜色空间，两个像素p_i与p_j的距离如下式来计算：

优选地，所述S1.2中更新背景模型的公式如下：

其中，d(c_m，p_t)为计算任一像素点与背景模型的距离，c_i为i处的背景模型，p_t为当前像素点。

优选地，所述S1.2中阴影判断公式如下：

其中，上标V、S、H分别对应任意像素点颜色空间HSV上的分量，γ、β、τ_S、τ_H分别为分量上的阈值。

优选地，所述步骤S2.1包括：

S2.1.1、对数据进行镜面对称增强数据集，具体分为左右对称和上下对称，使数据集数量翻两番；

S2.1.2、对于刮痕这一个系列的数据集，进行背景分割；

S2.1.3、对处理过后的背景图像进行PCA处理。

优选地，所述步骤S2.1.3包括：

首先根据RGB三色对样本阵元进行如下标准化：变换色通道计算均值和标准差，对网络的输入数据进行规范化，其公式如下：

随后在整个训练集上计算协方差矩阵：

解相关矩阵R的特征方程|R-λI_P|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,…m，解方程组Rb＝λ_jb得到单位特征向量j＝1,2,…m，将标准化后的指标变量变换为主成分：

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数，取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射；

最后将上述经过数据增强预处理的图像输出。

优选地，所述步骤S2.2包括：

S2.2.1、定位目标车辆：利用RPN区域建议网络进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数，利用ResNet50网络生成特征映射图，并利用区域建议网络对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；

S2.2.2、R-FCN中的分类检测：在S2.2.1的基础上，利用R-FCN的分类网络，对目标框进行分类识别，即对目标车辆车窗细节具体类别的分类；R-FCN中的分类检测具体步骤如下：基于ResNet50网络生成的特征映射图，利用卷积操作在整幅图像上为每类生成k×k个位置敏感分数图，用于描述对应位置的空间网格；每个位置敏感图有C个通道输出，代表C-1类物体外加一个背景，对于一个w×h大小的候选目标框，由目标框RPN网络获得，将目标框划分为k×k个子区域，则每个子区域为w×h/k²大小，对于任意一个子区域bin(i,j),0≤i,j≤k-1，定义一个位置敏感池化操作，具体公式为：

其中，r_c(i,j|Θ)是子区域bin(i,j)对C个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的坐标，n是子区域bin(i,j)中的像素数，Θ代表网络的所有学习得到的参数。

优选地，所述步骤S2.3中，对R-FCN检测输出的结果进行二次分类时，

采用复制扩充训练集的方法，具体检测与分类过程如下：

将待二次检测的图像输入训练模型，检测出各种马路标识的个数与具体位置，并按名称进行分类；

采用区域候选框的交叉熵损失值作为候选区域选矿的分类损失值L_cls，L_s(s,t_x,y,w,h)为R-FCN的价值函数，具体计算公式如下：

L_cls(s_c*)是分类的交叉熵价值函数，判断为类别C的概率,t_x,y,w,h是目标框的顶点坐标以及长和宽，以下t_cwd、t_cw、都是t_x,y,w,h的形式，λ₁、λ₂是超参数，是对道路目标框位置信息的回归，L1指L1范数，t_cw是目标框的位置信息，道路标识真实的位置信息，是对道路标识具体细节目标框位置信息的回归，t_cwd是此类道路标识细节的目标框位置信息，是此类马路标识细节真实目标框信息；

根据两个价值函数公式，进行道路标识的识别检测，建立训练后的细节检测模型，由此模型准确判断并分类出道路标识的各种信息，以此用于车辆信息监测依据。

本发明实际上可运用于城市交通智慧大脑中，通常配合车辆自动检测平台结合使用，能高效准确地判断出车流量，车辆道路违章等事件，为安全城市与智能交通提供了很好的软件基础。本发明针对城市应用道路大数据交通场景系统这个特定问题，提高系统的准确性与可靠性，使系统辩识别度好，鲁棒性好，且能保持高效率并节约大量人力标注成本使其能更好满足实时性需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于深度学习的视频大数据交通场景分析方法一实施例的流程示意图。

图2是本发明基于深度学习的视频大数据交通场景分析方法一实施例中车牌图像三种积分特征通道图像。

图3是本发明基于深度学习的视频大数据交通场景分析方法一实施例四个方向梯度算子示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，为本发明一种基于深度学习的视频大数据交通场景分析方法的一实施例，所述一种基于深度学习的视频大数据交通场景分析方法，具体包括如下步骤：

S1、系统视频前景与背景分析：采用SOBS(自组织神经网络背景减除算法)进行背景建模，去除视频定格中的前景(车、行人)，保留背景视频；

SOBS(self-Organizing through artificial neural networks)是一种基于自组织神经网络的背景差分算法，主要是借鉴神经网络的特性，一个网络输入节点，对应多个中间节点，将背景模型中的一个像素映射到模型的多个位置，并采用了像素邻域空间相关的更新方式，使邻域的信息进一步融入模型中，使得算法具有邻域空间相关性；

所述步骤S1包括：

S1.1、背景建模：根据神经网络的特性，一个网络输入节点，对应多个中间节点，将背景模型中的一个像素映射到模型中的多个位置，直至SOBS背景模型建立完成，其映射方式如图2所示；

图2中是采用一个2×3像素，对于每个像素，在背景模型中采用n×n(n＝3)来表示，则对于一幅M×N的图像来说，其背景模型的大小将变成(M×n)×(N×n)，图中，像素a对应于模型中的(a₁,a₂,...,)；

在背景模型初始化时，将图像转换到HSV颜色空间，模型中的每个值用a_i＝(h_i,s_i,v_i)表示，因此，对于原图中(x,y)处的一个像素，则对应于背景模型中的(i,j)，其定义为：

i＝n*x,n*x+1...,x*(n+1)-1),j＝n*y,n*y+1...,y*(n+1)-1)

SOBS背景模型建立完成后，进一步来做前景检测与背景更新；

S1.2、视频帧图像的前景检测与背景更新：对于新进来的视频帧，将其对应位置的像素与背景模型中对应位置的模型进行比较；

对应位置的像素与模型比较中，在HSV颜色空间，两个像素p_i与p_j的距离如下式来计算：

计算当前像素点与其对应的模型块里像素点的最小距离，对于视频图像，若最小距离小于阈值，则判定为背景，更新背景模型，具体的公式如下：

假设视频图像中(x,y)处的像素对应的背景模型为也通常采用上式计算当前像素与背景模型的距离；

式子的右边是一个阈值，则该像素被分为背景模型，并进行背景更新，背景更新采用了像素邻域空间相关的更新方式，取得了很好的效果；

若判定为阴影，则只标识为背景，不更新背景模型，具体的公式如下：

通过上式的更新方式后，如果一个像素被判为背景，那么其邻域像素也会被更新，其邻域像素的背景模型也会被该像素影响，使邻域的信息进一步融入模型中，使得本发明算法具有了邻域空间相关性；

S2.1、对S1中处理过后的背景图像进行基于PCA的数据增强处理，具体步骤如下：

S2.1.2、对于刮痕这一个系列的数据集，进行背景分割；

S2.1.3、对处理过后的背景图像进行PCA处理；

随后在整个训练集上计算协方差矩阵：

解相关矩阵R的特征方程|R-λI_P|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,…m解方程组Rb＝λ_jb得到单位特征向量j＝1,2,…m将标准化后的指标变量变换为主成分：

将求出的特征向量按照特征值的大小进行组合形成一个映射矩阵，并根据指定的PCA保留的特征个数，取出映射矩阵的前n行或者前n列作为最终的映射矩阵，用映射矩阵对原始数据进行映射，达到数据降维的目的；

最后将上述经过数据增强预处理的图像的最终结果输出；

基于区域的全卷积网络(R-FCN)的目标车辆检测图像进行马路标识图像检测模型训练分为两个步骤：

S2.2.1、定位目标车辆：利用RPN区域建议网络进行目标候选区域搜索，同时调整算法中对输入图片动态长宽比的实际需求模型参数，首先利用ResNet50网络生成特征映射图，并利用区域建议网络(Region Proposal Networks，RPN)对生成的特征映射图进行全图的前后景目标搜索和筛选，以确定目标框；

R-FCN网络使用ResNet50网络对图片进行卷积池化等操作，ResNet50网络的输出层为一个1×2048×63×38的张量，RPN在ResNet50输出层上完成候选区域的搜索；具体的形式是在输出层上利用512个，尺寸为3×3的卷积核进行卷积操作，获得一个512×63×38的张量；将该张量作为两个独立卷积层的输入，从而将特征映射图里的信息转换为候选区域的位置信息和其为前后景的概率信息；RPN默认用9个搜索框来搜索一块区域，尺度为642、1282、2562，长宽比为1：1、1：2、2：1，以上搜索框的默认属性是针对ImageNet，VOC数据集中的通用目标的；

考虑到实际应用中目标检测的需要，本发明在将搜索区域的尺度设置图片的长宽比可变，总体图片大小不变；这不仅有利于增加视频图像的处理需求，也大大减少了计算量；对于原始的输入图片，RPN网络会得到约两万个搜索框；在实际应用时，一些超出图片边界的搜索框会被剔除；同时，对于同一目标重叠覆盖的搜索框，采用非极大值抑制(Non-Maximum Suppression，NMS)方法来处理，以达到去除重叠搜索框的目的，如图3所示，图中划线部分即为搜索区域，图中只画出了部分搜索的目标框；

其中，r_c(i,j|Θ)是子区域bin(i,j)对C个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的坐标，n是子区域bin(i,j)中的像素数，Θ代表网络的所有学习得到的参数，计算k×k个子区域的池化响应输出rc(i,j|Θ)的均值，利用Softmax回归分类方法获得其属于每个类别的概率；

S2.3、将训练好的背景交通标识图像检测模型进行训练改进，增加多个分支，同时调整算法中对输入图片动态长宽比的实际需求模型，训练出判别交通标识的模型，按其性质可以分成全局、路面和路边三大项；

本发明引入二次分类思想，利用对ResNet50网络进行位置敏感区域池化(Psroipooling)，从而对R-FCN检测输出的结果进行二次分类；

二次分类网络(ResNet50)与位置敏感区域池化(Psroi pooling)相结合，其输入为R-FCN的目标检测框的图片信息，输出为相应的类别信息，在训练二次分类器时，为了增大负样本(R-FCN目标检测网络的误报样本)的数量，本发明采用了复制扩充训练集的方法，加强二次分类网络(ResNet50)对位置敏感区域池化(Psroi pooling)后原始R-FCN网络中误报样本特征的学习，从而降低误报率；在实际应用中，也能保证系统实时性，具体检测与分类过程如下：

根据两个价值函数公式，进行道路标识的识别检测，建立训练后的细节检测模型，由此模型准确判断并分类出道路标识的各种信息，以此用于车辆信息监测依据；

本发明实际上可运用于城市交通智慧大脑中，通常配合车辆自动检测平台结合使用，能高效准确地判断出车流量，车辆道路违章等事件，为安全城市与智能交通提供了很好的软件基础。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例～第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于深度学习的视频大数据交通场景分析方法，其特征在于，具体包括如下步骤：

2.如权利要求1所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S1包括：

3.如权利要求2所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S1.1中，映射方式为：对于每个像素，在背景模型中采用n×n来表示，在背景模型初始化时，将图像转换到HSV颜色空间，模型中的每个值用a_i＝(h_i,s_i,v_i)表示，对于原图中(x,y)处的一个像素，则对应于背景模型中的(i,j)，其定义为：

i＝n*x,n*x+1,...,x*(n+1)-1),j＝n*y,n*y+1,...,y*(n+1)-1)。

4.如权利要求3所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S1.2中，对应位置的像素与模型比较中，在HSV颜色空间，两个像素p_i与p_j的距离如下式来计算：

5.如权利要求4所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述S1.2中更新背景模型的公式如下：

6.如权利要求5所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述S1.2中阴影判断公式如下：

7.如权利要求6所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S2.1包括：

S2.1.2、对于刮痕这一个系列的数据集，进行背景分割；

S2.1.3、对处理过后的背景图像进行PCA处理。

8.如权利要求7所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S2.1.3包括：

随后在整个训练集上计算协方差矩阵：

解相关矩阵R的特征方程|R-λI_P|＝0得到p个特征根，确定主成分的每个λ_j，j＝1,2,…m，解方程组Rb＝λ_jb得到单位特征向量将标准化后的指标变量变换为主成分：

最后将上述经过数据增强预处理的图像输出。

9.如权利要求8所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S2.2包括：

10.如权利要求9所述的一种基于深度学习的视频大数据交通场景分析方法，其特征在于，所述步骤S2.3中，对R-FCN检测输出的结果进行二次分类时，采用复制扩充训练集的方法，具体检测与分类过程如下：