CN111611918B

CN111611918B - 基于航拍数据和深度学习的交通流数据集采集及构建方法

Info

Publication number: CN111611918B
Application number: CN202010431449.9A
Authority: CN
Inventors: 孙杨欣; 詹振飞
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-07-21
Anticipated expiration: 2040-05-20
Also published as: CN111611918A

Abstract

本发明涉及一种基于航拍数据和深度学习的交通流数据集采集及构建方法，属于数据挖掘领域。该方法包括以下步骤：S1：视频数据的采集；S2：目标检测与目标跟踪；S3：数据后处理。本发明针对于当前交通流数据库建立所存在的缺点，使用航拍器和深度学习方法相结合，旨在提出一种可在多种地点进行交通流数据精确采集的方法。该方法首先使用航拍平台与差分定位吊舱采集路口原始交通流数据，这种数据数据采集方法可以摆脱环境限制，采集数据地点灵活。根据路口航拍视频数据的特点对航拍数据中的目标进行识别检测，改目标检测网络可以做到路口各种目标的高精度检测。

Description

基于航拍数据和深度学习的交通流数据集采集及构建方法

技术领域

本发明属于数据挖掘领域，涉及基于航拍数据和深度学习的交通流数据集采集及构建方法。

背景技术

自动驾驶汽车需要在实际道路上行驶，其运动受到周边其他车辆和物体的影响；且自动驾驶汽车的运动也影响到其他参与交通活动的目标的运动(如，其他车辆、行人、摩托车等)。各国研究机构和各个汽车企业的目标都是使自动驾驶车辆可以在实际道路上安全、高效、舒适地行驶。作为自动驾驶汽车的关键技术，车辆局部轨迹规划方法需要有能力在实际的交通场景下进行有效的轨迹规划，进而使无人驾驶车辆在实际的道路上安全高效地行驶。因此，需要对各种无人驾驶车辆算法在真实交通场景下的有效性和可靠性进行验证。由于算法在实车、实际道路场景下的验证实验具有成本高、风险大、受法律法规限制严格等缺点；所以，虚拟仿真场景被广泛应用于无人驾驶车辆的算法验证。在构建虚拟仿真验证场景时，如果只使用假设的交通流和交通场景来构建虚拟仿真场景，不能得出被验证的算法可以在实际交通场景中规划出有效轨迹的结论。因此，应该基于实际道路交通场景建立无人驾驶车辆算法验证虚拟仿真场景。综上，采集实际道路交通流场景数据，建立实际道路交通流数据集，是无人驾驶车辆算法虚拟仿真验证的基础。为了在虚拟仿真场景下验证各种无人驾驶车辆算法的有效性，已经有很多研究建立了基于实际交通场景的交通流数据集。

现有的交通流数据集采集技术主要分为以车辆为单位的数据采集方法和以道路为单位的数据采集方法。以车辆为单位的数据采集方法，使用专门的车辆或者租用民用车辆，在车辆上加装各种传感器完成交通流数据的采集，这种方法的优点是：可以更精确的得到采集数据的车辆的状态信息，单个数据持续时间比较长。但是却具有设备和数据库建立维护成本高、采集的数据不具有代表性的缺点。而以道路为单位的是数据库交通流数据库采集方法，是在特定的道路位置采集一段时间内通过该位置的所有目标的轨迹信息。该方法的优点是可以针对于不同几何特征的道路采集专门数据，采集到的数据代表性强，适合于无人驾驶车辆仿真场景建模。

NGSIM(Next Generation Simulation)项目是由美国联邦高速公路管理局(U.S.Department of Transportation Federal Highway Administration,FHWA)发起，旨在开发一种开源的算法核心，以支持微观交通仿真，并提供验证数据集。该项目包含了一个开源的车辆轨迹数据集。其使用数字摄像机收集车辆轨迹数据，该轨迹数据集收集特定的0.5到1公里的高速公路路段上的车辆轨迹数据。该数据集的采样频率为1Hz并具有很高的精度，被广泛应用于自动驾驶汽车和交通流研究之中。

由加州大学伯克利分校建立的多模式智能交通信号系统[Multi-ModalIntelligent Transportation Signal Systems,MMITSS]项目旨在提供一个全面的交通信息管理框架为所有的交通设备提供信息服务。在该项目的研究过程中，在路边设备(Roadside Equipment,RSE)的通信范围内，装备有数据发送设备的车辆会向路边设备发送车辆的基本轨迹信息文件。通过这些基本轨迹信息文件，该项目建立起了一个车辆行驶轨迹数据集。该数据集的数据包含多种道路状况和多种几何形状道路上的车辆行驶轨迹。但是不能收集到一个路段所有的物体的轨迹数据，因此使用该数据集进行无人驾驶车辆局部路径规划方法仿真场景建模具有一定的困难性

安全驾驶模型(Safety Pilot Model Deployment,SPDM)项目由密歇根大学交通运输研究所(The University of Michigan Transportation Research Institute,UMTRI)发起。旨在构建一个由智能车辆和智能交通系统构成的缩小版未来交通系统。该项目中的车辆装备有GPS传感器，IMU传感器和Mobileeye视觉传感系统。通过这些实验车辆，记录真实世界中车辆运行的数据。包括车辆自身的轨迹信息和周围环境信息。该数据库数据量庞大，几乎记录了所有可以得到的车辆与周围环境的信息。但是该数据库当前只采集到了部分示例数据，更多的数据有待后期的完善。

综上，以道路为单位的交通流数据采集方法适合于无人驾驶车辆仿真场景建模。但是现有的以道路为单位数据采集方法和数据库存在数据量少、采集地点不灵活、数据采集质量低且几乎没有道路的数据等缺点。

本发明，旨在解决当前交通流数据采集与数据库建立存在的数据采集难度大、数据采集地点不灵活的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于航拍数据和深度学习的交通流数据集采集及构建方法。

为达到上述目的，本发明提供如下技术方案：

基于航拍数据和深度学习的交通流数据集采集及构建方法，该方法包括以下步骤：

S1：视频数据的采集；

S2：目标检测与目标跟踪；

S3：数据后处理。

可选的，所述S1具体为：

基于MSS-YOLO-SPP的航拍交通流数据集构建方法使用装配有差分定位吊舱的DJIMavic Air航拍平台进行路口交通流视频数据的采集；

其中，采集的视频数据的分辨率为3840×2160，视频帧率为30FPS，差分定位吊舱的定位精度为20cm CEP，定位模块和IMU模块的数据采样频率为10Hz。

可选的，所述S2具体为：

S21：基于多尺度采样YOLO-SPP的图像目标检测

在经典YOLO深度学习目标检测网络的基础上，加入空间金字塔池化SPP层和多尺度采样MSS方法以提升网络在航拍数据集上的目标检测精度；

根据航拍视频数据集视角的特点，建立训练用于检测航拍数据中目标的MSS-YOLO-SPP网络的训练数据集；通过上述训练数据集训练出用于检测航拍数据中目标的网络权重；

其中，YOLO深度学习架构是一种仅使用卷积层构建起来的目标检测深度网络，由24个卷积层组成和两个全连接层组成；

YOLO网络将输入的图分解为S_devi×S_devi的网格；每个网格预测K_bound个边界框；某边界框包含有目标物体的概率用Pr(Obj)表示，物体属于C类的条件概率用Pr(Cla_i|Obj)表示，该边界框和真实的物体边界框的交集与并集之比IoU用公式2.1计算；

其中，s_intersection为实际目标的边框与预测目标的边框之间的交集面积，s_pred为预测目标的边框面积，s_truth为实际目标的边框面积

得到，某一个边框属于某一类物体的概率如公式2.2所示

上述公式描述预测框与实际包含物体的框之间的一致程度以及框中对象属于每个类别的概率；得出YOLO网络的输出为一个维度是S_devi×S_devi×(K×(5+N_Cla))的张量，其中N_Cla是需要预测的类别数量；

YOLO结构采用与VGG网络相似的卷积下采样结构来提取图像中的目标特征；假设，卷积网络中第i层的输入为xⁱ，该层卷积核的权重为ωⁱ，偏置参数为bⁱ，*表示卷积运算；则，该层的中间变量为：

y^l＝ω^l·x^l+b^l (2.3)

YOLO网络进行向前传播运算时，第l层与第l-1层之间的关系为：

x^l＝f(y^l-1)＝f(w^l-1·x^l-1+b^l-1) (2.4)

其中，f(·)为激活函数；

当YOLO网络通过反向投影对网络参数进行优化时，损失函数的梯度为：

其中，L(·)为损失函数，rot180(·)表示对权重矩阵进行逆时针旋转，⊙为哈达玛积；由于梯度在网络中逐层传播，由激活函数的倒数和权重参数的乘积表示的梯度将越来越小；

在网络中加入短路结构short-cut；

在YOLO网络中加入SPP结构，构建YOLO-SPP网络；

使用多尺度采样检测的方法，对图像在不同的分辨率尺度上进行检测；

在经典YOLO网络架构的基础上，将YOLO网络最后的平均池化层替换为SPP结构，使得网络在学习和检测的过程中可以同时将图像的局部特征与全局特征考虑在内，进而提升网络的检测精度；

YOLO-SPP网络，首先使用一个核大小为1×1的卷积层来降低SPP网络的输入维度；进而，使用3种不同尺度的最大值池化层：5×5、9×9和13×13，来提取特征图中不同尺度的特征；最后，为保持特征图特征之间的空间关系，将SPP结构输出的特征图堆叠成一个22×22×2048维的张量；

根据YOLO网络的特征，能识别的最小目标的分辨率使用公式2.6计算

其中，W_input和H_input分别为输入的图像的分辨率；且W_input＞s_devi、H_input＞s_devi；

使用多尺度采样方法对图像进行检测；即使用多个分辨率尺寸的采样框分别对图像进行采样，将经过采样后的图像输入到网络中进行目标检测，再将目标检测的结果映射到原始图像上；通过非极大值抑制方法NMS，去掉重复检测到的目标，最终得到最终的目标检测结果；

S21：基于有空间和通道可靠性的判别相关滤波器的目标跟踪

基于相关滤波器DCF的目标跟踪方法通过在训练图像上学习一个具有预定义响应的滤波器来完成目标跟踪；假设存在一组具有N_d个通道的特征和其响应的滤波器/>目标位置x使得方程2.7表示的概率取得最大值

其中，p(x|f_d)＝[f_d*h_d](x)是一个特征图和在x评估得到的滤波器之间的卷积，其中*为卷积计算；p(f_d)是反映通道可靠性的先验；假设各个特征图之间相互独立，学习到的最优滤波器由公式2.8求解

在DCF的基础上加入空间可靠性图和通道可靠性估计来提升跟踪精度；

空间可靠性图m，反映了每个像素的学习可靠性；像素x的可靠性在表现为y的情况下的条件概率为：

p(m＝1|y，x)∝p(y|m＝1，x)p(x|m＝1)p(m＝1) (2.9)

其中，表现最大似然p(y|m＝1，x)通过贝叶斯法则从目标的前景和背景颜色直方图计算；p(m＝1)定义为前景和背景直方图提取区域大小之比；

p(x|m＝1)＝k_epane(x；σ) (2.10)

其中，k_epane(x；σ)是经过修正后的Epanechnikov核；

由于可靠性图m表示滤波器学习时需要忽略的像素，在求解时加入限制条件，以保证忽略掉与目标特征无关的像素：

h＝m⊙h (2.11)

在训练滤波器和定位目标时给不同分辨力的通道加入可靠性权重系数，以提升目标匹配的精度；训练权重用公式2.12计算

w_d＝ζmax(f_d*h_d) (2.12)

其中，ζ为归一化系数；ζ的选取要保证w_dw_d满足公式

在匹配过程中，由于匹配帧的特征和滤波器h做卷积运算，得到一个响应图；匹配过程中的通道权重用公式2.14计算

其中，ρ_max，2为二阶响应图，ρ_max，1为一阶响应图。

可选的，所述S3具体为：

通过MSS-YOLO-SPP目标检测在图像中检测出目标的位置，并通过有空间和通道置信度的相关滤波方法完成对检测到的目标在不同帧之间的匹配，进而得到图像坐标系中各个目标的轨迹；

S31：图像坐标系向大地坐标系转化

使用目标检测和跟踪方法，得到图像坐标系中的目标坐标和目标轨迹；在数据分析和路口场景建模中，需要的目标坐标和轨迹应该处于以米为单位的笛卡尔坐标系之中；把图像坐标系中的坐标转化到以米为单位的笛卡尔坐标系中，具体包括以下两步：

航拍平台GPS坐标转化为大地坐标系；

车辆轨迹由图像坐标系向真实坐标系进行投影；

采集数据时，航拍平台位置信息是由GPS坐标表示的，使用高斯-克吕格投影方法，将航拍平台的GPS坐标投影到西安80平面坐标系；

当得到航拍平台在平面坐标系中的坐标后，结合IMU姿态传感器数据，即得到航拍平台搭载的高清图像传感器的外参；

使用棋盘格标定法对图像传感器内参进行标定；

得到航拍平台搭载的高清图像传感器的内参和外参后，即可通过公式2.15将图像坐标系中的物体坐标转化到平面坐标系中。

其中，W为单位矩阵，P为转化矩阵，K为相机的内参，[R，τ]^T为相机外参，[x，y，1]^T为图片坐标系下物体的坐标(以像素为单位)，[X，Y，Z，1]^T为大地坐标系下物体的坐标(以米为单位)

S32：轨迹数据奇异值识别和重建

使用基于小波变换的局部奇异值识别与重建方法对采集到的轨迹数据中的奇异值进行筛选和重建。使用离散小波变换DWT将轨迹数据分解为近似部分和细节部分。轨迹数据的奇异值出现在小波分解后细节部分信号能量集中的地方。

为定量地确定的数据信号中奇异值地具体位置，将小波分解后轨迹的细节部分的能量值与小波能量阈值进行比较。小波能量阈值/>使用下述公式进行计算。

其中和σ^Z分别为信号小波细节分量的均值和标准差。在95％置信度的情况下C的取值为1.96。

在识别出奇异值的位置后，非线性回归方法被用于重构奇异值点的数据值。利用奇异值前点后15个正常点的数据进行基于高斯核的支持向量回归，以得到奇异值点处的修正值。此外，当奇异值点连续出现时，这些连续出现的点将一同进行支持向量回归，得到修正后的数据值。

S33：轨迹数据降噪

经过轨迹数据奇异值识别和重建的轨迹需要进行降噪处理去除轨迹中所包含的噪音以得到最终的轨迹。轨迹数据降噪方法：首先对输入的轨迹数据进行多级别的离散小波分解，以得到轨迹数据的近似和细节系数。细节系数将按照一个阈值进行缩放，以保证在不改变轨迹剧烈变化部分的同时消除噪声。使用斯坦因的无偏风险估计SURE方法对细节系数进行缩放。

为达到降噪过程的要求，需要确定两个与降噪过程有关的小波参数：小波类型和分解级别。

为选择合适的小波类型，首先计算信号的能量和信号的香农熵含量，并将上述两个参数的比值，即信号的能量-香农熵含量比，作为某一类型的小波降噪能力的判定标准。能量-香农熵含量比的值越大，证明该小波的噪音识别能力越好。

本发明的有益效果在于：本发明提出了一整套基于MSS-YOLO-SPP的航拍交通流数据集构建方法及流程。

本发明首先使用航拍平台与差分定位吊舱采集路口原始交通流数据，这种数据数据采集方法可以摆脱环境限制，采集数据地点灵活。

根据路口航拍视频数据的特点提出了MSS-YOLO-SPP深度学习目标检测网络架构对航拍数据中的目标进行识别检测，改目标检测网络可以做到路口各种目标的高精度检测。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为典型无信号灯路口交通流数据库构建流程；

图2为视频数据目标检测与跟踪流程图；

图3为经典YOLO网络结构图；

图4为深度学习网络短路结构原理示意图；

图5为YOLO-SPP网络结构示意图；

图6为数据后处理流程图；

图7为航拍平台外参示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提出了一种基于多尺度采的带有空间金字塔池化层的SPP(Multi-ScaleSampling YOLO with Spatial Pyramid Pool，MSS-YOLO-SPP)与航拍视频数据的交通流数据集建模方法，使用该方法，本文建立了典型无交通信号灯路口交通流数据集。本文提出的基于MSS-YOLO-SPP的航拍交通流数据集的构建流程如图1所示。

本文提出的交通流数据集的构建方法主要分为三部分：视频数据的采集，目标检测与目标跟踪，数据后处理。

1.视频数据采集

由于视频数据不仅具有直观、采集方便、处理简单等优点，并且随着计算机视觉技术的进步，视频目标检测与目标跟踪技术日渐成熟，因此本文选择视频数据作为交通流数据库的原始数据。随着近年来机器人技术的发展，小型无人多旋翼无人飞行器的飞行性能得到了极大的提升。搭载有高清图像传感器模块的小型无人多旋翼飞行器不仅可以在相对静止的某一位置采集高分辨率的视频数据，而且可以给出数据采集时图像传感器位置与姿态的详细参数，方便数据处理与分析。因此，本文提出了基于MSS-YOLO-SPP的航拍交通流数据集构建方法使用装配有差分定位吊舱的DJIMavicAir航拍平台进行路口交通流视频数据的采集。该方法具有：采集地点灵活，采集方法方便，采集精度较高，不需要其他硬件设备，结果直观等优点。

本文采集的视频数据的分辨率为3840×2160，视频帧率为30FPS，差分定位吊舱的定位精度为20cm CEP(CircularErrorProbable)，定位模块和IMU模块的数据采样频率为10Hz。

本文选取了一个位于重庆市的无交通灯路口作为本文建立典型无交通信号灯路口交通流数据集的数据来源。采集交通流数据所选取的路口卫星图像。采集到视频数据截图。

2.路口各类交通参与目标的轨迹提取

通过2.1节中介绍的方法可以得到航拍数据集的原始数据。航拍平台采集到的原始数据需要经过数据处理才能得到实际的物体轨迹数据。数据处理的第一步需要从视频数据中识别出各种目标，并对视频每一帧图像中识别到的目标进行相互匹配(即目标跟踪)。本文提出了一种基于MSS-YOLO-SPP深度学习方法对视频每一帧中的图像进行目标检测，同时使用基于空间与通道置信度的相关滤波器(Discriminative Correlation Filter withChannel and Spatial Reliability,CSR-DCF)对每一帧图像中的目标进行匹配。进而提取出图像坐标系中的目标轨迹。该部分算法的主要流程如图2所示。

2.1.基于多尺度采样YOLO-SPP的图像目标检测

为了识别出航拍视频数据中的目标，本文提出了针对于航拍视频数据集目标检测的MSS-YOLO-SPP深度学习目标检测网络。该网络在经典YOLO深度学习目标检测网络的基础上，加入了空间金字塔池化(spatial pyramid pool，SPP)层和多尺度采样(Multi-scalesampling，MSS)方法以提升网络在航拍数据集上的目标检测精度。此外，由于路口航拍数据集的数据采集视角为现实生活中比较少见的俯视(鸟瞰)视角，因此现有的深度学习训练数据集中该视角的数据极少，现有的已知网络权重在航拍数据集上的检测效果很不理想。所以，本文根据航拍视频数据集视角的特点，建立了训练用于检测航拍数据中目标的MSS-YOLO-SPP网络的训练数据集。通过上述训练集训练出了用于检测航拍数据中目标的网络权重。

YOLO深度学习架构是一种仅使用卷积层构建起来的目标检测深度网络，这样的结构与可以避免由于池化造成的低级别的特征消失。该网络由24个卷积层组成和两个全连接层组成，具体网络结构如图3所示。

YOLO网络将输入的图分解为S_devi×S_devi的网格。每个网格预测K_bound个边界框。某边界框包含有目标物体的概率用Pr(Obj)表示，物体属于C类的条件概率用Pr(Cla_i|Obj)表示，该边界框和真实的物体边界框的交集与并集之比(Intersection of Union，IoU)可以用公式2.1计算。

因此，某一个边框属于某一类物体的概率如公式2.2所示

上述公式描述了预测框与实际包含物体的框之间的一致程度以及框中对象属于每个类别的概率。由此可以得出YOLO网络的输出为一个维度是S_devi×S_devi×(K×(5+N_Cla))的张量，其中N_Cla是需要预测的类别数量。

YOLO结构采用了与VGG网络相似的卷积下采样结构来提取图像中的目标特征。假设，卷积网络中第i层的输入为xⁱ，该层卷积核的权重为ωⁱ，偏置参数为bⁱ，*表示卷积运算。则，该层的中间变量为：

y^l＝ω^l·x^l+b^l (2.3)

因此，YOLO网络进行向前传播运算时，第l层与第l-1层之间的关系为：

x^l＝f(y^l-1)＝f(w^l-1·x^l-1+b^l-1) (2.4)

其中，f(·)为激活函数。

因此，当YOLO网络通过反向投影对网络参数进行优化时，损失函数的梯度为：

其中，L(·)为损失函数，rot180(·)表示对权重矩阵进行逆时针旋转，⊙为哈达玛积。由于梯度在网络中逐层传播，由激活函数的倒数和权重参数的乘积表示的梯度将越来越小。即出现梯度消失的问题，进而造成网络检测精度的下降。

此外，本文需要从采集到的路口航拍视频数据中提取各类目标的轨迹。由于在航拍数据中，行人的大小尺度在几个像素到十几个像素之间，而车辆的大小尺度在几十到上百个像素之间。因此，需要本文提出的目标检测方法对不同尺度的目标都具有良好的检测能力。

综上，虽然经典YOLO网络结构通过使用全链接卷积结构，避免了使用池化层而导致的特征消失，并且在特定的数据集上取得了很好的检测结果和检测精度(如Pascal VOC数据集)。但是在本文采集的路口航拍视频数据集上很难达到很高的检测精度。因此，本文提出了以下三种方法提升YOLO网络在航拍视频数据集上的检测精度。

1.在网络中加入短路结构(short-cut)。

2.在YOLO网络中加入SPP结构，构建YOLO-SPP网络。

3.使用多尺度采样检测的方法，对图像在不同的分辨率尺度上进行检测。

深度学习网络在网络深度不断加深的同时，会出现随着网络的加深精度不断下降的情况。这种情况即前文中论述的梯度消失。为了使网络在深度加深的同时避免梯度消失对网络精度带来的影响，本文从梯度消失的原理出发，在网络中加入了短路结构，如图4所示。

由图可知，该结构行驶类似于电路中的短接，将原本不相连的某两个层直接连接起来，跳过这两个层中间层的计算步骤，在一定程度上避免了在反向投影优化过程中出现的梯度消失问题，因此可以有效解决由于梯度消失所带来的精度下降问题。

由于经典YOLO网络的最后一层使用了一个平均池化层(average pooling)来提取最终的图像特征，但是这样的结构使得网络在最终检测时丢失了部分图像的局部特征。SPP结构采用了多尺度空间容器(multi-level spatial bins，MLSB)的思想，将原始特征图和经过不同尺度池化的特征图结合，在有效提取了特征图的典型特征的同时，保留了特征图的局部特征，可以有效地提高检测精度。因此本文在经典YOLO网络架构的基础上，将YOLO网络最后的平均池化层替换为SPP结构，使得网络在学习和检测的过程中可以同时将图像的局部特征与全局特征考虑在内，进而提升网络的检测精度。加入SPP层后的YOLO网络结构如图5所示。

本文提出的YOLO-SPP网络，首先使用一个核大小为1×1的卷积层来降低SPP网络的输入维度。进而，使用3种不同尺度的最大值池化(maxpooling)层：5×5、9×9和13×13，来提取特征图中不同尺度的特征。最后，为了保持特征图特征之间的空间关系，找们直接将SPP结构输出的特征图堆叠成一个22×22×2048维的张量。

此外，由于本文使用航拍平台采集到的视频数据的尺寸为：，3840×2160而经典YOLO网络的输入图像尺寸为一定的值(本文使用的网络采用704×704)。此，若直接将本文采集到的数据图像不做任何处理输入网络进行检测，图像会被压缩，使得检测之前图像便失去了一部分信息。根据YOLO网络的特征，其能识别的最小目标的分辨率可以使用公式2.6计算

其中，W_input和H_input分别为输入的图像的分辨率。且W_input＞s_devi、H_input＞s_devi。因此经典YOLO网络并不能检测分辨率低于上述可以识别的最小分辨率的目标。

所以，为了提高航拍视频数据集中目标的检测精度，提升分辨率较低的目标的检测准确性，不能直接将原始图像输入到网络之中进行目标检测。为了保证图像的信息被有效利用，从而提升分辨率较低的目标的检测精度，本文使用多尺度采样(Multi-scaleSampling)方法对图像进行检测。即使用多个分辨率尺寸的采样框分别对图像进行采样(本文采用：704×704、1184×1184、1664×1664和2144×2144)，将经过采样后的图像输入到网络中进行目标检测，再将目标检测的结果映射到原始图像上。通过非极大值抑制方法(Non-maximum suppression，NMS)，去掉重复检测到的目标，最终得到最终的目标检测结果。

2.2.基于有空间和通道可靠性的判别相关滤波器的目标跟踪方法

由于视频是由连续的图像组成的，当对视频中每一帧图像完成目标检测后，需要将连续图像中检测到目标进行匹配(即目标跟踪)，进而得到目标的连续轨迹。本文使用Lukezic等人提出的基于有空间和通道可靠性的判别相关滤波器对检测出的目标进行跟踪。本段将对CSR-DCF目标跟踪方法的原理进行简单论述。

基于相关滤波器(Discriminative Correlation Filter，DCF)的目标跟踪方法通过在训练图像上学习一个具有预定义响应的滤波器来完成目标跟踪。假设存在一组具有N_d个通道的特征和其响应的滤波器/>目标位置x可以使得方程2.7表示的概率取得最大值

其中，p(x|f_d)＝[f_d*h_d](x)是一个特征图和在x评估得到的滤波器之间的卷积，其中*为卷积计算；p(f_d)是反映通道可靠性的先验。假设各个特征图之间相互独立，学习到的最优滤波器可以由公式2.8求解

DCF为了在计算中使用快速傅里叶变换使用了循环相关滤波方法。但是，该方法会引起边缘失真，降低跟踪精度。此外，由于DCF方法假设物体的形状为矩形，其检测能力有限。因此，可以在DCF的基础上加入空间可靠性图(spatial reliability map)和通道可靠性估计(channel reliability estimation)来提升跟踪精度

空间可靠性图反映了每个像素的学习可靠性。像素x的可靠性在表现为y的情况下的条件概率为：

p(m＝1|y，x)∝p(y|m＝1，x)p(x|m＝1)p(m＝1) (2.9)

其中，表现最大似然p(y|m＝1，x)可以通过贝叶斯法则从目标的前景和背景颜色直方图(颜色模型)计算；p(m＝1)定义为前景和背景直方图提取区域大小之比。

p(x|m＝1)＝k_epane(x；σ) (2.10)

其中，k_epane(x；σ)是经过修正后的Epanechnikov核。

由于可靠性图m可以表示滤波器学习时需要忽略的像素，因此在求解时加入限制条件，以保证忽略掉与目标特征无关的像素：

h＝m⊙h (2.11)

由于，在特征对特征分辨力较高的通道上使用滤波器可以很好的分辨出目标，但是在对特征分辨力较低的通道上由于噪音的影响滤波器对目标的分辨能力较差。因此，在训练滤波器和定位目标时给不同分辨力的通道加入可靠性权重系数，以提升目标匹配的精度。由于在滤波器学习过程中，某通道的响应越大，证明该通道的分辨力越好，该通道的可靠性越高。因此训练权重可以用公式2.12计算

w_d＝ζmax(f_d*h_d) (2.12)

其中，ζ为归一化系数。ζ的选取要保证w_dw_d满足公式

在匹配过程中，由于匹配帧的特征和滤波器h做卷积运算，得到一个响应图。根据Bolme等人的研究，使用二阶响应图与一阶响应图之比作为衡量特征图对目标分辨能力的标准。因此匹配过程中的通道权重可以用公式2.14计算

其中，ρ_max，2为二阶响应图，ρ_max，1为一阶响应图。

3.数据后处理

上述方法，通过MSS-YOLO-SPP目标检测可以在图像中检测出目标的位置，并通过有空间和通道置信度的相关滤波方法完成了对检测到的目标在不同帧之间的匹配(即目标跟踪)，进而得到图像坐标系中各个目标的轨迹。由于航拍平台在采集数据的过程中并不是绝对静止的，且本文希望得到各种目标的实际轨迹数据(即以米为单位的轨迹数据)来进行数据分析和仿真场景建模。因此需要对图像坐标系中各个目标的轨迹进行进一步的处理。对原始图像坐标系中各个目标轨迹的后处理流程如图6所示。

3.1.图像坐标系向大地坐标系转化

使用第2.2节中所述目标检测和跟踪方法，我们得到了图像坐标系中的目标坐标和目标轨迹。但是在数据分析和路口场景建模中，需要的目标坐标和轨迹应该处于以米为单位的笛卡尔坐标系(本文以Xi’an 80坐标系为例)之中。因此需要把图像坐标系中的坐标转化到以米为单位的笛卡尔坐标系中。本文使用的坐标转化方法主要分为以下两步：

1.航拍平台GPS坐标转化为大地坐标系；

2.车辆轨迹由图像坐标系向真实坐标系进行投影。

本文采集数据时，航拍平台位置信息是由GPS坐标表示的，为了计算方便和后续的坐标转换，需要对GPS坐标进行投影，将经纬度信息投影到地理坐标系中，得到以米为单位的坐标。本文使用高斯-克吕格投影(Gauss-Kruger Projection)方法，将航拍平台的GPS坐标投影到西安80平面坐标系。

当得到航拍平台在平面坐标系中的坐标后，结合IMU姿态传感器数据，即得到了航拍平台搭载的高清图像传感器的外参，如图7所示。

为了将车辆位置从像素坐标系转化为平面坐标系，需要对航拍平台搭载的高清图像传感器进行标定，计算出图像传感器的内参。本文使用棋盘格标定法对图像传感器内参进行标定。

得到航拍平台搭载的高清图像传感器的内参和外参后，即可通过公式2.15将图像坐标系中的物体坐标(以像素为单位)转化到平面坐标系中(以米为单位)。

3.2.轨迹数据奇异值识别和重建

在实际道路环境下，根据物体运动规律可知：各种交通参与者的轨迹应该是平滑的，且这些轨迹的一阶导数(速度)和二阶导数(加速度)也应该是连续且平滑的。因此，为了得到更加接近于实际情况的物体轨迹，需要对采集到的车辆轨迹数据进行奇异值识别重建和数据降噪。

由于数据奇异值的存在对数据降噪的结果影响很大，因此，对数据进行奇异值的识别和重建是数据降噪的基础。本文使用基于小波变换的局部奇异值识别与重建方法对采集到的轨迹数据中的奇异值进行筛选和重建。为了在局部轨迹点中检测到奇异值的位置，需要从原始轨迹中提取一部分特征作为奇异值的判别标准。因此，本文使用离散小波变换(Discrete wavelet transform，DWT)将轨迹数据分解为近似部分和细节部分。由于实际的轨迹存在物理条件限制，理论上实际的物体轨迹应该是平滑且连续的。因此，小波分解后轨迹的细节部分不应该出现能量在某个特定位置的集中。即，轨迹数据的奇异值出现在小波分解后细节部分信号能量集中的地方。

为了定量地确定的数据信号中奇异值地具体位置，将小波分解后轨迹的细节部分的能量值与小波能量阈值进行比较。小波能量阈值/>可以使用下述公式进行计算。

在识别出奇异值的位置后，非线性回归方法被用于重构奇异值点的数据值。本文利用奇异值前点后15个正常点的数据进行基于高斯核的支持向量回归，以得到奇异值点处的修正值。此外，当奇异值点连续出现时，这些连续出现的点将一同进行支持向量回归，得到修正后的数据值。

3.3.轨迹数据降噪

经过轨迹数据奇异值识别和重建的轨迹需要进行降噪处理去除轨迹中所包含的噪音以得到最终的轨迹。通常情况下，完全将轨迹数据中的噪音过滤掉是不现实的，因此轨迹数据降噪的目的是尽可能的减少轨迹数据中的噪音级别以得到与实际轨迹最接近的轨迹数据。

本文提出的轨迹数据降噪方法，首先对输入的轨迹数据进行多级别的离散小波分解，以得到轨迹数据的近似(approximation)和细节系数(detail coefficients)。接下来，细节系数将按照一个阈值进行缩放，以保证在不改变轨迹剧烈变化部分的同时消除噪声。在本文的研究之中，使用斯坦因的无偏风险估计(Stein's unbiased risk estimate,SURE)方法对细节系数进行缩放。

为了达到上述降噪过程的要求，需要确定两个与降噪过程有关的小波参数：小波类型和分解级别。选择合适的小波类型和分解级别可以使得降噪算法具有更快的计算速度、更好的降噪效果以及更优的时域或频域定位。

为了选择合适的小波类型，本文首先计算信号的能量和信号的香农熵(Shannonentropy content)含量，并将上述两个参数的比值，即信号的能量-香农熵含量比，作为某一类型的小波降噪能力的判定标准。不同小波的能量-香农熵含量比的值(Er)如表1所示。能量-香农熵含量比的值越大，证明该小波的噪音识别能力越好。因此，由表1可知，对于x方向位置和y方向位置的轨迹数据选择db2小波作为小波滤波的基波。

表1各类型小波的能量-香农熵含量比

小波分解级别的选择同样对轨迹数据降噪结果有很大影响。若选取的小波分解级别过低，则不能将数据中的噪音充分过滤；相对的，若小波分解级别过高，会导致计算成本过高，以及滤波后的信号过于平滑和信号失真。现有的研究尚未提出选择合理的小波分解级别的方法。本文经过对四种小波分解级别的对比(1，2，3，4)最终选定3级小波分解级别来对数据做降噪处理。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于航拍数据和深度学习的交通流数据集采集及构建方法，其特征在于：该方法包括以下步骤：

S1：视频数据的采集；

S2：目标检测与目标跟踪；

S3：数据后处理；

所述S2具体为：

S21：基于多尺度采样YOLO-SPP的图像目标检测

YOLO网络将输入的图分解为S_devi×S_devi的网格；每个网格预测K_bound个边界框；某边界框包含有目标物体的概率用Pr(Obj)表示，物体属于C类的条件概率用Pr(Cla_e|Obj)表示，该边界框和真实的物体边界框的交集与并集之比IoU用公式2.1计算；

得到，某一个边框属于某一类物体的概率如公式2.2所示：

y^l＝ω^l·x^l+b^l (2.3)

x^l＝f(y^l-1)＝f(w^l-1·x^l-1+b^l-1) (2.4)

其中，f(·)为激活函数；

其中，L(·)为损失函数，rot180(·)表示对权重矩阵进行逆时针旋转，⊙为哈达玛积；梯度在网络中逐层传播，由激活函数的倒数和权重参数的乘积表示的梯度越来越小；

在网络中加入短路结构short-cut；

在YOLO网络中加入SPP结构，构建YOLO-SPP网络；

在经典YOLO网络架构的基础上，将YOLO网络最后的平均池化层替换为SPP结构，使得网络在学习和检测的过程中同时将图像的局部特征与全局特征考虑在内，提升网络的检测精度；

根据YOLO网络的特征，能识别的最小目标的分辨率使用公式2.6计算：

其中，W_input和H_input分别为输入的图像的分辨率；且W_input>s_devi、H_input>s_devi；

S21：基于有空间和通道可靠性的判别相关滤波器的目标跟踪；

基于相关滤波器DCF的目标跟踪方法通过在训练图像上学习一个具有预定义响应的滤波器来完成目标跟踪；假设存在一组具有N_d个通道的特征和其响应的滤波器/>目标位置x使得方程2.7表示的概率取得最大值：

其中，p(x|f_d)＝[f_d*h_d](x)是一个特征图和在x评估得到的滤波器之间的卷积，其中*为卷积计算；p(f_d)是反映通道可靠性的先验；假设各个特征图之间相互独立，学习到的最优滤波器由公式2.8求解：

空间可靠性图m，反映每个像素的学习可靠性；像素x的可靠性在表现为y的情况下的条件概率为：

p(m＝1|y，x)∝p(y|m＝1，x)p(x|m＝1)p(m＝1) (2.9)

p(x|m＝1)＝k_epane(x；σ) (2.10)

其中，k_epane(x；σ)是经过修正后的Epanechnikov核；

可靠性图m表示滤波器学习时，忽略的像素，在求解时加入限制条件，以保证忽略掉与目标特征无关的像素：

h＝m⊙h (2.11)

在训练滤波器和定位目标时给不同分辨力的通道加入可靠性权重系数，以提升目标匹配的精度；训练权重用公式2.12计算：

w_d＝ζmax(f_d*h_d) (2.12)

其中，ζ为归一化系数；ζ的选取要保证w_dw_d满足公式：

在匹配过程中，由于匹配帧的特征和滤波器h做卷积运算，得到一个响应图；匹配过程中的通道权重用公式2.14计算：

其中，ρ_max，2为二阶响应图，ρ_max，1为一阶响应图。

2.根据权利要求1所述的基于航拍数据和深度学习的交通流数据集采集及构建方法，其特征在于：所述S1具体为：

3.根据权利要求1所述的基于航拍数据和深度学习的交通流数据集采集及构建方法，其特征在于：所述S3具体为：

S31：图像坐标系向大地坐标系转化；

航拍平台GPS坐标转化为大地坐标系；

车辆轨迹由图像坐标系向真实坐标系进行投影；

使用棋盘格标定法对图像传感器内参进行标定；

得到航拍平台搭载的高清图像传感器的内参和外参后，即通过公式2.15将图像坐标系中的物体坐标转化到平面坐标系中；

其中，W为单位矩阵，P为转化矩阵，K为相机的内参，[R，τ]^T为相机外参，[x，y，1]^T为图片坐标系下物体的坐标，以像素为单位，[X，Y，Z，1]^T为大地坐标系下物体的坐标，以米为单位；

S32：轨迹数据奇异值识别和重建

使用基于小波变换的局部奇异值识别与重建方法对采集到的轨迹数据中的奇异值进行筛选和重建；使用离散小波变换DWT将轨迹数据分解为近似部分和细节部分；轨迹数据的奇异值出现在小波分解后细节部分信号能量集中的地方；

为定量地确定的数据信号中奇异值地具体位置，将小波分解后轨迹的细节部分的能量值与小波能量阈值进行比较；小波能量阈值/>使用下述公式进行计算：

其中和σ^z分别为信号小波细节分量的均值和标准差；在95％置信度的情况下/>的取值为1.96；

在识别出奇异值的位置后，非线性回归方法被用于重构奇异值点的数据值；利用奇异值前点后15个正常点的数据进行基于高斯核的支持向量回归，以得到奇异值点处的修正值；此外，当奇异值点连续出现时，这些连续出现的点将一同进行支持向量回归，得到修正后的数据值；

S33：轨迹数据降噪

经过轨迹数据奇异值识别和重建的轨迹需要进行降噪处理去除轨迹中所包含的噪音以得到最终的轨迹；轨迹数据降噪方法：首先对输入的轨迹数据进行多级别的离散小波分解，以得到轨迹数据的近似和细节系数；细节系数将按照一个阈值进行缩放，以保证在不改变轨迹剧烈变化部分的同时消除噪声；使用斯坦因的无偏风险估计SURE方法对细节系数进行缩放；

为达到降噪过程的要求，需要确定两个与降噪过程有关的小波参数：小波类型和分解级别；

为选择合适的小波类型，首先计算信号的能量和信号的香农熵含量，并将上述两个小波参数的比值，即信号的能量-香农熵含量比，作为某一类型的小波降噪能力的判定标准；能量-香农熵含量比的值越大，证明该小波的噪音识别能力越好。