CN116013087B

CN116013087B - 一种基于城市运动车辆检测的车流量统计方法

Info

Publication number: CN116013087B
Application number: CN202310300666.8A
Authority: CN
Inventors: 莫碧文
Original assignee: Dongguan Urban Construction Planning And Design Institute
Current assignee: Dongguan Urban Construction Planning And Design Institute
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-05-30
Anticipated expiration: 2043-03-27
Also published as: CN116013087A

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于城市运动车辆检测的车流量统计方法。方法包括：获取待统计城市的交通数据集，根据缺失数据所对应日期与待分析日期对应的第一子数据序列之间的差异、以及缺失数据所对应路段与待分析路段对应的第二子数据序列之间的差异，得到各待分析日期对应的第一子数据序列的参考因子和各待分析路段对应的第二子数据序列的参考因子；根据缺失数据的预设邻域内对应的平均速度数据的空间差异，得到缺失数据对应的采集时刻的混乱程度；基于参考因子和混乱程度，确定缺失数据的最优补全值，进而预测未来时刻的车流量数据。本发明提高了车流量数据预测结果的可信度。

Description

一种基于城市运动车辆检测的车流量统计方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于城市运动车辆检测的车流量统计方法。

背景技术

城市道路交通状态感知与预测是实现城市智慧交通管理的关键问题，对城市道路的交通状态进行实时监控与预测能够为交通管理决策奠定基础，从而提高城市道路资源的利用率。同时对突发交通状态进行快速辨别和快速应对。道路上流动车辆的状态检测主要是通过线圈、雷达以及车载高精度GPS定位装置进行轨迹监测，但是采样时间长、车辆运行状态多变等外部因素均会导致车流量数据缺失的情况出现。

由于道路的车流量信息会存在相邻日期与相邻路段的高相关性，因此补全缺失数据常通过相关时序进行平均数据插值，这种方法会使得缺失数据在时序中呈现的周期性信息与趋势性信息缺失，进而导致城市车流量信息的预测结果可信度较低。

发明内容

为了解决现有方法在预测城市车流量信息时存在的预测结果可信度较低的问题，本发明的目的在于提供一种基于城市运动车辆检测的车流量统计方法，所采用的技术方案具体如下：

本发明提供了一种基于城市运动车辆检测的车流量统计方法，该方法包括以下步骤：

获取待统计城市的交通数据集及其缺失数据对应的位置，所述交通数据包括待统计城市不同路段不同采集时刻的车流量数据和平均速度数据；

根据历史日期与缺失数据所对应日期的时间间隔确定待分析日期，根据待统计城市中的路段与缺失数据所对应路段的距离确定待分析路段；由每个日期内各采集时刻的交通数据构成每个日期对应的第一子数据序列，由每个路段在各采集时刻的交通数据构成每个路段对应的第二子数据序列；根据缺失数据所对应日期对应的第一子数据序列与待分析日期对应的第一子数据序列之间的差异、以及缺失数据所对应路段对应的第二子数据序列与待分析路段对应的第二子数据序列之间的差异，分别得到各待分析日期对应的第一子数据序列的参考因子和各待分析路段对应的第二子数据序列的参考因子；

基于缺失数据所对应日期对应的第一子数据序列、待分析日期对应的第一子数据序列、缺失数据所对应路段对应的第二子数据序列、待分析路段对应的第二子数据序列，获得缺失数据的预设邻域内对应的平均速度数据的空间差异；根据所述空间差异，得到缺失数据对应的采集时刻的混乱程度；

基于所述参考因子、所述混乱程度、待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列，确定对应缺失数据的最优补全值，基于所述最优补全值获得待统计城市的所有车流量数据，并预测未来时刻的车流量数据。

优选的，所述根据历史日期与缺失数据所对应日期的时间间隔确定待分析日期，根据待统计城市中的路段与缺失数据所对应路段的距离确定待分析路段，包括：

将与缺失数据所对应日期的时间间隔小于或等于预设天数的历史日期记为待分析日期，将与缺失数据所对应路段的距离小于或等于预设距离的路段记为待分析路段。

优选的，所述分别得到各待分析日期对应的第一子数据序列的参考因子和各待分析路段对应的第二子数据序列的参考因子，包括：

对于第i个待分析日期对应的第一子数据序列：对缺失数据所对应日期与第i个待分析日期对应的第一子数据序列之间的DTW距离进行负相关映射，将映射结果记为第i个待分析日期对应的第一差异指标；计算所有待分析日期对应的第一差异指标的和值，将所述第i个待分析日期对应的第一差异指标与所述第一差异指标的和值的比值作为第i个待分析日期对应的第一子数据序列的参考因子；

对于第j个待分析路段对应的第二子数据序列：对缺失数据所对应路段与第j个待分析路段对应的第二子数据序列之间的DTW距离进行负相关映射，将映射结果记为第j个待分析路段对应的第二差异指标；计算所有待分析路段对应的第二差异指标的和值，将所述第j个待分析路段对应的第二差异指标与所述第二差异指标的和值的比值作为第j个待分析路段对应的第二子数据序列的参考因子。

优选的，所述获得缺失数据的预设邻域内对应的平均速度数据的空间差异，包括：

将缺失数据所对应日期对应的第一子数据序列、待分析日期对应的第一子数据序列、缺失数据所对应路段对应的第二子数据序列、待分析路段对应的第二子数据序列记为特征数据序列；

对特征数据序列进行STL分解，在缺失数据的预设邻域内获取属于特征数据序列中的数据，将获取的数据对应的平均速度记为邻域平均速度；将所有邻域平均速度对应的残差的方差记为第一方差；基于所有邻域平均速度对应的残差获得缺失数据的离群因子；

所述空间差异包括所述第一方差和所述缺失数据的离群因子。

优选的，在缺失数据的预设邻域内获取属于特征数据序列中的数据的方法为：

将待统计城市的交通数据集中的所有数据映射到空间中，在所述空间中获取缺失数据的预设邻域内且属于特征数据序列中的数据。

优选的，根据所述空间差异，得到缺失数据对应的采集时刻的混乱程度，包括：

计算第一方差与缺失数据的离群因子的乘积，将所述乘积的归一化结果作为缺失数据对应的采集时刻的混乱程度。

优选的，所述基于所述参考因子、所述混乱程度、待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列，确定对应缺失数据的最优补全值，包括：

对待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列进行STL分解，获得对应的周期性数值信息和趋势性数值信息；

基于所述周期性数值信息、所述趋势性数值信息、所述参考因子和所述混乱程度，得到缺失数据的最优补全值，所述参考因子与所述最优补全值呈正相关关系，所述混乱程度与所述最优补全值呈负相关关系。

优选的，采用如下公式计算缺失数据的最优补全值：

其中，

为缺失数据的最优补全值，

为第i个待分析日期对应的第一子数据序列的参考因子，

为第j个待分析路段对应的第二子数据序列的参考因子，

为待分析日期的数量，

为待分析路段的数量，

为第i个待分析日期对应的第一子数据序列在STL分解中对应的周期性数值信息与趋势性数值信息之和，

为第j个待分析路段对应的第二子数据序列在STL分解中对应的周期性数值信息与趋势性数值信息之和，

为缺失数据对应的采集时刻，

为缺失数据对应的采集时刻的混乱程度。

本发明至少具有如下有益效果：

本发明首先获取了缺失数据所对应日期与待分析日期对应的第一子数据序列，以及缺失数据所对应路段与待分析路段对应的第二子数据序列，第一子数据序列能够从时间上反映缺失数据所对应路段的交通信息，第二子数据序列能够从空间上反映缺失数据所对应的采集时刻对应路段的交通信息，本发明根据缺失数据所对应日期与待分析日期对应的第一子数据序列之间的差异、以及缺失数据所对应路段与待分析路段对应的第二子数据序列之间的差异，获得了每个待分析日期对应的第一子数据序列的参考因子和每个待分析路段对应的第二子数据序列的参考因子，也即分别从时间上和空间上对缺失数据所在的子数据序列与其他子数据序列之间的差异进行了分析，缺失数据所在的子数据序列与其他子数据序列之间的差异越小，说明对应两个子数据序列包含的相似信息越多，在对缺失数据进行补全时，越应当参考对应子数据序列中的周期性数值信息和趋势性数值信息，即对应子数据序列的参考因子越大；考虑到相邻采集时刻同一路段、相邻路段同一采集时刻的交通数据均存在一定的关联性，为了提高缺失数据的最优补全值的获取精度，需要对缺失数据的邻域内的数据进行分析，因此本发明根据缺失数据的预设邻域内对应的平均速度数据的空间差异，对缺失数据对应的采集时刻的混乱程度进行了评价，混乱程度越低，在确定缺失数据的最优补全值时，应当更多的参考对应第一子数据序列和对应第二子数据序列中的周期性数值信息和趋势性数值信息，进而本发明结合参考因子和混乱程度，确定了缺失数据的最优补全值，使得缺失数据的最优补全值的准确程度更高，提高了车流量数据预测结果的可信度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例所提供的一种基于城市运动车辆检测的车流量统计方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于城市运动车辆检测的车流量统计方法进行详细说明如下。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于城市运动车辆检测的车流量统计方法的具体方案。

一种基于城市运动车辆检测的车流量统计方法实施例：

本实施例提出了一种基于城市运动车辆检测的车流量统计方法，如图1所示，本实施例的一种基于城市运动车辆检测的车流量统计方法包括以下步骤：

步骤S1，获取待统计城市的交通数据集及其缺失数据对应的位置，所述交通数据包括待统计城市不同路段不同采集时刻的车流量数据和平均速度数据。

本实施例所针对的具体场景为：在通过GPS轨迹对反映城市交通状态的交通数据进行采集时，数据采集过程造成的数据缺失会使得城市车流量的预测结果准确度较低。为了解决数据缺失的问题，现有方法通过相邻数据对缺失的数据进行平均插值，通过该方式插值虽然可以达到补全数据的目的，但是会导致数据丢失当前时序的趋势性信息与周期性信息。在预测未来时刻的车流量信息时会出现错误的预测结果，不利于城市的交通管理决策。

本实施例通过GPS轨迹获取当前时间段待统计城市的交通数据，交通数据包括车流量、平均速度、交通流密度、车辆的瞬时速度等，本实施例中的周期长度为半年，当前时间段是指与当前时刻的时间间隔小于或等于半年的所有历史时刻构成的集合；本实施例设置每1秒采集一次交通数据，在具体应用中，实施者可根据具体情况进行设置；需要说明的是，待统计城市包含多个路段，每个路段在每个采集时刻均获取了交通数据。考虑到数据在采集或传输的过程中会出现部分数据缺失的情况，因此为了便于城市的交通管理、提高未来时刻车流量数据的预测结果，本实施例首先基于采集到的数据构建待统计城市的交通数据集，交通数据集中可能存在缺失的数据，若存在，则获取缺失数据在交通数据集中的位置，交通数据是以高维张量形式存储的时序数据，对于高维张量，需要以多索引的方式进行访问，本实施例中所用时序数据为缺失数据在日期索引上相邻的时序数据与在空间路段索引相邻的时序数据。然后将通过多数据融合的方式对缺失数据进行补全，在补全的过程中结合时间及空间上邻近时序与当前时序的动态时间规整距离，参考邻近时序的周期性信息与趋势性信息，获取缺失数据的最优补全值，使得补全的数据包含更多的时序信息，降低缺失数据对预测结果的影响。

对于缺失数据，通过其在时间与空间邻近时序数据的时序周期特征与时序趋势特征获取用于补全缺失的插值。在插值过程中因为交通数据会以星期为时长呈现周期性规律，因此通过一个周期内的数据来进行缺失数据的最优补全值的获取。

至此，获得待统计城市的交通数据集以及缺失数据对应的位置。

步骤S2，根据历史日期与缺失数据所对应日期的时间间隔确定待分析日期，根据待统计城市中的路段与缺失数据所对应路段的距离确定待分析路段；由每个日期内各采集时刻的交通数据构成每个日期对应的第一子数据序列，由每个路段在各采集时刻的交通数据构成每个路段对应的第二子数据序列；根据缺失数据所对应日期对应的第一子数据序列与待分析日期对应的第一子数据序列之间的差异、以及缺失数据所对应路段对应的第二子数据序列与待分析路段对应的第二子数据序列之间的差异，分别得到各待分析日期对应的第一子数据序列的参考因子和各待分析路段对应的第二子数据序列的参考因子。

传统的时间序列周期性信息与趋势性信息提取一般是通过对时间序列进行STL分解，将时序数据分解为周期性信息、趋势性信息与残差，在缺失数据补全的过程中，为了能够将相邻时序数据的周期性信息与趋势性信息进行融合进而获取准确的缺失数值，一般基于相邻时序数据的信息采用最小二乘法进行拟合，进而获得缺失位置对应的数据，由于道路交通数据在相邻时间、相邻空间上的时序数据具有相关性，如对于常规工作日，路段的平均速度变化趋势是相似的，而周末时路段的平均速度变化趋势与工作日差异较大。在夜间，每个路段的车辆均较少，因此车辆的速度更多的是取决于司机的主观意识，使得交通数据的分布更离散，仅通过相邻数据点的拟合会使得其缺失整体性的特征信息，导致缺失信息的获取结果不准确。

待统计城市的交通数据集中可能存在多个缺失数据，本实施例以其中一个缺失数据为例进行说明，对于其它缺失数据，均可采用本实施例提供的方法进行处理。对于任一缺失数据，首先获取该缺失数据所对应日期对应的数据序列，该数据序列中的元素均是由采集时刻和对应的交通数据构成，将该数据序列记为缺失数据所对应日期对应的第一子数据序列，其中，缺失数据所对应日期为缺失数据所在的日期，假设缺失数据为3月8日某一采集时刻的数据，那么缺失数据所对应日期为3月8日；将与缺失数据所对应日期的时间间隔小于或等于预设天数的历史日期记为待分析日期，同样的，获取每个待分析日期对应的第一子数据序列，本实施例中的预设天数为1周，在具体应用中，实施者可根据具体情况进行设置；获取该缺失数据所对应路段在缺失数据对应的采集时刻对应的数据序列，该数据序列中的元素均是由路段名称和对应路段在缺失数据对应的采集时刻的交通数据构成，将该数据序列记为缺失数据所对应路段对应的第二子数据序列，其中，缺失数据所对应路段为缺失数据所在的路段；将与缺失数据所对应路段的距离小于或等于预设距离的路段记为待分析路段，本实施例中的预设距离为3000米，在具体应用中，实施者可根据具体情况进行设置；同样的，获取每个待分析路段对应的第二子数据序列。例如：在3月8日13时02分缺失了一个第a个路段的交通数据，则获取3月8日所有采集时刻对应的交通数据构成的序列，将该序列作为缺失数据所对应日期对应的第一子数据序列，获取第a个路段在所有采集时刻对应的交通数据构成的序列，将该序列记为缺失数据所对应路段对应的第二子数据序列。

本实施例通过参考缺失数据对应的子数据序列与其邻近数据对应的子数据序列之间的距离，获取邻近子数据序列的参考因子，以此作为时序信息的参考权重。并通过邻近时序数据的周期性信息、趋势性信息获取其特征信息，对参考因子和特征信息进行综合评价，进而确定缺失数据的最优补全值。本实施例将缺失数据作为中心数据，通过时间序列之间的动态时间规整距离来衡量邻近数据对应的子数据序列与中心数据对应的子数据序列之间的差异，根据差异判断邻近数据对应的子数据序列的参考因子。因此本实施例首先分别计算每个待分析日期对应的第一子数据序列与缺失数据所对应日期对应的第一子数据序列之间的DTW距离，也即动态时间规整距离，分别计算每个待分析路段对应的第二子数据序列与缺失数据所对应路段对应的第二子数据序列之间的DTW距离，然后基于DTW距离确定每个邻近数据对应的子数据序列的参考因子；对于第i个待分析日期对应的第一子数据序列：对缺失数据所对应日期与第i个待分析日期对应的第一子数据序列之间的DTW距离进行负相关映射，将映射结果记为第i个待分析日期对应的第一差异指标；计算所有待分析日期对应的第一差异指标的和值，将所述第i个待分析日期对应的第一差异指标与所述第一差异指标的和值的比值作为第i个待分析日期对应的第一子数据序列的参考因子；对于第j个待分析路段对应的第二子数据序列：对缺失数据所对应路段与第j个待分析路段对应的第二子数据序列之间的DTW距离进行负相关映射，将映射结果记为第j个待分析路段对应的第二差异指标；计算所有待分析路段对应的第二差异指标的和值，将所述第j个待分析路段对应的第二差异指标与所述第二差异指标的和值的比值作为第j个待分析路段对应的第二子数据序列的参考因子。第i个待分析日期对应的第一子数据序列的参考因子和第j个待分析路段对应的第二子数据序列的参考因子的具体表达式分别为：

其中，

为第i个待分析日期对应的第一子数据序列的参考因子，

为第j个待分析路段对应的第二子数据序列的参考因子，

为缺失数据所对应日期对应的第一子数据序列，

为缺失数据所对应路段对应的第二子数据序列，

为第i个待分析日期对应的第一子数据序列，

为第j个待分析路段对应的第二子数据序列，

为DTW距离，

为第i个待分析日期与缺失数据所对应日期对应的第一子数据序列之间的DTW距离，

为第j个待分析路段与缺失数据所对应路段对应的第二子数据序列之间的DTW 距离，

为待分析日期的数量，

为待分析路段的数量，

为自然常数。

表示第i个待分析日期对应的第一差异指标，

表示第j个待分析路段对应的第二差异指标。本实施例通过子数据序列之间的动态时间规整距离衡量邻近数据对缺失数据的参考重要程度，通过邻近数据之间相似的信息获取缺失数据的估计值，为了使最终获得的缺失数据的最优补全值更加准确，通过邻近数据对应的子数据序列与缺失数据对应的子数据序列之间的差异对邻近时序的参考价值做出评判。对于时间与空间邻近的子数据序列来说，与缺失数据对应的子数据序列之间的DTW距离越小，说明其参考性越强，也即对应的参考因子越大。上式中对动态时间规整距离负相关映射，使得所有待分析日期对应的第一子数据序列的参考因子之和为1，所有待分析路段对应的第二子数据序列的参考因子之和为1，这样可以保证多数据融合插值的过程中不会因权重导致数值异常的情况出现，并且在归一化中使得距离越小权重越高，距离越大权重越低，保证距离越近的子数据序列具有越高的参考因子。

采用上述方法，能够获得每个待分析日期对应的第一子数据序列的参考因子和每个待分析路段对应的第二子数据序列的参考因子，通过动态时间规整距离对邻近数据对应的子数据序列的参考权重大小做出衡量，使得在确定缺失数据时序特征的过程中，能够根据参考因子判断邻近数据对应的子数据序列的重要程度，从而提高缺失数据补全值获取结果的可信度。

步骤S3，基于缺失数据所对应日期对应的第一子数据序列、待分析日期对应的第一子数据序列、缺失数据所对应路段对应的第二子数据序列、待分析路段对应的第二子数据序列，获得缺失数据的预设邻域内对应的平均速度数据的空间差异；根据所述空间差异，得到缺失数据对应的采集时刻的混乱程度。

本实施例在步骤S2中获取到了每个待分析日期对应的第一子数据序列的参考因子和每个待分析路段对应的第二子数据序列的参考因子，也即获取到了缺失数据对应的子数据序列的每个邻近子数据序列的参考因子，接下来对邻近子数据序列的周期性信息与趋势性信息进行提取，进而结合参考因子、周期性信息和趋势性信息进行信息融合，获取缺失数据的最优补全值。

在城市道路交通信息中，晚间交通量小，路段平均速度取决于司机的主观意识，所以会导致晚间时间的路段平均车速整体较高并且较离散，那么在这段时间内的数据插值需要保证数据的离散性，在这个区间出现数值缺失时，需要保证每一次插值都使得数据的混乱程度较高，数据的离散性能够通过STL分解中的残差体现。而在早高峰和晚高峰期间，邻近子数据序列中的数据趋势性信息更加能够体现路段的交通状态特征，因为在工作日路段的情况相似，在高峰期车辆的通行状态也是相似的，数据的趋势性信息能够通过STL分解中的趋势性信息体现。由于数据的周期性需要通过历史数据进行体现，但是周期较长、路段的不确定因素较多，会使得周期性信息不稳定，因此本实施例中数据的周期性通过STL分解中的周期性信息来体现。数据信息特征值可以通过残差的混乱程度进行判断，当残差的分布较混乱时，此时处于交通量较低的情况下，获取的数据离散性较强，此时对缺失数据进行符合趋势性信息的数据插值即可。当残差的分布较一致时，此时处于类似高峰情况下的强周期性与趋势性状态，需要进行趋势性信息与周期性信息的拟合，进而确定缺失数据的数值，以保证数据插值可以符合城市交通状态预测的信息要求。

由于交通数据集是以高维张量的形式构建的，因此每个数据点与其它数据点均有一个距离，本实施例通过自适应距离的COF离群因子来确定缺失数据对应的采集时刻的混乱程度。当某个数据点对应的COF离群因子较高时，说明这个数据点偏离了数据的主要变化趋势，通过数据点的K距离邻域中的平均COF值来判断当前数据点的离散程度。对于K值，通过同一路段的历史数据STL分解后的残差信息给出一个取值范围，通过当前数据点向两侧同速度延伸，直到包含的数据点对应的COF离群因子的均值处于预设范围，以此距离作为当前缺失数据对应的COF离群因子计算时的K距离邻域；本实施例中的预设范围为[1,3]。相邻采集时刻同一路段、相邻路段同一采集时刻的交通数据均存在一定的关联性，为了提高缺失数据的最优补全值的获取精度，需要对缺失数据的邻域内的数据进行分析，因此本实施例将根据缺失数据的预设邻域内数据的空间差异，对缺失数据对应的采集时刻的混乱程度进行评价，混乱程度越低，在确定缺失数据的最优补全值时，应当更多的参考对应第一子数据序列和对应第二子数据序列中的周期性数值信息和趋势性数值信息。

首先将缺失数据对应的所对应日期对应的第一子数据序列、待分析日期对应的第一子数据序列、缺失数据所对应路段对应的第二子数据序列、待分析路段对应的第二子数据序列记为特征数据序列，将特征数据序列作为STL分解的输入，采用STL算法对其进行分解，获得每个子数据序列的周期性数值信息、趋势性数值信息和残差，每个路段在每个采集时刻均对应一个平均速度，交通数据集是以高维张量的形式存在的，将待统计城市的交通数据集中的所有数据映射到空间中，若高维张量的维数为3，则将每个交通数据对应的3个数值分别作为对应数据点在空间中的三个坐标，若高维张量的维数为4，则将每个交通数据对应的4个数值分别作为对应数据点在空间中的四个坐标；在空间中获取缺失数据的预设邻域内且属于特征数据序列中的数据，将获取到的数据对应的平均速度记为邻域平均速度，即获得了多个邻域平均速度；计算所有邻域平均速度对应的残差的方差，将该方差记为第一方差；STL分解为现有技术，此处不再过多赘述。获取每个邻域平均速度对应的残差，基于所有邻域平均速度对应的残差计算对应的COF离群因子，将该COF离群因子作为缺失数据的离群因子；方差和离群因子的获取方法为现有技术，此处不再过多赘述；第一方差和缺失数据的离群因子均能够反映缺失数据周围的数据的差异情况，因此用第一方差和第一离群因子来表征缺失数据的预设邻域内平均速度数据的空间差异。计算第一方差与缺失数据的离群因子的乘积，对该乘积进行归一化处理，将归一化结果作为缺失数据对应的采集时刻的混乱程度。缺失数据对应的采集时刻的混乱程度的计算公式具体为：

其中，

为缺失数据对应的采集时刻的混乱程度，

为所有邻域平均速度对应的残差构成的集合，

为第一方差，

为缺失数据的离群因子，

为归一化函数。

为了判断缺失数据所处位置的数据值在进行补全时应当更多的参考时序趋势与周期性信息或是相邻数据点的数值信息，需要对缺失数据的离群因子与对应的数据在STL分解中的残差的离散性进行综合评价，本实施例将二者相乘，从而获取二者的综合数值信息，并对综合数值信息进行线性归一化处理。当缺失数据的离群因子与邻域内平均速度的方差都较大时，说明缺失数据离群且其邻域数据点离散分布，缺失数据周围的数据的混乱程度较高，则缺失数据更可能为交通量小、交通状态好时对应的数据，缺失数据的最优补全值应当参考更少的时序信息。当缺失数据对应的离群因子与邻域内平均速度的方差都较小时，说明缺失数据处于交通数据变化平稳且规整的时间段，这个数据更可能是交通状态趋势性与周期性比较强时对应的数据，该缺失数据的最优补全值应当参考更多的时序信息。

依据城市道路交通的实际现象，通过路段平均速度时序数据STL分解后的残差分布信息，获取缺失数据在数据补全过程中对应的混乱程度，使得缺失数据包含与邻近时序数据相似的时序信息，在多数据融合的过程中保留更多的数据时序信息，保证后续车流量数据的预测结果更准确。

至此，通过邻近时序STL分解的残差数据分布信息获取到缺失数据对应的采集时刻的混乱程度。

步骤S4，基于所述参考因子、所述混乱程度、待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列，确定对应缺失数据的最优补全值，基于所述最优补全值获得待统计城市的所有车流量数据，并预测未来时刻的车流量数据。

本实施例获取了缺失数据对应的采集时刻的混乱程度，用缺失数据对应的采集时刻的混乱程度表征缺失数据时序信息的影响因子。由于在STL分解中，可以将时序数据表示为：时序数据=周期数据+趋势数据+残差，因此基于此特征通过多数据融合的方式对缺失数据进行补全，结合邻近子数据序列的参考因子，通过缺失数据时序信息的影响因子融合邻近子数据序列对应的周期性信息与趋势性信息，获取缺失数据的最优补全值，缺失数据的最优补全值的具体表达式为：

其中，

为缺失数据的最优补全值，

为第i个待分析日期对应的第一子数据序列的参考因子，

为第j个待分析路段对应的第二子数据序列的参考因子，

为待分析日期的数量，

为待分析路段的数量，

为缺失数据对应的采集时刻，

为缺失数据对应的采集时刻的混乱程度，

为第i个待分析日期对应的第一子数据序列在STL分解中对应的周期性数值信息，

为第j个待分析路段对应的第二子数据序列在STL分解中对应的周期性数值信息，

为第i个待分析日期对应的第一子数据序列在 STL分解中对应的趋势性数值信息，

为第j个待分析路段对应的第二子数据序列在STL 分解中对应的趋势性数值信息。

缺失数据对应的采集时刻的混乱程度越大，说明缺失数据时序信息的影响因子越大，在对该数据进行补全时，参考其邻近子数据序列的周期性数值信息和趋势性数值信息越少；缺失数据对应的子数据序列的邻近子数据序列的参考因子越大，说明对应的邻近子数据序列与缺失数据对应的子数据序列的相似程度越高，缺失数据在进行补全时，对应的邻近子数据序列的周期性数值信息和趋势性数值信息的参考价值越高；当缺失数据对应的采集时刻的混乱程度越小、缺失数据对应的子数据序列的邻近子数据序列的参考因子越大时，越应当参考邻近子数据序列的周期性数值信息和趋势性数值信息，此时若缺失数据对应的子数据序列在时间和空间上的邻近子数据序列的周期性数值信息和趋势性数值信息均较大，则缺失数据的最优补全值较大。

本实施例结合邻近子数据序列的参考因子和缺失数据对应的采集时刻的混乱程度，获取了缺失数据的最优补全值，根据缺失数据对应的子数据序列与多个邻近子数据序列之间的动态时间规整距离进行影响程度的衡量，将时间空间两个维度下STL分解的时序信息中的趋势性信息与周期性信息通过残差数值的分布混乱程度进行了融合，使得缺失数据的最优补全值在获取时，能够考虑到城市道路交通中不同时间段的不同数据的补全需求，提高了缺失数据的最优补全值的获取精度。

至此，通过对参考因子与缺失数据时序信息的影响因子的综合衡量，获取到了缺失数据的最优补全值。采用本实施例提供的方法，能够获得待统计城市的交通数据集中每个缺失数据的最优补全值。

基于待统计城市的交通数据集中每个缺失数据的最优补全值，对待统计城市的交通数据集中的缺失数据进行补全，得到完整的交通数据集，基于完整的交通数据集获得路段的车流量、路段平均速度、路段速度标准差、路段车速比；然后基于扩散卷积循环神经网络的城市道路交通状态预测模型对未来时刻的车流量数据进行预测，该网络模型为DCGRU模型，该网络模型的输入包括：

(1)交通流特征：路段的车流量、路段平均速度、路段速度标准差、路段车速比；

(2)道路几何特征：道路等级、道路长度、道路宽度；

(3)路网临近性矩阵。

该网络模型的结构包括：扩散卷基层、GRU层和Softmax层；对结构参数进行设置，其中主要包括卷积步长、RNN层数、RNN单元数、预测步长；在具体应用中，实施者根据具体情况进行设置。标签根据现有的交通状态判定方法获取。网络模型的训练过程为现有技术，此处不再过多赘述。

该网络模型的输出为未来一个时刻的车流量数据的预测结果，本实施例通过训练好的网络模型，预测到未来时刻的车流量数据，完成对待统计城市的车流量的统计。

至此，采用本实施例提供的方法，能够获得待统计城市完整的交通数据集，利用网络模型预测未来时刻的车流量数据，完成对待统计城市的车流量的统计，提高了车流量预测数据的可信度。

本实施例首先获取了缺失数据所对应日期与待分析日期对应的第一子数据序列，以及缺失数据所对应路段与待分析路段对应的第二子数据序列，第一子数据序列能够从时间上反映缺失数据所对应路段的交通信息，第二子数据序列能够从空间上反映缺失数据所对应的采集时刻对应路段的交通信息，本实施例根据缺失数据所对应日期与待分析日期对应的第一子数据序列之间的差异、以及缺失数据所对应路段与待分析路段对应的第二子数据序列之间的差异，获得了每个待分析日期对应的第一子数据序列的参考因子和每个待分析路段对应的第二子数据序列的参考因子，也即分别从时间上和空间上对缺失数据所在的子数据序列与其他子数据序列之间的差异进行了分析，缺失数据所在的子数据序列与其他子数据序列之间的差异越小，说明对应两个子数据序列包含的相似信息越多，在对缺失数据进行补全时，越应当参考对应子数据序列中的周期性数值信息和趋势性数值信息，即对应子数据序列的参考因子越大；考虑到相邻采集时刻同一路段、相邻路段同一采集时刻的交通数据均存在一定的关联性，为了提高缺失数据的最优补全值的获取精度，需要对缺失数据的邻域内的数据进行分析，因此本实施例根据缺失数据的预设邻域内对应的平均速度数据的空间差异，对缺失数据对应的采集时刻的混乱程度进行了评价，混乱程度越低，在确定缺失数据的最优补全值时，应当更多的参考对应第一子数据序列和对应第二子数据序列中的周期性数值信息和趋势性数值信息，进而本实施例结合参考因子和混乱程度，确定了缺失数据的最优补全值，使得缺失数据的最优补全值的准确程度更高，提高了车流量数据预测结果的可信度。

Claims

1.一种基于城市运动车辆检测的车流量统计方法，其特征在于，该方法包括以下步骤：

基于所述参考因子、所述混乱程度、待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列，确定对应缺失数据的最优补全值，基于所述最优补全值获得待统计城市的所有车流量数据，并预测未来时刻的车流量数据；

所述分别得到各待分析日期对应的第一子数据序列的参考因子和各待分析路段对应的第二子数据序列的参考因子，包括：

对于第j个待分析路段对应的第二子数据序列：对缺失数据所对应路段与第j个待分析路段对应的第二子数据序列之间的DTW距离进行负相关映射，将映射结果记为第j个待分析路段对应的第二差异指标；计算所有待分析路段对应的第二差异指标的和值，将所述第j个待分析路段对应的第二差异指标与所述第二差异指标的和值的比值作为第j个待分析路段对应的第二子数据序列的参考因子；

所述基于所述参考因子、所述混乱程度、待分析日期对应的第一子数据序列、待分析路段对应的第二子数据序列，确定对应缺失数据的最优补全值，包括：

基于所述周期性数值信息、所述趋势性数值信息、所述参考因子和所述混乱程度，得到缺失数据的最优补全值，所述参考因子与所述最优补全值呈正相关关系，所述混乱程度与所述最优补全值呈负相关关系；

采用如下公式计算缺失数据的最优补全值：