CN107862863B

CN107862863B - 一种交通数据质量提升的方法及装置

Info

Publication number: CN107862863B
Application number: CN201710959747.3A
Authority: CN
Inventors: 闾凡兵; 王栋梁; 尹纪军; 钮玉晓; 丁继强
Original assignee: Guiyang Hisense Network Technology Co Ltd
Current assignee: Guiyang Hisense Network Technology Co Ltd
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2020-02-14
Anticipated expiration: 2037-10-16
Also published as: CN107862863A

Abstract

本发明公开了一种交通数据质量提升的方法及装置，该方法包括通过获取待处理的交通数据，对所述待处理的交通数据进行识别，得到异常数据，该异常数据包括缺失数据、错误数据和冗余数据，采用K折交叉验证法对缺失数据进行补偿以及对错误数据进行修正。根据数据的相似性，去除冗余数据。可以实现数据准确性的提升，提供数据同化的效率，从而提高智能交通决策方案预测的准确性。

Description

一种交通数据质量提升的方法及装置

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种交通数据质量提升的方法及装置。

背景技术

随着智能交通系统的发展，受限于天气、环境、设备能力等因素，智能交通系统采集到的数据会存在很多问题。例如数据缺失，错误数据冗余数据等问题。对于这些问题数据，需要将先设计、完成数据的同化工具，这些问题数据在未经过识别清洗的情况下利用率不高，对智能交通决策方案的预测准确率也有不良影响，因此为了更为高效的利用这些数据，需要将数据进行识别清洗，以得到质量比较高的数据。因此，亟需一种可以提升交通数据质量的方法。

发明内容

本发明实施例提供一种交通数据质量提升的方法及装置，用以实现交通数据质量的提升，提升数据的真实可靠性。

本发明实施例提供的一种交通数据质量提升的方法，包括：

获取待处理的交通数据；

对所述待处理的交通数据进行识别，得到异常数据，所述异常数据包括缺失数据、错误数据和冗余数据；

采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正；

根据数据的相似性，去除冗余数据。

可选的，所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正，包括：

将所述缺失数据或错误数据分割成K个子样本集，其中一个子样本集为验证数据集，其它K-1个子样本集为训练数据集；

采用拓扑特征分析或邻近特征分析，将所述验证数据集和所述训练数据集交叉验证K次，将K次的验证结果进行平均得到补偿数据或修正数据。

可选的，所述采用拓扑特征分析，将所述验证数据集和所述训练数据集交叉验证，包括：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的特征值，所述特征值包括均值、中位数或差值；

根据所述关注变量的均值、中位数或差值，对所述验证数据集和所述训练数据集交叉验证。

可选的，所述采用邻近特征分析，将所述验证数据集和所述训练数据集交叉验证，包括：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的邻近数据的均值；

根据所述关注变量的邻近数据的均值，对所述验证数据集和所述训练数据集交叉验证。

可选的，所述根据数据的相似性，去除冗余数据，包括：

确定所述冗余数据的键以及与所述键对应的键值；

对于所述冗余数据中重复的键或键值，采用均值特征归纳，删除多余的键或键值。

相应地，本发明实施例还提供了一种交通数据质量提升的装置，包括：

获取单元，用于获取待处理的交通数据；

处理单元，用于对所述待处理的交通数据进行识别，得到异常数据，所述异常数据包括缺失数据、错误数据和冗余数据；采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正；以及根据数据的相似性，去除冗余数据。

可选的，所述处理单元具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

可选的，所述处理单元具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的邻近数据的均值；

可选的，所述处理单元具体用于：

确定所述冗余数据的键以及与所述键对应的键值；

本发明实施例表明，获取待处理的交通数据；对所述待处理的交通数据进行识别，得到异常数据，所述异常数据包括缺失数据、错误数据和冗余数据，采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正，根据数据的相似性，去除冗余数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种检测器的结构示意图；

图2为本发明实施例提供的一种检测器的结构示意图；

图3为本发明实施例提供的一种交通数据质量提升的方法的流程示意图；

图4为本发明实施例提供的一种交通数据质量提升的装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例是利用数据的周期性、临时性等特性来获取同化模型建模对象的均值、差值、中位数以及拓扑或邻近值特征。

对于均值特征值，可以根据数据的周期性，临时性以及拓扑结构得到相应数据的均值，均值通常用于对数据的修正或补偿、冗余数据的删除等。计算均值的方法如下：

记监测器i在t时刻(或时段)采集到的关注变量为F(i,t)，该关注变量为需要提升的一种交通数据，比如，需要对交通流量数据进行质量提升时，该关注变量为交通流量，可以为监测器记录的过车数据。

监测器i在前k(k＝1,2,…，n)时间内t时刻(或时段)采集到的关注变量的均值mean：

该类特征包括n个。

上述监测器可以为地磁感应检测器和电警检测器，其中地磁感应检测器一般布设于距离停止线30m的位置，该地磁感应检测器的检测数据一般包括入口道的车流量(过车数据)、占有率，数据输出间隔为一个信号周期，具体的布设方式可以如图1所示。电警检测器一般布设在每个交叉口各方向的入口道，电警应为集成了卡口功能的多功能电警，可以实现逢车必拍功能。多功能电警一般布设于距离停车线18-23m的位置，其输出数据为通过停车线的各车辆的车牌号与通过时间，数据输出间隔为一个信号周期，具体布设方式可以如图2所示。

对于差值特征值，可以通过监测器在某一个时刻或者特定的周期内采集到的关注变量得到差值，差值通常结合拓扑或邻近值特征对缺失数据进行填补。计算差值的方法如下：

监测器i在t₁，t₂时间里采集到的关注变量的差值difference：

difference＝|F(i,t₁)-F(i,t₂)|(t₁,t₂＝1,2…m)，该类特征包括m个。

对于中位数特征值，将采集的数据，根据不同的特性依据得到这些数据的中位数特征，中位数可以帮助修正数据中的错误数据。计算中位数的方法如下：

监测器i在前k(k＝1,2,…，n)时间内t时刻或者时段采集到的关注变量的中位数median₁：

median₁＝median(F₁(i,t-24*a),a＝1,2,…,k),k＝1,2,…,n，该类特征包含n个。

基于上述描述，图3示例性的示出了本发明实施例提供的一种交通数据质量提升的方法的流程，该流程可以由交通数据质量提升的装置执行。

如图3所示，该流程具体包括：

步骤S301，获取待处理的交通数据。

步骤S302，对所述待处理的交通数据进行识别，得到异常数据。

步骤S303，采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正。

步骤S304，根据数据的相似性，去除冗余数据。

在本发明实施例中，可以通过数据识别器循环运行，对目标交通数据进行特征分析，比如F(D,K)，对于交通数据集D，经过数据同化识别分析器F，进行K特征值分析，当出现特征值异常时，则启动数据校正。将低质量数据进行质量提升的过程可以称为数据同化，低质量数据同化处理主要分为三类：缺失数据补偿、错误数据修正、冗余数据去除。

具体的，交通数据中，缺失数据一般记为“”、“NULL”、“NA”等符号或是直接不存在，错误数据则需依据历史数据建立的模型识别当识别器发现交通数据存在数据缺失或错误时，采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正。该过程具体可以为：将所述缺失数据或错误数据分割成K个子样本集，其中一个子样本集为验证数据集，其它K-1个子样本集为训练数据集。将初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其它K-1个子样本用来训练。然后采用拓扑特征分析或邻近特征分析，将验证数据集和训练数据集交叉验证K次，将K次的验证结果进行平均得到补偿数据或修正数据。交叉验证重复K次，每个子样本验证一次，平均K次的结果，最终得到一个单一数据。

在采用拓扑特征分析，将验证数据集和训练数据集交叉验证时，首先，需要确定验证数据集或训练数据集的关注变量，比如，关注变量可以为交通流量。然后计算该关注变量的特征值，其中特征值可以包括均值、中位数或差值。最后根据关注变量的均值、中位数或差值，对验证数据集和训练数据集交叉验证。

比如，在t－a时刻采集到的关注变量的值F₁(i,t-a)，其中(a＝1,2,…,q)，包含q个特征，在t时刻的前a个时刻内采集到的关注变量的特征值如下：

均值为：

中位数为：median₃＝madian(F₁(i,t-a),a＝1,2,…,c)(c＝1,2,…,q)。

差值为：difference₂＝|F₁(i,t)-F₁(i,t-a)|(a＝1,2,…,q)。其中，(a＝1,2,…,q)。

在采用邻近特征分析，将验证数据集和训练数据集交叉验证时，也可以先确定验证数据集或训练数据集的关注变量，比如关注变量可以为交通流量。然后计算关注变量的邻近数据的均值，最后根据关注变量的邻近数据的均值，对验证数据集和训练数据集交叉验证。

比如，t时刻近邻数据的关注变量∑_b∈N(i,p)F(i,b,t)，其中(p＝1,2,…g)，N(i,p)代表i数据的p近邻，即距i数据仅为p距离的数据。该类特征共包含g个。t时刻数据i的p近邻采集到的关注变量的均值mean₄：

其中p＝1,2,...,g。

t-a时刻数据i的p近邻采集到的关注变量的均值mean₅：

其中，a＝1,2,…,q。

通过上述拓扑特征分析或邻近特征分析可以完成对缺失数据的补偿和对错误数据的校正。

举例来说，以如表1所示的关注变量为某路口的流量数据为例，7月4日为7月11日之前一周的星期二的流量数据。在进行拓扑特征分析时，先计算拓扑特征值，比较7月11日与7月4日的流量数据的差值。结果可以如表2所示，在进行拓扑特征分析时，分析的是当前数据的之前一周或之后一周同一天的流量数据。从表2中可以看出，11日M4这组数据出现异常，此时，对差值求均值，进行修正。在求均值时，需要去除这个异常值，对其它的差值进行求均值，如表3所示，求得均值为2.5，其中7月4日的M4组的流量数据为444，则7月11日的M4组的流量数据为444+2.5＝446.5，四舍五入后得到修正的结果为447。

表1

表2

连续时刻	7月11日	7月4日	差值
				M1	428	426	2
M2	437	435	2
				M3	442	441	3
M4	337	444	-107
				M5	457	453	4
M6	478	476	2
				M7	510	508	2

表3

在进行邻近特征分析，需要先确定邻近特征差值，具体如表4所示，邻近特征分析是分析当前流量数据与相邻的两天的流量数据。通过表4可以看出，7月11日的M4这组数据出现异常，此时对差值求均值，进行修正。在求均值时，也是需要去除该异常值，对其它的差值进行求均值，可以如表5所示，求得差值1的均值为7.67，差值2的均值为－11.83。其中，7月10日的M4这组数据为440，则针对差值1的修正结果为440+7.67＝447.67。7月12日的M4这组数据为435，则针对差值2的修正结果为435－(－11.83)＝446.83。最后对这两个修正结果求均值得到447.25，四舍五入之后，得到邻近特征分析结果为447，因此，将7月11日的数据修正为447，如表6所示。

表4

连续时刻	7月10	7月11日	7月12日	差值1	差值2
						M1	421	428	417	7	-11
M2	430	437	426	7	-12
						M3	435	442	432	7	-10
M4	440	337	435	-103	98
						M5	450	457	444	7	-12
M6	470	478	463	8	-15
						M7	500	510	499	10	-11

表5

表6

连续时刻	7月11日
		M1	428
M2	437
		M3	442
M4	447
		M5	457
M6	478
		M7	510

对于异常数据中的冗余数据，可以分析短时间内采集的数据的相似性，确定冗余数据的键以及与键对应的键值，设置待分析的冗余数据的键(key)，以及键值(value)。在评估冗余数据的相似性时，若key相似，则设置的value也相似。因而对于冗余数据中重复的键或键值，采用均值特征归纳，删除多余的键或键值。也就是说，针对同一key，通过比较value是否相似确定数据是否冗余，如一个key(时间点，路段)，value(流量)数据，分析其冗余，其计算过程为：针对交通数据集D{(k1,V1),(k1,V2),(k2,V2),(k2,V3),(k3,V3)……(kn,Vm)}，由于key与value具有唯一相关性，可以形成D1数据集{[k1,(V1,V2)],[k2,(V2,V3)],(k3,V3)……[kn,(Vx,Vm)]}。对于重复的value，采用均值特征归纳，然后删除多余value即可。同理，当value相同，key极度相似时，也需要作相应处理，如果形成[(key1,key2,keyx,keyn……)，value]，而key2与keyx极度相似时，则对key通过均值特征归纳，然后删除原始key2与keyx。

举例来说，key为时间点和路段、value为这个路段的流量数据，交通数据集D为{(时间点1和路段1,201)，(时间点1和路段1,203)，(时间点2和路段1,335)，(时间点2和路段1,337)，(时间点3和路段1,353)，(时间点4和路段1,263)}。根据交通数据集可以看出(时间点1和路段1,201)和(时间点1和路段1,203)这两个数据以及(时间点2和路段1,335)和(时间点2和路段1,337)这两个数据中key相同，value不同，因此对value进行均值处理，并删除之前的值，可以得到(时间点1和路段1,202)、(时间点2和路段1,336)。

通过上述方法可以看得出来，如果key－value相似，而存在多个不同key－value时则存在冗余，需对key或value进行均值特征处理，然后删除原值。

上述实施例表明，通过获取待处理的交通数据，对所述待处理的交通数据进行识别，得到异常数据，该异常数据包括缺失数据、错误数据和冗余数据，采用K折交叉验证法对缺失数据进行补偿以及对错误数据进行修正。根据数据的相似性，去除冗余数据。可以实现数据准确性的提升，提供数据同化的效率，从而提高智能交通决策方案预测的准确性。

基于相同的技术构思，图4示例性的提供了一种交通数据质量提升的装置的结构，该装置可以执行上述交通数据质量提升的流程。

如图4所示，该装置具体包括：

获取单元401，用于获取待处理的交通数据；

处理单元402，用于对所述待处理的交通数据进行识别，得到异常数据，所述异常数据包括缺失数据、错误数据和冗余数据；采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正；以及根据数据的相似性，去除冗余数据。

可选的，所述处理单元402具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

可选的，所述处理单元402具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的邻近数据的均值；

可选的，所述处理单元402具体用于：

确定所述冗余数据的键以及与所述键对应的键值；

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种交通数据质量提升的方法，其特征在于，包括：

获取待处理的交通数据；

根据数据的相似性，去除冗余数据；

所述采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正，包括：

2.如权利要求1所述的方法，其特征在于，所述采用拓扑特征分析，将所述验证数据集和所述训练数据集交叉验证，包括：

确定所述验证数据集或所述训练数据集的关注变量；

3.如权利要求1所述的方法，其特征在于，所述采用邻近特征分析，将所述验证数据集和所述训练数据集交叉验证，包括：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的邻近数据的均值；

4.如权利要求1所述的方法，其特征在于，所述根据数据的相似性，去除冗余数据，包括：

确定所述冗余数据的键以及与所述键对应的键值；

5.一种交通数据质量提升的装置，其特征在于，包括：

获取单元，用于获取待处理的交通数据；

处理单元，用于对所述待处理的交通数据进行识别，得到异常数据，所述异常数据包括缺失数据、错误数据和冗余数据；采用K折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正；以及根据数据的相似性，去除冗余数据；

所述处理单元具体用于：

6.如权利要求5所述的装置，其特征在于，所述处理单元具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

7.如权利要求5所述的装置，其特征在于，所述处理单元具体用于：

确定所述验证数据集或所述训练数据集的关注变量；

计算所述关注变量的邻近数据的均值；

8.如权利要求5所述的装置，其特征在于，所述处理单元具体用于：

确定所述冗余数据的键以及与所述键对应的键值；