CN115376315B - 一种面向路网排放核算的多层级卡口质量控制方法 - Google Patents
一种面向路网排放核算的多层级卡口质量控制方法 Download PDFInfo
- Publication number
- CN115376315B CN115376315B CN202210952926.5A CN202210952926A CN115376315B CN 115376315 B CN115376315 B CN 115376315B CN 202210952926 A CN202210952926 A CN 202210952926A CN 115376315 B CN115376315 B CN 115376315B
- Authority
- CN
- China
- Prior art keywords
- data
- bayonet
- error
- level
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000011835 investigation Methods 0.000 claims abstract description 37
- 230000008439 repair process Effects 0.000 claims abstract description 22
- 230000006872 improvement Effects 0.000 claims abstract description 17
- 230000001502 supplementing effect Effects 0.000 claims abstract description 4
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 18
- 230000005856 abnormality Effects 0.000 claims description 15
- 238000011144 upstream manufacturing Methods 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009469 supplementation Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 claims 1
- 238000013441 quality evaluation Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Chemical & Material Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种面向路网排放核算的多层级卡口质量控制方法,属于交通卡口质量控制技术领域,用于解决现有卡口质量控制方法获取的数据质量较差的技术问题。本方法包括数据质量控制处理和数据质量提升处理,在对卡口的情况进行预调查的基础上,对卡口数据进行处理、分类以及整理并将对数据源进行分析,然后对错误数据进行分类,将错误数据分为卡口级、卡口群级和区域级,对每一级的错误数据进行识别和致因分析并在网络层面进行综合质量评估;最后对错误数据进行修正及补充,根据不同类型的问题数据进行修复,建立提升数据质量的方法;本发明对数据进行分类整理,并对问题数据进行精准修复,从而提高数据质量,便于路网排放的精准核算。
Description
技术领域
本发明属于交通卡口质量控制技术领域,涉及一种面向路网排放核算的多层级卡口质量控制方法。
背景技术
在交通管理中,面向路网排放核算,现有的卡口质量控制方法几乎都是根据卡口的数据采集以及过车检测特点,采用相应的数据质量检验方法和流程,自动检测设备脱机、故障、网络异常等设备运行异常状况以及数据全空、时间戳错误、数据重复、数据量异常、识别率异常、测速不准等数据的质量问题。但此类卡口质量控制方法会面临如下问题:
(1)不论什么样的情况都采用相同的控制方法,无限制地追求精度,浪费了大量地算例,难以进行实际地应用。
(2)没有对出现问题的数据进行归类,有问题的数据包括缺失数据、重复数据和异常值等等,导致对数据的处理不够精细。
(3)没有对数据进行格式的统一,数据可能包含不一致的值。例如数据格式不统一;日期、时间格式不统一;编码不统一等等,导致难以进行后续的数据挖掘。
基于此,设计一种面向路网排放核算的多层级卡口质量控制方法,针对卡口数据质量控制,对卡口数据进行分类,找出卡口数据存在的问题,并针对这些问题,建立提升数据质量的方法。
发明内容
本发明的目的是针对现有的技术存在上述问题,提出了一种面向路网排放核算的多层级卡口质量控制方法,本发明要解决的技术问题是:如何提高卡口数据质量。
本发明的目的可通过下列技术方案来实现:
一种面向路网排放核算的多层级卡口质量控制方法,包括数据质量控制处理和数据质量提升处理,多层级卡口质量控制的步骤如下:
步骤一,资料整理与现状分析,包括对卡口的情况进行预调查、对卡口数据进行处理、对卡口数据进行分类以及整理数据并将对数据源进行分析;
对卡口的情况进行预调查:对卡口现场调查的光线,位置以及录像清晰度有初步的判断,以提高实际调查的质量;
对卡口数据进行处理:一条卡口数据至少包括以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;在所给卡口数据中删除经纬度异常的车辆,进一步筛选出主路卡口;
对卡口数据进行分类:将卡口数据划分为三个等级,分别是卡口级、卡口群以及区域级;
其中,卡口级指的是单个卡口;
卡口群包括:干线群-多个相邻卡口构成上下游且两两之间无岔路;交叉口群-位于同一交叉口但不同进出道;广义节点群-满足流量守恒的多个卡口,等效为一个卡口;
区域级是指由多个卡口群构成,且形成较为独立的功能区;
步骤二,通过错误数据识别、分类、致因分析,建立错误数据识别模型;建立错误数据识别模型包括错误识别方法的建立、错误识别方法校验、错误数据分类及致因分析、数据质量及可靠性评估;对错误数据进行分类,首先将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估;
对错误数据进行分类,整理后得到的结果为:
卡口级:(1)重复记录;(2)部分字段缺失记录;(3)错误记录;
卡口群级:(1)多重记录:某时间段内同一号牌在上下游卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个上下游卡口的数据记录,或相邻的上下游卡口数据出现严重不对称;(3)整条字段缺失记录;
区域级:(1)多重记录:某时间段内同一号牌在多个卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个卡口的数据记录;(3)整条字段缺失记录;
步骤三,数据的修正和补充,包括基于数据错误类型的修复方法选择、数据质量改善方法测试及比选、数据质量改善方法评估;在对错误数据识别的基础上,对错误数据进行修正及补充,找出卡口数据存在的问题,问题类型包括缺失、格式不一致、重复、异常,针对这些问题,建立提升数据质量的方法;
步骤四,针对卡口数据出现的问题依次进行清洗。
本发明面向路网排放核算的多层级卡口数据,通过数据质量控制处理和数据质量提升处理来提高卡口数据的质量;对卡口数据进行分类,将卡口数据划分为三个等级,分别是卡口级、卡口群级以及区域级,并找出卡口数据存在的问题,如缺失、格式不一致、重复、异常等,针对这些问题,对收集到的问题数据进行识别、归类和致因分析,建立错误数据识别模型,根据不同类型的问题数据进行修复,建立提升数据质量的方法,针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
步骤一中,对卡口的情况进行预调查,预调查的要素有:卡口附近有没有其他卡口,能较容易分辨;卡口附近是否有过街天桥,方便录像调查;经过卡口的车辆类型是否比较齐全;卡口点位到学校距离是否适中;通过预调查提高获取数据的质量和可靠性。
步骤一中,整理数据并将对数据源进行分析,包括采集方法及字段信息介绍和数据特征,数据特征包括错误类型、分布特征、精度等信息。
步骤二中,网络层面综合质量评估是基于历史卡口数据、交调数据的货运通道及货运网络进行数据的提取,依靠复杂网络理论进行权重确定,最后进行加权评价。
步骤二中,数据质量及可靠性评估指标包括缺失率和异常率;卡口数据的质量评估首先需要发现卡口数据存在的问题,进行预处理,然后针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
(1)缺失率是指某段时间范围内某交通调查设备未采集到数据的数量占该时段内该交通调查设备理论上应该采集到的数据量的百分比,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;缺失率计算公式如下:
上式中,Im:缺失率;
Dm:某段时间范围内某交通调查设备未采集到数据的数量;
Dt:该时段内该交通调查设备理论上应该采集到的数据量;
(2)异常率
异常率指某时段内在筛选出的问题数据量占该时段内实际采集到的数据数量的百分比,异常率计算公式如下:
上式中,If:错误率;
Df:某时段内筛选出的问题数据量;
D:该时段内实际采集到的数据数量。
上述步骤中,错误识别方法包括单点识别和多点识别,多点识别包括多点同时识别、轨迹断片识别、多条同时缺失识别和异常逻辑识别;对于数据质量及可靠性评估包括单点评估、卡口群评估和区域评估;对错误数据的致因分析包括潜在因素和致因推理,对于数据的质量提升包括单点修复和多点修复,顺序上来说,对单个卡口数据进行单点修复后,对于卡口群和区域级数据根据相似矩阵和时空关联性进行多点修复。
步骤三中,对于缺失数据处理方式包括缺失值填补、删除数据和不处理,填补方法包括人工填补、特殊值处理、平均值填充、热卡填充、K-近邻方法,进行缺失数据质量提升;对于重复数据处理方式包括按关键信息去重和按规则去重的方法进行处理;对于异常值处理方式包括删除异常值、平均值代替、视为缺失值和不处理的方法进行处理;对于格式不一致数据处理方式包括去除不需要的字符和一致化处理的方法进行处理;其中删除数据和不处理的处理方式限于影响较小或无影响的错误数据。
步骤三中,数据错误类型的修复方法包括基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法。
基于仿真模型修复法:通过建立仿真模型对错误数据进行修复;
基于预测原理修复法:在检测点位的历史数据基础上建立预测模型,并利用模型的预测值来替换该检测点位当前的问题数据或填补缺失数据,如建立平滑自回归模型(ARIMA)进行修复;
基于插值原理修复法:基于历史或近邻数据利用现有插值方法进行填补;通过从同一检测位所获取的前几天同一时刻的数据通过加权平均来修复有问题的数据,或通过参考近邻几个检测点位的数据,并通过平均或是加权平均来估计缺失或被污染的数据,进行修复;
基于统计学习修复法:将要修复的数据视作为一个待估参数,通过多次抽样的方式来估计该数据的替代值,进行修复,如人工神经网络方法、马尔科夫模特卡罗方法(MCMC)。
与现有技术相比,本面向路网排放核算的多层级卡口质量控制方法具有以下优点:
1、本发明面向路网排放核算的多层级卡口数据,通过数据质量控制处理和数据质量提升处理来提高卡口数据的质量;将卡口数据划分为三个等级,分别是卡口级、卡口群级以及区域级,通过这种分类,对收集到的问题数据进行归类,通过错误数据识别、分类、致因分析,建立错误数据识别模型,并根据错误数据类型进行修正和补充,能够提高数据质量和可靠性,便于路网排放的精准核算。
2、通过建立错误数据识别模型,对错误数据进行分类,将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估和致因分析,再对数据进行精准修复,修复后的数据质量好,精确度高。
3、根据不同层级对问题数据进行分类,可以获知不同等级的卡口更容易出现的问题,便于交通研究。
4、本发明面向实际应用,在进行数据质量控制前进行预处理,先对卡口情况进行预调查提高实际调查的质量,并筛选出主路卡口,然后对卡口进行分类,通过对问题数据的识别、分析,能够根据实际情况识别出关键的卡口,同时可以忽略无关紧要的错误数据,提高卡口数据的处理效率。
附图说明
图1是本发明卡口质量控制方法处理流程示意图;
图2是本发明卡口问题数据处理的技术路线示意图;
图3是选取的五个具有代表性卡口的数据质量进行分析雷达图;
图4是环形路口的示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1-2,本实施例提供了一种面向路网排放核算的多层级卡口质量控制方法,包括数据质量控制处理和数据质量提升处理,多层级卡口质量控制的步骤如下:
步骤一,资料整理与现状分析,包括对卡口的情况进行预调查、对卡口数据进行处理、对卡口数据进行分类以及整理数据并将对数据源进行分析;
对卡口的情况进行预调查:对卡口现场调查的光线,位置以及录像清晰度有初步的判断,以提高实际调查的质量;预调查的要素有:卡口附近有没有其他卡口,能较容易分辨;卡口附近是否有过街天桥,方便录像调查;经过卡口的车辆类型是否比较齐全;卡口点位到学校距离是否适中;通过预调查提高获取数据的质量和可靠性。
对卡口数据进行处理:一条卡口数据至少包括以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;在所给卡口数据中删除经纬度异常的车辆,进一步筛选出主路卡口;
对卡口数据进行分类:将卡口数据划分为三个等级,分别是卡口级、卡口群以及区域级;
其中,卡口级指的是单个卡口;
卡口群包括:(1)干线群-多个相邻卡口构成上下游且两两之间无岔路;(2)交叉口群-位于同一交叉口但不同进出道;(3)广义节点群-满足流量守恒的多个卡口,等效为一个卡口;
区域级是指由多个卡口群构成,且形成较为独立的功能区;
整理数据并将对数据源进行分析,包括采集方法及字段信息介绍和数据特征(错误类型、分布特征、精度等)。
步骤二,通过错误数据识别、分类、致因分析,建立错误数据识别模型;建立错误数据识别模型包括错误识别方法的建立、错误识别方法校验、错误数据分类及致因分析、数据质量及可靠性评估;对错误数据进行分类,首先将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别,最后在网络层面进行综合质量评估。
网络层面综合质量评估是基于历史卡口数据、交调数据的货运通道及货运网络进行数据的提取,依靠复杂网络理论进行权重确定,最后进行加权评价。
对错误数据进行分类,整理后得到的结果为:
卡口级:(1)重复记录(1类重复);(2)部分字段缺失记录;(3)错误记录;
卡口群级:(1)多重记录(2类重复):某时间段内同一号牌在上下游卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个上下游卡口的数据记录,或相邻的上下游卡口数据出现严重不对称;(3)整条字段缺失记录;
区域级:(1)多重记录(2类重复):某时间段内同一号牌在多个卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个卡口的数据记录;(3)整条字段缺失记录;
其中,数据质量及可靠性评估指标包括缺失率和异常率;卡口数据的质量评估首先需要发现卡口数据存在的问题,进行预处理,然后针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中。
(1)缺失率是指某段时间范围内某交通调查设备未采集到数据的数量占该时段内该交通调查设备理论上应该采集到的数据量的百分比,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;缺失率计算公式如下:
上式中,Im:缺失率;
Dm:某段时间范围内某交通调查设备未采集到数据的数量;
Dt:该时段内该交通调查设备理论上应该采集到的数据量;
(2)异常率
异常率指某时段内在筛选出的问题数据量占该时段内实际采集到的数据数量的百分比,异常率计算公式如下:
上式中,If:错误率;
Df:某时段内筛选出的问题数据量;
D:该时段内实际采集到的数据数量。
步骤三,数据的修正和补充,包括基于数据错误类型的修复方法选择、数据质量改善方法测试及比选、数据质量改善方法评估;在对错误数据识别的基础上,对错误数据进行修正及补充,找出卡口数据存在的问题,问题类型包括缺失、格式不一致、重复、异常,针对这些问题,建立提升数据质量的方法;
对于缺失数据处理方式包括缺失值填补、删除数据和不处理,填补方法包括人工填补、特殊值处理、平均值填充、热卡填充、K-近邻方法,进行缺失数据质量提升;对于重复数据处理方式包括按关键信息去重和按规则去重的方法进行处理;对于异常值处理方式包括删除异常值、平均值代替、视为缺失值和不处理的方法进行处理;对于格式不一致数据处理方式包括去除不需要的字符和一致化处理的方法进行处理;其中删除数据和不处理的处理方式限于影响较小或无影响的错误数据。
步骤四,针对卡口数据出现的问题依次进行清洗。
上述步骤二中,错误识别方法包括单点识别和多点识别,多点识别包括多点同时识别、轨迹断片识别、多条同时缺失识别和异常逻辑识别;对于数据质量及可靠性评估包括单点评估、卡口群评估和区域评估;对错误数据的致因分析包括潜在因素和致因推理;上述步骤三中,对于数据的质量提升包括单点修复和多点修复,顺序上来说,对单个卡口数据进行单点修复后,对于卡口群和区域级数据根据相似矩阵和时空关联性进行多点修复。
上述步骤三中,数据错误类型的修复方法包括基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法;
基于仿真模型修复法:通过建立仿真模型对错误数据进行修复;
基于预测原理修复法:在检测点位的历史数据基础上建立预测模型,并利用模型的预测值来替换该检测点位当前的问题数据或填补缺失数据,如建立平滑自回归模型(ARIMA)进行修复;
基于插值原理修复法:基于历史或近邻数据利用现有插值方法进行填补;通过从同一检测位所获取的前几天同一时刻的数据通过加权平均来修复有问题的数据,或通过参考近邻几个检测点位的数据,并通过平均或是加权平均来估计缺失或被污染的数据,进行修复;
基于统计学习修复法:将要修复的数据视作为一个待估参数,通过多次抽样的方式来估计该数据的替代值,进行修复,如人工神经网络方法、马尔科夫模特卡罗方法(MCMC)。
上述对错误数据的修复方法(修复基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法),均属于现有对数据进行修复的常用处理方式,其处理过程属于现有技术手段,本领域技术人员可以实现,上述修复方法的具体修复过程不再加以赘述。
如图3所示,图3为选取的五个具有代表性卡口的数据质量进行分析雷达图。选取5个代表性的卡口对卡口数据的数据质量进行分析,选取卡口为亦庄桥北、高家堡村东路南郊钢材市场、林萃路北五环口南、香山路林业学院口和鲁谷桥东。从图3中可以得知:
1、鲁谷桥东异常率最大;
2、林萃路北五环口南重复率最高;
3、高家堡村东路南郊钢材市场缺失率最大;
4、数据重复率较异常率、缺失率高。
如图4所示,图4为环形路口,存在相邻卡口A、B,经调查发现相同时间段内卡口A的流量为3530,卡口B的流量为472,采用本发明质量控制方法进行卡口质量控制。
在此情况下,卡口A为主路卡口,卡口B可以剔除,主要对卡口A的数据质量进行控制。
卡口A的缺失率为0.15%,缺失数据为5,鉴于缺失数据较少,可以人工手动进行填补,若缺失数据较多,可以采用K-近邻(使用欧式距离来确定与具有缺失值最近的几个样本,然后使用它们的均值来填充)或热卡填充(在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充)的方法。
卡口A的重复率为0.17%,重复数据可用关键信息去重,例如以ID等唯一关键信息去除重复数据。
数据的异常率为0.21%,若数据较少,可以将异常数据直接删除,亦可以基于历史或近邻数据利用现有插值方法进行填补。基于插值修复法,是将从同一检测位所获取的前几天同一时刻的数据通过一定的处理(如加权平均)来修复有问题的数据;或参考近邻几个检测点位的数据,并通过平均或是加权平均的方法来估计缺失或被污染的数据,进行修复。
本实施例提供了一种面向路网排放核算的多层级卡口质量控制方法,对卡口数据进行分类,进行卡口数据质量控制,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及车辆出现的地点(卡口的地理位置)。卡口被分为三个等级,分别是卡口级、卡口群级和区域级,其中在卡口群这一等级中,会出现十字路口和环形路口存在较多卡口的情况,但是由于在一条道路中,本身车流量的变化不大,故不需要所有卡口的数据完全精确,当有个别数据出现问题时,该问题可视情况进行忽略,只需要识别出关键的卡口,就可以避免浪费。在区域级的卡口中,也存在类似的情况,我们也可对部分问题进行忽略,由此还可以体现出本发明面向实际应用的特点。针对卡口数据质量控制,找出卡口数据存在的问题,如缺失、格式不一致、重复、异常等,并基于这些问题,对收集到的问题数据进行归类,通过错误数据识别、分类、致因分析等方法,建立错误数据识别模型,并根据错误数据类型进行修正和补充,建立提升数据质量的方法,提高数据质量和可靠性,以便于更好的进行交通研究。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。
Claims (8)
1.一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,多层级卡口质量控制方法包括数据质量控制处理和数据质量提升处理,多层级卡口质量控制的步骤如下:
步骤一,资料整理与现状分析,包括对卡口的情况进行预调查、对卡口数据进行处理、对卡口数据进行分类以及整理数据并将对数据源进行分析;
对卡口的情况进行预调查:对卡口现场调查的光线,位置以及录像清晰度有初步的判断,以提高实际调查的质量;
对卡口数据进行处理:一条卡口数据至少包括以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;在所给卡口数据中删除经纬度异常的车辆,进一步筛选出主路卡口;
对卡口数据进行分类:将卡口数据划分为三个等级,分别是卡口级、卡口群以及区域级;
其中,卡口级指的是单个卡口;
卡口群包括:干线群-多个相邻卡口构成上下游且两两之间无岔路;交叉口群-位于同一交叉口但不同进出道;广义节点群-满足流量守恒的多个卡口,等效为一个卡口;
区域级是指由多个卡口群构成,且形成较为独立的功能区;
步骤二,通过错误数据分类、识别、致因分析,建立错误数据识别模型;建立错误数据识别模型包括错误识别方法的建立、错误识别方法校验、错误数据分类及致因分析、数据质量及可靠性评估;对错误数据进行分类,首先将错误数据分为卡口级、卡口群级和区域级,然后对每一级的错误数据进行识别和致因分析,最后在网络层面进行综合质量评估;
对错误数据进行分类,整理后得到的结果为:
卡口级:(1)重复记录;(2)部分字段缺失记录;(3)错误记录;
卡口群级:(1)多重记录:某时间段内同一号牌在上下游卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个上下游卡口的数据记录,或相邻的上下游卡口数据出现严重不对称;(3)整条字段缺失记录;
区域级:(1)多重记录:某时间段内同一号牌在多个卡口同时出现的数据记录;(2)异常记录:某时间段内同一号牌以异常速度出现在多个卡口的数据记录;(3)整条字段缺失记录;
步骤三,数据的修正和补充,包括基于数据错误类型的修复方法选择、数据质量改善方法测试及比选、数据质量改善方法评估;在对错误数据识别的基础上,对错误数据进行修正及补充,找出卡口数据存在的问题,问题类型包括缺失、格式不一致、重复、异常;根据不同类型的问题数据进行修复,建立提升数据质量的方法,针对问题数据一对一进行数据质量提升,最终将处理完成的数据用于交通研究中;对于数据的质量提升包括单点修复和多点修复,对单个卡口数据进行单点修复后,对于卡口群和区域级数据根据相似矩阵和时空关联性进行多点修复;
步骤四,针对卡口数据出现的问题依次进行清洗。
2.根据权利要求1所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤一中,整理数据并将对数据源进行分析,包括采集方法及字段信息介绍和数据特征,数据特征包括错误类型、分布特征、精度。
3.根据权利要求1所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤一中,对卡口的情况进行预调查,预调查的要素有:卡口附近有没有其他卡口,能较容易分辨;卡口附近是否有过街天桥,方便录像调查;经过卡口的车辆类型是否比较齐全;卡口点位到学校距离是否适中。
4.根据权利要求2所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤二中,网络层面综合质量评估是基于历史卡口数据、交调数据的货运通道及货运网络进行数据的提取,依靠复杂网络理论进行权重确定,最后进行加权评价。
5.根据权利要求4所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤二中,数据质量及可靠性评估指标包括缺失率和异常率;
(1)缺失率是指某段时间范围内某交通调查设备未采集到数据的数量占该时段内该交通调查设备理论上应该采集到的数据量的百分比,一条数据至少包括了以下字段:拍摄卡口、拍摄时间、车牌和车型以及卡口的地理位置;缺失率计算公式如下:
上式中,Im:缺失率;
Dm:某段时间范围内某交通调查设备未采集到数据的数量;
Dt:该时段内该交通调查设备理论上应该采集到的数据量;
(2)异常率
异常率指某时段内在筛选出的问题数据量占该时段内实际采集到的数据数量的百分比,异常率计算公式如下:
上式中,If:错误率;
Df:某时段内筛选出的问题数据量;
D:该时段内实际采集到的数据数量。
6.根据权利要求4所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤二中,错误识别方法包括单点识别和多点识别,多点识别包括多点同时识别、轨迹断片识别、多条同时缺失识别和异常逻辑识别;对于数据质量及可靠性评估包括单点评估、卡口群评估和区域评估;对错误数据的致因分析包括潜在因素和致因推理。
7.根据权利要求1或6所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤三中数据错误类型的修复方法包括基于仿真模型修复法、基于预测原理修复法、基于插值原理修复法和基于统计学习修复法;
基于仿真模型修复法:通过建立仿真模型对错误数据进行修复;
基于预测原理修复法:在检测点位的历史数据基础上建立预测模型,并利用模型的预测值来替换该检测点位当前的问题数据或填补缺失数据;
基于插值原理修复法:基于历史或近邻数据利用现有插值方法进行填补;通过从同一检测位所获取的前几天同一时刻的数据通过加权平均来修复有问题的数据,或通过参考近邻几个检测点位的数据,并通过平均或是加权平均来估计缺失或被污染的数据,进行修复;
基于统计学习修复法:将要修复的数据视作为一个待估参数,通过多次抽样的方式来估计该数据的替代值,进行修复。
8.根据权利要求1或6所述的一种面向路网排放核算的多层级卡口质量控制方法,其特征在于,所述步骤三中,对于缺失数据处理方式包括缺失值填补、删除数据和不处理,填补方法包括人工填补、特殊值处理、平均值填充、热卡填充、K-近邻方法;对于重复数据处理方式包括按关键信息去重和按规则去重的方法进行处理;对于异常值处理方式包括删除异常值、平均值代替、视为缺失值和不处理的方法进行处理;对于格式不一致数据处理方式包括去除不需要的字符和一致化处理的方法进行处理;其中删除数据和不处理的处理方式限于影响较小或无影响的错误数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952926.5A CN115376315B (zh) | 2022-08-09 | 2022-08-09 | 一种面向路网排放核算的多层级卡口质量控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952926.5A CN115376315B (zh) | 2022-08-09 | 2022-08-09 | 一种面向路网排放核算的多层级卡口质量控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115376315A CN115376315A (zh) | 2022-11-22 |
CN115376315B true CN115376315B (zh) | 2023-10-24 |
Family
ID=84063312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210952926.5A Active CN115376315B (zh) | 2022-08-09 | 2022-08-09 | 一种面向路网排放核算的多层级卡口质量控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376315B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912133A (zh) * | 2024-03-19 | 2024-04-19 | 杭州三一谦成科技有限公司 | 一种基于实测数据车辆信息系数获取系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976610A (zh) * | 2016-03-21 | 2016-09-28 | 江苏智通交通科技有限公司 | 卡口过车的检测可靠性控制方法和系统 |
CN106056912A (zh) * | 2016-07-29 | 2016-10-26 | 浙江银江研究院有限公司 | 一种卡口运行状态量化评估方法及系统 |
CN106355924A (zh) * | 2016-09-06 | 2017-01-25 | 江苏智通交通科技有限公司 | 交通数据质量监控系统 |
CN106652528A (zh) * | 2017-02-15 | 2017-05-10 | 东南大学 | 一种微观交通信号控制数据质量检测方法及系统 |
CN106940931A (zh) * | 2017-02-28 | 2017-07-11 | 江苏智通交通科技有限公司 | 基于定位数据的卡口设备数据质量检验方法 |
CN108171421A (zh) * | 2017-12-28 | 2018-06-15 | 交通宝互联网技术有限公司 | 一种面向城市交通智能设备系统运维的路面运维处置效率和质量评估方法 |
CN109190924A (zh) * | 2018-08-10 | 2019-01-11 | 江苏智通交通科技有限公司 | 视频号牌数据质量分析方法 |
CN109360415A (zh) * | 2018-09-30 | 2019-02-19 | 北京工业大学 | 一种道路交通流异常数据识别方法 |
CN112270309A (zh) * | 2020-11-20 | 2021-01-26 | 罗普特科技集团股份有限公司 | 一种车辆卡口设备抓拍质量评估方法、装置及可读介质 |
CN112800044A (zh) * | 2021-02-04 | 2021-05-14 | 深圳市网联安瑞网络科技有限公司 | 数据质量判定及监测方法、管理系统、存储介质、终端 |
CN114037219A (zh) * | 2021-10-19 | 2022-02-11 | 浙江大华技术股份有限公司 | 一种数据评估方法、装置及电子设备 |
CN114822033A (zh) * | 2022-04-24 | 2022-07-29 | 山东交通学院 | 基于特征金字塔网络的路网交通流量数据修复方法及系统 |
-
2022
- 2022-08-09 CN CN202210952926.5A patent/CN115376315B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976610A (zh) * | 2016-03-21 | 2016-09-28 | 江苏智通交通科技有限公司 | 卡口过车的检测可靠性控制方法和系统 |
CN106056912A (zh) * | 2016-07-29 | 2016-10-26 | 浙江银江研究院有限公司 | 一种卡口运行状态量化评估方法及系统 |
CN106355924A (zh) * | 2016-09-06 | 2017-01-25 | 江苏智通交通科技有限公司 | 交通数据质量监控系统 |
CN106652528A (zh) * | 2017-02-15 | 2017-05-10 | 东南大学 | 一种微观交通信号控制数据质量检测方法及系统 |
CN106940931A (zh) * | 2017-02-28 | 2017-07-11 | 江苏智通交通科技有限公司 | 基于定位数据的卡口设备数据质量检验方法 |
CN108171421A (zh) * | 2017-12-28 | 2018-06-15 | 交通宝互联网技术有限公司 | 一种面向城市交通智能设备系统运维的路面运维处置效率和质量评估方法 |
CN109190924A (zh) * | 2018-08-10 | 2019-01-11 | 江苏智通交通科技有限公司 | 视频号牌数据质量分析方法 |
CN109360415A (zh) * | 2018-09-30 | 2019-02-19 | 北京工业大学 | 一种道路交通流异常数据识别方法 |
CN112270309A (zh) * | 2020-11-20 | 2021-01-26 | 罗普特科技集团股份有限公司 | 一种车辆卡口设备抓拍质量评估方法、装置及可读介质 |
WO2022105019A1 (zh) * | 2020-11-20 | 2022-05-27 | 罗普特科技集团股份有限公司 | 一种车辆卡口设备抓拍质量评估方法、装置及可读介质 |
CN112800044A (zh) * | 2021-02-04 | 2021-05-14 | 深圳市网联安瑞网络科技有限公司 | 数据质量判定及监测方法、管理系统、存储介质、终端 |
CN114037219A (zh) * | 2021-10-19 | 2022-02-11 | 浙江大华技术股份有限公司 | 一种数据评估方法、装置及电子设备 |
CN114822033A (zh) * | 2022-04-24 | 2022-07-29 | 山东交通学院 | 基于特征金字塔网络的路网交通流量数据修复方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115376315A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345666B (zh) | 一种基于时间-空间孤立点的车辆异常轨迹检测方法 | |
CN102521965B (zh) | 基于车牌识别数据的交通需求管理措施效果评价方法 | |
CN114049765B (zh) | 基于自动车辆号牌识别数据的城市路网车流od估计方法 | |
CN108648445B (zh) | 基于交通大数据的动态交通态势预测方法 | |
CN110838232A (zh) | 基于过车电警数据的单一车辆od获取方法 | |
CN108122186B (zh) | 一种基于卡口数据的职住位置估计方法 | |
CN111179592B (zh) | 基于时空数据流融合分析的城市交通预测方法和系统 | |
CN112905576B (zh) | 一种基于农机作业轨迹确定农田和道路的方法及系统 | |
CN115376315B (zh) | 一种面向路网排放核算的多层级卡口质量控制方法 | |
CN110781266A (zh) | 一种基于时空因果关系的城市感知数据处理方法 | |
CN115691120A (zh) | 一种基于高速公路流水数据的拥堵识别方法及系统 | |
CN116631186B (zh) | 基于危险驾驶事件数据的高速公路交通事故风险评估方法、系统 | |
CN113918538B (zh) | 一种基于人工神经网络的新建道路养护数据迁移系统 | |
CN115662122B (zh) | 一种基于gps的道路巡查、病害识别和巡查考核的养护系统及方法 | |
CN117351702A (zh) | 一种基于车流量进行调节的智慧交通管理方法 | |
CN116168356A (zh) | 一种基于计算机视觉的车辆损伤判别方法 | |
CN114999181A (zh) | 一种基于etc系统数据的高速公路车辆速度异常识别方法 | |
CN114091581A (zh) | 一种基于稀疏轨迹的车辆运营行为类型识别方法 | |
CN117689693A (zh) | 一种基于图对比自监督学习的异常局部轨迹检测方法和装置 | |
CN116578661A (zh) | 一种基于注意力机制的车辆轨迹时空重构方法及系统 | |
Golze et al. | Impact analysis of accidents on the traffic flow based on massive floating car data | |
CN113222236A (zh) | 数据分布自适应的跨区域尾气排放预测方法及系统 | |
CN111369200B (zh) | 一种基于车辆lbs数据的城市物流通道识别方法及系统 | |
CN117315943B (zh) | 一种超限运输违法监测分析与预警方法及系统 | |
CN115035715B (zh) | 基于决策树和多元辅助信息的高速公路流量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |