CN112906993A - 一种高速公路绿通车过站查验时间预测方法 - Google Patents
一种高速公路绿通车过站查验时间预测方法 Download PDFInfo
- Publication number
- CN112906993A CN112906993A CN202110396228.7A CN202110396228A CN112906993A CN 112906993 A CN112906993 A CN 112906993A CN 202110396228 A CN202110396228 A CN 202110396228A CN 112906993 A CN112906993 A CN 112906993A
- Authority
- CN
- China
- Prior art keywords
- data
- green traffic
- inspection time
- passing
- station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000011160 research Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000005303 weighing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000010835 comparative analysis Methods 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000013524 data verification Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 14
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 244000017020 Ipomoea batatas Species 0.000 description 1
- 235000002678 Ipomoea batatas Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种高速公路绿通车过站查验时间预测方法;包括:提取研究所需的数据字段;进行数据预处理;对高速公路绿通车过站查验时间进行预测;对高速公路绿通车过站查验时间进行预测;对两种预测模型精度进行对比分析,实现高速公路绿通车过站查验时间的预测,并在实际数据验证中表现出更好的适应性。本发明采用基于数据驱动算法建立绿通车查验时间预测模型,能够更精确的预判绿通车所需要的查验时间;不仅能够根据预测时间合理安排人员班次,而且能够根据预判时间合理规划出行计划;是一种有助于实现查验时间的优化,有效的提高稽查效率和收费站服务水平,为收费公路管理部门和运输部门提供有力的决策支持和指导。
Description
技术领域
本发明属于智能公交领域;尤其涉及一种高速公路绿通车过站查验时间预测方法。
背景技术
高速公路绿色通道(简称绿通)是装运鲜活农产品的车辆专用通道。按照规定,鲜活农产品运输车辆整车或合法混装指定鲜活农产品不超过核定载重或车厢容积20%,并且超载不超过5%的车辆属于合法的“绿通车”,予以减免通行费。鲜活农产品是指新鲜蔬菜、水果、鲜活水产品、活的禽畜、新鲜的肉蛋奶,马铃薯、甘薯、鲜玉米、鲜花生。而这些物品的深加工以及花草苗木、粮食等不属于鲜活农产品范围,不能享受绿色通道运输政策。
目前收费站对绿通车都实行全部查验、逢车必查,由于缺乏有效信息指导,收费站工作人员需对每辆进站的绿通车均需无区别化仔细查验。随着信息技术发展,目前出现了采用便携式查验终端对绿通车辆进行查验登记,主要采用便携式设备与内窥镜等相结合,进行电子化登记,在提高检验效率,增加数据完整性、降低统计工作量方面有显著效果,是人工查验的一种信息化辅助手段。一般情况下,人工查验货物的耗时约5-10分钟/车,但是受到车型、货物运载数量、混装情况、封闭的不易开厢检查的车辆、恶劣天气等实际情况的影响,查验耗时具有不确定性。收费站绿色通道通行速度慢,易引起车辆排队拥堵,不利于保畅。按较快速度5分钟登记并查验一辆绿通车估算,若遇繁忙时段绿通车到达收费站时前方已有5辆车排队,则他需经过半小时后才能过站,影响鲜活农产品运输的时效性。跨省运输车辆需要多长查验,不仅耽误运输时间,由于多次对鲜活农产品进行查验,对于生鲜、绿色蔬菜等容易造成损害,从而造成产品价值降低。
发明内容
本发明的目的是提供了一种高速公路绿通车过站查验时间预测方法。
本发明是通过以下技术方案实现的:
本发明涉及一种高速公路绿通车过站查验时间预测方法,包括以下步骤:
A、对高速公路绿通车数据集进行处理,提取研究所需的数据字段;
B、对提取的数据字段进行数据预处理;
C、在数据预处理的基础上,采用车型和查验收费站两个特征建立历史均值模型,对高速公路绿通车过站查验时间进行预测;
D、在数据处理的基础上,采用车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,基于K最近邻其局部改进的数据驱动模型对高速公路绿通车过站查验时间进行预测;
E、采用平均绝对误差、平均相对误差和均方误差3项评价指标对两种预测模型精度进行对比分析;通过对比结果得基于最近邻的数据驱动模型,更精确实现高速公路绿通车过站查验时间的预测,并在实际数据验证中表现出更好的适应性。
优选地,所述步骤A的具体步骤为:将收费站绿通车稽查业务数据、收费站出入口数据、预约查验平台记录数据相结合,形成绿通车大数据集,提取研究所需的数据字段。
我国高速公路收费采用全面覆盖收费过程的信息化系统,因而可以采集大量收费数据;研究所需的数据字段包括INSTATIONID(入口收费站编码)、INTIME(入口时间)、EXITSTATION(出口收费站编码)、EXITTIME(出口时间)。
绿通车稽查业务数据主要记录本次运输车辆通行的绿通车辆登记信息、货物信息、稽查班次、人员信息等;研究所需的数据字段包括:车牌号、车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果、查验时间、金额(元)、运输货物、入口称重(吨)、出口称重(吨)、出口车道、班长、站长、收费员、外勤、复核人、验货人。
预约查验平台记录数据主要记录绿通车预约用户的历史使用情况。研究所需字段为使用天数(天)、用户使用频次、用户信用等级。
优选地,所述步骤B所述数据预处理的具体步骤为:数据预处理的四个主要任务为:数据清洗、数据集成、数据变换和数据规约;同时结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。
步骤B中,数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
所述数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少进入/离开收费站或进入/离开的时间信息、相同进出收费站数据、异常时间数据记录。
根据高速公路绿通车辆查验业务记录时间和收费站出口时间,构造新的字段,计算绿通车辆过站查验时间,表达式如下所示。
tcheck=tout-tstart
式中,tcheck为绿通车过站查验时间,tout为收费数据中记录车辆的出口时间,tstart为绿通车业务数据中记录的稽查业务开始时间。
计算查验时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。数学表达式如式下所示。
tlimit-down=t25%-1.5×(t75%-t25%)
tlimit-up=t25%+1.5×(t75%-t25%)
式中,tlimit-down为有效数据区间G的下限;tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
对研究字段中的类型数据,例如车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果等字段进行数字编码,便于后续计算。
优选地,所述步骤C的具体步骤为:
以收费站出口和车辆类型两个字段作为特征值,采用历史数据的均值计算该收费站不同车型的绿通车过站查验时间,公式如下:
式中,ti,j为出口收费站为i,车型为j的绿通车过站查验时间;tk为历史数据集中每辆绿通车的查验时间;n为该收费站某一车型的历史过站绿通车数量。
优选地,所述步骤D的具体步骤为:
采用KNN算法,通过搜索历史数据库中与预测值的特征向量最相似的K个记录来进行预测;其中,KNN算法包括:构建历史数据集、选择特征向量、标定K值、距离测量、局部加权估计五个步骤;对上述五个步骤进行算法局部改进,最终形成一个完整的改进模型作为基于KNN的高速公路绿通车过站查验时间预测算法。
步骤D的进一步说明:
(1)构建历史数据库;
以步骤A和步骤B中预处理之后的数据集构建历史数据库;
(2)选择特征向量
特征向量是数据特征的表现;在进行搜索近邻时需要通过这些特征来匹配历史数据,直接关系到预测精度;特征向量的选取尚未有统一的标准;影响查验时间的因素众多,不同因素之间可能相互关联,影响权重也不尽相同。将尽可能多的特征因素考虑到特征向量中有可能提高预测的精度,但是臃肿的特征向量导致较长的运算时间。为了避免选取特征向量的主观性,同时考虑到算法的时间复杂度,选择主成分分析法来确定特征向量。
step1:数据标准化
创建历史数据矩阵。
对数据进行标准化,以消除各个数据特征之间在量纲和数量级上的差别。
标准化矩阵为Znm,标准化过程如下所示。
Step2:确定相关系数矩阵
令rjq表示特征j和特征q的相关系数,j,q∈[1,m],得到相关系数矩阵Rmm。rjq的计算公式如下所示。
rjq越大,特征j和特征q之间的相关关系密切程度越大,需要消除两者带来的重叠影响。
Step3:确定相关系数矩阵的特征向量根据相关系数矩阵Rmm和特征方程公式|R-λE|=0,采用雅可比法求出m个特征向量Lg(g=1,2,…,m)和对应的m个特征值
λ1≥λ2≥…≥λm≥0。因为Rmm是正定矩阵,所以特征值都为正数。
Fg表示第g个主成分,g=1,2,…,m,则:
Fg=LgZ1+LgZ2+…+LgZm
Step4:确定主成分数量和影响因子
特征值用于表征各个主成分的影响程度。令wg为主成分Fg的贡献率,则有:
计算各主成分贡献率与累计贡献率。通常,选取特征值大于1,累计贡献率达到90%以上的特征值λ1,λ2,…,λp所对应的第1,2,…,p个主成分,p≤m。
(3)标定K值
K作为唯一参数,其取值直接影响模型预测结果;采用恒定K值可能会造成误判,加大预测误差;采用交叉验证法确定各历史数据集中的预测效果最好的K值。具体步骤如下:
假设K的最小值与最大值分别为Kmin和Kmax。将各历史数据集分别随机平均分为E份,各份数据集为D1,D2,…,DE。依次将De(e=1,2,…,E)作为测试数据集,其他的E-1份数据集合并为新历史数据集。
令K=K0,K0∈[Kmin,Kmax],计算测试数据集的平均绝对误差百分比,如下所示。
式中,ne为测试数据集De的样本数量,Ai为测试数据集De第i个样本
的真实值,Pi为K=K0时测试数据集De第i个样本运用KNN算法的预测值。
(4)距离测量
距离度量的表示法有很多种,采用欧几里德距离来表征两个特征向量之间的相似程度。计算预测时刻特征向量与各历史记录特征向量之间的欧几里德距离,如下所示。
其中,F为特征向量个数,f∈[1,F]。FP,f和FA,f分别为预测时刻和历史记录的特征向量第f个属性。θf为第f个属性的主成分贡献率。
(5)加权预测算法
不同近邻对预测的贡献是不一样的,当某个历史记录的特征向量与预测值的特征向量更接近时,该记录应对预测值具有更大的影响。在历史数据集中寻找K个与预测特征向量欧几里德距离最近的历史特征向量,并将所对应的K个历史值通过加权估计的方法来预测查验时间tp,计算公式如下所示。
式中,K0表示交叉验证法确定的最优K值,ta(k)表示第k个近邻的实际查验时间,k=1,2,…,K。其中,τk为第k个近邻的权重,dk为预测值的特征向量与第k个近邻的特征向量之间的距离。
优选地,所述步骤E具体分析过程为:选取平均绝对误差和平均相对误差作为预测误差衡量指标,比较每个时段测试数据集的预测误差大小,对两种预测模型精度进行对比分析;
其中,平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示:
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值,i=1,2,…,50。
本发明具有以下优点:
(1)本发明采用平均绝对误差(MAE),平均相对误差(MAPE)评价指标对2种预测模型精度进行对比分析。实验结果显示:基于K最近邻的高速公路绿通车过站查验时间预测模型相较于历史均值预测模型,其平均绝对误差和平均相对误差有明显降低。基于K最近邻的高速公路绿通车过站查验时间预测方法不仅预测精度高,而且能比较准确的预测不同场景下的查验时间走向及波动情况,在模型适应能力方面也呈现出一定的优势。
(2)本发明基于现有的高速公路鲜活农产品绿色通道车辆查验流程和管理平台的基础上,将收费站绿通车查验业务数据、收费站出入口数据、预约查验平台记录数据相结合,形成绿通车大数据。利用大数据的多维度、多视角、多领域进行分析、研判,从车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,预测不同条件下到站绿通车查验所需要花费的时间,为绿通车司机和收费站工作人员提供数据支撑,以指导绿通车司机的出行方案规划和收费站绿色通道班次调度。
(3)本发明能够提供不同状况下高速公路收费站查验时间的精细可靠预测,充分考虑车型、运输货物、车厢类型、到站时段、天气、车辆信用等级的因素,从而实现目标场景下绿通车司机、收费站工作人员对查验时间的预判。
附图说明
图1是本发明高速公路绿通车过站查验时间预测方法研究的流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。应当指出的是,以下的实施实例只是对本发明的进一步说明,但本发明的保护范围并不限于以下实施例。
实施例
本实施例涉及一种高速公路绿通车过站查验时间预测方法,流程见图1所示:包括以下步骤:
A、对高速公路绿通车数据集进行处理,提取研究所需的数据字段;
B、对提取的数据字段进行数据预处理;
C、在数据预处理的基础上,采用车型和查验收费站两个特征建立历史均值模型,对高速公路绿通车过站查验时间进行预测;
D、在数据处理的基础上,采用车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,基于K最近邻其局部改进的数据驱动模型对高速公路绿通车过站查验时间进行预测;
E、采用平均绝对误差、平均相对误差和均方误差3项评价指标对两种预测模型精度进行对比分析;通过对比结果得基于最近邻的数据驱动模型,更精确实现高速公路绿通车过站查验时间的预测,并在实际数据验证中表现出更好的适应性。
所述步骤A的具体步骤为:将收费站绿通车稽查业务数据、收费站出入口数据、预约查验平台记录数据相结合,形成绿通车大数据集,提取研究所需的数据字段。
我国高速公路收费采用全面覆盖收费过程的信息化系统,因而可以采集大量收费数据;研究所需的数据字段包括INSTATIONID(入口收费站编码)、INTIME(入口时间)、EXITSTATION(出口收费站编码)、EXITTIME(出口时间)。
绿通车稽查业务数据主要记录本次运输车辆通行的绿通车辆登记信息、货物信息、稽查班次、人员信息等;研究所需的数据字段包括:车牌号、车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果、查验时间、金额(元)、运输货物、入口称重(吨)、出口称重(吨)、出口车道、班长、站长、收费员、外勤、复核人、验货人。
预约查验平台记录数据主要记录绿通车预约用户的历史使用情况。研究所需字段为使用天数(天)、用户使用频次、用户信用等级。
所述步骤B所述数据预处理的具体步骤为:数据预处理的四个主要任务为:数据清洗、数据集成、数据变换和数据规约;同时结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。
步骤B中,数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
所述数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少进入/离开收费站或进入/离开的时间信息、相同进出收费站数据、异常时间数据记录。
根据高速公路绿通车辆查验业务记录时间和收费站出口时间,构造新的字段,计算绿通车辆过站查验时间,表达式如下所示。
tcheck=tout-tstart
式中,tcheck为绿通车过站查验时间,tout为收费数据中记录车辆的出口时间,tstart为绿通车业务数据中记录的稽查业务开始时间。
计算查验时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。数学表达式如式下所示。
tlimit-down=t25%-1.5×(t75%-t25%)
tlimit-up=t25%+1.5×(t75%-t25%)
式中,tlimit-down为有效数据区间G的下限;tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
对研究字段中的类型数据,例如车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果等字段进行数字编码,便于后续计算。
所述步骤C的具体步骤为:以收费站出口和车辆类型两个字段作为特征值,采用历史数据的均值计算该收费站不同车型的绿通车过站查验时间,公式如下:
式中,ti,j为出口收费站为i,车型为j的绿通车过站查验时间;tk为历史数据集中每辆绿通车的查验时间;n为该收费站某一车型的历史过站绿通车数量。
所述步骤D的具体步骤为:采用KNN算法,通过搜索历史数据库中与预测值的特征向量最相似的K个记录来进行预测;其中,KNN算法包括:构建历史数据集、选择特征向量、标定K值、距离测量、局部加权估计五个步骤;对上述五个步骤进行算法局部改进,最终形成一个完整的改进模型作为基于KNN的高速公路绿通车过站查验时间预测算法。
步骤D的进一步说明:
(1)构建历史数据库;
以步骤A和步骤B中预处理之后的数据集构建历史数据库;
(2)选择特征向量
特征向量是数据特征的表现;在进行搜索近邻时需要通过这些特征来匹配历史数据,直接关系到预测精度;特征向量的选取尚未有统一的标准;影响查验时间的因素众多,不同因素之间可能相互关联,影响权重也不尽相同。将尽可能多的特征因素考虑到特征向量中有可能提高预测的精度,但是臃肿的特征向量导致较长的运算时间。为了避免选取特征向量的主观性,同时考虑到算法的时间复杂度,选择主成分分析法来确定特征向量。
step1:数据标准化
创建历史数据矩阵。
对数据进行标准化,以消除各个数据特征之间在量纲和数量级上的差别。
标准化矩阵为Znm,标准化过程如下所示。
Step2:确定相关系数矩阵
令rjq表示特征j和特征q的相关系数,j,q∈[1,m],得到相关系数矩阵Rmm。rjq的计算公式如下所示。
rjq越大,特征j和特征q之间的相关关系密切程度越大,需要消除两者带来的重叠影响。
Step3:确定相关系数矩阵的特征向量根据相关系数矩阵Rmm和特征方程公式|R-λE|=0,采用雅可比法求出m个特征向量Lg(g=1,2,…,m)和对应的m个特征值
λ1≥λ2≥…≥λm≥0。因为Rmm是正定矩阵,所以特征值都为正数。
Fg表示第g个主成分,g=1,2,…,m,则:
Fg=LgZ1+LgZ2+…+LgZm
Step4:确定主成分数量和影响因子
特征值用于表征各个主成分的影响程度。令wg为主成分Fg的贡献率,则有:
计算各主成分贡献率与累计贡献率。通常,选取特征值大于1,累计贡献率达到90%以上的特征值λ1,λ2,…,λp所对应的第1,2,…,p个主成分,p≤m。
(3)标定K值
K作为唯一参数,其取值直接影响模型预测结果;采用恒定K值可能会造成误判,加大预测误差;采用交叉验证法确定各历史数据集中的预测效果最好的K值。具体步骤如下:
假设K的最小值与最大值分别为Kmin和Kmax。将各历史数据集分别随机平均分为E份,各份数据集为D1,D2,…,DE。依次将De(e=1,2,…,E)作为测试数据集,其他的E-1份数据集合并为新历史数据集。
令K=K0,K0∈[Kmin,Kmax],计算测试数据集的平均绝对误差百分比,如下所示。
式中,ne为测试数据集De的样本数量,Ai为测试数据集De第i个样本
的真实值,Pi为K=K0时测试数据集De第i个样本运用KNN算法的预测值。
(4)距离测量
距离度量的表示法有很多种,采用欧几里德距离来表征两个特征向量之间的相似程度。计算预测时刻特征向量与各历史记录特征向量之间的欧几里德距离,如下所示。
其中,F为特征向量个数,f∈[1,F]。FP,f和FA,f分别为预测时刻和历史记录的特征向量第f个属性。θf为第f个属性的主成分贡献率。
(5)加权预测算法
不同近邻对预测的贡献是不一样的,当某个历史记录的特征向量与预测值的特征向量更接近时,该记录应对预测值具有更大的影响。在历史数据集中寻找K个与预测特征向量欧几里德距离最近的历史特征向量,并将所对应的K个历史值通过加权估计的方法来预测查验时间tp,计算公式如下所示。
式中,K0表示交叉验证法确定的最优K值,ta(k)表示第k个近邻的实际查验时间,k=1,2,…,K。其中,τk为第k个近邻的权重,dk为预测值的特征向量与第k个近邻的特征向量之间的距离。
所述步骤E具体分析过程为:选取平均绝对误差和平均相对误差作为预测误差衡量指标,比较每个时段测试数据集的预测误差大小,对两种预测模型精度进行对比分析;
其中,平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示:
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值,i=1,2,…,50。
本发明采用基于数据驱动算法建立绿通车查验时间预测模型,能够更精确的预判绿通车所需要的查验时间;不仅能够根据预测时间合理安排人员班次,而且能够根据预判时间合理规划出行计划;是一种有助于实现查验时间的优化,有效的提高稽查效率和收费站服务水平,为收费公路管理部门和运输部门提供有力的决策支持和指导。
与现有技术相比,本发明具有以下优点:本发明采用平均绝对误差(MAE),平均相对误差(MAPE)评价指标对2种预测模型精度进行对比分析。实验结果显示:基于K最近邻的高速公路绿通车过站查验时间预测模型相较于历史均值预测模型,其平均绝对误差和平均相对误差有明显降低。基于K最近邻的高速公路绿通车过站查验时间预测方法不仅预测精度高,而且能比较准确的预测不同场景下的查验时间走向及波动情况,在模型适应能力方面也呈现出一定的优势。本发明基于现有的高速公路鲜活农产品绿色通道车辆查验流程和管理平台的基础上,将收费站绿通车查验业务数据、收费站出入口数据、预约查验平台记录数据相结合,形成绿通车大数据。利用大数据的多维度、多视角、多领域进行分析、研判,从车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,预测不同条件下到站绿通车查验所需要花费的时间,为绿通车司机和收费站工作人员提供数据支撑,以指导绿通车司机的出行方案规划和收费站绿色通道班次调度。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质。
Claims (6)
1.一种高速公路绿通车过站查验时间预测方法,其特征在于,包括以下步骤:
A、对高速公路绿通车数据集进行处理,提取研究所需的数据字段;
B、对提取的数据字段进行数据预处理;
C、在数据预处理的基础上,采用车型和查验收费站两个特征建立历史均值模型,对高速公路绿通车过站查验时间进行预测;
D、在数据处理的基础上,采用车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,基于K最近邻其局部改进的数据驱动模型对高速公路绿通车过站查验时间进行预测;
E、采用平均绝对误差、平均相对误差和均方误差3项评价指标对两种预测模型精度进行对比分析;通过对比结果得基于最近邻的数据驱动模型,更精确实现高速公路绿通车过站查验时间的预测,并在实际数据验证中表现出更好的适应性。
2.如权利要求1所述的高速公路绿通车过站查验时间预测方法,其特征在于,所述步骤A的具体步骤为:将收费站绿通车稽查业务数据、收费站出入口数据、预约查验平台记录数据相结合,形成绿通车大数据集,提取研究所需的数据字段。
3.如权利要求1所述的高速公路绿通车过站查验时间预测方法,其特征在于,所述步骤B所述数据预处理的具体步骤为:数据预处理的四个主要任务为:数据清洗、数据集成、数据变换和数据规约;同时结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。
5.如权利要求1所述的高速公路绿通车过站查验时间预测方法,其特征在于,所述步骤D的具体步骤为:
采用KNN算法,通过搜索历史数据库中与预测值的特征向量最相似的K个记录来进行预测;其中,KNN算法包括:构建历史数据集、选择特征向量、标定K值、距离测量、局部加权估计五个步骤;对上述五个步骤进行算法局部改进,最终形成一个完整的改进模型作为基于KNN的高速公路绿通车过站查验时间预测算法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021100378265 | 2021-01-12 | ||
CN202110037826 | 2021-01-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906993A true CN112906993A (zh) | 2021-06-04 |
Family
ID=76110603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110396228.7A Pending CN112906993A (zh) | 2021-01-12 | 2021-04-13 | 一种高速公路绿通车过站查验时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906993A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634843A (zh) * | 2023-12-15 | 2024-03-01 | 青岛交通科技信息有限公司 | 一种基于多源数据的交通运输数据共享管理系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789066B1 (ko) * | 2006-12-22 | 2007-12-26 | 한양대학교 산학협력단 | 자동 요금 징수 시스템을 활용한 교통량 예측 시스템 및 그방법 |
KR101277007B1 (ko) * | 2012-02-29 | 2013-06-24 | 장성우 | 차량의 고속도로 통행시간 제공방법 및 그 시스템 |
CN107527501A (zh) * | 2017-06-05 | 2017-12-29 | 交通运输部公路科学研究所 | 一种高速公路站间行程时间数据的构造方法以及预测高速公路行程时间的方法 |
CN108806003A (zh) * | 2018-05-25 | 2018-11-13 | 西南交通大学 | 一种基于机器学习的收费公路绿通车检测方法 |
CN109598933A (zh) * | 2018-12-10 | 2019-04-09 | 南京邮电大学 | 一种基于数据驱动的k邻近非参数回归的交通流预测方法 |
US20190228593A1 (en) * | 2016-02-18 | 2019-07-25 | South China University Of Technology | Toll road network traffic information collection and guidance system based on route identification system |
CN110083802A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 基于多目标回归的高速公路收费站车流量大数据预测方法 |
CN110415369A (zh) * | 2019-07-26 | 2019-11-05 | 石家庄汉邦科技有限公司 | 一种基于大数据分析研判的绿通车辆查验方法 |
CN111126655A (zh) * | 2019-03-05 | 2020-05-08 | 东南大学 | 一种基于车辆比功率和模型树回归的收费站车辆排放预测方法 |
CN111311905A (zh) * | 2020-01-21 | 2020-06-19 | 北京工业大学 | 一种基于粒子群优化小波神经网络的高速公路行程时间预测方法 |
-
2021
- 2021-04-13 CN CN202110396228.7A patent/CN112906993A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789066B1 (ko) * | 2006-12-22 | 2007-12-26 | 한양대학교 산학협력단 | 자동 요금 징수 시스템을 활용한 교통량 예측 시스템 및 그방법 |
KR101277007B1 (ko) * | 2012-02-29 | 2013-06-24 | 장성우 | 차량의 고속도로 통행시간 제공방법 및 그 시스템 |
US20190228593A1 (en) * | 2016-02-18 | 2019-07-25 | South China University Of Technology | Toll road network traffic information collection and guidance system based on route identification system |
CN107527501A (zh) * | 2017-06-05 | 2017-12-29 | 交通运输部公路科学研究所 | 一种高速公路站间行程时间数据的构造方法以及预测高速公路行程时间的方法 |
CN108806003A (zh) * | 2018-05-25 | 2018-11-13 | 西南交通大学 | 一种基于机器学习的收费公路绿通车检测方法 |
CN109598933A (zh) * | 2018-12-10 | 2019-04-09 | 南京邮电大学 | 一种基于数据驱动的k邻近非参数回归的交通流预测方法 |
CN111126655A (zh) * | 2019-03-05 | 2020-05-08 | 东南大学 | 一种基于车辆比功率和模型树回归的收费站车辆排放预测方法 |
CN110083802A (zh) * | 2019-04-12 | 2019-08-02 | 重庆邮电大学 | 基于多目标回归的高速公路收费站车流量大数据预测方法 |
CN110415369A (zh) * | 2019-07-26 | 2019-11-05 | 石家庄汉邦科技有限公司 | 一种基于大数据分析研判的绿通车辆查验方法 |
CN111311905A (zh) * | 2020-01-21 | 2020-06-19 | 北京工业大学 | 一种基于粒子群优化小波神经网络的高速公路行程时间预测方法 |
Non-Patent Citations (5)
Title |
---|
刘伟铭;李松松;: "大数据中高速公路旅行时间预测仿真研究", 计算机仿真, no. 03 * |
张欢;史峰;: "基于流量预测的高速公路收费员动态配置模型", 交通运输系统工程与信息, no. 05 * |
杨成连;文涛;李洋洋;: "基于ARMAX模型的高速公路行程时间预测研究", 公路交通科技(应用技术版), no. 04 * |
王翔;陈小鸿;杨祥妹;: "基于K最近邻算法的高速公路短时行程时间预测", 中国公路学报, no. 01 * |
陈娇娜: "大数据驱动下的高速公路交通运行状态评价与分析", 中国博士学位论文全文数据库(工程科技Ⅱ辑), pages 034 - 21 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634843A (zh) * | 2023-12-15 | 2024-03-01 | 青岛交通科技信息有限公司 | 一种基于多源数据的交通运输数据共享管理系统及方法 |
CN117634843B (zh) * | 2023-12-15 | 2024-05-24 | 青岛交通科技信息有限公司 | 一种基于多源数据的交通运输数据共享管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117883B (zh) | 基于长短时记忆网络的sar影像海冰分类方法及系统 | |
CN111539454B (zh) | 一种基于元学习的车辆轨迹聚类方法及系统 | |
CN109697854B (zh) | 多维度的城市道路交通状态评估方法 | |
CN116383450B (zh) | 一种铁路公路物流运输信息综合管理系统 | |
CN113591380B (zh) | 基于图高斯过程的交通流预测方法、介质及设备 | |
CN112330057B (zh) | 基于大数据的冷链物流冷藏产品运输质量优化管理系统 | |
CN114664091A (zh) | 一种基于节假日流量预测算法的预警方法及系统 | |
CN115270965A (zh) | 一种配电网线路故障预测方法和装置 | |
CN113496314B (zh) | 一种神经网络模型预测道路交通流量的方法 | |
CN109543874A (zh) | 一种结合气象条件影响的机场空气质量预测方法 | |
CN114187766B (zh) | 一种基于饱和率的道路服务水平评价方法 | |
CN108415885A (zh) | 基于近邻回归的实时公交客流预测方法 | |
CN113688558A (zh) | 一种基于大数据库样本的汽车行驶工况构建方法及系统 | |
CN114529826B (zh) | 一种基于遥感影像数据的水稻估产方法、装置及设备 | |
CN112860782A (zh) | 一种基于大数据分析的纯电动车续驶里程估计方法 | |
CN114493680B (zh) | 一种基于流刺网调查的渔业资源统计方法及系统 | |
CN112906993A (zh) | 一种高速公路绿通车过站查验时间预测方法 | |
CN115169985A (zh) | 一种移动充电机器人的远程调度方法和系统 | |
CN112711585B (zh) | 一种基于大数据技术的高速公路绿通车信用管理系统 | |
CN111985731B (zh) | 城市公共交通站点人数的预测方法及系统 | |
CN113608223A (zh) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 | |
CN111145535B (zh) | 一种复杂场景下的行程时间可靠性分布预测方法 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
CN115375237A (zh) | 一种冷链物流智能管理方法、系统、设备和存储介质 | |
CN110956808B (zh) | 一种基于非全样定位数据的重型货车交通流量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |