CN114595267A

CN114595267A - 一种基于大数据技术的高速公路绿通车查验属性优选方法

Info

Publication number: CN114595267A
Application number: CN202210102576.3A
Authority: CN
Inventors: 陈娇娜; 陶伟俊; 李道峰; 陈学娜
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-06-07

Abstract

本发明提供了一种基于大数据技术的高速公路绿通车查验属性优选方法；包括：A、对高速公路绿通车数据进行处理，提取研究数据字段并进行数据预处理；B、进行关联性检验和共线性检验，建立耦合模型；C、采用收费站的查验属性，建立高速公路绿通车判别模型，对模型输入进行主成分分析；D、采用收费站的查验属性，建立高速公路绿通车判别模型，对绿通车查验属性进行重要度分析；E、用对照比较法，分析主成分分析法和随机森林算法的查验属性重要度排序结果，通过实际数据验证，论证提出方法的适应性和有效性。本发明针对具有显著特征的绿通车辆，考虑查验属性的时序性，给出车辆过站查验属性重要度排序，为收费站查验工作人员提供数据支撑，提升整体查验的效率。

Description

一种基于大数据技术的高速公路绿通车查验属性优选方法

技术领域

本发明属于智能交通领域；尤其涉及一种基于大数据技术的高速公路绿通车查验属性优选方法。

背景技术

高速公路绿色通道(简称绿通)是装运鲜活农产品的车辆专用通道。按照规定，鲜活农产品运输车辆整车或合法混装指定鲜活农产品不超过核定载重或车厢容积20％，并且超载不超过5％的车辆属于合法的“绿通车”，予以减免通行费。鲜活农产品是指新鲜蔬菜、水果、鲜活水产品、活的禽畜、新鲜的肉蛋奶，马铃薯、甘薯、鲜玉米、鲜花生。而这些物品的深加工以及花草苗木、粮食等不属于鲜活农产品范围，不能享受绿色通道运输政策。

现有绿色通道检测方法，存在以下不足：

(1)人工检测法耗时太久、耗费人力过大、危险系数高、鲜活农产品质量降低。

(2)射线检测法辐射危险系数高、设备造价昂贵。

(3)比重判别法检测方法具有针对性、耗费人力大。

一般情况下，人工查验货物的耗时约5-10分钟/车，但是受到车型、货物运载数量、混装情况、封闭的不易开厢检查的车辆、恶劣天气等实际情况的影响，查验耗时具有不确定性。收费站绿色通道通行速度慢，易引起车辆排队拥堵，不利于保畅。按较快速度5分钟登记并查验一辆绿通车估算，若遇繁忙时段绿通车到达收费站时前方已有5辆车排队，则他需经过半小时后才能过站，影响鲜活农产品运输的时效性。跨省运输车辆需要多长查验，不仅耽误运输时间，由于多次对鲜活农产品进行查验，对于生鲜、绿色蔬菜等容易造成损害，从而造成产品价值降低。

绿通车过站查验时间的快慢与查验人员的业务经验和业务水平息息相关。熟悉某种特定类型的绿通车业务的查验工作人员，能够迅速识别查验流程中的关键要素，快速对绿通车合格情况进行判定。不同地区绿通车减免政策产品目录的实际执行细则有所差别，例如，不同地区对同一产品的称呼不同，同一产品不同季节在外观上存在差别。因此查验人员对易混淆产品的判定有一定难度。现有的绿通车业务管理系统大多数是对业务流程的工作记录，并提供不合格绿通行为的概率预测，很少涉及对过站查验人员的查验效率的专业性指导。

现有技术通过历史过站绿通车查验工作记录，从各种维度的属性对车辆是否符合减免通行费用进行判别，并提供某一车辆不合格的概率预测。但是，收费站工作人员仍旧需要对每辆过站绿通车进行无区别化仔细查验，逢车必查。绿通车过站查验时间的快慢大多取决于查验人员的业务经验和业务水平。

发明内容

本发明的目的是提供了一种基于大数据技术的高速公路绿通车查验属性优选方法。

本发明是通过以下技术方案实现的：

本发明涉及一种基于大数据技术的高速公路绿通车查验属性优选方法，包括如下步骤：

A、对高速公路绿通车数据进行处理，提取研究所需的数据字段，并进行数据预处理；

B、对不合格绿通车类型与查验属性之间进行关联性检验和共线性检验，建立不合格类型与查验属性之间的耦合模型；

C、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性，建立高速公路绿通车判别模型，运用PCA主成分分析法计算各主成分贡献率与累计贡献率，对模型输入属性进行重要度分析；

D、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性，建立高速公路绿通车判别模型，采用随机森林算法计算各个特征的重要度，对绿通车查验属性进行重要度分析；

E、在相同的模型判别准确性条件下，采用对照比较法，分析主成分分析法和随机森林算法的查验属性重要度排序结果。通过实际数据验证，论证提出方法的适应性和有效性。

优选地，所述步骤A的具体分析过程为：将收费站绿通车查验业务数据、收费站出入口数据相结合，形成绿通信息大数据，提取研究所需的数据字段。

绿通车查验数据主要记录本次运输车辆通行的绿通车辆登记信息、货物信息、人员信息等；研究所需的数据字段包括：车牌号、车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果、查验时间、金额(元)、运输货物、入口称重(吨)、出口称重(吨)、出口车道、班长、站长、收费员、外勤、复核人、验货人。

我国高速公路收费采用全面覆盖收费过程的信息化系统，因而可以采集大量收费数据；研究所需的数据字段包括INSTATIONID(入口收费站编码)、INWEIGHT(入口称重)、INAXLECOUNT(入口车辆轴数)、EXITSTATION(出口收费站编码)、EXITWEIGHT(出口称重)、EXITAXLECOUNT(出口车辆轴数)。

该步骤A中，对提取字段后的数据进行预处理，数据预处理的四个主要任务：数据清洗、数据集成、数据变换和数据规约。同时结合研究目标，设计数据库表结构及其字段，以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同，数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要，将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常，对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。

所述数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据，包括缺失数据、错误数据等。异常数据主要包含：缺少进入/离开收费站或进入/离开的车辆信息、异常车辆重量数据记录、异常车辆轴数数据记录。

对研究字段中的类型数据，例如车辆类型、货厢类型、运单类型、查验结果等字段进行数字编码，便于后续计算。

优选地，所述步骤B的具体分析过程为：对样本进行多个维度的探索性数据分析，深入了解数据集、检验属性间的相互关系；运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验，分析在不同维度的数据样本总体是否存在显著性差异。

所述样本Kolmogorov-Smirnov是检验某单一样本是否服从假设的特定分布。针对连续变量，分别采用单样本Kolmogorov-Smirnov检验，检验单个独立样本是否符合正态分布。相关系数常见有两类，分别是Pearson和Spearman。根据单样本检验结论，选用相应的相关系数描述。当具有定量数据并且数据满足正态性时采用Pearson，而当具有定量数据但数据不满足正态性时采用Spearman。

该步骤B中，对绿通车查验数据中的各属性进行关联性和共线性检验，筛选出对不合格绿通车判定结果影响较大的属性,解决关联性问题和共线性问题。

所述关联性检验方法主要有：支持度、置信度、提升度、部署能力。利用相关系数、支持度、置信度、提升度、部署能力对关联性诊断进行综合判断。根据诊断结果，保留重要属性、剔除次要属性，解决关联性问题。

所述共线性检验方法主要有：相关系数、容忍度和方差膨胀系数(Varianceinflation factor，VIF)、特征根(Eigenvalue)、条件指数(Condition Index)。利用相关系数、容忍度、方差膨胀因子、特征根、条件指数对共线性诊断进行综合判断。

自变量间的相关系数矩阵：如果相关系数超过0.9的变量在分析时将会存在共线性问题，在0.8以上可能会有问题。

容忍度的值界于0至1之间。当容忍度值较小时，表示此自变量与其他自变量之间存在共线性。以属性j为因变量、其他属性为自变量做线性回归，获得决定系数R²。当该属性与其他属性存在严重的共线性问题时，R²≈1，TOL≈0。

容忍度的计算公式如下：

TOL＝1-R²

方差膨胀系数是容忍度的倒数，VIF越大，表示自变量的容忍度越小，越有共线性问题。通常以10作为判断边界。当VIF＜10，不存在多重共线性；当10≤VIF＜100，存在较强的多重共线性；当VIF≥100，存在严重多重共线性。方差膨胀因子VIF的计算公式如下：

特征根：在各属性值构成的矩阵中，当列向量间存在共线性问题时，矩阵至少有一个特征根接近于零，接近零的特征根数量相当于存在的共线性关系数量。该方法实际上就是对自变量进行主成分分析，如果相当多维度的特征根等于0，则可能有比较严重的共线性。

条件指数：条件指数为矩阵的最大特征根与其他各特征根之比的算术平方根。各特征根值越小，条件指数越大，共线性问题越严重。当某些维度的该指标数值大于30时，则能存在共线性。条件指数计算公式如下：

式中：λ_max为最大特征根；_j为属性j的特征根；为属性的j条件指数。

根据诊断结果，保留重要属性、剔除次要属性，解决共线性问题。

所述步骤C的具体分析过程为：

(1)在数据预处理的基础上，创建历史数据矩阵。假设待分析的查验属性为m个，其中，X_i为样本的第i个查验属性,i＝1～m。共计有n条有效的历史数据集，则样本数据集为X_nm。

对数据进行标准化，以消除各个数据特征之间在量纲和数量级上的差别。标准化矩阵为Z_nm，标准化过程如下所示。

其中，

(2)确定相关系数矩阵，令r_jq表示特征j和特征q的相关系数，j,q∈[1,m]，得到相关系数矩阵R_mm。r_jq的计算公式如下所示。

r_jq越大，特征j和特征q之间的相关关系密切程度越大，需要消除两者带来的重叠影响。

(3)确定相关系数矩阵的特征向量

根据相关系数矩阵R_mm和特征方程公式|R-λE|＝0，采用雅可比法求出m个特征向量L_g(g＝1,2,…,m)和对应的m个特征值λ₁≥λ₂≥…≥λ_m≥0。因为R_mm是正定矩阵，所以特征值都为正数。

F_g表示第g个主成分，g＝1,2,…,m，则：

F_g＝L_gZ₁+L_gZ₂+…+L_gZ_m

(4)确定主成分数量和影响因子，特征值用于表征各个主成分的影响程度。令W_g为主成分F_g的贡献率，则有：

计算累计贡献率：

计算各主成分贡献率与累计贡献率。通常，选取特征值大于1，累计贡献率达到90％以上的特征值λ₁,λ₂,…,λ_p所对应的第1,2,…,p个主成分，p≤m。

优选地，所述步骤D中，所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。它使用自举采样方法从原始样本中提取多个样本，然后构建决策树模型，然后将决策树组合在一起。根据多个决策树的预测结果来确定最终的分类或预测结果。

所述步骤D中，具体步骤如下：

(1)利用Bootstrap方法重采样生成训练集和袋外数据集OOB。Bootstrap方法即从数量为N的原始训练集中有放回地重复随机抽取N个样本，有的样本在自助重采样下可能会多次被抽取，而有的样本则可能不会被抽取。此时，每棵决策树的训练集大约会含有原始训练集的2/3样本，而其余没被抽到的1/3样本构成袋外数据。

(2)假设随机森林中有k棵决策树。在训练集上构建决策树T_k。随机森林在构建决策树时，随机地从d个属性中抽取

个属性,d为原始训练集中的所有属性的个数，即d＝m。Gini值常用于度量数据D的纯度，其计算公式为:

式中:p_k表示第k个类标在数据中所占比例。|y|表示类标取值种类数。数据集D表示x_nm。Gini(D)反映了从数据集D中抽取两个样本，其类别不一样的概率。所以，Gini(D)越小，数据集D的纯度越高。

(3)选择Gini增益最大的属性作为分裂属性，从而进行节点的分裂，生成决策树。根据Gini增益最大化原理选择分类能力最好的属性作为分裂属性，并将节点的数据划分到新子节点中。Gini增益最大化原理就是计算节点所有属性的Gini增益。根据该原理得到的分裂属性可以使子节点数据集纯度最高，说明该属性的分类性能最好。属性a表示数据集D中的任一属性。数据集D根据属性a分裂得到的Gini增益可由下式计算得到:

式中:V表示a的取值种类数，|D^v|则表示第V种取值对应的样本数。

(4)基于决策树T_k对OOB数据进行预测分类，统计分类正确的样本数，记为R_k。对OOB中特征a的值进行扰动，得到新的OOB样本集，再使用决策树T_k对新OOB样本集进行分类预测，统计分类正确的样本数，记为R′_k。特征a的重要性可由下式计算得出:

对特征a的值进行扰动，如果扰动前和扰动后分类正确率没有多大变化，说明特征a在分类时起到的作用不大，分类性能低。此时R_k-R′_k的值将会很小，所以IMP(a)值越大，说明特征a的分类性能越好。最后将绿通车查验属性重要度排序。

优选地，所述步骤E的具体分析过程为：在相同的模型判别准确性条件下，对照比较主成分分析法的绿通车查验属性重要度分析结果，论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。

本发明具有以下优点：

(1)本发明不仅考虑查验收费站特点、不合格类型的关联规则，并且将绿通车查验工作中查验属性的时序性、查验人员的差异性等纳入考虑，从而实现对绿通车过站查验属性的重要度排序，以指导不同查验工作人员对显著特征绿通车辆的快速查验。

(2)本发明在绿通车辆查验数据积累的前提下，对绿通车不合格数据进行数据挖掘和文本分析，充分考虑绿通车查验属性的重要度和时序性，采用基于数据驱动算法建立绿通车查验属性重要度分析方法，能够更快速预判绿通车的查验结果。对于高速公路运营管理者而言，能够对不同过站车辆进行差异化的查验顺序，在保证查验结果准确性的前提下减少整体车辆的查验属性数量，能够为不同水平的查验人员提供技术指导和数据支持；本发明方法提高了查验效率，有助于降低绿色通道通行效率，提升绿通车用户的满意度。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。应当指出的是，以下的实施实例只是对本发明的进一步说明，但本发明的保护范围并不限于以下实施例。

实施例

本实施例涉及一种基于大数据技术的高速公路绿通车查验属性优选方法，见图1所示，包括如下步骤：

所述步骤A的具体分析过程为：将收费站绿通车查验业务数据、收费站出入口数据相结合，形成绿通信息大数据，提取研究所需的数据字段。

所述步骤B的具体分析过程为：对样本进行多个维度的探索性数据分析，深入了解数据集、检验属性间的相互关系；运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验，分析在不同维度的数据样本总体是否存在显著性差异。

所述共线性检验方法主要有：相关系数、容忍度和方差膨胀系数(Varianceinflation factor，VIF)、特征根(Eigenvalue)、条件指数(Condition Idex)。利用相关系数、容忍度、方差膨胀因子、特征根、条件指数对共线性诊断进行综合判断。

容忍度的值界于0至1之间。当容忍度值较小时，表示此自变量与其他自变量之间存在共线性。以属性j为因变量、其他属性为自变量做线性回归，获得决定系数R²。当该属性与其他属性存在严重的共线性问题时，R²≈1，TOL≈0。容忍度的计算公式如下：

TOL＝1-R²

式中：λ_max为最大特征根；j为属性j的特征根；为属性的j条件指数。

所述步骤C的具体分析过程为：

其中，

(3)确定相关系数矩阵的特征向量

F_g表示第g个主成分，g＝1,2,…,m，则：

F_g＝L_gZ₁+L_gZ₂+…+L_gZ_m

计算累计贡献率：

所述步骤D中，所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。

所述步骤D中，具体步骤如下：

所述步骤E的具体分析过程为：在相同的模型判别准确性条件下，对照比较主成分分析法的绿通车查验属性重要度分析结果，论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。

针对具有典型特征的绿通车辆，采用b个备选属性,b＜m，分别运用基于PCA主成分分析法和基于随机森林算法的高速公路绿通车判别模型进行预测分类，并统计分类正确的样本数R_k，分别记为num₁，num₂，计算准确度达80％以上所需要的属性量。

采用对照比较法对现有技术方法与本发明方法进行准确度对比分析。实验结果显示：针对具有典型特征的绿通车辆，随机森林算法相较于PCA主成分分析法准确度达80％以上所需要的属性量明显较低。即num₁＞num₂。通过实际数据验证，可以论证提出方法的适应性和有效性。

本发明提供一种基于大数据技术的绿通车查验属性优选方法。在现有的高速公路绿通车查验业务记录数据的基础上，利用机器学习和文本挖掘相结合，从通行频次、车辆类型、入口称重吨位、入口收费站、出口收费站、外廓尺寸、鲜活农产品种类、货厢类型、车辆信用等级等属性，对不合格绿通车数据进行特性分析和关联规则挖掘，针对具有典型特征的绿通车辆，考虑查验属性的时序性，给出车辆过站查验属性重要度排序，为收费站查验工作人员提供数据支撑，以实现整体查验效率的提升。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质。

Claims

1.一种基于大数据技术的高速公路绿通车查验属性优选方法，其特征在于，包括如下步骤：

E、在相同的模型判别准确性条件下，采用对照比较法，分析主成分分析法和随机森林算法的查验属性重要度排序结果；通过实际数据验证，论证提出方法的适应性和有效性。

2.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法，其特征在于，所述步骤A的具体分析过程为：将收费站绿通车查验业务数据、收费站出入口数据相结合，形成绿通车信息大数据，提取研究所需的数据字段。

3.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法，其特征在于，所述步骤B的具体分析过程为：对样本进行多个维度的探索性数据分析，深入了解数据集、检验属性间的相互关系；运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验，分析在不同维度的数据样本总体是否存在显著性差异。

4.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法，其特征在于，所述步骤D中，所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。

5.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法，其特征在于，所述步骤E的具体分析过程为：在相同的模型判别准确性条件下，对照比较主成分分析法的绿通车查验属性重要度分析结果，论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。