CN114595267A - 一种基于大数据技术的高速公路绿通车查验属性优选方法 - Google Patents
一种基于大数据技术的高速公路绿通车查验属性优选方法 Download PDFInfo
- Publication number
- CN114595267A CN114595267A CN202210102576.3A CN202210102576A CN114595267A CN 114595267 A CN114595267 A CN 114595267A CN 202210102576 A CN202210102576 A CN 202210102576A CN 114595267 A CN114595267 A CN 114595267A
- Authority
- CN
- China
- Prior art keywords
- data
- inspection
- attribute
- green traffic
- green
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000005516 engineering process Methods 0.000 title claims abstract description 13
- 238000005457 optimization Methods 0.000 title claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000007637 random forest analysis Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000000513 principal component analysis Methods 0.000 claims abstract description 12
- 238000011160 research Methods 0.000 claims abstract description 10
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013524 data verification Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000008878 coupling Effects 0.000 claims abstract description 4
- 238000010168 coupling process Methods 0.000 claims abstract description 4
- 238000005859 coupling reaction Methods 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 16
- 238000005303 weighing Methods 0.000 claims description 8
- 238000011985 exploratory data analysis Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 22
- 238000003066 decision tree Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 12
- 238000003745 diagnosis Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 244000017020 Ipomoea batatas Species 0.000 description 1
- 235000002678 Ipomoea batatas Nutrition 0.000 description 1
- 244000061456 Solanum tuberosum Species 0.000 description 1
- 235000002595 Solanum tuberosum Nutrition 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于大数据技术的高速公路绿通车查验属性优选方法;包括:A、对高速公路绿通车数据进行处理,提取研究数据字段并进行数据预处理;B、进行关联性检验和共线性检验,建立耦合模型;C、采用收费站的查验属性,建立高速公路绿通车判别模型,对模型输入进行主成分分析;D、采用收费站的查验属性,建立高速公路绿通车判别模型,对绿通车查验属性进行重要度分析;E、用对照比较法,分析主成分分析法和随机森林算法的查验属性重要度排序结果,通过实际数据验证,论证提出方法的适应性和有效性。本发明针对具有显著特征的绿通车辆,考虑查验属性的时序性,给出车辆过站查验属性重要度排序,为收费站查验工作人员提供数据支撑,提升整体查验的效率。
Description
技术领域
本发明属于智能交通领域;尤其涉及一种基于大数据技术的高速公路绿通车查验属性优选方法。
背景技术
高速公路绿色通道(简称绿通)是装运鲜活农产品的车辆专用通道。按照规定,鲜活农产品运输车辆整车或合法混装指定鲜活农产品不超过核定载重或车厢容积20%,并且超载不超过5%的车辆属于合法的“绿通车”,予以减免通行费。鲜活农产品是指新鲜蔬菜、水果、鲜活水产品、活的禽畜、新鲜的肉蛋奶,马铃薯、甘薯、鲜玉米、鲜花生。而这些物品的深加工以及花草苗木、粮食等不属于鲜活农产品范围,不能享受绿色通道运输政策。
现有绿色通道检测方法,存在以下不足:
(1)人工检测法耗时太久、耗费人力过大、危险系数高、鲜活农产品质量降低。
(2)射线检测法辐射危险系数高、设备造价昂贵。
(3)比重判别法检测方法具有针对性、耗费人力大。
一般情况下,人工查验货物的耗时约5-10分钟/车,但是受到车型、货物运载数量、混装情况、封闭的不易开厢检查的车辆、恶劣天气等实际情况的影响,查验耗时具有不确定性。收费站绿色通道通行速度慢,易引起车辆排队拥堵,不利于保畅。按较快速度5分钟登记并查验一辆绿通车估算,若遇繁忙时段绿通车到达收费站时前方已有5辆车排队,则他需经过半小时后才能过站,影响鲜活农产品运输的时效性。跨省运输车辆需要多长查验,不仅耽误运输时间,由于多次对鲜活农产品进行查验,对于生鲜、绿色蔬菜等容易造成损害,从而造成产品价值降低。
绿通车过站查验时间的快慢与查验人员的业务经验和业务水平息息相关。熟悉某种特定类型的绿通车业务的查验工作人员,能够迅速识别查验流程中的关键要素,快速对绿通车合格情况进行判定。不同地区绿通车减免政策产品目录的实际执行细则有所差别,例如,不同地区对同一产品的称呼不同,同一产品不同季节在外观上存在差别。因此查验人员对易混淆产品的判定有一定难度。现有的绿通车业务管理系统大多数是对业务流程的工作记录,并提供不合格绿通行为的概率预测,很少涉及对过站查验人员的查验效率的专业性指导。
现有技术通过历史过站绿通车查验工作记录,从各种维度的属性对车辆是否符合减免通行费用进行判别,并提供某一车辆不合格的概率预测。但是,收费站工作人员仍旧需要对每辆过站绿通车进行无区别化仔细查验,逢车必查。绿通车过站查验时间的快慢大多取决于查验人员的业务经验和业务水平。
发明内容
本发明的目的是提供了一种基于大数据技术的高速公路绿通车查验属性优选方法。
本发明是通过以下技术方案实现的:
本发明涉及一种基于大数据技术的高速公路绿通车查验属性优选方法,包括如下步骤:
A、对高速公路绿通车数据进行处理,提取研究所需的数据字段,并进行数据预处理;
B、对不合格绿通车类型与查验属性之间进行关联性检验和共线性检验,建立不合格类型与查验属性之间的耦合模型;
C、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,运用PCA主成分分析法计算各主成分贡献率与累计贡献率,对模型输入属性进行重要度分析;
D、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,采用随机森林算法计算各个特征的重要度,对绿通车查验属性进行重要度分析;
E、在相同的模型判别准确性条件下,采用对照比较法,分析主成分分析法和随机森林算法的查验属性重要度排序结果。通过实际数据验证,论证提出方法的适应性和有效性。
优选地,所述步骤A的具体分析过程为:将收费站绿通车查验业务数据、收费站出入口数据相结合,形成绿通信息大数据,提取研究所需的数据字段。
绿通车查验数据主要记录本次运输车辆通行的绿通车辆登记信息、货物信息、人员信息等;研究所需的数据字段包括:车牌号、车牌颜色、车辆类型、预约状态、货厢类型、运单类型、查验结果、查验时间、金额(元)、运输货物、入口称重(吨)、出口称重(吨)、出口车道、班长、站长、收费员、外勤、复核人、验货人。
我国高速公路收费采用全面覆盖收费过程的信息化系统,因而可以采集大量收费数据;研究所需的数据字段包括INSTATIONID(入口收费站编码)、INWEIGHT(入口称重)、INAXLECOUNT(入口车辆轴数)、EXITSTATION(出口收费站编码)、EXITWEIGHT(出口称重)、EXITAXLECOUNT(出口车辆轴数)。
该步骤A中,对提取字段后的数据进行预处理,数据预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约。同时结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
所述数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少进入/离开收费站或进入/离开的车辆信息、异常车辆重量数据记录、异常车辆轴数数据记录。
对研究字段中的类型数据,例如车辆类型、货厢类型、运单类型、查验结果等字段进行数字编码,便于后续计算。
优选地,所述步骤B的具体分析过程为:对样本进行多个维度的探索性数据分析,深入了解数据集、检验属性间的相互关系;运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验,分析在不同维度的数据样本总体是否存在显著性差异。
所述样本Kolmogorov-Smirnov是检验某单一样本是否服从假设的特定分布。针对连续变量,分别采用单样本Kolmogorov-Smirnov检验,检验单个独立样本是否符合正态分布。相关系数常见有两类,分别是Pearson和Spearman。根据单样本检验结论,选用相应的相关系数描述。当具有定量数据并且数据满足正态性时采用Pearson,而当具有定量数据但数据不满足正态性时采用Spearman。
该步骤B中,对绿通车查验数据中的各属性进行关联性和共线性检验,筛选出对不合格绿通车判定结果影响较大的属性,解决关联性问题和共线性问题。
所述关联性检验方法主要有:支持度、置信度、提升度、部署能力。利用相关系数、支持度、置信度、提升度、部署能力对关联性诊断进行综合判断。根据诊断结果,保留重要属性、剔除次要属性,解决关联性问题。
所述共线性检验方法主要有:相关系数、容忍度和方差膨胀系数(Varianceinflation factor,VIF)、特征根(Eigenvalue)、条件指数(Condition Index)。利用相关系数、容忍度、方差膨胀因子、特征根、条件指数对共线性诊断进行综合判断。
自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题,在0.8以上可能会有问题。
容忍度的值界于0至1之间。当容忍度值较小时,表示此自变量与其他自变量之间存在共线性。以属性j为因变量、其他属性为自变量做线性回归,获得决定系数R2。当该属性与其他属性存在严重的共线性问题时,R2≈1,TOL≈0。
容忍度的计算公式如下:
TOL=1-R2
方差膨胀系数是容忍度的倒数,VIF越大,表示自变量的容忍度越小,越有共线性问题。通常以10作为判断边界。当VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性。方差膨胀因子VIF的计算公式如下:
特征根:在各属性值构成的矩阵中,当列向量间存在共线性问题时,矩阵至少有一个特征根接近于零,接近零的特征根数量相当于存在的共线性关系数量。该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。
条件指数:条件指数为矩阵的最大特征根与其他各特征根之比的算术平方根。各特征根值越小,条件指数越大,共线性问题越严重。当某些维度的该指标数值大于30时,则能存在共线性。条件指数计算公式如下:
式中:λmax为最大特征根;j为属性j的特征根;为属性的j条件指数。
根据诊断结果,保留重要属性、剔除次要属性,解决共线性问题。
所述步骤C的具体分析过程为:
(1)在数据预处理的基础上,创建历史数据矩阵。假设待分析的查验属性为m个,其中,Xi为样本的第i个查验属性,i=1~m。共计有n条有效的历史数据集,则样本数据集为Xnm。
对数据进行标准化,以消除各个数据特征之间在量纲和数量级上的差别。标准化矩阵为Znm,标准化过程如下所示。
(2)确定相关系数矩阵,令rjq表示特征j和特征q的相关系数,j,q∈[1,m],得到相关系数矩阵Rmm。rjq的计算公式如下所示。
rjq越大,特征j和特征q之间的相关关系密切程度越大,需要消除两者带来的重叠影响。
(3)确定相关系数矩阵的特征向量
根据相关系数矩阵Rmm和特征方程公式|R-λE|=0,采用雅可比法求出m个特征向量Lg(g=1,2,…,m)和对应的m个特征值λ1≥λ2≥…≥λm≥0。因为Rmm是正定矩阵,所以特征值都为正数。
Fg表示第g个主成分,g=1,2,…,m,则:
Fg=LgZ1+LgZ2+…+LgZm
(4)确定主成分数量和影响因子,特征值用于表征各个主成分的影响程度。令Wg为主成分Fg的贡献率,则有:
计算累计贡献率:
计算各主成分贡献率与累计贡献率。通常,选取特征值大于1,累计贡献率达到90%以上的特征值λ1,λ2,…,λp所对应的第1,2,…,p个主成分,p≤m。
优选地,所述步骤D中,所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。它使用自举采样方法从原始样本中提取多个样本,然后构建决策树模型,然后将决策树组合在一起。根据多个决策树的预测结果来确定最终的分类或预测结果。
所述步骤D中,具体步骤如下:
(1)利用Bootstrap方法重采样生成训练集和袋外数据集OOB。Bootstrap方法即从数量为N的原始训练集中有放回地重复随机抽取N个样本,有的样本在自助重采样下可能会多次被抽取,而有的样本则可能不会被抽取。此时,每棵决策树的训练集大约会含有原始训练集的2/3样本,而其余没被抽到的1/3样本构成袋外数据。
(2)假设随机森林中有k棵决策树。在训练集上构建决策树Tk。随机森林在构建决策树时,随机地从d个属性中抽取个属性,d为原始训练集中的所有属性的个数,即d=m。Gini值常用于度量数据D的纯度,其计算公式为:
式中:pk表示第k个类标在数据中所占比例。|y|表示类标取值种类数。数据集D表示xnm。Gini(D)反映了从数据集D中抽取两个样本,其类别不一样的概率。所以,Gini(D)越小,数据集D的纯度越高。
(3)选择Gini增益最大的属性作为分裂属性,从而进行节点的分裂,生成决策树。根据Gini增益最大化原理选择分类能力最好的属性作为分裂属性,并将节点的数据划分到新子节点中。Gini增益最大化原理就是计算节点所有属性的Gini增益。根据该原理得到的分裂属性可以使子节点数据集纯度最高,说明该属性的分类性能最好。属性a表示数据集D中的任一属性。数据集D根据属性a分裂得到的Gini增益可由下式计算得到:
式中:V表示a的取值种类数,|Dv|则表示第V种取值对应的样本数。
(4)基于决策树Tk对OOB数据进行预测分类,统计分类正确的样本数,记为Rk。对OOB中特征a的值进行扰动,得到新的OOB样本集,再使用决策树Tk对新OOB样本集进行分类预测,统计分类正确的样本数,记为R′k。特征a的重要性可由下式计算得出:
对特征a的值进行扰动,如果扰动前和扰动后分类正确率没有多大变化,说明特征a在分类时起到的作用不大,分类性能低。此时Rk-R′k的值将会很小,所以IMP(a)值越大,说明特征a的分类性能越好。最后将绿通车查验属性重要度排序。
优选地,所述步骤E的具体分析过程为:在相同的模型判别准确性条件下,对照比较主成分分析法的绿通车查验属性重要度分析结果,论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。
本发明具有以下优点:
(1)本发明不仅考虑查验收费站特点、不合格类型的关联规则,并且将绿通车查验工作中查验属性的时序性、查验人员的差异性等纳入考虑,从而实现对绿通车过站查验属性的重要度排序,以指导不同查验工作人员对显著特征绿通车辆的快速查验。
(2)本发明在绿通车辆查验数据积累的前提下,对绿通车不合格数据进行数据挖掘和文本分析,充分考虑绿通车查验属性的重要度和时序性,采用基于数据驱动算法建立绿通车查验属性重要度分析方法,能够更快速预判绿通车的查验结果。对于高速公路运营管理者而言,能够对不同过站车辆进行差异化的查验顺序,在保证查验结果准确性的前提下减少整体车辆的查验属性数量,能够为不同水平的查验人员提供技术指导和数据支持;本发明方法提高了查验效率,有助于降低绿色通道通行效率,提升绿通车用户的满意度。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。应当指出的是,以下的实施实例只是对本发明的进一步说明,但本发明的保护范围并不限于以下实施例。
实施例
本实施例涉及一种基于大数据技术的高速公路绿通车查验属性优选方法,见图1所示,包括如下步骤:
A、对高速公路绿通车数据进行处理,提取研究所需的数据字段,并进行数据预处理;
B、对不合格绿通车类型与查验属性之间进行关联性检验和共线性检验,建立不合格类型与查验属性之间的耦合模型;
C、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,运用PCA主成分分析法计算各主成分贡献率与累计贡献率,对模型输入属性进行重要度分析;
D、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,采用随机森林算法计算各个特征的重要度,对绿通车查验属性进行重要度分析;
E、在相同的模型判别准确性条件下,采用对照比较法,分析主成分分析法和随机森林算法的查验属性重要度排序结果。通过实际数据验证,论证提出方法的适应性和有效性。
所述步骤A的具体分析过程为:将收费站绿通车查验业务数据、收费站出入口数据相结合,形成绿通信息大数据,提取研究所需的数据字段。
所述步骤B的具体分析过程为:对样本进行多个维度的探索性数据分析,深入了解数据集、检验属性间的相互关系;运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验,分析在不同维度的数据样本总体是否存在显著性差异。
所述样本Kolmogorov-Smirnov是检验某单一样本是否服从假设的特定分布。针对连续变量,分别采用单样本Kolmogorov-Smirnov检验,检验单个独立样本是否符合正态分布。相关系数常见有两类,分别是Pearson和Spearman。根据单样本检验结论,选用相应的相关系数描述。当具有定量数据并且数据满足正态性时采用Pearson,而当具有定量数据但数据不满足正态性时采用Spearman。
该步骤B中,对绿通车查验数据中的各属性进行关联性和共线性检验,筛选出对不合格绿通车判定结果影响较大的属性,解决关联性问题和共线性问题。
所述关联性检验方法主要有:支持度、置信度、提升度、部署能力。利用相关系数、支持度、置信度、提升度、部署能力对关联性诊断进行综合判断。根据诊断结果,保留重要属性、剔除次要属性,解决关联性问题。
所述共线性检验方法主要有:相关系数、容忍度和方差膨胀系数(Varianceinflation factor,VIF)、特征根(Eigenvalue)、条件指数(Condition Idex)。利用相关系数、容忍度、方差膨胀因子、特征根、条件指数对共线性诊断进行综合判断。
自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题,在0.8以上可能会有问题。
容忍度的值界于0至1之间。当容忍度值较小时,表示此自变量与其他自变量之间存在共线性。以属性j为因变量、其他属性为自变量做线性回归,获得决定系数R2。当该属性与其他属性存在严重的共线性问题时,R2≈1,TOL≈0。容忍度的计算公式如下:
TOL=1-R2
方差膨胀系数是容忍度的倒数,VIF越大,表示自变量的容忍度越小,越有共线性问题。通常以10作为判断边界。当VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性。方差膨胀因子VIF的计算公式如下:
特征根:在各属性值构成的矩阵中,当列向量间存在共线性问题时,矩阵至少有一个特征根接近于零,接近零的特征根数量相当于存在的共线性关系数量。该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。
式中:λmax为最大特征根;j为属性j的特征根;为属性的j条件指数。
根据诊断结果,保留重要属性、剔除次要属性,解决共线性问题。
所述步骤C的具体分析过程为:
(1)在数据预处理的基础上,创建历史数据矩阵。假设待分析的查验属性为m个,其中,Xi为样本的第i个查验属性,i=1~m。共计有n条有效的历史数据集,则样本数据集为Xnm。
对数据进行标准化,以消除各个数据特征之间在量纲和数量级上的差别。标准化矩阵为Znm,标准化过程如下所示。
(2)确定相关系数矩阵,令rjq表示特征j和特征q的相关系数,j,q∈[1,m],得到相关系数矩阵Rmm。rjq的计算公式如下所示。
rjq越大,特征j和特征q之间的相关关系密切程度越大,需要消除两者带来的重叠影响。
(3)确定相关系数矩阵的特征向量
根据相关系数矩阵Rmm和特征方程公式|R-λE|=0,采用雅可比法求出m个特征向量Lg(g=1,2,…,m)和对应的m个特征值λ1≥λ2≥…≥λm≥0。因为Rmm是正定矩阵,所以特征值都为正数。
Fg表示第g个主成分,g=1,2,…,m,则:
Fg=LgZ1+LgZ2+…+LgZm
(4)确定主成分数量和影响因子,特征值用于表征各个主成分的影响程度。令Wg为主成分Fg的贡献率,则有:
计算累计贡献率:
计算各主成分贡献率与累计贡献率。通常,选取特征值大于1,累计贡献率达到90%以上的特征值λ1,λ2,…,λp所对应的第1,2,…,p个主成分,p≤m。
所述步骤D中,所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。
所述步骤D中,具体步骤如下:
(1)利用Bootstrap方法重采样生成训练集和袋外数据集OOB。Bootstrap方法即从数量为N的原始训练集中有放回地重复随机抽取N个样本,有的样本在自助重采样下可能会多次被抽取,而有的样本则可能不会被抽取。此时,每棵决策树的训练集大约会含有原始训练集的2/3样本,而其余没被抽到的1/3样本构成袋外数据。
(2)假设随机森林中有k棵决策树。在训练集上构建决策树Tk。随机森林在构建决策树时,随机地从d个属性中抽取个属性,d为原始训练集中的所有属性的个数,即d=m。Gini值常用于度量数据D的纯度,其计算公式为:
式中:pk表示第k个类标在数据中所占比例。|y|表示类标取值种类数。数据集D表示xnm。Gini(D)反映了从数据集D中抽取两个样本,其类别不一样的概率。所以,Gini(D)越小,数据集D的纯度越高。
(3)选择Gini增益最大的属性作为分裂属性,从而进行节点的分裂,生成决策树。根据Gini增益最大化原理选择分类能力最好的属性作为分裂属性,并将节点的数据划分到新子节点中。Gini增益最大化原理就是计算节点所有属性的Gini增益。根据该原理得到的分裂属性可以使子节点数据集纯度最高,说明该属性的分类性能最好。属性a表示数据集D中的任一属性。数据集D根据属性a分裂得到的Gini增益可由下式计算得到:
式中:V表示a的取值种类数,|Dv|则表示第V种取值对应的样本数。
(4)基于决策树Tk对OOB数据进行预测分类,统计分类正确的样本数,记为Rk。对OOB中特征a的值进行扰动,得到新的OOB样本集,再使用决策树Tk对新OOB样本集进行分类预测,统计分类正确的样本数,记为R′k。特征a的重要性可由下式计算得出:
对特征a的值进行扰动,如果扰动前和扰动后分类正确率没有多大变化,说明特征a在分类时起到的作用不大,分类性能低。此时Rk-R′k的值将会很小,所以IMP(a)值越大,说明特征a的分类性能越好。最后将绿通车查验属性重要度排序。
所述步骤E的具体分析过程为:在相同的模型判别准确性条件下,对照比较主成分分析法的绿通车查验属性重要度分析结果,论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。
针对具有典型特征的绿通车辆,采用b个备选属性,b<m,分别运用基于PCA主成分分析法和基于随机森林算法的高速公路绿通车判别模型进行预测分类,并统计分类正确的样本数Rk,分别记为num1,num2,计算准确度达80%以上所需要的属性量。
采用对照比较法对现有技术方法与本发明方法进行准确度对比分析。实验结果显示:针对具有典型特征的绿通车辆,随机森林算法相较于PCA主成分分析法准确度达80%以上所需要的属性量明显较低。即num1>num2。通过实际数据验证,可以论证提出方法的适应性和有效性。
本发明提供一种基于大数据技术的绿通车查验属性优选方法。在现有的高速公路绿通车查验业务记录数据的基础上,利用机器学习和文本挖掘相结合,从通行频次、车辆类型、入口称重吨位、入口收费站、出口收费站、外廓尺寸、鲜活农产品种类、货厢类型、车辆信用等级等属性,对不合格绿通车数据进行特性分析和关联规则挖掘,针对具有典型特征的绿通车辆,考虑查验属性的时序性,给出车辆过站查验属性重要度排序,为收费站查验工作人员提供数据支撑,以实现整体查验效率的提升。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质。
Claims (5)
1.一种基于大数据技术的高速公路绿通车查验属性优选方法,其特征在于,包括如下步骤:
A、对高速公路绿通车数据进行处理,提取研究所需的数据字段,并进行数据预处理;
B、对不合格绿通车类型与查验属性之间进行关联性检验和共线性检验,建立不合格类型与查验属性之间的耦合模型;
C、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,运用PCA主成分分析法计算各主成分贡献率与累计贡献率,对模型输入属性进行重要度分析;
D、采用通行频次、车型、入口称重吨位、鲜活农产品种类、货厢类型、出口收费站、到站时段、气象因素、车辆信用等级的属性,建立高速公路绿通车判别模型,采用随机森林算法计算各个特征的重要度,对绿通车查验属性进行重要度分析;
E、在相同的模型判别准确性条件下,采用对照比较法,分析主成分分析法和随机森林算法的查验属性重要度排序结果;通过实际数据验证,论证提出方法的适应性和有效性。
2.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法,其特征在于,所述步骤A的具体分析过程为:将收费站绿通车查验业务数据、收费站出入口数据相结合,形成绿通车信息大数据,提取研究所需的数据字段。
3.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法,其特征在于,所述步骤B的具体分析过程为:对样本进行多个维度的探索性数据分析,深入了解数据集、检验属性间的相互关系;运用数理统计理论进行样本数据的参数假设检验以及非参数假设检验,分析在不同维度的数据样本总体是否存在显著性差异。
4.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法,其特征在于,所述步骤D中,所述随机森林算法为将单个基础分类器模型组合起来的组合多分类器的算法。
5.如权利要求1所述的基于大数据技术的高速公路绿通车查验属性优选方法,其特征在于,所述步骤E的具体分析过程为:在相同的模型判别准确性条件下,对照比较主成分分析法的绿通车查验属性重要度分析结果,论证基于随机森林算法的绿通车查验属性重要度分析的有效性和准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102576.3A CN114595267A (zh) | 2022-01-27 | 2022-01-27 | 一种基于大数据技术的高速公路绿通车查验属性优选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210102576.3A CN114595267A (zh) | 2022-01-27 | 2022-01-27 | 一种基于大数据技术的高速公路绿通车查验属性优选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114595267A true CN114595267A (zh) | 2022-06-07 |
Family
ID=81805909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210102576.3A Pending CN114595267A (zh) | 2022-01-27 | 2022-01-27 | 一种基于大数据技术的高速公路绿通车查验属性优选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595267A (zh) |
-
2022
- 2022-01-27 CN CN202210102576.3A patent/CN114595267A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462488B (zh) | 一种基于深度卷积神经网络和交叉口行为特征模型的交叉口安全风险评估方法 | |
CN109117883B (zh) | 基于长短时记忆网络的sar影像海冰分类方法及系统 | |
CN112700325A (zh) | 一种基于Stacking集成学习的网贷回头客预测的方法 | |
CN103984994B (zh) | 一种城市轨道交通客流高峰持续时间预测方法 | |
CN112949715A (zh) | 一种基于svm的轨道交通故障诊断方法 | |
CN105373894A (zh) | 基于稽查数据的电力营销业务诊断模型的建立方法及系统 | |
CN112978128B (zh) | 基于大数据和图像分析技术的冷链物流运输商品品质监测管理系统 | |
CN109543874A (zh) | 一种结合气象条件影响的机场空气质量预测方法 | |
CN108090628A (zh) | 一种基于pso-lssvm算法的粮情安全检测分析方法 | |
CN110889092A (zh) | 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法 | |
CN111784022A (zh) | 一种基于Wrapper方法与SVM方法结合的短时邻近大雾预测方法 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN112711585B (zh) | 一种基于大数据技术的高速公路绿通车信用管理系统 | |
CN116128544A (zh) | 一种电力营销异常营业数据的主动稽核方法和系统 | |
CN114418236A (zh) | 信息预测方法、装置、存储介质及电子设备 | |
Khudov et al. | The Choice of Quality Indicator for the Image Segmentation Evaluation | |
CN117271998A (zh) | 网络货运平台中的异常运单监测分析方法及系统 | |
CN117251814A (zh) | 一种高速公路充电桩电量损耗异常的分析方法 | |
CN117436653A (zh) | 一种网约车出行需求的预测模型构建方法和预测方法 | |
CN117372144A (zh) | 应用于小样本场景的风控策略智能化方法及系统 | |
CN114595267A (zh) | 一种基于大数据技术的高速公路绿通车查验属性优选方法 | |
CN112906993A (zh) | 一种高速公路绿通车过站查验时间预测方法 | |
Nagy et al. | Revealing Influencing Factors of Check-in Time | |
CN116050928A (zh) | 一种水上综合服务区服务规范应用效果评价方法 | |
Sun et al. | An automated warehouse sorting system for small manufacturing enterprise applying discrete event simulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |