CN115964483A - 基于神经网络的高速公路养护大数据分类决策方法 - Google Patents

基于神经网络的高速公路养护大数据分类决策方法 Download PDF

Info

Publication number
CN115964483A
CN115964483A CN202210857806.7A CN202210857806A CN115964483A CN 115964483 A CN115964483 A CN 115964483A CN 202210857806 A CN202210857806 A CN 202210857806A CN 115964483 A CN115964483 A CN 115964483A
Authority
CN
China
Prior art keywords
data
model
maintenance
classification
highway maintenance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210857806.7A
Other languages
English (en)
Other versions
CN115964483B (zh
Inventor
赵池航
许朦升
刘洋
冯玉荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210857806.7A priority Critical patent/CN115964483B/zh
Publication of CN115964483A publication Critical patent/CN115964483A/zh
Application granted granted Critical
Publication of CN115964483B publication Critical patent/CN115964483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于神经网络的高速公路养护大数据分类决策方法,包括:研究分析了高速公路养护系统中的大数据分析技术;基于机器学习高速公路养护数据处理方法,采用NLP词袋模型对高速公路中文本类的数据进行规格化处理,通过对文本类数据进行词频统计之后得到词频特征,将其词袋化之后转化成数值形式,采用自编码器模型对数据进行降维处理;采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,将对分类决策的影响因素从传统仅考虑路面使用性能增加到同时考虑路面使用性能、车道数两种基础数据以及历史养护数据。本发明对路面养护数据进行处理和分类决策,对高速公路养护决策系统提供技术支持。

Description

基于神经网络的高速公路养护大数据分类决策方法
技术领域
本发明专利涉及智能交通,智慧高速研究领域,具体涉及一种基于神经网络的高速公路养护大数据分类决策方法。
背景技术
在逐年累月的积累下,高速公路的数据越来越多,技术的更新使养护工作者能检测到更多不同类型的数据,对养护决策提出了新的课题和挑战,传统仅依靠人力进行数据管理及决策的方式出现检测异常的频率增加,且效率不高,养护工作者常常不能及时了解路面性能的异常情况从而分析原因,已逐渐无法满足日常工作及管理的要求。同时,传统的高速公路路面养护通常只考虑路面性能指标的影响,对交通量数据、历史养护数据的挖掘及应用远远不够,具有一定的片面性,这就导致养护规划与养护实际需求不相符。因此,本文使用数据挖掘技术来代替传统的人工统计技术,提出一种基于神经网络的高速公路养护大数据分类决策方法。
发明内容
发明目的:为了克服高速公路养护工作数据处理和决策技术中存在的不足,提供一种高速公路养护大数据分类决策方法,其利用NLP词袋模型和自编码器模型有效将不统一的多类型数据进行规格化、降维后处理成适合决策的数据,在加入不同影响因素后利用梯度提升决策树模型进行养护建议的分类决策。
技术方案:为实现上述目的,本发明提供一种基于神经网络的高速公路养护大数据分类决策方法,包括如下步骤:
S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;
S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;
S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。
进一步的,所述步骤S1中采用基于NLP词袋模型对数据的规格化处理为:
将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,如表1所示,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。
其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据。
表1高速公路养护大数据原始数据集(部分)
起始桩号 终止桩号 上下行 车道 建成时间 养护次数 主要病害 治理措施 PCI RQI RDI
0 1000 上行 一车道 2000 3 96.04172 91.93258 90.74054
0 1000 上行 二车道 2000 3 93.1829 94.69217 88.71417
0 1000 上行 车道 2000 3 96.55912 94.96524 89.59111
0 1000 上行 三车道 2000 0 91.5269 93.47259 92.8
0 1000 上行 三车道 2000 0 路面抗滑性能不足 灌注 91.5269 93.47259 92.8
0 1000 下行 一车道 2000 2 94.90861 94.01493 93.6735
0 1000 下行 二车道 2000 2 94.60151 94.05958 92.165
0 1000 下行 三车道 2000 2 95.10121 93.73879 90.9493
0 1000 下行 三车道 2000 0 90.5001 93.51214 91.8
1000 2000 上行 一车道 2000 1 95.28965 94.55515 91.54846
1000 2000 上行 二车道 2000 1 92.12268 94.79017 93.48678
1000 2000 上行 三车道 2000 1 96.45027 94.7376 92.1526
1000 2000 上行 三车道 2000 0 路面抗滑性能不足 灌注 93.9585 94.76314 94
1000 2000 下行 一车道 2000 0 94.91664 95.14765 94.6256
1000 2000 下行 二车道 2000 0 94.38756 93.98028 90.95702
1000 2000 下行 三车道 2000 0 97.55945 94.41631 93.43822
1000 2000 下行 三车道 2000 0 94.19114 94.46511 91.8
2000 3000 上行 一车道 2000 1 96.452 95.28428 92.63564
2000 3000 上行 二车道 2000 1 88.95115 94.50406 91.29132
2000 3000 上行 三车道 2000 1 95.861 94.35984 91.12498
2000 3000 上行 三车道 2000 0 88.72629 93.55147 94
2000 3000 上行 三车道 2000 0 路面抗滑性能不足 灌注 88.72629 93.55147 94
进一步的,所述步骤S2中通过自编码器模型对数据进行降维处理,使用反向传播算法来训练网络使输出等于输入的具体步骤如下:
S2-1:构建自编码器模型;
S2-2:用随机数种子控制每次划分的训练集和测试集;
S2-3:通过添加噪声增加系统的鲁棒性;
S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。
进一步的,所述步骤S2-1中,自编码器模型结构包括:
Input Layer输入层(x1,x2,…,xm,bias),Hidden Layer隐藏层(h1,h2,…,hn,bias),以及Output Layer输出层
Figure BDA0003756209560000021
。自编码器的前向传播公式为d=F(Wx+bias),hw,b(x)=F(W′d+bias),其中F表示激活函数,本文选取Sigmoid函数,W={w1,w2,…wn-1}表示输入层和隐藏层之间的权重集合,W′={w′1,w′2,…w′n-1}表示隐藏层和输出层之间的权重集合,bias表示偏置,hw,b(x)表示与x相映射的输出值。令自编码器的目标期望输出等于输入,最终学习结果为hw,b(x)≈x,数据X的重构误差为
Figure BDA0003756209560000031
进一步的,所述步骤S2-4中,输入原始数据集后设置隐藏层的步骤如下:
①输入17维的原始数据集;
②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;
③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;
④只取dense_2输出,完成将17维数据降为5维。
原始数据集在降维后输出如表2所示。
表2高速公路养护大数据原始数据集(降维后)
0 1 2 3 4 5 6 7
5449.411 5918.808 5265.87 6324.709 4850.813 96.04172 91.93258 90.74054
5449.258 5918.597 5265.804 6324.808 4850.857 93.1829 94.69217 88.71417
5449.526 5918.905 5266.069 6325.004 4850.998 96.55912 94.96524 89.59111
5443.461 5912.348 5260.703 6317.616 4845.805 91.5269 93.47259 92.8
5446.819 5916.201 5264.091 6321.708 4848.804 91.5269 93.47259 92.8
5447.553 5916.768 5264.326 6322.303 4849.252 94.90861 94.01493 93.6735
5447.398 5916.557 5264.268 6322.403 4849.296 94.60151 94.05958 92.165
5447.665 5916.871 5264.53 6322.597 4849.435 95.10121 93.73879 90.9493
5443.626 5912.492 5260.953 6317.668 4845.975 90.5001 93.51214 91.8
5445.369 5914.434 5262.294 6319.781 4847.352 95.28965 94.55515 91.54846
5445.214 5914.219 5262.228 6319.879 4847.395 92.12268 94.79017 93.48678
5445.484 5914.535 5262.491 6320.08 4847.536 96.45027 94.7376 92.1526
5446.819 5916.201 5264.091 6321.708 4848.804 93.9585 94.76314 94
5443.511 5912.394 5260.753 6317.375 4845.79 94.91664 95.14765 94.6256
5443.354 5912.184 5260.688 6317.472 4845.834 94.38756 93.98028 90.95702
5443.626 5912.492 5260.953 6317.668 4845.975 97.55945 94.41631 93.43822
5443.626 5912.492 5260.953 6317.668 4845.975 94.19114 94.46511 91.8
5445.369 5914.434 5262.294 6319.781 4847.352 96.452 95.28428 92.63564
5445.214 5914.219 5262.228 6319.879 4847.395 88.95115 94.50406 91.29132
进一步的,所述步骤S3中采用人工标签将养护建议分为三类,构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价的具体步骤如下:
S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;
S3-2:构建梯度提升决策树分类模型;
S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集。
S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较;
S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。
进一步的,所述步骤S3-1中,根据养护工程文件中的养护资料采用人工标签将养护数据分为三类的步骤如下:
根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;
进一步的,所述步骤S3-2中梯度提升决策树的基本算法可以表示如下:
输入训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},其中
Figure BDA0003756209560000041
yi∈y={-1,1},基本分类器为hm(x),最终分类器为H(x),损失函数L(y,h(x)):
(1)初始化为:
Figure BDA0003756209560000042
(2)对于基学习器hm(x),m∈{1,2,…,M};
1)计算每个样本的残差:
Figure BDA0003756209560000043
2)将上步得到的残差作为样本新的真实值,并将数据(xi,rm,i)作为下一棵树的训练数据拟合一棵回归树,得到第m棵树的叶结点区域Rm,i,j=1,2,…,J(J为叶结点数量);
3)对叶子区域j=1,2,…,J,计算最佳拟合值:
Figure BDA0003756209560000044
4)更新当前分类器为:
Figure BDA0003756209560000045
(3)得到最终回归树:
Figure BDA0003756209560000051
进一步的,所述步骤S3-2中,构建梯度提升决策树分类模型的步骤如下:
①设定one_hot编码的最大值为one_hot_max_size=10;
②设定学习率learning_rate=0.03;
③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];
④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;
⑤使用Pool组织数据,训练模型。
进一步的,所述步骤S3-5中,混淆矩阵各指标的计算为:
准确率
Figure BDA0003756209560000052
精确率
Figure BDA0003756209560000053
召回率
Figure BDA0003756209560000054
其中,TP表示真实类型为positive,模型预测的类型也为positive,预测准确;FP表示预测为positive,但真实类型为negative,真实类型和预测类型不一致,预测错误;FN表示预测为negative,但真实类型为positive,真实类型和预测类型不一致,预测错误;TN表示真实类型为negative,模型预测的类型也为negative,预测准确。
Figure BDA0003756209560000055
本发明对高速公路路面养护数据进行了归纳和分析,形成信息化矩阵,并采用基于神经网络的算法对路面养护数据进行处理,将其转化为适用于机器学习的数据,改进了传统养护管理只考虑路面使用性能,增加了车道数和历史养护数据作为影响因素,并提出了梯度提升决策树的方法进行路面养护决策,以便于养护管理人员对高速公路路面养护大数据的管理和决策。
有益效果:本发明所提出的基于神经网络的高速公路养护大数据分类决策方法相比于传统的养护管理决策具有效率优化效果。同时,基于信息化矩阵的构建提高了养护管理系统大数据维护的可伸缩性。
附图说明
图1为本发明中NLP词袋模型处理后词袋化后结果。
图2为本发明中自编码器网络结构图。
图3为本发明中仅考虑传统路面使用性能指标时,使用梯度提升决策树模型分类决策后的特征重要性。
图4为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后,使用梯度提升决策树模型分类决策后的特征重要性。
图5为本发明中仅考虑传统路面使用性能指标时,使用梯度提升决策树模型分类决策后的模型运行准确率。
图6为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后,使用梯度提升决策树模型分类决策后的模型运行准确率。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
基于神经网络的高速公路养护大数据分类决策方法,包括如下步骤:
S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;
S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;
S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。
进一步的,所述步骤S1中采用基于NLP词袋模型对数据的规格化处理为:
将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,如表1所示,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。
其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据,其词袋化后的结果如图1所示。
表1高速公路养护大数据原始数据集(部分)
起始桩号 终止桩号 上下行 车道 建成时间 养护次数 主要病害 治理措施 PCI RQI RDI
0 1000 上行 一车道 2000 3 96.04172 91.93258 90.74054
0 1000 上行 二车道 2000 3 93.1829 94.69217 88.71417
0 1000 上行 三车道 2000 3 96.55912 94.96524 89.59111
0 1000 上行 三车道 2000 0 91.5269 93.47259 92.8
0 1000 上行 三车道 2000 0 路面抗滑性能不足 灌注 91.5269 93.47259 92.8
0 1000 下行 一车道 2000 2 94.90861 94.01493 93.6735
0 1000 下行 二车道 2000 2 94.60151 94.05958 92.165
0 1000 下行 三车道 2000 2 95.10121 93.73879 90.9493
0 1000 下行 三车道 2000 0 90.5001 93.51214 91.8
1000 2000 上行 一车道 2000 1 95.28965 94.55515 91.54846
1000 2000 上行 二车道 2000 1 92.12268 94.79017 93.48678
1000 2000 上行 三车道 2000 1 96.45027 94.7376 92.1526
1000 2000 上行 三车道 2000 0 路面抗滑性能不足 灌注 93.9585 94.76314 94
1000 2000 下行 一车道 2000 0 94.91664 95.14765 94.6256
1000 2000 下行 二车道 2000 0 94.38756 93.98028 90.95702
1000 2000 下行 三车道 2000 0 97.55945 94.41631 93.43822
1000 2000 下行 三车道 2000 0 94.19114 94.46511 91.8
2000 3000 上行 一车道 2000 1 96.452 95.28428 92.63564
2000 3000 上行 二车道 2000 1 88.95115 94.50406 91.29132
2000 3000 上行 三车道 2000 1 95.861 94.35984 91.12498
2000 3000 上行 三车道 2000 0 88.72629 93.55147 94
2000 3000 上行 三车道 2000 0 路面抗滑性能不足 灌注 88.72629 93.55147 94
进一步的,所述步骤S2中通过自编码器模型对数据进行降维处理,使用反向传播算法来训练网络使输出等于输入的具体步骤如下:
S2-1:构建自编码器模型;
S2-2:用随机数种子控制每次划分的训练集和测试集;
S2-3:通过添加噪声增加系统的鲁棒性;
S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。
进一步的,所述步骤S2-1中,自编码器模型结构包括:
Input Layer输入层(x1,x2,…,xm,bias),Hidden Layer隐藏层(h1,h2,…,hn,bias),以及Output Layer输出层
Figure BDA0003756209560000071
。自编码器的前向传播公式为d=F(Wx+bias),hw,b(x)=F(W′d+bias),其中F表示激活函数,本文选取Sigmoid函数,W={w1,w2,…wn-1}表示输入层和隐藏层之间的权重集合,W′={w′1,w′2,…w′n-1}表示隐藏层和输出层之间的权重集合,bias表示偏置,hw,b(x)表示与x相映射的输出值。令自编码器的目标期望输出等于输入,最终学习结果为hw,b(x)≈x,数据X的重构误差为
Figure BDA0003756209560000072
进一步的,所述步骤S2-4中,输入原始数据集后设置隐藏层的步骤如下:
①输入17维的原始数据集;
②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;
③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;
④只取dense_2输出,完成将17维数据降为5维。
自编码器的网络结构如图2所示,原始数据集在降维后输出如表2所示。
表2高速公路养护大数据原始数据集(降维后)
0 1 2 3 4 5 6 7
5449.411 5918.808 5265.87 6324.709 4850.813 96.04172 91.93258 90.74054
5449.258 5918.597 5265.804 6324.808 4850.857 93.1829 94.69217 88.71417
5449.526 5918.905 5266.069 6325.004 4850.998 96.55912 94.96524 89.59111
5443.461 5912.348 5260.703 6317.616 4845.805 91.5269 93.47259 92.8
5446.819 5916.201 5264.091 6321.708 4848.804 91.5269 93.47259 92.8
5447.553 5916.768 5264.326 6322.303 4849.252 94.90861 94.01493 93.6735
5447.398 5916.557 5264.268 6322.403 4849.296 94.60151 94.05958 92.165
5447.665 5916.871 5264.53 6322.597 4849.435 g5.10121 93.73879 90.9493
5443.626 5912.492 5260.953 6317.668 4845.975 90.5001 93.51214 91.8
5445.369 5914.434 5262.294 6319.781 4847.352 95.28965 94.55515 91.54846
5445.214 5914.219 5262.228 6319.879 4847.395 92.12268 94.79017 93.48678
5445.484 5914.535 5262.491 6320.08 4847.536 96.45027 94.7376 92.1526
5446.819 5916.201 5264.091 6321.708 4848.804 93.9585 94.76314 94
5443.511 5912.394 5260.753 6317.375 4845.79 94.91664 95.14765 94.6256
5443.354 5912.184 5260.688 6317.472 4845.834 94.38756 93.98028 90.95702
5443.626 5912.492 5260.953 6317.668 4845.975 97.55945 94.41631 93.43822
5443.626 5912.492 5260.953 6317.668 4845.975 94.19114 94.46511 91.8
5445.369 5914.434 5262.294 6319.781 4847.352 96.452 95.28428 92.63564
5445.214 5914.219 5262.228 6319.879 4847.395 88.95115 94.50406 91.29132
进一步的,所述步骤S3中采用人工标签将养护建议分为三类,构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价的具体步骤如下:
S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;
S3-2:构建梯度提升决策树分类模型;
S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集,图3、图4为仅考虑路面使用性能数据和同时考虑三种因素时的特征重要性排序输出。
S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较,图5、图6为仅考虑路面使用性能和同时考虑三种因素时模型准确率输出;
S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。
进一步的,所述步骤S3-1中,根据养护工程文件中的养护资料采用人工标签将养护数据分为三类的步骤如下:
根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;
进一步的,所述步骤S3-2中梯度提升决策树的基本算法可以表示如下:
输入训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},其中
Figure BDA0003756209560000091
yi∈y={-1,1},基本分类器为hm(x),最终分类器为H(x),损失函数L(y,h(x)):
(1)初始化为:
Figure BDA0003756209560000092
(2)对于基学习器hm(x),m∈{1,2,…,M};
1)计算每个样本的残差:
Figure BDA0003756209560000093
2)将上步得到的残差作为样本新的真实值,并将数据(xi,rm,i)作为下一棵树的训练数据拟合一棵回归树,得到第m棵树的叶结点区域Rm,i,j=1,2,…,J(J为叶结点数量);
3)对叶子区域j=1,2,…,J,计算最佳拟合值:
Figure BDA0003756209560000094
4)更新当前分类器为:
Figure BDA0003756209560000095
(3)得到最终回归树:
Figure BDA0003756209560000096
进一步的,所述步骤S3-2中,构建梯度提升决策树分类模型的步骤如下:
①设定one_hot编码的最大值为one_hot_max_size=10;
②设定学习率learning_rate=0.03;
③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];
④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;
⑤使用Pool组织数据,训练模型。
进一步的,所述步骤S3-5中,混淆矩阵各指标的计算为:
准确率
Figure BDA0003756209560000101
精确率
Figure BDA0003756209560000102
召回率
Figure BDA0003756209560000103
其中,TP表示真实类型为positive,模型预测的类型也为positive,预测准确;FP表示预测为positive,但真实类型为negative,真实类型和预测类型不一致,预测错误;FN表示预测为negative,但真实类型为positive,真实类型和预测类型不一致,预测错误;TN表示真实类型为negative,模型预测的类型也为negative,预测准确。
Figure BDA0003756209560000104
实施例
基于神经网络的高速公路养护大数据分类决策方法,包括以下步骤:
S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;
将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格,包括三个方面:路面基础信息、历史养护数据、路面使用性能指数;基础数据主要包括起终点桩号、上下行、车道数、建成年份;历史养护数据包括养护次数、主要病害、治理措施;路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。
其中,文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施,对这些数据集中不同内容出现的次数进行计数,通过对数据集进行分词处理创建词汇表,根据每个词语出现的频数得到词频特征,并将其转化为词频矩阵,从而将原始数据集中的文本类数据转化为数值型数据
S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;
S2-1:构建自编码器模型;
自编码器模型结构包括Input Layer输入层(x1,x2,…,xm,bias),Hidden Layer隐藏层(h1,h2,…,hn,bias),以及Output Layer输出层
Figure BDA0003756209560000105
自编码器的前向传播公式为d=F(Wx+bias),hw,b(x)=F(W′d+bias),其中F表示激活函数,本文选取Sigmoid函数,W={w1,w2,…wn-1}表示输入层和隐藏层之间的权重集合,W′={w′1,w′2,…w′n-1}表示隐藏层和输出层之间的权重集合,bias表示偏置,hw,b(x)表示与x相映射的输出值。令自编码器的目标期望输出等于输入,最终学习结果为hw,b(x)≈x,数据X的重构误差为
Figure BDA0003756209560000111
S2-2:用随机数种子控制每次划分的训练集和测试集;
S2-3:通过添加噪声增加系统的鲁棒性;
S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。
其具体为:
①输入17维的原始数据集;
②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;
③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;
④只取dense_2输出,完成将17维数据降为5维。
S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。
S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;
根据原始数据集中关于路面使用性能指数的数据,即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中,第一类为没有养护建议但实际需要养护的数据,记为“0”,这类数据集的分类标准为养护工程文档中有直接标注的数据集;第二类为有养护建议的数据,记为“1”,其中,预防养护和修复养护都被认为是有养护建议,预防养护和修复养护的划分标准以交通运输部公布的具体指标为准;第三类为没有给出养护建议也无需养护的数据,记为“2”;
S3-2:构建梯度提升决策树分类模型,其基本算法可以表示如下:
输入训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},其中
Figure BDA0003756209560000112
yi∈y={-1,1},基本分类器为hm(x),最终分类器为H(x),损失函数L(y,h(x)):
(1)初始化为:
Figure BDA0003756209560000121
(2)对于基学习器hm(x),m∈{1,2,…,M};
1)计算每个样本的残差:
Figure BDA0003756209560000122
2)将上步得到的残差作为样本新的真实值,并将数据(xi,rm,i)作为下一棵树的训练数据拟合一棵回归树,得到第m棵树的叶结点区域Rm,i,j=1,2,…,J(J为叶结点数量);
3)对叶子区域j=1,2,…,J,计算最佳拟合值:
Figure BDA0003756209560000123
4)更新当前分类器为:
Figure BDA0003756209560000124
(3)得到最终回归树:
Figure BDA0003756209560000125
其具体为:
①设定one_hot编码的最大值为one_hot_max_size=10;
②设定学习率learning_rate=0.03;
③设定损失函数为loss_function='MultiClass',并自定义损失函数为custom_loss=['Recall','Accuracy'];
④设定验证集的评估矩阵eval_metric='Accuracy',将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;
⑤使用Pool组织数据,训练模型。
S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集。
S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较;
S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。
混淆矩阵各指标的计算为:
准确率
Figure BDA0003756209560000126
精确率
Figure BDA0003756209560000127
召回率
Figure BDA0003756209560000131
其中,TP表示真实类型为positive,模型预测的类型也为positive,预测准确;FP表示预测为positive,但真实类型为negative,真实类型和预测类型不一致,预测错误;FN表示预测为negative,但真实类型为positive,真实类型和预测类型不一致,预测错误;TN表示真实类型为negative,模型预测的类型也为negative,预测准确。
Figure BDA0003756209560000132
为了验证上述方法的效果,本实施例中将传统养护决策的准确率与查全率与步骤S3中梯度提升决策树分类决策模型的结果进行实验对比,具体如表3、表4所示。
表3加入不同变量的预测结果对比
Figure BDA0003756209560000133
养护建议决策的准确率从传统路面性能指标决策的73.66%提高到了最终的90.12%,同时通过控制变量可发现当加入车道数和历史养护数据时,基于神经网络的梯度提升决策树模型的分类准确率会提高,这一点从降维数据集在各项数据组中的特征重要性也可以看出。
表4养护路段的查全率比较
Figure BDA0003756209560000134
根据混淆矩阵所得结果进行养护路段查全率的比较,可以清晰看出对于同样仅考虑路面性能指标对高速公路路面养护进行决策分类,使用基于神经网络的梯度提升决策树分类模型时,养护路段查全率相比于传统人工决策的71.79%提高到了93.42%,实验结果表明,运用决策树模型可以明显提升高速公路路面养护系统的性能。
将使用梯度提升决策树分类模型的四种数据类型都用混淆矩阵进行评价,三种分类所得精确率和召回率结果如表5所示。
表5不同变量情况下精确率与召回率的比较
Figure BDA0003756209560000141
在加入本发明所研究的全部变量后,与传统只根据路面使用性能指标进行决策相比,模型的精确率和召回率都得到了提高。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.基于神经网络的高速公路养护大数据分类决策方法,其特征在于:包括以下步骤:
S1:基于高速公路养护系统的大数据采集,采用基于NLP词袋模型对数据的规格化处理,运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据;
S2:基于自编码器模型对数据的降维处理,使用反向传播算法来训练网络使输出等于输入,训练完后的中间结果即为降维结果;
S3:采用人工标签将养护建议分为三类,构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型,并使用混淆矩阵对模型分类的具体结果进行评价。
2.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S1中采用基于NLP词袋模型对数据的规格化处理,具体包括以下步骤:
S1-1:构建NLP词袋模型;
S1-2:对数据集中的文本类数据创建字典列表;
S1-3:对文本类数据进行计数;
S1-4:对文本类数据进行分词处理得到词频特征,并将其转化为词频矩阵,从而完成对文本类数据的词袋化。
3.根据权利要求2所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S1-1中,NLP词袋模型是一种基于深度学习算法的对文本类自然语言进行建模时表示文本数据的方法,从文档的所有单词中提取特征单词,在此基础上用这些特征项矩阵建模,仅考虑所有词的权重而不考虑词本身的顺序、语法,也不考虑词与词之间的逻辑关系,文档中每个单词都不依赖其它单词而独立出现,权重的分配与该词在文本中出现的频率相关。
4.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S2中基于自编码器模型对数据的降维处理,具体步骤如下:
S2-1:构建自编码器模型;
S2-2:用随机数种子控制每次划分的训练集和测试集;
S2-3:通过添加噪声增加系统的鲁棒性;
S2-4:输入原始数据集后设置隐藏层,自编码器使用反向传播算法来训练网络使输出等于输入,隐藏层即为训练完后的降维结果。
5.根据权利要求4所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S2-1中自编码器模型结构包括Input Layer输入层(x1,x2,...,xm,bias),Hidden Layer隐藏层(h1,h2,...,hn,bias),以及Output Layer输出层
Figure FDA0003756209550000023
自编码器的前向传播公式为d=F(Wx+bias),hw,b(x)=F(W′d+bias),其中F表示激活函数,本文选取Sigmoid函数,W={w1,w2,...wn-1}表示输入层和隐藏层之间的权重集合,W′={w′1,wA′2,...w′n-1}表示隐藏层和输出层之间的权重集合,bias表示偏置,hw,b(x)表示与x相映射的输出值;令自编码器的目标期望输出等于输入,最终学习结果为hw,b(x)≈x,数据X的重构误差为
Figure FDA0003756209550000021
Figure FDA0003756209550000022
6.根据权利要求4所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S2-4中,输入原始数据集后设置隐藏层的步骤如下:
①输入17维的原始数据集;
②将dense_1和dense_2设置为隐藏层,其中dense_1为500维数据集,dense_2为5维数据集;
③对自编码器模型进行训练,向前和向后传播中所有批次的单次训练迭代数量为epochs=20,一次训练所抓取的数据样本数量为batch_size=20,并输出带进度条的输出日志信息verbose=1;
④只取dense_2输出,完成将17维数据降为5维。
7.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S3中采用人工标签将养护建议分为三类,构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型,具体步骤如下:
S3-1:根据养护工程文件中的养护资料采用人工标签将养护数据分为三类;S3-2:构建梯度提升决策树分类模型;
S3-3:分析训练好的模型在测试数据上的效果,通过比较仅考虑路面使用性能数据,考虑路面使用性能和车道数两种基础数据,考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序,其中编号“0~4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集;
S3-4:使用保存好的模型来实际预测将来,此时人工标签为测试集的预测标签,并通过对比预测标签和初始标签来检验准确率,输出四种情况下的准确率比较;
S3-5:将混淆矩阵每一列设置为各类的真实分类数量,每一行设置为各类的预测分类数量进行模型评价并输出矩阵,同时进行精确率、召回率的计算比较。
8.根据权利根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S3-2中梯度提升决策树的基本算法表示如下:
输入训练样本D={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure FDA0003756209550000031
yi∈y={-1,1},基本分类器为hm(x),最终分类器为H(x),损失函数L(y,h(x)):
(1)初始化为:
Figure FDA0003756209550000032
(2)对于基学习器hm(x),m∈{1,2,...,M};
1)计算每个样本的残差:
Figure FDA0003756209550000033
2)将上步得到的残差作为样本新的真实值,并将数据(xi,rm,i)作为下一棵树的训练数据拟合一棵回归树,得到第m棵树的叶结点区域Rm,i,j=1,2,...,J,其中,J为叶结点数量;
3)对叶子区域j=1,2,...,J,计算最佳拟合值:
Figure FDA0003756209550000034
4)更新当前分类器为:
Figure FDA0003756209550000035
(3)得到最终回归树:
Figure FDA0003756209550000036
9.根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S3-2中,定义梯度提升决策树分类模型的步骤如下:
①设定one_hot编码的最大值为one_hot_max_size=10;
②设定学习率learning_rate=0.03;
③设定损失函数为loss_function=’MultiClass’,并自定义损失函数为custom_loss=[’Recall’,’Accuracy’];
④设定验证集的评估矩阵eval_metric=’Accuracy’,将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait=40;
⑤使用Pool组织数据,训练模型。
10.根据权利根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法,其特征在于:所述步骤S3-5中混淆矩阵中各指标的计算:准确率
Figure FDA0003756209550000037
Figure FDA0003756209550000038
精确率
Figure FDA0003756209550000039
召回率
Figure FDA00037562095500000310
Figure FDA00037562095500000311
其中,TP表示真实类型为positive,模型预测的类型也为positive,预测准确;FP表示预测为positive,但真实类型为negative,真实类型和预测类型不一致,预测错误;FN表示预测为negative,但真实类型为positive,真实类型和预测类型不一致,预测错误;TN表示真实类型为negative,模型预测的类型也为negative,预测准确,
Figure FDA0003756209550000041
CN202210857806.7A 2022-07-20 2022-07-20 基于神经网络的高速公路养护大数据分类决策方法 Active CN115964483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210857806.7A CN115964483B (zh) 2022-07-20 2022-07-20 基于神经网络的高速公路养护大数据分类决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210857806.7A CN115964483B (zh) 2022-07-20 2022-07-20 基于神经网络的高速公路养护大数据分类决策方法

Publications (2)

Publication Number Publication Date
CN115964483A true CN115964483A (zh) 2023-04-14
CN115964483B CN115964483B (zh) 2024-04-05

Family

ID=87359022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210857806.7A Active CN115964483B (zh) 2022-07-20 2022-07-20 基于神经网络的高速公路养护大数据分类决策方法

Country Status (1)

Country Link
CN (1) CN115964483B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235270A (zh) * 2023-11-16 2023-12-15 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078363A1 (en) * 2014-09-17 2016-03-17 Caterpillar Inc. Method for Developing Machine Operation Classifier Using Machine Learning
CN109993223A (zh) * 2019-03-26 2019-07-09 南京道润交通科技有限公司 路面使用性能预测方法、存储介质、电子设备
CN110232400A (zh) * 2019-04-30 2019-09-13 冶金自动化研究设计院 一种梯度提升决策神经网络分类预测方法
CN111105332A (zh) * 2019-12-19 2020-05-05 河北工业大学 一种基于人工神经网络的高速公路智能预养护方法及系统
CN112132542A (zh) * 2020-09-22 2020-12-25 广东华路交通科技有限公司 一种公路路网数据管理系统
WO2021174857A1 (zh) * 2020-03-03 2021-09-10 长安大学 沥青路面水损害识别模型构建方法、识别方法及系统
CN113486188A (zh) * 2021-05-31 2021-10-08 安徽省交通规划设计研究总院股份有限公司 一种基于知识图谱的桥梁智能诊断系统
CN113918538A (zh) * 2021-10-14 2022-01-11 河北工业大学 一种基于人工神经网络的新建道路养护数据迁移系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078363A1 (en) * 2014-09-17 2016-03-17 Caterpillar Inc. Method for Developing Machine Operation Classifier Using Machine Learning
CN109993223A (zh) * 2019-03-26 2019-07-09 南京道润交通科技有限公司 路面使用性能预测方法、存储介质、电子设备
CN110232400A (zh) * 2019-04-30 2019-09-13 冶金自动化研究设计院 一种梯度提升决策神经网络分类预测方法
CN111105332A (zh) * 2019-12-19 2020-05-05 河北工业大学 一种基于人工神经网络的高速公路智能预养护方法及系统
WO2021174857A1 (zh) * 2020-03-03 2021-09-10 长安大学 沥青路面水损害识别模型构建方法、识别方法及系统
CN112132542A (zh) * 2020-09-22 2020-12-25 广东华路交通科技有限公司 一种公路路网数据管理系统
CN113486188A (zh) * 2021-05-31 2021-10-08 安徽省交通规划设计研究总院股份有限公司 一种基于知识图谱的桥梁智能诊断系统
CN113918538A (zh) * 2021-10-14 2022-01-11 河北工业大学 一种基于人工神经网络的新建道路养护数据迁移系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴伟迪 等: ""面向路面使用性能的公路养护决策方法"", 《计算机应用与软件》, vol. 39, no. 2, 12 February 2022 (2022-02-12), pages 88 - 94 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235270A (zh) * 2023-11-16 2023-12-15 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备
CN117235270B (zh) * 2023-11-16 2024-02-02 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Also Published As

Publication number Publication date
CN115964483B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN112085947B (zh) 一种基于深度学习和模糊聚类的交通拥堵预测方法
CN108269401B (zh) 一种基于数据驱动的高架桥交通拥堵预测方法
CN112733442B (zh) 基于深度学习的路面长期性能预测模型的构建方法
Han et al. Intelligent decision model of road maintenance based on improved weight random forest algorithm
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
US8090538B2 (en) System and method for interpretation of well data
CN112270355B (zh) 基于大数据技术与sae-gru的主动安全预测方法
Dimitriou et al. Fuzzy modeling of freeway accident duration with rainfall and traffic flow interactions
CN111292534A (zh) 一种基于聚类与深度序列学习的交通状态估计方法
CN112990545B (zh) 一种高速公路交织区交通安全状态预测方法
CN113918538B (zh) 一种基于人工神经网络的新建道路养护数据迁移系统
CN113065722B (zh) 一种基于深度学习的连续多步预测道路智能养护系统
CN111784017A (zh) 一种基于路况因素回归分析的公路交通事故数量预测方法
CN108665093A (zh) 基于深度学习的高速公路交通事故严重度预测方法
CN111179592B (zh) 基于时空数据流融合分析的城市交通预测方法和系统
CN113431635B (zh) 半监督的盾构隧道掌子面地质类型预估方法及系统
CN115964483A (zh) 基于神经网络的高速公路养护大数据分类决策方法
Rusek The point nuisance method as a decision-support system based on Bayesian inference approach
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN112149922A (zh) 高速公路隧道下行线出入口区域事故严重程度预测方法
CN116957331A (zh) 风险旅客流量范围预测方法和装置
Tam et al. Diagnosis of prestressed concrete pile defects using probabilistic neural networks
CN107403391A (zh) 一种用于油田开发预安排项目的优化筛选方法
CN116340830B (zh) 一种基于深层记忆模型的高速公路机电系统故障分类方法
CN115860582B (zh) 一种基于自适应提升算法的冲击危险性智能预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant