CN115964483A

CN115964483A - 基于神经网络的高速公路养护大数据分类决策方法

Info

Publication number: CN115964483A
Application number: CN202210857806.7A
Authority: CN
Inventors: 赵池航; 许朦升; 刘洋; 冯玉荣
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2023-04-14
Anticipated expiration: 2042-07-20
Also published as: CN115964483B

Abstract

本发明公开了一种基于神经网络的高速公路养护大数据分类决策方法，包括：研究分析了高速公路养护系统中的大数据分析技术；基于机器学习高速公路养护数据处理方法，采用NLP词袋模型对高速公路中文本类的数据进行规格化处理，通过对文本类数据进行词频统计之后得到词频特征，将其词袋化之后转化成数值形式，采用自编码器模型对数据进行降维处理；采用人工标签将养护建议分为三类，构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型，将对分类决策的影响因素从传统仅考虑路面使用性能增加到同时考虑路面使用性能、车道数两种基础数据以及历史养护数据。本发明对路面养护数据进行处理和分类决策，对高速公路养护决策系统提供技术支持。

Description

基于神经网络的高速公路养护大数据分类决策方法

技术领域

本发明专利涉及智能交通，智慧高速研究领域，具体涉及一种基于神经网络的高速公路养护大数据分类决策方法。

背景技术

在逐年累月的积累下，高速公路的数据越来越多，技术的更新使养护工作者能检测到更多不同类型的数据，对养护决策提出了新的课题和挑战，传统仅依靠人力进行数据管理及决策的方式出现检测异常的频率增加，且效率不高，养护工作者常常不能及时了解路面性能的异常情况从而分析原因，已逐渐无法满足日常工作及管理的要求。同时，传统的高速公路路面养护通常只考虑路面性能指标的影响，对交通量数据、历史养护数据的挖掘及应用远远不够，具有一定的片面性，这就导致养护规划与养护实际需求不相符。因此，本文使用数据挖掘技术来代替传统的人工统计技术，提出一种基于神经网络的高速公路养护大数据分类决策方法。

发明内容

发明目的：为了克服高速公路养护工作数据处理和决策技术中存在的不足，提供一种高速公路养护大数据分类决策方法，其利用NLP词袋模型和自编码器模型有效将不统一的多类型数据进行规格化、降维后处理成适合决策的数据，在加入不同影响因素后利用梯度提升决策树模型进行养护建议的分类决策。

技术方案：为实现上述目的，本发明提供一种基于神经网络的高速公路养护大数据分类决策方法，包括如下步骤：

S1：基于高速公路养护系统的大数据采集，采用基于NLP词袋模型对数据的规格化处理，运用无监督机器学习算法将原始数据集中的文本类数据转化为数值型数据；

S2：基于自编码器模型对数据的降维处理，使用反向传播算法来训练网络使输出等于输入，训练完后的中间结果即为降维结果；

S3：采用人工标签将养护建议分为三类，构建了用于高速公路养护大数据分类决策的梯度提升决策树分类模型，并使用混淆矩阵对模型分类的具体结果进行评价。

进一步的，所述步骤S1中采用基于NLP词袋模型对数据的规格化处理为：

将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格，如表1所示，包括三个方面：路面基础信息、历史养护数据、路面使用性能指数；基础数据主要包括起终点桩号、上下行、车道数、建成年份；历史养护数据包括养护次数、主要病害、治理措施；路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。

其中，文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施，对这些数据集中不同内容出现的次数进行计数，通过对数据集进行分词处理创建词汇表，根据每个词语出现的频数得到词频特征，并将其转化为词频矩阵，从而将原始数据集中的文本类数据转化为数值型数据。

表1高速公路养护大数据原始数据集(部分)

起始桩号	终止桩号	上下行	车道	建成时间	养护次数	主要病害	治理措施	PCI	RQI	RDI
											0	1000	上行	一车道	2000	3			96.04172	91.93258	90.74054
0	1000	上行	二车道	2000	3			93.1829	94.69217	88.71417
											0	1000	上行	车道	2000	3			96.55912	94.96524	89.59111
0	1000	上行	三车道	2000	0			91.5269	93.47259	92.8
											0	1000	上行	三车道	2000	0	路面抗滑性能不足	灌注	91.5269	93.47259	92.8
0	1000	下行	一车道	2000	2			94.90861	94.01493	93.6735
											0	1000	下行	二车道	2000	2			94.60151	94.05958	92.165
0	1000	下行	三车道	2000	2			95.10121	93.73879	90.9493
											0	1000	下行	三车道	2000	0			90.5001	93.51214	91.8
1000	2000	上行	一车道	2000	1			95.28965	94.55515	91.54846
											1000	2000	上行	二车道	2000	1			92.12268	94.79017	93.48678
1000	2000	上行	三车道	2000	1			96.45027	94.7376	92.1526
											1000	2000	上行	三车道	2000	0	路面抗滑性能不足	灌注	93.9585	94.76314	94
1000	2000	下行	一车道	2000	0			94.91664	95.14765	94.6256
											1000	2000	下行	二车道	2000	0			94.38756	93.98028	90.95702
1000	2000	下行	三车道	2000	0			97.55945	94.41631	93.43822
											1000	2000	下行	三车道	2000	0			94.19114	94.46511	91.8
2000	3000	上行	一车道	2000	1			96.452	95.28428	92.63564
											2000	3000	上行	二车道	2000	1			88.95115	94.50406	91.29132
2000	3000	上行	三车道	2000	1			95.861	94.35984	91.12498
											2000	3000	上行	三车道	2000	0			88.72629	93.55147	94
2000	3000	上行	三车道	2000	0	路面抗滑性能不足	灌注	88.72629	93.55147	94

进一步的，所述步骤S2中通过自编码器模型对数据进行降维处理，使用反向传播算法来训练网络使输出等于输入的具体步骤如下：

S2-1：构建自编码器模型；

S2-2：用随机数种子控制每次划分的训练集和测试集；

S2-3：通过添加噪声增加系统的鲁棒性；

S2-4：输入原始数据集后设置隐藏层，自编码器使用反向传播算法来训练网络使输出等于输入，隐藏层即为训练完后的降维结果。

进一步的，所述步骤S2-1中，自编码器模型结构包括：

Input Layer输入层(x₁，x₂，…，x_m，bias)，Hidden Layer隐藏层(h₁，h₂，…，h_n，bias)，以及Output Layer输出层

。自编码器的前向传播公式为d＝F(Wx+bias)，h_w，b(x)＝F(W′d+bias)，其中F表示激活函数，本文选取Sigmoid函数，W＝{w₁，w₂，…w_n-1}表示输入层和隐藏层之间的权重集合，W′＝{w′₁，w′₂，…w′_n-1}表示隐藏层和输出层之间的权重集合，bias表示偏置，h_w，b(x)表示与x相映射的输出值。令自编码器的目标期望输出等于输入，最终学习结果为h_w，b(x)≈x，数据X的重构误差为

进一步的，所述步骤S2-4中，输入原始数据集后设置隐藏层的步骤如下：

①输入17维的原始数据集；

②将dense_1和dense_2设置为隐藏层，其中dense_1为500维数据集，dense_2为5维数据集；

③对自编码器模型进行训练，向前和向后传播中所有批次的单次训练迭代数量为epochs＝20，一次训练所抓取的数据样本数量为batch_size＝20，并输出带进度条的输出日志信息verbose＝1；

④只取dense_2输出，完成将17维数据降为5维。

原始数据集在降维后输出如表2所示。

表2高速公路养护大数据原始数据集(降维后)

0	1	2	3	4	5	6	7
								5449.411	5918.808	5265.87	6324.709	4850.813	96.04172	91.93258	90.74054
5449.258	5918.597	5265.804	6324.808	4850.857	93.1829	94.69217	88.71417
								5449.526	5918.905	5266.069	6325.004	4850.998	96.55912	94.96524	89.59111
5443.461	5912.348	5260.703	6317.616	4845.805	91.5269	93.47259	92.8
								5446.819	5916.201	5264.091	6321.708	4848.804	91.5269	93.47259	92.8
5447.553	5916.768	5264.326	6322.303	4849.252	94.90861	94.01493	93.6735
								5447.398	5916.557	5264.268	6322.403	4849.296	94.60151	94.05958	92.165
5447.665	5916.871	5264.53	6322.597	4849.435	95.10121	93.73879	90.9493
								5443.626	5912.492	5260.953	6317.668	4845.975	90.5001	93.51214	91.8
5445.369	5914.434	5262.294	6319.781	4847.352	95.28965	94.55515	91.54846
								5445.214	5914.219	5262.228	6319.879	4847.395	92.12268	94.79017	93.48678
5445.484	5914.535	5262.491	6320.08	4847.536	96.45027	94.7376	92.1526
								5446.819	5916.201	5264.091	6321.708	4848.804	93.9585	94.76314	94
5443.511	5912.394	5260.753	6317.375	4845.79	94.91664	95.14765	94.6256
								5443.354	5912.184	5260.688	6317.472	4845.834	94.38756	93.98028	90.95702
5443.626	5912.492	5260.953	6317.668	4845.975	97.55945	94.41631	93.43822
								5443.626	5912.492	5260.953	6317.668	4845.975	94.19114	94.46511	91.8
5445.369	5914.434	5262.294	6319.781	4847.352	96.452	95.28428	92.63564
								5445.214	5914.219	5262.228	6319.879	4847.395	88.95115	94.50406	91.29132

进一步的，所述步骤S3中采用人工标签将养护建议分为三类，构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型，并使用混淆矩阵对模型分类的具体结果进行评价的具体步骤如下：

S3-1：根据养护工程文件中的养护资料采用人工标签将养护数据分为三类；

S3-2：构建梯度提升决策树分类模型；

S3-3：分析训练好的模型在测试数据上的效果，通过比较仅考虑路面使用性能数据，考虑路面使用性能和车道数两种基础数据，考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序，其中编号“0～4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集。

S3-4：使用保存好的模型来实际预测将来，此时人工标签为测试集的预测标签，并通过对比预测标签和初始标签来检验准确率，输出四种情况下的准确率比较；

S3-5：将混淆矩阵每一列设置为各类的真实分类数量，每一行设置为各类的预测分类数量进行模型评价并输出矩阵，同时进行精确率、召回率的计算比较。

进一步的，所述步骤S3-1中，根据养护工程文件中的养护资料采用人工标签将养护数据分为三类的步骤如下：

根据原始数据集中关于路面使用性能指数的数据，即路面破损指数PCI、车辙深度指数RDI、平整度指数RQI数据进行分类。其中，第一类为没有养护建议但实际需要养护的数据，记为“0”，这类数据集的分类标准为养护工程文档中有直接标注的数据集；第二类为有养护建议的数据，记为“1”，其中，预防养护和修复养护都被认为是有养护建议，预防养护和修复养护的划分标准以交通运输部公布的具体指标为准；第三类为没有给出养护建议也无需养护的数据，记为“2”；

进一步的，所述步骤S3-2中梯度提升决策树的基本算法可以表示如下：

输入训练样本D＝{(x₁，y₁)，(x₂，y₂)，…，(x_N，y_N)}，其中

y_i∈y＝{-1，1}，基本分类器为h_m(x)，最终分类器为H(x)，损失函数L(y，h(x))：

(1)初始化为：

(2)对于基学习器h_m(x)，m∈{1，2，…，M}；

1)计算每个样本的残差：

2)将上步得到的残差作为样本新的真实值，并将数据(x_i，r_m，i)作为下一棵树的训练数据拟合一棵回归树，得到第m棵树的叶结点区域R_m，i，j＝1，2，…，J(J为叶结点数量)；

3)对叶子区域j＝1，2，…，J，计算最佳拟合值：

4)更新当前分类器为：

(3)得到最终回归树：

进一步的，所述步骤S3-2中，构建梯度提升决策树分类模型的步骤如下：

①设定one_hot编码的最大值为one_hot_max_size＝10；

②设定学习率learning_rate＝0.03；

③设定损失函数为loss_function＝'MultiClass'，并自定义损失函数为custom_loss＝['Recall'，'Accuracy']；

④设定验证集的评估矩阵eval_metric＝'Accuracy'，将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait＝40；

⑤使用Pool组织数据，训练模型。

进一步的，所述步骤S3-5中，混淆矩阵各指标的计算为：

准确率

精确率

召回率

其中，TP表示真实类型为positive，模型预测的类型也为positive，预测准确；FP表示预测为positive，但真实类型为negative，真实类型和预测类型不一致，预测错误；FN表示预测为negative，但真实类型为positive，真实类型和预测类型不一致，预测错误；TN表示真实类型为negative，模型预测的类型也为negative，预测准确。

本发明对高速公路路面养护数据进行了归纳和分析，形成信息化矩阵，并采用基于神经网络的算法对路面养护数据进行处理，将其转化为适用于机器学习的数据，改进了传统养护管理只考虑路面使用性能，增加了车道数和历史养护数据作为影响因素，并提出了梯度提升决策树的方法进行路面养护决策，以便于养护管理人员对高速公路路面养护大数据的管理和决策。

有益效果：本发明所提出的基于神经网络的高速公路养护大数据分类决策方法相比于传统的养护管理决策具有效率优化效果。同时，基于信息化矩阵的构建提高了养护管理系统大数据维护的可伸缩性。

附图说明

图1为本发明中NLP词袋模型处理后词袋化后结果。

图2为本发明中自编码器网络结构图。

图3为本发明中仅考虑传统路面使用性能指标时，使用梯度提升决策树模型分类决策后的特征重要性。

图4为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后，使用梯度提升决策树模型分类决策后的特征重要性。

图5为本发明中仅考虑传统路面使用性能指标时，使用梯度提升决策树模型分类决策后的模型运行准确率。

图6为本发明中同时考虑路面使用性能指标、车道数两种基础数据和历史养护数据后，使用梯度提升决策树模型分类决策后的模型运行准确率。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

基于神经网络的高速公路养护大数据分类决策方法，包括如下步骤：

其中，文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施，对这些数据集中不同内容出现的次数进行计数，通过对数据集进行分词处理创建词汇表，根据每个词语出现的频数得到词频特征，并将其转化为词频矩阵，从而将原始数据集中的文本类数据转化为数值型数据，其词袋化后的结果如图1所示。

表1高速公路养护大数据原始数据集(部分)

起始桩号	终止桩号	上下行	车道	建成时间	养护次数	主要病害	治理措施	PCI	RQI	RDI
											0	1000	上行	一车道	2000	3			96.04172	91.93258	90.74054
0	1000	上行	二车道	2000	3			93.1829	94.69217	88.71417
											0	1000	上行	三车道	2000	3			96.55912	94.96524	89.59111
0	1000	上行	三车道	2000	0			91.5269	93.47259	92.8
											0	1000	上行	三车道	2000	0	路面抗滑性能不足	灌注	91.5269	93.47259	92.8
0	1000	下行	一车道	2000	2			94.90861	94.01493	93.6735
											0	1000	下行	二车道	2000	2			94.60151	94.05958	92.165
0	1000	下行	三车道	2000	2			95.10121	93.73879	90.9493
											0	1000	下行	三车道	2000	0			90.5001	93.51214	91.8
1000	2000	上行	一车道	2000	1			95.28965	94.55515	91.54846
											1000	2000	上行	二车道	2000	1			92.12268	94.79017	93.48678
1000	2000	上行	三车道	2000	1			96.45027	94.7376	92.1526
											1000	2000	上行	三车道	2000	0	路面抗滑性能不足	灌注	93.9585	94.76314	94
1000	2000	下行	一车道	2000	0			94.91664	95.14765	94.6256
											1000	2000	下行	二车道	2000	0			94.38756	93.98028	90.95702
1000	2000	下行	三车道	2000	0			97.55945	94.41631	93.43822
											1000	2000	下行	三车道	2000	0			94.19114	94.46511	91.8
2000	3000	上行	一车道	2000	1			96.452	95.28428	92.63564
											2000	3000	上行	二车道	2000	1			88.95115	94.50406	91.29132
2000	3000	上行	三车道	2000	1			95.861	94.35984	91.12498
											2000	3000	上行	三车道	2000	0			88.72629	93.55147	94
2000	3000	上行	三车道	2000	0	路面抗滑性能不足	灌注	88.72629	93.55147	94

S2-1：构建自编码器模型；

S2-2：用随机数种子控制每次划分的训练集和测试集；

S2-3：通过添加噪声增加系统的鲁棒性；

进一步的，所述步骤S2-1中，自编码器模型结构包括：

①输入17维的原始数据集；

④只取dense_2输出，完成将17维数据降为5维。

自编码器的网络结构如图2所示，原始数据集在降维后输出如表2所示。

表2高速公路养护大数据原始数据集(降维后)

0	1	2	3	4	5	6	7
								5449.411	5918.808	5265.87	6324.709	4850.813	96.04172	91.93258	90.74054
5449.258	5918.597	5265.804	6324.808	4850.857	93.1829	94.69217	88.71417
								5449.526	5918.905	5266.069	6325.004	4850.998	96.55912	94.96524	89.59111
5443.461	5912.348	5260.703	6317.616	4845.805	91.5269	93.47259	92.8
								5446.819	5916.201	5264.091	6321.708	4848.804	91.5269	93.47259	92.8
5447.553	5916.768	5264.326	6322.303	4849.252	94.90861	94.01493	93.6735
								5447.398	5916.557	5264.268	6322.403	4849.296	94.60151	94.05958	92.165
5447.665	5916.871	5264.53	6322.597	4849.435	g5.10121	93.73879	90.9493
								5443.626	5912.492	5260.953	6317.668	4845.975	90.5001	93.51214	91.8
5445.369	5914.434	5262.294	6319.781	4847.352	95.28965	94.55515	91.54846
								5445.214	5914.219	5262.228	6319.879	4847.395	92.12268	94.79017	93.48678
5445.484	5914.535	5262.491	6320.08	4847.536	96.45027	94.7376	92.1526
								5446.819	5916.201	5264.091	6321.708	4848.804	93.9585	94.76314	94
5443.511	5912.394	5260.753	6317.375	4845.79	94.91664	95.14765	94.6256
								5443.354	5912.184	5260.688	6317.472	4845.834	94.38756	93.98028	90.95702
5443.626	5912.492	5260.953	6317.668	4845.975	97.55945	94.41631	93.43822
								5443.626	5912.492	5260.953	6317.668	4845.975	94.19114	94.46511	91.8
5445.369	5914.434	5262.294	6319.781	4847.352	96.452	95.28428	92.63564
								5445.214	5914.219	5262.228	6319.879	4847.395	88.95115	94.50406	91.29132

S3-2：构建梯度提升决策树分类模型；

S3-3：分析训练好的模型在测试数据上的效果，通过比较仅考虑路面使用性能数据，考虑路面使用性能和车道数两种基础数据，考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序，其中编号“0～4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集，图3、图4为仅考虑路面使用性能数据和同时考虑三种因素时的特征重要性排序输出。

S3-4：使用保存好的模型来实际预测将来，此时人工标签为测试集的预测标签，并通过对比预测标签和初始标签来检验准确率，输出四种情况下的准确率比较，图5、图6为仅考虑路面使用性能和同时考虑三种因素时模型准确率输出；

(1)初始化为：

(2)对于基学习器h_m(x)，m∈{1，2，…，M}；

1)计算每个样本的残差：

3)对叶子区域j＝1，2，…，J，计算最佳拟合值：

4)更新当前分类器为：

(3)得到最终回归树：

①设定one_hot编码的最大值为one_hot_max_size＝10；

②设定学习率learning_rate＝0.03；

⑤使用Pool组织数据，训练模型。

进一步的，所述步骤S3-5中，混淆矩阵各指标的计算为：

准确率

精确率

召回率

实施例

基于神经网络的高速公路养护大数据分类决策方法，包括以下步骤：

将高速公路养护大数据原始数据集根据不同道路不同年份通过Excel整理成表格，包括三个方面：路面基础信息、历史养护数据、路面使用性能指数；基础数据主要包括起终点桩号、上下行、车道数、建成年份；历史养护数据包括养护次数、主要病害、治理措施；路面使用性能指数包括路面破损指数PCI、车辙深度指数RDI、平整度指数RQI。

其中，文本类数据主要出现在上下行的区分、车道的选择以及主要病害和治理措施，对这些数据集中不同内容出现的次数进行计数，通过对数据集进行分词处理创建词汇表，根据每个词语出现的频数得到词频特征，并将其转化为词频矩阵，从而将原始数据集中的文本类数据转化为数值型数据

S2-1：构建自编码器模型；

自编码器模型结构包括Input Layer输入层(x₁，x₂，…，x_m，bias)，Hidden Layer隐藏层(h₁，h₂，…，h_n，bias)，以及Output Layer输出层

自编码器的前向传播公式为d＝F(Wx+bias)，h_w，b(x)＝F(W′d+bias)，其中F表示激活函数，本文选取Sigmoid函数，W＝{w₁，w₂，…w_n-1}表示输入层和隐藏层之间的权重集合，W′＝{w′₁，w′₂，…w′_n-1}表示隐藏层和输出层之间的权重集合，bias表示偏置，h_w，b(x)表示与x相映射的输出值。令自编码器的目标期望输出等于输入，最终学习结果为h_w，b(x)≈x，数据X的重构误差为

S2-2：用随机数种子控制每次划分的训练集和测试集；

S2-3：通过添加噪声增加系统的鲁棒性；

其具体为：

①输入17维的原始数据集；

④只取dense_2输出，完成将17维数据降为5维。

S3-2：构建梯度提升决策树分类模型，其基本算法可以表示如下：

(1)初始化为：

(2)对于基学习器h_m(x)，m∈{1，2，…，M}；

1)计算每个样本的残差：

3)对叶子区域j＝1，2，…，J，计算最佳拟合值：

4)更新当前分类器为：

(3)得到最终回归树：

其具体为：

①设定one_hot编码的最大值为one_hot_max_size＝10；

②设定学习率learning_rate＝0.03；

⑤使用Pool组织数据，训练模型。

混淆矩阵各指标的计算为：

准确率

精确率

召回率

为了验证上述方法的效果，本实施例中将传统养护决策的准确率与查全率与步骤S3中梯度提升决策树分类决策模型的结果进行实验对比，具体如表3、表4所示。

表3加入不同变量的预测结果对比

养护建议决策的准确率从传统路面性能指标决策的73.66％提高到了最终的90.12％，同时通过控制变量可发现当加入车道数和历史养护数据时，基于神经网络的梯度提升决策树模型的分类准确率会提高，这一点从降维数据集在各项数据组中的特征重要性也可以看出。

表4养护路段的查全率比较

根据混淆矩阵所得结果进行养护路段查全率的比较，可以清晰看出对于同样仅考虑路面性能指标对高速公路路面养护进行决策分类，使用基于神经网络的梯度提升决策树分类模型时，养护路段查全率相比于传统人工决策的71.79％提高到了93.42％，实验结果表明，运用决策树模型可以明显提升高速公路路面养护系统的性能。

将使用梯度提升决策树分类模型的四种数据类型都用混淆矩阵进行评价，三种分类所得精确率和召回率结果如表5所示。

表5不同变量情况下精确率与召回率的比较

在加入本发明所研究的全部变量后，与传统只根据路面使用性能指标进行决策相比，模型的精确率和召回率都得到了提高。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于神经网络的高速公路养护大数据分类决策方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S1中采用基于NLP词袋模型对数据的规格化处理，具体包括以下步骤：

S1-1：构建NLP词袋模型；

S1-2：对数据集中的文本类数据创建字典列表；

S1-3：对文本类数据进行计数；

S1-4：对文本类数据进行分词处理得到词频特征，并将其转化为词频矩阵，从而完成对文本类数据的词袋化。

3.根据权利要求2所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S1-1中，NLP词袋模型是一种基于深度学习算法的对文本类自然语言进行建模时表示文本数据的方法，从文档的所有单词中提取特征单词，在此基础上用这些特征项矩阵建模，仅考虑所有词的权重而不考虑词本身的顺序、语法，也不考虑词与词之间的逻辑关系，文档中每个单词都不依赖其它单词而独立出现，权重的分配与该词在文本中出现的频率相关。

4.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S2中基于自编码器模型对数据的降维处理，具体步骤如下：

S2-1：构建自编码器模型；

S2-2：用随机数种子控制每次划分的训练集和测试集；

S2-3：通过添加噪声增加系统的鲁棒性；

5.根据权利要求4所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S2-1中自编码器模型结构包括Input Layer输入层(x₁，x₂，...，x_m，bias)，Hidden Layer隐藏层(h₁，h₂，...，h_n，bias)，以及Output Layer输出层

自编码器的前向传播公式为d＝F(Wx+bias)，h_w，b(x)＝F(W′d+bias)，其中F表示激活函数，本文选取Sigmoid函数，W＝{w₁，w₂，...w_n-1}表示输入层和隐藏层之间的权重集合，W′＝{w′₁，wA′₂，...w′_n-1}表示隐藏层和输出层之间的权重集合，bias表示偏置，h_w，b(x)表示与x相映射的输出值；令自编码器的目标期望输出等于输入，最终学习结果为h_w，b(x)≈x，数据X的重构误差为

6.根据权利要求4所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S2-4中，输入原始数据集后设置隐藏层的步骤如下：

①输入17维的原始数据集；

④只取dense_2输出，完成将17维数据降为5维。

7.根据权利要求1所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S3中采用人工标签将养护建议分为三类，构建用于高速公路养护大数据分类决策的梯度提升决策树分类模型，具体步骤如下：

S3-1：根据养护工程文件中的养护资料采用人工标签将养护数据分为三类；S3-2：构建梯度提升决策树分类模型；

S3-3：分析训练好的模型在测试数据上的效果，通过比较仅考虑路面使用性能数据，考虑路面使用性能和车道数两种基础数据，考虑路面使用性能和历史养护数据以及同时考虑三种因素四种情况后按照各参数的输出特征重要性排序，其中编号“0～4”为通过NLP词袋模型和自编码器模型词袋化和降维过后的数据集；

8.根据权利根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S3-2中梯度提升决策树的基本算法表示如下：

输入训练样本D＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中

(1)初始化为：

(2)对于基学习器h_m(x)，m∈{1，2，...，M}；

1)计算每个样本的残差：

2)将上步得到的残差作为样本新的真实值，并将数据(x_i，r_m，i)作为下一棵树的训练数据拟合一棵回归树，得到第m棵树的叶结点区域R_m，i，j＝1，2，...，J，其中，J为叶结点数量；

3)对叶子区域j＝1，2，...，J，计算最佳拟合值：

4)更新当前分类器为：

(3)得到最终回归树：

9.根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S3-2中，定义梯度提升决策树分类模型的步骤如下：

①设定one_hot编码的最大值为one_hot_max_size＝10；

②设定学习率learning_rate＝0.03；

③设定损失函数为loss_function＝’MultiClass’，并自定义损失函数为custom_loss＝[’Recall’，’Accuracy’]；

④设定验证集的评估矩阵eval_metric＝’Accuracy’，将在迭代之后以最佳度量值继续训练的迭代次数设定为od_wait＝40；

⑤使用Pool组织数据，训练模型。

10.根据权利根据权利要求7所述的基于神经网络的高速公路养护大数据分类决策方法，其特征在于：所述步骤S3-5中混淆矩阵中各指标的计算：准确率

精确率

召回率

其中，TP表示真实类型为positive，模型预测的类型也为positive，预测准确；FP表示预测为positive，但真实类型为negative，真实类型和预测类型不一致，预测错误；FN表示预测为negative，但真实类型为positive，真实类型和预测类型不一致，预测错误；TN表示真实类型为negative，模型预测的类型也为negative，预测准确，