CN106055579B

CN106055579B - 基于人工神经网络的车辆性能数据清洗系统及其方法

Info

Publication number: CN106055579B
Application number: CN201610341779.2A
Authority: CN
Inventors: 易平; 孟以爽; 王英博; 王维科; 李正发; 孙海丰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2020-01-21
Anticipated expiration: 2036-05-20
Also published as: CN106055579A

Abstract

一种基于人工神经网络的车辆性能数据清洗系统及其方法，包括：数据输入模块、样本训练模块、数据清洗模块和数据预测模块，其中：数据输入模块用于输入车辆性能的原始数据，样本训练模块调用原始数据并进行人工神经网络的训练，并向数据清洗模块传输训练好的原始数据的神经网络信息；数据清洗模块根据相对误差对神经网络信息进行异常数据清洗，并将清洗后的原始数据信息反馈至样本训练模块；样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练，并通过数据预测模块对车辆性能进行预测；本发明能够检测出有规律的测量数据中的异常数据，并能在大数据量情况下快速检测清洗。

Description

基于人工神经网络的车辆性能数据清洗系统及其方法

技术领域

本发明涉及的是一种数据清洗领域的技术，具体是一种基于人工神经网络的车辆性能数据清洗系统及其方法。

背景技术

随着车辆在当代生活中的不可或缺，对车辆的性能估计显得尤为重要。车辆在许多时候起到了关键作用，如果性能达不到需要的标准，甚至是在急需用车辆时车辆发生故障，都会对生产生活的顺利进行产生影响。如果要前往平时较少到达的地方，可能无法对车辆的性能进行准确的预测。而对车辆性能的预测可通过机器学习方法来实现。

机器学习主要研究计算机如何模拟人类的学习行为，从大量的信息中获取有用的知识。通过机器学习，如神经网络算法、深度学习算法等可以对数据进行分析，找出一些潜在的规律，更好地利用和掌握已有的数据，预测出数据的走向。

人工神经网络是机器学习的一个重要分支，通过仿效人脑中的生物神经网络来对信息进行处理。人工神经网络由大量的神经元分层连接而成，整个网络的学习则体现在了各神经元的连接强度上。人工神经网络通常使用迭代的算法来训练整个网络，随机设定权重，通过计算误差进行反馈再来调整各层的权重，直至收敛。

人工神经网络包括BP神经网络算法、GRNN神经网络算法、RBF神经网络算法、ELMAN神经网络算法、灰色神经网络算法、极限学习机等。BP神经网络算法是一种反向传播算法，由信息的正向传递和误差的反向传播组成，通过网络将误差信号沿原路传回来修改各层神经元的权值直到达到预期目标；GRNN神经网络算法即广义回归神经网络，由径向基神经元和线性神经元组成，常用于函数逼近，在处理实时环境中的稀疏数据十分有效；RBF神经网络算法即径向基神经网络，是一种前馈神经网络和局部逼近网络，只有一个隐层，隐层的激活函数为径向基函数，输出层节点激活函数为线性函数，收敛速度快；ELMAN神经网络算法是一种局部回归函数，除了隐含层之外还有一层关联层，从隐层来接收反馈信号，每个隐层节点都与一个对应的关联层节点连接，隐层的传递函数为非线性函数，输出层与关联层的传输函数均为线性函数；灰色神经网络算法为利用灰色理论来实现的对不确定行为特征进行预测的算法，可用于小样本、贫信息的数据处理；极限学习机是一种单隐层前馈网络学习算法，算法随机产生各层阈值且在训练中无需调整，只需设置隐层神经元的个数就能获得唯一最优解。

在数据的分析预测中，由于有些数据通过手动测量而存在一些异常数据，这些异常数据可能影响到最终预测的结果。因此，需要在进行预测之前对这些异常数据进行清洗，以使得异常数据导致的不良影响降至最低，并提高预测的准确度。

经过对现有技术的检索发现，中国专利文献号CN103064974A，公布日2013.4.24，公开了一种基于时空分析的交通流数据清洗方法，包括脏数据存储模块、干净数据存储模块和运算模块，其中：所述脏数据存储模块，对实时接收到的交通流信息不加改变的按照固定格式进行存储；所述运算模块，按照固定时间间隔从脏数据存储模块中提取最新数据，同时从干净数据库中提取与之在时间和空间存在匹配关系的数据，进行运算；所述干净数据存储模块，对运算模块运算完毕后的数据按照固定格式进行存储。但该技术运算复杂，且需另外采用算法根据干净数据进行预测；并且对一些有规律可循的数据，无法实现根据不同的原始数据特性进行学习，发现数据之间的潜在规律，从而更精确地确定异常数据。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于人工神经网络的车辆性能数据清洗系统及其方法，通过对原始数据进行采样训练，采用训练好的人工神经网络的算法返回原始数据进行预测，并与原始数据中的预测输出数据进行比较，通过两者间的相对误差以及平均相对误差判断异常数据进行清洗。

本发明是通过以下技术方案实现的：

本发明涉及一种基于人工神经网络的车辆性能数据清洗系统，包括：数据输入模块、样本训练模块、数据清洗模块和数据预测模块，其中：数据输入模块用于输入车辆性能的原始数据，样本训练模块调用原始数据并进行人工神经网络的训练，并向数据清洗模块传输经训练的BP神经网络计算所有神经元的输出；数据清洗模块对所有神经元的输出进行异常数据清洗，并将清洗后的原始数据信息反馈至样本训练模块；样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练，并通过数据预测模块对车辆性能进行预测。

所述的原始数据包括环境数据和性能数据。

所述的人工神经网络算法可采用BP神经网络算法、GRNN神经网络算法、RBF神经网络算法、ELMAN神经网络算法、灰色神经网络算法或极限学习机。

本发明涉及一种基于上述系统的数据清洗方法，通过人工神经网络算法对测量得到的车辆性能的原始数据进行学习与训练，用经训练的算法对每条原始数据的预测输入数据进行预测分析，并与原始数据的预测输出数据比较得到相对误差；计算平均相对误差，根据每条原始数据的相对误差与平均相对误差之间的误差值，并与预设的阈值进行比较，差值大于阈值时判定为异常数据并进行清洗。

所述的预测输入数据是指对预测结果有影响的条件数据。

所述的预测输出数据是指需要预测的数据。

技术效果

与现有技术相比，本发明采用基于人工神经网络的方法对异常数据进行清洗，可较为准确地实现数据预测，并可适用于大规模数据情况下的快速数据清洗。

附图说明

图1为数据清洗系统示意图；

图2为样本训练模块工作示意图；

图3为数据清洗模块工作示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示，本实施例涉及一种基于人工神经网络的数据清洗系统，包括：数据输入模块、样本训练模块、数据清洗模块和数据预测模块，其中：数据输入模块用于输入车辆性能的原始数据，样本训练模块调用原始数据并进行人工神经网络的训练，并向数据清洗模块传输训练好的原始数据的神经网络信息；数据清洗模块对神经网络信息进行异常数据清洗，并将清洗后的原始数据信息反馈至样本训练模块；样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练，并通过数据预测模块对车辆性能进行预测。

所述的原始数据包括环境数据和性能数据。

所述的人工神经网络算法采用BP神经网络算法。

如图2和图3所示，本实施例涉及基于上述系统的数据清洗方法，具体包括以下步骤：

步骤1、输入测量得到的车辆性能的原始数据，选择BP神经网络算法的参数信息，随机生成权值矩阵。

所述的原始数据包括预测输入数据和的预测输出数据。

所述的预测输入数据是指对预测结果有影响的条件数据。

所述的预测输出数据是指需要预测的数据。

所述的预测输入数据包括：海拔、气温、气压、风速和湿度。

所述的预测输入数据的存储格式如表1所示。

表1预测输入数据存储格式

所述的预测输入数据实例如表2所示。

表2预测输入数据实例

海拔	气温	气压	风速	湿度
					4768	5	526	5	45
4340	9	552	2	30
					4135	9	591.3	4	35
4135	8	586	3	32

所述的预测输出数据包括：加速时间、制动距离、启动时间、点火次数、水温、最高车速和电瓶电流。

所述的预测输出数据的存储格式如表3所示。

表3预测输出数据存储格式

字段名称	数据类型	说明
			加速时间	Float	车辆性能因素中的加速时间，单位为s
制动距离	Float	车辆性能因素中的制动距离，单位为m
			启动时间	Float	车辆性能因素中的启动时间，单位为s
点火次数	Float	车辆性能因素中的点火次数，单位为次
			水温	Float	车辆性能因素中的水温，单位为℃
最高车速	Float	车辆性能因素中的最高车速，单位为km/h
			电瓶电流	Float	车辆性能因素中的电瓶电流，单位为CCA

所述的预测输出数据实例如表4所示。

表4预测输出数据实例

加速时间	制动距离	启动时间	点火次数	水温	最高车速	电瓶电流
							7	6.5	3	2	89	95	836
6.4	6	10	3	86	100	756
							6	5.4	2	2	84	100	734
5.6	5.5	15	3	83	100	726

所述的BP神经网络算法的参数信息包括：隐层数、各层传递函数、终止训练的误差值和最大训练步长。

所述的隐层数为算法中的隐含层数量，本实施例的隐层数为2。

所述的各层传递函数为各隐层与输出层的传递函数，本实施例有两个隐层传递函数和一个输出层传递函数。

所述的隐层传递函数为sigmoid传递函数，其公式为：其中：x为上一层神经元的输出，y为传递到下一层神经元的输入。

所述的输出层传递函数为线性传递函数，其公式为：y＝x，其中：x为上一层神经元的输出，y为传递到输出层神经元的输入。

所述的终止训练的误差值为0.001。

所述的最大训练步长是指如果训练次数达到最大训练步长时仍未达到终止训练的误差值，则结束训练；本实施例的最大训练步长为5000次。

所述的权值矩阵是指BP神经网络中每个神经元在连接中的权值形成的矩阵。

本实施例的权值矩阵初始值为随机设定的，通过学习进行修改。

实验中，输入层到隐层间的权值矩阵为：

实验中，隐层到输出层间的权值矩阵为：

BP神经网络每次学习得到的权值矩阵可能有略微不同。

步骤2、在原始数据中的预测输入数据和预测输出数据作为训练样本进行训练，运用经训练的BP神经网络计算所有神经元的输出，进入步骤3。

步骤3、计算各神经元的均方误差值，进入步骤4。

步骤4、根据各神经元的均方误差值更新权值矩阵，并判断均方误差值是否达到终止训练的误差值，如果达到，则进入步骤6；否则进入步骤5。

步骤5、判断样本的训练次数是否达到最大训练步长，如果达到则进入步骤6，否则回到步骤2。

步骤6、令原始数据条数i＝1，进入步骤7。

步骤7、运用步骤4或步骤5中达到终止训练的误差值或达到最大训练步长的BP神经网络对第i条原始数据进行预测分析，得到该条原始数据的预测值，并计算其与对应的预测输出值之间的相对误差；令i＝i+1，进入步骤8。

步骤8、判断i是否大于原始数据的条数，如果是则进入步骤9，否则回到步骤7。

步骤9、计算步骤7得到的所有原始数据的相对误差的平均相对误差，令j＝1，进入步骤10。

步骤10、比较第j条原始数据的相对误差与平均相对误差，判断两者的差值是否小于阈值，如果小于阈值，则视为正常数据；否则视为异常数据并进行清理，令j＝j+1，进入步骤11。

步骤11、判断j是否大于原始数据的条数，如果是则结束数据清理，否则返回步骤10。

所述的阈值是指对异常数据和正常数据的划分阈值，体现出数据清洗的严格程度。阈值越小，则数据清洗的严格性越高，阈值越大则说明数据清洗的严格性更低。

本实施例通过MatLab进行多次实验，选定阈值为0.1，即若某神经元输出的误差值大于0.1，则该神经元输出视为异常数据。

本实施例对500条原始数据进行训练与清洗，耗时60s，则平均一个性能输出项的学习、分析和清理所花费的时间不到10s。

Claims

1.一种基于人工神经网络的车辆性能数据清洗系统的清洗方法，其特征在于，所述系统包括：数据输入模块、样本训练模块、数据清洗模块和数据预测模块，其中：数据输入模块用于输入车辆性能的原始数据，样本训练模块调用原始数据并进行人工神经网络的训练，并向数据清洗模块传输经训练的BP神经网络计算所有神经元的输出；数据清洗模块对所有神经元的输出进行异常数据清洗，并将清洗后的原始数据信息反馈至样本训练模块；样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练，并通过数据预测模块对车辆性能进行预测；

所述的原始数据包括预测输入数据和预测输出数据，其中：预测输入数据是指对预测结果有影响的条件数据；预测输出数据是指需要预测的数据；

所述的人工神经网络算法采用BP神经网络算法，其参数信息包括：隐层数、各层传递函数、终止训练的误差值和最大训练步长，其中隐层数为算法中的隐含层数量，各层传递函数为各隐层与输出层的传递函数，即隐层传递函数和输出层传递函数；

所述的隐层传递函数为sigmoid传递函数，其公式为：其中：x为上一层神经元的输出，y为传递到下一层神经元的输入；

所述的输出层传递函数为线性传递函数，其公式为：y＝x，其中：x为上一层神经元的输出，y为传递到输出层神经元的输入；

所述的最大训练步长是指如果训练次数达到最大训练步长时仍未达到终止训练的误差值，则结束训练；

所述的清洗方法，通过人工神经网络算法对测量得到的车辆性能的原始数据进行学习与训练，用经训练的BP神经网络对每条原始数据的预测输入数据进行预测分析，并与原始数据的预测输出数据比较得到相对误差；计算平均相对误差，根据每条原始数据的相对误差与平均相对误差之间的误差值，并与预设的阈值进行比较，差值大于阈值时判定为异常数据并进行清洗；

所述的预测输入数据是指对预测结果有影响的条件数据，包括海拔、气温、气压、风速、湿度；

所述的预测输出数据是指需要预测的数据，包括：加速时间、制动距离、启动时间、点火次数、水温、最高车速和电瓶电流，其存储格式为：