CN106055579B - 基于人工神经网络的车辆性能数据清洗系统及其方法 - Google Patents

基于人工神经网络的车辆性能数据清洗系统及其方法 Download PDF

Info

Publication number
CN106055579B
CN106055579B CN201610341779.2A CN201610341779A CN106055579B CN 106055579 B CN106055579 B CN 106055579B CN 201610341779 A CN201610341779 A CN 201610341779A CN 106055579 B CN106055579 B CN 106055579B
Authority
CN
China
Prior art keywords
data
neural network
module
prediction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610341779.2A
Other languages
English (en)
Other versions
CN106055579A (zh
Inventor
易平
孟以爽
王英博
王维科
李正发
孙海丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610341779.2A priority Critical patent/CN106055579B/zh
Publication of CN106055579A publication Critical patent/CN106055579A/zh
Application granted granted Critical
Publication of CN106055579B publication Critical patent/CN106055579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于人工神经网络的车辆性能数据清洗系统及其方法,包括:数据输入模块、样本训练模块、数据清洗模块和数据预测模块,其中:数据输入模块用于输入车辆性能的原始数据,样本训练模块调用原始数据并进行人工神经网络的训练,并向数据清洗模块传输训练好的原始数据的神经网络信息;数据清洗模块根据相对误差对神经网络信息进行异常数据清洗,并将清洗后的原始数据信息反馈至样本训练模块;样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练,并通过数据预测模块对车辆性能进行预测;本发明能够检测出有规律的测量数据中的异常数据,并能在大数据量情况下快速检测清洗。

Description

基于人工神经网络的车辆性能数据清洗系统及其方法
技术领域
本发明涉及的是一种数据清洗领域的技术,具体是一种基于人工神经网络的车辆性能数据清洗系统及其方法。
背景技术
随着车辆在当代生活中的不可或缺,对车辆的性能估计显得尤为重要。车辆在许多时候起到了关键作用,如果性能达不到需要的标准,甚至是在急需用车辆时车辆发生故障,都会对生产生活的顺利进行产生影响。如果要前往平时较少到达的地方,可能无法对车辆的性能进行准确的预测。而对车辆性能的预测可通过机器学习方法来实现。
机器学习主要研究计算机如何模拟人类的学习行为,从大量的信息中获取有用的知识。通过机器学习,如神经网络算法、深度学习算法等可以对数据进行分析,找出一些潜在的规律,更好地利用和掌握已有的数据,预测出数据的走向。
人工神经网络是机器学习的一个重要分支,通过仿效人脑中的生物神经网络来对信息进行处理。人工神经网络由大量的神经元分层连接而成,整个网络的学习则体现在了各神经元的连接强度上。人工神经网络通常使用迭代的算法来训练整个网络,随机设定权重,通过计算误差进行反馈再来调整各层的权重,直至收敛。
人工神经网络包括BP神经网络算法、GRNN神经网络算法、RBF神经网络算法、ELMAN神经网络算法、灰色神经网络算法、极限学习机等。BP神经网络算法是一种反向传播算法,由信息的正向传递和误差的反向传播组成,通过网络将误差信号沿原路传回来修改各层神经元的权值直到达到预期目标;GRNN神经网络算法即广义回归神经网络,由径向基神经元和线性神经元组成,常用于函数逼近,在处理实时环境中的稀疏数据十分有效;RBF神经网络算法即径向基神经网络,是一种前馈神经网络和局部逼近网络,只有一个隐层,隐层的激活函数为径向基函数,输出层节点激活函数为线性函数,收敛速度快;ELMAN神经网络算法是一种局部回归函数,除了隐含层之外还有一层关联层,从隐层来接收反馈信号,每个隐层节点都与一个对应的关联层节点连接,隐层的传递函数为非线性函数,输出层与关联层的传输函数均为线性函数;灰色神经网络算法为利用灰色理论来实现的对不确定行为特征进行预测的算法,可用于小样本、贫信息的数据处理;极限学习机是一种单隐层前馈网络学习算法,算法随机产生各层阈值且在训练中无需调整,只需设置隐层神经元的个数就能获得唯一最优解。
在数据的分析预测中,由于有些数据通过手动测量而存在一些异常数据,这些异常数据可能影响到最终预测的结果。因此,需要在进行预测之前对这些异常数据进行清洗,以使得异常数据导致的不良影响降至最低,并提高预测的准确度。
经过对现有技术的检索发现,中国专利文献号CN103064974A,公布日2013.4.24,公开了一种基于时空分析的交通流数据清洗方法,包括脏数据存储模块、干净数据存储模块和运算模块,其中:所述脏数据存储模块,对实时接收到的交通流信息不加改变的按照固定格式进行存储;所述运算模块,按照固定时间间隔从脏数据存储模块中提取最新数据,同时从干净数据库中提取与之在时间和空间存在匹配关系的数据,进行运算;所述干净数据存储模块,对运算模块运算完毕后的数据按照固定格式进行存储。但该技术运算复杂,且需另外采用算法根据干净数据进行预测;并且对一些有规律可循的数据,无法实现根据不同的原始数据特性进行学习,发现数据之间的潜在规律,从而更精确地确定异常数据。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于人工神经网络的车辆性能数据清洗系统及其方法,通过对原始数据进行采样训练,采用训练好的人工神经网络的算法返回原始数据进行预测,并与原始数据中的预测输出数据进行比较,通过两者间的相对误差以及平均相对误差判断异常数据进行清洗。
本发明是通过以下技术方案实现的:
本发明涉及一种基于人工神经网络的车辆性能数据清洗系统,包括:数据输入模块、样本训练模块、数据清洗模块和数据预测模块,其中:数据输入模块用于输入车辆性能的原始数据,样本训练模块调用原始数据并进行人工神经网络的训练,并向数据清洗模块传输经训练的BP神经网络计算所有神经元的输出;数据清洗模块对所有神经元的输出进行异常数据清洗,并将清洗后的原始数据信息反馈至样本训练模块;样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练,并通过数据预测模块对车辆性能进行预测。
所述的原始数据包括环境数据和性能数据。
所述的人工神经网络算法可采用BP神经网络算法、GRNN神经网络算法、RBF神经网络算法、ELMAN神经网络算法、灰色神经网络算法或极限学习机。
本发明涉及一种基于上述系统的数据清洗方法,通过人工神经网络算法对测量得到的车辆性能的原始数据进行学习与训练,用经训练的算法对每条原始数据的预测输入数据进行预测分析,并与原始数据的预测输出数据比较得到相对误差;计算平均相对误差,根据每条原始数据的相对误差与平均相对误差之间的误差值,并与预设的阈值进行比较,差值大于阈值时判定为异常数据并进行清洗。
所述的预测输入数据是指对预测结果有影响的条件数据。
所述的预测输出数据是指需要预测的数据。
技术效果
与现有技术相比,本发明采用基于人工神经网络的方法对异常数据进行清洗,可较为准确地实现数据预测,并可适用于大规模数据情况下的快速数据清洗。
附图说明
图1为数据清洗系统示意图;
图2为样本训练模块工作示意图;
图3为数据清洗模块工作示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例涉及一种基于人工神经网络的数据清洗系统,包括:数据输入模块、样本训练模块、数据清洗模块和数据预测模块,其中:数据输入模块用于输入车辆性能的原始数据,样本训练模块调用原始数据并进行人工神经网络的训练,并向数据清洗模块传输训练好的原始数据的神经网络信息;数据清洗模块对神经网络信息进行异常数据清洗,并将清洗后的原始数据信息反馈至样本训练模块;样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练,并通过数据预测模块对车辆性能进行预测。
所述的原始数据包括环境数据和性能数据。
所述的人工神经网络算法采用BP神经网络算法。
如图2和图3所示,本实施例涉及基于上述系统的数据清洗方法,具体包括以下步骤:
步骤1、输入测量得到的车辆性能的原始数据,选择BP神经网络算法的参数信息,随机生成权值矩阵。
所述的原始数据包括预测输入数据和的预测输出数据。
所述的预测输入数据是指对预测结果有影响的条件数据。
所述的预测输出数据是指需要预测的数据。
所述的预测输入数据包括:海拔、气温、气压、风速和湿度。
所述的预测输入数据的存储格式如表1所示。
表1预测输入数据存储格式
Figure GDA0002039489110000031
Figure GDA0002039489110000041
所述的预测输入数据实例如表2所示。
表2预测输入数据实例
海拔 气温 气压 风速 湿度
4768 5 526 5 45
4340 9 552 2 30
4135 9 591.3 4 35
4135 8 586 3 32
所述的预测输出数据包括:加速时间、制动距离、启动时间、点火次数、水温、最高车速和电瓶电流。
所述的预测输出数据的存储格式如表3所示。
表3预测输出数据存储格式
字段名称 数据类型 说明
加速时间 Float 车辆性能因素中的加速时间,单位为s
制动距离 Float 车辆性能因素中的制动距离,单位为m
启动时间 Float 车辆性能因素中的启动时间,单位为s
点火次数 Float 车辆性能因素中的点火次数,单位为次
水温 Float 车辆性能因素中的水温,单位为℃
最高车速 Float 车辆性能因素中的最高车速,单位为km/h
电瓶电流 Float 车辆性能因素中的电瓶电流,单位为CCA
所述的预测输出数据实例如表4所示。
表4预测输出数据实例
加速时间 制动距离 启动时间 点火次数 水温 最高车速 电瓶电流
7 6.5 3 2 89 95 836
6.4 6 10 3 86 100 756
6 5.4 2 2 84 100 734
5.6 5.5 15 3 83 100 726
所述的BP神经网络算法的参数信息包括:隐层数、各层传递函数、终止训练的误差值和最大训练步长。
所述的隐层数为算法中的隐含层数量,本实施例的隐层数为2。
所述的各层传递函数为各隐层与输出层的传递函数,本实施例有两个隐层传递函数和一个输出层传递函数。
所述的隐层传递函数为sigmoid传递函数,其公式为:其中:x为上一层神经元的输出,y为传递到下一层神经元的输入。
所述的输出层传递函数为线性传递函数,其公式为:y=x,其中:x为上一层神经元的输出,y为传递到输出层神经元的输入。
所述的终止训练的误差值为0.001。
所述的最大训练步长是指如果训练次数达到最大训练步长时仍未达到终止训练的误差值,则结束训练;本实施例的最大训练步长为5000次。
所述的权值矩阵是指BP神经网络中每个神经元在连接中的权值形成的矩阵。
本实施例的权值矩阵初始值为随机设定的,通过学习进行修改。
实验中,输入层到隐层间的权值矩阵为:
实验中,隐层到输出层间的权值矩阵为:
Figure GDA0002039489110000052
BP神经网络每次学习得到的权值矩阵可能有略微不同。
步骤2、在原始数据中的预测输入数据和预测输出数据作为训练样本进行训练,运用经训练的BP神经网络计算所有神经元的输出,进入步骤3。
步骤3、计算各神经元的均方误差值,进入步骤4。
步骤4、根据各神经元的均方误差值更新权值矩阵,并判断均方误差值是否达到终止训练的误差值,如果达到,则进入步骤6;否则进入步骤5。
步骤5、判断样本的训练次数是否达到最大训练步长,如果达到则进入步骤6,否则回到步骤2。
步骤6、令原始数据条数i=1,进入步骤7。
步骤7、运用步骤4或步骤5中达到终止训练的误差值或达到最大训练步长的BP神经网络对第i条原始数据进行预测分析,得到该条原始数据的预测值,并计算其与对应的预测输出值之间的相对误差;令i=i+1,进入步骤8。
步骤8、判断i是否大于原始数据的条数,如果是则进入步骤9,否则回到步骤7。
步骤9、计算步骤7得到的所有原始数据的相对误差的平均相对误差,令j=1,进入步骤10。
步骤10、比较第j条原始数据的相对误差与平均相对误差,判断两者的差值是否小于阈值,如果小于阈值,则视为正常数据;否则视为异常数据并进行清理,令j=j+1,进入步骤11。
步骤11、判断j是否大于原始数据的条数,如果是则结束数据清理,否则返回步骤10。
所述的阈值是指对异常数据和正常数据的划分阈值,体现出数据清洗的严格程度。阈值越小,则数据清洗的严格性越高,阈值越大则说明数据清洗的严格性更低。
本实施例通过MatLab进行多次实验,选定阈值为0.1,即若某神经元输出的误差值大于0.1,则该神经元输出视为异常数据。
本实施例对500条原始数据进行训练与清洗,耗时60s,则平均一个性能输出项的学习、分析和清理所花费的时间不到10s。

Claims (1)

1.一种基于人工神经网络的车辆性能数据清洗系统的清洗方法,其特征在于,所述系统包括:数据输入模块、样本训练模块、数据清洗模块和数据预测模块,其中:数据输入模块用于输入车辆性能的原始数据,样本训练模块调用原始数据并进行人工神经网络的训练,并向数据清洗模块传输经训练的BP神经网络计算所有神经元的输出;数据清洗模块对所有神经元的输出进行异常数据清洗,并将清洗后的原始数据信息反馈至样本训练模块;样本训练模块基于人工神经网络算法对清洗后的原始数据信息样本进行学习训练,并通过数据预测模块对车辆性能进行预测;
所述的原始数据包括预测输入数据和预测输出数据,其中:预测输入数据是指对预测结果有影响的条件数据;预测输出数据是指需要预测的数据;
所述的人工神经网络算法采用BP神经网络算法,其参数信息包括:隐层数、各层传递函数、终止训练的误差值和最大训练步长,其中隐层数为算法中的隐含层数量,各层传递函数为各隐层与输出层的传递函数,即隐层传递函数和输出层传递函数;
所述的隐层传递函数为sigmoid传递函数,其公式为:其中:x为上一层神经元的输出,y为传递到下一层神经元的输入;
所述的输出层传递函数为线性传递函数,其公式为:y=x,其中:x为上一层神经元的输出,y为传递到输出层神经元的输入;
所述的最大训练步长是指如果训练次数达到最大训练步长时仍未达到终止训练的误差值,则结束训练;
所述的清洗方法,通过人工神经网络算法对测量得到的车辆性能的原始数据进行学习与训练,用经训练的BP神经网络对每条原始数据的预测输入数据进行预测分析,并与原始数据的预测输出数据比较得到相对误差;计算平均相对误差,根据每条原始数据的相对误差与平均相对误差之间的误差值,并与预设的阈值进行比较,差值大于阈值时判定为异常数据并进行清洗;
所述的预测输入数据是指对预测结果有影响的条件数据,包括海拔、气温、气压、风速、湿度;
所述的预测输出数据是指需要预测的数据,包括:加速时间、制动距离、启动时间、点火次数、水温、最高车速和电瓶电流,其存储格式为:
Figure FDA0002235192490000012
CN201610341779.2A 2016-05-20 2016-05-20 基于人工神经网络的车辆性能数据清洗系统及其方法 Active CN106055579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610341779.2A CN106055579B (zh) 2016-05-20 2016-05-20 基于人工神经网络的车辆性能数据清洗系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610341779.2A CN106055579B (zh) 2016-05-20 2016-05-20 基于人工神经网络的车辆性能数据清洗系统及其方法

Publications (2)

Publication Number Publication Date
CN106055579A CN106055579A (zh) 2016-10-26
CN106055579B true CN106055579B (zh) 2020-01-21

Family

ID=57177721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610341779.2A Active CN106055579B (zh) 2016-05-20 2016-05-20 基于人工神经网络的车辆性能数据清洗系统及其方法

Country Status (1)

Country Link
CN (1) CN106055579B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108828519B (zh) * 2018-05-24 2022-08-09 桂林电子科技大学 一种基于机器学习的高精度室内可见光定位方法
CN109801345B (zh) * 2018-12-20 2023-05-26 武汉西山艺创文化有限公司 一种基于神经网络的原画线稿辅助绘制方法和装置
CN110222844A (zh) * 2019-05-30 2019-09-10 西安交通大学 一种基于人工神经网络的压缩机性能预测方法
DE102019217071A1 (de) * 2019-11-06 2021-05-06 Robert Bosch Gmbh Verfahren zum Ermitteln einer unzulässigen Abweichung des Systemverhaltens einer technischen Einrichtung von einem Normwertebereich
EP3859359B8 (en) * 2020-01-28 2024-04-10 Rohde & Schwarz GmbH & Co. KG Signal analysis method and test system
CN112308207B (zh) * 2020-09-14 2022-09-06 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 网络模型训练方法、避雷器过电压电性预测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN105550700A (zh) * 2015-12-08 2016-05-04 国网山东省电力公司电力科学研究院 一种基于关联分析和主成分分析的时间序列数据清洗方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155735B2 (en) * 2006-09-19 2012-04-10 The Cleveland Clinic Foundation Prediction and prevention of postoperative atrial fibrillation in cardiac surgery patients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045807A (zh) * 2015-06-04 2015-11-11 浙江力石科技股份有限公司 互联网交易信息的数据清洗算法
CN105550700A (zh) * 2015-12-08 2016-05-04 国网山东省电力公司电力科学研究院 一种基于关联分析和主成分分析的时间序列数据清洗方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BP神经网络在车辆制动性能预测中的应用;朱向东等;《江苏理工大学学报(自然科学版)》;20000131;第21卷(第1期);第36-38页 *
基于人工神经网络的多维离群点检测算法;梁兵等;《微型机与应用》;20141231;第33卷(第5期);第76-78页 *

Also Published As

Publication number Publication date
CN106055579A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN106055579B (zh) 基于人工神经网络的车辆性能数据清洗系统及其方法
CN110428004B (zh) 数据失衡下基于深度学习的机械零部件故障诊断方法
CN108960303B (zh) 一种基于lstm的无人机飞行数据异常检测方法
CN110377984A (zh) 一种工业设备剩余有效寿命预测方法、系统及电子设备
CN113869208B (zh) 基于sa-acwgan-gp的滚动轴承故障诊断方法
CN108256556A (zh) 基于深度信念网络的风力发电机组齿轮箱故障诊断方法
Peng et al. A new Jacobian matrix for optimal learning of single-layer neural networks
CN111783362B (zh) 一种电动闸阀剩余使用寿命确定方法及系统
CN115580445B (zh) 一种未知攻击入侵检测方法、装置和计算机可读存储介质
CN111506036B (zh) 一种重尾噪声干扰下的多变量Hammerstein模型辨识方法及系统
CN113723007A (zh) 基于DRSN和麻雀搜索优化BiLSTM的机械设备剩余寿命预测方法
CN107798383B (zh) 改进的核极限学习机定位方法
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN114266278B (zh) 一种基于双重注意力网络的设备剩余使用寿命预测方法
CN115828754A (zh) 基于多尺度时空融合网络模型的刀具磨损状态监测方法
CN112418175A (zh) 基于域迁移的滚动轴承故障诊断方法、系统及存储介质
CN111624522A (zh) 基于蚁群优化rbf神经网络控制变压器故障诊断方法
CN111967087A (zh) 基于神经网络的网联车辆决策控制模型建立及评估方法
CN114331214A (zh) 基于强化学习的域自适应轴承声纹故障诊断方法及系统
CN112052551B (zh) 一种风机喘振运行故障识别方法及系统
CN108984851B (zh) 一种带时延估计的加权高斯模型软测量建模方法
CN116052254A (zh) 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法
CN114720129A (zh) 一种基于双向gru的滚动轴承剩余寿命预测方法及系统
CN107437112B (zh) 一种基于改进多尺度核函数的混合rvm模型预测方法
CN116596396A (zh) 一种基于k近邻插值和slstm的工业聚乙烯过程质量预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant