CN110909818B - 一种基于tbox的整车运行数据的降维系统 - Google Patents

一种基于tbox的整车运行数据的降维系统 Download PDF

Info

Publication number
CN110909818B
CN110909818B CN201911208091.7A CN201911208091A CN110909818B CN 110909818 B CN110909818 B CN 110909818B CN 201911208091 A CN201911208091 A CN 201911208091A CN 110909818 B CN110909818 B CN 110909818B
Authority
CN
China
Prior art keywords
data
calculation module
principal
principal component
main
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911208091.7A
Other languages
English (en)
Other versions
CN110909818A (zh
Inventor
李德贤
刘金泽
郑祥滨
姜军
杨春艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Hi Tech Holding Group Co Ltd
Original Assignee
Aerospace Hi Tech Holding Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Hi Tech Holding Group Co Ltd filed Critical Aerospace Hi Tech Holding Group Co Ltd
Priority to CN201911208091.7A priority Critical patent/CN110909818B/zh
Publication of CN110909818A publication Critical patent/CN110909818A/zh
Application granted granted Critical
Publication of CN110909818B publication Critical patent/CN110909818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于TBOX的整车运行数据的降维系统,解决了现有的数据压缩方法无法满足整车运行数据分析需要的问题,属于数据分析处理领域。本发明的数据分割器将原始信号库存储的分类侧整车运行数据进行数据分割;简单PCA主成分分析器根据分割后的数据,获取各分类侧指标的主成分;第一聚合计算模块根据各分类侧指标的主成分获得各分类侧指标的主成分的指标值;车辆信息基础模型根据该指标值进行更新,获得每分钟车辆的基本特征;选主计算模块根据整车运行数据的主指标在获得的基本特征中选择主特征;增量PCA主成分分析器对主特征进行分析,获得影响整车运行数据的主指标数据的主成分;利用第二聚合计算模块对主成分进行聚合,获得二次降维数据。

Description

一种基于TBOX的整车运行数据的降维系统
技术领域
本发明涉及一种数据主成分分析系统,特别涉及一种基于TBOX的整车运行数据的降维系统,属于数据分析处理领域。
背景技术
TBOX(Telematics BOX,车联网系统)管理平台每天约有5W辆车辆同时在线,车辆分布在全国各地,每天向平台传输入近8TB左右的数据,每年2PB的增量,其中包括位置、速度、动力侧传感器数据、能源侧传感器数据、供电侧传感数据及整车运行状态、报警情况、事件信息等整车运行数据。通过大数据技术对海量的整车运行数据进行有效的主成分分析降维,能快速、稳定、高效地将N维结构化大数据,转换成最小维度,尽可能保留相关数维,获得TBOX整车运行数据科学计算分析建模有益的信息。现有的数据压缩方法无法满足整车运行数据分析的需要。
发明内容
针对现有的数据压缩方法无法满足整车运行数据分析需要的问题,本发明提供一种基于TBOX的整车运行数据的降维系统。
本发明的一种基于TBOX的整车运行数据的降维系统,所述系统包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储;
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
本发明的有益效果,本发明实现了一套适用于大规模数据样本维度转换工具,在成熟的分布式计算大数据集群下可以快速、稳定、高效地维度转换。主成分分析法是一种相关性的分析法,本发明仅仅需要获得各维度的方差和分析主指标的偏离程度的信息,不受数据集以外的因素影响。各主成分之间正交,可消除原始数据成分间的相互影响的因素。本发明计算方法简单,主要运算是特征值分解,易于实现。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,本实施方式的一种基于TBOX的整车运行数据的降维系统,包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
本实施方式的TBOX管理平台获得同一品牌型号车辆的整车运行数据,存储在原始信号库中,原始信号库中的整车运行数据是分类存储的,包括整车运行数据包括动力侧、能源侧、供电系统等;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分,本实施方式的简单PCA主成分分析器是为了设置过滤条件,去除条件外的无关数据;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
本实施方式的第一次降维是计算每监测车辆本体在各分类侧维度上最大相关系数,利用分布式Spark计算框架进行车辆数据分割及PCA主成分分析,reduce结果为第一次降维计算汇总不同分类侧下的影响因子,数字小于等于0.00不计入维度。
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征。
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
本实施方式的第二次降维是有因降维,比如在求故障成因模型之前,需要将第一次降维汇总数据,进行每小时或每日的数据聚合,计算动力侧故障时,将其全量分析前,进行第二次降维。二次降维主要使用L1正则去噪方法,即奇异值分解SVD的方法。
本实施方式的系统还包括:
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。
本实施方式的一次降维数据库存储第一次降维的数据,当一次降维的数据即满足需求时,方便使用。
TBOX管理平台每日平次总样本量可能是兆+,维度也是上千,直接去拟合数据可能会让YARN内存池爆掉,本实施方式用IncrementalPCA类来解决这个问题。IncrementalPCA先将数据分成多个batch,然后对每个batch依次递增调用partial_fit函数,这样一步步的得到最终的样本最优降维。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (4)

1.一种基于TBOX的整车运行数据的降维系统,其特征在于,所述系统包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
2.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述系统还包括:
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。
3.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述数据分割器采用分布式Spark计算框架实现。
4.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述增量PCA主成分分析器采用奇异值分解SVD的方法实现。
CN201911208091.7A 2019-11-30 2019-11-30 一种基于tbox的整车运行数据的降维系统 Active CN110909818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911208091.7A CN110909818B (zh) 2019-11-30 2019-11-30 一种基于tbox的整车运行数据的降维系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911208091.7A CN110909818B (zh) 2019-11-30 2019-11-30 一种基于tbox的整车运行数据的降维系统

Publications (2)

Publication Number Publication Date
CN110909818A CN110909818A (zh) 2020-03-24
CN110909818B true CN110909818B (zh) 2022-08-09

Family

ID=69821699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911208091.7A Active CN110909818B (zh) 2019-11-30 2019-11-30 一种基于tbox的整车运行数据的降维系统

Country Status (1)

Country Link
CN (1) CN110909818B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715961B1 (en) * 2004-04-28 2010-05-11 Agnik, Llc Onboard driver, vehicle and fleet data mining
CN108108758A (zh) * 2017-12-18 2018-06-01 佛山市米良仓科技有限公司 面向工业大数据的多层增量特征提取方法
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
CN109376794A (zh) * 2018-11-12 2019-02-22 武汉科技大学 一种铁水脱硫搅拌器的智能故障诊断方法及系统
CN110070145A (zh) * 2019-04-30 2019-07-30 天津开发区精诺瀚海数据科技有限公司 基于增量聚类的lstm轮毂单品能耗预测

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303954B2 (en) * 2017-02-22 2019-05-28 Sas Institute Inc. Monitoring, detection, and surveillance system using principal component analysis with machine and sensor data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7715961B1 (en) * 2004-04-28 2010-05-11 Agnik, Llc Onboard driver, vehicle and fleet data mining
CN108108758A (zh) * 2017-12-18 2018-06-01 佛山市米良仓科技有限公司 面向工业大数据的多层增量特征提取方法
CN109344517A (zh) * 2018-10-14 2019-02-15 毛述春 一种新能源汽车的高压绝缘故障诊断方法
CN109376794A (zh) * 2018-11-12 2019-02-22 武汉科技大学 一种铁水脱硫搅拌器的智能故障诊断方法及系统
CN110070145A (zh) * 2019-04-30 2019-07-30 天津开发区精诺瀚海数据科技有限公司 基于增量聚类的lstm轮毂单品能耗预测

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Adaptive Anomaly Detection in Cloud Using Robust and Scalable Principal Component Analysis";Bikash Agrawal等;《2016 15th International Symposium on Parallel and Distributed Computing (ISPDC)》;20170424;100-106 *
"工业监测数据降维及应用";张永艳;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190815;I138-470 *
"数据流降维算法研究";单燕;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20170215;I138-2405 *

Also Published As

Publication number Publication date
CN110909818A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN106997386B (zh) 一种olap预计算模型、自动建模方法及自动建模系统
Chirigati et al. Data polygamy: The many-many relationships among urban spatio-temporal data sets
US20170330078A1 (en) Method and system for automated model building
CN107247811B (zh) 基于Oracle数据库的SQL语句性能优化方法及装置
CN107016501A (zh) 一种高效的工业大数据多维分析方法
CN103176974A (zh) 优化数据库中访问路径的方法和装置
CN111177360B (zh) 一种基于云上用户日志的自适应过滤方法及装置
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN113688558A (zh) 一种基于大数据库样本的汽车行驶工况构建方法及系统
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN114066073A (zh) 电网负荷预测方法
CN114298679A (zh) 基于大数据的工业ai平台及其应用方法、介质及电子设备
CN115689334A (zh) 仓库管理系统的效率分析方法、系统及计算机设备
CN110287114A (zh) 一种数据库脚本性能测试的方法及装置
CN112182031B (zh) 数据查询方法及装置、存储介质、电子装置
CN105787113A (zh) 一种基于plm数据库面向dpipp工艺信息的挖掘算法
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN110909818B (zh) 一种基于tbox的整车运行数据的降维系统
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN110347726A (zh) 一种高效时序数据集成存储查询系统及方法
CN111061779A (zh) 一种基于大数据平台的数据处理方法及装置
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质
CN115828156A (zh) 一种基于电网元数据监测的偷漏电识别方法及系统
CN115098336A (zh) 数仓任务监控方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant