CN110909818A - 一种基于tbox的整车运行数据的降维系统 - Google Patents
一种基于tbox的整车运行数据的降维系统 Download PDFInfo
- Publication number
- CN110909818A CN110909818A CN201911208091.7A CN201911208091A CN110909818A CN 110909818 A CN110909818 A CN 110909818A CN 201911208091 A CN201911208091 A CN 201911208091A CN 110909818 A CN110909818 A CN 110909818A
- Authority
- CN
- China
- Prior art keywords
- data
- calculation module
- principal
- principal component
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 230000002776 aggregation Effects 0.000 claims abstract description 27
- 238000004220 aggregation Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000013144 data compression Methods 0.000 abstract description 3
- 230000000379 polymerizing effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于TBOX的整车运行数据的降维系统,解决了现有的数据压缩方法无法满足整车运行数据分析需要的问题,属于数据分析处理领域。本发明的数据分割器将原始信号库存储的分类侧整车运行数据进行数据分割;简单PCA主成分分析器根据分割后的数据,获取各分类侧指标的主成分;第一聚合计算模块根据各分类侧指标的主成分获得各分类侧指标的主成分的指标值;车辆信息基础模型根据该指标值进行更新,获得每分钟车辆的基本特征;选主计算模块根据整车运行数据的主指标在获得的基本特征中选择主特征;增量PCA主成分分析器对主特征进行分析,获得影响整车运行数据的主指标数据的主成分;利用第二聚合计算模块对主成分进行聚合,获得二次降维数据。
Description
技术领域
本发明涉及一种数据主成分分析系统,特别涉及一种基于TBOX的整车运行数据的降维系统,属于数据分析处理领域。
背景技术
TBOX(Telematics BOX,车联网系统)管理平台每天约有5W辆车辆同时在线,车辆分布在全国各地,每天向平台传输入近8TB左右的数据,每年2PB的增量,其中包括位置、速度、动力侧传感器数据、能源侧传感器数据、供电侧传感数据及整车运行状态、报警情况、事件信息等整车运行数据。通过大数据技术对海量的整车运行数据进行有效的主成分分析降维,能快速、稳定、高效地将N维结构化大数据,转换成最小维度,尽可能保留相关数维,获得TBOX整车运行数据科学计算分析建模有益的信息。现有的数据压缩方法无法满足整车运行数据分析的需要。
发明内容
针对现有的数据压缩方法无法满足整车运行数据分析需要的问题,本发明提供一种基于TBOX的整车运行数据的降维系统。
本发明的一种基于TBOX的整车运行数据的降维系统,所述系统包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储;
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
本发明的有益效果,本发明实现了一套适用于大规模数据样本维度转换工具,在成熟的分布式计算大数据集群下可以快速、稳定、高效地维度转换。主成分分析法是一种相关性的分析法,本发明仅仅需要获得各维度的方差和分析主指标的偏离程度的信息,不受数据集以外的因素影响。各主成分之间正交,可消除原始数据成分间的相互影响的因素。本发明计算方法简单,主要运算是特征值分解,易于实现。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1所示,本实施方式的一种基于TBOX的整车运行数据的降维系统,包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
本实施方式的TBOX管理平台获得同一品牌型号车辆的整车运行数据,存储在原始信号库中,原始信号库中的整车运行数据是分类存储的,包括整车运行数据包括动力侧、能源侧、供电系统等;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分,本实施方式的简单PCA主成分分析器是为了设置过滤条件,去除条件外的无关数据;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
本实施方式的第一次降维是计算每监测车辆本体在各分类侧维度上最大相关系数,利用分布式Spark计算框架进行车辆数据分割及PCA主成分分析,reduce结果为第一次降维计算汇总不同分类侧下的影响因子,数字小于等于0.00不计入维度。
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征。
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
本实施方式的第二次降维是有因降维,比如在求故障成因模型之前,需要将第一次降维汇总数据,进行每小时或每日的数据聚合,计算动力侧故障时,将其全量分析前,进行第二次降维。二次降维主要使用L1正则去噪方法,即奇异值分解SVD的方法。
本实施方式的系统还包括:
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。
本实施方式的一次降维数据库存储第一次降维的数据,当一次降维的数据即满足需求时,方便使用。
TBOX管理平台每日平次总样本量可能是兆+,维度也是上千,直接去拟合数据可能会让YARN内存池爆掉,本实施方式用IncrementalPCA类来解决这个问题。IncrementalPCA先将数据分成多个batch,然后对每个batch依次递增调用partial_fit函数,这样一步步的得到最终的样本最优降维。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。
Claims (4)
1.一种基于TBOX的整车运行数据的降维系统,其特征在于,所述系统包括:
原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;
数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;
简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;
第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;
车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;
选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;
增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;
第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;
二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。
2.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述系统还包括:
一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。
3.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述数据分割器采用分布式Spark计算框架实现。
4.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述增量PCA主成分分析器采用奇异值分解SVD的方法实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911208091.7A CN110909818B (zh) | 2019-11-30 | 2019-11-30 | 一种基于tbox的整车运行数据的降维系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911208091.7A CN110909818B (zh) | 2019-11-30 | 2019-11-30 | 一种基于tbox的整车运行数据的降维系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909818A true CN110909818A (zh) | 2020-03-24 |
CN110909818B CN110909818B (zh) | 2022-08-09 |
Family
ID=69821699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911208091.7A Active CN110909818B (zh) | 2019-11-30 | 2019-11-30 | 一种基于tbox的整车运行数据的降维系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909818B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7715961B1 (en) * | 2004-04-28 | 2010-05-11 | Agnik, Llc | Onboard driver, vehicle and fleet data mining |
CN108108758A (zh) * | 2017-12-18 | 2018-06-01 | 佛山市米良仓科技有限公司 | 面向工业大数据的多层增量特征提取方法 |
US20180239740A1 (en) * | 2017-02-22 | 2018-08-23 | Sas Institute Inc. | Monitoring, detection, and surveillance system using principal component analysis with machine and sensor data |
CN109344517A (zh) * | 2018-10-14 | 2019-02-15 | 毛述春 | 一种新能源汽车的高压绝缘故障诊断方法 |
CN109376794A (zh) * | 2018-11-12 | 2019-02-22 | 武汉科技大学 | 一种铁水脱硫搅拌器的智能故障诊断方法及系统 |
CN110070145A (zh) * | 2019-04-30 | 2019-07-30 | 天津开发区精诺瀚海数据科技有限公司 | 基于增量聚类的lstm轮毂单品能耗预测 |
-
2019
- 2019-11-30 CN CN201911208091.7A patent/CN110909818B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7715961B1 (en) * | 2004-04-28 | 2010-05-11 | Agnik, Llc | Onboard driver, vehicle and fleet data mining |
US20180239740A1 (en) * | 2017-02-22 | 2018-08-23 | Sas Institute Inc. | Monitoring, detection, and surveillance system using principal component analysis with machine and sensor data |
CN108108758A (zh) * | 2017-12-18 | 2018-06-01 | 佛山市米良仓科技有限公司 | 面向工业大数据的多层增量特征提取方法 |
CN109344517A (zh) * | 2018-10-14 | 2019-02-15 | 毛述春 | 一种新能源汽车的高压绝缘故障诊断方法 |
CN109376794A (zh) * | 2018-11-12 | 2019-02-22 | 武汉科技大学 | 一种铁水脱硫搅拌器的智能故障诊断方法及系统 |
CN110070145A (zh) * | 2019-04-30 | 2019-07-30 | 天津开发区精诺瀚海数据科技有限公司 | 基于增量聚类的lstm轮毂单品能耗预测 |
Non-Patent Citations (3)
Title |
---|
BIKASH AGRAWAL等: ""Adaptive Anomaly Detection in Cloud Using Robust and Scalable Principal Component Analysis"", 《2016 15TH INTERNATIONAL SYMPOSIUM ON PARALLEL AND DISTRIBUTED COMPUTING (ISPDC)》 * |
单燕: ""数据流降维算法研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
张永艳: ""工业监测数据降维及应用"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909818B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chirigati et al. | Data polygamy: The many-many relationships among urban spatio-temporal data sets | |
CN107247811B (zh) | 基于Oracle数据库的SQL语句性能优化方法及装置 | |
CN103559300B (zh) | 数据的查询方法和查询装置 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
CN113688558B (zh) | 一种基于大数据库样本的汽车行驶工况构建方法及系统 | |
CN111125199B (zh) | 一种数据库访问方法、装置及电子设备 | |
CN114066073A (zh) | 电网负荷预测方法 | |
WO2021012861A1 (zh) | 数据查询耗时评估方法、装置、计算机设备和存储介质 | |
CN111177360A (zh) | 一种基于云上用户日志的自适应过滤方法及装置 | |
CN114298679A (zh) | 基于大数据的工业ai平台及其应用方法、介质及电子设备 | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN115689334A (zh) | 仓库管理系统的效率分析方法、系统及计算机设备 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN110287114A (zh) | 一种数据库脚本性能测试的方法及装置 | |
CN116414878A (zh) | 基于知识图谱的数据查询方法、系统、设备及存储介质 | |
CN105787113A (zh) | 一种基于plm数据库面向dpipp工艺信息的挖掘算法 | |
CN103207804A (zh) | 基于集群作业日志的MapReduce负载模拟方法 | |
CN110909818B (zh) | 一种基于tbox的整车运行数据的降维系统 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN114610234B (zh) | 一种存储系统参数推荐方法及相关装置 | |
CN115828156A (zh) | 一种基于电网元数据监测的偷漏电识别方法及系统 | |
CN112306421B (zh) | 一种用于存储分析测量数据格式mdf文件的方法和系统 | |
CN115098336A (zh) | 数仓任务监控方法、系统、设备及存储介质 | |
EP3465562A1 (en) | Data driven invocation of real time wind market forecasting analytics | |
Casals et al. | SPARQL query execution time prediction using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |