CN114510519A - 一种基于工业大数据模型的可视化分析方法及系统 - Google Patents

一种基于工业大数据模型的可视化分析方法及系统 Download PDF

Info

Publication number
CN114510519A
CN114510519A CN202210089291.0A CN202210089291A CN114510519A CN 114510519 A CN114510519 A CN 114510519A CN 202210089291 A CN202210089291 A CN 202210089291A CN 114510519 A CN114510519 A CN 114510519A
Authority
CN
China
Prior art keywords
model
data
visualization
training
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210089291.0A
Other languages
English (en)
Inventor
梁宏宇
刘金易
王建广
刘璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Casicloud Co ltd
Original Assignee
Beijing Casicloud Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Casicloud Co ltd filed Critical Beijing Casicloud Co ltd
Priority to CN202210089291.0A priority Critical patent/CN114510519A/zh
Publication of CN114510519A publication Critical patent/CN114510519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于工业大数据模型的可视化分析方法及系统,所述方法包括数据获取、数据预处理、创建特征工程、划分数据集、模型选择、模型训练、模型评估、模型发布、模型维护和数据展示;所述系统包括数据管理模块、模型管理模块、模型计算模块和数据可视化模块。本发明通过工业大数据分析与机器学习相结合,实现了工业数据模型可视化分析,极大地提高了用于模型训练的数据的准确性,并且能够在数据较少的情况下有效地提高模型训练的效率,提升模型训练的准确性,节约模型训练成本。

Description

一种基于工业大数据模型的可视化分析方法及系统
技术领域
本发明涉及工业大数据技术领域,具体来说,涉及一种基于工业大数据模型的可视化分析方法及系统。
背景技术
工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,工业产品的全生命周期从市场规划、设计、制造、销售到维护的过程中也会产生大量的结构化和非结构化数据,从而形成了工业大数据,而目前的工业大数据仍需不断升级才能助力智能制造。
目前大多数的工业大数据具备多源异构、多尺度、不确定、高噪声等特征,且存在工业模型准确率低等问题。而针对这些问题,目前还没有有效的解决办法。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于工业大数据模型的可视化分析方法及系统,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于工业大数据模型的可视化分析方法,包括如下步骤:
S1 数据获取,根据工业模型训练需求采集数据样本;
S2 数据预处理,在数据存储和使用前对数据进行数据探索和基础数据预处理,根据业务逻辑选择数据组织和数据格式;
S3 创建特征工程,对预处理后的数据进行特征选择、特征提取、特征转化和特征构建;
S4 划分数据集,在使用机器学习算法训练之前,按比例将数据集划分为训练集和测试集,进行交叉检验;
S5 模型选择,在算法库中选择合适的算法模型或使用自定义的算法模型进行训练;
S6 模型训练,平台通过Airflow进行任务调度和资源分配来实现分布式高并发的多线程机器学习,并根据算法模型的特点进行硬件和软件的性能优化;
S7 模型评估,通过模型评估指标对模型进行评估;
S8 模型发布,模型评估完成后,模型以离线的形式生成模型文件;
S9 模型维护,模型发布后,持续进行数据反馈收集和模型迭代;
S10 数据展示,通过数据可视化组件Superset的创建和Dashboard的分享,为数据分析提供可视化方案,通过预定义的可视化图表或自定义开发图表类型实现数据的展示。
进一步地,S2中所述数据探索通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系。
进一步地,所述基础统计量包括均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度和相关系数;所述图表包括统计表和统计图,所述统计表包括频数交叉表、透视表、列联表和woe-iv分析,所述统计图包括散点图、直方图、箱线图、条状图、饼图和热力图。
进一步地,S2中所述基础数据预处理包括数据完整性、数据合并、数据去重、数据采样、数据合法性、数据增减和数据格式调整的处理。
进一步地,S7中所述模型评估指标包括回归模型、分类模型、聚类分析和评估方法。
进一步地,S8中所述模型文件为支持PMML格式的模型文件。
进一步地,,S9中算法工程师对模型的更新方式为手工更新或通过Airflow自动更新。
一种基于工业大数据模型的可视化分析系统,包括数据管理模块、模型管理模块、模型计算模块和数据可视化模块;
所述数据管理模块,用于建立数据源与模型之间的连接,对采集数据进行预处理,对预处理后的数据进行特征提取和特征构造,划分数据集;
所述模型管理模块,用于将所述模型的算法数据存储到模型算法数据库中,针对所述模型进行模型评估、模型发布、模型维护的操作;
所述模型计算模块,用于将数据加载到模型训练系统中,选择所述算法数据库中的模型算法对数据进行模型训练,得到模型训练的结果,将所述模型训练的结果确定为目标模型;
所述数据可视化模块,用于将目标模型通过数据可视化组件将数据模型转为可视化图表。
本发明的有益效果:本发明通过工业大数据分析与机器学习相结合,实现了工业数据模型可视化分析,极大地提高了用于模型训练的数据的准确性,并且能够在数据较少的情况下有效地提高模型训练的效率,提升模型训练的准确性,节约模型训练成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于工业大数据模型的可视化分析方法的流程图;
图2是根据本发明实施例所述的基于工业大数据模型的可视化分析系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于工业大数据模型的可视化分析方法,包括如下步骤;
S1 数据获取,根据工业模型训练需求采集数据样本。
S2数据预处理,在主要数据存储和使用之前对数据进行处理,减少杂数据带来的噪声,根据业务逻辑选择数据组织和数据格式。
1)数据探索,通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系,为后续建模提供参考和验证依据。
统计量:均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度、相关系数。
统计表:频数交叉表、透视表、列联表、woe-iv分析。
统计图:散点图、直方图、箱线图、条状图、饼图、热力图。
2)基础数据预处理:
数据完整性:缺失数据的填充与过滤等;
数据合并:union、join和merge合并数据等;
数据去重:去除重复数据;
数据采样:随机采样、加权采样、上下采样、分层采样、SMOTE、ADASYN;
数据合法性:离群值与异常值清洗;
数据增减:去除无意义特征和样本等;
数据格式调整:one-hot编码、数据拉伸、字符索引变换、LIBSVM格式转换。
S3创建特征工程,对预处理后的数据进行特征提取和特征构造,以便于表示预测模型处理的处理问题,提升对于未知数据的准确性。用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。数据特征会直接影响使用的预测模型和实现的预测结果。
特征转化:离散化分箱、WOE变换、非线性变换、多维尺度变换、局部线性潜入等。
特征提取:主成分分析、线性判别分析、奇异值分析等。
特征选择:卡方检验、皮尔逊相关、互信息、方差分析、lasso、woe-iv。
特征构建:趋势指标、强度指标、波动指标、比率指标、特征交叉、文本分词、主题提取等。
S4划分数据集,在使用机器学习算法训练之前,需按比例将数据集划分为训练集和测试集,用于交叉检验。
S5模型选择,在算法库中选择合适的算法模型或使用自定义的算法模型进行训练。
S6模型训练,平台利用Airflow负责任务调度和资源分配以实现分布式高并发的多线程机器学习,并根据算法模型的特点进行大量的硬件和软件的性能优化。平台设计一种支持自动化完成训练、调参的系统,实现自动机器学习(AutoML)。
S7模型评估,模型评估指标如下:
回归模型:均方误差、平均绝对误差、决定系数R2等指标、平均百分比误差;
分类模型:AUC、准确率、召回率、精确率;
聚类分析:RAND指数、SSE、平均轮廓系数等;
评估方法:交叉验证、独立验证、混淆矩阵、ROC曲线、学习曲线。
S8模型发布,评估完成后,模型以离线的形式生成模型文件,支持PMML格式的模型文件。新模型可以封装成标准的REST API供业务系统调用,也可以直接嵌入业务系统中。
S9模型维护,在模型发布后,持续进行数据反馈收集和模型迭代。随着数据持续积累,以及新模型或者参数调优方法出现,模型性能将逐步提升。算法工程师可对模型进行手工更新或通过Airflow自动更新方式维护模型的有效性。
S10数据展示,通过数据可视化组件Superset创建和分享Dashboard,为数据分析提供可视化方案。通过预定义的可视化图表或自定义开发图表类型实现数据展示。
另一方面,如图2所示,本发明还提供一种基于工业大数据模型的可视化分析系统,用于实现上述基于工业大数据模型的可视化分析,该系统包括:数据管理模块、模型管理模块、模型计算模块、数据可视化模块。
数据管理模块,用于建立数据源、模型之间的连接;对采集数据进行预处理,对预处理后的数据进行特征提取和特征构造,划分数据集。
模型管理模块,用于将所述模型算法数据存储在模型算法数据库;针对所述模型进行模型评估、模型发布、模型维护等操作。
模型计算模块,用于将数据加载到模型训练系统中,选择算法库中模型算法对数据进行模型训练,得到模型训练的结果,将所述模型训练的结果确定为目标模型。
数据可视化模块,用于将目标模型通过数据可视化组件将数据模型转为可视化图表。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的一种基于工业大数据模型的可视化分析方法及系统,通过建立工业大数据模型库,对模型进行视化操作,建立数据源、算法、知识库之间的连接,对工业数据进行预处理,选择对应模型进行模型训练,并针对目标工业数据模型,通过可视化组件实现工业数据模型可视化分析。通过对工业数据进行大规模计算,智能化自动化数据分析,短时间内完成复杂度高、精密度高的信息处理。
综上所述,借助于本发明的上述技术方案,通过工业大数据分析与机器学习相结合,实现了工业数据模型可视化分析,极大地提高了用于模型训练的数据的准确性,并且能够在数据较少的情况下有效地提高模型训练的效率,提升模型训练的准确性,节约模型训练成本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于工业大数据模型的可视化分析方法,其特征在于,包括如下步骤:
S1 数据获取,根据工业模型训练需求采集数据样本;
S2 数据预处理,在数据存储和使用前对数据进行数据探索和基础数据预处理,根据业务逻辑选择数据组织和数据格式;
S3 创建特征工程,对预处理后的数据进行特征选择、特征提取、特征转化和特征构建;
S4 划分数据集,在使用机器学习算法训练之前,按比例将数据集划分为训练集和测试集,进行交叉检验;
S5 模型选择,在算法库中选择合适的算法模型或使用自定义的算法模型进行训练;
S6 模型训练,平台通过Airflow进行任务调度和资源分配来实现分布式高并发的多线程机器学习,并根据算法模型的特点进行硬件和软件的性能优化;
S7 模型评估,通过模型评估指标对模型进行评估;
S8 模型发布,模型评估完成后,模型以离线的形式生成模型文件;
S9 模型维护,模型发布后,持续进行数据反馈收集和模型迭代;
S10 数据展示,通过数据可视化组件Superset的创建和Dashboard的分享,为数据分析提供可视化方案,通过预定义的可视化图表或自定义开发图表类型实现数据的展示。
2.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S2中所述数据探索通过计算基础统计量和图表分析,初步探索特征的自身属性以及特征之间的交互关系。
3.根据权利要求2所述的基于工业大数据模型的可视化分析方法,其特征在于,所述基础统计量包括均值、标准差、中位数、分位数、最大值、最小值、偏度、峰度和相关系数;所述图表包括统计表和统计图,所述统计表包括频数交叉表、透视表、列联表和woe-iv分析,所述统计图包括散点图、直方图、箱线图、条状图、饼图和热力图。
4.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S2中所述基础数据预处理包括数据完整性、数据合并、数据去重、数据采样、数据合法性、数据增减和数据格式调整的处理。
5.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S7中所述模型评估指标包括回归模型、分类模型、聚类分析和评估方法。
6.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S8中所述模型文件为支持PMML格式的模型文件。
7.根据权利要求1所述的基于工业大数据模型的可视化分析方法,其特征在于,S9中算法工程师对模型的更新方式为手工更新或通过Airflow自动更新。
8.一种基于工业大数据模型的可视化分析系统,其特征在于,包括数据管理模块、模型管理模块、模型计算模块和数据可视化模块;
所述数据管理模块,用于建立数据源与模型之间的连接,对采集数据进行预处理,对预处理后的数据进行特征提取和特征构造,划分数据集;
所述模型管理模块,用于将所述模型的算法数据存储到模型算法数据库中,针对所述模型进行模型评估、模型发布、模型维护的操作;
所述模型计算模块,用于将数据加载到模型训练系统中,选择所述算法数据库中的模型算法对数据进行模型训练,得到模型训练的结果,将所述模型训练的结果确定为目标模型;
所述数据可视化模块,用于将目标模型通过数据可视化组件将数据模型转为可视化图表。
CN202210089291.0A 2022-01-25 2022-01-25 一种基于工业大数据模型的可视化分析方法及系统 Pending CN114510519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089291.0A CN114510519A (zh) 2022-01-25 2022-01-25 一种基于工业大数据模型的可视化分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089291.0A CN114510519A (zh) 2022-01-25 2022-01-25 一种基于工业大数据模型的可视化分析方法及系统

Publications (1)

Publication Number Publication Date
CN114510519A true CN114510519A (zh) 2022-05-17

Family

ID=81549541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089291.0A Pending CN114510519A (zh) 2022-01-25 2022-01-25 一种基于工业大数据模型的可视化分析方法及系统

Country Status (1)

Country Link
CN (1) CN114510519A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729536A (zh) * 2022-11-29 2023-03-03 金航数码科技有限责任公司 一种通用化的装备故障预测与健康管理建模系统
CN117076293A (zh) * 2023-07-19 2023-11-17 浙江大学 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260023A1 (en) * 2015-03-02 2016-09-08 Northrop Grumman Systems Corporation Digital object library management system for machine learning applications
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN110543950A (zh) * 2019-09-27 2019-12-06 宁波和利时智能科技有限公司 一种工业大数据建模平台
CN111339375A (zh) * 2020-03-19 2020-06-26 中国海洋石油集团有限公司 一种通用的大数据模型配置和分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260023A1 (en) * 2015-03-02 2016-09-08 Northrop Grumman Systems Corporation Digital object library management system for machine learning applications
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN110543950A (zh) * 2019-09-27 2019-12-06 宁波和利时智能科技有限公司 一种工业大数据建模平台
CN111339375A (zh) * 2020-03-19 2020-06-26 中国海洋石油集团有限公司 一种通用的大数据模型配置和分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729536A (zh) * 2022-11-29 2023-03-03 金航数码科技有限责任公司 一种通用化的装备故障预测与健康管理建模系统
CN115729536B (zh) * 2022-11-29 2023-10-03 金航数码科技有限责任公司 一种通用化的装备故障预测与健康管理建模系统
CN117076293A (zh) * 2023-07-19 2023-11-17 浙江大学 基于贫样本层次可信聚类热力图的软件性能可视评价方法
CN117076293B (zh) * 2023-07-19 2024-04-05 浙江大学 基于贫样本层次可信聚类热力图的软件性能可视评价方法

Similar Documents

Publication Publication Date Title
US11093519B2 (en) Artificial intelligence (AI) based automatic data remediation
CN110674211B (zh) 一种Oracle数据库AWR报告的自动解析方法和设备
CN114510519A (zh) 一种基于工业大数据模型的可视化分析方法及系统
CN104424360A (zh) 用于访问源数据库中的一组数据表格的方法和系统
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
CN105574675B (zh) 基于计算规则库的建筑工程规划监督方法和系统
CN116821223B (zh) 基于数字孪生的工业可视化控制平台及方法
CN111222790A (zh) 风险事件发生概率的预测方法、装置、设备及存储介质
CN111651444A (zh) 一种自适应时间序列数据预测方法
CN112579621A (zh) 数据展示方法、装置、电子设备及计算机存储介质
CN115392805A (zh) 一种交易型合同合规风险诊断方法及系统
CN113610575B (zh) 一种产品销量的预测方法及预测系统
KR20230052010A (ko) Ai 기반 모델 선택 알고리즘을 이용한 수요 예측 방법
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模系统
US11227288B1 (en) Systems and methods for integration of disparate data feeds for unified data monitoring
CN118396162A (zh) 一种电力数据解析方法、解析系统及电力系统、终端设备、存储介质
CN111815125A (zh) 基于技术图谱的创新实体科技评价体系优化方法及装置
CN117829657A (zh) 航天器体系评估系统及评估方法
CN114971547B (zh) 一种零部件产品级借用分析方法和系统
CN111583394B (zh) 一种基于特征识别的知识化工艺性检查方法及系统
CN115841359A (zh) 一种对象生成方法、装置、设备及存储介质
CN118012916B (zh) 报表的生成方法、装置、设备及存储介质
CN117036008B (zh) 一种多源数据的自动化建模方法及系统
CN117952323B (zh) 一种基于数字孪生的产品创建系统、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination