CN113111054A - 一种基于过采样和欠采样结合的工业数据平衡处理算法 - Google Patents
一种基于过采样和欠采样结合的工业数据平衡处理算法 Download PDFInfo
- Publication number
- CN113111054A CN113111054A CN202110397505.6A CN202110397505A CN113111054A CN 113111054 A CN113111054 A CN 113111054A CN 202110397505 A CN202110397505 A CN 202110397505A CN 113111054 A CN113111054 A CN 113111054A
- Authority
- CN
- China
- Prior art keywords
- data
- samples
- sample
- algorithm
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims abstract 5
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 2
- 238000000342 Monte Carlo simulation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000012417 linear regression Methods 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000003745 diagnosis Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Manufacturing & Machinery (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法。该算法融合多种采样方法,针对工业环境数据正负样本比例非常不协调的问题,根据不同数量的样本数据集,分类做数据平衡处理。包括如下步骤:对数据进行预处理消除异常和补全缺失值;根据不同类别数据样本的数量划分为多数类和少数类;针对少数类采用SMOTE算法,即合成少数过采样技术。对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中;针对多数类采用基于K‑Means算法的T‑Kmeans算法,实现对时序数据样本进行空间聚类。该发明能够解决工业数据样本极不平衡的问题,创建平衡且类别特征明显的新数据集,为预测或诊断故障等模型训练提供有力的数据支撑。
Description
技术领域
本发明涉及互联网领域、数据分析及处理领域,具体涉及到一种基于过采样和欠采样结合的工业数据平衡处理算法。
背景技术
工业智能化快速发展,设备内部结构越来越复杂。对工业设备的安全性和可靠性研究的课题越来越多。但是收集到的工业数据在类别上具有极其不平衡的缺点。所以提出一种对工业时序数据样本平衡处理的算法,为后续课题研究提供有力的数据支撑是具有重要意义的。近年来最接近本发明的技术有:
(1)、K-Means模型:K-Means可以实现对数据样本进行空间聚类,在一定程度上实现数据平衡。但是针对数据样本少的数据,单一的K-Means会让数据丢失更加严重。即不适合少样本类别数据。
由于收集到的数据极不平衡,不能使用单一的方法对数据简单处理。本方法采用过采样和欠采样结合的工业数据平衡处理算法,将工业数据进行平衡处理得到优化后的数据。为对工业设备分析提供良好的数据样本,从而提高设备预测的准确性。
发明内容
为解决现有技术中的缺点和不足,本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法,通过对经过预处理后的数据集划分为少数类和多数类,再根据不同数量级类别进行不同的针对性平衡处理。对少数类采用SMOTE算法进行人工模拟数据样本合成,对多数类采用T-KMeans算法进行样本合理缩减。实现对工业数据的平衡处理。
本发明的技术方案为:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用 SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
本发明的有益效果:
(1)、使用本算法处理后的工业数据集,具有数据平衡的特点。为预测模型提供准确且有用的数据信息,可以提高预测模型的准确性,从而提高设备运行质量;
(2)、本方法通过对少数类使用人工合成方法扩充数据样本,对多数类采用时序数据分析与空间聚类结合的方法进行数据样本缩减。良好地实现了数据样本真正地平衡状态。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明对数据集使用欠采样和过采样结合来实现数据平衡的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图所示,对一种基于过采样和欠采样结合的工业数据平衡处理算法的具体流程进行详细说明:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用 SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
本发明的基于过采样和欠采样结合的工业数据平衡处理算法,通过将欠采样、过采样的方法应用到不同数量的不同类别数据样本上,对数据分别处理,最后再将分别平衡后的数据进行融合。形成新的数据集,得到数据平衡的数据样本集。提高对设备分析时的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,针对实时接收的类别不平衡的工业数据,经过数据预处理模块、划分多数类和少数类、分别做平衡处理、最后合成新的数量平衡且特征具有类别代表性的新数据集。包括以下步骤:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
2.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在数据预处理模块,使用多重插补进行缺失值填充,筛选对于缺失值填充有益的特征项,剔除对数据造成干扰的特征项。让后续模型可以具备较好的模拟能力。包括以下步骤:
步骤1):准备好缺失数据集,利用蒙特卡洛模拟法(MCMC)将原始数据插补成几个完整数据集;
步骤2):步骤1)中得到的每个数据集中利用线性回归(lm)或者广义线性规格(glm)方法进行插补建模;
步骤3):将步骤2)中得到的多个模型整合在一起;
步骤4):使用评价算法对插补模型的优劣进行评价,并调整更新模型;
步骤5):输出经过缺失插补后的完整数据集。
3.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在针对少数类数据样本做数据平衡处理时,使用SMOTE合成少数类过采样技术。基于随机过采样算法的一种改进方案,对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。第一步,随机选择一个少数类样本,计算它到少数类样本集中的所有样本的距离,即K近邻;第二步,根据不平衡比例设置采样比例;第三步,对于该类样本中的每一个样本X,从K近邻中选取若干样本;第四步,在每两互为近邻的样本空间直线上生成一个与原样本类似的模拟数据样本。以此来扩充少数类样本数量,既可以避免复制样本造成的冗余和过拟合等问题,又合理地扩充了少数类样本的数量。
4.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在针对多数类数据样本做数据平衡处理时,使用基于K-means算法的改进算法T-Kmeans对多数类样本进行欠采样。实现在大量同类样本数据中既减少数据量,又可以保留具有类别代表性的数据样本。包括如下步骤:
步骤1):准备多数类样本,对多数类样本根据不同类别进行小样本划分;
步骤2):对于每类情况,如类别标签为A的样本数据X1,根据时间戳将X1发生前2分钟内的数据通过均值计算看作时一个样本点。保证数据样本的时序性,从而避免后续聚类过程中因单条数据的偶然性造成的重要数据丢失情况;
步骤3):将经过步骤1)和步骤2)处理后的数据样本,在空间上进行聚类。计算每个样本到K个聚类中心距离,将样本点分配到最近的聚类中心;
步骤4):根据中心点位置和类别比例调整中心数量,重复步骤3);
步骤5):保留经过空间聚类后的不重复数据样本,得到具有类别代表性的预想数量范围内的该类数据样本。
5.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,将数据集按照少数类和多数类分别处理。既避免了少数类太少,盲目复制造成的过拟合问题。又避免了随机采样多数类数据造成重要表征数据丢失的情况。将两者结合充分发挥过采样和欠采样在不同数据上的优势。最终得到数据平衡的新数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397505.6A CN113111054A (zh) | 2021-04-13 | 2021-04-13 | 一种基于过采样和欠采样结合的工业数据平衡处理算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397505.6A CN113111054A (zh) | 2021-04-13 | 2021-04-13 | 一种基于过采样和欠采样结合的工业数据平衡处理算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113111054A true CN113111054A (zh) | 2021-07-13 |
Family
ID=76716787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110397505.6A Pending CN113111054A (zh) | 2021-04-13 | 2021-04-13 | 一种基于过采样和欠采样结合的工业数据平衡处理算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111054A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661701A (zh) * | 2022-03-16 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种数据均衡化方法、装置、电子设备及存储介质 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN116051288A (zh) * | 2023-03-30 | 2023-05-02 | 华南理工大学 | 一种基于重采样的金融信用评分数据增强方法 |
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
-
2021
- 2021-04-13 CN CN202110397505.6A patent/CN113111054A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661701A (zh) * | 2022-03-16 | 2022-06-24 | 平安科技(深圳)有限公司 | 一种数据均衡化方法、装置、电子设备及存储介质 |
WO2023173548A1 (zh) * | 2022-03-16 | 2023-09-21 | 平安科技(深圳)有限公司 | 一种数据均衡化方法、装置、电子设备及存储介质 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN115965245B (zh) * | 2023-03-13 | 2023-05-30 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN116051288A (zh) * | 2023-03-30 | 2023-05-02 | 华南理工大学 | 一种基于重采样的金融信用评分数据增强方法 |
CN117092525A (zh) * | 2023-10-20 | 2023-11-21 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
CN117092525B (zh) * | 2023-10-20 | 2024-01-09 | 广东采日能源科技有限公司 | 电池热失控预警模型的训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113111054A (zh) | 一种基于过采样和欠采样结合的工业数据平衡处理算法 | |
CN110428004B (zh) | 数据失衡下基于深度学习的机械零部件故障诊断方法 | |
CN111008502B (zh) | 一种数字孪生驱动的复杂装备故障预测方法 | |
CN111914883B (zh) | 一种基于深度融合网络的主轴轴承状态评估方法及装置 | |
Huelsenbeck et al. | Maximum likelihood estimation of phylogeny using stratigraphic data | |
CN105678343B (zh) | 基于自适应加权组稀疏表达的水电机组噪声异常诊断方法 | |
CN110995475A (zh) | 一种基于迁移学习的电力通信网故障检测方法 | |
CN111695209A (zh) | 元深度学习驱动的旋转机械小样本健康评估方法 | |
CN108399248A (zh) | 一种时序数据预测方法、装置及设备 | |
CN105574669B (zh) | 时空联合数据聚类分析的输变电设备状态异常检测方法 | |
CN104517613A (zh) | 语音质量评估方法及装置 | |
CN110175541B (zh) | 一种海平面变化非线性趋势提取的方法 | |
CN110147323A (zh) | 一种基于生成对抗网络的变更智能检查方法及装置 | |
Oliinyk et al. | The decision tree construction based on a stochastic search for the neuro-fuzzy network synthesis | |
EP3923213A1 (en) | Method and computing system for performing a prognostic health analysis for an asset | |
Yang et al. | Gearbox fault diagnosis based on artificial neural network and genetic algorithms | |
CN115438726A (zh) | 一种基于数字孪生技术的设备寿命与故障类型预测方法及系统 | |
CN112765890A (zh) | 基于动态域适应网络的多工况旋转机械剩余寿命预测方法 | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN114492150A (zh) | 一种基于数字孪生体的配电网典型业务场景预警方法 | |
CN112200048A (zh) | 一种基于回归模型的旋转设备故障预测方法、系统及可读存储介质 | |
CN116399588A (zh) | 一种小样本下基于WPD和AFRB-LWUNet的滚动轴承故障诊断方法 | |
CN114169396A (zh) | 用于飞行器故障诊断的训练数据生成模型构建方法及应用 | |
WO2021198356A1 (en) | Method of hierarchical machine learning for an industrial plant machine learning system | |
CN116610484B (zh) | 一种模型训练方法、故障预测方法、系统、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210713 |
|
WD01 | Invention patent application deemed withdrawn after publication |