CN113111054A - 一种基于过采样和欠采样结合的工业数据平衡处理算法 - Google Patents

一种基于过采样和欠采样结合的工业数据平衡处理算法 Download PDF

Info

Publication number
CN113111054A
CN113111054A CN202110397505.6A CN202110397505A CN113111054A CN 113111054 A CN113111054 A CN 113111054A CN 202110397505 A CN202110397505 A CN 202110397505A CN 113111054 A CN113111054 A CN 113111054A
Authority
CN
China
Prior art keywords
data
samples
sample
algorithm
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110397505.6A
Other languages
English (en)
Inventor
王涛
张卫山
包致成
于泽沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202110397505.6A priority Critical patent/CN113111054A/zh
Publication of CN113111054A publication Critical patent/CN113111054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Manufacturing & Machinery (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法。该算法融合多种采样方法,针对工业环境数据正负样本比例非常不协调的问题,根据不同数量的样本数据集,分类做数据平衡处理。包括如下步骤:对数据进行预处理消除异常和补全缺失值;根据不同类别数据样本的数量划分为多数类和少数类;针对少数类采用SMOTE算法,即合成少数过采样技术。对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中;针对多数类采用基于K‑Means算法的T‑Kmeans算法,实现对时序数据样本进行空间聚类。该发明能够解决工业数据样本极不平衡的问题,创建平衡且类别特征明显的新数据集,为预测或诊断故障等模型训练提供有力的数据支撑。

Description

一种基于过采样和欠采样结合的工业数据平衡处理算法
技术领域
本发明涉及互联网领域、数据分析及处理领域,具体涉及到一种基于过采样和欠采样结合的工业数据平衡处理算法。
背景技术
工业智能化快速发展,设备内部结构越来越复杂。对工业设备的安全性和可靠性研究的课题越来越多。但是收集到的工业数据在类别上具有极其不平衡的缺点。所以提出一种对工业时序数据样本平衡处理的算法,为后续课题研究提供有力的数据支撑是具有重要意义的。近年来最接近本发明的技术有:
(1)、K-Means模型:K-Means可以实现对数据样本进行空间聚类,在一定程度上实现数据平衡。但是针对数据样本少的数据,单一的K-Means会让数据丢失更加严重。即不适合少样本类别数据。
由于收集到的数据极不平衡,不能使用单一的方法对数据简单处理。本方法采用过采样和欠采样结合的工业数据平衡处理算法,将工业数据进行平衡处理得到优化后的数据。为对工业设备分析提供良好的数据样本,从而提高设备预测的准确性。
发明内容
为解决现有技术中的缺点和不足,本发明提出了一种基于过采样和欠采样结合的工业数据平衡处理算法,通过对经过预处理后的数据集划分为少数类和多数类,再根据不同数量级类别进行不同的针对性平衡处理。对少数类采用SMOTE算法进行人工模拟数据样本合成,对多数类采用T-KMeans算法进行样本合理缩减。实现对工业数据的平衡处理。
本发明的技术方案为:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用 SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
本发明的有益效果:
(1)、使用本算法处理后的工业数据集,具有数据平衡的特点。为预测模型提供准确且有用的数据信息,可以提高预测模型的准确性,从而提高设备运行质量;
(2)、本方法通过对少数类使用人工合成方法扩充数据样本,对多数类采用时序数据分析与空间聚类结合的方法进行数据样本缩减。良好地实现了数据样本真正地平衡状态。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明对数据集使用欠采样和过采样结合来实现数据平衡的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图所示,对一种基于过采样和欠采样结合的工业数据平衡处理算法的具体流程进行详细说明:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用 SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
本发明的基于过采样和欠采样结合的工业数据平衡处理算法,通过将欠采样、过采样的方法应用到不同数量的不同类别数据样本上,对数据分别处理,最后再将分别平衡后的数据进行融合。形成新的数据集,得到数据平衡的数据样本集。提高对设备分析时的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,针对实时接收的类别不平衡的工业数据,经过数据预处理模块、划分多数类和少数类、分别做平衡处理、最后合成新的数量平衡且特征具有类别代表性的新数据集。包括以下步骤:
步骤(1):对收集到的工业传感器数据做数据预处理,进行清洗、降噪等操作。并针对实时接收格式处理,形成时序序列;
步骤(2):将经过步骤(1)中处理后的数据,按照类别数量,划分为多数类和少数类;
步骤(3):针对经过步骤(2)划分得到的少数类数据样本,利用SMOTE算法通过生成合成算例进行人工模拟数据合成;
步骤(4):针对经过步骤(2)划分得到的多数类数据样本,按时序将2分钟内的数据看作一个样本点,再利用K-means算法将这些样本点在空间上进行聚类;
步骤(5):将少数类和多数类经过平衡处理后的数据样本组合成平衡且具有类别代表性的新数据集。
2.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在数据预处理模块,使用多重插补进行缺失值填充,筛选对于缺失值填充有益的特征项,剔除对数据造成干扰的特征项。让后续模型可以具备较好的模拟能力。包括以下步骤:
步骤1):准备好缺失数据集,利用蒙特卡洛模拟法(MCMC)将原始数据插补成几个完整数据集;
步骤2):步骤1)中得到的每个数据集中利用线性回归(lm)或者广义线性规格(glm)方法进行插补建模;
步骤3):将步骤2)中得到的多个模型整合在一起;
步骤4):使用评价算法对插补模型的优劣进行评价,并调整更新模型;
步骤5):输出经过缺失插补后的完整数据集。
3.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在针对少数类数据样本做数据平衡处理时,使用SMOTE合成少数类过采样技术。基于随机过采样算法的一种改进方案,对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。第一步,随机选择一个少数类样本,计算它到少数类样本集中的所有样本的距离,即K近邻;第二步,根据不平衡比例设置采样比例;第三步,对于该类样本中的每一个样本X,从K近邻中选取若干样本;第四步,在每两互为近邻的样本空间直线上生成一个与原样本类似的模拟数据样本。以此来扩充少数类样本数量,既可以避免复制样本造成的冗余和过拟合等问题,又合理地扩充了少数类样本的数量。
4.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,在针对多数类数据样本做数据平衡处理时,使用基于K-means算法的改进算法T-Kmeans对多数类样本进行欠采样。实现在大量同类样本数据中既减少数据量,又可以保留具有类别代表性的数据样本。包括如下步骤:
步骤1):准备多数类样本,对多数类样本根据不同类别进行小样本划分;
步骤2):对于每类情况,如类别标签为A的样本数据X1,根据时间戳将X1发生前2分钟内的数据通过均值计算看作时一个样本点。保证数据样本的时序性,从而避免后续聚类过程中因单条数据的偶然性造成的重要数据丢失情况;
步骤3):将经过步骤1)和步骤2)处理后的数据样本,在空间上进行聚类。计算每个样本到K个聚类中心距离,将样本点分配到最近的聚类中心;
步骤4):根据中心点位置和类别比例调整中心数量,重复步骤3);
步骤5):保留经过空间聚类后的不重复数据样本,得到具有类别代表性的预想数量范围内的该类数据样本。
5.根据权力要求1所述的一种基于过采样和欠采样结合的工业数据平衡处理算法,其特征在于,将数据集按照少数类和多数类分别处理。既避免了少数类太少,盲目复制造成的过拟合问题。又避免了随机采样多数类数据造成重要表征数据丢失的情况。将两者结合充分发挥过采样和欠采样在不同数据上的优势。最终得到数据平衡的新数据集。
CN202110397505.6A 2021-04-13 2021-04-13 一种基于过采样和欠采样结合的工业数据平衡处理算法 Pending CN113111054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110397505.6A CN113111054A (zh) 2021-04-13 2021-04-13 一种基于过采样和欠采样结合的工业数据平衡处理算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110397505.6A CN113111054A (zh) 2021-04-13 2021-04-13 一种基于过采样和欠采样结合的工业数据平衡处理算法

Publications (1)

Publication Number Publication Date
CN113111054A true CN113111054A (zh) 2021-07-13

Family

ID=76716787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110397505.6A Pending CN113111054A (zh) 2021-04-13 2021-04-13 一种基于过采样和欠采样结合的工业数据平衡处理算法

Country Status (1)

Country Link
CN (1) CN113111054A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661701A (zh) * 2022-03-16 2022-06-24 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法
CN117092525A (zh) * 2023-10-20 2023-11-21 广东采日能源科技有限公司 电池热失控预警模型的训练方法、装置及电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661701A (zh) * 2022-03-16 2022-06-24 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质
WO2023173548A1 (zh) * 2022-03-16 2023-09-21 平安科技(深圳)有限公司 一种数据均衡化方法、装置、电子设备及存储介质
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法
CN115965245B (zh) * 2023-03-13 2023-05-30 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法
CN117092525A (zh) * 2023-10-20 2023-11-21 广东采日能源科技有限公司 电池热失控预警模型的训练方法、装置及电子设备
CN117092525B (zh) * 2023-10-20 2024-01-09 广东采日能源科技有限公司 电池热失控预警模型的训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN113111054A (zh) 一种基于过采样和欠采样结合的工业数据平衡处理算法
CN110428004B (zh) 数据失衡下基于深度学习的机械零部件故障诊断方法
CN111008502B (zh) 一种数字孪生驱动的复杂装备故障预测方法
CN111914883B (zh) 一种基于深度融合网络的主轴轴承状态评估方法及装置
Huelsenbeck et al. Maximum likelihood estimation of phylogeny using stratigraphic data
CN105678343B (zh) 基于自适应加权组稀疏表达的水电机组噪声异常诊断方法
CN110995475A (zh) 一种基于迁移学习的电力通信网故障检测方法
CN111695209A (zh) 元深度学习驱动的旋转机械小样本健康评估方法
CN108399248A (zh) 一种时序数据预测方法、装置及设备
CN105574669B (zh) 时空联合数据聚类分析的输变电设备状态异常检测方法
CN104517613A (zh) 语音质量评估方法及装置
CN110175541B (zh) 一种海平面变化非线性趋势提取的方法
CN110147323A (zh) 一种基于生成对抗网络的变更智能检查方法及装置
Oliinyk et al. The decision tree construction based on a stochastic search for the neuro-fuzzy network synthesis
EP3923213A1 (en) Method and computing system for performing a prognostic health analysis for an asset
Yang et al. Gearbox fault diagnosis based on artificial neural network and genetic algorithms
CN115438726A (zh) 一种基于数字孪生技术的设备寿命与故障类型预测方法及系统
CN112765890A (zh) 基于动态域适应网络的多工况旋转机械剩余寿命预测方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN114492150A (zh) 一种基于数字孪生体的配电网典型业务场景预警方法
CN112200048A (zh) 一种基于回归模型的旋转设备故障预测方法、系统及可读存储介质
CN116399588A (zh) 一种小样本下基于WPD和AFRB-LWUNet的滚动轴承故障诊断方法
CN114169396A (zh) 用于飞行器故障诊断的训练数据生成模型构建方法及应用
WO2021198356A1 (en) Method of hierarchical machine learning for an industrial plant machine learning system
CN116610484B (zh) 一种模型训练方法、故障预测方法、系统、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210713

WD01 Invention patent application deemed withdrawn after publication