CN113656386A - 工业装备数据清洗方法、装置、设备及存储介质 - Google Patents

工业装备数据清洗方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113656386A
CN113656386A CN202110776725.XA CN202110776725A CN113656386A CN 113656386 A CN113656386 A CN 113656386A CN 202110776725 A CN202110776725 A CN 202110776725A CN 113656386 A CN113656386 A CN 113656386A
Authority
CN
China
Prior art keywords
data
cleaning
state data
industrial equipment
formatted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110776725.XA
Other languages
English (en)
Inventor
路松峰
肖珏
吴俊军
郑禄
覃俊
徐科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
South Central Minzu University
Original Assignee
Huazhong University of Science and Technology
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, South Central University for Nationalities filed Critical Huazhong University of Science and Technology
Priority to CN202110776725.XA priority Critical patent/CN113656386A/zh
Publication of CN113656386A publication Critical patent/CN113656386A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Factory Administration (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种工业装备数据清洗方法、装置、设备及存储介质,包括:获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;对所述格式化状态数据进行数据清洗,获得清洗数据;在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。由于本发明是通过将工业装备的状态数据格式化,将格式化状态数据进行数据清洗获得清洗数据,并将符合数据质量标准的清洗数据存储至预设数据库,解决了现有技术中工业装备的状态数据质量低技术问题,提高了工业装备状态数据的数据质量。

Description

工业装备数据清洗方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种工业装备数据清洗方法、装置、设备及存储介质。
背景技术
当前大数据已经成为企业重要的战略资源和决胜未来的关键因素,随着面向智能制造过程的智能装备逐步完善和推广,智能装备生成的数据量急剧增长,为充分挖掘这些数据的价值,需要展开大量的数据分析工作。
由于装备运行的状态数据来源于不同工厂和不同装备,在接收到数据之后,需要对数据进行正确性验证,清洗掉无效数据,获得真实、完整的大数据。比如数控机床等机器装备因为故障问题而生成的模糊、有噪声、不完整、不统一和冗余数据。若将故障数据中的不良数据引入机床的故障诊断中,会严重影响机床的诊断结果,因此如何提高机床诊断过程中使用数据的数据质量成为亟待解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种工业装备数据清洗方法、装置、设备及存储介质,旨在解决现有技术中工业装备的状态数据质量低的技术问题。
为实现上述目的,本发明提供了一种工业装备数据清洗方法,所述方法包括以下步骤:
获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;
对所述格式化状态数据进行数据清洗,获得清洗数据;
在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
可选地,所述对所述格式化状态数据进行数据清洗,获得清洗数据,包括:
对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合;
根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据;
根据卡尔曼滤波法对所述待降噪数据降噪,获得清洗数据。
可选地,所述在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库的步骤之后,所述方法还包括:
根据归一化算法对所述清洗数据进行归一化处理,获得归一化特征数据;
根据方差筛选法从所述归一化特征数据中选取目标特征数据;
按照预设规则将所述目标特征数据组合成特征矩阵,并根据主成分分析法对所述特征矩阵进行降维处理,获得降维数据。
可选地,所述将所述状态数据格式化,获得格式化状态数据,包括:
根据预设格式对所述状态数据进行格式处理,获得格式统一状态数据;
将所述格式统一状态数据中的预设字符去除,获得格式化状态数据。
可选地,所述对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合,包括:
根据预设参数确定所述格式化状态数据中各数据对象对应的邻域点个数、邻域平均距离及点密度;
根据所述各数据对象对应的邻域点个数、邻域平均距离及点密度确定所述格式化状态数据的第一离群点集合;
根据离群点检测算法确定所述格式化状态数据的第二离群点集合;
根据所述第一离群点集合和所述第二离群点集合确定所述格式化状态数据的异常值集合。
可选地,所述根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据,包括:
根据朴素贝叶斯算法对所述格式化状态数据进行分类,根据分类结果将所述格式化状态数据划分为若干个数据集;
根据最大期望算法和所述若干个数据集确定期望最大化值;
根据所述期望最大化值和所述异常值集合对所述格式化状态数据中的异常值进行填充,获得待降噪数据。
可选地,所述根据方差筛选法从所述归一化特征数据中选取目标特征数据,包括:
根据所述归一化特征数据确定特征数据均值;
根据所述特征数据均值和所述归一化特征数据确定各特征数据对象对应的方差;
根据预设方差阈值和所述各特征数据对象对应的方差从所述归一化特征数据中选取目标特征数据。
此外,为实现上述目的,本发明还提出一种工业装备数据清洗装置,所述装置包括:
格式化模块,用于获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;
数据清洗模块,用于对所述格式化状态数据进行数据清洗,获得清洗数据;
数据质量检测模块,用于在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
此外,为实现上述目的,本发明还提出一种工业装备数据清洗设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的工业装备数据清洗程序,所述工业装备数据清洗程序配置为实现如上文所述的工业装备数据清洗方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有工业装备数据清洗程序,所述工业装备数据清洗程序被处理器执行时实现如上文所述的工业装备数据清洗方法的步骤。
本发明获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;对所述格式化状态数据进行数据清洗,获得清洗数据;在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。由于本发明是通过将工业装备的状态数据格式化,将格式化状态数据进行数据清洗获得清洗数据,并将符合数据质量标准的清洗数据存储至预设数据库,解决了现有技术中工业装备的状态数据质量低技术问题,提高了工业装备状态数据的数据质量。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的工业装备数据清洗设备的结构示意图;
图2为本发明工业装备数据清洗方法第一实施例的流程示意图;
图3为本发明工业装备数据清洗方法第二实施例的流程示意图;
图4为本发明工业装备数据清洗装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的工业装备数据清洗设备结构示意图。
如图1所示,该工业装备数据清洗设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对工业装备数据清洗设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及工业装备数据清洗程序。
在图1所示的工业装备数据清洗设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明工业装备数据清洗设备中的处理器1001、存储器1005可以设置在工业装备数据清洗设备中,所述工业装备数据清洗设备通过处理器1001调用存储器1005中存储的工业装备数据清洗程序,并执行本发明实施例提供的工业装备数据清洗方法。
本发明实施例提供了一种工业装备数据清洗方法,参照图2,图2为本发明工业装备数据清洗方法第一实施例的流程示意图。
本实施例中,所述工业装备数据清洗方法包括以下步骤:
步骤S10:获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据。
需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如平板电脑、个人电脑、手机等,或者是一种能够实现上述功能的电子设备、工业装备数据清洗设备等,以下以工业装备数据清洗设备为例,对本实施例及下述各实施例进行说明。
应该理解的是,状态数据为工业装备运行过程中的运行数据(例如运行电流值、润滑剂的消耗量等),可以从数据库中获取工业装备的状态数据,获取到的状态数据是从同一工业装备的不同部件上采集的状态数据或者是从不同工业装备上采集的状态数据,这些状态数据存在格式不统一的问题,会影响后续数据清洗的效率,将格式不统一的状态数据格式化获得格式化状态数据,并且在进行状态数据格式化的过程中,对状态数据进行实时备份,在保证数据安全的同时提高后续数据清洗的效率。
步骤S20:对所述格式化状态数据进行数据清洗,获得清洗数据。
可以理解的是,对格式化状态数据进行清洗包括对格式化状态数据进行异常值检测、异常值填充和数据降噪等处理获得清洗数据,其中异常值检测包括缺失值检测、突变值检测和离群值检测,异常值填充包括对检测到的异常值进行替换、填充等,数据降噪包括将卡尔曼滤波法降噪、标准差降噪等。
步骤S30:在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
应该理解的是,预设数据质量标准可以是由本领域专家制定的,可以包括异常值填充的准确率、清洗数据的噪点数据比例等;预设数据质量标准也可以是根据清洗数据的应用场景对数据质量的要求设定。
可以理解的是,在清洗数据不符合预设数据质量标准时,继续对该不符合预设质量标准的清洗数据进行质量清洗,并判断清洗后的数据是否符合预设数据质量标准,若符合,则将该数据存储至预设数据库,若不符合,则返回执行继续对该不符合预设质量标准的清洗数据进行质量清洗的步骤,直至数据符合预设数据质量标准。
进一步地,为了提高工业装备状态数据的数据质量,所述步骤S20包括:对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合;根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据;根据卡尔曼滤波法对所述待降噪数据降噪,获得清洗数据。
应该理解的是,异常值检测包括对格式化状态数据中数据的缺失值和离群值进行检测,检测到的缺失值和离群值组成异常值集合;根据最大期望算法和格式化状态数据确定最大化值,并根据异常值集合用最大化值替代格式化状态数据中的异常值得到待降噪数据。
可以理解的是,将待降噪数据按照时间序列进行排序,然后采用卡尔曼滤波法对待降噪数据降噪,卡尔曼滤波法的时间更新方程如式1,卡尔曼滤波器状态更新方程如式2。
Figure BDA0003160656030000061
Figure BDA0003160656030000062
式中
Figure BDA0003160656030000063
Figure BDA0003160656030000064
分别表示k-1时刻和k时刻的后验状态估计值;
Figure BDA0003160656030000065
表示k时刻的先验状态估计值;Pk-1和Pk分别为k-1时刻和k时刻的后验状态估计协方差,是滤波的结果之一;
Figure BDA0003160656030000066
表示k时刻的先验状态估计协方差,是滤波的中间计算结果;H为状态状态变量到测量(观测)的转换矩阵;zk表示观测量(观测值),是滤波的输入;Kk表示滤波增益矩阵,是滤波的中间计算结果,为卡尔曼增益或卡尔曼系数;A表示状态转移矩阵,实际上是对目标状态转移的一种猜测模型;Q表示过程激励噪声协方差(系统过程的协方差);R表示测量噪声协方差;滤波器实际实现时,测量噪声协方差R一般可以观测得到,是滤波器的已知条件;R是将输入转换为状态的矩阵;
Figure BDA0003160656030000071
为实际观测和预测观测的残差。
进一步地,为了提高数据清洗的效率,所述将所述状态数据格式化,获得格式化状态数据,包括:根据预设格式对所述状态数据进行格式处理,获得格式统一状态数据;将所述格式统一状态数据中的预设字符去除,获得格式化状态数据。
可以理解的是,按照预设将状态数据进行格式化处理包括将状态数据的日期格式、数值格式和显示格式等经过处理后得到格式统一状态数据;将格式统一状态数据中的预设字符去除,其中预设字符包括空格和特殊符号等,获得格式化状态数据。
进一步地,为了提高异常值检测的效率,减低误报率,所述对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合,包括:根据预设参数确定所述格式化状态数据中各数据对象对应的邻域点个数、邻域平均距离及点密度;根据所述各数据对象对应的邻域点个数、邻域平均距离及点密度确定所述格式化状态数据的第一离群点集合;根据离群点检测算法确定所述格式化状态数据的第二离群点集合;根据所述第一离群点集合和所述第二离群点集合确定所述格式化状态数据的异常值集合。
应该理解的是,可将格式化状态数据导入预设坐标系中,格式化状态数据在预设坐标系中的数据点构成的集合可用C表示,预设参数为根据实际应用场景设定的数值,可用R表示,R邻域为以数据点q为中心R为半径构成的区域;R邻域平均距离为R邻域内的各数据点到数据点q的距离的均值,R邻域平均距离可由式3计算得到,点密度可由式4计算得到。
Figure BDA0003160656030000072
式中,|NR(q)|为数据点q的R邻域内数据点的个数,p为数据点q的R邻域内的数据点。
Figure BDA0003160656030000081
可以理解的是,离群点集是由格式化状态数据中的离群点组成的集合,离群点可以通过以下方式中的至少一种来确定:(1)根据计算得到的点密度计算点密度平均值,根据点密度平均值、点密度和预设点密度变化阈值,将点密度与点密度平均值之间差值的绝对值大于预设变化阈值的数据点作为离群点;(2)根据计算得到的点密度和该点对应的邻域点个数,计算邻域点的平均个数,将邻域点个数与邻域点平均个数的差值的绝对值大于预设点个数变化阈值对应的数据点作为离群点;其中预设点密度变化阈值和预设点个数变化阈值可根据数据的具体应用场景设定。通过上述方式可以得到M1个离群点,这些离群点组成第一离群点集合,第一离群点集合可用D1表示。
可以理解的是,离群因子为预设坐标系中数据点的离群因子,以数据点q为例,数据点q的离群因子可由式5计算得到。
Figure BDA0003160656030000082
式中Nk(q)表示数据点q的k距离邻域即数据点p的第k距离及以内的所有点,包括第k距离,因此数据点q的第k邻域点的个数|Nk(q)|≥k;lrdk(q)表示数据点q的局部可达密度,可由式6计算得到。
Figure BDA0003160656030000083
式中,reach-distk(q,p)表示数据点p到数据点q的第k可达距离,定义为:reach-distk(q,p)=max((k-distance(q),d(q,p)),其中k-distance(q)为数据点q的第k距离,对于数据点q的第k距离定义如下:dk(q)=d(q,p),并且满足如下条件:(1)在集合C中至少有不包括数据点q在内的k个数据点p'∈C{x≠q},满足d(q,p')≤d(q,p);(2)在集合C中最多有不包括数据点q在内的k-1个点p'∈C{x≠q},满足d(q,p')<d(q,p)。d(q,p)为数据点q和数据点点p之间的距离,可为欧式距离或曼哈顿距离等。
应该理解的是,离群点检测算法异常点判定依据:LOFk(q)的值越接近于1,则表明数据点q的邻域点密度值接近,数据点q可能与邻域属于同一簇;若该值小于1,表明数据对象q的密度大于其邻域点密度,数据点q为密集点;若该值大于1,表明数据点q的密度小于其邻域点密度,数据点q可能为异常点;调节参数k,使得离群因子的值大于1的点的个数为M1,将离群因子的值大于1的M1个点组成的集合设定为第二离群点集合,用D2表示。求第一离群点集合合第二离群点集合的交集,求得的交集即为异常值集合,异常值集合可用D表示,即D=D1∩D2
进一步地,为了提高数据清洗的效率,所述根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据,包括:根据朴素贝叶斯算法对所述格式化状态数据进行分类,根据分类结果将所述格式化状态数据划分为若干个数据集;根据最大期望算法和所述若干个数据集确定期望最大化值;根据所述期望最大化值和所述异常值集合对所述格式化状态数据中的异常值进行填充,获得待降噪数据。
应该理解的是,根据朴素贝叶斯算法对格式化状态数据进行分类,得到格式化状态数据中每个数据元组的类别,将属于同一类别的数据元组设定为新的数据集,得到若干个新数据集。
应该理解的是,最大期望算法(Expectation-Maximization algorithm,EM)是一类通过迭代进行极大似然估计的优化算法,假设有W类数据元组,各类可分别用L1,L2,...,LW表示,分别从W个类中选出K个对应代表簇的均值,再反复执行最大期望算法的E步和M步对参数进行优化,直至算法收敛,将算法收敛后得到的最大化值作为簇的最大化值,使用该最大化值对格式化状态数据中的异常值进行填充,得到待降噪数据。
在具体实现中,利用朴素贝叶斯算法对格式化状态数据进行分类,朴素贝叶斯算法可由式7表示。
P(Li/X)=P(X/Li)×P(Li)/p(x) (式7)
式中,P(Li/X)为后验概率;p(X/Li)为似然度;P(Li)为先验概率;P(X)为边际似然度;假定X/Li为一整体,该概率密度函数母体ζ是离散型,则:L(θΛ;T1,T2,...,Tn)supθ∈ΘL(θ;T1,T2,...,T),满足这个式子的θΛ(T1,T2,...,Tn)就有可能产生T1,T2,...,Tn的参数θ的值,其相应的统计量θΛ(ζ12,...,ζn)称作的极大似然估计量。如果该概率密度函数母体ζ是连续型,则只需求出使得L(θΛ;T1,T2,...,Tn)=Πf(Ti;θ)达到极大的θΛ(T1,T2,...,Tn),便可得到极大似然估计,即lnL(θΛ;T1,T2,...,Tn)=supθ∈ΘL(θ;T1,T2,...,Tn)。
其中先验概率:
Figure BDA0003160656030000091
边际似然度:
Figure BDA0003160656030000092
似然度:
Figure BDA0003160656030000093
各类的后验概率:
Figure BDA0003160656030000094
计算出P(Li/X),分类法将预测X属于具有最高后验概率(条件X下)的类。即朴素贝叶斯算法预测X属于类Li,当且仅当P(Li/X)>P(Lj/X),其中1≤j<m,j≠i,得到每个数据元组X所属的类,这样就得出了每个数据元组所属的类,分类完成,根据分类的结果将格式化状态数据划分为若干个数据集,在这些数据集中分别使用EM算法计算期望最大化值,在类L1,L2,...,LW这W个分类中,分别选出K个对象代表簇的值,再反复执行E步和M步对参数进行优化,直至算法收敛,E步:用概率P(XLi∈CLiK)分别将类中的每个数据对象指派到簇CLiK中;M步:利用上述概率重新计算模型参数
Figure BDA0003160656030000101
算法收敛后,用计算得到的最大化值mLiK作为类Li中簇K的最大化值,并使用该最大化值对格式化状态数据中的异常值进行填充,获得待降噪数据,其中填充为将格式化状态数据中的异常值用该最大化值替代。
本实施例获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;对所述格式化状态数据进行数据清洗,获得清洗数据;在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。由于本实施例是通过将工业装备的状态数据格式化,将格式化状态数据进行数据清洗获得清洗数据,并将符合数据质量标准的清洗数据存储至预设数据库,解决了现有技术中工业装备的状态数据质量低技术问题,提高了工业装备状态数据的数据质量。
参考图3,图3为本发明工业装备数据清洗方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,在所述步骤S30之后,所述方法还包括:
步骤S301:根据归一化算法对所述清洗数据进行归一化处理,获得归一化特征数据。
应该理解的是,利用归一化算法对清洗数据进行归一化处理后,可以提高后续数据的利用效率,经过归一化处理后获得归一化特征数据。
步骤S302:根据方差筛选法从所述归一化特征数据中选取目标特征数据。
可以理解的是,可以根据归一化特征数据中的数据对象计算得到特征数据的均值,根据特征数据均值和各数据对象可以得到各数据对象的方差,通过提前设置预设方差阈值,将方差大于预设方差阈值的数据对象作为目标数据,其中预设方差阈值可根据具体场景设定。
步骤S303:按照预设规则将所述目标特征数据组合成特征矩阵,并根据主成分分析法对所述特征矩阵进行降维处理,获得降维数据。
应该理解的是,将目标特征数据按照预设规则组合成特征矩阵,通过主成分分析法对给特征矩阵降维处理,得到降维数据。
在具体实现中,根据归一化算法对清洗数据进行归一化处理得到归一化特征数据,其中归一化算法可由式8表示,通过方差筛选法,先计算归一化特征数据中数据对象的数据均值,再计算得到各个数据对象的方差,根据预先设定预设方差阈值,选取方差大于预设方差阈值的的数据对象为目标特征数据,按照预设规则将目标特征数据组合成特征矩阵,可通过如下方式组合:设定有m条n维目标特征数据,将其按列组合成n行m列矩阵M,将矩阵M的每一行的元素减去该行的元素均值,求出协方差矩阵,其中协方差矩阵可由式9表示,求出协方差矩阵的特征值及对应的特征向量,将特征向量按对应的特征值的大小从上到下排列成矩阵,并取该矩阵的前t行组成矩阵P,降维后的数据可由式10表示,其中t值的计算参考式11。
Y=(X-XMin)/(XMax-Xmin) (式8)
式中,X为归一化处理前清洗数据中的数据对象;Y表示经过归一化处理的清洗数据中的数据对象;Xmin为清洗数据中数据对象的最小值;Xmax为清洗数据中数据对象的最大值。
C=(1/m)(MMT) (式9)
式中,M为特征矩阵。
Y=PM (式10)
Figure BDA0003160656030000111
式中,λi为协方差矩阵的特征值。
进一步地,为了目标特征数据选取的效率,所述根据方差筛选法从所述归一化特征数据中选取目标特征数据,包括:根据所述归一化特征数据确定特征数据均值;根据所述特征数据均值和所述归一化特征数据确定各特征数据对象对应的方差;根据预设方差阈值和所述各特征数据对象对应的方差从所述归一化特征数据中选取目标特征数据。
本实施例根据归一化算法对所述清洗数据进行归一化处理,获得归一化特征数据;根据方差筛选法从所述归一化特征数据中选取目标特征数据;按照预设规则将所述目标特征数据组合成特征矩阵,并根据主成分分析法对所述特征矩阵进行降维处理,获得降维数据。由于本实施例是通过对清洗数据进行归一化处理获得归一化特征数据,按照预设规则将从归一化特征数据中选取的目标特征数据组成特征矩阵,并根据主成分分析法对特征矩阵进行降维处理获得降维数据,解决了现有技术中清洗数据维度高的技术问题,降低了清洗数据的复杂度,提高了后续清洗数据的利用效率并且降低了清洗数据的存储空间。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有工业装备数据清洗程序,所述工业装备数据清洗程序被处理器执行时实现如上文所述的工业装备数据清洗方法的步骤。
参照图4,图4为本发明工业装备数据清洗装置第一实施例的结构框图。
如图4所示,本发明实施例提出的工业装备数据清洗装置包括:格式化模块10、数据清洗模块20和数据质量检测模块30。
格式化模块10,用于获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;
数据清洗模块20,用于对所述格式化状态数据进行数据清洗,获得清洗数据;
数据质量检测模块30,用于在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
本实施例格式化模块10获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;数据清洗模块20对所述格式化状态数据进行数据清洗,获得清洗数据;数据质量检测模块30在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。由于本实施例是通过将工业装备的状态数据格式化,将格式化状态数据进行数据清洗获得清洗数据,并将符合数据质量标准的清洗数据存储至预设数据库,解决了现有技术中工业装备的状态数据质量低技术问题,提高了工业装备状态数据的数据质量。
基于本发明上述工业装备数据清洗装置第一实施例,提出本发明工业装备数据清洗装置的第二实施例。
在本实施例中,所述数据清洗模块20,还用于对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合;根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据;根据卡尔曼滤波法对所述待降噪数据降噪,获得清洗数据。
所述数据质量检测模块30,还用于根据归一化算法对所述清洗数据进行归一化处理,获得归一化特征数据;根据方差筛选法从所述归一化特征数据中选取目标特征数据;按照预设规则将所述目标特征数据组合成特征矩阵,并根据主成分分析法对所述特征矩阵进行降维处理,获得降维数据。
所述格式化模块10,还用于根据预设格式对所述状态数据进行格式处理,获得格式统一状态数据;将所述格式统一状态数据中的预设字符去除,获得格式化状态数据。
所述数据清洗模块20,还用于根据预设参数确定所述格式化状态数据中各数据对象对应的邻域点个数、邻域平均距离及点密度;根据所述各数据对象对应的邻域点个数、邻域平均距离及点密度确定所述格式化状态数据的第一离群点集合;根据离群点检测算法确定所述格式化状态数据的第二离群点集合;根据所述第一离群点集合和所述第二离群点集合确定所述格式化状态数据的异常值集合。
所述数据清洗模块20,还用于根据朴素贝叶斯算法对所述格式化状态数据进行分类,根据分类结果将所述格式化状态数据划分为若干个数据集;根据最大期望算法和所述若干个数据集确定期望最大化值;根据所述期望最大化值和所述异常值集合对所述格式化状态数据中的异常值进行填充,获得待降噪数据。
所述数据质量检测模块30,还用于根据所述归一化特征数据确定特征数据均值;根据所述特征数据均值和所述归一化特征数据确定各特征数据对象对应的方差;根据预设方差阈值和所述各特征数据对象对应的方差从所述归一化特征数据中选取目标特征数据。
本发明工业装备数据清洗装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种工业装备数据清洗方法,其特征在于,所述方法包括:
获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;
对所述格式化状态数据进行数据清洗,获得清洗数据;
在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
2.如权利要求1所述的方法,其特征在于,所述对所述格式化状态数据进行数据清洗,获得清洗数据,包括:
对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合;
根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据;
根据卡尔曼滤波法对所述待降噪数据降噪,获得清洗数据。
3.如权利要求1所述的方法,其特征在于,所述在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库的步骤之后,所述方法还包括:
根据归一化算法对所述清洗数据进行归一化处理,获得归一化特征数据;
根据方差筛选法从所述归一化特征数据中选取目标特征数据;
按照预设规则将所述目标特征数据组合成特征矩阵,并根据主成分分析法对所述特征矩阵进行降维处理,获得降维数据。
4.如权利要求1所述的方法,其特征在于,所述将所述状态数据格式化,获得格式化状态数据,包括:
根据预设格式对所述状态数据进行格式处理,获得格式统一状态数据;
将所述格式统一状态数据中的预设字符去除,获得格式化状态数据。
5.如权利要求2所述的方法,其特征在于,所述对所述格式化状态数据进行异常值检测,根据检测结果确定所述格式化状态数据的异常值集合,包括:
根据预设参数确定所述格式化状态数据中各数据对象对应的邻域点个数、邻域平均距离及点密度;
根据所述各数据对象对应的邻域点个数、邻域平均距离及点密度确定所述格式化状态数据的第一离群点集合;
根据离群点检测算法确定所述格式化状态数据的第二离群点集合;
根据所述第一离群点集合和所述第二离群点集合确定所述格式化状态数据的异常值集合。
6.如权利要求2所述的方法,其特征在于,所述根据最大期望算法和所述异常值集合对所述格式化状态数据中的异常值填充,获得待降噪数据,包括:
根据朴素贝叶斯算法对所述格式化状态数据进行分类,根据分类结果将所述格式化状态数据划分为若干个数据集;
根据最大期望算法和所述若干个数据集确定期望最大化值;
根据所述期望最大化值和所述异常值集合对所述格式化状态数据中的异常值进行填充,获得待降噪数据。
7.如权利要求3所述的方法,其特征在于,所述根据方差筛选法从所述归一化特征数据中选取目标特征数据,包括:
根据所述归一化特征数据确定特征数据均值;
根据所述特征数据均值和所述归一化特征数据确定各特征数据对象对应的方差;
根据预设方差阈值和所述各特征数据对象对应的方差从所述归一化特征数据中选取目标特征数据。
8.一种工业装备数据清洗装置,其特征在于,所述装置包括:
格式化模块,用于获取工业装备的状态数据,并将所述状态数据格式化,获得格式化状态数据;
数据清洗模块,用于对所述格式化状态数据进行数据清洗,获得清洗数据;
数据质量检测模块,用于在所述清洗数据符合预设数据质量标准时,将所述清洗数据保存至预设数据库。
9.一种工业装备数据清洗设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的工业装备数据清洗程序,所述工业装备数据清洗程序配置为实现如权利要求1至7中任一项所述的工业装备数据清洗方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有工业装备数据清洗程序,所述工业装备数据清洗程序被处理器执行时实现如权利要求1至7任一项所述的工业装备数据清洗方法的步骤。
CN202110776725.XA 2021-07-13 2021-07-13 工业装备数据清洗方法、装置、设备及存储介质 Pending CN113656386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110776725.XA CN113656386A (zh) 2021-07-13 2021-07-13 工业装备数据清洗方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110776725.XA CN113656386A (zh) 2021-07-13 2021-07-13 工业装备数据清洗方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113656386A true CN113656386A (zh) 2021-11-16

Family

ID=78489288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110776725.XA Pending CN113656386A (zh) 2021-07-13 2021-07-13 工业装备数据清洗方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113656386A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933023A (zh) * 2023-09-14 2023-10-24 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN117829381A (zh) * 2024-03-05 2024-04-05 成都农业科技职业学院 基于物联网的农业大棚数据优化采集系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116933023A (zh) * 2023-09-14 2023-10-24 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN116933023B (zh) * 2023-09-14 2023-12-01 德电北斗电动汽车有限公司 一种对置活塞磁力线性发电机的监测方法
CN117829381A (zh) * 2024-03-05 2024-04-05 成都农业科技职业学院 基于物联网的农业大棚数据优化采集系统
CN117829381B (zh) * 2024-03-05 2024-05-14 成都农业科技职业学院 基于物联网的农业大棚数据优化采集系统

Similar Documents

Publication Publication Date Title
CN109542740B (zh) 异常检测方法及装置
US10068176B2 (en) Defect prediction method and apparatus
US9275353B2 (en) Event-processing operators
US9336484B1 (en) System and method for outlier detection via estimating clusters
Bénard et al. Sirus: Stable and interpretable rule set for classification
CN113656386A (zh) 工业装备数据清洗方法、装置、设备及存储介质
Hennig et al. Package ‘fpc’
Xie et al. Nonstationary linear discriminant analysis
CN111522968B (zh) 知识图谱融合方法及装置
CN111310139A (zh) 行为数据识别方法、装置及存储介质
Handl et al. Multi-objective clustering and cluster validation
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
Jiang et al. Maximized mutual information analysis based on stochastic representation for process monitoring
Moparthi et al. Design and implementation of hybrid phase based ensemble technique for defect discovery using SDLC software metrics
Mousavi et al. Improving customer clustering by optimal selection of cluster centroids in k-means and k-medoids algorithms
Poghosyan et al. Managing cloud infrastructures by a multi-layer data analytics
CN112732685A (zh) 金融数据处理方法、装置、计算机设备及存储介质
Chen et al. Low-error data recovery based on collaborative filtering with nonlinear inequality constraints for manufacturing processes
US20230376800A1 (en) Predicting runtime variation in big data analytics
Salama et al. Dispatching rules selection mechanism using support vector machine for genetic programming in job shop scheduling
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
Xiang et al. Optiforest: Optimal isolation forest for anomaly detection
EP4356313A1 (en) Analyzing measurement results of a communications network or other target system
Luca et al. Point process models for novelty detection on spatial point patterns and their extremes
Huntsman Topological mixture estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination