CN111611231A - 设备运行数据的清洗方法、装置、可读介质及电子设备 - Google Patents

设备运行数据的清洗方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN111611231A
CN111611231A CN201910136195.5A CN201910136195A CN111611231A CN 111611231 A CN111611231 A CN 111611231A CN 201910136195 A CN201910136195 A CN 201910136195A CN 111611231 A CN111611231 A CN 111611231A
Authority
CN
China
Prior art keywords
data
operation data
complete
cluster
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910136195.5A
Other languages
English (en)
Inventor
王小娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinao Shuneng Technology Co Ltd
Original Assignee
Xinao Shuneng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinao Shuneng Technology Co Ltd filed Critical Xinao Shuneng Technology Co Ltd
Priority to CN201910136195.5A priority Critical patent/CN111611231A/zh
Publication of CN111611231A publication Critical patent/CN111611231A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种设备运行数据的清洗方法、装置、可读介质及电子设备,方法包括:获取目标设备的第一运行数据;针对于每个第一运行数据,检测第一运行数据是否完整,如果是,则将第一运行数据作为第二运行数据加入完整数据集合;对完整数据集合进行聚类以形成第一完整子集簇;针对各个第一运行数据中未被作为第二运行数据加入到完整数据集合的每一个第三运行数据,确定第三运行数据与各个第一完整子集簇的相似度;根据各个相似度确定出第二完整子集簇;根据第二完整子集簇对第三运行数据进行填充。本发明提供的技术方案,可以更为快速高效的完成对不完整的运行数据的填充,从而可以实现更为快速的对运行数据进行挖掘。

Description

设备运行数据的清洗方法、装置、可读介质及电子设备
技术领域
本发明涉及能源领域,尤其涉及设备运行数据的清洗方法、装置、可读介质及电子设备。
背景技术
在设备的运行过程会中产生大量的运行数据,每个运行数据中有多个参数,如温度参数、压力参数、湿度参数等,在大量的运行数据中存在着不完整的运行数据,即运行数据中存在信息缺失的参数。
目前,对于设备在运行过程中产生的不完整的运行数据多通过人工参与的方式对其进行填充处理,而在不完整的运行数据的数量较多时,人工参与的方式可能无法高效快速的完成对不完整的运行数据的填充,从而不利于后续快速的对运行数据进行挖掘。
发明内容
本发明提供了一种设备运行数据的清洗方法、装置、可读介质及电子设备,可以更为快速高效的完成对不完整的运行数据的填充,从而可以实现更为快速的对运行数据进行挖掘。
第一方面,本发明提供了一种设备运行数据的清洗方法,包括:
获取目标设备在至少两个时间段内的第一运行数据;
针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则将所述第一运行数据作为第二运行数据加入完整数据集合;
对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
优选地,
所述确定所述第三运行数据与各个所述第一完整子集簇的相似度,包括:
确定各个所述第一完整子集簇的中心点;
确定所述第三运行数据与各个所述第一完整子集簇的所述中心点的相似度。
优选地,
在所述第一运行数据完整时,在所述将所述第一运行数据作为第二运行数据加入完整数据集合之前,进一步包括:
检测所述第一运行数据是否为离群值,如果是则删除所述第一运行数据。
优选地,
在所述确定所述第三运行数据与各个所述第一完整子集簇的相似度之前,还包括:
确定所述第二运行数据中的至少一个参数的参数总量;
检测所述第三运行数据中的各个所述参数的当前参数数量;
检测所述参数总量与所述当前参数数量的差值是否小于预设第一固定值,如果是,则执行所述确定所述第三运行数据与各个所述第一完整子集簇的相似度。
优选地,
所述根据所述第二完整子集簇中各个所述第二运行数据对所述第三运行数据进行填充,包括:
确定所述第三运行数据中信息缺失的每个缺失参数对应的数据类型,所述数据类型包括数值型数据和离散型数据;
针对每个所述缺失参数,当所述缺失参数对应所述数值型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的数值数据,计算各个所述数值数据的平均值,根据所述平均值对所述第三运行数据进行填充;或,当所述缺失参数对应所述离散型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的离散数据,确定各个所述离散数据中频率最高的所述离散数据,根据频率最高的所述离散数据对所述第三运行进行填充。
优选地,
在所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇之前,进一步包括:
确定各个所述相似度的最大值;
检测所述最大值是否小于预设第二固定值,如果是,则删除所述第三运行数据。
优选地,
所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,包括:
针对每个所述相似度,检测所述相似度是否大于第三固定值,如果是,则将所述相似度对应的第一完整子集簇确定为第三完整子集簇;
选择一个所述第三完整子集簇作为第二完整子集簇。
第二方面,本发明提供了一种设备运行数据的清洗装置,包括:
获取数据模块,用于获取目标设备在至少两个时间段内的第一运行数据;
检测处理模块,用于针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则触发集合形成模块;
所述集合形成模块,用于在所述检测处理模块的触发下将所述第一运行数据作为第二运行数据加入完整数据集合;
聚类处理模块,用于对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
填充处理模块,用于针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种设备运行数据的清洗方法、装置、可读介质及电子设备,该方法通过获取目标设备在多个时间段内的第一运行数据,其中每个第一运行数据中有多个参数,当第一运行数据中的各个参数不存在信息缺失时,第一运行数据完整,将完整的第一运行数据作为第二运行数据加入完整数据集合;然后对完整数据集合中的各个第二运行数据进行聚类分析,形成一个或多个第一完整子集簇,每个第一完整子集簇内的各个第二运行数据差异较小;当第一运行数据中的各个参数中有一个或多个参数存在信息缺失,即第一运行数据不完整,则将第一运行数据作为第三运行数据,对于每一个第三运行数据,确定第三运行数据与各个第一完整子集簇的相似度,从各个第一完整子集簇中选出与第三运行数据相似度高的第二完整子集簇,其中第二完整子集簇中的各个第二运行数据与第三运行数据的差异较小,则根据第二完整子集簇中的各个第二运行数据对第三运行数据中的存在信息缺失的参数进行填充,可以更为快速高效的完成对不完整的运行数据的填充,从而可以实现更为快速的对运行数据进行挖掘。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的第一种设备运行数据的清洗方法的流程示意图;
图2为本发明实施例中提供的第二种设备运行数据的清洗方法的流程示意图;
图3为本发明实施例中提供的第三种设备运行数据的清洗方法的流程示意图;
图4为本发明实施例中提供的第四种设备运行数据的清洗方法的流程示意图;
图5为本发明实施例中提供的第五种设备运行数据的清洗方法的流程示意图;
图6为本发明实施例中提供的一种电子设备的结构示意图;
图7为本发明实施例中提供的第一种设备运行数据的清洗装置的结构示意图;
图8为本发明实施例中提供的第二种设备运行数据的清洗装置的结构示意图;
图9为本发明实施例中提供的第三种设备运行数据的清洗装置的结构示意图;
图10为本发明实施例中提供的第四种设备运行数据的清洗装置的结构示意图;
图11为本发明实施例中提供的第五种设备运行数据的清洗装置的结构示意图;
图12为本发明实施例中提供的第六种设备运行数据的清洗装置的结构示意图;
图13为本发明实施例中提供的第七种设备运行数据的清洗装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种设备运行数据的清洗方法,该方法包括:
步骤10,获取目标设备在至少两个时间段内的第一运行数据;
步骤12,针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则执行步骤14;
步骤14,将所述第一运行数据作为第二运行数据加入完整数据集合;
步骤16,对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
步骤18,针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
如图1所示的实施例中,通过获取目标设备在多个时间段内的第一运行数据,其中每个第一运行数据中有多个参数,当第一运行数据中的各个参数不存在信息缺失时,第一运行数据完整,将完整的第一运行数据作为第二运行数据加入完整数据集合;然后对完整数据集合中的各个第二运行数据进行聚类分析,形成一个或多个第一完整子集簇,每个第一完整子集簇内的各个第二运行数据差异较小;当第一运行数据中的各个参数中有一个或多个参数存在信息缺失,即第一运行数据不完整,则将第一运行数据作为第三运行数据,对于每一个第三运行数据,确定第三运行数据与各个第一完整子集簇的相似度,从各个第一完整子集簇中选出与第三运行数据相似度高的第二完整子集簇,其中第二完整子集簇中的各个第二运行数据与第三运行数据的差异较小,则根据第二完整子集簇中的各个第二运行数据对第三运行数据中的存在信息缺失的参数进行填充,从而可以更为快速高效的完成对不完整的运行数据的填充,从而可以实现更为快速的对运行数据进行挖掘。
需要说明的是,本发明实施例提及的目标设备包括但不限于:燃气蒸汽锅炉,燃煤蒸汽锅炉,燃气内燃机,本发明实施例提供的设备运行数据的清洗方法尤其适用于燃气蒸汽锅炉,则第一运行数据包括燃气量、压力、蒸汽温度等。具体的,可以通过DBSCAN算法对完整数据集合中的各个第二运行数据进行聚类,DBSCAN算法是一个基于密度的聚类算法,当给定邻域半径的大小及领域内最小值点的个数时,能够通过DBSCAN算法把具有足够高密度的区域划分为第一完整子集簇,从而保证各个第一完整子集簇内的各个第二运行数据差异较小。
在本发明一个实施例中,所述确定所述第三运行数据与各个所述第一完整子集簇的相似度,包括:
确定各个所述第一完整子集簇的中心点;
确定所述第三运行数据与各个所述第一完整子集簇的所述中心点的相似度。
在上述实施例中,确定各个第一完整子集簇的中心点,当第二运行数据中的各个参数均为数值型数据时,可以将第一完整子集簇中各个第二运行数据中的每个参数的平均值确定为第一完整子集簇的中心点,然后确定第三运行数据与各个第一完整子集簇的中心点的相似度。具体的,在通过DBSCAN算法对完整数据集合中的各个第二运行数据进行聚类时,第一完整子集簇的中心点即为第一完整子集簇的领域中心点,该领域中心点可以更好的代表第一完整子集簇内的各个第二运行数据,从而使得确定的第三运行数据与各个第一完整子集簇的相似度更为准确。
如图2所示,在本发明一个实施例中,在所述第一运行数据完整时,在所述将所述第一运行数据作为第二运行数据加入完整数据集合之前,进一步包括:
步骤131,检测所述第一运行数据是否为离群值,如果是,则执行步骤132,否则,执行步骤14;
步骤132,删除所述第一运行数据。
在上述实施例中,在第一运行数据完整时,当该第一运行数据为离群值,即该第一运行数据与其他的第一运行数据差异较大,如果将该第一运行数据加入完整数据集合,在聚类的过程中,该第一运行数据可能会对聚类结果产生影响,并导致最终根据第二完整子集簇中的各个第二运行数据不能对第三运行数据进行较为准确的填充,因此在确定第一运行数据为离群值时,则删除第一运行数据,保证最终对第三运行数据的准确填充,在确定第一运行数据不是离群值时,则将第一运行数据作为第二运行数据加入完整数据集合,从而可以保证对第三运行数据进行填充的准确性。
如图3所示,在本发明一个实施例中,在所述确定所述第三运行数据与各个所述第一完整子集簇的相似度之前,还包括:
步骤171,确定所述第二运行数据中的至少一个参数的参数总量;检测所述第三运行数据中的各个所述参数的当前参数数量;
步骤172,检测所述参数总量与所述当前参数数量的差值是否小于预设第一固定值,如果是,则执行步骤18,否则,执行步骤173;
步骤173,删除所述第三运行数据。
在上述实施例中,第二运行数据中的各个参数均不存在信息缺失,确定第二运行数据中的参数总量,即完整的运行数据中的全部参数的个数;选择一个第三运行数据,检测该第三运行数据中的当前参数数量,利用参数总量减去该第三运行数据中的当前参数数量得到的差值即为该第三运行数据信息缺失的参数的个数,检测该差值是否小于预设第一固定值,如果是,则进一步确定第三运行数据与各个第一完整子集簇的相似度,否则,删除该第三运行数据。当第三运行数据信息缺失的参数个数较多时,无法保证最终的对该第三运行数据的填充是准确的。举例来说,完整的第一运行数据即第二运行数据中的参数总量为10个,一个第三运行数据的当前参数数量为9,则该第三运行数据信息缺失的参数的个数为1,此时对该第三运行数据进行准确填充的可能性较大;而一个第三运行数据的当前参数数量为3,则该第三运行数据信息缺失的参数的个数为7,此时即使对其进行了填充,无法保证填充结果的准确,且填充后的该第三运行数据因自身携带的参数信息过少对后续进行运行数据挖掘的意义较小。本领域的技术人员应该理解的是,第一固定值为一个经验值,包括50%,用户可以根据实际情况设置第一固定值。
在本发明一个实施例中,所述根据所述第二完整子集簇中各个所述第二运行数据对所述第三运行数据进行填充,包括:
确定所述第三运行数据中信息缺失的每个缺失参数对应的数据类型,所述数据类型包括数值型数据和离散型数据;
针对每个所述缺失参数,当所述缺失参数对应所述数值型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的数值数据,计算各个所述数值数据的平均值,根据所述平均值对所述第三运行数据进行填充;或,当所述缺失参数对应所述离散型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的离散数据,确定各个所述离散数据中频率最高的所述离散数据,根据频率最高的所述离散数据对所述第三运行进行填充。
在上述实施例中,第一运行数据中有多个参数,各个参数的数据类型可能不同,如可以将蒸汽温度视为数值型数据:80℃、82℃、81℃,如果一个第三运行数据,缺失参数为蒸汽温度,则确定第二完整子集簇中各个第二运行数据中蒸汽温度对应的数值数据,计算各个数值数据的平均值,根据该平均值对缺失参数为蒸汽温度的第三运行数据进行填充。第一运行数据中的参数可能为离散型数据,通常离散型数据的平均值不能表示该参数对应的均值水平,因此不能通过计算离散型数据的平均值对第三运行数据进行填充,通常确定第二完整子集簇中出现频率最高的离散数据,根据频率最高的离散数据对第三运行数据进行填充,如此可以保证填充结果的准确性较高。
如图4所示,在本发明一个实施例中,在所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇之前,进一步包括:步骤1812,步骤1813,步骤1814;其中,
步骤1811,针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度;
步骤1812,确定各个所述相似度的最大值;
步骤1813,检测所述最大值是否小于预设第二固定值;如果是,则执行步骤1814,否则,执行1815;
步骤1814,删除所述第三运行数据;
步骤1815,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
在上述实施例中,通过确定各个相似度中的最大值,了解第三运行数据与各个第一完整子集簇的差异情况,当各个相似度中的最大值仍小于预设第二固定值时,表明该第三运行数据与各个第一完整子集簇的差异较大,如果此时在各个第一完整子集簇中确定出第二完整子集簇,并利用第二完整子集簇中的各个第二运行数据对该第三运行数据进行填充,得到的填充结果准确性较低,因此在检测到第三运行数据与各个第一完整子集簇相似度的最大值仍小于预设第二固定值时,删除该第三运行数据,如第二固定值设为50%,当一个第三运行数据与各个第一完整子集簇的相似度的最大值只有45%时,则删除该第三运行数据。具体的,在确定各个相似度的最大值后,检测该最大值大于预设第二固定值,可以选择该最大值对应的第一完整子集簇作为第二完整子集簇,并根据第二完整子集簇中的各个第二运行数据对第三运行数据进行填充。本领域技术人员应该理解的是,第二固定值可以为经验值,用户可以根据实际情况设置第二固定值。
如图5所示的实施例中,所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,包括:步骤1822和步骤1823;其中,
步骤1821,针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度;
步骤1822,针对每个所述相似度,检测所述相似度是否大于第三固定值,如果是,则执行1823;如果否,则执行步骤1824;
步骤1823,将所述相似度对应的第一完整子集簇确定为第三完整子集簇;选择一个所述第三完整子集簇作为第二完整子集簇,并执行步骤1825;
步骤1824,将所述相似度的最大值对应的第一完整子集簇作为第二完整子集簇,并执行步骤1825;
步骤1825,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
在上述实施例中,存在第三运行数据与多个第一完整子集簇的相似度较好,均大于第三固定值,如95%,则将大于第三固定值的各个相似度对应的第一完整子集簇均确定为第三完整子集簇,因第三运行数据与各个第三完整子集簇均有着较好的相似性,即第三运行数据与每个第三完整子集簇中的各个第二运行数据差异较小,因此可以选择任意一个第三完整子集簇作为第二完整子集簇,根据第二完整子集簇中的各个第二运行数据对该第三运行数据进行填充。当第三运行数据与各个第一完整子集簇的相似度的最大值小于预设第三固定值时,将相似度的最大值对应的第一完整子集簇作为第二完整子集簇,根据第二完整子集簇中的各个第二运行数据对第三运行数据进行填充,以保证填充结果的准确性。
本发明实施例提供了一种设备运行数据的清洗装置,装置实施例可以通过软件实现,也可以通过硬件与软件结合的方式实现,如图6所示,为本发明实施例提供的一种设备运行数据的清洗装置的硬件结构图,即一种电子设备的结构示意图,从硬件层面而言,该装置包括处理器601以及存储有执行指令的存储器602,可选地还包括内部总线603及网络接口604,其中,存储器602可能包含内存6021,例如高速随机存取存储器,也可能还包括非易失性存储器6022,例如至少1个磁盘存储器等。以软件实现为例,如图7所示,作为一个逻辑意义上的设备运行数据的清洗装置,是通过其所在设备的CPU将非易失性存储器6022中对应的计算机程序指令读取到内存中运行形成的。本发明提供的一种设备运行数据的清洗装置,包括:
获取数据模块70,用于获取目标设备在至少两个时间段内的第一运行数据;
检测处理模块72,用于针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则触发集合形成模块74;
所述集合形成模块74,用于在所述检测处理模块72的触发下将所述第一运行数据作为第二运行数据加入完整数据集合;
聚类处理模块76,用于对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
填充处理模块78,用于针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
如图8所示,在本发明一个实施例中,所述填充处理模块78,包括:中心点确定单元7811及相似度确定单元7812;
中心点确定单元7811,用于确定各个所述第一完整子集簇的中心点;
相似度确定单元7812,用于确定所述第三运行数据与各个所述第一完整子集簇的所述中心点的相似度。
如图9所示,在本发明一个实施例中,所述集合形成模块74,包括:离群值检测单元741,第一删除单元742及集合形成单元743。
离群值检测单元741,用于在所述检测处理模块72的触发下检测所述第一运行数据是否为离群值,如果是,则触发第一删除单元742,否则,触发集合形成单元743;
第一删除单元742,用于删除所述第一运行数据;
集合形成单元743,用于将所述第一运行数据作为第二运行数据加入完整数据集合。
如图10所示,在本发明一个实施例中,还包括:差值检测模块77;差值检测模块77包括:第一确定单元771、第二确定单元772、差值检测单元773;其中,
第一确定单元771,用于确定所述第二运行数据中的至少一个参数的参数总量;
第二确定单元772,用于检测所述第三运行数据中的各个所述参数的当前参数数量;
差值检测单元773,用于检测所述参数总量与所述当前参数数量的差值是否小于预设第一固定值,如果是,则触发填充处理模块78。
如图11所示,在本发明一个实施例中,所述填充处理模块78,包括:
类型确定单元7821,用于确定所述第三运行数据中信息缺失的每个缺失参数对应的数据类型,当所述缺失参数对应所述数值型数据时,触发均值填充单元7822,当所述缺失参数对应所述离散型数据时,触发频率填充单元7823;
均值填充单元7822,用于在所述类型确定单元7821的触发下,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的数值数据,计算各个所述数值数据的平均值,根据所述平均值对所述第三运行数据进行填充;
频率填充单元7823,用于在所述类型确定单元7821的触发下,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的离散数据,确定各个所述离散数据中频率最高的所述离散数据,根据频率最高的所述离散数据对所述第三运行进行填充。
如图12所示,在本发明一个实施例中,填充处理模块78,包括:第三确定单元7831,最大值确定单元7832,最大值检测单元7833,第二删除单元7834及填充单元7835;
第三确定单元7831,用于针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度;
最大值确定单元7832,用于确定各个所述相似度的最大值;
最大值检测单元7833,用于检测所述最大值是否小于预设第二固定值,如果是,则触发第二删除单元7834,否则,触发填充单元7835;
第二删除单元7834,用于删除所述第三运行数据;
填充单元7835,用于根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
如图13所示,在本发明一个实施例中,填充处理模块78,包括:相似度检测单元7841,第四确定单元7842,及选择处理单元7843;
相似度检测单元7841,用于针对每个所述相似度,检测所述相似度是否大于第三固定值,如果是,则触发第四确定单元7842;
第四确定单元7842,用于在所述相似度检测单元的触发下,将所述相似度对应的第一完整子集簇确定为第三完整子集簇;
选择处理单元7843,用于选择一个所述第三完整子集簇作为第二完整子集簇。
为了描述的方便,描述以上装置实施例时以功能分为各种单元或模块分别描述,在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。
本发明实施例还提供了一种计算机可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图6所示设备运行数据的清洗装置;执行指令是设备运行数据的清洗方法所对应计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种设备运行数据的清洗方法,其特征在于,包括:
获取目标设备在至少两个时间段内的第一运行数据;
针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则将所述第一运行数据作为第二运行数据加入完整数据集合;
对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
2.根据权利要求1所述的方法,其特征在于,
所述确定所述第三运行数据与各个所述第一完整子集簇的相似度,包括:
确定各个所述第一完整子集簇的中心点;
确定所述第三运行数据与各个所述第一完整子集簇的所述中心点的相似度。
3.根据权利要求1所述的方法,其特征在于,
在所述第一运行数据完整时,在所述将所述第一运行数据作为第二运行数据加入完整数据集合之前,进一步包括:
检测所述第一运行数据是否为离群值,如果是,则删除所述第一运行数据。
4.根据权利要求1所述的方法,其特征在于,
在所述确定所述第三运行数据与各个所述第一完整子集簇的相似度之前,还包括:
确定所述第二运行数据中的至少一个参数的参数总量;
检测所述第三运行数据中的各个所述参数的当前参数数量;
检测所述参数总量与所述当前参数数量的差值是否小于预设第一固定值,如果是,则执行所述确定所述第三运行数据与各个所述第一完整子集簇的相似度。
5.根据权利要求4所述的方法,其特征在于,
所述根据所述第二完整子集簇中各个所述第二运行数据对所述第三运行数据进行填充,包括:
确定所述第三运行数据中信息缺失的每个缺失参数对应的数据类型,所述数据类型包括数值型数据和离散型数据;
针对每个所述缺失参数,当所述缺失参数对应所述数值型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的数值数据,计算各个所述数值数据的平均值,根据所述平均值对所述第三运行数据进行填充;或,当所述缺失参数对应所述离散型数据时,确定所述第二完整子集簇中各个所述第二运行数据中与所述缺失参数对应的离散数据,确定各个所述离散数据中频率最高的所述离散数据,根据频率最高的所述离散数据对所述第三运行进行填充。
6.根据权利要求1所述的方法,其特征在于,
在所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇之前,进一步包括:
确定各个所述相似度的最大值;
检测所述最大值是否小于预设第二固定值,如果是,则删除所述第三运行数据。
7.根据权利要求1至6中任一所述的方法,其特征在于,
所述根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,包括:
针对每个所述相似度,检测所述相似度是否大于第三固定值,如果是,则将所述相似度对应的第一完整子集簇确定为第三完整子集簇;
选择一个所述第三完整子集簇作为第二完整子集簇。
8.一种设备运行数据的清洗装置,其特征在于,包括:
获取数据模块,用于获取目标设备在至少两个时间段内的第一运行数据;
检测处理模块,用于针对于每个所述第一运行数据,检测所述第一运行数据是否完整,如果是,则触发集合形成模块;
所述集合形成模块,用于在所述检测处理模块的触发下将所述第一运行数据作为第二运行数据加入完整数据集合;
聚类处理模块,用于对所述完整数据集合中的各个所述第二运行数据进行聚类以形成至少一个第一完整子集簇;
填充处理模块,用于针对各个所述第一运行数据中未被作为第二运行数据加入到所述完整数据集合的每一个第三运行数据,确定所述第三运行数据与各个所述第一完整子集簇的相似度,根据各个所述相似度,从各个所述第一完整子集簇中确定出第二完整子集簇,根据所述第二完整子集簇中的各个所述第二运行数据对所述第三运行数据进行填充。
9.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
CN201910136195.5A 2019-02-25 2019-02-25 设备运行数据的清洗方法、装置、可读介质及电子设备 Pending CN111611231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910136195.5A CN111611231A (zh) 2019-02-25 2019-02-25 设备运行数据的清洗方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910136195.5A CN111611231A (zh) 2019-02-25 2019-02-25 设备运行数据的清洗方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN111611231A true CN111611231A (zh) 2020-09-01

Family

ID=72199951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910136195.5A Pending CN111611231A (zh) 2019-02-25 2019-02-25 设备运行数据的清洗方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111611231A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
WO2015004502A1 (en) * 2013-07-09 2015-01-15 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for imputing corrupted data based on localizing anomalous parts
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN108805193A (zh) * 2018-06-01 2018-11-13 广东电网有限责任公司 一种基于混合策略的电力缺失数据填充方法
CN108932301A (zh) * 2018-06-11 2018-12-04 天津科技大学 数据填充方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015004502A1 (en) * 2013-07-09 2015-01-15 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for imputing corrupted data based on localizing anomalous parts
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN106155985A (zh) * 2016-06-02 2016-11-23 重庆大学 一种基于相邻数据特征的数据缺失填充方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN108805193A (zh) * 2018-06-01 2018-11-13 广东电网有限责任公司 一种基于混合策略的电力缺失数据填充方法
CN108932301A (zh) * 2018-06-11 2018-12-04 天津科技大学 数据填充方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冷泳林等: "基于AP聚类的不完整大数据填充" *
沈才良: "光伏电站故障监测系统的设计与实现" *

Similar Documents

Publication Publication Date Title
CN112882796B (zh) 异常根因分析方法和装置,及存储介质
CN110765026B (zh) 自动化测试方法、装置、存储介质及设备
CN110647913B (zh) 基于聚类算法的异常数据检测方法及装置
CN112446637A (zh) 一种建筑施工质量安全在线风险检测方法及系统
CN106598822A (zh) 一种用于容量评估的异常数据检测方法及装置
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN112214768A (zh) 一种恶意进程的检测方法及装置
CN111752481A (zh) 一种基于spd的内存监控及寿命预测方法和系统
CN108197347B (zh) 连续不规则区域采样点的地理空间分布均匀度检测方法
CN114281256A (zh) 基于分布式存储系统的数据同步方法、装置、设备及介质
CN111611231A (zh) 设备运行数据的清洗方法、装置、可读介质及电子设备
CN109471852B (zh) 医疗数据库建立方法、装置、计算机设备和存储介质
CN111672128A (zh) 基于本地保留时长识别的游戏商城游戏推荐方法及系统
CN115208938B (zh) 用户行为管控方法及装置、计算机可读存储介质
CN111340975A (zh) 异常数据特征提取方法、装置、设备及存储介质
CN115480126A (zh) 基于Fréchet算法的检测装置设置方法、系统、计算机设备及介质
CN115269288A (zh) 故障确定方法、装置、设备和存储介质
CN115129706A (zh) 一种考虑周期性特征的土壤水分观测数据质量评估方法
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
US11513884B2 (en) Information processing apparatus, control method, and program for flexibly managing event history
CN113342500A (zh) 任务执行方法、装置、设备及存储介质
CN115017027A (zh) 接口自动化持续集成测试方法、装置、设备及存储介质
CN111143294A (zh) 电力采集终端数据检索方法、装置和电子设备
CN111124854A (zh) 一种冒烟测试用例分配方法、系统、终端及存储介质
CN113296990A (zh) 时序数据的异常识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination