CN112131210A - 一种数据识别方法、装置、服务器及存储介质 - Google Patents
一种数据识别方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN112131210A CN112131210A CN202010972597.1A CN202010972597A CN112131210A CN 112131210 A CN112131210 A CN 112131210A CN 202010972597 A CN202010972597 A CN 202010972597A CN 112131210 A CN112131210 A CN 112131210A
- Authority
- CN
- China
- Prior art keywords
- operation data
- data
- equipment operation
- preset range
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 abstract description 22
- 238000012360 testing method Methods 0.000 description 11
- 230000005856 abnormality Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/80—Homes; Buildings
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/20—Information sensed or collected by the things relating to the thing itself
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/30—Information sensed or collected by the things relating to resources, e.g. consumed power
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/10—Detection; Monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Architecture (AREA)
- Civil Engineering (AREA)
- Structural Engineering (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供一种数据识别方法、装置、服务器及存储介质,该方法包括:获取设备运行数据;根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。本发明解决了服务器存储压力大,无法准确识别设备运行状况的问题,能够快速识别异常数据,将异常数据单独存储到异常数据服务器,缩短正常数据的存储周期,以减轻服务器的存储压力,降低服务器成本,减少服务器压力。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种数据识别方法、装置、服务器及存储介质。
背景技术
在智能家居的应用中,每时每刻都会产生大量的数据。大量的传感器检测到各种光电信号并以此判断场景做出对应处理,目前的智能家居可以说离开这就谈不上智能。而这些光电信号都会被转化成可被理解的数据参数,不然就没办法做出处理。然后这些参数和设备运行时的电气参数等都会被存储并上传到企业的服务器,用于检测并改进智能设备。大量的数据涌入服务器如果不进行及时的处理,很快就会将服务器的存储空间占满,影响服务器的正常运作。
为了异常数据的分析处理,服务器存储数据的周期长,在每天都会产生大量数据需要存储的情况下,会对服务器造成很大的压力,甚至导致存储空间爆满,而无法存储新的数据。并且,目前对家居设备运行情况的监控过于简单,通常是直接通过临界值来判断电器设备是否运行正常,判断不正常时直接判断设备损坏了,难以对设备运行状况进行准确识别。
因此,本领域亟需解决服务器存储压力大,无法准确识别设备运行状况的问题。
发明内容
本发明提供一种数据识别方法、装置、服务器及存储介质,以解决服务器存储压力大,无法准确识别设备运行状况的问题。
第一方面,本发明提供一种数据识别方法,应用于第一服务器,所述方法包括:
获取设备运行数据;
根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。
进一步地,所述获取设备运行数据的步骤之后,所述方法还包括:
判断所述设备运行数据是否存在数据维度缺失;
若存在数据维度缺失,则将所述设备运行数据存储于第二服务器,且所述设备运行数据永久存储;
若不存在数据维度缺失,则执行所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤。
进一步地,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,包括:
若所述设备运行数据属于预设范围,则所述设备运行数据存储于第一服务器,且达到预设时长时删除所述设备运行数据。
进一步地,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,还包括:
若所述设备运行数据不属于预设范围,则所述设备运行数据存储于第二服务器,且所述设备运行数据永久存储。
进一步地,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,还包括:
若所述设备运行数据不属于预设范围,则根据所述设备运行数据产生的时间点确定该时间点所属的时间段,其中,所述时间段为包括该时间点在内的预设时长的时间段;
将所述时间段内的设备运行数据永久存储于第二服务器。
进一步地,在所述获取设备运行数据的步骤之前,所述方法还包括:
根据存储的属于预设范围的设备运行数据确定预设范围。
进一步地,所述设备运行数据服从正态分布时,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
利用存储的属于预设范围的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ);
其中,μ表示根据存储的属于预设范围的设备运行数据计算的均值,σ表示根据存储的属于预设范围的设备运行数据计算的标准差。
进一步地,所述设备运行数据服从偏态分布时,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
将存储的属于预设范围的设备运行数据转换为服从正态分布的设备运行数据;
利用转换后的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ);其中,μ表示根据存储的属于预设范围的设备运行数据计算的均值,σ表示根据存储的属于预设范围的设备运行数据计算的标准差;
所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤之前,所述方法还包括:
将获取的设备运行数据转换为服从正态分布的设备运行数据。
进一步地,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
利用存储的属于预设范围的设备运行数据以及预设聚类算法,确定预设范围。
第二方面,本发明提供一种数据识别装置,包括:
获取模块,用于获取设备运行数据;
确定模块,用于根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。
第三方面,本发明提供一种服务器,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的数据识别方法。
第四方面,本发明提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如第一方面所述的数据识别方法。
与现有技术相比,本发明至少具有如下有益效果:
本发明提供一种数据识别方法、装置、服务器及存储介质,该方法包括:获取设备运行数据;根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。本发明解决了服务器存储压力大,无法准确识别设备运行状况的问题,能够快速识别异常数据,将异常数据单独存储到异常数据服务器,缩短正常数据的存储周期,以减轻服务器的存储压力,降低服务器成本,减少服务器压力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例一提供的数据识别方法流程图;
图2是本发明实施例一提供的频率直方图;
图3是本发明实施例一提供的正态分布示意图;
图4是本发明实施例二提供的数据识别装置框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一些相关技术中,通过获取当前时刻所在周期前设定数量的周期内与当前时刻相对应时刻检测设备所发出的数据量,判断检测设备在当前时刻所发出的数据量是否异常,缺点是不是在大数据场景下的使用,只是根据最近几个周期的数据来识别物联网异常数据,数据量很小。
在另一些相关技术中,通过获取来自不同服务器上的原始日志数据,进行标准化处理后使之具备相同的数据结构,再对日志数据采用循环神经网络模型来进行异常识别。但是缺点是日志数据格式复杂,每个应用定义的日志格式都不同,要想标准化,就要对每个应用的日志做大量的分析研究,并且还很难保证准确,一旦有识别错误导致数据丢失就很难定位问题。
实施例一
本实施例提供一种数据识别方法,应用于第一服务器,如图1所示,该数据识别方法包括步骤S110~步骤S120:
步骤S110、获取设备运行数据。
其中,设备可以是空调等家居设备,以空调为例,可以通过家居设备自身带有的传感器或者外置传感器获取设备运行数据,获取的设备运行数据可以包括:电压、电流等。
步骤S120、根据设备运行数据是否属于预设范围确定设备运行数据的存储方式。
其中,存储方式包括:存储于第一服务器,且达到预设时长时删除设备运行数据;以及存储于第二服务器,且设备运行数据永久存储。
由于现有技术中无论设备运行数据是否异常,都永久存储于一个服务器中,存储数据周期长,每天都会产生大量数据需要存储,造成存储数据的服务器压力巨大,且通常仅是通过一个临界值来判断电器设备是否运行正常,无法准确识别设备运行状况。本实施例预设了两种存储方式,在接收到设备运行数据时,判断是否属于预设范围,确定设备运行数据的存储方式,具体来说,当设备运行数据属于预设范围时,可以判断设备运行数据正常,此时,正常的设备运行数据存储于第一服务器中,定期进行数据更新;而当设备运行数据不属于预设范围时,可以判断设备运行数据异常,此时,将异常的设备运行数据单独存储于另一服务器(第二服务器)中,进行永久存储,以便分析故障、排查原因等。
在一些情况下,在步骤S110之后,还包括如下步骤:
步骤S130、判断设备运行数据是否存在数据维度缺失。
例如,一个数据库的表有很多个字段,如空调的运行数据,一条记录就是一个时间点的运行数据,运行数据有很多项,电流、电压、温度等等,每一项就是一个字段,数据维度缺失就是一条记录少了某些字段。
步骤S140、若存在数据维度缺失,则将所述设备运行数据存储于第二服务器,且所述设备运行数据永久存储。
步骤S150、若不存在数据维度缺失,则执行步骤S120。
通过步骤S130~S150,能够在判断设备运行数据是否属于预设范围之前,先将数据维度缺失的设备运行数据筛选出来,作为异常的数据单独存储于第二服务器中,进行永久存储,避免对数据维度缺失的设备运行数据进行是否属于预设范围的判断,影响数据识别效率。对不存在数据维度缺失的设备运行数据再执行步骤S120,进一步判断是否属于预设范围,以确定设备运行数据的正常与异常。
进一步地,上述步骤S120,包括如下子步骤:
步骤S120-1、若设备运行数据属于预设范围,则设备运行数据存储于第一服务器,且达到预设时长时删除设备运行数据。
具体地,当设备运行数据属于预设范围时,可以判断设备运行数据正常,此时,正常的设备运行数据存储于第一服务器中,随着不断删除达到预设时长的设备运行数据,以达到定期进行数据更新的目的,既能缩短正常数据的存储周期,以减轻服务器的存储压力,降低服务器成本,又能为后续实时更新预设范围提供足够的样本数据。其中的预设时长可以根据实际情况设定,可以是一周、一个月或者一个季度,本实施例不做具体限定。通过不断删除第一服务器中存储的达到预设时长的设备运行数据,保证数据更新频率,使得预设范围与最新的(正常的)设备运行数据相匹配,避免设备运行情况判断的滞后。
在一些实施方式中,上述步骤S120,还包括如下子步骤:
步骤S120-2、若设备运行数据不属于预设范围,则设备运行数据存储于第二服务器,且设备运行数据永久存储。
具体地,当设备运行数据不属于预设范围时,可以判断设备运行数据异常,此时,将异常的设备运行数据单独存储于第二服务器中,进行永久存储,由于设备运行数据的异常往往能够反映出设备的故障问题,因此,根据第二服务器中存储的异常的设备运行数据可以达到分析故障、排查原因等。
在另一些实施方式中,上述步骤S120,还包括如下子步骤:
步骤S120-3、若设备运行数据不属于预设范围,则根据设备运行数据产生的时间点确定该时间点所属的时间段,其中,该时间段为包括该时间点在内的预设时长的时间段。
步骤S120-4、将该时间段内的设备运行数据永久存储于第二服务器。
举例来说,预设时长为1小时,根据设备运行数据产生的时间点确定该时间点所属的时间段,是根据设备运行数据产生的时间点以前半小时和该时间点以后半小时确定的时间段。
具体地,当设备运行数据属于预设范围时,正常的设备运行数据存储于第一服务器中,并且随着不断删除达到预设时长的设备运行数据,达到定期进行数据更新的目的,当设备运行数据不属于预设范围时说明设备运行数据异常,为了更有针对性地分析了解设备运行状况,通过将异常的设备运行数据产生时间点前后临近一段时间的(正常)运行数据特存储到第二服务器,相当于对设备运行数据做了一个快照,这样更加有助于发现异常发生时设备运行数据产生的变化,找出产生异常的原因。
例如,空调异常死机时,获取到的设备运行数据不属于预设范围,则通过上述步骤S120-3~步骤S120-4,根据设备运行数据产生的时间点确定该时间点所属的时间段,该时间段能够反映出空调死机前后的设备运行数据变化,根据该时间段内的运行数据能够更快速地找出空调死机原因,如死机前压缩机的运行温度偏高并逐渐升高,可推测可能是压缩机散热性能不佳,导致压缩机的运行温度逐渐升高,启动了过热保护等等。通过准确识别设备运行状况,能够进一步实现有针对性地改进设备,例如,某款空调在空气比较干燥的情况下制冷效果不好,设备长期满负荷运行,在某一部件上体现为运行数值长期偏高,部件寿命短,则需要对此场景做特别处理,或者是调整程序如设定干燥程序,或是调整硬件如使用质量更好的零部件。
由于第一服务器中存储的正常的设备运行数据能够反映设备的正常运行状况,根据不断更新的正常的设备运行数据可以有效跟踪设备的正常运行状况,确定用于判断设备运行数据正常与否的预设范围。
可以理解的是,由于存储于第一服务器中的正常的设备运行数据,会随着达到预设时长而被删除,同时又不断地存储进来新的正常的设备运行数据,如此不断更新存储于第一服务器中的正常的设备运行数据,使得每次进行新的设备运行数据的正异常判断之前,都重新确定预设范围,以实现预设范围与设备运行数据同步更新,使判断标准始终符合设备运行状况,实现对预设范围的实时优化。
因此,进一步地,在步骤S110之前,该方法还包括:
步骤S160、根据存储的属于预设范围的设备运行数据确定预设范围。
由于家居设备是在恒定输入(如电压、电流等)、确定流程(经过怎样的电路处理)、产生稳定输出(如温度、风力等)的条件下运行的。因此,根据统计概率学及中心极限定理分析可知,家居设备的设备运行数据极大可能服从某种概率分布,例如正态分布。
在对设备运行数据分析时,可以进行正态分布检验:
首先,选取样本数据;
由于真正的总体数据是无法穷尽的,本实施例中取在实验条件下设备正常运行时的数据作为样本数据来替代总体数据,进行正态分布检验,所取样本数据尽可能多,以减小误差,且保证是设备正常运行时的数据,否则会导致数据出现严重的偏差,进而使计算出的参数不准确。
其次,将样本数据格式化存储;
由于样本数据较为复杂,因此,要确定具体哪些数据是有用的、可以量化的,并且以统一的格式存储到数据库中。
最后,对样本数据做正态分布检验;
正态分布检验的方法非常多,大致可分为图形检验和数值检验,其中,图形检验包括直方图、pp图、qq图等,数值检验包括偏度峰度联合检验法、Shaprio-Wilk检验(W检验)、Kolmogorov-Smirnov检验(K-S检验)等。实际应用中选择一种方法即可。以采用最直接的频率直方图对温度数据进行正态分布检验为例,使用程序对样本数据处理结果直观的通过图2呈现出来,其中横坐标为0.1度分割的温度区间,纵坐标为样本数据中落在此区间的频率,可以明显看出符合正态分布,对电流、电压等其他设备运行数据的正态分布检验结果与图2类似,不再一一举例。
经实验验证,设备运行数据服从正态分布。本实施例利用样本数据对设备运行数据进行正态分布建模。
正态分布有很多特性,借助正态分布的优良性质,可以使用3σ准则来判定设备运行数据是否异常。如图3所示,由于正态分布关于均值μ对称,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973。也就是说只有0.3%的数据会落在均值的±3σ之外,这是一个小概率事件。而根据为了避免极端值影响到正态分布模型整体的鲁棒性,将落在均值的±3σ之外的数据判定为异常值并从数据中剔除。
进一步地,设备运行数据服从正态分布时,步骤S160可以包括如下子步骤:
步骤S160-1、利用存储的属于预设范围的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ)。
其中,μ表示根据存储的属于预设范围的设备运行数据计算的均值,σ表示根据存储的属于预设范围的设备运行数据计算的标准差。
均值μ及标准差σ的计算式如下:
其中,xi表示第i个设备运行数据,i=1,……N,N表示设备运行数据总量。
由于存储于第一服务器中的属于预设范围的设备运行数据,会随着达到预设时长而被删除,同时又不断地存储进来新的正常的设备运行数据,如此不断更新存储于第一服务器中的正常的设备运行数据,因此,每次进行新的设备运行数据的正异常判断之前,都利用存储的属于预设范围的设备运行数据以及3σ准则重新计算(μ-3σ,μ+3σ),以实现预设范围与设备运行数据同步更新,使判断标准始终符合设备运行状况,实现对预设范围的实时优化。
在一些情况下,设备运行数据服从偏态分布,例如正偏或负偏,为了能够确定预设范围并依据预设范围判断获取到的设备运行数据的正异常,设备运行数据服从偏态分布时,步骤S160可以包括如下子步骤:
步骤S160-2、将存储的属于预设范围的设备运行数据转换为服从正态分布的设备运行数据;其中,转换方式可以是对数变换、平方根变换等。
步骤S160-3、利用转换后的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ)。
基于此,步骤S120之前,该方法还包括:将获取的设备运行数据转换为服从正态分布的设备运行数据。
在设备运行数据服从偏态分布的情况下,在确定预设范围时通过将设备运行数据转换为服从正态分布的设备运行数据,以利用转换后的设备运行数据以及3σ准则计算(μ-3σ,μ+3σ),在获取到新的设备运行数据后,由于新的设备运行数据也是服从偏态分布的,因此,同样地,也需要将获取的设备运行数据转换为服从正态分布的设备运行数据,再利用预设范围进行正异常判断。
在另一些情况下,当设备运行数据维度很高,且设备运行数据之间有关联而且难以计算出明确的函数关系时,可以通过聚类算法确定预设范围。因此,步骤S160,包括如下子步骤:
S160-4、利用存储的属于预设范围的设备运行数据以及预设聚类算法,确定预设范围。
其中,预设聚类算法可以为但不限于k-means算法,以k-means算法为例,其核心思想是:将一个数据作为高维度的一个点,数据的一个字段作为一个维度,多个数据就是多个点,进行多次迭代确定多个簇的质心和其半径,如果有一个新加入的点不属于任何一个簇,那么该点为离群点视为异常数据。本实施例利用样本数据对设备运行数据进行k-means算法聚类,以实现建模,以确定正常的设备运行数据所属分类的预设范围,进而根据设备运行数据是否属于预设范围确定设备运行数据的存储方式,若设备运行数据属于预设范围,则将其存储至第一服务器,与之前存储的属于预设范围的设备运行数据一起,用于重新计算各簇的质心和半径。
实施例二
本实施例提供一种数据识别装置,如图4所示,包括如下模块:
获取模块210,用于获取设备运行数据;
确定模块220,用于根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。
可以理解的是,获取模块210可以用于执行实施例一中的步骤S110,确定模块220可以用于执行实施例一中的步骤S120,确定模块220还可以用于执行实施例一中的步骤S130~步骤S160。各步骤的具体实现方式详见实施例一的相关内容,此处不再赘述。
显然本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这一本发明不限制于任何限定的硬件和软件结合。
实施例三
本实施例提供一种电子设备,包括存储器和处理器,该存储器上存储有计算机程序,该计算机程序被处理器执行时实现实施例一的数据识别方法。
处理器用于执行如实施例一中的数据识别方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
该处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例一中的数据识别方法。
该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-OnlyMemory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
实施例四
本实施例提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被一个或多个处理器执行时,实现实施例一的数据识别方法。
本实施例中的存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (12)
1.一种数据识别方法,其特征在于,应用于第一服务器,所述方法包括:
获取设备运行数据;
根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。
2.根据权利要求1所述的数据识别方法,其特征在于,所述获取设备运行数据的步骤之后,所述方法还包括:
判断所述设备运行数据是否存在数据维度缺失;
若存在数据维度缺失,则将所述设备运行数据存储于第二服务器,且所述设备运行数据永久存储;
若不存在数据维度缺失,则执行所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤。
3.根据权利要求1所述的数据识别方法,其特征在于,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,包括:
若所述设备运行数据属于预设范围,则所述设备运行数据存储于第一服务器,且达到预设时长时删除所述设备运行数据。
4.根据权利要求3所述的数据识别方法,其特征在于,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,还包括:
若所述设备运行数据不属于预设范围,则所述设备运行数据存储于第二服务器,且所述设备运行数据永久存储。
5.根据权利要求3所述的数据识别方法,其特征在于,所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤,还包括:
若所述设备运行数据不属于预设范围,则根据所述设备运行数据产生的时间点确定该时间点所属的时间段,其中,所述时间段为包括该时间点在内的预设时长的时间段;
将所述时间段内的设备运行数据永久存储于第二服务器。
6.根据权利要求1所述的数据识别方法,其特征在于,在所述获取设备运行数据的步骤之前,所述方法还包括:
根据存储的属于预设范围的设备运行数据确定预设范围。
7.根据权利要求6所述的数据识别方法,其特征在于,所述设备运行数据服从正态分布时,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
利用存储的属于预设范围的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ);
其中,μ表示根据存储的属于预设范围的设备运行数据计算的均值,σ表示根据存储的属于预设范围的设备运行数据计算的标准差。
8.根据权利要求6所述的数据识别方法,其特征在于,所述设备运行数据服从偏态分布时,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
将存储的属于预设范围的设备运行数据转换为服从正态分布的设备运行数据;
利用转换后的设备运行数据以及3σ准则,确定预设范围为(μ-3σ,μ+3σ);其中,μ表示根据存储的属于预设范围的设备运行数据计算的均值,σ表示根据存储的属于预设范围的设备运行数据计算的标准差;
所述根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式的步骤之前,所述方法还包括:
将获取的设备运行数据转换为服从正态分布的设备运行数据。
9.根据权利要求6所述的数据识别方法,其特征在于,所述根据存储的属于预设范围的设备运行数据确定预设范围的步骤,包括:
利用存储的属于预设范围的设备运行数据以及预设聚类算法,确定预设范围。
10.一种数据识别装置,其特征在于,包括:
获取模块,用于获取设备运行数据;
确定模块,用于根据所述设备运行数据是否属于预设范围确定设备运行数据的存储方式,其中所述存储方式包括:存储于第一服务器,且达到预设时长时删除所述设备运行数据;以及存储于第二服务器,且所述设备运行数据永久存储。
11.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据识别方法。
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被一个或多个处理器执行时,实现如权利要求1至9中任一项所述的数据识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972597.1A CN112131210A (zh) | 2020-09-16 | 2020-09-16 | 一种数据识别方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972597.1A CN112131210A (zh) | 2020-09-16 | 2020-09-16 | 一种数据识别方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131210A true CN112131210A (zh) | 2020-12-25 |
Family
ID=73845851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010972597.1A Pending CN112131210A (zh) | 2020-09-16 | 2020-09-16 | 一种数据识别方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131210A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114311029A (zh) * | 2021-12-22 | 2022-04-12 | 珠海一微半导体股份有限公司 | 一种机器人的数据管理方法、芯片及机器人 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345785A (zh) * | 2013-07-15 | 2013-10-09 | 深圳沈鼓测控技术有限公司 | 设备异常停机监测方法 |
CN104793605A (zh) * | 2015-04-10 | 2015-07-22 | 北京金控自动化技术有限公司 | 一种利用正态分布判定设备故障的方法 |
CN105635207A (zh) * | 2014-10-31 | 2016-06-01 | 小米科技有限责任公司 | 运行状态检测方法和装置 |
CN107063501A (zh) * | 2017-01-12 | 2017-08-18 | 深圳创维-Rgb电子有限公司 | 一种电子设备内部温度的检测处理方法及系统 |
CN107748652A (zh) * | 2017-11-07 | 2018-03-02 | 深圳市智物联网络有限公司 | 一种数据存储方法及装置 |
CN110264722A (zh) * | 2019-07-03 | 2019-09-20 | 泰华智慧产业集团股份有限公司 | 信息采集设备中异常设备的筛选方法及系统 |
-
2020
- 2020-09-16 CN CN202010972597.1A patent/CN112131210A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345785A (zh) * | 2013-07-15 | 2013-10-09 | 深圳沈鼓测控技术有限公司 | 设备异常停机监测方法 |
CN105635207A (zh) * | 2014-10-31 | 2016-06-01 | 小米科技有限责任公司 | 运行状态检测方法和装置 |
CN104793605A (zh) * | 2015-04-10 | 2015-07-22 | 北京金控自动化技术有限公司 | 一种利用正态分布判定设备故障的方法 |
CN107063501A (zh) * | 2017-01-12 | 2017-08-18 | 深圳创维-Rgb电子有限公司 | 一种电子设备内部温度的检测处理方法及系统 |
CN107748652A (zh) * | 2017-11-07 | 2018-03-02 | 深圳市智物联网络有限公司 | 一种数据存储方法及装置 |
CN110264722A (zh) * | 2019-07-03 | 2019-09-20 | 泰华智慧产业集团股份有限公司 | 信息采集设备中异常设备的筛选方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114311029A (zh) * | 2021-12-22 | 2022-04-12 | 珠海一微半导体股份有限公司 | 一种机器人的数据管理方法、芯片及机器人 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740648B (zh) | 电力负荷异常数据识别方法、装置和计算机设备 | |
CN112148768A (zh) | 一种指标时间序列异常检测方法、系统及存储介质 | |
CN114781184A (zh) | 一种数字化能耗在线安全监测管理方法及系统 | |
CN110647913A (zh) | 基于聚类算法的异常数据检测方法及装置 | |
CN111666273B (zh) | 抄表系统数据有效性分析方法、装置 | |
CN117113235A (zh) | 一种云计算数据中心能耗优化方法及系统 | |
CN113723861A (zh) | 异常用电行为检测方法、装置、计算机设备和存储介质 | |
CN112131210A (zh) | 一种数据识别方法、装置、服务器及存储介质 | |
CN117391499A (zh) | 光伏电站可靠性评价方法及其装置 | |
CN117572837B (zh) | 一种智慧电厂ai主动运维方法及系统 | |
CN117233645B (zh) | 一种储能逆变器电池异常判定方法、系统及介质 | |
CN112882898B (zh) | 基于大数据日志分析的异常检测方法、系统、设备及介质 | |
CN111259338B (zh) | 元器件失效率修正方法、装置、计算机设备及存储介质 | |
CN115658441B (zh) | 一种基于日志的家政业务系统异常监控方法、设备及介质 | |
CN117034180A (zh) | 电力通信设备数据异常检测方法、系统及存储介质 | |
CN116243199A (zh) | 异常电池单体的检测方法及装置、计算机存储介质 | |
CN116184060A (zh) | 一种适用于瓷质绝缘子带电作业的异动监测方法和系统 | |
CN112737120A (zh) | 区域电网控制报告的生成方法、装置和计算机设备 | |
CN112732517B (zh) | 一种磁盘故障告警方法、装置、设备及可读存储介质 | |
JP2018005393A (ja) | 故障予兆判定方法、故障予兆判定装置および故障予兆判定プログラム | |
CN113294295A (zh) | 用于检测涡轮性能不佳和操作异常的系统和方法 | |
CN113591266A (zh) | 一种电能表故障概率的分析方法及系统 | |
CN112667281A (zh) | 一种配置信息处理方法及装置 | |
CN114253958B (zh) | 电能量数据的自动修正方法及装置 | |
CN117421531B (zh) | 干扰环境下的有效数据智能确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |