CN115543729B - 一种数据采集方法及系统 - Google Patents

一种数据采集方法及系统 Download PDF

Info

Publication number
CN115543729B
CN115543729B CN202211093596.5A CN202211093596A CN115543729B CN 115543729 B CN115543729 B CN 115543729B CN 202211093596 A CN202211093596 A CN 202211093596A CN 115543729 B CN115543729 B CN 115543729B
Authority
CN
China
Prior art keywords
data
statistic
original data
data acquisition
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211093596.5A
Other languages
English (en)
Other versions
CN115543729A (zh
Inventor
李栋梁
孙崇武
刘晓雨
祝家鑫
闫俊伊
谭浩
马识途
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Information Technology Co Ltd
Original Assignee
Huaneng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Information Technology Co Ltd filed Critical Huaneng Information Technology Co Ltd
Priority to CN202211093596.5A priority Critical patent/CN115543729B/zh
Publication of CN115543729A publication Critical patent/CN115543729A/zh
Application granted granted Critical
Publication of CN115543729B publication Critical patent/CN115543729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3086Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves the use of self describing data formats, i.e. metadata, markup languages, human readable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据采集方法及系统,涉及数据采集技术领域,该方法包括,接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据。提高了数据采集的效率和数据检测的效率。

Description

一种数据采集方法及系统
技术领域
本申请涉及数据采集技术领域,更具体地,涉及一种数据采集方法及系统。
背景技术
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风,都是数据采集工具。被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据量测方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,均以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对面状连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量(或包括物理量,如灰度)数据。
现有技术中,存储数据的设备或装置越来越多,为了保证设备或装置的正常运行,需要获取装置上的数据,通过数据来判断其是否正常运行。现在,在对装置进行数据采集时,往往通过人工一个一个单独进行采集,但是其采集时不知按照何种顺序进行采集,导致数据采集杂乱无章,采集效率较低。
而且,采集完的原始数据,并不清楚其是否存在异常数据,往往需要对大量数据全面的进行检测,从而去确定异常数据。所以,急需能够初步判断原始数据中是否存在异常数据,从而方便后续检测步骤顺利进行。
因此,如何提高数据采集效率和数据检测的效率,是目前有待解决的技术问题。
发明内容
本发明提供一种数据采集方法,用以解决现有技术中数据采集效率低、检测效率低的技术问题。预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别,所述方法包括:
接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;
根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;
数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。
本申请一些实施例中,根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,具体为:
预设有第三关联表,所述第三关联表为所述加权数和所述重要程度级别之积对应的数据采集时序;
根据所述加权数和所述重要程度级别得到所述加权数和所述重要程度级别之积;
根据所述加权数和所述重要程度级别之积与所述第三关联表确定每个所述存储装置的数据采集时序。
本申请一些实施例中,建立主元模型,具体为:
获取所述存储装置的历史数据,从所述历史数据中挑选出正常数据,基于所述正常数据建立主元模型。
本申请一些实施例中,所述方法还包括:
在建立主元模型的过程中,若所述主元个数处于预设的合理区间内,继续建立主元模型;
若所述主元个数未处于预设的合理区间内,通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法重新获取主元个数,直至主元个数处于预设的合理区间内。
本申请一些实施例中,所述方法还包括:
所述主元模型包括主元子空间和残差子空间,通过第一统计量表示原始数据在所述主元子空间上投影的变化情况,通过第二统计量表示原始数据在所述残差子空间上的投影的变化情况。
本申请一些实施例中,通过所述主元模型判断所述原始数据中是否存在异常数据,具体为:
通过所述第一统计量与预设的第一阈值比较,得到结果一,通过所述第二统计量与预设的第二阈值比较,得到结果二;
根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据。
本申请一些实施例中,根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据,具体为:
所述结果一包括第一统计量超出第一阈值和第一统计量未超过第一阈值,所述结果二包括第二统计量超出第二阈值和第二统计量未超过第二阈值;
若第一统计量超出第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量未超过第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量超出第一阈值且第二统计量未超过第二阈值,不确定原始数据中是否存在异常数据;
若第一统计量未超过第一阈值且第二统计量未超过第二阈值,所述原始数据中不存在异常数据。
本申请一些实施例中,所述方法还包括:
若不确定原始数据中是否存在异常数据,则采用小波变换方法检测所述原始数据,判断是否存在异常数据。
本申请一些实施例中,所述方法还包括:
若同时需要采集数据的所述存储装置数量超过预设的数量,则分批次或分时间段对同时需要采集数据的所述存储装置进行数据采集。
对应的,本申请还提供了一种数据采集系统,预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别,所述系统包括:
获取模块,用于接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;
确定模块,用于根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;
判断模块,用于数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。
通过应用以上技术方案,接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;数据采集完成后,+得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。本申请通过不同的存储装置的身份信息,确定其对应的权重和重要程度等级,得到每个存储装置的采集顺序,提高了数据采集效率。获得原始数据后,对其进行异常数据检测,从而方便后续数据检测的进行,提高了数据检测的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数据采集方法的流程示意图;
图2示出了本发明实施例提出的一种数据采集系统的结构示意图;
图3示出了本发明实施例中数据采集顺序确定的流程示意图;
图4示出了本发明实施例中异常数据检测的流程示意图;
图5示出了本发明另一实施例中异常数据检测结果的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据采集方法,预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别。其中,存储装置可以为产生数据并保存的装置,也可以为专门用来存储的装置。存储装置的身份信息包括但不限于装置名称、型号、出厂代码、ip地址等能识别装置身份的信息。第一关联表为每个身份信息对应的一个加权数,第二关联表为每个身份信息对应的重要程度级别。加权数和重要程度级别均为数值。
如图1所示,该方法包括以下步骤:
步骤S101,接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别。
本实施例中,确定需要采集数据的待采集存储装置,获取身份信息,根据身份信息获取对应的加权数和重要程度级别。
步骤S102,根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集。
本实施例中,如图3所示,计算所述加权数和所述重要程度级别乘积,根据乘积获取每个存储装置的开始采集时间,按照采集时间的先后进行采集顺序的排序,并按照此顺序进行数据采集。
为了提高数据采集的效率,本申请一些实施例中,根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,具体为:预设有第三关联表,所述第三关联表为所述加权数和所述重要程度级别之积对应的数据采集时序;根据所述加权数和所述重要程度级别得到所述加权数和所述重要程度级别之积;根据所述加权数和所述重要程度级别之积与所述第三关联表确定每个所述存储装置的数据采集时序。
本实施例中,第三关联表为所述加权数和所述重要程度级别的乘积对应的数据采集时序,即存储装置的开始采集时间,按照开始采集时间的先后进行装置采集顺序的排序。
为了提高数据采集的可靠性,本申请一些实施例中,所述方法还包括:若同时需要采集数据的所述存储装置数量超过预设的数量,则分批次或分时间段对同时需要采集数据的所述存储装置进行数据采集。
本实施例中,若同一时刻需要采集存储装置的数量超过提前预设数量,则分批次或分时间段进行采集。避免采集过载,导致采集效率下降。提升了工作效率。若同时需要采集数据的所述存储装置数量未超过预设的数量,则按照上述步骤确定的采集顺序进行数据采集。
步骤S103,数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。
本实施例中,得到原始数据后,如图4所示,通过主元分析法进行异常数据检测,主元分析法叫做主要因素分析(Principal Factor Analysis,PFA),在工业生产中,往往系统很复杂且过程变量的个数很多,各变量之间往往又彼此影响,从而给信息提取工作带来很大困难。因此希望用较少的几个新的相互独立的综合变量,来代替原有的较多的变量(即尽可能地减少过程变量的个数),使问题得以简化。主元分析法便是将原有的较多的变量简化为较少的几个新的综合变量的多元统计方法。通过主元分析法分析出异常数据,并做异常标记,当接收到原始数据时,同时接收到异常标记,表明该批原始数据存在异常,可以进行更加细致全面的数据检测。若无异常数据,则不需对该批次原始数据做数据检测。
需要说明的是,上述的主元分析法的建模计算过程、主元数量计算等过程均为本领域常规内容,在此不再赘述。
为了提高数据检测的准确性,本申请一些实施例中,建立主元模型,具体为:获取所述存储装置的历史数据,从所述历史数据中挑选出正常数据,基于所述正常数据建立主元模型。
本实施例中,首先获取存储装置的历史中的正常数据,根据数据变量之间的关系,创建正常数据状态下的主元模型,通过建议原始数据与主元模型间的背离程度,判断是否存在异常数据。
为了提高主元模型的准确性,本申请一些实施例中,所述方法还包括:在建立主元模型的过程中,若所述主元个数处于预设的合理区间内,继续建立主元模型;若所述主元个数未处于预设的合理区间内,通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法重新获取主元个数,直至主元个数处于预设的合理区间内。
本实施例中,主元的个数直接决定了主元模型的异常数据检测性能。如果选取的主元个数太少,则会造成原始数据的丢失,主元模型的误差会比较大。但是,如果主元个数过多的话,会使得次主元空间掺杂噪声信息。所以对主元的选取要求是主元个数要少于变量的个数,且主元还能包含原始数据的大部分信息。要使主元个数处于预设的合理区间内。
需要说明的是,可以通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法中一种或多种获取主元个数。上述方法均为本领域常规技术手段,在此不再赘述。例如,通过累计方差贡献率法获取的主元个数不符合要求,则可以采用其余方法获取主元个数。
为了提高主元模型检测的可靠性,本申请一些实施例中,所述方法还包括:所述主元模型包括主元子空间和残差子空间,通过第一统计量表示原始数据在所述主元子空间上投影的变化情况,通过第二统计量表示原始数据在所述残差子空间上的投影的变化情况。
本实施例中,建立的主元模型包括主元子空间和残差子空间,检测原理就是将原始数据向量投影到两个正交的子空间上,然后在各自的子空间上建立统计量来进行假设检验,判断是否有异常数据存在。其中,第一统计量为Hotelling T2统计量,以下简称为T2统计量,第二统计量为Q(SPE)统计量,以下简称为Q统计量。将它们与各自的阈值比较,这样就可判断出数据中是否有异常数据的存在。两个统计量数据检测时的描述点不同,因为他们是从不同角度描述数据的变化程度的。T2统计量反应的主元子空间的情况,表示的是数据在该空间内偏离主元的程度。Q统计量表示的是数据在残差子空间内偏离主元的程度。在主元子空间中主要含有的是一些正常的过程变化,代表的是正常数据,方差较大;而在残差子空间中包含的变化一般是噪声或者是异常数据,方差都较小,因此,第一阈值大于第二阈值。
为了进一步提高主元模型检测的可靠性,本申请一些实施例中,通过所述主元模型判断所述原始数据中是否存在异常数据,具体为:通过所述第一统计量与预设的第一阈值比较,得到结果一,通过所述第二统计量与预设的第二阈值比较,得到结果二;根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据。本申请一些实施例中,根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据,具体为:所述结果一包括第一统计量超出第一阈值和第一统计量未超过第一阈值,所述结果二包括第二统计量超出第二阈值和第二统计量未超过第二阈值;若第一统计量超出第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;若第一统计量未超过第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;若第一统计量超出第一阈值且第二统计量未超过第二阈值,不确定原始数据中是否存在异常数据;若第一统计量未超过第一阈值且第二统计量未超过第二阈值,所述原始数据中不存在异常数据。
本实施例中,如图5所示,主元模型中,T2统计量与第一阈值比较,Q统计量与第二阈值比较,存在以下四种情况。
情况1、T2统计量超出第一阈值,且Q统计量超出第二阈值,则原始数据中存在异常数据;
情况2、T2统计量未超出第一阈值,且Q统计量超出第二阈值,则原始数据中存在异常数据;
情况3、T2统计量超出第一阈值,且Q统计量未超出第二阈值,则不能确定原始数据中是否存在异常数据;
情况4、T2统计量未超出第一阈值,且Q统计量未超出第二阈值,则原始数据中不存在异常数据。
可以理解的是,第一阈值与T2统计量相对应,第二阈值与Q统计量相对应,第一阈值和第二阈值可以根据实际需求进行调整。
为了提高异常数据检测的可靠性,本申请一些实施例中,所述方法还包括:若不确定原始数据中是否存在异常数据,则采用小波变换方法检测所述原始数据,判断是否存在异常数据。
小波变化方法为本领域常规技术手段,在此不再赘述。
通过应用以上技术方案,接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;数据采集完成后,+得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。本申请通过不同的存储装置的身份信息,确定其对应的权重和重要程度等级,得到每个存储装置的采集顺序,提高了数据采集效率。获得原始数据后,对其进行异常数据检测,从而方便后续数据检测的进行,提高了数据检测的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
对应的,本申请还提供了一种数据采集系统,预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别,如图2所示,所述系统包括:
获取模块201,用于接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;
确定模块202,用于根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;
判断模块203,用于数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据。
除此之外,本申请系统还包括:
本申请一些实施例中,所述确定模块202具体用于:
预设有第三关联表,所述第三关联表为所述加权数和所述重要程度级别之积对应的数据采集时序;
根据所述加权数和所述重要程度级别得到所述加权数和所述重要程度级别之积;
根据所述加权数和所述重要程度级别之积与所述第三关联表确定每个所述存储装置的数据采集时序。
本申请一些实施例中,所述判断模块203具体用于:
获取所述存储装置的历史数据,从所述历史数据中挑选出正常数据,基于所述正常数据建立主元模型。
本申请一些实施例中,所述系统还包括第一模块,用于:
在建立主元模型的过程中,若所述主元个数处于预设的合理区间内,继续建立主元模型;
若所述主元个数未处于预设的合理区间内,通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法重新获取主元个数,直至主元个数处于预设的合理区间内。
本申请一些实施例中,所述系统还包括第二模块,用于:
所述主元模型包括主元子空间和残差子空间,通过第一统计量表示原始数据在所述主元子空间上投影的变化情况,通过第二统计量表示原始数据在所述残差子空间上的投影的变化情况。
本申请一些实施例中,所述判断模块203具体用于:
通过所述第一统计量与预设的第一阈值比较,得到结果一,通过所述第二统计量与预设的第二阈值比较,得到结果二;
根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据。
本申请一些实施例中,所述判断模块203具体用于:
所述结果一包括第一统计量超出第一阈值和第一统计量未超过第一阈值,所述结果二包括第二统计量超出第二阈值和第二统计量未超过第二阈值;
若第一统计量超出第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量未超过第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量超出第一阈值且第二统计量未超过第二阈值,不确定原始数据中是否存在异常数据;
若第一统计量未超过第一阈值且第二统计量未超过第二阈值,所述原始数据中不存在异常数据。
本申请一些实施例中,所述系统还包括第三模块,用于:
若不确定原始数据中是否存在异常数据,则采用小波变换方法检测所述原始数据,判断是否存在异常数据。
本申请一些实施例中,所述系统还包括第四模块,用于:
若同时需要采集数据的所述存储装置数量超过预设的数量,则分批次或分时间段对同时需要采集数据的所述存储装置进行数据采集。
本领域技术人员可以理解实施场景中的系统中的模块可以按照实施场景描述进行分布于实施场景的系统中,也可以进行相应变化位于不同于本实施场景的一个或多个系统中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (5)

1.一种数据采集方法,其特征在于,预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别,所述方法包括:
接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;
根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集;
数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据;
建立主元模型,具体为:
获取所述存储装置的历史数据,从所述历史数据中挑选出正常数据,基于所述正常数据建立主元模型;
所述方法还包括:
在建立主元模型的过程中,若主元个数处于预设的合理区间内,继续建立主元模型;
若所述主元个数未处于预设的合理区间内,通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法重新获取主元个数,直至主元个数处于预设的合理区间内;
所述方法还包括:
所述主元模型包括主元子空间和残差子空间,通过第一统计量表示原始数据在所述主元子空间上投影的变化情况,通过第二统计量表示原始数据在所述残差子空间上的投影的变化情况;
通过所述主元模型判断所述原始数据中是否存在异常数据,具体为:
通过所述第一统计量与预设的第一阈值比较,得到结果一,通过所述第二统计量与预设的第二阈值比较,得到结果二;
根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据;
根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据,具体为:
所述结果一包括第一统计量超出第一阈值和第一统计量未超过第一阈值,所述结果二包括第二统计量超出第二阈值和第二统计量未超过第二阈值;
若第一统计量超出第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量未超过第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;
若第一统计量超出第一阈值且第二统计量未超过第二阈值,不确定原始数据中是否存在异常数据;
若第一统计量未超过第一阈值且第二统计量未超过第二阈值,所述原始数据中不存在异常数据。
2.如权利要求1所述的方法,其特征在于,根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,具体为:
预设有第三关联表,所述第三关联表为所述加权数和所述重要程度级别之积对应的数据采集时序;
根据所述加权数和所述重要程度级别得到所述加权数和所述重要程度级别之积;
根据所述加权数和所述重要程度级别之积与所述第三关联表确定每个所述存储装置的数据采集时序。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
若不确定原始数据中是否存在异常数据,则采用小波变换方法检测所述原始数据,判断是否存在异常数据。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
若同时需要采集数据的所述存储装置数量超过预设的数量,则分批次或分时间段对同时需要采集数据的所述存储装置进行数据采集。
5.一种数据采集系统,其特征在于,预设有第一关联表和第二关联表,所述第一关联表为每个存储装置的身份信息对应的加权数,第二关联表为每个存储装置的身份信息对应的重要程度级别,所述系统包括:
获取模块,用于接收数据采集命令,所述数据采集命令包括多个存储数据的存储装置,获取所述存储装置的身份信息,根据所述存储装置的身份信息和所述第一关联表获取对应的加权数,根据所述存储装置的身份信息和所述第二关联表获取对应的重要程度级别;
确定模块,用于根据所述加权数和所述重要程度级别确定每个所述存储装置的数据采集顺序,按照所述数据采集顺序对所述存储装置进行数据采集,预设有第三关联表,所述第三关联表为所述加权数和所述重要程度级别之积对应的数据采集时序;根据所述加权数和所述重要程度级别得到所述加权数和所述重要程度级别之积;根据所述加权数和所述重要程度级别之积与所述第三关联表确定每个所述存储装置的数据采集时序;
判断模块,用于数据采集完成后,得到原始数据,建立主元模型,通过所述主元模型判断所述原始数据中是否存在异常数据,若存在异常数据,在所述原始数据上留下异常标记,并随所述原始数据一起发送,若不存在异常数据,发送原始数据;获取所述存储装置的历史数据,从所述历史数据中挑选出正常数据,基于所述正常数据建立主元模型;在建立主元模型的过程中,若主元个数处于预设的合理区间内,继续建立主元模型;若所述主元个数未处于预设的合理区间内,通过累计方差贡献率法、交叉验证估计法、赤池信息准则法和平均特征值法重新获取主元个数,直至主元个数处于预设的合理区间内;所述主元模型包括主元子空间和残差子空间,通过第一统计量表示原始数据在所述主元子空间上投影的变化情况,通过第二统计量表示原始数据在所述残差子空间上的投影的变化情况;通过所述主元模型判断所述原始数据中是否存在异常数据,具体用于:通过所述第一统计量与预设的第一阈值比较,得到结果一,通过所述第二统计量与预设的第二阈值比较,得到结果二;根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据;根据所述结果一和所述结果二判断所述原始数据中是否存在异常数据,具体用于:所述结果一包括第一统计量超出第一阈值和第一统计量未超过第一阈值,所述结果二包括第二统计量超出第二阈值和第二统计量未超过第二阈值;若第一统计量超出第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;若第一统计量未超过第一阈值且第二统计量超出第二阈值,所述原始数据中存在异常数据;若第一统计量超出第一阈值且第二统计量未超过第二阈值,不确定原始数据中是否存在异常数据;若第一统计量未超过第一阈值且第二统计量未超过第二阈值,所述原始数据中不存在异常数据。
CN202211093596.5A 2022-09-08 2022-09-08 一种数据采集方法及系统 Active CN115543729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211093596.5A CN115543729B (zh) 2022-09-08 2022-09-08 一种数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211093596.5A CN115543729B (zh) 2022-09-08 2022-09-08 一种数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN115543729A CN115543729A (zh) 2022-12-30
CN115543729B true CN115543729B (zh) 2023-07-07

Family

ID=84725843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211093596.5A Active CN115543729B (zh) 2022-09-08 2022-09-08 一种数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN115543729B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2579658A1 (en) * 2004-09-10 2006-03-16 Exxonmobil Research And Engineering Company Application of abnormal event detection technology to olefins recovery trains
CN110940875A (zh) * 2019-11-20 2020-03-31 深圳市华星光电半导体显示技术有限公司 设备异常检测方法、装置、存储介质及电子设备
CN114997750A (zh) * 2022-08-03 2022-09-02 广东知得失网络科技有限公司 一种风险信息推送方法、系统、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235240B2 (en) * 2015-07-03 2019-03-19 Acronis International Gmbh System and method of reliable distributed data storage with controlled redundancy
CN105373118B (zh) * 2015-12-07 2018-11-16 高新兴科技集团股份有限公司 一种智能设备数据采集方法
CN107608335B (zh) * 2017-09-14 2020-02-14 山东科技大学 无人机飞行控制系统故障检测与故障分离的数据驱动方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2579658A1 (en) * 2004-09-10 2006-03-16 Exxonmobil Research And Engineering Company Application of abnormal event detection technology to olefins recovery trains
CN110940875A (zh) * 2019-11-20 2020-03-31 深圳市华星光电半导体显示技术有限公司 设备异常检测方法、装置、存储介质及电子设备
CN114997750A (zh) * 2022-08-03 2022-09-02 广东知得失网络科技有限公司 一种风险信息推送方法、系统、设备和介质

Also Published As

Publication number Publication date
CN115543729A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
US20160202693A1 (en) Anomaly Diagnosis System and Anomaly Diagnosis Method
CN110426634B (zh) 一种用于驱动系统的异常预测的方法及设备
CN112148557B (zh) 一种性能指标实时预测方法、计算机设备及存储介质
JP5827425B1 (ja) 予兆診断システム及び予兆診断方法
CN117060409B (zh) 电力线路运行状态自动化检测分析方法及系统
CN113868953B (zh) 工业系统中多机组运行优化方法、装置、系统及存储介质
CN116308305B (zh) 一种桥梁健康监测数据管理系统
WO2015099972A1 (en) System and method for identifying data useful for valve diagnostics
CN117270514B (zh) 基于工业物联网的生产过程全流程故障检测方法
CN108322917B (zh) 无线网络接入故障定位方法、设备、系统及存储介质
CN113157524A (zh) 基于大数据的异常问题解决方法、系统、设备和存储介质
US11941495B2 (en) Information processing device, information processing method, and recording medium
KR101960755B1 (ko) 미취득 전력 데이터 생성 방법 및 장치
CN117029968A (zh) 一种流量数据的诊断方法、系统、存储介质和电子设备
CN115878958A (zh) 一种变压器油温预测方法、装置、设备及存储介质
CN110795324A (zh) 一种数据处理方法及装置
CN115543729B (zh) 一种数据采集方法及系统
CN111176226A (zh) 一种基于运行工况的设备特征参数报警阈值自动分析方法
CN113934536A (zh) 面向边缘计算的数据采集方法
CN112819373A (zh) 一种配网电压异常数据检测方法及装置
CN114938339A (zh) 一种数据处理方法和相关装置
CN115757073A (zh) 一种系统风险识别方法及装置、电子设备、存储介质
CN110245844B (zh) 异常指标检测方法及装置
EP4364043A1 (en) Method and apparatus for detecting and explaining anomalies
CN113869373A (zh) 设备异常检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant