CN111104736B - 基于时间序列的异常数据检测方法、装置、介质和设备 - Google Patents

基于时间序列的异常数据检测方法、装置、介质和设备 Download PDF

Info

Publication number
CN111104736B
CN111104736B CN201911285902.3A CN201911285902A CN111104736B CN 111104736 B CN111104736 B CN 111104736B CN 201911285902 A CN201911285902 A CN 201911285902A CN 111104736 B CN111104736 B CN 111104736B
Authority
CN
China
Prior art keywords
data
monitoring
prediction
monitored
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911285902.3A
Other languages
English (en)
Other versions
CN111104736A (zh
Inventor
高嘉欣
胡文波
陈云天
田天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Real AI Technology Co Ltd
Original Assignee
Beijing Real AI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Real AI Technology Co Ltd filed Critical Beijing Real AI Technology Co Ltd
Priority to CN201911285902.3A priority Critical patent/CN111104736B/zh
Publication of CN111104736A publication Critical patent/CN111104736A/zh
Application granted granted Critical
Publication of CN111104736B publication Critical patent/CN111104736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明的实施方式提供了一种基于时间序列的异常数据检测方法。该异常数据检测方法包括:获取至少一个第一监测量的监测数据和第二监测量的监测数据;基于特定的时序数据预测模型和至少一个第一监测量的监测数据得到对第二监测量的预测;若第二监测量的监测数据与预测不对应,则确定第二监测量的监测数据为异常数据。本发明的方法可以提高对数据进行异常检测的效率。此外,本发明的实施方式提供了一种基于时间序列的异常数据检测装置、介质和计算设备。

Description

基于时间序列的异常数据检测方法、装置、介质和设备
技术领域
本发明的实施方式涉及大数据技术领域,更具体地,本发明的实施方式涉及基于时间序列的异常数据检测方法及装置、介质和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在工业生产中,通常会对设备的运行指标进行监测,从而判断设备的运行情况是否良好。例如,对发电设备——大坝的运行指标(如上游水位、下游水位、水平位移、沉陷位移、渗流等)进行监测,进而通过评估这些指标是否异常来确定设备是否存在运行风险。
目前对指标是否异常的判断通常由人工实地勘测的方式进行数据校验,这使得在设备运行时无法快速发现存在的异常数据,不利于对设备的运行情况进行有效评估。例如,对大坝的水平位移的监测数据通常采用预置传感器获取,并由专家技术人员根据传感器获取到的值定期进行实地考察,依据经验判断传感器检测到的物理量数据是否异常,这种异常数据的检测方法依赖专家技术人员的主观经验,不同专家技术人员的判断可能存在较大差异,误判的可能性较大,且实际应用中需要花费较大的人力物力,检测效率不高。
发明内容
为此,发明实施例提出了一种改进的基于时间序列的异常数据检测方法及装置、介质和计算设备,可以提高对数据进行异常检测的效率。
在本上下文中,本发明的实施方式期望提供一种基于时间序列的异常数据检测方法。
在本发明实施方式的第一方面中,提供了一种基于时间序列的异常数据检测方法,包括:
获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;
基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;
若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
在本发明的一个实施例中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
在本发明的另一实施例中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
在本发明的另一实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
在本发明的另一实施例中,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
在本发明的另一实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
在本发明的另一实施例中,所述时序数据预测模型为高斯过程回归模型。
在本发明的另一实施例中,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)],P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的实际数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
在本发明的另一个实施例中,对所述第二监测量的预测至少包括预测值和预测区间。
在本发明的另一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测值,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
获取所述预测均值作为所述第二监测量的预测值。
在本发明的另一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测区间,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
获取所述第二监测数据的预设置信度;
根据所述预设置信度、预测均值以及预测方差确定与所述第二监测量的预测区间。
在本发明的另一个实施例中,所述方法还包括:
统计预设时间内第二监测量的异常数据总数;
若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
在本发明的又一个实施例中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。
在本发明的再一个实施例中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
在本发明实施方式的第二方面中,提供了一种介质,包括计算机程序,所述计算机程序被处理器执行时实现上述基于时间序列的异常数据检测方法。
在本发明实施方式的第三方面中,提供了一种基于时间序列的异常数据检测装置,包括:
数据获取模块,用于获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;
预测模块,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;
异常数据确定模块,用于若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
在本发明实施方式的第四方面中,提供了一种计算设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述基于时间序列的异常数据检测方法。
本发明实施方式获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。故无需人工判断是否存在数据异常的情况,提高了对数据进行异常检测的速度;同时,基于特定的时序数据预测模型的预测可以确定第二监测量的正常数据,所以通过判断第二监测量的是否与预测对应,可以准确识别第二监测量是否存在异常。因此,本发明实施例可以提高对监测对象某一方面的监测数据进行异常检测的效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是方法实施例提供的基于时间序列的异常数据检测方法的流程图;
图2为将第二监测量的监测数据和预测结果以图表显示的示例图;
图3是装置实施例提供的基于时间序列的异常数据检测装置的结构图;
图4示意性地示出了根据本发明实施方式提供的一种计算机可读存储介质的示意图;
图5示意性地示出了根据本发明实施方式提供的一种计算设备的示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于时间序列的异常数据检测方法、介质、装置和计算设备。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
示例性方法
请参考图1,图1是本发明方法实施例提供的基于时间序列的异常数据检测方法的流程图。本实施方式中的基于时间序列的异常数据检测方法包括:
S11,获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应。
本实施例中,第一监测量和第二监测量的监测数据在时序上对应是指,当任意时间存在第一监测量的监测数据时,在该时间同时存在与第一监测量的监测数据对应的第二监测量的监测数据。
在本实施方式的一个实施例中,所述第一监测量的监测数据可以是第一监测量的监测数值。
在本实施方式的另一个实施例中,所述第一监测量的监测数据可以包括第一监测量的监测时间以及第一监测量的监测数值。
本实施例中,第一监测量和第二监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的不同监测指标。
可选地,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。
所述环境量是指与监测对象所处环境有关的变量,所述物理量是指反应监测对象物理状态的变量。
本实施例中,所述维度可以时间维度或者是地域维度等,不同维度体现了不同方面的环境量和物理量。
在本实施方式的一个实施例中,以所述监测对象为大坝为例进行说明,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
例如,一第一监测量为大坝的A坝段的温度,另一第一监测量为大坝的A坝段的上游水位,所述第二监测量为大坝的A坝段的水平位移。
S12,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。
本实施例中,特定的时序数据预测模型是训练过的用于对第二监测量进行预测的模型,在该时序数据预测模型中通过核函数拟合第一监测量和第二监测量在对应的不同时间点的监测数据,从而使得该模型可以基于输入数据(即第一监测量的监测数据)预测输出数据(即第二监测量的数据),其预测结果可以是一个预测数据,也可以是多个预测数据,还可以是预测范围。
本实施例中,基于特定的时序数据预测模型预测的是当第一监测量为监测数据时,第二监测量的的值应当为多少。
在具体实施时,获取哪些第一监测量的监测数据以及将哪些第一监测量的监测进行输入,根据基于特定的时序数据预测模型而异。
所述时序数据预测模型可以包括但不限于:线性回归预测模型、神经网络预测模型、卡尔曼滤波预测模型等。
所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
本实施例中,第一监测量的历史监测数据和第二监测量的历史监测数据是在监测对象正常运行的情况下得到的真实历史数据,通过至少一个第一监测量的历史监测数据和第二监测量的历史监测数据训练得到的特定的时序数据预测模型可以基于第一监测量的监测数据预测第二监测量的正常数值。
具体的,获取至少一个第一监测量的历史监测数据,即获取至少一个第一监测量在过去不同时间点进行监测得到的历史监测数据,相应地,获取一个第二监测量的历史监测数据,即获取一个第二监测量在相应的过去不同时间点进行监测得到的历史监测数据,从而得到用于训练时序数据预测模型的训练样本。
例如,在对时序数据预测模型进行训练时,至少一个第一监测量的历史监测数据包括过去3个月大坝温度的数据与大坝水位的数据的组合,第二监测量的历史监测数据包括过去3个月大坝位移(大坝水平位移或大坝垂直位移)的数据。
一种可选实施例中,可以由相同的多个环境量组合得到的历史监测数据(如温度、水位等环境量的组合)和不同的物理量的历史监测数据分别进行训练,得到对不同物理量进行预测的多个时序数据预测模型。
例如,将温度和水位的历史监测数据,以及位移的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测位移。
又例如,将温度和水位的历史监测数据,以及渗压的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测渗压。
优选地,为了使得预测的结果更加准确,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
在本实施方式的一个实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
相应地,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
在本实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
例如,多种核函数为:
66.0**2*RBF+2.4**2*RBF*ExpSineSquared+WhiteKernel;
其中,RBF是径向基核函数,ExpSineSquared是正弦平方核函数,WhiteKernel是白噪声核函数。
在本实施方式的一个实施例中,所述时序数据预测模型为高斯过程回归模型。
高斯过程回归模型是通过高斯过程回归方法所建立的模型,建立高斯过程回归模型所得到的第二监测量的预测结果可以是一个数据分布范围。
由于高斯过程回归模型具有强大的数学依据,模型的可解释性好,因此本实施例通过建立高斯过程回归模型所得到的第二监测量的预测结果准确性高。
具体的,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)],P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
本实施例中,X具体可以表示为在不同时间的第一监测量的监测数值的变量,进一步的,X可以以时间戳和在该时间戳的第一监测量的监测数值表示。
例如,在对时序数据预测模型进行训练时,输入数据为X={X1,X2,...,Xn},y={y1,y2,...,yn},其中,X1代表1号温度的数值与水位的数值的组合,X2代表2号温度的数值与水位的数值的组合,Xn代表n号温度的数值与水位的数值的组合;y1代表1号位移(水平位移或垂直位移)的数值,y2代表2号位移的数值,yn代表n号位移的数值。
本实施例中,f(X)~GP[0,k(X,X’)]表示不同训练样本之间满足一个联合高斯分布,同时,由于P(Σ)~N(Σ|0,σn 2),因此得到y的分布为:
y~N(0,K+σn 2),其中,K为核函数矩阵;
通常,核函数也可以称为协方差函数,它用来描述两个样本分布之间的协方差,核函数矩阵可以由核函数得到,核函数矩阵就是用来描述所有训练样本的分布的协方差。
具体的,若k为核函数或多核函数的组合,则核函数矩阵K为:
Figure BDA0002317973290000091
在得到y的分布之后,可以通过训练样本中的数据拟合上述时序数据预测模型,进而通过最大似然估计的方法求解分布中的超参数(如核函数中的参数和方差σn 2),得到用于对第二监测量进行预测的时序数据预测模型。
具体来讲,对所述第二监测量的预测至少包括预测值和预测区间。
在本实施方式的一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测值,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
获取所述预测均值作为所述第二监测量的预测值。
由于均值和方差可以确定一个分布,因此,在得到第二监测量的预测分布时,即得到了预测均值。
在本实施方式的一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测区间,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
获取所述第二监测数据的预设置信度;
根据所述预设置信度、预测均值以及预测方差确定与所述第二监测量的预测区间。
本实施例中,置信度表示的是被测量参数的真实值落在预测区间的概率。
本实施例中,根据置信度得到的预测区间为置信区间。
具体的,预测区间可以表示在某一置信度下,以被测量参数的测量值为中心,被测量参数的真实值出现的范围。
因此,根据第一监测量的监测数据和时序数据预测模型得到的第二监测量的置信区间即表示第二监测量的真实预测值所在的区间。
同时由于置信度与置信区间存在一定的对应关系,因此可以根据置信度和数据分布得到置信区间,从而使得通过本实施例得到的第二监测量的预测结果更加准确。
例如,若置信度为99.8%,获取了数据分布中的均值和方差(方差是标准差的平方),则置信区间为均值加减三倍标准差,进而确定该均值加减三倍标准差内的数值为第一监测量的预测区间。
例如,将大坝环境量的监测数据X*输入至高斯过程回归模型之后,可以计算出大坝环境量的监测数据X*所对应的大坝物理量的实际数据y*的数据分布。
由于在该高斯过程回归模型中,y*仍服从高斯分布,而由均值和方差可以确定一个数据分布,因此得到y*的均值和方差即得到了y*的分布。
具体的,可以根据以下方式得到y*的均值和方差:
根据y*和已知的y(第一监测量的历史实际数据)呈现联合高斯分布,联合高斯分布的形式为:
Figure BDA0002317973290000111
其中f*=f(X*),I为单元矩阵,
通过以上联合高斯分布可以得到均值
Figure BDA0002317973290000112
和方差cov(y*)的值为:
Figure BDA0002317973290000113
cov(y*)=k(X*,X*)-k(X*,X)(K+σn 2I)-1k(X,X*)
从而通过将第一监测量的监测数据输入至高斯过程回归模型,得到了与第二监测量的预测区间。
在本发明方式的一个实施例中,所述基于时间序列的异常数据检测方法还包括:将所述第二监测量的监测数据和所述预测以图表显示。
请参见图2,图2是将第二监测量的监测数据和预测结果以图表显示的示例图。
在图2中,星形(即图2中Observations)表示第二监测量的监测数据,实线(即图2中Prediction)表示通过基于特定的时序数据预测模型得到的第二监测量的预测值,不同颜色的区间(即图2中68%confidence interval,95.6%confidenceinterval,99.8%confidenceinterval标识的区间)代表通过基于特定的时序数据预测模型以及不同预设设置信度(置信度分别为68%,95.6%以及99.8%)得到的第二监测量的不同预测区间。
S13,若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
所述第二监测量的监测数据与预测不对应包括:第二监测量的监测数据与所述预测均值不相同;或者所述第二监测量的监测数据与所述均值的差值大于预设差值;或者第二监测量的监测数据不在所述预设区间范围内。
请继续参见图2,在图2中,若第二监测量的监测数据以星形标识,且预测区间为99.8%的置信度所得到的预测区间,则在该预测区间外的星形标识的数据为异常数据。
由于根据第一监测量的监测数据和时序数据预测模型预测反应的、是第二监测量的值应当为多少。因此,因此当第二监测量的监测数据与预测不对应时,确定第二监测量的监测数据为异常数据。
优选地,所述方法还包括:
统计预设时间内第二监测量的异常数据总数;
若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
本实施例中,所述预设时间和预设值可以根据需要预先设定,预设时间和预设值可以根据监测对象而异。
本实施中,异常数据总数大于预设值表明预设时间内异常数据多,异常数据总数小于预设值表明预设时间内异常数据少,由于传感器运行时,可能存在小部分数据噪声,因此,本实施例中,当异常数据总数大于预设值时,发送存在安全风险的提醒消息,可以提高安全预警的准确性。
进一步地,所述方法还包括:
将第二监测量的异常数据在显示时以标记颜色显示。
通过将第二监测量的异常数据以标记颜色显示,可以使大坝工作人员快速准确地了解是否存在的数据以及存在哪些异常数据。
本实施例获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。故无需人工判断第二监测量的监测数据是存在数据异常,提高了对数据进行异常检测的速度;同时,基于特定的时序数据预测模型的预测可以确定第二监测量的正常数据,所以通过判断第二监测量的是否与预测对应,可以准确识别第二监测量是否存在异常。因此,本发明实施例可以提高对监测对象某一方面的监测数据进行异常检测的效率。
示例性装置
请参考图3,图3是装置实施例提供的基于时间序列的异常数据检测装置的结构图。本实施方式中的基于时间序列的异常数据检测装置包括:
数据获取模块310,用于获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应。
本实施例中,第一监测量和第二监测量的监测数据在时序上对应是指,当任意时间存在第一监测量的监测数据时,在该时间同时存在与第一监测量的监测数据对应的第二监测量的监测数据。
在本实施方式的一个实施例中,所述第一监测量的监测数据可以是第一监测量的监测数值。
在本实施方式的另一个实施例中,所述第一监测量的监测数据可以包括第一监测量的监测时间以及第一监测量的监测数值。
本实施例中,第一监测量和第二监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的不同监测指标。
可选地,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。
所述环境量是指与监测对象所处环境有关的变量,所述物理量是指反应监测对象物理状态的变量。
本实施例中,所述维度可以时间维度或者是地域维度等,不同维度体现了不同方面的环境量和物理量。
在本实施方式的一个实施例中,以所述监测对象为大坝为例进行说明,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
例如,一第一监测量为大坝的A坝段的温度,另一第一监测量为大坝的A坝段的上游水位,所述第二监测量为大坝的A坝段的水平位移。
预测模块320,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。
本实施例中,特定的时序数据预测模型是训练过的用于对第二监测量进行预测的模型,在该时序数据预测模型中通过核函数拟合第一监测量和第二监测量在对应的不同时间点的监测数据,从而使得该模型可以基于输入数据(即第一监测量的监测数据)预测输出数据(即第二监测量的数据),其预测结果可以是一个预测数据,也可以是多个预测数据,还可以是预测范围。
本实施例中,基于特定的时序数据预测模型预测的是当第一监测量为监测数据时,第二监测量的的值应当为多少。
在具体实施时,获取哪些第一监测量的监测数据以及将哪些第一监测量的监测进行输入,根据基于特定的时序数据预测模型而异。
所述时序数据预测模型可以包括但不限于:线性回归预测模型、神经网络预测模型、卡尔曼滤波预测模型等。
所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
本实施例中,第一监测量的历史监测数据和第二监测量的历史监测数据是在监测对象正常运行的情况下得到的真实历史数据,通过至少一个第一监测量的历史监测数据和第二监测量的历史监测数据训练得到的特定的时序数据预测模型可以基于第一监测量的监测数据预测第二监测量的正常数值。
具体的,获取至少一个第一监测量的历史监测数据,即获取至少一个第一监测量在过去不同时间点进行监测得到的历史监测数据,相应地,获取一个第二监测量的历史监测数据,即获取一个第二监测量在相应的过去不同时间点进行监测得到的历史监测数据,从而得到用于训练时序数据预测模型的训练样本。
例如,在对时序数据预测模型进行训练时,至少一个第一监测量的历史监测数据包括过去3个月大坝温度的数据与大坝水位的数据的组合,第二监测量的历史监测数据包括过去3个月大坝位移(大坝水平位移或大坝垂直位移)的数据。
一种可选实施例中,可以由相同的多个环境量组合得到的历史监测数据(如温度、水位等环境量的组合)和不同的物理量的历史监测数据分别进行训练,得到对不同物理量进行预测的多个时序数据预测模型。
例如,将温度和水位的历史监测数据,以及位移的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测位移。
又例如,将温度和水位的历史监测数据,以及渗压的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测渗压。
优选地,为了使得预测的结果更加准确,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
在本实施方式的一个实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
相应地,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
在本实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
例如,多种核函数为:
66.0**2*RBF+2.4**2*RBF*ExpSineSquared+WhiteKernel;
其中,RBF是径向基核函数,ExpSineSquared是正弦平方核函数,WhiteKernel是白噪声核函数。
在本实施方式的一个实施例中,所述时序数据预测模型为高斯过程回归模型。
高斯过程回归模型是通过高斯过程回归方法所建立的模型,建立高斯过程回归模型所得到的第二监测量的预测结果可以是一个数据分布范围。
由于高斯过程回归模型具有强大的数学依据,模型的可解释性好,因此本实施例通过建立高斯过程回归模型所得到的第二监测量的预测结果准确性高。
具体的,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)],P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
本实施例中,X具体可以表示为在不同时间的第一监测量的监测数值的变量,进一步的,X可以以时间戳和在该时间戳的第一监测量的监测数值表示。
例如,在对时序数据预测模型进行训练时,输入数据为X={X1,X2,...,Xn},y={y1,y2,...,yn},其中,X1代表1号温度的数值与水位的数值的组合,X2代表2号温度的数值与水位的数值的组合,Xn代表n号温度的数值与水位的数值的组合;y1代表1号位移(水平位移或垂直位移)的数值,y2代表2号位移的数值,yn代表n号位移的数值。
本实施例中,f(X)~GP[0,k(X,X’)]表示不同训练样本之间满足一个联合高斯分布,同时,由于P(Σ)~N(Σ|0,σn 2),因此得到y的分布为:
y~N(0,K+σn 2),其中,K为核函数矩阵;
通常,核函数也可以称为协方差函数,它用来描述两个样本分布之间的协方差,核函数矩阵可以由核函数得到,核函数矩阵就是用来描述所有训练样本的分布的协方差。
具体的,若k为核函数或多核函数的组合,则核函数矩阵K为:
Figure BDA0002317973290000171
在得到y的分布之后,可以通过训练样本中的数据拟合上述时序数据预测模型,进而通过最大似然估计的方法求解分布中的超参数(如核函数中的参数和方差σn 2),得到用于对第二监测量进行预测的时序数据预测模型。
具体来讲,对所述第二监测量的预测至少包括预测值和预测区间。
在本实施方式的一个实施例中,所述预测模块320包括:
第一输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
第一获取单元,用于获取所述预测均值作为所述第二监测量的预测值。
由于均值和方差可以确定一个分布,因此,在得到第二监测量的预测分布时,即得到了预测均值。
在本实施方式的一个实施例中,所述预测模块320包括:
第二输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
第二获取单元,用于获取所述第二监测数据的预设置信度;
确定单元,用于根据所述预设置信度、预测均值以及预测方差确定与所述第二监测量的预测区间。
本实施例中,置信度表示的是被测量参数的真实值落在预测区间的概率。
本实施例中,根据置信度得到的预测区间为置信区间。
具体的,预测区间可以表示在某一置信度下,以被测量参数的测量值为中心,被测量参数的真实值出现的范围。
因此,根据第一监测量的监测数据和时序数据预测模型得到的第二监测量的置信区间即表示第二监测量的真实预测值所在的区间。
同时由于置信度与置信区间存在一定的对应关系,因此可以根据置信度和数据分布得到置信区间,从而使得通过本实施例得到的第二监测量的预测结果更加准确。
例如,若置信度为99.8%,获取了数据分布中的均值和方差(方差是标准差的平方),则置信区间为均值加减三倍标准差,进而确定该均值加减三倍标准差内的数值为第一监测量的预测区间。
例如,将大坝环境量的监测数据X*输入至高斯过程回归模型之后,可以计算出大坝环境量的监测数据X*所对应的大坝物理量的实际数据y*的数据分布。
由于在该高斯过程回归模型中,y*仍服从高斯分布,而由均值和方差可以确定一个数据分布,因此得到y*的均值和方差即得到了y*的分布。
具体的,可以根据以下方式得到y*的均值和方差:
根据y*和已知的y(第一监测量的历史实际数据)呈现联合高斯分布,联合高斯分布的形式为:
Figure BDA0002317973290000181
其中f*=f(X*),I为单元矩阵,
通过以上联合高斯分布可以得到均值
Figure BDA0002317973290000182
和方差cov(y*)的值为:
Figure BDA0002317973290000183
cov(y*)=k(X*,X*)-k(X*,X)(K+σn 2I)-1k(X,X*)
从而通过将第一监测量的监测数据输入至高斯过程回归模型,得到了与第二监测量的预测区间。
在本发明方式的一个实施例中,所述基于时间序列的异常数据检测方法还包括:将所述第二监测量的监测数据和所述预测以图表显示。
请参见图2,图2是将第二监测量的监测数据和预测结果以图表显示的示例图。
在图2中,星形(即图2中Observations)表示第二监测量的监测数据,实线(即图2中Prediction)表示通过基于特定的时序数据预测模型得到的第二监测量的预测值,不同颜色的区间(即图2中68%confidence interval,95.6%confidenceinterval,99.8%confidenceinterval标识的区间)代表通过基于特定的时序数据预测模型以及不同预设设置信度(置信度分别为68%,95.6%以及99.8%)得到的第二监测量的不同预测区间。
异常数据确定模块330,用于若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
所述第二监测量的监测数据与预测不对应包括:第二监测量的监测数据与所述预测均值不相同;或者所述第二监测量的监测数据与所述均值的差值大于预设差值;或者第二监测量的监测数据不在所述预设区间范围内。
请继续参见图2,在图2中,若第二监测量的监测数据以星形标识,且预测区间为99.8%的置信度所得到的预测区间,则在该预测区间外的星形标识的数据为异常数据。
由于根据第一监测量的监测数据和时序数据预测模型预测反应的、是第二监测量的值应当为多少。因此,因此当第二监测量的监测数据与预测不对应时,确定第二监测量的监测数据为异常数据。
优选地,所述装置还包括:
数据统计模块,用于统计预设时间内第二监测量的异常数据总数;
消息发送模块,用于若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
本实施例中,所述预设时间和预设值可以根据需要预先设定,预设时间和预设值可以根据监测对象而异。
本实施中,异常数据总数大于预设值表明预设时间内异常数据多,异常数据总数小于预设值表明预设时间内异常数据少,由于传感器运行时,可能存在小部分数据噪声,因此,本实施例中,当异常数据总数大于预设值时,发送存在安全风险的提醒消息,可以提高安全预警的准确性。
进一步地,所述装置还包括:
显示模块,用于将第二监测量的异常数据在显示时以标记颜色显示。
通过将第二监测量的异常数据以标记颜色显示,可以使大坝工作人员快速准确地了解是否存在的数据以及存在哪些异常数据。
本申请所提供的装置中提供的模块能够在使用时基于与上述的示例性基于时间序列的异常数据检测方法(相同的技术手段)对数据进行异常检测,其在具体运行时可以取得上述的示例性方法一样的技术效果,即提高对数据进行异常检测的效率。
示例性介质
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图4对本发明示例性实施方式的计算机可读存储介质进行说明。
请参考图4,其示出的计算机可读存储介质为光盘40,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:
获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;
基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;
若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图5对本发明示例性实施方式的计算设备进行说明,图5示出了适于用来实现本发明实施方式的示例性计算设备50的框图,该计算设备50可以是计算机系统或服务器。图5显示的计算设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算设备50的组件可以包括但不限于:一个或者多个处理器或者处理单元501,系统存储器502,连接不同系统组件(包括系统存储器502和处理单元501)的总线503。
计算设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器502可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)5021和/或高速缓存存储器5022。计算设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM5023可以用于读写不可移动的、非易失性磁介质(图5中未显示,通常称为“硬盘驱动器”)。尽管未在图5中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线503相连。系统存储器502中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块5024的程序/实用工具5025,可以存储在例如系统存储器502中,且这样的程序模块5024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5024通常执行本发明所描述的实施例中的功能和/或方法。
计算设备50也可以与一个或多个外部设备504(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口505进行。并且,计算设备50还可以通过网络适配器506与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与计算设备50的其它模块(如处理单元501等)通信。应当明白,尽管图5中未示出,可以结合计算设备50使用其它硬件和/或软件模块。
处理单元501通过运行存储在系统存储器502中的程序,从而执行各种功能应用以及数据处理,例如,获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
应当注意,尽管在上文详细描述中提及了基于时间序列的异常数据检测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此:
1.一种基于时间序列的异常数据检测方法,其特征在于,所述方法包括:
获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;
基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;
若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
2.如方案1所述的方法,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
3.如方案1或2所述的方法,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
4.如方案3所述的方法,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
5.如方案4所述的方法,其中,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
6.如方案5所述的方法,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
7.如方案4-6任一所述的方法,其中,所述时序数据预测模型为高斯过程回归模型。
8.如方案7所述的方法,其中,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)],P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
9.如方案8所述的方法,其中,对所述第二监测量的预测至少包括预测值和预测区间。
10.如方案9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测值,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
获取所述预测均值作为所述第二监测量的预测值。
11.如方案9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测区间,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
获取所述第二监测数据的预设置信度;
根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。
12.如方案10或11所述的方法,其中,所述方法还包括:
统计预设时间段内第二监测量的异常数据总数;
若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
13.如方案12所述的方法,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。
14.如方案13所述的方法,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
15.一种介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如方案1-14中任一项所述基于时间序列的异常数据检测方法。
16.一种基于时间序列的异常数据检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应;
预测模块,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数;
异常数据确定模块,用于若所述第二监测量的监测数据与所述预测不对应,则确定所述第二监测量的监测数据为异常数据。
17.如方案16所述的装置,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
18.如方案16或17所述的装置,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
19.如方案18所述的装置,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
20.如方案19所述的装置,其中,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
21.如方案20所述的装置,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
22.如方案19-21任一所述的装置,其中,所述时序数据预测模型为高斯过程回归模型。
23.如方案22所述的装置,其中,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)],P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
24.如方案23所述的装置,其中,对所述第二监测量的预测至少包括预测值和预测区间。
25.如方案24所述的装置,其中,所述预测模块包括:
第一输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
第一获取单元,用于获取所述预测均值作为所述第二监测量的预测值。
26.如方案24所述的装置,其中,所述预测模块包括:
第二输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
第二获取单元,用于获取所述第二监测数据的预设置信度;
确定单元,用于根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。
27.如方案25或26所述的装置,其中,所述装置还包括:
数据统计模块,用于统计预设时间段内第二监测量的异常数据总数;
消息发送模块,用于若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
28.如方案27所述的装置,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。
29.如方案28所述的装置,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
30.一种计算设备,其特征在于:所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如方案1-14中任一项所述基于时间序列的异常数据检测方法。

Claims (28)

1.一种基于时间序列的异常数据检测方法,其特征在于,所述方法包括:
获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量,所述第一监测量和所述第二监测量是监测对象的不同监测指标,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应,且分别通过不同的传感器在监测对象正常运行时采集得到;
基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的正常数据的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的监测数据的特征信息的核函数;
若所述第二监测量的监测数据与预测出的所述正常数据不对应,则确定所述第二监测量的监测数据为异常数据。
2.如权利要求1所述的方法,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
3.如权利要求1或2所述的方法,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
4.如权利要求3所述的方法,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
5.如权利要求4所述的方法,其中,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
6.如权利要求5所述的方法,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
7.如权利要求4-6任一所述的方法,其中,所述时序数据预测模型为高斯过程回归模型。
8.如权利要求7所述的方法,其中,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)] ,P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
9.如权利要求8所述的方法,其中,对所述第二监测量的预测至少包括预测值和预测区间。
10.如权利要求9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测值,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
获取所述预测均值作为所述第二监测量的预测值。
11.如权利要求9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量的预测区间,具体包括:
将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
获取所述第二监测量的预设置信度;
根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。
12.如权利要求10或11所述的方法,其中,所述方法还包括:
统计预设时间段内第二监测量的异常数据总数;
若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
13.如权利要求12所述的方法,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
14.一种介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述基于时间序列的异常数据检测方法。
15.一种基于时间序列的异常数据检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取至少一个第一监测量的监测数据和第二监测量的监测数据,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量,所述第一监测量和所述第二监测量是监测对象的不同监测指标,所述第一监测量的监测数据和第二监测量的监测数据在时序上对应,且分别通过不同的传感器在监测对象正常运行时采集得到;
预测模块,用于基于特定时序数据预测模型和至少一个所述第一监测量的监测数据得到对所述第二监测量正常数据的预测,其中,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的监测数据的特征信息的核函数;
异常数据确定模块,用于若所述第二监测量的监测数据与预测出的所述正常数据不对应,则确定所述第二监测量的监测数据为异常数据。
16.如权利要求15所述的装置,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。
17.如权利要求15或16所述的装置,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。
18.如权利要求17所述的装置,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。
19.如权利要求18所述的装置,其中,所述数据的多个维度的特征信息至少包括以下之二:
数据的趋势信息;
数据的周期信息;
数据的噪声。
20.如权利要求19所述的装置,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;
在拟合所述数据的周期信息时,采用正弦平方核函数;
在拟合所述数据的噪声时,采用白噪声核函数。
21.如权利要求18-20任一所述的装置,其中,所述时序数据预测模型为高斯过程回归模型。
22.如权利要求21所述的装置,其中,所述时序数据预测模型被设置为:
y=f(X)+Σ,且f(X)~GP[0,k(X,X’)] ,P(Σ)~N(Σ|0,σn 2);
其中,y为表示第二监测量的预测数据的变量,X为表示第一监测量的监测数据的变量,Σ表示噪声,k(X,X’)为核函数或多个核函数的组合,σn 2为Σ的方差,n为X的维度。
23.如权利要求22所述的装置,其中,对所述第二监测量的预测至少包括预测值和预测区间。
24.如权利要求23所述的装置,其中,所述预测模块包括:
第一输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值;
第一获取单元,用于获取所述预测均值作为所述第二监测量的预测值。
25.如权利要求23所述的装置,其中,所述预测模块包括:
第二输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的所述第二监测量的预测分布,所述预测分布包含预测均值与预测方差;
第二获取单元,用于获取所述第二监测量的预设置信度;
确定单元,用于根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。
26.如权利要求24或25所述的装置,其中,所述装置还包括:
数据统计模块,用于统计预设时间段内第二监测量的异常数据总数;
消息发送模块,用于若所述异常数据总数大于预设值,发送存在安全风险的提醒消息。
27.如权利要求26所述的装置,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。
28.一种计算设备,其特征在于:所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-13中任一项所述基于时间序列的异常数据检测方法。
CN201911285902.3A 2019-12-13 2019-12-13 基于时间序列的异常数据检测方法、装置、介质和设备 Active CN111104736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911285902.3A CN111104736B (zh) 2019-12-13 2019-12-13 基于时间序列的异常数据检测方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911285902.3A CN111104736B (zh) 2019-12-13 2019-12-13 基于时间序列的异常数据检测方法、装置、介质和设备

Publications (2)

Publication Number Publication Date
CN111104736A CN111104736A (zh) 2020-05-05
CN111104736B true CN111104736B (zh) 2021-07-13

Family

ID=70423191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911285902.3A Active CN111104736B (zh) 2019-12-13 2019-12-13 基于时间序列的异常数据检测方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN111104736B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183624A (zh) * 2020-09-28 2021-01-05 河海大学 一种基于集成学习的大坝监测数据异常检测方法
CN113723734A (zh) * 2020-12-30 2021-11-30 京东城市(北京)数字科技有限公司 时序数据的异常监测方法、装置、电子设备和存储介质
CN113342604B (zh) * 2021-06-07 2022-06-24 平安证券股份有限公司 内存使用率的检测方法、装置、终端及存储介质
CN115388931B (zh) * 2022-10-27 2023-02-03 河北省科学院应用数学研究所 传感器异常数据的可信监测方法、监测终端及存储介质
CN116937817B (zh) * 2023-09-18 2024-01-16 深圳鹏锐信息技术股份有限公司 一种光伏电站的数据监控系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN110232461A (zh) * 2018-10-22 2019-09-13 鲁东大学 基于量子遗传算法优化的多关联向量机水质预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0007063D0 (en) * 2000-03-23 2000-05-10 Simsci Limited Mulitvariate statistical process monitors
CN103974311B (zh) * 2014-05-21 2017-06-20 哈尔滨工业大学 基于改进高斯过程回归模型的状态监测数据流异常检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542740A (zh) * 2017-09-22 2019-03-29 阿里巴巴集团控股有限公司 异常检测方法及装置
CN110232461A (zh) * 2018-10-22 2019-09-13 鲁东大学 基于量子遗传算法优化的多关联向量机水质预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于运行数据和高斯过程回归的风电机组发电性能分析与监测;郭鹏 等;《电力自动化设备》;20160809;第36卷(第8期);第10-15页 *

Also Published As

Publication number Publication date
CN111104736A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104736B (zh) 基于时间序列的异常数据检测方法、装置、介质和设备
Alaswad et al. A review on condition-based maintenance optimization models for stochastically deteriorating system
CN111080009B (zh) 基于时间序列的数据预测及补全方法、装置、介质和设备
CN109359698B (zh) 基于长短时记忆神经网络模型的漏损识别方法
EP3859455B1 (en) Learning apparatus, learning method, learning program, determination apparatus, determination method, determination program, and computer readable medium
JP6811018B2 (ja) 品質評価システム、品質評価方法及びプログラム
CN111611294B (zh) 星敏感器数据异常检测方法
CA2843157C (en) Extrapolation of interpolated sensor data to increase sample throughput
JP5164954B2 (ja) 機器診断方法及び機器診断装置
CN115964361B (zh) 一种数据增强方法、系统、设备及计算机可读存储介质
CN117270514B (zh) 基于工业物联网的生产过程全流程故障检测方法
CN111400850B (zh) 设备故障分析方法、装置、设备和存储介质
US12079070B2 (en) Alert similarity and label transfer
CN112926636A (zh) 牵引变流器柜体温度异常检测方法和装置
CN115114822A (zh) 基于数字孪生的水下节流阀剩余使用寿命估计方法及系统
KR102110319B1 (ko) 학습 데이터 생성 시스템
US20180053400A1 (en) Method and Apparatus For Determination Of Sensor Health
US20210080924A1 (en) Diagnosis Method and Diagnosis System for a Processing Engineering Plant and Training Method
JP2020129233A (ja) 異常検知装置
CN114003422A (zh) 主机异常检测方法、计算机设备和存储介质
JP3515300B2 (ja) プラント状態予測装置
CN116907772A (zh) 桥梁结构监测传感器的自诊断与故障源鉴别方法及系统
JP2020177571A (ja) 異常予兆診断装置、異常予兆診断方法及び異常予兆診断プログラム
CN118258473A (zh) 换能器脏污影响数据集的获取方法及工作状态的确定方法
CN116147677A (zh) 确定被测变量的测量值的特定于应用的总似然性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200505

Assignee: Beijing Intellectual Property Management Co.,Ltd.

Assignor: Beijing Ruili Wisdom Technology Co.,Ltd.

Contract record no.: X2023110000073

Denomination of invention: Method, device, medium, and equipment for anomaly data detection based on time series

Granted publication date: 20210713

License type: Common License

Record date: 20230531