CN112685950B - 一种海洋时序观测数据的异常检测方法、系统和设备 - Google Patents

一种海洋时序观测数据的异常检测方法、系统和设备 Download PDF

Info

Publication number
CN112685950B
CN112685950B CN202011391590.7A CN202011391590A CN112685950B CN 112685950 B CN112685950 B CN 112685950B CN 202011391590 A CN202011391590 A CN 202011391590A CN 112685950 B CN112685950 B CN 112685950B
Authority
CN
China
Prior art keywords
value
data
time
preddiff
codisp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011391590.7A
Other languages
English (en)
Other versions
CN112685950A (zh
Inventor
王英龙
李响
赵志刚
潘景山
郭莹
王春晓
刘召远
霍吉东
张俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202011391590.7A priority Critical patent/CN112685950B/zh
Publication of CN112685950A publication Critical patent/CN112685950A/zh
Application granted granted Critical
Publication of CN112685950B publication Critical patent/CN112685950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了海洋时序观测数据的异常检测方法、系统和设备,海洋时序观测数据的异常检测方法,包括以下步骤:采集海洋观测数据并进行预处理;计算CoDisp值;基于预测数据点序列得到的t时刻的海洋观测数据的预测值;将预测值与t时刻实际测量得到的目标数据点x值相减并计算绝对值,获得PredDiff值;对预设时长内CoDisp值和PredDiff值分别统计建模,获取CoDisp值、PredDiff值的概率分布,并基于得到的概率分布,计算检测窗口内各目标数据点的异常概率。基于滑窗的动态异常概率确定方法能解决人工设定的阈值缺乏科学依据的问题,在实际应用时发挥异常检测作用。

Description

一种海洋时序观测数据的异常检测方法、系统和设备
技术领域
本发明涉及海洋数据的质量智能控制,具体为一种海洋时序观测数 据的异常检测方法、系统和设备。
背景技术
21世纪是“海洋的世纪”,世界强国间的竞争已经延伸到海洋科学领域, 尤其是在海洋信息领域,各国加快加大了在相关方向科研和基础设施上的投资, 目标是挖掘海洋大数据并构建智慧海洋应用。然而,海洋观测数据包括数据不 一致性、数据冗余、数据缺失、数据类型混乱等问题,从这些大量不完全的、 模糊的、有噪声的海洋观测数据中进行数据挖掘,提取隐含其中有潜在价值的 海洋信息和知识具有很大的挑战。对这些噪声观测数据进行质量控制是进一步 打造智慧海洋的前提。
从全球海洋观测系统(GOOS)开始,海洋大国均开始重视海洋观测 网和观测数据库的建设,目标在于海洋观测数据的“一次收集和多次使 用”。美国通过建设综合海洋观测系统(IOOS)于2006启动了海洋观测 数据质量控制项目(QARTOD),确定了一系列海洋数据管理准则。由上百 名领域专家根据仪器类型和变量类别确定实时数据质量的测验方法,并将质量控制步骤编撰为指南,为美国和全球海洋社区高质量的海洋数据 质量控制奠定了基础。全球海洋观测网计划(ARGO)提出的数据质控系 统被划分为三个层次,包括实时模式、延迟离线模式和区域性科学分析, 共同把控数据质量。美国国家海洋局环境信息数据中心(NOAA/NCEI)发 起了国际数据质量控制海洋数据集计划(IQuOD),由国际社区共同参与 围绕历史数据资料打造最优的自动质量控制过程。澳大利亚的综合海洋 监测系统(IMOS)收集横跨海洋和沿海水域的物理和生物地球化学观测 数据,并采用QARTOD、ARGO等标准方法完成数据的质量控制和开放共享。 加拿大海洋网络计划(Ocean NetworksCanada)中的质量控制由面向未 入库实时数据的实时自动化评估、已入库历史数据的延迟自动化评估、 基于指南的专家评估构成,也借鉴了ARGO的质控架构。
上述海洋观测系统采用的质量控制指南中涉及较多的人工参与过 程,数据异常检测的人力成本消耗过高,也需要专业的海洋领域知识作 为基础,无形中进一步提高了门槛和用人成本。一些可以实现自动化的 数据异常校验过程,包括数据范围校验和基于数理方法校验(例如峰值 检测方法和梯度值检测方法)则需要结合领域知识和站点位置信息构建 校验规则。但是由于海洋环境高度复杂且缺乏对不同地点环境条件变化 的了解,数据范围设定本身就难以找到,传统手段难以满足高质量的异 常检测需求。随着人工智能算法在计算机视觉、语音和自然语言处理上 的成功应用,在异常检测领域也出现了统计机器学习驱动的检测方法, 包括局部离群因子检测(Local Outlier Factor Detection)、单类支持 向量机(One-class Support Vector Machine)等。还有基于树模型的 方法,如孤立森林(Isolation Forest)等。这些传统的机器学习方法 因缺乏对时序数据的上下文建模能力而限制了其有效应用。
因此将上述经典方法应用于海洋观测时序数据的异常检测仍有需要 问题需要研究和探索。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种海洋时序观测 数据的异常检测方法、系统和设备,解决目前存在的问题。
为达到上述目的,本发明提供的技术方案如下:
根据本发明的一个方面,一种海洋时序观测数据的异常检测方法, 其特征在于,包括以下步骤:
采集海洋观测数据并进行预处理,获取预设时间段内海洋观测数 据的目标数据点及目标数据点序列;
基于RRCF模型计算t时刻目标数据点x的删除导致模型结构产生 的位移,计算CoDisp值;
设定检测时间窗口为predict win,通过向训练后的LSTM模型中 输入检测时间窗口前的历史数据序列,LSTM模型将预测并输出检测时 间窗口内的预测数据序列,基于预测数据点序列得到的t时刻的海洋 观测数据的预测值;将预测值与t时刻实际测量得到的目标数据点x 值相减并计算绝对值,获得PredDiff值;
对预设时长内CoDisp值和PredDiff值分别统计建模,获取 CoDisp值、PredDiff值的概率分布,并基于得到的概率分布,计算检 测窗口内各目标数据点的异常概率。
进一步的,对预设时长内CoDisp值和PredDiff值分别统计建模, 获取CoDisp值、PredDiff值的概率分布,包括:
设定预设时长为W和W',W远大于W',保存t时刻目标检测数据 之前长度为W和W'的CoDisp值序列和PredDiff值序列,均称为S 序列;
t时刻目标检测数据之前W窗口内S序列的均值和方差分别表示 为:
Figure BDA0002813008840000031
Figure BDA0002813008840000032
计算得到较短窗口W'内异常水平序列的均值:
Figure BDA0002813008840000033
然后基于CoDisp值序列和PredDiff值序列的S序列分别计算标 准高斯分布的右尾函数的互补概率得到t时刻海洋观测数据的异常似 然值:
Figure BDA0002813008840000034
得Lt_CoDisp和Lt_PredDiff
进一步的,计算目标数据的异常概率,包括:
设定CoDisp值的权重为wCoDisp,PredDiff值的权重为wPredDiff
通过计算其加权平均值得到决策融合后的异常似然值为 Lt=wCoDisp×Lt_CoDisp+wPredDiff×Lt_PredDiff
进一步的,还包括设定异常阈值为ε,若输出数据Lt≥ε,则t时 刻目标数据x为异常数据。
进一步的,所述海洋观测数据包括叶绿素含量、溶解氧含量、有 色溶解有机物含量、浊度中的一种或多种。
进一步的,所述预处理包括对海洋观测数据进行数值归一化、时 序分段。
进一步的,基于RRCF模型计算t时刻目标数据点x的删除导致模 型结构产生的位移,计算CoDisp值,包括:
计算t时刻目标数据点x导致的数据点期望位移值,用Disp(x,Z) 表示:
Figure BDA0002813008840000041
计算t时刻目标数据点x的期望深度值,用g(x,Z)表示:
Figure BDA0002813008840000042
所述根据目标数据点x的数据点期望位移值和期望深度值计算 CoDisp值:
Figure BDA0002813008840000043
其中,E表示了期望,T’树为T树在删除x节点后的表示,即T’= T(Z-{x}),相应的,f(y,Z,T)和f(y,Z-{x},T’)分别表示了y节点 在T树以及删除了x节点后的T’树中的深度,Pr[T]为生成树T的概 率。
根据本发明的另一个方面,一种海洋时序观测数据的异常检测系 统,包括:
数据采集模块,配置用于采集海洋观测数据;
预处理模块,配置用于对海洋观测数据进行预处理,获取预设时 间段内海洋观测数据的目标数据点及目标数据点序列;
RRCF模型建模模块,配置用于基于RRCF模型计算t时刻目标数 据点x的删除导致模型结构产生的位移,计算CoDisp值;
LSTM模型建模模块,配置用于设定检测时间窗口为predict win, 通过向训练后的LSTM模型中输入检测时间窗口前的历史数据序列, LSTM模型将预测并输出检测时间窗口内的预测数据序列,基于预测数 据点序列得到的t时刻的海洋观测数据的预测值;将预测值与t时刻 实际测量得到的目标数据点x值相减并计算绝对值,获得PredDiff 值;
异常检测模块,配置用于对预设时长内CoDisp值和PredDiff值 分别统计建模,获取CoDisp值、PredDiff值数据分布,并基于得到 的数据分布情况,计算目标数据的异常概率。
进一步的,还包括可视化模块,配置用于可视化显示海洋观测数 据、目标数据点、目标数据点序列、CoDisp值、PredDiff值、t时刻 海洋观测数据的异常似然值、异常数据。
根据本发明的另一个方面,提供了一种设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所 述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算 机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的海洋时序观测数据的异常检测方法,融合了树模 型(RRCF)和深度学习模型(LSTM)的海洋观测数据异常检测方法,集 成了RRCF方法自适应于数据流演变的在线学习能力和LSTM方法的序列 上下文学习建模能力,弥补了各自方法的弊端,满足了海洋领域观测数 据异常检测的精度要求和模型的动态更新要求,而且基于滑窗的动态异常概率确定方法能解决人工设定的阈值缺乏科学依据的问题,在实际应 用时发挥异常检测作用。
2、本发明示例的海洋时序观测数据的异常检测系统,支持流式数 据建模的RRCF模型和LSTM模型,能对数据的底层分布和时间演化规律 进行精确建模,具备对目标数据异常度的计算能力;异常检测模块基于 滑动时间窗口的异常度统计建模和数据异常判定,进而得到目标时刻数 据的异常概率。
3、本发明设备执行如上任一项所述的方法实现对海洋时序观测数 据的异常检测方法,基于滑窗的动态异常概率确定方法能解决人工设定 的阈值缺乏科学依据的问题,在实际应用时发挥异常检测作用。
4、本发明设备计算机可读存储介质,该程序被处理器执行时实现 如上任一项所述的方法,实现对海洋时序观测数据的异常检测,基于 滑窗的动态异常概率确定方法能解决人工设定的阈值缺乏科学依据的问 题,在实际应用时发挥异常检测作用。
附图说明
图1为本发明海洋时序观测数据的异常检测方法的流程图;
图2为本发明中RRCF模型根据数据新增/删除数据节点X后,树上 的联合分布和之前的分布发生的改变可由模型的复杂度改变示意图;
图3为本发明中LSTM模型在时序数据计算上的随时间展开示意图;
图4为本发明中LSTM模型内部结构单元的示意图;
图5为LSTM模型和RRCF模型处理数据计算的机制示意图;
图6为基于滑窗的动态异常概率的计算示意图;
图7为异常分析结果呈现的可视化门户示意图一;
图8为为异常分析结果呈现的可视化门户示意图二;
图9本发明面向的海洋观测数据的样例示意图。
图10为本发明的设备的结构示意图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合说明书附图和具体实 施例对本发明作进一步说明。
实施例1
一种海洋时序观测数据的异常检测系统,包括
数据采集模块,配置用于采集海洋观测数据;所述海洋观测数据 包括叶绿素含量、溶解氧含量、有色溶解有机物含量、浊度中的一种 或多种。
预处理模块,配置用于对海洋观测数据进行预处理,获取预设时 间段内海洋观测数据的目标数据点及目标数据点序列,预设时间段可 选取5min、10min、30min等,可根据具体检测环境确定;预处理包 括对海洋观测数据进行数值归一化、时序分段,将目标数据缩放到 0~1之间,便于LSTM模型的学习、训练和推理。RRCF模型对数据的 数值范围是否需要进行缩放并未明确规定,因此实际应用时可以基于 未预处理的原数据直接计算。
RRCF模型建模模块,配置用于基于RRCF模型计算t时刻目标数 据点x的删除导致模型结构产生的位移,计算CoDisp值;RRCF启 发于经典的孤立森林模型,既继承了孤立森林模型的异常数据区分能 力,还增加了对时序关系的处理能力,另外该模型还解决了多维数据 中的无关维度对异常检测精度降低的影响。孤立森林是基于对目标点 的深度来评价异常度,而RRCF模型建立于不可见点对其余数据的影 响,即由该点带来的不确定性和模型复杂度的改变(位移)来分析数 据的异常程度。并且孤立森林模型对样本数量敏感,无法对未出现在 样本中的新颖数据作有效的异常检测,容易出现误报警。RRCF在流 式数据处理(包含新节点的插入和旧节点的删除操作)中能动态的维 护和更新树的结构。能高效地维护一个面向流数据的树算法,满足流 式数据的异常检测场景。如图2所示,左侧表示构造出来的树的结构, 其中x是我们待处理的样本点,该样本点删除后会动态调整树结构的 形态,其中q_0,...,q_r,0,0表示从树的根节点编码到C子树的位描 述串,模型的复杂度为树中所有节点位描述串的总和。
具体的,删除数据节点X后,树上的联合分布和之前的分布发生 的改变可由模型的复杂度|M(T)|的改变确定,可表示为下式:
Figure BDA0002813008840000071
数据点期望位移值,用Disp(x,Z)表示
Figure BDA0002813008840000072
目标数据点x的期望深度值,用g(x,Z)表示,
Figure BDA0002813008840000073
算法利用了t-k,...,t-1这k个历史时刻的数据信息构建树和森林结 构,目的是给出t时刻数据的异常度分数。如图5中所示,随着t 时刻新数据的到来,将其插入到森林中各个树结构中,计算森林复杂 度的改变获得CoDisp值,并从森林各个树中删除第t-k个数据,保 证森林维护的历史数据节点数保持不变,上述过程循环重复直到数据 流结束接收为止。在本实施例中,我们选择构建了一个包含100棵树 的森林,每棵树最大叶子节点容量即k设置为8000,叶子节点的粒 度为单时刻的采样值,数据维度为1。该模型能直接启动进行异常检 测,无需等待序列的构建。LSTM模型建模模块,设定检测时间窗口 为predict win,通过向训练后的LSTM模型中输入检测时间窗口前 的历史数据序列,LSTM模型将预测并输出检测时间窗口内的预测数 据序列,基于预测数据点序列得到的t时刻的海洋观测数据的预测 值;将预测值与t时刻实际测量得到的目标数据点x值相减并计算绝 对值,获得PredDiff值;基于LSTM的观测数据异常度分析:基于 LSTM的异常检测方法是一种基于预测的检测技术,通过设定时间窗 口长度history_win,构建序列样本集,并通过LSTM模型对序列样 本集进行建模,获得many-to-one机制的序列预测能力,即输入长度 为history_win中的序列,模型输出下一个时间窗口predict_win 中发生值的预测,通过预测值与实际值之间的差异性分析,来衡量异 常度的大小,进而判定是否产生了预测数据。LSTM其实是RNN的一 种变体,为了解决时间序列的长依赖问题,即能够将以前的信息连接 到当前时刻。图3是具有N层的LSTM的网络结构,表示了m个时刻 LSTM随时间的链式展开形式。图4展示了LSTM单元的内部结构和机 制。本实施例,history_win和predict_win分别为100和1,即预 测t时刻单点数据值。待分析的单点数据异常水平基于history_win 内数据对t时刻的数据进行预测得到。RRCF模型是直接对单个时间 点上的数据进行分析,虽然树中也保存了历史数据的信息,但无需像 LSTM一样需基于history_win—>predict_win的序列对形式进行数 据分析处理。本实施中,实际应用一开始算法模型无法进行异常检测, 直到接收完首个100个数据才能构建出第一个序列并计算得到当前1 个时刻的预测数据,在第一个序列构建完成后则可以不断将新数据插 入序列样本,并剔除最早的数据,以一种类似于滑窗的形式不断获得 更新后的序列样本,不断获得对未来时刻的数据预测能力。LSTM模 型设置为包含2个堆叠的LSTM结构,隐层数设置为64,输入数据的 维度设置为1,输出的数据维度也为1。模型训练的优化器设置为Adam基于随机梯度下降进行训练,训练数据的batchsize设置为512,训 练迭代5次终止得到用于异常检测的模型。
LSTM模型方法输出的为维度为1的标量值,表示了LSTM模型基 于历史数据学习到的规律,预测得到的目标t时刻的海洋观测数据可 能值。该预测值与t时刻实际测量得到的观测值相减并计算绝对值, 获得PredDiff值。而对于RRCF模型,则是直接将t时刻的实际观测 值插入森林,获得森林复杂度的改变CoDisp值。PredDiff和CoDisp 值均表示了t时刻数据的异常水平。
异常检测模块,配置用于对预设时长内CoDisp值和PredDiff值 分别统计建模,获取CoDisp值、PredDiff值数据分布,并基于得到 的数据分布情况,计算目标数据的异常概率。
我们还需要构建支撑该方法应用于实际场景的支撑系统,包括模 型库的构建、计算框架和业务逻辑、计算分析结果的可视化端口、数 据标注和数据库构建等,主要包括海洋观测流数据的接入处理、异常 智能检测以及分析结果的可视化等。
如图7-8所示,还包括可视化模块,配置用于可视化显示海洋观 测数据、目标数据点、目标数据点序列、CoDisp值、PredDiff值、t 时刻海洋观测数据的异常似然值、异常数据。数据的异常检测分析结 果通过Javascript+HTML+JSP轻量级框架实现前端图表可视化门户界 面呈现给相关管理人员监控,图7为监测的观测数据和异常分析结果, 图8为检测为异常的数据统计列表。最后,根据异常检测情况对目标 数据进行质量评价和标注并记录进数据质控数据库。
本实施例提供一种海洋时序观测数据的异常检测系统,包括以下 步骤:
步骤1:采集海洋观测数据并进行预处理,获取预设时间段内海 洋观测数据的目标数据点及目标数据点序列;所述海洋观测数据包括 叶绿素含量、溶解氧含量、有色溶解有机物含量、浊度中的一种或多 种。所述预处理包括对海洋观测数据进行数值归一化、时序分段。
步骤2:基于RRCF模型计算t时刻目标数据点x的删除导致模型 产生的位移,计算CoDisp值,包括:
步骤2-1:计算t时刻目标数据点x导致的数据点期望位移值, 用Disp(x,Z)表示:
Figure BDA0002813008840000091
步骤2-2:计算t时刻目标数据点x的期望深度值,用g(x,Z)表 示:
Figure BDA0002813008840000092
步骤2-3:所述根据目标数据点x的数据点期望位移值和期望深 度值计算CoDisp值:
Figure BDA0002813008840000093
其中,E表示了期望,T’树为T树在删除x节点后的表示,即T’= T(Z-{x}),相应的,f(y,Z,T)和f(y,Z-{x},T’)分别表示了y节点 在T树以及删除了x节点后的T’树中的深度,Pr[T]为生成树T的概率。 因为RRCF为一系列树构成的森林,计算期望时需要将森林中所有树及 树上所有节点的计算结果求和,即需要两次求和
Figure BDA0002813008840000094
步骤3:设定检测时间窗口为predict win,通过向训练后的LSTM 模型中输入检测时间窗口前的历史数据序列,LSTM模型将预测并输出 检测时间窗口内的预测数据序列,基于预测数据点序列得到的t时刻 的海洋观测数据的预测值;将预测值与t时刻实际测量得到的目标数 据点x值相减并计算绝对值,获得PredDiff值,基于LSTM的观测数 据异常度分析,通过设定时间窗口长度history_win,构建序列样本 集,并通过LSTM模型对序列样本集进行建模,获得many-to-one机制 的序列预测能力,即输入长度为history_win中的序列,模型输出下 一个时间窗口predict_win中发生值的预测值,通过预测值与实际值 之间的差异性分析,得出即PredDiff值。
步骤4:对预设时长内CoDisp值和PredDiff值分别统计建模, 获取CoDisp值、PredDiff值的概率分布,并基于得到的概率分布, 计算检测窗口内各目标数据点的异常概率,具体包括:
步骤4-1:设定预设时长为W和W',W远大于W',保存t时刻目 标检测数据之前长度为W和W'的CoDisp值序列和PredDiff值序 列,均称为S序列以上称为基于滑窗的异常度统计,我们分别设定长 度为和(W远大于W')的滑动数据窗口,随着目标检测数据的流 式到来,以滑窗的形式动态更新、保存时刻目标检测数据之前长度为 和的CoDisp和PredDiff异常水平序列,这里统称为S序列;
步骤4-2:t时刻目标检测数据之前W窗口内S序列的均值和方 差分别表示为:
Figure BDA0002813008840000101
Figure BDA0002813008840000102
步骤4-3:计算得到较短窗口W'内异常水平序列的均值:
Figure BDA0002813008840000103
步骤4-4:然后基于CoDisp值序列和PredDiff值序列的S序列 分别计算标准高斯分布的右尾函数(Q函数)的互补概率得到t时刻 海洋观测数据的异常似然值:
Figure BDA0002813008840000104
得Lt_CoDisp和Lt_PredDiff
步骤4-5:设定CoDisp值的权重为wCoDisp,PredDiff值的权重为 wPredDiff
通过计算其加权平均值得到决策融合后的异常似然值为 Lt=wCoDisp×Lt_CoDisp+wPredDiff×Lt_PredDiff;针对RRCF和LSTM模型方法分别计 算得到t时刻数据的异常水平值:Lt_CoDisp和Lt_PredDiff并设定wCoDisp=0.5和 wPredDiff=0.5为2个方法的异常概率似然的权重值,即在实际应用时我 们认为这两种方法的决策结果具有同样的参照意义。所以决策融合后 的异常似然为Lt=0.5(Lt_CoDisp+Lt_PredDiff)。
步骤4-6:设定异常阈值为ε,若输出数据Lt≥ε,则t时刻目标数 据x为异常数据。进一步的,我们通过比较和统计学意义上的阈值 得到时刻目标检测数据是否是异常的判定。我们设定在时候能得到 较好的效果,即异常数据≡Lt≥1-0.01=0.99。基于统计方法对输出的数 据异常水平序列进行建模,进而得到目标时刻数据的异常概率。通过 与统计学意义上的异常判定概率阈值ε进行比较,获得对预测窗口内 数据是否是异常的判定。
传统方法通过对CoDisp值和PredDiff值分别人工设置阈值来对 每个时刻的采样数据进行判断,规定如果采样数据值大于预设阈值则 为异常数据,反之则为正常数据。但这种人工设定阈值的方法缺乏统 计依据,易导致误报或漏报。在本发明中,我们实现了基于滑窗的异 常概率计算及相应的异常判定方法,经过实际检验本发明提出的方法 更加科学有效。
本实施例的一种设备,所述设备包括:一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所 述一个或多个处理器执行上述任一项所述的方法,集成了RRCF方法自 适应于数据流演变的在线学习能力和LSTM方法的序列上下文学习建模能 力,弥补了各自方法的弊端,满足了海洋领域观测数据异常检测的精度 要求和模型的动态更新要求,而且基于滑窗的动态异常概率确定方法能 解决人工设定的阈值缺乏科学依据的问题,在实际应用时发挥异常检测 作用。
本实施例的一种存储有计算机程序的计算机可读存储介质,其特 征是,该程序被处理器执行时实现上述任一项所述的方法,储存有被 处理器执行时实现海洋时序观测数据的异常检测方法,基于滑窗的动 态异常概率确定方法能解决人工设定的阈值缺乏科学依据的问题,在实 际应用时发挥异常检测作用。进一步介绍如下:
计算机系统包括中央处理单元(CPU)101,其可以根据存储在只读 存储器(ROM)102中的程序或者从存储部分加载到随机访问存储器 (RAM)103中的程序而执行各种适当的动作和处理。在RAM103中, 还存储有系统操作所需的各种程序和数据。CPU 101、ROM 102以及 RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总 线104。
以下部件连接至I/O接口105:包括键盘、鼠标等的输入部分106; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出 部分;包括硬盘等的存储部分108;以及包括诸如LAN卡、调制解调 器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的 网络执行通信处理。驱动器也根据需要连接至I/O接口105。可拆卸介 质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安 装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装 入存储部分108。
特别地,根据本发明的实施例,上文参考流程图1描述的过程可 以被实现为计算机软件程序。例如,本发明的实施例1包括一种计算 机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算 机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例 中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从 可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)101执行 时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读 信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算 机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红 外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机 可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导 线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只 读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、 便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、 或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以 是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装 置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信 号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中 承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算 机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可 读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行 系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质 上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、 电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的框图10,图示了按照本发明各种实施例1的系统、方法 和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一 部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现 规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现 中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时 也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可 以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可 以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实 现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理 器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的 限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述 为:一种海洋时序观测数据的异常检测系统,包括:数据采集模块、 预处理模块、RRCF模型建模模块、LSTM模型建模模块,其中,这些单 元的名称在某种情况下并不构成对该单元本身的限定,例如,数据采 集模块还可以被描述为“采集海洋观测数据的数据采集模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机 可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是 单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一 个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时, 使得该电子设备实现如上述实施例中所述的海洋时序观测数据的异常 检测方法。
例如,所述电子设备可以实现如图1中所示的:步骤S1:采集 海洋观测数据并进行预处理,获取预设时间段内海洋观测数据的目标 数据点及目标数据点序列;步骤S2:基于RRCF模型计算t时刻目标 数据点x的删除导致模型产生的位移,计算CoDisp值;步骤S3:设定预测时间窗口为predict win,向训练后的LSTM模型中输入目标数 据点序列,LSTM模型输出下一个预测时间窗口的预测数据点序列,基 于预测数据点序列得到的t时刻的海洋观测数据的预测值;将预测值 与t时刻实际测量得到的目标数据点x相减并计算绝对值,获得PredDiff值;步骤S4:对预设时长内CoDisp值和PredDiff值分别统 计建模,获取CoDisp值、PredDiff值数据分布,并基于得到的数据 分布情况,计算目标数据的异常概率。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的 若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公 开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可 以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单 元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤, 但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或 是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地, 可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一 个步骤分解为多个步骤执行等。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说 明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限 于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离 所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合 而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能。
上述数据说明本发明海洋时序观测数据的异常检测方法基于滑窗 的动态异常概率确定方法能解决人工设定的阈值缺乏科学依据的问题, 在实际应用时发挥异常检测作用。由于已经通过以上实施例描述了本发 明,任何等同替换对于本发明来说都是显而易见的并且包含在本发明 之中。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体 示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材 料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施例或示例。而且, 描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施 例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实 施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实 施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说 明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和 实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。 本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种海洋时序观测数据的异常检测方法,其特征在于,包括以下步骤:
采集海洋观测数据并进行预处理,获取预设时间段内海洋观测数据的目标数据点及目标数据点序列;
基于RRCF模型计算t时刻目标数据点x的删除导致模型结构产生的位移,计算CoDisp值;
设定检测时间窗口为predict win,通过向训练后的LSTM模型中输入检测时间窗口前的历史数据序列,LSTM模型将预测并输出检测时间窗口内的预测数据序列,基于预测数据点序列得到的t时刻的海洋观测数据的预测值;将预测值与t时刻实际测量得到的目标数据点x值相减并计算绝对值,获得PredDiff值;
对预设时长内CoDisp值和PredDiff值分别统计建模,获取CoDisp值、PredDiff值的概率分布,并基于得到的概率分布,计算检测窗口内各目标数据点的异常概率。
2.根据权利要求1所述的海洋时序观测数据的异常检测方法,其特征在于,对预设时长内CoDisp值和PredDiff值分别统计建模,获取CoDisp值、PredDiff值的概率分布,包括:
设定预设时长为W和W',W远大于W',保存t时刻目标检测数据之前长度为W和W'的CoDisp值序列和PredDiff值序列,均称为S序列;
t时刻目标检测数据之前W窗口内S序列的均值和方差分别表示为:
Figure FDA0003597063360000011
Figure FDA0003597063360000012
计算得到较短窗口W'内异常水平序列的均值:
Figure FDA0003597063360000013
然后基于CoDisp值序列和PredDiff值序列的S序列分别计算标准高斯分布的右尾函数的互补概率得到t时刻海洋观测数据的异常似然值:
Figure FDA0003597063360000021
得Lt_CoDisp和Lt_PredDiff
3.根据权利要求2所述的海洋时序观测数据的异常检测方法,其特征在于,计算目标数据的异常概率,包括:
设定CoDisp值的权重为wCoDisp,PredDiff值的权重为wPredDiff
通过计算其加权平均值得到决策融合后的异常似然值为Lt=wCoDisp×Lt_CoDisp+wPredDiff×Lt_PredDiff
4.根据权利要求3所述的海洋时序观测数据的异常检测方法,其特征在于,还包括设定异常阈值为ε,若输出数据Lt≥ε,则t时刻目标数据x为异常数据。
5.根据权利要求1所述的海洋时序观测数据的异常检测方法,其特征在于,所述海洋观测数据包括叶绿素含量、溶解氧含量、有色溶解有机物含量、浊度中的一种或多种。
6.根据权利要求1所述的海洋时序观测数据的异常检测方法,其特征在于,所述预处理包括对海洋观测数据进行数值归一化、时序分段。
7.根据权利要求1所述的海洋时序观测数据的异常检测方法,其特征在于,基于RRCF模型计算t时刻目标数据点x的删除导致模型结构产生的位移,计算CoDisp值,包括:
计算t时刻目标数据点x导致的数据点期望位移值,用Disp(x,Z)表示,设定RRCF模型中:
Figure FDA0003597063360000022
计算t时刻目标数据点x的期望深度值,用g(x,Z)表示:
Figure FDA0003597063360000023
所述根据目标数据点x的数据点期望位移值和期望深度值计算CoDisp值:
Figure FDA0003597063360000024
其中,E表示了期望,T’树为T树在删除x节点后的表示,即T’=T(Z-{x}),相应的,f(y,Z,T)和f(y,Z-{x},T’)分别表示了y节点在T树以及删除了x节点后的T’树中的深度,Pr[T]为生成树T的概率。
8.一种海洋时序观测数据的异常检测系统,其特征在于,包括
数据采集模块,配置用于采集海洋观测数据;
预处理模块,配置用于对海洋观测数据进行预处理,获取预设时间段内海洋观测数据的目标数据点及目标数据点序列;
RRCF模型建模模块,配置用于基于RRCF模型计算t时刻目标数据点x的删除导致模型结构产生的位移,计算CoDisp值;
LSTM模型建模模块,配置用于设定检测时间窗口为predict win,通过向训练后的LSTM模型中输入检测时间窗口前的历史数据序列,LSTM模型将预测并输出检测时间窗口内的预测数据序列,基于预测数据点序列得到的t时刻的海洋观测数据的预测值;将预测值与t时刻实际测量得到的目标数据点x值相减并计算绝对值,获得PredDiff值;
异常检测模块,配置用于对预设时长内CoDisp值和PredDiff值分别统计建模,获取CoDisp值、PredDiff值数据分布,并基于得到的数据分布情况,计算目标数据的异常概率。
9.根据权利要求8所述的海洋时序观测数据的异常检测系统,其特征在于,还包括可视化模块,配置用于可视化显示海洋观测数据、目标数据点、目标数据点序列、CoDisp值、PredDiff值、t时刻海洋观测数据的异常似然值、异常数据。
10.一种海洋时序观测数据的异常检测设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1-7任一项所述的方法。
CN202011391590.7A 2020-12-02 2020-12-02 一种海洋时序观测数据的异常检测方法、系统和设备 Active CN112685950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391590.7A CN112685950B (zh) 2020-12-02 2020-12-02 一种海洋时序观测数据的异常检测方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391590.7A CN112685950B (zh) 2020-12-02 2020-12-02 一种海洋时序观测数据的异常检测方法、系统和设备

Publications (2)

Publication Number Publication Date
CN112685950A CN112685950A (zh) 2021-04-20
CN112685950B true CN112685950B (zh) 2022-05-20

Family

ID=75447136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391590.7A Active CN112685950B (zh) 2020-12-02 2020-12-02 一种海洋时序观测数据的异常检测方法、系统和设备

Country Status (1)

Country Link
CN (1) CN112685950B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225391B (zh) * 2021-04-27 2022-11-08 东莞中山大学研究院 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备
CN114490622A (zh) * 2022-03-10 2022-05-13 中国科学院大气物理研究所 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统
CN114385619B (zh) * 2022-03-23 2022-07-15 山东省计算中心(国家超级计算济南中心) 一种多通道海洋观测时序标量数据缺失值预测方法及系统
CN114997313B (zh) * 2022-06-07 2024-05-07 厦门大学 一种海洋在线监测数据的异常检测方法
CN117826843B (zh) * 2024-03-04 2024-05-03 湖北华中电力科技开发有限责任公司 基于三维点云的无人机智能避障方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2484313A1 (en) * 2003-10-10 2005-04-10 The Directv Group, Inc. Coherent averaging for measuring traveling wave tube amplifier nonlinearity
CN111641236A (zh) * 2020-05-27 2020-09-08 上海电享信息科技有限公司 基于大数据ai的动态阈值动力电池充电电压状态判断方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995714B (zh) * 2019-12-06 2022-07-26 杭州安恒信息技术股份有限公司 一种检测对Web站点的团伙攻击的方法、装置及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2484313A1 (en) * 2003-10-10 2005-04-10 The Directv Group, Inc. Coherent averaging for measuring traveling wave tube amplifier nonlinearity
CN111641236A (zh) * 2020-05-27 2020-09-08 上海电享信息科技有限公司 基于大数据ai的动态阈值动力电池充电电压状态判断方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于LSTM模型的海洋水质预测》;李彦杰等;《计算机与数字工程》;20200220;第48卷(第02期);第 437-441页 *
《基于改进HTM模型的时间序列异常检测》;王宇鹏等;《计算机应用与软件》;20200812;第37卷(第08期);第296-300页 *
《基于空间信息高斯混合模型的运动车辆检测》;张晓娜等;《江苏大学学报(自然科学版)》;20110710;第32卷(第04期);第385-389页 *

Also Published As

Publication number Publication date
CN112685950A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112685950B (zh) 一种海洋时序观测数据的异常检测方法、系统和设备
CN112783940B (zh) 基于图神经网络的多源时序数据故障诊断方法和介质
CN111815037B (zh) 一种基于注意力机制的可解释性短临极端降雨预测方法
CN110443969B (zh) 一种火点检测方法、装置、电子设备及存储介质
Thai-Nghe et al. Deep learning approach for forecasting water quality in IoT systems
CN114757309B (zh) 多物理场监测数据协同融合的工程灾害预警方法及系统
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
Jing et al. HPRNN: A hierarchical sequence prediction model for long-term weather radar echo extrapolation
CN112183906B (zh) 一种基于多模型组合模型的机房环境预测方法及系统
CN112836720B (zh) 建筑运维设备异常诊断方法、系统及计算机可读存储介质
CN116451848A (zh) 一种基于时空注意力机制的卫星遥测数据预测方法及装置
CN115841004B (zh) 基于多维数据的带钢热轧过程力学性能软测量方法及装置
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN117218375B (zh) 基于先验知识与数据驱动的环境能见度预测方法及设备
JP6830685B1 (ja) リンゴ品質推定プログラム及びシステム
CN117371933A (zh) 一种基于物联网的智慧实验室管理系统
Adha et al. Automated building classification framework using convolutional neural network
CN112016744A (zh) 一种基于土壤水分的森林火灾预测方法、装置及存储介质
CN115083229B (zh) 基于ai视觉识别的飞行训练设备智能识别与警示系统
CN116364203A (zh) 一种基于深度学习的水质预测方法、系统和装置
CN115579069A (zh) scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备
WO2022009893A1 (ja) 果物品質推定プログラム及びシステム
CN114648095A (zh) 一种基于深度学习的空气质量浓度反演方法
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
CN113988210A (zh) 结构监测传感网失真数据修复方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wang Yinglong

Inventor after: Li Xiang

Inventor after: Zhao Zhigang

Inventor after: Pan Jingshan

Inventor after: Guo Ying

Inventor after: Wang Chunxiao

Inventor after: Liu Zhaoyuan

Inventor after: Huo Jidong

Inventor after: Zhang Jian

Inventor before: Li Xiang

Inventor before: Zhao Zhigang

Inventor before: Pan Jingshan

Inventor before: Guo Ying

Inventor before: Wang Chunxiao

Inventor before: Liu Zhaoyuan

Inventor before: Huo Jidong

Inventor before: Zhang Jian

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant