CN110232082A - 面向连续时空加油数据的异常检测方法 - Google Patents

面向连续时空加油数据的异常检测方法 Download PDF

Info

Publication number
CN110232082A
CN110232082A CN201910509163.5A CN201910509163A CN110232082A CN 110232082 A CN110232082 A CN 110232082A CN 201910509163 A CN201910509163 A CN 201910509163A CN 110232082 A CN110232082 A CN 110232082A
Authority
CN
China
Prior art keywords
data
time
anomaly detection
space
detection module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910509163.5A
Other languages
English (en)
Other versions
CN110232082B (zh
Inventor
马博
蒋同海
周喜
杨雅婷
王磊
马玉鹏
赵凡
王轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Technical Institute of Physics and Chemistry of CAS
Original Assignee
Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Technical Institute of Physics and Chemistry of CAS filed Critical Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority to CN201910509163.5A priority Critical patent/CN110232082B/zh
Publication of CN110232082A publication Critical patent/CN110232082A/zh
Application granted granted Critical
Publication of CN110232082B publication Critical patent/CN110232082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向连续时空加油数据的异常检测方法,该方法涉及面向多个加油站的实时采集数据,基于统计与机器学习相结合,通过预置的基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个异常检测模块,对潜在的异常对象进行挖掘与检测,并最终通过加权方式对异常对象进行判别。解决真实应用场景下异常难定义、难标注、以及现有方法难以将时空数据通过同一框架处理的问题。本发明所述的检测方法能够提高加油领域时空数据异常检测准确度,从而满足加油领域时空数据分析处理需求。

Description

面向连续时空加油数据的异常检测方法
技术领域
本发明公开一种面向连续时空加油数据的异常检测装置,具体是利用深度学习、数据分析与数据可视化技术,针对加油站时空数据开展自动异常检测,涉及信息技术领域中的信息抽取、数据预处理、深度学习、数据分析与异常检测领域。
背景技术
异常检测是指从数据中找出不符合期望预期的模式的问题,这些不相容的模式在不同的应用领域中有着差异性的称呼,如:异常、离群点、不一致观察、例外、偏差等,在这其中,异常和离群点是使用最为广泛的两种称呼,有时也可交替使用。时空异常检测属于异常检测中的子领域,目的是从发生在一个连续时空范围内的活动中,挖掘出不符合期望预期的各种模式。具体到加油领域,时空异常是指在一定地域范围内不间断的加油活动中,偶发的、可疑的、不同于常规规律的可能对安全稳定造成潜在威胁的加油行为。
已有的异常检测方法可以分为无监督、半监督和有监督三类方法。
无监督异常检测方法不需要有标签的训练数据,其基于正常实例数据的比例远高于异常实例数据的假设,如果该假设不成立,则会有高误报率的风险。统计类方法和聚类方法均属于无监督异常发现方法。
半监督异常检测方法要求训练数据中的正常数据是有标签的,并通过正常数据训练模型,对于测试数据,若不符合该模型则判定为异常。在深度学习方面,主要利用神经网络处理序列数据的强大能力来开展半监督异常挖掘。半监督异常检测方法的缺点是训练数据可能无法覆盖检测数据中所有的正常数据类型。
在训练数据中有正常和不正常类别的数据,有监督异常检测算法对标注为正常数据和异常数据两种类别的数据分别进行建模,并通过模型将待检测数据实例打上正常或不正常的标签。贝叶斯网络,支持向量机等是进行有监督异常发现的典型方法。因为获取训练数据集的代价大,有监督方法很难在实际应用场景下使用。
真实场景下的加油站领域时空异常检测任务不同于其他的机器学习任务,需根据自身业务场景进行具体分析,主要面临如下几个方面的难点:1)加油异常难定义、难标注、正负例数据严重不均衡;2)由于数据本身的时空粒度多变性特征,难以通过单一技术框架进行分析处理。
综上所述,现有方法在处理时空连续的加油异常检测问题上存在局限性,本发明开发面向连续时空加油数据的异常检测方法,具有非常高的实用价值。
发明内容
本发明目的在于,提供一种面向连续时空加油数据的异常检测方法,该方法涉及面向多个加油站的实时采集数据,基于统计与机器学习相结合,通过预置的基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个异常检测模块,对潜在的异常对象进行挖掘与检测,并最终通过加权方式对异常对象进行判别。解决真实应用场景下异常难定义、难标注、以及现有方法难以将时空数据通过同一框架处理的问题。本发明所述的检测方法能够提高加油领域时空数据异常检测准确度,从而满足加油领域时空数据分析处理需求。
本发明所述的一种面向连续时空加油数据的异常检测方法,该方法涉及面向多个加油站的实时采集数据,基于统计与机器学习相结合,通过预置的基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个异常检测模块,对潜在的异常对象进行挖掘与检测,并最终通过加权方式对异常对象进行判别,具体操作按下列步骤进行:
a、基于无监督的时序数据异常检测模块:通过自动编码机对特征进行自动编码和提取,再通过深度学习序列模型进行训练,最后通过残差准则进行异常检测;
b、基于半监督的时序数据异常检测模块:通过可视化方法对数据进行粗标注,再使用正常数据训练分类神经网络,最后结合使用多分类序列的方差作为异常因子进行异常检测;
c、基于多视图的时空深度异常检测模块:包含时间视图、空间视图和语义视图,通过组合对空间视图、时间视图和语义视图的输出进行融合,并输出最终的异常检测结果,将实时采集的加油记录数据、位置数据,周边兴趣点热点数据、天气数据和路网数据多模态数据放入同一个深度网络中进行训练,对异常进行发现和预测;
d、加权决策模块:通过加权方式综合基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个模块的检测结果,对是否属于异常对象进行判别。
步骤a中采用自动编码机对原始数据中数据维度高且数据稀疏进行特征提取,使用序列Seq2Seq模型对特征进行训练,通过使用循环神经网络将一个序列作为输入映射为另外一个输出序列,根据预测数据与原始数据的差值集合,计算得到的均值和标准差,并拟合其分布,最终定义原始数据中偏离的数据点为异常点。
步骤b中通过可视化方法对数据进行粗标注,对于大量的无标签数据,采用距离函数及聚类方法进行聚类,从聚类结果中选取正常数据类别及标签,利用这些数据训练基于深度学习的分类模型;使用训练完善的分类模型进行分类,得到对应正常数据类别的分类概率序列,计算方差误差,进行异常检测。
步骤c中空间视图处理加油活动中产生的空间轨迹数据,通过使用卷积神经网络对轨迹图像进行卷积操作,降低处理维度,抽取关键特征;时间视图处理加油活动中产生的时序数据和天气外部数据,通过长短时记忆网络判断下一时刻的时空状态;语义视图处理加油活动涉及的人、车辆、加油站信息和图像等静态数据,将上述数据通过低维向量表示的形式进行输出,用于后续处理。
本发明所述的一种面向连续时空加油数据的异常检测方法,通过基于不同异常检测方法的多个计算模块对潜在加油异常事件进行检测,该方法面向多个加油站实时采集的加油记录开展异常挖掘与检测,主要包括三个模块:1、基于无监督方法的时序数据异常检测模块:通过自动编码机对特征进行自动编码和提取,再通过深度学习序列模型(Seq2Seq)进行训练,最后通过3σ残差准则进行异常检测;2、基于半监督方法的时序数据异常检测模块:通过聚类可视化方法对数据进行粗标注,再使用正常数据训练分类神经网络,最后结合使用多分类序列的方差作为异常因子进行异常检测;3、基于多视图的时空深度异常检测模块:通过组合多种深度学习技术,将加油站实时采集的加油记录数据、位置数据,周边POI热点数据、天气数据和路网数据等多模态数据放入同一个深度网络中进行训练,对潜在的加油异常进行发现和预测。最终通过加权方式综合三个模块的检测结果,对是否属于异常对象进行判别,该检测方法有效提高了异常数据检测的准确性。
附图说明
图1为本发明整体流程图;
图2为无监督时序数据异常检测模块流程图;
图3为无监督时序数据异常检测模块预测模型核心图;
图4为半监督时序数据异常检测模块流程图;
图5为半监督时序数据异常检测模模块聚类效果示意图;
图6为多视图时空异常检测模块流程图。
具体实施方式
以下结合实施例,对本发明的内容再作进一步的详细说明。但不仅限于以下实例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明范围内。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一步的详细说明:
实施例
本发明所述的一种面向连续时空加油数据的异常检测方法,该方法涉及面向多个加油站的实时采集数据,基于统计与机器学习相结合,通过预置的基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个异常检测模块,对潜在的异常对象进行挖掘与检测,并最终通过加权方式对异常对象进行判别,具体操作按下列步骤进行:
a、基于无监督的时序数据异常检测模块:通过自动编码机(AutoEncoder)对特征进行自动编码和提取,再通过深度学习序列模型进行训练,最后通过残差准则进行异常检测;
采用自动编码机对原始数据中数据维度高且数据稀疏进行特征提取,使用序列Seq2Seq模型对特征进行训练,通过使用循环神经网络循环神经网络(Recurrent NeuralNetwork,RNN)将一个序列作为输入映射为另外一个输出序列,根据预测数据与原始数据的差值集合,计算得到的均值和标准差,并拟合其分布,最终定义原始数据中偏离的数据点为异常点;如附图1所示:
采用无监督方法对加油时序数据开展异常检测,每条加油数据包括了多个特征信息,如加油时间、加油量、汽油类型、加油车辆类型等,上述数据经过前端采集设备收集后,经脱敏加密处理存储到数据库中。由于加油序列可能较长,此种情况下卷积神经网络无法有效利用上述长序列历史信息,因此本发明采用一种嵌入双向LSTM的seq2seq模型,其中seq2seq是一种Encoder-Decoder结构的网络模型,其输入序列和输出序列都是可变长度的,相比于单纯使用LSTM进行预测,此方法具有较优的效率;
附图2展示了无监督的时序数据异常检测模块的整体工作流程,流程包括三步:
1)基于自动编码机的特征提取,通过自动编码机对加油站点采集到的相关数据进行特征提取;自动编码机是神经网络的一种,经过训练后能尝试将输入复制到输出,自动编码机首先通过预训练得到的权重矩阵W对输入进行压缩编码,经激活函数后再解码恢复数据以期望输出等于输入,通过迭代训练,待整个模型收敛时得到训练完成的自动编码机;
输入:原始数据集xi,数据标签yi
输出:训练完成的自动编码机(参数W和b);
定义:第L层第j个单元节点激活量;sl:第L层节点数量;f:激活函数sigmoid;W:权重矩阵;b:偏置向量;第L层节点j激活量的输入;
定义损失函数如下:
其中:损失函数第一项为平均平方和误差,第二项为正则项,正则项的添加是为了减少权值的量级以防止训练过度拟合。采用梯度下降法训练使得J(W,b)最小;
2)基于seq2seq的加油对象预测,采用嵌入双向LSTM的seq2seq模型对加油行为进行预测;在预测过程中,为便于同时考虑序列点的前向信息与反向信息,选择双向LSTM(Bidirectio nal LSTM,Bi-LSTM)对于一个训练序列进行前向和后向两次LSTM训练,双向网络均连接同一个输出层,从而向输出层提供输入序列中每一个点完整的上下文信息,进而构建基于Bi-LST M的Seq2Seq预测模型(记为BL-Seq2Seq模型);在预测模型中,附加特征的序列数据进入编码器Encoder中,完成编码得到语义向量e。然后将e放入解码器Decoder中,解码器将上一个时刻的输出作为当前时刻的输入,依此循环完成预测,预测模型如附图3所示;
3)基于3σ准则残差的异常检测,依照3σ准则比较预测值和原始值来定义异常点的阈值;异常检测:通过步骤2)可以得到预测的数据集合S',得到预测数据和实际数据的差异值集合D=|S'-S|;再依据常规正态分布的计算方法计算D的均值μ和标准差σ,并将D中数据拟合到正态分布上,最终定义D中数据i满足|i-μ|>3σ条件的数据点为异常点;
b、基于半监督的时序数据异常检测模块:通过可视化方法对数据进行粗标注,再使用正常数据训练分类神经网络,最后结合使用多分类序列的方差作为异常因子进行异常检测;通过可视化方法对数据进行粗标注,对于大量的无标签数据,采用距离函数及聚类方法进行聚类,从聚类结果中选取正常数据类别及标签,利用这些数据训练基于深度学习的分类模型;通过训练完善的分类模型进行分类,得到对应正常数据类别的分类概率序列,计算方差误差,进行异常检测;
采用一种结合无监督聚类与半监督深度学习的框架(附图4)实现对无标签时间序列加油数据的异常发现;具体来说,1)首先采用一种优化的聚类方法,将原始数据聚类到若干类别,采用可视化技术选取正常数据;
聚类:本发明所采用的聚类技术为canopy与k-means结合的混合聚类方法,如图4所示,本框架使用的分类模型是通过正常数据训练的,通过softmax层进行分类,得到数据分类概率序列,训练过程就是使交叉熵(公式(1))足够小,公式中pk表示真实分类概率序列,qk表示预测分类概率序列;聚类效果可视化示意图见附图5,类别1、3、5通过可视化判断为正常数据,类别2、4、6为异常数据类别,可使用类别1、3、5对应训练模型。
2)然后利用正常数据训练基于LSTM的深度神经网络对数据进行分类,该网络输出为数据实例属于某一类别的概率,由此本发明创新地使用了可计算波动范围的方差作为异常因子,来衡量数据实例的异常程度;
异常检测:基于训练完善的模型,对于待检测的数据,正常数据其分类序列接近于(0,…1,…0),对应分类到正常数据类别;异常数据分类序列接近于可以看到两种分类概率序列具有很大的不同,进而通过序列的方差进行区分,这是使用方差作为异常因子的理论基础,方差的计算见公式(2)。
c、基于多视图的时空深度异常检测模块:包含时间视图、空间视图和语义视图,通过组合对空间视图、时间视图和语义视图的输出进行融合,并输出最终的异常检测结果,将实时采集的加油记录数据、位置数据,周边兴趣点(Point of Interest,POI)热点数据、天气数据和路网数据多模态数据放入同一个深度网络中进行训练,对异常进行发现和预测;空间视图处理加油活动中产生的空间轨迹数据,通过使用卷积神经网络(ConvolutionalNeural Networks,CNN)对轨迹图像进行卷积操作,降低处理维度,抽取关键特征;时间视图处理加油活动中产生的时序数据和天气外部数据,通过长短时记忆网络(Long Short-TermMemory,LSTM)判断下一时刻的时空状态;语义视图处理加油活动涉及的人、车辆、加油站信息和图像等静态数据,将上述数据通过低维向量表示的形式进行输出,用于后续处理;
完整的加油活动涉及多种类型的数据,包括人、车辆、加油站的基本信息、前端设备采集的图像、加油活动自身产生的时序数据和空间轨迹数据、以及外部因素数据如天气、节假日等。上述数据可分为静态数据和动态数据两类。在本发明中,将人、车辆、加油站的基本信息、前端设备采集的图像等数据归类为静态知识型数据;将加油活动产生的时序数据和空间轨迹数据、以及外部因素数据如天气、节假日等数据归类为动态活动数据;具体地,将上述数据划分到三个视图,分别是空间视图、时间视图和语义视图,整个模型处理框架和流程如附图6所示:
1)空间视图:处理加油活动中产生的空间轨迹数据,首先对轨迹图像进行CNN卷积操作,降低处理维度,抽取关键特征,然后再对卷积后的输出进行全连接作为空间视图的输出;
具体地,对于一个图像Yt i∈RS×S×1,CNN卷积模块会将其作为输入Yt i,0送入K个卷积层处理:
其中,Wt k是CNN模块中待训练的两组权重和偏置参数,经过K层卷积后,通过flatten层将输出Yt i,k∈RS×S×λ转换为向量最后通过全连接层压缩的维度,输出
2)时间视图:处理加油活动中产生的时序数据和天气等外部数据。首先将空间视图输出、时序数据和外部数据拼接组成一组时序输入送入LSTM卷积神经网络,时间视图的输出是模型判断的下一时刻的时空状态;
3)语义视图:处理加油活动涉及的人、车辆、加油站信息和图像等静态数据。首先从融合数据中提取人、车辆、加油站的基础信息及对应的关联关系,然后将静态数据转换为一组低维向量表示的形式,用于后续处理;
其中,静态数据的表现形式是以图(Graph)结构存储的融合数据,具体地,图嵌入表示主要通过图卷积网络(Graph Convolutional Networks,GCNs)实现,将图G=(V,E)作为输入,目的是通过图卷积网络学习得到图中节点的特征表示;对于每个节点i,特征表示为xi,则所有节点可以组成一个N×D的特征矩阵X(N是节点的数量,D是特征的数量);对于图的结构,则可以通过邻接矩阵A表示,模型的输出表示为Z,是N×F的特征矩阵,F表示输出层每个节点特征的数量;
每层神经网络进而可以通过下述非线性变换得到:
H(l+1)=f(H(l),A) (4)
其中,H(0)=X,H(L)=Z,L是GCNs中层的数量。一个简单的f(·)形式如下:
f(H(l),A)=σ(AH(l)W(l)) (5)
W(l)表示神经网络中l层的权重矩阵,σ(·)表示非线性激活函数,如ReLU;
模型会将时间视图和语义视图的输出进行拼接,并再次通过注意力池化层进行权重计算,生成一组输出后送入损失函数,从而完成深度时空异常分析检测模型的训练过程,损失函数的定义采用如下形式;
其中,表示模型输出预测标签,表示实际的数据标签,θ表示模型需要训练的所有参数,γ是模型的超参数;
d、加权决策模块:通过加权方式综合基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个模块的检测结果,对是否属于异常对象进行判别;
最后,对于一组加油时序数据结合:X={x1,x2,……,xn},及其相关的空间等外部因素数据集合:Y={y1,y2,……,yn},通过加权的方式决定最终的异常输出:
isAD(X,Y)=α·ADa(X,Y)+β·ADb(X,Y)+χ·ADc(X,Y) (7)
ADa、ADb、ADc分别对应前述的异常检测模块A、B、C,α,β,χ表示权重超参数,α+β+χ=1,实际取值由模型训练得到。
本发明未详细阐述的部分属于本领域公知技术。显然,本领域的技术人员应该意识到,在本发明的范围内和精神指导下,各种改进、添加和替换都是可能的,如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种面向连续时空加油数据的异常检测方法,其特征在于该方法涉及面向多个加油站的实时采集数据,基于统计与机器学习相结合,通过预置的基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个异常检测模块,对潜在的异常对象进行挖掘与检测,并最终通过加权方式对异常对象进行判别,具体操作按下列步骤进行:
a、基于无监督的时序数据异常检测模块:通过自动编码机对特征进行自动编码和提取,再通过深度学习序列模型进行训练,最后通过残差准则进行异常检测;
b、基于半监督的时序数据异常检测模块:通过可视化方法对数据进行粗标注,再使用正常数据训练分类神经网络,最后结合使用多分类序列的方差作为异常因子进行异常检测;
c、基于多视图的时空深度异常检测模块:包含时间视图、空间视图和语义视图,通过组合对空间视图、时间视图和语义视图的输出进行融合,并输出最终的异常检测结果,将实时采集的加油记录数据、位置数据,周边兴趣点热点数据、天气数据和路网数据多模态数据放入同一个深度网络中进行训练,对异常进行发现和预测;
d、加权决策模块:通过加权方式综合基于无监督的时序数据异常检测模块、基于半监督的时序数据异常检测模块和基于多视图的时空深度异常检测模块三个模块的检测结果,对是否属于异常对象进行判别。
2.根据权利要求1所述的一种面向连续时空加油数据的异常检测方法,其特征在于,步骤a中采用自动编码机对原始数据中数据维度高且数据稀疏进行特征提取,使用序列Seq2Seq模型对特征进行训练,通过使用循环神经网络将一个序列作为输入映射为另外一个输出序列,根据预测数据与原始数据的差值集合,计算得到的均值和标准差,并拟合其分布,最终定义原始数据中偏离的数据点为异常点。
3.根据权利要求1所述的一种面向连续时空加油数据的异常检测方法,其特征在于,步骤b中通过可视化方法对数据进行粗标注,对于大量的无标签数据,采用距离函数及聚类方法进行聚类,从聚类结果中选取正常数据类别及标签,利用这些数据训练基于深度学习的分类模型;使用训练完善的分类模型进行分类,得到对应正常数据类别的分类概率序列,计算方差误差,进行异常检测。
4.根据权利要求1所述的一种面向连续时空加油数据的异常检测方法,其特征在于,步骤c中空间视图处理加油活动中产生的空间轨迹数据,通过使用卷积神经网络对轨迹图像进行卷积操作,降低处理维度,抽取关键特征;时间视图处理加油活动中产生的时序数据和天气外部数据,通过长短时记忆网络判断下一时刻的时空状态;语义视图处理加油活动涉及的人、车辆、加油站信息和图像等静态数据,将上述数据通过低维向量表示的形式进行输出,用于后续处理。
CN201910509163.5A 2019-06-13 2019-06-13 面向连续时空加油数据的异常检测方法 Active CN110232082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910509163.5A CN110232082B (zh) 2019-06-13 2019-06-13 面向连续时空加油数据的异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910509163.5A CN110232082B (zh) 2019-06-13 2019-06-13 面向连续时空加油数据的异常检测方法

Publications (2)

Publication Number Publication Date
CN110232082A true CN110232082A (zh) 2019-09-13
CN110232082B CN110232082B (zh) 2022-08-30

Family

ID=67859887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910509163.5A Active CN110232082B (zh) 2019-06-13 2019-06-13 面向连续时空加油数据的异常检测方法

Country Status (1)

Country Link
CN (1) CN110232082B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569925A (zh) * 2019-09-18 2019-12-13 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN111144375A (zh) * 2019-12-31 2020-05-12 中国民用航空总局第二研究所 基于特征编码的异常行为检测方法、装置及电子设备
CN111444233A (zh) * 2020-02-15 2020-07-24 中国环境监测总站 基于复制器神经网络模型发现环境监测异常数据的方法
CN111459996A (zh) * 2020-03-13 2020-07-28 石化盈科信息技术有限责任公司 对油枪在指定时间段内的工作状态进行检测的方法及装置
CN111797386A (zh) * 2020-06-28 2020-10-20 四川长虹电器股份有限公司 一种基于物联网用户行为可信的检测方法
CN111832599A (zh) * 2019-11-27 2020-10-27 北京中交兴路信息科技有限公司 一种基于机器学习随机森林的加油站预测方法
CN111831870A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 时空数据的异常检测方法、装置、电子设备和存储介质
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
CN112651577A (zh) * 2021-01-08 2021-04-13 重庆邮电大学 一种基于融合时空数据的隧道形变预测方法
CN113111096A (zh) * 2021-04-08 2021-07-13 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN115222162A (zh) * 2022-09-20 2022-10-21 深圳市城市交通规划设计研究中心股份有限公司 一种城市供水监测预警系统及工作方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109730A1 (en) * 2006-11-08 2008-05-08 Thayne Richard Coffman Sna-based anomaly detection
CN102096825A (zh) * 2011-03-23 2011-06-15 西安电子科技大学 基于图的半监督高光谱遥感图像分类方法
US20120237081A1 (en) * 2011-03-16 2012-09-20 International Business Machines Corporation Anomalous pattern discovery
US20160035093A1 (en) * 2014-07-31 2016-02-04 California Institute Of Technology Multi modality brain mapping system (mbms) using artificial intelligence and pattern recognition
CN107257351A (zh) * 2017-07-28 2017-10-17 广东电网有限责任公司云浮供电局 一种基于灰色lof流量异常检测系统及其检测方法
CN107846392A (zh) * 2017-08-25 2018-03-27 西北大学 一种基于改进协同训练‑adbn的入侵检测算法
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109829543A (zh) * 2019-01-31 2019-05-31 中国科学院空间应用工程与技术中心 一种基于集成学习的数据流在线异常检测方法
CN109871870A (zh) * 2019-01-15 2019-06-11 中国科学院信息工程研究所 一种大数据流中的基于最近邻的时间敏感性异常检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109730A1 (en) * 2006-11-08 2008-05-08 Thayne Richard Coffman Sna-based anomaly detection
US20120237081A1 (en) * 2011-03-16 2012-09-20 International Business Machines Corporation Anomalous pattern discovery
CN102096825A (zh) * 2011-03-23 2011-06-15 西安电子科技大学 基于图的半监督高光谱遥感图像分类方法
US20160035093A1 (en) * 2014-07-31 2016-02-04 California Institute Of Technology Multi modality brain mapping system (mbms) using artificial intelligence and pattern recognition
CN107257351A (zh) * 2017-07-28 2017-10-17 广东电网有限责任公司云浮供电局 一种基于灰色lof流量异常检测系统及其检测方法
CN107846392A (zh) * 2017-08-25 2018-03-27 西北大学 一种基于改进协同训练‑adbn的入侵检测算法
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109871870A (zh) * 2019-01-15 2019-06-11 中国科学院信息工程研究所 一种大数据流中的基于最近邻的时间敏感性异常检测方法
CN109829543A (zh) * 2019-01-31 2019-05-31 中国科学院空间应用工程与技术中心 一种基于集成学习的数据流在线异常检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JUANJUAN ZHAO等: "Spatio-Temporal Analysis of Passenger Travel Patterns in Massive Smart Card Data", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
孙国道: "用户行为数据的交互式可视挖掘方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
尹宝全: "农业数据处理中的异常检测方法研究", 《中国优秀博硕士学位论文全文数据库(博士)农业科技辑》 *
赵志凯: "半监督学习及其在煤矿瓦斯安全信息处理中的应用研究", 《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅰ辑》 *
陈斌: "异常检测方法及其关键技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569925A (zh) * 2019-09-18 2019-12-13 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN110569925B (zh) * 2019-09-18 2023-05-26 南京领智数据科技有限公司 应用于电力设备运检的基于lstm的时序异常检测方法
CN111832599A (zh) * 2019-11-27 2020-10-27 北京中交兴路信息科技有限公司 一种基于机器学习随机森林的加油站预测方法
CN111832599B (zh) * 2019-11-27 2024-02-09 北京中交兴路信息科技有限公司 一种基于机器学习随机森林的加油站预测方法
CN111144375B (zh) * 2019-12-31 2022-07-05 中国民用航空总局第二研究所 基于特征编码的异常行为检测方法、装置及电子设备
CN111144375A (zh) * 2019-12-31 2020-05-12 中国民用航空总局第二研究所 基于特征编码的异常行为检测方法、装置及电子设备
CN111444233A (zh) * 2020-02-15 2020-07-24 中国环境监测总站 基于复制器神经网络模型发现环境监测异常数据的方法
CN111444233B (zh) * 2020-02-15 2021-08-17 中国环境监测总站 基于复制器神经网络模型发现环境监测异常数据的方法
CN111459996A (zh) * 2020-03-13 2020-07-28 石化盈科信息技术有限责任公司 对油枪在指定时间段内的工作状态进行检测的方法及装置
CN111459996B (zh) * 2020-03-13 2023-09-19 石化盈科信息技术有限责任公司 对油枪在指定时间段内的工作状态进行检测的方法及装置
CN111831870A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 时空数据的异常检测方法、装置、电子设备和存储介质
CN111831870B (zh) * 2020-06-12 2024-02-13 北京百度网讯科技有限公司 时空数据的异常检测方法、装置、电子设备和存储介质
CN111797386A (zh) * 2020-06-28 2020-10-20 四川长虹电器股份有限公司 一种基于物联网用户行为可信的检测方法
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
CN112651577B (zh) * 2021-01-08 2022-03-22 重庆邮电大学 一种基于融合时空数据的隧道形变预测方法
CN112651577A (zh) * 2021-01-08 2021-04-13 重庆邮电大学 一种基于融合时空数据的隧道形变预测方法
CN113111096B (zh) * 2021-04-08 2023-09-05 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN113111096A (zh) * 2021-04-08 2021-07-13 东方电气集团科学技术研究院有限公司 一种面向发电设备高维时序工况数据的异常检测方法
CN115222162A (zh) * 2022-09-20 2022-10-21 深圳市城市交通规划设计研究中心股份有限公司 一种城市供水监测预警系统及工作方法

Also Published As

Publication number Publication date
CN110232082B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110232082B (zh) 面向连续时空加油数据的异常检测方法
CN108921051B (zh) 基于循环神经网络注意力模型的行人属性识别网络及技术
CN111444939B (zh) 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法
CN115688035A (zh) 一种基于自监督学习的时序电力数据异常检测方法
Sun et al. Time series anomaly detection based on GAN
Khosravi et al. Crowd emotion prediction for human-vehicle interaction through modified transfer learning and fuzzy logic ranking
CN113313037A (zh) 一种基于自注意力机制的生成对抗网络视频异常检测方法
WO2021147055A1 (en) Systems and methods for video anomaly detection using multi-scale image frame prediction network
CN117272215B (zh) 一种基于数据挖掘的智慧小区安全管理方法及系统
CN117496129A (zh) 一种基于YOLOv7改进的工厂安全穿戴目标检测方法
CN112487961A (zh) 一种交通事故检测方法、存储介质及设备
CN118037047A (zh) 基于ai的矿山安全监控系统
Singh et al. Crowd escape event detection via pooling features of optical flow for intelligent video surveillance systems
CN114821462A (zh) 基于多分支并行混合空洞编码神经网络的目标检测方法
Ye et al. A novel self-supervised learning-based anomalous node detection method based on an autoencoder for wireless sensor networks
CN117786529A (zh) 一种风电机组scada数据智能修复方法
CN116959099B (zh) 一种基于时空图卷积神经网络的异常行为识别方法
CN117009785A (zh) 安全监测方法、装置、服务器及系统
CN115545339A (zh) 变电站安全作业态势评估方法及装置
Sonkar et al. Crowd abnormal behaviour detection using deep learning
CN115240271A (zh) 基于时空建模的视频行为识别方法与系统
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN110837932A (zh) 基于dbn-ga模型的太阳能集热系统热功率预测方法
Tamilmani et al. Unusual Event Detection from Surveillance
Abdalla et al. Video Anomaly Detection in 10 Years: A Survey and Outlook

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant