CN112329865A - 基于自编码器的数据异常识别方法、装置和计算机设备 - Google Patents

基于自编码器的数据异常识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN112329865A
CN112329865A CN202011242143.5A CN202011242143A CN112329865A CN 112329865 A CN112329865 A CN 112329865A CN 202011242143 A CN202011242143 A CN 202011242143A CN 112329865 A CN112329865 A CN 112329865A
Authority
CN
China
Prior art keywords
self
encoder
vector
encoders
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011242143.5A
Other languages
English (en)
Other versions
CN112329865B (zh
Inventor
邓悦
郑立颖
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011242143.5A priority Critical patent/CN112329865B/zh
Publication of CN112329865A publication Critical patent/CN112329865A/zh
Priority to PCT/CN2021/097550 priority patent/WO2022095434A1/zh
Application granted granted Critical
Publication of CN112329865B publication Critical patent/CN112329865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请涉及人工智能技术领域,提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,其中方法包括:接收输入的待检测的时间序列;基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架;通过自编码器集成框架计算出时间序列中包含的每一个向量所对应的异常分数值;根据异常分数值,识别出时间序列中是否存在异常数据值。通过本申请能够准确地识别出时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性。本申请还涉及区块链领域,其中,所述自编码器集成框架可存储于区块链中。

Description

基于自编码器的数据异常识别方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于自编码器的数据异常识别方法、装置和计算机设备。
背景技术
伴随着大数据时代的到来,云计算、物联网等各种新兴的主题应运而生,其中,从海量数据中挖掘出人们最终需要的潜在数据变得越来越重要。传统的数据挖掘主要关注的是内含大量数据的数据模型,而对异常数据的检测关注较少。其实,分析和挖掘有用的数据固然重要,但出现重要数据偏差的异常值中也包含大量有用的信息,可以对数据造成影响,使数据变得畸形,从而无法得到正确的结果,因此对于异常数据的检测同样也不可忽略。
现有技术中,目前的异常检测方法大多建立在统计学的基础上,主要包括基于偏离的方法、基于指定推荐分数值分布的方法、基于距离的方法和基于密度的方法等,但这些类型的方法需要事先知道数据的分布,此外,基于统计的异常检测算法大多只适合于挖掘单变量的数值型数据,对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低。
发明内容
本申请的主要目的为提供一种基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,旨在解决现有的异常检测方法的对于时间序列数据并不适用,如果直接应用于时间序列数据上效果会不太理想,且对于异常数据的识别准确性低的技术问题。
本申请提出一种基于自编码器的数据异常识别方法,所述方法包括步骤:
接收输入的待检测的时间序列;
基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
可选地,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
获取所述时间序列包含的所有第一向量;以及,
获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;
基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;
基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;
对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;
将所述独立框架确定为所述自编码器集成框架。
可选地,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
获取预设的共享层,其中,所述共享层包括共享隐藏状态;
通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;
对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;
获取所述时间序列包含的所有第二向量;以及,
获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;
根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;
基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;
对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;
将所述共享框架确定为所述自编码器集成框架。
可选地,所述通过所述自编码器集成框架计算所述时间序列中包含的每一个向量所对应的异常分数值的步骤,包括:
通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,所述指定向量为所述时间序列包含的所有向量中的任意一个向量;
计算所有所述重构误差的中位数;
将所述中位数确定为与所述时间序列中的所述指定向量对应的指定异常分数值。
可选地,所述通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差的步骤,包括:
通过特定自编码器对所述时间序列进行重构处理,得到与所述时间序列对应的特定重构时间序列,其中,所述特定自编码器为所述自编码器集成框架中包含的所有自编码器中的任意一个自编码器;
从所述特定重构时间序列中提取出与所述指定向量对应的特定重构向量;
根据所述指定向量与所述特定重构向量,计算出与所述指定向量对应的特定重构误差。
可选地,所述根据所述异常分数值,识别出所述时间序列中是否存在异常数据值的步骤,包括:
获取预设的异常阈值;
判断在所有所述异常分数值中,是否存在数值大于所述异常阈值的指定分数值;
若是,则从所有所述异常分数值中筛选出所述指定分数值;
从所述时间序列中查找出与所述指定分数值对应的第三向量;
将所述第三向量确定为所述异常数据值。
可选地,所述将所述第三向量确定为所述异常数据值的步骤之后,包括:
从所述时间序列中筛选出除所述第三向量之外的第四向量;
将所述第二向量标记为正常数据值;
获取与所述第三向量对应的第一数量;以及,
获取与所述第四向量对应的第二数量;
根据所述异常数据值、所述第一数量、所述正常数据以及所述第二数量,生成与所述时间序列对应的异常分析报告;
展示所述异常分析报告。
本申请还提供一种基于自编码器的数据异常识别装置,包括:
接收模块,用于接收输入的待检测的时间序列;
训练模块,用于基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
计算模块,用于通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
识别模块,用于根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,不同于现有的异常检测方法,本申请采用了基于自编码器集成框架来进行对于时间序列的数据异常识别处理的,在接收输入的待检测的时间序列时,会先获取对原始的基于循环神经网络的自编码器进行改进以生成稀疏连接的自编码器,再基于所述时间序列对预生成的稀疏连接的自编码器进行集成训练处理生成能够使用于时间序列数据异常值识别的自编码器集成框架,从而可以使用该自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值,进而可以根据该异常分数值来快速准确地识别出所述时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性,且对于时间序列中的异常数据值的识别处理效率较高。
附图说明
图1是本申请一实施例的基于自编码器的数据异常识别方法的流程示意图;
图2是本申请一实施例的基于自编码器的数据异常识别装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
为便于对本申请实施例的解释,下面先对一些概念进行简单介绍:
循环神经网络(Recurrent Neural Network,RNN),它的本质是:像人一样拥有记忆的能力,因此,RNN的输出就依赖于当前的输入和记忆。RNN网络引入定向循环,能够处理那些输入之间前后关联的问题。打破了传统神经网络结构层与层之间全连接,每层节点之间无连接的转态,不在是输入-隐层-输出的模式。RNN的目的:处理序列数据RNN的内容:一个序列当前的输出与前面的输入也有关系。RNN的具体做法:网络会对前面的信息进行记忆,并应用于当前输出的计算中,即隐层之间的节点不再无连接,并且隐层的输入不仅包括输入层的输出,还包括上一时刻隐层的输出。RNN的功能特点:1、隐层节点之间可以互连也可以自连;2、RNN网络中,每一步的输出不是必须的,每一步的输入也不是必须的。RNN用途:语言模型和文本生成研究、机器翻译、语音识别、图像描述生成。
自编码器:是神经网络的一种,经过训练后能尝试将输入复制到输出,自编码器内部有一个隐藏层h,可以产生编码表示输入,该网络可以看作由两部分组成:一个由函数h=f(x)表示的编码器和一个生成重构的解码器r=g(h)。传统的自编码器对于时间序列的处理过程为:对于时间序列T=<s1,s2,…,sC>,该时间序列中的每个向量st被馈送到的自编码器的编码器中的RNN单元以执行以下计算:
Figure BDA0002768771850000071
其中,st是时间序列中时间步长t处的向量,隐藏状态
Figure BDA0002768771850000072
是编码器中时间步长t-1时前一个RNN单元的输出,f(·)是一个非线性函数。通过上述公式
Figure BDA0002768771850000073
可以在时间步长t处获得编码器当前RNN单元的隐藏状态
Figure BDA0002768771850000074
然后在时间步长t-1处将其隐藏到下一个RNN单元中。另外,在自编码器的解码器中,会以相反的顺序重建该时间序列,即
Figure BDA0002768771850000075
首先,将编码器的最后隐藏状态用作解码器的第一隐藏状态。基于解码器
Figure BDA0002768771850000076
的先前隐藏状态和先前重建的向量
Figure BDA0002768771850000077
重构当前向量
Figure BDA0002768771850000078
并计算当前隐藏状态
Figure BDA0002768771850000079
其中,g(·)是非线性函数。
参照图1,本申请一实施例的基于自编码器的数据异常识别方法,包括:
S1:接收输入的待检测的时间序列;
S2:基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
S3:通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
S4:根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
如上述步骤S1至S4所述,本方法实施例的执行主体为一种基于自编码器的数据异常识别装置。在实际应用中,上述基于自编码器的数据异常识别装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于自编码器的数据异常识别装置,能够快速准确地识别出待检测的时间序列中的异常数据值。具体地,首先接收输入的待检测的时间序列。其中,上述待检测的时间序列是为待检测是否存在异常数据值的时间序列,举例地,该时间序列可为服务器中的KPI(Key PerformanceIndicator,关键绩效指标)时间序列,且时间序列中包含的数据为向量形式。然后基于上述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,上述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的。具体的,上述稀疏连接的自编码器的生成过程可包括:先获取指定数量的基于循环神经网络的自编码器。上述基于循环神经网络的自编码器具体可为采用附加辅助连接的循环神经网络的自编码器(RSCN),该采用附加辅助连接的循环神经网络的自编码器在每个RNN单元之间添加了辅助连接,且对上述指定数量不作具体限定,可根据实际需求进行设置,本实施例可以将指定数量取为N。再分别对各上述基于循环神经网络的自编码器进行单元连接删除处理,生成对应数量的稀疏连接的自编码器。由于采用附加辅助连接的循环神经网络的自编码器在每个RNN单元之间添加了辅助连接,因此可以通过切断部分RNN单元之间的辅助链接,进而使得各网络层之间有一定差异。具体的,对各上述基于循环神经网络的自编码器进行单元连接删除处理的过程可包括:对于基于采用附加辅助连接的循环神经网络的自编码器,通过引入稀疏权重向量,可以控制在每个时间步长t应删除哪些辅助连接。
Figure BDA0002768771850000081
wt代表稀疏权重向量,
Figure BDA0002768771850000082
Figure BDA0002768771850000083
代表稀疏权重向量中包含的元素。稀疏权重向量wt中至少一个元素不等于0,即wt=(0,1),(1,0),(1,1)三种情况。因而基于上述稀疏权重向量wt能够生成稀疏连接的自编码器,且得到的稀疏连接的自编码器内每一个RNN单元的隐藏状态计算如下:
Figure BDA0002768771850000084
其中,st为输入时间序列数据中时间步长t处的向量,ht-1为稀疏循环的自编码器的编码器中的时间步长t-1时的隐藏状态,ht-L为稀疏循环的自编码器的编码器中的时间步长t-L时的隐藏状态,wt为稀疏权重向量,‖wt0表示向量wt中非零元素的数量。进一步地,还可以根据实际需求使用随机删除连接的方式来进行单元连接删除处理,对于每个基于循环神经网络的自编码器,通过随机删除一些RNN单元的连接以获得稀疏连接的自编码器,使得稀疏连接的自编码器对时间序列进行重构处理后得到的重构误差不尽相同,有效地拓展了自编码器的适用范围,增强了自编码器的可靠性、准确性与泛化性。此外,假设上述指定数量为N,则得到N个上述稀疏循环的自编码器,且每个稀疏循环的自编码器由编码器Ei和解码器Di组成,1≤i≤N,且每个稀疏循环的自动编码器都有其不同的稀疏权重向量。另外,上述自编码器集成框架可包括独立框架与共享框架。具体的,可以基于上述时间序列包含的所有向量、以及通过稀疏连接的自编码器生成的与上述时间序列包含的各向量对应的重构向量来生成对应的第一目标函数,再基于该第一目标函数分别对每一个稀疏连接的自编码器进行训练后以得到上述自编码器集成框架。以及,可以基于上述时间序列包含的所有向量、通过稀疏连接的自编码器生成的与上述时间序列包含的各向量对应的重构向量以及预设的共享隐藏状态生成对应的第二目标函数,再基于该第二目标函数对所有的稀疏连接的自编码器进行联合训练后以得到上述自编码器集成框架。在得到了上述自编码器集成框架后,再通过上述自编码器集成框架计算出上述时间序列中包含的每一个向量所对应的异常分数值。其中,可以通过上述自编码器集成框架中包含的每一个自编码器计算生成与时间序列中包含的每一个向量一一对应的重构误差,再对于时间序列中的任意一个指定向量,计算与上述指定向量对应的所有上述重构误差的中位数,进而可以得到与该指定向量所对应的异常分数值。最后根据上述异常分数值,识别出上述时间序列中是否存在异常数据值。其中,可根据预设的异常阈值来识别出上述时间序列中是否存在异常数据值,如果上述时间序列中的任意一个指定向量对应的异常分数值大于该异常阈值,则将该指定向量确定为异常数据值。而如果该指定向量对应的异常分数值不大于该异常阈值,则该指定向量确定为正常数据值,即该指定向量不属于异常数据值。不同于现有的异常检测方法,本实施例采用了基于自编码器集成框架来进行对于时间序列的数据异常识别处理的,在接收输入的待检测的时间序列时,会先获取对原始的基于循环神经网络的自编码器进行改进以生成稀疏连接的自编码器,再基于时间序列对预生成的稀疏连接的自编码器进行集成训练处理生成能够使用于时间序列数据异常值识别的自编码器集成框架,从而可以使用该自编码器集成框架计算出上述时间序列中包含的每一个向量所对应的异常分数值,进而可以根据该异常分数值来快速准确地识别出上述时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性,且对于时间序列中的异常数据值的识别处理效率较高。
进一步地,本申请一实施例中,上述步骤S2,包括:
S200:获取所述时间序列包含的所有第一向量;以及,
S201:获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;
S202:基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;
S203:基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;
S204:对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;
S205:将所述独立框架确定为所述自编码器集成框架。
如上述步骤S200至S205所述,上述自编码器集成框架可以为基于所有上述稀疏连接的自编码器所生成的独立框架,独立框架的训练过程是通过单独训练各个不同的稀疏连接的自动编码器,因此每一个稀疏连接的自编码器在训练阶段不会产生交互,且生成的独立框架中包含的每一个自编码器之间也不会产生交互。具体地,上述基于上述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤可包括:首先获取上述时间序列包含的所有第一向量。其中,上述输入的待检测的时间序列可为:T=<s1,s2,…,sC>,时间序列T中包含的向量s1,s2,…,sC即可视为上述第一向量。以及同时获取获取各上述稀疏连接的自编码器基于各上述第一向量生成的一一对应的第一重构向量,其中,任意一个上述稀疏连接的自编码器通过对上述时间序列进行重建处理后,会生成与该时间序列对应的重构时间序列
Figure BDA0002768771850000111
且重构时间序列
Figure BDA0002768771850000112
中包含的向量
Figure BDA0002768771850000113
即可视为与上述第一向量分别对应的第一重构向量。然后基于上述第一向量与上述第一重构向量,生成对应的第一目标函数。其中,可通过最小化上述时间序列中的输入向量,与对应的由稀疏连接的自编码器生成的与该输入向量对应的重构向量之间的差作为第一目标函数Ji,并使用该第一目标函数Ji来独立对每一个稀疏连接的自编码器进行独立训练。具体的,第一目标函数可为:
Figure BDA0002768771850000114
其中,Ji为第一目标函数,st是时间序列中时间步长t处的向量,
Figure BDA0002768771850000115
表示在时间步t处来自稀疏连接的自编码器中包含的解码器Di生成对于向量st的重构向量,
Figure BDA0002768771850000116
是向量的L2-范数。在得到了上述第一目标函数后,再基于上述第一目标函数分别对每一个上述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,上述第一自编码器的数量与上述稀疏连接的自编码器的数量相同。在得到了上述第一自编码器后,再对所有上述第一自编码器进行集成处理,生成对应的独立框架。其中,上述独立框架内包含有指定数量的上述第一自编码器,且各上述第一自编码器之间不产生交互。具体可以将所有上述第一自编码器集成到预设的集成框架中,以生成上述独立框架。另外,独立框架中的每个解码器Di将独立的隐藏状态
Figure BDA0002768771850000117
用作初始隐藏状态与相应权重矩阵
Figure BDA0002768771850000118
的线性组合。最后在得到了上述独立框架时,将上述独立框架确定为上述自编码器集成框架。本实施例通过训练生成由指定数量,且具有不同网络结构的稀疏连接的自编码器组成的独立框架,由于在使用该独立框架进行异常检测时会考虑来自多个自编码器的重构误差,从而有助于减少总体重构误差的方差,以便后续根据该独立框架能够准确地计算出上述时间序列中包含的每一个向量所对应的异常分数值,进而根据该异常分数值,来快速准确地识别出上述时间序列中是否存在异常数据值,以有效提高对于时间序列中的异常数据值的识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S2,包括:
S210:获取预设的共享层,其中,所述共享层包括共享隐藏状态;
S211:通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;
S212:对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;
S213:获取所述时间序列包含的所有第二向量;以及,
S214:获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;
S215:根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;
S216:基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;
S217:对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;
S218:将所述共享框架确定为所述自编码器集成框架。
如上述步骤S210至S218所述,上述自编码器集成框架可以为基于所有上述稀疏连接的自编码器以及预设的共享层所生成的包括了不同自编码器之间的共享框架,且由于共享框架包含了不同自编码器之间的交互,因而相比于上述独立框架,可进一步提升了对于时间序列的中的异常数据值的识别准确性。具体地,上述基于上述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤可包括:首先获取预设的共享层,并通过上述共享层对所有上述稀疏连接的自编码器进行权值共享处理,其中,上述共享层包括共享隐藏状态。另外,上述共享层为连接所有上述稀疏连接的编码器的最后隐藏状态
Figure BDA0002768771850000131
与相应权重矩阵
Figure BDA0002768771850000132
的线性组合,具体的,共享层,也即共享隐藏状态
Figure BDA0002768771850000133
Figure BDA0002768771850000134
然后对上述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态。其中,通过对共享隐藏状态进行L1正则化处理,可以使共享隐藏状态
Figure BDA0002768771850000135
稀疏。进而避免某些编码器过度拟合上述时间序列,使得解码器适用范围更广,并且不容易受到异常数据值的影响。在得到了上述处理后的共享隐藏状态后,再获取上述时间序列包含的所有第二向量。其中,上述输入的待检测的时间序列可为:T=<s1,s2,…,sC>,时间序列T中包含的向量s1,s2,…,sC即可视为上述第二向量。以及同时获取各上述稀疏连接的自编码器基于各上述第二向量生成的一一对应的第二重构向量。其中,各上述稀疏连接的自编码器通过对上述时间序列进行重建处理后,会生成与该时间序列对应的重构时间序列
Figure BDA0002768771850000136
且重构时间序列
Figure BDA0002768771850000137
中包含的向量
Figure BDA0002768771850000138
即可视为与上述第二向量分别对应的第二重构向量。之后根据上述处理后的共享隐藏状态、上述第二向量以及上述第二重构向量,生成对应的第二目标函数。具体的,上述第二目标函数具体可为:
Figure BDA0002768771850000139
Figure BDA00027687718500001310
其中,λ是控制L1正则化项重要性的权重参数,st是时间序列中时间步长t处的向量,
Figure BDA00027687718500001311
表示在时间步t处来自解码器Di的重构矢量,
Figure BDA00027687718500001312
是经过L1正则化处理后的共享隐藏状态,
Figure BDA00027687718500001313
是矢量的L2-范数,Ji为上述第一目标函数。在得到了上述第二目标函数后,再基于上述第二目标函数对所有上述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,上述第二自编码器的数量与上述稀疏连接的自编码器的数量相同。之后对所有上述第二自编码器进行集成处理,生成对应的共享框架。其中,上述共享框架内包含有指定数量的上述第二自编码器,且各上述第二自编码器之间存在交互。另外,可以将所有上述第二自编码器集成到预设的集成框架中,以生成上述共享框架。最后将上述共享框架确定为上述自编码器集成框架。本实施例通过训练生成由指定数量,且具有不同网络结构的稀疏连接的自编码器组成的共享框架,由于在使用该共享框架进行异常检测时会考虑来自多个自编码器的重构误差,且各稀疏连接的自编码器之间可产生交互,从而更加有助于减少总体重构误差的方差,以便后续根据该共享框架来准确地计算出上述时间序列中包含的每一个向量所对应的异常分数值,进而根据该异常分数值,来快速准确地识别出上述时间序列中是否存在异常数据值,以有效提高对于时间序列中的异常数据值的识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S3,包括:
S300:通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,所述指定向量为所述时间序列包含的所有向量中的任意一个向量;
S301:计算所有所述重构误差的中位数;
S302:将所述中位数确定为与所述时间序列中的所述指定向量对应的指定异常分数值。
如上述步骤S300至S302所述,上述通过上述自编码器集成框架计算上述时间序列中包含的每一个向量所对应的异常分数值的步骤,具体可包括:首先通过上述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,上述指定向量为上述时间序列包含的所有向量中的任意一个向量。具体的,假设上述指定数量为N,对于原始时间序列T=<s1,s2,…,sC>中的任意一个向量sk,可通过自编码器集成框架中包含的N个自编码器生成与该向量sk对应的N个重构误差{a1,a2,…,aN}。另外,重构误差的生成过程可包括:通过自编码器集成框架中包含的N个自编码器分别生成与上述时间序列对应的重构时间序列,然后从各个重构时间序列中分别提取出与向量sk对应的重构向量,从而调用向量sk,以及与其对应的重构向量相关的计算公式来计算出与量sk对应的重构误差。然后计算所有上述重构误差的中位数。其中,可通过公式OS(sk)=median{a1,a2,…,aN},来计算出上述中位数。最后将上述中位数确定为与上述时间序列中的上述指定向量对应的指定异常分数值。其中,为了降低来自自编码器的重构误差的影响,因此使用N个重构误差的中位数作为向量sk的最终异常分数值。需要说明的是,上述独立框架与上述共享框架计算上述时间序列中包含的每一个向量所对应的异常分数值所使用到的计算公式是相同的。本实施例通过使用自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,进而所有上述重构误差的中位数为与上述时间序列中的上述指定向量对应的指定异常分数值,以实现准确地计算出计算上述时间序列中包含的每一个向量所对应的异常分数值,进而有利于后续根据该异常分数值来快速准确地识别出上述时间序列中是否存在异常数据值,以有效提高对于时间序列中的异常数据值的识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S300,包括:
S3000:通过特定自编码器对所述时间序列进行重构处理,得到与所述时间序列对应的特定重构时间序列,其中,所述特定自编码器为所述自编码器集成框架中包含的所有自编码器中的任意一个自编码器;
S3001:从所述特定重构时间序列中提取出与所述指定向量对应的特定重构向量;
S3002:根据所述指定向量与所述特定重构向量,计算出与所述指定向量对应的特定重构误差。
如上述步骤S3000至S3002所述,上述通过上述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差的步骤,具体可包括:首先通过特定自编码器对上述时间序列进行重构处理,得到与上述时间序列对应的特定重构时间序列,其中,上述特定自编码器为上述自编码器集成框架中包含的所有自编码器中的任意一个自编码器。其中,上述输入的待检测的时间序列可为:T=<s1,s2,…,sC>,特定自编码器通过对上述时间序列进行重建处理后,可生成与该时间序列对应的重构时间序列
Figure BDA0002768771850000151
1≤i≤N。然后从上述特定重构时间序列中提取出与上述指定向量对应的特定重构向量。其中,对于上述时间序列中指定向量sk,可从特定自编码器生成的重构时间序列
Figure BDA0002768771850000161
中提取出与该指定向量sk对应的特定重构向量
Figure BDA0002768771850000162
最后根据上述指定向量与上述特定重构向量,计算出与上述指定向量对应的特定重构误差。其中,可以通过公式
Figure BDA0002768771850000163
来计算出与上述指定向量对应的特定重构误差。
进一步地,可通过公式
Figure BDA0002768771850000164
Figure BDA0002768771850000165
来计算出与上述时间序列中的上述指定向量对应的指定异常分数值。以便后续能够根据自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,来快速地计算出上述时间序列中包含的每一个向量所对应的异常分数值,进而有利于后续根据该异常分数值来快速准确地识别出上述时间序列中是否存在异常数据值,以有效提高对于时间序列中的异常数据值的识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S4,包括:
S400:获取预设的异常阈值;
S401:判断在所有所述异常分数值中,是否存在数值大于所述异常阈值的指定分数值;
S402:若是,则从所有所述异常分数值中筛选出所述指定分数值;
S403:从所述时间序列中查找出与所述指定分数值对应的第三向量;
S404:将所述第三向量确定为所述异常数据值。
如上述步骤S400至S404所述,上述根据上述异常分数值,识别出上述时间序列中是否存在异常数据值的步骤,具体可包括首先获取预设的异常阈值。其中,对于上述异常阈值的取值不作具体限定,可基于对历史时间序列数据进行相应统计计算后生成,也可根据实际需求进行设置。然后判断在所有上述异常分数值中,是否存在数值大于上述异常阈值的指定分数值。如果在所有上述异常分数值中存在数值大于上述异常阈值的指定分数值,则从所有上述异常分数值中筛选出上述指定分数值。之后从上述时间序列中查找出与上述指定分数值对应的第三向量。最后在得到了上述第三向量时,将上述第三向量确定为上述异常数据值。本实施例在使用自编码器集成框架计算出上述时间序列中包含的每一个向量所对应的异常分数值。通过将该异常分数值与预设的异常阈值进行比较,进而从时间序列中查找出所有异常分数值中大于上述异常阈值的指定分数值,并将在时间序列中与该指定分数值对应的对应的第三向量确定为异常数据值,实现了对于时间序列中所包含的异常数据值的精确识别,有效地提高了对于时间序列中的异常数据的识别效率。
进一步地,本申请一实施例中,上述步骤S404之后,包括:
S405:从所述时间序列中筛选出除所述第三向量之外的第四向量;
S406:将所述第二向量标记为正常数据值;
S407:获取与所述第三向量对应的第一数量;以及,
S408:获取与所述第四向量对应的第二数量;
S409:根据所述异常数据值、所述第一数量、所述正常数据以及所述第二数量,生成与所述时间序列对应的异常分析报告;
S410:展示所述异常分析报告。
如上述步骤S405至S410所述,在得到了上述时间序列中的异常数据值后,还可进一步根据该异常数据值及相关数据生成对应的异常分析报告,具体地,上述将上述第三向量确定为上述异常数据值的步骤之后,还可包括:首先从上述时间序列中筛选出除上述第三向量之外的第四向量,并将上述第二向量标记为正常数据值。然后获取与上述第三向量对应的第一数量。以及同时获取与上述第四向量对应的第二数量。之后根据上述异常数据值、上述第一数量、上述正常数据以及上述第二数量,生成与上述时间序列对应的异常分析报告。其中,上述异常分析报告中个至少包括上述异常数据值、上述第一数量、上述正常数据以及上述第二数量。最后在得到了上述异常分析报告后,再展示上述异常分析报告,以便用户能够根据该异常分析报告清楚地了解待检测的时间序列中包含的异常数据值的具体分布情况及与规模量,以及正常数据值的具体分布情况与规模量。其中,对于上述异常分析报告的展示方式不作具体限定,可根据实现需求进行设置。
本申请实施例中的基于自编码器的数据异常识别方法还可以应用于区块链领域,如将上述自编码器集成框架等数据存储于区块链上。通过使用区块链来对上述自编码器集成框架进行存储和管理,能够有效地保证上述自编码器集成框架的安全性与不可篡改性。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种基于自编码器的数据异常识别装置,包括:
接收模块1,用于接收输入的待检测的时间序列;
训练模块2,用于基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
计算模块3,用于通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
识别模块4,用于根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
本实施例中,上述基于自编码器的数据异常识别装置中的接收模块、训练模块、计算模块与识别模块的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S1至S4的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述训练模块,包括:
第一获取单元,用于获取所述时间序列包含的所有第一向量;以及,
第二获取单元,用于获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;
第一生成单元,用于基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;
第一训练单元,用于基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;
第一处理单元,用于对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;
第一确定单元,用于将所述独立框架确定为所述自编码器集成框架。
本实施例中,上述基于自编码器的数据异常识别装置中的第一获取单元、第二获取单元、第一生成单元、第一训练单元、第一处理单元与第一确定单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S200至S205的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述训练模块,包括:
第三获取单元,用于获取预设的共享层,其中,所述共享层包括共享隐藏状态;
第二处理单元,用于通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;
第三处理单元,用于对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;
第四获取单元,用于获取所述时间序列包含的所有第二向量;以及,
第五获取单元,用于获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;
第二生成单元,用于根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;
第二训练单元,用于基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;
第四处理单元,用于对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;
第二确定单元,用于将所述共享框架确定为所述自编码器集成框架。
本实施例中,上述基于自编码器的数据异常识别装置中的第三获取单元、第二处理单元、第三处理单元、第四获取单元、第五获取单元、第二生成单元、第二训练单元、第四处理单元与第二确定单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S210至S218的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述计算模块,包括:
第一计算单元,用于通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,所述指定向量为所述时间序列包含的所有向量中的任意一个向量;
第二计算单元,用于计算所有所述重构误差的中位数;
第三确定单元,用于将所述中位数确定为与所述时间序列中的所述指定向量对应的指定异常分数值。
本实施例中,上述基于自编码器的数据异常识别装置中的第一计算单元、第二计算单元与第三确定单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S300至S302的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一计算单元,包括:
处理子单元,用于通过特定自编码器对所述时间序列进行重构处理,得到与所述时间序列对应的特定重构时间序列,其中,所述特定自编码器为所述自编码器集成框架中包含的所有自编码器中的任意一个自编码器;
提取子单元,用于从所述特定重构时间序列中提取出与所述指定向量对应的特定重构向量;
计算子单元,用于根据所述指定向量与所述特定重构向量,计算出与所述指定向量对应的特定重构误差。
本实施例中,上述基于自编码器的数据异常识别装置中的处理子单元、提取子单元与计算子单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S3000至S3002的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述识别模块,包括:
第六获取单元,用于获取预设的异常阈值;
判断单元,用于判断在所有所述异常分数值中,是否存在数值大于所述异常阈值的指定分数值;
第一筛选单元,用于若是,则从所有所述异常分数值中筛选出所述指定分数值;
查找单元,用于从所述时间序列中查找出与所述指定分数值对应的第三向量;
第四确定单元,用于将所述第三向量确定为所述异常数据值。
本实施例中,上述基于自编码器的数据异常识别装置中的第六获取单元、判断单元、第一筛选单元、查找单元与第四确定单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S400至S404的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述识别模块,包括:
第二筛选单元,用于从所述时间序列中筛选出除所述第三向量之外的第四向量;
标记单元,用于将所述第二向量标记为正常数据值;
第七获取单元,用于获取与所述第三向量对应的第一数量;以及,
第八获取单元,用于获取与所述第四向量对应的第二数量;
第三生成单元,用于根据所述第二筛选单元、所述第一数量、所述正常数据以及所述第二数量,生成与所述时间序列对应的异常分析报告;
展示单元,用于展示所述异常分析报告。
本实施例中,上述基于自编码器的数据异常识别装置中的第二筛选单元、标记单元、第七获取单元、第八获取单元、第三生成单元与展示单元的功能和作用的实现过程具体详见上述基于自编码器的数据异常识别方法中对应步骤S405至S410的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测的时间序列、稀疏连接的自编码器、自编码器集成框架、异常分数值以及异常数据值等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于自编码器的数据异常识别方法。
上述处理器执行上述基于自编码器的数据异常识别方法的步骤:
接收输入的待检测的时间序列;
基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于自编码器的数据异常识别方法,具体为:
接收输入的待检测的时间序列;
基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
综上所述,本申请实施例中提供的基于自编码器的数据异常识别方法、装置、计算机设备和存储介质,不同于现有的异常检测方法,本申请采用了基于自编码器集成框架来进行对于时间序列的数据异常识别处理的,在接收输入的待检测的时间序列时,会先获取对原始的基于循环神经网络的自编码器进行改进以生成稀疏连接的自编码器,再基于时间序列对预生成的稀疏连接的自编码器进行集成训练处理生成能够使用于时间序列数据异常值识别的自编码器集成框架,从而可以使用该自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值,进而可以根据该异常分数值来快速准确地识别出所述时间序列中是否存在异常数据值,有效地提高了对于时间序列中的异常数据值的识别准确性,且对于时间序列中的异常数据值的识别处理效率较高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于自编码器的数据异常识别方法,其特征在于,包括:
接收输入的待检测的时间序列;
基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
2.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
获取所述时间序列包含的所有第一向量;以及,
获取各所述稀疏连接的自编码器基于各所述第一向量生成的一一对应的第一重构向量;
基于所述第一向量与所述第一重构向量,生成对应的第一目标函数;
基于所述第一目标函数分别对每一个所述稀疏连接的自编码器进行训练,得到训练完成的第一自编码器,其中,所述第一自编码器的数量与所述稀疏连接的自编码器的数量相同;
对所有所述第一自编码器进行集成处理,生成对应的独立框架,其中,所述独立框架内包含有指定数量的所述第一自编码器,且各所述第一自编码器之间不产生交互;
将所述独立框架确定为所述自编码器集成框架。
3.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架的步骤,包括:
获取预设的共享层,其中,所述共享层包括共享隐藏状态;
通过所述共享层对所有所述稀疏连接的自编码器进行权值共享处理;
对所述共享隐藏状态进行L1正则化处理,得到处理后的共享隐藏状态;
获取所述时间序列包含的所有第二向量;以及,
获取各所述稀疏连接的自编码器基于各所述第二向量生成的一一对应的第二重构向量;
根据所述处理后的共享隐藏状态、所述第二向量以及所述第二重构向量,生成对应的第二目标函数;
基于所述第二目标函数对所有所述稀疏连接的自编码器进行联合训练,得到训练完成的第二自编码器,其中,所述第二自编码器的数量与所述稀疏连接的自编码器的数量相同;
对所有所述第二自编码器进行集成处理,生成对应的共享框架,其中,所述共享框架内包含有指定数量的所述第二自编码器,且各所述第二自编码器之间存在交互;
将所述共享框架确定为所述自编码器集成框架。
4.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述通过所述自编码器集成框架计算所述时间序列中包含的每一个向量所对应的异常分数值的步骤,包括:
通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差,其中,所述指定向量为所述时间序列包含的所有向量中的任意一个向量;
计算所有所述重构误差的中位数;
将所述中位数确定为与所述时间序列中的所述指定向量对应的指定异常分数值。
5.根据权利要求4所述的基于自编码器的数据异常识别方法,其特征在于,所述通过所述自编码器集成框架中包含的每一个自编码器计算生成与指定向量对应的重构误差的步骤,包括:
通过特定自编码器对所述时间序列进行重构处理,得到与所述时间序列对应的特定重构时间序列,其中,所述特定自编码器为所述自编码器集成框架中包含的所有自编码器中的任意一个自编码器;
从所述特定重构时间序列中提取出与所述指定向量对应的特定重构向量;
根据所述指定向量与所述特定重构向量,计算出与所述指定向量对应的特定重构误差。
6.根据权利要求1所述的基于自编码器的数据异常识别方法,其特征在于,所述根据所述异常分数值,识别出所述时间序列中是否存在异常数据值的步骤,包括:
获取预设的异常阈值;
判断在所有所述异常分数值中,是否存在数值大于所述异常阈值的指定分数值;
若是,则从所有所述异常分数值中筛选出所述指定分数值;
从所述时间序列中查找出与所述指定分数值对应的第三向量;
将所述第三向量确定为所述异常数据值。
7.根据权利要求6所述的基于自编码器的数据异常识别方法,其特征在于,所述将所述第三向量确定为所述异常数据值的步骤之后,包括:
从所述时间序列中筛选出除所述第三向量之外的第四向量;
将所述第二向量标记为正常数据值;
获取与所述第三向量对应的第一数量;以及,
获取与所述第四向量对应的第二数量;
根据所述异常数据值、所述第一数量、所述正常数据以及所述第二数量,生成与所述时间序列对应的异常分析报告;
展示所述异常分析报告。
8.一种基于自编码器的数据异常识别装置,其特征在于,包括:
接收模块,用于接收输入的待检测的时间序列;
训练模块,用于基于所述时间序列,按照预设规则对预生成的指定数量的稀疏连接的自编码器进行集成训练处理,生成对应的自编码器集成框架,其中,所述稀疏连接的自编码器是通过分别对指定数量的基于循环神经网络的自编码器进行单元连接删除处理后生成的;
计算模块,用于通过所述自编码器集成框架计算出所述时间序列中包含的每一个向量所对应的异常分数值;
识别模块,用于根据所述异常分数值,识别出所述时间序列中是否存在异常数据值。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011242143.5A 2020-11-09 2020-11-09 基于自编码器的数据异常识别方法、装置和计算机设备 Active CN112329865B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011242143.5A CN112329865B (zh) 2020-11-09 2020-11-09 基于自编码器的数据异常识别方法、装置和计算机设备
PCT/CN2021/097550 WO2022095434A1 (zh) 2020-11-09 2021-05-31 基于自编码器的数据异常识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011242143.5A CN112329865B (zh) 2020-11-09 2020-11-09 基于自编码器的数据异常识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112329865A true CN112329865A (zh) 2021-02-05
CN112329865B CN112329865B (zh) 2023-09-08

Family

ID=74316541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011242143.5A Active CN112329865B (zh) 2020-11-09 2020-11-09 基于自编码器的数据异常识别方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN112329865B (zh)
WO (1) WO2022095434A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839059A (zh) * 2021-02-22 2021-05-25 北京六方云信息技术有限公司 Web入侵检测处理方法、装置及电子设备
CN113114529A (zh) * 2021-03-25 2021-07-13 清华大学 基于条件变分自动编码器的kpi异常检测方法和装置
CN113671917A (zh) * 2021-08-19 2021-11-19 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN114066435A (zh) * 2021-11-10 2022-02-18 广东工业大学 一种区块链非法地址检测方法和系统
WO2022095434A1 (zh) * 2020-11-09 2022-05-12 平安科技(深圳)有限公司 基于自编码器的数据异常识别方法、装置和计算机设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116165353B (zh) * 2023-04-26 2023-07-25 江西拓荒者科技有限公司 一种工业污染物监测数据处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204553A1 (en) * 2011-08-03 2013-08-08 President And Fellows Of Harvard College System and method for detecting integrated circuit anomalies
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
CN109902564A (zh) * 2019-01-17 2019-06-18 杭州电子科技大学 一种基于结构相似性稀疏自编码网络的异常事件检测方法
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN111178523A (zh) * 2019-08-02 2020-05-19 腾讯科技(深圳)有限公司 一种行为检测方法、装置、电子设备及存储介质
CN111724074A (zh) * 2020-06-23 2020-09-29 华中科技大学 一种基于深度学习的路面病变检测预警方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018224669A1 (en) * 2017-06-09 2018-12-13 British Telecommunications Public Limited Company Anomaly detection in computer networks
CN107798340B (zh) * 2017-09-29 2018-10-26 中国地质大学(武汉) 基于空间约束多自编码器的多元地球化学异常识别方法
CN112329865B (zh) * 2020-11-09 2023-09-08 平安科技(深圳)有限公司 基于自编码器的数据异常识别方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204553A1 (en) * 2011-08-03 2013-08-08 President And Fellows Of Harvard College System and method for detecting integrated circuit anomalies
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
CN109902564A (zh) * 2019-01-17 2019-06-18 杭州电子科技大学 一种基于结构相似性稀疏自编码网络的异常事件检测方法
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN111178523A (zh) * 2019-08-02 2020-05-19 腾讯科技(深圳)有限公司 一种行为检测方法、装置、电子设备及存储介质
CN111724074A (zh) * 2020-06-23 2020-09-29 华中科技大学 一种基于深度学习的路面病变检测预警方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁静;章毓晋;: "融合梯度差信息的稀疏去噪自编码网络在异常行为检测中的应用", 自动化学报, vol. 43, no. 04, pages 114 - 120 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095434A1 (zh) * 2020-11-09 2022-05-12 平安科技(深圳)有限公司 基于自编码器的数据异常识别方法、装置和计算机设备
CN112839059A (zh) * 2021-02-22 2021-05-25 北京六方云信息技术有限公司 Web入侵检测处理方法、装置及电子设备
CN112839059B (zh) * 2021-02-22 2022-08-30 北京六方云信息技术有限公司 Web入侵检测自适应告警过滤处理方法、装置及电子设备
CN113114529A (zh) * 2021-03-25 2021-07-13 清华大学 基于条件变分自动编码器的kpi异常检测方法和装置
CN113114529B (zh) * 2021-03-25 2022-05-24 清华大学 基于条件变分自动编码器的kpi异常检测方法、装置和计算机存储介质
CN113671917A (zh) * 2021-08-19 2021-11-19 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN113671917B (zh) * 2021-08-19 2022-08-02 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN114066435A (zh) * 2021-11-10 2022-02-18 广东工业大学 一种区块链非法地址检测方法和系统

Also Published As

Publication number Publication date
WO2022095434A1 (zh) 2022-05-12
CN112329865B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN112329865B (zh) 基于自编码器的数据异常识别方法、装置和计算机设备
CN113516297B (zh) 基于决策树模型的预测方法、装置和计算机设备
WO2021139252A1 (zh) 运维故障根因识别方法、装置、计算机设备和存储介质
CN111176990A (zh) 基于数据决策的测试数据生成方法、装置、计算机设备
CN112016279A (zh) 电子病历结构化方法、装置、计算机设备和存储介质
CN112464117A (zh) 请求处理方法、装置、计算机设备和存储介质
CN112036172B (zh) 基于模型的缩写数据的实体识别方法、装置和计算机设备
CN112131888A (zh) 分析语义情感的方法、装置、设备及存储介质
CN112163131A (zh) 业务数据查询平台的配置方法、装置、计算机设备及介质
CN111506710B (zh) 基于谣言预测模型的信息发送方法、装置和计算机设备
CN113642039A (zh) 单证模板的配置方法、装置、计算机设备和存储介质
CN110011990A (zh) 内网安全威胁智能分析方法
CN113807728A (zh) 基于神经网络的绩效考核方法、装置、设备及存储介质
CN112036749A (zh) 基于医疗数据识别风险用户的方法、装置和计算机设备
CN113656588B (zh) 基于知识图谱的数据对码方法、装置、设备和存储介质
CN114978968A (zh) 微服务的异常检测方法、装置、计算机设备和存储介质
CN111488585A (zh) 一种基于深度学习的攻击向量生成方法
CN113986581A (zh) 数据聚合处理方法、装置、计算机设备和存储介质
CN113672654A (zh) 数据查询方法、装置、计算机设备和存储介质
CN111679953B (zh) 基于人工智能的故障节点识别方法、装置、设备和介质
CN113051372A (zh) 材料数据的处理方法、装置、计算机设备和存储介质
CN111079175B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN112966787B (zh) 相似患者的识别方法、装置、计算机设备和存储介质
CN113077185B (zh) 工作量评估方法、装置、计算机设备和存储介质
CN113177396B (zh) 报表生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040481

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant