CN112598111A - 异常数据的识别方法和装置 - Google Patents

异常数据的识别方法和装置 Download PDF

Info

Publication number
CN112598111A
CN112598111A CN202011403613.1A CN202011403613A CN112598111A CN 112598111 A CN112598111 A CN 112598111A CN 202011403613 A CN202011403613 A CN 202011403613A CN 112598111 A CN112598111 A CN 112598111A
Authority
CN
China
Prior art keywords
target
data
neural network
network model
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011403613.1A
Other languages
English (en)
Inventor
郑方兰
李琨
何玥颖
田江
向小佳
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202011403613.1A priority Critical patent/CN112598111A/zh
Publication of CN112598111A publication Critical patent/CN112598111A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种异常数据的识别方法和装置。其中,该方法包括:获取待检测的目标数据;将目标数据输入到目标神经网络模型中,其中,目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,目标神经网络模型的判定阈值为目标判定阈值,判定阈值为根据目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,判定阈值用于识别目标样本数据为正常数据或异常数据,在判定阈值为目标判定阈值的情况下,目标神经网络模型的目标分值最高;根据目标神经网络模型输出的识别结果确定目标数据为正常数据或异常数据。本发明解决了识别异常数据准确度低的技术问题。

Description

异常数据的识别方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种异常数据的识别方法和装置。
背景技术
现有技术中,在使用模型识别异常数据的过程中,通常需要确定出一个用于识别的判定阈值。而现有技术中,确定判定阈值时,通常需要人为的参数,确定出的判定阈值不够准确,进一步造成模型识别准确度低,造成识别异常数据的准确度低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种异常数据的识别方法和装置,以至少解决识别异常数据准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种异常数据的识别方法,包括:获取待检测的目标数据;将上述目标数据输入到目标神经网络模型中,其中,上述目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,上述目标神经网络模型的判定阈值为目标判定阈值,上述判定阈值为根据上述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,上述判定阈值用于识别上述目标样本数据为正常数据或异常数据,在上述判定阈值为上述目标判定阈值的情况下,上述目标神经网络模型的目标分值最高,上述目标分值为上述目标神经网络模型的准确度与覆盖率的加权求和结果;根据上述目标神经网络模型输出的识别结果确定上述目标数据为正常数据或异常数据。
根据本发明实施例的另一方面,还提供了一种异常数据的识别装置,包括:第一获取单元,用于获取待检测的目标数据;输入单元,用于将上述目标数据输入到目标神经网络模型中,其中,上述目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,上述目标神经网络模型的判定阈值为目标判定阈值,上述判定阈值为根据上述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,上述判定阈值用于识别上述目标样本数据为正常数据或异常数据,在上述判定阈值为上述目标判定阈值的情况下,上述目标神经网络模型的目标分值最高,上述目标分值为上述目标神经网络模型的准确度与覆盖率的加权求和结果;第一确定单元,用于根据上述目标神经网络模型输出的识别结果确定上述目标数据为正常数据或异常数据。
在本发明实施例中,采用了获取待检测的目标数据;将上述目标数据输入到目标神经网络模型中,其中,上述目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,上述目标神经网络模型的判定阈值为目标判定阈值,上述判定阈值为根据上述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,上述判定阈值用于识别上述目标样本数据为正常数据或异常数据,在上述判定阈值为上述目标判定阈值的情况下,上述目标神经网络模型的目标分值最高,上述目标分值为上述目标神经网络模型的准确度与覆盖率的加权求和结果;根据上述目标神经网络模型输出的识别结果确定上述目标数据为正常数据或异常数据的方法,由于在上述方法中,目标神经网络模型的目标判定阈值是从多个判定阈值中确定出的,而多个判定阈值又是根据上述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,从而可以为目标神经网络模型确定出最准确的目标判定阈值,提高了确定异常数据的准确度的效果,进而解决了识别异常数据准确度低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的异常数据的识别方法的应用环境的示意图;
图2是根据本发明实施例的另一种可选的异常数据的识别方法的应用环境的示意图;
图3是根据本发明实施例的一种可选的异常数据的识别方法的流程的示意图;
图4是根据本发明实施例的一种可选的异常数据的识别方法的时序数据的示意图;
图5是根据本发明实施例的一种可选的异常数据的识别方法的LSTM网络单元的示意图;
图6是根据本发明实施例的一种可选的异常数据的识别方法的展开的LSTM单元的示意图;
图7是根据本发明实施例的一种可选的异常数据的识别方法的LSTM自编码器的示意图;
图8是根据本发明实施例的一种可选的异常数据的识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种异常数据的识别方法,可选地,作为一种可选的实施方式,上述异常数据的识别方法可以但不限于应用于如图1所示的环境中。
如图1所示,终端设备102包括了存储器104,用于存储终端设备102运行过程中产生的各项数据、处理器106,用于处理运算上述各项数据、显示器108,用于显示识别结果。终端设备102可以通过网络110与服务器112之间进行数据交互。服务器112包括数据库114,用于存储各项数据,处理引擎116,用于处理上述各项数据。如步骤S102到步骤S106。终端设备102将目标数据发送到服务器112,服务器112对目标数据进行识别,并返回识别结果。
作为一种可选的实施方式,上述异常数据的识别方法可以但不限于应用于如图2所示的环境中。
如图2所示,终端设备202包括了存储器204,用于存储终端设备202运行过程中产生的各项数据、处理器206,用于处理运算上述各项数据、显示器208,用于显示识别结果。终端设备202可以执行步骤S202到S206。与图1的区别在于,终端设备202完成异常数据的识别。
可选地,在本实施例中,上述终端设备可以是配置有目标客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图3所示,上述异常数据的识别方法包括:
S302,获取待检测的目标数据;
S304,将目标数据输入到目标神经网络模型中,其中,目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,目标神经网络模型的判定阈值为目标判定阈值,判定阈值为根据目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,判定阈值用于识别目标样本数据为正常数据或异常数据,在判定阈值为目标判定阈值的情况下,目标神经网络模型的目标分值最高,目标分值为目标神经网络模型的准确度与覆盖率的加权求和结果;
S306,根据目标神经网络模型输出的识别结果确定目标数据为正常数据或异常数据。
可选地,上述异常数据识别方法可以但不限于应用于识别数值类型数据的过程中,或者识别非数值类型数据的过程中。如果识别非数值类型的数据,则经非数值类型的数据转换为数值型变量。
在识别异常数据的过程中,首先,获取待识别的数据,将待识别的数据输入到目标神经网络模型中。目标神经网络模型的判定阈值的目标判定阈值,目标判定阈值是从多个判定阈值中确定出的一个阈值。每一个判定阈值是根据目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值。目标判定阈值下的目标神经网络模型的目标分值最高,目标分值为目标神经网络模型的准确度与覆盖率的加权求和结果。
可选地,在将目标数据输入到目标神经网络模型中之前,方法还包括:获取目标样本数据;对目标样本数据进行重构,确定目标样本数据中每一个目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差;根据重构误差的绝对值、重构误差分布的均值和协方差确定每一个目标样本数据的重构分值;根据重构分值确定出多个判定阈值;从多个判定阈值中确定出目标判定阈值。
可选地,根据重构分值确定出多个判定阈值包括:将每一个重构分值确定为一个判定阈值;或者对重构分值按照大小进行排序,将排序后的重构分值中,每两个相邻的重构分值的平均值确定为一个判定阈值;或者将重构分值的分位数作为判定阈值。
可选地,从多个判定阈值中确定出目标判定阈值包括:确定出多个判定阈值中,每一个判定阈值对应的目标神经网络模型的目标分值,其中,目标分值由识别精准度与识别覆盖率得到;将目标分值最大的判定阈值确定为目标判定阈值。
可选地,确定出多个判定阈值中,每一个判定阈值对应的目标神经网络模型的目标分值包括:获取目标样本数据的第一数量、目标样本数据被识别为异常数据的第二数量和目标样本数据所在的样本数据集中的样本数据的总数量;将第二数量与第一数量的比值确定为精准度,将第二数量与总数量的比值确定为覆盖率;将准确度与覆盖率输入到预定公式中确定出目标分值。
可选地,将准确度与覆盖率输入到预定公式中确定出目标分值包括:通过如下公式确定目标分值:
Figure BDA0002817865990000061
其中,Fβ-score为目标分值,precision为精准度,recall为覆盖率,β为大于0的实数。
可选地,根据目标神经网络模型输出的识别结果确定目标数据为正常数据或异常数据包括:在识别结果大于目标判定阈值的情况下,确定目标数据为正常数据;在识别结果小于或等于目标判定阈值的情况下,确定目标数据为异常数据。
结合一个具体示例解释上述异常数据的识别方法。
假设业务系统或者数据仓库连续生成数据(以数值型数据为例),则时序数据定义为:
DS={(x1,t1),(x1,t1),...,(xT,tT),...}
其中xT是时间戳tT多维数据表征向量。在将时序数据放入到长短期记忆网络中,往往是批量样本用来做训练,如图4所示,一个Batch的训练数据,其中MB是批量样本数量大小。每一个Window为一个窗口。如果连续生成的数据非数值型,则需要使用Encoding等数据预处理技术如one-hot encoding、word2vec,将数据转换成数值型变量。
循环神经网络(Recurrent neural networks,RNNs)可捕获数据点之间的时间依赖性,能有效地处理时序问题。它是一类以序列数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness),因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(Natural Language Processing,NLP),例如语音识别、语言建模、机器翻译等领域有应用,常常被用于各类时间序列预报。RNNs通过含时反向传播将其链式展开,每层都按照前馈神经网络框架做计算,考虑到RNNs的参数共享,权重的梯度是所有层的梯度之和:
Figure BDA0002817865990000081
其中L是损失函数。在优化损失函数时,RNNs在误差梯度经过多个时间步的反向传播后容易导致极端的非线性行为,包括梯度消失(gradient vanishing)和梯度爆炸(gradient explosion)。不同于前馈神经网络,梯度消失和梯度爆炸仅发生在深度结构中,且可以通过设计梯度比例得到缓解,对RNN,只要序列长度足够,上述现象就可能发生。因此随着时间步的推移,由于RNN在更新权值计算类的连续的矩阵乘法,权重系数必然出现指数增长或衰减,引发梯度的大幅度变化。
为解决一般的RNN存在的长短期依赖问题,长短期记忆网络(LSTM)被设计出来。由于独特的网络设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的的重要事件。LSTM也有与RNNs一样的链式结构,但在重复模块上与RNNs结构不同:LSTM有独特的三门控制(遗忘门、更新门和输出门)结构,并通过特殊的数学形式交互。图5显示了LSTM单元的经典结构,它的“忘记门”forget gate和“更新门”update gate会在每个时间步长根据输入数据选择必要的先前信息和新来的信息。信息与单元状态一起传输到下一步。此外,每个LSTM单元也分别输出其值。图5中,Last cell state为上一个细胞源状态,Last output为上一个细胞源输出,Current input为当前输入,Cruuent output为当前输出,Currentcell state为当前细胞源状态,Cruuent hypothesis为当前推理输出。LSTM单元可以随时间展开,如图6所示。LSTM单元将数据窗口作为输入(每个时间步一个实例)。因此,LSTM单元能从网络中提取有用的和无用的时序信息。其中,a与c分别为转改和输出,x为当前细胞源的输入,h是隐藏层的输出。
上述为模型的介绍。接下来为异常数据识别过程。
在异常检测任务中,异常数据是研究对象,因此将异常视为阳性类,正常数据视为阴性类,如下表1的混淆矩阵所示,其列出的计数分别为:
真正(true positive,TP)或f++,对应于被分类模型正确预测的正样本;
假负(false negative,FN)或f+-,对应于被分类模型错误预测的正样本;
假正(negative positive,FP)或f-+,对应于被分类模型错误预测的负样本;
真负(true negative,TN)或f--,对应于被分类模型正确预测的负样本。
表1
Figure BDA0002817865990000091
对异常检测任务而言,精度(precision)和召回率(recall)有两个广泛使用的度量,结合混淆矩阵其对应的数学形式如下述方程所示,
precision=TP/(TP+FP) (3)
recall=TP/(TP+FN) (4)
在异常检测任务中,单纯地使用精度和召回来评价其效果往往不可靠,高精度和高召回往往无法共存。比如,检测系统一覆盖100个样本,其中目标样本中的70个,即检测准确率为80%,而如果检测系统二覆盖10个样本,其中目标样本有10个,即检测准确率为100%,检测系统二的准确率要高于检测系统一,但明显检测系统二由于低的召回其异常识别效果并不显著。同理,召回也无法单独地反映检测效果。
为了有效地评价异常检测系统的性能,有必要构建新的评估指标。F-score,精度和召回的加权平均,能作为有效的评估指标。
Figure BDA0002817865990000092
当加权因子β=1时,精度和召回具有同等的权重,β<1则说明精度的重要性高于召回,反正精度的重要性小于召回。F-score的范围在0到1之间,越接近1说明异常检测的性能越好。可选地,接受工作特征曲线下的面积AUC值也可以作为评价指标。
异常数据识别还涉及到自编码器。LSTM-based自编码器。自编码是一种具有对称结构的神经网络。通常,自编码器至少具有一个隐藏层,且该隐藏层的神经元数目小于输入和输出层。自编码器的基本目标是重建其自身的输入,并在隐藏状态下学习输入数据的低维编码层。此外,自编码器能测量输入和预测之间的重构误差。通常情况下,输入层和隐藏层称为编码器,其对称的隐藏车和输出层称为解码器。对于输入X,目标函数是以最小化重构误差,为编码器和解码器找到权重向量,如公式:
Figure BDA0002817865990000101
自编码器的结构图可以如图7所示。
自编码器LSTM-AutoEncoder(LSTM-AE)具有相同的编码器-解码器的结构,其内部的神经元是LSTM单元并按照图6所示连接。图7是基本的基于LSTM的自编码体系结构,在编码器和解码器侧均有单个LSTM层。LSTM-AE将时序长度为T的窗口作为输入,并随着LSTM单位传递信息,当编码器抵达最后一个编码器状态时,如图7中(b)所示,其单元状态实际上是修复输入窗口的长度,并将其作为初始单元格复制到解码器状态,因此时序输入信息被传送并存储在解码器中。解码器以相反的时序窗口做预测,从而更容易优化。需要注意的是,与深度LSTM不同,编码器在每个时间步的输出均不直接作为解码器的输入,而编码器和解码器之间的逻辑连接实际上与堆叠LSTM的逻辑连接不同。这里,编码器的输出被忽略,并且有不同的工作为解码器输入的研究做出了贡献。考虑到码器的最终单元状态已存储了所有相关信息,因此LSTM-AE向解码器馈送用于异常检测任务的恒定向量。在模型优化过程中,隐藏层表示向量的大小,即单元状态的大小是初始化截断需要学习的另一个超参数。在大规模数据集上,隐藏的向量越大,LSTM-AE可以捕获的信息就越多。图7中E为编码器,D为解码器,x为输入,c为存储单元,存储有编码器,d为解码器的输入,y为解码器的输出。
Anomaly score和实际异常数据检测:在本申请实施例的异常检测系统中,用重构误差分布的均值和协方差创新型的定义了异常检测分值:
anomaly score=(e-μ)T-1(e-μ) (7)
其中e是样本重构误差的绝对值,μ和∑分别是重构误差分布的均值和协方差。正常样本经过LSTM-AE训练,其误差分布往往显著异常与异常样本,即对应的误差分布均值和协方差显著不同。因此,通过定义anomaly score和其阈值筛选,能更有效地区分“异常”和“正常”。在anomaly score阈值筛选上,分别按照anomaly score的分位数挡着候选阈值,用混合了“正常”和”异常”数据组成的数据集做检测,对每个候选阈值计算出检测结果的F1-score,取最大F1-score对应的anomaly score值作为筛选阈值。此外,我们还比较了直接用重构误差做异常检测的效果,其区分能力远不如anomaly score,即anomaly score能显著提升异常检测的性能。在实际的大体量业务数据上,本发明提出的基于anomaly score的LSTM-AE能有效地识别异常数据点,其识别对应的精度、召回和F1-score分别高达0.95、0.9和0.92。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述异常数据的识别方法的异常数据的识别装置。如图8所示,该装置包括:
第一获取单元802,用于获取待检测的目标数据;
输入单元804,用于将目标数据输入到目标神经网络模型中,其中,目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,目标神经网络模型的判定阈值为目标判定阈值,判定阈值为根据目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,判定阈值用于识别目标样本数据为正常数据或异常数据,在判定阈值为目标判定阈值的情况下,目标神经网络模型的目标分值最高,目标分值为目标神经网络模型的准确度与覆盖率的加权求和结果;
第一确定单元806,用于根据目标神经网络模型输出的识别结果确定目标数据为正常数据或异常数据。
可选地,上述异常数据识别装置可以但不限于应用于识别数值类型数据的过程中,或者识别非数值类型数据的过程中。如果识别非数值类型的数据,则经非数值类型的数据转换为数值型变量。
在识别异常数据的过程中,首先,获取待识别的数据,将待识别的数据输入到目标神经网络模型中。目标神经网络模型的判定阈值的目标判定阈值,目标判定阈值是从多个判定阈值中确定出的一个阈值。每一个判定阈值是根据目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值。目标判定阈值下的目标神经网络模型的目标分值最高,目标分值为目标神经网络模型的准确度与覆盖率的加权求和结果。
作为一种可选的示例,装置还包括:第二获取单元,用于在将目标数据输入到目标神经网络模型中之前,获取目标样本数据;第二确定单元,用于对目标样本数据进行重构,确定目标样本数据中每一个目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差;第三确定单元,用于根据重构误差的绝对值、重构误差分布的均值和协方差确定每一个目标样本数据的重构分值;第四确定单元,用于根据重构分值确定出多个判定阈值;第五确定单元,用于从多个判定阈值中确定出目标判定阈值。
作为一种可选的示例,第四确定单元包括:第一确定模块,用于将每一个重构分值确定为一个判定阈值,或者对重构分值按照大小进行排序,将排序后的重构分值中,每两个相邻的重构分值的平均值确定为一个判定阈值,或者将重构分值的分位数作为判定阈值。
作为一种可选的示例,第五确定单元包括:第二确定模块,用于确定出多个判定阈值中,每一个判定阈值对应的目标神经网络模型的目标分值,其中,目标分值由识别精准度与识别覆盖率得到,将目标分值最大的判定阈值确定为目标判定阈值。
作为一种可选的示例,第二确定模块包括:获取子模块,用于获取目标样本数据的第一数量、目标样本数据被识别为异常数据的第二数量和目标样本数据所在的样本数据集中的样本数据的总数量;第一确定子模块,用于将第二数量与第一数量的比值确定为精准度,将第二数量与总数量的比值确定为覆盖率;第二确定子模块,用于将准确度与覆盖率输入到预定公式中确定出目标分值。
作为一种可选的示例,第二确定子模块还用于:通过上述公式1确定目标分值。
作为一种可选的示例,第一确定单元包括:第三确定模块,用于在识别结果大于目标判定阈值的情况下,确定目标数据为正常数据;第四确定模块,用于在识别结果小于或等于目标判定阈值的情况下,确定目标数据为异常数据。
本申请实施例的其他示例请参见上述示例,在此不再赘述。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种异常数据的识别方法,其特征在于,包括:
获取待检测的目标数据;
将所述目标数据输入到目标神经网络模型中,其中,所述目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,所述目标神经网络模型的判定阈值为目标判定阈值,所述判定阈值为根据所述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,所述判定阈值用于识别所述目标样本数据为正常数据或异常数据,在所述判定阈值为所述目标判定阈值的情况下,所述目标神经网络模型的目标分值最高,所述目标分值为所述目标神经网络模型的准确度与覆盖率的加权求和结果;
根据所述目标神经网络模型输出的识别结果确定所述目标数据为正常数据或异常数据。
2.根据权利要求1所述的方法,其特征在于,在将所述目标数据输入到目标神经网络模型中之前,所述方法还包括:
获取所述目标样本数据;
对所述目标样本数据进行重构,确定所述目标样本数据中每一个目标样本数据的所述重构误差的绝对值、所述重构误差分布的均值和协方差;
根据所述重构误差的绝对值、所述重构误差分布的均值和协方差确定所述每一个目标样本数据的重构分值;
根据所述重构分值确定出多个所述判定阈值;
从多个所述判定阈值中确定出所述目标判定阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述重构分值确定出多个所述判定阈值包括:
将每一个所述重构分值确定为一个所述判定阈值;或者
对所述重构分值按照大小进行排序,将排序后的所述重构分值中,每两个相邻的重构分值的平均值确定为一个所述判定阈值;
或者将所述重构分值的分位数作为所述判定阈值。
4.根据权利要求2所述的方法,其特征在于,所述从多个所述判定阈值中确定出所述目标判定阈值包括:
确定出多个所述判定阈值中,每一个所述判定阈值对应的所述目标神经网络模型的目标分值;
将所述目标分值最大的判定阈值确定为所述目标判定阈值。
5.根据权利要求4所述的方法,其特征在于,所述确定出多个所述判定阈值中,每一个所述判定阈值对应的所述目标神经网络模型的目标分值包括:
获取所述目标样本数据的第一数量、所述目标样本数据被识别为异常数据的第二数量和所述目标样本数据所在的样本数据集中的样本数据的总数量;
将所述第二数量与所述第一数量的比值确定为所述精准度,将所述第二数量与所述总数量的比值确定为所述覆盖率;
将所述准确度与所述覆盖率输入到预定公式中确定出所述目标分值。
6.根据权利要求5所述的方法,其特征在于,所述将所述准确度与所述覆盖率输入到预定公式中确定出所述目标分值包括:
通过如下公式确定所述目标分值:
Figure FDA0002817865980000031
其中,Fβ-score为所述目标分值,precision为所述精准度,recall为所述覆盖率,β为大于0的实数。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述根据所述目标神经网络模型输出的识别结果确定所述目标数据为正常数据或异常数据包括:
在所述识别结果大于所述目标判定阈值的情况下,确定所述目标数据为正常数据;
在所述识别结果小于或等于所述目标判定阈值的情况下,确定所述目标数据为异常数据。
8.一种异常数据的识别装置,其特征在于,包括:
第一获取单元,用于获取待检测的目标数据;
输入单元,用于将所述目标数据输入到目标神经网络模型中,其中,所述目标神经网络模型为使用目标样本数据训练原始神经网络模型得到的模型,所述目标神经网络模型的判定阈值为目标判定阈值,所述判定阈值为根据所述目标样本数据的重构误差的绝对值、重构误差分布的均值和协方差得到的阈值,所述判定阈值用于识别所述目标样本数据为正常数据或异常数据,在所述判定阈值为所述目标判定阈值的情况下,所述目标神经网络模型的目标分值最高,所述目标分值为所述目标神经网络模型的准确度与覆盖率的加权求和结果;
第一确定单元,用于根据所述目标神经网络模型输出的识别结果确定所述目标数据为正常数据或异常数据。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于在将所述目标数据输入到目标神经网络模型中之前,获取所述目标样本数据;
第二确定单元,用于对所述目标样本数据进行重构,确定所述目标样本数据中每一个目标样本数据的所述重构误差的绝对值、所述重构误差分布的均值和协方差;
第三确定单元,用于根据所述重构误差的绝对值、所述重构误差分布的均值和协方差确定所述每一个目标样本数据的重构分值;
第四确定单元,用于根据所述重构分值确定出多个所述判定阈值;
第五确定单元,用于从多个所述判定阈值中确定出所述目标判定阈值。
10.根据权利要求9所述的装置,其特征在于,所述第四确定单元包括:
第一确定模块,用于将每一个所述重构分值确定为一个所述判定阈值,或者对所述重构分值按照大小进行排序,将排序后的所述重构分值中,每两个相邻的重构分值的平均值确定为一个所述判定阈值,或者将所述重构分值的分位数作为所述判定阈值。
CN202011403613.1A 2020-12-04 2020-12-04 异常数据的识别方法和装置 Pending CN112598111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011403613.1A CN112598111A (zh) 2020-12-04 2020-12-04 异常数据的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011403613.1A CN112598111A (zh) 2020-12-04 2020-12-04 异常数据的识别方法和装置

Publications (1)

Publication Number Publication Date
CN112598111A true CN112598111A (zh) 2021-04-02

Family

ID=75188188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011403613.1A Pending CN112598111A (zh) 2020-12-04 2020-12-04 异常数据的识别方法和装置

Country Status (1)

Country Link
CN (1) CN112598111A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408644A (zh) * 2021-07-02 2021-09-17 南京信息工程大学 卫星数据重构方法、探测上层海洋对台风响应的方法
CN114138942A (zh) * 2021-12-09 2022-03-04 南京审计大学 基于文本情感倾向的违规检测方法
CN114265359A (zh) * 2021-12-15 2022-04-01 昆船智能技术股份有限公司 一种输送设备运行时间异常的智能检测系统及方法
CN115600116A (zh) * 2022-12-15 2023-01-13 西南石油大学(Cn) 时间序列异常的动态检测方法、系统、存储介质及终端
CN115641014A (zh) * 2022-08-29 2023-01-24 东土科技(宜昌)有限公司 基于定位的人员轨迹数据处理方法、装置以及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628281A (zh) * 2017-03-23 2018-10-09 株式会社日立制作所 异常检测系统及异常检测方法
US20190124045A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Density estimation network for unsupervised anomaly detection
CN109858509A (zh) * 2018-11-05 2019-06-07 杭州电子科技大学 基于多层随机神经网络单分类器异常检测方法
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN110781433A (zh) * 2019-10-11 2020-02-11 腾讯科技(深圳)有限公司 数据类型的确定方法和装置、存储介质及电子装置
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法
WO2020159439A1 (en) * 2019-01-29 2020-08-06 Singapore Telecommunications Limited System and method for network anomaly detection and analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628281A (zh) * 2017-03-23 2018-10-09 株式会社日立制作所 异常检测系统及异常检测方法
US20190124045A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Density estimation network for unsupervised anomaly detection
CN109858509A (zh) * 2018-11-05 2019-06-07 杭州电子科技大学 基于多层随机神经网络单分类器异常检测方法
WO2020159439A1 (en) * 2019-01-29 2020-08-06 Singapore Telecommunications Limited System and method for network anomaly detection and analysis
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN110781433A (zh) * 2019-10-11 2020-02-11 腾讯科技(深圳)有限公司 数据类型的确定方法和装置、存储介质及电子装置
CN110929843A (zh) * 2019-10-29 2020-03-27 国网福建省电力有限公司 一种基于改进深度自编码网络的异常用电行为辨识方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏火松等: "基于自编码器和集成学习的半监督异常检测算法", 《计算机工程与科学》, 15 August 2020 (2020-08-15) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408644A (zh) * 2021-07-02 2021-09-17 南京信息工程大学 卫星数据重构方法、探测上层海洋对台风响应的方法
CN113408644B (zh) * 2021-07-02 2023-07-14 南京信息工程大学 卫星数据重构方法、探测上层海洋对台风响应的方法
CN114138942A (zh) * 2021-12-09 2022-03-04 南京审计大学 基于文本情感倾向的违规检测方法
CN114265359A (zh) * 2021-12-15 2022-04-01 昆船智能技术股份有限公司 一种输送设备运行时间异常的智能检测系统及方法
CN114265359B (zh) * 2021-12-15 2023-08-25 昆船智能技术股份有限公司 一种输送设备运行时间异常的智能检测系统及方法
CN115641014A (zh) * 2022-08-29 2023-01-24 东土科技(宜昌)有限公司 基于定位的人员轨迹数据处理方法、装置以及电子设备
CN115600116A (zh) * 2022-12-15 2023-01-13 西南石油大学(Cn) 时间序列异常的动态检测方法、系统、存储介质及终端

Similar Documents

Publication Publication Date Title
CN112598111A (zh) 异常数据的识别方法和装置
Ajiboye et al. Evaluating the effect of dataset size on predictive model using supervised learning technique
Ziari et al. Prediction of IRI in short and long terms for flexible pavements: ANN and GMDH methods
CN110503531B (zh) 时序感知的动态社交场景推荐方法
Galelli et al. An evaluation framework for input variable selection algorithms for environmental data-driven models
US8160981B2 (en) Event-based anticipation systems, methods and computer program products for associative memories wherein times of future events occurring are predicted
Wen et al. Some new ranking criteria in data envelopment analysis under uncertain environment
Chatterjee et al. Stock price prediction using time series, econometric, machine learning, and deep learning models
JP2001502831A (ja) 測定可能な時系列の統計的依存性の分類方法
CN112288137A (zh) 一种计及电价和Attention机制的LSTM短期负荷预测方法及装置
CN114565196B (zh) 基于政务热线的多事件趋势预判方法、装置、设备及介质
Pires dos Santos et al. Identifying the relative importance of predictive variables in artificial neural networks based on data produced through a discrete event simulation of a manufacturing environment
Bhardwaj et al. Health insurance amount prediction
CN115423594A (zh) 企业财务风险的评估方法、装置、设备及存储介质
Rogoza Method for the prediction of time series using small sets of experimental samples
US11144938B2 (en) Method and system for predictive modeling of consumer profiles
Brezocnik et al. Comparison between genetic algorithm and genetic programming approach for modeling the stress distribution
Khalid et al. An approach to estimate the duration of software project through machine learning techniques
Ray et al. Prediction and Analysis of Sentiments of Reddit Users towards the Climate Change Crisis
Shah et al. A neoteric technique using ARIMA-LSTM for time series analysis on stock market forecasting
Makouei et al. Moments of order statistics and k-record values arising from the complementary beta distribution with application
Hernández-Bastida et al. Collective risk model: Poisson–Lindley and exponential distributions for Bayes premium and operational risk
Petruseva et al. Model for predicting construction time by using general regression neural network
Hodapp Unsupervised learning for computational phenotyping
CN114358186A (zh) 一种数据处理方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination