CN114726581A - 一种异常检测方法、装置、电子设备及存储介质 - Google Patents
一种异常检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114726581A CN114726581A CN202210230888.2A CN202210230888A CN114726581A CN 114726581 A CN114726581 A CN 114726581A CN 202210230888 A CN202210230888 A CN 202210230888A CN 114726581 A CN114726581 A CN 114726581A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- detected
- reconstruction
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0695—Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供一种异常检测方法、装置、电子设备及存储介质,该方法包括:获取待检测数据和已有正常数据;根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量;根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据。该方案能够仅依靠系统中的正常测量数据的分析,结合深度孪生自编码网络,实现无监督的方法对系统中异常状态进行有效检测。
Description
技术领域
本发明属于异常检测技术领域,特别涉及一种异常检测方法、装置、电子设备及存储介质。
背景技术
随着信息系统的规模及其复杂度的增长,系统运维所面临的挑战日益严峻。系统中一旦发生某个异常很可能会对整个系统的稳定运行造成严重后果,如何有效的进行异常检测甚至避免系统发生异常对于系统运维来说十分重要。而对于系统的运行维护主要通过持续监控和分析系统日志,性能计数器和应用程序资源使用模式,评估系统运行状况并确定性能变化。如何更好的利用系统产生的一系列状态记录数据来实时地把握系统的运行情况,有效检测甚至避免系统异常,可以节约运维成本,提高系统本身的可靠性和效率,并且实现智能化的运维过程。
在异常检测场景下,关注的异常不仅是罕见对象,还包括超出预料的突发状况。常见的异常检测可以分为三大类,分别是无监督异常检测、半监督异常检测和有监督异常检测。对于无监督异常检测来说,先假设待处理数据集里绝大多数都是正常样本,然后通过相应的异常检测算法来寻找跟大多数正常样本不一致的样本将其标记为异常样本。对于半监督异常检测来说,需要根据给定的正常样本作为训练集,学习出一个表示正常行为的半监督模型,结合模型测试待分析样本异常的可能性。对于有监督异常检测来说,需要根据给定的正常样本和异常样本作为训练集,通过学习一个能识别正常和异常的分类器,将异常检测问题等价为分类问题进行解决。但是由于实际系统中异常是不经常发生的,这导致异常数据占比非常少。所以,如何克服异常检测问题中的训练样本不均衡问题,目前是异常检测方法的一个巨大挑战。
发明内容
本说明书实施例的目的是提供一种异常检测方法、装置、电子设备及存储介质。
为解决上述技术问题,本申请实施例通过以下方式实现的:
第一方面,本申请提供一种异常检测方法,该方法包括:
获取待检测数据和已有正常数据;
根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量;
根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据。
在其中一个实施例中,根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量,包括:
将待检测数据和已有正常数据分别输入预先训练的网络嵌入层,分别得到待检测数据对应的第一嵌入向量和已有正常数据对应的第二嵌入向量;
将第一嵌入向量和第二嵌入向量分别按照待检测数据和已有正常数据自身的顺序输入深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量。
在其中一个实施例中,深度孪生自编码网络包括第一自编码网络和第二自编码网络,其中,第一自编码网络的参数和第二自编码网络的权重系数相同;
将第一嵌入向量和第二嵌入向量分别按照待检测数据和已有正常数据自身的顺序输入深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量,包括:
将第一嵌入向量按照待检测数据自身的顺序输入第一自编码网络,得到第一重建向量,将第二嵌入向量按照已有正常数据自身的顺序输入第二自编码网络,得到第二重建向量。
在其中一个实施例中,第一自编码网络和第二自编码网络均包括:
编码器,用于接收嵌入向量,并对嵌入向量进行序列关系提取,得到提取序列;
隐空间,用于将提取序列映射为隐空间特征;
解码器,用于将隐空间特征进行重建,得到重建向量。
在其中一个实施例中,训练深度孪生自编码网络,包括:
获取第一历史测量数据和/或第二历史测量数据;
将第一历史测量数据和/或第二历史测量数据分别输入网络嵌入层,得到第一历史测量数据对应的第一历史嵌入向量和/或第二历史测量数据对应的第二历史嵌入向量;
将第一历史嵌入向量输入第一自编码网络,得到第一历史嵌入向量对应的第一历史重建向量,和/或将第二历史嵌入向量输入第二自编码网络,得到第二历史测量数据对应的第二历史重建向量;
通过比较第一历史重建向量和第二历史重建向量的差距和/或比较第一历史嵌入向量和第一历史重建向量的差距和/或比较第二历史嵌入向量和第二历史重建向量的差距,调整第一自编码网络和第二自编码网络的参数,直至差距满足差距阈值。
在其中一个实施例中,若包括一个已有正常数据;则对应一个第二重建向量;
根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据,包括:
比较第一重建向量与第二重建向量的差距,若差距大于预设阈值,则判定待检测数据为异常数据;若差距小于或等于预设阈值,则判定待检测数据为正常数据。
在其中一个实施例中,若包括至少两个已有正常数据,则对应至少两个第二重建向量;
根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据,包括:
分别计算第一重建向量与所有第二重建向量之间的差距;
计算所有差距中大于预设阈值的个数与差距总数的比值,得到异常比例;若异常比例大于比例阈值,判定待检测数据为异常数据;若异常比例小于或等于比例阈值,判定待检测数据为正常数据。
第二方面,本申请提供一种异常检测装置,该装置包括:
数据获取模块,用于获取待检测数据和已有正常数据;
重建模块,用于根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量;
处理模块,用于根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的异常检测方法。
第四方面,本申请提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的异常检测方法。
由以上本说明书实施例提供的技术方案可见,该方案通过比较判断待检测数据是否异常,在训练时无需对测量数据进行异常或正常的标注,即能够仅基于系统中的正常测量数据的分析,结合深度孪生自编码网络,实现无监督的方法对系统中异常状态进行有效检测。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的异常检测方法的流程示意图;
图2为本申请提供的深度孪生自编码网络的模型示意图;
图3为本申请提供的异常检测装置的结构示意图;
图4为本申请提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
在不背离本申请的范围或精神的情况下,可对本申请说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本申请中的“份”如无特别说明,均按质量份计。
下面结合附图和实施例对本发明进一步详细说明。
参照图1,其示出了适用于本申请实施例提供的异常检测方法的流程示意图。该异常检测方法采用深度孪生自编码网络对通用的各类信息系统产生的各类数据进行异常检测。可以理解的,在数据挖掘领域,异常检测主要是用于对不符合预期模式的观测值、事件等进行识别。本申请主要考虑在大型复杂系统中基于测量数据的异常检测问题,但本申请所提出的方法绝不仅限于对于某类数据的异常检测,可以泛化到需要借助数据分析进行异常检测的多种情况。
如图1所示,一种异常检测方法,可以包括:
S110、获取待检测数据和已有正常数据。
具体的,待检测数据可以是待分析系统本身产生的测量数据。已有正常数据是指已经通过任意方式判定为正常数据的测量数据。
可以理解的,待检测数据和已有正常数据通常为高维异构的测量数据,例如,半结构化文本、文本数字结合等形式的测量数据,高维异构的测量数据例如维度为256的测量数据。
S120、根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量,可以包括:
将待检测数据和已有正常数据分别输入预先训练的网络嵌入层,分别得到待检测数据对应的第一嵌入向量和已有正常数据对应的第二嵌入向量;
将第一嵌入向量和第二嵌入向量分别按照待检测数据和已有正常数据自身的顺序输入深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量。
其中,网络嵌入层为预先训练好的模型,用于将每条测量数据转化为维度相等的嵌入向量,即第一嵌入向量和第二嵌入向量的维度相等。嵌入向量可以表示为vi,下标i用于区分不同的嵌入向量。
训练网络嵌入层时,获取某个系统内出现的所有测量数据,先对所有测量数据进行逐条扫描,完成简单的数据清洗工作,然后进行噪音处理,将处理之后的测量数据作为原始数据,用于训练网络嵌入层。
在一个实施例中,深度孪生自编码网络包括第一自编码网络和第二自编码网络,其中,第一自编码网络的参数和第二自编码网络的权重系数相同;
将第一嵌入向量和第二嵌入向量分别按照待检测数据和已有正常数据自身的顺序输入深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量,包括:
将第一嵌入向量按照待检测数据自身的顺序输入第一自编码网络,得到第一重建向量,将第二嵌入向量按照已有正常数据自身的顺序输入第二自编码网络,得到第二重建向量。
其中,第一自编码网络和第二自编码网络均包括:
编码器,用于接收嵌入向量,并对嵌入向量进行序列关系提取,得到提取序列;
隐空间,用于将提取序列映射为隐空间特征;
解码器,用于将隐空间特征进行重建,得到重建向量。
参照图2,其示出了深度孪生自编码网络的模型示意图。如图2所示,深度孪生自编码网络包括第一自编码网络和第二自编码网络,还可以称为左路自编码网络和右路自编码网络,即图2中的AutoEncoder_1和AutoEncoder_2。
第一自编码网络和第二自编码网络的结构、权重系数均相同,也就是第一自编码网络和第二自编码网络是相同的网络。考虑到深度孪生自编码网络处理的测量数据大多是序列型数据,故自动编码器(包括第一自编码网络和第二自编码网络)内部的编码器(对应图2中Encoder)和解码器(对应图2中Decoder)采用LSTM单元进行序列关系提取,并且可以根据序列的长度进行网络结构的动态调整,LSTM_Unit表示深度自编码网络中的LSTM单元。
AutoEncoder_1的输入为一条测量数据对应的向量组合(即嵌入向量)表示为Input1,AutoEncoder_2的输入为另一条测量数据对应的向量组合表示为Input2,一般情况下,Input1和Input2为高维异构数据,但两者特征维度统一,并且与Encoder中设定的unit大小一致,但是依然可以是高维数据,然后将Encoder输出的特征输入至隐空间(对应图2中Latent Space)进行降维,进行有效的特征提取,得到隐空间特征。将隐空间特征输入至解码器进行重建,得到重建向量。
本实施例可以将高维异构的测量数据的信息通过深度自编码神经网络映射到低维的隐变量空间中,实现有效的特征提取。
在一个实施例中,训练深度孪生自编码网络,包括:
获取第一历史测量数据和/或第二历史测量数据;
将第一历史测量数据和/或第二历史测量数据分别输入网络嵌入层,得到第一历史测量数据对应的第一历史嵌入向量和/或第二历史测量数据对应的第二历史嵌入向量;
将第一历史嵌入向量输入第一自编码网络,得到第一历史嵌入向量对应的第一历史重建向量,和/或将第二历史嵌入向量输入第二自编码网络,得到第二历史测量数据对应的第二历史重建向量;
通过比较第一历史重建向量和第二历史重建向量的差距和/或比较第一历史嵌入向量和第一历史重建向量的差距和/或比较第二历史嵌入向量和第二历史重建向量的差距,调整第一自编码网络和第二自编码网络的参数,直至差距满足差距阈值。
具体的,差距阈值可以根据实际需求进行设置。
在调整自编码网络(包括第一自编码网络和第二自编码网络)的参数时,可以仅通过比较一路嵌入向量(第一历史嵌入向量或第二历史嵌入向量)和对应的重建向量(第一历史重建向量或第二历史重建向量)的差距,调整自编码网络的参数使得嵌入向量与重建向量之间的差距越小越好(尽可能为0)。其中,差距可以为嵌入向量与重建向量之间的差值,差值越小差距越小,也可以为嵌入向量与重建向量之间的相似度等,相似度越大差距越小,这里不做限制。
在调整自编码网络的参数时,也可以通过比较两路输出的重建向量之间的差距,当两路输入的历史测量数据均为正常测量数据时,调整自编码网络的参数使得两路输出的重建向量之间的差距越小越好;当两路输入的历史测量数据一个为正常测量数据一个为异常测量数据时,调整自编码网络的参数使得两路输出的重建向量之间的差距越大越好。
在调整自编码网络的参数时,还可以综合比较任意一路或两路嵌入向量和对应的重建向量的差距和两路输出的重建向量之间的差距,即可以将至少两个差距直接求和或将至少两个差距加权求和等。
本实施例利用待分析系统本身产生的测量数据,基于深度孪生自编码神经网络来进行异常检测,实现用系统测量数据进行系统异常检测的目的,可以提高系统的可靠性。
可以理解的,由于深度孪生自编码网络在计算过程中每次只需要考虑一对测量数据之间的差异程度,但是不同的深度孪生自编码网络输出结果之间则需要进行阈值判定,所以这非常适合MapReduce编程框架的中涉及到的两大过程,Map过程和Reduce过程。因此该计算过程可以修改成MapReduce的形式进行计算,从而实现并行化的处理,这可以从根本上提高系统异常检测过程当中的测量数据分析效率。需要说明的,该基于深度孪生自编码网络的异常检测方法可以基于Hadoop系统。基于Hadoop系统,借助MapReduce的编程框架,将系统异常检测的过程(即深度孪生自编码网络)进行分布式部署,可以提高计算效率,加快系统异常检测。本申请提出的深度孪生神经网络针对测量数据在Hadoop系统下,基于MapReduce编程框架可以轻松实现并行计算,可以进一步有效地提高系统异常检测的整体效率。
S130、根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据。
若包括一个已有正常数据;则对应一个第二重建向量;
根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据,包括:
比较第一重建向量与第二重建向量的差距,若差距大于预设阈值,则判定待检测数据为异常数据;若差距小于或等于预设阈值,则判定待检测数据为正常数据。
为了提高检测待检测数据的准确性,通常包括至少两个已有正常数据,则对应至少两个第二重建向量;
根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据,包括:
分别计算第一重建向量与所有第二重建向量之间的差距;
计算所有差距中大于预设阈值的个数与差距总数的比值,得到异常比例;若异常比例大于比例阈值,判定待检测数据为异常数据;若异常比例小于或等于比例阈值,判定待检测数据为正常数据。
具体的,预设阈值、比例阈值均可以根据实际需求进行设置。
可以理解的,该第一重建向量和第二重建向量之间的差距也可以为计算两者之间的差,也可以为计算两者之间的相似度,在此不做限制。
本申请实施例中,通过比较判断待检测数据是否异常,在训练时无需对测量数据进行异常或正常的标注,即能够仅基于系统中的正常测量数据的分析,结合深度孪生自编码网络,实现无监督的方法对系统中异常状态进行有效检测。
参照图3,其示出了根据本申请一个实施例描述的异常检测装置的结构示意图。
如图3所示,异常检测装置300,可以包括:
数据获取模块310,用于获取待检测数据和已有正常数据;
重建模块320,用于根据待检测数据和已有正常数据,基于预先训练的深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量;
处理模块330,用于根据第一重建向量和第二重建向量,确定待检测数据是否为异常数据。
可选的,重建模块320还用于:
将待检测数据和已有正常数据分别输入预先训练的网络嵌入层,分别得到待检测数据对应的第一嵌入向量和已有正常数据对应的第二嵌入向量;
将第一嵌入向量和第二嵌入向量分别按照待检测数据和已有正常数据自身的顺序输入深度孪生自编码网络,分别得到待检测数据对应的第一重建向量和已有正常数据对应的第二重建向量。
可选的,深度孪生自编码网络包括第一自编码网络和第二自编码网络,其中,第一自编码网络的参数和第二自编码网络的权重系数相同;重建模块320还用于:
将第一嵌入向量按照待检测数据自身的顺序输入第一自编码网络,得到第一重建向量,将第二嵌入向量按照已有正常数据自身的顺序输入第二自编码网络,得到第二重建向量。
可选的,第一自编码网络和第二自编码网络均包括:
编码器,用于接收嵌入向量,并对嵌入向量进行序列关系提取,得到提取序列;
隐空间,用于将提取序列映射为隐空间特征;
解码器,用于将隐空间特征进行重建,得到重建向量。
可选的,训练深度孪生自编码网络,包括:
获取第一历史测量数据和/或第二历史测量数据;
将第一历史测量数据和/或第二历史测量数据分别输入网络嵌入层,得到第一历史测量数据对应的第一历史嵌入向量和/或第二历史测量数据对应的第二历史嵌入向量;
将第一历史嵌入向量输入第一自编码网络,得到第一历史嵌入向量对应的第一历史重建向量,和/或将第二历史嵌入向量输入第二自编码网络,得到第二历史测量数据对应的第二历史重建向量;
通过比较第一历史重建向量和第二历史重建向量的差距和/或比较第一历史嵌入向量和第一历史重建向量的差距和/或比较第二历史嵌入向量和第二历史重建向量的差距,调整第一自编码网络和第二自编码网络的参数,直至差距满足差距阈值。
可选的,若包括一个已有正常数据;则对应一个第二重建向量;
处理模块330还用于:
比较第一重建向量与第二重建向量的差距,若差距大于预设阈值,则判定待检测数据为异常数据;若差距小于或等于预设阈值,则判定待检测数据为正常数据。
可选的,若包括至少两个已有正常数据,则对应至少两个第二重建向量;
处理模块330还用于:
分别计算第一重建向量与所有第二重建向量之间的差距;
计算所有差距中大于预设阈值的个数与差距总数的比值,得到异常比例;若异常比例大于比例阈值,判定待检测数据为异常数据;若异常比例小于或等于比例阈值,判定待检测数据为正常数据。
本实施例提供的一种异常检测装置,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。
图4为本发明实施例提供的一种电子设备的结构示意图。如图4所示,示出了适于用来实现本申请实施例的电子设备400的结构示意图。
如图4所示,电子设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有设备400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口406。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述异常检测方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
作为另一方面,本申请还提供了一种存储介质,该存储介质可以是上述实施例中前述装置中所包含的存储介质;也可以是单独存在,未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的异常检测方法。
存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种异常检测方法,其特征在于,所述方法包括:
获取待检测数据和已有正常数据;
根据所述待检测数据和所述已有正常数据,基于预先训练的深度孪生自编码网络,分别得到所述待检测数据对应的第一重建向量和所述已有正常数据对应的第二重建向量;
根据所述第一重建向量和所述第二重建向量,确定所述待检测数据是否为异常数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待检测数据和所述已有正常数据,基于预先训练的深度孪生自编码网络,分别得到所述待检测数据对应的第一重建向量和所述已有正常数据对应的第二重建向量,包括:
将所述待检测数据和所述已有正常数据分别输入预先训练的网络嵌入层,分别得到所述待检测数据对应的第一嵌入向量和所述已有正常数据对应的第二嵌入向量;
将所述第一嵌入向量和所述第二嵌入向量分别按照所述待检测数据和所述已有正常数据自身的顺序输入所述深度孪生自编码网络,分别得到所述待检测数据对应的第一重建向量和所述已有正常数据对应的第二重建向量。
3.根据权利要求2所述的方法,其特征在于,所述深度孪生自编码网络包括第一自编码网络和第二自编码网络,其中,所述第一自编码网络的参数和所述第二自编码网络的权重系数相同;
所述将所述第一嵌入向量和所述第二嵌入向量分别按照所述待检测数据和所述已有正常数据自身的顺序输入所述深度孪生自编码网络,分别得到所述待检测数据对应的第一重建向量和所述已有正常数据对应的第二重建向量,包括:
将所述第一嵌入向量按照所述待检测数据自身的顺序输入所述第一自编码网络,得到所述第一重建向量,将所述第二嵌入向量按照所述已有正常数据自身的顺序输入所述第二自编码网络,得到所述第二重建向量。
4.根据权利要求3所述的方法,其特征在于,所述第一自编码网络和所述第二自编码网络均包括:
编码器,用于接收嵌入向量,并对所述嵌入向量进行序列关系提取,得到提取序列;
隐空间,用于将所述提取序列映射为隐空间特征;
解码器,用于将所述隐空间特征进行重建,得到重建向量。
5.根据权利要求3所述的方法,其特征在于,训练所述深度孪生自编码网络,包括:
获取第一历史测量数据和/或第二历史测量数据;
将所述第一历史测量数据和/或所述第二历史测量数据分别输入所述网络嵌入层,得到所述第一历史测量数据对应的第一历史嵌入向量和/或所述第二历史测量数据对应的第二历史嵌入向量;
将所述第一历史嵌入向量输入所述第一自编码网络,得到所述第一历史嵌入向量对应的第一历史重建向量,和/或将所述第二历史嵌入向量输入所述第二自编码网络,得到所述第二历史测量数据对应的第二历史重建向量;
通过比较所述第一历史重建向量和所述第二历史重建向量的差距和/或比较所述第一历史嵌入向量和所述第一历史重建向量的差距和/或比较所述第二历史嵌入向量和所述第二历史重建向量的差距,调整所述第一自编码网络和所述第二自编码网络的参数,直至所述差距满足差距阈值。
6.根据权利要求1所述的方法,其特征在于,若包括一个所述已有正常数据;则对应一个所述第二重建向量;
所述根据所述第一重建向量和所述第二重建向量,确定所述待检测数据是否为异常数据,包括:
比较所述第一重建向量与所述第二重建向量的差距,若所述差距大于预设阈值,则判定所述待检测数据为异常数据;若所述差距小于或等于所述预设阈值,则判定所述待检测数据为正常数据。
7.根据权利要求1所述的方法,其特征在于,若包括至少两个所述已有正常数据,则对应至少两个所述第二重建向量;
所述根据所述第一重建向量和所述第二重建向量,确定所述待检测数据是否为异常数据,包括:
分别计算所述第一重建向量与所有所述第二重建向量之间的差距;
计算所有所述差距中大于预设阈值的个数与差距总数的比值,得到异常比例;若所述异常比例大于比例阈值,判定所述待检测数据为异常数据;若所述异常比例小于或等于所述比例阈值,判定所述待检测数据为正常数据。
8.一种异常检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测数据和已有正常数据;
重建模块,用于根据所述待检测数据和所述已有正常数据,基于预先训练的深度孪生自编码网络,分别得到所述待检测数据对应的第一重建向量和所述已有正常数据对应的第二重建向量;
处理模块,用于根据所述第一重建向量和所述第二重建向量,确定所述待检测数据是否为异常数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的异常检测方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230888.2A CN114726581B (zh) | 2022-03-09 | 2022-03-09 | 一种异常检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210230888.2A CN114726581B (zh) | 2022-03-09 | 2022-03-09 | 一种异常检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114726581A true CN114726581A (zh) | 2022-07-08 |
CN114726581B CN114726581B (zh) | 2023-06-20 |
Family
ID=82236957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210230888.2A Active CN114726581B (zh) | 2022-03-09 | 2022-03-09 | 一种异常检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114726581B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391160A (zh) * | 2022-10-26 | 2022-11-25 | 北京必示科技有限公司 | 一种异常变更检测方法、装置、设备及存储介质 |
CN116248412A (zh) * | 2023-04-27 | 2023-06-09 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492193A (zh) * | 2018-12-28 | 2019-03-19 | 同济大学 | 基于深度机器学习模型的异常网络数据生成与预测方法 |
CN111275098A (zh) * | 2020-01-17 | 2020-06-12 | 同济大学 | 应用于信用卡欺诈检测的Encoder-LSTM深度学习模型及其方法 |
CN112883990A (zh) * | 2019-11-29 | 2021-06-01 | 京东安联财产保险有限公司 | 数据分类方法及装置、计算机存储介质、电子设备 |
WO2021189845A1 (zh) * | 2020-09-22 | 2021-09-30 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
WO2021258348A1 (zh) * | 2020-06-24 | 2021-12-30 | 深圳市欢太科技有限公司 | 异常流量检测方法和系统、及计算机存储介质 |
CN113887642A (zh) * | 2021-10-11 | 2022-01-04 | 中国科学院信息工程研究所 | 一种基于开放世界的网络流量分类方法及系统 |
-
2022
- 2022-03-09 CN CN202210230888.2A patent/CN114726581B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492193A (zh) * | 2018-12-28 | 2019-03-19 | 同济大学 | 基于深度机器学习模型的异常网络数据生成与预测方法 |
CN112883990A (zh) * | 2019-11-29 | 2021-06-01 | 京东安联财产保险有限公司 | 数据分类方法及装置、计算机存储介质、电子设备 |
CN111275098A (zh) * | 2020-01-17 | 2020-06-12 | 同济大学 | 应用于信用卡欺诈检测的Encoder-LSTM深度学习模型及其方法 |
WO2021258348A1 (zh) * | 2020-06-24 | 2021-12-30 | 深圳市欢太科技有限公司 | 异常流量检测方法和系统、及计算机存储介质 |
WO2021189845A1 (zh) * | 2020-09-22 | 2021-09-30 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
CN113887642A (zh) * | 2021-10-11 | 2022-01-04 | 中国科学院信息工程研究所 | 一种基于开放世界的网络流量分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
史秉帅: "半监督环境下风电机组的故障识别方法研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》 * |
史秉帅: "半监督环境下风电机组的故障识别方法研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》, 15 January 2022 (2022-01-15), pages 25 - 39 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391160A (zh) * | 2022-10-26 | 2022-11-25 | 北京必示科技有限公司 | 一种异常变更检测方法、装置、设备及存储介质 |
CN116248412A (zh) * | 2023-04-27 | 2023-06-09 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
CN116248412B (zh) * | 2023-04-27 | 2023-08-22 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN114726581B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114726581B (zh) | 一种异常检测方法、装置、电子设备及存储介质 | |
US20180278640A1 (en) | Selecting representative metrics datasets for efficient detection of anomalous data | |
US9639844B2 (en) | Method and apparatus of identifying a website user | |
US7917338B2 (en) | Determining a window size for outlier detection | |
CN111460446B (zh) | 基于模型的恶意文件检测方法及装置 | |
US20120136909A1 (en) | Cloud anomaly detection using normalization, binning and entropy determination | |
CN111600874B (zh) | 用户账号检测方法、装置、电子设备、介质 | |
US11886587B2 (en) | Malware detection by distributed telemetry data analysis | |
CN112165471B (zh) | 一种工控系统流量异常检测方法、装置、设备及介质 | |
CN110858072A (zh) | 设备运行状态的确定方法及装置 | |
JP6943067B2 (ja) | 異常音検知装置、異常検知装置、プログラム | |
US20190245768A1 (en) | Monitoring a resource consumption of an application | |
CN117034180B (zh) | 电力通信设备数据异常检测方法、系统及存储介质 | |
He et al. | Fault identification of rolling bearing using variational mode decomposition multiscale permutation entropy and adaptive GG clustering | |
CN116680602A (zh) | 磁盘故障预测方法及其装置、电子设备及存储介质 | |
CN116405233A (zh) | 一种基于改进vaegan与深度神经网络的网络入侵检测方法 | |
CN116089891A (zh) | 一种诊断桩基结构的安全状况的方法及系统 | |
CN114595828A (zh) | 一种数据集公平性检测方法、装置、电子设备及存储介质 | |
US20210248847A1 (en) | Storage medium storing anomaly detection program, anomaly detection method, and anomaly detection apparatus | |
CN114021118A (zh) | 基于超融合服务器系统的多元行为检测方法、系统及介质 | |
CN114050941A (zh) | 一种基于核密度估计的失陷账号检测方法及系统 | |
Faramarzpour et al. | Lossless and lossy compression of DNA microarray images | |
CN112000580B (zh) | 负载相关的软件老化检测方法 | |
CN108985351B (zh) | 一种基于梯度方向稀疏特征信息识别模糊图像的方法和装置、计算设备及存储介质 | |
CN116976530B (zh) | 一种电缆设备状态预测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |