CN116258167A - 一种数据检测方法、装置、电子设备及介质 - Google Patents
一种数据检测方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116258167A CN116258167A CN202211413783.7A CN202211413783A CN116258167A CN 116258167 A CN116258167 A CN 116258167A CN 202211413783 A CN202211413783 A CN 202211413783A CN 116258167 A CN116258167 A CN 116258167A
- Authority
- CN
- China
- Prior art keywords
- data
- detected
- determining
- sampling
- transducer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 80
- 238000005070 sampling Methods 0.000 claims abstract description 64
- 238000009826 distribution Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000002159 abnormal effect Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000007774 longterm Effects 0.000 abstract description 9
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 230000009466 transformation Effects 0.000 description 11
- 208000018910 keratinopathic ichthyosis Diseases 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例公开了一种数据检测方法、装置、电子设备及介质。该方法包括:采用Transformer编码器对待检测数据进行编码,确定待检测数据对应的高斯分布数据;对高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对采样数据进行解码,得到重构数据;根据待检测数据与重构数据的差异数据,确定待检测数据的检测结果。本技术方案,通过应用Transformer编码器能够提取待检测数据中的特征信息,获取不同时刻的待检测数据中的依赖关系,通过应用Transformer解码器完成数据的重构,与重构前的待检测数据进行对比,检测出具备长期趋势特点的异常行为,解决了目前不能准确的对具有长期趋势的待检测数据进行异常检测的问题,提高了检测准确性。
Description
技术领域
本申请涉及数据检测技术领域,尤其涉及一种数据检测方法、装置、电子设备及介质。
背景技术
为了保证网络的正常运行,常用关键性能指标(Key Performance Indicator,KPI)监控网络的工作状态。当数据不符合KPI预定的正常模式时,被定义为异常数据。由于异常数据具有多样性、正负样本存在偏差以及异常数据标注成本较高,所以常应用机器学习方法检测数据的KPI异常。
目前已有数据KPI异常检测方法无法检测出具备长期发展趋势特点的数据是否存在异常,或者不能精准且敏感的检测出具备长期发展趋势特点的数据是否存在异常,不能够推断出大多数原始数据生成的数据因子,因此不能广泛的检测数据异常,检测准确率低。
发明内容
本申请提供了一种数据检测方法、装置、电子设备及介质,以解决现有异常检测方法不能准确的对具有长期趋势的待检测数据进行异常检测的问题。
根据本申请的一方面,提供了一种数据检测方法,所述方法包括:
采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据;
对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据;
根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
根据本申请的另一方面,提供了一种数据检测装置,包括:
高斯分布数据确定模块,用于采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据;
重构数据获取模块,用于对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据;
检测结果确定模块,用于根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
根据本申请的另一方面,提供了一种数据检测电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据检测方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本申请任一实施例所述的数据检测方法。
本申请实施例的技术方案,通过Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据,经采样技术对高斯分布数据完成样本的采样,生成采样数据。通过Transformer解码器将采样数据生成重构数据。通过计算待检测数据和重构数据之间的差异数据确定待检测数据的检测结果。本技术方案,通过应用Transformer编码器能够对待检测数据进行压缩,提取待检测数据中的特征信息,获取不同时刻的待检测数据中的依赖关系,通过应用Transformer解码器将数据还原至原有维度,完成数据的重构,与重构前的待检测数据进行对比,检测出具备长期趋势特点的异常行为,解决了现有异常检测方法不能准确地对具有长期趋势的待检测数据进行异常检测的问题,提高了异常检测的准确性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例一提供的一种数据检测方法的流程图;
图2是根据本申请实施例一提供的一种基于Transformer模型对数据异常检测的结构示意图;
图3是根据本申请实施例二提供的一种数据检测方法的流程图;
图4是根据本申请实施例三提供的一种数据检测装置的结构示意图;
图5是实现本申请实施例的一种数据检测方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本申请实施例一提供的一种数据检测方法的流程图,本实施例可适用于对待检测数据进行稳定检测的情况,该方法可以由数据检测装置来执行,该数据检测装置可以采用硬件和/或软件的形式实现,该数据检测装置可配置于具有数据处理能力的电子设备中。如图1所示,该方法包括:
S110、采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据。
其中,Transformer编码器可以是由自注意力层和前馈神经网络组成的多个非线性块构成的,用于将输入数据转化为指定特征的一种提取过程。待检测数据可以是需要检测是否存在异常的数据,例如服务器的CPU使用率、内存使用率、系统负载、温度等关键指标数据。高斯分布数据可以是用于测量误差的概率密度函数,定义为一种随机变量X服从一个数学期望μ和一个标准差σ2的正态分布,记为X~N(μ,σ2),其概率密度函数一般表示为:
具体的,对待检测数据D={d1,d2,…dN}进行初步的数据处理后,根据Transformer编码器对待检测数据进行特征学习形成新的特征向量,由前馈神经网络将特征向量转换为高斯分布数据。其中,特征向量可以是描述矩阵对应线性变换的主要变换方向的矩阵。
可选的,将所述待检测数据输入至Transformer编码器的多头自注意力模型,得到所述待检测数据的多尺度时序特征。将所述待检测数据的多尺度时序特征输入至Transformer编码器的前馈神经网络,确定所述待检测数据对应的高斯分布数据。
其中,多头自注意力模型可以是在多个不同的投影空间中建立不同的投影信息。多头自注意力模型将输入矩阵,进行不同方向的映射,在得到多个输出矩阵后,将其拼接在一起。多尺度时序特征可以是将待检测数据组分成预设数量个组输入至多头自注意力模型中,生成在每个时刻的不同尺度的特征向量。前馈神经网络可以是一种各层之间的神经元只与前一层神经元相连,后一个神经元不向前一个神经元反馈信息的单向多层结构的神经网络结构。
具体的,将待检测数据按时刻分成的每组数据输入至多头自注意力模型,确定待检测数据中的多尺度时序特征。具体生成方法如以下公式:
headm=Attention(Qm,Km,Vm)
MutilHead(Q,K,V)=Concat(head1,head2,…,headM)
上述公式中,其中Q、K、V为待检测数据经过空间变换得到的三个矩阵,待检测数据经过空间变换矩阵wQ变换,得到Q,待检测数据经过空间变换矩阵wK变换,得到K,待检测数据经过空间变换矩阵wV变换,得到V,KT为矩阵K的转置矩阵,dk表示K矩阵的维度,Softmax()表示归一化指数函数。Qm,Km,Vm表示对待检测数据进行m次空间变换得到的,第m次空间变换后得到的Qm,Km,Vm经过归一化加权计算得到headm。将各个headm进行拼接,得到多尺度时序特征。其中,空间变换矩阵wQ、wK和wV为需要进行训练优化的参数,经过对多头自注意力模型的训练优化,得到最终的空间变换矩阵wQ、wK和wV。
具体的,将上述生成的多尺度时序特征输入至前馈神经网络,得到高斯分布数据。
S120、对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据。
其中,Transformer解码器可以是将特征信息向量应用解码算法转化为原始待检测数据的表现形式进行呈现的方法。重构数据可以是以待检测数据为基础经过数据的标准化处理、由正态分布进行采样和前馈神经网络的非线性变换等步骤生成的数据。
可选的,对标准正态分布进行采样,得到初始采样数据。根据所述高斯分布数据中的均值、方差以及所述初始采样数据,确定采样数据。将所述采样数据输入至Transformer解码器中的多头自注意力模型,得到所述采样数据的多尺度时序特征。将所述采样数据的多尺度时序特征输入至Transformer解码器的前馈神经网络,得到重构数据。
具体的,由于多尺度时序特征的高斯分布不可导,难以应用前馈神经网络模型,因此,需要采用重参数技巧,从标准正态分布z~N(0,I)中进行随机采样得到数据z。其中,I为单位矩阵,对待检测数据进行分组后,对每组数据经过Transformer编码器得到高斯分布数据,多组数据对应多个高斯分布数据,需要从多个标准正态分布中进行随机采样得到数据z,多个标准正态分布的方差构成的矩阵形式为I。因此对随机采样的标准正态分布用z~N(0,I)表示。
由以下公式可以获取近似于高斯分布的连续数据分布,并进行数据的采样:
e=μ+σ*z
以上公式中,μ表示高斯分布数据的均值,σ表示高斯分布数据的方差,z是根据标准正态分布数据获取的随机采样数据,将高斯分布的均值、标准差以及采样数据z输入至上述公式,即等价为从连续的e~N(μ,σ)分布数据中进行采样得到的采样数据。
具体的,Transformer编码器将待检测数据以高斯正态分布的形式呈现,进而完成数据的采样。由于待检测数据的检测需要转化为多尺度时序特征向量进而转化为重构数据,所以需要重新将采样数据根据Transformer解码器中的多头自注意力模型逆向转化成多尺度时序特征的形式。
具体的,重构数据应该与待检测数据在数据维度、数据格式和数据类型等方面保持一致,由上述得到的采样数据的多尺度时序特征输入至Transformer解码器的前馈神经网络获取重构数据。
示例性的,基于重参数技巧对高斯分布数据进行采样得到采样数据,将采样数据逆向转化成与原始数据类型一致的数据,形成重构数据与原始的待检测数据进行对比以检测原始数据的异常。实现数据的逆向转化需要将采样数据输入Transformer中的解码器——多头自注意力模型中,转化成多尺度时序特征,将多尺度时序特征输入至前馈神经网络形成重构数据。
S130、根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
其中,差异数据可以是原始数据和实际数据之间表示差距的数据,常用在数据检测方向。具体的,根据待检测数据与重构数据中每个数据向量之间的标准差计算作为待检测数据和重构数据的差异数据,计算公式如下:
示例性的,根据上述公式分别对待检测数据与重构数据中的数据向量进行标准差计算求差异数据分数值,根据提前预设的异常分数阈值与异常分数值的大小比较,进而计算待检测数据的检测结果。
本申请实施例的技术方案,通过Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据,经采样技术对高斯分布数据完成样本的采样,生成采样数据。通过Transformer解码器将采样数据生成重构数据。计算待检测数据和重构数据之间的差异数据确定待检测数据的检测结果。本技术方案通过应用Transformer编码器能够对待检测数据进行压缩,提取待检测数据中的多尺度时序特征,获取不同时刻的待检测数据中的依赖关系,通过应用Transformer解码器将数据还原至原有维度,完成数据的重构,与重构前的待检测数据进行对比,检测出具备长期趋势特点的异常行为,解决了现有检测方法不能准确的对具有长期趋势的待检测数据进行异常检测的问题,提高了对异常数据的检测效果。
图2示出了对申请实施例提供的一种基于VAE-Transformer模型对数据异常检测的结构示意图。其中,KPI序列表示不同时刻的关键性能指标构成的矩阵,即待检测数据,{W1,W2,…Wk}表示对待检测数据按照时间进行的分组,待检测的分组数据输入至Transformer编码器的多头自注意力模型生成多尺度时序特征,将多尺度时序特征输入至前馈神经网络生成多尺度时序特征的高斯分布数据,对高斯分布数据采样后利用Transformer解码器进行解码,得到解码后的时序特征。将解码后的时序特征作为Transformer解码器前馈神经网络的输入,得到重构后的KPI序列根据原始的KPI序列以及重构后的KPI序列的差异数据,确定原始KPI序列中的异常序列。
实施例二
图3为本申请实施例二提供的一种数据检测方法的流程图,本实施例以上述实施例为基础进行优化。如图3所示,本实施例的方法具体包括如下步骤:
S210、对所述待检测数据进行标准化处理。
其中,标准化处理可以是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值,也就是标准化数值。
在将待检测数据输入至Transformer编码器之前,可以对待检测数据进行标准化处理,得到标准化数据。其中标准化的方式不做具体限定。一种可实现方案为,待检测数据由Z-Score标准化方法进行数据的标准化。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。提高了数据可比性。Z-Score标准化的具体实现方法如下:
以上公式中,μall表示待检测数据的均值,σall表示所有待检测数据的标准差。dt表示第t时刻的m维的待检测数据,待检测数据表示为D={d1,d2,…dN}。xt是待检测数据进行了标准化处理之后的数据,表示为X={x1,x2,…xN}。
S220、针对不同时刻的待检测数据,按照待检测数据的时间对待检测数据进行分组,以对各组待检测数据进行检测。
具体的,示例性的,分组的方式是按照待检测数据的时间先后顺序分为k个数组,每个组内包括p个标准化数据。其中,k和p的具体数值可以根据实际情况适应性选取。
S230、采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据。
具体的,将待检测数据进行数据标准化和分组,输入至Transformer编码器的多头自注意力模型中生成多尺度时序特征向量,将多尺度时序特征向量输入至Transformer编码器的前馈神经网络生成高斯分布数据。
S240、对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据。
具体的,通过重参数技术将高斯分布数据转化成连续的e~N(μ,σ)分布数据进行采样,形成采样数据。根据Transformer解码器的多头自注意力模型实现采样数据向多尺度时序特征的逆向转化,通过Transformer解码器的前馈神经网络,将多尺度时序特征还原为重构数据。
S250、根据所述待检测数据与所述重构数据的差值确定所述差异数据。
具体的,根据待检测数据与重构数据中每个数据向量之间的标准差作为待检测数据和重构数据的差异数据。
S260、若所述差异数据大于预设差异阈值,则确定所述待检测数据为异常数据。
具体的,上述步骤获取的差异数据与预设差异阈值进行大小比较,当差异数据大于预设阈值时,确定待检测数据为异常数据。
作为一种可选择但不限定的实现方式,所述预设差异阈值的确定方式,可以包括但不限于以下实现步骤A1-A4:
步骤A1、确定样本数据与所述样本数据的重构数据之间的样本差异数据。
其中,样本数据可以是区别待检测数据的数据,样本数据的重构数据可以是样本数据经Transformer编码器和解码生成的重构数据。其中,样本数据的重构数据与待检测数据的重构数据的生成方式相同。样本数据与样本数据的重构数据进行标准差计算生成异常数据。
步骤A2、针对至少一个初始差异阈值中的各初始差异阈值,根据样本差异数据与初始差异阈值的比对结果确定所述样本数据的样本检测结果。
具体的,需要初始化至少一个初始差异阈值,样本差异数据与初始差异阈值进行大小比较,当差异数据大于初始差异阈值时,确定样本数据为异常数据。
步骤A3、根据所述样本数据的样本检测结果以及样本数据的真实结果,确定各初始差异阈值对应的查准率和查全率。
具体的,样本数据的样本检测结果有正例和反例两种情况,样本数据的真实结果也有正例和反例两种情况。当样本数据的真实结果为正例且样本数据的样本检测结果也为正例时,该样本数据为真正例TP(True positive);当样本数据的真实结果为正例且样本数据的样本检测结果为反例时,该样本数据为假反例FN(False negative);当样本数据的真实结果为反例且样本数据的样本检测结果为正例时,该样本数据为假正例FP(Falsepositive);当样本数据的真实结果为反例且样本数据的样本检测结果也为反例时,该样本数据为真反例TN(True negative)。分别统计所有样本数据中真正例的个数为S1、假反例的个数为S2、假正例的个数为S3。代入以下公式求查准率和查全率。
其中,P表示初始差异阈值的查准率,R表示初始差异阈值的查全率。
步骤A4、根据所述查准率和查全率,确定各初始差异阈值对应的F度量值,并根据所述F度量值从至少一个初始差异阈值中确定预设差异阈值。
具体的,依次判断所有初始差异阈值对应的的查全率和查准率,根据以下公式计算F度量值。
从各个初始差异阈值中选择F度量值最大值对应的初始差异阈值作为预设差异阈值。
在本申请实施例中,通过Z-Score标准化处理的待检测数据经过Transformer编码器生成高斯分布数据,通过采样技术对高斯分布数据进行数据采样,通过Transformer解码器对采样数据进行解码,生成重构数据。采用标准差计算方法计算待检测数据和重构数据的差异数据,通过确定预设差异阈值方法确定预设差异阈值,预设差异阈值和差异数据之间进行比较,获取待检测数据的检测结果。通过数据的标准化技术使得模型在对待检测数据进行检测结果判定时更具有普适性,设计进行确定预设差异阈值方法,使得异常数据检测模型的检测结果更具有说服力,进而优化了异常数据检测模型的检测效果。
实施例三
图4为本申请实施例四提供的一种数据检测装置的结构示意图,该装置可执行本申请任意实施例所提供的数据检测方法。如图4所示,该装置包括:
高斯分布数据确定模块310,用于采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据。
重构数据获取模块320,用于对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据。
检测结果确定模块330,用于根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
在本申请实施例中,高斯分布数据确定模块310,包括:
多尺度时序特征获取单元,用于将所述待检测数据输入至Transformer编码器的多头自注意力模型,得到所述待检测数据的多尺度时序特征。
高斯分布数据生成单元,用于将所述待检测数据的多尺度时序特征输入至Transformer编码器的前馈神经网络,确定所述待检测数据对应的高斯分布数据。
在本申请实施例中,重构数据获取模块320,包括:
初始采样数据获取单元,用于对标准正态分布进行采样,得到初始采样数据。
采样数据确定单元,用于根据所述高斯分布数据中的均值、方差以及所述初始采样数据,确定采样数据。
特征获取单元,用于将所述采样数据输入至Transformer解码器中的多头自注意力模型,得到所述采样数据的多尺度时序特征。
重构数据确定单元,用于将所述采样数据的多尺度时序特征输入至Transformer编码器的前馈神经网络,得到重构数据。
在本申请实施例中,所述装置还包括:
数据处理模块,用于对所述待检测数据进行标准化处理;
数据分组模块,用于针对不同时刻的待检测数据,按照待检测数据的时间对待检测数据进行分组,以对各组待检测数据进行检测;
差异数据确定模块,用于根据所述待检测数据与所述重构数据的差值确定所述差异数据;
异常数据确定模块,用于若所述差异数据大于预设差异阈值,则确定所述待检测数据为异常数据。
本申请实施例中,异常数据确定模块还包括:
差异数据确定单元,用于确定样本数据与所述样本数据的重构数据之间的样本差异数据;
样本检测单元,用于针对至少一个初始差异阈值中的各初始差异阈值,根据样本差异数据与初始差异阈值的比对结果确定所述样本数据的样本检测结果;
差异阈值指标确定单元,用于根据所述样本数据的样本检测结果以及样本数据的真实结果,确定各初始差异阈值对应的查准率和查全率;
预设差异阈值确定单元,用于根据所述查准率和查全率,确定各初始差异阈值对应的F度量值,并根据所述F度量值从至少一个初始差异阈值中确定预设差异阈值。
本申请实施例所提供的一种数据检测装置可执行本申请任意实施例所提供的一种数据检测方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据检测方法。
在一些实施例中,数据检测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据检测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种数据检测方法,其特征在于,所述方法包括:
采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据;
对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据;
根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
2.根据权利要求1所述的方法,其特征在于,采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据,包括:
将所述待检测数据输入至Transformer编码器的多头自注意力模型,得到所述待检测数据的多尺度时序特征;
将所述待检测数据的多尺度时序特征输入至Transformer编码器的前馈神经网络,确定所述待检测数据对应的高斯分布数据。
3.根据权利要求1所述的方法,其特征在于,对所述高斯分布数据进行采样,得到采样数据,包括:
对标准正态分布进行采样,得到初始采样数据;
根据所述高斯分布数据中的均值、方差以及所述初始采样数据,确定采样数据。
4.根据权利要求1所述的方法,其特征在于,采用Transformer解码器对所述采样数据进行解码,得到重构数据,包括:
将所述采样数据输入至Transformer解码器中的多头自注意力模型,得到所述采样数据的多尺度时序特征;
将所述采样数据的多尺度时序特征输入至Transformer解码器的前馈神经网络,得到重构数据。
5.根据权利要求1-4中任一项所述的方法,其特征在于,采用Transformer编码器对待检测数据进行编码之前,所述方法还包括:
对所述待检测数据进行标准化处理;
针对不同时刻的待检测数据,按照待检测数据的时间对待检测数据进行分组,以对各组待检测数据进行检测。
6.根据权利要求1所述的方法,其特征在于,根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果,包括:
根据所述待检测数据与所述重构数据的差值确定所述差异数据;
若所述差异数据大于预设差异阈值,则确定所述待检测数据为异常数据。
7.根据权利要求6所述的方法,其特征在于,所述预设差异阈值的确定方式包括:
确定样本数据与所述样本数据的重构数据之间的样本差异数据;
针对至少一个初始差异阈值中的各初始差异阈值,根据样本差异数据与初始差异阈值的比对结果确定所述样本数据的样本检测结果;
根据所述样本数据的样本检测结果以及样本数据的真实结果,确定各初始差异阈值对应的查准率和查全率;
根据所述查准率和查全率,确定各初始差异阈值对应的F度量值,并根据所述F度量值从至少一个初始差异阈值中确定预设差异阈值。
8.一种数据检测装置,其特征在于,所述装置包括:
高斯分布数据确定模块,用于采用Transformer编码器对待检测数据进行编码,确定所述待检测数据对应的高斯分布数据;
重构数据获取模块,用于对所述高斯分布数据进行采样,得到采样数据,并采用Transformer解码器对所述采样数据进行解码,得到重构数据;
检测结果确定模块,用于根据所述待检测数据与所述重构数据的差异数据,确定所述待检测数据的检测结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211413783.7A CN116258167A (zh) | 2022-11-11 | 2022-11-11 | 一种数据检测方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211413783.7A CN116258167A (zh) | 2022-11-11 | 2022-11-11 | 一种数据检测方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116258167A true CN116258167A (zh) | 2023-06-13 |
Family
ID=86679911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211413783.7A Pending CN116258167A (zh) | 2022-11-11 | 2022-11-11 | 一种数据检测方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116258167A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933195A (zh) * | 2023-07-31 | 2023-10-24 | 浙江大学 | 一种基于深度学习的加密流量异常检测方法及装置 |
-
2022
- 2022-11-11 CN CN202211413783.7A patent/CN116258167A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116933195A (zh) * | 2023-07-31 | 2023-10-24 | 浙江大学 | 一种基于深度学习的加密流量异常检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117330941B (zh) | 新能源bms印刷电路板的性能测试方法及相关装置 | |
CN116090544A (zh) | 神经网络模型的压缩方法、训练方法和处理方法、装置 | |
CN111104241A (zh) | 基于自编码器的服务器内存异常检测方法、系统及设备 | |
CN116258167A (zh) | 一种数据检测方法、装置、电子设备及介质 | |
CN113486302A (zh) | 数据处理方法及装置 | |
CN116359738A (zh) | 电池的健康状态监测方法、装置、设备及存储介质 | |
CN112686330B (zh) | Kpi异常数据检测方法及装置、存储介质及电子设备 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN115392715A (zh) | 一种用电数据风险评估方法、装置、设备及存储介质 | |
CN114996854A (zh) | 一种波浪载荷计算网络的训练、船舶的波浪载荷计算方法 | |
CN113515684A (zh) | 一种异常数据检测方法及装置 | |
CN115329968B (zh) | 确定量子机器学习算法公平性的方法、系统和电子设备 | |
CN116149971B (zh) | 设备故障预测方法、装置、电子设备及存储介质 | |
CN114781496B (zh) | 一种寻优抽样方法、装置及电子设备 | |
CN117591983B (zh) | 一种多指标异常检测方法、装置、电子设备和存储介质 | |
CN117239743B (zh) | 一种电能表用电负荷获取方法、装置、设备及介质 | |
CN117251809A (zh) | 电网时序数据异常检测方法、装置、设备和存储介质 | |
CN117707899A (zh) | 一种微服务异常检测方法、装置、设备及存储介质 | |
CN116307159A (zh) | 一种负荷预测方法、装置、电子设备和存储介质 | |
CN117195120A (zh) | 一种检测方法、装置、设备以及存储介质 | |
CN116842837A (zh) | 一种变压器故障诊断方法、装置、电子设备及存储介质 | |
CN117640231A (zh) | Web请求的异常检测方法、装置、服务器及存储介质 | |
CN116911977A (zh) | 虚拟资源处理方法、装置、计算机设备和存储介质 | |
CN117235611A (zh) | 故障检测模型训练、故障检测方法、装置、设备及介质 | |
CN117217777A (zh) | 一种基于对比学习的估值方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |