CN115221471B - 一种异常数据的识别方法、装置、存储介质及计算机设备 - Google Patents

一种异常数据的识别方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN115221471B
CN115221471B CN202210840820.6A CN202210840820A CN115221471B CN 115221471 B CN115221471 B CN 115221471B CN 202210840820 A CN202210840820 A CN 202210840820A CN 115221471 B CN115221471 B CN 115221471B
Authority
CN
China
Prior art keywords
data
comparison
rtu
umax
umin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210840820.6A
Other languages
English (en)
Other versions
CN115221471A (zh
Inventor
李峰
时伟强
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuntian Safety Technology Co ltd
Original Assignee
Shandong Yuntian Safety Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yuntian Safety Technology Co ltd filed Critical Shandong Yuntian Safety Technology Co ltd
Priority to CN202210840820.6A priority Critical patent/CN115221471B/zh
Publication of CN115221471A publication Critical patent/CN115221471A/zh
Application granted granted Critical
Publication of CN115221471B publication Critical patent/CN115221471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

本发明涉及数据处理技术领域,尤其涉及一种异常数据的识别方法、装置、存储介质及计算机设备。包括获取目标RTU在待测时间窗口内对应的数据均值;获取多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据集;获取最大对比数据均值和最小对比数据均值;当A0>Umax或者A0<Umin时,进入异常标记环节,确定正常浮动区间;当A0>D0max或者A0<D0min时,将目标RTU在待测时间窗口内对应的上传数据标记为异常状态。由此,在本发明中由于无需对具体的数据内容进行解析分析,即可识别异常数据,由此可以提高数据进行异常检测的效率,进而,可以实现对大量的传输数据中的异常数据进行快速识别。

Description

一种异常数据的识别方法、装置、存储介质及计算机设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种异常数据的识别方法、装置、存储介质及计算机设备。
背景技术
数据传输主要依照对应的传输协议而进行,在工业领域中,很多数据传输协议在进行数据传输时采用明文的方式进行传输。由此,传输的数据格式容易被仿造,进而容易受到网络攻击,使得传输的数据中存在异常数据,存在安全隐患。
但是,相关技术中对传输数据中的异常数据异常检测时,需要需要解析分析对应的报文数据,由此,使得数据进行异常检测的效率较低,无法对大量的传输数据中的异常数据进行快速识别。
发明内容
有鉴于此,本发明提供一种异常数据的识别方法、装置、存储介质及计算机设备,至少部分解决现有技术中存在的数据进行异常检测的效率较低,无法对大量的传输数据中的异常数据进行快速识别的问题。
根据本发明的第一个方面,提供了一种异常数据的识别方法,包括:
获取目标RTU在待测时间窗口内对应的数据均值A0
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,所述H符合如下条件:
Figure BDA0003750345430000011
其中,Hij是H中第i个所述对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为所述对比RTU的数量,z为第i个所述对比RTU对应的时间窗口的总数量;
获取最大对比数据均值Umax和最小对比数据均值Umin,其中,所述Umax为H中的最大值,所述Umin为H中的最小值;
当所述A0>Umax或者所述A0<Umin时,进入异常标记环节,所述异常标记环节包括如下步骤:
根据所述H、所述Umax及所述Umin,确定正常浮动区间[D0min,D0max],其中,所述D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;
当所述A0>D0max或者所述A0<D0min时,将所述目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
在本发明中进一步的,在所述获取最大对比数据均值Umax和最小对比数据均值Umin之后,所述方法还包括:
当所述Umin≤A0≤Umax时,将所述A0对应的上传数据均标记为正常状态。
在本发明中进一步的,所述H中的对比数据均值符合正态分布,
所述获取最大对比数据均值Umax和最小对比数据均值Umin,包括:
根据所述H中的每一所述对比数据均值,确定所述H对应的正态分布图;
根据所述正态分布图,确定目标取值面积S0
根据
Figure BDA0003750345430000021
获取Umax=a,Umin=b;
其中,μ为所述H中的所有所述对比数据均值的平均数,σ为所述H中的所有所述对比数据均值的标准差,a和b为关于μ对称的上取值边界值与下取值边界值,S0∈[0.8,1]。
在本发明中进一步的,所述S0=0.8。
在本发明中进一步的,所述H中的对比数据均值均已完成异常标记;
在所述获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H之前,所述方法还包括:
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的第一对比数据集H1,所述H1符合如下条件:
Figure BDA0003750345430000022
其中,H1sg是H1中第s个所述对比RTU在第g个时间窗口内对应的对比数据均值,s∈[1,m],g∈[1,w],m为所述对比RTU的数量,w为第s个所述对比RTU对应的时间窗口的总数量;
确定H1中被标记为异常状态的对比数据均值的数量Q;
当Q>K1时,重新确定多个对比RTU对应的H1,其中,K1为第一预设阈值。
在本发明中进一步的,在所述确定H1中被标记为异常状态的对比数据均值的数量Q之后,所述方法还包括:
当Q≤K1时,将所述H1确定为H。
在本发明中进一步的,所述获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,包括:
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的第二初始对比数据集H2,所述H2符合如下条件:
Figure BDA0003750345430000031
其中,H2pq是H2中第p个所述对比RTU在第q个时间窗口内对应的对比数据大小列表,n为所述对比RTU的数量,c为所述对比RTU对应的时间窗口的总数量;
获取P1 pq和P2 pq,所述P1 pq为所述H2pq对应的第一比例值,所述P2 pq为所述H2pq对应的第二比例值,所述P1 pq和P2 pq满足如下条件:
P1 pq=H2pqmax/Avg(H2pq);
P2 pq=Avg(H2pq)/H2pqmin
其中,H2pqmax和H2pqmin分别为H2pq中的数据最大值及数据最小值,Avg(H2pq)为H2pq中的对比数据均值;
当所述P1 pq>K2或所述P2 pq>K3时,在H2中去除所述H2pq,其中,所述K2为第二预设阈值,所述K3为第三预设阈值;
根据所述H2中剩余的数据大小列表,确定第二对比数据均值集H3,所述H3符合如下条件:
Figure BDA0003750345430000041
其中,H2xz是H3中第x个所述对比RTU在第z个时间窗口内对应的对比数据均值,L≤n,d≤c,L为所述对比RTU的数量,d为所述对比RTU对应的对比数据均值的总数量;
将所述H3确定为H。
根据本发明的第二个方面,提供了一种异常数据的识别装置,包括:
第一获取模块,用于获取目标RTU在待测时间窗口内对应的数据均值A0
第二获取模块,用于获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,所述H符合如下条件:
Figure BDA0003750345430000042
其中,Hij是H中第i个所述对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为所述对比RTU的数量,z为第i个所述对比RTU对应的时间窗口的总数量;
第三获取模块,用于获取最大对比数据均值Umax和最小对比数据均值Umin,其中,所述Umax为H中的目标最大值,所述Umin为H中的目标最小值;
判定模块,用于当所述A0>Umax或者所述A0<Umin时,触发第一确定模块;
第一确定模块,用于响应于所述判定模块的触发执行异常标记环节,所述异常标记环节包括如下步骤:
根据所述H、所述Umax及所述Umin,确定正常浮动区间[D0min,D0max],其中,所述D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;
标记模块,用于当所述A0>D0max或所述A0<D0min时,将所述目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
根据本发明的第三个方面,提供了一种非瞬时性计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的一种异常数据的识别方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的异常数据的识别方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
由于RTU传输的数据基本为采集的对应传感器的采集数据,所以,采集同一种类型数据(也即具有相同的属性标签)的多个RTU上传的每一个采集数据的数据大小偏低且数据大小基本一致,如多个RTU均为采集同一区域的温度的RTU,多个RTU上传的集数据的数据大小可以在2kb-4kb的范围内。但是,当攻击方为了实现对应的攻击目的,会根据某一个目标RTU上传的采集数据的报文格式而生成对应的攻击数据,由此,攻击数据不仅具有与正常上传的采集数据一致的数据格式,还在携带的数据中加入了对应的恶意代码,通常,由于恶意代码要达到破坏网络内部设备正常运行或窃取对应数据内容的目的,所以,使得攻击数据的数据量远大于RTU上传的正常的采集数据的数据大小。如在100kb-1mb的范围内。并且,当一个攻击数据的数据量太大而需要切分成多个子攻击数据进行上传时,为了保证攻击数据的时效性,多个子攻击数据会连续进行上传,由此,会导致在一个时间段内RTU上传的数据的大小整体偏大。
由此,在本发明中可以通过RTU传输的数据的大小特征来对传输的数据快速进行异常检测识别,具体为,通过将目标RTU在待测时间窗口内的数据均值A0,与多个对比RTU对应的多个对比数据均值来对传输的数据快速进行异常检测识别。
与现有技术相比,由于无需对具体的数据内容进行解析分析,即可识别异常数据,由此可以提高数据进行异常检测的效率,进而,可以实现对大量的传输数据中的异常数据进行快速识别。
另外,在实际的使用中,由于存在某一目标RTU在较长的时间段内一直被攻击的情况,进而,使得目标RTU上传的数据一直为攻击数据,也即异常数据。由此,若采用目标RTU同样为异常的历史数据均值来对A0进行异常识别计算,则无法将本为异常的A0识别出来。而,本发明中进行异常数据识别时,采用多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据均值来对A0进行异常识别计算,可以避免上述情况,进而提高异常数据识别的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例中公开的一种异常数据的识别方法的流程示意图。
图2为本发明一实施例中公开的一种异常数据的识别装置的结构示意框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
根据本发明的第一个方面,如图1所示,提供了一种异常数据的识别方法,包括:
步骤S100:获取目标RTU在待测时间窗口内对应的数据均值A0
具体的,A0的获取步骤如下:
步骤S101:获取目标RTU在待测时间窗口内的数据集A={A1,…,Ai,…,Am},其中,Ai是指目标RTU在检测时间窗口内产生的第i个数据的大小,m为目标RTU在待测时间窗口内产生的数据总数量。
具体的,待测时间窗口可以根据实际的使用场景进行确定,如时间窗口可以为一天或者是一天中的某个时段,如每天的上午8-10点的时间段为检测时间窗口。获取目标RTU的数据集A,可以为目标RTU上传的同一类型的采集数据或数据传输协议中的心跳帧,心跳帧可以为IEC104中U帧数据包。由此,每一个数据的大小基本一致,且由于上传的数据内容基本为数值,如温度值,湿度值等,所以每一个数据的大小偏小。
步骤S102:根据A,确定A对应的数据均值A0,A0符合如下条件:
A0=∑m i=1Ai/m。
通过所述计算公式可以求出每一个A对应的A0
步骤S200:获取多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,H符合如下条件:
Figure BDA0003750345430000071
/>
其中,Hij是H中第i个对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为对比RTU的数量,z为第i个对比RTU对应的时间窗口的总数量。
相同的属性标签也即表示对应的对比RTU用于执行同样的工作,也即上传同一类型的数据,如多个具有相同的属性标签的对比RTU均为采集同一区域的温度的RTU。由此,即可保证对比RTU与目标RTU之间的数据具有同样的特征,进而使得对比数据集H中的数据,可以用来对目标RTU的数据进行异常识别。由此,通过获取多个对比RTU在多个时间窗口内产生的对比数据均值,作为数据处理的基础。使得在具有较大数据量的情况下异常检测计算的精度更高,计算结果更准确。
步骤S300:获取最大对比数据均值Umax和最小对比数据均值Umin,其中,Umax为H中的最大值,Umin为H中的最小值。
步骤S400:当A0>Umax或者A0<Umin时,进入异常标记环节。
具体的,由于,获取的H中的数据通常情况下均是稳定且正常的,且由于H为由有限的多个对比RTU确定出来的,所以,其并不能与真实的数据完全一致,通常由H确定出来的Umax和Umin所划定的范围小于由真实数据的最大值和最小值划定的范围。所以,若以由Umax和Umin所划定的范围来直接进行异常判定,则会将较多的正常数据误判为异常数据。由此,会导致异常检测的精度下降,在本实施例中,需要通过步骤S500对异常判定的范围进行调整,由此,来提高异常检测的精度。
异常标记环节包括如下步骤:
步骤S500:根据H、Umax及Umin,确定正常浮动区间[D0min,D0max],其中,D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;Avg()为求取平均数的函数,Avg(H)具体为,将H中的所有数据的值进行加和,然后除以H中的所有数据的总个数。
有上述D0min和D0max的计算公式可知,D0min≤Umin,D0max≥Umax,由此,可以扩大正常数据对应的判定区间,进而使得D0min和D0max与由真实数据的最小值和最大值更加接近,由此,可以减少误判进而提高本实施例中异常判定的准确率。
另外,由D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin可知,在D0min的变化过程中,D0min的大小会与Umin的大小成反相关。由于,获取的H中的数据较多且基本均是正常的,所以不同的H对应的Avg(H)变化较小,基本可以认为是不变的。在D0min变小的过程中,虽然,较小的Umin对应的D0min小于较大的Umin对应的D0min,但是,较小的Umin对应的D0min与较大的Umin对应的D0min之间的差距极小。
在实际获取不同的H的过程中,不可避免的会出现不同的H对应的Umin的值会出现较大的变动的情况。而通过本实施例中的算法可以使得D0min不会随着Umin的变化而发生较大的变动,而是基本在一个较小的范围内浮动,由此,可以保证由不同的H计算得到的D0min不会存在较大差异,而是基本为与由真实数据确定的D0min更加接近的值,由此,也可以很好的避免由于获取不同的H而带来的较大的计算误差的问题。
同理,由D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax可知,在D0max的变化过程中,D0max的大小也会与Umax的大小成反相关。
本实施例中的D0min和D0max不仅扩大正常数据对应的判定区间,而且,扩大后的D0min和D0max与由真实数据的最小值和最大值更加接近,由此,可以进一步提高本实施例中异常判定的准确率。
步骤S600:当A0>D0max或者A0<D0min时,将目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
在本发明中可以通过RTU传输的数据的大小特征来对传输的数据快速进行异常检测识别,具体为,通过将目标RTU在待测时间窗口内的数据均值A0,与多个对比RTU对应的多个对比数据均值来对传输的数据快速进行异常检测识别。
与现有技术相比,由于无需对具体的数据内容进行解析分析,即可识别异常数据,由此可以提高数据进行异常检测的效率,进而,可以实现对大量的传输数据中的异常数据进行快速识别。
另外,在实际的使用中,由于存在某一目标RTU在较长的时间段内一直被攻击的情况,进而,使得目标RTU上传的数据一直为攻击数据,也即异常数据。由此,若采用目标RTU同样为异常的历史数据均值来对A0进行异常识别计算,则无法将本为异常的A0识别出来。而,本发明中进行异常数据识别时,采用多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据均值来对A0进行异常识别计算,可以避免上述情况,进而提高异常数据识别的精度。
在本发明一种可能的实施例中,在步骤S300:获取最大对比数据均值Umax和最小对比数据均值Umin之后,方法还包括:
步骤S700:当Umin≤A0≤Umax时,将A0对应的上传数据均标记为正常状态。
在本发明一种可能的实施例中,H中的对比数据均值符合正态分布,
步骤S300:获取最大对比数据均值Umax和最小对比数据均值Umin,包括:
步骤S301:根据H中的每一对比数据均值,确定H对应的正态分布图。
步骤S302:根据正态分布图,确定目标取值面积S0
步骤S303:根据
Figure BDA0003750345430000091
获取Umax=a,Umin=b;
其中,x为正态分布中的随机变量,在本实施例中即为H中的对比数据均值;μ为H中的所有对比数据均值的平均数,σ为H中的所有对比数据均值的标准差,a和b为关于μ对称的上取值边界值与下取值边界值,S0∈[0.8,1]。优选的,S0=0.8。
在本实施例中,由于H中的历史数据均值符合正态分布,所以,可以通过对应的正态分布的规律去寻找Umax与Umin。本实施例中获取的Umax与Umin可能并不是对应的H中存在的值,而是通过正态分布曲线的对Umax与Umin进行预测得到。
现有的通过将获取到的H中包含的最大值与最小值来确定Umax与Umin的方式,由于H中的数据量较小不能完全代表真实数据,由此,极有可能获取的H中包含的最大值与最小值与真实数据的最大值与最小值相差较大。
相较于直接通过获取到的H中包含的最大值与最小值来确定Umax与Umin的方式而言,本实施例中通过正态分布曲线预测到的Umax与Umin与实际的值更加贴近,由此,可以提高后续计算的准确率,进一步提高异常数据识别的准确性。
在本发明一种可能的实施例中,H中的对比数据均值均已完成异常标记。
具体的,异常标记的步骤可以参照上述步骤S100-步骤S600。H中的数据也可以是经过本发明中的异常数据的识别方法处理后的数据。
在步骤S200:获取多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据集H之前,方法还包括:
步骤S210:获取多个与目标RTU具有相同的属性标签的对比RTU对应的第一对比数据集H1,H1符合如下条件:
Figure BDA0003750345430000101
其中,H1sg是H1中第s个对比RTU在第g个时间窗口内对应的对比数据均值,s∈[1,m],g∈[1,w],m为对比RTU的数量,w为第s个对比RTU对应的时间窗口的总数量。
具体的,获取的H1中的对比数据均值均为之前已完成异常标记的数据,异常标记的步骤可以参照上述步骤S100-步骤S600。H中的数据也可以是经过本发明中的异常数据的识别方法处理后的数据。
步骤S220:确定H1中被标记为异常状态的对比数据均值的数量Q。
步骤S230:当Q>K1时,重新确定多个对比RTU对应的H1,其中,K1为第一预设阈值。
本实施例中,主要是对H的确定方法,当第一对比数据集中存在太多的异常状态的对比数据均值时,即可认为选取的第一对比数据集的参照性较差,需要重新选择新的第一对比数据集,具体的,可以通过更换其他的对比RTU来实现,如原来的多个对比RTU为编号1-7的RTU,而更换后的多个对比RTU为编号8-14的RTU。由此来更换H1中的数据。K1根据实际的情况进行设置。
在本发明一种可能的实施例中,在步骤S220:确定H1中被标记为异常状态的对比数据均值的数量Q之后,方法还包括:
步骤S240:当Q≤K1时,将H1确定为H。
本实施例中,当第一对比数据集中存在较少的异常状态的对比数据均值时,即可将第一对比数据集确定为H。
在本发明一种可能的实施例中,步骤S200:获取多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,包括:
步骤S201:获取多个与目标RTU具有相同的属性标签的对比RTU对应的第二初始对比数据集H2,H2符合如下条件:
Figure BDA0003750345430000111
其中,H2pq是H2中第p个对比RTU在第q个时间窗口内对应的对比数据大小列表,p∈[1,n],q∈[1,c],n为对比RTU的数量,c为对比RTU对应的时间窗口的总数量。
步骤S202:获取P1 pq和P2 pq,P1 pq为H2pq对应的第一比例值,P2 pq为H2pq对应的第二比例值,P1 pq和P2 pq满足如下条件:
P1 pq=H2pqmax/Avg(H2pq);
P2 pq=Avg(H2pq)/H2pqmin
其中,H2pqmax和H2pqmin分别为H2pq中的数据最大值及数据最小值,Avg(H2pq)为H2pq中的对比数据均值。
P1 pq和P2 pq分别用于表示每一个对比数据大小列表中的最大值和最小值与平均数的偏离程度,如果P1 pq和P2 pq所表示的偏离程度超过对应的阈值K2、K3时,则认为该对比数据大小列表的参照性较差不符合使用要求,将其删除。由此,可以去除掉第二初始对比数据集中不符合使用要求的噪声数据。其中,K2、K3根据实际的情况进行设置。
步骤S203:当P1 pq>K2或P2 pq>K3时,在H2中去除H2pq,其中,K2为第二预设阈值,K3为第三预设阈值。
步骤S204:根据H2中剩余的数据大小列表,确定第二对比数据均值集H3,H3符合如下条件:
Figure BDA0003750345430000112
其中,H2xz是H3中第x个对比RTU在第z个时间窗口内对应的对比数据均值,L≤n,d≤c,x∈[1,L],z∈[1,d],L为对比RTU的数量,d为对比RTU对应的对比数据均值的总数量。
步骤S205:将H3确定为H。
本实施例中通过对每一个对比数据大小列表中的最大值和最小值与平均数的偏离程度进行判定,可以去除掉第二初始数据集中不符合使用要求的噪声数据,由此,提高H3中的数据的参考价值,同时也提高了由H3确定的H中的数据的准确度,进而进一步的,提高了本发明中异常数据的识别方法的准确率。
根据本发明的第二个方面,提供了一种异常数据的识别装置,包括:
第一获取模块,用于获取目标RTU在待测时间窗口内对应的数据均值A0
第二获取模块,用于获取多个与目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,H符合如下条件:
Figure BDA0003750345430000121
其中,Hij是H中第i个对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为对比RTU的数量,z为第i个对比RTU对应的时间窗口的总数量。
第三获取模块,用于获取最大对比数据均值Umax和最小对比数据均值Umin,其中,Umax为H中的目标最大值,Umin为H中的目标最小值。
判定模块,用于当A0>Umax或者A0<Umin时,触发第一确定模块。
第一确定模块,用于响应于判定模块的触发执行异常标记环节,异常标记环节包括如下步骤:
根据H、Umax及Umin,确定正常浮动区间[D0min,D0max],其中,D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;
标记模块,用于当A0>D0max或A0<D0min时,将目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
根据本发明的第三个方面,提供了一种非瞬时性计算机可读存储介质,可读存储介质存储有计算机程序,计算机程序被处理器执行时实现的一种异常数据的识别方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现的异常数据的识别方法。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种异常数据的识别方法,其特征在于,包括:
获取目标RTU在待测时间窗口内对应的数据均值A0
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,所述H符合如下条件:
Figure FDA0003750345420000011
其中,Hij是H中第i个所述对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为所述对比RTU的数量,z为第i个所述对比RTU对应的时间窗口的总数量;
获取最大对比数据均值Umax和最小对比数据均值Umin,其中,所述Umax为H中的最大值,所述Umin为H中的最小值;
当所述A0>Umax或者所述A0<Umin时,进入异常标记环节,所述异常标记环节包括如下步骤:
根据所述H、所述Umax及所述Umin,确定正常浮动区间[D0min,D0max],其中,所述D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;
当所述A0>D0max或者所述A0<D0min时,将所述目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
2.根据权利要求1所述的方法,其特征在于,在所述获取最大对比数据均值Umax和最小对比数据均值Umin之后,所述方法还包括:
当所述Umin≤A0≤Umax时,将所述A0对应的上传数据均标记为正常状态。
3.根据权利要求1所述的方法,其特征在于,所述H中的对比数据均值符合正态分布,
所述获取最大对比数据均值Umax和最小对比数据均值Umin,包括:
根据所述H中的所有所述对比数据均值,确定所述H对应的正态分布图;
根据所述正态分布图,确定目标取值面积S0
根据
Figure FDA0003750345420000012
获取Umax=a,Umin=b;
其中,μ为所述H中的所有所述对比数据均值的平均数,σ为所述H中的所有所述对比数据均值的标准差,a和b为关于μ对称的上取值边界值与下取值边界值,S0∈[0.8,1]。
4.根据权利要求3所述的方法,其特征在于,所述S0=0.8。
5.根据权利要求1所述的方法,其特征在于,所述H中的对比数据均值均已完成异常标记;
在所述获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H之前,所述方法还包括:
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的第一对比数据集H1,所述H1符合如下条件:
Figure FDA0003750345420000021
其中,H1sg是H1中第s个所述对比RTU在第g个时间窗口内对应的对比数据均值,s∈[1,m],g∈[1,w],m为所述对比RTU的数量,w为第s个所述对比RTU对应的时间窗口的总数量;
确定H1中被标记为异常状态的对比数据均值的数量Q;
当Q>K1时,重新确定多个对比RTU对应的H1,其中,K1为第一预设阈值。
6.根据权利要求5所述的方法,其特征在于,在所述确定H1中被标记为异常状态的对比数据均值的数量Q之后,所述方法还包括:
当Q≤K1时,将所述H1确定为H。
7.根据权利要求1所述的方法,其特征在于,所述获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,包括:
获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的第二初始对比数据集H2,所述H2符合如下条件:
Figure FDA0003750345420000022
其中,H2pq是H2中第p个所述对比RTU在第q个时间窗口内对应的对比数据大小列表,n为所述对比RTU的数量,c为所述对比RTU对应的时间窗口的总数量;
获取P1 pq和P2 pq,所述P1 pq为所述H2pq对应的第一比例值,所述P2 pq为所述H2pq对应的第二比例值,所述P1 pq和P2 pq满足如下条件:
P1 pq=H2pqmax/Avg(H2pq);
P2 pq=Avg(H2pq)/H2pqmin
其中,H2pqmax和H2pqmin分别为H2pq中的数据最大值及数据最小值,Avg(H2pq)为H2pq中的对比数据均值;
当所述P1 pq>K2或所述P2 pq>K3时,在H2中去除所述H2pq,其中,所述K2为第二预设阈值,所述K3为第三预设阈值;
根据所述H2中剩余的数据大小列表,确定第二对比数据均值集H3,所述H3符合如下条件:
Figure FDA0003750345420000031
其中,H2xz是H3中第x个所述对比RTU在第z个时间窗口内对应的对比数据均值,L≤n,d≤c,L为所述对比RTU的数量,d为所述对比RTU对应的对比数据均值的总数量;
将所述H3确定为H。
8.一种异常数据的识别装置,其特征在于,包括:
第一获取模块,用于获取目标RTU在待测时间窗口内对应的数据均值A0
第二获取模块,用于获取多个与所述目标RTU具有相同的属性标签的对比RTU对应的对比数据集H,所述H符合如下条件:
Figure FDA0003750345420000032
其中,Hij是H中第i个所述对比RTU在第j个时间窗口内对应的对比数据均值,i∈[1,y],j∈[1,z],y为所述对比RTU的数量,z为第i个所述对比RTU对应的时间窗口的总数量;
第三获取模块,用于获取最大对比数据均值Umax和最小对比数据均值Umin,其中,所述Umax为H中的目标最大值,所述Umin为H中的目标最小值;
判定模块,用于当所述A0>Umax或者所述A0<Umin时,触发第一确定模块;
第一确定模块,用于响应于所述判定模块的触发执行异常标记环节,所述异常标记环节包括如下步骤:
根据所述H、所述Umax及所述Umin,确定正常浮动区间[D0min,D0max],其中,所述D0min和D0max满足如下条件:
D0min=Umin-Avg(H)×[2Umin-Avg(H)]/Umin;
D0max=Umax+Avg(H)×[2Avg(H)-Umax]/Umax;
其中,Avg()为预设的均值处理函数;
标记模块,用于当所述A0>D0max或所述A0<D0min时,将所述目标RTU在待测时间窗口内对应的上传数据标记为异常状态。
9.一种非瞬时性计算机可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种异常数据的识别方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的异常数据的识别方法。
CN202210840820.6A 2022-07-18 2022-07-18 一种异常数据的识别方法、装置、存储介质及计算机设备 Active CN115221471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210840820.6A CN115221471B (zh) 2022-07-18 2022-07-18 一种异常数据的识别方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210840820.6A CN115221471B (zh) 2022-07-18 2022-07-18 一种异常数据的识别方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN115221471A CN115221471A (zh) 2022-10-21
CN115221471B true CN115221471B (zh) 2023-03-31

Family

ID=83611382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210840820.6A Active CN115221471B (zh) 2022-07-18 2022-07-18 一种异常数据的识别方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN115221471B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859209B (zh) * 2023-02-08 2023-05-16 烟台市福山区动物疫病预防控制中心 基于饲料消耗数据的畜牧业家禽养殖异常识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017059904A1 (en) * 2015-10-07 2017-04-13 Telefonaktiebolaget Lm Ericsson (Publ) Anomaly detection in a data packet access network
CN114710369A (zh) * 2022-06-06 2022-07-05 山东云天安全技术有限公司 一种异常数据检测方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452845B2 (en) * 2017-03-08 2019-10-22 General Electric Company Generic framework to detect cyber threats in electric power grid
US20180262525A1 (en) * 2017-03-09 2018-09-13 General Electric Company Multi-modal, multi-disciplinary feature discovery to detect cyber threats in electric power grid
US20190219994A1 (en) * 2018-01-18 2019-07-18 General Electric Company Feature extractions to model large-scale complex control systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017059904A1 (en) * 2015-10-07 2017-04-13 Telefonaktiebolaget Lm Ericsson (Publ) Anomaly detection in a data packet access network
CN114710369A (zh) * 2022-06-06 2022-07-05 山东云天安全技术有限公司 一种异常数据检测方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张仁斌;许辅昊;刘飞;李思娴.基于K-均值聚类的工业异常数据检测.计算机应用研究.2017,(第07期),全文. *
李俊;张格;兰海燕;朱小东.基于时序分析的工控异常检测算法研究.网络空间安全.2020,(第04期),全文. *

Also Published As

Publication number Publication date
CN115221471A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN109088869B (zh) Apt攻击检测方法及装置
CN115001853B (zh) 一种异常数据的识别方法、装置、存储介质及计算机设备
CN108881250B (zh) 电力通信网络安全态势预测方法、装置、设备及存储介质
CN113008583B (zh) 一种旋转机械状态监测和异常自动报警的方法及装置
CN115221471B (zh) 一种异常数据的识别方法、装置、存储介质及计算机设备
CN110083507B (zh) 关键性能指标分类方法及装置
CN111224928B (zh) 网络攻击行为的预测方法、装置、设备及存储介质
CN115396204A (zh) 一种基于序列预测的工控网络流量异常检测方法及装置
CN116684878B (zh) 一种5g信息传输数据安全监测系统
CN114553591A (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN113343228B (zh) 事件可信度分析方法、装置、电子设备及可读存储介质
CN114065627A (zh) 温度异常检测方法、装置、电子设备和介质
CN113269327A (zh) 一种基于机器学习的流量异常预测方法
Pazhayamadom et al. Self-starting CUSUM approach for monitoring data poor fisheries
CN109768995B (zh) 一种基于循环预测和学习的网络流量异常检测方法
CN105516164A (zh) 基于分形与自适应融合的P2P botnet检测方法
CN113328881B (zh) 一种面向非合作无线网络的拓扑感知方法及装置、系统
KR102343139B1 (ko) 어노멀리 검출방법 및 그 장치
CN114037072A (zh) 一种神经网络优化的方法及设备
CN115315711A (zh) 机器学习装置、学习模型的生成方法及程序
CN111783804A (zh) 异常话单确定方法、装置、设备及存储介质
CN112949743B (zh) 一种网络运维操作的可信判断方法、系统和电子设备
CN117640468A (zh) 数据流量监测方法、装置及电子设备
CN107786514B (zh) 网络攻击预警方法和装置
CN116915506B (zh) 一种异常流量检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant