CN114143095B - 基于孤立森林的配电终端dtu入侵检测方法及系统 - Google Patents

基于孤立森林的配电终端dtu入侵检测方法及系统 Download PDF

Info

Publication number
CN114143095B
CN114143095B CN202111458266.7A CN202111458266A CN114143095B CN 114143095 B CN114143095 B CN 114143095B CN 202111458266 A CN202111458266 A CN 202111458266A CN 114143095 B CN114143095 B CN 114143095B
Authority
CN
China
Prior art keywords
data
forest
characteristic
distribution terminal
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111458266.7A
Other languages
English (en)
Other versions
CN114143095A (zh
Inventor
徐伟斌
赖奎
武建平
潘松波
胡泰
杨玺
张伟堂
麦远超
吴力科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Jiangmen Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Jiangmen Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Jiangmen Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202111458266.7A priority Critical patent/CN114143095B/zh
Publication of CN114143095A publication Critical patent/CN114143095A/zh
Application granted granted Critical
Publication of CN114143095B publication Critical patent/CN114143095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
    • Y04S40/20Information technology specific aspects, e.g. CAD, simulation, modelling, system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及电网安全技术领域,公开了一种基于孤立森林的配电终端DTU入侵检测方法及系统,其通过配电终端网关搜索套接字对象获得配电终端数据,并对配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对原始特征库进行降维处理,在原始特征库中筛选出预设数量的特征构成最佳特征集;基于孤立森林的改进算法对最佳特征集进行训练,得到隔离树以构建入侵异常检测器,通过入侵异常检测器对进入配电终端DTU的数据进行入侵检测。从而提高了配电终端入侵检测处理效率和检测准确性。

Description

基于孤立森林的配电终端DTU入侵检测方法及系统
技术领域
本发明涉及电网安全技术领域,尤其涉及一种基于孤立森林的配电终端DTU入侵检测方法及系统。
背景技术
目前,配电网作为电力系统的“最后一公里”,其重要性愈发的重要,许多应用系统和配套设备都建立在配电网的建设上,其中安全稳定的运行是配电网运行最重要的问题之一。
配电终端DTU(Distribution Terminal Unit)作为配电网监管系统实时运行的关键装备,分布于配电网的各个环节。然而在实际现场,配电终端DTU的检测功能并不能高效的对异常数据进行检测,在面对可疑的数据流量或者其他相关行为时,无法通过及时有效的告警或采取相应措施对威胁进行处理,不能保证配电终端DTU的网络安全系统。
随着入侵手段的升级和迭代,配电终端DTU的数据安全问题愈发严峻。如何有效的检测出入侵数据成为保证DTU安全防御机制的难题之一。
目前对于电力系统的边缘智能配电终端进行入侵检测方法存在异常数据处理效率低且检测准确性低,这将造成经济损失以及用户用电安全风险。
发明内容
本发明提供了一种基于孤立森林的配电终端DTU入侵检测方法及系统,解决了配电终端入侵检测处理效率低且检测准确性低的技术问题。
有鉴于此,本发明第一方面提供了一种基于孤立森林的配电终端DTU入侵检测方法,包括以下步骤:
基于配电终端网关搜索套接字对象,从而获得配电终端数据;
对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
优选地,所述对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集的步骤具体包括:
通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload
Figure BDA0003387222750000021
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类内散度矩阵Sb和类内散度矩阵Sw
Figure BDA0003387222750000022
Figure BDA0003387222750000023
式4、5中,μj(j=1,2...k)为第j个原始数据的均值向量,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
Figure BDA0003387222750000031
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
Figure BDA0003387222750000032
将式9中
Figure BDA0003387222750000033
进行特征值分解,选择最大特征值对应的预设维度个特征向量组成投影矩阵w,从而对原始数据集进行降维;
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集。
优选地,所述基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测的步骤具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
Figure BDA0003387222750000034
Figure BDA0003387222750000035
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,,
Figure BDA0003387222750000036
表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
Figure BDA0003387222750000041
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall
Figure BDA0003387222750000042
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
Figure BDA0003387222750000043
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri
Figure BDA0003387222750000044
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将n子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
优选地,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式16计算异常检测基森林的单棵二叉树
Figure BDA0003387222750000058
平均路径长度
Figure BDA0003387222750000059
Figure BDA0003387222750000051
式16中,C为欧拉常数,
Figure BDA0003387222750000052
为最佳特征集随机抽取的数据个数;
通过下式17计算特征数据在单棵树
Figure BDA0003387222750000053
上检测的路径长度h(x):
Figure BDA0003387222750000054
a表示该特征数据从单棵树
Figure BDA0003387222750000055
的根节点到叶节点所经过的边的数量。
通过下式18计算特征数据在n子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
Figure BDA0003387222750000056
式18中,L(θ(n))为异常检测基森林的第n个单棵二叉树的平均路径长度,h(x)i为第i个特征数据在单棵树
Figure BDA0003387222750000057
上检测的路径长度;
将异常得分情况Sc ore(x)与异常分界线进行对比,若异常得分情况S core(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Scor e(x)不大于异常分界线时,则判定该特征数据正常。
优选地,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
第二方面,本发明还提供了一种基于孤立森林的配电终端DTU入侵检测系统,包括:
数据获取模块,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
入侵检测模块,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过配电终端网关搜索套接字对象获得配电终端数据,并对配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对原始特征库进行降维处理,在原始特征库中筛选出预设数量的特征构成最佳特征集;基于孤立森林的改进算法对最佳特征集进行训练,得到隔离树以构建入侵异常检测器,通过入侵异常检测器对进入配电终端DTU的数据进行入侵检测。从而提高了配电终端入侵检测处理效率和检测准确性。
附图说明
图1为本发明实施例提供的一种基于孤立森林的配电终端DTU入侵检测方法的流程图;
图2为本发明实施例提供的一种基于孤立森林的配电终端DTU入侵检测系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明提供的一种基于孤立森林的配电终端DTU入侵检测方法,包括以下步骤:
100、基于配电终端网关搜索套接字对象,从而获得配电终端数据;
200、对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
300、基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
在本实施例中,步骤200具体包括:
201、通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload
Figure BDA0003387222750000071
式1中,T为一个DTU数字脉冲信号的全宽码,Ni为一个数字脉冲信号所设置的有效离散值个数,n表示数据包的总数,i表示第i个数据包;
202、通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
203、通过下式3计算配电终端DTU的平均数据接收量Hreceive
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
204、利用平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive构成原始数据集;
205、利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类内散度矩阵Sb和类内散度矩阵Sw
Figure BDA0003387222750000081
Figure BDA0003387222750000082
式4、5中,μj(j=1,2…k)为第j个原始数据的均值向量,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
206、通过下式6构建优化函数为,
Figure BDA0003387222750000083
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
Figure BDA0003387222750000084
将式9中
Figure BDA0003387222750000085
进行特征值分解,选择最大特征值对应的预设维度个特征向量组成投影矩阵w,从而对原始数据集进行降维;
207、在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集。
在本实施例中,步骤300具体包括:
301、将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
302、在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
Figure BDA0003387222750000091
Figure BDA0003387222750000092
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,,
Figure BDA0003387222750000093
表示左节点第i+1层的从左到右的第j个数据。θij表示某层所包含的数据集;
303、重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
304、以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
需要说明的是,可流动堆是用于存放实时数据的一种数据结构,通过创建一个可流动堆用于存放输入最佳特征集的特征数据,当新的特征数据产生时,将判定服从伯努利分布的特征数据存入缓冲区,当可流动堆数据已满,新到达的数据将取代最早进入可流动堆的数据。可流动堆与缓冲区的共同作用可实现对异常检测基森林的更新优化。
305、若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
Figure BDA0003387222750000094
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
306、将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
307、根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall
Figure BDA0003387222750000095
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
Figure BDA0003387222750000101
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
308、基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率r:
Figure BDA0003387222750000102
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
309、将n子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
在本实施例中,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式16计算异常检测基森林的单棵二叉树
Figure BDA0003387222750000103
平均路径长度
Figure BDA00033872227500001010
Figure BDA0003387222750000104
式16中,C为欧拉常数,
Figure BDA0003387222750000105
为最佳特征集随机抽取的数据个数;
通过下式17计算特征数据在单棵树
Figure BDA0003387222750000106
上检测的路径长度h(x):
Figure BDA0003387222750000107
a表示该特征数据从单棵树
Figure BDA0003387222750000108
的根节点到叶节点所经过的边的数量。
通过下式18计算特征数据在n子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
Figure BDA0003387222750000109
式18中,L(θ(n))为异常检测基森林的第n个单棵二叉树的平均路径长度,h(x)i为第i个特征数据在单棵树
Figure BDA00033872227500001011
上检测的路径长度;
将异常得分情况Sc ore(x)与异常分界线进行对比,若异常得分情况S core(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Scor e(x)不大于异常分界线时,则判定该特征数据正常。
在本实施例中,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
需要说明的是,DTU数据具有大量快速、连续到达的特点,缓冲区为可流动堆与异常检测森林之间的数据传输区域,可提高数据的读写速率,其与可流动堆共同实现异常检测基森林的更新优化。
本发明还提供了一种基于孤立森林的配电终端DTU入侵检测系统,包括:
数据获取模块10,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块20,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
入侵检测模块30,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于孤立森林的配电终端DTU入侵检测方法,其特征在于,包括以下步骤:
基于配电终端网关搜索套接字对象,从而获得配电终端数据;
对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;具体包括:
通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload
Figure FDA0004203448540000011
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类间散度矩阵Sb和类内散度矩阵Sw
Figure FDA0004203448540000012
Figure FDA0004203448540000013
式4、5中,μj为第j个原始数据的均值向量,j=1,2...k,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
Figure FDA0004203448540000021
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
Figure FDA0004203448540000022
将式9中
Figure FDA0004203448540000023
进行特征值分解,选择最大特征值对应的预设维度个特征向量组成投影矩阵w,从而对原始数据集进行降维;
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集;
基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测;
所述基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测的步骤具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
Figure FDA0004203448540000024
Figure FDA0004203448540000025
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,θ(i+1)j*l表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
Figure FDA0004203448540000031
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall
Figure FDA0004203448540000032
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
Figure FDA0004203448540000033
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri
Figure FDA0004203448540000041
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
2.根据权利要求1所述的基于孤立森林的配电终端DTU入侵检测方法,其特征在于,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式16计算异常检测基森林的单棵二叉树
Figure FDA0004203448540000042
平均路径长度
Figure FDA0004203448540000049
Figure FDA0004203448540000043
式16中,C为欧拉常数,
Figure FDA0004203448540000044
为最佳特征集随机抽取的数据个数;
通过下式17计算特征数据在单棵树
Figure FDA0004203448540000045
上检测的路径长度h(x):
Figure FDA00042034485400000410
a表示该特征数据从单棵树
Figure FDA0004203448540000046
的根节点到叶节点所经过的边的数量;
通过下式18计算特征数据在子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
Figure FDA0004203448540000047
式18中,L(θ(n))为异常检测基森林的第n个单棵二叉树的平均路径长度,h(x)i为第i个特征数据在单棵树
Figure FDA0004203448540000048
上检测的路径长度;
将异常得分情况Score(x)与异常分界线进行对比,若异常得分情况Score(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Score(x)不大于异常分界线时,则判定该特征数据正常。
3.根据权利要求1所述的基于孤立森林的配电终端DTU入侵检测方法,其特征在于,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
4.一种基于孤立森林的配电终端DTU入侵检测系统,其特征在于,包括:
数据获取模块,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;具体包括:
通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload
Figure FDA0004203448540000051
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类间散度矩阵Sb和类内散度矩阵Sw
Figure FDA0004203448540000061
Figure FDA0004203448540000062
式4、5中,μj为第j个原始数据的均值向量,j=1,2...k,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
Figure FDA0004203448540000063
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
Figure FDA0004203448540000064
将式9中
Figure FDA0004203448540000065
进行特征值分解,选择最大特征值对应的预设维度个特征向量组成投影矩阵w,从而对原始数据集进行降维;
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集;
入侵检测模块,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测,具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
Figure FDA0004203448540000071
Figure FDA0004203448540000072
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,
Figure FDA0004203448540000076
表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
Figure FDA0004203448540000074
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall
Figure FDA0004203448540000075
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
Figure FDA0004203448540000081
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri
Figure FDA0004203448540000082
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
CN202111458266.7A 2021-12-01 2021-12-01 基于孤立森林的配电终端dtu入侵检测方法及系统 Active CN114143095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111458266.7A CN114143095B (zh) 2021-12-01 2021-12-01 基于孤立森林的配电终端dtu入侵检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111458266.7A CN114143095B (zh) 2021-12-01 2021-12-01 基于孤立森林的配电终端dtu入侵检测方法及系统

Publications (2)

Publication Number Publication Date
CN114143095A CN114143095A (zh) 2022-03-04
CN114143095B true CN114143095B (zh) 2023-06-02

Family

ID=80386938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111458266.7A Active CN114143095B (zh) 2021-12-01 2021-12-01 基于孤立森林的配电终端dtu入侵检测方法及系统

Country Status (1)

Country Link
CN (1) CN114143095B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011894B (zh) * 2023-03-28 2023-06-02 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11582249B2 (en) * 2019-11-27 2023-02-14 Telefonaktiebolaget Lm Ericsson (Publ) Computer-implemented method and arrangement for classifying anomalies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法

Also Published As

Publication number Publication date
CN114143095A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
US11838308B2 (en) Computer-implemented method and arrangement for classifying anomalies
US11444964B2 (en) Method and arrangement for detecting anomalies in network data traffic
CN105471882A (zh) 一种基于行为特征的网络攻击检测方法及装置
CN109918498B (zh) 一种问题入库方法和装置
CN111600919A (zh) 基于人工智能的web检测方法和装置
CN114372530A (zh) 一种基于深度自编码卷积网络的异常流量检测方法及系统
CN115208604B (zh) 一种ami网络入侵检测的方法、装置及介质
CN114143095B (zh) 基于孤立森林的配电终端dtu入侵检测方法及系统
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
Kamalov et al. Orthogonal variance-based feature selection for intrusion detection systems
Abdulrazaq et al. Combination of multi classification algorithms for intrusion detection system
Sirisha et al. Intrusion detection models using supervised and unsupervised algorithms-a comparative estimation
CN117454380B (zh) 恶意软件的检测方法、训练方法、装置、设备及介质
Sandhya et al. Enhancing the Performance of an Intrusion Detection System Using Spider Monkey Optimization in IoT.
Singh et al. Intrusion detection system using data mining a review
CN108121912B (zh) 一种基于神经网络的恶意云租户识别方法和装置
CN118018260A (zh) 网络攻击的检测方法、系统、设备及介质
CN117294497A (zh) 一种网络流量异常检测方法、装置、电子设备及存储介质
CN112906722A (zh) 数据异常检测方法、装置及设备
Babu et al. Improved Monarchy Butterfly Optimization Algorithm (IMBO): Intrusion Detection Using Mapreduce Framework Based Optimized ANU-Net.
Rachburee et al. Big data analytics: feature selection and machine learning for intrusion detection on microsoft azure platform
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN116346475A (zh) 一种隐匿高危行为操作异常评分方法和系统
CN115865451A (zh) 一种网络安全入侵检测系统及检测方法
CN115567572A (zh) 确定对象异常度的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant