CN114143095B - 基于孤立森林的配电终端dtu入侵检测方法及系统 - Google Patents
基于孤立森林的配电终端dtu入侵检测方法及系统 Download PDFInfo
- Publication number
- CN114143095B CN114143095B CN202111458266.7A CN202111458266A CN114143095B CN 114143095 B CN114143095 B CN 114143095B CN 202111458266 A CN202111458266 A CN 202111458266A CN 114143095 B CN114143095 B CN 114143095B
- Authority
- CN
- China
- Prior art keywords
- data
- forest
- characteristic
- distribution terminal
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 140
- 238000009826 distribution Methods 0.000 title claims abstract description 102
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000005856 abnormality Effects 0.000 claims description 78
- 230000009969 flowable effect Effects 0.000 claims description 72
- 230000002159 abnormal effect Effects 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 17
- 238000005520 cutting process Methods 0.000 claims description 16
- 238000002955 isolation Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 10
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S40/00—Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them
- Y04S40/20—Information technology specific aspects, e.g. CAD, simulation, modelling, system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Alarm Systems (AREA)
Abstract
本发明涉及电网安全技术领域,公开了一种基于孤立森林的配电终端DTU入侵检测方法及系统,其通过配电终端网关搜索套接字对象获得配电终端数据,并对配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对原始特征库进行降维处理,在原始特征库中筛选出预设数量的特征构成最佳特征集;基于孤立森林的改进算法对最佳特征集进行训练,得到隔离树以构建入侵异常检测器,通过入侵异常检测器对进入配电终端DTU的数据进行入侵检测。从而提高了配电终端入侵检测处理效率和检测准确性。
Description
技术领域
本发明涉及电网安全技术领域,尤其涉及一种基于孤立森林的配电终端DTU入侵检测方法及系统。
背景技术
目前,配电网作为电力系统的“最后一公里”,其重要性愈发的重要,许多应用系统和配套设备都建立在配电网的建设上,其中安全稳定的运行是配电网运行最重要的问题之一。
配电终端DTU(Distribution Terminal Unit)作为配电网监管系统实时运行的关键装备,分布于配电网的各个环节。然而在实际现场,配电终端DTU的检测功能并不能高效的对异常数据进行检测,在面对可疑的数据流量或者其他相关行为时,无法通过及时有效的告警或采取相应措施对威胁进行处理,不能保证配电终端DTU的网络安全系统。
随着入侵手段的升级和迭代,配电终端DTU的数据安全问题愈发严峻。如何有效的检测出入侵数据成为保证DTU安全防御机制的难题之一。
目前对于电力系统的边缘智能配电终端进行入侵检测方法存在异常数据处理效率低且检测准确性低,这将造成经济损失以及用户用电安全风险。
发明内容
本发明提供了一种基于孤立森林的配电终端DTU入侵检测方法及系统,解决了配电终端入侵检测处理效率低且检测准确性低的技术问题。
有鉴于此,本发明第一方面提供了一种基于孤立森林的配电终端DTU入侵检测方法,包括以下步骤:
基于配电终端网关搜索套接字对象,从而获得配电终端数据;
对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
优选地,所述对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集的步骤具体包括:
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect:
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive:
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类内散度矩阵Sb和类内散度矩阵Sw:
式4、5中,μj(j=1,2...k)为第j个原始数据的均值向量,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集。
优选地,所述基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测的步骤具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,,表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall,
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri:
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将n子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
优选地,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式18计算特征数据在n子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
将异常得分情况Sc ore(x)与异常分界线进行对比,若异常得分情况S core(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Scor e(x)不大于异常分界线时,则判定该特征数据正常。
优选地,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
第二方面,本发明还提供了一种基于孤立森林的配电终端DTU入侵检测系统,包括:
数据获取模块,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
入侵检测模块,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
从以上技术方案可以看出,本发明具有以下优点:
本发明通过配电终端网关搜索套接字对象获得配电终端数据,并对配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对原始特征库进行降维处理,在原始特征库中筛选出预设数量的特征构成最佳特征集;基于孤立森林的改进算法对最佳特征集进行训练,得到隔离树以构建入侵异常检测器,通过入侵异常检测器对进入配电终端DTU的数据进行入侵检测。从而提高了配电终端入侵检测处理效率和检测准确性。
附图说明
图1为本发明实施例提供的一种基于孤立森林的配电终端DTU入侵检测方法的流程图;
图2为本发明实施例提供的一种基于孤立森林的配电终端DTU入侵检测系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明提供的一种基于孤立森林的配电终端DTU入侵检测方法,包括以下步骤:
100、基于配电终端网关搜索套接字对象,从而获得配电终端数据;
200、对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
300、基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
在本实施例中,步骤200具体包括:
201、通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload:
式1中,T为一个DTU数字脉冲信号的全宽码,Ni为一个数字脉冲信号所设置的有效离散值个数,n表示数据包的总数,i表示第i个数据包;
202、通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect:
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
203、通过下式3计算配电终端DTU的平均数据接收量Hreceive:
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
204、利用平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive构成原始数据集;
205、利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类内散度矩阵Sb和类内散度矩阵Sw:
式4、5中,μj(j=1,2…k)为第j个原始数据的均值向量,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
206、通过下式6构建优化函数为,
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
207、在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集。
在本实施例中,步骤300具体包括:
301、将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
302、在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,,表示左节点第i+1层的从左到右的第j个数据。θij表示某层所包含的数据集;
303、重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
304、以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
需要说明的是,可流动堆是用于存放实时数据的一种数据结构,通过创建一个可流动堆用于存放输入最佳特征集的特征数据,当新的特征数据产生时,将判定服从伯努利分布的特征数据存入缓冲区,当可流动堆数据已满,新到达的数据将取代最早进入可流动堆的数据。可流动堆与缓冲区的共同作用可实现对异常检测基森林的更新优化。
305、若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
306、将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
307、根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall,
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
308、基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率r:
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
309、将n子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
在本实施例中,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式18计算特征数据在n子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
将异常得分情况Sc ore(x)与异常分界线进行对比,若异常得分情况S core(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Scor e(x)不大于异常分界线时,则判定该特征数据正常。
在本实施例中,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
需要说明的是,DTU数据具有大量快速、连续到达的特点,缓冲区为可流动堆与异常检测森林之间的数据传输区域,可提高数据的读写速率,其与可流动堆共同实现异常检测基森林的更新优化。
本发明还提供了一种基于孤立森林的配电终端DTU入侵检测系统,包括:
数据获取模块10,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块20,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;
入侵检测模块30,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于孤立森林的配电终端DTU入侵检测方法,其特征在于,包括以下步骤:
基于配电终端网关搜索套接字对象,从而获得配电终端数据;
对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;具体包括:
通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload:
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect:
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive:
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类间散度矩阵Sb和类内散度矩阵Sw:
式4、5中,μj为第j个原始数据的均值向量,j=1,2...k,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集;
基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测;
所述基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测的步骤具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,θ(i+1)j*l表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall,
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri:
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
2.根据权利要求1所述的基于孤立森林的配电终端DTU入侵检测方法,其特征在于,所述通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常的步骤具体包括:
通过下式18计算特征数据在子森林异常检测树构成异常检测基森林中的异常得分情况Score(x):
将异常得分情况Score(x)与异常分界线进行对比,若异常得分情况Score(x)大于异常分界线时,则判定该特征数据异常,若异常得分情况Score(x)不大于异常分界线时,则判定该特征数据正常。
3.根据权利要求1所述的基于孤立森林的配电终端DTU入侵检测方法,其特征在于,对异常检测基森林对应的最佳特征集进行更新的步骤具体包括:
判断进入所述预设的可流动堆的特征数据是否服从伯努利分布,将判定服从伯努利分布的特征数据存入缓冲区,从而对缓冲区填充数据;
获取特征异常指数α超过预定的特征异常阈值α0时对应的所述缓冲区内的特征数据的个数,判断所述缓冲区内的特征数据的个数是否小于预设缓冲个数阈值;
若所述缓冲区内的特征数据的个数小于预设缓冲个数阈值时,则将所述预设的可流动堆中的特征数据与缓冲区中的特征数据的并集作为更新后的最佳特征集,若所述缓冲区内的特征数据的个数不小于预设缓冲个数阈值时,则将缓冲区中的特征数据作为更新后的最佳特征集。
4.一种基于孤立森林的配电终端DTU入侵检测系统,其特征在于,包括:
数据获取模块,用于基于配电终端网关搜索套接字对象,从而获得配电终端数据;
特征处理模块,用于对所述配电终端数据预处理,建立原始特征库,基于潜在狄立克雷分配技术对所述原始特征库进行降维处理,在所述原始特征库中筛选出预设数量的特征构成最佳特征集;具体包括:
通过下式1计算配电终端DTU向配电终端网关数据上传的平均上传速率Vupload:
式1中,T为一个DTU数字脉冲信号的全宽码,N为一个数字脉冲信号所设置的有效离散值总个数,n表示数据包的总数,i表示第i个数据包;
通过下式2计算配电终端DTU与配电终端网关的连接时间tconnect:
tconnect=tclose-topen 式2
式2中,tclose表示断开连接时的时刻,topen表示开始连接时的时刻;
通过下式3计算配电终端DTU的平均数据接收量Hreceive:
Hreceive=Vupload×tconnect 式3
式3中,Vupload表示平均上传速率,tconnect表示配电终端DTU与配电终端网关的连接时间;
将平均上传速率Vupload、连接时间tconnect和平均数据接收量Hreceive作为原始数据集;
利用潜在狄立克雷分配技术通过下式4和5分别计算原始数据集的类间散度矩阵Sb和类内散度矩阵Sw:
式4、5中,μj为第j个原始数据的均值向量,j=1,2...k,μ为所有原始数据的均值向量,Nj为第j个原始数据的数量,x为原始数据列向量,T为矩阵的转置,k为原始数据的总数,Xj为第j个原始数据集;
通过下式6构建优化函数为,
式6中,J(w)表示优化函数,投影矩阵W;
对优化函数求偏导,令偏导数等于0,得到式7为,
(wTSww)Sbw=(wTSbw)Sww 式7
将式7代入式6得到式8为,
Sbw=λSωw
式8中λ为优化函数,通过对式8进行数学运算得到式9为,
在降维后的原始数据集中筛选出预设数量的特征构成最佳特征集;
入侵检测模块,用于基于孤立森林的改进算法对所述最佳特征集进行训练,直到训练迭代收敛,从而得到隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行入侵检测,具体包括:
将所述最佳特征集放入单棵树的根节点,通过多次抽取,构建出多棵子森林异常检测树;
在每棵子森林异常检测树中,随机选取一个特征,在选取的一个特征的所有值范围内的最大值和最小值之间随机选取一个值作为切割点ω,基于切割点ω生成超平面,对所述最佳特征集进行二叉划分,从而将所述最佳特征集中小于切割点ω的特征放入当前子森林异常检测树的左边,将所述最佳特征集中大于切割点ω的特征放入当前子森林异常检测树的右边,从而建立当前子森林异常检测树对应的特征数据集为:
式10、11中,i表示层数,j表示孤立树中前一层从右到左第j个特征数据,r和l分别表示右边和左边,j*表示第i+1层从右到左的第j*个节点,表示左节点第i+1层的从左到右的第j个数据,θij表示某层所包含的数据集;
重复上一步骤,不断生成新的节点,直到满足终止条件为止,输出多个子森林异常检测树构成异常检测基森林,所述终止条件为特征数据不可再分和/或子森林异常检测树的高度已达到预设的限定高度;
以队列方式依次向预设的可流动堆输入特征数据,通过异常检测基森林判断输入至所述预设的可流动堆的特征数据是否异常,从而得到异常特征数据;
若所述预设的可流动堆中数据存储空间已满,则将最先进入所述预设的可流动堆中的特征数据进行清除,并使新进入所述预设的可流动堆的特征数据排在队列最后,根据异常特征数据通过下式12计算此时的所述预设的可流动堆的特征异常指数α:
m为当前预设的可流动堆中异常特征数据的个数;mall为当前预设的可流动堆中的所有数据个数;
将特征异常指数α与预定的特征异常阈值α0进行比较,若特征异常指数α超过预定的特征异常阈值α0时,则对异常检测基森林对应的最佳特征集进行更新,得到更新后的最佳特征集;
根据式13和式14分别计算可流动堆中的子森林异常检测树的特征异常指数和异常检测基森林的特征异常指数,分别记作α(i)和αall,
式13中,n(i)为可流动堆中的子森林异常检测树检测出的异常特征数据个数,nall为可流动堆中的数据总个数;
式14中,n(all)为可流动堆中的异常检测基森林检测出的异常特征数据个数;
基于更新后的最佳特征集和所述最佳特征集进行比较,通过下式15计算特征数据集异常率ri:
式15中,α(i)为可流动堆中的子森林异常检测树的特征异常指数,αall为可流动堆中的异常检测基森林的特征异常指数;
将子森林异常检测树的特征数据集异常率从小到大进行排序,去除异常率较大的异常检测孤立树,取前n个更新的子森林异常检测树补充到异常检测基森林中,从而得到相应的隔离树以构建入侵异常检测器,通过所述入侵异常检测器对进入配电终端DTU的数据进行异常检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111458266.7A CN114143095B (zh) | 2021-12-01 | 2021-12-01 | 基于孤立森林的配电终端dtu入侵检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111458266.7A CN114143095B (zh) | 2021-12-01 | 2021-12-01 | 基于孤立森林的配电终端dtu入侵检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114143095A CN114143095A (zh) | 2022-03-04 |
CN114143095B true CN114143095B (zh) | 2023-06-02 |
Family
ID=80386938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111458266.7A Active CN114143095B (zh) | 2021-12-01 | 2021-12-01 | 基于孤立森林的配电终端dtu入侵检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114143095B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011894B (zh) * | 2023-03-28 | 2023-06-02 | 河北长发铝业股份有限公司 | 一种铝合金棒生产数据管理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11582249B2 (en) * | 2019-11-27 | 2023-02-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Computer-implemented method and arrangement for classifying anomalies |
-
2021
- 2021-12-01 CN CN202111458266.7A patent/CN114143095B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
Also Published As
Publication number | Publication date |
---|---|
CN114143095A (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11838308B2 (en) | Computer-implemented method and arrangement for classifying anomalies | |
US11444964B2 (en) | Method and arrangement for detecting anomalies in network data traffic | |
CN105471882A (zh) | 一种基于行为特征的网络攻击检测方法及装置 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
CN111600919A (zh) | 基于人工智能的web检测方法和装置 | |
CN114372530A (zh) | 一种基于深度自编码卷积网络的异常流量检测方法及系统 | |
CN115208604B (zh) | 一种ami网络入侵检测的方法、装置及介质 | |
CN114143095B (zh) | 基于孤立森林的配电终端dtu入侵检测方法及系统 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
Kamalov et al. | Orthogonal variance-based feature selection for intrusion detection systems | |
Abdulrazaq et al. | Combination of multi classification algorithms for intrusion detection system | |
Sirisha et al. | Intrusion detection models using supervised and unsupervised algorithms-a comparative estimation | |
CN117454380B (zh) | 恶意软件的检测方法、训练方法、装置、设备及介质 | |
Sandhya et al. | Enhancing the Performance of an Intrusion Detection System Using Spider Monkey Optimization in IoT. | |
Singh et al. | Intrusion detection system using data mining a review | |
CN108121912B (zh) | 一种基于神经网络的恶意云租户识别方法和装置 | |
CN118018260A (zh) | 网络攻击的检测方法、系统、设备及介质 | |
CN117294497A (zh) | 一种网络流量异常检测方法、装置、电子设备及存储介质 | |
CN112906722A (zh) | 数据异常检测方法、装置及设备 | |
Babu et al. | Improved Monarchy Butterfly Optimization Algorithm (IMBO): Intrusion Detection Using Mapreduce Framework Based Optimized ANU-Net. | |
Rachburee et al. | Big data analytics: feature selection and machine learning for intrusion detection on microsoft azure platform | |
CN116545679A (zh) | 一种工业情境安全基础框架及网络攻击行为特征分析方法 | |
CN116346475A (zh) | 一种隐匿高危行为操作异常评分方法和系统 | |
CN115865451A (zh) | 一种网络安全入侵检测系统及检测方法 | |
CN115567572A (zh) | 确定对象异常度的方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |