CN111711608B - 一种电力数据网流量异常检测方法、系统及电子设备 - Google Patents

一种电力数据网流量异常检测方法、系统及电子设备 Download PDF

Info

Publication number
CN111711608B
CN111711608B CN202010432272.4A CN202010432272A CN111711608B CN 111711608 B CN111711608 B CN 111711608B CN 202010432272 A CN202010432272 A CN 202010432272A CN 111711608 B CN111711608 B CN 111711608B
Authority
CN
China
Prior art keywords
lightgbm model
iteration
lightgbm
weak classifier
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010432272.4A
Other languages
English (en)
Other versions
CN111711608A (zh
Inventor
叶萌
周华旭
黄观金
鞠耀东
邵志成
龚卿
张旭辉
王苗庚
陈尚权
陈创波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Energy Storage Co ltd Information And Communication Branch
Original Assignee
Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd filed Critical Information Communication Branch of Peak Regulation and Frequency Modulation Power Generation of China Southern Power Grid Co Ltd
Priority to CN202010432272.4A priority Critical patent/CN111711608B/zh
Publication of CN111711608A publication Critical patent/CN111711608A/zh
Application granted granted Critical
Publication of CN111711608B publication Critical patent/CN111711608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种电力数据网流量异常检测方法、系统及电子设备,方法包括:将电力数据网的流量特征数据输入LightGBM模型,输出电力数据网的流量特征数据对应的正常或异常结果,LightGBM模型为根据电力数据网的训练集训练而来,其中,利用贝叶斯优化算法确定模型的最佳超参组合,LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。本发明将贝叶斯优化算法与LightGBM模型融合,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,对于LightGBM模型中的多个弱分类器进行权重的分配,提高LightGBM模型的整体分类效果,提高电力数据网中流量异常检测准确率和效率。

Description

一种电力数据网流量异常检测方法、系统及电子设备
技术领域
本发明属于流量异常检测技术领域,尤其涉及一种电力数据网流量异常检测方法、系统及电子设备。
背景技术
随着电力通信的发展,数据网已成为电力通信的重要的业务承载平台,数据网络规模越来越大,网络结构复杂,承载业务信息越来越多。网络流量中包含了大量的信息,网络流量异常是网络空间遭受攻击的表现形式,因此如何能够迅速、准确的检测中网络流量异常,并且减少检测模型训练的人工成本开销成为网络技术发展的重要问题。
目前对于数据网络流量异常检测主要有:
第一种,采用增量k-均值聚类方法实时在线对流量异常进行分类,能够实现在线检测流量异常。
第二种,基于贝叶斯分类器分析的异常检测方法,根据不同类型的网络异常动态选择用于异常检测的特征子集,最后利用贝叶斯分类器根据特征子集对未知样本进行类别预测。动态特征选择算法可以针对不同类型的异常动态的选择出用于检测该异常的最优特征子集,有助于降低用于检测异常的流量特征维数,提高异常检测的准确率。
第三种,基于改进K-means算法的网络安全性验证,其将数据挖掘方法引入到对网络攻击特征的提取中来,首先通过创建高度可受控的靶场验证环境来监控进出系统的流量,再利用分层机制来逐层捕获进出系统的异常流量和异常行为,最后使用改进后的K-means算法对收集到的情报数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。
其中,增量k-均值聚类算法开始的k值很难估计,聚类中心的随机选择对算法结果的影响较大;模型训练计算量大,消耗成本高;
贝叶斯分类器对于测试集中的一个类别变量特征,如果在训练集中未出现过,对于未知流量特征数据的预测概率为0,即预测功能失效。
K-means算法参数维度高,需要相关人员参与到算法模型建立的各个步骤中,在数据通信网的检测算法需要随数据的变化增量训练检测模型的情境下,该算法自动化程度不高,在需要增量更新分类模型的情境下表现不好。
发明内容
为克服上述现有电力数据网流量异常检测效果准确率低的问题或者至少部分地解决上述问题,本发明实施例提供一种电力数据网流量异常检测方法、系统及电子设备。
根据本发明实施例的第一方面,提供一种电力数据网流量异常检测方法,包括:
将采集的电力数据网的流量特征数据输入LightGBM模型中,由所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,所述LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
在上述技术方案的基础上,本发明实施例还可以做如下改进。
可选的,所述利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合包括:
设置LightGBM模型的初始超参组合,按照所述初始超参组合,将测试集输入所述LightGBM模型中,由LightGBM模型输出测试结果,所述测试集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
计算所述测试结果与实际结果之间的损失;
根据所述损失确定下一轮迭代的超参组合;
重复迭代过程,直到计算出来的损失在预设损失阈值范围之内或者迭代次数达到上限,得到最佳超参组合。
可选的,所述根据所述损失确定下一轮迭代的超参组合包括:
根据所述初始超参组合和对应的损失,建立损失与初始超参组合之间的函数关系;
根据损失与初始超参组合之间的函数关系,利用采集函数从所述初始超参组合中确定下一轮的超参组合。
可选的,所述根据所述初始超参组合和对应的损失,计算损失与初始超参组合之间的函数关系还包括:
根据每一轮的超参组合及对应的损失,对建立的损失与初始超参组合之间的函数关系进行修正。
可选的,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来包括:
对于贝叶斯优化算法的任一轮迭代,超参组合中至少包括LightGBM模型迭代的次数,其中,对于LightGBM模型,每一次迭代均生成一个弱分类器,直到生成的弱分类器的个数与LightGBM模型迭代的次数相等;
计算LightGBM模型每一次迭代生成的弱分类器的权重值,最终根据生成的每一个弱分类器及其对应的权重值,复合生成LightGBM模型,其中,复合生成的LightGBM模型为贝叶斯优化算法对应的所述任一轮迭代对应生成的模型。
可选的,所述对于LightGBM模型,每一次迭代均生成一个弱分类器包括:
沿着上一轮迭代生成的弱分类器的残差梯度下降的方向,生成下一轮迭代对应的弱分类器。
可选的,所述计算LightGBM模型每一次迭代生成的弱分类器的权重值包括:
对于LightGBM模型每一次迭代生成的弱分类器,选择测试集输入所述弱分类器中,由所述弱分类器输出测试结果;
根据所述弱分类器输出的测试结果和实际结果,计算所述弱分类器的正确率;
根据所述正确率确定所述弱分类器的权重值。
可选的,通过如下公式确定所述弱分类器的权重值:
Figure BDA0002500960430000041
其中,acuracy为弱分类器的测试结果中的正确样本数,total为测试集的总体样本数,α为超参组合中的平衡系数,在超参组合中预置。
根据本发明实施例第二方面提供一种电力数据网流量异常检测系统,包括:
输入模块,用于将采集的电力数据网的流量特征数据输入LightGBM模型中,使得所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,所述LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
根据本发明实施例的第三个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的电力数据网流量异常检测方法。
根据本发明实施例的第四个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的电力数据网流量异常检测方法。
本发明实施例提供一种电力数据网流量异常检测方法、系统及电子设备,该方法将贝叶斯优化算法与LightGBM模型融合,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,对于LightGBM模型中的多个弱分类器进行权重的分配,提高LightGBM模型的整体分类效果,提高电力数据网中流量异常检测准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的电力数据网流量异常检测方法整体流程示意图;
图2为贝叶斯优化算法确定最佳超参组合方法流程图;
图3为LightGBM模型的迭代过程流程图;
图4为贝叶斯优化算法融合LightGBM模型的迭代过程流程图;
图5为实验得到的对电力数据网流量异常检测的检测率示意图;
图6为本发明实施例提供的电力数据网流量异常检测系统结构示意图;
图7为本发明实施例提供的电子设备整体结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
参见图1,提供了本发明实施例的电力数据网流量异常检测方法,该方法包括:
S1,将采集的电力数据网的流量特征数据输入LightGBM模型中;
S2,由所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
可以理解的是,为了提高对电力数据网中的流量异常检测的准确率,本发明实施例将贝叶斯优化算法和LightGBM模型融合。
其中,GBDT(梯度提升树)算法在一定程度上可以达到电力数据网网络流量异常检测的高效率和高准确率的要求。但是随着网络环境的不断复杂化、攻击技术的不断提高,需要更加高效和准确的算法。
LightGBM算法思想继承于经典的GBDT算法,并在运行效率和准确率上做出了很大的提升。虽然LightGBM算法相对于GBDT算法有了很大的改进,但LigthGBM算法是多个细颗粒度算法的集合,增加了算法的复杂度,使得很难通过人工操作确定集合中细颗粒度算法的具体限定条件即算法参数。而贝叶斯优化算法是一种十分优秀的全局优化算法,它的目标是找到全局最优参数解。因此,本发明实施例通过将贝叶斯优化算法和LigthGBM算法融合,可以解决GBDT等传统算法在现如今电力数据网网络流量异常检测中的不足。
其中,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,另外,传统的LightGBM模型中的多个弱分类器是通过线性叠加而成,即每一个弱分类器的权重值是相同的,本发明实施例中为LightGBM模型中的每一个弱分类器赋予不同的权重值,由多个弱分类器以及每一个弱分类器对应的权重值复合形成强分类器,即LightGBM模型。
利用复合而成的LightGBM模型并赋予该LightGBM模型最佳超参组合,来对电力数据网的流量异常进行检测,提高LightGBM模型的整体分类效果,提高电力数据网中流量异常检测准确率和效率
作为一个可选的实施例,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合包括:
a,设置LightGBM模型的初始超参组合,按照初始超参组合,将测试集输入所述LightGBM模型中,由LightGBM模型输出测试结果,测试集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
b,计算所述测试结果与实际结果之间的损失;
c,根据所述损失确定下一轮迭代的超参组合;
d,重复迭代过程,直到计算出来的损失在预设损失阈值范围之内或者迭代次数达到上限,得到最佳超参组合。
可以理解的是,可参见图2,利用贝叶斯优化算法找到LightGBM模型的最佳超参组合的整个过程为,首先,设置初始超参组合作为第一轮迭代的超参组合,将测试集输入LightGBM模型,对该初始超参组合下的LightGBM模型的效果进行测试,其中,测试集中包括测试样本和样本标签,测试样本为电力数据网的流量特征数据,样本标签为正常或异常,即流量特征数据为正常流量还是异常流量。
其中,本发明实施例将网络连接基本字段和基于时间的统计量信息作为流量特征数据。
连接基本字段特征包括:
(1)某一次网络连接存在的时间长度,用dur来表示,是一种连续类型的特征值。
(2)网络协议的类型,用pro_type来表示,是一种离散类型的特征值。
(3)目的主机网络的服务类型,用ser来表示,是一种离散类型的特征值。
基于时间的统计量信息包括:
(1)在时间单位t内,以本次连接的目的主机为目标的所有连接的合计个数,用cnt来表示,是一种连续的特征值。
(2)在时间单位t内,服务类型和本次连接相同的所有连接的合计个数,用ser_cnt来表示,是一种连续的特征值。
(3)在时间单位t内,以本次连接的目的主机为目标的所有连接中出现syn异常的连接的比例,用syn_abnomal_rate来表示,是一种连续的特征值。
(4)在时间单位t内,以本次连接的目的主机为目标的所有连接中出现rej异常的连接的比例,用rej_abnomal_rate来表示,是一种连续的特征值。
(5)在时间单位t内,服务类型和本次连接相同的所有连接中出现syn异常的连接的比例,用ser_syn_abnomal_rate来表示,是一种连续的特征值。
(6)在时间单位t内,服务类型和本次连接相同的所有连接中出现rej异常的连接的比例,用ser_rej_abnomal_rate来表示,是一种连续的特征值。
(7)在时间单位t内,以本次连接的目的主机为目标的并且服务类型和本次连接相同的所有连接占的比例,用same_ser_rate来表示,是一种连续的特征值。
(8)在时间单位t内,以本次连接的目的主机为目标但是服务类型和本次连接不同的所有连接占的比例,用h_dif_s_rate来表示,是一种连续的特征值。
(9)在时间单位t内,服务类型和本次连接相同但是目的主机和本次连接不同的所有连接占的比例,用s_dif_h_rate来表示,是一种连续的特征值。
将测试集输入初始超参组合下的LightGBM模型中,输出测试结果,其中,输出的测试结果与实际结果之间是有一定差距的,计算输出的测试结果与实际结果之间的损失。
然后根据损失和初始超参组合确定下一轮迭代的超参组合,继续进行第二轮对LightGBM模型的测试,再次计算第二轮迭代对应的损失,如此重复迭代,直到计算出来的损失在预设损失阈值范围之内或者迭代次数达到上限,得到最佳超参组合,将该最佳超参组合作为LightGBM模型最终的超参组合。
作为一个可选的实施例,根据损失确定下一轮迭代的超参组合包括:
根据初始超参组合和对应的损失,建立损失与初始超参组合之间的函数关系;
根据损失与初始超参组合之间的函数关系,利用采集函数从初始超参组合中确定下一轮的超参组合。
可以理解的是,在前述实施例中,计算出了第一轮通过LightGBM模型输出的测试结果和实际结果之间的损失,根据初始超参组合和对应的损失,建立损失和初始超参组合之间的函数关系。然后,根据损失与初始超参组合之间的函数关系,利用采集函数从初始超参组合中确定下一轮的超参组合。其中,对于利用采集函数确定下一轮的超参组合是贝叶斯优化算法中的常用技术手段,在此不再重新说明。
在利用贝叶斯优化算法进行后续迭代的过程中,根据每一轮的超参组合及对应的损失,对建立的损失与初始超参组合之间的函数关系进行修正。
作为一个可选的实施例,LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来包括:
a’,对于贝叶斯优化算法的任一轮迭代,超参组合中至少包括LightGBM模型迭代的次数,其中,对于LightGBM模型,每一次迭代均生成一个弱分类器,直到生成的弱分类器的个数与LightGBM模型迭代的次数相等;
b’,计算LightGBM模型每一次迭代生成的弱分类器的权重值,最终根据生成的每一个弱分类器及其对应的权重值,复合生成LightGBM模型,其中,复合生成的LightGBM模型为贝叶斯优化算法对应的所述任一轮迭代对应生成的模型。
可以理解的是,可参见图3,生成LightGBM模型的过程,也是一个不断迭代的过程,其中,对于贝叶斯的每一轮优化后得到的超参组合中包括这一轮中LightGBM模型的迭代次数T,其中,LightGBM模型的迭代次数T与这一轮迭代所生成的弱分类器的数量相等,也就是说,对于LightGBM模型内部的每一次迭代均生成一个弱分类器。
对于每一次迭代生成的弱分类器,计算其对应的权重值,根据迭代过程中生成的每一个弱分类器及其对应的权重值,复合生成贝叶斯优化算法的该轮对应的LightGBM模型。
作为一个可选的实施例,对于LightGBM模型,每一次迭代均生成一个弱分类器包括:
沿着上一轮迭代生成的弱分类器的残差梯度下降的方向,生成下一轮迭代对应的弱分类器。
可以理解的是,在LightGBM模型内部迭代生成弱分类器的过程中,对于下一次迭代生成的弱分类器会参考上一次迭代生成的弱分类器的梯度,具体的,沿着上一轮迭代生成的弱分类器的残差梯度下降的方向,生成下一轮迭代对应的弱分类器,直到生成的弱分类器的数量与该轮超参组合中的迭代次数相等。
作为一个可选的实施例,计算LightGBM模型每一次迭代生成的弱分类器的权重值包括:
对于LightGBM模型每一次迭代生成的弱分类器,选择测试集输入所述弱分类器中,由所述弱分类器输出测试结果;
根据弱分类器输出的测试结果和实际结果,计算所述弱分类器的正确率;
根据正确率确定弱分类器的权重值。
可以理解的是,对于LightGBM模型每一次迭代生成的弱分类器,选择合适的测试集对该弱分类器的效果进行测试。将测试集输入该弱分类器中,由弱分类器输出测试结果。根据弱分类器输出的测试结果和实际结果,计算弱分类器的正确率,根据弱分类器的正确率来确定该弱分类器的权重值。
作为一个可选的实施例,通过如下公式确定弱分类器的权重值:
Figure BDA0002500960430000111
其中,acuracy为弱分类器的测试结果中的正确样本数,total为测试集的总体样本数,则acuracy/total即为该弱分类器的正确率,α为超参组合中的平衡系数,在超参组合中预置,其中,0<α<1。由于计算出来的弱分类器的正确率数值比较大,因此,通过再引入一个平衡系数使得权重值的数值更小一点。
参见图4,为贝叶斯优化算法与LightGBM模型融合的整个迭代过程流程图,下面结合图4来对整个迭代过程进行说明。
其中,贝叶斯优化算法为外部迭代,LightGBM模型的迭代为内迭代,即贝叶斯优化算法迭代一轮,LightGBM模型迭代T轮,其中T为可变,在贝叶斯优化算法输出的超参组合中包括LightGBM模型迭代的次数T。在贝叶斯优化算法每一轮迭代后,T值可能会不同。
对于贝叶斯优化算法来说,每一轮迭代的过程即是LightGBM模型的超参组合优化的过程,经过多轮迭代,最终优化出最佳超参组合。
对于LightGBM模型来说,每一次迭代即生成一个弱分类器,并且每生成一个弱分类器,计算该弱分类器的权重值,当经过T次迭代生成了T个弱分类器时,根据每一个弱分类器及其对应的权重值,组合形成强分类器,即本发明实施例中的LightGBM模型。对于贝叶斯优化算法的每一轮迭代过程,均生成一个LightGBM模型,迭代N次,最终生成与最佳超参组合对应的LightGBM模型,利用最终生成的LightGBM模型来检测电力数据网中的流量异常与否。
为了验证本发明实施例提供的电力数据网流量异常检测方法对流量的异常进行检测的效果,对提出的融合的贝叶斯优化LightGBM算法做出如下仿真验证。
实验数据来源为校园网节点,对某日全天流量数据用libpcap数据包捕获函数库采集到了全日流量的基础特征数据。由于校园网相对安全,对当日采集的321万条数据进行预处理和去除噪声,并以此为背景流量注入模拟产生的异常流量以供性能测试。实验模拟是生成异常数据,注入检测数据集后得作为算法仿真的数据集。
实验第一步进行数据清洗操作,采用一致性检查删除了数据集中异常的数据。对于离散型的数据,一般的网络流量异常检测算法需要将其进行数值化处理,但是LightGBM模型支持离散型数据,因此本实验可以忽略此步骤。
实验进行数据标准化处理,运用离差标准化,对原始流量特征数据进行线性变换,使流量特征数据映射到[0-1]之间,采用如下公式进行变换:
Figure BDA0002500960430000131
其中,x表示原始流量特征数据,y表示变换后的流量特征数据,之所以进行标准化处理,是因为实验中的各个数据的单位是不同的,因此数据的大小差别也非常的大,如果不进行数据标准化处理,数据时不可用的。
实验将原始数据按是否为攻击数据分为Normal和Attack,其中Attack类型的数据为各种攻击手段产生的异常数据。得到标准化处理后的原始数据后,随机抽样原始数据的部分数据作为仿真实验数据集中的训练集和测试集,如下表1所示:
表1:实验数据组成表
Normal Attack
训练集 118976 31024
测试集 41026 8974
训练集15万条数据,测试集5万条数据,训练集和测试集数据组成中Normal正常数据越为80%,Attack攻击数据约为总体的20%。
采用MATLAB为实验平台进行仿真实验,根据前述得到的实验训练集、测试集数据,利用本发明实施例提供的流量异常检测方法进行实验。流量异常检测算法的连续特征值的统计单位时间范围不确定,需要设计对比实验,根据实验结果选择最佳时间间隔。由于流量异常检测需要较高的实时性,因此实验设定时间窗口为0.5s进行实验,其中,实验的检测率可参见图5,由图5中的实验结果得到,算法在2s处达到最大的算法检测效果,检测率为95.52%。在检测率和实时性上满足要求。
参见图6,提供了本发明实施例的一种电力数据网流量异常检测系统,包括:
输入模块61,用于将采集的电力数据网的流量特征数据输入LightGBM模型中,使得所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,所述LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
可以理解的是,本发明实施例提供的电力数据网流量异常检测系统与前述各实施例提供的电力数据网流量异常检测方法相对应,电力数据网流量异常检测系统的相关技术特征可参考前述各实施例提供的电力数据网流量异常检测方法的相关技术特征,在此不再赘述。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:将采集的电力数据网的流量特征数据输入LightGBM模型中,由所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;其中,LightGBM模型为根据电力数据网的训练集训练而来,训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;其中,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:将采集的电力数据网的流量特征数据输入LightGBM模型中,由所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;其中,LightGBM模型为根据电力数据网的训练集训练而来,训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;其中,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来。
本发明实施例提供的一种电力数据网流量异常检测方法、系统及电子设备,该方法将贝叶斯优化算法与LightGBM模型融合,利用贝叶斯优化算法确定LightGBM模型的最佳超参组合,对于LightGBM模型中的多个弱分类器进行权重的分配,提高LightGBM模型的整体分类效果,提高电力数据网中流量异常检测准确率和效率。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种电力数据网流量异常检测方法,其特征在于,包括:
将采集的电力数据网的流量特征数据输入LightGBM模型中,由所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,所述LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来;
所述利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合包括:
设置LightGBM模型的初始超参组合,按照所述初始超参组合,将测试集输入所述LightGBM模型中,由LightGBM模型输出测试结果,所述测试集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
计算所述测试结果与实际结果之间的损失;
根据所述损失确定下一轮迭代LightGBM模型的超参组合;
重复迭代过程,直到计算出来的损失在预设损失阈值范围之内或者迭代次数达到上限,得到LightGBM模型的最佳超参组合;
所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来包括:
对于贝叶斯优化算法的任一轮迭代,超参组合中至少包括LightGBM模型迭代的次数,其中,对于LightGBM模型,每一次迭代均生成一个弱分类器,直到生成的弱分类器的个数与LightGBM模型迭代的次数相等;
计算LightGBM模型每一次迭代生成的弱分类器的权重值,最终根据生成的每一个弱分类器及其对应的权重值,复合生成LightGBM模型,其中,复合生成的LightGBM模型为贝叶斯优化算法对应的所述任一轮迭代对应生成的模型。
2.根据权利要求1所述的电力数据网流量异常检测方法,其特征在于,所述根据所述损失确定下一轮迭代LightGBM模型的超参组合包括:
根据所述初始超参组合和对应的损失,建立损失与初始超参组合之间的函数关系;
根据损失与初始超参组合之间的函数关系,利用采集函数从所述初始超参组合中确定下一轮LightGBM模型的超参组合。
3.根据权利要求2所述的电力数据网流量异常检测方法,其特征在于,所述根据所述初始超参组合和对应的损失,计算损失与初始超参组合之间的函数关系还包括:
根据每一轮的超参组合及对应的损失,对建立的损失与初始超参组合之间的函数关系进行修正。
4.根据权利要求1所述的电力数据网流量异常检测方法,其特征在于,所述对于LightGBM模型,每一次迭代均生成一个弱分类器包括:
沿着上一轮迭代生成的弱分类器的残差梯度下降的方向,生成下一轮迭代对应的弱分类器。
5.根据权利要求1所述的电力数据网流量异常检测方法,其特征在于,所述计算LightGBM模型每一次迭代生成的弱分类器的权重值包括:
对于LightGBM模型每一次迭代生成的弱分类器,选择测试集输入所述弱分类器中,由所述弱分类器输出测试结果;
根据所述弱分类器输出的测试结果和实际结果,计算所述弱分类器的正确率;
根据所述正确率确定所述弱分类器的权重值。
6.根据权利要求5所述的电力数据网流量异常检测方法,其特征在于,通过如下公式确定所述弱分类器的权重值:
Figure FDA0003544694020000031
其中,acuracy为弱分类器的测试结果中的正确样本数,total为测试集的总体样本数,α为超参组合中的平衡系数,在超参组合中预置。
7.一种电力数据网流量异常检测系统,其特征在于,包括:
输入模块,用于将采集的电力数据网的流量特征数据输入LightGBM模型中,使得所述LightGBM模型输出所述电力数据网的流量特征数据对应的正常或异常结果;
其中,所述LightGBM模型为根据电力数据网的训练集训练而来,所述训练集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
其中,利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合,所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来;
所述利用贝叶斯优化算法确定所述LightGBM模型的最佳超参组合包括:
设置LightGBM模型的初始超参组合,按照所述初始超参组合,将测试集输入所述LightGBM模型中,由LightGBM模型输出测试结果,所述测试集中包括流量特征数据集合和每一个流量特征数据对应的标签,所述标签为流量正常或流量异常;
计算所述测试结果与实际结果之间的损失;
根据所述损失确定下一轮迭代LightGBM模型的超参组合;
重复迭代过程,直到计算出来的损失在预设损失阈值范围之内或者迭代次数达到上限,得到LightGBM模型的最佳超参组合;
所述LightGBM模型由多个弱分类器以及每一个弱分类器对应的权重值复合而来包括:
对于贝叶斯优化算法的任一轮迭代,超参组合中至少包括LightGBM模型迭代的次数,其中,对于LightGBM模型,每一次迭代均生成一个弱分类器,直到生成的弱分类器的个数与LightGBM模型迭代的次数相等;
计算LightGBM模型每一次迭代生成的弱分类器的权重值,最终根据生成的每一个弱分类器及其对应的权重值,复合生成LightGBM模型,其中,复合生成的LightGBM模型为贝叶斯优化算法对应的所述任一轮迭代对应生成的模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述电力数据网流量异常检测方法的步骤。
CN202010432272.4A 2020-05-20 2020-05-20 一种电力数据网流量异常检测方法、系统及电子设备 Active CN111711608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010432272.4A CN111711608B (zh) 2020-05-20 2020-05-20 一种电力数据网流量异常检测方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010432272.4A CN111711608B (zh) 2020-05-20 2020-05-20 一种电力数据网流量异常检测方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN111711608A CN111711608A (zh) 2020-09-25
CN111711608B true CN111711608B (zh) 2022-06-21

Family

ID=72537233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010432272.4A Active CN111711608B (zh) 2020-05-20 2020-05-20 一种电力数据网流量异常检测方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN111711608B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860303B (zh) * 2021-02-07 2023-07-04 济南大学 一种模型增量更新的方法及系统
CN112925785A (zh) * 2021-03-29 2021-06-08 中国建设银行股份有限公司 数据清洗方法和装置
CN113159218A (zh) * 2021-05-12 2021-07-23 北京联合大学 一种基于改进cnn的雷达hrrp多目标识别方法及系统
CN113591909A (zh) * 2021-06-23 2021-11-02 北京智芯微电子科技有限公司 电力系统的异常检测方法、异常检测装置以及存储介质
CN113761522A (zh) * 2021-09-02 2021-12-07 恒安嘉新(北京)科技股份公司 一种webshell流量的检测方法、装置、设备和存储介质
CN116389108B (zh) * 2023-04-03 2023-10-10 杭州诺禾网络科技有限公司 Ab实验方法、系统与存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及系统
CN110413494A (zh) * 2019-06-19 2019-11-05 浙江工业大学 一种改进贝叶斯优化的LightGBM故障诊断方法
CN110718910A (zh) * 2019-10-29 2020-01-21 国网四川省电力公司经济技术研究院 贝叶斯优化LightGBM的暂态稳定评估方法
WO2020040880A1 (en) * 2018-08-23 2020-02-27 Microsoft Technology Licensing, Llc Efficient configuration selection for automated machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020040880A1 (en) * 2018-08-23 2020-02-27 Microsoft Technology Licensing, Llc Efficient configuration selection for automated machine learning
CN110138786A (zh) * 2019-05-20 2019-08-16 福州大学 基于SMOTETomek和LightGBM的Web异常检测方法及系统
CN110413494A (zh) * 2019-06-19 2019-11-05 浙江工业大学 一种改进贝叶斯优化的LightGBM故障诊断方法
CN110718910A (zh) * 2019-10-29 2020-01-21 国网四川省电力公司经济技术研究院 贝叶斯优化LightGBM的暂态稳定评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Novel Reject Inference Model Using Outlier Detection and Gradient Boosting Technique in Peer-to-Peer Lending;YUFEI XIA;《IEEE Access》;20190709;全文 *
集成学习方法_研究综述;徐继伟;《云南大学学报(自然科学版)》;20180630(第6期);全文 *
面向征信的企业画像研究;王镂;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215;第2.2-2.3节、5.1-5.3节 *

Also Published As

Publication number Publication date
CN111711608A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111711608B (zh) 一种电力数据网流量异常检测方法、系统及电子设备
CN111782472B (zh) 系统异常检测方法、装置、设备及存储介质
CN109032829B (zh) 数据异常检测方法、装置、计算机设备及存储介质
CN111178523B (zh) 一种行为检测方法、装置、电子设备及存储介质
CN111031051B (zh) 一种网络流量异常检测方法及装置、介质
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN111314331A (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN112910859B (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
Chang et al. Anomaly detection for industrial control systems using k-means and convolutional autoencoder
CN109086291B (zh) 一种基于MapReduce的并行异常检测方法及系统
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
CN113067798B (zh) Ics入侵检测方法、装置、电子设备和存储介质
CN112199670A (zh) 一种基于深度学习改进iforest对行为异常检测的日志监控方法
Liu et al. Multi-step attack scenarios mining based on neural network and Bayesian network attack graph
CN115115019A (zh) 基于神经网络的异常检测方法
CN116743555A (zh) 一种鲁棒多模态网络运维故障检测方法、系统及产品
EP4266209A1 (en) Anomaly detection method and apparatus for dynamic control system, and computer-readable medium
CN109063721A (zh) 一种行为特征数据提取的方法及装置
CN115081555A (zh) 基于生成对抗和双向循环神经网络的异常检测方法及装置
CN115175192A (zh) 一种基于图神经网络的车联网入侵检测方法
Wang et al. A HMM-based method for anomaly detection
CN113254485A (zh) 实时数据流异常检测方法及系统
Deng et al. Numerical sensitive data recognition based on hybrid gene expression programming for active distribution networks
CN113132414A (zh) 一种多步攻击模式挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230831

Address after: Room 1503, No. 858, Lianhua Avenue West, Donghuan Street, Panyu District, Guangzhou, Guangdong 510000

Patentee after: Southern Power Grid Energy Storage Co.,Ltd. Information and Communication Branch

Address before: 511400 Room 601, building 1, Tian'an headquarters center, inner street, Panyu energy saving technology park, 555 Panyu Avenue North, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: INFORMATION COMMUNICATION BRANCH, SOUTHERN POWER GRID PEAKING FM POWER GENERATION Co.,Ltd.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200925

Assignee: Guangzhou Liteqi Network Technology Co.,Ltd.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000127

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

Application publication date: 20200925

Assignee: Guangdong Lexin Technology Co.,Ltd.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000125

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

Application publication date: 20200925

Assignee: Guangdong Dingtai Century Technology Engineering Co.,Ltd.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000124

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200925

Assignee: Guangzhou zhongdiantong Technology Co.,Ltd.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000129

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

Application publication date: 20200925

Assignee: GUANGZHOU JOYSIM TECHNOLOGY CO.,LTD.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000128

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

Application publication date: 20200925

Assignee: Jiuyuanyun (Guangzhou) Intelligent Technology Co.,Ltd.

Assignor: China Southern power grid peak shaving and frequency modulation (Guangdong) energy storage technology Co.,Ltd.

Contract record no.: X2024980000130

Denomination of invention: A method, system, and electronic device for detecting abnormal flow in power data networks

Granted publication date: 20220621

License type: Common License

Record date: 20240105

EE01 Entry into force of recordation of patent licensing contract