CN112613599A - 一种基于生成对抗网络过采样的网络入侵检测方法 - Google Patents

一种基于生成对抗网络过采样的网络入侵检测方法 Download PDF

Info

Publication number
CN112613599A
CN112613599A CN202011479716.6A CN202011479716A CN112613599A CN 112613599 A CN112613599 A CN 112613599A CN 202011479716 A CN202011479716 A CN 202011479716A CN 112613599 A CN112613599 A CN 112613599A
Authority
CN
China
Prior art keywords
model
data
training
sample
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011479716.6A
Other languages
English (en)
Inventor
雷震春
马明磊
杨印根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202011479716.6A priority Critical patent/CN112613599A/zh
Publication of CN112613599A publication Critical patent/CN112613599A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Abstract

本发明公开了一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。本发明通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,以此提高了检测模型整体的准确率。

Description

一种基于生成对抗网络过采样的网络入侵检测方法
技术领域
本发明属于网络安全技术领域,更具体的说是涉及一种基于生成对抗网络过采样的网络入侵检测方法。
背景技术
计算机技术的飞速发展,网络攻击事件频繁发生,越来越多的研究者投入网络入侵检测模型的研究中。网络入侵检测是指对异常的网络流量和活动进行监控,并将其与正常的网络预期行为进行区分。检测模型在实际应用中的检测准确率高度依赖于训练模型的数据集。在实际应用中,由于网络入侵行为并不是时刻都在发生的,所以在进行数据样本捕捉时异常样本数量通常要远少于正常样本,导致大多数的网络入侵检测数据集都存在数据不平衡的问题。直接使用不平衡的数据集对网络入侵检测模型进行训练往往效果不佳,因为它们会导致分类结果偏向于样本数量多的类,使得检测模型准确率下降。
因此,如何提供一种基于生成对抗网络过采样的网络入侵检测方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于生成对抗网络过采样的网络入侵检测方法,通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,以此提高了检测模型整体的准确率。
为了实现上述目的,本发明采用如下技术方案:
一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。
优选的,网络入侵检测数据集中的主要特征包括TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征。
优选的,数据预处理包括:非数值型特征属性数值化、数据标准化以及构建标签y集合。
优选的,CGAN模型训练完成以后,以训练集中的不平衡数据作为原始数据,结合数据的类别标签对不平衡样本进行过采样,过采样完成后数据集中所有类别样本数量相等。
优选的,CGAN模型过采样技术是在GAN模型的基础上,添加一个条件信息,限制GAN模型生成特定条件下的样本以完成数据过采样。
优选的,GAN模型由两个神经网络模型组成,一个为生成模型G,一个是判别模型D;GAN模型在训练时,生成模型以随机噪声z~Pz(z)作为输入,然后尽量生成与原始样本符合同一分布的生成样本作为生成模型输出;判别模型的输入由生成样本和原始样本组成,目标是判别出两种样本,输出为概率值,若输入来自原始样本则输出1,若输入来自生成样本则输出0;同时判别模型还会给生成模型一个反馈信息,用于指导生成模型的训练,更新生成模型的参数;生成模型的目标是生成能欺骗判别模型的生成样本,判别模型的目标是判别出生成样本和原始样本,通过不断的对抗训练优化,最终达到一个纳什均衡状态,此时判别模型每次输出的概率值都是0.5,GAN模型达到最优。
优选的,GAN模型损失函数如下:
Figure BDA0002837052070000031
其中D(x)为判别模型判别原始样本x为真的概率,D(G(z))为判别生成样本G(z)为真的概率,
Figure BDA0002837052070000032
表示对log[D(x)]求期望,
Figure BDA0002837052070000033
表示对log[1-D(G(z))]求期望。
优选的,CGAN模型在GAN模型的基础上添加的条件信息为y~P(y),y~P(y)分别与x和z进行合并,作为G和D的输入;CGAN模型的损失函数如下:
Figure BDA0002837052070000034
其中,x为原始样本,z为生成样本,D(x,y)为判别模型判别原始样本x在条件信息y下为真的概率,D(G(z,y),y)为判别模型判别生成样本G(z,y)在条件信息y下为真的概率;(x,y)值从数据分布Pdata(x,y)中采样,z值从噪声分布Pz(z)中采样,y值从条件信息向量中采样,用密度函数Py(y)表示,
Figure BDA0002837052070000035
表示对log[D(x,y)]求期望,
Figure BDA0002837052070000036
表示对log[1-D(G(z,y),y)]求期望。
优选的,生成模型G将一个随机噪声z与条件信息y结合作为输入,通过神经网络学习到原始数据x与条件信息y的真实分布,生成能够以假乱真的G(z,y);生成模型用于尽量缩小G(z,y)与原始数据x的分布Pdata(x,y)间的差距;判别模型用于对输入的数据进行真假判断,当输入的数据来自于原始样本x时,D(x,y)期望输出1,当输入数据来自于生成样本G(z,y)时,D(G(z,y),y)期望输出0;通过交替训练生成模型和判别模型至平衡状态,使得两个输出都趋向于0.5,此时判别模型判别不了输入的数据是真实样本还是生成样本;CGAN模型训练至平衡状态以后,利用生成模型进行各种标签类型数据的过采样操作。
优选的,CGAN的训练过程中,对于一小批m个训练样本
Figure BDA0002837052070000041
和m个噪声样本
Figure BDA0002837052070000042
判别模型和生成模型的梯度更新损失函数为如下:
Figure BDA0002837052070000043
Figure BDA0002837052070000044
其中JD表示判别模型的损失,JG表示生成模型的损失;CGAN模型基于梯度更新交替训练JD和JG,以达到纳什均衡状态则利用生成模型进行各种标签类型数据的过采样操作。
本发明的有益效果在于:
本发明与直接使用训练集进行训练的网络入侵检测模型相比,通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,大大提高了检测模型整体的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明网络入侵检测方法流程图。
图2附图为本发明GAN模型原理图。
图3附图为本发明CGAN模型原理图。
图4附图为本发明CGAN模型过采样流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,本发明提供了一种基于生成对抗网络过采样的网络入侵检测方法,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试,查看检测准确率。
本发明中网络入侵检测模型使用三隐层每层100个神经元的结构,激活函数选用Relu函数,并且使用Adam优化器进行最小损失的求解。过采样时,CGAN模型使用单隐含层的前馈神经网络作为模型的内部结构。网络入侵检测模型输入中的所有数据都必须是数值型数据,在数据集中出现非数值型数据时,需要将非数值型数据数值化,并且采用标准化方法对数据进行预处理操作。
本实施例中,网络入侵检测数据集中的主要特征包括TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征。TCP连接基本特征包括:(1)duration:连接持续时间,以秒为单位,连续类型。范围是[0,58329]。(2)protocol_type:协议类型,离散类型,共有3种:TCP,UDP,ICMP。(3)service:目标主机的网络服务类型,离散类型,共有70种。(4)flag.连接正常或错误的状态,离散类型,共11种。(5)src_bytes:从源主机到目标主机的数据的字节数,连续类型,范围是[0,1379963888]。(6)dst_bytes:从目标主机到源主机的数据的字节数,连续类型,范围是[0.1309937401]。(7)land:若连接来自/送达同一个主机/端口则为1,否则为0,离散类型,0或1。(8)wrong_fragment:错误分段的数量,连续类型,范围是[0,3]。(9)urgent:加急包的个数,连续类型,范围是[0,14]。TCP连接的内容特征包括:(10)hot:访问系统敏感文件和目录的次数,连续,范围是[0,101]。例如访问系统目录,建立或执行程序等。(11)num_failed_logins:登录尝试失败的次数。连续,[0,5]。(12)logged_in:成功登录则为1,否则为0,离散,0或1。(13)num_compromised:compromised条件(**)出现的次数,连续,[0,7479]。(14)root_shell:若获得rootshell则为1,否则为0,离散,0或1。root_shell是指获得超级用户权限。(15)su_attempted:若出现"suroot"命令则为1,否则为0,离散,0或1。(16)num_root:root用户访问次数,连续,[0,7468]。(17)num_file_creations:文件创建操作的次数,连续,[0,100]。(18)num_shells:使用shell命令的次数,连续,[0,5]。(19)num_access_files:访问控制文件的次数,连续,[0,9]。例如对/etc/passwd或.rhosts文件的访问。(20)num_outbound_cmds:一个FTP会话中出站连接的次数,连续,0。数据集中这一特征出现次数为0。(21)is_hot_login:登录是否属于“hot”列表(***),是为1,否则为0,离散,0或1。例如超级用户或管理员登录。(22)is_guest_login:若是guest登录则为1,否则为0,离散,0或1。基于时间的网络流量统计特征包括:(23)count.过去两秒内,与当前连接具有相同的目标主机的连接数,连续,[0,511]。(24)srv_count.过去两秒内,与当前连接具有相同服务的连接数,连续,[0,511]。(25)serror_rate.过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN”错误的连接的百分比,连续,[0.00,1.00]。(26)srv_serror_rate.过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN”错误的连接的百分比,连续,[0.00,1.00]。(27)rerror_rate.过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ”错误的连接的百分比,连续,[0.00,1.00]。(28)srv_rerror_rate.过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ”错误的连接的百分比,连续,[0.00,1.00]。(29)same_srv_rate.过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的连接的百分比,连续,[0.00,1.00]。(30)diff_srv_rate.过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比,连续,[0.00,1.00]。(31)srv_diff_host_rate.过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接的百分比,连续,[0.00,1.00]。基于主机的网络流量统计特征包括:(32)dst_host_count.前100个连接中,与当前连接具有相同目标主机的连接数,连续,[0,255]。(33)dst_host_srv_count.前100个连接中,与当前连接具有相同目标主机相同服务的连接数,连续,[0,255]。(34)dst_host_same_srv_rate.前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比,连续,[0.00,1.00]。(35)dst_host_diff_srv_rate.前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比,连续,[0.00,1.00]。(36)dst_host_same_src_port_rate.前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比,连续,[0.00,1.00]。(37)dst_host_srv_diff_host_rate.前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比,连续,[0.00,1.00]。(38)dst_host_serror_rate.前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比,连续,[0.00,1.00]。(39)dst_host_srv_serror_rate.前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的百分比,连续,[0.00,1.00]。(40)dst_host_rerror_rate.前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比,连续,[0.00,1.00]。(41)dst_host_srv_rerror_rate.前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百分比,连续,[0.00,1.00]。
本实施例中,数据预处理包括:非数值型特征属性数值化、数据标准化以及构建标签y集合。非数值型特征属性数值化:CGAN模型的输入需要数值类型的数据,但数据集的特征中存在非数值属性特征如特征“protocol_type”有3种取值:“tcp”,“udp”,“icmp”,若简单的编码为数值1,2,3,则不能反应出特征之间的相似性。采用one-hot编码方法将非数值型特征转换为数值型表示,例如非数值特征“protocol_type”经过one-hot编码以后对应变成二进制特征向量(1,0,0),(0,1,0),(0,0,1)。数据标准化:一般网络入侵检测数据集中的特征在分布上有很大的差异,需要进行数据规整。本技术产品中采用数据标准化操作,将数据集中的数据调整成均值为0标准差为1的分布。构建标签y集合:将需要进行过采样的类别的标签进行进行one-hot编码,构建标签的向量集合。
本实施例中,CGAN模型训练完成以后,以训练集中的不平衡数据作为原始数据,结合数据的类别标签对不平衡样本进行过采样,过采样完成后数据集中所有类别样本数量相等。CGAN模型过采样技术是在GAN模型的基础上,添加一个条件信息,限制GAN模型生成特定条件下的样本以完成数据过采样。
参阅附图2,GAN模型由两个神经网络模型组成,一个GAN模型会同时训练两个子模型:一个从未知分布或者噪声分布中学习生成样本的生成模型G,以及一个学习如何从样本中区分原始样本和生成样本的判别模型D。GAN模型在训练时,生成模型以随机噪声z~Pz(z)作为输入,然后尽量生成与原始样本符合同一分布的生成样本作为生成模型输出;判别模型的输入由生成样本和原始样本组成,目标是判别出两种样本,输出为概率值,若输入来自原始样本则输出1(真),若输入来自生成样本则输出0(假);同时判别模型还会给生成模型一个反馈信息,用于指导生成模型的训练,更新生成模型的参数;生成模型的目标是生成能欺骗判别模型的生成样本,判别模型的目标是判别出生成样本和原始样本,通过不断的对抗训练优化,最终达到一个纳什均衡状态,此时判别模型每次输出的概率值都是0.5(相当于判别不了两种样本的来源,只能随机猜测),GAN模型达到最优。在GAN模型训练至最优以后,可以利用生成模型生成大量符合原始数据分布的生成样本来用于样本数据的过采样。
GAN模型损失函数如下:
Figure BDA0002837052070000091
其中D(x)为判别模型判别原始样本x为真的概率,D(G(z))为判别生成样本G(z)为真的概率,
Figure BDA0002837052070000092
表示对log[D(x)]求期望,
Figure BDA0002837052070000093
表示对log[1-D(G(z))]求期望。
参阅附图3,在CGAN模型中,生成模型并不是从一个未知的噪声分布开始学习,而是通过一个特定的条件信息与噪声分布结合后再学习如何制造生成样本。CGAN模型中的判别模型也是如此,通过结合样本信息和条件信息进行样本的判别。CGAN模型在GAN模型的基础上添加的条件信息为y~P(y),y~P(y)分别与x和z进行合并,作为G和D的输入;CGAN模型的损失函数如下:
Figure BDA0002837052070000094
其中,x为原始样本,z为生成样本,D(x,y)为判别模型判别原始样本x在条件信息y下为真的概率,D(G(z,y),y)为判别模型判别生成样本G(z,y)在条件信息y下为真的概率;(x,y)值从数据分布Pdata(x,y)中采样,z值从噪声分布Pz(z)中采样,y值从条件信息向量中采样,用密度函数Py(y)表示,
Figure BDA0002837052070000101
表示对log[D(x,y)]求期望,
Figure BDA0002837052070000102
表示对log[1-D(G(z,y),y)]求期望。
本实施中,生成模型G将一个随机噪声z与条件信息y结合作为输入,通过神经网络学习到原始数据x与条件信息y的真实分布,生成能够以假乱真的G(z,y);生成模型用于尽量缩小G(z,y)与原始数据x的分布Pdata(x,y)间的差距;判别模型用于对输入的数据进行真假判断,当输入的数据来自于原始样本x时,D(x,y)期望输出1,当输入数据来自于生成样本G(z,y)时,D(G(z,y),y)期望输出0;通过交替训练生成模型和判别模型至平衡状态,使得两个输出都趋向于0.5,此时判别模型判别不了输入的数据是真实样本还是生成样本;CGAN模型训练至平衡状态以后,利用生成模型进行各种标签类型数据的过采样操作。
本实施例中,CGAN的训练过程中,对于一小批m个训练样本
Figure BDA0002837052070000103
和m个噪声样本
Figure BDA0002837052070000104
判别模型和生成模型的梯度更新损失函数为如下:
Figure BDA0002837052070000105
Figure BDA0002837052070000106
其中JD表示判别模型的损失,JG表示生成模型的损失;CGAN模型基于梯度更新交替训练JD和JG,以达到纳什均衡状态则利用生成模型进行各种标签类型数据的过采样操作。
CGAN模型训练至平衡状态以后,使用标签信息作为生成模型的条件信息对样本数量较少的类别进行样本生成,完成数据过采样,如图4所示。生成模型的输入是满足均匀分布的噪声z和标签信息y,对数据集集中样本数量少的类别(类别1、类别2、…、类别n)进行过采样,将这些类别的样本过采样至所需的数量。
本发明通过使用CGAN模型对网络入侵检测数据集中的不平衡数据进行过采样,重新平衡了数据集中各个类别的数量分布,然后使用过采样后的数据集对检测模型进行训练集,以达到增加检测模型准确率的目的。
本技发明在网络入侵检测模型训练之前,构建CGAN模型对不平衡的数据进行过采样,有效的平衡了网络入侵检测数据集中各个类别数据的分布,然后使用过采样后的数据集对检测模型进行训练,以此提高了检测模型的准确率,解决了网络入侵检测数据集中数据不平衡导致检测模型检测率低的问题。本发明与直接使用训练集进行训练的网络入侵检测模型相比,通过CGAN模型产生的过采样样本,先解决了数据的不平衡问题以后再对检测模型进行训练,使得检测模型对样本数量较少类别的分类更加准确,大大提高了检测模型整体的准确率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,先选取网络入侵检测数据集中的主要特征,对主要特征进行数据预处理,得到训练集,再通过CGAN模型对训练集中的不平衡数据过采样,然后输入到网络入侵检测模型中进行训练,训练完成以后使用测试集对网络入侵检测模型进行测试。
2.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,网络入侵检测数据集中的主要特征包括TCP连接基本特征、TCP连接的内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征。
3.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,数据预处理包括:非数值型特征属性数值化、数据标准化以及构建标签y集合。
4.根据权利要求1所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN模型训练完成以后,以训练集中的不平衡数据作为原始数据,结合数据的类别标签对不平衡样本进行过采样,过采样完成后数据集中所有类别样本数量相等。
5.根据权利要求4所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN模型过采样技术是在GAN模型的基础上,添加一个条件信息,限制GAN模型生成特定条件下的样本以完成数据过采样。
6.根据权利要求5所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,GAN模型由两个神经网络模型组成,一个为生成模型G,一个是判别模型D;GAN模型在训练时,生成模型以随机噪声z~Pz(z)作为输入,然后尽量生成与原始样本符合同一分布的生成样本作为生成模型输出;判别模型的输入由生成样本和原始样本组成,目标是判别出两种样本,输出为概率值,若输入来自原始样本则输出1,若输入来自生成样本则输出0;同时判别模型还会给生成模型一个反馈信息,用于指导生成模型的训练,更新生成模型的参数;生成模型的目标是生成能欺骗判别模型的生成样本,判别模型的目标是判别出生成样本和原始样本,通过不断的对抗训练优化,最终达到一个纳什均衡状态,此时判别模型每次输出的概率值都是0.5,GAN模型达到最优。
7.根据权利要求6所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,GAN模型损失函数如下:
Figure FDA0002837052060000021
其中D(x)为判别模型判别原始样本x为真的概率,D(G(z))为判别生成样本G(z)为真的概率,
Figure FDA0002837052060000022
表示对log[D(x)]求期望,
Figure FDA0002837052060000023
表示对log[1-D(G(z))]求期望。
8.根据权利要求7所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN模型在GAN模型的基础上添加的条件信息为y~P(y),y~P(y)分别与x和z进行合并,作为G和D的输入;CGAN模型的损失函数如下:
Figure FDA0002837052060000024
其中,x为原始样本,z为生成样本,D(x,y)为判别模型判别原始样本x在条件信息y下为真的概率,D(G(z,y),y)为判别模型判别生成样本G(z,y)在条件信息y下为真的概率;(x,y)值从数据分布Pdata(x,y)中采样,z值从噪声分布Pz(z)中采样,y值从条件信息向量中采样,用密度函数Py(y)表示,
Figure FDA0002837052060000025
表示对log[D(x,y)]求期望,
Figure FDA0002837052060000026
表示对log[1-D(G(z,y),y)]求期望。
9.根据权利要求8所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,生成模型G将一个随机噪声z与条件信息y结合作为输入,通过神经网络学习到原始数据x与条件信息y的真实分布,生成能够以假乱真的G(z,y);生成模型用于尽量缩小G(z,y)与原始数据x的分布Pdata(x,y)间的差距;判别模型用于对输入的数据进行真假判断,当输入的数据来自于原始样本x时,D(x,y)期望输出1,当输入数据来自于生成样本G(z,y)时,D(G(z,y),y)期望输出0;通过交替训练生成模型和判别模型至平衡状态,使得两个输出都趋向于0.5,此时判别模型判别不了输入的数据是真实样本还是生成样本;CGAN模型训练至平衡状态以后,利用生成模型进行各种标签类型数据的过采样操作。
10.根据权利要求9所述的一种基于生成对抗网络过采样的网络入侵检测方法,其特征在于,CGAN的训练过程中,对于一小批m个训练样本
Figure FDA0002837052060000031
和m个噪声样本
Figure FDA0002837052060000032
判别模型和生成模型的梯度更新损失函数为如下:
Figure FDA0002837052060000033
Figure FDA0002837052060000034
其中JD表示判别模型的损失,JG表示生成模型的损失;CGAN模型基于梯度更新交替训练JD和JG,以达到纳什均衡状态则利用生成模型进行各种标签类型数据的过采样操作。
CN202011479716.6A 2020-12-15 2020-12-15 一种基于生成对抗网络过采样的网络入侵检测方法 Pending CN112613599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011479716.6A CN112613599A (zh) 2020-12-15 2020-12-15 一种基于生成对抗网络过采样的网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479716.6A CN112613599A (zh) 2020-12-15 2020-12-15 一种基于生成对抗网络过采样的网络入侵检测方法

Publications (1)

Publication Number Publication Date
CN112613599A true CN112613599A (zh) 2021-04-06

Family

ID=75239307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479716.6A Pending CN112613599A (zh) 2020-12-15 2020-12-15 一种基于生成对抗网络过采样的网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN112613599A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283476A (zh) * 2021-04-27 2021-08-20 广东工业大学 一种物联网网络入侵检测方法
CN113283299A (zh) * 2021-04-27 2021-08-20 国网山东省电力公司烟台供电公司 基于cgan网络增强局部放电信号prpd图谱数据的方法
CN113507429A (zh) * 2021-04-16 2021-10-15 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
CN114760128A (zh) * 2022-04-11 2022-07-15 西北工业大学 一种基于重采样的网络异常流量检测方法
CN115622806A (zh) * 2022-12-06 2023-01-17 南京众智维信息科技有限公司 一种基于bert-cgan的网络入侵检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392255A (zh) * 2017-07-31 2017-11-24 深圳先进技术研究院 少数类图片样本的生成方法、装置、计算设备及存储介质
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN111447212A (zh) * 2020-03-24 2020-07-24 哈尔滨工程大学 一种基于gan的apt攻击序列的生成与检测方法
CN112016395A (zh) * 2020-07-14 2020-12-01 华北电力大学(保定) 一种基于cgan-cnn的同步电机转子匝间短路故障判别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392255A (zh) * 2017-07-31 2017-11-24 深圳先进技术研究院 少数类图片样本的生成方法、装置、计算设备及存储介质
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN111447212A (zh) * 2020-03-24 2020-07-24 哈尔滨工程大学 一种基于gan的apt攻击序列的生成与检测方法
CN112016395A (zh) * 2020-07-14 2020-12-01 华北电力大学(保定) 一种基于cgan-cnn的同步电机转子匝间短路故障判别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GEORGIOS DOUZAS等: "Effective data generation for imbalanced learning using Conditional Generative Adversarial Networks", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
JINGCHENG YE等: "Intrusion Detection Model Based on Conditional Generative Adversarial Networks", 《ACAI 2019: PROCEEDINGS OF THE 2019 2ND INTERNATIONAL CONFERENCE ON ALGORITHMS, COMPUTING AND ARTIFICIAL INTELLIGENCE》 *
彭中联等: "基于改进CGANs的入侵检测方法研究", 《信息网络安全》 *
李艳霞等: "不平衡数据分类方法综述", 《控制与决策》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507429A (zh) * 2021-04-16 2021-10-15 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
CN113507429B (zh) * 2021-04-16 2022-04-05 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
CN113283476A (zh) * 2021-04-27 2021-08-20 广东工业大学 一种物联网网络入侵检测方法
CN113283299A (zh) * 2021-04-27 2021-08-20 国网山东省电力公司烟台供电公司 基于cgan网络增强局部放电信号prpd图谱数据的方法
CN113283476B (zh) * 2021-04-27 2023-10-10 广东工业大学 一种物联网网络入侵检测方法
CN114760128A (zh) * 2022-04-11 2022-07-15 西北工业大学 一种基于重采样的网络异常流量检测方法
CN115622806A (zh) * 2022-12-06 2023-01-17 南京众智维信息科技有限公司 一种基于bert-cgan的网络入侵检测方法

Similar Documents

Publication Publication Date Title
CN112613599A (zh) 一种基于生成对抗网络过采样的网络入侵检测方法
CN107992746A (zh) 恶意行为挖掘方法及装置
CN106973038B (zh) 基于遗传算法过采样支持向量机的网络入侵检测方法
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN109784015B (zh) 一种身份鉴别方法及装置
CN103870751A (zh) 入侵检测方法及系统
US9104877B1 (en) Detecting penetration attempts using log-sensitive fuzzing
CN113468071A (zh) 模糊测试用例生成方法、系统、计算机设备及存储介质
CN114090402A (zh) 一种基于孤立森林的用户异常访问行为检测方法
CN116957049B (zh) 基于对抗自编码器的无监督内部威胁检测方法
CN111953665B (zh) 服务器攻击访问识别方法及系统、计算机设备、存储介质
Al-Shabi Design of a network intrusion detection system using complex deep neuronal networks
CN115277113A (zh) 一种基于集成学习的电网网络入侵事件检测识别方法
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
Rumez et al. Anomaly detection for automotive diagnostic applications based on N-grams
Yin et al. A feature selection method for improved clonal algorithm towards intrusion detection
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及系统
US20230164162A1 (en) Valuable alert screening method efficiently detecting malicious threat
CN115514581B (zh) 一种用于工业互联网数据安全平台的数据分析方法及设备
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质
CN114553468A (zh) 一种基于特征交叉与集成学习的三级网络入侵检测方法
JP4476078B2 (ja) 時系列データ判定用プログラム
Youm et al. An authorized access attack detection method for realtime intrusion detection system
CN117574135B (zh) 一种电网攻击事件检测方法、装置、设备及存储介质
CN117592114B (zh) 面向网络平行仿真的数据脱敏方法、系统和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210406

RJ01 Rejection of invention patent application after publication