CN110166454B - 一种基于自适应遗传算法的混合特征选择入侵检测方法 - Google Patents

一种基于自适应遗传算法的混合特征选择入侵检测方法 Download PDF

Info

Publication number
CN110166454B
CN110166454B CN201910424226.7A CN201910424226A CN110166454B CN 110166454 B CN110166454 B CN 110166454B CN 201910424226 A CN201910424226 A CN 201910424226A CN 110166454 B CN110166454 B CN 110166454B
Authority
CN
China
Prior art keywords
algorithm
intrusion detection
feature
adopting
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910424226.7A
Other languages
English (en)
Other versions
CN110166454A (zh
Inventor
李兆玉
裴作飞
刘丹
姚立霜
王云锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910424226.7A priority Critical patent/CN110166454B/zh
Publication of CN110166454A publication Critical patent/CN110166454A/zh
Application granted granted Critical
Publication of CN110166454B publication Critical patent/CN110166454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及入侵检测网络安全领域,特别涉及一种基于自适应遗传算法的混合特征选择入侵检测方法,包括导入网络入侵检测数据集;采用独热编码处理离散特征,采用数值标准化处理连续特征;采用基尼指数对特征子集进行过滤,剔除冗余特征,选择最优特征;采用SVM算法作为封装方法组成混合特征选择算法,并通过自适应遗传算法进行搜索获取最优特征子集;采用最大迭代次数作为算法终止条件,在此基础上当适应度函数值达到指定阈值时,算法将提前终止迭代;本发明结合了过滤选择算法和封装选择算法的优点,利用二者的互补特性,有效删除冗余特征和相关度低的特征,提高了入侵检测的检测效率,降低误报率。

Description

一种基于自适应遗传算法的混合特征选择入侵检测方法
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于自适应遗传算法的混合特征选择入侵检测方法。
背景技术
随着互联网的快速发展和计算机用户数量爆发式增长,互联网已经涉及到我们日常生活的方方面面。然而,在互联网快速发展的同时,信息安全事件层出不穷。据国家计算机网络应急技术处理协调中心(National Internet Emergency Center,简称CNCERT)发布的2018年中国互联网网络安全报告显示,近几年我国遭受的网络安全隐患有DDos攻击、移动互联网恶意程序、远程监视、信息安全漏洞、境外攻击等。传统互联网安全技术主要包括身份认证与访问控制技术、防火墙技术、加密和数字签名等,但这些技术大多数采取的是预防性措施,是不足以在当前复杂攻击横行的时代完全保障网络安全的。
入侵检测技术属于动态网络安全技术,能够主动的收集系统中的各类审计数据、网络数据包以及计算机产生的各种日志信息,并且通过这些统计信息建立算法模型对异常流量和攻击进行检测,及时处理保障网路安全。因此,将入侵检测技术作为网络安全防御的下一道防线以弥补预防性措施的不足,是必要和必须的。此外,入侵检测技术的好坏跟模型算法的检测率是分不开的,而特征选择可以去除冗余特征,降低数据维度,提高网络入侵检测预测性能。
发明内容
为了提高网络入侵检测的检测效率,降低误报率,本发明提出一种基于自适应遗传算法的入侵检测混合特征选择方法,包括:
S1:导入网络入侵检测数据集,数据集中的特征包括网络连接持续时间、协议类型、目标主机的网络服务类型、连接状态、源地址到目标地址的数据流量、目标地址到源地址的数据流量、错误分段的数量;
S2:采用独热编码处理离散型特征,采用数值标准化处理连续型特征;
S3:初始化参数,采用基尼Gini指数对特征子集进行过滤,剔除冗余特征,选择最优特征;
S4:将步骤S3筛选后的全部特征作为完整的特征空间,采用基于支持向量机的分类器作为自适应遗传算法中适应度函数的计算与特征选择结果性能的评价;
S5:采用最大迭代次数作为算法终止条件,在此基础上当适应度函数值达到指定阈值时,将提前终止迭代;
S6:当迭代结束时得到最优特征子集,将最优特征子集中的特征输入入侵检测算法,完成入侵检测。
进一步的,导入全部特征子集的过程包括:输入实例x的特征向量记作x=(x(1),x(2),...,x(i),...,x(n))T,给出训练用的训练样本集:T={(x1,y1),(x2,y2),...,(xi,yi),...,(xN,yN)};其中,x(i)表示x的第i个特征,xi表示多个输入变量中的第i个。
进一步的,采用数值标准化处理连续特征包括:
Figure BDA0002066966940000021
其中,
Figure BDA0002066966940000022
表示第i个特征数值标准化后的值,x(i)表示x的第i个特征,μx是训练集对应特征列的平均值,σx是对应特征列的标准差。
进一步的,初始化Gini-GA参数包括:假设有k个类,样本点属于第k类的概率为pk,对于给定的样本集合D,其基尼指数为:
Figure BDA0002066966940000023
其中,|ck|是D中属于k个类中的样本子集,k是样本的个数。
进一步的,若样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分,即D1={(x,y)∈D|A(x)=a},D2=D-D1,那么在特征A的条件下,集合D的基尼系数定义为:
Figure BDA0002066966940000031
进一步的,所述自适应遗传算法具体方法为:
501、自适应遗传算法的种群个体采用二进制编码,一个染色体表示一个特征子集,则染色体可以表示为gi={g1,g2,...,gi,...,gn}g={g1,g2,...,gn};其中gi=0表示删除该属性,gi=1表示选择该属性;
502、采用封装器模式的评价函数,计算出当前种群中每一个个体的适应度函数值;
503:当自适应遗传算法迭代次数达到100或适应度函数值达到99.9%时,算法终止转507;
504:采用锦标赛选择算法按照个体适应度值的大小进行选择操作;
505:采用单点交叉与单点变异策略进行交叉和变异操作;
506:如果由N个新个体组成的新一代群体已经产生,则转502;否则,转504;
507:输出搜索结果,算法终止。
进一步的,个体的适应度函数值的计算包括将基于SVM分类器的检测率作为特征子集评价函数的因子表示为:
F(x)=D(x);
其中,D(x)为x染色体的SVM分类器的检测率。
进一步的,采用单点交叉与单点变异策略进行交叉和变异操作,其中每个个体的交叉概率Pc与变异概率Pm
Figure BDA0002066966940000041
Figure BDA0002066966940000042
其中,fmax为每代群体中最大的适应度值;favg为每代群体的平均适应度值;f'为交叉的2个个体中较大的适应度值;f为变异个体的适应度值;Pc1、Pc2均为交叉率参数;Pm1、Pm2均为变异率参数。
与现有技术相比,本发明的有益效果在于:
1)本发明可以为其它学习算法提供一种特征选择方法;
2)本发明结合了过滤选择算法和封装选择算法的优点,利用二者的互补特性,提高了算法检测效率,降低误报率。
3)本发明对传统遗传算法进行改进,缩短算法搜索的时间,避免遗传算法过早收敛。
附图说明
图1是本发明中的混合特征选择方法的流程示意图;
图2是本发明一种基于自适应遗传算法的混合特征选择入侵检测方法的具体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的混合特征选择方法的流程示意图,如图所示,混合特征选择方法包含两个阶段:阶段一使用Gini指数作为评价标准对全部特征子集进行过滤;阶段二采用自适应遗传算法作为搜索策略,SVM分类算法作为封装方法和评价指标,对特征子集进行处理。阶段一和阶段二组成混合特征选择方法,最终得到选择的特征子集;本发明提供的一种基于自适应遗传算法的混合特征选择入侵检测方法,包括:
S1:导入网络入侵检测数据集,数据集中的特征包括网络连接持续时间、协议类型、目标主机的网络服务类型、连接状态、源地址到目标地址的数据流量、目标地址到源地址的数据流量、错误分段的数量;
S2:采用独热编码处理离散型特征,采用数值标准化处理连续型特征;
S3:初始化参数,采用基尼Gini指数对特征子集进行过滤,剔除冗余特征,选择最优特征;
S4:将步骤S3筛选后的全部特征作为完整的特征空间,采用基于支持向量机的分类器作为自适应遗传算法中适应度函数的计算与特征选择结果性能的评价;
S5:采用最大迭代次数作为算法终止条件,在此基础上当适应度函数值达到指定阈值时,将提前终止迭代;
S6:当迭代结束时得到最优特征子集,将最优特征子集中的特征输入入侵检测算法,完成入侵检测。
在本实施例中选择导入的网络入侵检测数据集为Kddcup9910%数据集,即KDD竞赛在1999年举行的数据挖掘与知识发现竞赛时采用的数据集,该数据集收集了9周时间的TCPdump(*)网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段;该数据集包括41种特征和一个最后标记,共42项,包括9种TCP连接基本特征、13种TCP连接的内容特征、9种基于时间的网络流量统计特征、10种基于主机的网络流量统计特征;本发明中所述的特征至少包括以上41种特征。
TCP连接基本特征包括连接持续时间、协议类型、目标主机的网络服务类型、连接状态(正常连接值为1,否则为0)、源地址到目标地址的数据流量、目标地址到源地址的数据流量、连接是否来自同一个主机(1表示数据连接源地址和目标地址为同一主机或端口;0表示其他)、错误分段的数量以及加急包的个数,其中,连接持续时间、源地址到目标地址的数据流量、目标地址到源地址的数据流量、错误分段的数量以及加急包的个数均为连续型特征,其他为离散型特征。
TCP连接的内容特征包括访问系统敏感文件和目录的次数;尝试登陆失败的次数;是否成功登陆(成功登录为1,否则为0);某条件出现的次数;是否获得(若获得root shell则为1,否则为0);是否出现"su root"命令(若出现"su root"命令则为1,否则为0);root用户访问次数;文件创建操作的次数;使用shell命令的次数;访问控制文件的次数;一个FTP会话中出站连接的次数;登录是否属于“hot”列表(若是为1,否则为0);是否是guest登录(若是guest登录则为1,否则为0);其中,是否成功登陆(成功登录为1,否则为0)、是否获得(若获得root shell则为1,否则为0)、是否出现"su root"命令(若出现"su root"命令则为1,否则为0)、登录是否属于“hot”列表(若是为1,否则为0);是否是guest登录(若是guest登录则为1,否则为0)为离散型特征,其他特征为连续型。
基于时间的网络流量统计特征包括只观察过去某时间与当前连接有相同目标主机的连接数量;只观察过去某时间内与当前连接有相同服务的连接数量;过去某时间内当前连接具有相同目标主机的连接数;与当前连接具有相同服务的连接数;与当前连接具有相同目标主机的连接中,出现"SYN"错误的连接的百分比;与当前连接具有相同服务的连接中,出现"SYN"错误的连接的百分比;与当前连接具有相同目标主机的连接中,出现"REJ"错误的连接的百分比;在当前连接具有相同服务的连接中,出现"REJ"错误的连接的百分比;在与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的百分比;在于当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比;在于当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接;以上特征均为连续特征。
按照目标主机进行分类,使用一个具有N个连接的时间窗,统计当前连接之前N个连接记录中与当前连接具有相同目标主机的统计信息,则基于主机的网络流量统计特征包括前N个连接中与当前连接具有相同目标主机的连接数;与当前连接具有相同目标主机相同服务的连接数;与当前连接具有相同目标主机相同服务的连接所占的百分比;与当前连接具有相同目标主机不同服务的连接所占的百分比;与当前连接具有相同目标主机相同源端口的连接所占的百分比;与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比;与当前连接具有相同目标主机的连接中出现SYN错误的连接所占的百分比;与当前连接具有相同目标主机相同服务的连接中出现REJ错误的连接所占的百分比;与当前连接具有相同目标主机的连接中出现REJ错误的连接所占的百分比;与当前连接具有相同目标主机系湍妨维接中出现REJ错误的连接所占的百分比;以上特征均为连续特征。
本发明的目的旨在从混合有连续型特征和离散型特征的特征子集中选出选出高质量的特征子集,离散型特征如协议类型protocal_type,取值为tcp(TransmissionControl Protocol,传输控制协议)、udp(User Datagram Protocol,用户数据报协议)、icmp(Internet Control Message Protocol,网络控制报文协议);连续型特征如连接持续时间duration,以秒为单位,范围是[0,58329]。
在阶段一中,使用Gini指数作为评价标准对全部特征子集进行过滤,包括数据预处理和Gini指数特征选择:
1)数据预处理
首先,需要导入全部特征子集,输入实例x的特征向量记作x=(x(1),x(2),...,x(i),...,x(n))T其中,x(i)表示x的第i个特征;给出训练用的训练样本集:T={(x1,y1),(x2,y2),...,(xi,yi),...,(xN,yN)};xi表示多个输入变量中的第i个,yi表示多个输出变量中的第i个,输入与输出对(xi,yi)又称样本或样本点。
然后,采用独热编码(one-hot encoding)处理无序离散特征,采用数值标准化处理连续特征,表示为:
Figure BDA0002066966940000081
其中,
Figure BDA0002066966940000082
表示第i个特征数值标准化后的值,μx是训练集对应特征列的平均值,σx是对应特征列的标准差。
2)Gini指数特征选择
初始化Gini-GA参数包括:假设有k个类,样本点属于第k类的概率为pk,对于给定的样本集合D,其基尼指数为:
Figure BDA0002066966940000083
若样本集合D根据特征A是否取某一可能值a被分割成D1、D2两部分,即D1={(x,y)∈D|A(x)=a}、D1=D-D1,那么在此情况下集合D的基尼系数定义为:
Figure BDA0002066966940000084
其中,|ck|是D中属于k个类中的样本子集,k是样本的个数。
图2为本发明基于自适应遗传算法的入侵检测混合特征选择方法的具体流程示意图,如图所示,本发明的基于自适应遗传算法的入侵检测混合特征选择方法具体包括如下步骤:
501、自适应遗传算法的种群个体采用二进制编码,一个染色体表示一个特征子集,则染色体可以表示为g={g1,g2,...,gi,...,gn};
502、采用封装器模式的评价函数,计算出当前种群中每一个个体的适应度函数值;
503:当自适应遗传算法迭代次数达到100或适应度函数值达到99.9%时,算法终止转507;
504:采用锦标赛选择算法按照个体适应度值的大小进行选择操作;
505:采用单点交叉与单点变异策略进行交叉和变异操作;
506:如果由N个新个体组成的新一代群体已经产生,则转502;否则,转504;
507:输出搜索结果,算法终止。
对种群个体编码及种群初始化,自适应遗传算法的种群个体采用二进制编码,一个染色体表示一个特征子集,则染色体可以表示为g={g1,g2,...,gi,...,gn}。其中gi=0表示删除属性i,gi=1表示选择属性i;种群初始化的大小根据计算机的性能和数据的大小进行选择,一般在20-100之间;
其次,适应度函数的计算,如图所示采用SVM作为封装器模式的评价函数,即将基于SVM分类器的检测率作为特征子集评价函数的因子。计算出当前种群中每一个个体的适应度函数值。适应度函数定义如下:F(x)=D(x);
其中D(x)为x染色体的SVM分类器的检测率;
遗传操作分为选择、交叉、和变异3个步骤,选择的目的是确定交叉群体,本文采用锦标赛方法选择策略,即每次从种群中取出一定数量个体,然后选择其中最好的一个进入子代种群,重复该操作,直到新的种群规模达到原来的种群规模;锦标赛方法选择策略具体的操作步骤如下:
(1)确定每次选择的个体数量N,一般选择2个;
(2)从种群中随机选择2个个体,根据每个个体的适应度值,选择其中适应度值最好的个体进入子代种群;
(3)重复步骤(2)多次,直到新的种群规模达到原来的种群规模大小。
交叉与变异的目的是产生新的个体,使个体以一定的概率和步长发生变化,保证算法的全局搜索能力及避免陷入局部最优;本发明采用单点交叉与单点变异策略进行交叉和变异操作;每个个体的交叉概率Pc与变异概率Pm采用自适应的思想进行改进,具体计算公式如下:
Figure BDA0002066966940000101
Figure BDA0002066966940000102
式中:fmax为每代群体中最大的适应度值,favg为每代群体的平均适应度值,f'为交叉的2个个体中较大的适应度值,f为变异个体的适应度值;Pc1、Pc2是交叉率参数,Pm1、Pm2是变异率参数;本发明Pc1取0.9,Pc2取0.6,Pm1取0.1,Pm2取0.001;也可以根据实际情况调整参数取值。
算法终止条件采用最大迭代次数,本发明最大迭代次数设置为100,在此基础上当相邻种群的平均适应度值大于或等于99.9%时,Gini-GA算法将提前终止迭代。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于:该方法包括以下步骤:
S1:导入网络入侵检测数据集,数据集中的特征包括网络连接持续时间、协议类型、目标主机的网络服务类型、连接状态、源地址到目标地址的数据流量、目标地址到源地址的数据流量、错误分段的数量;
S2:采用独热编码处理离散型特征,采用数值标准化处理连续型特征;
S3:初始化参数,采用基尼Gini指数对特征子集进行过滤,剔除冗余特征,选择最优特征;
S4:将步骤S3筛选后的全部特征作为完整的特征空间,采用基于支持向量机的分类器作为自适应遗传算法中适应度函数的计算与特征选择结果性能的评价;
S5:采用最大迭代次数作为算法终止条件,在此基础上当适应度函数值达到指定阈值时,将提前终止迭代,即包括:
501、自适应遗传算法的种群个体采用二进制编码,一个染色体表示一个特征子集,则染色体可以表示为
Figure 210339DEST_PATH_IMAGE002
;其中
Figure 861900DEST_PATH_IMAGE004
表示删除该属性,
Figure 359746DEST_PATH_IMAGE006
表示选择该属性;
502、采用封装器模式的评价函数,计算出当前种群中每一个个体的适应度函数值,即将基于SVM分类器的检测率作为特征子集评价函数的因子表示为:
Figure 223797DEST_PATH_IMAGE008
其中,
Figure 710273DEST_PATH_IMAGE010
x染色体的SVM分类器的检测率;
503:当自适应遗传算法迭代次数达到100或适应度函数值达到99.9%时,算法终止转507;
504:采用锦标赛选择算法按照个体适应度值的大小进行选择操作;
505:采用单点交叉与单点变异策略进行交叉和变异操作,其中每个个体的交叉概率
Figure 250845DEST_PATH_IMAGE012
与变异概率
Figure 252299DEST_PATH_IMAGE014
表示为:
Figure 123303DEST_PATH_IMAGE016
Figure 775870DEST_PATH_IMAGE018
其中,
Figure 441338DEST_PATH_IMAGE020
为每代群体中最大的适应度值;
Figure 664509DEST_PATH_IMAGE022
为每代群体的平均适应度值;
Figure 119630DEST_PATH_IMAGE024
为交叉的2个个体中较大的适应度值;f为变异个体的适应度值;
Figure 111856DEST_PATH_IMAGE026
分别为第一交叉率参数和第二交叉参数;
Figure 10542DEST_PATH_IMAGE028
分别为第一变异率参数和第二变异率参数;
506:如果由N个新个体组成的新一代群体已经产生,则转502;否则,转504;
507:输出搜索结果,算法终止;
S6:当迭代结束时得到最优特征子集,将最优特征子集中的特征输入入侵检测算法,完成入侵检测。
2.根据权利要求1所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,导入全部特征子集的过程包括:输入实例x的特征向量记作
Figure 721009DEST_PATH_IMAGE030
,给出训练用的训练样本集:
Figure 979821DEST_PATH_IMAGE032
;其中,
Figure 92134DEST_PATH_IMAGE034
表示x的第i个特征,
Figure 896142DEST_PATH_IMAGE036
表示多个输入变量中的第i个,
Figure 546435DEST_PATH_IMAGE038
表示多个输出变量中的第i个,输入与输出对
Figure 94091DEST_PATH_IMAGE040
又称样本或样本点。
3.根据权利要求2所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,采用数值标准化处理连续特征包括:
Figure 326489DEST_PATH_IMAGE042
其中,
Figure 566977DEST_PATH_IMAGE044
表示第i个特征数值标准化后的值,
Figure 438987DEST_PATH_IMAGE034
表示x的第i个特征,
Figure 790334DEST_PATH_IMAGE046
是训练集对应特征列的平均值,
Figure 611660DEST_PATH_IMAGE048
是对应特征列的标准差。
4.根据权利要求3所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,初始化Gini-GA参数包括:假设有k个类,对于给定的样本集合D,其基尼指数为:
Figure 543756DEST_PATH_IMAGE050
其中,
Figure 450532DEST_PATH_IMAGE052
是D中属于k个类中的的样本子集,k是样本的个数;
Figure 339990DEST_PATH_IMAGE054
表示集合中样本的数量。
5.根据权利要求4所述的一种基于自适应遗传算法的混合特征选择入侵检测方法,其特征在于,若样本集合D根据特征A是否取某一可能值a被分割成D1、D2 两部分,即
Figure 281402DEST_PATH_IMAGE056
Figure 112960DEST_PATH_IMAGE058
,那么在此情况下集合D的基尼系数定义为:
Figure 710295DEST_PATH_IMAGE060
CN201910424226.7A 2019-05-21 2019-05-21 一种基于自适应遗传算法的混合特征选择入侵检测方法 Active CN110166454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424226.7A CN110166454B (zh) 2019-05-21 2019-05-21 一种基于自适应遗传算法的混合特征选择入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424226.7A CN110166454B (zh) 2019-05-21 2019-05-21 一种基于自适应遗传算法的混合特征选择入侵检测方法

Publications (2)

Publication Number Publication Date
CN110166454A CN110166454A (zh) 2019-08-23
CN110166454B true CN110166454B (zh) 2021-11-16

Family

ID=67631777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424226.7A Active CN110166454B (zh) 2019-05-21 2019-05-21 一种基于自适应遗传算法的混合特征选择入侵检测方法

Country Status (1)

Country Link
CN (1) CN110166454B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705592B (zh) * 2019-09-03 2024-05-14 平安科技(深圳)有限公司 分类模型训练方法、装置、设备及计算机可读存储介质
CN111507368B (zh) * 2020-01-03 2022-07-05 浙江大学 一种校园网入侵检测方法和系统
CN111291370B (zh) * 2020-01-19 2022-06-17 苏州浪潮智能科技有限公司 网络数据入侵检测方法、系统、终端及存储介质
CN111343171B (zh) * 2020-02-19 2022-08-05 重庆邮电大学 一种基于支持向量机的混合特征选择的入侵检测方法
CN111343175B (zh) * 2020-02-22 2023-01-24 苏州浪潮智能科技有限公司 一种提高网络入侵检测精度的方法、系统、设备及介质
CN112580519B (zh) * 2020-12-22 2022-08-19 中国科学院合肥物质科学研究院 基于自适应混合特征重校准的深度学习模型的大豆损伤识别方法
CN112910866B (zh) * 2021-01-20 2022-07-29 重庆邮电大学 一种面向网络入侵检测的特征选择方法
CN114070655B (zh) * 2022-01-18 2022-04-08 北京领御中安科技有限公司 网络流量检测规则生成方法及装置、电子设备、存储介质
CN114722403A (zh) * 2022-05-19 2022-07-08 北京华云安信息技术有限公司 一种远程执行漏洞挖掘方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法
CN105224866A (zh) * 2015-10-27 2016-01-06 西安工程大学 一种基于遗传算法的网络入侵多媒体包多线程择危方法
CN106534191A (zh) * 2016-12-14 2017-03-22 北京安信天行科技有限公司 一种网络入侵检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104009886A (zh) * 2014-05-23 2014-08-27 南京邮电大学 基于支持向量机的入侵检测方法
CN105224866A (zh) * 2015-10-27 2016-01-06 西安工程大学 一种基于遗传算法的网络入侵多媒体包多线程择危方法
CN106534191A (zh) * 2016-12-14 2017-03-22 北京安信天行科技有限公司 一种网络入侵检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于PCA和随机森林分类的入侵;林伟宁,陈明志,詹云清,刘川葆;《NETINFO SECURITY》;20171130(第11期);第52页第1栏 *

Also Published As

Publication number Publication date
CN110166454A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110166454B (zh) 一种基于自适应遗传算法的混合特征选择入侵检测方法
CN112398779B (zh) 一种网络流量数据分析方法及系统
Zhang et al. Network intrusion detection: Based on deep hierarchical network and original flow data
Pham et al. Improving performance of intrusion detection system using ensemble methods and feature selection
Rezvy et al. An efficient deep learning model for intrusion classification and prediction in 5G and IoT networks
CN107040517B (zh) 一种面向云计算环境的认知入侵检测方法
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN111817982A (zh) 一种面向类别不平衡下的加密流量识别方法
CN111626431A (zh) 基于生成的机器学习流水线来操作数据中心的系统和方法
CN111224994A (zh) 一种基于特征选择的僵尸网络检测方法
KR20200087299A (ko) 딥러닝 알고리즘을 이용한 비지도 방식의 네트워크 침입 탐지 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
CN114785563B (zh) 一种软投票策略的加密恶意流量检测方法
CN114239807A (zh) 基于rfe-dagmm的高维数据异常检测方法
CN112613599A (zh) 一种基于生成对抗网络过采样的网络入侵检测方法
CN108446562B (zh) 基于禁忌与人工蜂群双向优化支持向量机的入侵检测方法
Islam et al. Network anomaly detection using lightgbm: A gradient boosting classifier
Feng et al. Towards learning-based, content-agnostic detection of social bot traffic
CN115242441A (zh) 一种基于特征选择和深度神经网络的网络入侵检测方法
Agrawal et al. Autoencoder for Design of Mitigation Model for DDOS Attacks via M‐DBNN
Dai et al. A DDoS‐attack detection method oriented to the Blockchain network layer
CN113468537B (zh) 一种基于改进自编码器的特征提取及漏洞利用攻击检测方法
CN114513367A (zh) 基于图神经网络的蜂窝网络异常检测方法
Elshrkawey et al. An enhanced intrusion detection system based on multi-layer feature reduction for probe and dos attacks
Li et al. FlowGANAnomaly: Flow-Based Anomaly Network Intrusion Detection with Adversarial Learning
CN113592150A (zh) 基于lstm和攻击者信息的攻击阶段预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant