CN117997652A - 一种基于集成学习的车辆入侵检测方法及装置 - Google Patents
一种基于集成学习的车辆入侵检测方法及装置 Download PDFInfo
- Publication number
- CN117997652A CN117997652A CN202410397400.4A CN202410397400A CN117997652A CN 117997652 A CN117997652 A CN 117997652A CN 202410397400 A CN202410397400 A CN 202410397400A CN 117997652 A CN117997652 A CN 117997652A
- Authority
- CN
- China
- Prior art keywords
- data stream
- data
- representing
- data streams
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 162
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 230000009469 supplementation Effects 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims description 42
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 21
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 19
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 19
- 210000000299 nuclear matrix Anatomy 0.000 claims description 19
- 238000007637 random forest analysis Methods 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000008595 infiltration Effects 0.000 claims description 3
- 238000001764 infiltration Methods 0.000 claims description 3
- 230000007123 defense Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/84—Vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于集成学习的车辆入侵检测方法及装置,包括:将信息增益比最大的初始数据流特征构成数据流的相关特征向量;根据标准化后的相关特征向量采用DBSCAN算法对所有数据流聚类,在每个类簇中随机选取20%数据流存入精简数据流集合;使用ADASYN算法对精简数据流集合进行自适应补充,使用KPCA算法对所有数据流的相关特征向量进行降维,得到关键特征向量;使用数据流的关键特征向量训练集成模型;将车辆实时数据流输入集成模型中得到实时数据流的数据流类型;本发明通过缩减数据集大小以及填充数据流类型,能够在不平衡的数据集中保证检测精度,此外,通过特征降维,能够降低训练成本和响应时间。
Description
技术领域
本发明涉及车联网安全技术领域,特别是涉及一种基于集成学习的车辆入侵检测方法及装置。
背景技术
智能汽车网络由车辆内部网和车辆外部网两个网络系统构成。车辆内部网连接了车辆内部的各个电子控制单元,包括发动机控制单元、刹车系统、空调系统等,通过车辆内部网络协议进行通信。车辆外部网则使车辆能够与外部环境进行通信,包括与其他车辆、基础设施和云服务的连接。车联网技术有助于实现智能交通系统、自动驾驶和车辆互联等功能。车辆网络的安全直接关系到驾驶员和乘客的安全,黑客可以利用车辆外部网络的漏洞来入侵车辆的内部网,这种攻击通常被称为"远程攻击"。黑客通过攻击车辆与外部环境进行通信的系统,然后尝试进一步渗透到车辆内部网络,轻则导致车辆用户的隐私信息泄露,重则导致车辆控制失灵造成意外事故,危及人身安全。
为了确保车联网安全,通常采用建立规则库进行对比的方案以及基于云边训练部署的异常入侵检测系统的方案。基于规则库的方案根据车辆检测状态与防御规则库对比,从而产生对应的防御策略。基于规则库的方案严重依赖规则库的知识,可能更容易受到规则的刚性限制,容易产生误报或者遗漏,且需要定期对规则库进行更新。基于云边部署的车辆入侵检测方案在训练和更新模型时需要大量的数据传输,可能导致延迟和对网络连接的强烈依赖。此外,也存在云边端被入侵,云边端秘钥泄露的风险。因此,拥有能够短时间内在车辆本地快速训练部署的本地入侵检测方法至关重要。
公开号为CN109829543A,名称为一种基于集成学习的数据流在线异常检测方法,首先使用HTM网络和n个LSTM网络作为弱学习器进行训练,得到训练完成的HTM网络和n个独立的LSTM基模型。再通过Stacking学习器采用Logistic回归法对多个基模型的预测结果进行融合得到最终的预测结果。该方法解决了传统的基于阈值原理的异常检测方法无法准确挖掘复杂空间里潜在异常的问题,但选用HTM网络和LSTM神经网络的训练成本较高,在车辆本地环境中,有限的计算资源将导致训练过程较慢,无法充分发挥这些模型的潜力。
公开号为CN110581840A,名称为基于双层异质集成学习器的入侵检测方法,首先采用PKPCA算法对原始数据进行降维,得到预处理数据集。再使用预处理数据集对N个分类器进行训练,选择其中表现最好的M个分类器作为优质学习器。通过对优质学习器的输出结果进行加权投票得到最后的入侵检测结果。该方法采用PKPCA算法对原始数据进行降维,降低了入侵检测模型的训练成本,提高了模型部署效率。但选用加权投票得出最终结果的方式只适用于捕捉线性关系,适应性不足。
发明内容
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于集成学习的车辆入侵检测方法,其特征在于,所述包括:
S10.创建一次分类子集和数据流特征集合,获取车辆本地数据流集合和初始数据流特征集合,按照数据流类型标签将所述本地数据流集合中的所有数据流复制一份并分别存入所述一次分类子集,根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,将信息增益比最大的前25种初始数据流特征构成数据流的相关特征向量;
S20.创建精简数据流集合,对所述本地数据流集合中所有数据流的相关特征向量进行标准化,根据标准化后的相关特征向量采用DBSCAN算法对所述本地数据流集合中所有数据流进行聚类,在每个类簇中随机选取20%数据流复制一份并存入所述精简数据流集合;
S30.创建二次分类子集,按照所述数据流类型标签将所述精简数据流集合中的所有数据流复制一份并分别存入所述二次分类子集,若某个二次分类子集为空,,则将一次分类子集中所有的数据流存入二次分类子集;若某个二次分类子集的数据流数量小于阈值,,则使用ADASYN算法对二次分类子集进行自适应补充;
S40.创建数据流集合,将所述二次分类子集中的所有数据流存入所述数据流集合,使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,将降维得到的特征向量作为关键特征向量;
S50.使用所述数据流集合训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型;
S60.获取车辆实时数据流,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量输入所述集成模型中,得到所述实时数据流的数据流类型。
进一步地,所述根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,包括:
S11.计算所述本地数据流集合的信息熵,其计算公式为:
;
其中,表示所述本地数据流集合,表示所述本地数据流集合大小,表示第i个一次分类子集,表示所述第i个一次分类子集大小;
S12.获取所述初始数据流特征集合中第j个初始数据流特征,j初始值为1,根据所述本地数据流集合中所有数据流在所述初始数据流特征上的取值定义所述初始数据流特征的取值范围为,表示所述初始数据流特征的第k种取值;
S13.创建k个特征值子集,根据所述初始数据流特征的k种取值将所述本地数据流集合中的所有数据流复制一份并分别存入k个特征值子集;计算所述初始数据流特征关于所述本地数据流集合的信息增益比,其计算公式为:
;
其中,表示所述初始数据流特征关于所述本地数据流集合的信息增益,其计算公式为:
;
其中,表示特征值子集与一次分类子集的交集,表示第q个一次分类子集,表示关于所述初始数据流特征的第p个特征值子集,表示特征值子集与一次分类子集的交集大小,表示特征值子集的大小;
表示所述初始数据流特征关于所述本地数据流集合的特征熵,其计算公式为:
;
其中,表示关于所述初始数据流特征的第个特征值子集,表示特征值子集的大小;
S14.判断所述初始数据流特征是否为所述初始数据流特征集合中的最后一个初始数据流特征,若是,所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比计算完成,若否,j=j+1,转S12。
进一步地,所述S10,包括:
所述车辆本地数据流集合中的所有数据流包含数据流类型标签和初始数据流特征;
所述数据流类型标签由12维的独热编码向量表示,所述独热编码向量表示数据流所属的数据流类型,所述数据流类型包含:正常流量、DOS攻击、DDOS攻击、Fuzzy攻击、Spoofing攻击、SSH-Patator攻击、FTP-Patator攻击、Web攻击、Port-Scan攻击、Infiltration攻击、Botnet攻击、未知流量;
所述初始数据流特征包括:
基本流量统计特征:目标端口、流持续时间、正向数据包总数、反向数据包总数、正向数据包总长度、反向数据包总长度、正向数据包长度最大值、正向数据包长度最小值、反向数据包长度最大值、反向数据包长度最小值、每秒流量字节、每秒流量包数;
流间隔时间特征:流交互到达时间平均值、流交互到达时间标准差、流交互到达时间最大值、流交互到达时间最小值、正向交互到达时间总和、正向交互到达时间平均值、正向交互到达时间标准差、正向交互到达时间最大值、正向交互到达时间最小值、反向交互到达时间总和、反向交互到达时间平均值、反向交互到达时间标准差、反向交互到达时间最大值、反向交互到达时间最小值;
TCP标志特征:正向PSH标志数、反向PSH标志数、正向URG标志数、反向URG标志数、FIN标志数、SYN标志数、RST标志数、PSH标志数、ACK标志数、URG标志数、CWE标志数、ECE标志数;
数据包长度特征:最小数据包长度、最大数据包长度、数据包长度平均值、数据包长度标准差、数据包长度方差;
连接状态特征:下行/上行比率、正向初始窗口字节数、反向初始窗口字节数、正向有效数据包数、正向最小段大小;
活跃连接和闲置连接特征:活跃连接的平均值、活跃连接的标准差、活跃连接的最大值、活跃连接的最小值、闲置连接的平均值、闲置连接的标准差;
数据包特征:正向数据包平均字节数、正向数据包平均包数、正向数据包平均速率、反向数据包平均字节数、反向数据包平均包数、反向数据包平均速率;
子流特征:子流正向数据包数、子流正向字节数、子流反向数据包数、子流反向字节数。
进一步地,所述S20,包括:
所述DBSCAN算法使用欧式距离计算本地数据流集合中数据流之间的距离,其计算公式为:
;
其中,表示所述本地数据流集合中任意数据流的相关特征向量,表示所述本地数据流集合中与不同的任意数据流的相关特征向量,表示数据流与数据流之间的欧式距离,表示相关特征向量的第个相关特征,表示相关特征向量的第个相关特征。
进一步地,所述S30,包括:
所述阈值的值为,其中,表示对向下取整,,表示精简数据流集合,表示精简数据流集合大小。
进一步地,所述使用ADASYN算法对二次分类子集进行自适应补充,包括:
S31.获取数据流数量小于阈值的二次分类子集,获取所述二次分类子集中的第个数据流,初始值为1,计算所述第个数据流与所述二次分类子集中其余所有数据流之间关于相关特征向量的欧式距离,选择欧式距离最小的个数据流作为所述第个数据流的邻居数据流;
S32.计算所述第个数据流的加权分布,所述加权分布的计算公式为:
;
其中,,表示所述第个数据流的数据流类型,表示所述第个数据流的第个邻居数据流的数据流类型;
S33.判断所述第个数据流是否为所述二次分类子集中的最后一个数据流,若是,转S34,若否,,转S31;
S34.计算所述二次分类子集中所有数据流的补充比例,其计算公式为:
;
其中,表示所述二次分类子集中的任意数据流,表示数据流r的补充比例,表示数据流r的加权分布,表示所述二次分类子集的大小,表示所述二次分类子集中第个数据流的加权分布;
S35.对所述二次分类子集中的每个数据流生成个合成数据流,将生成的合成数据流作为数据流存入所述二次分类子集,所述合成数据流由25维的相关特征向量表示,所述合成数据流的相关特征的生成公式如下:
;
其中,表示所述二次分类子集中的任意数据流,表示根据数据流生成的合成数据流的第个相关特征,,表示数据流的第个相关特征,表示从所述数据流的邻居数据流中随机选取的一个数据流,表示数据流的第个相关特征,表示区间[0,1]上的随机数。
进一步地,所述使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,包括:
S41.获取所述数据流集合中的数据流总数量为M,构建一个M行M列的核矩阵KM,所述核矩阵KM的元素为:
;
其中,表示所述核矩阵KM中第i行第j列的元素值,,,SDB表示所述数据流集合,表示数据流集合SDB中第i个数据流与第j个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值;
S42.对所述核矩阵KM进行中心化得到新的核矩阵,所述新的核矩阵的元素为:
;
其中,表示所述核矩阵中第i行第j列的元素值,,,表示所述核矩阵KM中第i行第j列的元素值,表示所述核矩阵KM第i行所有元素的平均值,表示所述核矩阵KM第j列所有元素的平均值,表示所述核矩阵KM中所有元素的平均值;
S43.对所述新的核矩阵进行特征分解,得到其特征值和与特征值对应的特征向量,对所述特征向量进行归一化,得到归一化后特征向量,取最大的15个特征值对应的归一化后的特征向量构成一个M行15列的特征矩阵X;
S44.利用所述特征矩阵X将所述数据流集合中所有数据流的相关特征向量投影至特征空间中,得到所有数据流的关键特征向量,所述关键特征向量为15维,表示为,表示所述数据流集合中的任意数据流,表示任意数据流的关键特征向量,表示所述任意数据流的第个关键特征,,所述关键特征的计算方式为:
;
其中,表示所述任意数据流的相关特征向量,表示所述任意数据流与所述数据流集合SDB中第个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值,表示所述特征矩阵的第行第列的元素值,表示所述数据流集合SDB中的数据流总数量。
进一步地,所述S50,包括:
S51.将所述数据流集合随机划分为70%的训练集和30%的验证集,将所述训练集中所有数据流的关键特征向量和数据流类型标签分别输入支持向量机、随机森林、LightGBM三种模型中进行训练,将验证集输入训练好的三种模型,得到验证集在三种模型上的输出,所述验证集在三种模型上的输出为三个12维的概率向量,所述概率向量表示模型通过计算得到验证集分别为12种数据流类型的概率,将验证集在三种模型上输出的概率向量拼接成一个36维的集成特征向量;
S52.将所述集成特征向量和所述验证集的数据流类型标签输入三层的全连接神经网络进行训练,当迭代次数大于5000次或者准确度达到99.9%时停止训练,所述全连接神经网络使用交叉熵作为损失函数,所述全连接神经网络的输出为一个12维的概率向量。
进一步地,所述S60,包括:
获取车辆实时数据流,选取所述实时数据流的相关特征构成相关特征向量,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量分别输入训练好的支持向量机、随机森林、LightGBM三种模型中,得到所述实时数据流在三种模型上输出的三个概率向量,将所述三个概率向量组合成一个集成特征向量,将所述集成特征向量输入训练好的全连接神经网络,得到一个12维的概率向量,将所述12维的概率向量中最大概率所属的数据流类型作为所述实时数据流的数据流类型。
一种基于集成学习的车辆入侵检测装置,其特征在于,包括:
数据预处理模块:用于计算本地车辆数据集中所有初始数据流特征的信息增益比,根据信息增益比选取相关特征向量,标准化所述相关特征向量后进行DBSCAN聚类,在每个DBSCAN类簇中随机选取20%数据流,得到精简数据流集合;
数据生成模块:用于将所述精简数据流集合中的数据流存入二次分类子集,对类别不平衡的二次分类子集进行自适应补充,得到数据流集合;
特征工程模块:用于对所述数据流集合中所有数据流的相关特征向量使用KPAC算法进行降维,得到关键特征向量;
集成学习模块:用于使用所述数据流集合的关键特征向量训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型,以及使用训练好的集成模型来确定车辆实时数据流的数据流类型。
本发明的有益效果是:
利用信息增益比对数据流初步降维和归一化处理,然后使用DBSCAN算法进行聚类,这一流程解决了将高维特征直接进行聚类可能引发的维度灾难。使用KPCA算法对数据流的相关特征向量进行降维,能够减少模型的训练成本以及降低过拟合风险。通过ADASYN算法对于不平衡的数据流类型进行自适应的补充,解决了数据流样本不平衡的问题,提高了模型的泛化能力。基于支持向量机、随机森林以及LightGBM模型的集成学习模型,融合三种基础模型的优势对数据流进行初步分类,然后通过全连接神经网络综合初步分类结果得到最终的数据流类型,能够保证数据流异常检测的准确率和稳定性。
附图说明
图1是本发明提供的一种基于集成学习的车辆入侵检测方法的流程图。
图2是本发明提供的一种基于集成学习的车辆入侵检测方法的将二次分类子集存入数据流集合的结构流程图。
图3是本发明提供的一种基于集成学习的车辆入侵检测方法的使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维的流程图。
图4是本发明提供的一种基于集成学习的车辆入侵检测装置的结构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
图1是本发明实施例提供的一种基于集成学习的车辆入侵检测方法的流程图,该方法包括:
S10.创建一次分类子集和数据流特征集合,获取车辆本地数据流集合和初始数据流特征集合,按照数据流类型标签将所述本地数据流集合中的所有数据流复制一份并分别存入所述一次分类子集,根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,将信息增益比最大的前25种初始数据流特征构成数据流的相关特征向量;
S20.创建精简数据流集合,对所述本地数据流集合中所有数据流的相关特征向量进行标准化,根据标准化后的相关特征向量采用DBSCAN算法对所述本地数据流集合中所有数据流进行聚类,在每个类簇中随机选取20%数据流复制一份并存入所述精简数据流集合;
S30.创建二次分类子集,按照所述数据流类型标签将所述精简数据流集合中的所有数据流复制一份并分别存入所述二次分类子集,若某个二次分类子集为空,,则将一次分类子集中所有的数据流存入二次分类子集;若某个二次分类子集的数据流数量小于阈值,,则使用ADASYN算法对二次分类子集进行自适应补充;
S40.创建数据流集合,将所述二次分类子集中的所有数据流存入所述数据流集合,使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,将降维得到的特征向量作为关键特征向量;
S50.使用所述数据流集合训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型;
S60.获取车辆实时数据流,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量输入所述集成模型中,得到所述实时数据流的数据流类型。
本实施例中,创建一次分类子集和数据流特征集合,获取车辆本地数据流集合和初始数据流特征集合,按照数据流类型标签将所述本地数据流集合中的所有数据流复制一份并分别存入一次分类子集,根据一次分类子集计算初始数据流特征集合中所有初始数据流特征的信息增益比,将信息增益比最大的前25种初始数据流特征构成数据流的相关特征向量;创建精简数据流集合,对本地数据流集合中所有数据流的相关特征向量进行标准化,根据标准化后的相关特征向量采用DBSCAN算法对所述本地数据流集合中所有数据流进行聚类,在每个类簇中随机选取20%数据流复制一份并存入精简数据流集合;创建二次分类子集,按照数据流类型标签将精简数据流集合中的所有数据流复制一份并分别存入二次分类子集,若某个二次分类子集为空,则将对应的一次分类子集中所有的数据流存入该二次分类子集;若某个二次分类子集的数据流数量小于阈值,则使用ADASYN算法对该二次分类子集进行自适应补充;创建数据流集合,将二次分类子集中的所有数据流存入数据流集合,使用KPCA算法对数据流集合中所有数据流的相关特征向量进行降维,将降维得到的特征向量作为关键特征向量;使用数据流集合训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型;获取车辆实时数据流,使用KPCA算法对实时数据流的相关特征向量进行降维,得到实时数据流的关键特征向量,将实时数据流的关键特征向量输入集成模型中,得到实时数据流的数据流类型。
进一步地,所述根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,包括:
S11.计算所述本地数据流集合的信息熵,其计算公式为:
;
其中,表示所述本地数据流集合,表示所述本地数据流集合大小,表示第i个一次分类子集,表示所述第i个一次分类子集大小;
S12.获取所述初始数据流特征集合中第j个初始数据流特征,j初始值为1,根据所述本地数据流集合中所有数据流在所述初始数据流特征上的取值定义所述初始数据流特征的取值范围为,表示所述初始数据流特征的第k种取值;
S13.创建k个特征值子集,根据所述初始数据流特征的k种取值将所述本地数据流集合中的所有数据流复制一份并分别存入k个特征值子集;计算所述初始数据流特征关于所述本地数据流集合的信息增益比,其计算公式为:
;
其中,表示所述初始数据流特征关于所述本地数据流集合的信息增益,其计算公式为:
;
其中,表示特征值子集与一次分类子集的交集,表示第q个一次分类子集,表示关于所述初始数据流特征的第p个特征值子集,表示特征值子集与一次分类子集的交集大小,表示特征值子集的大小;
表示所述初始数据流特征关于所述本地数据流集合的特征熵,其计算公式为:
;
其中,表示关于所述初始数据流特征的第个特征值子集,表示特征值子集的大小;
S14.判断所述初始数据流特征是否为所述初始数据流特征集合中的最后一个初始数据流特征,若是,所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比计算完成,若否,j=j+1,转S12。
进一步地,所述S10,包括:
所述车辆本地数据流集合中的所有数据流包含数据流类型标签和初始数据流特征;
具体的,所述数据流类型标签由12维的独热编码向量表示,所述独热编码向量表示数据流所属的数据流类型,所述数据流类型包含:正常流量、DOS攻击、DDOS攻击、Fuzzy攻击、Spoofing攻击、SSH-Patator攻击、FTP-Patator攻击、Web攻击、Port-Scan攻击、Infiltration攻击、Botnet攻击、未知流量;
具体的,所述初始数据流特征包括:
基本流量统计特征:目标端口、流持续时间、正向数据包总数、反向数据包总数、正向数据包总长度、反向数据包总长度、正向数据包长度最大值、正向数据包长度最小值、反向数据包长度最大值、反向数据包长度最小值、每秒流量字节、每秒流量包数;
流间隔时间特征:流交互到达时间平均值、流交互到达时间标准差、流交互到达时间最大值、流交互到达时间最小值、正向交互到达时间总和、正向交互到达时间平均值、正向交互到达时间标准差、正向交互到达时间最大值、正向交互到达时间最小值、反向交互到达时间总和、反向交互到达时间平均值、反向交互到达时间标准差、反向交互到达时间最大值、反向交互到达时间最小值;
TCP标志特征:正向PSH标志数、反向PSH标志数、正向URG标志数、反向URG标志数、FIN标志数、SYN标志数、RST标志数、PSH标志数、ACK标志数、URG标志数、CWE标志数、ECE标志数;
数据包长度特征:最小数据包长度、最大数据包长度、数据包长度平均值、数据包长度标准差、数据包长度方差;
连接状态特征:下行/上行比率、正向初始窗口字节数、反向初始窗口字节数、正向有效数据包数、正向最小段大小;
活跃连接和闲置连接特征:活跃连接的平均值、活跃连接的标准差、活跃连接的最大值、活跃连接的最小值、闲置连接的平均值、闲置连接的标准差;
数据包特征:正向数据包平均字节数、正向数据包平均包数、正向数据包平均速率、反向数据包平均字节数、反向数据包平均包数、反向数据包平均速率;
子流特征:子流正向数据包数、子流正向字节数、子流反向数据包数、子流反向字节数。
进一步地,所述S20,包括:
所述DBSCAN算法使用欧式距离计算本地数据流集合中数据流之间的距离,其计算公式为:
;
其中,表示所述本地数据流集合中任意数据流的相关特征向量,表示所述本地数据流集合中与不同的任意数据流的相关特征向量,表示数据流与数据流之间的欧式距离,表示相关特征向量的第个相关特征,表示相关特征向量的第个相关特征。
进一步地,所述S30,包括:
所述阈值的值为,其中,表示对向下取整,,表示精简数据流集合,表示精简数据流集合大小。
进一步地,所述使用ADASYN算法对二次分类子集进行自适应补充,包括:
S31.获取数据流数量小于阈值的二次分类子集,获取所述二次分类子集中的第个数据流,初始值为1,计算所述第个数据流与所述二次分类子集中其余所有数据流之间关于相关特征向量的欧式距离,选择欧式距离最小的个数据流作为所述第个数据流的邻居数据流;
S32.计算所述第个数据流的加权分布,所述加权分布的计算公式为:
;
其中,,表示所述第个数据流的数据流类型,表示所述第个数据流的第个邻居数据流的数据流类型;
S33.判断所述第个数据流是否为所述二次分类子集中的最后一个数据流,若是,转S34,若否,,转S31;
S34.计算所述二次分类子集中所有数据流的补充比例,其计算公式为:
;
其中,表示所述二次分类子集中的任意数据流,表示数据流r的补充比例,表示数据流r的加权分布,表示所述二次分类子集的大小,表示所述二次分类子集中第个数据流的加权分布;
S35.对所述二次分类子集中的每个数据流生成个合成数据流,将生成的合成数据流作为数据流存入所述二次分类子集,所述合成数据流由25维的相关特征向量表示,所述合成数据流的相关特征的生成公式如下:
;
其中,表示所述二次分类子集中的任意数据流,表示根据数据流生成的合成数据流的第个相关特征,,表示数据流的第个相关特征,表示从所述数据流的邻居数据流中随机选取的一个数据流,表示数据流的第个相关特征,表示区间[0,1]上的随机数。
可选地,在本发明一种可能的实施方式中,参考图2,依次获取二次分类子集,如果二次分类子集的大小为0,将对应的一次分类子集中所有的数据流存入二次分类子集,否则继续判断,如果该二次分类子集的大小小于,计算该二次分类子集的补充比例,然后为该二次分类子集中的每个数据流生成个合成数据流并存入该二次分类子集中,否则继续判断剩余的二次分类子集直至完成所有的二次分类子集,最后将所有二次分类子集存入数据流集合。
进一步地,所述使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,包括:
S41.获取所述数据流集合中的数据流总数量为M,构建一个M行M列的核矩阵KM,所述核矩阵KM的元素为:
;
其中,表示所述核矩阵KM中第i行第j列的元素值,,,SDB表示所述数据流集合,表示数据流集合SDB中第i个数据流与第j个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值;
S42.对所述核矩阵KM进行中心化得到新的核矩阵,所述新的核矩阵的元素为:
;
其中,表示所述核矩阵中第i行第j列的元素值,,,表示所述核矩阵KM中第i行第j列的元素值,表示所述核矩阵KM第i行所有元素的平均值,表示所述核矩阵KM第j列所有元素的平均值,表示所述核矩阵KM中所有元素的平均值;
S43.对所述新的核矩阵进行特征分解,得到其特征值和与特征值对应的特征向量,对所述特征向量进行归一化,得到归一化后特征向量,取最大的15个特征值对应的归一化后的特征向量构成一个M行15列的特征矩阵X;
S44.利用所述特征矩阵X将所述数据流集合中所有数据流的相关特征向量投影至特征空间中,得到所有数据流的关键特征向量,所述关键特征向量为15维,表示为,表示所述数据流集合中的任意数据流,表示任意数据流的关键特征向量,表示所述任意数据流的第个关键特征,,所述关键特征的计算方式为:
;
其中,表示所述任意数据流的相关特征向量,表示所述任意数据流与所述数据流集合SDB中第个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值,表示所述特征矩阵的第行第列的元素值,表示所述数据流集合SDB中的数据流总数量。
参考图3,本实施例中,获取精简数据集合中的数据流总数量为M,然后构建一个M行M列的核矩阵KM,再对核矩阵KM进行中心化得到新的核矩阵,对新的核矩阵进行特征分解,得到其特征值和与特征值对应的特征向量,对特征向量进行归一化,得到归一化后特征向量,取最大的15个特征值对应的归一化后的特征向量构成一个M行15列的特征矩阵X,最后利用特征矩阵X将数据流集合中所有数据流的相关特征向量投影至特征空间中,得到所有数据流的关键特征向量。
进一步地,所述S50,包括:
S51.将所述数据流集合随机划分为70%的训练集和30%的验证集,将所述训练集中所有数据流的关键特征向量和数据流类型标签分别输入支持向量机、随机森林、LightGBM三种模型中进行训练,将验证集输入训练好的三种模型,得到验证集在三种模型上的输出,所述验证集在三种模型上的输出为三个12维的概率向量,所述概率向量表示模型通过计算得到验证集分别为12种数据流类型的概率,将验证集在三种模型上输出的概率向量拼接成一个36维的集成特征向量;
S52.将所述集成特征向量和所述验证集的数据流类型标签输入三层的全连接神经网络进行训练,当迭代次数大于5000次或者准确度达到99.9%时停止训练,所述全连接神经网络使用交叉熵作为损失函数,所述全连接神经网络的输出为一个12维的概率向量。
进一步地,所述S60,包括:
获取车辆实时数据流,选取所述实时数据流的相关特征构成相关特征向量,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量分别输入训练好的支持向量机、随机森林、LightGBM三种模型中,得到所述实时数据流在三种模型上输出的三个概率向量,将所述三个概率向量组合成一个集成特征向量,将所述集成特征向量输入训练好的全连接神经网络,得到一个12维的概率向量,将所述12维的概率向量中最大概率所属的数据流类型作为所述实时数据流的数据流类型。
下面对本发明实施例提供的一种基于集成学习的车辆入侵检测装置进行介绍,下文描述的一种基于集成学习的车辆入侵检测装置与上文描述的一种基于集成学习的车辆入侵检测方法可互相对应参照。
参考图4,一种基于集成学习的车辆入侵检测装置包括:
数据预处理模块:用于计算本地车辆数据集中所有初始数据流特征的信息增益比,根据信息增益比选取相关特征向量,标准化所述相关特征向量后进行DBSCAN聚类,在每个DBSCAN类簇中随机选取20%数据流,得到精简数据流集合;
数据生成模块:用于将所述精简数据流集合中的数据流存入二次分类子集,对类别不平衡的二次分类子集进行自适应补充,得到数据流集合;
特征工程模块:用于对所述数据流集合中所有数据流的相关特征向量使用KPAC算法进行降维,得到关键特征向量;
集成学习模块:用于使用所述数据流集合的关键特征向量训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型,以及使用训练好的集成模型来确定车辆实时数据流的数据流类型。
本实施例中计算本地车辆数据集中所有初始数据流特征的信息增益比,根据信息增益比选取相关特征向量。标准化所述相关特征向量后进行DBSCAN聚类,在每个DBSCAN类簇中随机选取20%数据流,得到精简数据流集合;然后将所述精简数据流集合中的数据流存入二次分类子集,对类别不平衡的二次分类子集进行自适应补充,得到数据流集合;再对所述数据流集合中所有数据流的相关特征向量使用KPAC算法进行降维,得到关键特征向量;使用所述数据流集合的关键特征向量训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型,最后使用训练好的集成模型来确定车辆实时数据流的数据流类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于集成学习的车辆入侵检测方法,其特征在于,包括:
S10.创建一次分类子集和数据流特征集合,获取车辆本地数据流集合和初始数据流特征集合,按照数据流类型标签将所述本地数据流集合中的所有数据流复制一份并分别存入所述一次分类子集,根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,将信息增益比最大的前25种初始数据流特征构成数据流的相关特征向量;
S20.创建精简数据流集合,对所述本地数据流集合中所有数据流的相关特征向量进行标准化,根据标准化后的相关特征向量采用DBSCAN算法对所述本地数据流集合中所有数据流进行聚类,在每个类簇中随机选取20%数据流复制一份并存入所述精简数据流集合;
S30.创建二次分类子集,按照所述数据流类型标签将所述精简数据流集合中的所有数据流复制一份并分别存入所述二次分类子集,若某个二次分类子集为空,,则将一次分类子集中所有的数据流存入二次分类子集;若某个二次分类子集的数据流数量小于阈值,,则使用ADASYN算法对二次分类子集进行自适应补充;
S40.创建数据流集合,将所述二次分类子集中的所有数据流存入所述数据流集合,使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,将降维得到的特征向量作为关键特征向量;
S50.使用所述数据流集合训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型;
S60.获取车辆实时数据流,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量输入所述集成模型中,得到所述实时数据流的数据流类型。
2.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述根据一次分类子集计算所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比,包括:
S11.计算所述本地数据流集合的信息熵,其计算公式为:
;
其中,表示所述本地数据流集合,表示所述本地数据流集合大小,表示第i个一次分类子集,表示所述第i个一次分类子集大小;
S12.获取所述初始数据流特征集合中第j个初始数据流特征,j初始值为1,根据所述本地数据流集合中所有数据流在所述初始数据流特征上的取值定义所述初始数据流特征的取值范围为,表示所述初始数据流特征的第k种取值;
S13.创建k个特征值子集,根据所述初始数据流特征的k种取值将所述本地数据流集合中的所有数据流复制一份并分别存入k个特征值子集;计算所述初始数据流特征关于所述本地数据流集合的信息增益比,其计算公式为:
;
其中,表示所述初始数据流特征关于所述本地数据流集合的信息增益,其计算公式为:
;
其中,表示特征值子集与一次分类子集的交集,表示第q个一次分类子集,表示关于所述初始数据流特征的第p个特征值子集,表示特征值子集与一次分类子集的交集大小,表示特征值子集的大小;
表示所述初始数据流特征关于所述本地数据流集合的特征熵,其计算公式为:
;
其中,表示关于所述初始数据流特征的第个特征值子集,表示特征值子集的大小;
S14.判断所述初始数据流特征是否为所述初始数据流特征集合中的最后一个初始数据流特征,若是,所述初始数据流特征集合中所有初始数据流特征关于所述本地数据流集合的信息增益比计算完成,若否,j=j+1,转S12。
3.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述S10,包括:
所述车辆本地数据流集合中的所有数据流包含数据流类型标签和初始数据流特征;
所述数据流类型标签由12维的独热编码向量表示,所述独热编码向量表示数据流所属的数据流类型,所述数据流类型包含:正常流量、DOS攻击、DDOS攻击、Fuzzy攻击、Spoofing攻击、SSH-Patator攻击、FTP-Patator攻击、Web攻击、Port-Scan攻击、Infiltration攻击、Botnet攻击、未知流量;
所述初始数据流特征包括:
基本流量统计特征:目标端口、流持续时间、正向数据包总数、反向数据包总数、正向数据包总长度、反向数据包总长度、正向数据包长度最大值、正向数据包长度最小值、反向数据包长度最大值、反向数据包长度最小值、每秒流量字节、每秒流量包数;
流间隔时间特征:流交互到达时间平均值、流交互到达时间标准差、流交互到达时间最大值、流交互到达时间最小值、正向交互到达时间总和、正向交互到达时间平均值、正向交互到达时间标准差、正向交互到达时间最大值、正向交互到达时间最小值、反向交互到达时间总和、反向交互到达时间平均值、反向交互到达时间标准差、反向交互到达时间最大值、反向交互到达时间最小值;
TCP标志特征:正向PSH标志数、反向PSH标志数、正向URG标志数、反向URG标志数、FIN标志数、SYN标志数、RST标志数、PSH标志数、ACK标志数、URG标志数、CWE标志数、ECE标志数;
数据包长度特征:最小数据包长度、最大数据包长度、数据包长度平均值、数据包长度标准差、数据包长度方差;
连接状态特征:下行/上行比率、正向初始窗口字节数、反向初始窗口字节数、正向有效数据包数、正向最小段大小;
活跃连接和闲置连接特征:活跃连接的平均值、活跃连接的标准差、活跃连接的最大值、活跃连接的最小值、闲置连接的平均值、闲置连接的标准差;
数据包特征:正向数据包平均字节数、正向数据包平均包数、正向数据包平均速率、反向数据包平均字节数、反向数据包平均包数、反向数据包平均速率;
子流特征:子流正向数据包数、子流正向字节数、子流反向数据包数、子流反向字节数。
4.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述S20,包括:
所述DBSCAN算法使用欧式距离计算本地数据流集合中数据流之间的距离,其计算公式为:
;
其中,表示所述本地数据流集合中任意数据流的相关特征向量,表示所述本地数据流集合中与不同的任意数据流的相关特征向量,表示数据流与数据流之间的欧式距离,表示相关特征向量的第个相关特征,表示相关特征向量的第个相关特征。
5.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述S30,包括:
所述阈值的值为,其中,表示对向下取整,,表示精简数据流集合,表示精简数据流集合大小。
6.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述使用ADASYN算法对二次分类子集进行自适应补充,包括:
S31.获取数据流数量小于阈值的二次分类子集,获取所述二次分类子集中的第个数据流,初始值为1,计算所述第个数据流与所述二次分类子集中其余所有数据流之间关于相关特征向量的欧式距离,选择欧式距离最小的个数据流作为所述第个数据流的邻居数据流;
S32.计算所述第个数据流的加权分布,所述加权分布的计算公式为:
;
其中,,表示所述第个数据流的数据流类型,表示所述第个数据流的第个邻居数据流的数据流类型;
S33.判断所述第个数据流是否为所述二次分类子集中的最后一个数据流,若是,转S34,若否,,转S31;
S34.计算所述二次分类子集中所有数据流的补充比例,其计算公式为:
;
其中,表示所述二次分类子集中的任意数据流,表示数据流r的补充比例,表示数据流r的加权分布,表示所述二次分类子集的大小,表示所述二次分类子集中第个数据流的加权分布;
S35.对所述二次分类子集中的每个数据流生成个合成数据流,将生成的合成数据流作为数据流存入所述二次分类子集,所述合成数据流由25维的相关特征向量表示,所述合成数据流的相关特征的生成公式如下:
;
其中,表示所述二次分类子集中的任意数据流,表示根据数据流生成的合成数据流的第个相关特征,,表示数据流的第个相关特征,表示从所述数据流的邻居数据流中随机选取的一个数据流,表示数据流的第个相关特征,表示区间[0,1]上的随机数。
7.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述使用KPCA算法对所述数据流集合中所有数据流的相关特征向量进行降维,包括:
S41.获取所述数据流集合中的数据流总数量为M,构建一个M行M列的核矩阵KM,所述核矩阵KM的元素为:
;
其中,表示所述核矩阵KM中第i行第j列的元素值,,,SDB表示所述数据流集合,表示数据流集合SDB中第i个数据流与第j个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值;
S42.对所述核矩阵KM进行中心化得到新的核矩阵,所述新的核矩阵的元素为:
;
其中,表示所述核矩阵中第i行第j列的元素值,,,表示所述核矩阵KM中第i行第j列的元素值,表示所述核矩阵KM第i行所有元素的平均值,表示所述核矩阵KM第j列所有元素的平均值,表示所述核矩阵KM中所有元素的平均值;
S43.对所述新的核矩阵进行特征分解,得到其特征值和与特征值对应的特征向量,对所述特征向量进行归一化,得到归一化后特征向量,取最大的15个特征值对应的归一化后的特征向量构成一个M行15列的特征矩阵X;
S44.利用所述特征矩阵X将所述数据流集合中所有数据流的相关特征向量投影至特征空间中,得到所有数据流的关键特征向量,所述关键特征向量为15维,表示为,表示所述数据流集合中的任意数据流,表示任意数据流的关键特征向量,表示所述任意数据流的第个关键特征,,所述关键特征的计算方式为:
;
其中,表示所述任意数据流的相关特征向量,表示所述任意数据流与所述数据流集合SDB中第个数据流之间关于相关特征向量的欧式距离,表示所述数据流集合SDB中所有数据流之间关于相关特征向量的欧式距离的平均值,表示所述特征矩阵的第行第列的元素值,表示所述数据流集合SDB中的数据流总数量。
8.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述S50,包括:
S51.将所述数据流集合随机划分为70%的训练集和30%的验证集,将所述训练集中所有数据流的关键特征向量和数据流类型标签分别输入支持向量机、随机森林、LightGBM三种模型中进行训练,将验证集输入训练好的三种模型,得到验证集在三种模型上的输出,所述验证集在三种模型上的输出为三个12维的概率向量,所述概率向量表示模型通过计算得到验证集分别为12种数据流类型的概率,将验证集在三种模型上输出的概率向量拼接成一个36维的集成特征向量;
S52.将所述集成特征向量和所述验证集的数据流类型标签输入三层的全连接神经网络进行训练,当迭代次数大于5000次或者准确度达到99.9%时停止训练,所述全连接神经网络使用交叉熵作为损失函数,所述全连接神经网络的输出为一个12维的概率向量。
9.如权利要求1所述的一种基于集成学习的车辆入侵检测方法,其特征在于,所述S60,包括:
获取车辆实时数据流,选取所述实时数据流的相关特征构成相关特征向量,使用KPCA算法对所述实时数据流的相关特征向量进行降维,得到所述实时数据流的关键特征向量,将所述实时数据流的关键特征向量分别输入训练好的支持向量机、随机森林、LightGBM三种模型中,得到所述实时数据流在三种模型上输出的三个概率向量,将所述三个概率向量组合成一个集成特征向量,将所述集成特征向量输入训练好的全连接神经网络,得到一个12维的概率向量,将所述12维的概率向量中最大概率所属的数据流类型作为所述实时数据流的数据流类型。
10.一种基于集成学习的车辆入侵检测装置,其特征在于,包括:
数据预处理模块:用于计算本地车辆数据集中所有初始数据流特征的信息增益比,根据信息增益比选取相关特征向量,标准化所述相关特征向量后进行DBSCAN聚类,在每个DBSCAN类簇中随机选取20%数据流,得到精简数据流集合;
数据生成模块:用于将所述精简数据流集合中的数据流存入二次分类子集,对类别不平衡的二次分类子集进行自适应补充,得到数据流集合;
特征工程模块:用于对所述数据流集合中所有数据流的相关特征向量使用KPAC算法进行降维,得到关键特征向量;
集成学习模块:用于使用所述数据流集合的关键特征向量训练由支持向量机、随机森林、LightGBM三种基本模型和三层全连接神经网络元模型组成的集成模型,以及使用训练好的集成模型来确定车辆实时数据流的数据流类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410397400.4A CN117997652B (zh) | 2024-04-03 | 2024-04-03 | 一种基于集成学习的车辆入侵检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410397400.4A CN117997652B (zh) | 2024-04-03 | 2024-04-03 | 一种基于集成学习的车辆入侵检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117997652A true CN117997652A (zh) | 2024-05-07 |
CN117997652B CN117997652B (zh) | 2024-06-07 |
Family
ID=90891520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410397400.4A Active CN117997652B (zh) | 2024-04-03 | 2024-04-03 | 一种基于集成学习的车辆入侵检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117997652B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN109818798A (zh) * | 2019-02-19 | 2019-05-28 | 上海海事大学 | 一种融合kpca和elm的无线传感器网络入侵检测系统及方法 |
CN110213287A (zh) * | 2019-06-12 | 2019-09-06 | 北京理工大学 | 一种基于集成机器学习算法的双模式入侵检测装置 |
CN110581840A (zh) * | 2019-07-24 | 2019-12-17 | 中国科学院信息工程研究所 | 基于双层异质集成学习器的入侵检测方法 |
CN111970309A (zh) * | 2020-10-20 | 2020-11-20 | 南京理工大学 | 基于Spark车联网组合深度学习入侵检测方法及系统 |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN112287338A (zh) * | 2020-11-30 | 2021-01-29 | 国网新疆电力有限公司电力科学研究院 | 基于adasyn算法和改进卷积神经网络的入侵检测方法及装置 |
CN112383551A (zh) * | 2020-11-16 | 2021-02-19 | 辽宁工程技术大学 | 一种基于机器学习的网络入侵检测方法 |
US20210067549A1 (en) * | 2019-08-29 | 2021-03-04 | Nec Laboratories America, Inc. | Anomaly detection with graph adversarial training in computer systems |
CN113922985A (zh) * | 2021-09-03 | 2022-01-11 | 西南科技大学 | 一种基于集成学习的网络入侵检测方法及系统 |
CN114861788A (zh) * | 2022-04-28 | 2022-08-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
CN115242441A (zh) * | 2022-06-21 | 2022-10-25 | 浙江工业大学 | 一种基于特征选择和深度神经网络的网络入侵检测方法 |
CN115600194A (zh) * | 2022-11-08 | 2023-01-13 | 广东技术师范大学(Cn) | 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备 |
US20230176556A1 (en) * | 2021-12-08 | 2023-06-08 | Ford Global Technologies, Llc | Systems and methods for detecting manufacturing anomalies |
CN116781346A (zh) * | 2023-06-20 | 2023-09-19 | 广东工业大学 | 基于数据增强的卷积双向长短期记忆网络入侵检测方法 |
CN116886398A (zh) * | 2023-08-03 | 2023-10-13 | 中国石油大学(华东) | 一种基于特征选择和集成学习的物联网入侵检测方法 |
CN117150409A (zh) * | 2023-09-14 | 2023-12-01 | 保定市新源绿网电力科技有限公司 | 一种用电异常检测方法 |
CN117155701A (zh) * | 2023-10-09 | 2023-12-01 | 重庆邮电大学 | 一种网络流量入侵检测方法 |
CN117692209A (zh) * | 2023-12-11 | 2024-03-12 | 电子科技大学成都学院 | 一种网络入侵检测方法 |
-
2024
- 2024-04-03 CN CN202410397400.4A patent/CN117997652B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN109818798A (zh) * | 2019-02-19 | 2019-05-28 | 上海海事大学 | 一种融合kpca和elm的无线传感器网络入侵检测系统及方法 |
CN110213287A (zh) * | 2019-06-12 | 2019-09-06 | 北京理工大学 | 一种基于集成机器学习算法的双模式入侵检测装置 |
CN110581840A (zh) * | 2019-07-24 | 2019-12-17 | 中国科学院信息工程研究所 | 基于双层异质集成学习器的入侵检测方法 |
US20210067549A1 (en) * | 2019-08-29 | 2021-03-04 | Nec Laboratories America, Inc. | Anomaly detection with graph adversarial training in computer systems |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN111970309A (zh) * | 2020-10-20 | 2020-11-20 | 南京理工大学 | 基于Spark车联网组合深度学习入侵检测方法及系统 |
CN112383551A (zh) * | 2020-11-16 | 2021-02-19 | 辽宁工程技术大学 | 一种基于机器学习的网络入侵检测方法 |
CN112287338A (zh) * | 2020-11-30 | 2021-01-29 | 国网新疆电力有限公司电力科学研究院 | 基于adasyn算法和改进卷积神经网络的入侵检测方法及装置 |
CN113922985A (zh) * | 2021-09-03 | 2022-01-11 | 西南科技大学 | 一种基于集成学习的网络入侵检测方法及系统 |
US20230176556A1 (en) * | 2021-12-08 | 2023-06-08 | Ford Global Technologies, Llc | Systems and methods for detecting manufacturing anomalies |
CN114861788A (zh) * | 2022-04-28 | 2022-08-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于dbscan聚类的负荷异常检测方法及系统 |
CN115242441A (zh) * | 2022-06-21 | 2022-10-25 | 浙江工业大学 | 一种基于特征选择和深度神经网络的网络入侵检测方法 |
CN115600194A (zh) * | 2022-11-08 | 2023-01-13 | 广东技术师范大学(Cn) | 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备 |
CN116781346A (zh) * | 2023-06-20 | 2023-09-19 | 广东工业大学 | 基于数据增强的卷积双向长短期记忆网络入侵检测方法 |
CN116886398A (zh) * | 2023-08-03 | 2023-10-13 | 中国石油大学(华东) | 一种基于特征选择和集成学习的物联网入侵检测方法 |
CN117150409A (zh) * | 2023-09-14 | 2023-12-01 | 保定市新源绿网电力科技有限公司 | 一种用电异常检测方法 |
CN117155701A (zh) * | 2023-10-09 | 2023-12-01 | 重庆邮电大学 | 一种网络流量入侵检测方法 |
CN117692209A (zh) * | 2023-12-11 | 2024-03-12 | 电子科技大学成都学院 | 一种网络入侵检测方法 |
Non-Patent Citations (5)
Title |
---|
GOZDE KARATAS; OZGUR KORAY SAHINGOZ: "Neural network based intrusion detection systems with different training functions", 《2018 6TH INTERNATIONAL SYMPOSIUM ON DIGITAL FORENSIC AND SECURITY (ISDFS)》, 7 May 2018 (2018-05-07) * |
刘万军;秦济韬;曲海成;: "基于改进单类支持向量机的工业控制网络入侵检测方法", 计算机应用, no. 05, 26 December 2017 (2017-12-26) * |
沈利香;曹国;: "基于数据挖掘的入侵检测多分类模型研究", 常州工学院学报, no. 06, 28 December 2011 (2011-12-28) * |
魏明军,李凤,刘亚志,李辉: "基于改进WGAN-GP和ResNet的车联网入侵检测方法", 《郑州大学学报(工学版)》, 4 March 2024 (2024-03-04) * |
黄金超;马颖华;齐开悦;李怡晨;夏元轶;: "一种基于集成学习的入侵检测算法", 上海交通大学学报, no. 10, 28 October 2018 (2018-10-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN117997652B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109698836B (zh) | 一种基于深度学习的无线局域网入侵检测方法和系统 | |
CN109194612B (zh) | 一种基于深度置信网络和svm的网络攻击检测方法 | |
Yue et al. | An ensemble intrusion detection method for train ethernet consist network based on CNN and RNN | |
CN113824684B (zh) | 一种基于迁移学习的车载网络入侵检测方法及系统 | |
US20240250963A1 (en) | Unsupervised gan-based intrusion detection system using temporal convolutional networks, self-attention, and transformers | |
CN110941794A (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
Hoang et al. | Detecting in-vehicle intrusion via semi-supervised learning-based convolutional adversarial autoencoders | |
Anzer et al. | A multilayer perceptron-based distributed intrusion detection system for internet of vehicles | |
CN109981672B (zh) | 一种基于半监督聚类的多层入侵检测方法 | |
Nguyen et al. | Transformer-based attention network for in-vehicle intrusion detection | |
Anbalagan et al. | IIDS: Intelligent intrusion detection system for sustainable development in autonomous vehicles | |
CN113079167A (zh) | 一种基于深度强化学习的车联网入侵检测方法及系统 | |
CN111881439A (zh) | 一种基于对抗性正则化的识别模型设计方法 | |
Hoang et al. | Supervised contrastive ResNet and transfer learning for the in-vehicle intrusion detection system | |
CN117997652B (zh) | 一种基于集成学习的车辆入侵检测方法及装置 | |
Cobilean et al. | Anomaly Detection for In-Vehicle Communication Using Transformers | |
CN112804189A (zh) | 基于云雾协同的车联网入侵检测方法 | |
Du et al. | Open World Intrusion Detection: An Open Set Recognition Method for Can Bus in Intelligent Connected Vehicles | |
CN116502708A (zh) | 基于性能评估和委员会投票的抗拜占庭攻击的dfl方法 | |
CN116070137A (zh) | 一种针对恶意流量检测的开集识别装置及方法 | |
CN115546003A (zh) | 基于对抗训练网络的后门水印图像数据集生成方法 | |
CN113392901A (zh) | 一种基于深度学习模型神经通路激活特征的对抗样本检测方法 | |
Liao | [Retracted] An Intrusion Detection Model Based on Improved ACGAN in Big Data Environment | |
Zhong et al. | Tackling Sybil Attacks in Intelligent connected vehicles: A Review of Machine Learning and Deep Learning Techniques | |
Boumiza et al. | In-Vehicle Network Intrusion Detection Using DNN with ReLU Activation Function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |