CN113642017A - 一种基于自适应特征分类的加密流量识别方法、存储器和处理器 - Google Patents

一种基于自适应特征分类的加密流量识别方法、存储器和处理器 Download PDF

Info

Publication number
CN113642017A
CN113642017A CN202110911992.3A CN202110911992A CN113642017A CN 113642017 A CN113642017 A CN 113642017A CN 202110911992 A CN202110911992 A CN 202110911992A CN 113642017 A CN113642017 A CN 113642017A
Authority
CN
China
Prior art keywords
flow
data set
data
algorithm
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110911992.3A
Other languages
English (en)
Inventor
王艺霖
杜佳佳
王安平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Karamay And China Cloud Technology Development Co ltd
Original Assignee
Karamay And China Cloud Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Karamay And China Cloud Technology Development Co ltd filed Critical Karamay And China Cloud Technology Development Co ltd
Priority to CN202110911992.3A priority Critical patent/CN113642017A/zh
Publication of CN113642017A publication Critical patent/CN113642017A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明针提供了一种自适应特征分类的加密流量识别方法、存储器和处理器,包括以下步骤:数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;数据集预处理:读取数据流,截断数据,并进行归一化处理;平衡数据集:采用ADASYN算法对不平衡数据集进行处理;从特征中提取最优化特征集;识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。本发明可以消除冗余和不相关特征,增强分类模型的识别能力,高效识别加密流量。

Description

一种基于自适应特征分类的加密流量识别方法、存储器和处 理器
技术领域
本发明涉及网络安全领域,具体涉及一种基于自适应特征分类的加密流量识别方法、存储器和处理器。
背景技术
随着大数据时代的到来,大众对于数据保护的意识也愈加强烈,半数的在线流量均被加密。对于特定类型的流量,数据加密已经成为保护隐私的重要手段之一。
流量加密在无意间也给网络安全带来了新的隐患。加密能够像隐藏其他信息一样隐藏恶意流量,从而带来一系列蠕虫、木马和病毒。这意味着加密是一把双刃剑,保护隐私的同时也让不法分子有了可乘之机。因此加密流量识别的意义不言而喻。
加密流量的识别目前方法主要有6类:基于有效负载特征字段匹配的识别方法、基于机器学习的方法、基于主机行为的识别方法、基于数据分组分布的方法、基于负载随机性的方法以及多种策略结合的方法,其中最常用的是基于机器学习的分类方法,但是此方法仍没有解决加密流量识别中特征选择存在的度量指标单一和类别不平衡问题,而且加密网络流量随时间推移和网络环境变化而发生网络流特征和分布变化,导致基于机器学习的分类模型适用性和精度下降,使得泛化能力下降。
发明内容
本发明针对加密流量识别中特征选择存在的度量指标单一和类别不平衡等缺点,提供了一种自适应特征分类的加密流量识别方法,可以消除冗余和不相关特征,增强分类模型的识别能力,高效识别加密流量。
一方面,本发明的基于自适应特征分类的加密流量识别方法,包括以下步骤:
S100、数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;
S200、数据集预处理:读取数据流,截断数据,并进行归一化处理;
S300、平衡数据集:采用ADASYN算法对不平衡数据集进行处理;
S400、从特征中提取最优化特征集;
S500、识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。
具体的,所述特征采用堆栈式自动编码器提取。
具体的,所述最优化特征集采用启发式搜索方法自动提取。
具体的,机器学习算法模型是基于遗传算法改进的随机森林模型。
具体的,所述算法模型建立包括以下步骤:用训练集构建决策树,组成原始的决策树集合;从原始的决策树集合中筛选出性能更优的决策树,构成新的决策树集合;利用遗传算法迭代多次,得到最优的随机森林模型。
另一方面,本发明还提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
另一方面,本发明还提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
与现有技术相比,本发明具有如下有益效果:本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题,识别率高,误报率低,适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。
附图说明
图1为本发明的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,提供了一种基于自适应特征分类的加密流量识别方法,针对样本数据集的类别不平衡性和特征提取困难和特征冗余的问题,通过平衡原始数据集,提取数据包负载,并使用堆栈式自动编码器模型自动提取特征,通过选择性集成得到最优化特征集,最后输入基于机器学习的分类器进行分类评估。具体包括以下步骤:
S100、数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;
S200、数据集预处理:读取数据流,截断数据,并进行归一化处理;
S300、平衡数据集:采用ADASYN算法对不平衡数据集进行处理;
S400、从特征中提取最优化特征集;
S500、识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。
所述特征采用堆栈式自动编码器提取。
所述最优化特征集采用启发式搜索方法自动提取。
机器学习算法模型是基于遗传算法改进的随机森林模型。
所述算法模型建立包括以下步骤:用训练集构建决策树,组成原始的决策树集合;从原始的决策树集合中筛选出性能更优的决策树,构成新的决策树集合;利用遗传算法迭代多次,得到最优的随机森林模型。
加密流量识别方法过程至少包括:数据集采集、数据预处理、平衡数据集、最优化特征集、识别流量分析几个步骤。
(1)数据集采集是用Wireshark抓取网络流量,生成会话,通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流,本发明取从发起连接的三次握手的SYN包开始,到断开连接的FIN包或RST包为结束。对于UDP流,以第一个数据包的到达为开始,如果两个数据包到达的时间间隔超过60s,则认为数据流结束。数据预处理就是提取数据包负载,截断数据流前n个字节,不够n个字节数填充0。为了防止物理硬件对分类的影响,需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节,为了消除实验误差影响需要在UDP头部填充0。为了得到最佳算法分类效果,需要对提取的数据包字节进行归一化处理。
(2)平衡数据集就是实验采用ADASYN算法对不平衡数据集进行处理。平衡数据采ADASYN算法平衡数据集,ADASYN合成少数过采样技术,是一种基于随机过采样的改进算法,其避免了通过简单的复制过采样策略导致的模型过拟合、不具有泛化效果的缺陷。ADASYN算法基本思想是使用密度分布作为标准来自动确定每个少数类需要生成的合成样本的数量。密度分布是根据少数类样本的学习难度来确定的权重,所以ADASYN会强制模型学习那些难以学习的少数类样本,从而增加少数样本进而平衡数据集,避免了模型的过拟合,并具有良好的泛化作用。具体算法过程实现如下:
1.计算不平衡度假设少数类数目ms,多数类数目ml,则不平衡度为:
d=ms/ml
2.当不平衡度大于一个阀值时,则计算需要少数类中合成的样本数量
G=(ml-ms)×β
这里的β用来指定想要的数据平衡度。
3.对于每个少数类中的样本点,通过计算欧氏距离得到在全部数据中的k个近邻,定义以下比例,其中Δi 为xik个近邻中多数类样本点的个数。
ri=Δi/k i=1,...ms
4.归一化
Figure BDA0003204097730000041
5.计算xi需要产生的样本数
Figure BDA0003204097730000042
6.扩大样本对于每个少数类的样本点xi,需要生成gi个新样本。在其k个近邻中,随机选取一个少数类样本xzi
xnew=xi+rand(0,1)(xzi-xi)
以上过程循环gi次,最后再对每个少数类的样本点都进行上述操作。
(3)自动提取特征是利用堆栈式自动编码器模型自动提取特征。堆栈式自动编码器是深度学习领域常用的一个深度学习模型,由多个自动编码器堆叠而成,其目的是为了逐层提取输入数据的高阶特征,常被称为逐层贪婪训练学习过程,在此过程中逐层降低输入数据的维度,将一个复杂的输入数据转化成了一个系列简单的高阶特征,然后再把这些高阶特征输入一个分类器进行分类。
最优化特征集就是利用启发式搜索方法提取特征。假设特征集中有n个特征,那么存在2n-1个非空特征子集,搜索策略就是从2n-1个候选特征子集中寻找最优特征子集。每次从未选入的特征中选择一个特征,使它与已选入的特征组合在一起时判据值J最大,直到判据值J降低为结束准则。设特征集F={f1,f2,f3,...fn},初始时,特征子集
Figure BDA0003204097730000043
已选入了k个特征的特征子集记为Fk,把未选入的n-k个特征Fj(j=1,2,3,...n-k)逐个与已选入的特征Fk组合计算判据值J,若J(FK+x1)≥J(FK+x2)≥J(FK+x3)≥...≥J(FK+xn-k),则x1选入,下一步的特征组合Fk+1=Fk+f1,该过程一直进行到最大判据J值降低为止,从而避免搜索整个特征空间,该算法时间复杂度≤n(n-1)/2。
(4)识别流量就是把最优化特征集输入基于遗传算法改进的随机森林CGA-RF分类器算法识别目的加密流量,通过交叉验证方式调试分类器参数,得到最优的分类器模型并决策评估。其中CGA-RF算法主要流程如下:
1.用训练集构建一定数量的决策树,组成原始的决策树集合;
2.根据选择性集成的思路,从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;
3.利用遗传算法迭代多次,直至损失函数最低,直到收敛,得到最优的随机森林模型。
基于遗传算法改进的随机森林CGA-RF分类器算法避免了由于个体学习器之间的差异性减少,从而使得集成模型的效果下降,更有利于加密流量的识别效果。指标结果分析就是对实验结果得到的指标结果进行分析,并选取合适的参数,优化算法,提高识别率。
根据本发明的第二个方面,提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
根据本发明的第三个方面,提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
需要说明的是,上述软件执行的数据安全共享方法与前面介绍的数据安全共享方法相同,在此不再赘述。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种基于自适应特征分类的加密流量识别方法,其特征在于,该方法包括:
S100、数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;
S200、数据集预处理:读取数据流,截断数据,并进行归一化处理;
S300、平衡数据集:采用ADASYN算法对不平衡数据集进行处理;
S400、从特征中提取最优化特征集;
S500、识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。
2.根据权利要求1所述的方法,其特征在于,所述特征采用堆栈式自动编码器提取。
3.根据权利要求1所述的方法,其特征在于,所述最优化特征集采用启发式搜索方法自动提取。
4.根据权利要求1所述的方法,其特征在于,机器学习算法模型是基于遗传算法改进的随机森林模型。
5.根据权利要求4所述的方法,其特征在于,所述算法模型建立包括以下步骤:用训练集构建决策树,组成原始的决策树集合;从原始的决策树集合中筛选出性能更优的决策树,构成新的决策树集合;利用遗传算法迭代多次,得到最优的随机森林模型。
6.一种存储器,其特征在于,用于存储软件,其中,所述软件用于执行权利要求1至5中任一项所述的方法。
7.一种处理器,其特征在于,用于执行软件,其中,所述软件用于执行权利要求1至5中任一项所述的方法。
CN202110911992.3A 2021-08-10 2021-08-10 一种基于自适应特征分类的加密流量识别方法、存储器和处理器 Pending CN113642017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110911992.3A CN113642017A (zh) 2021-08-10 2021-08-10 一种基于自适应特征分类的加密流量识别方法、存储器和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110911992.3A CN113642017A (zh) 2021-08-10 2021-08-10 一种基于自适应特征分类的加密流量识别方法、存储器和处理器

Publications (1)

Publication Number Publication Date
CN113642017A true CN113642017A (zh) 2021-11-12

Family

ID=78420383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110911992.3A Pending CN113642017A (zh) 2021-08-10 2021-08-10 一种基于自适应特征分类的加密流量识别方法、存储器和处理器

Country Status (1)

Country Link
CN (1) CN113642017A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174170A (zh) * 2022-06-23 2022-10-11 东北电力大学 一种基于集成学习的vpn加密流量识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174170A (zh) * 2022-06-23 2022-10-11 东北电力大学 一种基于集成学习的vpn加密流量识别方法
CN115174170B (zh) * 2022-06-23 2023-05-09 东北电力大学 一种基于集成学习的vpn加密流量识别方法

Similar Documents

Publication Publication Date Title
CN111565205B (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN110598774B (zh) 加密流量检测方法及装置、计算机可读存储介质、电子设备
CN106982230B (zh) 一种流量检测方法及系统
CN113469366A (zh) 一种加密流量的识别方法、装置及设备
CN111368289B (zh) 一种恶意软件检测方法和装置
CN111464510B (zh) 基于快速梯度提升树分类模型的网络实时入侵检测方法
CN112468487A (zh) 实现模型训练的方法、装置、实现节点检测的方法及装置
CN113642017A (zh) 一种基于自适应特征分类的加密流量识别方法、存储器和处理器
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN114024761A (zh) 网络威胁数据的检测方法、装置、存储介质及电子设备
JP7268367B2 (ja) 学習装置、学習方法および学習プログラム
EP3499429A1 (en) Behavior inference model building apparatus and method
Bui et al. A clustering-based shrink autoencoder for detecting anomalies in intrusion detection systems
CN113114691A (zh) 一种网络入侵检测方法、系统、设备和可读存储介质
CN111092873B (zh) 非对称卷积网络的流量检测模型的训练方法及检测方法
CN114866297B (zh) 网络数据检测方法、装置、电子设备及存储介质
CN114884755B (zh) 一种网络安全防护方法、装置、电子设备及存储介质
KR20210088146A (ko) Ae-cgan 모델 기반의 네트워크 침입 탐지 시스템 및 방법
KR101394591B1 (ko) 네트워크의 침입을 탐지하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN113656796B (zh) 一种过采样方法、装置、设备及存储介质
CN114244549B (zh) 一种面向工业互联网的GSSK-means异常流量检测方法、存储器和处理器
KR20230086976A (ko) 하이브리드 특징 선택과 데이터 균형을 통한 효율적인 네트워크 탐지 방법 및 시스템
CN113726756A (zh) 一种web异常流量检测方法、装置、设备及存储介质
CN110032596B (zh) 流量异常用户识别方法及系统
CN114511330A (zh) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination