CN110298398B - 基于改进互信息的无线协议帧特征选择方法 - Google Patents

基于改进互信息的无线协议帧特征选择方法 Download PDF

Info

Publication number
CN110298398B
CN110298398B CN201910555425.1A CN201910555425A CN110298398B CN 110298398 B CN110298398 B CN 110298398B CN 201910555425 A CN201910555425 A CN 201910555425A CN 110298398 B CN110298398 B CN 110298398B
Authority
CN
China
Prior art keywords
features
feature
information
formula
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910555425.1A
Other languages
English (en)
Other versions
CN110298398A (zh
Inventor
刘治国
张江梅
任长庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201910555425.1A priority Critical patent/CN110298398B/zh
Publication of CN110298398A publication Critical patent/CN110298398A/zh
Application granted granted Critical
Publication of CN110298398B publication Critical patent/CN110298398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W80/00Wireless network protocols or protocol adaptations to wireless operation
    • H04W80/08Upper layer protocols
    • H04W80/12Application layer protocols, e.g. WAP [Wireless Application Protocol]

Abstract

本发明公开了一种基于改进互信息的无线协议帧特征选择方法,包括如下步骤:S1:初始化原始集合包含的全部特征,目标集合为空集合;S2:计算原始集合中特征的相关度,将相关度最大的特征加入到目标集合中,并将该特征移出原始集合;S3:计算剩余特征归一化之后的公式值,选择具有最大公式值的特征;S4:判断公式值是否达到标准,达到标准则将该特征从原始集合移入到目标集合,回到S3,否则到S5;S5:输出目标集合。本申请利用信息论中的互信息相关理论,根据归一化的思想对特征的相关度和冗余度进行考量去进行特征选择。最主要的目的是对初步提取的特征进行进一步的筛选验证,提高特征集合的精确性。

Description

基于改进互信息的无线协议帧特征选择方法
技术领域
本发明涉及无线通信领域,尤其可以应用在无线通信领域中数据链路层的特征选择方法。
背景技术
21世纪以来计算机网络技术发展迅猛,接入互联网的设备变得多样化,网络应用规模呈现爆炸式增长。而无线网络作为当代社会非常重要的一种网络接入方式,以其移动性和灵活性等优势,在当代社会得到了广泛的应用。在高信息化的今天,保证无线网络传输的安全变得越来越重要。传统网络安全的技术研究集中在应用层,像防火墙、病毒防护和入侵检测等技术已经发展的相当纯熟。但针对网络监管、区分服务以及信息对抗等深层次的网络问题,还没有很好的解决方法。
无线网络应用层数据难以捕获,而现有的针对无线协议识别停留在信号层面,信号参数误差容易累积,识别效果差。
发明内容
鉴于上述问题,本发明提出数据链路层未知协议识别模型下基于改进互信息的无线协议帧特征选择方法。未知协议识别模型的核心是对链路层数据进行精确的特征提取。该模型的核心模块是自学习模块,自学习模块由数据处理和数据分析模块组成,技术核心是对协议特征的提取。在数据处理模块对经过简单预处理的比特数进行切分统计、关联规则分析提取到原始的特征集合。特征选择是在数据处理阶段得到原始特征集合的基础上,利用信息论中的互信息相关理论,根据归一化的思想对特征的相关度和冗余度进行考量去进行特征选择。最主要的目的是对初步提取的特征进行进一步的筛选验证,提高特征集合的精确性。
结合未知无线协议数据链路层的特点,在互信息特征选择算法的基础上,提出基于改进互信息的无线协议帧特征选择方法。该算法利用信息论中的互信息相关理论,将整个特征集合的平均互信息定义为相关度,将特征的相关度和条件相关度之间的差值定义为冗余度,利用归一化思想,选择相关度高而冗余度低的特征。
为了平衡特征之间相关度和冗余度的影响,使得目标特征集合保留相关度大的特征,但特征的冗余度保持在较低的水平。从而提高特征集合的精确度。本发明的技术方案是这样实现的:
一种基于改进互信息的无线协议帧特征选择方法,包括如下步骤:
S1:初始化原始集合包含的全部特征,目标集合为空集合;
S2:计算原始集合中特征的相关度,将相关度最大的特征加入到目标集合中,并将该特征移出原始集合;
S3:计算剩余特征归一化之后的公式值(WNMIFS),选择具有最大公式值(WNMIFS)的特征;
S4:判断公式值(WNMIFS)是否达到标准,达到标准则将该特征从原始集合移入到目标集合,回到S3,否则到S5;
S5:输出目标集合。
进一步地,原始集合中特征的相关度计算公式为:
Figure BDA0002106758020000031
其中,n为特征的个数,I为互信息值;fi,fj为集合里不同的两个特征,且均属于未选特征集合。
进一步地,特征的条件相关度计算公式为:
Figure BDA0002106758020000032
fg为已选特征集合,H(fg|fi)为条件信息熵,H(fg)为信息熵。
进一步地,特征之间的冗余度计算公式为:Red(fi,fg)=Rel(fg)-Rel(fg|fi),Rel(fg)为已选特征相关度,Rel(fg|fi)为条件特征相关度。
进一步地,归一化之后的公式值(WNMIFS)计算公式为:
Figure BDA0002106758020000033
其中|S|为特征的信息熵的和,H(fj)为特征fj的信息熵。
本发明的有益效果是:相较于现有技术,本发明提出了基本链路层数据的协议识别分析方法,利用对数据链路层协议数据的特征进行提取来识别网络数据。对网络数据进行切割,在基于帧切割和频繁序列拼接的基础上,采用互信息相关理论,根据帧特征的信息相关度、冗余度相关定义和归一化思想,对帧特征进行进一步的筛选验证以提取未知协议数据的特征,能够实现对数据链路层和应用层的数据进行深度的分析。精确提取无线网络链路层的特征,实现对未知协议的识别。
附图说明
图1为本发明的协议识别框架;
图2为本发明的基于改进互信息的无线协议帧特征选择方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在详细说明基于改进互信息的无线协议帧特征选择方法之前,先介绍本算法应用的识别框架。
基于无线网络未知协议识别框架包含五个模块,数据切割模块通过对协议数据中的同步码位置进行分析,识别出同步码,并依据同步码将比特流数据进行切割,从而得到以帧为单位的未知协议通信数据。对切分的数据帧进行分析,对特征的位置关系进行关联规则分析拼接、特征选择,最终得到协议的原始特征。将数据处理模块中的同种协议帧数据聚类,根据聚类结果和关联规则关系建立协议分析树表征协议格式。自动识别模块利用已知协议和以前识别过的协议建立的特征库与数据进行比对完成未知协议识别的过程。数据输出模块是对识别结果进行输出,包括协议格式和协议名称。
其核心模块是由数据处理模块和数据分析模块组成的自学习模块,主要通过多对数据链路层的比特流数据进行精确的特征提取来进行识别。
其次,本方法设计了相关指标参数及其计算公式。
(1)相关度:特征fi与整个特征集合的平均互信息,用公式(1)表示:
Figure BDA0002106758020000051
其中,n为原始集合中的总特征数,fi为原始特征集合里面的特征。
(2)条件相关度:一个已选特征fg对于未选特征fi的条件相关度的计算公式表示:
Figure BDA0002106758020000052
其中,H(fg)为特征的信息熵,H(fg|fi)表示条件熵。
(3)冗余度:相关度和条件相关度之间的差值可以定义为冗余度,冗余度的计算公式:
Red(fi,fg)=Rel(fg)-Rel(fg|fi) (3)
(4)特征选择公式为:
Figure BDA0002106758020000053
其中,|S|为特征的信息熵的和。
参照图1所示,基于改进互信息的无线协议帧特征选择方法的具体实施步骤如下:
S1:初始化F为包含全部特征(n个)的初始特征集,U为空集。
S2:
Figure BDA0002106758020000054
计算fi的平均互信息,即,相关度Rel(fi)。
S3:找到最大的Rel(fi),并将其从F集合移入到U集合。
S4:计算剩余特征的WNMIFS,
Figure BDA0002106758020000061
S5:选择具有最大值的特征判断WNMIFS值是否符合选择标准,(如果WNMIFS值高于阀值即符合选择标准,所述阀值可以选择0.5,也可以根据经验进行调整)若符合标准将该特征从集合F移到集合U中,并回到S4,否则跳到S6。
S6:S为选择的特征,结果输出。
相较于现有技术,本发明设计了一种基于改进互信息的无线协议帧特征选择方法,从数据链路层对无线网络的数据流进行分析,在数据切分、关联规则初步提取其特征的基础上,引入互信息理论,利用归一化思想对原始特征集合的特征的相关度和冗余度进行分析,从而提高了特征集合的准确度。
特别需要指出,对于本领域的普通技术人员来说,在本发明的教导下所作的针对本发明的等效变化,仍应包含在本发明申请专利范围所主张的范围中。

Claims (1)

1.基于改进互信息的无线协议帧特征选择方法,其特征在于,包括如下步骤:
S1:初始化原始集合包含的全部特征,目标集合为空集合;
S2:计算原始集合中特征的相关度,将相关度最大的特征加入到目标集合中,并将该特征移出原始集合;
S3:计算剩余特征归一化之后的公式值,选择具有最大公式值的特征;
S4:判断公式值是否达到标准,达到标准则将该特征从原始集合移入到目标集合,回到S3,否则到S5;
S5:输出目标集合;
原始集合中特征的相关度计算公式为:
Figure FDA0003015071860000011
其中,n为特征的个数,I为互信息值;fi,fj为集合里不同的两个特征,且均属于未选特征集合;
特征的条件相关度计算公式为:
Figure FDA0003015071860000012
fg为已选特征集合,H(fg|fi)为条件信息熵,H(fg)为信息熵;
特征之间的冗余度计算公式为:Red(fi,fg)=Rel(fg)-Rel(fg|fi),Rel(fg)为已选特征相关度,Rel(fg|fi)为条件特征相关度;
归一化之后的公式值WNMIFS计算公式为:
Figure FDA0003015071860000013
其中|S|为特征的信息熵的和,H(fj)为特征fj的信息熵;F和U表示存放特征的不同集合;
Figure FDA0003015071860000021
表示特征信息熵和的均值。
CN201910555425.1A 2019-06-25 2019-06-25 基于改进互信息的无线协议帧特征选择方法 Active CN110298398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910555425.1A CN110298398B (zh) 2019-06-25 2019-06-25 基于改进互信息的无线协议帧特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910555425.1A CN110298398B (zh) 2019-06-25 2019-06-25 基于改进互信息的无线协议帧特征选择方法

Publications (2)

Publication Number Publication Date
CN110298398A CN110298398A (zh) 2019-10-01
CN110298398B true CN110298398B (zh) 2021-08-03

Family

ID=68028730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910555425.1A Active CN110298398B (zh) 2019-06-25 2019-06-25 基于改进互信息的无线协议帧特征选择方法

Country Status (1)

Country Link
CN (1) CN110298398B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676375B (zh) * 2021-08-13 2023-03-14 浙江大学 一种工业控制系统私有协议结构解析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169085A (zh) * 2016-07-11 2016-11-30 天津大学 基于信息度量的特征选择方法
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN106991446A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种互信息的组策略嵌入式动态特征选择方法
CN108985462A (zh) * 2018-07-12 2018-12-11 北京航空航天大学 基于互信息和分形维数的无监督特征选择方法
CN109308571A (zh) * 2018-08-29 2019-02-05 华北电力科学研究院有限责任公司 配电线路线变关系检测方法
CN109506761A (zh) * 2018-06-12 2019-03-22 国网四川省电力公司乐山供电公司 一种变压器表面振动特征提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US9471881B2 (en) * 2013-01-21 2016-10-18 International Business Machines Corporation Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
CN104767736A (zh) * 2015-03-23 2015-07-08 电子科技大学 将未知单协议数据流分离为不同类型的数据帧的方法
CN106529207B (zh) * 2016-10-08 2019-04-12 华中科技大学 一种与核糖核酸结合的蛋白质的预测方法
CN109086913B (zh) * 2018-07-11 2020-06-09 山东大学 一种基于深度学习的电力系统暂态稳定评估方法及系统
CN109190660A (zh) * 2018-07-24 2019-01-11 西安理工大学 基于条件互信息的特征选择与评价方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169085A (zh) * 2016-07-11 2016-11-30 天津大学 基于信息度量的特征选择方法
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN106991446A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种互信息的组策略嵌入式动态特征选择方法
CN109506761A (zh) * 2018-06-12 2019-03-22 国网四川省电力公司乐山供电公司 一种变压器表面振动特征提取方法
CN108985462A (zh) * 2018-07-12 2018-12-11 北京航空航天大学 基于互信息和分形维数的无监督特征选择方法
CN109308571A (zh) * 2018-08-29 2019-02-05 华北电力科学研究院有限责任公司 配电线路线变关系检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improved Feature Selection Based on Normalized Mutual Information;Li Yin 等;《2015 14th International Symposium on Distributed Computing and Applications for Business Engineering and Science(DCABES)》;20160310;第518-522页 *
Normalized Mutual Information Feature Selection;Pablo A.Estevez 等;《IEEE Transactions on Neural Networks》;20090113;第20卷(第2期);第189-201页 *
Weighted Normalized Mutual Information based Change Detection in Remote Sensing Images;M.Aktar 等;《2016 19th International Conference on Computer and Information Technology(ICCIT)》;20170223;第257-260页 *
比特流数据未知协议特征发现技术研究;温爱霞;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315;第I136-736页正文第18页第3段、第34页第1段-第35页第3段 *

Also Published As

Publication number Publication date
CN110298398A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110019074B (zh) 访问路径的分析方法、装置、设备及介质
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112738014A (zh) 一种基于卷积时序网络的工控流量异常检测方法及系统
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN116010688A (zh) 一种用户行为标签识别方法、系统、设备及存储介质
CN110298398B (zh) 基于改进互信息的无线协议帧特征选择方法
CN114124734B (zh) 一种基于GCN-Transformer集成模型的网络流量预测方法
Yujie et al. End-to-end android malware classification based on pure traffic images
CN109981389A (zh) 手机号码识别方法、装置、设备及介质
WO2021248707A1 (zh) 一种操作的验证方法和装置
CN111444364B (zh) 一种图像检测方法和装置
CN109376531B (zh) 基于语义重编码与特征空间分离的Web入侵检测方法
CN111797997A (zh) 网络入侵检测方法、模型构建方法、装置及电子设备
CN115392238A (zh) 一种设备识别方法、装置、设备及可读存储介质
CN110336817B (zh) 一种基于TextRank的未知协议帧定位方法
CN113905405A (zh) 一种电力无线接入专网异常流量检测方法
CN110197066B (zh) 一种云计算环境下的虚拟机监控方法及监控系统
CN112367325A (zh) 基于闭合频繁项挖掘的未知协议报文聚类方法和系统
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN100363943C (zh) 基于色彩内容及分布的彩色图像匹配分析方法
CN110766165A (zh) 用于恶意url检测的在线主动机器学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant