CN116707859A - 特征规则提取方法和装置、网络入侵检测方法和装置 - Google Patents

特征规则提取方法和装置、网络入侵检测方法和装置 Download PDF

Info

Publication number
CN116707859A
CN116707859A CN202310451491.0A CN202310451491A CN116707859A CN 116707859 A CN116707859 A CN 116707859A CN 202310451491 A CN202310451491 A CN 202310451491A CN 116707859 A CN116707859 A CN 116707859A
Authority
CN
China
Prior art keywords
feature data
data
feature
intrusion detection
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310451491.0A
Other languages
English (en)
Inventor
顾钊铨
张志强
王乐
谭灏南
邓建宇
刘云晖
李润恒
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yilan Situation Technology Co ltd
Peng Cheng Laboratory
Original Assignee
Sichuan Yilan Situation Technology Co ltd
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yilan Situation Technology Co ltd, Peng Cheng Laboratory filed Critical Sichuan Yilan Situation Technology Co ltd
Priority to CN202310451491.0A priority Critical patent/CN116707859A/zh
Publication of CN116707859A publication Critical patent/CN116707859A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种特征规则提取方法和装置、网络入侵检测方法和装置,属于网络安全技术领域。方法包括:获取入侵检测样本;对样本中特征数据进行扩展,得到扩展特征数据;根据扩展特征数据对标签数据的重要性程度及扩展特征数据之间的关联关系,选取得到候选特征数据集合;对多个候选特征数据集合进行聚类处理,得到多个聚类中心;计算候选特征数据的中心偏移值;根据中心偏移值在候选特征数据集合中确定目标特征数据;获取目标特征数据对应的特征扩展规则作为目标特征扩展规则。该方法能够提取到最适合入侵检测模型的特征扩展规则,从而可以提升从网络数据包中提取的特征的质量,进而提升了网络入侵检测的准确性。

Description

特征规则提取方法和装置、网络入侵检测方法和装置
技术领域
本申请涉及网络安全技术领域,尤其涉及一种特征规则提取方法和装置、网络入侵检测方法和装置。
背景技术
目前,随着互联网技术的不断发展,人们的生产生活与互联网的联系也越来越紧密,随之使得网络安全问题也变得日益严峻。网络入侵检测技术是通过对网络行为、安全日志、审计数据或者其他网络上可以获得的信息进行操作,以检测是否存在对系统的闯入或闯入企图的技术。网络入侵检测技术作为一种积极主动的安全防护技术,通过对网络主体进行多层次的防御,大大提升了网络安全性。
网络入侵检测技术常涉及的检测方法包括基于专家系统的入侵检测方法以及基于神经网络的入侵检测方法等。其中,基于神经网络的入侵检测方法通过运动人工智能(Artificial Intelligence,AI)技术对入侵检测数据进行特征提取和检测,可以有效提升网络入侵检测的检测效率和检测准确性。
然而,在一些情况下,在对入侵检测数据的特征提取过程中存在提取到的特征质量不高的问题,进而导致基于神经网络的网络入侵检测准确性不高。
发明内容
本申请实施例的主要目的在于提出一种特征规则提取方法和装置、网络入侵检测方法和装置,旨在提高对入侵检测数据进行特征提取得到的特征的质量,进而提升网络入侵检测的准确性。
为实现上述目的,本申请实施例的第一方面提出了一种特征规则提取方法,所述方法包括:
获取多个入侵检测样本,所述入侵检测样本包括入侵检测数据和标签数据,所述入侵检测数据包括多个特征数据;
对所述多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;
根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;
对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;
计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离;
根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据;
获取所述目标特征数据对应的特征扩展规则作为目标特征扩展规则,所述目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
在一些实施例中,所述计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离,包括:
计算中心特征数据与聚类组中多个候选特征数据集合内对应的候选特征数据之间偏移距离的均值,所述中心特征数据为所述聚类中心对应的特征数据,所述聚类组为对所述多个候选特征数据集合进行聚类得到的多个分组;
计算多个聚类组对应的多个均值的和,得到所述中心特征数据对应的候选特征数据的中心偏移值。
在一些实施例中,所述对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心,包括:
对所述多个入侵检测样本对应的多个候选特征数据集合中的候选特征数据进行归一化处理,得到所述多个入侵检测样本对应的多个归一化特征数据集合;
对所述多个归一化特征数据集合进行聚类处理,得到多个聚类中心;
所述计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离,包括:
计算归一化特征数据集合中归一化特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述归一化特征数据与相应的聚类中心之间的距离;
所述根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据,包括:
根据所述中心偏移值在所述归一化特征数据集合中确定目标特征数据。
在一些实施例中,所述根据所述中心偏移值在所述归一化特征数据集合中确定目标特征数据,包括:
获取第一选取参数,所述第一选取参数为根据预设神经网络模型对不同选取比例的检测样本进行入侵检测的检测效果进行迭代优化学习得到的参数;
根据所述第一选取参数与所述归一化特征数据集合中归一化特征数据的数量计算第一数量;
按照所述中心偏移值由低到高的顺序将多个归一化特征数据进行排序,并确定排序在前的第一数量的归一化特征数据为目标特征数据。
在一些实施例中,所述根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测数据对应的候选特征数据集合,包括:
基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理的处理结果在所述多个扩展特征数据中确定多个第一特征数据;
基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果在所述多个第一特征数据中确定多个第二特征数据;
根据所述多个第二特征数据之间的关联关系,在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
在一些实施例中,所述基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理的处理结果在所述多个扩展特征数据中确定多个第一特征数据,包括:
基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理结果确定所述多个扩展特征相对于所述标签数据的重要性;
获取第二选取参数,并根据所述第二选取参数与所述扩展特征数据的数量计算得到第二数量;
根据重要性由高至低的顺序对所述多个扩展特征数据进行排序,并选取排序在前的第二数量的扩展特征数据,得到多个第一特征数据。
在一些实施例中,所述基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果在所述多个第一特征数据中确定多个第二特征数据,包括:
基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果确定所述多个第一特征数据与所述标签数据的相关性;
根据所述第二选取参数与所述第一特征数据的数量计算得到第三数量;
根据相关性由高至低的顺序对所述多个第一特征数据进行排序,并选取排序在前的第三数量的第一特征数据,得到多个第二特征数据。
在一些实施例中,所述根据所述多个第二特征数据之间的关联关系,在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合,包括:
分别计算所述多个第二特征数据之间的互信息,并根据所述互信息构建第二特征数据对应的互信息集合;
计算所述第二特征数据对应的互信息集合中的多个互信息的和,得到所述第二特征数据对应的目标互信息;
根据所述目标互信息在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
在一些实施例中,所述根据所述目标互信息在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合,包括:
获取第三选取参数,并基于所述第三选取参数与所述第二特征数据的数量计算得到第四数量;
按照目标互信息由高至低的顺序对所述多个第二特征数据进行排序,并选取排序在前的第四数量的第二特征数据,得到包含多个候选特征数据的候选特征数据集合。
为实现上述目的,本申请实施例的第二方面提出了一种特征规则提取装置,所述装置包括:
第一获取模块,用于获取多个入侵检测样本,所述入侵检测样本包括入侵检测数据和标签数据,所述入侵检测数据包括多个特征数据;
扩展模块,用于对所述多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;
选取模块,用于根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;
聚类模块,用于对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;
计算模块,用于计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离;
确定模块,用于根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据;
第二获取模块,用于获取所述目标特征数据对应的特征扩展规则作为目标特征扩展规则,所述目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
为实现上述目的,本申请实施例的第三方面提出了一种网络入侵检测方法,所述方法包括:
获取待检测的网络数据包,所述网络数据包与第一方面提供的特征规则提取方法中的入侵检测数据具有相同数据结构;
对所述网络数据包进行特征提取,得到多个待检测特征;
获取特征处理规则,所述特征处理规则为采用第一方面提供的特征规则提取方法提取得到的目标特征扩展规则;
采用所述特征处理规则对所述多个待检测特征进行特征处理,得到目标检测特征;
采用预设神经网络模型对所述目标检测特征进行网络入侵检测,得到检测结果。
为实现上述目的,本申请实施例第四方面提出了一种网络入侵检测装置,所述装置包括:
第三获取模块,用于获取待检测的网络数据包,所述网络数据包与第一方面提供的特征规则提取方法中的入侵检测数据具有相同数据结构;
提取模块,用于对所述网络数据包进行特征提取,得到多个待检测特征;
第四获取模块,用于获取特征处理规则,所述特征处理规则为采用第一方面提供的特征规则提取方法提取得到的目标特征扩展规则;
处理模块,用于采用所述特征处理规则对所述多个待检测特征进行特征处理,得到目标检测特征;
检测模块,用于采用预设神经网络模型对所述目标检测特征进行网络入侵检测,得到检测结果。
为实现上述目的,本申请实施例的第五方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或第三方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第三方面所述的方法。
本申请提出的特征规则提取方法和装置、网络入侵检测方法和装置,特征规则提取方法通过获取多个入侵检测样本,入侵检测样本包括入侵检测数据和标签数据,入侵检测数据包括多个特征数据;对多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;根据扩展特征数据对标签数据的重要性程度以及扩展特征数据之间的关联关系,在多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;对多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;计算候选特征数据集合中候选特征数据的中心偏移值,中心偏移值与偏移距离正相关,偏移距离为候选特征数据与相应的聚类中心之间的距离;根据中心偏移值在候选特征数据集合中确定目标特征数据;获取目标特征数据对应的特征扩展规则作为目标特征扩展规则,目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
以此,通过对入侵检测样本中的特征数据进行充分扩展以获取特征数据的多种组合可能,得到大量的扩展特征数据。然后基于标签数据对这些扩展特征数据进行特征筛选,保留高质量的候选特征数据。进一步地,对多个样本的候选特征数据进行聚类,并根据候选特征数据与聚类中心之间的距离对候选特征数据进行进一步的降维,得到更高质量的目标特征数据。将这些目标特征数据的目标特征扩展规则提取出来,便可以获得提取优质特征数据的特征扩展规则。因此,该方法可以用来提升对入侵检测数据进行特征提取得到的特征的质量,进而可以提升网络入侵检测的准确性。
附图说明
图1是本申请实施例提供的特征规则提取方法的流程图;
图2是图1中的步骤S103的流程图;
图3是图2中的步骤S201的流程图;
图4是图2中的步骤S202的流程图;
图5是图2中的步骤S203的流程图;
图6是图5中的步骤S503的流程图;
图7是图1中的步骤S105的流程图;
图8是将候选特征数据集合进行聚类的示意图;
图9是图1中的步骤S104的流程图;
图10是本申请实施例提供的特征规则提取装置的结构示意图;
图11是本申请实施例提供的网络入侵检测方法的流程示意图;
图12是本申请实施例提供的网络入侵检测装置的结构示意图;
图13是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
在相关技术中,在采用入侵检测模型对网络数据包进行网络入侵检测时,需要先从网络数据包中提取出重要特征,以剔除冗余特征和干扰特征对入侵检测模型性能的影响。具体地,通常采用主成分分析法、相关性分析法等数学方法以及粒子群算法等优化方法来对网络数据包中的特征进行筛选。但这些方法仅对网络数据包原有的特征进行选择,筛选过程中也会导致一些特征的损失。
在另外一些技术中,通过采用将网络数据包中的数据进行归一化处理,并通过信息增益投票算法来提取对入侵检测具有显著影响的特征,最终通过多种算法混合分析实现入侵检测。而信息增益准则会偏向取值较多的特征,从而导致提取的特征无法应对数据不平衡的场景,即难以检测出具有高隐蔽性的异常行为。
在另外一些技术中,通过采用线性相关系数算法作为特征过滤器,并结合墨鱼优化算法作为特征包装器对入侵检测数据做特征提取,最终利用决策树作为分类模型做入侵检测。基于线性相关系数的特征提取方法具有可解释性强和实现简单的优点,然而该方法获取的特征序列只是从原始特征中筛选到的特征,无法提取出最优特征。
在另外一些技术中,通过采用粒子群优化算法进行特征提取并结合集成树模型进行入侵检测。粒子群算法是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法,理论上能够在搜索空间找出全局最优的特征组合模式,然而粒子群优化算法在进化初期收敛速度快,算法早熟收敛容易陷入局部极值从而导致模型发挥不稳定。
在另外一些技术中,通过采用主成分分析法提取入侵检测特征序列,并结合强化的支持向量机做入侵检测。但该方法在主成分的因子负荷的符号有正有负时,综合提取的特征序列代表性不强,即无法提取到最优特征。
综上,相关技术中对入侵检测数据的特征提取不够准确,导致入侵检测模型的性能无法达到最优,进而导致入侵检测结果不够准确。
基于此,本申请实施例提供了一种特征规则提取方法和装置、网络入侵检测方法和装置,旨在提高对入侵检测数据进行特征提取得到的特征的质量,进而提升入侵检测的准确性。
本申请实施例提供的特征规则提取方法和装置、网络入侵检测方法和装置,具体通过如下实施例进行说明,首先描述本申请实施例中的特征规则提取方法。
本申请实施例提供的特征规则提取方法,涉及人工智能技术领域。本申请实施例提供的特征规则提取方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现特征规则提取方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
图1是本申请实施例提供的特征规则提取方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S107。
步骤S101,获取多个入侵检测样本。
其中,本申请实施例提供的特征规则提取方法,通过采用大量的带有标签的入侵检测样本进行特征膨胀和基于标签的多层次的特征降维,从而筛选出最优的特征组合,然后从最优的特征组合中提取出对特征处理的最优特征处理规则。
具体地,可以先获取多个入侵检测样本,并将这些入侵检测样本划分为训练集和测试集。然后采用训练集来提取最优特征处理规则,再采用测试集来对提取到的最优特征处理规则进行效果验证。其中,无论是训练集还是测试集中的入侵检测样本,都包含了入侵检测数据和标签数据。此处入侵检测数据具体可以为网络数据包,入侵检测数据包含了多个特征数据。这些特征数据具体可以为网络数据包本身具有的特征,例如协议类型(protocol_type)、服务(service)、根脚本(root_shell)等特征,一般情况下网络数据包具有41个特征。标签数据具体可以为二分类的标签,例如正常和攻击这两个标签;在一些实施例中,标签数据也可以为多分类的标签。具体地,可以将攻击标签细分为拒绝服务(DoS)、探测、用户到根(U2R)以及远程到本地(R2L)这几个标签。DoS是一种尝试关闭进出目标系统的流量的攻击,探测(或称为监视)是一种尝试从网络获取信息的攻击,U2R是一种从普通用户账户开始并尝试以超级用户身份访问系统或网络的攻击,R2L是一种尝试获得对远程机器的本地访问权限的攻击。
其中,对入侵检测样本的获取,可以是从入侵检测数据集(例如NSL-KDD或者KDD99等数据集)中进行获取,也可以是从网络数据流量日志中等其他渠道进行获取。
步骤S102,对多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据。
其中,入侵检测数据中包含的多个特征数据在应用到入侵检测模型中进行检测时,会存在特征之间相冲突、干扰的情况。而且,也会存在部分特征价值较低,影响入侵检测模型的检测效果。进一步地,考虑到入侵检测数据中的特征并非都是独自与标签之间存在直接的正或负相关,而是以一些特定的组合模式与标签存在着关联。例如,当同时存在特征A和特征B时,标签为攻击的可能性较大;或者存在特征A且不存在特征C时,标签为正常的可能性较大等。因此,在本申请实施例中,可以基于入侵检测数据的多个特征进行特征扩展。具体地,特征扩展可以为采用多种不同的扩展规则对入侵检测样本的原有特征进行扩展。例如,可以采用对入侵检测样本的特征数据做加减乘除、求平均、拼接等方式进行特征扩展;在一些实施例中,也可以保留入侵检测样本的特征数据。特征扩展可以采用特定的组合模式对入侵检测样本的原始的特征数据进行特征重构,实现特征膨胀,将原有的几十个特征数据扩展为几千个甚至上万个扩展特征数据。此处扩展特征数据具体可以为特征向量,多个特征向量便可以构成特征矩阵,因此对多个特征数据进行特征扩展得到的扩展特征数据可以采用特征矩阵F1来表示。
具体地,对多个特征数据进行特征扩展,可以采用深度特征合成(Deep FeatureSynthesis,DFS)技术来自动化进行特征扩展。深度特征合成技术可以大大提升特征扩展的效率,进而可以提升对特征规则提取的效率。
其中,可以理解的是,上述对入侵检测样本的多个特征数据进行特征扩展得到多个扩展特征数据的过程,是针对单一的入侵检测样本进行介绍的。对于其他的入侵检测样本,也可以采用相同的方法来进行特征拓展,得到每一入侵检测样本对应的扩展特征数据,即得到每一入侵检测样本对应的F1
步骤S103,根据扩展特征数据对标签数据的重要性程度以及扩展特征数据之间的关联关系,在多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
其中,对入侵检测样本的多个特征数据进行特征扩展得到的大量的扩展特征数据过程中,既会产生很多适合入侵检测模型的高质量的特征数据,也会产生大量的低质量的特征数据。因此,在本申请实施例中,可以进一步对特征扩展得到的多个扩展特征数据进行特征筛选。以从扩展特征中选取出多个较高质量的扩展特征数据,并将这些较高质量的扩展特征数据确定为候选特征数据,这些候选特征数据构成候选特征数据集合。进一步,可以遍历每一入侵检测样本,对每一入侵检测样本对应的扩展特征数据进行特征筛选,从而得到每一入侵检测样本对应的候选特征数据集合。其中,候选特征数据也可以为特征向量,如此候选特征数据集合也可以采用特征矩阵来表示,例如采用特征矩阵F3来表示。由于候选特征数据的数量少于扩展特征数据的数量,因此特征矩阵F3可以理解为对特征矩阵F1进行降维得到的特征矩阵。可以理解的是,不同入侵检测样本具有相同数量的特征数据,而且也都采用了相同的特征扩展和特征筛选方法,因此不同入侵检测样本对应的候选特征数据集合中候选特征数据的数量也可以是相同的。
在本申请实施例中,对大量的扩展特征数据进行特征筛选的过程,具体可以为根据扩展特征数据对标签数据的重要性程度、以及扩展特征数据之间的关联关系,来进行特征筛选。一般情况下,相对标签数据的重要性程度越低的扩展特征数据,其价值越低,较大可能为干扰特征数据,因此可以将排除,只选择相对标签数据的重要性程度较高的扩展特征数据,作为候选特征数据。此外,扩展特征数据之间的关联关系越紧密的特征,越大可能为正常特征,而与其他扩展特征数据之间的关联关系较小的特征,则可能为异常的特征,需要进行排除。因此,可以只选择与其他扩展特征之间关联关系较大的特征,作为候选特征数据。
步骤S104,对多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心。
其中,如前所述,通过特征扩展和特征筛选过程,可以得到每一入侵检测样本对应的候选特征数据集合F3。然后,可以在这些入侵检测样本对应的候选特征数据集合中选取部分或者全部的特征数据集合,进行聚类处理,得到多个聚类中心。此处对多个入侵检测样本的候选特征数据集合进行聚类处理,是为了分析不同入侵检测样本对应的候选特征数据集合之间的相似性,从而可以进一步据此分析候选特征数据集合中对应的候选特征数据之间的关系。即对多个入侵检测样本对应的多个候选特征数据集合进行聚类,本质上就是对多个候选特征数据集合中相对应的候选特征数据分别进行聚类处理。
在本申请实施例中,对多个入侵检测样本对应的候选特征数据集合进行聚类得到多个聚类中心。具体可以先将多个候选特征数据集合经过kmeans聚类分为几个聚类组,每个聚类组中包含了几个候选特征数据集合。然后,分别针对每一聚类组,计算该聚类组对应的聚类中心,得到多个聚类中心。其中,计算聚类组对应的聚类中心,可以为计算聚类组中多个候选特征数据集合的均值。为方便理解,可以具体举例如下:聚类组包括两个候选特征数据集合,第一候选特征数据集合包括元素x1、x2和x3,第二候选特征数据集合包括元素y1、y2和y3,那么聚类中心便是包含了元素(x1+y1)/2、(x2+y2)/2和(x3+y3)/2的集合。此处例举的聚类组中是包含了2个候选特征数据集合,在其他实施例中,聚类组也可以包含多个候选特征数据集合。通过计算这多个候选特征数据集合的均值得到聚类中心。根据上述示例也可以看出,聚类中心中包含的中心特征数据的数量可以与每一候选特征数据集合中包含的候选特征数据的数量相同,且候选特征数据集合中的候选特征数据与聚类中心中包含的中心特征数据之间可以存在着一一对应的关系。
步骤S105,计算候选特征数据集合中候选特征数据的中心偏移值,中心偏移值与偏移距离正相关,偏移距离为候选特征数据与相应的聚类中心之间的距离。
在本申请实施例中,可以根据多个聚类中心计算候选特征数据集合中候选特征数据的中心偏移值。此处中心偏移值与单个候选特征数据集合中候选特征数据的数量相对应。例如,总计获取了10个入侵检测样本,每个入侵检测样本的入侵检测数据包含41个特征;在特征扩展阶段,将每个入侵检测数据的特征扩展到1000个;在特征筛选阶段,可以将每个入侵检测数据的特征筛选到100个。即每个入侵检测样本对应的候选特征数据集合均包含100个元素,同样每个聚类中心中也包含100个元素,且候选特征数据集合与聚类中心的100个聚类元素之间存在着一一对应关系。如此,计算候选特征数据的中心偏移值,便是计算这100个候选特征数据在多个入侵检测样本中的离异程度,具体采用中心偏移值来表示。此处中心偏移值与偏移距离正相关,偏移距离为候选特征数据与相应的聚类中心之间的距离。下文中将以具体示例对此进行说明。
步骤S106,根据中心偏移值在候选特征数据集合中确定目标特征数据。
其中,候选特征数据在多个入侵检测样本中的离异程度越大,则说明该特征的特征分布越离散,则说明该特征为干扰特征的可能性越大,因此需要将离异程度较大,即中心偏移值较大的候选特征数据进行剔除,保留离异程度较小的特征作为更高质量的特征。
即可以根据中心偏移值在候选特征数据集合中确定离异程度较小,即更高质量的目标特征数据。
步骤S107,获取目标特征数据对应的特征扩展规则作为目标特征扩展规则。
其中,目标特征数据为通过特征扩展和特征筛选、降维挑选出的高质量的新组合特征,这些特征与入侵检测模型具有很高的契合度,可以提升入侵检测模型的模型效果,从而提升入侵检测模型的检测准确性。通过对这些目标特征数据的特征扩展规则进行获取,便可以得到适用其他待检测的入侵检测数据的特征扩展规则,此处将目标特征数据对应的特征扩展规则确定为目标特征扩展规则。
由于网络数据包的格式具有统一性,即入侵检测样本中的入侵检测数据与互联网中其他待检测的入侵检测数据是具有统一的数据格式的。因此,从目标特征数据中提取出的目标特征扩展规则可以很好地复用到其他待检测的入侵检测数据中,从而可以用该目标特征扩展规则在待检测的入侵检测数据中提取出适合入侵检测模型的特征数据,即可以提升对入侵检测数据进行特征提取得到的特征的质量,进而可以提升入侵检测的检测准确性。
本申请实施例所示意的步骤S101至步骤S107,通过对入侵检测样本中入侵检测数据的特征进行特征扩展重构,然后基于扩展特征对入侵检测样本中标签数据的重要性以及扩展特征之间的关联关系进行初步筛选,得到较高质量的候选特征数据;再进一步基于候选特征数据在不同样本之间的离异程度来筛选掉干扰特征,从而得到更高质量的目标特征数据;通过对目标特征数据的特征扩展规则的提取,便能够得到可以复用到其他入侵检测数据中的良好的特征扩展规则。该方法可以提取得到良好的特征扩展规则,从而可以提升对入侵检测数据进行特征提取得到的特征的质量。
请参阅图2,在一些实施例中,步骤S103可以包括但不限于包括步骤S201至步骤S203:
步骤S201,基于标签数据对多个扩展特征数据进行主成分分析处理,并根据主成分分析处理的处理结果在多个扩展特征数据中确定多个第一特征数据。
步骤S202,基于标签数据对多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果在多个第一特征数据中确定多个第二特征数据。
步骤S203,根据多个第二特征数据之间的关联关系,在多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
在一些实施例的步骤S201中,对于多个扩展特征数据构成的扩展特征集合F1,可以采用主成分分析方法(Principal Component Analysis,PCA)对扩展特征集合F1中的多个扩展特征数据与标签数据进行主成分分析,从而得到每个扩展特征数据对标签数据的重要性,然后再根据每个扩展特征数据对标签数据的重要性在多个扩展特征数据中确定重要性较大的多个特征数据,得到多个第一特征数据。此处第一特征数据是用于与本实施例中的第二特征数据作区分,并不对数据的先后顺序造成限定。
其中,主成分分析方法也称主分量分析,旨在利用降维的思想,将多指标转换为少数几个综合指标。在本申请实施例中,由于扩展特征数据较多,难以确定每一扩展特征数据对标签数据的重要性,采用主成分分析方法可以实现对扩展特征数据的降维,将多个扩展特征数据转换为几个主成分特征。然后,通过确定几个主成分特征对标签数据的重要性再反向推导出每个扩展特征数据对标签数据的重要性。在一些实施例中,也可以采用因子分析法来计算每个扩展特征数据对标签的重要性程度。
在一些实施例的步骤S202中,对于采用主成分分析方法进行分析并挑选出的多个第一特征数据,可以采用相关性分析方法进行相关性分析处理。其中,相关性分析处理是分析第一特征数据与标签数据之间的相关性。此处相关性分析方法具体可以为皮尔逊双变量相关性分析、斯皮尔曼相关性分析或者其他相关性分析方法。该分析方法可以确定第一特征数据的变化对标签数据的影响,即确定第一特征数据与标签数据之间的相关性。然后,根据相关性分析的分析结果在多个第一特征数据中确定多个第二特征数据。具体地,可以确定与标签数据之间相关性较高的第一特征数据为第二特征数据。此处第二特征数据可以为特征向量,多个第二特征数据组成的集合可以采用特征矩阵进行表示,具体可以采用特征矩阵F2来表示。
在一些实施例的步骤S203中,对于采用相关性分析方法进行分析并挑选出的多个第二特征数据。可以计算第二特征数据之间的关联关系,然后根据第二特征数据之间的关联关系来确定每个第二特征数据与其他第二特征数据之间的关联关系值。一般来说,第二特征数据的关联关系值越大,说明其与其他第二特征数据之间的关联关系越紧密,即说明该第二特征数据为干扰特征的可能性越小。反之,第二特征数据的关联关系值越小,则说明其为干扰特征的可能性越大。因此,可以确定关联关系值较高的第二特征数据为候选特征数据,从而得到候选特征数据集合。此处候选特征数据集合为一个入侵检测样本对应的候选特征数据集合,对每一入侵检测样本,都可以采用上述方法确定其对应的候选特征数据集合。此处候选特征数据集合可以采用前述特征矩阵F3进行表示。
在本申请实施例中,通过集成分析筛选的方法,先逐步采用特征数据与标签数据之间进行主成分分析、相关性分析来筛选出一部分较高质量的扩展特征,然后采用特征数据之间的关联关系对筛选出的扩展特征进行进一步筛选,可以在很大程度上实现特征的降维,筛选掉大量的低质量特征,从而可以提升特征离异程度分析过程所需的计算量,从而可以大大提升特征规则提取的效率。
请参阅图3,在一些实施例中,步骤S201可以包括但不限于包括步骤S301至步骤S303:
步骤S301,基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理结果确定所述多个扩展特征相对于所述标签数据的重要性。
步骤S302,获取第二选取参数,并根据所述第二选取参数与所述扩展特征数据的数量计算得到第二数量。
步骤S303,根据重要性由高至低的顺序对所述多个扩展特征数据进行排序,并选取排序在前的第二数量的扩展特征数据,得到多个第一特征数据。
在一些实施例的步骤S301中,可以采用主成分分析方法确定扩展特征相对于标签数据的重要性,该过程已经在前述步骤中予以介绍,此处不再赘述。
在一些实施例的步骤S302中,可以获取一个第二选取参数a,此处第二选取参数a为与本申请中的第一选取参数c和第三选取参数b进行区分,三者之间没有先后顺序或者大小的限制。其中,在第二选取参数a可以为预先学习到的,也可以为在特征规则提取过程中学习到的。即该选取参数并非人为设定的,而是根据入侵检测模型对不同比例筛选得到的特征进行入侵检测时的不同检测效果进行迭代寻优学习到的参数。
具体地,在对第二选取参数的学习过程中,需要引入入侵检测模型。通过控制变量法控制其他参数(包括第一选取参数c和第三选取参数b)不变,只改变第二选取参数的数值,然后将不同选取比例最终提取得到的目标特征数据输入值入侵检测模型,得到检测结果。然后对检测结果进行评价,若检测结果的质量较差,则对第二选取参数进行调整,如此迭代寻优,直至找到使得入侵检测模型能够达到最优检测效果第二选取参数a。然后,可以根据第二选取参数a选取相对标签数据的重要性较高的a%的扩展特征数据作为第一特征数据。具体地,可以先根据扩展特征数据的数量与第二选取参数a计算得到第二数量。此处第二数量也是用于与本申请中的第一数量或第三数量进行区分,并无大小限制。
在一些实施例的步骤S303中,选取扩展特征数据中对标签数据的重要性较高的第二数量个扩展特征数据,具体可以先将扩展特征数据按照对标签数据的重要性由高至低的顺序进行排序。然后确定排序在前的第二数量个扩展特征数据为第一特征数据。或者也可以反向排序,即按照重要性由低到高的顺序排序,并确定排序靠后的第二数量个扩展特征数据为第一特征数据。
本申请实施例中通过采用结合入侵检测模型进行迭代寻优的方法来确定最优筛选比例,然后再采用该最优筛选比例进行特征降维,可以进一步提升提取得到的特征的质量。
请参阅图4,在一些实施例中,步骤S202可以包括但不限于包括步骤S401至步骤S403:
步骤S401,基于标签数据对多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果确定多个第一特征数据与标签数据的相关性。
步骤S402,根据第二选取参数与第一特征数据的数量计算得到第三数量。
步骤S403,根据相关性由高至低的顺序对多个第一特征数据进行排序,并选取排序在前的第三数量的第一特征数据,得到多个第二特征数据。
在一些实施例的步骤S401中,采用相关性分析方法分析多个第一特征数据与标签数据之间的相关性已经在前述实施例中进行了详细描述,此处不再予以赘述。
在一些实施例的步骤S402中,同样采用结合入侵检测模型进行迭代寻优确定的第二选取参数来控制筛选过程。具体地,可以根据第二选取参数与第一特征数据的数量计算得到第三数量。
在一些实施例的步骤S403中,根据第三数量在第一特征数据中选取与标签数据的相关性较高的第三数量个第二特征数据。
在本申请实施例中,采用适合入侵检测模型的最优筛选比例进行特征筛选,从而可以进一步提升提取得到的特征的质量。
请参阅图5,在一些实施例中,步骤S203还可以包括但不限于包括步骤S501至步骤S503:
步骤S501,分别计算多个第二特征数据之间的互信息,并根据互信息构建第二特征数据对应的互信息集合。
步骤S502,计算第二特征数据对应的互信息集合中的多个互信息的和,得到第二特征数据对应的目标互信息。
步骤S503,根据目标互信息在多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
在一些实施例的步骤S501中,可以通过计算第二特征数据之间的互信息来确定第二特征之间的关联关系。其中,两个随机变量的互信息是变量间相互依赖性的量度。互信息是度量两个随机变量共享的信息,即知道随机变量X,对随机变量Y的不确定性减少的程度。两个变量之间的互信息可以用I(X;Y)表示,具体公式如下:
其中,p(x)表示X=xi出现的概率,p(y)表示Y=yi出现的概率。P(x,y)表示X=xi和Y=yi同时出现的概率,即联合概率。其中,log的底数可以为e或2。
可以采用上述计算两个变量之间互信息的方法来分别计算每一第二特征数据和其他第二特征数据之间的互信息,得到每一第二特征数据对应的互信息集合。例如,若有n个第二特征数据,那么每一第二特征数据都可以计算其与其他n-1个第二特征数据之间的互信息,得到n-1个互信息。即每一第二特征数据都可以计算得到n-1个互信息,这n-1个互信息构成该第二特征数据的互信息集合。
在一些实施例的步骤S502中,计算每一互信息对应的互信息集合中n-1个互信息的和,便可以得到每一第二特征数据对应的目标互信息。此处目标互信息即为前述每一第二特征数据的关联关系值。
在一些实施例的步骤S503中,第二特征数据的目标互信息代表了该第二特征数据与其他第二特征数据之间的关联程度,互信息越大则关联程度越大,互信息越小则关联程度越小。关联程度越小,则说明该特征为干扰特征的可能性越大。因此,可以根据每一第二特征数据的目标互信息选取目标互信息较高的第二特征数据,得到多个候选特征数据。此处多个候选特征数据构成了一个入侵检测样本的候选特征数据集合,遍历每一入侵检测样本,便可以得到每一入侵检测样本对应的候选特征数据集合。
在本申请实施例中,通过采用计算第二特征数据之间的互信息的方法来确定第二特征数据之间的关联关系。提升了对特征之间关联关系评估的准确性,进而可以提升对特征提取的准确性,从而提升了提取得到的特征的质量。
请参阅图6,在一些实施例,步骤S503包括但不限于包括步骤S601至步骤S602:
步骤S601,获取第三选取参数,并基于第三选取参数与第二特征数据的数量计算得到第四数量。
步骤S602,按照目标互信息由高至低的顺序对多个第二特征数据进行排序,并选取排序在前的第四数量的第二特征数据,得到包含多个候选特征数据的候选特征数据集合。
在一些实施例的步骤S601中,在根据第二特征数据的目标互信息在多个第二特征数据中筛选出候选特征数据时,同样可以采用最优筛选比例来控制特征筛选过程。此处最优筛选比例具体可以为第三选取参数b,第三选取参数b具体可以为结合入侵检测模型进行迭代寻优确定的参数。获取到第三选取参数,便可以根据第三选取参数与第二特征数据的数量计算得到第四数量。
在一些实施例的步骤S602中,根据第四数量从多个第二特征数据中选取目标互信息较高的第四数量个第二特征数据作为候选特征数据。
在本申请实施例中,通过采用适合入侵检测模型的最优筛选比例对第二特征数据的筛选过程进行控制,提升了提取得到的特征的质量。
请参阅图7,在一些实施例中,步骤S105可以包括但不限于包括步骤S701至步骤S702:
步骤S701,计算中心特征数据与聚类组中多个候选特征数据集合内对应的候选特征数据之间偏移距离的均值,中心特征数据为聚类中心对应的特征数据,聚类组为对多个候选特征数据集合进行聚类得到的多个分组。
步骤S702,计算多个聚类组对应的多个均值的和,得到中心特征数据对应的候选特征数据的中心偏移值。
在一些实施例的步骤S701中,采用每个候选特征数据在不同聚类组中与聚类中心的距离均值来表征候选特征数据的离异程度。具体地,可以计算每一聚类组中候选特征数据与聚类中心中相应的中心特征数据之间的多个距离。然后再计算距离均值,得到候选特征数据与该聚类组对应的距离均值。
例如,如图8所示,为聚类得到的多个聚类组的示意图。如图所示,假设存在7个入侵检测样本,分别对着7个入侵检测样本的入侵检测数据中特征数据进行扩展和筛选,得到每个入侵检测样本对应的候选特征数据集合,分别为第一集合S1、第二集合S2、第三集合S3、第四集合S4、第五集合S5、第六集合S6以及第七集合S7。对这7个候选特征数据进行聚类,得到三个聚类组,分别为第一聚类组10、第二聚类组20以及第三聚类组30。其中第一聚类组10的聚类中心为第一聚类中心C1,第二聚类组20的聚类中心为第二聚类中心C2,第三聚类组30的聚类中心为第三聚类中心C3。同时假设每一特征数据集合和聚类中心中都包含3个特征数据f1、f2和f3,不同特征数据集合中的f1(f2或f3)可以相同也可以不同,但不同特征数据集合中的f1(f2或f3)之间存在着对应关系,具体可以为具有相同的特征扩展规则。下面我们以f1为例进行中心偏移值计算的介绍。
对于聚类组10,计算候选特征数据与聚类中心中相应的中心特征数据之间的距离均值可以表示为对于聚类组20,计算候选特征数据与聚类中心中相应的中心特征数据之间的距离均值可以表示为/>对于聚类组30,计算候选特征数据与聚类中心中相应的中心特征数据之间的距离均值可以表示为其中,C1.f1表示第一聚类中心C1中的中心特征数据f1,其他数据可以类比该表示方法。/>
在一些实施例的步骤S702中,进一步计算多个聚类组对应的多个距离均值的和,得到候选特征数据f1对应中心偏移值。具体公式如下:
进一步地,可以采用上述方法分别计算候选特征数据f2和f3对应的中心偏移值。
本申请实施例通过计算每一类特征扩展规则扩展得到的候选特征数据与多个入侵检测样本聚类得到的多个聚类中心中相应中心特征数据之间距离均值的和,来表征不同类特征扩展规则扩展得到的候选特征数据的离异程度(中心偏移程度),可以更准确地筛选掉干扰特征,保留更高质量的特征,从而可以进一步提升提取得到的特征的特征质量。
请参阅图9,在一些实施例中,步骤S104可以包括但不限于如下步骤S901至S902:
步骤S901,对多个入侵检测样本对应的多个候选特征数据集合中的候选特征数据进行归一化处理,得到多个入侵检测样本对应的多个归一化特征数据集合。
步骤S902,对多个归一化特征数据集合进行聚类处理,得到多个聚类中心。
在一些实施例的步骤S901中,可以对多个入侵检测样本对应的多个候选特征数据集合F3进行归一化处理,得到多个入侵检测样本对应的多个归一化特征数据集合F4。其中,归一化处理的目的是为了消除候选特征数据的量纲,避免候选特征数据的量纲对聚类分析以及特征距离计算造成影响。具体地,归一化操作可以采用如下公式来执行:
其中,x*为候选特征数据x经归一化后的数据,xmax为候选特征数据集合中的最大值,xmin为候选特征数据集合中的最小值。
在一些实施例的步骤S902中,对候选特征数据集合F3进行归一化处理得到归一化特征数据集合后F4,便可以采用归一化特征数据集合F4替换候选特征数据集合F3进行聚类、中心偏移值的计算以及目标特征扩展规则获取的过程。即计算候选特征数据集合中候选特征数据的中心偏移值,中心偏移值与偏移距离正相关,偏移距离为候选特征数据与相应的聚类中心之间的距离,包括:
计算归一化特征数据集合中归一化特征数据的中心偏移值,中心偏移值与偏移距离正相关,偏移距离为归一化特征数据与相应的聚类中心之间的距离;
根据中心偏移值在候选特征数据集合中确定目标特征数据,包括:
根据中心偏移值在归一化特征数据集合中确定目标特征数据。
在本申请实施例中,通过将候选特征数据集合中的候选特征数据进行归一化处理,从而消除候选特征数据携带的量纲,从而简化聚类分析以及特征距离计算的过程,可以降低后续计算的工作量,提升特征规则提取的效率。
其中,在一些实施例中,根据中心偏移值在归一化特征数据集合中确定目标特征数据,包括:
获取第一选取参数,第一选取参数为根据预设神经网络模型对不同选取比例的检测样本进行入侵检测的检测效果进行迭代优化学习得到的参数;
根据第一选取参数与归一化特征数据集合中归一化特征数据的数量计算第一数量;
按照中心偏移值由低到高的顺序将多个归一化特征数据进行排序,并确定排序在前的第一数量的归一化特征数据为目标特征数据。
在本申请实施例中,根据每一归一化特征数据对应的中心偏移值在归一化特征数据集合中确定目标特征数据的过程,具体也可以采用获取第一选取参数c,然后采用第一选取参数c来控制筛选比例。最终选择中心偏移值较小的c%的归一化特征作为目标特征数据。其中此处的第一选取参数也可以为结合入侵检测模型进行迭代寻优确定的最适合入侵检测模型的参数。采用该参数对目标特征数据的筛选过程进行控制,可以进一步提升提取得到的特征的质量。
请参阅图10,本申请实施例还提供一种特征规则提取装置,可以实现上述特征规则提取方法,该装置包括:
第一获取模块,用于获取多个入侵检测样本,所述入侵检测样本包括入侵检测数据和标签数据,所述入侵检测数据包括多个特征数据;
扩展模块,用于对所述多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;
选取模块,用于根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;
聚类模块,用于对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;
计算模块,用于计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离;
确定模块,用于根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据;
第二获取模块,用于获取所述目标特征数据对应的特征扩展规则作为目标特征扩展规则,目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
该特征规则提取装置的具体实施方式与上述特征规则提取方法的具体实施例基本相同,在此不再赘述。
图11是本申请实施例提供的网络入侵检测方法的一个可选的流程图,图11中的方法可以包括但不限于包括步骤S1101至步骤S1105:
步骤S1101,获取待检测的网络数据包。
其中,待检测的网络数据包可以为从网络中直接获取的用于进行入侵检测的网络数据包。此处网络数据包与特征规则提取方法中的入侵检测数据具有相同数据结构。
步骤S1102,对网络数据包进行特征提取,得到多个待检测特征。
其中,网络数据包与上述特征规则提取方法实施例中的入侵检测数据具有相同的数据结构,因此对网络数据包进行特征提取得到的多个待检测特征与入侵检测数据中包含的多个特征数据具有相同的特征类型和特征数量。
步骤S1103,获取特征处理规则,特征处理规则为采用特征规则提取方法提取得到的目标特征扩展规则。
由于从网络数据包中提取出的多个待检测特征与特征规则提取方法实施例中的入侵检测数据中的特征数据具有相同的特征类型和特征数量,因此基于入侵检测数据确定的最优的目标特征扩展规则可以复用在本实施例中的多个待检测特征中,因此可以获取本申请中特征规则提取方法提取得到的目标特征扩展规则备用。
步骤S1104,采用特征处理规则对多个待检测特征进行特征处理,得到目标检测特征。
即采用获取到的目标特征扩展规则对多个待检测特征进行特征扩展的,得到目标检测特征。
步骤S1105,采用预设神经网络模型对目标检测特征进行网络入侵检测,得到检测结果。
此处预设神经网络模型可以为特征规则提取方法中的入侵检测模型,鉴于目标特征扩展规则是经过特征规则提取方法提取得到的最适合入侵检测模型的特征扩展规则,因此采用该目标特征扩展规则对待检测特征进行特征扩展得到的目标检测特征也是最适合入侵检测模型的特征,如此便可以通过提升特征提取得到的特征质量的方法来提升入侵检测的准确性。即该方法可以大大提升网络入侵检测的准确性。
请参阅图12,本申请实施例还提供一种网络入侵检测装置,可以实现上述网络入侵检测方法,该装置包括:
第三获取模块,用于获取待检测的网络数据包,网络数据包与特征规则提取方法中的入侵检测数据具有相同数据结构;
提取模块,用于对网络数据包进行特征提取,得到多个待检测特征;
第四获取模块,用于获取特征处理规则,特征处理规则为采用特征规则提取方法提取得到的目标特征扩展规则;
处理模块,用于采用特征处理规则对多个待检测特征进行特征处理,得到目标检测特征;
检测模块,用于采用预设神经网络模型对目标检测特征进行网络入侵检测,得到检测结果。
该网络入侵检测装置的具体实施方式与上述网络入侵检测方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述特征规则提取方法或网络入侵检测方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图13,图13示意了另一实施例的计算机设备的硬件结构,计算机设备包括:
处理器1301,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1302,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1302可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1302中,并由处理器1301来调用执行本申请实施例的特征规则提取方法或网络入侵检测方法;
输入/输出接口1303,用于实现信息输入及输出;
通信接口1304,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1305,在设备的各个组件(例如处理器1301、存储器1302、输入/输出接口1303和通信接口1304)之间传输信息;
其中处理器1301、存储器1302、输入/输出接口1303和通信接口1304通过总线1305实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述特征规则提取方法或网络入侵检测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (14)

1.一种特征规则提取方法,其特征在于,所述方法包括:
获取多个入侵检测样本,所述入侵检测样本包括入侵检测数据和标签数据,所述入侵检测数据包括多个特征数据;
对所述多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;
根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;
对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;
计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离;
根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据;
获取所述目标特征数据对应的特征扩展规则作为目标特征扩展规则,所述目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
2.根据权利要求1所述的方法,其特征在于,所述计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离,包括:
计算中心特征数据与聚类组中多个候选特征数据集合内对应的候选特征数据之间偏移距离的均值,所述中心特征数据为所述聚类中心对应的特征数据,所述聚类组为对所述多个候选特征数据集合进行聚类得到的多个分组;
计算多个聚类组对应的多个均值的和,得到所述中心特征数据对应的候选特征数据的中心偏移值。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心,包括:
对所述多个入侵检测样本对应的多个候选特征数据集合中的候选特征数据进行归一化处理,得到所述多个入侵检测样本对应的多个归一化特征数据集合;
对所述多个归一化特征数据集合进行聚类处理,得到多个聚类中心;
所述计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离,包括:
计算归一化特征数据集合中归一化特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述归一化特征数据与相应的聚类中心之间的距离;
所述根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据,包括:
根据所述中心偏移值在所述归一化特征数据集合中确定目标特征数据。
4.根据权利要求3中所述的方法,其特征在于,所述根据所述中心偏移值在所述归一化特征数据集合中确定目标特征数据,包括:
获取第一选取参数,所述第一选取参数为根据预设神经网络模型对不同选取比例的检测样本进行入侵检测的检测效果进行迭代优化学习得到的参数;
根据所述第一选取参数与所述归一化特征数据集合中归一化特征数据的数量计算第一数量;
按照所述中心偏移值由低到高的顺序将多个归一化特征数据进行排序,并确定排序在前的第一数量的归一化特征数据为目标特征数据。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测数据对应的候选特征数据集合,包括:
基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理的处理结果在所述多个扩展特征数据中确定多个第一特征数据;
基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果在所述多个第一特征数据中确定多个第二特征数据;
根据所述多个第二特征数据之间的关联关系,在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
6.根据权利要求5所述的方法,其特征在于,所述基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理的处理结果在所述多个扩展特征数据中确定多个第一特征数据,包括:
基于所述标签数据对所述多个扩展特征数据进行主成分分析处理,并根据主成分分析处理结果确定所述多个扩展特征相对于所述标签数据的重要性;
获取第二选取参数,并根据所述第二选取参数与所述扩展特征数据的数量计算得到第二数量;
根据重要性由高至低的顺序对所述多个扩展特征数据进行排序,并选取排序在前的第二数量的扩展特征数据,得到多个第一特征数据。
7.根据权利要求6所述的方法,其特征在于,所述基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果在所述多个第一特征数据中确定多个第二特征数据,包括:
基于所述标签数据对所述多个第一特征数据进行相关性分析处理,并根据相关性分析处理的处理结果确定所述多个第一特征数据与所述标签数据的相关性;
根据所述第二选取参数与所述第一特征数据的数量计算得到第三数量;
根据相关性由高至低的顺序对所述多个第一特征数据进行排序,并选取排序在前的第三数量的第一特征数据,得到多个第二特征数据。
8.根据权利要求5所述的方法,其特征在于,所述根据所述多个第二特征数据之间的关联关系,在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合,包括:
分别计算所述多个第二特征数据之间的互信息,并根据所述互信息构建第二特征数据对应的互信息集合;
计算所述第二特征数据对应的互信息集合中的多个互信息的和,得到所述第二特征数据对应的目标互信息;
根据所述目标互信息在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标互信息在所述多个第二特征数据中确定多个候选特征数据,得到入侵检测样本对应的候选特征数据集合,包括:
获取第三选取参数,并基于所述第三选取参数与所述第二特征数据的数量计算得到第四数量;
按照目标互信息由高至低的顺序对所述多个第二特征数据进行排序,并选取排序在前的第四数量的第二特征数据,得到包含多个候选特征数据的候选特征数据集合。
10.一种网络入侵检测方法,其特征在于,所述方法包括:
获取待检测的网络数据包,所述网络数据包与权利要求1至9中任一项特征规则提取方法中的入侵检测数据具有相同数据结构;
对所述网络数据包进行特征提取,得到多个待检测特征;
获取特征处理规则,所述特征处理规则为权利要求1至9中任一项特征规则提取方法提取得到的目标特征扩展规则;
采用所述特征处理规则对所述多个待检测特征进行特征处理,得到目标检测特征;
采用预设神经网络模型对所述目标检测特征进行网络入侵检测,得到检测结果。
11.一种特征规则提取装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个入侵检测样本,所述入侵检测样本包括入侵检测数据和标签数据,所述入侵检测数据包括多个特征数据;
扩展模块,用于对所述多个特征数据按照多种特征扩展规则进行特征扩展,得到多个扩展特征数据;
选取模块,用于根据所述扩展特征数据对所述标签数据的重要性程度以及所述扩展特征数据之间的关联关系,在所述多个扩展特征数据中选取多个候选特征数据,得到入侵检测样本对应的候选特征数据集合;
聚类模块,用于对所述多个入侵检测样本对应的多个候选特征数据集合进行聚类处理,得到多个聚类中心;
计算模块,用于计算候选特征数据集合中候选特征数据的中心偏移值,所述中心偏移值与偏移距离正相关,所述偏移距离为所述候选特征数据与相应的聚类中心之间的距离;
确定模块,用于根据所述中心偏移值在所述候选特征数据集合中确定目标特征数据;
第二获取模块,用于获取所述目标特征数据对应的特征扩展规则作为目标特征扩展规则,所述目标特征扩展规则用于对待检测的网络数据包的特征进行扩展处理。
12.一种网络入侵检测装置,其特征在于,所述装置包括:
第三获取模块,用于获取待检测的网络数据包,所述网络数据包与权利要求1至9中任一项特征规则提取方法中的入侵检测数据具有相同数据结构;
提取模块,用于对所述网络数据包进行特征提取,得到多个待检测特征;
第四获取模块,用于获取特征处理规则,所述特征处理规则为权利要求1至9中任一项特征规则提取方法提取得到的目标特征扩展规则;
处理模块,用于采用所述特征处理规则对所述多个待检测特征进行特征处理,得到目标检测特征;
检测模块,用于采用预设神经网络模型对所述目标检测特征进行网络入侵检测,得到检测结果。
13.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的特征规则提取方法或权利要求10所述的网络入侵检测方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的数据处理方法或权利要求10所述的网络入侵检测方法。
CN202310451491.0A 2023-04-20 2023-04-20 特征规则提取方法和装置、网络入侵检测方法和装置 Pending CN116707859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310451491.0A CN116707859A (zh) 2023-04-20 2023-04-20 特征规则提取方法和装置、网络入侵检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310451491.0A CN116707859A (zh) 2023-04-20 2023-04-20 特征规则提取方法和装置、网络入侵检测方法和装置

Publications (1)

Publication Number Publication Date
CN116707859A true CN116707859A (zh) 2023-09-05

Family

ID=87842266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310451491.0A Pending CN116707859A (zh) 2023-04-20 2023-04-20 特征规则提取方法和装置、网络入侵检测方法和装置

Country Status (1)

Country Link
CN (1) CN116707859A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648612A (zh) * 2024-01-30 2024-03-05 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648612A (zh) * 2024-01-30 2024-03-05 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质
CN117648612B (zh) * 2024-01-30 2024-04-12 上海移视网络科技有限公司 并联电池组故障检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111177095B (zh) 日志分析方法、装置、计算机设备及存储介质
CN111614690B (zh) 一种异常行为检测方法及装置
CN103870751A (zh) 入侵检测方法及系统
Jiang et al. A family of joint sparse PCA algorithms for anomaly localization in network data streams
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111382190A (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN112839014A (zh) 建立识别异常访问者模型的方法、系统、设备及介质
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN110866249A (zh) 一种动态检测恶意代码的方法、装置及电子设备
CN116186759A (zh) 一种面向隐私计算的敏感数据识别与脱敏方法
CN117675387B (zh) 基于用户行为分析的网络安全风险预测方法及系统
CN110543426A (zh) 一种软件性能风险检测方法及装置
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN114039837B (zh) 告警数据处理方法、装置、系统、设备和存储介质
CN111475380B (zh) 一种日志分析方法和装置
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN110401639B (zh) 网络访问的异常判定方法、装置、服务器及其存储介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN114024912A (zh) 一种基于改造chameleon算法的网络流量应用识别分析方法及系统
Wang et al. A knowledge discovery case study of software quality prediction: Isbsg database
CN112069835A (zh) 基于语义分析的计算机流程分析挖掘系统及方法
KR20210142443A (ko) 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质
Ling et al. Graph Attention Mechanism-Based Method for Tracing APT Attacks in Power Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination