CN110191085A

CN110191085A - 基于多分类的入侵检测方法、装置及存储介质

Info

Publication number: CN110191085A
Application number: CN201910278324.4A
Authority: CN
Inventors: 龙春; 张宇柔; 魏金侠; 赵静; 杨帆
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-08-30
Anticipated expiration: 2039-04-09
Also published as: CN110191085B

Abstract

本发明实施例公开了一种基于多分类的入侵检测方法、装置及存储介质，涉及网络安全领域。本发明的方法包括：对训练样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本；基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本；针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇；得到N个目标聚类簇；将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。本发明能够提高入侵检测系统对攻击入侵的检测准确率。

Description

基于多分类的入侵检测方法、装置及存储介质

技术领域

本发明涉及网络安全领域，尤其涉及一种基于多分类的入侵检测方法、装置及存储介质。

背景技术

随着计算机网络技术的迅速发展，网络技术在各个领域都得到了广泛的应用。计算机网络在给人们提供便利、带来效益的同时，网络攻击也对信息安全提出了很大的挑战。

为了防护网络攻击，可以在网络数据接入处增加入侵检测系统。目前的入侵检测系统中基于简单的聚类方法拟合样本分布，然而网络环境缺错综复杂，并伴随着入侵攻击类别的多样性、特征分布复杂性，导致入侵检测系统对攻击入侵的检测准确率较低，进一步导致网络中可能存在的潜在威胁未及时被检测发现。

发明内容

本发明的实施例提供一种基于多分类的入侵检测方法、装置及存储介质，能够提高入侵检测系统对攻击入侵的检测准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种基于多分类的入侵检测方法，包括：

对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本；

基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本；

针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇；

得到N个目标聚类簇；

将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。

结合第一方面，在第一方面的第一种可能的实现方式中，所述方法还包括：

将测试样本输入至所述入侵检测系统；

检测与所述测试样本相似度最高的异常样本；

将所述相似度最高的异常样本对应的聚类簇所训练的子分类器，作为所述测试样本的预测分类结果；

基于所述测试样本的分类标签与所述预测分类结果，对所述入侵检测系统进行训练。

结合第一方面，在第一方面的第二种可能的实现方式中，所述得到N个目标聚类簇包括：

迭代筛选异常样本及合并入相似度最高的聚类簇的步骤，直到剩余N个聚类簇为止，并作为所述N个目标聚类簇。

结合第一方面，在第一方面的第三种可能的实现方式中，所述N等于4；

所述将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统包括：

将所述4个目标聚类簇分别作为4个子分类器的训练样本集，对所述4个子分类器分别进行训练，得到所述入侵检测系统，所述入侵检测系统由所述4个子分类器构成。

结合第一方面，在第一方面的第四种可能的实现方式中，所述基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本包括：

响应于存在聚类簇中的样本数量小于M个，将所述聚类簇中的各样本均作为所述异常样本；其中，所述M等于3或6。

第二方面，本发明的实施例提供一种基于多分类的入侵检测装置，包括：

聚类模块，用于对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本；

筛选模块，用于基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本；

合并模块，用于针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇；

所述聚类模块，还用于得到N个目标聚类簇；

训练模块，用于将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置还包括：

输入模块，用于将测试样本输入至所述入侵检测系统；

检测模块，用于检测与所述测试样本相似度最高的异常样本；

预测模块，用于将所述相似度最高的异常样本对应的聚类簇所训练的子分类器，作为所述测试样本的预测分类结果；

所述训练模块，还用于基于所述测试样本的分类标签与所述预测分类结果，对所述入侵检测系统进行训练。

结合第二方面，在第二方面的第二种可能的实现方式中，

所述聚类模块，还用于迭代筛选异常样本及合并入相似度最高的聚类簇的步骤，直到剩余N个聚类簇为止，并作为所述N个目标聚类簇。

结合第二方面，在第二方面的第三种可能的实现方式中，

所述聚类模块聚类得到的所述目标聚类簇数N等于4；

所述训练模块，还用于将所述4个目标聚类簇分别作为4个子分类器的训练样本集，对所述4个子分类器分别进行训练，得到所述入侵检测系统，所述入侵检测系统由所述4个子分类器构成。

结合第二方面，在第二方面的第四种可能的实现方式中，

所述筛选模块，用于响应于存在聚类簇中的样本数量小于M个，将所述聚类簇中的各样本均作为所述异常样本；其中，所述M等于3或6。

第三方面，本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现第一方面提供的方法的步骤。

本发明实施例提供的基于多分类的入侵检测方法、装置及存储介质，通过对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本；基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本；针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇；得到N个目标聚类簇；将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。能够将异常样本归入相似度最高的某一聚类簇，并通过该聚类簇对子分类器进行训练，使得该子分类器捕获该簇中异常样本的特征，进一步可以实现通过入侵检测系统进行检测时，能够对与该异常样本类似的攻击进行识别，并预测得到相应的攻击类别，从而可以提高入侵检测系统对攻击入侵的检测准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于多分类的入侵检测方法的流程示意图；

图2是本发明实施例的基于多分类的入侵检测方法的另一流程示意图；

图3是本发明实施例的基于多分类的入侵检测装置结构示意图；

图4是本发明实施例的基于多分类的入侵检测装置的另一结构示意图；

图5是本发明实施例的基于多分类的入侵检测装置500的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一实施例提供一种基于多分类的入侵检测方法，如图1所示，所述方法包括：

101、对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本。

对于本发明实施例，通过步骤101能够得到各类样本的大致分布情况。

在监测网络的过程中，捕获的流量数据往往会存在很多噪声，它们会影响样本数据的质量和入侵检测系统的性能。除此之外，网络环境的错综复杂导致了攻击类别的多样性，而并非简单的正常与异常两类样本。在本发明实施例中，在使用训练样本建立分类器之前，对样本进行整体上粗粒度的划分能够有助于提升分类器的性能。

可选地，步骤101可以为：通过密度峰值聚类DPC对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本。其中，密度峰值聚类DPC算法拥有对噪声不敏感、对样本分布的形状无限制等优良特性。

102、基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本。

103、针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇。

其中，与异常样本的相似度最高的初始聚类簇，可以是与异常样本的特征之间的欧式距离或余弦距离最小的初始聚类簇。在本发明实施例中，还可以通过其他表征特征相似度的方式进行计算，本发明实施例不做限制。

104、得到N个目标聚类簇。

105、将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。

其中，入侵检测系统由该N个子分类器构成，当实时对网络安全进行入侵监测时，通过对当前流量对应的子分类器类型，来预测当前流量对应的攻击分类，从而实现对网络安全的实时监测。

与现有技术相比，本发明实施例能够将异常样本归入相似度最高的某一聚类簇，并通过该聚类簇对子分类器进行训练，使得该子分类器捕获该异常样本的特征，进一步可以实现通过入侵检测系统进行检测时，能够对与该异常样本类似的攻击进行识别，并预测得到相应的攻击类别，从而可以提高入侵检测系统对攻击入侵的检测准确率。

本发明又一实施例提供一种基于多分类的入侵检测方法，如图2所示，所述方法包括：

201、对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本。

对于本发明实施例，通过步骤201能够得到各类样本的大致分布情况。

可选地，步骤201可以为：通过密度峰值聚类DPC对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本。其中，密度峰值聚类DPC算法拥有对噪声不敏感、对样本分布的形状无限制等优良特性。

202、基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本。

对于本发明实施例，可以响应于存在聚类簇中的样本数量小于M个，将所述聚类簇中的各样本均作为所述异常样本；其中，所述M等于3或6。

例如，某一个聚类簇中仅有一个样本，即可认为该样本为异常样本；或者，某一个聚类簇中的样本数量很少，少于预设值M，也可认为这些样本均为异常样本。

203、针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇。

204、迭代筛选异常样本及合并入相似度最高的聚类簇的步骤，直到剩余N个聚类簇为止，并作为所述N个目标聚类簇。

205、将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。

对于本发明实施例，所述N可以等于4。在本发明实施例中，所述步骤205具体可以为：将所述4个目标聚类簇分别作为4个子分类器的训练样本集，对所述4个子分类器分别进行训练，得到所述入侵检测系统，所述入侵检测系统由所述4个子分类器构成。

对于本发明实施例，N可以为大于2的任意正整数，N还可以等于3、6或10。在本发明实施例中，N的取值具体可以由入侵检测系统中的子分类器数量来确定，子分类器数量可以在构建入侵检测系统时根据当前的网络环境确定。

206、将测试样本输入至所述入侵检测系统。

207、检测与所述测试样本相似度最高的异常样本。

对于本发明实施例，步骤207具体可以为：对于测试样本，根据对比该测试样本密度高的近邻样本点进行加权投票表决，选择排名最靠前的一个异常类，将其归入该异常类对应的子分类器中。

208、将所述相似度最高的异常样本对应的聚类簇所训练的子分类器，作为所述测试样本的预测分类结果。

209、基于所述测试样本的分类标签与所述预测分类结果，对所述入侵检测系统进行训练。

通过上述训练过程得到的入侵检测系统，能够提高分类器样本的质量、分类器的的准确性，同时还能够减少子分类器的复杂度。

与现有技术相比，本发明实施例能够将异常样本归入相似度最高的某一聚类簇，并通过该聚类簇对子分类器进行训练，使得该子分类器捕获该异常样本的特征，进一步可以实现通过入侵检测系统进行检测时，能够对该与异常样本类似的攻击进行识别，并预测得到相应的攻击类别，从而可以提高入侵检测系统对攻击入侵的检测准确率。

本发明又一实施例提供一种基于多分类的入侵检测装置，如图3所示，所述装置包括：

聚类模块31，用于对样本集中的各样本进行密度聚类，得到多个初始聚类簇，所述每个初始聚类簇中包括至少一个样本；

筛选模块32，用于基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本；

合并模块33，用于针对每个所述异常样本，计算与其相似度最高的初始聚类簇，并将所述异常样本合并入所述相似度最高的聚类簇；

所述聚类模块31，还用于得到N个目标聚类簇；

训练模块34，用于将所述N个目标聚类簇分别作为N个子分类器的训练样本集，对所述N个子分类器分别进行训练，得到入侵检测系统。

进一步的，如图4所示，所述装置还可以包括：

输入模块41，用于将测试样本输入至所述入侵检测系统；

检测模块42，用于检测与所述测试样本相似度最高的异常样本；

预测模块43，用于将所述相似度最高的异常样本对应的聚类簇所训练的子分类器，作为所述测试样本的预测分类结果；

所述训练模块34，还用于基于所述测试样本的分类标签与所述预测分类结果，对所述入侵检测系统进行训练。

所述聚类模块31，还用于迭代筛选异常样本及合并入相似度最高的聚类簇的步骤，直到剩余N个聚类簇为止，并作为所述N个目标聚类簇。

所述聚类模块31聚类得到的所述目标聚类簇数N等于4；

所述训练模块34，还用于将所述4个目标聚类簇分别作为4个子分类器的训练样本集，对所述4个子分类器分别进行训练，得到所述入侵检测系统，所述入侵检测系统由所述4个子分类器构成。

所述筛选模块32，用于响应于存在聚类簇中的样本数量小于M个，将所述聚类簇中的各样本均作为所述异常样本；其中，所述M等于3或6。

本发明实施例还提供另一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的基于多分类的入侵检测方法。

本发明实施例提供的基于多分类的入侵检测装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的基于多分类的入侵检测方法、装置及存储介质可以适用于对网络安全进行入侵检测，但不仅限于此。

如图5所示，基于多分类的入侵检测装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，个人数字助理等。

参照图5，基于多分类的入侵检测装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制无人机控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令。

此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在无人机控制装置500的操作。这些数据的示例包括用于在无人机控制装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为无人机控制装置500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为无人机控制装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述无人机控制装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当无人机控制装置500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当无人机控制装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为无人机控制装置500提供各个方面的状态评估。例如，传感器组件514可以检测到无人机控制装置500的打开/关闭状态，组件的相对定位，例如所述组件为无人机控制装置500的显示器和小键盘，传感器组件514还可以检测无人机控制装置500或无人机控制装置500一个组件的位置改变，用户与无人机控制装置500接触的存在或不存在，无人机控制装置500方位或加速/减速和无人机控制装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于无人机控制装置500和其他设备之间有线或无线方式的通信。无人机控制装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，无人机控制装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多分类的入侵检测方法，其特征在于，包括：

得到N个目标聚类簇；

2.根据权利要求1所述的基于多分类的入侵检测方法，其特征在于，所述方法还包括：

将测试样本输入至所述入侵检测系统；

检测与所述测试样本相似度最高的异常样本；

3.根据权利要求1所述的基于多分类的入侵检测方法，其特征在于，所述得到N个目标聚类簇包括：

4.根据权利要求1所述的基于多分类的入侵检测方法，其特征在于，所述N等于4；

5.根据权利要求1所述的基于多分类的入侵检测方法，其特征在于，所述基于所述多个初始聚类簇，在所述样本集中筛选至少一个异常样本包括：

6.一种基于多分类的入侵检测装置，其特征在于，包括：

所述聚类模块，还用于得到N个目标聚类簇；

7.根据权利要求6所述的基于多分类的入侵检测装置，其特征在于，所述装置还包括：

输入模块，用于将测试样本输入至所述入侵检测系统；

8.根据权利要求6所述的基于多分类的入侵检测装置，其特征在于，

9.根据权利要求6所述的基于多分类的入侵检测装置，其特征在于，

所述聚类模块聚类得到的所述目标聚类簇数N等于4；

10.根据权利要求6所述的基于多分类的入侵检测装置，其特征在于，

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-5所述方法的步骤。