CN111651755A

CN111651755A - 入侵检测方法和装置

Info

Publication number: CN111651755A
Application number: CN202010383898.0A
Authority: CN
Inventors: 张冬月; 王光全; 廖军; 刘永生
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-09-11
Anticipated expiration: 2040-05-08
Also published as: CN111651755B

Abstract

本发明实施例提供一种入侵检测方法和装置，涉及通信领域，能够提高入侵检测的效率及准确性。该方法包括：获取终端的数据集；数据集包括多个样本点；根据聚类算法对数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；根据约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。本发明用于网络入侵检测。

Description

入侵检测方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种入侵检测方法和装置。

背景技术

随着计算机系统的发展，计算机系统通过互联网传递的各种工作和生活信息也越来越多。且由于互联网的发展，千兆网络、万兆网络所带来的海量数据流量对网络安全的影响也越来越重，随着海量数据流量攻击与入侵计算机系统的方式也层出不穷。确保网络安全成为计算机系统及互联网发展的一项重要任务。

入侵检测技术是一种在入侵攻击对计算机系统发生危害前，检测到入侵攻击，并利用报警与防护系统驱除入侵攻击的技术。鉴于目前互联网通信中的海量数据流量，入侵检测技术主要从网络流量表征维数进行数据挖掘，以实现降维分析目标。样本约简作为入侵检测技术的算法之一，在尽可能保障数据特性前提下来精简数据量，以满足从原始数据集中获取样本约简子集，利用样本约简子集进行入侵检测分析，有助于降低数据挖掘算法中数据处理的成本和时间。目前的数据约简算法，如快速压缩近邻算法(fast condensednearest neighbor，FCNN)和迭代过滤算法(iterative case filtering algorithm，ICF)虽然可以对海量数据流量进行一定的压缩，但其压缩比率或分类精度无法满足大数据发展的需求，可能导致根据约简后的数据进行入侵检测的失败。

发明内容

本发明的实施例提供一种入侵检测方法和装置，用于提高入侵检测的效率及准确性。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种入侵检测方法，包括：获取终端的数据集；数据集包括多个样本点；根据聚类算法对数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；根据约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。

第二方面，提供一种入侵检测装置，包括：获取模块，用于获取终端的数据集；数据集包括多个样本点；聚类模块，用于根据聚类算法对获取模块获取的数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；检测模块，用于根据聚类模块获得的约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。

第三方面，提供一种入侵检测装置，包括：存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当入侵检测装置运行时，处理器执行存储器存储的计算机执行指令，以使入侵检测装置执行如第一方面提供的入侵检测方法。

第四方面，提供一种计算机可读存储介质，包括：计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如第一方面提供的入侵检测方法。

本发明实施例提供一种入侵检测方法和装置，该方法包括：获取终端的数据集；数据集包括多个样本点；根据聚类算法对数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；根据约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。本发明实施例根据聚类的簇中的样本点数量动态调整聚类算法所用的阈值，能够使得数据集最终聚类获得的代表点数量是变化的，使得聚类得到的约简数据集更能反映数据集中样本点的特性，不仅提高了入侵检测的效率，还使得入侵检测更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络入侵的架构示意图；

图2为本发明实施例提供的一种入侵检测方法的流程示意图一；

图3为本发明实施例提供的一种入侵检测方法的流程示意图二；

图4为本发明实施例提供的一种入侵检测方法的流程示意图三；

图5为本发明实施例提供的一种入侵检测方法的流程示意图四；

图6为本发明实施例提供的一种入侵检测装置的结构示意图一；

图7为本发明实施例提供的一种入侵检测装置的结构示意图二；

图8为本发明实施例提供的一种入侵检测装置的结构示意图三；

图9为本发明实施例提供的另一种入侵检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

还需要说明的是，本发明实施例中，“的(英文：of)”，“相应的(英文：corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

随着网络技术的发展，计算机系统需要处理的数据流量越来越多，同时这些数据流量中包括的入侵计算机系统的数据流量也越来越多。对于计算机系统的数据入侵检测已经成为网络发展必不可少的一部分，而由于计算机系统处理的数据流量较为庞大，因此对计算机系统采集的数据集进行约简成为提高入侵检测效率的一项重要手段。但目前的一些数据约简算法获得的约简数据集在压缩比率和分类精度上无法满足大数据的发展需求。

目前的网络入侵通常是通过网络向计算机系统发送数据流量实现，如图1所示，网络入侵的架构中通常包括终端01、入侵设备02和通信网络03。

其中，终端01和入侵设备02可以通过通信网络03进行数据交互。

终端01，可以是笔记本电脑、台式电脑、掌上电脑(personal digital assistant，PDA)和平板电脑中的任一种，也可以是服务器等其他接入网络的通信设备。入侵设备02可以与终端01相同，如终端01和入侵设备02均为笔记本电脑，或台式电脑等；入侵设备02也可以与终端01不同，如终端01与服务器，入侵设备02为笔记本电脑等。

通信网络03可以是电信运营商提供的第四代(4th generation，4G)通信网络或第五代(5th generation，5G)通信网络等，也可以是WIFI等无线网络。

针对上述问题，如图2所示，本发明实施例提供一种入侵检测方法，包括：

S101、获取终端的数据集。

其中，数据集包括多个样本点。

具体的，这里的数据集可以是某一计算机系统在一定时间内接收的数据信息处理后获得的数据集，也可以是某一网络在一定时间内接收的数据信息处理后获得的数据集。数据信息可以通过抓包工具进行采集，如通过Unix系统下的TcpDump抓取数据信息，通过Windows系统下的LibDump抓取数据信息，或者通过专用的软件snort抓取数据信息。终端通过抓包工具抓取某一时间段内接收的数据信息后，可以对这些数据信息的值进行处理，以获得数据集。

可选的，数据信息可以包括分类标识，用于指示数据信息的种类，分类标识可以是正常Normal、拒绝服务攻击(denial of service，DOS)、监视和其他探测活动攻击(surveillance and probing，Probing)、来自远程机器的非法访问攻击(unauthorizedaccess from a remote machine to a local machine，R2L)或普通用户对本地超级用户特权的非法访问攻击(unauthorized access to local superuser privileges by alocal unpivileged user，U2R)。

需要说明的是，这里的数据信息的值可以是在一定时间内计算机系统或网络接收的同一类数据信息的次数，如接收分类标识为Normal的数据信息的次数，或分类标识为DOS的数据信息的次数等等。这里对数据信息的处理可以是对数据信息的值进行标准化处理，使处理后的数据信息的值在某一特定区间。当然，也可以是对数据信息进行归一化处理，使处理后的数据信息的值在[0，1]之间。

S102、根据聚类算法对数据集进行聚类处理，获得约简数据集。

其中，聚类算法用于对具有相似性的样本点进行聚类，如根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，这里的相似性指数据集中代表点与除代表点外的其他样本点之间的距离，以及该距离与阈值之间的关系；阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点。

具体的，这里的聚类算法为代表点Leader聚类算法，Leader聚类算法的聚类过程为：随机从数据集中选举一个样本点作为代表点，并确定数据集中除代表点外的其他样本点与该代表点的距离，若样本点与该代表点的距离小于或等于阈值，则可以将样本点聚类至该代表点所在的簇；若样本点与该代表点的距离大于阈值，则可以将该样本点确定为另一个代表点；依次类推，确定数据集中所有的样本点与代表点之间的距离，根据样本点与各个代表点之间的距离确定样本点聚类的簇。

需要说明的是，根据聚类算法对数据集中的样本点进行聚类时，可以将具有相同分类标识的样本点聚类至同一簇，而分类标识不同的样本点不能聚类至同一簇。

S103、根据约简数据集确定入侵数据集。

其中，入侵数据集包括数据集中的异常样本点。

具体的，约简数据集可以通过二分类模型进行分类，从而确定正常数据集和入侵数据集。这里的二分类模型可以是K均值聚类算法(k-means clustering algorithm，K-means)确定的分类模型，也可以是分类回归树(classification and regression tree，CART)算法确定的分类模型，对此本发明实施例不做限定。

示例性的，若二分类模型为K-means算法确定的分类模型，则确定入侵数据集的过程如下：

S1031、将约简数据集输入二分类模型，确定约简数据集中代表点与第一参考点的第一距离，以及与第二参考点的第二距离。

具体的，第一参考点和第二参考点可以是二分类模型中预先训练的聚类中心，第一参考点用于指示代表点所在的簇对应的样本点为入侵数据集，第二参考点用于指示代表点所在的簇对应的样本点为正常数据集。

根据欧式距离公式确定约简数据集中所有样本点与第一参考点之间的第一距离，以及与第二参考点之间的第二距离。

S1032、若第一距离小于第二距离，则确定代表点所在的簇对应的样本点为入侵数据集。

具体的，根据代表点与第一参考点和第二参考点之间的距离，可以将代表点聚类至第一参考点所在的簇，或第二参考点所在的簇。因为第一参考点聚类的簇为入侵数据集，因此在第一距离小于第二距离时，可以将代表点聚类至第一参考点所在的簇，此时该代表点在数据集中所在的簇中的所有的样本点均属于入侵数据集。

S1033、若第一距离大于第二距离，则确定代表点所在的簇对应的样本点为正常数据集。

具体的，与步骤S1032相同，若第一距离大于第二距离，则可以将代表点聚类至第二参考点所在的簇，此时该代表点在数据集中所在的簇中的所有的样本点均属于正常数据集。

需要说明的是，上述S1031-S1033的示例仅是为了说明根据约简数据集获得入侵数据集的过程，仅是示例性的，实际中，本领域的技术人员还可以根据CART算法训练的模型、神经网络算法训练的模型等模型来对约简数据集进行分类，获得入侵数据集，对此本发明实施例不做限定。

本实施例提供的入侵检测算法通过改变聚类算法的阈值，能够调整数据集划分的簇的个数，从而选择出更多的代表点，使得代表点组成的约简数据集更具代表性，在提高入侵检测效率的同时，提高入侵检测的准确性。

可选的，如图3所示，步骤S102具体包括：

a、确定第一代表点和第二样本点之间的第一距离，若第一距离小于或等于阈值，则将第二样本点聚类至第一代表点所在的簇。

其中，第二样本点、第一代表点为数据集中的不同样本点。

具体的，在数据集中任选一个样本点作为第一代表点，依次确定数据集中所有样本点与第一代表点之间的距离，如确定第二样本点与第一代表点之间的距离，若第二样本点与第一代表点之间的距离小于阈值，则将第二样本点聚类至第一代表点所在的簇。第一代表点和第二样本点之间的距离可以通过欧式距离公式确定，在此不再赘述。

这里的阈值可以依据下列公式确定；

其中，g为数据集中样本点的变化范围，Q为样本约简参数，|C_i|为第一簇中的样本点数量，|C_j|为第二簇中的样本点数量，δ为第一簇和第二簇不属于同一簇的概率。

在本步骤中，第一簇C_i仅包括第一代表点，|C_i|为1；第二簇C_j包括第一代表点和第二样本点，|C_j|为2。

需要说明的是，本发明实施例中的样本点为一维数，如0.1、0.2、0.3等。这里的g实际是指数据集中最大的样本点与最小的样本点的差值，如数据集中最大的样本点为0.9，最小的样本点为0.1，则g为0.8；Q可以为设置的样本约简参数，如200、300等，Q的值越大，则根据聚类算法确定的簇越多，约简数据集中的代表点数量也越多；δ可以为设置的概率值，δ的值接近于0，如0.003、0.004等。

虽然在本步骤第一簇中仅包括第一代表点，第二簇仅包括第一代表点和第二样本点，但随着对数据集中所有的样本点的聚类，代表点的数量越来越多，数据集中聚类的簇也越来越多，这里的第一簇和第二簇也根据代表点的不同不断的变化。

b、若第一距离大于阈值，则确定第二样本点为第二代表点。

具体的，根据步骤a可知第一距离小于或等于阈值，则可以将第二样本点聚类至第一代表点所在的簇；而若第一距离大于阈值，则不可以将第二样本点聚类至第一代表点所在的簇，此时可以将第二样本点作为第二代表点。

c、确定第一代表点和第三样本点之间的第二距离，第二代表点和第三样本点之间的第三距离。

其中，第三样本点为数据集中的样本点。

具体的，根据步骤a、b确定了第一代表点和第二代表点，此时需要确定数据集中除第一代表点所在的簇中的样本点和第二代表点以外的其他样本点与第一代表点之间的距离，以及与第二代表点之间的距离，如第三样本点与第一代表点之间的第二距离，第三样本点与第二代表点之间的第三距离。

d、若第二距离小于或等于阈值，且第三距离大于阈值，则将第三样本点聚类至第一代表点所在的簇；若第二距离大于阈值，且第三距离小于或等于阈值，则将第三样本点聚类至第二代表点所在的簇。

具体的，第三样本点的聚类可以根据第二距离和阈值之间的关系，以及第二距离和阈值之间的关系确定，若第二距离小于或等于阈值，且第三距离大于阈值，则将第三样本点聚类至第一代表点所在的簇；若第二距离大于阈值，且第三距离小于或等于阈值，则将第三样本点聚类至第二代表点所在的簇。

需要说明的是，这里的阈值同样可以根据下列公式确定：

不同的是，这里的第一簇C_i不仅包括第一代表点，还可以包括其他已经聚类至第一代表点所在的簇的样本点，|C_i|为第一代表点和该簇包括的其他样本点的总数量；第二簇C_j包括第一簇中的所有样本点以及第一代表点，还包括第三样本点，|C_j|为|C_i|的值加一。

e、将数据集中的所有样本点依次迭代进行a-d的步骤，获得多个簇。

具体的，数据集中的所有样本点均需聚类至相应的簇，如聚类至第一代表点所在的簇，或聚类至第二代表点所在的簇。当然，上述的第一代表点和第二代表点仅为示例性的，实际的聚类过程中还将出现更多的代表点，以及更多的簇。如，确定第四样本点与第一代表点之间的距离，以及与第二代表点之间的距离，若第四样本点与第一代表点之间的距离大于阈值，且第四样本点与第二代表点之间的距离大于阈值，则可以将第四样本点确定为第三代表点；确定第五样本点与第一代表点之间的距离，与第二代表点之间的距离，以及与第三代表点之间的距离，根据各个距离与相应的阈值之间的大小关系确定第五样本点聚类的簇；依次类推，不断确定数据集中其他未聚类的样本点与已确定的代表点之间的距离，以及样本点与已确定的代表点之间的距离和相应的阈值之间的大小关系，从而确定这些未聚类的样本点应聚类的簇。当然，若这些未聚类的样本点中，若出现某一样本点与所有代表点之间的距离均大于相应的阈值，则可以将该样本点确定为新的代表点。

通过不断迭代确定样本点与代表点之间的距离，以及该距离与相应的阈值之间的大小关系，不断地将样本点聚类至相应的簇，或确定为新的代表点。最终将数据集划分为多个簇。

f、确定多个簇的代表点组成的集合为约简数据集。

具体的，根据上述步骤可以将数据集划分为多个不同的簇，每一个簇具有一个代表点，这些代表点组成的集合即为约简数据集。

可选的，如图4所示，在上述步骤c之后，还包括：

g、若第二距离小于或等于阈值，且第三距离小于或等于阈值，则根据第三样本点聚类至第一代表点所在的簇的第一概率和第三样本点聚类至第二代表点所在的簇的第二概率确定第三样本点聚类的簇。

具体的，在第二距离小于或等于阈值，且第三距离小于或等于阈值时，第三样本点既可以聚类至第一代表点所在的簇，也可以聚类至第二代表点所在的簇。此时，可以根据第三样本点聚类至第一代表点所在的簇的第一概率和第三样本点聚类至第二代表点所在的簇的第二概率来确定第三样本点聚类的簇。

第一概率和第二概率可以根据下列公式确定：

d_i＝dist(C_i，x)；

其中，x为第三样本点，m为第三样本点与不同代表点之间的距离大于阈值的代表点的数量；C_i为第一代表点所在的簇，d_i为第三样本点与第一代表点之间的距离，或，C_i为第二代表点所在的簇，d_i为第三样本点与第二代表点之间的距离。

示例性的，因为这里仅举例了第二距离小于或等于阈值，且第三距离小于或等于阈值的情况，即第三样本点既可以聚类至第一代表点所在的簇，也可以聚类至第二代表点所在的簇的情况，因此这里的m为2。d_i可以为d₁或d₂，d₁为第三样本点与第一代表点之间的距离，d₂为第三样本点与第二代表点之间的距离，C₁为第一代表点所在的簇，C₂为第二代表点所在的簇。

当然，若还存在一个第三代表点，且第三样本点与第三代表点之间的第三距离小于或等于阈值，则此时可以将第三样本点聚类至第一代表点所在的簇，或聚类至第二代表点所在的簇，或聚类至第三代表点所在的簇，m为3。此时，需要确定第一概率、第二概率和第三概率之间的关系，第三概率为第三样本点聚类至第三代表点所在的簇的概率。根据上述确定第一概率和第二概率的公式可得：

d₃为第三样本点与第三代表点之间的距离，C₃为第三代表点所在的簇。

需要说明的是，上述的第一代表点、第二代表点和第三代表点仅为示例性的，实际中可能还存在第四代表点、第五代表点等代表点与第三样本点之间的距离小于或等于阈值，此时还需要确定第四概率和第五概率等概率。第四概率为第三样本点聚类至第四代表点所在的簇的概率，第五概率为第三样本点聚类至第五代表点所在的簇的概率。

h、若第一概率大于第二概率，则将第三样本点聚类至第一代表点所在的簇；若第一概率小于第二概率，则将第三样本点聚类至第二代表点所在的簇。

具体的，根据第一概率和第二概率的大小可以确定第三样本点聚类的簇，第一概率大于第二概率，则将第三样本点聚类至第一代表点所在的簇；若第一概率小于第二概率，则将第三样本点聚类至第二代表点所在的簇。

需要说明的是，如上述步骤g，若还包括第三样本点聚类至第三代表点所在的簇的第三概率，则还需要确定第三概率与第一概率、第二概率之间的关系，若第三概率最大，则可以将第三样本点聚类至第三代表点所在的簇。同样的，对于其他如第四代表点、第五代表点等，也可以根据各个代表点对应的概率的大小确定第三样本点聚类的簇。

本实施例提供了根据阈值划分数据集的具体实现过程，由于阈值会根据代表点所在的簇中的样本点数量变化，当代表点所在的簇中的样本点数量较多时，阈值会随之减小，而数据集中其他样本点与代表点的距离不变，因此在阈值减小时，其他样本点不能被聚类至代表点所在的簇的几率增大。因此，可以为数据集划分更多的簇，同时确定更多的代表点，使得代表点组成的约简数据集更能代表数据集，使得入侵检测的准确性更高。

可选的，如图5所示，在步骤e之后，还包括：

S201、确定多个簇的平均值。

具体的，步骤S102可以将数据集划分为多个簇，每个簇可以包括代表点和多个样本点，每个簇的平均值可以根据下列公式确定：

其中，

为簇的平均值，n为簇中样本点的数量(包括代表点)，x_i为簇中的样本点。

示例性的，若数据集划分了100个簇，则可以确定这100个簇的平均值。如第一个簇包括10个样本点，则该第一个簇的平均值为：

其中，C₁为第一个簇，x₁、x₂、x₃、、x₁₀为该第一个簇中的样本点。相应的，对于数据集中其他的簇也可以通过相同的方法确定其平均值。

S202、将多个平均值确定为多个中心代表点。

具体的，根据步骤S201可以确定每一个簇对应的平均值，当数据集划分为多个簇时，相应的可以为这多个簇确定对应的平均值，将确定的平均值作为每一个簇的中心代表点。

S203、确定多个中心代表点组成的集合为约简数据集。

具体的，这里将每一个簇的中心代表点组成的集合确定为约简数据集。

需要说明的是，这里的中心代表点与代表点不同，代表点实际上是数据集中的样本点，而中心代表点是数据集中某些样本点的平均值，因此中心代表点可以是数据集中的样本点，也可以不是数据集中的样本点。

本实施例将数据集中各个簇的平均值作为中心代表点，将中心代表点组成的集合作为约简数据集。由于中心代表点为各个簇的平均值，相比于随机确定的代表点，中心代表点更能体现各个簇的特征值。因此，将中心代表点组成的集合作为约简数据集进行入侵检测，能够进一步提高入侵检测的准确性。

可选的，因为采集的数据信息中包括分类标识，因此步骤S101获得的数据集中的各个样本点也包括分类标识，在上述实施例确定入侵数据集后，可以根据代表点包括的分类标识确定该入侵数据集所指示的入侵类型，如DOS、Probing等。当然，分类标识可以通过数字来表示，如1表示DOS，2表示Probing，3表示R2L等等。根据样本点携带的分类标识的不同，在确定入侵数据集的同时，还可以确定入侵类型。

本发明实施例提供一种入侵检测方法，包括：获取终端的数据集；数据集包括多个样本点；根据聚类算法对数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；根据约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。本发明实施例根据聚类的簇中的样本点数量动态调整聚类算法所用的阈值，能够使得数据集最终聚类获得的代表点数量是变化的，使得聚类得到的约简数据集更能反映数据集中样本点的特性，不仅提高了入侵检测的效率，还使得入侵检测更为准确。

如图6所示，本发明实施例提供一种入侵检测装置30，包括：

获取模块301，用于获取终端的数据集；数据集包括多个样本点。

聚类模块302，用于根据聚类算法对获取模块301获取的数据集进行聚类处理，获得约简数据集。

其中，聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点。

检测模块303，用于根据聚类模块302获得的约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。

可选的，阈值依据下列公式确定：

可选的，聚类模块302具体用于：

a、确定第一代表点和第二样本点之间的第一距离，若第一距离小于或等于阈值，则将第二样本点聚类至第一代表点所在的簇；第二样本点、第一代表点为数据集中的不同样本点；

b、若第一距离大于阈值，则确定第二样本点为第二代表点；

c、确定第一代表点和第三样本点之间的第二距离，第二代表点和第三样本点之间的第三距离；第三样本点为数据集中的样本点；

d、若第二距离小于或等于阈值，且第三距离大于阈值，则将第三样本点聚类至第一代表点所在的簇；若第二距离大于阈值，且第三距离小于或等于阈值，则将第三样本点聚类至第二代表点所在的簇；

e、将数据集中的所有样本点依次迭代进行a-d的步骤，获得多个簇；

f、确定多个簇的代表点组成的集合为约简数据集。

可选的，如图7所示，入侵检测装置30还包括处理模块304。

处理模块304，用于在第二距离小于或等于阈值，且第三距离小于或等于阈值时，根据第三样本点聚类至第一代表点所在的簇的第一概率和第三样本点聚类至第二代表点所在的簇的第二概率确定第三样本点聚类的簇。

处理模块304，还用于在第一概率大于第二概率时，将第三样本点聚类至第一代表点所在的簇；若第一概率小于第二概率，则将第三样本点聚类至第二代表点所在的簇。

第一概率和第二概率依据下列公式确定：

d_i＝dist(C_i，x)；

可选的，如图8所示，入侵检测装置30还包括均值模块305。

均值模块305，用于确定聚类模块302确定的多个簇的平均值。

均值模块305，还用于将多个平均值确定为多个中心代表点。

均值模块305，还用于确定多个中心代表点组成的集合为所述约简数据集。

本发明实施例提供一种入侵检测方法，包括：获取模块，用于获取终端的数据集；数据集包括多个样本点；聚类模块，用于根据聚类算法对获取模块获取的数据集进行聚类处理，获得约简数据集；聚类算法用于根据阈值和数据集中的代表点对数据集中除代表点外的其他样本点进行聚类处理，阈值与第一簇的样本点数量和第二簇的样本点数量有关；第一簇为代表点所在的簇，第二簇包括第一簇中的所有样本点和第一样本点，第一样本点为数据集中除第一簇中的样本点外的其他样本点；约简数据集包括多个代表点；检测模块，用于根据聚类模块获得的约简数据集确定入侵数据集；入侵数据集包括数据集中的异常样本点。本发明实施例根据聚类的簇中的样本点数量动态调整聚类算法所用的阈值，能够使得数据集最终聚类获得的代表点数量是变化的，使得聚类得到的约简数据集更能反映数据集中样本点的特性，不仅提高了入侵检测的效率，还使得入侵检测更为准确。

参照图9所示，本发明实施例还提供另一种入侵检测装置，包括存储器41、处理器42、总线43和通信接口44；存储器41用于存储计算机执行指令，处理器42与存储器41通过总线43连接；当入侵检测装置运行时，处理器42执行存储器41存储的计算机执行指令，以使入侵检测装置执行如上述实施例提供的入侵检测方法。

在具体的实现中，作为一种实施例，处理器42(42-1和42-2)可以包括一个或多个CPU，例如图9中所示的CPU0和CPU1。且作为一种实施例，入侵检测装置可以包括多个处理器42，例如图9中所示的处理器42-1和处理器42-2。这些处理器42中的每一个CPU可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器41可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmableread-only memory，EEPROM)、只读光盘(compact disc read-onlymemory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器41可以是独立存在，通过总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。

在具体的实现中，存储器41，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序，以及调用存储在存储器41内的数据，入侵检测装置的各种功能。

通信接口44，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如控制系统、无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口44可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线43，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的入侵检测方法。

本发明实施例还提供一种计算机程序，该计算机程序可直接加载到存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述实施例提供的入侵检测方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种入侵检测方法，其特征在于，包括：

获取终端的数据集；所述数据集包括多个样本点；

根据聚类算法对所述数据集进行聚类处理，获得约简数据集；所述聚类算法用于根据阈值和所述数据集中的代表点对所述数据集中除所述代表点外的其他样本点进行聚类处理，所述阈值与第一簇的样本点数量和第二簇的样本点数量有关；所述第一簇为所述代表点所在的簇，所述第二簇包括所述第一簇中的所有样本点和第一样本点，所述第一样本点为所述数据集中除所述第一簇中的样本点外的其他样本点；所述约简数据集包括多个所述代表点；

根据所述约简数据集确定入侵数据集；所述入侵数据集包括所述数据集中的异常样本点。

2.根据权利要求1所述的入侵检测方法，其特征在于，所述阈值依据下列公式确定：

其中，g为所述数据集中样本点的变化范围，Q为样本约简参数，|C_i|为所述第一簇中的样本点数量，|C_j|为所述第二簇中的样本点数量，δ为所述第一簇和所述第二簇不属于同一簇的概率。

3.根据权利要求2所述的入侵检测方法，其特征在于，所述根据聚类算法对所述数据集进行聚类处理，获得约简数据集包括：

a、确定第一代表点和第二样本点之间的第一距离，若所述第一距离小于或等于所述阈值，则将所述第二样本点聚类至所述第一代表点所在的簇；所述第二样本点、所述第一代表点为所述数据集中的不同样本点；

b、若所述第一距离大于所述阈值，则确定所述第二样本点为第二代表点；

c、确定所述第一代表点和第三样本点之间的第二距离，所述第二代表点和所述第三样本点之间的第三距离；所述第三样本点为所述数据集中的样本点；

d、若所述第二距离小于或等于所述阈值，且所述第三距离大于所述阈值，则将所述第三样本点聚类至所述第一代表点所在的簇；若所述第二距离大于所述阈值，且所述第三距离小于或等于所述阈值，则将所述第三样本点聚类至所述第二代表点所在的簇；

e、将所述数据集中的所有样本点依次迭代进行a-d的步骤，获得多个簇；

f、确定所述多个簇的代表点组成的集合为所述约简数据集。

4.根据权利要求3所述的入侵检测方法，其特征在于，所述确定所述第一代表点和第三样本点之间的第二距离，所述第二代表点和所述第三样本点之间的第三距离之后，还包括：

若所述第二距离小于或等于所述阈值，且所述第三距离小于或等于所述阈值，则根据所述第三样本点聚类至所述第一代表点所在的簇的第一概率和所述第三样本点聚类至所述第二代表点所在的簇的第二概率确定所述第三样本点聚类的簇；

若所述第一概率大于所述第二概率，则将所述第三样本点聚类至所述第一代表点所在的簇；若所述第一概率小于所述第二概率，则将所述第三样本点聚类至所述第二代表点所在的簇；

所述第一概率和所述第二概率依据下列公式确定：

d_i＝dist(C_i，x)；

其中，x为所述第三样本点，m为所述第三样本点与不同代表点之间的距离大于阈值的代表点的数量；C_i为所述第一代表点所在的簇，d_i为所述第三样本点与所述第一代表点之间的距离，或，C_i为所述第二代表点所在的簇，d_i为所述第三样本点与所述第二代表点之间的距离。

5.根据权利要求4所述的入侵检测方法，其特征在于，所述将所述数据集中的所有样本点依次迭代进行a-d的步骤，获得多个簇之后，还包括：

确定所述多个簇的平均值；

将多个所述平均值确定为多个中心代表点；

确定所述多个中心代表点组成的集合为所述约简数据集。

6.一种入侵检测装置，其特征在于，包括：

获取模块，用于获取终端的数据集；所述数据集包括多个样本点；

聚类模块，用于根据聚类算法对所述获取模块获取的所述数据集进行聚类处理，获得约简数据集；所述聚类算法用于根据阈值和所述数据集中的代表点对所述数据集中除所述代表点外的其他样本点进行聚类处理，所述阈值与第一簇的样本点数量和第二簇的样本点数量有关；所述第一簇为所述代表点所在的簇，所述第二簇包括所述第一簇中的所有样本点和第一样本点，所述第一样本点为所述数据集中除所述第一簇中的样本点外的其他样本点；所述约简数据集包括多个所述代表点；

检测模块，用于根据所述聚类模块获得的所述约简数据集确定入侵数据集；所述入侵数据集包括所述数据集中的异常样本点。

7.根据权利要求6所述的入侵检测装置，其特征在于，所述阈值依据下列公式确定：

8.根据权利要求7所述的入侵检测装置，其特征在于，所述聚类模块具体用于：

f、确定所述多个簇的代表点组成的集合为所述约简数据集。

9.根据权利要求8所述的入侵检测装置，其特征在于，还包括处理模块；

所述处理模块，用于在所述第二距离小于或等于所述阈值，且所述第三距离小于或等于所述阈值时，根据所述第三样本点聚类至所述第一代表点所在的簇的第一概率和所述第三样本点聚类至所述第二代表点所在的簇的第二概率确定所述第三样本点聚类的簇；

所述处理模块，还用于在所述第一概率大于所述第二概率时，将所述第三样本点聚类至所述第一代表点所在的簇；若所述第一概率小于所述第二概率，则将所述第三样本点聚类至所述第二代表点所在的簇；

所述第一概率和所述第二概率依据下列公式确定：

d_i＝dist(C_i，x)；

10.根据权利要求9所述的入侵检测装置，其特征在于，还包括均值模块；

所述均值模块，用于确定所述聚类模块确定的所述多个簇的平均值；

所述均值模块，还用于将多个所述平均值确定为多个中心代表点；

所述均值模块，还用于确定所述多个中心代表点组成的集合为所述约简数据集。

11.一种入侵检测装置，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；当所述入侵检测装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述入侵检测装置执行如权利要求1-5任一项所述的入侵检测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行如权利要求1-5任一项所述的入侵检测方法。