CN108710796B

CN108710796B - 入侵操作检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN108710796B
Application number: CN201810462297.1A
Authority: CN
Inventors: 欧毓毅; 牛少章
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2021-07-06
Anticipated expiration: 2038-05-15
Also published as: CN108710796A

Abstract

本发明公开了一种入侵操作检测方法、装置、设备及计算机可读存储介质，在根据每个数据点的局部离群因子检测日志文件中的入侵操作时，为了避免查找k近邻时计算距离矩阵所需的计算量，利用网格的记忆性，即：距离目标网格中的数据点最近的k个其他数据点，一定在该目标网格或在该目标网格的最近邻接网格中；从而利用网格的记忆性来查找各个数据点的k近邻，避免了传统算法查找k近邻时需要计算距离矩阵，减少了计算量，加快了离群点的检测速度，从而减少了计算机内存需求，提高入侵检测的检测效率。

Description

入侵操作检测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及网络入侵检测技术领域，更具体地说，涉及一种入侵操作检测方法、装置、设备及计算机可读存储介质。

背景技术

近年来网络安全事件频发，而入侵检测系统在网络入侵检测中扮演着举足轻重的作用，入侵检测又分为异常检测和误用检测；目前通过误用检测模型检测入侵时，是通过离群点检测算法进行检测的，具体来说，离群点检测算法能消除噪声或发现潜在的、有意义的知识。例如：LOF(Local Outlier Factor)算法，LOF算法是基于密度的离群点挖掘算法的经典算法，但是当一些数据分布复杂时，LOF算法可能出现误判的情况。因此Jin等提出基于反向k邻域的INFLO算法，不仅考虑数点的k邻域，还考虑数据点的反向k邻域对数据离群度影响；为了克服LOF算法对于序列数据和低密度数据对象不能有效度量的缺陷，Tang等人提出基于连接的利群系数的方法，其算法是根据给定的参数最少邻居数k和数据对象的连接性来确定邻域，计算与其邻接的平均连接距离，用平均连接距离比作为基于连接的离群系数COF，但该方法比LOF算法更复杂。基于密度的离群点检测算法的另一个巨大缺陷就是需要计算数据的距离矩阵来进行k近邻的查询，当数据量较大时，需要的计算机内存需求也非常大。

因此，如何减小使用离群点检测算法检测入侵操作的计算机内存需求，提高入侵检测的检测效率，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种入侵操作检测方法、装置、设备及计算机可读存储介质，以减小使用离群点检测算法检测入侵操作的计算机内存需求，提高入侵检测的检测效率。

为实现上述目的，本发明实施例提供了如下技术方案：

一种入侵操作检测方法，包括：

S101、获取目标主机的日志文件，将所述日志文件作为待检测数据集，所述待检测数据集中每个数据点的n维数据值与所述日志文件中每个操作的n维操作数据相对应；

S102、利用所述待检测数据集中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间，所述n维数据空间由边长相等且互不相交的网格组成，将所述待检测数据集中每个数据点映射到所述n维数据空间的网格内，并确定待检测的目标网格；

S103、检测目标网格内的数据点个数是否小于K+1；其中，K为k近邻参数值；若是，则将目标网格作为中心网格，执行S104；若否，则执行S105；

S104、查找中心网格的邻接网格，将所述中心网格和所述邻接网格组合生成重组网格，并检测所述重组网格内的数据点个数是否小于K+1；若是，则将重组网格作为中心网格，继续执行S104；若否，则执行S105；

S105、计算目标网格内每个数据点的局部离群因子；若所述n维网格内存在未检测的网格，则从未检测的网格内重新选取目标网格，并继续执行S103；若所述n维网格内不存在未检测的网格，则执行S106；

S106、将局部离群因子大于预定阈值的数据点作为异常数据点，将所述异常数据点对应的操作作为入侵操作。

其中，所述S102中利用所述待检测数据集中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间，所述n维数据空间由边长相等且互不相交的网格组成，包括：

利用所述待检测数据集D中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间S＝R₁×R₂×...R_n；R_i为第i维数据集，且R_i的区间为R_i＝[l_i,h_i]，l_i为第i维数据集的最小值，h_i为第i维数据集的最大值；

其中，所述n维数据空间由边长相等且互不相交的网格组成，所述n维数据空间S的网格边长

M为所述待检测数据集D的数据点个数；

所述n维数据空间S的每一维上的网格数量Num＝┌(h_i-l_i)/Len┐。

其中，所述S102中将所述待检测数据集中每个数据点映射到所述n维数据空间的网格内，包括：

计算所述待检测数据集D中每个数据点X在所述n维数据空间内的第i维的下标index_i，且index_i＝┌(x_i-l_i)/Len┐；其中，所述待检测数据集D中每个数据点为X(x₁,x₂...x_n)，x_i为数据点X在第i维的数据值；

根据每个数据点X的每一维数据值的下标，将每个数据点映射到所述n维数据空间的网格内。

其中，所述S105中计算所述目标网格内每个数据点的局部离群因子，包括：

计算所述目标网格内每个数据点的k近邻数据集；所述k近邻数据集包括每个数据点的第k距离和每个k距离邻域内包含的数据点；

利用每个数据点的k近邻数据集计算每个数据点的局部可达密度，并利用每个数据点的局部可达密度确定每个数据点的局部离群因子。

一种入侵操作检测装置，包括：

获取模块，用于获取目标主机的日志文件，将所述日志文件作为待检测数据集，所述待检测数据集中每个数据点的n维数据值与所述日志文件中每个操作的n维操作数据相对应；

数据空间创建模块，用于利用所述待检测数据集中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间，所述n维数据空间由边长相等且互不相交的网格组成；

数据点映射模块，用于将所述待检测数据集中每个数据点映射到所述n维数据空间的网格内；

目标网格确定模块，用于从所述述n维数据空间的网格内确定待检测的目标网格；

数据点检测模块，用于检测目标网格内的数据点个数是否小于K+1；其中，K为k近邻参数值；若小于K+1，则将目标网格作为中心网格，并触发网格重组模块；

所述网格重组模块，用于数据点个数小于K+1时，查找中心网格的邻接网格，将所述中心网格和所述邻接网格组合生成重组网格；

重组网格数据点检测模块，用于检测所述重组网格内的数据点个数是否小于K+1；若不小于K+1，则触发局部离群因子计算模块；若小于K+1，则将重组网格作为中心网格，触发所述网格重组模块；

局部离群因子计算模块，用于在数据点个数不小于K+1时，则计算目标网格内每个数据点的局部离群因子；若所述n维网格内存在未检测的网格，则从未检测的网格内重新选取目标网格，并触发所述数据点检测模块；若n维网格内不存在未检测的网格，则触发入侵操作确定模块；

入侵操作确定模块，用于将局部离群因子大于预定阈值的数据点作为异常数据点，将所述异常数据点对应的操作作为入侵操作。

其中，所述数据空间创建模块具体用于：

M为所述待检测数据集D的数据点个数；所述n维数据空间S的每一维上的网格数量

Num＝┌(h_i-l_i)/Len┐。

其中，所述数据点映射模块包括：

下标计算单元，用于计算所述待检测数据集D中每个数据点X在所述n维数据空间内的第i维的下标index_i，且index_i＝┌(x_i-l_i)/Len┐；其中，所述待检测数据集D中每个数据点为X(x₁,x₂...x_n)，x_i为数据点X在第i维的数据值；

映射单元，用于根据每个数据点X的每一维数据值的下标，将每个数据点映射到所述n维数据空间的网格内。

其中，所述局部离群因子计算模块包括：

k近邻数据集计算单元，用于计算所述目标网格内每个数据点的k近邻数据集；所述k近邻数据集包括每个数据点的第k距离和每个k距离邻域内包含的数据点；

局部离群因子确定单元，用于利用每个数据点的k近邻数据集计算每个数据点的局部可达密度，并利用每个数据点的局部可达密度确定每个数据点的局部离群因子。

一种入侵操作检测设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述的入侵操作检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的入侵操作检测方法的步骤。

通过以上方案可知，本发明实施例提供的一种入侵操作检测方法、装置、设备及计算机可读存储介质，在根据每个数据点的局部离群因子检测日志文件中的入侵操作时，为了避免查找k近邻时计算距离矩阵所需的计算量，利用网格的记忆性，即：距离目标网格中的数据点最近的k个其他数据点，一定在该目标网格或在该目标网格的最近邻接网格中；从而利用网格的记忆性来查找各个数据点的k近邻，避免了传统算法查找k近邻时需要计算距离矩阵，减少了计算量，加快了离群点的检测速度，从而减少了计算机内存需求，提高入侵检测的检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种入侵操作检测方法流程示意图；

图2为本发明实施例公开的一种重组网格示意图；

图3为本发明实施例公开的另一种重组网格示意图；

图4为本发明实施例公开的一种具体的入侵操作检测方法流程图；

图5为本发明实施例公开的一种入侵操作检测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种入侵操作检测方法、装置、设备及计算机可读存储介质，以减小使用离群点检测算法检测入侵操作的计算机内存需求，提高入侵检测的检测效率。

参见图1，本发明实施例提供的一种入侵操作检测方法，包括：

具体的，为了检测目标主机是否存在入侵操作，需要对主机的日志文件进行检查，该日志文件中包含对电脑操作的数据，存在攻击行为的异常数据想到于本方案中的入侵操作的数据，该入侵操作对应的数据点相当于离群点，从而便可以通过基于密度的离群点挖掘算法检测这些入侵数据。

需要说明的是，本方案中的每个数据点与日志文件中的每个操作相对应，每个数据点中的n维数据值与每个操作的n维操作数据相对应，该n维操作数据具体为接口数据、相关设置数据、相关协议数据等，在此并不具体限定。在本方案中将待检测数据集用D表示，数据点的个数用M表示。

所述n维数据空间由边长相等且互不相交的网格组成，所述n维数据空间S的网格边长

M为所述待检测数据集D的数据点个数；所述n维数据空间S的每一维上的网格数量Num＝┌(h_i-l_i)/Len┐。

具体来说，通过离群点挖掘算法检测离群点之前，需要对数据集中每个数据点进行编号，然后再进行网格划分、数据分箱。

假设在第i(i＝1,2,3...,n)维上值的区间为R_i＝[l_i,h_i]，则S＝R₁×R₂×...R_n就是n维数据空间，且网格边长为

可以理解的是，如果维度为2维，则该网格的便是长度为len的正方形网格，如果维度为3维，则该网格的便是长度为len的立方体，以此类推。计算出网格边长后，并根据每个维度的数据最大值h_i和最小值l_i确定网格的数量，即：网格数量为：

Num＝┌(h_i-l_i)/Len┐。这样就把数据空间的每一维分成长度相等、互不相交的网格，这些网格在每一维上都是左闭右开的。

在对数据进行分箱时，也就是把数据集中的每个对象映射到对应的网格中时，通过确定每个数据对象X(x1,x2,...xn)所对应的网格在每一维上的下标来进行映射，映射规则为index_i＝┌(x_i-l_i)/Len┐。

例如：数据点为X(x₁,x₂,x₃)，那么需要分别计算数据点在一维、二维以及三维上的下标，具体来说在一维上的下标为：index₁＝┌(x₁-l₁)/Len┐，在二维上的下标为：index₂＝┌(x₂-l₂)/Len┐，在三维上的下标为：index₃＝┌(x₃-l₃)/Len┐，那么在数据点在三维空间内的数据坐标便是：(index₁＝┌(x₁-l₁)/Len┐，index₂＝┌(x₂-l₂)/Len┐，index₃＝┌(x₃-l₃)/Len┐)。

当数据集中所有的数据点都映射到n维数据空间后，并从这n维数据空间中选取目标网格，选取的规则可以按照先行后列的顺序查询每个网格，也可以根据自定义顺序进行选取，在本实施例中将选取的目标网格用Gi(i＝1,2,3，…，m，m为网格个数)表示。

具体的，在该过程中，首先需要判断该网格是否有数据点，如果没有，则继续查找下一网格，该下一网格便是重新确定的目标网格；如果有，则继续判断该网格存在的数据点是否小于K+1。

如果数据点个数小于K+1，则以Gi为中心网格查询Gi网格的邻接网格，该邻接网格为与中心网格相邻的网格；然后合并所查询的所有网格为网格G，参见图2，中心网格为深灰色网格Gi，查询到的邻接网格为中心网格周围的深灰色网格，将深灰色和浅灰色网格合并，生成重组网格，该重组网格为G；继续判断重组网格G内包含的数据个数是否仍小于K+1，若不小于K+1，则继续执行S105；若仍小于K+1，则将该重组网格作为中心网格，继续查询该中心网格的邻接网格，然后合并所有查询的网格为新的重组网格G，参见图3，中心网格为前一次的重组网格，即中度灰色的网格，最浅灰色的网格为中心网格的邻接网格，将三者进行重组，生成新的重组网格G；生成新的重组网格后，在将该重组网格作为中心网格继续执行上述步骤。

需要说明的是，在计算局部离群因子时，只计算S102中确定的目标网格内数据点的局部离群因子。在计算局部离群因子时，首先需要确定两个参数，即k近邻参数K，离群因子阈值lof，这两个参数可以通过人为设定，也可以根据训练数据训练生成，在此并不具体限定。

在计算数据点的局部离群因子时，可根据基于密度的离群点挖掘算法求得，具体包括如下步骤：

1、依次查找目标网格中所有数据的k近邻数据集，该k近邻数据集中包括每个数据点的第k距离k-distance和k距离邻域包含数据的数据编号。也就是说，如果网格内数据点个数大于K+1，则计算目标网格Gi内每个数据点n_j与G内所有数据间的距离，并找到n_j的k近邻数据点，记录数据点n_j的k近邻距离为k-distance(j)，k距离邻域为N_k(p)和k距离邻域内各个数据点的编号；在此，对本文中出现的参数进行解释：

1)d(p,o)：数据点o与点p间的欧氏距离；

2)第k距离k-distance，对于点p的第k距离d_k(p)定义如下：d_k(p)＝d(p,o)，并且满足：

a)在集合中至少有不包括p在内的k个点o’∈C{x≠p}满足d(p,o’)≤d(p,o)；

a)在集合中最多有不包括p在内的k-1个点o’∈C{x≠p}，满足d(p,o’)＜d(p,o)。

2)第k距离邻域。点p的第k距离邻域N_k(p)，就是p的第k距离即以内的所有点，包括第k距离。因此p的第k邻域点的个数|N_k(p)|≥k。

2、计算每个数据的局部可达密度lrd(i)，计算公式为：

lrd(i)表示点p的第k邻域内点到p的平均可达距离的倒数。其中reach-dist_k(p,o)为点o到点p的可达距离，表示为：

reach-dist_k(p,o)＝max{k-distance(o),d(p,o)}。

3、计算每个数据点的局部离群因子lof(i)，计算公式为：

表示点p的邻域点N_k(p)的局部可达密度与点p的局部可达密度之比的平均数。

具体的，通过上述方法计算出目标网格内每个数据点局部离群因子后，可对数据集中各个数据的离群因子lof(i)进行排序，对于局部离群因子大于阈值lof的数据作噪声标记。即：可将局部离群因子大于预定阈值的数据点作为异常数据点，将异常数据点对应的操作作为入侵操作；并且，检测出入侵操作后，可以通过预先设定的预警方式进行预警。参见图4，为本发明公开的一种具体的入侵操作检测方法流程图。

综上可见，本方案针对基于密度的离群点检测算法需要计算距离矩阵来解决k近邻查询问题，提出利用网格的“记忆性”：即距离目标网格中的数据点最近的k个其他数据点，一定在该目标网格或在该目标网格的最近邻接网格中，来优化邻域查询，然后再计算每个数据的离群度。该方法具有如下优点：通过数据自身分布特性和数据集大小，自动划分网格大小，避免了人为设置网格大小参数，更加适合实际数据离群点检测的需要；并且利用网格能够记录周围数据点分布的特性，优化邻域查询操作，避免了大规模的距离矩阵的计算，加快了离群点检测的速度。因此，通过该方法能提高对日志文件的检测速度，及时的检测出主机中是否存在入侵操作，提高系统的安全性。

下面对本发明实施例提供的入侵操作检测装置进行介绍，下文描述的入侵操作检测装置与上文描述的入侵操作检测方法可以相互参照。

参见图5，本发明实施例提供的一种入侵操作检测装置，包括：

获取模块100，用于获取目标主机的日志文件，将所述日志文件作为待检测数据集，所述待检测数据集中每个数据点的n维数据值与所述日志文件中每个操作的n维操作数据相对应；

数据空间创建模块200，用于利用所述待检测数据集中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间，所述n维数据空间由边长相等且互不相交的网格组成；

数据点映射模块300，用于将所述待检测数据集中每个数据点映射到所述n维数据空间的网格内；

目标网格确定模块400，用于从所述述n维数据空间的网格内确定待检测的目标网格；

数据点检测模块500，用于检测目标网格内的数据点个数是否小于K+1；其中，K为k近邻参数值；若小于K+1，则将目标网格作为中心网格，并触发网格重组模块；

网格重组模块600，用于数据点个数小于K+1时，查找中心网格的邻接网格，将所述中心网格和所述邻接网格组合生成重组网格；

重组网格数据点检测模块700，用于检测所述重组网格内的数据点个数是否小于K+1；若不小于K+1，则触发局部离群因子计算模块；若小于K+1，则，则将重组网格作为中心网格，触发所述网格重组模块；

局部离群因子计算模块800，用于在数据点个数不小于K+1时，则计算目标网格内每个数据点的局部离群因子；若所述n维网格内存在未检测的网格，则从未检测的网格内重新选取目标网格，并触发所述数据点检测模块；若n维网格内不存在未检测的网格，则触发入侵操作确定模块；

入侵操作确定模块900，用于将局部离群因子大于预定阈值的数据点作为异常数据点，将所述异常数据点对应的操作作为入侵操作。

其中，所述数据空间创建模块具体用于：

其中，所述数据点映射模块包括：

其中，所述局部离群因子计算模块包括：

本发明实施例还提供一种入侵操作检测设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述任意入侵操作检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意入侵操作检测方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种入侵操作检测方法，其特征在于，包括：

S105、计算目标网格内每个数据点的局部离群因子；若所述n维数据空间内存在未检测的网格，则从未检测的网格内重新选取目标网格，并继续执行S103；若所述n维数据空间内不存在未检测的网格，则执行S106；

2.根据权利要求1所述的入侵操作检测方法，其特征在于，所述S102中利用所述待检测数据集中每个数据点的n维数据值，建立与所述待检测数据集对应的n维数据空间，所述n维数据空间由边长相等且互不相交的网格组成，包括：

M为所述待检测数据集D的数据点个数；

所述n维数据空间S的每一维上的网格数量Num＝^┌(h_i-l_i)/Len^┐。

3.根据权利要求2所述的入侵操作检测方法，其特征在于，所述S102中将所述待检测数据集中每个数据点映射到所述n维数据空间的网格内，包括：

计算所述待检测数据集D中每个数据点X在所述n维数据空间内的第i维的下标index_i，且index_i＝^┌(x_i-l_i)/Len^┐；其中，所述待检测数据集D中每个数据点为X(x₁,x₂...x_n)，x_i为数据点X在第i维的数据值；

4.根据权利要求1至3中任意一项所述的入侵操作检测方法，其特征在于，所述S105中计算所述目标网格内每个数据点的局部离群因子，包括：

5.一种入侵操作检测装置，其特征在于，包括：

目标网格确定模块，用于从所述n维数据空间的网格内确定待检测的目标网格；

局部离群因子计算模块，用于在数据点个数不小于K+1时，则计算目标网格内每个数据点的局部离群因子；若所述n维数据空间内存在未检测的网格，则从未检测的网格内重新选取目标网格，并触发所述数据点检测模块；若所述n维数据空间内不存在未检测的网格，则触发入侵操作确定模块；

6.根据权利要求5所述的入侵操作检测装置，其特征在于，所述数据空间创建模块具体用于：

M为所述待检测数据集D的数据点个数；所述n维数据空间S的每一维上的网格数量Num＝^┌(h_i-l_i)/Len^┐。

7.根据权利要求6所述的入侵操作检测装置，其特征在于，所述数据点映射模块包括：

下标计算单元，用于计算所述待检测数据集D中每个数据点X在所述n维数据空间内的第i维的下标index_i，且index_i＝^┌(x_i-l_i)/Len^┐；其中，所述待检测数据集D中每个数据点为X(x₁,x₂...x_n)，x_i为数据点X在第i维的数据值；

8.根据权利要求5至7中任意一项所述的入侵操作检测装置，其特征在于，所述局部离群因子计算模块包括：

9.一种入侵操作检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的入侵操作检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的入侵操作检测方法的步骤。