CN108206813A

CN108206813A - 基于k均值聚类算法的安全审计方法、装置及服务器

Info

Publication number: CN108206813A
Application number: CN201611181162.5A
Authority: CN
Inventors: 常乐
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2018-06-26
Anticipated expiration: 2036-12-19
Also published as: CN108206813B

Abstract

本发明公开了一种基于k均值聚类算法的安全审计方法、装置及服务器，用于通信技术领域，能够解决对于新出现的异常不能快速的识别，降低安全审计的准确度的问题。该方法包括：从日志数据中提取待安全审计对象的特征参数，特征参数是用于分析待安全审计对象是否异常的参数；基于预设k均值聚类算法对待安全审计对象的特征参数进行聚类；计算待安全审计对象的特征参数中的每个特征参数相对于每个特征参数所在类的稠密度；根据稠密度是否达到预设异常阈值来审计待安全审计对象是否异常。

Description

基于k均值聚类算法的安全审计方法、装置及服务器

技术领域

本发明涉及通信技术领域，尤其涉及一种基于k均值聚类算法的安全审计方法、装置及服务器。

背景技术

网络的安全审计是指一种基于信息流进行数据采集、分析、识别和资源审计封锁的处理过程。安全审计的现有实现方法包括基于特征规则的审计方法、基于数理统计的审计方法和基于关联分析的安全审计方法三种。上述三种现有的安全审计方法已经得到了广泛的应用，而且也获得了比较大的成功，但是现有的安全审计方法通常是基于现有审计策略进行审计，现有审计策略是针对现有的已经发现的异常制定出来的，所以现有的安全审计方法只能审计出已知的异常行为，而对于新出现的异常进行快速的识别，降低安全审计的准确度。

发明内容

本发明实施例提供了一种基于k均值聚类算法的安全审计方法、装置及服务器，能够解决对于新出现的异常不能快速的识别，降低安全审计的准确度的问题。

第一方面，本发明提供了一种基于k均值聚类算法的安全审计的方法，包括：从日志数据中提取待安全审计对象的特征参数，特征参数是用于分析待安全审计对象是否异常的参数；基于预设k均值聚类算法对待安全审计对象的特征参数进行聚类；计算待安全审计对象的特征参数中的每个特征参数相对于每个特征参数所在类的稠密度；根据稠密度是否达到预设异常阈值来审计待安全审计对象是否异常。

第二方面，本发明提供了一种基于k均值聚类算法的安全审计的装置，包括：

提取单元，用于从日志数据中提取待安全审计对象的特征参数，所述特征参数是用于分析所述待安全审计对象是否异常的参数；

聚类单元，用于基于预设k均值聚类算法对所述待安全审计对象的特征参数进行聚类；

计算单元，用于计算所述待安全审计对象的特征参数中的每个特征参数相对于所述每个特征参数所在类的稠密度；

审计单元，用于根据所述稠密度是否达到预设异常阈值来审计所述待安全审计对象是否异常。

第三方面，本发明提供了一种基于k均值聚类算法的安全审计服务器，包括：

存储器、处理器、通信接口和总线；

存储器、处理器和通信接口通过总线连接并完成相互间的通信；

存储器用于存储程序代码；

处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行一种基于k均值聚类算法的安全审计方法；其中，基于k均值聚类算法的安全审计方法包括：

从日志数据中提取待安全审计对象的特征参数，特征参数是用于分析待安全审计对象是否异常的参数；

基于预设k均值聚类算法对待安全审计对象的特征参数进行聚类；

计算待安全审计对象的特征参数中的每个特征参数相对于每个特征参数所在类的稠密度；

根据稠密度是否达到预设异常阈值来审计待安全审计对象是否异常。

本发明实施例提供了一种基于k均值聚类算法的安全审计的方法、装置及服务器，本发明实施例从待安全审计对象的日志数据中提取用于分析待安全审计对象是否异常的特征参数，通过预设k均值聚类算法进行聚类后，可以计算出每个待安全审计对象的特征参数所在类的稠密度，然后基于稠密度是否达到预设异常阈值来待安全审计对象是否正常，如此本发明实施例基于特征参数对待安全审计对象进行分析，来审计待安全审计对象是否异常，而不是基于现有审计策略进行审计，可以及时发现异常的待安全审计对象，提高安全审计的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明一实施例提供的基于k均值聚类算法的安全审计的方法的示意性流程图；

图2是根据本发明一实施例提供的基于k均值聚类算法的安全审计的方法中聚类分析结果的示意图；

图3是根据本发明一实施例提供的基于k均值聚类算法的安全审计的装置的示意性框图；

图4是根据本发明一实施例的基于k均值聚类算法的安全审计的服务器的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了根据本发明一实施例的基于k均值聚类算法的安全审计的方法的示意性流程图。该方法包括以下步骤：101，从日志数据中提取待安全审计对象的特征参数；102，基于预设k均值聚类算法对待安全审计对象的特征参数进行聚类；103，计算待安全审计对象的特征参数中的每个特征参数相对于每个特征参数所在类的稠密度；104，根据稠密度是否达到预设异常阈值来审计待安全审计对象是否异常。

在步骤101中，特征参数是用于分析待安全审计对象是否异常的参数。特征参数可以是一个参数也可以是多个参数。例如，本发明实施例中以审计CRM应用操作日志中用户操作是否异常为例，特征参数可以包括如下参数的至少一个：用户使用的会话初始协议SIP(Session Initiation Protocol，会话初始协议)的数量、用户操作类型数量与用户操作次数的比例、每种操作类型的日均最大操作数、每种操作类型的日均平均操作数、每种操作类型的日均最小操作数、用户操作的时间分布、用户操作类型的时间分布等等。上述特征参数均可以基于待安全审计对象的日志数据得出，以“用户使用的SIP的数量”为例，如果从日志数据中得出用户111860共使用了183.203.36.4、36.47.14.244和110.180.35.119这三个不同的SIP地址，则用户111860使用的SIP的数量就是3。

在步骤102中，本发明实施例中采用预设k均值聚类算法对于待安全审计对象的特征进行聚类。预设k均值聚类算法包括本发明实施例中提出的改进k均值聚类算法。

本发明实施例中，将待安全审计对象的特征参数作为平面中的点，改进k均值聚类算法为基于各点之间的可达距离对待安全审计对象的特征进行聚类分析。

在步骤103中，稠密度表示待安全审计对象的特征参数与此特征参数所属类的中心点之间的可达距离，相对于此特征参数所属类中所有特征参数与此特征参数所属类的中心点之间可达距离之和的距离密度。

在步骤104中，预先设置稠密度的异常阈值。基于待安全审计对象的特征参数的稠密度是否预设异常阈值来审计待安全审计对象是否异常。

需要说明的是，在本发明实施例中，在进行安全审计时，可以首先获取待安全审计对象的日志数据。例如，本发明实施例中以审计CRM(Customer Relationship Management，客户关系管理)应用操作日志中用户操作是否异常为例，本步骤中可以从数据源采集日志数据，将这些采集到的数据进行处理后放入待审计数据库。日志数据可以包括如下参数的至少一个：客户关系管理CRM应用账号、客户操作类型、客户操作时间、客户操作详细描述和客户操作结果。

本发明实施例从待安全审计对象的大量日志数据中提取用于分析待安全审计对象是否异常的特征参数，通过预设k均值聚类算法进行聚类后，可以计算出每个待安全审计对象的特征参数所在类的稠密度，然后基于稠密度是否达到预设异常阈值来待安全审计对象是否正常，如此本发明实施例基于特征参数对待安全审计对象进行分析，来审计待安全审计对象是否异常，而不是基于现有审计策略进行审计，可以及时发现异常的待安全审计对象，提高安全审计的准确度。

可以理解的是，步骤103可以具体实现为：1031，对待安全审计对象的特征参数中任意一个特征参数，将待安全审计对象的特征参数中与任意一个特征参数之间的第一欧式距离小于第一预设值的特征参数作为任意一个特征参数的k-距离邻居集合；1032，计算任意一个特征参数与k-距离邻居集合中的特征参数之间的距离的总和；1033，计算任意一个特征参数与任意一个特征参数所在类的中心点之间的第一可达距离；1034，将第一可达距离除以距离的总和的商作为任意一个特征参数相对于所在类的稠密度。

在本发明实施例中，所有待安全审计对象的特征参数在进行聚类分析时已经映射为空间中的一个点，即所有待安全审计对象的特征参数均为空间中的一个点，本发明实施例中需要计算所有待安全审计对象的特征参数的稠密度，而且所有待安全审计对象的特征参数的稠密度计算方式相同，则本发明实施例以任意一个待安全审计对象的特征参数为例进行说明。

在步骤1031中，将任意一个特征参数与其其他特征参数之间的欧式距离小于第一预设值的点作为任意一个特征参数的k-距离邻居集合。以N_{min pts}(P)表示k-距离邻居集合，p表示任意一个特征参数。

在步骤1032中，计算任意一个特征参数与k-距离邻居集合中特征参数之间的距离的总和，以|N_{min pts}(P)|表示距离的总和。

在步骤1033中，以reach_dist_k(P，O)表示任意一个特征参数与任意一个特征参数所在类的中心点之间的可达距离，O表示任意一个特征参数所在类的中心点。

则在步骤1034中以dense_dist_{min pts}(P)表示计算出来的稠密度，则稠密度计算公式为：

进一步的，在步骤1031之前，还可以执行下述步骤来确定第一预设值：步骤1035，获取与任意一个特征参数邻近的待安全审计对象的K个特征参数；步骤1036，计算任意一个特征参数与K个特征参数的整体之间的第一整体距离，作为第一预设值。

其中，任意一个特征参数与K个特征参数之间的第一整体距离的计算公式可以如公式2所示。

公式2中，d(k-dis tan ce(P))表示第一整体距离，Q_i表示与任意一个特征参数邻近的K个特征参数中的第i个特征参数，1≤i≤k。

在步骤1035中，可以通过邻近算法获取与任意一个特征参数邻近的待安全审计对象的K个特征参数。

进一步的，在步骤1031之前，还可以执行步骤1037计算所述任意一个特征参数与所述K个特征参数中的每个特征参数之间的所述第一欧式距离，以便于步骤1031中确定k-距离邻居集合。

进一步的，步骤1033的具体计算过程可以为：计算任意一个特征参数所在类的中心点与K个特征参数的整体之间的第二整体距离；计算任意一个特征参数所在类的中心点与任意一个特征参数之间的第二欧式距离；将第二整体距离与第二欧式距离中的最大值作为第一可达距离。

其中，d(k-dis tan ce(O))表示第二整体距离，第二整体距离的计算公式如公式3所示。以reach_dist_k(P，O)表示第一可达距离，则第一可达距离可以表示为：reach_dist_k(P，O)＝max{k-dis tan ce(O)，d(P，O)}。

在公式3中，Q_i表示与任意一个特征参数邻近的K个特征参数中的第i个特征参数，1≤i≤k，O表示任意一个特征参数所在类的中心点。

具体的，对于N点中的任一点P，其相对于所在类的稠密度计算方法如下：在N个点中，获取与P邻近的k个点；将k个点作为整体，基于公式2计算P与该整体之间的距离d(k-distan ce(P))；计算P与各k个点之间的欧式距离d(P，Q_i)；将与P之间的欧式距离小于d(k-distan ce(P))的点确定为P的k-距离邻居点，所有k-距离邻居点形成P的k-距离邻居集合，N_{min pts}(P)＝{R∈{Q}|d(P，R)≤k-dis tan ce(P)}；基于公式3计算P所在类中心点O与该整体之间的距离d(k-dis tan ce(O))；计算P与O之间的欧式距离d(P，O)；计算P与O之间的可达距离reach_dist_k(P，O)，reach_dist_k(P，O)＝max{k-dis tan ce(O)，d(P，O)}；基于公式1计算P相对于所在类的稠密度。

可以理解的是，步骤104可以具体实现为：步骤1041，对待安全审计对象的特征参数中任意一个特征参数，判断任意一个特征参数的稠密度是否大于预设异常阈值；步骤1042，如果任意一个特征参数的稠密度大于预设异常阈值，则将任意一个特征参数审计为异常；或者，步骤1043，如果任意一个特征参数的稠密度不大于预设异常阈值，则将任意一个特征参数审计为正常。

其中，本发明实施例中，对各待安全审计对象的特征参数的稠密度判断是否大于预设异常阈值的方法相同，则上述步骤1041指步骤1043以任意一个特征参数为例说明。

可以理解的是，步骤103可以具体实现为：A、计算随机选取的待聚类特征参数与待定中心点之间的第二可达距离；B、依次计算待安全审计对象的特征参数中已经聚类的特征参数与待定中心点之间的第三可达距离；C、确定第二可达距离与第三可达距离中的最小距离；D、基于最小距离对应的特征参数和待定中心点确定新中心点；E、将待聚类特征参数确定为已经聚类的特征参数；F、当已有中心点与新中心点之间的距离小于预设阈值时，将新中心点代替已有中心点；G、当已有中心点与新中心点之间的距离不小于预设阈值时，保留新中心点和已有中心点；。

其中，待聚类特征参数为在未被聚类的特征参数中随机选取，待定中心点为待安全审计对象的特征参数所在空间内的点。本发明实施例中，通过改进的k均值聚类算法对于待安全审计对象的特征参数进行聚类。聚类过程是一个循环迭代的过程，每一次迭代确定出一个新中心点(步骤D)，然后将判断已有中心点与新中心点之间的距离是否小于预设阈值；当已有中心点与所述新中心点之间的距离小于所述预设阈值时，将新中心点代替已有中心点；当已有中心点与所述新中心点之间的距离不小于所述预设阈值时，保留所述新中和所述已有中心点。此时，如果将新中心点代替已有中心点，则新中心点成为属于被代替的已有中心点的特征参数和本次迭代在步骤E中确定为已经聚类的特征参数的中心点，并且属于被代替的已有中心点的特征参数与本次迭代在步骤E中确定为已经聚类的特征参数属于同一类；如果保留新中和已有中心点，则新中心点为本次迭代在步骤E中确定为已经聚类的特征参数的中心点，本次迭代在步骤E中确定为已经聚类的特征参数的中心点与已经被聚类的特征参数属于不同的类。

需要说明的是，在首次基于改进k均值聚类算法对待安全审计对象的特征参数进行聚类时，待安全审计对象的特征参数不存在已有中心点，则此时先确定一个待安全审计对象的特征参数作为已有中心点，并且将作为已有中心点的待安全审计对象的特征参数确定为已经聚类的特征参数，确定一个待安全审计对象的特征参数作为已有中心点的方式可以根据具体场景采用不同的方式，例如，可以随机确定，也可以指定，还可以按照编号确定等等。在执行完步骤G之后，还可以再判断待安全审计对象的特征参数中是否还存在未被聚类的特征参数，当待安全审计对象的特征参数中存在未被聚类的特征参数时，执行步骤A、B、C、D、E、F、G；当待安全审计对象的特征参数中不存在未被聚类的特征参数时，完成聚类。

具体的，假设待安全审计对象的特征参数为N个，每个特征数据对应空间中的一个点，则空间中存在N个点，下面对N个点通过改进的k均值聚类算法进行聚类。

步骤1、从N个点中随机选择1个点M，记为O_中心。此时把该点作为一类，相当于N个点中的1个点M完成聚类，其自身即为一类，该点即为该类的中心点，M即为已有中心点。其他N-1个点未进行聚类。

步骤2、从N个点中未被聚类的点中随机选择1个P点。

步骤3、随机确定1个中心点O1。O1为空间内的点，O1可以为N个点中的一个，也可以为除N个点外的其他点，O1即为待定中心点。

步骤4、计算P与O1之间的可达距离。

步骤4的计算过程为：在N个点中，获取与P邻近的k个点；将k个点作为整体，计算O1与该整体之间的距离d(k-dis tan ce(O₁))，计算公式为公式4；计算P与O1之间的欧式距离d(P，O₁)；将d(k-dis tan ce(O₁))与d(P，O₁)之间较大的值作为P与O1之间的可达距离reach_dist_k(P，O₁)，即reach_dist_k(P，O₁)＝max{d(k-dis tan ce(O₁))，d(P，O₁)}。

公式4中Q_i为与P邻近的k个点中第i个点，1≤i≤k。

步骤5、按照与步骤4相同的原理计算M与O1之间的可达距离。

步骤6、根据将步骤4和步骤5中最短可达距离对应的点以及O1点确定新O1，新O1即为新中心点。

步骤7，判断O_中心与新O1之间的距离是否小于预设阈值，若O_中心与新O1之间的距离小于预设阈值，则将新O1代替O_中心；否则，将新O1作为一个新类的中心，即保留新中心点和已有中心点。

通过步骤1至步骤7完成了对点M和P的聚类，执行完步骤7后可能出现两种情况：若新O1代替O_中心，则N个点中有2个点M和P完成聚类，两个点为同一类，新O1为该类的中心点，其他N-2个点未进行聚类；若将新O1作为一个新类的中心O_中心，则N个点中有2个点M和P完成聚类，两个点为不同类，新O1为P点所属类的中心点，O_中心为M点所属类的中心点，其他N-2个点未进行聚类。

然后，再循环执行步骤2至步骤7，直到将所有的点完成聚类。

本发明实施例以已被聚类M个点，未被聚类的为N-M个点为例，再将步骤2至步骤7的实现过程进行说明，为了与上述步骤2至步骤7区分，再次执行是以步骤2’至步骤7’进行标注。

步骤2’，从N个点中的未被聚类的点中随机选择1个X点。

步骤3’，随机确定1个中心点O2。

步骤4’，计算X与O2之间的可达距离。

步骤5’，将M个点依次作为Y点，计算Y点与O2之间的可达距离。

步骤6’，根据将步骤4和步骤5中最短可达距离对应的点以及O2确定新O2；

步骤7’，判断已有中心点中各中心点与新O2之间的距离是否小于预设阈值，若已有中心点中存在与新O2之间的距离小于预设阈值的中心点，则将新O2代替此与新O2之间的距离小于预设阈值的中心点；否则，将新O2作为一个新类的中心，即保留新中心点和已有中心点。

需要说明的是，在步骤D中基于最小距离对应的特征参数和待定中心点确定新中心点的过程可以为：确定最小距离对应的特征参数与待定中心点之间的中点；判断中点与待定中心点之间的距离是否小于第二预设值；当中点与待定中心点之间的距离小于第二预设值时，将中点作为新中心点；当中点与待定中心点之间的距离小于第二预设值时，将中点作为待定中心点。

具体的，例如在上述步骤6中，将M与O1之间选取一个点(如M与O1的中点)作为新O1’，迭代执行步骤4至步骤6，根据P与新O1’之间的可达距离以及M与新O1’之间的可达距离再次确定出新O1’，如此进行迭代，直至后一次迭代出的新O1’与前一次迭代出的新O1’之间的距离小于第一预设阈值，则停止迭代，将后一次迭代出的新O1’作为新O1。

需要说明的是，本发明实施例中还可以在对特征参数进行聚类的过程中计算特征参数的稠密度，由于在对特征参数进行聚类过程中会得出计算特征参数的稠密度的参数，则在对特征参数进行聚类的过程中计算特征参数的稠密度可以减少计算的过程，例如在步骤4’中计算X的稠密度，步骤5’中计算作为Y点的稠密度。

需要说明的是，步骤F和步骤G中的预设阈值，在第一次迭代(步骤7)时为预设的预设阈值，后续迭代过程中，预设阈值为在确定新中心点的前一个中心点的过程中的第二可达距离与第三可达距离中的最小距离，即在步骤7’中预设阈值可以为前一次迭代时步骤4’和步骤5’计算出的可达距离的最小值。

下面通过一个例子来说明本方案中基于稠密度审计数据是否异常的优势。如图2中所示，为本发明实施例对待安全审计对象的特征参数聚出的2个类，其中C1类中各点紧凑，C2类中各点稀疏。把C1和C2认为是两类营业厅：C1位于商业地段，业务量大但是由于人员流动大，所以日均操作次数波动大；C2位于居民区，服务人群叫少且相对固定，也就是说日均操作次数较少且波动小，图中P点聚为C1类，P2点聚为C2类。

利用现有技术的方法进行审计时，现有技术中通过欧氏距离审计特2中各点是否异常，由图2可以看出，P相对于C1类中心点O1的欧式距离大于P2相对于C2类中心点O2的欧式距离，假如，P相对于O1的欧式距离d(P，O₁)＝3.53848，P2相对于O2的欧式距离d(P2，O₂)＝1.54232，则P2到O2的距离远大于P到O1的距离，因此P点会被审计为是异常数据，而P2点会被审计为正常数据。

利用本发明提供的方法进行审计时，通过稠密度审计是否异常，虽然P2到O2的距离远大于P到O1的距离，但P2到O2的可达距离与P2的k-距离邻居集合中的元素数量的比值(即P2相对于C2类的稠密度)，非远大于P到O1的可达距离与P的k-距离邻居集合中的元素数量的比值(即P相对于C1类的稠密度)。若计算P相对于C1类的稠密度为dense_dist_{min pts}(P)＝0.533，P2相对于C2类的稠密度为dense_dist_{min pts}(P2)＝0.523，两者数值相近，P点和P2点都不会被判为异常。

由此可知，本发明实施例提供的方法可以克服现有技术由于数据紧密程度不同而造成的审计错误，提升安全审计的准确性。基于本发明实施例改进的k均值聚类算法的安全审计方法能够自适应地处理不同的安全审计情况，且可以基于实际审计情况进行审计算法的更新，很好地避免了传统的基于欧氏距离的k均值算法需要定义各种不同的阈值来检测异常的缺点。

本发明实施例中，在安全审计时采用基于改进的k均值聚类的方法，并通过稠密度进行安全审计。与传统基于欧氏距离的k均值聚类算法相比，本发明实施例充分考虑了每个聚类的稠密度不同带来的距离差异，从而达到对不同稠密度的聚类可以使用相同的阈值来审计异常的目的。很好地避免了传统的基于欧氏距离的k均值算法需要定义各种不同的阈值来审计异常的缺点。并且稠密度算法，能够自适应地处理不同的安全审计情况，应用广泛。

图3示出了根据本发明一实施例的基于k均值聚类算法的安全审计的装置200的示意性框图。如图3所示，该装置200包括：

提取单元201，用于从日志数据中提取待安全审计对象的特征参数，所述特征参数是用于分析所述待安全审计对象是否异常的参数；

聚类单元202，用于基于预设k均值聚类算法对所述待安全审计对象的特征参数进行聚类；

计算单元203，用于计算所述待安全审计对象的特征参数中的每个特征参数相对于所述每个特征参数所在类的稠密度；

审计单元204，用于根据所述稠密度是否达到预设异常阈值来审计所述待安全审计对象是否异常。

本发明实施例从待安全审计对象的大量日志数据中提取用于分析待安全审计对象是否异常的参数，通过预设k均值聚类算法进行聚类后，可以计算出每个待安全审计对象的特征参数所在类的稠密度，然后基于稠密度是否达到预设异常阈值来待安全审计对象是否正常，如此本发明实施例基于特征参数对待安全审计对象进行分析，来审计待安全审计对象是否异常，而不是基于现有审计策略进行审计，可以及时发现异常的待安全审计对象，提高安全审计的准确度。

可以理解的时，所述计算单元203还用于：

对所述待安全审计对象的特征参数中任意一个特征参数，将所述待安全审计对象的特征参数中与所述任意一个特征参数之间的第一欧式距离小于第一预设值的特征参数作为所述任意一个特征参数的k-距离邻居集合；

计算所述任意一个特征参数与所述k-距离邻居集合中的特征参数之间的距离的总和；

计算所述任意一个特征参数与所述任意一个特征参数所在类的中心点之间的第一可达距离；

将所述第一可达距离除以所述距离的总和的商作为所述任意一个特征参数相对于所在类的稠密度。

可以理解的时，所述计算单元203还用于：

获取与所述任意一个特征参数邻近的所述待安全审计对象的K个特征参数；

计算所述任意一个特征参数与所述K个特征参数的整体之间的第一整体距离，作为所述第一预设值；

计算所述任意一个特征参数与所述K个特征参数中的每个特征参数之间的所述第一欧式距离。

可以理解的时，所述计算单元203还用于：

计算所述任意一个特征参数所在类的中心点与所述K个特征参数的整体之间的第二整体距离；

计算所述任意一个特征参数所在类的中心点与所述任意一个特征参数之间的第二欧式距离；

将所述第二整体距离与所述第二欧式距离中的最大值作为所述第一可达距离。

可以理解的时，所述计算单元203还用于：

基于公式计算所述第一整体距离，其中，d(k-dis tan ce(P))表示所述第一整体距离，P表示所述任意一个特征参数，Q_i表示所述K个特征参数中的第i个特征参数，1≤i≤k。

可以理解的时，所述审计单元204还用于：

对所述待安全审计对象的特征参数中任意一个特征参数，判断所述任意一个特征参数的稠密度是否大于预设异常阈值；

如果所述任意一个特征参数的稠密度大于所述预设异常阈值，则将所述任意一个特征参数审计为异常；或者，

如果所述任意一个特征参数的稠密度不大于所述预设异常阈值，则将所述任意一个特征参数审计为正常。

可以理解的时，所述聚类单元202还用于：

计算随机选取的待聚类特征参数与待定中心点之间的第二可达距离，所述待聚类特征参数为在未被聚类的特征参数中随机选取，所述待定中心点为所述待安全审计对象的特征参数所在空间内的点；

依次计算所述待安全审计对象的特征参数中已经聚类的特征参数与所述待定中心点之间的第三可达距离；

确定所述第二可达距离与所述第三可达距离中的最小距离；

基于所述最小距离对应的特征参数和所述待定中心点确定新中心点；

将所述待聚类特征参数确定为已经聚类的特征参数；

当已有中心点与所述新中心点之间的距离小于预设阈值时，将所述新中心点代替所述已有中心点；

当所述已有中心点与所述新中心点之间的距离不小于所述预设阈值时，保留所述新中心点和所述已有中心点。

可以理解的时，所述聚类单元202还用于：

确定所述最小距离对应的特征参数与所述待定中心点之间的中点；

当所述中点与所述待定中心点之间的距离小于第二预设值时，将所述中点作为所述新中心点；

当所述中点与所述待定中心点之间的距离小于所述第二预设值时，将所述中点作为所述待定中心点。

可以理解的时，所述预设阈值为在确定所述新中心点的前一个中心点的过程中的所述第二可达距离与所述第三可达距离中的最小距离。

可以理解的时，所述日志数据包括如下参数的至少一个：客户关系管理CRM应用账号、客户操作类型、客户操作时间、客户操作详细描述、客户操作结果。所述特征参数包括如下参数的至少一个：用户使用的会话初始协议SIP的数量、用户操作类型数量与用户操作次数的比例、每种操作类型的日均最大操作数、每种操作类型的日均平均操作数、每种操作类型的日均最小操作数、用户操作的时间分布、用户操作类型的时间分布。

根据本发明实施例的基于k均值聚类算法的安全审计的装置200可对应于根据本发明实施例的基于k均值聚类算法的安全审计的方法中的执行主体，并且基于k均值聚类算法的安全审计的装置200中的各个模块的上述和其它操作和/或功能分别为了实现图1至图2中的各个方法的相应流程，为了简洁，在此不再赘述。

图4是根据本发明一实施例的基于k均值聚类算法的安全审计的服务器300的示意性框图。如图4所示，服务器300包括处理器301、存储器302和通信接口303，存储器302用于存储可执行的程序代码，处理器301通过读取存储器302中存储的可执行程序代码来运行与可执行程序代码对应的程序，通信接口303用于与外部设备通信，例如与数据库等进行通信，服务器300还可以包括总线304，总线304用于连接处理器301、存储器302和通信接口303，使处理器301、存储器302和通信接口303通过总线304进行相互通信。

具体地，处理器301还用于执行一种基于k均值聚类算法的安全审计方法；其中，基于k均值聚类算法的安全审计方法包括：

从日志数据中提取待安全审计对象的特征参数，所述特征参数是用于分析所述待安全审计对象是否异常的参数；

基于预设k均值聚类算法对所述待安全审计对象的特征参数进行聚类；

计算所述待安全审计对象的特征参数中的每个特征参数相对于所述每个特征参数所在类的稠密度；

根据所述稠密度是否达到预设异常阈值来审计所述待安全审计对象是否异常。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于k均值聚类算法的安全审计方法，包括：

2.根据权利要求1所述的方法，其中，所述计算所述待安全审计对象的特征参数中的每个特征参数相对于所述每个特征参数所在类的稠密度包括：

3.根据权利要求2所述的方法，所述将所述待安全审计对象的特征参数中与所述任意一个特征参数之间的第一欧式距离小于第一预设值的特征参数作为所述任意一个特征参数的k-距离邻居集合之前，所述方法还包括：

4.根据权利要求3所述的方法，所述计算所述任意一个特征参数与所述任意一个特征参数所在类的中心点之间的第一可达距离包括：

5.根据权利要求3所述的方法，所述计算所述任意一个特征参数与K个所述待安全审计对象的特征参数之间的第一整体距离包括：

基于公式计算所述第一整体距离，其中，d(k-dis tance(P))表示所述第一整体距离，P表示所述任意一个特征参数，Q_i表示所述K个特征参数中的第i个特征参数，1≤i≤k。

6.根据权利要求1所述的方法，所述根据所述稠密度是否达到预设异常阈值来审计所述待安全审计对象是否异常包括：

7.根据权利要求1所述的方法，所述基于预设k均值聚类算法对所述待安全审计对象的特征参数进行聚类包括：

确定所述第二可达距离与所述第三可达距离中的最小距离；

将所述待聚类特征参数确定为已经聚类的特征参数；

8.根据权利要求7所述的方法，所述基于所述最小距离对应的特征参数和所述待定中心点确定新中心点包括：

9.根据权利要求7所述的方法，其中，所述预设阈值为在确定所述新中心点的前一个中心点的过程中的所述第二可达距离与所述第三可达距离中的最小距离。

10.根据权利要求1所述的方法，其中，所述日志数据包括如下参数的至少一个：客户关系管理CRM应用账号、客户操作类型、客户操作时间、客户操作详细描述、客户操作结果。

11.根据权利要求10所述的方法，其中，所述特征参数包括如下参数的至少一个：用户使用的会话初始协议SIP的数量、用户操作类型数量与用户操作次数的比例、每种操作类型的日均最大操作数、每种操作类型的日均平均操作数、每种操作类型的日均最小操作数、用户操作的时间分布、用户操作类型的时间分布。

12.一种基于k均值聚类算法的安全审计装置，包括：

13.根据权利要求12所述的装置，所述计算单元还用于：

14.根据权利要求13所述的装置，所述计算单元还用于：

15.根据权利要求14所述的装置，所述计算单元还用于：

16.根据权利要求14所述的装置，所述计算单元还用于：

基于公式计算所述第一整体距离，其中，d(k-dis tance(P))表示所述第一整体距离，P表示所述任意一个特征参数，Q_i表示所述K个特征参数中的第i个特征，1≤i≤k。

17.根据权利要求12所述的装置，所述审计单元还用于：

18.根据权利要求12所述的装置，所述聚类单元还用于：

确定所述第二可达距离与所述第三可达距离中的最小距离；

将所述待聚类特征参数确定为已经聚类的特征参数；

19.根据权利要求18所述的装置，所述聚类单元还用于：

20.根据权利要求18所述的装置，其中，所述预设阈值为在确定所述新中心点的前一个中心点的过程中的所述第二可达距离与所述第三可达距离中的最小距离。

21.根据权利要求12所述的装置，其中，所述日志数据包括如下参数的至少一个：客户关系管理CRM应用账号、客户操作类型、客户操作时间、客户操作详细描述、客户操作结果。

22.根据权利要求21所述的装置，其中，所述特征参数包括如下参数的至少一个：用户使用的SIP的数量、用户操作类型数量与用户操作次数的比例、每种操作类型的日均最大操作数、每种操作类型的日均平均操作数、每种操作类型的日均最小操作数、用户操作的时间分布、用户操作类型的时间分布。

23.一种基于k均值聚类算法的安全审计服务器，包括：

存储器、处理器、通信接口和总线；

所述存储器、所述处理器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器用于存储程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行一种基于k均值聚类算法的安全审计方法；其中，所述基于k均值聚类算法的安全审计方法包括：