CN110188015A

CN110188015A - 一种主机访问关系异常行为自适应检测装置及其监测方法

Info

Publication number: CN110188015A
Application number: CN201910273130.5A
Authority: CN
Inventors: 荚佳; 朱震; 程度; 张福
Original assignee: Beijing Xin Sheng Network Technology Co Ltd
Current assignee: Beijing Xin Sheng Network Technology Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-30
Anticipated expiration: 2039-04-04
Also published as: CN110188015B

Abstract

本发明公开一种主机访问关系异常行为自适应检测装置，包括监控模块、数据源模块、服务接口模块、存储模块、模型训练单元、异常检测单元、告警模块和检索模块：监控模块，连接于所述模型训练单元以监控所述模型训练单元的运行状况；数据源模块，连接于所述模型训练单元；服务接口模块，连接于所述模型训练单元；存储模块，连接于所述模型训练单元；异常检测单元，连接于所述模型训练单元；连接于所述存储模块；告警模块，连接于所述异常检测单元；检索信息，连接于所述存储模块。本发明所述检测装置通过利用机器学习领域的相关算法，提高了主机访问关系建模的能力和异常行为检测的能力，降低误报率，提高准确性。

Description

一种主机访问关系异常行为自适应检测装置及其监测方法

技术领域

本发明涉及计算机系统集成及应用技术技术领域，具体涉及一种主机访问关系异常行为自适应检测装置及其监测方法。

背景技术

随着网络环境规模的日益扩大，网络中主机的数量也急剧增加，这些主机分布于网络拓扑的各个节点，构成了一个系统的主机网络。由于黑客入侵、内网攻击等多方面因素的影响，一旦黑客攻陷某一台主机，就会威胁到网络中所有主机的安全性，因此，必须实时地监控整个网络的主机访问行为，及时反馈各个主机的访问情况，才能保证企业网络的安全，同时监控主机之间的访问关系也为企业对各主机之间的访问关系建立一个宏观的理解。

传统的主机访问关系异常检测是基于人为规则的，通过人为设置IP段、区域、时间等固定规则，使用基于规则匹配的方式识别异常主机访问行为，这种方式只支持已设置固定规则的主机访问关系，且监控规则死板单一，没有扩展性，无法满足对网络中所有主机进行安全保障的需求。

随着企业网络环境的改变，其异常检测方式也要求灵活变化，传统的规则匹配方式只能依据特定的主机访问情况定制访问规则，无法适应企业网络环境的变化。

而且实际应用场景中基于人为规则识别的异常行为也不够准确，误报率很高，无法引起安全管理人员的重视，因此绝大多数企业只会对极少数的核心主机设置严格的访问策略，无法顾及其它主机的安全。

发明内容

本发明的目的正是针对上述现有基于规则检测中存在的不足提供的一种主机访问关系异常行为自适应检测装置及其监测方法，通过利用机器学习方法，自适应建立主机访问关系模型，提高异常检测的能力和效率。

为达到上述目的，本发明采用以下技术方案：

一种主机访问关系异常行为自适应检测装置，包括监控模块、数据源模块、服务接口模块、存储模块、模型训练单元、异常检测单元、告警模块和检索模块：

监控模块，连接于所述模型训练单元以监控所述模型训练单元的运行状况；

数据源模块，连接于所述模型训练单元并能够从数据库或文件中收集原始主机访问关系数据；

服务接口模块，连接于所述模型训练单元以将外部请求输入给所述模型训练单元，并将所述模型训练单元的返回结果输出到外部；

存储模块，连接于所述模型训练单元以接收所述模型训练单元输出的数据信息；

异常检测单元，连接于所述模型训练单元以检测所述模型训练单元的异常行为信息；连接于所述存储模块以对所述异常行为信息进行储存；

告警模块，连接于所述异常检测单元以对所述异常行为信息进行告警，并能够将告警信息发送至安全管理人员；

检索信息，连接于所述存储模块以用于查询检索所述异常行为信息。

进一步地，所述模型训练单元包括数据预处理模块、统计信息模块、社区模型模块、 KDE模型模块和统计模型模块，所述数据源模块连接于所述数据预处理模块，所述数据预处理模块连接于所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块，所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块均连接于所述存储模块，其中，所述数据预处理模块用于对主机访问关系的原始数据作预处理操作，所述统计信息模块用于存储压缩后的主机访问关系数据，所述社区模型模块用于通过使用社区发现算法，对全网所有主机的访问关系实现社区模型的学习，所述KDE模型模块用于通过使用自适应高斯核密度估计算法，对全网所有主机的访问关系实现KDE模型的学习，所述统计模型模块通过使用统计方法，对全网所有主机的访问关系实现统计模型模块的学习。

进一步地，所述异常检测单元包括:与所述数据预处理模块分别连接的社区异常检测模块、KDE异常检测模块和统计异常检测模块；与所述社区异常检测模块、所述KDE异常检测模块和所述统计异常检测模块连接的风险评估模块以及与所述风险评估模块连接的异常行为模块和正常行为模块，所述异常行为模块连接于所述统计信息模块、所述储存模块和所述告警模块，所述正常行为模块分别连接于所述社区模型模块、所述KDE模型模块和所述统计模型模块。

进一步地，所述社区模型模块在空间维度上使用社区发现算法建立，所述KDE模型模块在时间维度上通过使用自适应高斯核密度估计算法建立，所述统计模型模块由主机指标分析使用统计方法建立。

本发明还提供一种主机访问关系异常行为自适应检测方法，包括如下步骤：

步骤1：启动所述自适应检测装置并与主机集群共同完成所述自适应检测装置的初始化过程；

步骤2：所述数据预处理模块接收所述数据源模块的原始主机访问关系数据并进行预处理，所述统计信息模块更新所述主机访问关系数据并将更新后的所述主机访问关系数据发送至所述存储模块储存；

步骤3：所述模型训练单元满足训练条件，则进入所述社区模型模块、所述KDE模型模块和所述统计模型模块；

步骤4：所述异常检测单元有机器学习模型，则进行异常检测，程序进入所述社区异常检测模块、所述KDE异常检测模块和所述统计异常检测模块，接着进入所述风险评估模块，风险评估模块依据社区异常检测模块、KDE异常检测模块和统计异常检测模块三者的风险值，综合评估风险值，根据风险阈值，判断主机访问行为是否异常；

步骤5：所述异常检测单元发现有主机访问行为进入所述异常行为模块，则更新统计信息模块并存入所述存储模块，并发送给所述告警模块，所述异常检测单元发现有主机访问行为进入所述正常行为模块，则更新所述社区模型模块、所述KDE模型模块和所述统计模型模块。

进一步地，步骤1中，所述模型训练单元如发现存储模块中包括模型数据，则恢复模型。

进一步地，所述启动所述自适应检测装置包括启动所述监控模块、所述数据源模块、所述服务接口模块、所述存储模块、所述模型训练单元、所述异常检测单元、所述告警模块和所述检索模块。

进一步地，所述模型训练单元包括所述社区模型模块、所述KDE模型模块和所述统计模型模块。

进一步地，自适应高斯核密度估计算法建立所述KDE模型模块包括如下步骤：

步骤1.1，使用特定的主机访问方式来区分不同用户的使用习惯，以一天中的24小时为横轴，一小时内的登录次数为纵轴，学习得到的核密度估计，所述自适应高斯核密度估计算法公式如下：

其中v表示横坐标，τ＝±3.5h表示滑动窗口值，h表示带宽，表示高斯核函数，表示高斯核函数，e表示自然常数，τ表示滑动窗口值；

步骤1.2，使用洛伦兹变换检查当前主机访问行为与正常行为概况的偏差，偏差越高，则异常概率越大，洛伦兹变换公式如下：

k表示数据分布的均值，P(v)表示异常概率，P(v)∈[0，1]，异常概率曲线表示核密度估计曲线在各时间点对应的异常概率；

步骤1.3，从用户-主机、用户、主机所属组三个角度综合评估主机访问行为的时间风险值，时间风险值计算公式如下：

其中P_l表示主机A访问主机B的异常概率，P_G表示主机B所属组的异常概率(社区模型中社区编号相同的主机表示同一个组)，P_R表示主机A的异常概率，表示主机访问行为的时间异常概率，。

进一步地，所述社区发现算法建立社区模型模块包括如下步骤：

步骤2.1：初始化，将每个点划分在不同的社区中，所述社区发现算法采用基于多层次逐轮启发式迭代优化模块度的算法，所述算法的输入为主机访问关系拓扑图，其中，每一个节点表示一台主机，主机和主机之间的访问关系为一条有向边，访问次数为边的权重；所述算法的输出为拓扑图的社区结构，其中，每一台主机拥有一个社区编号，社区编号相同的主机属于同一个社区，算法的目标是使得划分后的社区内部的连接较为紧密，而在社区之间的连接较为稀疏，通过模块度可以刻画这样的划分的优劣，模块度越大，则社区划分的效果越好，模块度的公式如下：

其中，表示网络中所有边的权重和，A_ij表示节点i和节点j之间的权重，表示与节点i连接的所有边的权重和，其中k_i等同于k_v和k_w，v和w表示某个节点，可以用i来统一表示，C_v和C_w表示节点i被分配到的社区，δ(C_v，C_w)用于判断节点i 与节点j是否被划分到同一个社区中，若是，则返回1，否则，返回0；

步骤2.2：对每个节点，将每个点尝试划分到与其邻接的点所在的社区中，计算此时的模块度，判断划分前后的模块度的差值ΔQ是否为正数，若为正数，则接受本次的划分，若不为正数，则放弃本次的划分，其中，模块度的差值的计算公式如下：

其中，∑_in表示社区内所有边的权重和，∑_tot表示社区之间所有边的权重和，k_i表示节点i连接的所有边的权重和，k_i，in表示社区内所有节点连接的所有边的权重和，m表示网络中所有边的权重和；

步骤2.3：重复以上的过程，直到不能再增大模块度为止；

步骤2.4：构造新图，新图中的每个点代表的是步骤3中划出来的每个社区，继续执行步骤2和步骤3，直到社区的结构不再改变为止。

在本发明中，统计分析方法从统计角度上学习主机访问关系，根据主机访问习惯自适应生成用户和主机两个视角的统计模型，利用关键统计指标检测主机访问行为的统计风险值。

用户视角的统计模型包括各时间段登录次数，访问方式组合，成功访问和错误访问的主机和次数等指标，主机视角的统计模型包括失败率、非工作时间访问次数、成功访问次数、连续访问错误次数、连续访问错误失败率等指标。

在本发明中采用动态更新机制保证机器学习模型一直处于最优状态，更新机制包括两部分：

(1)定时更新，上述模型每过一段时间会统一更新，及时过滤训练周期外的旧数据；

(2)实时更新，装置会将不超过风险阈值的新数据实时更新到上述模型中，保证实时检测的有效性。

与现有技术相比，本发明的优越效果在于：

1、本发明所述的检测装置及其监测方法，通过有效利用机器学习领域的相关算法，提高了主机访问关系建模的能力和异常行为检测的能力，降低误报率，提高准确性。

2、本发明所述的检测装置及其监测方法，通过监控模块能够实时监控自适应检测服务的运行状态，发生任何异常都能够使服务保持稳定运行，不因服务问题而丢失实时异常检测能力。

3、本发明所述的检测装置及其监测方法，通过检索模块使得异常行为发生后，安全管理人员能够检索异常访问行为和模型状态，并根据实际情况通过服务接口模块对主机访问关系模型进行干预。

附图说明

图1是本发明实施例中主机访问关系异常行为自适应检测装置的结构示意图；

图2是本发明实施例中KDE模型的示意图；

图3是本发明实施例中KDE模型异常检测结果的示意图；

图4是本发明实施例中技术方案实施环境及组成的框图；

图5是本发明实施例中主机访问关系异常行为自适应检测装置的数据处理过程的示意图；

图中，100-核密度估计曲线、101-异常概率曲线。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

如图1所示，一种主机访问关系异常行为自适应检测装置，包括监控模块、数据源模块、服务接口模块、存储模块、模型训练单元、异常检测单元、告警模块和检索模块：

监控模块，连接于所述模型训练单元以监控所述述模型训练单元的运行状况，其中，当所述模型训练单元发生异常情况时，能够及时处理异常，保证所述模型训练单元持续稳定运行；

服务接口模块，连接于所述模型训练单元以将外部请求输入给所述模型训练单元，并将所述模型训练单元的返回结果输出到外部，使模型具备数据交互能力；

所述模型训练单元包括数据预处理模块、统计信息模块、社区模型模块、KDE模型模块和统计模型模块，所述数据源模块连接于所述数据预处理模块，所述数据预处理模块连接于所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块，所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块均连接于所述存储模块，其中，所述数据预处理模块用于对主机访问关系的原始数据作预处理操作，所述统计信息模块用于存储压缩后的主机访问关系数据，所述社区模型模块用于通过使用社区发现算法，对全网所有主机的访问关系实现社区模型的学习，所述KDE模型模块用于通过使用自适应高斯核密度估计算法，对全网所有主机的访问关系实现KDE模型的学习，所述统计模型模块通过使用统计方法，对全网所有主机的访问关系实现统计模型模块的学习。

所述异常检测单元包括与所述数据预处理模块分别连接的社区异常检测模块、KDE异常检测模块和统计异常检测模块；与所述社区异常检测模块、所述KDE异常检测模块和所述统计异常检测模块连接的风险评估模块以及与所述风险评估模块连接的异常行为模块和正常行为模块，所述异常行为模块连接于所述统计信息模块、所述储存模块和所述告警模块，所述正常行为模块分别连接于所述社区模型模块、所述KDE模型模块和所述统计模型模块。

在本实施例中，所述社区异常检测模块使用所述社区模型模块，结合空间异常检测策略，对主机访问行为进行异常检测，生成空间风险值；所述KDE异常检测模块使用所述KDE 模型模块，结合时间异常检测策略，对主机访问行为进行异常检测，生成时间风险值；所述统计异常检测模块使用所述统计模型模块，结合统计异常检测策略，对主机访问行为进行异常检测，生成统计风险值；所述风险评估模块根据所述空间风险值、所述时间风险值和所述统计风险值的综合评估风险值，根据风险阈值，判断主机访问行为是否异常。

在本实施例中，所述正常行为模块判断低于风险阈值的主机访问行为被视为正常行为，正常行为会进入所述社区模型模块、所述KDE模型模块和所述统计模型模块，实时更新模型。

在本实施例中，所述异常行为模块判断高于风险阈值的主机访问行为被视为异常行为，异常行为会进入所述存储模块中，方便所述检索模块检索，同时异常行为也会进入所述告警模块，使网络安全管理人员能够及时发现问题，采取有效的应急措施；

所述社区模型模块在空间维度上使用社区发现算法建立，所述KDE模型模块在时间维度上通过使用自适应高斯核密度估计算法建立，所述统计模型模块由主机指标分析使用统计方法建立。

步骤1中，所述模型训练单元如发现存储模块中包括模型数据，则恢复模型，其中，社区模型、KDE模型、统计模型会定期存储到存储模块中，保存完之后，存储模块中就包含模型数据了，恢复模型的目的在于将社区模型、KDE模型、统计模型从存储模块中提取出来，恢复到内存中。

在本实施例的步骤2中，主机访问关系数据，指的是主机之间通过协议进行访问的日志数据。

在本实施例的步骤3中，训练条件为：收集到的主机访问关系数据满足一定周期，比如14天。

在本实施例的步骤5中，发送给所述告警模块的是访问行为信息，包括：访问时间、用户名、访问端口、访问服务、主机相关的IP地址、主机名、组别名。

所述启动所述自适应检测装置包括启动所述监控模块、所述数据源模块、所述服务接口模块、所述存储模块、所述模型训练单元、所述异常检测单元、所述告警模块和所述检索模块。

所述模型训练单元包括所述社区模型模块、所述KDE模型模块和所述统计模型模块。

如图2-3所示，自适应高斯核密度估计算法建立所述KDE模型模块包括如下步骤：

在附图2-3中，竖线表示主机A分别在9点、10点、11点、12点、15点、16点和17点访问过主机B，次数分别为3次、6次、7次、1次、5次、2次和1次，虚线表示每个时间点的标准核分布，曲线(100)表示主机A访问主机B的核密度估计，该曲线是由每一个时间点的标准核分布按照滑动窗口的方式累加得到的。

如图4所示，描述了在实施本发明技术方案时，服务器端处理环境所处的外部运行环境。主机访问关系异常行为自适应检测装置位于服务器内。图中虚线部分说明了服务器端的具体构造：最下面是硬件设备，在操作系统上需要安装Python虚拟机，它对操作系统没有过多的要求，目前支持大多数操作系统。虚拟机的上面运行机访问关系异常行为自适应检测装置，运行自适应检测服务。被检测设备是各类主机，他们与检测服务器一起构成了统一的主机访问关系异常行为自适应检测外部配置。

如图5所示，主机访问关系异常行为自适应检测装置的数据处理过程如下：

(1)模型训练单元如果发现存储模块中包括模型数据，则恢复模型；

(2)模型训练单元从数据源模块读取数据；

(3)进入数据预处理模块，更新统计信息模块；

(4)将统计信息存入存储模块中；

(5)模型训练单元满足训练条件，则进入社区模型模块、KDE模型模块和统计模型模块；

(6)异常检测单元有机器学习模型，则进行异常检测，进入社区异常检测模块、KDE异常检测模块、统计异常检测模块，接着进入风险评估模块；

(7)异常检测单元发现有主机访问行为进入异常行为模块，则更新统计信息模块52，存入存储模块；

(8)并将异常行为发送给告警模块；

(9)异常检测单元发现有主机访问行为进入正常行为模块，则更新社区模型模块、KDE模型模块和统计模型模块。

图中201-209分别对应如上步骤。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.一种主机访问关系异常行为自适应检测装置，包括监控模块、数据源模块、服务接口模块、存储模块、模型训练单元、异常检测单元、告警模块和检索模块，其特征在于：

2.根据权利要求1所述的主机访问关系异常行为自适应检测装置，其特征在于，所述模型训练单元包括数据预处理模块、统计信息模块、社区模型模块、KDE模型模块和统计模型模块，所述数据源模块连接于所述数据预处理模块，所述数据预处理模块连接于所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块，所述统计信息模块、所述社区模型模块、所述KDE模型模块和所述统计模型模块均连接于所述存储模块，其中，所述数据预处理模块用于对主机访问关系的原始数据作预处理操作，所述统计信息模块用于存储压缩后的主机访问关系数据，所述社区模型模块用于通过使用社区发现算法，对全网所有主机的访问关系实现社区模型的学习，所述KDE模型模块用于通过使用自适应高斯核密度估计算法，对全网所有主机的访问关系实现KDE模型的学习，所述统计模型模块通过使用统计方法，对全网所有主机的访问关系实现统计模型模块的学习。

3.根据权利要求2所述的主机访问关系异常行为自适应检测装置，其特征在于，所述异常检测单元包括与所述数据预处理模块分别连接的社区异常检测模块、KDE异常检测模块和统计异常检测模块；与所述社区异常检测模块、所述KDE异常检测模块和所述统计异常检测模块连接的风险评估模块以及与所述风险评估模块连接的异常行为模块和正常行为模块，所述异常行为模块连接于所述统计信息模块、所述储存模块和所述告警模块，所述正常行为模块分别连接于所述社区模型模块、所述KDE模型模块和所述统计模型模块。

4.根据权利要求2所述的主机访问关系异常行为自适应检测装置，其特征在于，所述社区模型模块在空间维度上使用社区发现算法建立，所述KDE模型模块在时间维度上通过使用自适应高斯核密度估计算法建立，所述统计模型模块由主机指标分析使用统计方法建立。

5.一种主机访问关系异常行为自适应检测方法，其特征在于，包括如下步骤：

6.根据权利要求5所述的主机访问关系异常行为自适应检测方法，其特征在于，步骤1中，所述模型训练单元如发现存储模块中包括模型数据，则恢复模型。

7.根据权利要求5所述的主机访问关系异常行为自适应检测方法，其特征在于，所述启动所述自适应检测装置包括启动所述监控模块、所述数据源模块、所述服务接口模块、所述存储模块、所述模型训练单元、所述异常检测单元、所述告警模块和所述检索模块。

8.根据权利要求7所述的主机访问关系异常行为自适应检测方法，其特征在于，所述模型训练单元包括所述社区模型模块、所述KDE模型模块和所述统计模型模块，所述社区模型模块在空间维度上使用社区发现算法建立，所述KDE模型模块在时间维度上通过使用自适应高斯核密度估计算法建立，所述统计模型模块由主机指标分析使用统计方法建立。

9.根据权利要求8所述的主机访问关系异常行为自适应检测方法，其特征在于，自适应高斯核密度估计算法建立所述KDE模型模块包括如下步骤：

其中P_I表示主机A访问主机B的异常概率，P_G表示主机B所属组的异常概率，社区模型中社区编号相同的主机表示同一个组，P_R表示主机A的异常概率，表示主机访问行为的时间异常概率，。

10.根据权利要求9所述的主机访问关系异常行为自适应检测方法，其特征在于，所述社区发现算法建立社区模型模块包括如下步骤：

其中，表示网络中所有边的权重和，A_ij表示节点i和节点j之间的权重，k_i＝∑_jA_ij表示与节点i连接的所有边的权重和，其中k_i等同于k_v和k_w，v和w表示某个节点，可以用i来统一表示，C_v和C_w表示节点i被分配到的社区，δ（C_v，C_w)用于判断节点i与节点j是否被划分到同一个社区中，若是，则返回1，否则，返回0；

步骤2.3：重复以上的过程，直到不能再增大模块度为止；