CN109508541B

CN109508541B - 一种基于语义分析的可信行为库生成方法

Info

Publication number: CN109508541B
Application number: CN201811211727.9A
Authority: CN
Inventors: 刘博�; 范渊; 杨锦峰; 聂桂兵; 龙文洁
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2022-03-18
Anticipated expiration: 2038-10-18
Also published as: CN109508541A

Abstract

本发明涉及网络安全技术，旨在提供一种基于语义分析的可信行为库生成方法。该方法包括：日志解析与标准化；将实时获取的日志行为信息与行为库中存储的所有行为信息进行元素比对，在遍历比对同时计算其相似度；根据相似度与阈值的关系，分类处理日志的行为信息；在经过一个计算周期T的运行之后，在行为库中存储若干条行为样本的记录；通过K‑means算法建立可信行为库。本发明通过分析标准化日志后，获取行为信息，经过行为相似性计算得到行为库，对行为库采用K‑means算法聚类后，删除离群点，得到可信行为库。该方法适用范围广，能够高效建立可信行为样本。

Description

一种基于语义分析的可信行为库生成方法

技术领域

本发明涉及网络安全技术，特别涉及一种基于语义分析的可信行为库生成方法。

背景技术

异常行为检测(Abnormal behavior detection)是目前入侵检测系统的主要研究方向，其特点是通过对系统异常行为的监测，可以发现未知的攻击模式。异常行为检测的关键在于建立正常使用模式并利用该模式对当前用户行为进行比较和判断。

现有技术中对可信行为识别已有一些研究成果，例如：

中国发明专利申请CN103593609B提供了一种可信行为识别的方法和装置，其方法包括：预置可信行为数据集合以及不可信行为数据集合；获取特定行为的目标页面焦点行为数据；判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合；若归属于可信行为数据集合，则允许所述特定行为的执行；若归属于不可信行为数据集合，则中止所述特定行为的执行。该技术方案的缺点是，仅能局限于特定行为的目标页面。

中国发明专利申请CN105590055A公开了一种用于在网络交互系统中识别用户可信行为的方法，包括：获取所述网络交互系统中的用户行为数据；采用下述方式中的任意一种识别所述用户行为是否可信：通过判断预先生成的可信数据与所述用户行为数据的比对结果是否符合预先设定的规则，识别所述用户行为是否可信；或者，采用预先生成的可信行为识别模型计算表征所述用户行为可信程度的指标值，通过判断所述指标值是否满足预先设定的可信阈值，识别所述用户行为是否可信。该技术方案的缺点是，需要预先建立可信数据，通过与可信数据比对识别可信行为。

中国发明专利申请CN103944722B涉及一种互联网环境下用户可信行为的识别方法，包括：1)建立用户行为可信识别集；2)根据建立的用户行为可信识别集，对登录系统的用户进行身份认证，若身份认证成功，则允许用户进入系统；若身份认证不成功，则禁止用户进入系统；3)对于身份认证成功的用户继续进行行为前可信识别，若识别成功，则用户行为前可信识别成功，允许用户访问系统，若可信识别失败，则进入步骤4)；4)在用户访问系统的过程中对用户的行为进行动态可信识别；5)用户结束对系统访问后，服务器端更新用户的行为可信识别集及用户的信任等级，即行为后的数据更新。该技术方案的缺点是，需贯穿整个访问周期，性能消耗大。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于语义分析的可信行为库生成方法。

为解决上述技术问题，本发明采用的解决方案是：

提供一种基于语义分析的可信行为库生成方法，包括下述步骤：

(1)日志解析与标准化

在日志审计设备中配置日志解析格式，将业务系统产生的日志接入日志审计设备并进行解析，得到满足分析格式需求的行为信息；

(2)相似度计算

建立用于存储行为信息的行为库，设置用于比对的计算周期T和相似度阈值G；

实时获取步骤(1)中日志的行为信息，利用ratio函数将新获取的行为信息与行为库中存储的所有行为信息进行元素比对，在遍历比对同时计算其相似度g；

(3)实时行为信息的处理

如果该实时获取日志的行为信息与某个日志字符串对比后的相似度g大于或等于阈值G，则将二者归为一类；在将该实时日志的发生时间存入相应类别后，停止继续计算；

如果该实时获取日志经遍历比对后，其相似度g计算结果均小于阈值G，则认为该日志的行为信息属于新类型，应将其存入行为库中；

在经过一个计算周期T的运行之后，即能在行为库中存储若干条行为样本的记录；

(4)建立可信行为库

利用行为库中累积存储的行为样本，通过K-means算法建立可信行为库；具体如下：

从步骤(3)最终得到的行为库中任取K个样本作为初始的簇中心，计算每个样本到各簇中心的距离d，将各样本分别归入距离最小的簇中心内；遍历完所有对象之后，使用每个聚类中的样本距离均值作为新的簇中心，新的簇中心有k个；重复上述过程，直至满足最小平方误差准则；然后找出离群点并作删除处理，最终建立可信行为库。

本发明中，所述行为信息包括源IP、目的IP、请求url、行为和请求时间。

本发明中，所述ratio函数来源于python的字符串下相似度算法库。

与现有技术相比，本发明的技术效果是：

本发明通过分析标准化日志后，获取行为信息，经过行为相似性计算得到行为库，对行为库采用K-means算法聚类后，删除离群点，得到可信行为库。该方法适用范围广，能够高效建立可信行为样本。

附图说明

图1为本发明实现过程的流程图。

图2为本发明中相似度计算过程的流程图。

图3为离群点示意图(图中的数字是指距离)。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述。

本发明所述基于语义分析的可信行为库生成方法，包括下述步骤：

(1)日志解析与标准化

在日志审计设备中配置日志解析格式，将业务系统产生的日志接入日志审计设备并进行解析，得到满足分析格式需求的行为信息；所述行为信息包括源IP、目的IP、请求url、行为和请求时间。

(2)相似度计算

实时获取步骤(1)中日志的行为信息，采用python的字符串下相似度算法库(python-Levenshtein)的ratio函数，将新获取的行为信息与行为库中存储的所有行为信息进行元素比对，在遍历比对同时计算其相似度g；

(3)实时行为信息的处理

(4)建立可信行为库

从步骤(3)最终得到的行为库中任取K个样本作为初始的簇中心，计算每个样本到各簇中心的距离d，将各样本分别归入距离最小的簇中心内；遍历完所有对象之后，使用每个聚类中的样本距离均值作为新的簇中心，新的簇中心有k个；重复上述过程，直至满足最小平方误差准则；然后找出离群点(即行为库中异常行为)并做删除处理，最终建立可信行为库。

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。本领域技术人员对该算法的运用能够熟练掌握，本发明不再赘述。

下面通过一个实例，对本发明具体实现方式进行举例说明：

日志的内容：

2018-06-25 12:58:12 192.168.95.29admin ailpha HDFSUI/gateway/ailpha/hdfs/static/bootstrap-3.0.2/js/bootstrap.min.js url access successed

2018-06-25 12:58:12 192.168.95.28--172.16.101.114ailpha.com/index.html#/home 200--GET Mozilla/5.0(Windows NT 6.1)AppleWebKit/537.11(KHTML,like Gecko)Chrome/23.0.1271.97Safari/537.11

本例初始相似度阈值取80％，小于80％则进入行为库中，否则只在同类行为保存发生时间。

建议10000个行为样本，检测结果如图3所示：

采用改变K个数进行9次重复检测，由图中可以看出，采用聚类算法，均很好的检测出了离群点，删除离群点建立可信行为库。

Claims

1.一种基于语义分析的可信行为库生成方法，其特征在于，包括下述步骤：

（1）日志解析与标准化

在日志审计设备中配置日志解析格式，将业务系统产生的日志接入日志审计设备并进行解析，得到满足分析格式需求的行为信息；所述行为信息包括源IP、目的IP、请求url、行为和请求时间；

（2）相似度计算

实时获取步骤（1）中日志的行为信息，利用ratio函数将新获取的行为信息与行为库中存储的所有行为信息进行元素比对，在遍历比对同时计算其相似度g；所述ratio函数来源于python的字符串下相似度算法库；

（3）实时行为信息的处理

如果步骤（2）中实时获取日志的行为信息与某个日志字符串对比后的相似度g大于或等于阈值G，则将二者归为一类；在将该实时获取日志的发生时间存入相应类别后，停止继续计算；

（4）建立可信行为库

从步骤（3）最终得到的行为库中任取K个样本作为初始的簇中心，计算每个样本到各簇中心的距离d，将各样本分别归入距离最小的簇中心内；遍历完所有对象之后，使用每个聚类中的样本距离均值作为新的簇中心，新的簇中心有k个；重复前述通过K-means算法建立可信行为库的过程，直至满足最小平方误差准则；然后找出离群点并作删除处理，最终建立可信行为库。