CN109508541B - 一种基于语义分析的可信行为库生成方法 - Google Patents
一种基于语义分析的可信行为库生成方法 Download PDFInfo
- Publication number
- CN109508541B CN109508541B CN201811211727.9A CN201811211727A CN109508541B CN 109508541 B CN109508541 B CN 109508541B CN 201811211727 A CN201811211727 A CN 201811211727A CN 109508541 B CN109508541 B CN 109508541B
- Authority
- CN
- China
- Prior art keywords
- behavior
- library
- log
- credible
- behavior information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Storage Device Security (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及网络安全技术,旨在提供一种基于语义分析的可信行为库生成方法。该方法包括:日志解析与标准化;将实时获取的日志行为信息与行为库中存储的所有行为信息进行元素比对,在遍历比对同时计算其相似度;根据相似度与阈值的关系,分类处理日志的行为信息;在经过一个计算周期T的运行之后,在行为库中存储若干条行为样本的记录;通过K‑means算法建立可信行为库。本发明通过分析标准化日志后,获取行为信息,经过行为相似性计算得到行为库,对行为库采用K‑means算法聚类后,删除离群点,得到可信行为库。该方法适用范围广,能够高效建立可信行为样本。
Description
技术领域
本发明涉及网络安全技术,特别涉及一种基于语义分析的可信行为库生成方法。
背景技术
异常行为检测(Abnormal behavior detection)是目前入侵检测系统的主要研究方向,其特点是通过对系统异常行为的监测,可以发现未知的攻击模式。异常行为检测的关键在于建立正常使用模式并利用该模式对当前用户行为进行比较和判断。
现有技术中对可信行为识别已有一些研究成果,例如:
中国发明专利申请CN103593609B提供了一种可信行为识别的方法和装置,其方法包括:预置可信行为数据集合以及不可信行为数据集合;获取特定行为的目标页面焦点行为数据;判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;若归属于可信行为数据集合,则允许所述特定行为的执行;若归属于不可信行为数据集合,则中止所述特定行为的执行。该技术方案的缺点是,仅能局限于特定行为的目标页面。
中国发明专利申请CN105590055A公开了一种用于在网络交互系统中识别用户可信行为的方法,包括:获取所述网络交互系统中的用户行为数据;采用下述方式中的任意一种识别所述用户行为是否可信:通过判断预先生成的可信数据与所述用户行为数据的比对结果是否符合预先设定的规则,识别所述用户行为是否可信;或者,采用预先生成的可信行为识别模型计算表征所述用户行为可信程度的指标值,通过判断所述指标值是否满足预先设定的可信阈值,识别所述用户行为是否可信。该技术方案的缺点是,需要预先建立可信数据,通过与可信数据比对识别可信行为。
中国发明专利申请CN103944722B涉及一种互联网环境下用户可信行为的识别方法,包括:1)建立用户行为可信识别集;2)根据建立的用户行为可信识别集,对登录系统的用户进行身份认证,若身份认证成功,则允许用户进入系统;若身份认证不成功,则禁止用户进入系统;3)对于身份认证成功的用户继续进行行为前可信识别,若识别成功,则用户行为前可信识别成功,允许用户访问系统,若可信识别失败,则进入步骤4);4)在用户访问系统的过程中对用户的行为进行动态可信识别;5)用户结束对系统访问后,服务器端更新用户的行为可信识别集及用户的信任等级,即行为后的数据更新。该技术方案的缺点是,需贯穿整个访问周期,性能消耗大。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于语义分析的可信行为库生成方法。
为解决上述技术问题,本发明采用的解决方案是:
提供一种基于语义分析的可信行为库生成方法,包括下述步骤:
(1)日志解析与标准化
在日志审计设备中配置日志解析格式,将业务系统产生的日志接入日志审计设备并进行解析,得到满足分析格式需求的行为信息;
(2)相似度计算
建立用于存储行为信息的行为库,设置用于比对的计算周期T和相似度阈值G;
实时获取步骤(1)中日志的行为信息,利用ratio函数将新获取的行为信息与行为库中存储的所有行为信息进行元素比对,在遍历比对同时计算其相似度g;
(3)实时行为信息的处理
如果该实时获取日志的行为信息与某个日志字符串对比后的相似度g大于或等于阈值G,则将二者归为一类;在将该实时日志的发生时间存入相应类别后,停止继续计算;
如果该实时获取日志经遍历比对后,其相似度g计算结果均小于阈值G,则认为该日志的行为信息属于新类型,应将其存入行为库中;
在经过一个计算周期T的运行之后,即能在行为库中存储若干条行为样本的记录;
(4)建立可信行为库
利用行为库中累积存储的行为样本,通过K-means算法建立可信行为库;具体如下:
从步骤(3)最终得到的行为库中任取K个样本作为初始的簇中心,计算每个样本到各簇中心的距离d,将各样本分别归入距离最小的簇中心内;遍历完所有对象之后,使用每个聚类中的样本距离均值作为新的簇中心,新的簇中心有k个;重复上述过程,直至满足最小平方误差准则;然后找出离群点并作删除处理,最终建立可信行为库。
本发明中,所述行为信息包括源IP、目的IP、请求url、行为和请求时间。
本发明中,所述ratio函数来源于python的字符串下相似度算法库。
与现有技术相比,本发明的技术效果是:
本发明通过分析标准化日志后,获取行为信息,经过行为相似性计算得到行为库,对行为库采用K-means算法聚类后,删除离群点,得到可信行为库。该方法适用范围广,能够高效建立可信行为样本。
附图说明
图1为本发明实现过程的流程图。
图2为本发明中相似度计算过程的流程图。
图3为离群点示意图(图中的数字是指距离)。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述。
本发明所述基于语义分析的可信行为库生成方法,包括下述步骤:
(1)日志解析与标准化
在日志审计设备中配置日志解析格式,将业务系统产生的日志接入日志审计设备并进行解析,得到满足分析格式需求的行为信息;所述行为信息包括源IP、目的IP、请求url、行为和请求时间。
(2)相似度计算
建立用于存储行为信息的行为库,设置用于比对的计算周期T和相似度阈值G;
实时获取步骤(1)中日志的行为信息,采用python的字符串下相似度算法库(python-Levenshtein)的ratio函数,将新获取的行为信息与行为库中存储的所有行为信息进行元素比对,在遍历比对同时计算其相似度g;
(3)实时行为信息的处理
如果该实时获取日志的行为信息与某个日志字符串对比后的相似度g大于或等于阈值G,则将二者归为一类;在将该实时日志的发生时间存入相应类别后,停止继续计算;
如果该实时获取日志经遍历比对后,其相似度g计算结果均小于阈值G,则认为该日志的行为信息属于新类型,应将其存入行为库中;
在经过一个计算周期T的运行之后,即能在行为库中存储若干条行为样本的记录;
(4)建立可信行为库
利用行为库中累积存储的行为样本,通过K-means算法建立可信行为库;具体如下:
从步骤(3)最终得到的行为库中任取K个样本作为初始的簇中心,计算每个样本到各簇中心的距离d,将各样本分别归入距离最小的簇中心内;遍历完所有对象之后,使用每个聚类中的样本距离均值作为新的簇中心,新的簇中心有k个;重复上述过程,直至满足最小平方误差准则;然后找出离群点(即行为库中异常行为)并做删除处理,最终建立可信行为库。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。本领域技术人员对该算法的运用能够熟练掌握,本发明不再赘述。
下面通过一个实例,对本发明具体实现方式进行举例说明:
日志的内容:
2018-06-25 12:58:12 192.168.95.29admin ailpha HDFSUI/gateway/ailpha/hdfs/static/bootstrap-3.0.2/js/bootstrap.min.js url access successed
2018-06-25 12:58:12 192.168.95.28--172.16.101.114ailpha.com/index.html#/home 200--GET Mozilla/5.0(Windows NT 6.1)AppleWebKit/537.11(KHTML,like Gecko)Chrome/23.0.1271.97Safari/537.11
本例初始相似度阈值取80%,小于80%则进入行为库中,否则只在同类行为保存发生时间。
建议10000个行为样本,检测结果如图3所示:
采用改变K个数进行9次重复检测,由图中可以看出,采用聚类算法,均很好的检测出了离群点,删除离群点建立可信行为库。
Claims (1)
1.一种基于语义分析的可信行为库生成方法,其特征在于,包括下述步骤:
(1)日志解析与标准化
在日志审计设备中配置日志解析格式,将业务系统产生的日志接入日志审计设备并进行解析,得到满足分析格式需求的行为信息;所述行为信息包括源IP、目的IP、请求url、行为和请求时间;
(2)相似度计算
建立用于存储行为信息的行为库,设置用于比对的计算周期T和相似度阈值G;
实时获取步骤(1)中日志的行为信息,利用ratio函数将新获取的行为信息与行为库中存储的所有行为信息进行元素比对,在遍历比对同时计算其相似度g;所述ratio函数来源于python的字符串下相似度算法库;
(3)实时行为信息的处理
如果步骤(2)中实时获取日志的行为信息与某个日志字符串对比后的相似度g大于或等于阈值G,则将二者归为一类;在将该实时获取日志的发生时间存入相应类别后,停止继续计算;
如果该实时获取日志经遍历比对后,其相似度g计算结果均小于阈值G,则认为该日志的行为信息属于新类型,应将其存入行为库中;
在经过一个计算周期T的运行之后,即能在行为库中存储若干条行为样本的记录;
(4)建立可信行为库
利用行为库中累积存储的行为样本,通过K-means算法建立可信行为库;具体如下:
从步骤(3)最终得到的行为库中任取K个样本作为初始的簇中心,计算每个样本到各簇中心的距离d,将各样本分别归入距离最小的簇中心内;遍历完所有对象之后,使用每个聚类中的样本距离均值作为新的簇中心,新的簇中心有k个;重复前述通过K-means算法建立可信行为库的过程,直至满足最小平方误差准则;然后找出离群点并作删除处理,最终建立可信行为库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811211727.9A CN109508541B (zh) | 2018-10-18 | 2018-10-18 | 一种基于语义分析的可信行为库生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811211727.9A CN109508541B (zh) | 2018-10-18 | 2018-10-18 | 一种基于语义分析的可信行为库生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508541A CN109508541A (zh) | 2019-03-22 |
CN109508541B true CN109508541B (zh) | 2022-03-18 |
Family
ID=65746661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811211727.9A Active CN109508541B (zh) | 2018-10-18 | 2018-10-18 | 一种基于语义分析的可信行为库生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508541B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143178B (zh) * | 2019-12-12 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 用户行为分析方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1492336A (zh) * | 2003-09-04 | 2004-04-28 | 上海格尔软件股份有限公司 | 基于数据仓库的信息安全审计方法 |
EP2840542A2 (en) * | 2013-08-19 | 2015-02-25 | Compass Plus (GB) Limited | Method and system for detection of fraudulent transactions |
CN108199875A (zh) * | 2017-12-29 | 2018-06-22 | 上海上讯信息技术股份有限公司 | 一种网络入侵检测系统及方法 |
-
2018
- 2018-10-18 CN CN201811211727.9A patent/CN109508541B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1492336A (zh) * | 2003-09-04 | 2004-04-28 | 上海格尔软件股份有限公司 | 基于数据仓库的信息安全审计方法 |
EP2840542A2 (en) * | 2013-08-19 | 2015-02-25 | Compass Plus (GB) Limited | Method and system for detection of fraudulent transactions |
CN108199875A (zh) * | 2017-12-29 | 2018-06-22 | 上海上讯信息技术股份有限公司 | 一种网络入侵检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
"2.5.3 基于聚类的离群点检测方法";周永章 等;《地球科学大数据挖掘与机器学习》;20180930;第35-37页 * |
"数据挖掘技术在入侵检测系统中的应用";仇荣成;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120415;第40-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109508541A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10686829B2 (en) | Identifying changes in use of user credentials | |
Uwagbole et al. | Applied machine learning predictive analytics to SQL injection attack detection and prevention | |
de Oliveira et al. | A sensitive stylistic approach to identify fake news on social networking | |
CN106992994B (zh) | 一种云服务的自动化监控方法和系统 | |
CN106713324B (zh) | 一种流量检测方法及装置 | |
CN110716868B (zh) | 异常程序行为检测方法、装置 | |
CN111400357A (zh) | 一种识别异常登录的方法和装置 | |
CN108268886B (zh) | 用于识别外挂操作的方法及系统 | |
CN112511546A (zh) | 基于日志分析的漏洞扫描方法、装置、设备和存储介质 | |
US11533373B2 (en) | Global iterative clustering algorithm to model entities' behaviors and detect anomalies | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
Kleber et al. | Message type identification of binary network protocols using continuous segment similarity | |
Kumar et al. | A semantic machine learning algorithm for cyber threat detection and monitoring security | |
CN117675387B (zh) | 基于用户行为分析的网络安全风险预测方法及系统 | |
CN109508541B (zh) | 一种基于语义分析的可信行为库生成方法 | |
Li et al. | Towards a multi‐layers anomaly detection framework for analyzing network traffic | |
CN113946823A (zh) | 一种基于url基线偏离度分析的sql注入检测方法及装置 | |
CN112052453A (zh) | 基于Relief算法的webshell检测方法及装置 | |
Bonneton et al. | Dga bot detection with time series decision trees | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
CN114285596A (zh) | 基于机器学习的变电站终端账号异常检测方法 | |
CN112597498A (zh) | 一种webshell的检测方法、系统、装置及可读存储介质 | |
CN106650443B (zh) | 一种基于增量dbscan算法的恶意代码家族识别方法 | |
CN114816964B (zh) | 风险模型构建方法、风险检测方法、装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |