CN108427669A - 异常行为监控方法和系统 - Google Patents
异常行为监控方法和系统 Download PDFInfo
- Publication number
- CN108427669A CN108427669A CN201810161818.XA CN201810161818A CN108427669A CN 108427669 A CN108427669 A CN 108427669A CN 201810161818 A CN201810161818 A CN 201810161818A CN 108427669 A CN108427669 A CN 108427669A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- behavior characteristics
- obtains
- matrix
- characteristics matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1734—Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种异常行为监控方法和系统,涉及异常行为监控技术领域,包括:对原始数据进行分词处理,得到用户行为特征矩阵;将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;对所述聚类结果标签进行评价,得到最初评价结果;当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;根据所述聚类模型对用户行为进行异常监控。本发明可以对隐蔽性和风险都较高的行为操作进行异常监控,避免异常操作所造成的损失。
Description
技术领域
本发明涉及异常行为监控技术领域,尤其是异常行为监控方法和系统。
背景技术
审计日志是企业通过采集信息系统安全事件,包括用户访问记录、运维人员的日志,实现管理人员对不同的业务人员行为日志的监控,避免由于业务人员的非常规操作对企业数据进行窃取,从而造成不必要的人为损失。
日志审计系统通常设立堡垒机系统,从而能记录并监控业务人员的操作行为,通过对业务人员日志行为的解析,便能得到业务人员的一般操作行为特征,然后从海量数据中,发现业务人员不合常规的操作与敏感词的行为异常。然而,在实践中,个别用户的行为异常不仅仅表现在使用了稀有敏感操作命令,更多的异常体现在该用户的操作命令或者是操作时间点,操作次数与自己个人的一般行为不符合。
例如,通常一个处理网络的业务人员,在某个时间段内,大量的使用查询数据库的命令,这个操作其实存在非常大的风险异常。在规则表中,虽然使用的命令都是合理合规则的,但是出现频数过于频繁,或者登陆的时间不在合理范围内,或者是登陆的操作行为与之前的行为存在严重差异的,这样的异常日志,风险高,而且不容易被发现,隐蔽性较高。现有的日志审计系统无法对这些隐蔽性和风险都较高的行为操作进行监控。
发明内容
有鉴于此,本发明的目的在于提供异常行为监控方法和系统,以解决现有的日志审计系统无法对这些隐蔽性和风险都较高的行为操作进行监控的问题。
第一方面,本发明实施例提供了一种异常行为监控方法,包括:
对原始数据进行分词处理,得到用户行为特征矩阵;
将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;
对所述聚类结果标签进行评价,得到最初评价结果;
当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;
根据所述聚类模型对用户行为进行异常监控。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵包括,重复执行以下步骤,直至最终评价结果达到预设值:
当所述最初评价结果未达到预设值时,利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
将所述第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
对所述第一聚类结果标签进行评价,得到第一评价结果。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签,包括:
将所述用户行为特征矩阵进行聚类学习,得到聚类结果;
利用最小距离和对所述聚类结果进行标签,得到所述聚类结果标签。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵包括:
利用所述CART分类树计算所述聚类结果中各个类别特征的基尼指数;
根据所述基尼指数从所述用户行为特征矩阵中选取所述第一用户行为特征矩阵。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述根据所述基尼指数从所述用户行为特征矩阵中选取所述第一用户行为特征矩阵,包括:
将不同所述类别特征的所述基尼指数从大到小进行排序;
将排列在预设百分比内的所述类别特征作为所述第一用户行为特征矩阵。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还包括:
利用主成分分析算法PCA对所述有效用户行为特征矩阵进行可视化处理,得到异常值。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述对所述聚类结果标签进行评价,得到最初评价结果包括:
利用加权聚类评价系数对所述聚类结果标签进行评价,得到所述最初评价结果;
所述加权聚类评价系数通过以下公式计算:
其中,s(i)为所述加权聚类评价系数,w(i)为加权权重,a(i)为第一聚类结果标签对应的类别特征,b(i)为第二聚类结果标签对应的类别特征。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述对原始数据进行分词处理,得到用户行为特征矩阵,包括:
对所述原始数据进行分词处理,将提取的关键字作为用户行为特征;
计算所述用户行为特征的tf-idf频数,得到所述用户行为特征矩阵。
第二方面,本发明实施例还提供一种异常行为监控系统,包括:
处理模块,用于对原始数据进行分词处理,得到用户行为特征矩阵;
第一聚类学习模块,用于将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;
评价模块,用于对所述聚类结果标签进行评价,得到最初评价结果;
特征筛选模块,用于当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
第二聚类学习模块,用于将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;
监控模块,用于根据所述聚类模型对用户行为进行异常监控。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述特征筛选模块包括:
特征筛选单元,用于当所述最初评价结果未达到预设值时,利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
聚类学习单元,用于将所述第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
评价单元,用于对所述第一聚类结果标签进行评价,得到第一评价结果。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种异常行为监控方法和系统,包括:对原始数据进行分词处理,得到用户行为特征矩阵;将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;对所述聚类结果标签进行评价,得到最初评价结果;当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;根据所述聚类模型对用户行为进行异常监控。可以对隐蔽性和风险都较高的行为操作进行异常监控,避免异常操作所造成的损失。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的异常行为监控方法流程图;
图2为本发明实施例提供的步骤S104的方法流程图;
图3为本发明实施例提供的又一异常行为监控方法流程图;
图4为本发明实施例提供的异常行为监控系统示意图。
图标:
10-处理模块;20-第一聚类学习模块;30-评价模块;40-特征筛选模块;50-第二聚类学习模块;60-监控模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,日志审计系统通常设立堡垒机系统,从而能记录并监控业务人员的操作行为,通过对业务人员日志行为的解析,便能得到业务人员的一般操作行为特征,然后从海量数据中,发现业务人员不合常规的操作与敏感词的行为异常。然而,在实践中,个别用户的行为异常不仅仅表现在使用了稀有敏感操作命令,更多的异常体现在该用户的操作命令或者是操作时间点,操作次数与自己个人的一般行为不符合。
例如,通常一个处理网络的业务人员,在某个时间段内,大量的使用查询数据库的命令,这个操作其实存在非常大的风险异常。在规则表中,虽然使用的命令都是合理合规则的,但是出现频数过于频繁,或者登陆的时间不在合理范围内,或者是登陆的操作行为与之前的行为存在严重差异的,这样的异常日志,风险高,而且不容易被发现,隐蔽性较高。现有的日志审计系统无法对这些隐蔽性和风险都较高的行为操作进行监控。
基于此,本发明实施例提供的一种异常行为监控方法和系统,可以对隐蔽性和风险都较高的行为操作进行异常监控,避免异常操作所造成的损失。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种异常行为监控方法进行详细介绍。
实施例一:
图1示出了本发明实施例提供的异常行为监控方法流程图。
如图1所示,本实施例提供的一种异常行为监控方法,包括以下步骤:
步骤S101,对原始数据进行分词处理,得到用户行为特征矩阵;
具体地,原始数据是指审计日志中的行为操作数据,例如,用户登陆堡垒机所做的所有操作数据。对原始数据进行分词处理,提取关键字,并将提取的关键字作为用户行为特征;计算用户行为特征的tf-idf(term frequency–inverse document frequency,词频-逆文档频率)频数,得到用户行为特征矩阵。从而对数据进行标准化,消除量纲带来的影响。该用户行为特征矩阵能很好的描述对应审计日志中所涉及的用户行为特征。其中,tf-idf是一种用于信息检索与数据挖掘的常用加权技术。
以用户登陆堡垒机的操作数据为例,通过以下公式(1)来计算用户行为特征矩阵。
其中,z为某个用户单次登陆堡垒机的使用命令频数,s为某个用户所有登陆堡垒机命令频数之和,n为额外人为设定的修正调整权重系数。
步骤S102,将用户行为特征矩阵进行聚类学习,得到聚类结果标签;
具体地,利用K-中心点聚类算法将用户行为特征矩阵进行聚类学习,得到聚类结果;利用最小距离和对聚类结果进行标签,得到聚类结果标签。聚类结果标签包括正常和异常两种情况。
根据公式(2)来计算距离和:
其中,μk为用户行为特征的中心坐标,k为聚类中心的个数,xn为某个用户的行为特征坐标,n为特征类别,rnk为每个特征类别所占系数比例。
步骤S103,对聚类结果标签进行评价,得到最初评价结果;
步骤S104,当最初评价结果未达到预设值时,利用CART分类树对用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
步骤S105,将有效用户行为特征矩阵进行聚类学习,得到聚类模型;
步骤S106,根据聚类模型对用户行为进行异常监控。
本实施例提出了基于聚类方法的改进与实践应用,通过对文本数据的深入挖掘,特征提取选择与改进,从而寻找出了基于行为画像与文本命令的离群异常点。该离群点的行为与正常人的操作行为严重偏离,可以认为这些操作存在很高的违规风险。
进一步地,如图2所示,步骤S104包括,重复执行以下步骤,直至最终评价结果达到预设值:
步骤S201,当最初评价结果未达到预设值时,利用CART分类树对用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
如图3所示,步骤S201包括以下步骤:
步骤S301,利用CART分类树计算聚类结果中各个类别特征的基尼指数;
步骤S302,根据基尼指数从用户行为特征矩阵中选取第一用户行为特征矩阵。
具体地,将不同类别特征的基尼指数从大到小进行排序;将排列在预设百分比内的类别特征作为第一用户行为特征矩阵。
步骤S202,将第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
步骤S203,对第一述聚类结果标签进行评价,得到第一评价结果。
利用聚类学习模型进行学习的过程为:
(1)对原始数据出现的文本命令,进行分词处理,计算tf-idf词频-逆文档频率。标准化数据消除量纲带来的影响。
(2)以每次用户一次登陆堡垒机的所有命令记录,对数据进行预处理,从而形成用户行为特征矩阵。
(3)针对不同的特征行为矩阵,利用K-中心点聚类进行分析,得到初步聚类结果。
(4)对聚类结果进行评价,得到数据的聚类标签。
(5)利用评价系数评价聚类的效果,如果没有达到预期效果,则进入下一步(6)。
(6)利用CART分类树,对特征属性数据与标签数据,进行监督学习,提取出对结果影响较大的前95%的属性,通过测算基尼指数,从而评价确定特征影响强弱的因素。
(7)对结果返回(3),直到筛选出最优的若干个特征变量,使得聚类评价效果达到预期停止。(通常默认轮廓系数在0.9以上即聚类评价效果达到预期)。
(8)当评价系数在预期值以上,则认为该聚类效果较好,模型效果达到预期值,数据的离散聚合程度较为明显。
(9)利用PCA对数据进行可视化,从而直观的寻找出类别中少于总数1/100的类别,这些类别记为异常值。
具体地,定义聚类结果标签为labels,特征为{x1,x2…xn}。利用CART算法计算其基尼指数。根据公式(3)计算特征{x1,x2…xn}的基尼指数。并根据公式(4)对不同特征的基尼指数从大到小进行排序。
Rank(t)={t1,t2,t3…,tn} (4)
其中,Gini(p)为基尼指数,Pk为聚类结果标签为某一类别的概率,tn为n维特征属性值,Rank(t)为对数据从大到小进行排序的结果。
对不同的特征指标计算该系数,从大到小排序,取出排在预设百分比内(例如前90%)的特征作为有效特征,该特征对结果的影响程度较高,删除对聚类评价效果不是很明显的若干特征变量。
对优化特征后的结果重新聚类,对测试结果的标签进行重新标记,计算评价聚类效果,来决定是否调整相对应的评价特征。如果测试结果能好于预期值,则该结果能作为实验结果进行评价,否则再次进入之前的方法进行调整。
另外,为聚类的效果误差,该系数评价不同的两个聚类结果的相似值,定义的计算公式为(5):
其中,为第i次聚类结果的误差,为第i+1次聚类结果的误差,将求交集代表两者取较小的那个值。
公式(5)评价了不同的两个聚类结果之间的真实相似度。通过不断的迭代测试,从实践数据表明,当i→∞,通过校正的效果误差将依概率收敛减小。同时,也可以得到这样的结论,S(i)→1,测试数据表明在不断修正的半监督方法体系中,数据之间的凝聚效果随着增加,只要达到理想的评价系数即可停止,常用的建议阈值系数为S(i)>0.9,达到该条件则认为模型效果较好。
在聚类结果中,不同的类别计为集合{l1,l2,l3,…ln},每个集合的数量计数为count。离群值类别数量,记为count(lexception),当则lexception记为离群值群族,这些群的不同特点说明结果都有或多或少的非相似性,与正常人的行为差异较大。
其中,count(lexception)为离群值类别数量,0.01指的是异常的人为设定的阈值,其中,lexception∈min(n){l1,l2…ln},n为类别个数,min(n){l1,l2……ln}代表n个结果中取最小的一个值。
本实施例还包括利用主成分分析算法PCA(Principal Component Analysis,主成分分析算法)对有效用户行为特征矩阵进行可视化处理,得到异常值。
进一步地,步骤S103包括:
利用加权聚类评价系数对聚类结果标签进行评价,得到最初评价结果;
加权聚类评价系数通过以下公式(6)计算:
其中,s(i)为加权聚类评价系数,w(i)为加权权重,a(i)为第一聚类结果标签对应的类别特征,b(i)为第二聚类结果标签对应的类别特征。
本实施例的异常行为监控方法是基于半监督学习方法的应用,把常见的聚类模型在实践问题中进行改良与优化,利用基尼指数的评价方法对特征属性进行筛选,对结果误差进行多次校正,从而删除掉大量对结果标签无影响的属性值,提高了聚类的凝聚效果。
本实施例针对的是审计日志的数据,主要是Linux命令的异常文本挖掘。对正常群体通过计算tf-idf频数矩阵来反应正常个若干组群体的常用命令,这能很好的反应了不同客户组所操作的行为各不相同,结果有助于发现离群点。
这些离群点实际的业务意义是,在某些操作过于频繁或者与自己从前的行为习惯不符合,或者提取到的敏感稀有操作有别于正常人的特征习惯,例如,某个用户无权限使用kill操作,不过在某个特定时段使用了几次该操作,则该登陆点的行为将会离群正常点的行为。
对于特定场景下,可以优化特征的属性以及特征的数量来较好的调节聚类的结果,通过真实的数据验证,说明了不同的属性结果对聚类效果的影响较为明显,通过利用监督学习方法筛选变量能达到提高聚类评价系数的效果,该方法在特定场景,尤其是针对风险控制,异常值监控等领域有非常重大的借鉴作用。
本实施例的异常行为监控方法可以应用于用户行为分析、反欺诈模型、风控模型,文本挖掘与预测评估等领域中,在对用户行为的预测模型中,大大提高了无监督算法本身的准确度。在不同的预测模型中,有非常好的实际应用价值。如果不对模型进行合适的优化,往往得到的聚类评价系数会偏低。这些模型在建立在无规则的条件判断的情况下,如何筛选出更具有代表性的群体类别族,往往这样的模型能得到意想不到的结果,效果会优于仅仅对数据库按照指定规则筛选的结果。同时多重校正误差的方法,也可以广泛的运用于其他无监督的机器学习方法,最终效果会有较为明显的提升。
实施例二:
如图4所示,本实施例提供了一种异常行为监控系统,包括处理模块10、第一聚类学习模块20、评价模块30、特征筛选模块40、第二聚类学习模块50以及监控模块60;
处理模块10,用于对原始数据进行分词处理,得到用户行为特征矩阵;
第一聚类学习模块20,用于将用户行为特征矩阵进行聚类学习,得到聚类结果标签;
评价模块30,用于对聚类结果标签进行评价,得到最初评价结果;
特征筛选模块40,用于当最初评价结果未达到预设值时,利用CART分类树对用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
第二聚类学习模块50,用于将有效用户行为特征矩阵进行聚类学习,得到聚类模型;
监控模块60,用于根据聚类模型对用户行为进行异常监控。
进一步地,特征筛选模块40包括:
特征筛选单元,用于当最初评价结果未达到预设值时,利用CART分类树对用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
聚类学习单元,用于将第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
评价单元,用于对所述第一述聚类结果标签进行评价,得到第一评价结果。
本发明实施例提供的异常行为监控系统,与上述实施例提供的异常行为监控方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的异常行为监控方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的异常行为监控方法的步骤。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行异常行为监控方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种异常行为监控方法,其特征在于,包括:
对原始数据进行分词处理,得到用户行为特征矩阵;
将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;
对所述聚类结果标签进行评价,得到最初评价结果;
当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;
根据所述聚类模型对用户行为进行异常监控。
2.根据权利要求1所述的异常行为监控方法,其特征在于,当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵包括,重复执行以下步骤,直至最终评价结果达到预设值:
当所述最初评价结果未达到预设值时,利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
将所述第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
对所述第一聚类结果标签进行评价,得到第一评价结果。
3.根据权利要求1所述的异常行为监控方法,其特征在于,所述将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签,包括:
将所述用户行为特征矩阵进行聚类学习,得到聚类结果;
利用最小距离和对所述聚类结果进行标签,得到所述聚类结果标签。
4.根据权利要求3所述的异常行为监控方法和系统,其特征在于,所述利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵包括:
利用所述CART分类树计算所述聚类结果中各个类别特征的基尼指数;
根据所述基尼指数从所述用户行为特征矩阵中选取所述第一用户行为特征矩阵。
5.根据权利要求4所述的异常行为监控方法,其特征在于,所述根据所述基尼指数从所述用户行为特征矩阵中选取所述第一用户行为特征矩阵,包括:
将不同所述类别特征的所述基尼指数从大到小进行排序;
将排列在预设百分比内的所述类别特征作为所述第一用户行为特征矩阵。
6.根据权利要求1所述的异常行为监控方法,其特征在于,还包括:
利用主成分分析算法PCA对所述有效用户行为特征矩阵进行可视化处理,得到异常值。
7.根据权利要求1所述的异常行为监控方法,其特征在于,所述对所述聚类结果标签进行评价,得到最初评价结果包括:
利用加权聚类评价系数对所述聚类结果标签进行评价,得到所述最初评价结果;
所述加权聚类评价系数通过以下公式计算:
其中,s(i)为所述加权聚类评价系数,w(i)为加权权重,a(i)为第一聚类结果标签对应的类别特征,b(i)为第二聚类结果标签对应的类别特征。
8.根据权利要求1所述的异常行为监控方法,其特征在于,所述对原始数据进行分词处理,得到用户行为特征矩阵,包括:
对所述原始数据进行分词处理,将提取的关键字作为用户行为特征;
计算所述用户行为特征的tf-idf频数,得到所述用户行为特征矩阵。
9.一种异常行为监控系统,其特征在于,包括:
处理模块,用于对原始数据进行分词处理,得到用户行为特征矩阵;
第一聚类学习模块,用于将所述用户行为特征矩阵进行聚类学习,得到聚类结果标签;
评价模块,用于对所述聚类结果标签进行评价,得到最初评价结果;
特征筛选模块,用于当所述最初评价结果未达到预设值时,利用CART分类树对所述用户行为特征矩阵进行多次筛选,得到有效用户行为特征矩阵;
第二聚类学习模块,用于将所述有效用户行为特征矩阵进行聚类学习,得到聚类模型;
监控模块,用于根据所述聚类模型对用户行为进行异常监控。
10.根据权利要求9所述的异常行为监控系统,其特征在于,所述特征筛选模块包括:
特征筛选单元,用于当所述最初评价结果未达到预设值时,利用所述CART分类树对所述用户行为特征矩阵进行筛选,得到第一用户行为特征矩阵;
聚类学习单元,用于将所述第一用户行为特征矩阵进行聚类学习,得到第一聚类结果标签;
评价单元,用于对所述第一聚类结果标签进行评价,得到第一评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810161818.XA CN108427669B (zh) | 2018-02-27 | 2018-02-27 | 异常行为监控方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810161818.XA CN108427669B (zh) | 2018-02-27 | 2018-02-27 | 异常行为监控方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427669A true CN108427669A (zh) | 2018-08-21 |
CN108427669B CN108427669B (zh) | 2021-06-11 |
Family
ID=63157204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810161818.XA Active CN108427669B (zh) | 2018-02-27 | 2018-02-27 | 异常行为监控方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427669B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345376A (zh) * | 2018-09-27 | 2019-02-15 | 北京芯盾时代科技有限公司 | 一种电子银行反欺诈方法及系统 |
CN109495479A (zh) * | 2018-11-20 | 2019-03-19 | 华青融天(北京)软件股份有限公司 | 一种用户异常行为识别方法及装置 |
CN109598278A (zh) * | 2018-09-20 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 聚类处理方法、装置、电子设备及计算机可读存储介质 |
CN109635993A (zh) * | 2018-10-23 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于预测模型的操作行为监控方法及装置 |
CN109886554A (zh) * | 2019-01-24 | 2019-06-14 | 平安科技(深圳)有限公司 | 违规行为判别方法、装置、计算机设备和存储介质 |
CN109903082A (zh) * | 2019-01-24 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN110223163A (zh) * | 2019-06-06 | 2019-09-10 | 杭州奕奕网络科技有限公司 | 中介管理系统及反欺诈数据分析方法 |
CN110457557A (zh) * | 2019-07-29 | 2019-11-15 | 甘肃梦农物联网科技有限公司 | 一种自动标记行为数据的智慧城市网络管理方法 |
CN110611655A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 一种黑名单筛选方法和相关产品 |
CN110825757A (zh) * | 2019-10-31 | 2020-02-21 | 北京北信源软件股份有限公司 | 一种设备行为风险分析方法及系统 |
CN110855514A (zh) * | 2019-09-30 | 2020-02-28 | 北京瑞航核心科技有限公司 | 一种关注物联网实体安全的行为监控方法 |
CN111045847A (zh) * | 2019-12-18 | 2020-04-21 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN111160401A (zh) * | 2019-12-09 | 2020-05-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
CN111652278A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 用户行为检测方法、装置、电子设备及介质 |
CN111861767A (zh) * | 2020-07-29 | 2020-10-30 | 贵州力创科技发展有限公司 | 一种车辆保险欺诈行为的监控系统及方法 |
CN114254716A (zh) * | 2022-03-02 | 2022-03-29 | 浙江鹏信信息科技股份有限公司 | 一种基于用户行为分析的高危操作识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061072A1 (en) * | 2000-01-18 | 2003-03-27 | Baker Sidney M. | System and method for the automated presentation of system data to, and interaction with, a computer maintained database |
CN102915376A (zh) * | 2012-11-13 | 2013-02-06 | 北京神州绿盟信息安全科技股份有限公司 | 检测数据库异常行为的方法和设备 |
CN103839080A (zh) * | 2014-03-25 | 2014-06-04 | 上海交通大学 | 基于测度查询熵的视频流异常事件检测方法 |
US20160124965A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Biased Users Detection |
CN106447508A (zh) * | 2016-10-20 | 2017-02-22 | 宁波江东大金佰汇信息技术有限公司 | 一种改进型基于计算机大数据的社交网络中优质节点探测系统 |
-
2018
- 2018-02-27 CN CN201810161818.XA patent/CN108427669B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030061072A1 (en) * | 2000-01-18 | 2003-03-27 | Baker Sidney M. | System and method for the automated presentation of system data to, and interaction with, a computer maintained database |
CN102915376A (zh) * | 2012-11-13 | 2013-02-06 | 北京神州绿盟信息安全科技股份有限公司 | 检测数据库异常行为的方法和设备 |
CN103839080A (zh) * | 2014-03-25 | 2014-06-04 | 上海交通大学 | 基于测度查询熵的视频流异常事件检测方法 |
US20160124965A1 (en) * | 2014-10-30 | 2016-05-05 | International Business Machines Corporation | Biased Users Detection |
CN106447508A (zh) * | 2016-10-20 | 2017-02-22 | 宁波江东大金佰汇信息技术有限公司 | 一种改进型基于计算机大数据的社交网络中优质节点探测系统 |
Non-Patent Citations (2)
Title |
---|
CE LI 等: ""Visual abnormal behavior detection based on trajectory sparse reconstruction analysis"", 《NEUROCOMPUTING》 * |
王军 等: ""基于深度学习特征的异常行为检测"", 《湖南大学学报(自然科学版)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598278A (zh) * | 2018-09-20 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 聚类处理方法、装置、电子设备及计算机可读存储介质 |
CN109598278B (zh) * | 2018-09-20 | 2022-11-25 | 创新先进技术有限公司 | 聚类处理方法、装置、电子设备及计算机可读存储介质 |
CN109345376A (zh) * | 2018-09-27 | 2019-02-15 | 北京芯盾时代科技有限公司 | 一种电子银行反欺诈方法及系统 |
CN109635993A (zh) * | 2018-10-23 | 2019-04-16 | 平安科技(深圳)有限公司 | 基于预测模型的操作行为监控方法及装置 |
CN109495479A (zh) * | 2018-11-20 | 2019-03-19 | 华青融天(北京)软件股份有限公司 | 一种用户异常行为识别方法及装置 |
CN109495479B (zh) * | 2018-11-20 | 2021-12-24 | 华青融天(北京)软件股份有限公司 | 一种用户异常行为识别方法及装置 |
CN109886554A (zh) * | 2019-01-24 | 2019-06-14 | 平安科技(深圳)有限公司 | 违规行为判别方法、装置、计算机设备和存储介质 |
CN109886554B (zh) * | 2019-01-24 | 2024-05-03 | 平安科技(深圳)有限公司 | 违规行为判别方法、装置、计算机设备和存储介质 |
CN109903082A (zh) * | 2019-01-24 | 2019-06-18 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN109903082B (zh) * | 2019-01-24 | 2022-10-28 | 平安科技(深圳)有限公司 | 基于用户画像的聚类方法、电子装置及存储介质 |
CN110223163A (zh) * | 2019-06-06 | 2019-09-10 | 杭州奕奕网络科技有限公司 | 中介管理系统及反欺诈数据分析方法 |
CN110457557A (zh) * | 2019-07-29 | 2019-11-15 | 甘肃梦农物联网科技有限公司 | 一种自动标记行为数据的智慧城市网络管理方法 |
CN110611655A (zh) * | 2019-08-15 | 2019-12-24 | 中国平安财产保险股份有限公司 | 一种黑名单筛选方法和相关产品 |
CN110611655B (zh) * | 2019-08-15 | 2022-08-16 | 中国平安财产保险股份有限公司 | 一种黑名单筛选方法和相关产品 |
CN110855514A (zh) * | 2019-09-30 | 2020-02-28 | 北京瑞航核心科技有限公司 | 一种关注物联网实体安全的行为监控方法 |
CN110855514B (zh) * | 2019-09-30 | 2021-06-15 | 北京瑞航核心科技有限公司 | 一种关注物联网实体安全的行为监控方法 |
CN110825757A (zh) * | 2019-10-31 | 2020-02-21 | 北京北信源软件股份有限公司 | 一种设备行为风险分析方法及系统 |
CN110825757B (zh) * | 2019-10-31 | 2022-07-26 | 北京北信源软件股份有限公司 | 一种设备行为风险分析方法及系统 |
CN111160401A (zh) * | 2019-12-09 | 2020-05-15 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于均值漂移和XGBoost的异常用电判别方法 |
CN111045847B (zh) * | 2019-12-18 | 2023-07-21 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN111045847A (zh) * | 2019-12-18 | 2020-04-21 | Oppo广东移动通信有限公司 | 事件审计方法、装置、终端设备以及存储介质 |
CN111652278A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 用户行为检测方法、装置、电子设备及介质 |
CN111652278B (zh) * | 2020-04-30 | 2024-04-30 | 中国平安财产保险股份有限公司 | 用户行为检测方法、装置、电子设备及介质 |
CN111861767A (zh) * | 2020-07-29 | 2020-10-30 | 贵州力创科技发展有限公司 | 一种车辆保险欺诈行为的监控系统及方法 |
CN114254716B (zh) * | 2022-03-02 | 2022-05-27 | 浙江鹏信信息科技股份有限公司 | 一种基于用户行为分析的高危操作识别方法及系统 |
CN114254716A (zh) * | 2022-03-02 | 2022-03-29 | 浙江鹏信信息科技股份有限公司 | 一种基于用户行为分析的高危操作识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108427669B (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427669A (zh) | 异常行为监控方法和系统 | |
Templ et al. | Statistical disclosure control for micro-data using the R package sdcMicro | |
US10592308B2 (en) | Aggregation based event identification | |
US10614073B2 (en) | System and method for using data incident based modeling and prediction | |
US20170161503A1 (en) | Determining a risk indicator based on classifying documents using a classifier | |
US20190108471A1 (en) | Operational process anomaly detection | |
CN110825757B (zh) | 一种设备行为风险分析方法及系统 | |
CN111444944A (zh) | 基于决策树的信息筛选方法、装置、设备和存储介质 | |
CN108829715A (zh) | 用于检测异常数据的方法、设备和计算机可读存储介质 | |
CN112559900B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN106095939B (zh) | 账户权限的获取方法和装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN109767269A (zh) | 一种游戏数据的处理方法和装置 | |
CN115081997B (zh) | 设备备件库存诊断系统 | |
CN116034379A (zh) | 使用深度学习和机器学习的活动性水平测量 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN102902614B (zh) | 一种动态监测及智能引导方法 | |
CN110908982A (zh) | 一种基于指标权重的数据质量科学算分评价方法及系统 | |
CN106651630B (zh) | 关键用电行业识别方法和系统 | |
CN112733897A (zh) | 确定多维样本数据的异常原因的方法和设备 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
CN111563111A (zh) | 告警方法、装置、电子设备及存储介质 | |
CN116245580A (zh) | 数据资产价值获取方法、装置、设备、介质和程序产品 | |
US20220414262A1 (en) | Rule-based anonymization of datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 Room 802, 8 / F, shining building, 35 Xueyuan Road, Haidian District, Beijing Applicant after: FUSIONSKYE (BEIJING) SOFTWARE Co.,Ltd. Address before: 100029 room 1005, Jin Ji Ye building, No. 2, Sheng Gu Road, anzhen bridge, Chaoyang District, Beijing Applicant before: FUSIONSKYE (BEIJING) TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |