CN107609330B - 基于门禁日志挖掘的内部威胁异常行为分析方法 - Google Patents

基于门禁日志挖掘的内部威胁异常行为分析方法 Download PDF

Info

Publication number
CN107609330B
CN107609330B CN201710771010.9A CN201710771010A CN107609330B CN 107609330 B CN107609330 B CN 107609330B CN 201710771010 A CN201710771010 A CN 201710771010A CN 107609330 B CN107609330 B CN 107609330B
Authority
CN
China
Prior art keywords
sequence
difference
score
degree
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710771010.9A
Other languages
English (en)
Other versions
CN107609330A (zh
Inventor
周鋆
王培超
朱承
黄金才
张维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710771010.9A priority Critical patent/CN107609330B/zh
Publication of CN107609330A publication Critical patent/CN107609330A/zh
Application granted granted Critical
Publication of CN107609330B publication Critical patent/CN107609330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种基于门禁日志挖掘的内部威胁异常行为分析方法,通过对门禁系统记录的数据进行数据挖掘,提取出可以表征待处理部门人员刷卡序列异常程度的指标,并通过将这些指标与门禁记录中的刷卡时间相结合,从而能定量的表征某待处理部门一天的刷卡序列异常程度。本发明提供方法简便易行,可以通过集成到现有的门禁系统中实现。本发明提供方法充分利用了门禁刷卡数据,为各企业或事业单位防范来自待处理部门的威胁提供了有力保障。

Description

基于门禁日志挖掘的内部威胁异常行为分析方法
技术领域
本发明涉及数据分析技术领域,具体的涉及一种基于门禁日志挖掘的内部威胁异常行为分析方法。
背景技术
随着信息技术的高速发展,企业和组织中广泛应用着各类信息系统。然而,信息系统在为这些组织带来工作效率提升的同时,也引入了大量的安全漏洞,其中既有技术层面上的软硬件漏洞,也有来自于内部人员管理上的漏洞。由于内部人员管理漏洞造成的内部威胁往往危害性更大,也更难被察觉。造成内部威胁的原因主要有以下几方面:第一,部分缺乏安全意识的员工在工作时可能做出违反安全规定的误操作;第二,部分员工在工作时为了自身方便、提高效率,故意绕过安全措施进行操作;第三,个别员工因受到他人利诱或对内采取报复行动,对机密信息进行外泄或破坏。总的来说,内部威胁是一个涉及到人为因素和系统因素的综合性问题,检测和防御内部威胁、成为了企业或机构待处理部门管理者面临的巨大挑战。
现有的内部威胁检测方法,借鉴网络异常检测的方法来对用户行为进行分析,即构建用户的正常行为模型后,查找离群点得到存在待处理部门威胁的数据。查找离群点的常用方法包括:有监督的异常检测、半监督的异常检测和无监督的异常检测,通过建立正常的行为模式集,将实际行为模式与正常行为模式进行对比,看两者是否匹配,若不匹配,说明该行为属于异常行为,反之则正常。
现有对于门禁日志的内部威胁分析检测方法,主要集中于统计学分析,如统计每天的总人流量、各个地点的人流量等等,无法对门禁系统中存在的异常行为进行有效检测,从而导致生产活动的安全性降低。
现有精确匹配法则是通过对门禁日志数据挖掘需要对人员的刷卡序列进行频繁的模式挖掘后,再进行精确匹配。当所处理数据存在缺失的情况下,误报率高达90%以上。同时,虽然现在部分智能门禁系统在时间方面有一定的监控功能,但是只是对非正常时间段的刷卡进行了报警,对于其他的时间因素则没有进行详细的考虑,导致待处理部门威胁检测结果准确性较低。现有异常检测方法仅通过直接进行精确匹配,将与正常行为序列库中不同的行为即判定为异常,忽视了两个序列之间的差异。
发明内容
本发明的目的在于提供一种基于门禁日志挖掘的内部威胁异常行为分析方法,该发明解决了现有门禁日志内部威胁检测结果准确率较低的技术问题。
本发明提供一种基于门禁日志挖掘的内部威胁异常行为分析方法,包括以下步骤:
步骤S100:分析门禁数据样本:分析待处理部门的历史门禁数据,得到包含刷卡人姓名、卡号、刷卡时间、刷卡地点的行为序列;
步骤S200:建立正常行为序列库:按每天采集顺序排列行为序列,得到待处理部门人员每天的路径序列<p1,p2,…,pi,…,pn>,其中pi(i=1,2,…,n)表示待处理部门人员访问的门禁点,以部分路径序列为训练集,设定支持度,对训练集中的路径序列数据进行频繁模式挖掘,将高于支持度对应的训练集中的路径序列作为正常行为序列库;
步骤S300:计算序列异常度分数:将除去训练集外的剩余路径序列与正常行为序列库的所有序列进行对比,计算得到相对编辑距离和相对支持度,根据相对编辑距离和相对支持度计算得到当前行为序列与正常行为序列之间的序列差异分数,之后根据时间规则计算时间异常分数,通过将序列差异分数和时间异常分数加权相加得到序列异常度分数;
步骤S400:按一组差值对应一个支持度设定一系列支持度及其差值,绘制以报警率为纵轴,以人工预设差值为横轴的一系列报警率曲线图,选取曲线形状相似且转折点对应差值相近的4~5幅图作为优选报警率曲线图,选取优选报警率曲线图中支持度最大的报警率曲线作为最优曲线,从所述最优曲线图中读取转折点对应的差值,将得到的当前阈值作为最优阈值,其中,所述报警率为所述训练序列中序列异常度分数大于各差值对应的当前阈值的序列数量与所述训练序列中序列总数的比值,所述当前阈值为取最大的所述序列异常度分数与各差值的差;
步骤S500:日常使用中,按步骤S300对日常工作中某待处理部门每日的待处理部门门禁数据进行处理得到每日序列异常度分数,判断每日序列的异常度分数是否大于最优阈值,如果大于最优阈值则报警,报警后通过人工手段核查报警原因,并人工判断是否存在内部威胁,如果小于最优阈值则不报警。
进一步地,步骤S300包括以下步骤:
步骤S310:按公式(1)计算用于描述所述剩余路径序列与所述正常行为序列间的差异程度的相对编辑距离RED
其中,ED为编辑距离函数,为测试序列中的第i条序列,为正常序列库中的第j条序列,为相应序列的序列长度。
按公式(2)计算用于描述正常行为序列的支持度对剩余路径序列的差异程度的影响的相对支持度Rsup
其中,为正常序列库中第i条序列的支持度,Maxsup为正常行为序列库中最大的支持度;取对数可以减少因为支持度在数字上差异过大导致的分数差异过大。
计算剩余路径序列与正常行为序列对应的序列差异分数,计算训练集中的每个行为序列与正常行为库中每个序列的相对编辑距离,判断所述单个相对编辑距离是否为零,按公式(3)求得序列差异分数score1
步骤S320:
按公式(4)计算剩余路径序列的时间异常分数score2
其中,f(Δtk)为刷卡间隔方程,Δtk为当天的第k个时间间隔(单位:分),threshold为设定的异常时间阈值,ti为第i天最早的刷卡时间,Ni为门禁测试序列中第i天的记录总数,f(Δt)方程需根据某待处理部门人员的刷卡间隔拟合得到;
步骤S330:按公式(5)计算序列异常度分数score:
其中,α为序列差异分数的权重,权重可根据决策者的偏好来决定,缺省值为0.5,即简单平均。
本发明的技术效果:
1、本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法,构建相对编辑距离和相对支持度两个指标,进而计算得到序列差异分数,序列差异分数很好地刻画了两个待比较序列之间的差异,所得结果准确度较高。
2、本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法,在序列差异的基础上,考虑刷卡的时间因素,包括了刷卡行为的发生时间和过于短暂的刷卡间隔,根据时间规则计算时间异常分数,再将序列差异分数和时间异常分数加权相加得到序列异常度分数,对一天的刷卡行为进行了良好刻画。进一步提高了所得结果的准确性。
3、本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法,基于自主提出的序列异常度分数,该分数综合考虑了人员的刷卡行为序列、刷卡时间段和刷卡时间间隔,通过对单独待处理部门的人员行为序列进行建模,从而全方位的考虑了人员的行为异常问题,对于待处理部门人员的行为异常造成的待处理部门威胁的检测准确性达到90%以上。同时,该方法大幅降低了通过精确匹配带来的高误报率。该方法操作简单,对于数据有一定缺失的情况仍然适用。
具体请参考根据本发明的基于门禁日志挖掘的内部威胁异常行为分析方法提出的各种实施例的如下描述,将使得本发明的上述和其他方面显而易见。
附图说明
图1是本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法的流程示意图;
图2是本发明优选实施例和对比例中所处理门禁数据的刷卡间隔与累积频率曲线示意图;
图3是本发明优选实施例中对某待处理部门计算得到的序列异常度分数分布图,其中,a)是支持度为200情况下的分数分布图;b)是支持度为250情况下的分数分布图;c)是支持度为300情况下的分数分布图;d)是支持度为350情况下的分数分布图;
图4是本发明优选实施例中对部门门禁数据分析行为的报警率曲线图,其中,a)是支持度为200情况下的报警率曲线图;b)是支持度为250情况下的报警率曲线图;c)是支持度为300情况下的报警率曲线图;d)是支持度为350情况下的报警率曲线图;
图5是利用精确匹配法运用于实施例1中数据库得到的报警率。
具体实施方式
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本发明提供的方法,充分考虑了人员的行为序列和时间两个方面的异常,可以与现有的门禁系统进行融合,显著提升门禁系统对异常行为的发现能力。
参见图1,本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法,包括以下步骤:
步骤S100:分析门禁数据样本:分析待处理部门的历史门禁数据,得到包含刷卡人姓名、卡号、刷卡时间、刷卡地点的行为序列;
步骤S200:建立正常行为序列库:按采集顺序排列行为序列,并按天整理,得到待处理部门人员每天的路径序列<p1,p2,…,pi,…,pn>,其中pi(i=1,2,…,n)表示待处理部门人员访问的门禁点,以部分路径序列为训练集,设定支持度,对训练集中的路径序列数据进行频繁模式挖掘,将高于支持度对应的训练集中的路径序列作为正常行为序列库;
该步骤为后续的序列异常度分数计算构建包含对应待处理部门人员路径序列的正常行为序列库。正常行为序列库是依据每个待处理部门进行构建的,不同待处理部门的工作地点不同,仅对相应待处理部门的数据库进行频繁序列挖掘。
步骤S300:计算序列异常度分数:将除去训练集外的剩余路径序列与正常行为序列库的所有序列进行对比,计算得到相对编辑距离和相对支持度,根据相对编辑距离和相对支持度计算得到当前行为序列与正常行为序列之间的序列差异分数,之后根据时间规则计算时间异常分数,通过将序列差异分数和时间异常分数加权相加得到序列异常度分数;
该步骤能够利用未来序列异常度分数阈值对人员的行为序列进行报警。
步骤S310:按公式(1)计算用于描述所述剩余路径序列与所述正常行为序列间的差异程度的相对编辑距离RED
其中,ED为编辑距离函数,为测试序列中的第i条序列,为正常序列库中的第j条序列,为相应序列的序列长度。
按公式(2)计算用于描述正常行为序列的支持度对剩余路径序列的差异程度的影响的相对支持度Rsup
其中,为正常序列库中第i条序列的支持度,Maxsup为正常行为序列库中最大的支持度;取对数可以减少因为支持度在数字上差异过大导致的分数差异过大。
计算剩余路径序列与正常行为序列对应的序列差异分数,计算训练集中的每个行为序列与正常行为库中每个序列的相对编辑距离,判断各所述单个相对编辑距离是否为零,按公式(3)求得序列差异分数score1
步骤S320:
按公式(4)计算剩余路径序列的时间异常分数score2
其中,f(Δtk)为刷卡间隔方程,Δtk为当天的第k个时间间隔(单位:分),threshold为设定的异常时间阈值,ti为第i天最早的刷卡时间,Ni为门禁测试序列中第i天的记录总数,f(Δt)方程需根据某待处理部门人员的刷卡间隔拟合得到;
步骤S330:按公式(5)计算序列异常度分数score:
其中,α为序列差异分数的权重,权重可根据决策者的偏好来决定,缺省值为0.5,即简单平均。
步骤S400:按一组差值对应一个支持度设定一系列支持度及其差值,绘制以报警率为纵轴,以人工预设差值为横轴的一系列报警率曲线图,选取曲线形状相似且转折点对应差值相近的4~5幅图作为优选报警率曲线图,选取优选报警率曲线图中支持度最大的报警率曲线作为最优曲线,从所述最优曲线图中读取转折点对应的差值,将得到的当前阈值作为最优阈值,其中,所述报警率为所述训练序列中序列异常度分数大于各差值对应的当前阈值的序列数量与所述训练序列中序列总数的比值,所述当前阈值为取最大的所述序列异常度分数与各差值的差;
步骤S500:日常使用中,按公式(1)(2)(3)(4)(5)对日常工作中某待处理部门每日的待处理部门门禁数据进行处理得到每日序列异常度分数,判断每日序列的异常度分数是否大于最优阈值,如果大于最优阈值则报警,报警后通过人工手段核查报警原因,并人工判断是否存在内部威胁,如果小于最优阈值则不报警。
利用待处理部门门禁历史数据,构建正常行为序列库,并利用部分历史数据对该正常行为序列库进行训练得到训练阈值,从而高效准确简便的检测日常门禁数据中是否有可能存在内部威胁,相较于现有的精确匹配法和纯人工处理方法,处理效率得到提高,准确度也能得到保证。
本发明提供的基于门禁日志挖掘的内部威胁异常行为分析方法,具体步骤如下:
步骤S100:门禁数据样本分析;
由于门禁系统的存在,每个人的卡都由管理人员统一授权,只被允许访问特定的区域。当一个人进入某个区域时,需要预先刷卡,门禁系统会记录当前刷卡时间、刷卡人姓名、卡号、刷卡地点等重要信息。对于待处理部门人员来说,他们的行为路径和刷卡时间是进行异常行为分析的重要对象,按顺序采集一个人每天的刷卡地点,即可得到一个人每天的行为序列。
现行的门禁系统多是刷卡门禁,由一台主服务器和分散在各处的刷卡点构成。由于门禁系统的授权,一个用户进入到其未授权的地方是不行的,但是,若该用户的卡被他人拿走,则未授权者可以进入授权者的地方进行活动。一个门禁系统通常来说可以记录一个用户的刷卡时间、刷卡地点、用户编号等信息,这些信息是后续进行序列异常度分析的基础,将一个人或一个待处理部门每天的刷卡地点按顺序进行采集,即可得到相应的行为序列。
步骤S200:正常行为序列库建立;
对一个人来说,每天工作的流程是基本确定的,因此每天的路径序列相似性较大。例如,对于一个老师来说,每天来到办公室后,经过准备就会去相应实验室和学生讨论问题,或者去教学楼上课。之后再回到办公室备课或完成论文等,这样就形成了“办公室—实验室/教学楼—办公室”的正常行为序列,,因此每天的行为路径序列应该有较大的相似性。将人员访问的门禁点用pi(i=1,2,…,n)表示,按采集顺序排列就可以得到人员的路径序列<p1,p2,…,pi,…,pn>,之后通过利用频繁序列挖掘算法PrefixSpan获取认为设定的频繁序列。为了确保正常行为序列的可靠性,应将支持度设置为20%以上。将高于支持度的行为序列视为正常行为序列,从而得到正常行为序列库。
步骤S300:序列异常度分数计算;
通过精确匹配直接找到异常并报警,在数据有一定缺失的情况下会导致极高的误报率,为此,通过引入序列异常度分数,来定量刻画一个正常序列与一个待评价序列的差异。序列<p1,p2,p3,p4>和<p1,p2,p4,p3>以及序列<p1,p2,p3,p4>和<p3,p5,p1,p6>的差异显然是不同的。传统异常检测方法通过直接进行精确匹配,将与正常行为序列库中内容不同的所有序列均判定为异常,不考虑两个序列之间的差异;为了更好比较的两个序列之间的差异,需要一个可以定量表示序列异常度大小的变量。
编辑距离(Edit Distance,ED)即从一个序列变换到另一个序列所经历的最短次数,实验数据中各门禁点除大门外无互相连通,因此序列的变换不会造成无实际意义的情况。由于不同序列长短和复杂程度各不相同,用于比较的正常行为序列的支持度也不相同,仅靠通过计算编辑距离会造成巨大误差。
本发明通过计算相对编辑距离(Relative Edit Distance,RED)和相对支持度(Relative Support,RSup),进而计算得到序列差异分数(Score of sequence’sdifference degree),之后根据时间规则计算时间异常分数(Score of abnormal time),通过将二者加权相加得到序列异常度分数(Score of sequence’s abnormal degree),可根据决策者的阈值可以对异常序列进行发现。
序列异常度分数的计算具体包括以下步骤:
序列差异分数计算:
(1)相对编辑距离计算
将一个序列变换成另一个序列,其最大的编辑距离为正常行为序列长度和当前行为序列长度中较大的那个。为了更好比较不同序列进行变换时需要的编辑距离的相对大小,计算相对编辑距离如下:
其中,ED为编辑距离函数,为测试序列中的第i条序列,为正常序列库中的第j条序列,为相应序列的序列长度。
相对编辑距离可以有效比较在编辑距离相同时两序列之间的差距。例如,对于序列<p1,p2,p3>变换为<p1,p2,p3,p4,p5>,其编辑距离为2;对于序列<p1,p2>变换为<p1,p2,p3,p4>,其编辑距离同样为2,然而,变换得到的正常行为序列长度不同,在编辑距离相同的情况下,正常行为序列的长度越长,当前行为序列和正常行为序列的相似度越高,两者之间的差异越小,相对编辑距离可以很好的表达出两序列间的差异程度。
(2)相对支持度计算
正常行为序列的支持度对评价当前行为序列的差异程度有很大影响。为了定量刻画这种差异,定义相对支持度Rsup如下:
其中,为正常序列库中第i条序列的支持度,Maxsup为正常行为序列库中最大的支持度;取对数可以减少因为支持度在数字上差异过大导致的分数差异过大。
相对支持度越高,证明人员日常行为若与此行为序列不一致时,当前行为序列的异常程度越大。
(3)序列差异分数计算
相对编辑距离和相对支持度两方面在我们计算序列差异分数时都需要考虑。当前行为序列应与正常行为序列库中每一条序列进行比较,从而得到序列差异分数score1
(a)当相对编辑距离计算结果中存在0时,意味着当前行为序列与正常行为序列库中的序列存在完全一致的情况,因此此时序列差异分数为0;
(b)当相对编辑距离计算结果中不存在0时,意味着当前行为序列与正常行为序列库中的序列不存在完全一致的情况,这时考虑当前行为序列与正常行为序列库中所有序列的整体差别,对计算出的多个得分求平均值,从而得到该行为序列偏离正常行为序列的总体程度:
时间异常分数计算:
(1)时间规则
通过序列差异分数只能对序列的次序异常进行刻画,其中并不包含时间这一变量,无法准确描述异常行为。根据通常存在待处理部门威胁的情况,构建时间异常规则:
刷卡间隔过短:两次刷卡时间间隔过于短暂,异于平常。
上述规则根据具体情况设定具体阈值和条件。
这两种异常利用序列差异分数的方法是无法发现的,例如,对于序列<p1,p1,p1,p2>,当对编号p1的设备在10s内刷卡三次时,这种行为显然是异常的;然而,这条序列可能出现在构建的正常行为序列库中,因为用户在一天内对设备刷卡三次的行为是正常的,此种情况使用异常度分数的方法无法发现其异常,而时间规则却可以发现。
(2)分数计算
刷卡间隔为一天内门禁数据中,同一待处理部门人员的两条相邻刷卡时间间隔,对于刷卡间隔过短的异常,应该根据该待处理部门的整体刷卡间隔情况来确定。通过绘制刷卡间隔与累积频率的曲线(实施例和对比例中所处理门禁数据如图2所示),本方法应用的实验中获得的刷卡间隔与频率的累计曲线,根据这个曲线可以拟合出刷卡间隔方程,并依据此计算时间异常分数,在本实例中拟合得到的方程为f(Δt)=0.1726×(2.11×Δt)0.3708
刷卡时间间隔对应的累计频率越大,意味着该刷卡间隔过短的可能性越小,计算时间异常分数时使用如下公式:
其中,f(Δtk)为刷卡间隔方程,Δtk为当天的第k个时间间隔(单位:分),threshold为设定的异常时间阈值,ti为第i天最早的刷卡时间,Ni为门禁测试序列中第i天的记录总数,f(Δt)方程需根据某待处理部门人员的刷卡间隔拟合得到。
按公式(5)计算序列异常度分数score:
其中,α为序列差异分数的权重,权重可根据决策者的偏好来决定,缺省值为0.5,即简单平均。
异常路径行为发现:
分数计算出来后,人员行为序列的异常程度大小就有了定量的刻画,而将哪些分数视为异常需要人为定性决定。不同部门的人员最后计算出的分数是不一样的,直接对所有人员划定统一的异常分数阈值会导致高误报率,同一部门的人只有在同一部门中进行比较才有较大的说服力;频繁序列的支持度的设定也是一个问题,不同支持度会对最后计算得到的分数产生一定的影响。
为了给决策者进行决策提供更好的支持,我们应为决策者提供在不同支持度下设定不同阈值时产生的报警率,为此,我们通过绘制不同支持度下的报警率曲线来为决策者提供决策依据,决策者可以自行决定需要设定的支持度和异常分数阈值。在报警率曲线中,纵轴为报警率,即在当前阈值下报警的异常行为序列数占总序列数的百分比;横轴为人工设定的差值,从0开始递增,两两之间差1,在每个支持度下通过将计算得到的待评价序列的序列异常度分数集合中的最高值减去当前差值后成为当前阈值。
以下结合具体实施例对本发明提供方法进行详细说明。
实施例1,
按上述方法对某单位的某部门门禁数据进行分析检测,对得到的测试路径序列数据库计算序列异常度分数,得到在不同支持度下的结果,序列异常度分数结果如图3所示。从图中可以看出,随着支持度的增加,计算得到的序列异常度分数整体增大,高分段的集中区域在x轴上向右推进,计算得到的最大分数也逐渐增大。
图4为根据部门人员的行为分数绘制的报警率曲线,从图中可以看出,随着当前阈值的逐渐下降(即差值的逐渐提升),报警的异常行为序列越来越多,决策者可根据图中结果来选定需要的阈值,为今后的异常行为发现提供标准。在不同支持度下,曲线的上升速度相似,这是由于随着支持度的增加,计算得到的分数整体增加的结果。支持度越高,证明结果越可靠。
在设定合理阈值时,从图4中可见,在差值为21左右的时候报警率曲线相对之前突然变陡,报警率在之后迅速上升,决策者可根据转折点来确定合理的阈值;对图中转折点之前的报警进行人工核实,发现这些报警的准确率在90%以上。在本实例中,决策者可选择支持度350、差值为22情况下的当前阈值作为该待处理部门的最优阈值,该实例中最大的序列异常度分数为77.617,则当前阈值为77.617-22=55.617。据此将该待处理部门的最优阈值设定为55.617,当某一天的该待处理部门某门禁数据的每日序列异常度分数大于55.617时,该天即被标记为异常,并报警。报警后通过询问该门禁数据对应人员,行为异常原因,同时询问该行为人的直接领导,以确认是否存在该内部威胁。
此处以现有的精确匹配法作为对比例处理相同的门禁数据,精确匹配法的判断条件:若当前行为序列与正常行为序列库中的所有记录均无法完全匹配,则当前行为序列被判定为异常。该方法通过将序列差异分数score1的最终得分不为0的序列标记为异常序列。所得结果如图5所示。从图5可见,精确匹配法所得检测结果中报警率甚至可以高达94%,在一个可以正常工作的待处理部门中如此高的报警率有悖常理,说明对比例中所用精确匹配法得到结果误报率过高,无法有效检测实际存在的内部威胁,反而容易导致误报。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。
通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中,术语“包括”不排除其他步骤或元素,而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有力地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims (1)

1.一种基于门禁日志挖掘的内部威胁异常行为分析方法,其特征在于,包括以下步骤:
步骤S100:分析门禁数据样本:分析待处理部门的历史门禁数据,得到包含刷卡人姓名、卡号、刷卡时间、刷卡地点的行为序列;
步骤S200:建立正常行为序列库:按每天采集顺序排列所述行为序列,得到所有所述待处理部门人员的每天路径序列<p1,p2,...,pi,...,pn>,其中pi(i=1,2,...,n)表示所述待处理部门人员访问的门禁点,以部分所述路径序列为训练集,设定支持度,对所述训练集中的路径序列数据进行频繁模式挖掘,将高于支持度对应的所述训练集中的路径序列作为正常行为序列库;
步骤S300:计算序列异常度分数:将除去所述训练集外的剩余路径序列与所述正常行为序列库的所有序列进行对比,计算得到相对编辑距离和相对支持度,根据所述相对编辑距离和所述相对支持度计算得到当前行为序列与所述正常行为序列之间的序列差异分数,之后根据时间规则计算时间异常分数,通过将所述序列差异分数和所述时间异常分数加权相加得到序列异常度分数;所述步骤S300包括以下步骤:
步骤S310:按公式(1)计算用于描述所述剩余路径序列与所述正常行为序列间的差异程度的相对编辑距离RED
其中,ED为编辑距离函数,为测试序列中的第i条序列,为正常序列库中的第j条序列,为相应序列的序列长度;
按公式(2)计算用于描述所述正常行为序列的支持度对所述剩余路径序列的差异程度的影响的相对支持度Rsup
其中,为正常序列库中第i条序列的支持度,Maxsup为正常行为序列库中最大的支持度;取对数可以减少因为支持度在数字上差异过大导致的分数差异过大;
计算剩余路径序列与正常行为序列对应的序列差异分数,计算训练集中的每个行为序列与正常行为库中每个序列的相对编辑距离,判断各所述单个相对编辑距离是否为零,按公式(3)求得序列差异分数score1
步骤S320:
按公式(4)计算剩余路径序列的时间异常分数score2
其中,f(Δtk)为刷卡间隔方程,Δtk为当天的第k个时间间隔,单位为分,threshold为设定的异常时间阈值,ti为第i天最早的刷卡时间,Ni为门禁测试序列中第i天的记录总数,f(Δt)方程需根据某待处理部门人员的刷卡间隔拟合得到;
步骤S330:按公式(5)计算所述序列异常度分数score:
其中,α为序列差异分数的权重,权重可根据决策者的偏好来决定,缺省值为0.5,即简单平均;
步骤S400:按一组差值对应一个支持度设定一系列支持度及其差值,绘制以报警率为纵轴,以人工预设差值为横轴的一系列报警率曲线图,选取曲线形状相似且转折点对应差值相近的4~5幅图作为优选报警率曲线图,选取优选报警率曲线图中支持度最大的报警率曲线作为最优曲线,从所述最优曲线图中读取转折点对应的差值,将得到的当前阈值作为最优阈值,其中,所述报警率为训练序列中序列异常度分数大于各差值对应的当前阈值的序列数量与所述训练序列中序列总数的比值,所述当前阈值为序列异常度分数集合中的最高值减去当前差值后的值;
步骤S500:日常使用中,按步骤S300对日常工作中某待处理部门每日的待处理部门门禁数据进行处理得到每日序列异常度分数,判断所述每日序列的异常度分数是否大于所述最优阈值,如果大于所述最优阈值则报警,报警后通过人工手段核查报警原因,并人工判断是否存在内部威胁,如果小于所述最优阈值则不报警。
CN201710771010.9A 2017-08-31 2017-08-31 基于门禁日志挖掘的内部威胁异常行为分析方法 Active CN107609330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710771010.9A CN107609330B (zh) 2017-08-31 2017-08-31 基于门禁日志挖掘的内部威胁异常行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710771010.9A CN107609330B (zh) 2017-08-31 2017-08-31 基于门禁日志挖掘的内部威胁异常行为分析方法

Publications (2)

Publication Number Publication Date
CN107609330A CN107609330A (zh) 2018-01-19
CN107609330B true CN107609330B (zh) 2019-12-06

Family

ID=61057034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710771010.9A Active CN107609330B (zh) 2017-08-31 2017-08-31 基于门禁日志挖掘的内部威胁异常行为分析方法

Country Status (1)

Country Link
CN (1) CN107609330B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491745B (zh) * 2018-03-12 2022-11-22 捷德(中国)信息科技有限公司 数据采集方法及装置、计算机可读存储介质
CN111277465A (zh) * 2020-01-20 2020-06-12 支付宝(杭州)信息技术有限公司 一种异常数据报文检测方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744786A (zh) * 2014-01-16 2014-04-23 北京工业大学 基于软件功能层对软件异常行为溯源的方法
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法
CN105959372A (zh) * 2016-05-06 2016-09-21 华南理工大学 一种基于移动应用的互联网用户数据分析方法
CN106202614A (zh) * 2016-06-24 2016-12-07 四川大学 动态网络中的异常结构演化发现的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5936240B2 (ja) * 2014-09-12 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation データ処理装置、データ処理方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744786A (zh) * 2014-01-16 2014-04-23 北京工业大学 基于软件功能层对软件异常行为溯源的方法
CN105516127A (zh) * 2015-12-07 2016-04-20 中国科学院信息工程研究所 面向内部威胁检测的用户跨域行为模式挖掘方法
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法
CN105959372A (zh) * 2016-05-06 2016-09-21 华南理工大学 一种基于移动应用的互联网用户数据分析方法
CN106202614A (zh) * 2016-06-24 2016-12-07 四川大学 动态网络中的异常结构演化发现的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"基于航站楼门禁日志挖掘的物理入侵检测技术";顾兆军等;《计算机应用与软件》;20151115;第317-324页 *
"基于门禁数据的航站楼员工行为分析";刘飞;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20170315;第C031-1994页 *
"序列挖掘算法研究及其在用户行为分析中的应用";肖扬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;第I138-669页 *
"机场航站楼内员工的频繁路径挖掘技术研究";顾兆军等;《计算机应用与软件》;20150415;第266-270页 *

Also Published As

Publication number Publication date
CN107609330A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN108616545B (zh) 一种网络内部威胁的检测方法、系统及电子设备
CN108566364B (zh) 一种基于神经网络的入侵检测方法
US20050086529A1 (en) Detection of misuse or abuse of data by authorized access to database
CN107528832A (zh) 一种面向系统日志的基线构建与未知异常行为检测方法
TW201629824A (zh) 使用適應性行爲輪廓之異常檢測技術
US9142106B2 (en) Tailgating detection
Yu A survey of anomaly intrusion detection techniques
CN112804196A (zh) 日志数据的处理方法及装置
CN103441982A (zh) 一种基于相对熵的入侵报警分析方法
CN112149749A (zh) 异常行为检测方法、装置、电子设备及可读存储介质
CN116781430B (zh) 用于燃气管网的网络信息安全系统及其方法
CN112565676A (zh) 基于智能摄像机识别在岗人员违规的方法及系统、设备
EP2779133A2 (en) System and method of anomaly detection
CN106792883A (zh) 传感器网络异常数据检测方法与系统
Yu et al. Anomaly intrusion detection based upon data mining techniques and fuzzy logic
CN107609330B (zh) 基于门禁日志挖掘的内部威胁异常行为分析方法
WO2009111130A1 (en) System and method for detection of anomalous access events
CN114398966A (zh) 一种基于堡垒机对用户画像进行预警的方法
CN115049410A (zh) 窃电行为识别方法、装置、电子设备及计算机可读存储介质
Zerhoudi et al. Improving intrusion detection systems using zero-shot recognition via graph embeddings
CN117061211A (zh) 一种基于网络安全管理的数据处理方法及系统
CN115567241A (zh) 一种多站点网络感知检测系统
CN110322049B (zh) 一种公安大数据预警方法
Rodriguez et al. Improving network security through traffic log anomaly detection using time series analysis
Guevara et al. Intrusion detection with neural networks based on knowledge extraction by decision tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant