CN107122669B - 一种评估数据泄露风险的方法和装置 - Google Patents
一种评估数据泄露风险的方法和装置 Download PDFInfo
- Publication number
- CN107122669B CN107122669B CN201710293233.9A CN201710293233A CN107122669B CN 107122669 B CN107122669 B CN 107122669B CN 201710293233 A CN201710293233 A CN 201710293233A CN 107122669 B CN107122669 B CN 107122669B
- Authority
- CN
- China
- Prior art keywords
- day
- sensitive data
- behavior
- risk
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006399 behavior Effects 0.000 claims abstract description 184
- 238000012360 testing method Methods 0.000 claims abstract description 70
- 238000009826 distribution Methods 0.000 claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 20
- 238000012502 risk assessment Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 32
- 238000003860 storage Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000003203 everyday effect Effects 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种评估数据泄露风险的方法和装置,该评估数据泄露风险的方法包括:采集终端用户对敏感数据的正常操作行为;对正常操作行为进行概率分布评估,获得终端用户的行为模型;利用上述的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。通过采集终端用户对敏感数据的正常操作行为,对终端用户访问敏感数据的时间、访问量、访问密度进行采集,特别是对第三方软件的截屏操作进行采集,利用终端用户的行为统计特征,计算得到数据泄露的风险值,以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性,从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。
Description
技术领域
本发明涉及信息安全技术领域,特别涉及一种评估数据泄露风险的方法和装置。
背景技术
随着通信技术和计算机技术的发展,以及电子设备在社会生活中的普及,不管是个人还是机构组织正在把日益繁多的事务利用计算机来完成,从而使敏感信息正经过脆弱的通信线路在计算机之间传输。如今,数据泄露的规模和范围在迅速扩大,这些大规模数据泄露事件在为社会机构带来风险的同时,也使消费者饱受个人信息泄露的困扰,无论是信用卡号、医疗记录,还是密码和银行账号,很可能成为网络罪犯的目标。
目前,数据泄露的途径可归类为三种:一、在使用状态下泄密:1)操作失误导致技术数据泄漏或损坏;2)通过打印、剪切、复制、粘贴、另存为、重命名等操作泄露数据。二、在存储状态下泄密:1)数据中心、服务器、数据库的数据被随意下载、共享泄露;2)离职人员通过U盘、CD/DVD、移动硬盘随意拷走机密资料;3)移动笔记本被盗、丢失或维修造成数据泄露。三、在传输状态下泄密:1)通过email、QQ、MSN等轻易传输机密资料;2)通过网络监听、拦截等方式篡改、伪造传输数据。
针对上述这些情况,现有的解决方案:透明加密、文档外发节制、移动介质管理、数据库日志审计、文件服务器日志审计。其中,数据库日志审计、文件服务器日志审计,是以数据中心为核心的保护措施;透明加密、文档外发节制、移动介质管理是解决存储泄露和传输泄露的有效手段。
但是,对于使用第三方软件进行截屏操作,从而盗取数据信息的行为,现有技术不能有效的防止该行为引起的数据泄露。
发明内容
本发明实施例提供了一种评估数据泄露风险的方法和装置,能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。
第一方面,本发明实施例提供了一种评估数据泄露风险的方法,该方法包括:
采集终端用户对敏感数据的正常操作行为;
对正常操作行为进行概率分布评估,获得终端用户的行为模型;
利用上述的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。
优选地,对正常操作行为进行概率分布评估,获得终端用户的行为模型,包括:
根据采集到的正常操作行为建立行为样本;
建立概率估算函数,其中,概率估算函数为:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
对正常操作行为进行概率分布计算,获得终端用户的行为模型,包括:
利用上述的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型。
优选地,在确定测试操作行为的风险值之前,进一步包括:
利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值。
优选地,确定测试操作行为的风险值,包括:
根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
优选地,利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值;
根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值。
优选地,根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R:
其中,R1为R工作时间访问量;R2为R非工作时间访问量;R3为R工作时间截屏量;R4为R非工作时间截屏量;R5为单日R访问间隔的最大值;R6为单日R截屏间隔的最大值;α1、α2、α3、α4、α5、α6依次对应为权重,β表示常量。
优选地,在采集终端用户对敏感数据的正常操作行为之后,进一步包括:
利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
第二方面,本发明实施例提供了一种评估数据泄露风险的装置,该装置包括:采集单元、评估单元和确定单元,其中,
采集单元,用于采集终端用户对敏感数据的正常操作行为;
评估单元,用于对采集单元采集的正常操作行为进行概率分布评估,获得终端用户的行为模型;
确定单元,用于利用评估单元获得的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。
优选地,评估单元包括:建立子单元和计算子单元,其中,
建立子单元,用于根据采集到的正常操作行为建立行为样本、以及建立概率估算函数:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
计算子单元,用于利用建立子单元建立的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型;
进一步包括:单概率单元和单风险单元,其中,
单概率单元,用于利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
单风险单元,用于根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值;
确定单元,具体用于根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
优选地,单概率单元,具体用于利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值;
单风险单元,具体用于根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值;
确定单元,具体用于根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R:
其中,R1为R工作时间访问量;R2为R非工作时间访问量;R3为R工作时间截屏量;R4为R非工作时间截屏量;R5为单日R访问间隔的最大值;R6为单日R截屏间隔的最大值;α1、α2、α3、α4、α5、α6依次对应为权重,β表示常量。
优选地,该装置进一步包括:统计单元,用于利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
本发明实施例提供了一种评估数据泄露风险的方法和装置,通过采集终端用户对敏感数据的正常操作行为,对终端用户访问敏感数据的时间、访问量、访问密度进行采集,特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为进行概率分布计算,获得终端用户的行为模型,最终利用上述的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。利用终端用户的行为统计特征,让数据“说话”,计算得到数据泄露的风险值,以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性,从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种评估数据泄露风险的方法流程图;
图2是本发明一个实施例提供的另一种评估数据泄露风险的方法流程图;
图3是本发明一个实施例提供的一种评估数据泄露风险的装置的结构示意图;
图4是本发明一个实施例提供的另一种评估数据泄露风险的装置的结构示意图;
图5是本发明一个实施例提供的又一种评估数据泄露风险的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种评估数据泄露风险的方法,该方法可以包括以下步骤:
步骤101:采集终端用户对敏感数据的正常操作行为。
步骤102:对正常操作行为进行概率分布评估,获得终端用户的行为模型。
步骤103:利用上述的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。
在上述实施例中,通过采集终端用户对敏感数据的正常操作行为,对终端用户访问敏感数据的时间、访问量、访问密度等统计指标进行采集,特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为的统计指标进行概率分布计算,获得终端用户的行为模型,最终利用上述的行为模型对终端用户访问敏感数据的行为进行风险评估,确定终端用户测试操作行为的风险值。本发明利用终端用户的行为统计特征,让数据“说话”,计算得到数据泄露的风险值,以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性,从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。
在本发明一个实施例中,对正常操作行为进行概率分布计算,获得终端用户的行为模型,包括:
根据采集到的正常操作行为建立行为样本;
建立概率估算函数,其中,概率估算函数为:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
对正常操作行为进行概率分布计算,获得终端用户的行为模型,包括:
利用上述的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型。
在该实施例中,建立概率估算函数的过程可以为:
在数学上一个连续概率密度函数p(x)的需满足以下的条件:
1、x在a和b之间的概率为:
2、对所有的x,p(x)非负;
3、p(x)的积分值为1:
最经常使用的概率密度函数就是高斯函数(正态分布)
将一维的情况扩展到多维,现在的x就是一个向量,p(x)也需要满足下列条件:
1、x在一个区域R内的概率为:
P=∫R p(x)dx
2、概率密度函数的积分值为1:
∫p(x)dx=1
假设R非常小,那么p(x)的变化也很小,上面的公式就改写为:
P=∫R p(x)dx≈p(x)∫R dx=p(x)V
其中,V是R的“体积”;
另一方面,假设x1,…,xn是根据密度函数p(x)独立取的n个样本点,其中,有k个样本点落入到区域R中,那么关于R的概率就为:
P=k/n
这样就可以得到一个p(x)的估计函数:
假设R是以x为中心的超立方体,h为这个超立方体的边长,在二维的方形中有V=h×h,三维的立方体中有V=h3;
给定上面的公式,表示的是xi是否落在方形中。
Parzen概率密度估计公式的表示如下:
在该实施例中中的窗口函数取高斯函数,即:
这种方法就相当于将n个点为中心的高斯函数计算平均。其中标准差σ需要预先设定。如果σ较大,则最终分布比较平滑;如果σ较小,则最终分布会比较陡峭。
下面以具体数字说明该概率估算函数的用法。例如:给定五个点:x1=2,x2=2.5,x3=3,x4=1,x5=6,采用σ=1,计算x=3的概率分布。计算过程如下:
在该实施例中,以终端用户每天截屏数量值做为训练样本,利用上述概率估算函数,可以推算出终端用户每天截屏数量的概率分布,从而获得终端用户每天截屏数量的行为模型。以终端用户每天截屏操作的时间间隔作为训练样本,同样利用上述概率估算函数,可以推算出终端用户每天截屏时间间隔的概率分布,从而获得终端用户每天截屏时间间隔的行为模型。
在本发明一个实施例中,在确定测试操作行为的风险值之前,进一步包括:
利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值。
在本发明一个实施例中,确定测试操作行为的风险值,包括:根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
在该实施例中,由于不同时间终端用户的不同操作行为会引起不同程度的数据泄露的风险。例如:某用户供职的工作单位规定的工作时间为上午9:00至12:00,下午13:00至18:00。因此该用户的操作行为就可以分为工作时间内的操作行为和非工作时间内的操作行为,并且用户在工作时间、非工作时间的操作行为应该具有不同的风险等级,因此引入权重。
为了更加清楚的说明测试操作行为的风险值计算方法,下面以单日截屏操作为例进行详细介绍。
利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值,其中,至少一个统计包括:单日工作时间内对敏感数据进行访问的数量、单日工作时间内对敏感数据进行截屏的数量、R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;单日非工作时间内对敏感数据进行访问的数量、单日非工作时间内对敏感数据进行截屏的数量、单日对敏感数据连续两次访问的时间间隔、单日对敏感数据连续两次截屏的时间间隔。例如:某用户供职的工作单位规定的工作时间为上午9:00至12:00,下午13:00至18:00。因此单日除此之外的时间均为非工作时间。
根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值。
然后,根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R:
其中,R1为R工作时间访问量;R1为R非工作时间访问量;R3为R工作时间截屏量;R4为R非工作时间截屏量;R5为单日R访问间隔的最大值;R6为单日R截屏间隔的最大值;α1、α2、α3、α4、α5、α6依次对应为权重,β表示常量。
在该实施例中,权重α1、α2、…、αn采用有指导的机器学习方式来进行设置。该学习方式分为两步:第一步,筛选出单个统计指标对应的风险值较高的测试操作实例(如工作时间内截屏量非常大的操作或某一时段内频繁访问一个敏感数据源的操作等),进行人工复核,人工标定确实存在数据泄露的行为实例并作为黑样本,将正常的用户操作行为实例作为白样本;第二步,利用第一步得到的黑白样本,采用逻辑回归算法,进行机器学习,得到分类效果最佳的权重值α1、α2、…、αn。
在本发明一个实施例中,在采集终端用户对敏感数据的正常操作行为之后,进一步包括:
利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
在该实施例中,由于需要面对终端用户海量的操作行为日志,为了高效地处理操作行为日志的数据,利用Hadoop的MapReduce技术进行统计。例如:使用hadoop的mapreduce技术来完成对终端用户每天截屏操作的次数统计等。
为更清楚说明本发明的技术方案,下面参考图2对本发明提供的评估数据泄露的方法进行详细介绍。
在下述实施例中,在一万个Windows终端上部署了用户行为监控程序。
步骤201:对用户的截屏操作进行采集,其中,采集内容如下表1:
表1
在该步骤中,通过使用Windows上的驱动级钩子来拦截键盘和屏幕操作,监控程序完成对用户行为的采集。
步骤202:利用Hadoop的MapReduce技术对用户每天截屏操作进行统计。
在该步骤中,map函数接收的键是日志文件名,值是日志文件的内容,map逐条遍历日志记录,每遇到一个用户ID(userId),就产生一个中间键值对,这表示又找到了一个用户的截屏操作记录;MapReduce将键相同(用户ID都是u)的键值对传给reduce函数,这样reduce函数接收的键就是u,值是一串"1"(最基本的实现是这样,但可以优化),个数等于键为u的键值对的个数,然后将这些“1”累加就得到用户u在当天的截屏操作的次数。
步骤203:对用户的截屏操作按天为单位进行统计,估算单日截屏操作的次数和频率。
步骤204:对截屏操作的次数和截屏操作的频率进行概率分布评估,获得用户行为模型。
在该步骤中,采用Parzen窗方法,利用上述概率估算函数进行概率分布计算。以用户每天的截屏操作的次数和截屏操作的频率做为训练样本,通过上述Parzen窗方法,估算出用户每天截屏数量的概率分布。
步骤205:提取用户行为日志中某一天的日志记录,统计其在这一天当中的工作时间内的截屏操作数量、非工作时间的截屏操作的数量、相邻两次截屏操作的时间间隔。
步骤206:根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值。
步骤207:根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值。
该实施例中,对终端用户访问敏感数据的时间、访问量、访问密度进行监测、分析,以发现高风险的数据泄露行为。同时提出的数据泄露风险评估方法利用了终端用户行为的统计特征,计算得到的数据泄露风险值既客观、可解释性又较强,而且适用于对海量用户行为记录进行并行处理以建立用户模型的情形。
如图3所示,本发明实施例提供了一种评估数据泄露风险的装置,该装置可以包括:采集单元301、评估单元302和确定单元303,其中,
采集单元301,用于采集终端用户对敏感数据的正常操作行为;
评估单元302,用于对采集单元采集的正常操作行为进行概率分布计算,获得终端用户的行为模型;
确定单元303,用于利用评估单元获得的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值。
在本发明一个实施例中,评估单元包括:建立子单元和计算子单元,其中,
建立子单元,用于根据采集到的正常操作行为建立行为样本、以及建立概率估算函数:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
计算子单元,用于利用建立子单元建立的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型。
如图4所示,在本发明一个实施例中,该评估数据泄露风险的装置进一步包括:单概率单元401和单风险单元402,其中,
单概率单元401,用于利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
单风险单元402,用于根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值;
确定单元303,具体用于根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
在本发明一个实施例中,单概率单元,具体用于利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值;
单风险单元,具体用于根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值;
确定单元,具体用于根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R:
其中,R1为R工作时间访问量;R2为R非工作时间访问量;R3为R工作时间截屏量;R4为R非工作时间截屏量;R5为单日R访问间隔的最大值;R6为单日R截屏间隔的最大值;α1、α2、α3、α4、α5、α6依次对应为权重,β表示常量。
如图5所示,在本发明一个实施例中,该装置可以进一步包括:统计单元501,用于利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
上述装置内的各单元之间的信息交互、执行过程等内容,与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,该可读介质可以包括:执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一实施例中所述的评估数据泄露风险的方法。
本发明实施例提供了一种存储控制器,该存储控制器可以包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线连接;
所述存储器,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一实施例所述的评估数据泄露风险的方法。
综上,本发明的各实施例,至少具有如下有益效果:
1、在本发明的实施例中,通过采集终端用户对敏感数据的正常操作行为,对终端用户访问敏感数据的时间、访问量、访问密度等指标进行采集,特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为的统计指标进行概率分布估计,获得终端用户的行为模型,最终利用上述的行为模型对终端用户访问敏感数据的行为进行风险评估,确定终端用户行为的风险值。本发明利用终端用户的行为统计特征,让数据“说话”,计算得到数据泄露的风险值,以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性,从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。
2、在本发明的实施例中,面对海量的用户行为日志,使用了hadoop的mapreduce技术,能够有效的提高处理日志数据的效率。从而适用于对海量用户行为记录进行并行处理以建立用户模型的情形。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (7)
1.一种评估数据泄露风险的方法,其特征在于,该方法包括:
采集终端用户对敏感数据的正常操作行为;
对正常操作行为进行概率分布评估,获得终端用户的行为模型,包括:
根据采集到的正常操作行为建立行为样本;
建立概率估算函数,其中,概率估算函数为:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
利用上述的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型;
利用上述的行为模型对敏感数据的测试操作行为进行风险评估,确定测试操作行为的风险值,包括:
利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值;
根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
2.根据权利要求1所述的评估数据泄露风险的方法,其特征在于,
利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值;
根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值。
4.根据权利要求1-3任一所述的评估数据泄露风险的方法,其特征在于,在采集终端用户对敏感数据的正常操作行为之后,进一步包括:
利用海杜普Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
5.一种评估数据泄露风险的装置,其特征在于,
采集单元,用于采集终端用户对敏感数据的正常操作行为;
评估单元,用于对采集单元采集的正常操作行为进行概率分布评估,获得终端用户的行为模型;该评估单元包括:建立子单元和计算子单元,其中,
建立子单元,用于根据采集到的正常操作行为建立行为样本、以及建立概率估算函数:
其中,n用于表征行为样本的数量;xi用于表征第i个行为样本;x用于表征概率估算函数的自变量;σ用于表征预先设定的常数;
计算子单元,用于利用建立子单元建立的概率估算函数,计算正常操作行为的概率分布,获得终端用户的行为模型;
单概率单元,用于利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值;
单风险单元,用于根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,Ri(k)为统计指标i进行k操作的风险值;Pi(k)为统计指标i进行k操作的概率值;
确定单元,具体用于根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R,
其中,Ri为统计指标风险值;αi为Ri的权重,β为常量。
6.根据权利要求5所述的评估数据泄露风险的装置,其特征在于,
单概率单元,具体用于利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值;
单风险单元,具体用于根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值,其中,每一个统计指标对应的风险值计算公式为:
其中,R工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的风险值;P工作时间访问量(k)为单日工作时间内对敏感数据进行k次访问的概率值;R工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的风险值;P工作时间截屏量(k)为单日工作时间内对敏感数据进行k次截屏的概率值;R非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的风险值;P非工作时间访问量(k)为单日非工作时间内对敏感数据进行k次访问的概率值;R非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的风险值;P非工作时间截屏量(k)为单日非工作时间内对敏感数据进行k次截屏的概率值;R访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值;P访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值;R截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值,P截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值;
确定单元,具体用于根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R:
其中,R1为R工作时间访问量;R2为R非工作时间访问量;R3为R工作时间截屏量;R4为R非工作时间截屏量;R5为单日R访问间隔的最大值;R6为单日R截屏间隔的最大值;α1、α2、α3、α4、α5、α6依次对应为权重,β表示常量。
7.根据权利要求5或6所述的评估数据泄露风险的装置,其特征在于,该装置进一步包括:统计单元,用于利用海杜普Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710293233.9A CN107122669B (zh) | 2017-04-28 | 2017-04-28 | 一种评估数据泄露风险的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710293233.9A CN107122669B (zh) | 2017-04-28 | 2017-04-28 | 一种评估数据泄露风险的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122669A CN107122669A (zh) | 2017-09-01 |
CN107122669B true CN107122669B (zh) | 2020-06-02 |
Family
ID=59726469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710293233.9A Active CN107122669B (zh) | 2017-04-28 | 2017-04-28 | 一种评估数据泄露风险的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122669B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108023882B (zh) * | 2017-12-04 | 2020-09-25 | 北京明朝万达科技股份有限公司 | 一种协同数据防泄漏方法及系统 |
CN108712275A (zh) * | 2018-04-19 | 2018-10-26 | 平安科技(深圳)有限公司 | 数据传输风险评估方法、装置、计算机设备和存储介质 |
CN108717510A (zh) * | 2018-05-11 | 2018-10-30 | 深圳市联软科技股份有限公司 | 一种通过聚类分析文件异常操作行为的方法、系统及终端 |
CN109344613A (zh) * | 2018-10-09 | 2019-02-15 | 北京北信源信息安全技术有限公司 | 应用系统操作人员行为审计预警方法及系统 |
CN111353163A (zh) * | 2018-12-24 | 2020-06-30 | 华为技术有限公司 | 确定访问权限的方法、装置及存储介质 |
CN110532158B (zh) * | 2019-09-03 | 2024-01-19 | 南方电网科学研究院有限责任公司 | 操作数据的安全评估方法、装置、设备及可读存储介质 |
CN110677430B (zh) * | 2019-10-14 | 2020-09-08 | 西安交通大学 | 基于网络安全设备日志数据的用户风险度评估方法和系统 |
CN113032793A (zh) * | 2021-04-13 | 2021-06-25 | 北京国联易安信息技术有限公司 | 数据安全智能加固系统及方法 |
CN113849760B (zh) * | 2021-12-02 | 2022-07-22 | 云账户技术(天津)有限公司 | 敏感信息风险评估方法、系统和存储介质 |
CN115022094B (zh) * | 2022-08-08 | 2022-12-20 | 广东省信息工程有限公司 | 一种便于了解单位内部计算机使用情况的监控系统 |
CN115409517A (zh) * | 2022-09-21 | 2022-11-29 | 上海夺畅网络技术有限公司 | 一种跨境电商金融风险控制方法及系统 |
CN116738485B (zh) * | 2023-06-21 | 2023-12-05 | 江苏克胜集团股份有限公司 | 一种基于数字化信息传输的安全管理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894239A (zh) * | 2010-08-12 | 2010-11-24 | 武汉大学 | 基于演化策略的敏感数据审计分发方法及系统 |
CN102185836A (zh) * | 2011-04-15 | 2011-09-14 | 哈尔滨工业大学 | 基于信息流模型的单机电子文档保护系统 |
CN103778377A (zh) * | 2014-01-28 | 2014-05-07 | 宇龙计算机通信科技(深圳)有限公司 | 一种终端及防止敏感信息泄露的方法 |
CN104361123A (zh) * | 2014-12-03 | 2015-02-18 | 中国科学技术大学 | 一种个人行为数据匿名化方法及系统 |
CN105049421A (zh) * | 2015-06-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 基于用户使用行为特征的认证方法、服务器、终端及系统 |
CN105357217A (zh) * | 2015-12-02 | 2016-02-24 | 北京北信源软件股份有限公司 | 基于用户行为分析的数据盗取风险评估方法和系统 |
CN106469274A (zh) * | 2016-08-31 | 2017-03-01 | 北京北信源软件股份有限公司 | 一种数据窃取风险分析方法及分析系统 |
-
2017
- 2017-04-28 CN CN201710293233.9A patent/CN107122669B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894239A (zh) * | 2010-08-12 | 2010-11-24 | 武汉大学 | 基于演化策略的敏感数据审计分发方法及系统 |
CN102185836A (zh) * | 2011-04-15 | 2011-09-14 | 哈尔滨工业大学 | 基于信息流模型的单机电子文档保护系统 |
CN103778377A (zh) * | 2014-01-28 | 2014-05-07 | 宇龙计算机通信科技(深圳)有限公司 | 一种终端及防止敏感信息泄露的方法 |
CN104361123A (zh) * | 2014-12-03 | 2015-02-18 | 中国科学技术大学 | 一种个人行为数据匿名化方法及系统 |
CN105049421A (zh) * | 2015-06-24 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 基于用户使用行为特征的认证方法、服务器、终端及系统 |
CN105357217A (zh) * | 2015-12-02 | 2016-02-24 | 北京北信源软件股份有限公司 | 基于用户行为分析的数据盗取风险评估方法和系统 |
CN106469274A (zh) * | 2016-08-31 | 2017-03-01 | 北京北信源软件股份有限公司 | 一种数据窃取风险分析方法及分析系统 |
Non-Patent Citations (1)
Title |
---|
"Parzen window概率密度估计";小罗;《blog.sina.com.cn/s/blog_679e13290101cpr1.html》;20130411;正文第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107122669A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122669B (zh) | 一种评估数据泄露风险的方法和装置 | |
US10742671B2 (en) | Systems and methods for detecting resources responsible for events | |
US20220327409A1 (en) | Real Time Detection of Cyber Threats Using Self-Referential Entity Data | |
US10178116B2 (en) | Automated computer behavioral analysis system and methods | |
CN104836781B (zh) | 区分访问用户身份的方法及装置 | |
US10885167B1 (en) | Intrusion detection based on anomalies in access patterns | |
CN109978033B (zh) | 同操作人识别模型的构建与同操作人识别的方法和装置 | |
CN105590055A (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
US20180253737A1 (en) | Dynamicall Evaluating Fraud Risk | |
WO2017013529A1 (en) | System and method for determining credit worthiness of a user | |
CN114124460B (zh) | 工控系统入侵检测方法、装置、计算机设备及存储介质 | |
CN115859345A (zh) | 一种基于区块链的数据访问管理方法和系统 | |
CN112819611A (zh) | 欺诈识别方法、装置、电子设备和计算机可读存储介质 | |
CN114785616A (zh) | 数据风险检测方法、装置、计算机设备及存储介质 | |
CN114595765A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
CN117609992A (zh) | 一种数据泄密检测方法、装置及存储介质 | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
CN108446907B (zh) | 安全校验方法及装置 | |
US20210182710A1 (en) | Method and system of user identification by a sequence of opened user interface windows | |
CN113508371B (zh) | 用于改进计算机标识的系统和方法 | |
Wang | Anti-Fraud Engineering for Digital Finance | |
CN117520086B (zh) | 一种存储性能监控方法、系统及存储介质 | |
CN113159915B (zh) | 基于大数据的智能金融信用动态评估方法及系统 | |
RU2801674C2 (ru) | Способ и система идентификации пользователя по последовательности открываемых окон пользовательского интерфейса |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |