CN107122669B

CN107122669B - 一种评估数据泄露风险的方法和装置

Info

Publication number: CN107122669B
Application number: CN201710293233.9A
Authority: CN
Inventors: 张宏宇; 胡建斌; 李鹏
Original assignee: Linkdood Technologies SdnBhd
Current assignee: Linkdood Technologies SdnBhd
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2020-06-02
Anticipated expiration: 2037-04-28
Also published as: CN107122669A

Abstract

本发明公开了一种评估数据泄露风险的方法和装置，该评估数据泄露风险的方法包括：采集终端用户对敏感数据的正常操作行为；对正常操作行为进行概率分布评估，获得终端用户的行为模型；利用上述的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。通过采集终端用户对敏感数据的正常操作行为，对终端用户访问敏感数据的时间、访问量、访问密度进行采集，特别是对第三方软件的截屏操作进行采集，利用终端用户的行为统计特征，计算得到数据泄露的风险值，以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性，从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。

Description

一种评估数据泄露风险的方法和装置

技术领域

本发明涉及信息安全技术领域，特别涉及一种评估数据泄露风险的方法和装置。

背景技术

随着通信技术和计算机技术的发展，以及电子设备在社会生活中的普及，不管是个人还是机构组织正在把日益繁多的事务利用计算机来完成，从而使敏感信息正经过脆弱的通信线路在计算机之间传输。如今，数据泄露的规模和范围在迅速扩大，这些大规模数据泄露事件在为社会机构带来风险的同时，也使消费者饱受个人信息泄露的困扰，无论是信用卡号、医疗记录，还是密码和银行账号，很可能成为网络罪犯的目标。

目前，数据泄露的途径可归类为三种：一、在使用状态下泄密：1)操作失误导致技术数据泄漏或损坏；2)通过打印、剪切、复制、粘贴、另存为、重命名等操作泄露数据。二、在存储状态下泄密：1)数据中心、服务器、数据库的数据被随意下载、共享泄露；2)离职人员通过U盘、CD/DVD、移动硬盘随意拷走机密资料；3)移动笔记本被盗、丢失或维修造成数据泄露。三、在传输状态下泄密：1)通过email、QQ、MSN等轻易传输机密资料；2)通过网络监听、拦截等方式篡改、伪造传输数据。

针对上述这些情况，现有的解决方案：透明加密、文档外发节制、移动介质管理、数据库日志审计、文件服务器日志审计。其中，数据库日志审计、文件服务器日志审计，是以数据中心为核心的保护措施；透明加密、文档外发节制、移动介质管理是解决存储泄露和传输泄露的有效手段。

但是，对于使用第三方软件进行截屏操作，从而盗取数据信息的行为，现有技术不能有效的防止该行为引起的数据泄露。

发明内容

本发明实施例提供了一种评估数据泄露风险的方法和装置，能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。

第一方面，本发明实施例提供了一种评估数据泄露风险的方法，该方法包括：

采集终端用户对敏感数据的正常操作行为；

对正常操作行为进行概率分布评估，获得终端用户的行为模型；

利用上述的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。

优选地，对正常操作行为进行概率分布评估，获得终端用户的行为模型，包括：

根据采集到的正常操作行为建立行为样本；

建立概率估算函数，其中，概率估算函数为：

其中，n用于表征行为样本的数量；x_i用于表征第i个行为样本；x用于表征概率估算函数的自变量；σ用于表征预先设定的常数；

对正常操作行为进行概率分布计算，获得终端用户的行为模型，包括：

利用上述的概率估算函数，计算正常操作行为的概率分布，获得终端用户的行为模型。

优选地，在确定测试操作行为的风险值之前，进一步包括：

利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值；

根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值，其中，每一个统计指标对应的风险值计算公式为：

其中，R_i(k)为统计指标i进行k操作的风险值；P_i(k)为统计指标i进行k操作的概率值。

优选地，确定测试操作行为的风险值，包括：

根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R，

其中，R_i为统计指标风险值；α_i为R_i的权重，β为常量。

优选地，利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值；

根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值，其中，每一个统计指标对应的风险值计算公式为：

其中，R_{工作时间访问量}(k)为单日工作时间内对敏感数据进行k次访问的风险值；P_{工作时间访问量}(k)为单日工作时间内对敏感数据进行k次访问的概率值；R_{工作时间截屏量}(k)为单日工作时间内对敏感数据进行k次截屏的风险值；P_{工作时间截屏量}(k)为单日工作时间内对敏感数据进行k次截屏的概率值；R_{非工作时间访问量}(k)为单日非工作时间内对敏感数据进行k次访问的风险值；P_{非工作时间访问量}(k)为单日非工作时间内对敏感数据进行k次访问的概率值；R_{非工作时间截屏量}(k)为单日非工作时间内对敏感数据进行k次截屏的风险值；P_{非工作时间截屏量}(k)为单日非工作时间内对敏感数据进行k次截屏的概率值；R_访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值；P_访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值；R_截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值，P_截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值。

优选地，根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R：

其中，R₁为R_{工作时间访问量}；R₂为R_{非工作时间访问量}；R₃为R_{工作时间截屏量}；R₄为R_{非工作时间截屏量}；R₅为单日R_访问间隔的最大值；R₆为单日R_截屏间隔的最大值；α₁、α₂、α₃、α₄、α₅、α₆依次对应为权重，β表示常量。

优选地，在采集终端用户对敏感数据的正常操作行为之后，进一步包括：

利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。

第二方面，本发明实施例提供了一种评估数据泄露风险的装置，该装置包括：采集单元、评估单元和确定单元，其中，

采集单元，用于采集终端用户对敏感数据的正常操作行为；

评估单元，用于对采集单元采集的正常操作行为进行概率分布评估，获得终端用户的行为模型；

确定单元，用于利用评估单元获得的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。

优选地，评估单元包括：建立子单元和计算子单元，其中，

建立子单元，用于根据采集到的正常操作行为建立行为样本、以及建立概率估算函数：

计算子单元，用于利用建立子单元建立的概率估算函数，计算正常操作行为的概率分布，获得终端用户的行为模型；

进一步包括：单概率单元和单风险单元，其中，

单概率单元，用于利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值；

单风险单元，用于根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值，其中，每一个统计指标对应的风险值计算公式为：

其中，R_i(k)为统计指标i进行k操作的风险值；P_i(k)为统计指标i进行k操作的概率值；

确定单元，具体用于根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R，

其中，R_i为统计指标风险值；α_i为R_i的权重，β为常量。

优选地，单概率单元，具体用于利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值；

单风险单元，具体用于根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值，其中，每一个统计指标对应的风险值计算公式为：

其中，R_{工作时间访问量}(k)为单日工作时间内对敏感数据进行k次访问的风险值；P_{工作时间访问量}(k)为单日工作时间内对敏感数据进行k次访问的概率值；R_{工作时间截屏量}(k)为单日工作时间内对敏感数据进行k次截屏的风险值；P_{工作时间截屏量}(k)为单日工作时间内对敏感数据进行k次截屏的概率值；R_{非工作时间访问量}(k)为单日非工作时间内对敏感数据进行k次访问的风险值；P_{非工作时间访问量}(k)为单日非工作时间内对敏感数据进行k次访问的概率值；R_{非工作时间截屏量}(k)为单日非工作时间内对敏感数据进行k次截屏的风险值；P_{非工作时间截屏量}(k)为单日非工作时间内对敏感数据进行k次截屏的概率值；R_访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的风险值；P_访问间隔(k)为单日对敏感数据连续两次访问的时间间隔是k秒的概率值；R_截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的风险值，P_截屏间隔(k)为单日对敏感数据连续两次截屏的时间间隔是k秒的概率值；

确定单元，具体用于根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R：

优选地，该装置进一步包括：统计单元，用于利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。

本发明实施例提供了一种评估数据泄露风险的方法和装置，通过采集终端用户对敏感数据的正常操作行为，对终端用户访问敏感数据的时间、访问量、访问密度进行采集，特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为进行概率分布计算，获得终端用户的行为模型，最终利用上述的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。利用终端用户的行为统计特征，让数据“说话”，计算得到数据泄露的风险值，以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性，从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种评估数据泄露风险的方法流程图；

图2是本发明一个实施例提供的另一种评估数据泄露风险的方法流程图；

图3是本发明一个实施例提供的一种评估数据泄露风险的装置的结构示意图；

图4是本发明一个实施例提供的另一种评估数据泄露风险的装置的结构示意图；

图5是本发明一个实施例提供的又一种评估数据泄露风险的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种评估数据泄露风险的方法，该方法可以包括以下步骤：

步骤101：采集终端用户对敏感数据的正常操作行为。

步骤102：对正常操作行为进行概率分布评估，获得终端用户的行为模型。

步骤103：利用上述的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。

在上述实施例中，通过采集终端用户对敏感数据的正常操作行为，对终端用户访问敏感数据的时间、访问量、访问密度等统计指标进行采集，特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为的统计指标进行概率分布计算，获得终端用户的行为模型，最终利用上述的行为模型对终端用户访问敏感数据的行为进行风险评估，确定终端用户测试操作行为的风险值。本发明利用终端用户的行为统计特征，让数据“说话”，计算得到数据泄露的风险值，以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性，从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。

在本发明一个实施例中，对正常操作行为进行概率分布计算，获得终端用户的行为模型，包括：

根据采集到的正常操作行为建立行为样本；

建立概率估算函数，其中，概率估算函数为：

在该实施例中，建立概率估算函数的过程可以为：

在数学上一个连续概率密度函数p(x)的需满足以下的条件：

1、x在a和b之间的概率为：

2、对所有的x，p(x)非负；

3、p(x)的积分值为1:

最经常使用的概率密度函数就是高斯函数(正态分布)

将一维的情况扩展到多维，现在的x就是一个向量，p(x)也需要满足下列条件：

1、x在一个区域R内的概率为：

P＝∫_R p(x)dx

2、概率密度函数的积分值为1：

∫p(x)dx＝1

假设R非常小，那么p(x)的变化也很小，上面的公式就改写为：

P＝∫_R p(x)dx≈p(x)∫_R dx＝p(x)V

其中，V是R的“体积”；

另一方面，假设x₁，…，x_n是根据密度函数p(x)独立取的n个样本点，其中，有k个样本点落入到区域R中，那么关于R的概率就为：

P＝k/n

这样就可以得到一个p(x)的估计函数：

假设R是以x为中心的超立方体，h为这个超立方体的边长，在二维的方形中有V＝h×h，三维的立方体中有V＝h³；

给定上面的公式，表示的是x_i是否落在方形中。

Parzen概率密度估计公式的表示如下：

其中，

是窗口函数。

在该实施例中中的窗口函数取高斯函数，即：

这种方法就相当于将n个点为中心的高斯函数计算平均。其中标准差σ需要预先设定。如果σ较大，则最终分布比较平滑；如果σ较小，则最终分布会比较陡峭。

下面以具体数字说明该概率估算函数的用法。例如：给定五个点：x₁＝2，x₂＝2.5，x₃＝3，x₄＝1，x₅＝6，采用σ＝1，计算x＝3的概率分布。计算过程如下：

在该实施例中，以终端用户每天截屏数量值做为训练样本，利用上述概率估算函数，可以推算出终端用户每天截屏数量的概率分布，从而获得终端用户每天截屏数量的行为模型。以终端用户每天截屏操作的时间间隔作为训练样本，同样利用上述概率估算函数，可以推算出终端用户每天截屏时间间隔的概率分布，从而获得终端用户每天截屏时间间隔的行为模型。

在本发明一个实施例中，在确定测试操作行为的风险值之前，进一步包括：

在本发明一个实施例中，确定测试操作行为的风险值，包括：根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R，

其中，R_i为统计指标风险值；α_i为R_i的权重，β为常量。

在该实施例中，由于不同时间终端用户的不同操作行为会引起不同程度的数据泄露的风险。例如：某用户供职的工作单位规定的工作时间为上午9:00至12:00，下午13:00至18:00。因此该用户的操作行为就可以分为工作时间内的操作行为和非工作时间内的操作行为，并且用户在工作时间、非工作时间的操作行为应该具有不同的风险等级，因此引入权重。

为了更加清楚的说明测试操作行为的风险值计算方法，下面以单日截屏操作为例进行详细介绍。

利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值，其中，至少一个统计包括：单日工作时间内对敏感数据进行访问的数量、单日工作时间内对敏感数据进行截屏的数量、R_{非工作时间访问量}(k)为单日非工作时间内对敏感数据进行k次访问的风险值；单日非工作时间内对敏感数据进行访问的数量、单日非工作时间内对敏感数据进行截屏的数量、单日对敏感数据连续两次访问的时间间隔、单日对敏感数据连续两次截屏的时间间隔。例如：某用户供职的工作单位规定的工作时间为上午9:00至12:00，下午13:00至18:00。因此单日除此之外的时间均为非工作时间。

然后，根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值R：

其中，R₁为R_{工作时间访问量}；R₁为R_{非工作时间访问量}；R₃为R_{工作时间截屏量}；R₄为R_{非工作时间截屏量}；R₅为单日R_访问间隔的最大值；R₆为单日R_截屏间隔的最大值；α₁、α₂、α₃、α₄、α₅、α₆依次对应为权重，β表示常量。

在该实施例中，权重α₁、α₂、…、α_n采用有指导的机器学习方式来进行设置。该学习方式分为两步：第一步，筛选出单个统计指标对应的风险值较高的测试操作实例(如工作时间内截屏量非常大的操作或某一时段内频繁访问一个敏感数据源的操作等)，进行人工复核，人工标定确实存在数据泄露的行为实例并作为黑样本，将正常的用户操作行为实例作为白样本；第二步，利用第一步得到的黑白样本，采用逻辑回归算法，进行机器学习，得到分类效果最佳的权重值α₁、α₂、…、α_n。

在本发明一个实施例中，在采集终端用户对敏感数据的正常操作行为之后，进一步包括：

在该实施例中，由于需要面对终端用户海量的操作行为日志，为了高效地处理操作行为日志的数据，利用Hadoop的MapReduce技术进行统计。例如：使用hadoop的mapreduce技术来完成对终端用户每天截屏操作的次数统计等。

为更清楚说明本发明的技术方案，下面参考图2对本发明提供的评估数据泄露的方法进行详细介绍。

在下述实施例中，在一万个Windows终端上部署了用户行为监控程序。

步骤201：对用户的截屏操作进行采集，其中，采集内容如下表1：

表1

在该步骤中，通过使用Windows上的驱动级钩子来拦截键盘和屏幕操作，监控程序完成对用户行为的采集。

步骤202：利用Hadoop的MapReduce技术对用户每天截屏操作进行统计。

在该步骤中，map函数接收的键是日志文件名，值是日志文件的内容，map逐条遍历日志记录，每遇到一个用户ID(userId)，就产生一个中间键值对，这表示又找到了一个用户的截屏操作记录；MapReduce将键相同(用户ID都是u)的键值对传给reduce函数，这样reduce函数接收的键就是u，值是一串"1"(最基本的实现是这样，但可以优化)，个数等于键为u的键值对的个数，然后将这些“1”累加就得到用户u在当天的截屏操作的次数。

步骤203：对用户的截屏操作按天为单位进行统计，估算单日截屏操作的次数和频率。

步骤204：对截屏操作的次数和截屏操作的频率进行概率分布评估，获得用户行为模型。

在该步骤中，采用Parzen窗方法，利用上述概率估算函数进行概率分布计算。以用户每天的截屏操作的次数和截屏操作的频率做为训练样本，通过上述Parzen窗方法，估算出用户每天截屏数量的概率分布。

步骤205：提取用户行为日志中某一天的日志记录，统计其在这一天当中的工作时间内的截屏操作数量、非工作时间的截屏操作的数量、相邻两次截屏操作的时间间隔。

步骤206：根据每一个统计指标对应的测试概率值确定单日截屏操作的至少一个统计指标的风险值。

步骤207：根据单日截屏操作的每一个统计指标的风险值确定单日截屏操作的风险值。

该实施例中，对终端用户访问敏感数据的时间、访问量、访问密度进行监测、分析，以发现高风险的数据泄露行为。同时提出的数据泄露风险评估方法利用了终端用户行为的统计特征，计算得到的数据泄露风险值既客观、可解释性又较强，而且适用于对海量用户行为记录进行并行处理以建立用户模型的情形。

如图3所示，本发明实施例提供了一种评估数据泄露风险的装置，该装置可以包括：采集单元301、评估单元302和确定单元303，其中，

采集单元301，用于采集终端用户对敏感数据的正常操作行为；

评估单元302，用于对采集单元采集的正常操作行为进行概率分布计算，获得终端用户的行为模型；

确定单元303，用于利用评估单元获得的行为模型对敏感数据的测试操作行为进行风险评估，确定测试操作行为的风险值。

在本发明一个实施例中，评估单元包括：建立子单元和计算子单元，其中，

计算子单元，用于利用建立子单元建立的概率估算函数，计算正常操作行为的概率分布，获得终端用户的行为模型。

如图4所示，在本发明一个实施例中，该评估数据泄露风险的装置进一步包括：单概率单元401和单风险单元402，其中，

单概率单元401，用于利用上述的行为模型确定测试操作行为的至少一个统计指标对应的测试概率值；

单风险单元402，用于根据每一个统计指标对应的测试概率值确定测试操作行为的每一个统计指标的风险值，其中，每一个统计指标对应的风险值计算公式为：

确定单元303，具体用于根据测试操作行为的每一个统计指标的风险值确定测试操作行为风险值R，

其中，R_i为统计指标风险值；α_i为R_i的权重，β为常量。

在本发明一个实施例中，单概率单元，具体用于利用上述的行为模型确定单日截屏操作的至少一个统计指标对应的测试概率值；

如图5所示，在本发明一个实施例中，该装置可以进一步包括：统计单元501，用于利用Hadoop的MapReduce技术对终端用户的正常操作行为进行统计。

上述装置内的各单元之间的信息交互、执行过程等内容，与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例提供了一种可读介质，该可读介质可以包括：执行指令，当存储控制器的处理器执行所述执行指令时，所述存储控制器执行上述任一实施例中所述的评估数据泄露风险的方法。

本发明实施例提供了一种存储控制器，该存储控制器可以包括：处理器、存储器和总线；

所述处理器和所述存储器通过所述总线连接；

所述存储器，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述执行指令，以使所述存储控制器执行上述任一实施例所述的评估数据泄露风险的方法。

综上，本发明的各实施例，至少具有如下有益效果：

1、在本发明的实施例中，通过采集终端用户对敏感数据的正常操作行为，对终端用户访问敏感数据的时间、访问量、访问密度等指标进行采集，特别是对第三方软件的截屏操作进行采集。进而通过对正常操作行为的统计指标进行概率分布估计，获得终端用户的行为模型，最终利用上述的行为模型对终端用户访问敏感数据的行为进行风险评估，确定终端用户行为的风险值。本发明利用终端用户的行为统计特征，让数据“说话”，计算得到数据泄露的风险值，以发现具有高风险的数据泄露行为。该方法具有较高的客观性和可解释性，从而能够有效防止使用第三方软件进行截屏操作盗取数据信息引起的数据泄露。

2、在本发明的实施例中，面对海量的用户行为日志，使用了hadoop的mapreduce技术，能够有效的提高处理日志数据的效率。从而适用于对海量用户行为记录进行并行处理以建立用户模型的情形。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。