CN112257072B

CN112257072B - 基于去重算法的高性能数据风险影响面量化评估方法

Info

Publication number: CN112257072B
Application number: CN202011168235.3A
Authority: CN
Inventors: 张腾伟; 周顿科
Original assignee: Quanzhi Technology Hangzhou Co ltd
Current assignee: Quanzhi Technology Hangzhou Co ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2024-04-09
Anticipated expiration: 2040-10-28
Also published as: CN112257072A

Abstract

本发明公开了基于去重算法的高性能数据风险影响面量化评估方法，具体涉及数据安全领域，包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块。本发明通过基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用，针对海量主体进行高性能的数据安全风险影响面计算的方法，采用了高性能概率计数算法来实现低成本高性能的数据安全风险影响面度量，采用不同数据类型的加权去重数量统计方法来进行量化评估数据安全风险影响面，可应用于在数据安全行为风险度量的各类场景，实现对风险更全面、高效、客观量化的评估。

Description

基于去重算法的高性能数据风险影响面量化评估方法

技术领域

本发明涉及数据安全技术领域，更具体地说，本发明涉及基于去重算法的高性能数据风险影响面量化评估方法。

背景技术

在数据安全领域，风险的度量依赖于几个核心要素，包括风险发生的可能性和风险的影响面，其中风险的影响面的刻画需要对受影响的数据范围和数据重要性进行评估。如果受影响的数据量非常大，则具有较高的潜在风险等级。这种风险评估和度量在事前的数据弱点风险评估、实时的数据行为监控、离线的行为风险评估，以及事后数据泄漏影响面等场景都有普遍的应用。

针对被评估的主体，不管是用户、IP、数据接口、还是数据弱点维度，进行多次操作的数据量进行去重统计作为影响度量。这不仅需要统计单次访问去重数据量，还需要更多聚合纬度的统计，比如天，周，月级别的统计。传统的数据风险度量方法会将历史访问的数据存储下来，每次新进来数据，都会与历史数据再做一次去重，空间复杂度为O(n*m)，其中n为被评估主体数量，m为去重数据量。随着互联网快速发展，企业中的数据越来越多，存储历史数据的代价会越来越昂贵，在计算去重时会越来越慢，在多主体多维度统计场景，企业需要投入大量计算资源去处理，严重浪费企业资源，影响企业效益。另一方面，不同数据的价值存在较大差异，而简单的去重统计无法有效考虑数据之间价值差异的因素。有鉴于此，本技术提供了一种量化计算数据影响面的方法，并提供一种高性能的数据影响面计算方式。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供基于去重算法的高性能数据风险影响面量化评估方法，本发明所要解决的技术问题是：解决针对多主体多维度进行数据风险影响面评估过程中，需要投入大量计算资源进行影响面度量的问题，提高数据影响面计算方式的性能。

为实现上述目的，本发明提供如下技术方案：基于去重算法的高性能数据风险影响面量化评估方法，包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块，具体评估步骤如下：

S1、数据预处理：由数据预处理模块对数据流动相关的日志进行结构化预处理，提取对数据操作的主体标识和被操作的数据客体标识；

S2、数据缓存：数据缓存模块存储了每个数据操作主体在评估周期内的操作数据客体的信息，传统方法会保存所有的数据客体标识，当数据客体数量和数据操作主体数量特别大的时候，需要耗费大量的计算资源；采用loglog或者linear counting或者adaptivecounting算法将数据客体信息转化为比特流并进行分桶统计，该存储方式跟数据客体的数量无关，大幅减少了数据的存储量；

S3、数据风险影响面：

a)从数据缓存中获取当前主体多个统计周期内操作的不同数据类型的数据客体信息，通过loglogcounting/linear counting/adaptivecounting算法计算当前事件不同数据类型的数据客体比特流，更新该主体的不同统计周期下不同数据类型的数据客体信息，并计算各个周期内的近似去重数据量{C_i：i∈D}，其中D为数据类型的集合；

b)从数据价值模块获取不同数据类型的数据价值度量{V_i：i∈D}，其中D为数据类型的集合；

c)数据影响面可以通过下述公示计算所得：∑_i∈D V_i*C_i；

S4、数据更新：数据更新模块将更新后数据客体比特流分组信息存入数据缓存模块。

在一个优选地实施方式中，所述步骤S1中数据操作主体设置为单个或多个，包括账号、用户、IP，被操作的数据客体也设置为单个或多个。

在一个优选地实施方式中，所述步骤a)中LinearCounting原理为:

设有Hash(散列)函数H，和长度为m个bitmap(位图)，每个bit位初始化均为0，将一组数据hash到bitmap中，若命中某一位，就将其置为1；设bitmap还有u个为0的bit位；

已知n个不同元素服从独立均匀分布；设Aj为事件经过n个不同元素哈希后，第j个桶为0：

每个桶都是独立的，则u的期望为：

当n,m∈∞，其值为

在一个优选地实施方式中，所述步骤a)中LogLogCounting原理：

给定Hash空间m，每个空间称为桶(bucket)，对于每个元素，其哈希值前k比特作为桶值(k＝log₂m)设每个桶内最大元素为M[i]，采用分桶平均估算n：

在一个优选地实施方式中，所述步骤a)中AdaptiveCount原理:

数量较大时LinearCounting误差较大，数量较少时LogLogCounting误差较大，AdaptiveCounting结合两者误差给出阈值，根据阈值选择使用何种算法：

本发明的技术效果和优点：

本发明基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用，针对海量主体进行高性能的数据安全风险影响面计算的方法，采用了高性能概率计数算法来实现低成本高性能的数据安全风险影响面度量，采用不同数据类型的加权去重数量统计方法来进行量化评估数据安全风险影响面，可应用于在数据安全行为风险度量的各类场景；通过高性能的计算模式实现对数据风险影响面的度量和刻画，从而实现对风险更全面、高效、客观量化的评估。

附图说明

图1为本发明的LinearCounting原理示意图。

图2为本发明的AdaptiveCount原理示意图。

图3为本发明的多维度风险影响面计算示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了基于去重算法的高性能数据风险影响面量化评估方法，包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块，具体评估步骤如下：

S3、数据风险影响面：

c)数据影响面可以通过下述公示计算所得：∑_i∈D V_i*C_i；

所述步骤S1中数据操作主体设置为单个或多个，包括账号、用户、IP，被操作的数据客体也设置为单个或多个；所述步骤a)中LinearCounting原理(如图1)为:

每个桶都是独立的，则u的期望为：

当n,m∈∞，其值为

所述步骤a)中LogLogCounting原理：

所述步骤a)中AdaptiveCount原理(如图2-3):

如图1-3所示的，实施方式具体为：基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用，针对海量主体进行高性能的数据安全风险影响面计算的方法，应用于在数据安全行为风险度量的各类场景，从而实现对风险更全面、高效、客观量化的评估。

最后应说明的几点是：首先，在本申请的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于去重算法的高性能数据风险影响面量化评估方法，其特征在于：包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块，具体评估步骤如下：

S2、数据缓存：数据缓存模块存储了每个数据操作主体在评估周期内的操作数据客体的信息，传统方法会保存所有的数据客体标识，当数据客体数量和数据操作主体数量特别大的时候，需要耗费大量的计算资源；采用loglog或者linear counting或者adaptivecounting算法将数据客体信息转化为比特流并进行分桶统计；

S3、数据风险影响面：

c)数据影响面通过下述公示计算所得：∑_i∈DV_i*C_i；

2.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法，其特征在于：所述步骤S1中数据操作主体设置为单个或多个，包括账号、用户、IP，被操作的数据客体也设置为单个或多个。

3.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法，其特征在于：所述步骤a)中LinearCounting原理为:

设有Hash散列函数H，和长度为m个bitmap位图，每个bit位初始化均为0，将一组数据hash到bitmap中，若命中某一位，就将其置为1；设bitmap还有u个为0的bit位；

每个桶都是独立的，则u的期望为：

当n,m∈∞，其值为

4.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法，其特征在于：所述步骤a)中LogLogCounting原理：

给定Hash空间m，每个空间称为桶bucket，对于每个元素，其哈希值前k比特作为桶值,k＝log₂m,设每个桶内最大元素为M[i]，采用分桶平均估算n：