CN112257072B - 基于去重算法的高性能数据风险影响面量化评估方法 - Google Patents

基于去重算法的高性能数据风险影响面量化评估方法 Download PDF

Info

Publication number
CN112257072B
CN112257072B CN202011168235.3A CN202011168235A CN112257072B CN 112257072 B CN112257072 B CN 112257072B CN 202011168235 A CN202011168235 A CN 202011168235A CN 112257072 B CN112257072 B CN 112257072B
Authority
CN
China
Prior art keywords
data
influence surface
module
counting
risk influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011168235.3A
Other languages
English (en)
Other versions
CN112257072A (zh
Inventor
张腾伟
周顿科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhi Technology Hangzhou Co ltd
Original Assignee
Quanzhi Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhi Technology Hangzhou Co ltd filed Critical Quanzhi Technology Hangzhou Co ltd
Priority to CN202011168235.3A priority Critical patent/CN112257072B/zh
Publication of CN112257072A publication Critical patent/CN112257072A/zh
Application granted granted Critical
Publication of CN112257072B publication Critical patent/CN112257072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于去重算法的高性能数据风险影响面量化评估方法,具体涉及数据安全领域,包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块。本发明通过基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用,针对海量主体进行高性能的数据安全风险影响面计算的方法,采用了高性能概率计数算法来实现低成本高性能的数据安全风险影响面度量,采用不同数据类型的加权去重数量统计方法来进行量化评估数据安全风险影响面,可应用于在数据安全行为风险度量的各类场景,实现对风险更全面、高效、客观量化的评估。

Description

基于去重算法的高性能数据风险影响面量化评估方法
技术领域
本发明涉及数据安全技术领域,更具体地说,本发明涉及基于去重算法的高性能数据风险影响面量化评估方法。
背景技术
在数据安全领域,风险的度量依赖于几个核心要素,包括风险发生的可能性和风险的影响面,其中风险的影响面的刻画需要对受影响的数据范围和数据重要性进行评估。如果受影响的数据量非常大,则具有较高的潜在风险等级。这种风险评估和度量在事前的数据弱点风险评估、实时的数据行为监控、离线的行为风险评估,以及事后数据泄漏影响面等场景都有普遍的应用。
针对被评估的主体,不管是用户、IP、数据接口、还是数据弱点维度,进行多次操作的数据量进行去重统计作为影响度量。这不仅需要统计单次访问去重数据量,还需要更多聚合纬度的统计,比如天,周,月级别的统计。传统的数据风险度量方法会将历史访问的数据存储下来,每次新进来数据,都会与历史数据再做一次去重,空间复杂度为O(n*m),其中n为被评估主体数量,m为去重数据量。随着互联网快速发展,企业中的数据越来越多,存储历史数据的代价会越来越昂贵,在计算去重时会越来越慢,在多主体多维度统计场景,企业需要投入大量计算资源去处理,严重浪费企业资源,影响企业效益。另一方面,不同数据的价值存在较大差异,而简单的去重统计无法有效考虑数据之间价值差异的因素。有鉴于此,本技术提供了一种量化计算数据影响面的方法,并提供一种高性能的数据影响面计算方式。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供基于去重算法的高性能数据风险影响面量化评估方法,本发明所要解决的技术问题是:解决针对多主体多维度进行数据风险影响面评估过程中,需要投入大量计算资源进行影响面度量的问题,提高数据影响面计算方式的性能。
为实现上述目的,本发明提供如下技术方案:基于去重算法的高性能数据风险影响面量化评估方法,包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块,具体评估步骤如下:
S1、数据预处理:由数据预处理模块对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识;
S2、数据缓存:数据缓存模块存储了每个数据操作主体在评估周期内的操作数据客体的信息,传统方法会保存所有的数据客体标识,当数据客体数量和数据操作主体数量特别大的时候,需要耗费大量的计算资源;采用loglog或者linear counting或者adaptivecounting算法将数据客体信息转化为比特流并进行分桶统计,该存储方式跟数据客体的数量无关,大幅减少了数据的存储量;
S3、数据风险影响面:
a)从数据缓存中获取当前主体多个统计周期内操作的不同数据类型的数据客体信息,通过loglogcounting/linear counting/adaptivecounting算法计算当前事件不同数据类型的数据客体比特流,更新该主体的不同统计周期下不同数据类型的数据客体信息,并计算各个周期内的近似去重数据量{Ci:i∈D},其中D为数据类型的集合;
b)从数据价值模块获取不同数据类型的数据价值度量{Vi:i∈D},其中D为数据类型的集合;
c)数据影响面可以通过下述公示计算所得:∑i∈D Vi*Ci
S4、数据更新:数据更新模块将更新后数据客体比特流分组信息存入数据缓存模块。
在一个优选地实施方式中,所述步骤S1中数据操作主体设置为单个或多个,包括账号、用户、IP,被操作的数据客体也设置为单个或多个。
在一个优选地实施方式中,所述步骤a)中LinearCounting原理为:
设有Hash(散列)函数H,和长度为m个bitmap(位图),每个bit位初始化均为0,将一组数据hash到bitmap中,若命中某一位,就将其置为1;设bitmap还有u个为0的bit位;
已知n个不同元素服从独立均匀分布;设Aj为事件经过n个不同元素哈希后,第j个桶为0:
每个桶都是独立的,则u的期望为:
当n,m∈∞,其值为
在一个优选地实施方式中,所述步骤a)中LogLogCounting原理:
给定Hash空间m,每个空间称为桶(bucket),对于每个元素,其哈希值前k比特作为桶值(k=log2m)设每个桶内最大元素为M[i],采用分桶平均估算n:
在一个优选地实施方式中,所述步骤a)中AdaptiveCount原理:
数量较大时LinearCounting误差较大,数量较少时LogLogCounting误差较大,AdaptiveCounting结合两者误差给出阈值,根据阈值选择使用何种算法:
本发明的技术效果和优点:
本发明基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用,针对海量主体进行高性能的数据安全风险影响面计算的方法,采用了高性能概率计数算法来实现低成本高性能的数据安全风险影响面度量,采用不同数据类型的加权去重数量统计方法来进行量化评估数据安全风险影响面,可应用于在数据安全行为风险度量的各类场景;通过高性能的计算模式实现对数据风险影响面的度量和刻画,从而实现对风险更全面、高效、客观量化的评估。
附图说明
图1为本发明的LinearCounting原理示意图。
图2为本发明的AdaptiveCount原理示意图。
图3为本发明的多维度风险影响面计算示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了基于去重算法的高性能数据风险影响面量化评估方法,包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块,具体评估步骤如下:
S1、数据预处理:由数据预处理模块对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识;
S2、数据缓存:数据缓存模块存储了每个数据操作主体在评估周期内的操作数据客体的信息,传统方法会保存所有的数据客体标识,当数据客体数量和数据操作主体数量特别大的时候,需要耗费大量的计算资源;采用loglog或者linear counting或者adaptivecounting算法将数据客体信息转化为比特流并进行分桶统计,该存储方式跟数据客体的数量无关,大幅减少了数据的存储量;
S3、数据风险影响面:
a)从数据缓存中获取当前主体多个统计周期内操作的不同数据类型的数据客体信息,通过loglogcounting/linear counting/adaptivecounting算法计算当前事件不同数据类型的数据客体比特流,更新该主体的不同统计周期下不同数据类型的数据客体信息,并计算各个周期内的近似去重数据量{Ci:i∈D},其中D为数据类型的集合;
b)从数据价值模块获取不同数据类型的数据价值度量{Vi:i∈D},其中D为数据类型的集合;
c)数据影响面可以通过下述公示计算所得:∑i∈D Vi*Ci
S4、数据更新:数据更新模块将更新后数据客体比特流分组信息存入数据缓存模块。
所述步骤S1中数据操作主体设置为单个或多个,包括账号、用户、IP,被操作的数据客体也设置为单个或多个;所述步骤a)中LinearCounting原理(如图1)为:
设有Hash(散列)函数H,和长度为m个bitmap(位图),每个bit位初始化均为0,将一组数据hash到bitmap中,若命中某一位,就将其置为1;设bitmap还有u个为0的bit位;
已知n个不同元素服从独立均匀分布;设Aj为事件经过n个不同元素哈希后,第j个桶为0:
每个桶都是独立的,则u的期望为:
当n,m∈∞,其值为
所述步骤a)中LogLogCounting原理:
给定Hash空间m,每个空间称为桶(bucket),对于每个元素,其哈希值前k比特作为桶值(k=log2m)设每个桶内最大元素为M[i],采用分桶平均估算n:
所述步骤a)中AdaptiveCount原理(如图2-3):
数量较大时LinearCounting误差较大,数量较少时LogLogCounting误差较大,AdaptiveCounting结合两者误差给出阈值,根据阈值选择使用何种算法:
如图1-3所示的,实施方式具体为:基于loglogcounting、linear counting、adaptivecounting概率计数的大数据去重算法在数据安全风险影响面评估场景中的应用,针对海量主体进行高性能的数据安全风险影响面计算的方法,应用于在数据安全行为风险度量的各类场景,从而实现对风险更全面、高效、客观量化的评估。
最后应说明的几点是:首先,在本申请的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;
其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于去重算法的高性能数据风险影响面量化评估方法,其特征在于:包括数据预处理模块、数据缓存模块、数据风险模块、数据价值模块和数据更新模块,具体评估步骤如下:
S1、数据预处理:由数据预处理模块对数据流动相关的日志进行结构化预处理,提取对数据操作的主体标识和被操作的数据客体标识;
S2、数据缓存:数据缓存模块存储了每个数据操作主体在评估周期内的操作数据客体的信息,传统方法会保存所有的数据客体标识,当数据客体数量和数据操作主体数量特别大的时候,需要耗费大量的计算资源;采用loglog或者linear counting或者adaptivecounting算法将数据客体信息转化为比特流并进行分桶统计;
S3、数据风险影响面:
a)从数据缓存中获取当前主体多个统计周期内操作的不同数据类型的数据客体信息,通过loglogcounting/linear counting/adaptivecounting算法计算当前事件不同数据类型的数据客体比特流,更新该主体的不同统计周期下不同数据类型的数据客体信息,并计算各个周期内的近似去重数据量{Ci:i∈D},其中D为数据类型的集合;
b)从数据价值模块获取不同数据类型的数据价值度量{Vi:i∈D},其中D为数据类型的集合;
c)数据影响面通过下述公示计算所得:∑i∈DVi*Ci
S4、数据更新:数据更新模块将更新后数据客体比特流分组信息存入数据缓存模块。
2.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法,其特征在于:所述步骤S1中数据操作主体设置为单个或多个,包括账号、用户、IP,被操作的数据客体也设置为单个或多个。
3.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法,其特征在于:所述步骤a)中LinearCounting原理为:
设有Hash散列函数H,和长度为m个bitmap位图,每个bit位初始化均为0,将一组数据hash到bitmap中,若命中某一位,就将其置为1;设bitmap还有u个为0的bit位;
已知n个不同元素服从独立均匀分布;设Aj为事件经过n个不同元素哈希后,第j个桶为0:
每个桶都是独立的,则u的期望为:
当n,m∈∞,其值为
4.根据权利要求1所述的基于去重算法的高性能数据风险影响面量化评估方法,其特征在于:所述步骤a)中LogLogCounting原理:
给定Hash空间m,每个空间称为桶bucket,对于每个元素,其哈希值前k比特作为桶值,k=log2m,设每个桶内最大元素为M[i],采用分桶平均估算n:
CN202011168235.3A 2020-10-28 2020-10-28 基于去重算法的高性能数据风险影响面量化评估方法 Active CN112257072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011168235.3A CN112257072B (zh) 2020-10-28 2020-10-28 基于去重算法的高性能数据风险影响面量化评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011168235.3A CN112257072B (zh) 2020-10-28 2020-10-28 基于去重算法的高性能数据风险影响面量化评估方法

Publications (2)

Publication Number Publication Date
CN112257072A CN112257072A (zh) 2021-01-22
CN112257072B true CN112257072B (zh) 2024-04-09

Family

ID=74262624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011168235.3A Active CN112257072B (zh) 2020-10-28 2020-10-28 基于去重算法的高性能数据风险影响面量化评估方法

Country Status (1)

Country Link
CN (1) CN112257072B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709001A (zh) * 2016-12-22 2017-05-24 西安电子科技大学 一种面向流式大数据的基数估计方法
CN108021651A (zh) * 2017-11-30 2018-05-11 中科金联(北京)科技有限公司 一种网络舆情风险评估方法及装置
CN108768774A (zh) * 2018-05-29 2018-11-06 北京广成同泰科技有限公司 一种定量化的网络安全评估方法及评估系统
CN111507597A (zh) * 2020-04-10 2020-08-07 南京源堡科技研究院有限公司 一种网络信息安全风险评估模型和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373189B2 (en) * 2014-03-27 2022-06-28 EMC IP Holding Company LLC Self-learning online multi-layer method for unsupervised risk assessment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709001A (zh) * 2016-12-22 2017-05-24 西安电子科技大学 一种面向流式大数据的基数估计方法
CN108021651A (zh) * 2017-11-30 2018-05-11 中科金联(北京)科技有限公司 一种网络舆情风险评估方法及装置
CN108768774A (zh) * 2018-05-29 2018-11-06 北京广成同泰科技有限公司 一种定量化的网络安全评估方法及评估系统
CN111507597A (zh) * 2020-04-10 2020-08-07 南京源堡科技研究院有限公司 一种网络信息安全风险评估模型和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云计算数据的关联风险评估模型仿真;汪绪彪;计算机仿真;20160615;第33卷(第6期);349-352 *

Also Published As

Publication number Publication date
CN112257072A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
Amin et al. Bounding user contributions: A bias-variance trade-off in differential privacy
Hayashi et al. Fully dynamic betweenness centrality maintenance on massive networks
WO2023134086A1 (zh) 卷积神经网络模型剪枝方法和装置、电子设备、存储介质
US20170124782A1 (en) Methods for detecting one or more aircraft anomalies and devices thereof
US8392397B2 (en) System and method for provenance function window optimization
WO2021098384A1 (zh) 一种数据异常检测方法及装置
CN112101765A (zh) 一种配电网运行指标数据异常数据处理方法及系统
CN111582577A (zh) 一种电信用户离网预测方法、系统、介质及设备
CN112257072B (zh) 基于去重算法的高性能数据风险影响面量化评估方法
CN110750412A (zh) 日志异常检测方法
CN117371508A (zh) 模型压缩方法、装置、电子设备以及存储介质
CN110022343B (zh) 自适应事件聚合
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
Qin et al. Estimating lossy compressibility of scientific data using deep neural networks
CN115941281A (zh) 一种基于双向时间卷积神经网络与多头自注意力机制的异常网络流量检测方法
CN115811317A (zh) 一种基于自适应不解压直接计算的流处理方法和系统
Mahmood et al. A scalable sampling scheme for clustering in network traffic analysis
CN115022194B (zh) 基于sa-gru的网络安全态势预测方法
CN112148763A (zh) 无监督数据异常检测方法、装置及存储介质
CN117667609A (zh) 自适应日志和双重融合分析的分布式系统异常检测方法
CN114780570A (zh) 一种数据查询方法、装置、设备和存储介质
An et al. K-means clustering for the analysis of incomplete business data [J]
Yang et al. Fast and accurate stream processing by filtering the cold
US11354286B1 (en) Outlier identification and removal
CN117573714A (zh) 一种分布式流中持久项的查询方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant