CN110096896B - 适于大数据融合与共享结果数据集敏感性评估方法及系统 - Google Patents

适于大数据融合与共享结果数据集敏感性评估方法及系统 Download PDF

Info

Publication number
CN110096896B
CN110096896B CN201910281765.XA CN201910281765A CN110096896B CN 110096896 B CN110096896 B CN 110096896B CN 201910281765 A CN201910281765 A CN 201910281765A CN 110096896 B CN110096896 B CN 110096896B
Authority
CN
China
Prior art keywords
sensitivity
data object
acquired data
data
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910281765.XA
Other languages
English (en)
Other versions
CN110096896A (zh
Inventor
李书林
胡泉
辛晓杰
刘瑞
孙四明
马宇威
靳骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aerospace Academy Of Systems Science And Engineering
Original Assignee
China Aerospace Academy Of Systems Science And Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aerospace Academy Of Systems Science And Engineering filed Critical China Aerospace Academy Of Systems Science And Engineering
Priority to CN201910281765.XA priority Critical patent/CN110096896B/zh
Publication of CN110096896A publication Critical patent/CN110096896A/zh
Application granted granted Critical
Publication of CN110096896B publication Critical patent/CN110096896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Abstract

适于大数据融合与共享结果数据集敏感性评估方法及系统,属于大数据融合技术领域。本发明基于动态评估机制,对大数据融合与共享过程中的不同敏感级别的多个数据源中的数据进行动态敏感度评估,并给融合共享的结果数据集标定合理的敏感度,定量评估结果数据集的敏感性,进而实现对融合共享数据集地有效访问控制,最大限度地避免重要数据内容的泄漏。

Description

适于大数据融合与共享结果数据集敏感性评估方法及系统
技术领域
本发明涉及一种适于大数据融合与共享结果数据集敏感性评估方法及系统,属于大数据融合技术领域。
背景技术
在信息时代,随着数据综合利用的需要越来越普遍,尤其是大数据应用的出现,使得完全基于原始应用的数据利用已经不能满足数据挖掘、分析、服务的需要,数据集中、整合、共享的需求也越来越强烈,在某种程度上已经演变成为国家战略和企业发展的核心要素。由于数据的集中管理和共享服务,使得原来由各种应用系统管理和控制的各种数据,通过交换和共享手段发生了与原有(结构)构成改变,进而会影响最终数据实例(或集合)敏感性。如何在数据共享和服务的环节合理评估数据的敏感度,进而实现基于敏感度动态评价的访问控制,避免重要数据内容的泄漏,已成为当前亟需解决的难题。
随着不同敏感度的多源数据的共享和融合,传统的静态标定敏感度模式无法在数据共享和服务环节准确地评估融合共享数据集的敏感性的变化,更不能准确描述融合后的具体数据实例的敏感性,从而无法对融合后的结果数据做到准确的访问控制,导致重要数据内容的泄漏。
在传统静态标定敏感度机制的基础上,国内外对此展开了一些研究。《面向敏感值的层次化多源数据融合隐私保护》,作者杨月平、王箭、薛明,发表于《计算机科学》2017年第9期,文献提出了一种面向敏感值的层次化模型,进而提出了一种面向敏感值的层次化多源数据融合隐私保护发明方法。该发明方法未定量评估数据源的敏感性,且未对数据敏感度进行差分计算,存在一定误差。《相异敏感度下最小信息损失增量优先的隐私保护方法》,作者谢静、张健沛、杨静、张冰,发表于中南大学学报(自然科学版)第46卷第12期,文献提出针对目前大部分数据隐私保护模型只考虑敏感值的多样性,并没有对敏感值的敏感程度进行约束的问题,提出一种相异敏感度下基于最小信息损失增量优先的隐私保护方法。该发明方法提高了数据表抵御敏感性攻击的能力,保护了数据的隐私不被泄露,但未考虑多源数据表融合共享服务过程中数据敏感度的变化。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种适于大数据融合与共享结果数据集敏感性评估方法及系统,本发明基于动态评估机制,对大数据融合与共享过程中的不同敏感级别的多个数据源中的数据进行动态敏感度评估,并给融合共享的结果数据集标定合理的敏感度,定量评估结果数据集的敏感性,进而实现对融合共享数据集地有效访问控制,最大限度地避免重要数据内容的泄漏。
本发明的技术解决方案是:一种适于大数据融合与共享结果数据集敏感性评估方法,包括如下步骤:
建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
对采集数据对象的敏感度进行修正;
在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
进一步地,所述共享数据对象的敏感度为SM=EMi'+ΔF;其中,EMi'为所述基准值,ΔF为根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算的共享数据对象的修正量。
进一步地,所述修正量为
Figure BDA0002021902000000031
其中,Qj为采集数据对象j的敏感度调节系数,EMj'为修正后的采集数据对象j的敏感度。
进一步地,所述对采集数据对象的敏感度进行修正的方法为:
Figure BDA0002021902000000032
其中,EM'j为修正后的采集数据对象j的敏感度,EMj为修正前的采集数据对象j的敏感度,μki为采集数据对象j在第i个属性上占的权重,且
Figure BDA0002021902000000033
1≤i≤m,m为采集数据对象j中所含有的属性的个数,l为采集数据对象j中进行融合与共享的属性的个数,1≤j≤n,n为采集数据对象的个数。
进一步地,所述每个采集数据对象的敏感度调节系数为
Figure BDA0002021902000000034
其中,采集数据对象的敏感度的范围为[Fmin,Fmax],每个采集数据对象i的敏感度的范围为[Fmin,Fmax_i],其中Fmax_i为采集数据对象i的最高敏感度,n为采集数据对象的个数。
进一步地,所述敏感度基准值条件包括:EMi'为EM1'、EM2'、……、EMn'中最大值;且,若存在EMj'=EMi',1≤j≤n,i≠j,则EMi'对应的采集数据对象的敏感度最大值不大于EMj'对应的采集数据对象的敏感度最大值。
一种根据适于大数据融合与共享结果数据集敏感性评估方法实现的结果数据集敏感性评估系统,包括:
第一模块,建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
第二模块,由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
第三模块,对采集数据对象的敏感度进行修正;
第四模块,在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
第五模块,根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
第六模块,根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
进一步地,所述共享数据对象的敏感度为SM=EMi'+ΔF;其中,EMi'为所述基准值,ΔF为根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算的共享数据对象的修正量;所述修正量为
Figure BDA0002021902000000041
其中,Qj为采集数据对象j的敏感度调节系数,EMj'为修正后的采集数据对象j的敏感度。
进一步地,所述对采集数据对象的敏感度进行修正的方法为:
Figure BDA0002021902000000042
其中,EM'j为修正后的采集数据对象j的敏感度,EMj为修正前的采集数据对象j的敏感度,μki为采集数据对象j在第i个属性上占的权重,且
Figure BDA0002021902000000043
1≤i≤m,m为采集数据对象j中所含有的属性的个数,l为采集数据对象j中进行融合与共享的属性的个数,1≤j≤n,n为采集数据对象的个数;所述每个采集数据对象的敏感度调节系数为
Figure BDA0002021902000000044
其中,采集数据对象的敏感度的范围为[Fmin,Fmax],每个采集数据对象i的敏感度的范围为[Fmin,Fmax_i],Fmax_i为采集数据对象i的最高敏感度,n为采集数据对象的个数。
进一步地,所述敏感度基准值条件包括:EMi'为EM1'、EM2'、……、EMn'中最大值;且,若存在EMj'=EMi',1≤j≤n,i≠j,则EMi'对应的采集数据对象的敏感度最大值不大于EMj'对应的采集数据对象的敏感度最大值。
本发明与现有技术相比的优点在于:
(1)本发明相比于传统的静态敏感度标定方法,对每一结果实例采用动态评价机制给出合理的敏感度标定,更加贴近于实际应用需求。
(2)本发明发明方法中映射模型和数据源敏感度调节系数可以根据应用场景情况不断进行修正,逐步逼近客观值,具备更好的适应性。
(3)本发明在评估结果数据集敏感性时,充分考虑了数据融合与共享过程中数据结构变化及数据实例运算操作对数据集敏感性变化的影响,标定结果更加准确。
附图说明
图1为本发明方法流程图;
图2为本发明数据对象示意图。
具体实施方式
适于大数据融合与共享结果数据集敏感性评估方法及系统,为了保证大数据在融合与共享的同时不泄露重要数据内容,在传统静态标定敏感度机制的基础上,增加伴随数据加工处理结果的动态敏感度评估机制,最终在数据共享和服务的环节为结果数据给出合理的敏感度。
如图1所示,本发明为了定量评估数据集的敏感性,采用敏感度来量化反映数据的敏感级别。首先将来自多个数据源的数据进行敏感度模型映射,映射时综合考虑实际应用敏感级别的重要程度和重要性跨度,选取适当的敏感度值;第二,计算各数据源敏感度调节系数,敏感度调节系数体现各数据源敏感度的比重,敏感度调节系数越大,则数据源的重要性越高,对结果数据集敏感度的影响也越大;第三,修正共享数据源敏感度,考虑到在数据融合与共享过程中,采集数据对象的结构特征可能发生改变,本发明方法根据采集数据对象敏感度在其各属性上分布情况来修正共享数据源的敏感度;第四,选取满足一定条件的敏感度作为结果数据集的敏感度基准值;最后,计算结果数据集的敏感度,定量评估结果数据集的敏感性,进而实现基于敏感度动态评价的访问控制。
一、适于大数据融合与共享结果数据集敏感性评估方法,包括如下步骤:
建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
对采集数据对象的敏感度进行修正;
在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
二、根据适于大数据融合与共享结果数据集敏感性评估方法实现的结果数据集敏感性评估系统,包括:
第一模块,建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
第二模块,由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
第三模块,对采集数据对象的敏感度进行修正;
第四模块,在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
第五模块,根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
第六模块,根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
三、如图2所示,上述适于大数据融合与共享结果数据集敏感性评估方法及系统详细的技术方案如下。
1、敏感度模型映射
建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源。
为了定量评估数据集的敏感性,本发明方法采用敏感度F来量化反映数据的敏感级别,敏感度以数字0、1、2……数字序列的方式表示,其中0表示最低的敏感级别,敏感度数值越大则表示数据的敏感级别越高。在实际应用中如果已定义了敏感级别,则在使用本发明方法时,需先将原敏感级别映射转换到本敏感度模型中。在映射时,敏感度的设置应综合考虑实际应用敏感级别的重要程度和重要性跨度,选取适当的值,对重要性高的级别可以映射到较大的数值,也可以采取不同跨度来突出不同级别间的重要性差异。
2、计算数据源敏感度调节系数
由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数。
将来自多个数据源的数据进行融合和共享时,由于各数据源敏感度不同,其对结果数据集敏感度的影响程度也会存在差异,本发明方法采用敏感度调节系数来体现各数据源敏感度的比重,敏感度调节系数越大,则数据源的重要性越高,对结果敏感度的影响也越大。
本发明方法定义这些融合或共享数据的原始来源为采集数据对象E1、E2、……、En,定义数据融合与共享的结果数据集为共享数据对象S。
根据实际应用场景情况,在融合或共享过程中,应用场景的敏感度取值范围为[Fmin,Fmax],其中Fmin为敏感度下限,Fmax为敏感度上限。每个采集数据对象Ei(1≤i≤n)的敏感度取值范围为[Fmin,Fmax_i],其中Fmax_i(1≤i≤n)为第i个采集数据对象Ei的最高敏感度。
各个采集数据对象的敏感度调节系数Qi计算公式如下:
Figure BDA0002021902000000081
Qi反映了第i个采集数据对象敏感度在共享数据对象S敏感度中所占的权重。
3、修正数据源敏感度
对采集数据对象的敏感度进行修正。
考虑到在数据融合与共享过程中,采集数据对象的结构特征可能发生改变,例如在采集数据对象上裁剪掉一部分结构属性内容进行共享。伴随着数据对象结构的改变,共享内容的敏感度也将随之改变。
根据采集数据对象敏感度在其各属性上分布情况来修正其敏感度。假设采集数据对象Ej所含属性总数为m个,敏感度在m个属性上的权重分布分别为μki(1≤i≤m),应满足:
Figure BDA0002021902000000082
若选择其中l(小写L)个属性进行共享,则包含这l个属性的子集对象的敏感度EMj’计算公式如下:
Figure BDA0002021902000000083
4、选取结果数据集敏感度基准值
在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集。
共享数据对象S的一个具体实例s的敏感度用SM表示,其对应n个采集数据对象实例的敏感度,在经公式3修正后,分别用EM1’、EM2’、……、EMn’表示,在这些值中,选取满足以下条件的敏感度EMi’(1≤i≤n)作为估算SM的基准值。
敏感度基准值EMi’应具备条件如下:
1)EMi’为EM1’、EM2’、……、EMn’中最大值;
2)若存在EMj’=EMi’(1≤j≤n,且i≠j),EMi’所属采集数据对象的敏感度最大值Fmax_i≤Fmax_j。
5、计算结果数据集敏感度
根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果。
共享数据对象实例的敏感度,可在步骤4中得到的基准值EMi’基础上,利用除EMi’以外其他采集数据对象实例的敏感度予以修正。敏感度修正量ΔF计算公式为:
Figure BDA0002021902000000091
故共享数据对象实例的敏感度SM为:
SM=EMi'+ΔF (公式5)
6、根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
大数据综合利用的关键是多源数据融合与共享,数据关联查询、数据分析等数据服务需求不同,需要准备的数据融合与共享的结果数据集则不同,进而采集数据对象的结构特征不同。
针对采集数据对象选取的不同结构,根据以上步骤1到步骤5分别计算采集数据对象的共享数据实例敏感度s。假设共享数据访问对象访问级别为M(预先设置好),M与敏感度模型中的敏感度相对应,以数字0、1、2……数字序列的方式表示,其中0表示最低的访问级别,数值越大则表示数据访问对象的访问级别越高。若M小于s,则不能访问该共享数据实例,若M大于等于s,则可以访问该共享数据实例,从而实现对共享数据对象的动态访问控制。
本发明一个具体的实施例如下。
(1)数据源敏感度模型映射
本发明方法采用敏感度F(其值为0、1、2……数字序列)来定量评估数据源的敏感级别,敏感度F=0表示数据源的敏感级别最低,敏感度F值越大则表示数据源的敏感级别越高。
(2)计算数据源敏感度调节系数
数据在融合和共享过程中,由于各数据源的敏感度不同,进而对融合后的结果数据集敏感度的贡献程度也不同。本发明方法采用敏感度调节系数Q来体现原始数据源敏感度在结果数据集敏感度中所占的权重,敏感度调节系数Q的值越大,则表示该数据源对结果数据集敏感度的影响或贡献越大。
为了使本发明描述得更加直观、清楚,下文通过具体的例子详细解释各步骤:定义这些融合或共享数据的原始数据来源为采集数据对象E1、E2、E3,定义数据融合与共享的结果数据集为共享数据对象S。即对三张数据表(E1、E2、E3)进行融合,各表中均含有ID属性,融合过程通过相同的ID值进行数据表间连接,形成一个融合数据表S。
根据实际应用场景情况,在融合或共享过程中,原始数据对象的敏感度取值范围为[Fmin,Fmax],其中Fmin为敏感度下限,Fmax为敏感度上限。在该例中,假设E1的最高敏感度为3(即Fmax_1=3),E2的最高敏感度为4(即Fmax_2=4),E3的最高敏感度为5(即Fmax_3=5),约定映射后的敏感度区间为[1,5](即Fmin=1),则S的敏感度区间为[1,5]。
根据敏感度调节系数Qi计算公式:
Figure BDA0002021902000000101
得公式(1)的分母计算式D=(Fmax_1-Fmin)+(Fmax_2-Fmin)+(Fmax_3-Fmin)=(3-1)+(4-1)+(5-1)=2+3+4=9;
采集数据对象E1的敏感度调节系数Q1=(Fmax_1-Fmin)/D=2/9;
采集数据对象E2的敏感度调节系数Q2=(Fmax_2-Fmin)/D=3/9;
采集数据对象E3的敏感度调节系数Q3=(Fmax_3-Fmin)/D=4/9。
(3)修正共享数据源敏感度
在数据融合与共享过程中,采集数据对象的结构特征可能发生改变,例如在采集数据对象上某一数据实例裁剪掉一部分结构属性内容进行共享。伴随着采集数据对象结构的改变,共享数据内容的敏感度也将随之改变。
本发明方法根据采集数据对象敏感度在其数据实例各属性上分布情况来修正其敏感度。假设采集数据对象Ek的所含属性总数为m个,敏感度在m个属性上的权重分布分别为μki(1≤i≤m),应满足:
Figure BDA0002021902000000111
若选择其中l(小写L)个属性进行共享,则包含这l个属性的子集对象的敏感度EMk’计算公式如下:
Figure BDA0002021902000000112
在上例中,假设采集数据对象E1所含属性总数为5个,敏感度在各属性上的权重依次0.1、0.2、0.2、0.3、0.2,即μk1=0.1,μk2=0.2,μk3=0.2,μk4=0.3,μk5=0.2;采集数据对象E2所含属性总数为5个,敏感度在各属性上的权重依次0.1、0.4、0.3、0.1、0.1,即μk1=0.1,μk2=0.4,μk3=0.3,μk4=0.1,μk5=0.1;采集数据对象E3所含属性总数为4个,敏感度在各属性上的权重依次0.1、0.3、0.5、0.1,即μk1=0.1,μk2=0.3,μk3=0.5,μk4=0.1。
设E1中数据实例敏感度EM1=2,E2中数据实例敏感度EM2=3,E3中数据实例敏感度EM3=4。
若选择E1的3个属性(μk1、μk2、μk3)、E2的3个属性(μk1、μk3、μk5)、E3的2个属性(μk1、μk3)进行共享,则根据公式3计算得出:
E1的实际共享数据实例敏感度EM1’=(μk1+μk2+μk3)×EM1=(0.1+0.2+0.2)×2=1
E2的实际共享数据实例敏感度EM2’=(μk1+μk3+μk5)×EM2=(0.1+0.3+0.1)×3=1.5
E3的实际共享数据实例敏感度EM3’=(μk1+μk3)×EM3=(0.1+0.5)×4=2.4
(4)选取结果数据集敏感度基准值
共享数据对象S的一个具体实例s的敏感度用SM表示,其对应n个采集数据对象实例的敏感度,在经公式3修正后,分别用EM1’、EM2’、……、EMn’表示,在这些值中,选取满足以下条件的敏感度EMi’(1≤i≤n)作为估算SM的基准值。
敏感度基准值EMi’应具备条件如下:
1)EMi’为EM1’、EM2’、……、EMn’中最大值;
2)若存在EMj’=EMi’(1≤j≤n,且i≠j),EMi’所属采集数据对象的敏感度最大值Fmax_i≤Fmax_j。
在上例中,E1、E2、E3经过公式3修正后的共享数据实例敏感度分别为EM1’、EM2’、EM3’,且EM1’=1、EM2’=1.5、EM3’=2.4。因为EM3’最大,所以选取EM3’作为共享数据对象的具体数据实例s的敏感度基准值。
(5)计算结果数据集敏感度
在步骤(4)中得出的共享数据实例敏感度基准值EM3’基础上,利用除EM3’以外其他采集数据对象实例的敏感度予以修正。敏感度修正量ΔF计算公式为:
Figure BDA0002021902000000121
共享数据对象实例的敏感度SM为:
SM=EMi'+ΔF (公式5)
在上例情况下,依据公式4和公式5得出,共享数据对象S的一个具体数据实例s的实例敏感度
SM1=EM3’+Q1/(EM3’-EM1’+1)+Q2/(EM3’-EM2’+1)
=2.4+(2/9)/(2.4-1+1)+(3/9)/(2.4-1.5+1)
=2.4+5/54+10/57
=2.67。
(6)根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制。
上例是对采集数据对象E1、E2、E2第一次取样,分别取样敏感度EM1=2、EM2=3、EM3=4的数据实例,且选择E1的3个属性(μk1、μk2、μk3)、E2的3个属性(μk1、μk3、μk5)、E3的2个属性(μk1、μk3)进行共享,通过敏感度评估方法计算得出共享数据对象S的一个具体数据实例s的实例敏感度为2.67。
假设对采集数据对象E1、E2、E2进行第二次取样,分别取样敏感度EM1=2、EM2=4、EM3=4的数据实例,且选择E1的3个属性(μk1=0.1、μk2=0.2、μk3=0.2)、E2的3个属性(μk1=0.1、μk3=0.3、μk5=0.1)、E3的3个属性(μk1=0.1、μk2=0.3、μk3=0.5)进行共享,根据敏感度评估方法计算如下:步骤(1)、(2)结果与第一次取样计算的结果一样;
根据步骤(3),计算得出:
E1的实际共享数据实例敏感度EM1’=(μk1+μk2+μk3)×EM1=(0.1+0.2+0.2)×2=1
E2的实际共享数据实例敏感度EM2’=(μk1+μk3+μk5)×EM2=(0.1+0.3+0.1)×4=2
E3的实际共享数据实例敏感度EM3’=(μk1+μk2+μk3)×EM3=(0.1+0.3+0.5)×4=3.6
因为EM3’最大,所以选取EM3’作为本共享数据对象的具体数据实例s的敏感度基准值。
依据公式4和公式5得出,采集数据对象第二次取样的共享数据对象S的具体数据实例s的实例敏感度
SM2=EM3’+Q1/(EM3’-EM1’+1)+Q2/(EM3’-EM2’+1)
=3.6+(2/9)/3.6-1+1)+(3/9)/(3.6-2+1)
=3.6+4/5+39/45
=5.27
假设共享数据访问对象A、B、C的访问级别分别MA=2、MB=3、MC=4。
由于MA<SM1、MB>SM1、MC>SM1、则访问对象A不能访问采集数据对象第一次取样所得的共享数据实例,访问对象B、C可以访问;由于MA<SM2、MB<SM2、MC<SM2,则访问对象A、B、C均不可以访问采集数据对象第二次取样所得的共享数据实例。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (2)

1.一种适于大数据融合与共享结果数据集敏感性评估方法,其特征在于,包括如下步骤:
建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
对采集数据对象的敏感度进行修正;
在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制;
所述共享数据对象的敏感度为SM=EMi'+ΔF;其中,EMi'为所述基准值,ΔF为根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算的共享数据对象的修正量;
所述修正量为
Figure FDA0002958827180000011
其中,Qj为采集数据对象j的敏感度调节系数,EMj'为修正后的采集数据对象j的敏感度;
所述对采集数据对象的敏感度进行修正的方法为:
Figure FDA0002958827180000012
其中,EM'j为修正后的采集数据对象j的敏感度,EMj为修正前的采集数据对象j的敏感度,μki为采集数据对象j在第i个属性上占的权重,且
Figure FDA0002958827180000013
1≤i≤m,m为采集数据对象j中所含有的属性的个数,l为采集数据对象j中进行融合与共享的属性的个数,1≤j≤n,n为采集数据对象的个数;
所述每个采集数据对象的敏感度调节系数为
Figure FDA0002958827180000021
其中,采集数据对象的敏感度的范围为[Fmin,Fmax],每个采集数据对象i的敏感度的范围为[Fmin,Fmax_i],其中Fmax_i为采集数据对象i的最高敏感度,n为采集数据对象的个数;
所述敏感度基准值条件包括:EMi'为EM1'、EM2'、……、EMn'中最大值;且,若存在EMj'=EMi',1≤j≤n,i≠j,则EMi'对应的采集数据对象的敏感度最大值不大于EMj'对应的采集数据对象的敏感度最大值。
2.一种根据权利要求1所述的适于大数据融合与共享结果数据集敏感性评估方法实现的结果数据集敏感性评估系统,其特征在于,包括:
第一模块,建立表征数据敏感级别的敏感度模型,依据所述敏感度模型确定采集数据对象的敏感度;所述采集数据对象为采集的数据的原始来源;
第二模块,由采集数据对象的敏感度计算每个采集数据对象的敏感度调节系数;
第三模块,对采集数据对象的敏感度进行修正;
第四模块,在采集数据对象中选取符合敏感度基准值条件的采集数据对象,将选取的采集数据对象的敏感度作为估算共享数据对象的敏感度的基准值;所述共享数据对象为采集的数据融合与共享的结果数据集;
第五模块,根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算共享数据对象的敏感度,得到对结果数据集的敏感性评估结果;
第六模块,根据所述敏感性评估结果调整共享数据对象的访问权限,实现对共享数据对象的访问控制;
所述共享数据对象的敏感度为SM=EMi'+ΔF;其中,EMi'为所述基准值,ΔF为根据所述基准值,以及除选取的采集数据对象以外的采集数据对象的敏感度和敏感度调节系数计算的共享数据对象的修正量;所述修正量为
Figure FDA0002958827180000031
其中,Qj为采集数据对象j的敏感度调节系数,EMj'为修正后的采集数据对象j的敏感度;
所述对采集数据对象的敏感度进行修正的方法为:
Figure FDA0002958827180000032
其中,EM'j为修正后的采集数据对象j的敏感度,EMj为修正前的采集数据对象j的敏感度,μki为采集数据对象j在第i个属性上占的权重,且
Figure FDA0002958827180000033
m为采集数据对象j中所含有的属性的个数,l为采集数据对象j中进行融合与共享的属性的个数,1≤j≤n,n为采集数据对象的个数;所述每个采集数据对象的敏感度调节系数为
Figure FDA0002958827180000034
其中,采集数据对象的敏感度的范围为[Fmin,Fmax],每个采集数据对象i的敏感度的范围为[Fmin,Fmax_i],Fmax_i为采集数据对象i的最高敏感度,n为采集数据对象的个数;
所述敏感度基准值条件包括:EMi'为EM1'、EM2'、……、EMn'中最大值;且,若存在EMj'=EMi',1≤j≤n,i≠j,则EMi'对应的采集数据对象的敏感度最大值不大于EMj'对应的采集数据对象的敏感度最大值。
CN201910281765.XA 2019-04-09 2019-04-09 适于大数据融合与共享结果数据集敏感性评估方法及系统 Active CN110096896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910281765.XA CN110096896B (zh) 2019-04-09 2019-04-09 适于大数据融合与共享结果数据集敏感性评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910281765.XA CN110096896B (zh) 2019-04-09 2019-04-09 适于大数据融合与共享结果数据集敏感性评估方法及系统

Publications (2)

Publication Number Publication Date
CN110096896A CN110096896A (zh) 2019-08-06
CN110096896B true CN110096896B (zh) 2021-06-11

Family

ID=67444514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910281765.XA Active CN110096896B (zh) 2019-04-09 2019-04-09 适于大数据融合与共享结果数据集敏感性评估方法及系统

Country Status (1)

Country Link
CN (1) CN110096896B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294967B (zh) * 2013-05-10 2016-06-29 中国地质大学(武汉) 大数据挖掘下的用户隐私保护方法及系统
CN104462982A (zh) * 2013-09-13 2015-03-25 甲骨文国际公司 跨应用共享的授权策略对象、目标定义和决策合并算法
US9460308B2 (en) * 2014-05-09 2016-10-04 Facebook, Inc. Multi-level privacy evaluation
CN105205408B (zh) * 2015-09-07 2018-11-06 中国科学院深圳先进技术研究院 基于空间聚合的轨迹数据隐私保护方法及系统
CN106790032B (zh) * 2016-12-15 2020-04-21 华南师范大学 一种基于rbac的策略融合及敏感度计算方法及系统
CN107045534B (zh) * 2017-01-20 2018-06-05 中国航天系统科学与工程研究院 大数据环境下基于HBase的异构数据库在线交换与共享系统
CN108763961B (zh) * 2018-06-04 2020-05-22 中国电子信息产业集团有限公司第六研究所 一种基于大数据的隐私数据分级方法和装置
CN109117669B (zh) * 2018-08-14 2020-08-28 华中科技大学 MapReduce相似连接查询的隐私保护方法及系统

Also Published As

Publication number Publication date
CN110096896A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN109376549B (zh) 一种基于差分隐私保护的电力交易大数据发布方法
CN112566196B (zh) 一种基于智能电网的异构网络接入选择方法及相关设备
Schulze et al. Selection effects in the black hole-bulge relation and its evolution
Wang et al. A general multiple attribute decision-making approach for integrating subjective preferences and objective information
US20060149695A1 (en) Management of database statistics
Zeng Integrated individual tree biomass simultaneous equations for two larch species in northeastern and northern China
WO2015050567A1 (en) System and method for performing set operations with defined sketch accuracy distribution
EP3356951B1 (en) Managing a database of patterns used to identify subsequences in logs
CN111259963B (zh) 一种区域植被指标的驱动因素分析方法、装置及存储介质
Beutler et al. Bulk density prediction for Histosols and soil horizons with high organic matter content
CN108280366A (zh) 一种基于差分隐私的批量线性查询方法
Gargiulo et al. Ultramassive dense early-type galaxies: Velocity dispersions and number density evolution since z= 1.6
CN110096896B (zh) 适于大数据融合与共享结果数据集敏感性评估方法及系统
CN110222098A (zh) 基于流数据聚类算法的电力大数据流异常检测
WO2014021824A1 (en) Search method
CN102855278B (zh) 一种仿真方法和系统
CN111126805B (zh) 基于能力的装备体系贡献率评估系统
CN103336865B (zh) 一种动态通信网络构建方法及装置
CN114222101A (zh) 一种白平衡调节方法、装置及电子设备
Wang et al. Combined sensitivity ranking of input parameters and model forms of building energy simulation
Andrade et al. The EM algorithm for standard stochastic frontier models
Janiszewski et al. VARIoT-Vulnerability and Attack Repository for the Internet of Things
Merganič et al. Quantification of tree species diversity in forest stands—model BIODIVERSS
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
Heydorn The determination of an accepted reference value from proficiency data with stated uncertainties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant