CN114372271A - 一种数据脱敏时的效果评估方法 - Google Patents

一种数据脱敏时的效果评估方法 Download PDF

Info

Publication number
CN114372271A
CN114372271A CN202111590871.XA CN202111590871A CN114372271A CN 114372271 A CN114372271 A CN 114372271A CN 202111590871 A CN202111590871 A CN 202111590871A CN 114372271 A CN114372271 A CN 114372271A
Authority
CN
China
Prior art keywords
desensitization
algorithm
data
effect
evaluating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111590871.XA
Other languages
English (en)
Inventor
佟鑫
谢丰
都婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
China Information Technology Security Evaluation Center
Original Assignee
University of Electronic Science and Technology of China
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, China Information Technology Security Evaluation Center filed Critical University of Electronic Science and Technology of China
Priority to CN202111590871.XA priority Critical patent/CN114372271A/zh
Publication of CN114372271A publication Critical patent/CN114372271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开一种数据脱敏时的效果评估方法,包括步骤一、根据脱敏算法的性能进行脱敏效果分析,步骤二、不同脱敏算法潜在的攻击风险的计算,步骤三、动态选择适应不同场景的脱敏算法,步骤四、根据脱敏算法的属性综合评估脱敏效果,步骤五、脱敏算法的制定及效果最终评估;本发明通过对隐私推理攻击及联合多敏感属性推理攻击进行检测分析作为脱敏算法的安全评估指标,保证了敏感数据的有效脱敏,采用决策树机器学习算法对不同应用场景进行脱敏算法选择及评估,同时依据脱敏后的性能指标对脱敏算法隐私泄露风险进行综合评估,可以辅助用户实现脱敏策略制定,检测脱敏效果。

Description

一种数据脱敏时的效果评估方法
技术领域
本发明涉及数据脱敏算法技术领域,尤其涉及一种数据脱敏时的效果评估方法。
背景技术
在数字经济时代,数据安全与国家安全、经济运行安全、公共社会安全、以及个人合法权益直接的关联日趋紧密,大量非结构化数据处理技术给数字经济带来便利的同时,其面临的安全威胁也日益严重,数据泄露和隐私问题不断涌现,已经成为制约数字经济发展的关键因素之一,可靠的隐私数据保护技术、隐私保护安全检测技术的研究对建立可靠数据安全体系具有至关重要的作用,已成为数字经济健康、稳定发展的重要环节,数据脱敏算法是隐私数据保护的主要技术手段之一,得到了国内外的广泛研究与应用;
目前已有不少数据脱敏方法相关的工作,但对数据脱敏算法的评估及检测方面的工作非常少,无法对脱敏算法进行有效评估检测,无法针对不同场景选择合适的脱敏算法,依旧会造成隐私数据的泄露,因此,本发明提出一种数据脱敏时的效果评估方法以解决现有技术中存在的问题。
发明内容
针对上述问题,本发明的目的在于提出一种数据脱敏时的效果评估方法,该数据脱敏时的效果评估方法通过对隐私推理攻击及联合多敏感属性推理攻击进行检测分析作为脱敏算法的安全评估指标,保证了敏感数据的有效脱敏,采用决策树机器学习算法对不同应用场景进行脱敏算法选择及评估,同时依据脱敏后的性能指标对脱敏算法隐私泄露风险进行综合评估,可以辅助用户实现脱敏策略制定,检测脱敏效果。
为实现本发明的目的,本发明通过以下技术方案实现:一种数据脱敏时的效果评估方法,包括以下步骤:
步骤一、从脱敏算法的隐私保护程度、信息损失度和算法强度三个性能对脱敏算法的脱敏效果进行分析;
步骤二、在数据脱敏中对多种假设条件下的隐私推理攻击及联合多敏感属性推理攻击进行检测并提取特征,计算得到不同的脱敏算法潜在的攻击风险;
步骤三、通过动态分析脱敏规则,并根据步骤二中攻击方式的攻击风险动态选择适应不同场景的脱敏算法;
步骤四、通过分析脱敏一致性、脱敏可扩展性和敏感数据自动分类三种属性对步骤三中选择的脱敏算法的脱敏效果进行综合评估;
步骤五、在脱敏算法的权限判决、数据分类、敏感级值设定、脱敏算法选择和脱敏效果评估的环节采用决策树机器学习方法,制定脱敏算法策略,检测并获得脱敏效果最终评估结果。
进一步改进在于:所述步骤一中隐私保护程度通过安全屋模式及有限数据集模式、聚类性算法和敏感信息保护三个层次来衡量性能;信息损失度分析通过基于勾陈匿名组的大小、基于一般值的特征度量和评价关联误差三个方面进行性能分析;所述算法强度通过脱敏速度、准确度和计算负载三个方面进行性能评估。
进一步改进在于:所述步骤一中信息损失度分析采用归一化平均类大小来估计预先规定任务信息损失度。
进一步改进在于:所述步骤二中隐私推理攻击检测是通过动态选择k-匿名、l-多样性、t接近、(α,k)-匿名、(X,Y)-匿名、m-invariance和基于图的m-invariance七种匿名模型,建立模型抵御攻击能力矩阵,并选择合适的模型提高脱敏算法抵御攻击的能力。
进一步改进在于:所述步骤三中动态选择方法包括以下步骤
S1、先根据脱敏规则,通过分析敏感字段与规则库对脱敏请求进行重构;
S2、再根据纯数字、纯字母及数字字母混合三种不同类型数据的脱敏请求建立多模块脱敏算法;
S3、最后通过动态分析脱敏请求,根据潜在的攻击风险类型并结合多模块脱敏算法选择合适的脱敏算法。
进一步改进在于:所述步骤四中还利用了多种格式转换技术进行综合评估,多种格式转换技术具体是通过替换、混淆算法,选择预定义的脱敏算法,生成特定的支持常见文件格式的数据转换器对数据格式进行转换。
进一步改进在于:所述步骤五中具体从脱敏需求的百分占比、脱敏方案的扩展性、脱敏算法的实现成本和脱敏算法运行及维护的操作四个方面进行评估。
进一步改进在于:所述脱敏算法的实现成本包括算法复杂性、通讯负载、测试成本及可维护性进行综合评判。
本发明的有益效果为:本发明通过对隐私推理攻击及联合多敏感属性推理攻击进行检测分析作为脱敏算法的安全评估指标,保证了敏感数据的有效脱敏,采用决策树机器学习算法对不同应用场景进行脱敏算法选择及评估,同时依据脱敏后的性能指标对脱敏算法隐私泄露风险进行综合评估,可以辅助用户实现脱敏策略制定,检测脱敏效果。
附图说明
图1为本发明总体框架图。
图2为本发明脱敏算法流程图。
图3为本发明脱敏算法性能评估流程图。
图4为本发明脱敏算法动态配置及参数优化流程图。
图5为本发明脱敏数据的隐私性能评估流程图。
图6为本发明脱敏算法总体性能评价流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明做进一步详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
实施例一
根据图1、2、3、4、5、6所示,本实施例提供了一种数据脱敏时的效果评估方法,包括以下步骤:
步骤一、从脱敏算法的隐私保护程度、信息损失度和算法强度三个性能对脱敏算法的脱敏效果进行分析;
其中隐私保护程度通过安全屋模式及有限数据集模式、聚类性算法和敏感信息保护三个层次来衡量性能;
信息损失度分析通过基于勾陈匿名组的大小、基于一般值的特征度量和评价关联误差三个方面进行性能分析,采用归一化平均类大小来估计预先规定任务信息损失度;
所述算法强度通过脱敏速度、准确度和计算负载三个方面进行性能评估;
步骤二、在数据脱敏中对多种假设条件下的隐私推理攻击及联合多敏感属性推理攻击进行检测并提取特征,计算得到不同的脱敏算法潜在的攻击风险;
其中隐私推理攻击检测是通过动态选择k-匿名、l-多样性、t接近、(α,k)-匿名、(X,Y)-匿名、m-invariance和基于图的m-invariance七种匿名模型,建立模型抵御攻击能力矩阵,并选择合适的模型提高脱敏算法抵御攻击的能力
步骤三、通过动态分析脱敏规则,并根据步骤二中攻击方式的攻击风险动态选择适应不同场景的脱敏算法;
动态选择方法包括以下步骤
S1、先根据脱敏规则,通过分析敏感字段与规则库对脱敏请求进行重构;
S2、再根据纯数字、纯字母及数字字母混合三种不同类型数据的脱敏请求建立多模块脱敏算法;
S3、最后通过动态分析脱敏请求,根据潜在的攻击风险类型并结合多模块脱敏算法选择合适的脱敏算法;
步骤四、通过分析脱敏一致性、脱敏可扩展性和敏感数据自动分类三种属性对步骤三中选择的脱敏算法的脱敏效果进行综合评估;
其中所述步骤四中还利用了多种格式转换技术进行综合评估,多种格式转换技术具体是通过替换、混淆算法,选择预定义的脱敏算法,生成特定的支持常见文件格式的数据转换器对数据格式进行转换;
步骤五、在脱敏算法的权限判决、数据分类、敏感级值设定、脱敏算法选择和脱敏效果评估的环节采用决策树机器学习方法,制定脱敏算法策略,检测并获得脱敏效果最终评估结果;
具体从脱敏需求的百分占比、脱敏方案的扩展性、脱敏算法的实现成本和脱敏算法运行及维护的操作四个方面进行评估,其中脱敏算法的实现成本包括算法复杂性、通讯负载、测试成本及可维护性进行综合评判。
实施例二
根据图1、2、3、4、5、6所示,本实施例提供了一种数据脱敏时的效果评估方法,包括以下步骤:
步骤一、从脱敏算法的隐私保护程度、信息损失度和算法强度三个性能对脱敏算法的脱敏效果进行分析;
其中隐私保护程度通过安全屋模式及有限数据集模式、聚类性算法和敏感信息保护三个层次来衡量性能,敏感信息的处理往往需要保留一定的统计信息,对于每个数据集的记录,用下式来定义每个记录的可辨识度
Figure BDA0003429865820000071
其中fi是等价类i的大小,i=1……Z,Z是等价类的数量,n是记录的总数,可辨识度越低,意味着隐私保护程度越高;
信息损失度分析通过基于勾陈匿名组的大小、基于一般值的特征度量和评价关联误差三个方面进行性能分析,采用归一化平均类大小来估计预先规定任务信息损失度;
所述算法强度通过脱敏速度、准确度和计算负载三个方面进行性能评估,以argmin(C,R,S)模型来分析数据脱敏算法的性能,其中R为硬件需求,S为脱敏配置,C为脱敏算法复杂性;
在系统具体实现中,通过计算总结脱敏泛化处理后的每条数据所在的分组内的属性范围差值来衡量数据的损失程度。在K-匿名或L-多样性算法中,对数据的QID进行泛化时,要首先根据属性值的范围进行划分,每个划分后的分组中属性值的极差(最大值-最小值)再乘以分组的长度(代表这个分组在整体数据集中的权重)就是这个分组所代表的泛化情况。再对每个分组的NCP进行求和,就得到了整体数据集的信息损失情况。最后将总和分别除以泛化的属性个数和数据集的大小,就得到了该数据集的平均数据损失率(GCP)
GCP=(∑g∈G(∑r∈Rmax(Xr)-min(Xr))*length(g))/length(dataet)/length(attribute)
其中G表示所有分组的集合,g是其中一个分组,max(Xr)和min(Xr)是当前分组属性集合R中属性r的最大最小值,length(dataset)表示数据集大小,length(attribute)表示所有属性个数;
步骤二、在数据脱敏中对多种假设条件下的隐私推理攻击及联合多敏感属性推理攻击进行检测并提取特征,计算得到不同的脱敏算法潜在的攻击风险;
其中隐私推理攻击检测是通过动态选择k-匿名、l-多样性、t接近、(α,k)-匿名、(X,Y)-匿名、m-invariance和基于图的m-invariance七种匿名模型,建立模型抵御攻击能力矩阵,并选择合适的模型提高脱敏算法抵御攻击的能力;
其中针对链接攻击,除了t-接近模型外的其他模型均具有较好的抵御能力;
同质化攻击,除了k-匿名外的其他匿名模型;
背景知识攻击,除了k-匿名外的其他匿名模型;
近似攻击,仅t-接近具有抵御攻击的能力;
偏态攻击,仅t-接近具有抵御攻击的能力;
值等效攻击,仅基于图的m-invariance具有抵御攻击的能力。
步骤三、通过动态分析脱敏规则,并根据步骤二中攻击方式的攻击风险动态选择适应不同场景的脱敏算法;
其中动态选择方法包括以步骤
所述步骤三中动态选择方法包括以下步骤
S1、先根据脱敏规则,通过分析敏感字段与规则库对脱敏请求进行重构;
S2、再根据纯数字、纯字母及数字字母混合三种不同类型数据的脱敏请求建立多模块脱敏算法;
在实现过程中,采用多种不同模式实现数据脱敏处理,包括简单的单机处理、提取-转换-加载(Extract–Transform-Load,ETL)模式,可以适应不同的应用脱敏场景;
S3、最后通过动态分析脱敏请求,根据潜在的攻击风险类型并结合多模块脱敏算法选择合适的脱敏算法。
步骤四、通过分析脱敏一致性、脱敏可扩展性和敏感数据自动分类三种属性对步骤三中选择的脱敏算法的脱敏效果进行综合评估;
脱敏一致性,通过采用确定性/随机算法确保隐私数据(待脱敏数据)与其他主体信息关联关系的一致性,并能够保证不同脱敏系统下可重复脱敏过程;
脱敏可扩展性,为满足大数据量脱敏要求,脱敏算法应该能够满足数据驱动业务,同时针对新的数据格式、新的脱敏算法(算法),及新的应用场景保证脱敏处理的一致性及可扩展性;
敏感数据自动分类,为提高脱敏效率通过关键字对隐私数据进行快速定位并自动分类。如对个人识别信息(PII)姓名、地址、出生日期、身份证号等隐私信息进行启发式分析并进行分类分级;
多种格式转换技术,具体的通过替换、混淆算法,选择预定义的脱敏算法及生成特定的支持常见文件格式的数据转换器。
步骤五、在脱敏算法的权限判决、数据分类、敏感级值设定、脱敏算法选择和脱敏效果评估的环节采用决策树机器学习方法,制定脱敏算法策略,检测并获得脱敏效果最终评估结果;
具体从以下四个方面进行评估
一、对脱敏需求的百分占比进行评估;
二、对脱敏方案的扩展性进行评估,针对合适的数据集进行算法选择和集成;
三、对脱敏算法的实现成本进行评估,包括算法复杂性、通讯负载、测试成本及可维护性进行综合评判;
四、脱敏算法运行及维护所需的操作进行评估。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种数据脱敏时的效果评估方法,其特征在于包括以下步骤:
步骤一、从脱敏算法的隐私保护程度、信息损失度和算法强度三个性能对脱敏算法的脱敏效果进行分析;
步骤二、在数据脱敏中对多种假设条件下的隐私推理攻击及联合多敏感属性推理攻击进行检测并提取特征,计算得到不同的脱敏算法潜在的攻击风险;
步骤三、通过动态分析脱敏规则,并根据步骤二中攻击方式的攻击风险动态选择适应不同场景的脱敏算法;
步骤四、通过分析脱敏一致性、脱敏可扩展性和敏感数据自动分类三种属性对步骤三中选择的脱敏算法的脱敏效果进行综合评估;
步骤五、在脱敏算法的权限判决、数据分类、敏感级值设定、脱敏算法选择和脱敏效果评估的环节采用决策树机器学习方法,制定脱敏算法策略,检测并获得脱敏效果最终评估结果。
2.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤一中隐私保护程度通过安全屋模式及有限数据集模式、聚类性算法和敏感信息保护三个层次来衡量性能;信息损失度分析通过基于勾陈匿名组的大小、基于一般值的特征度量和评价关联误差三个方面进行性能分析;所述算法强度通过脱敏速度、准确度和计算负载三个方面进行性能评估。
3.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤一中信息损失度分析采用归一化平均类大小来估计预先规定任务信息损失度。
4.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤二中隐私推理攻击检测是通过动态选择k-匿名、l-多样性、t接近、(α,k)-匿名、(X,Y)-匿名、m-invariance和基于图的m-invariance七种匿名模型,建立模型抵御攻击能力矩阵,并选择合适的模型提高脱敏算法抵御攻击的能力。
5.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤三中动态选择方法包括以下步骤
S1、先根据脱敏规则,通过分析敏感字段与规则库对脱敏请求进行重构;
S2、再根据纯数字、纯字母及数字字母混合三种不同类型数据的脱敏请求建立多模块脱敏算法;
S3、最后通过动态分析脱敏请求,根据潜在的攻击风险类型并结合多模块脱敏算法选择合适的脱敏算法。
6.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤四中还利用了多种格式转换技术进行综合评估,多种格式转换技术具体是通过替换、混淆算法,选择预定义的脱敏算法,生成特定的支持常见文件格式的数据转换器对数据格式进行转换。
7.根据权利要求1所述的一种数据脱敏时的效果评估方法,其特征在于:所述步骤五中具体从脱敏需求的百分占比、脱敏方案的扩展性、脱敏算法的实现成本和脱敏算法运行及维护的操作四个方面进行评估。
8.根据权利要求7所述的一种数据脱敏时的效果评估方法,其特征在于:所述脱敏算法的实现成本包括算法复杂性、通讯负载、测试成本及可维护性进行综合评判。
CN202111590871.XA 2021-12-23 2021-12-23 一种数据脱敏时的效果评估方法 Pending CN114372271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590871.XA CN114372271A (zh) 2021-12-23 2021-12-23 一种数据脱敏时的效果评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590871.XA CN114372271A (zh) 2021-12-23 2021-12-23 一种数据脱敏时的效果评估方法

Publications (1)

Publication Number Publication Date
CN114372271A true CN114372271A (zh) 2022-04-19

Family

ID=81142037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590871.XA Pending CN114372271A (zh) 2021-12-23 2021-12-23 一种数据脱敏时的效果评估方法

Country Status (1)

Country Link
CN (1) CN114372271A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240982A (zh) * 2023-11-09 2023-12-15 沐城测绘(北京)有限公司 一种基于隐私保护的视频脱敏方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240982A (zh) * 2023-11-09 2023-12-15 沐城测绘(北京)有限公司 一种基于隐私保护的视频脱敏方法
CN117240982B (zh) * 2023-11-09 2024-01-26 沐城测绘(北京)有限公司 一种基于隐私保护的视频脱敏方法

Similar Documents

Publication Publication Date Title
TWI595375B (zh) 使用適應性行爲輪廓之異常檢測技術
Zhou et al. The k-anonymity and l-diversity approaches for privacy preservation in social networks against neighborhood attacks
CN107579956B (zh) 一种用户行为的检测方法和装置
CN106940777A (zh) 一种基于敏感信息度量的身份信息隐私保护方法
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
CN110781514A (zh) 一种数据隐私保护方法
CN112530587A (zh) 医疗大数据访问控制用二维动态信任评价模型的构建方法
Senosi et al. Classification and evaluation of privacy preserving data mining: a review
CN114372271A (zh) 一种数据脱敏时的效果评估方法
CN117478433B (zh) 一种网络与信息安全动态预警系统
Tang et al. Generalizing terrorist social networks with K-nearest neighbor and edge betweeness for social network integration and privacy preservation
Chiang et al. Preserving confidentiality when sharing medical database with the Cellsecu system
Jiang [Retracted] Research on Machine Learning Algorithm for Internet of Things Information Security Management System Research and Implementation
Turkanovic et al. Inference attacks and control on database structures
US20220374524A1 (en) Method and system for anamoly detection in the banking system with graph neural networks (gnns)
CN114971180A (zh) 网络系统风险评估方法、装置、计算机设备和存储介质
Gamachchi et al. Web access patterns reveal insiders behavior
Truta et al. Assessing global disclosure risk in masked microdata
CN113553612A (zh) 一种基于移动群智感知技术的隐私保护方法
Tsang et al. A federated-ANFIS for collaborative intrusion detection in securing decentralized autonomous organizations
Liu et al. Improved detection of user malicious behavior through log mining based on IHMM
Sun et al. Proactive defense of insider threats through authorization management
Dai et al. Research on power mobile Internet security situation awareness model based on zero trust
Warzyński et al. Application and evaluation of selected machine learning algorithms in anomaly detection module for soc
Yuan et al. Evolution of privacy-preserving data publishing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication