CN111723396B - 一种基于SaaS的通用云数据隐私保护平台与方法 - Google Patents

一种基于SaaS的通用云数据隐私保护平台与方法 Download PDF

Info

Publication number
CN111723396B
CN111723396B CN202010430668.5A CN202010430668A CN111723396B CN 111723396 B CN111723396 B CN 111723396B CN 202010430668 A CN202010430668 A CN 202010430668A CN 111723396 B CN111723396 B CN 111723396B
Authority
CN
China
Prior art keywords
data
user
privacy protection
gwdi
ppp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010430668.5A
Other languages
English (en)
Other versions
CN111723396A (zh
Inventor
杨灿
潘诗颖
李闰民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010430668.5A priority Critical patent/CN111723396B/zh
Publication of CN111723396A publication Critical patent/CN111723396A/zh
Application granted granted Critical
Publication of CN111723396B publication Critical patent/CN111723396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本发明属于数据隐私保护和SaaS云服务领域,公开一种基于SaaS的通用云数据隐私保护平台,用户在该平台实现数据隐私保护,具体地:用户通过Web提交数据;在线选择隐私保护模型;定义数据配置;定义信息损失度量及模型参数;执行匿名处理;获取匿名数据。平台对原始数据预处理;执行匿名算法;计算信息损失;返回匿名数据。本发明提供多种数据隐私保护模型,提供不同的信息损失度量方法供用户评估匿名后的数据质量,能有效保护关系型或集值型数据隐私;支持SaaS云环境隐私保护,并支持数据系统定制、数据管理等,能有效满足用户在云端定制数据服务并保护隐私的需求。本发明还提供一种基于SaaS的通用云数据隐私保护方法。

Description

一种基于SaaS的通用云数据隐私保护平台与方法
技术领域
本发明属于数据隐私保护和SaaS云服务领域,涉及一种基于SaaS的通用云数据匿名化隐私保护平台与方法。
背景技术
信息时代数据海量增长,并从本地逐渐转到云端,用户迫切需要一种通用化的数据隐私保护工具帮助其进行对云端数据匿名处理。随着SaaS(Software as a Service)软件应用模式的兴起,它为云模式的数据管理及数据隐私保护创造了可能性。SaaS模式指的是用户按需订制或购买由SaaS软件供应商提供的软件服务,它是利用软件所存在的共性来为用户提供方便与创造经济利益的一种应用模式。
数据匿名是一种数据隐私保护的处理方式。2002年,Sweeney等人提出了K-匿名,把至少K条有着相同准标识符的记录构成一个等价类,保证攻击者对每条记录的获取概率不超过1/K。之后,L-多样性被提出,它保证准标识符相同的记录中的敏感属性至少有L个。这两个数据隐私保护模型作为典型的关系型数据处理模型被广泛研究且应用,为处理集值型数据,Terrovitis M等人提出了专门针对于集值型数据的隐私保护模型Km-匿名,保证知道至多m项属性值的攻击者获取记录的概率不超过1/K。为避免泛化与抑制带来的数据质量下降,Anatomy被提出,它是一种基于分解的模型,不涉及修改原始值的处理提高了数据的可用性。信息损失度量是一种评估匿名后数据质量的方法,其主要涉及的是原始数据与匿名后数据的差异度,其中鉴别力度量(DM)、标准化平均等价类大小(Cavg)、信息损失指标(LM)、标准化确定性惩罚(NCP)以及归一化的标准化确定性惩罚(PercentNCP)是目前广泛使用的几种信息损失度量标准。
但目前数据隐私保护的通用化工具处于匮乏的状态,并且,现有的少量工具还存在服务数据类型单一、可选隐私保护模型较少、无法系统化评估处理后的数据质量等问题。不仅如此,大部分工具处于本地环境,难以满足云端的服务需求。
发明内容
针对现有技术的不足,本发明提供一种基于SaaS的通用云数据隐私保护平台(General Web Data Interface-Privacy Preserving Platform,简称GWDI-PPP),利用SaaS环境的多租户多实例模式使用户能够按需在Web上定制并构建数据管理系统,并在数据管理系统上集成面向不同数据类型的多种典型数据匿名化隐私保护方案,同时提供信息损失度量方法让用户评估处理过后的数据质量。
本发明还提供一种基于SaaS通用云数据隐私保护方法。
本发明的一种基于SaaS的通用云数据隐私保护平台(GWDI-PPP)采用如下技术方案实现:
一种基于面向多租户的SaaS的云服务模式数据管理及隐私保护系统(GWDI-PPP),抽取云数据管理系统在用户界面UI层、管理维护层及数据表示层的核心共性并进行建模,其具体包括:租户模块、用户模块、用户组模块、模型模块和数据模块。
租户模块服务于GWDI-PPP的超级管理员,用于管理租户,其具体包括:添加租户、删除租户。所述租户即拥有个人定制的数据管理系统的系统管理员。
用户模块服务于GWDI-PPP的租户,用于管理租户的数据管理系统内的用户,其具体包括:添加用户、修改用户基本信息、添加用户所属组、删除用户所属组、删除用户。其中添加用户所属组方式包括:逐个添加、批量添加、复制其他用户的用户组信息并粘贴添加至当前用户。
用户组模块服务于GWDI-PPP的租户,用于管理租户下的用户对数据表模型的权限,其中数据表模型具体指的是在数据管理系统内的数据表,租户下用户隶属不同用户组,不同用户组对数据表模型具备不同权限,以此对用户进行数据表模型的权限划分。其具体包括:为数据表模型添加用户组、删除用户组、修改用户组信息、添加用户组内用户、删除用户组内用户。其中添加用户组内用户包括:逐个添加、批量添加、复制其他用户组内用户信息并粘贴添加至当前用户组。
模型模块服务于GWDI-PPP的租户,用于管理租户的数据管理系统内的数据表结构元信息,其具体包括:添加数据表模型、修改数据表模型信息、删除数据表模型、添加数据表模型字段信息、修改数据表模型字段信息、删除数据表模型字段信息。其中,添加数据表模型方式包括:逐个添加、以现有数据表模型为模板复制添加。其中,添加数据表模型字段信息的方式包括:逐个添加、复制其他数据表模型字段信息并粘贴添加至当前数据表模型。
数据模块服务于GWDI-PPP的最终用户,即,GWDI-PPP的租户所管理的用户,数据模块用于用户管理其数据,具体包括:数据匿名、新增数据、修改数据、删除数据、数据统计、高级查询、导入数据和导出数据。
数据模块作为GWDI-PPP的通用数据接口部分,主要负责数据管理系统内的数据存储、发布、管理和维护,其具体包括:
数据模块支持云端数据的增删改查,即,新增数据、删除数据、修改数据、查询数据。
数据模块支持云端数据的数据统计,包括:平均值统计、最大值统计、最小值统计、总和统计、记录数统计。
数据模块支持云端数据的数据高级查询,其中包括:对数据中各字段进行与、或、非等条件组合查询数据。
数据模块支持云端数据的导入/导出,其中包括:从SQL Server导入数据至系统;从Mysql导入数据至系统;从Oracle导入数据至系统;从Excel表格文件导入数据至系统;从系统导出文件至Excel。
数据模块支持云端数据的匿名化处理,即对用户提供数据匿名服务。
数据模块的数据匿名部分,通过数据隐私保护模块实现。数据隐私保护模块为安插在GWDI-PPP数据模块上的服务模块,为GWDI-PPP的用户提供数据匿名隐私保护服务。
包括:(1)用户表示层,其用于用户与GWDI-PPP的交互和访问入口,用户在用户表层配置数据匿名请求并发送数据匿名请求,请求成功后再从用户表示层获取匿名后数据;(2)系统处理层,其用于处理用户从用户表示层发送的数据匿名请求,并返回请求结果给用户表示层。
数据匿名部分的用户表示层包括:(1)数据界面模块,该模块供用户可以查看匿名前后的数据,并且对其进行增删改查等数据模块支持的操作;(2)数据处理模块,该模块用于用户载入原始数据和导出或下载匿名后数据的接口;(3)参数配置模块,该模块用于用户对数据隐私保护模型和信息损失度量方法的选择,以及数据隐私保护模型所需参数的配置、泛化树定义等。
数据匿名部分的系统处理层包括:(1)数据传输模块,该模块用于接受从用户表示层传来的数据,以及将处理后的数据回传至用户表示层;(2)数据预处理模块,该模块用于对原始数据的读入和预处理,包括以下两类数据类型的读入:(a)XLS;(b)CSV。包括处理错误数据、处理缺失数据及处理数据格式的操作;(3)数据匿名模块,该模块用于将预处理后的数据按照参数配置模块设置的隐私模型和参数来进行匿名化处理;(4)数据质量评估模块,该模块用于以参数配置模块选择的信息损失度量方法来衡量和评估处理后的数据质量。
GWDI-PPP各模块之间关系包括:
(1)用户模块与用户组模块之间存在多对多的关系,即一名用户隶属多个用户组,一个用户组内可包含多名用户。
(2)租户模块与用户模块、用户组模块、模型模块之间存在着一对多的关系,即一个租户可包含多个用户、用户组和模型。
(3)用户组模块与模型模块之间存在着一对一的关系,即一个数据表模型隶属于一个用户组,该用户组对数据表模型拥有特定权限,非该组用户对数据表模型拥有其他权限。其权限具体包括:(a)可读可写;(b)可读不可写;(c)不可读不可写。
(4)模型模块与数据模块之间存在着一对多的关系,即一个数据表模型可包含多条数据。
GWDI-PPP的使用者身份分为三类:(1)系统平台超级管理员;(2)租户;(3)租户下用户。其身份之间的关系包括:系统平台超级管理员有且只有一个;系统平台超级管理员下管理多个租户;租户下管理多个用户。具体地:
平台的超级管理员与租户存在一对多关系,即,平台有且只有一个超级管理员,超级管理员可管理多个租户。
租户与用户、用户组、数据模型存在一对多关系,即,一名租户下可包含多名用户、多个用户组、多个数据模型。
用户与用户组存在多对多关系,即,一名用户可隶属多个用户组,一个用户组可包含多个用户。
本发明的一种基于SaaS的通用云数据隐私保护方法采用如下技术方案实现:
一种基于SaaS的通用云数据隐私保护方法,包括:
步骤1、基于SaaS的通用云数据隐私保护平台(GWDI-PPP),用户通过Web访问GWDI-PPP并提交需要进行隐私保护处理的原始数据。其中,具体操作有以下两种方案可选:
方案1-1、用户根据GWDI-PPP所提供或约定的格式形式,填写数据文件,然后将填写后的数据文件提交到系统中。其中,数据文件可选取以下两种文件格式:(1)XLS;(2)CSV。数据文件中,每行作为一条记录,每个单元格为一个属性值。
方案1-2、用户将存储在GWDI-PPP的数据直接导入。用户在界面上访问数据并采用导入当前数据的方式选择需要处理的数据表。
步骤2、GWDI-PPP在云端读入步骤1中用户导入的原始数据。若用户在步骤1中采用1-1方案,则GWDI-PPP对用户所上传的数据文件进行格式验证,若格式验证过程中检测有误,则返回错误信息给用户,并提示用户重新完成步骤1导入数据;若格式验证成功,则将数据传输至隐私保护模块的系统处理层并保存;若用户在步骤1中采用1-2方案,则GWDI-PPP从云数据库中读入用户所选取的数据并将数据传输至数据隐私保护模块的系统处理层并保存。
步骤3、用户根据所需选择数据匿名模型(数据隐私保护模型),根据匿名模型的原则来处理数据隐私。其中,具体有以下四种方案可选:
方案3-1、用户选择k-匿名/k-anonymity隐私保护模型对其关系型数据进行匿名化处理。
方案3-2、用户选择l-多样性/l-diversity隐私保护模型对其关系型数据进行匿名化处理。
方案3-3、用户选择anatomy/anatomize隐私保护模型对其关系型数据进行匿名化处理。
方案3-4、用户选择km-匿名/km-anonymity隐私保护模型对其集值型数据进行匿名化处理。
步骤4、GWDI-PPP在云端读取步骤3中用户所选择的数据隐私保护模型,并将其规格化后传输并保存在数据隐私保护模块的系统处理层中。
步骤5、用户对数据结构进行配置,并通过Web提交GWDI-PPP。具体包括:数据完整字段定义;数据准标识符字段定义;数据准标识符字段类型定义;数据敏感属性字段定义,数据准标识符分类型字段泛化树定义。其中数据完整字段定义具体是指:步骤1所选取的数据的所有字段名;数据准标识符字段定义指:步骤1中所选取数据中作为准标识符的字段的索引;数据准标识符字段类型指:准标识符字段为“分类型”或“数值型”的判断;数据敏感属性字段定义是指:步骤1中所选取数据中作为敏感属性的字段的索引;数据准标识符分类型字段泛化树是指:数据准标识符中为分类型的字段的泛化树。
步骤6、GWDI-PPP在云端读取步骤5中用户上传的数据结构配置,并进行格式验证,若格式验证过程中检测有误,则返回错误信息给用户,并提示用户重新完成步骤5;若格式验证成功,则将数据结构的配置传输并保存至数据隐私保护模块的系统处理层。
步骤7、用户配置数据隐私保护模型参数。具体根据步骤3的不同方案提供不同的参数配置模版,其具体如下:
方案7-1、若在步骤3中采取3-1方案,则GWDI-PPP按照k-匿名/k-anonymity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下三项参数的配置:
(1)执行类型:手动设置K值/自动搜寻质量最优K值。该项为用户配置执行类型所用,若用户选取手动设置K值方式,则必填(3)指定K值,GWDI-PPP则按照该设定K值进行数据匿名处理;若用户选取自动搜寻质量最优K值的方式,则无需填(3)指定K值,GWDI-PPP可在局部范围内寻找匿名后数据质量最优的K值解,并执行匿名处理。
(2)信息损失函数:NCP/DM/Cavg/LM/PercentNCP。该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户。
(3)指定K:手动设置的K值。若用户在(1)中选择手动设置K值,则该项必填,此时,GWDI-PPP根据该值进行数据匿名处理。
方案7-2、若在步骤3中采用3-2方案,则GWDI-PPP按照l-多样性/l-diversity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下三项参数的配置:
(1)执行类型:手动设置L值/自动搜寻质量最优L值。该项为用户配置执行类型所用,若用户选取手动设置L值方式,则必填(3)指定L值,GWDI-PPP则按照该设定L值进行数据匿名处理;若用户选取自动搜寻质量最优L值的方式,则无需填(3)指定L值,GWDI-PPP可在局部范围内寻找匿名后数据质量最优的L值解,并执行匿名处理。
(2)信息损失函数:NCP/DM/LM/PercentNCP。该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户。
(3)指定L:手动设置的L值。若用户在(1)中选择手动设置L值,则该项必填,此时,GWDI-PPP根据该值进行数据匿名处理。
方案7-3、若在步骤3中采用3-3方案,则GWDI-PPP按照anatomy/anatomize隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下一项参数的配置:
(1)指定L:手动设置的L值。在anatomy/anatomize隐私保护模型方案下,用户无需选择信息损失函数,因该模型不对原始数据进行值的修改。GWDI-PPP根据用户设定的L值进行数据匿名处理。
方案7-4、若在步骤3中采用3-4方案,则GWDI-PPP按照km-匿名/km-anonymity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下五项参数的配置:
(1)执行算法:该项参数供用户选择执行匿名的算法;
(2)信息损失函数:NCP/LM/PercentNCP。该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户。
(3)指定K值:用户必填一个K值,GWDI-PPP读取该值并根据该值对数据进行匿名化处理。
(4)指定M值:用户必填一个M值,GWDI-PPP读取该值并根据该值对数据进行匿名化处理。
(5)泛化字段名:该隐私保护处理方案处理的是集值数据,故该项应填在步骤5中定义的数据准标识符字段的字段名,且此时该字段名有且只有一个。
步骤8、用户通过Web页面发送数据匿名请求。用户在GWDI-PPP前端用户界面中完成了以上步骤,并选择了执行匿名方案之后,GWDI-PPP后台将格式化用户所发送的请求,并将其转发至数据隐私保护模块的系统处理层。
步骤9、GWDI-PPP在云端的数据隐私保护模块执行步骤8中获取的数据匿名请求,将用户所导入的数据按照所配置项进行匿名化处理,其中具体包括以下步骤:
步骤9-1、对数据进行预处理。对步骤1和步骤2中保存的数据进行预处理,具体包括以下操作:(1)处理缺失记录;(2)处理错误记录;(3)标记步骤5和步骤6中定义的数据配置;并将处理后的数据进一步保存。
步骤9-2、读取数据隐私保护模型以及数据隐私保护模型的参数配置并处理数据。对在步骤9-1中预处理后的数据按照步骤3和步骤4中所定义的数据隐私保护模型以及步骤7和步骤8所定义的数据隐私保护模型参数执行相应的匿名化处理。
步骤9-3、计算匿名后数据的信息损失。按照步骤7中所选的信息损失函数计算步骤9-2中执行匿名处理后的数据的信息损失,用以评估数据质量。若在步骤3中选择3-3方案,则无需填写信息损失函数,则不进行步骤9-3。
步骤9-4、GWDI-PPP保存执行匿名处理后的数据并保存相应的信息损失大小,执行完成后,在GWDI-PPP上返回信息给用户,包括执行时间、信息损失大小。
步骤10、用户通过Web获取数据隐私保护模块处理后的数据。在执行完数据匿名请求后,步骤9-4返回相应信息给用户,用户可进一步获取隐私保护处理后的数据,其中包括以下两种可选方案:
方案10-1、用户下载数据至本地。用户可选择从云端下载数据至本地保存,可选的文件格式有:(1)XLS;(2)CSV;选择不同的格式,GWDI-PPP会将数据转换成相应格式的文件并让用户下载。
方案10-2、用户导出数据至云端。用户可选择将隐私保护处理后的数据直接导出至系统中。选择该项,GWDI-PPP会将数据转换成底层数据库可兼容的记录形式,并将数据灌入其中,用户可刷新查看访问并管理。
本发明相较于现有技术有以下效果及优点:
(1)本发明所提出的一种云数据隐私保护方法为用户提供一种方便快捷的通用化数据隐私保护方法,覆盖关系型数据和集值型数据等多种类型数据,实现K-匿名和Km-匿名等典型的隐私保护方法,并提供多种数据质量评估方法供用户选择,克服了当前数据隐私保护方法仅仅提供关系型数据的隐私保护方案、隐私保护方法单一老旧并且缺乏信息损失度量方法供用户评估匿名后数据质量等不足,能够有效保护用户的数据隐私。
(2)本发明所提出的一种基于多租户的SaaS云模式通用数据隐私保护系统(GWDI-PPP)将数据存储从本地转移到云端,并在云端实现了数据管理、发布、维护和隐私保护服务。现有的数据隐私保护工具大多为客户端软件系统,需要用户下载插件的同时还可能需要配置后台数据库及操作环境等,并且在本地进行数据隐私处理后不提供云端的发布渠道,限制了数据共享。而GWDI-PPP提供基于SaaS环境的Web访问系统,并提供了一套相应的界面与数据管理服务,能够使用户获取数据管理和数据隐私服务更加便利快捷。
附图说明
图1为本发明一个实施例中一种基于SaaS的通用云数据隐私保护平台(GWDI-PPP)总体架构示意图;
图2为本发明一个实施例中GWDI-PPP的数据隐私保护模块架构设计图;
图3为本发明一个实施例中用户执行数据匿名请求UML时序图;
图4为本发明一个实施例中GWDI-PPP处理数据匿名请求UML活动图;
图5为实施例1中的用户导入原始数据界面;
图6为实施例1中的用户选择隐私保护模型界面;
图7为实施例1中的用户配置模型参数界面;
图8为实施例1中的执行结果提示界面;
图9为实施例1中的匿名后数据展示界面。
具体实施方式
为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细地说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不限于本发明。
本发明提供一种基于SaaS环境下提供数据隐私保护服务的数据管理平台,其技术特征在于提供兼容SaaS云端多租户系统构造和用户数据隐私保护方法与平台,本发明集成了包含K-匿名、L-多样性、Anatomy及Km-匿名多种隐私保护模型和不同的信息损失度量方法,在Web端提供给用户方便快捷的数据隐私保护处理方式和数据质量评估方案,能够有效提高用户处理数据隐私的效率。同时它还为用户提供了便捷易用的数据发布、管理和维护平台的工具,有效节省了用户实现数据管理系统的时间成本与学习代价,能够有效满足用户在云端实现数据管理和隐私保护的需求。
图1为一种基于SaaS的通用云数据隐私保护平台(GWDI-PPP)总体架构示意图,为了便于说明,仅仅示出了与本发明相关的部分,包括:
平台管理员模块11,用于平台管理员管理GWDI-PPP,在该模块下,平台管理员可:登录/登出平台;新增/删除租户及租户的数据管理系统。
租户模块12,用于租用GWDI-PPP平台服务的租户管理其定制的数据管理系统,在该模块下,租户可:登录/登出平台;新增/修改/删除其数据管理系统内用户;新增/修改/删除其数据管理系统内用户组;新增/修改/删除其数据管理系统内数据隐私保护模型。
租户下用户模块13,用于租户数据管理系统内的普通用户管理其在数据管理系统内的数据,在该模块下,租户下的用户可:登录/登出平台;对有权限的数据表进行管理。其中,对有权限的表进行管理包括:数据匿名、新增数据、修改数据、删除数据、统计数据、组合查询数据。
用户组模块,服务于GWDI-PPP的租户,用于管理租户下的用户对数据表模型的权限;
模型模块,服务于GWDI-PPP的租户,用于管理租户的数据管理系统内的数据表结构元信息;
数据模块,服务于GWDI-PPP的最终用户,即,GWDI-PPP的租户所管理的用户,用于用户管理其数据管理系统内的数据。
在GWDI-PPP平台中,租户创建数据管理系统并管理租户下的用户,用户登录租户创建的数据管理系统并在系统内提交数据,用户选择数据、设置数据隐私保护模型及参数并提出数据匿名请求,请求发送至GWDI-PPP平台并由GWDI-PPP平台执行数据匿名请求后将结果返回给用户。
数据模块提供数据匿名服务,通过数据隐私保护模块实现。其中:数据隐私保护模块为安插在GWDI-PPP上的服务模块,为GWDI-PPP的用户提供数据匿名隐私保护服务。图2展示了GWDI-PPP的数据隐私保护模块架构设计,为了便于说明,仅仅示出了与本申请相关的部分,包括:
用户表示层21,是用户与GWDI-PPP的交互和访问入口,用户在用户表示层配置数据匿名请求并发送数据匿名请求,请求成功后再从用户表示层获取匿名后数据。用户表示层包括:
数据界面模块211,该模块供用户可以查看匿名前后的数据,并且对其进行增删改查等操作。
数据处理模块212,用于用户载入原始数据和导出或下载匿名后数据的接口。
参数配置模块213,用于用户对数据隐私保护模型和信息损失度量方法的选择,以及数据隐私保护模型所需参数的配置、泛化树定义等。
系统处理层22,用于处理用户从用户表示层21发送的数据匿名请求,并返回数据匿名请求结果给用户表示层21。具体包括:
数据传输模块221,该模块用于接受从用户表示层传来的数据,以及将处理后的数据回传至用户表示层。
数据预处理模块222,该模块用于对原始数据的读入和预处理,包括以下两类数据类型的读入:(1)XLS;(2)CSV。包括处理错误数据、缺失数据及数据格式的预处理操作。
数据匿名模块223,该模块用于将预处理后的数据按照参数配置模块设置的数据隐私保护模型和参数来进行匿名化处理。
数据质量评估模块224,该模块用于以参数配置模块选择的信息损失度量方法来衡量和评估匿名处理后的数据质量。
图3展示用户使用本发明配置并执行匿名请求UML时序图,其具体步骤如下:
(1)用户载入原始数据步骤。该步骤中,用户可选择从系统中导入数据或者从本地上传数据。载入数据后ImportData类读入用户载入的数据并验证其格式,若用户选择从本地上传数据,则必须上传“XLS”或“CSV”格式文件。验证其格式若成功,则返回成功提示信息给用户,若失败,则返回失败提示信息给用户。
(2)用户选择数据隐私保护模型。该步骤中,用户选择系统提供的数据隐私保护模型中的一种,选择后SelectModel类读入该模型并保存,并返回给用户提示其选择的模型。
(3)用户设置数据结构配置。该步骤中,SetDataConfig类读入用户所配置的数据完整字段、数据准标识符字段、数据准标识符字段类型、数据敏感属性字段和数据准标识符分类型字段泛化树,并验证其格式,若格式正确则将其保存并返回成功提示给用户,若格式错误则返回错误提示给用户并提示其重新进行配置。
(4)用户设置数据隐私保护模型相关配置参数。该步骤中,用户发起设置请求,SelectModel类传输所保存的数据隐私保护模型至SetModelConfig类,SetModelConfig类根据不同的数据隐私保护模型规格化读入用户所配置的数据隐私保护模型的相关参数。
(5)执行数据匿名。该步骤中,用户发送执行数据匿名请求,ImportData类传输原始数据至Anonymize类,SetDataConfig类传输数据相关配置至Anonymize类,SetModelConfig类传输数据隐私保护模型及其相关参数至Anonymize类。Anonymize类读入相关数据及配置,并根据其执行匿名请求。执行匿名请求成功后返回信息损失大小及匿名执行时间给用户提示,若执行匿名请求失败则返回错误信息给用户并提示重新执行。
(6)获取匿名后数据。该步骤中,用户发送获取匿名数据的请求,此处用户可选择下载匿名后数据到本地或者导出数据到云端数据管理系统内。ExportData类首先解析用户的请求,若用户请求下载到本地,则ExportData类读入Anonymize类传来的匿名后数据,并对其进行格式化到用户所请求的格式类型,而后返回给用户下载;若用户请求导出到云端数据管理系统,则Export类读入Anonymize类传来的匿名后数据,并对其进行格式化至数据库可读取的格式,而后注入数据库,并返回给用户提示刷新查看。
图4展示一种基于SaaS的通用云数据隐私保护平台(GWDI-PPP)处理用户匿名请求的UML活动图,其具体步骤如下:
(1)GWDI-PPP接到用户发来的处理数据匿名化的请求,首先进行的是数据预处理。数据预处理包括:同时进行原始数据的读取、数据配置(泛化树)的读取、数据隐私保护模型配置参数的读取。其中:原始数据的读取包括两步:(a)读入原始数据;(b)处理错误/缺失数据并标准化其格式。若执行成功则进入步骤(2),若执行失败则返回错误提示给用户。
(2)等待步骤(1)处理完毕,即,数据预处理的所有步骤处理完毕,则GWDI-PPP执行数据匿名操作。即,按照所读入的原始数据、数据配置、数据隐私保护模型及数据隐私保护模型参数对数据进行匿名化处理。若执行成功则进入步骤(3),若执行失败则返回错误提示给用户。
(3)等待步骤(2)处理完毕,即,等待匿名算法执行完毕,则GWDI-PPP对匿名后的数据按照所读入的信息损失函数进行计算,从而评估匿名数据质量。若执行成功则进入步骤(4),若执行失败则返回错误提示给用户。
(4)等待步骤(3)处理完毕,即,数据的信息损失大小计算完毕,则GWDI-PPP根据用户所发送的获取匿名后数据请求来处理匿名后的数据,根据请求,或将数据格式化成相应文件并返回下载给用户;或将数据格式化成后台数据库格式并注入平台,返回成功提示并提示用户刷新查看数据。
实施例1
本实施例为在一种基于多租户的SaaS云服务通用数据隐私保护平台(GWDI-PPP)中使用一种云数据隐私保护方法的应用实例,包括以下步骤:
(1)用户载入数据,按照GWDI-PPP提供的原始数据约定上传相应的原始数据文件,其界面如图5所示。本实施例中,用户从本地上传“XLS”格式数据集至GWDI-PPP中。
(2)用户选择数据隐私保护模型,根据GWDI-PPP所提供的数据隐私保护模型以及用户自身对隐私保护的需求选定需要执行的保护方案,其界面如图6所示,本实施例中用户选择k-匿名/k-anonymity作为数据隐私保护模型。
(3)用户配置数据结构定义。用户根据步骤(1)中上传的原始数据的相关数据结构,按照GWDI-PPP提供的约束,定义数据完整字段、数据准标识符字段、数据准标识符字段类型、数据敏感属性字段和数据准标识符分类型字段泛化树。
(4)用户配置模型参数。用户根据步骤(2)中选择的隐私保护模型,并结合自身对数据隐私保护的需求,设置隐私保护模型的相关参数,其界面如图7所示。本实施例中,用户配置k-匿名/k-anonymity的参数,选择指定K值的执行类型(normal),并选择NCP作为信息损失度量函数,指定K=10。
(5)执行数据匿名。用户选择执行匿名,系统处理数据匿名请求后返回执行匿名请求时间和信息损失大小(以步骤(4)中设置的信息损失函数计算)给用户,其界面如图8所示,本实施例中,用户选择NCP计算信息损失大小,信息损失大小为68824.49,执行时间为1.08秒。
(6)重新载入匿名后数据。用户选择导出匿名后数据至云端数据管理系统,则系统处理匿名后的数据并注入云端数据库中,返回给用户提示刷新访问,用户刷新后界面展示匿名后的数据,其界面如图9所示。
在一个优选的实施例中,GWDI-PPP还包括:数据结构特征提取模块,用于提取与分析并保存数据结构特征,包括:数据类型、数据结构、数据完整字段、数据准标识符字段、数据准标识符字段类型、数据敏感属性字段和数据准标识符分类型字段泛化树等。
在一个优选的实施例中,GWDI-PPP还包括:对应关系模块,用于构建用户、数据特征、隐私保护模型和隐私保护模型参数的对应关系表,基于对应关系表,可对用户的输入数据进行隐私保护模型的自动化选择与隐私保护模型参数的自动化设置。用户可选择根据自动化的选择与设置进行数据匿名处理或修改相应的自动化选择和自动化参数后进行数据匿名处理。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于SaaS的通用云数据隐私保护平台,简称:GWDI-PPP,其特征在于,基于面向多租户的SaaS云服务模式,包括以下模块:
租户模块,服务于GWDI-PPP的超级管理员,用于管理租户;所述租户即拥有定制数据管理系统权限的系统管理员;
用户模块,服务于GWDI-PPP的租户,用于管理租户的数据管理系统内的用户;
用户组模块,服务于GWDI-PPP的租户,用于管理租户下的用户对数据表模型的权限;
模型模块,服务于GWDI-PPP的租户,用于管理租户的数据管理系统内的数据表结构元信息;
数据模块,服务于GWDI-PPP的最终用户,即,GWDI-PPP的租户所管理的用户,用于用户管理数据管理系统内的数据,包括数据匿名化处理;
数据模块支持的服务具体包括:
(1)支持云端数据的匿名化处理,即对用户提供数据匿名服务;其中,数据隐私保护模块为安插在GWDI-PPP的数据模块上的服务,为GWDI-PPP的用户提供数据匿名隐私保护服务;
(2)支持云端数据的增删改查;
(3)支持云端数据的数据统计;
(4)支持云端数据的数据高级查询;
(5)支持云端数据的导入/导出;
数据隐私保护模块包括:
用户表示层,是用户与GWDI-PPP的交互和访问入口,用户在用户表示层配置数据匿名请求并发送数据匿名请求,请求成功后再从用户表示层获取匿名后数据;
系统处理层,用于处理用户从用户表示层发送的数据匿名请求,并返回数据匿名请求结果给用户表示层;
系统处理层包括:
数据界面模块,供用户可以查看匿名前后的数据,并且对其进行增删改查操作;
数据处理模块,用于用户载入原始数据和导出或下载匿名后数据的接口;
参数配置模块,用于用户对数据隐私保护模型和信息损失度量方法的选择,以及数据隐私保护模型所需参数的配置、泛化树定义;
数据传输模块,用于接受从用户表示层传来的数据,以及将处理后的数据回传至用户表示层。
2.根据权利要求1所述的通用云数据隐私保护平台,其特征在于,用户表示层包括:
数据预处理模块,用于对原始数据的读入和预处理;
数据匿名模块,用于将预处理后的数据按照参数配置模块设置的数据隐私保护模型和参数来进行匿名化处理;
数据质量评估模块,用于以参数配置模块选择的信息损失度量方法来衡量和评估匿名处理后的数据质量。
3.根据权利要求1-2中任一项所述的通用云数据隐私保护平台,其特征在于,GWDI-PPP还包括:
数据结构特征提取模块,用于提取与分析并保存数据结构特征,包括:数据类型、数据结构、数据完整字段、数据准标识符字段、数据准标识符字段类型、数据敏感属性字段和数据准标识符分类型字段泛化树。
4.根据权利要求3所述的通用云数据隐私保护平台,其特征在于,GWDI-PPP还包括:
对应关系模块,用于构建用户、数据特征、隐私保护模型和隐私保护模型参数的对应关系表,基于对应关系表,对用户的输入数据进行隐私保护模型的自动化选择与隐私保护模型参数的自动化设置。
5.一种基于SaaS的通用云数据隐私保护方法,其通过权利要求1所述的通用云数据隐私保护平台实现,通用云数据隐私保护平台简称GWDI-PPP,其特征在于,包括:
步骤1、基于GWDI-PPP,用户通过Web访问GWDI-PPP并提交需要进行隐私保护处理的原始数据;
步骤2、GWDI-PPP在云端读入步骤1中用户导入的原始数据并对原始数据进行格式验证,若格式验证过程中检测有误,则返回错误信息给用户,并提示用户重新完成步骤1;若格式验证成功,则将数据传输至数据隐私保护模块的系统处理层并保存;
步骤3、用户选择所需的数据隐私保护模型;
步骤4、GWDI-PPP在云端读取步骤3中用户所选择的数据隐私保护模型,并将其规格化后传输并保存在数据隐私保护模块的系统处理层中;
步骤5、用户对数据结构进行配置,并通过Web提交GWDI-PPP;具体包括:数据完整字段定义、数据准标识符字段定义、数据准标识符字段类型定义、数据敏感属性字段定义、数据准标识符分类型字段泛化树定义;
步骤6、GWDI-PPP在云端读取步骤5中用户上传的数据结构配置,并进行格式验证,若格式验证过程中检测有误,则返回错误信息给用户,并提示用户重新完成步骤5;若格式验证成功,则将数据结构的配置传输并保存至数据隐私保护模块的系统处理层;
步骤7、用户配置数据隐私保护模型参数,具体地,用户配置步骤3所选的数据隐私保护模型对数据执行匿名所需的各项参数;
步骤8、用户通过Web页面发送数据匿名请求;用户在GWDI-PPP前端用户界面中完成了步骤1-7,并选择了执行匿名方案之后,GWDI-PPP后台将格式化用户所发送的数据匿名请求,并将其转发至数据隐私保护模块的系统处理层;
步骤9、GWDI-PPP的数据隐私保护模块执行步骤8中获取的数据匿名请求,将用户所导入的数据按照所配置项进行匿名化处理;
步骤10、用户通过Web获取隐私保护模块处理后数据。
6.根据权利要求5所述的通用云数据隐私保护方法,其特征在于,步骤3中的数据隐私保护模型的选择有以下四种方案可选:
方案3-1、用户选择k-匿名/k-anonymity隐私保护模型对其关系型数据进行匿名化处理;
方案3-2、用户选择l-多样性/l-diversity隐私保护模型对其关系型数据进行匿名化处理;
方案3-3、用户选择anatomy/anatomize隐私保护模型对其关系型数据进行匿名化处理;
方案3-4、用户选择km-匿名/km-anonymity隐私保护模型对其集值型数据进行匿名化处理。
7.根据权利要求6所述的通用云数据隐私保护方法,其特征在于,步骤7中根据步骤3选择的不同方案提供不同的参数配置模版,其具体包括:
方案7-1、若在步骤3中采取3-1方案,则GWDI-PPP按照k-匿名/k-anonymity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下三项参数的配置:
(1)执行类型:手动设置K值/自动搜寻质量最优K值;该项为用户配置执行类型所用,若用户选取手动设置K值方式,则必填(3)指定K值,GWDI-PPP则按照该设定K值进行数据匿名处理;若用户选取自动搜寻质量最优K值的方式,则无需填(3)指定K值,GWDI-PPP在局部范围内寻找匿名后数据质量最优的K值解,并执行匿名处理;
(2)信息损失函数:NCP/DM/Cavg/LM/PercentNCP;该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户;
(3)指定K:手动设置的K值;若用户在(1)中选择手动设置K值,则该项必填,此时,GWDI-PPP根据设置的K值进行数据匿名处理;
方案7-2、若在步骤3中采用3-2方案,则GWDI-PPP按照l-多样性/l-diversity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下三项参数的配置:
(1)执行类型:手动设置L值/自动搜寻质量最优L值;该项为用户配置执行类型所用,若用户选取手动设置L值方式,则必填(3)指定L值,GWDI-PPP则按照该设定L值进行数据匿名处理;若用户选取自动搜寻质量最优L值的方式,则无需填(3)指定L值,GWDI-PPP在局部范围内寻找匿名后数据质量最优的L值解,并执行匿名处理;
(2)信息损失函数:NCP/DM/LM/PercentNCP;该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户;
(3)指定L:手动设置的L值;若用户在(1)中选择手动设置L值,则该项必填,此时,GWDI-PPP根据该值进行数据匿名处理;
方案7-3、若在步骤3中采用3-3方案,则GWDI-PPP按照anatomy/anatomize隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下一项参数的配置:
(1)指定L:手动设置的L值;在anatomy/anatomize隐私保护模型方案下,用户无需选择信息损失函数,因anatomy/anatomize隐私保护模型不对原始数据进行值的修改,GWDI-PPP根据用户设置的L值进行数据匿名处理;
方案7-4、若在步骤3中采用3-4方案,则GWDI-PPP按照km-匿名/km-anonymity隐私保护模型所需配置的参数为用户提供相应面板,其具体包括以下五项参数的配置:
(1)执行算法:该项参数供用户选择执行匿名的算法;
(2)信息损失函数:NCP/LM/PercentNCP;该项为用户配置信息损失评估方法所用,用户可选取其中一种信息损失函数,GWDI-PPP根据用户所选函数对匿名处理后的数据进行计算和评估,并将信息损失大小返回给用户;
(3)指定K值:用户必填一个K值,GWDI-PPP读取该值并根据该值对数据进行匿名化处理;
(4)指定M值:用户必填一个M值,GWDI-PPP读取该值并根据该值对数据进行匿名化处理;
(5)泛化字段名:km-匿名/km-anonymity隐私保护处理方案处理的是集值数据,故泛化字段名应填在步骤5中定义的数据准标识符字段的字段名,且此时该字段名有且只有一个。
CN202010430668.5A 2020-05-20 2020-05-20 一种基于SaaS的通用云数据隐私保护平台与方法 Active CN111723396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010430668.5A CN111723396B (zh) 2020-05-20 2020-05-20 一种基于SaaS的通用云数据隐私保护平台与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010430668.5A CN111723396B (zh) 2020-05-20 2020-05-20 一种基于SaaS的通用云数据隐私保护平台与方法

Publications (2)

Publication Number Publication Date
CN111723396A CN111723396A (zh) 2020-09-29
CN111723396B true CN111723396B (zh) 2023-02-10

Family

ID=72564792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010430668.5A Active CN111723396B (zh) 2020-05-20 2020-05-20 一种基于SaaS的通用云数据隐私保护平台与方法

Country Status (1)

Country Link
CN (1) CN111723396B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765661B (zh) * 2021-01-22 2023-09-26 国网江苏省电力有限公司营销服务中心 一种保持工作流拓扑特征的隐私保护方法
CN114092729A (zh) * 2021-09-10 2022-02-25 南方电网数字电网研究院有限公司 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
CN114091108B (zh) * 2022-01-18 2022-04-26 南京大学 一种智能系统隐私性评估方法及系统
CN114880709B (zh) * 2022-05-23 2023-04-07 上海焱祺华伟信息系统技术有限公司 一种应用人工智能的电商数据防护方法及服务器
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957255A (zh) * 2014-04-30 2014-07-30 华南理工大学 一种轻量级应用开发云服务平台及其资源的访问方法
CN105303123A (zh) * 2015-11-02 2016-02-03 山东大学 一种基于分块混淆的动态数据隐私保护系统及方法
CN108427554A (zh) * 2018-05-14 2018-08-21 华南理工大学 一种表驱动的云模式软件自动构造方法及系统
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10700864B2 (en) * 2017-07-12 2020-06-30 International Business Machines Corporation Anonymous encrypted data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103957255A (zh) * 2014-04-30 2014-07-30 华南理工大学 一种轻量级应用开发云服务平台及其资源的访问方法
CN105303123A (zh) * 2015-11-02 2016-02-03 山东大学 一种基于分块混淆的动态数据隐私保护系统及方法
CN108427554A (zh) * 2018-05-14 2018-08-21 华南理工大学 一种表驱动的云模式软件自动构造方法及系统
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Coding-free Software Framework for Developing Lightweight Web Data Management System";Can Yang 等;《Applied Sciences (JCR Q3)》;20200127;1-13 *
公共云环境下的多租户数据隐私研究;施进发等;《计算机工程与应用》;20161231(第20期);138-144 *

Also Published As

Publication number Publication date
CN111723396A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723396B (zh) 一种基于SaaS的通用云数据隐私保护平台与方法
CN104376237B (zh) 一种针对生产过程中信息的安全控制方法和系统
US11669549B2 (en) Identity mapping for cloud migrations
CN104572122A (zh) 一种软件应用数据的生成装置及方法
EP2463816A1 (en) Methods, apparatus, systems and computer readable mediums for use in sharing information between entities
CN108092945B (zh) 访问权限的确定方法和装置、终端
WO2010045331A2 (en) Method and apparatus for gathering and organizing information pertaining to an entity
US20100106712A1 (en) Search system
CN108427554B (zh) 一种表驱动的云模式软件自动构造方法及系统
CN115203750B (zh) 基于Hive插件对Hive数据权限管控及安全审计方法及系统
CN110889582A (zh) 一种基于TeamCenter实现PBOM可视化的方法
WO2020028459A1 (en) Method and system for implementing an automated data validation tool
US20210089527A1 (en) Incremental addition of data to partitions in database tables
CN114915500A (zh) 基于pc桌面客户端的自媒体账号管理方法及装置
CN113591162A (zh) 区块链存证方法、装置和计算机设备
CN113127906A (zh) 基于c/s架构的统一权限管理平台、方法及存储介质
CN117009327B (zh) 一种数据处理方法、装置及计算机设备、介质
Qu et al. Internet Engineering Task Force C. Yang, Ed. Internet-Draft SY. Pan, Ed. Intended status: Standards Track South China University of Technology Expires: April 26, 2019 HB. Sun Inspur
CN108306762A (zh) 一种基于界面的mac地址管理系统和方法
CN113449323A (zh) 一种结合权限控制的数据隔离系统
CN111460491A (zh) 一种报表权限管理方法及相关装置
CN115775596A (zh) 生物样本库的数据管理方法、装置及系统
US20140019487A1 (en) Systems and methods with workset management in an on-demand computing environment
Kantipudi Business insights of user usage records of data cards
CN115296868A (zh) 基于云计算的音乐运营后台管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant