CN115130150A - 数据隐私保护方法、装置、设备及计算机可读存储介质 - Google Patents

数据隐私保护方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115130150A
CN115130150A CN202210805526.1A CN202210805526A CN115130150A CN 115130150 A CN115130150 A CN 115130150A CN 202210805526 A CN202210805526 A CN 202210805526A CN 115130150 A CN115130150 A CN 115130150A
Authority
CN
China
Prior art keywords
data set
data
classification tree
sampling
privacy protection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210805526.1A
Other languages
English (en)
Inventor
李松衍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202210805526.1A priority Critical patent/CN115130150A/zh
Publication of CN115130150A publication Critical patent/CN115130150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供一种数据隐私保护方法、装置、设备及计算机可读存储介质,所述方法包括:获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;将所述待发布数据集发布至服务端。通过分类树对每个时间窗口对应的待处理数据集进行隐私保护处理,能够确保各待发布数据的隐私保护水平、缩短延时,且不会损伤数据可用性,实现应用程序收集数据的隐私保护。

Description

数据隐私保护方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,涉及但不限于一种数据隐私保护方法、装置、设备及计算机可读存储介质。
背景技术
隐私保护是指使个人或集体等实体不愿意被外人知道的信息得到应有的保护。隐私包含的范围很广,对于个人来说,一类重要的隐私是个人的身份信息,即利用该信息可以直接或者间接地通过连接查询追溯到某个人;对于集体来说,隐私一般是指代表一个团体各种行为的敏感信息。为了给终端用户提供高质量、个性化的服务,服务端需要收集用户在使用各类应用程序(APP,Application)过程中产生的信息。但随着智能设备的发展,收集到的信息也变得更加复杂且私人化,为避免用户隐私信息泄露,终端APP对收集到的数据进行发布以供分析研究之前,需要对待发布的数据进行隐私保护。
相关技术中,应用于终端数据加密发布的隐私保护方法主要有匿名化技术、直接加密技术和数据扰动机制,但是这些方法在应用过程中存在着隐私保护水平无法度量、计算延时长、损伤数据可用性等问题。
发明内容
有鉴于此,本申请实施例提供一种数据隐私保护方法、装置、设备及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据隐私保护方法,所述方法包括:
获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;
基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;
基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;
将所述待发布数据集发布至服务端。
在一些实施例中,所述基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集,包括:
按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据集进行抽样处理,得到抽样数据集;
将所述抽样数据集确定为待处理数据集。
在一些实施例中,所述基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集,包括:
利用所述待处理数据集构建初始分类树,所述待处理数据集包括的每条数据的关键字为所述初始分类树的一个叶子节点;
利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树;
根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集,包括:
按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据进行分层处理,得到多个分层数据集;
对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集;
根据所述多个分层的抽样数据集,确定待处理数据集。
在一些实施例中,所述对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集,包括:
按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例;
按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
在一些实施例中,所述基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集,包括:
利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,所述第一分层为分层数据产生时间最长的分层,所述各抽样数据的关键字为所述初始分类树的一个叶子节点;
利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树;
利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对所述隐私保护后的分类树进行更新,得到目标分类树;
根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,包括:
获取预先构建的信息增益函数;
基于第一分层的抽样数据集包括的各抽样数据和所述信息增益函数,确定初始分类树的最优阶数;
基于第一分层的抽样数据集包括的各抽样数据的关键字和所述最优阶数,构建初始分类树。
本申请实施例提供一种数据隐私保护装置,所述装置包括:
获取模块,用于获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;
预处理模块,用于基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;
隐私保护处理模块,用于基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;
发布模块,用于将所述待发布数据集发布至服务端。
在一些实施例中,所述预处理模块,包括:
第一划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
第一抽样单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据集进行抽样处理,得到抽样数据集;
第一确定单元,用于将所述抽样数据集确定为待处理数据集。
在一些实施例中,所述隐私保护处理模块,包括:
第一构建单元,用于利用所述待处理数据集构建初始分类树,所述待处理数据集包括的每条数据的关键字为所述初始分类树的一个叶子节点;
第一分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树;
第二确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述预处理模块,包括:
第二划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
分层单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据进行分层处理,得到多个分层数据集;
第二抽样单元,用于对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集;
第三确定单元,用于根据所述多个分层的抽样数据集,确定待处理数据集。
在一些实施例中,所述分层单元,包括:
第一确定子单元,用于按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例;
抽样子单元,用于按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
在一些实施例中,所述隐私保护处理模块,包括:
第二构建单元,用于利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,所述第一分层为分层数据产生时间最长的分层,所述各抽样数据的关键字为所述初始分类树的一个叶子节点;
第二分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树;
更新单元,用于利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对所述隐私保护后的分类树进行更新,得到目标分类树;
第四确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述第二构建单元,包括:
获取子单元,用于获取预先构建的信息增益函数;
第二确定子单元,用于基于第一分层的抽样数据集包括的各抽样数据和所述信息增益函数,确定初始分类树的最优阶数;
构建子单元,用于基于第一分层的抽样数据集包括的各抽样数据的关键字和所述最优阶数,构建初始分类树。
本申请实施例提供一种数据隐私保护设备,包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现上述数据隐私保护方法的步骤。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令配置为执行上述数据隐私保护方法的步骤。
本申请实施例提供一种数据隐私保护方法、装置、设备及计算机可读存储介质,其中,所述方法包括:获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;将所述待发布数据集发布至服务端。本申请实施例提供的数据隐私保护方法,利用时间窗口将应用程序运行过程中产生的连续数据集进行划分,利用分类树对每个时间窗口对应的待处理数据集进行隐私保护处理后得到一个待发布数据,通过时间窗口分段处理能够确保各待发布数据的隐私保护水平、缩短延时,且不会损伤数据可用性,实现应用程序收集数据的隐私保护。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本申请实施例提供的数据隐私保护系统的网络架构示意图;
图2为本申请实施例提供的数据隐私保护方法的一种实现流程示意图;
图3为本申请实施例提供的数据隐私保护方法的另一种实现流程示意图;
图4为本申请实施例提供的数据隐私保护方法的又一种实现流程示意图;
图5为本申请实施例提供的方法中对分层数据集进行抽样处理得到抽样数据集的一种实现流程示意图;
图6为本申请实施例提供的方法中对动态数据集进行预处理的示意图;
图7为本申请实施例提供的方法中构造的隐私保护后的分类树的示意图;
图8为本申请实施例提供的方法中对发布结果的动态更新的示意图;
图9为本申请实施例提供的数据隐私保护装置的一种组成结构示意图;
图10为本申请实施例提供的数据隐私保护设备的一种组成结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,先对本申请实施例中涉及的名词和术语进行如下的解释。
差分隐私保护模型,又称差分隐私模型,是一种从数据源头彻底切除隐私信息泄露可能性的方法,其通过对原始数据添加干扰噪声的方式保护所发布数据中潜在的用户隐私信息。
ε-差分隐私(ε-Differential Privacy):随机算法A的输入集合为χ,输出集合为ξ,则随机算法A满足ε-差分隐私。当且仅当,对任意相邻数据集D1和D2,以及相应的输出结果集
Figure BDA0003737087930000071
满足下式(1):
Pr[A(D1)∈O]≤eεPr[A(D2)∈O] (1);
隐私预算节点,用Nε表示,Nε就是叶子节点的父节点;若叶子节点就是根节点,则Nε是根节点。
B+树,是一种树的数据结构,以n叉树的形式表示。一棵m阶的B+树具有以下特点:1)有n棵子树的结点中含有n个关键字;2)所有叶子结点包含全部的关键字信息,和指向这些关键字的指针。所有叶子结点构成一个有序链表,根据叶子结点存储的关键字可以按照顺序遍历树中全部记录;3)除了叶子结点之外的结点都是B+树的索引,结点中只包含子结点中的部分关键字。
熵值,在信息论中,是对不确定性的一种度量,信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。熵值法是指用来判断某个指标的离散程度的数学方法,其离散程度越大,对该指标对综合评价的影响越大。
为了解决现有的终端数据加密发布的隐私保护方法在应用过程中存在着隐私保护水平无法度量、计算延时长、损伤数据可用性等问题,本申请实施例提供一种数据隐私保护方法,借助差分隐私保护模型来对终端应用程序运行中产生的隐私信息进行处理,结合B+树结构,在优化算法执行效率的同时,保证加密后数据的可用性。下面结合实现本申请实施例的装置对本申请实施例提供的方法进行说明。首先对本申请实施例提供的数据隐私保护系统进行说明。图1为本申请实施例提供的数据隐私保护系统的网络架构示意图,如图1所示,该数据隐私保护系统10包括至少一个终端100、服务端200和网络300。终端100通过网络300连接服务端200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
在一些实施例中,终端100可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,还可以是能够安装应用程序的任意设备。服务端200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务器。网络300可以是广域网或者局域网,又或者是二者的组合。终端100和服务端200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在该数据隐私保护系统架构的应用场景中,首先终端100在运行应用程序中产生连续数据集,将该连续数据集作为动态数据集;基于预设时间窗口对动态数据集进行预处理,得到待处理数据集;基于分类树对待处理数据集进行隐私保护处理,得到待发布数据集;最后将待发布数据集发布至服务端200。
服务端200接收终端100发送的待发布数据,利用待发布数据对应用程序进行漏洞修复、功能升级等更新开发。
本申请实施例提供的数据隐私保护方法,终端利用时间窗口将应用程序运行过程中产生的连续数据集进行划分,利用分类树对每个时间窗口对应的待处理数据集进行隐私保护处理后得到一个待发布数据,通过时间窗口分段处理能够确保各待发布数据的隐私保护水平、缩短延时,且不会损伤服务端对数据的可用性,实现对服务端收集的应用程序运行数据的隐私保护。
下面说明本申请实施例提供的数据隐私保护方法。在一些实施例中,本申请实施例提供的数据隐私保护方法可以由图1所示网络架构的终端实施,图2为本申请实施例提供的数据隐私保护方法的一种实现流程示意图,将结合图2示出的步骤进行说明。
步骤S201,获取动态数据集。
本申请实施例提供的方法可以由终端执行。终端接收服务端发送的请求消息,该请求消息用于获取终端运行应用程序时产生的数据,以使服务端利用该些使用数据对应用程序进行升级更新。
终端接收到请求消息后,对其进行解析,确定需要获取的是哪个APP的运行时数据,然后,获取终端运行该APP时产生的连续数据集作为动态数据集。在实际应用中,终端可以在运行APP的同时,实时获取运行该APP时产生的连续数据集,也可以每隔一段时间获取一次数据,避免长时间占用传输信道。
步骤S202,基于预设时间窗口对连续数据集进行预处理,得到待处理数据集。
本申请实施例中,预处理可以包括划分、分层、抽样等处理,对获取到的动态数据集进行预处理,得到待处理数据集,每一待处理数据集对应一个待发布数据集。
每间隔时间T收集一次动态数据集,按照预设时间窗口△t对T时间段内收集的数据进行划分,T=x*△t,其中,x为任意正整数。当x为1时,即每隔预设时间窗口△t收集一次动态数据集,此时无需再划分。
考虑到同一个时间窗口的数据集数量过多的问题,本申请实施例中,对连续数据集进行抽样处理,能够减少处理数据量,满足及时性,降低算法时间开销。
步骤S203,基于分类树对待处理数据集进行隐私保护处理,得到待发布数据集。
本申请实施例中,分类树可以选择B+树,基于B+树对待处理数据集进行分区,然后对各个分区结果包括的数据集进行隐私保护处理,得到待发布数据。
本申请实施例中,可以基于差分隐私技术对数据集进行隐私保护处理,差分隐私技术可以根据实际需要设置隐私预算、控制数据的被保护程度,灵活适用于各种应用。
步骤S204,将待发布数据集发布至服务端。
该待发布数据集为隐私保护后的数据,即便在传输过程中被攻击,攻击者掌握较多信息,其也无法推测出其他信息,达到隐私保护的目的;并且该方法可以保证数据集整体属性不变,确保数据可用性。
本申请实施例提供的方法,包括:获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;将所述待发布数据集发布至服务端。本申请实施例提供的数据隐私保护方法,利用时间窗口将应用程序运行过程中产生的连续数据集进行划分,利用分类树对每个时间窗口对应的待处理数据集进行隐私保护处理后得到一个待发布数据,通过时间窗口分段处理能够确保各待发布数据的隐私保护水平、缩短延时,且不会损伤数据可用性,实现应用程序收集数据的隐私保护。
在图2所示实施例的基础上,本申请实施例再提供一种数据隐私保护方法,图3为本申请实施例提供的数据隐私保护方法的另一种实现流程示意图,如图3所示,该方法包括以下步骤:
步骤S301,获取动态数据集。
终端接收服务端发送的请求消息,对其进行解析,确定服务端需要获取的是哪个APP的运行时数据,然后,获取终端运行该APP时产生的连续数据集作为动态数据集。
下述步骤S302至步骤S304,为图2所示实施例中步骤S202的一种实现方式。
步骤S302,按照预设时间窗口对连续数据集进行划分,得到各时间窗口对应的数据集。
本申请实施例中采用时间窗口的方法,通过将动态数据集按照时间节点划分为不同的时间窗口,如此解决动态数据对数据处理发布带来的挑战,实现对连续变化的数据集的处理。
步骤S303,从各时间窗口中选择一个时间窗口。
本申请实施例中,可以按照时间先后顺序,每次从各时间窗口中选择一个时间窗口,对该时间窗口对应的数据集进行处理。
步骤S304,将一个时间窗口对应的数据集进行抽样处理,得到抽样数据集,将抽样数据集确定为待处理数据集。
本申请实施例中,预处理可以包括划分和抽样等处理,对获取到的动态数据集进行预处理,得到待处理数据集,每一待处理数据集对应一个待发布数据集。
每间隔时间T收集一次动态数据集,按照预设时间窗口△t对T时间段内收集的数据进行划分,T=x*△t,其中,x为任意正整数。当x为1时,即每隔预设时间窗口△t收集一次动态数据集,此时无需再划分。
考虑到同一个时间窗口的数据集数量过多的问题,本申请实施例中,对同一时间窗口的相似数据进行筛选,具体筛选方式可以为对连续数据集进行抽样处理,能够减少处理数据量,满足及时性,降低算法时间开销,提高算法的处理效率,如此解决现有技术中存在的处理结果的时效性问题和计算耗时长的问题。
下述步骤S305至步骤S307,为图2所示实施例中步骤S203的一种实现方式。
步骤S305,利用待处理数据集构建初始分类树。
待处理数据集包括的每条数据的关键字为初始分类树的一个叶子节点。
本申请实施例中,分类树可以选择B+树,选用B+树作为分类树模型,既能避免空节点带来的隐私预算浪费,又能按照项数大小进行排序,为后续分配隐私预算打好基础。为了保证分类树结构的隐私,结合指数机制对阶数进行筛选,选出最优阶数构建B+树。
步骤S306,利用隐私保护技术,对初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树。
以隐私预算节点为单位分配隐私预算,即针对初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树。在处理数据的过程中,引入隐私预算节点的概念,采取自适应加噪的方式,既能控制隐私预算成本又能够保证数据可用性与隐私性之间的平衡。
步骤S307,根据目标分类树的各叶子节点对应的关键字,确定待发布数据集。
本申请实施例中,分类树可以选择B+树,基于B+树对待处理数据集进行分区,然后对各个分区结果包括的数据集进行隐私保护处理,得到待发布数据。基于差分隐私技术对数据集进行隐私保护处理,差分隐私技术可以根据实际需要设置隐私预算、控制数据的被保护程度,灵活适用于各种应用。
步骤S308,将待发布数据集发布至服务端。
在发布过程中,利用B+树叶子节点两两相连的特性,对待发布结果一次性输出,进一步提高算法处理效率。
本申请实施例提供的数据隐私保护方法,利用时间窗口将应用程序运行过程中产生的连续数据集进行划分、抽样处理,能够满足及时性,降低算法时间开销;利用分类树对待处理数据集进行分区处理,再基于差分隐私保护技术对分区的数据进行处理,得到待发布数据,差分隐私技术可以根据实际需要设置隐私预算、控制数据的被保护程度,灵活适用于各种应用;待发布数据集为隐私保护后的数据,即便在传输过程中被攻击,攻击者掌握较多信息,其也无法推测出其他信息,达到隐私保护的目的;并且该方法可以保证数据集整体属性不变,确保数据可用性。能够确保待发布数据的隐私保护水平、缩短延时,且不会损伤数据可用性,实现应用程序收集数据的隐私保护。
在图2所示实施例的基础上,本申请实施例再提供一种数据隐私保护方法,图4为本申请实施例提供的数据隐私保护方法的又一种实现流程示意图,如图4所示,该方法包括以下步骤:
步骤S401,获取动态数据集。
本申请实施例提供的方法可以由终端执行。终端接收服务端发送的请求消息,对其进行解析,确定出服务端需要获取的是哪个APP的运行时数据,然后,终端获取运行该APP时产生的连续数据集作为动态数据集。
下述步骤S402至步骤S406,为图2所示实施例中步骤S202的另一种实现方式。
步骤S402,按照预设时间窗口对连续数据集进行划分,得到各时间窗口对应的数据集。
步骤S403,从各时间窗口中选择一个时间窗口。
为了能够处理连续变化的数据集,本申请实施例中采用时间窗口的方法,通过将动态数据集按照时间节点划分为不同的时间窗口,针对每一个时间窗口内的数据进行差分隐私保护。预处理后的数据集,以时间窗口为单位,同一个时间窗口只发布一份加噪后的数据集,如此解决动态数据对数据处理发布带来的挑战,实现对连续变化的数据集的处理。
步骤S404,将一个时间窗口对应的数据进行分层处理,得到多个分层数据集。
本申请实施例中,考虑到同一个时间窗口的数据集数量过多的问题,为了能够满足及时性,降低算法时间开销,对一个时间窗口对应的数据进行预处理。该预处理可以包括划分、分层、抽样等处理,对获取到的动态数据集进行预处理,得到待处理数据集,每一待处理数据集对应一个待发布数据集。
每间隔时间T收集一次动态数据集,按照预设时间窗口△t对T时间段内收集的数据进行划分,T=x*△t,其中,x为任意正整数。当x为1时,即每隔预设时间窗口△t收集一次动态数据集,此时无需再划分。
考虑到时间轴越新的数据集越具有参考价值,同时也越能够代表本时间窗口内的数据的问题,本申请实施例中对当前处理的时间窗口对应的数据集进行分层处理,得到k个分层数据集。然后对连续数据集进行抽样处理,能够减少处理数据量,满足及时性,降低算法时间开销。
步骤S405,对多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集。
对每k小层的抽样比例进行设置,每小层按照不同的抽样比例进行随机抽样,时间轴越新的小层,抽样比例越大。
在一种实现方式中,该步骤可以通过图5所示的以下步骤来实现:
步骤S4051,按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例。
步骤S4052,按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
这里,抽样比例根据时间从第一层开始逐渐提高,如第j层的抽样比例为rj=j/(k*r),其中,r为设置的基础抽样比例。
图6为本申请实施例提供的方法中对动态数据集进行预处理的示意图,如图6所示,本申请实施例中对每个时间窗口进行分层抽样,首先将每个时间窗口均分为k层,从每小层中抽取一定比例的数据集。考虑到时间轴越新的数据集越具有参考价值,同时也越能够代表本时间窗口内的数据的问题,本申请实施例中对k小层的抽样比例进行设置,每小层按照不同的抽样比例进行随机抽样,时间轴越新的小层,抽样比例越大。抽样比例根据时间从第一层开始逐渐提高,如第j层的抽样比例如下式:
Figure BDA0003737087930000141
其中,r为设置的基础抽样比例。
步骤S406,根据多个分层的抽样数据集,确定待处理数据集。
下述步骤S407至步骤S410,为图2所示实施例中步骤S203的另一种实现方式。
步骤S407,利用第一分层的抽样数据集包括的各抽样数据构建初始分类树。
第一分层为分层数据产生时间最长的分层,各抽样数据的关键字为初始分类树的一个叶子节点。
该步骤可以通过以下步骤来实现:获取预先构建的信息增益函数;基于第一分层的抽样数据集包括的各抽样数据和信息增益函数,确定初始分类树的最优阶数;基于第一分层的抽样数据集包括的各抽样数据的关键字和最优阶数,构建初始分类树。
步骤S408,利用隐私保护技术,对初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树。
经过预处理,可以得到每一个时间窗口筛选后的数据集合,接下来对这些集合进行差分隐私保护。本申请实施例中,选择差分隐私保护模型对动态数据集合进行加噪处理,因此首先需要构建一个初始隐私保护模型,然后在初始模型的基础上进行更新保护。这里可以选择B+树结构作为分类树模型,以提高算法的性能和结果的可用性。B+树结构是按照关键字大小对叶子节点进行排序,可避免构造分类树的过程中产生空节点带来的隐私预算和存储空间的浪费。
本申请实施例中,在确定B+分类树阶数m的过程中,可以借助指数机制和信息增益函数,合理的选择m的同时保护了分类树的结构隐私。
基于第一分层的抽样数据集的熵值I(S1),以及当前分割方式所有熵值的加权和H(S1),确定出信息增益函数IG(S1,m)的敏感度,从其筛选出最优的m值。实现过程如下:
设置M是m的可能取值集合。每个m将数据集s1划分为a个不同的子集合ui,表示为集合U={u1,u2,...,ua}。U有n种可能情况,即有n个不同的分类Ci。当前m产生的信息增益计算方法如公式(3)所示。
IG(s1,m)=I(s1)-H(s1) (3);
其中I(s1)为当前数据集的熵值,H(s1)为当前分割方式所有熵值的加权和。
Figure BDA0003737087930000161
在公式(4)中,
Figure BDA0003737087930000162
num(Ci)是当前分类Ci中数据集个数;num(s1)是s1中数据集个数。
Figure BDA0003737087930000163
I(s1)的最大值为log2n,H(s1)的最小值为0。可以推出信息增益函数IG(s1,m)的敏感度为△IG=log2n。
本申请实施例中利用指数机制结合信息增益函数,筛选出最优的m值。算法中每个m对应的
Figure BDA0003737087930000164
可以以正比于E(m,ε′)的概率Pr(m)挑选最优m。
Figure BDA0003737087930000165
确定出B+树的m值后,基于第一分层的抽样数据集构造m阶B+树:利用每条数据的关键字作为B+树的叶子节点,利用叶子节点索引用户名,遍历数据集完成B+树的构建。最后,将每个隐私预算节点视为一个加噪类。为每个隐私预算节点下的节点分配隐私预算ε,分别为ε12,…,εm。根据拉普拉斯分布
Figure BDA0003737087930000166
添加的噪声满足εi差分隐私,得到隐私保护后的分类树,如图7所示。
步骤S409,利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对隐私保护后的分类树进行更新,得到目标分类树。
在前述步骤中,本申请实施例抽取了一个时间窗口数据集合S={s1,s2,…,sk},根据s1生成了一个基础B+树。接下来,根据后续的数据集s2、s3、…、sk对B+树进行更新并加噪,然后将该时间窗口的计数结果进行发布,并处理之后的时间窗口,参见图8,如此实现对发布结果的动态更新。
本申请实施例提供的方法中,在动态数据集预处理中,为了能够连续发布处理后的数据集,将从各个移动端收集到的连续数据集分为不同的时间窗口,每个时间窗口发布一份结果,对临近相似的集值型数据进行分层抽样处理,能够提高算法的运行效率。在构建分类树步骤中,选择B+树作为分类树模型,对待处理数据集进行分区保护,能够减少空节点的产生,避免隐私预算的浪费;结合指数机制和信息增益函数对B+树结构进行隐私保护,利用B+树对计数查询进行排序,自适应分配隐私预算,设立隐私预算节点,优化了传统隐私预算分配方案。在动态更新步骤中,利用算法对时间窗口后续的数据集在初始分类树的基础上进行更新,更新完毕后先对每个隐私预算节点进行噪声重分配,再对每个叶子节点分配噪声并加噪发布。
步骤S410,根据目标分类树的各叶子节点对应的关键字,确定待发布数据集。
步骤S411,将待发布数据集发布至服务端。
本申请实施例提供的数据隐私保护方法,利用时间窗口将应用程序运行过程中产生的连续数据集进行划分、分层、抽样处理,能够满足及时性,降低算法时间开销;利用分类树对每个时间窗口对应的待处理数据集进行分区处理,再基于差分隐私保护技术对分区的数据进行处理,得到待发布数据,差分隐私技术可以根据实际需要设置隐私预算、控制数据的被保护程度,灵活适用于各种应用;待发布数据集为隐私保护后的数据,即便在传输过程中被攻击,攻击者掌握较多信息,其也无法推测出其他信息,达到隐私保护的目的;并且该方法可以保证数据集整体属性不变,确保数据可用性。能够确保待发布数据的隐私保护水平、缩短延时,且不会损伤数据可用性,实现应用程序收集数据的隐私保护。
基于前述的实施例,本申请实施例提供一种数据隐私保护装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central ProcessingUnit)、微处理器(MPU,Microprocessor U nit)、数字信号处理器(DSP,Digital SignalProcessing)或现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
本申请实施例再提供一种数据隐私保护装置,图9为本申请实施例提供的数据隐私保护装置的一种组成结构示意图,如图9所示,所述数据隐私保护装置900包括:
获取模块901,用于获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;
预处理模块902,用于基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;
隐私保护处理模块903,用于基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;
发布模块904,用于将所述待发布数据集发布至服务端。
在一些实施例中,所述预处理模块902,包括:
第一划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
第一抽样单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据集进行抽样处理,得到抽样数据集;
第一确定单元,用于将所述抽样数据集确定为待处理数据集。
在一些实施例中,所述隐私保护处理模块903,包括:
第一构建单元,用于利用所述待处理数据集构建初始分类树,所述待处理数据集包括的每条数据的关键字为所述初始分类树的一个叶子节点;
第一分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树;
第二确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述预处理模块902,包括:
第二划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
分层单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据进行分层处理,得到多个分层数据集;
第二抽样单元,用于对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集;
第三确定单元,用于根据所述多个分层的抽样数据集,确定待处理数据集。
在一些实施例中,所述分层单元,包括:
第一确定子单元,用于按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例;
抽样子单元,用于按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
在一些实施例中,所述隐私保护处理模块903,包括:
第二构建单元,用于利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,所述第一分层为分层数据产生时间最长的分层,所述各抽样数据的关键字为所述初始分类树的一个叶子节点;
第二分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树;
更新单元,用于利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对所述隐私保护后的分类树进行更新,得到目标分类树;
第四确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
在一些实施例中,所述第二构建单元,包括:
获取子单元,用于获取预先构建的信息增益函数;
第二确定子单元,用于基于第一分层的抽样数据集包括的各抽样数据和所述信息增益函数,确定初始分类树的最优阶数;
构建子单元,用于基于第一分层的抽样数据集包括的各抽样数据的关键字和所述最优阶数,构建初始分类树。
这里需要指出的是:以上数据隐私保护装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果。对于本申请数据隐私保护装置实施例中未披露的技术细节,本领域的技术人员请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中提供的数据隐私保护方法中的步骤。
本申请实施例提供一种数据隐私保护设备,图10为本申请实施例提供的数据隐私保护设备的一种组成结构示意图,根据图10示出的数据隐私保护设备1000的示例性结构,可以预见数据隐私保护设备1000的其他的示例性结构,因此这里所描述的结构不应视为限制,例如可以省略下文所描述的部分组件,或者,增设下文所未记载的组件以适应某些应用的特殊需求。
图10所示的数据隐私保护设备1000包括:一个处理器1001、至少一个通信总线1002、用户接口1003、至少一个外部通信接口1004和存储器1005。其中,通信总线1002配置为实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏,外部通信接口1004可以包括标准的有线接口和无线接口。其中,所述处理器1001配置为执行存储器中存储的数据隐私保护方法的程序,以实现上述实施例提供的数据隐私保护方法中的步骤。
以上数据隐私保护设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请数据隐私保护设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种数据隐私保护方法,其特征在于,所述方法包括:
获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;
基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;
基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;
将所述待发布数据集发布至服务端。
2.根据权利要求1所述的方法,其特征在于,所述基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集,包括:
按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据集进行抽样处理,得到抽样数据集;
将所述抽样数据集确定为待处理数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集,包括:
利用所述待处理数据集构建初始分类树,所述待处理数据集包括的每条数据的关键字为所述初始分类树的一个叶子节点;
利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树;
根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
4.根据权利要求1所述的方法,其特征在于,所述基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集,包括:
按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据进行分层处理,得到多个分层数据集;
对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集;
根据所述多个分层的抽样数据集,确定待处理数据集。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集,包括:
按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例;
按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
6.根据权利要求1所述的方法,其特征在于,所述基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集,包括:
利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,所述第一分层为分层数据产生时间最长的分层,所述各抽样数据的关键字为所述初始分类树的一个叶子节点;
利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树;
利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对所述隐私保护后的分类树进行更新,得到目标分类树;
根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
7.根据权利要求6所述的方法,其特征在于,所述利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,包括:
获取预先构建的信息增益函数;
基于第一分层的抽样数据集包括的各抽样数据和所述信息增益函数,确定初始分类树的最优阶数;
基于第一分层的抽样数据集包括的各抽样数据的关键字和所述最优阶数,构建初始分类树。
8.一种数据隐私保护装置,其特征在于,所述装置包括:
获取模块,用于获取动态数据集,所述动态数据集为终端运行应用程序时产生的连续数据集;
预处理模块,用于基于预设时间窗口对所述连续数据集进行预处理,得到待处理数据集;
隐私保护处理模块,用于基于分类树对所述待处理数据集进行隐私保护处理,得到待发布数据集;
发布模块,用于将所述待发布数据集发布至服务端。
9.根据权利要求8所述的装置,其特征在于,所述预处理模块,包括:
第一划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
第一抽样单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据集进行抽样处理,得到抽样数据集;
第一确定单元,用于将所述抽样数据集确定为待处理数据集。
10.根据权利要求8所述的装置,其特征在于,所述隐私保护处理模块,包括:
第一构建单元,用于利用所述待处理数据集构建初始分类树,所述待处理数据集包括的每条数据的关键字为所述初始分类树的一个叶子节点;
第一分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到目标分类树;
第二确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
11.根据权利要求8所述的装置,其特征在于,所述预处理模块,包括:
第二划分单元,用于按照预设时间窗口对所述连续数据集进行划分,得到各时间窗口对应的数据集;
分层单元,用于从所述各时间窗口中选择一个时间窗口,将所述一个时间窗口对应的数据进行分层处理,得到多个分层数据集;
第二抽样单元,用于对所述多个分层数据集分别进行抽样处理,得到多个分层的抽样数据集;
第三确定单元,用于根据所述多个分层的抽样数据集,确定待处理数据集。
12.根据权利要求11所述的装置,其特征在于,所述分层单元,包括:
第一确定子单元,用于按照各分层数据集包括的分层数据的产生时间,确定各分层数据集的抽样比例;
抽样子单元,用于按照各分层数据集的抽样比例,对各分层数据集包括的分层数据分别进行抽样处理,得到多个分层的抽样数据集。
13.根据权利要求8所述的装置,其特征在于,所述隐私保护处理模块,包括:
第二构建单元,用于利用第一分层的抽样数据集包括的各抽样数据构建初始分类树,所述第一分层为分层数据产生时间最长的分层,所述各抽样数据的关键字为所述初始分类树的一个叶子节点;
第二分配单元,用于利用隐私保护技术,对所述初始分类树的各叶子节点对应的关键字分配噪声,得到隐私保护后的分类树;
更新单元,用于利用除第一分层之外的剩余分层的抽样数据集和隐私保护技术,对所述隐私保护后的分类树进行更新,得到目标分类树;
第四确定单元,用于根据所述目标分类树的各叶子节点对应的关键字,确定待发布数据集。
14.根据权利要求13所述的装置,其特征在于,所述第二构建单元,包括:
获取子单元,用于获取预先构建的信息增益函数;
第二确定子单元,用于基于第一分层的抽样数据集包括的各抽样数据和所述信息增益函数,确定初始分类树的最优阶数;
构建子单元,用于基于第一分层的抽样数据集包括的各抽样数据的关键字和所述最优阶数,构建初始分类树。
15.一种数据隐私保护设备,其特征在于,包括:
处理器;以及
存储器,用于存储可在所述处理器上运行的计算机程序;
其中,所述计算机程序被处理器执行时实现权利要求1至7任一项所述数据隐私保护方法的步骤。
16.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令配置为执行权利要求1至7任一项所述数据隐私保护方法的步骤。
CN202210805526.1A 2022-07-08 2022-07-08 数据隐私保护方法、装置、设备及计算机可读存储介质 Pending CN115130150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210805526.1A CN115130150A (zh) 2022-07-08 2022-07-08 数据隐私保护方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210805526.1A CN115130150A (zh) 2022-07-08 2022-07-08 数据隐私保护方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115130150A true CN115130150A (zh) 2022-09-30

Family

ID=83381650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210805526.1A Pending CN115130150A (zh) 2022-07-08 2022-07-08 数据隐私保护方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115130150A (zh)

Similar Documents

Publication Publication Date Title
Young et al. Hypergraph reconstruction from network data
Rahman et al. Challenges, applications and design aspects of federated learning: A survey
Jain et al. Differential privacy: its technological prescriptive using big data
Smith et al. Social tipping intervention strategies for rapid decarbonization need to consider how change happens
CN110705683B (zh) 随机森林模型的构造方法、装置、电子设备及存储介质
CN110914817B (zh) 用于存储环境的认知数据过滤
CN109726758B (zh) 一种基于差分隐私的数据融合发布算法
CN112818216B (zh) 客户推荐方法、装置、电子设备及存储介质
CN102893553A (zh) 个人信息匿名化装置
CN102999561A (zh) 数据集和数据服务的上下文趋向
CN114244595B (zh) 权限信息的获取方法、装置、计算机设备及存储介质
CN112016312A (zh) 数据关系抽取方法、装置、电子设备及存储介质
CN111400504A (zh) 企业关键人的识别方法和装置
WO2017040852A1 (en) Modeling of geospatial location over time
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
Mugan et al. Understandable learning of privacy preferences through default personas and suggestions
JP7439305B2 (ja) 差分プライベートな頻度の重複排除
CN110807129B (zh) 多层用户关系图集合的生成方法、装置及电子设备
Qiao et al. An effective data privacy protection algorithm based on differential privacy in edge computing
CN111598360A (zh) 服务策略确定方法、装置及电子设备
Cai et al. GIS spatial information sharing of smart city based on cloud computing
IE20170067U1 (en) System and method for secure analysis of datasets
CN111699481A (zh) 减少模型更新引入的错误
Zhao et al. Assessment of recommendation trust for access control in open networks
Gupta et al. International cloud computing literature: A scientometric analysis for 2004–13

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination