CN108009437B - 数据发布方法和装置及终端 - Google Patents

数据发布方法和装置及终端 Download PDF

Info

Publication number
CN108009437B
CN108009437B CN201610957969.7A CN201610957969A CN108009437B CN 108009437 B CN108009437 B CN 108009437B CN 201610957969 A CN201610957969 A CN 201610957969A CN 108009437 B CN108009437 B CN 108009437B
Authority
CN
China
Prior art keywords
attribute
network structure
bayesian network
attributes
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610957969.7A
Other languages
English (en)
Other versions
CN108009437A (zh
Inventor
王德政
苏森
申山宏
程祥
牛家浩
唐朋
杨健宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610957969.7A priority Critical patent/CN108009437B/zh
Priority to PCT/CN2017/099042 priority patent/WO2018076916A1/zh
Publication of CN108009437A publication Critical patent/CN108009437A/zh
Application granted granted Critical
Publication of CN108009437B publication Critical patent/CN108009437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

本发明提供了一种数据发布方法和装置及终端。其中,该方法包括:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。本发明解决了相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题。

Description

数据发布方法和装置及终端
技术领域
本发明涉及数据安全领域,具体而言,涉及一种数据发布方法和装置及终端。
背景技术
满足隐私保护的数据发布(privacy-preserving data publishing)旨在发布数据的过程中保护用户的敏感信息。差分隐私保护模型的提出为解决满足隐私保护的数据发布问题提供了一种可行的方案。与传统的基于匿名的隐私保护模型(如k-匿名和l-多样性)不同,差分隐私保护模型提供了一种严格、可量化的隐私保护手段,并且所提供的隐私保护强度并不依赖于攻击者所掌握的背景知识。
当前,在单方场景下,PrivBayes(贝叶斯)方法解决了满足差分隐私的数据发布问题,它首先利用原始数据构建一个贝叶斯网络。为了满足隐私保护需求,在构建的贝叶斯网络中加入噪音,使其达到差分隐私保护要求;然后利用含有噪音的贝叶斯网络生成新的数据并发布。然而,单方场景下的数据发布方法不能直接应用于多方场景。在多方场景下,满足差分隐私的分布式数据生成算法(如DistDiffGen算法)解决了两方数据发布问题,而不能适用于多方场景下满足差分隐私的数据发布问题。协同搜索日志生成算法(如CELS算法)解决了多方搜索日志发布问题,但是不能解决多方场景下具有多个属性的数据发布问题,另外,该方法的隐私保护强度较低。基于上述分析,可以发现通过现有的技术还不能实现大数据环境下满足差分隐私保护的多方数据发布。
针对相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据发布方法和装置及终端,以至少解决相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题。
根据本发明实施例的一个方面,提供了一种数据发布方法,该方法包括:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构包括:获取属性集合中任意两个属性的第一互信息;通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
可选地,获取属性集合中任意两个属性的第一互信息包括:将属性集合划分为多个视图,其中,每个视图包括属性集合中的部分属性;利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布,其中,实际边际分布中携带有拉普拉斯噪音;利用每个视图的实际边际分布计算每个视图中任意两个属性的第一互信息。
可选地,将属性集合划分为多个视图包括:采用无重叠属性划分方法将属性集合划分为多个视图,其中,任意两个视图所包括的属性对不重叠。
可选地,利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布包括:获取基于多个对象中每个对象拥有的数据计算得到的每个视图的边际分布,其中,边际分布中添加有拉普拉斯噪音;将多个对象的多个边际分布合并为每个视图的实际边际分布,并将多个边际分布携带的多个拉普拉斯噪音中的最小噪音作为实际边际分布的拉普拉斯噪音。
可选地,在更新与数据的属性集合对应的初始贝叶斯网络结构之前,方法还包括:获取包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构,其中,父子节点关系由多个对象基于指定方式确定。
可选地,指定方式用于指示按照如下方式确定父子节点关系:多个对象中的第一对象将属性集合划分为第一集合和第二集合,其中,第一集合用于保存已经确定父节点的属性,第一集合的初始状态为空,第二集合用于保存未确定父节点的属性;第一对象从第二集合中选取一个属性保存至第一集合;多个对象中的第i对象按照预设方式为第二集合中第一预设数量的属性确定父节点,并将确定了父节点的属性从第二集合迁移至第一集合,其中,i为小于k的正整数,k为多个对象的数量;多个对象中的第k对象按照预设方式为第二集合中第二预设数量的属性确定父节点,并将确定了父节点的属性从第二集合迁移至第一集合。
可选地,预设方式包括:获取第一集合中各个第一属性与第二属性的第二互信息,其中,第二属性为从第二集合中选取的属性;使用指数机制从多个第二互信息中选取出目标互信息,将与目标互信息对应的第一属性作为第二属性的父节点。
可选地,通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构包括:对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;对第k-1贝叶斯网络结构进行更新,得到实际贝叶斯网络结构。
可选地,对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构包括:利用第一互信息,采用关联强度感知的边界构造方法构建初始贝叶斯网络结构的第一边界;获取多个对象中的第一对象统计的第一边界内属性及该属性的父节点的第一边际分布,其中,第一边际分布中携带有拉普拉斯噪音;利用指数机制为第一边界内的每个属性选取父节点,得到更新后的第一贝叶斯网络结构。
可选地,对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构包括:利用第一互信息,采用关联强度感知的边界构造方法构建第j-1贝叶斯网络结构的第j边界;获取多个对象中第j对象统计的第j边界内属性及该属性的父节点的第j边际分布,其中,第j边际分布中携带有拉普拉斯噪音;利用指数机制为第j边界内的每个属性选取父节点,得到更新后的第j贝叶斯网络结构。
可选地,学习实际贝叶斯网络结构中的参数包括:获取多个对象中每个对象确定的实际贝叶斯网络结构中任一属性和任一属性的父节点的条件分布;利用最优多方拉普拉斯机制将获取到的多个条件分布合并为任一属性和任一属性的父节点的实际条件分布,其中,实际条件分布中携带有拉普拉斯噪音。
可选地,利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据包括:将各个属性在给定父节点条件下的实际条件分布的乘积作为所有属性的联合分布;发布由联合分布生成的对应于所有属性的数据。
根据本发明实施例的另一个方面,提供了一种数据发布装置,该装置包括:更新单元,用于更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习单元,用于学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;发布单元,用于利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,更新单元包括:第一获取模块,用于获取属性集合中任意两个属性的第一互信息;更新模块,用于通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
可选地,第一获取模块包括:划分子模块,用于将属性集合划分为多个视图,其中,每个视图包括属性集合中的部分属性;合并子模块,用于利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布,其中,实际边际分布中携带有拉普拉斯噪音;计算子模块,用于利用每个视图的实际边际分布计算每个视图中任意两个属性的第一互信息。
可选地,划分子模块还用于采用无重叠属性划分装置将属性集合划分为多个视图,其中,任意两个视图所包括的属性对不重叠。
可选地,合并子模块还用于:获取基于多个对象中每个对象拥有的数据计算得到的每个视图的边际分布,其中,边际分布中添加有拉普拉斯噪音;将多个对象的多个边际分布合并为每个视图的实际边际分布,并将多个边际分布携带的多个拉普拉斯噪音中的最小噪音作为实际边际分布的拉普拉斯噪音。
可选地,更新单元还包括:第二获取模块,用于获取包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构,其中,父子节点关系由多个对象基于指定方式确定。
可选地,更新模块包括:第一更新子模块,用于对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;第二更新子模块,用于对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;第三更新子模块,用于对第k-1贝叶斯网络结构进行更新,得到实际贝叶斯网络结构。
可选地,第一更新子模块还用于:利用第一互信息,采用关联强度感知的边界构造装置构建初始贝叶斯网络结构的第一边界;获取多个对象中的第一对象统计的第一边界内属性及该属性的父节点的第一边际分布,其中,第一边际分布中携带有拉普拉斯噪音;利用指数机制为第一边界内的每个属性选取父节点,得到更新后的第一贝叶斯网络结构。
可选地,第一更新子模块还用于:利用第一互信息,采用关联强度感知的边界构造装置构建第j-1贝叶斯网络结构的第j边界;获取多个对象中第j对象统计的第j边界内属性及该属性的父节点的第j边际分布,其中,第j边际分布中携带有拉普拉斯噪音;利用指数机制为第j边界内的每个属性选取父节点,得到更新后的第j贝叶斯网络结构。
可选地,学习单元包括:第三获取模块,用于获取多个对象中每个对象确定的实际贝叶斯网络结构中任一属性和任一属性的父节点的条件分布;合并模块,用于利用最优多方拉普拉斯机制将获取到的多个条件分布合并为任一属性和任一属性的父节点的实际条件分布,其中,实际条件分布中携带有拉普拉斯噪音。
可选地,发布单元包括:处理模块,用于将各个属性在给定父节点条件下的实际条件分布的乘积作为所有属性的联合分布;发布模块,用于发布由联合分布生成的对应于所有属性的数据。
根据本发明的另一个实施例,提供了一种终端,包括:处理器;用于存储处理器可执行指令的存储器;用于根据处理器的控制进行信息收发通信的传输装置;其中,处理器用于执行以下操作:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,处理器还用于执行以下操作:获取属性集合中任意两个属性的第一互信息;通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
根据本发明的另一个实施例,提供了一种存储介质,存储介质可以被设置为存储用于执行以下步骤的程序代码:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
在本发明实施例中,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据,从而解决了相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题,实现了提高数据发布的安全性的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的示意图;
图2是相关技术中可选的的数据发布系统的示意图;
图3是根据本发明实施例的数据发布方法的流程图;
图4是根据本发明实施例的可选的数据发布系统的示意图;
图5是根据本发明实施例的可选的数据发布系统的示意图;
图6是根据本发明实施例的可选的数据发布系统的示意图;
图7是根据本发明实施例的可选的数据发布系统的示意图;
图8是根据本发明实施例的可选的数据发布系统的示意图;
图9是根据本发明实施例的数据发布装置的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置(即终端)中执行。以运行在计算机终端上为例,如图1所示,计算机终端可以包括一个或多个(图中仅示出一个)处理器101(处理器101可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器103、以及用于通信功能的传输装置105。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。
存储器103可用于存储应用软件的软件程序以及模块,如本发明实施例中的设备的控制方法对应的程序指令/模块,处理器101通过运行存储在存储器103内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
例如,上述的处理器用于执行以下操作:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,处理器还用于执行以下操作:获取属性集合中任意两个属性的第一互信息;通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
本地数据集:每个数据拥有者各自拥有属于自己的数据集。
半可信第三方(semi-trusted curator):第三方指协同各数据拥有者进行数据发布的个人或机构,半可信指第三方会严格遵守算法的相关协议规则协调各数据拥有者进行数据发布工作,但它可能在与数据拥有着交互信息的过程中,利用自己掌握的资源窃取数据中用户的隐私信息。
边缘分布(Marginal Distribution):也即边际分布,指统计学中常用的对多变量的概率密度函数针对某个变量进行求和,从而在结果中可以忽略该变量影响,所得到的概率分布。
例如:假设有三个变量x1,x2,x3联合概率分布为P(x1,x2,x3),则关于其中一个变量x1的边缘分布为
Figure BDA0001143598140000091
则关于其中一个变量x2,x3的边缘分布为
Figure BDA0001143598140000092
贝叶斯网络(Bayesian network):是一种概率图型模型,借由有向无环图(directed acyclic graphs)中得知一组随机变量及其改组条件概率分配(conditionalprobability distributions)。
边界(search frontier):它包含两部分,一部分是一组候选属性-父节点对(即属性对,表示为:<属性,父节点>)构成的集合,另一部分是由这些候选属性-父节点对的边缘分布构成,边界可以被看做是各数据拥有者更新贝叶斯网络结构的先验知识。
条件分布(Conditional Distribution):已知两个相关的随机变量X′和Y,随机变量Y在条件{X′=x}下的条件概率分布是指当已知X′的取值为某个特定值x之时,Y的概率分布。
差分隐私保护模型:差分隐私保护模型已成为数据分析领域标准的隐私保护模型,差分隐私保护模型具有严格的数学定义,并且不对攻击者所拥有的背景知识进行任何假设。给定数据库D和D’,假设D和D’相差一条且仅一条记录r。那么,对于满足差分隐私保护的数据分析算法A,其在数据库D和D’中的分析结果将具有近似相同的概率分布。在这种情况下,无论攻击者拥有如何丰富的背景知识,都无法判断记录r是否存在于数据库中。分析结果的相似性是通过隐私参数(即隐私预算)来控制的。隐私参数越小,说明算法的隐私保护强度越高。差分隐私保护模型是通过在数据分析的过程中加入噪音来保护用户的隐私。因此,如何在满足差分隐私保护的条件下,减少数据分析过程中加入的噪音量是相关研究中面临的主要挑战。对于任意两个数据库,假如它们相差一条且仅一条记录,我们称这两个数据库为相邻数据库。差分隐私保护模型的具体定义如下。
差分隐私保护模型:给定算法A,假设数据库D和D’为任意相邻数据库。对于算法A的任意可能输出结果S,如果算法A在数据库D中输出S的概率与算法A在数据库D’中输出S的概率的比值小于常数值e,称算法A满足差分隐私保护。即Pr[A(D)∈S]≤eε×Pr[A(D')∈S]。从概率分布的角度来看,差分隐私保护模型使得任何记录对于算法最终分析结果的影响都是有限的。
指数机制:给定数据库D,输出为一实体对象r∈Range,u(D,r)为可用性函数,Δu为函数u(D,r)的敏感度,若算法A以正比于
Figure BDA0001143598140000101
的概率从Range中选择输出r,则算法A满足差分隐私保护。
如图2所示,数据发布系统包括数据拥有者(P1、P2,…,Pk),每个数据拥有者都有各自的数据(即保存在数据仓库D中的D1、D2、…,Dk),半可信第三方T将数据仓库中的数据处理之后发布数据D’给数据分析者U,在目前的发布系统中,数据拥有者、半可信第三方以及数据分析者均可能利用其掌握的技能对数据仓库发起攻击(如攻击1、攻击2、攻击3),从而造成了当前的数据发布系统的安全性较低。而利用本申请的方法恰好可以解决上述问题。
根据本发明实施例,提供了一种数据发布方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明实施例的数据发布方法的流程图,如图3所示,该方法包括如下步骤:
步骤S301,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;
步骤S302,学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;
步骤S303,利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
通过上述实施例,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据,从而解决了相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题,实现了提高数据发布的安全性的技术效果。
上述的参数即贝叶斯网络的参数,如指贝叶斯网络中,各节点在其父节被给定的情况下的条件分布。
可选地,上述步骤S301至S303可以在半可信第三方所使用的终端上运行,或者在由半可信第三方和数据拥有者组成的网络中的终端设备上运行,数据拥有者的数量为多个。
例如,数据拥有者初始化对应于属性集合的初始贝叶斯网络结构并发送给半可信第三方;半可信第三方和数据拥有者通过第一互信息串行更新初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;半可信第三方和数据拥有者并行学习实际贝叶斯网络结构中的参数;半可信第三方利用学习到参数后的实际贝叶斯网络结构发布对应于属性集合中所有属性的数据。
在步骤S301中,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构包括:获取属性集合中任意两个属性的第一互信息;通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
具体地,获取属性集合中任意两个属性的第一互信息包括:将属性集合划分为多个视图,其中,每个视图包括属性集合中的部分属性;利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布,其中,实际边际分布中携带有拉普拉斯噪音;利用每个视图的实际边际分布计算每个视图中任意两个属性的第一互信息。
需要说明的是,将属性集合划分为多个视图时,采用无重叠属性划分方法将属性集合划分为多个视图,其中,任意两个视图所包括的属性对不重叠,在得到的一组视图(即多个视图)中,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i)。
半可信第三方和数据拥有者协同计算数据的属性集合中任意两个属性的第一互信息,半可信第三方将属性集合划分为多个视图,其中,多个视图中每个视图包括属性集合中的部分属性,多个视图中任意两个视图所包括的属性对不重叠;多个数据拥有者中的每个数据拥有者利用自己拥有的数据计算每个视图的边际分布;半可信第三方和多个数据拥有者利用最优多方拉普拉斯机制将多个边际分布合并(如将多个边际分布用加在一起)为每个视图的实际边际分布,其中,多个边际分布为多个数据拥有者分别计算得到的边际分布,实际边际分布中携带有拉普拉斯噪音;半可信第三方利用每个视图的实际边际分布计算每个视图中任意两个属性的第一互信息。
利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布包括:获取基于多个对象(即数据拥有者)中每个对象拥有的数据计算得到的每个视图的边际分布,其中,边际分布中添加有拉普拉斯噪音;将多个对象的多个边际分布合并为每个视图的实际边际分布,为了满足差分隐私保护要求,数据拥有者和半可信第三方利用最优多方Laplace机制(即最优多方拉普拉斯机制)为合并的边际分布添加Laplace噪音,即将多个边际分布携带的多个拉普拉斯噪音中的最小噪音作为实际边际分布的拉普拉斯噪音。
具体地,半可信第三方和多个数据拥有者利用最优多方拉普拉斯机制将多个边际分布合并为每个视图的实际边际分布包括:每个数据拥有者利用自己拥有的数据统计上一步中所有视图的边际分布,每个数据拥有者将计算得到的边际分布发送给半可信第三方,其中,边际分布中添加有拉普拉斯噪音;半可信第三方将多个边际分布合并(如以累加的形式合并)为每个视图的实际边际分布,为了满足差分隐私保护要求,数据拥有者和半可信第三方利用最优多方Laplace机制(即最优多方拉普拉斯机制)为合并的边际分布添加Laplace噪音,即将多个边际分布携带的多个拉普拉斯噪音中的最小噪音作为实际边际分布的拉普拉斯噪音。
在更新与数据的属性集合对应的初始贝叶斯网络结构之前,可获取包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构,其中,父子节点关系由多个对象基于指定方式确定。即多个数据拥有者基于指数机制确定属性集合中所有属性的父子节点关系,并确定包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构。
上述的贝叶斯网络结构初始化是指数据拥有者共同为所有属性选择初始的父节点,构造初始的k度贝叶斯网络结构(其中,k度表示每个属性的父节点个数至多为k)。
具体地,指定方式用于指示按照如下方式确定父子节点关系:多个对象中的第一对象将属性集合划分为第一集合和第二集合,其中,第一集合用于保存已经确定父节点的属性,第一集合的初始状态为空,第二集合用于保存未确定父节点的属性;第一对象从第二集合中选取一个属性保存至第一集合;多个对象中的第i对象按照预设方式为第二集合中第一预设数量的属性确定父节点,并将确定了父节点的属性从第二集合迁移至第一集合,其中,i为小于k的正整数,k为多个对象的数量;多个对象中的第k对象按照预设方式为第二集合中第二预设数量的属性确定父节点,并将确定了父节点的属性从第二集合迁移至第一集合。
上述的预设方式是指:获取第一集合中各个第一属性与第二属性的第二互信息,其中,第二属性为从第二集合中选取的属性;使用指数机制从多个第二互信息中选取出目标互信息,将与目标互信息对应的第一属性作为第二属性的父节点。
具体地,上述实施例可通过如下步骤实现:
步骤S11,半可信第三方指定数据拥有者按照P1,P2,…,PK的顺序为属性学习父节点,并确定每个数据拥有者所需学习的属性的个数,前(K-1)个数据拥有者每人学习
Figure BDA0001143598140000141
个(符号
Figure BDA0001143598140000142
表示向下取整),第PK个学习
Figure BDA0001143598140000143
个。
步骤S12,第一个数据拥有者P1
Figure BDA0001143598140000144
个属性学习父节点。
P1将属性集A分成两组Ah(即第一集合)和An(即第二集合),Ah是由所有已经选定父节点的属性构成的集合,An是由所有未选定父节点的属性构成的集合。显然Ah初始状态为空。
P1从An中随机选取一个属性X1',将其父节点记为空,并将X1'从An移至Ah
P1从An中选取一个属性Xi,从Ah中选取min{k,|Ah|}个属性组成Πi,Xi和Πi构成一组候选属性-父节点对。P1以属性和候选父节点间互信息为评分函数,利用指数机制从所有的候选属性-父节点对中选取一组属性-父节点对(Xii)并记为(X2',Π2),Π2为X2'的父节点,然后将X2'从An移至Ah
P1重复上述过程,直至为
Figure BDA0001143598140000145
个属性选定父节点。
P1将集合Ah、An
Figure BDA0001143598140000146
组属性-父节点对发送给P2
步骤S13,P2
Figure BDA0001143598140000147
个新的属性选定父节点,并将集合Ah、An
Figure BDA0001143598140000148
组属性-父节点对发送给P3
步骤S14,PK将初始化的贝叶斯网络结构N0发送给半可信第三方。
在步骤S301中,通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构包括:对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;对第k-1贝叶斯网络结构进行更新,得到实际贝叶斯网络结构。
半可信第三方和数据拥有者通过第一互信息串行更新初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构包括:半可信第三方与多个数据拥有者中的第一数据拥有者对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;半可信第三方与多个数据拥有者中的第j数据拥有者对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;半可信第三方与多个数据拥有者中的第k数据拥有者对第k-1贝叶斯网络结构进行更新,得到实际贝叶斯网络结构。
可选地,对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构包括:利用第一互信息,采用关联强度感知的边界构造方法构建初始贝叶斯网络结构的第一边界;获取多个对象中的第一对象统计的第一边界内属性及该属性的父节点的第一边际分布,其中,第一边际分布中携带有拉普拉斯噪音;利用指数机制为第一边界内的每个属性选取父节点,得到更新后的第一贝叶斯网络结构。
半可信第三方利用第一互信息,采用关联强度感知的边界构造方法构建初始贝叶斯网络结构的第一边界;第一数据拥有者统计第一边界内属性及该属性的父节点的第一边际分布,并将加入有拉普拉斯噪音的第一边际分布发送给半可信第三方;半可信第三方利用指数机制为第一边界内的每个属性选取父节点,得到更新后的第一贝叶斯网络结构。
可选地,对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构包括:利用第一互信息,采用关联强度感知的边界构造方法构建第j-1贝叶斯网络结构的第j边界;获取多个对象中第j对象统计的第j边界内属性及该属性的父节点的第j边际分布,其中,第j边际分布中携带有拉普拉斯噪音;利用指数机制为第j边界内的每个属性选取父节点,得到更新后的第j贝叶斯网络结构。
半可信第三方与多个数据拥有者中的第j数据拥有者对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构包括:半可信第三方利用第一互信息,采用关联强度感知的边界构造方法构建第j-1贝叶斯网络结构的第j边界;第j数据拥有者统计第j边界内属性及该属性的父节点的第j边际分布,并将加入有拉普拉斯噪音的第j边际分布发送给半可信第三方;半可信第三方利用指数机制为第j边界内的每个属性选取父节点,从而得到更新后的第j贝叶斯网络结构。
在贝叶斯网络结构学习过程中,统计信息中加入的噪音量与候选属性-父节点对(即属性对)的数量成正比。为了减少噪音加入,提高数据效用,可利用边界合理限制候选属性-父节点对的数量。然而,这样必然会造成一定的信息损失。为了减少这种信息损失,边界内需包含更多有效的候选属性-父节点对,与某一属性关联强度越强的属性越有可能成为其父节点,因此,可利用关联强度感知的边界构造方法进行边界构造,该方法的基本思想是在关联强度较强的属性间添加边,具体过程如下:
步骤1,给定贝叶斯网络结构和两两属性间互信息大小,其中,属性间互信息大小用来度量属性间关联强度,互信息越大,关联强度越强。
步骤2,优先选取互信息最大的属性对,如果该属性对在当前贝叶斯网络结构中存在边,则重新选取属性对;否则,执行步骤3。
步骤3,如果该属性对对应的两个属性均不需添加父节点,则返回步骤2;如果只有其中一个属性需要添加父节点,则在属性对之间添加边,并令另一个属性作为该属性的父节点,同时避免出现环;如果两个属性均需添加父节点,则执行以下步骤来确定边的方向。
步骤4,若边的方向不同,则会影响属性间的依赖关系,从而影响后面边的选取,进而影响最终边界的构造,选取边的方向时,尽量使得最终的边界包含更多有效的候选属性-父节点对,为了判断边的方向对最终边界的影响,可引入稀疏度Sparse(x)和影响度Impact(x,y)。其中,稀疏度Sparse(x)表示该属性x的所有祖先节点还需添加的父节点总数,优先为稀疏度大的节点添加父节点;影响度Impact(x,y)表示确定边的方向为x指向y后将不能被添加到网络结构中边的数量,优先选定影响度小的方向。本文中,当Sparse(x)·Impact(x,y)≤Sparse(y)·Impact(y,x),选定方向为x指向y。
执行步骤2至步骤4,直至为所有属性选取一定的父节点,则边界构造完成。
具体地,步骤S301可以通过如下步骤实现:
步骤S21,半可信第三方与第一个数据拥有者P1对初始化网络结构N0进行更新。
半可信第三方利用N0和之前计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点,从而得到贝叶斯网络结构N1
步骤S22,半可信第三方与第二个数据拥有者P2对网络进行更新。
半可信第三方利用N1和计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与P1的统计结果累加。为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音。为了提高边际分布的数据效用,P1、P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S23,半可信第三方与数据拥有者P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK(即实际贝叶斯网络结构)。
在步骤S302中,学习实际贝叶斯网络结构中的参数包括:获取多个对象中每个对象确定的实际贝叶斯网络结构中任一属性和任一属性的父节点的条件分布;利用最优多方拉普拉斯机制将获取到的多个条件分布合并为任一属性和任一属性的父节点的实际条件分布,其中,实际条件分布中携带有拉普拉斯噪音。
多个数据拥有者获取实际贝叶斯网络结构中任一属性和任一属性的父节点的条件分布;多个数据拥有者和半可信第三方利用最优多方拉普拉斯机制将多个条件分布合并为任一属性和任一属性的父节点的实际条件分布,其中,多个条件分布为多个数据拥有者分别获取的任一属性和任一属性的父节点的条件分布,实际条件分布中携带有拉普拉斯噪音。
数据拥有者统计贝叶斯网络结构中所有属性-父节点的边际分布,并将统计结果发送给半可信第三方;半可信第三方将每个属性-父节点相应的边际分布合并作为该属性-父节点对的边际分布。为了满足差分隐私保护要求,数据拥有者和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音。
在步骤S303中,利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据包括:将各个属性在给定父节点条件下的实际条件分布的乘积作为所有属性的联合分布;发布由联合分布生成的对应于所有属性的数据。
半可信第三方将各个属性在给定父节点条件下的实际条件分布的乘积作为所有属性的联合分布;半可信第三方发布由联合分布生成的对应于所有属性的数据。
为了解决上述问题,上述的方法可以通过多方数据发布的装置(也即PrivSeq算法装置)实现,该装置包括四个模块:数据预处理模块,贝叶斯网络结构学习模块,贝叶斯参数学习模块和数据生成模块。各模块的具体功能如下:
数据预处理模块,数据拥有者根据数据的各个属性的取值,对属性集进行如下处理:先将取值为连续值的属性(如身高、年龄等取值范围为连续区间的属性)进行离散化处理,转化成取值为离散值的属性,再将取值为非二进制数据的属性,转换成取值为二进制数据的属性。
贝叶斯网络结构学习模块,为数据的属性集构建贝叶斯网络,具有两两属性的互信息计算、贝叶斯网络结构初始化、串行更新贝叶斯网络结构等功能。
贝叶斯参数学习模块,计算贝叶斯网络中每个属性节点的边缘分布。
数据生成模块,根据贝叶斯网络的结构和各属性节点的边缘分布,重新生成数据。
在多方数据发布过程中,该装置的配置说明如下:
如图4所示,假设K个数据拥有者联合进行数据发布,则为每个数据拥有者配置一台A类服务器,各数据拥有者的数据存储于各自的A类服务器上,A类服务器上布置了数据预处理模块、贝叶斯网络结构学习模块和贝叶斯参数学习模块。同时,为半可信第三方配置一台B类服务器,B类服务器上布置了贝叶斯网络结构学习模块、贝叶斯参数学习模块和数据生成模块。半可信第三方的B类服务器和各数据拥有者的A类服务器通过互联网连接。半可信第三方根据PrivSeq算法流程(即运行相应的算法软件)通过B类服务器协调各方的A类服务器进行满足差分隐私保护的数据发布工作。
例如,贝叶斯网络中存在四个节点,分别为节点A、节点B、节点C以及节点D,其中,A为根节点(即不存在父节点),B的父节点为A,C的父节点为A,D的父节点为A和C。那么属性A、B、C、D的联合分布为:P(A,B,C,D)=P(A)*P(B|A)*P(C|A)*P(D|A,C)。
在上述实施例中,提供了一种实现满足差分隐私的多方数据发布的方法,能够在保护用户隐私的前提下帮助用户充分分析和挖掘数据中的价值,为业务推广和科学研究提供更多依据。运用数据隐私领域领先的差分隐私模型在多方数据联合发布过程为各数据拥有者的数据提供ε-差分隐私保护,可以保障用户的隐私,提供更安全的数据发布策略;采用串行的贝叶斯网络更新机制,并结合无重叠属性划分方法和最优多方Laplace机制,从而在各数据拥有者的数据满足ε-差分隐私的条件下,最大程度地减少噪音的加入,使得发布的数据的效用得到提升,保证整体数据服务的质量;采用串行更新机制并结合关联强度感知的边界构造方法,对数据拥有者和半可信第三方之间传递的信息量进行合理的限制,从而在综合利用各方数据提供高质量服务的同时,减少通信开销,降低大数据环境下数据服务的成本。
为了更好地说明本发明的目的、技术方案和有益效果,下面结合附图及具体实施例对本发明进行详细说明。
示例1
如图5所示,以K个医院(编号为P1、P2、…,Pk,K≥2)联合发布医疗数据为例对本申请进行详细描述。
K个医院的医疗数据分别存在于各自的物理主机上,半可信第三方和各个医院通过互联网连接。半可信第三方根据PrivSeq算法流程协调各方进行满足差分隐私保护的数据发布工作(发布整体医疗数据)。
步骤S501,半可信第三方采用无重叠属性划分方法对属性集A(如包含姓名、性别、年龄、疾病等属性)进行划分,得到一组视图,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i);
步骤S502,每个医院利用自己拥有的数据统计上一步中所有视图的边际分布,并将统计结果发送给半可信第三方,半可信第三方将每个视图相应的边际分布合并作为该视图的边际分布,K个医院和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S503,半可信第三方利用含有噪音的边际分布,计算所有视图中两两属性的互信息;
步骤S504,半可信第三方指定医院按照P1,P2,…,PK的顺序为属性学习父节点,规定每个属性的父节点个数至多为k,并确定每个医院所需学习的属性的个数,前(K-1)个医院分别学习
Figure BDA0001143598140000211
个,第PK个学习
Figure BDA0001143598140000212
个;
步骤S505,P1将属性集A分成两组Ah和An,Ah是由所有已经选定父节点的属性构成的集合,An是由所有未选定父节点的属性构成的集合,显然Ah初始状态为空;
步骤S506,P1从An中随机选取一个属性X1',将其父节点记为空,并将X1'从An移至Ah
步骤S507,P1从An中选取一个属性Xi,从Ah中选取min{k,|Ah|}个属性组成Πi,Xi和Πi构成一组候选属性-父节点对,P1以属性和候选父节点间互信息为评分函数,利用指数机制从所有的候选属性-父节点对中选取一组属性-父节点对(Xii)并记为(X2',Π2),Π2为X2'的父节点,然后将X2'从An移至Ah
步骤S508,P1重复步骤S507过程,直至为
Figure BDA0001143598140000213
个属性选定父节点;
步骤S509,P1将集合Ah,An
Figure BDA0001143598140000214
组属性-父节点对发送给P2
步骤S510,P2按照步骤S507和步骤S508过程为
Figure BDA0001143598140000215
个新的属性选定父节点并将集合Ah,An
Figure BDA0001143598140000216
组属性-父节点对发送给P3
步骤S511,P3,…,PK重复步骤S510过程直至为所有属性选定父节点,从而得到贝叶斯网络结构N0
步骤S512,PK将初始化的贝叶斯网络结构N0发送给半可信第三方;
步骤S513,半可信第三方利用N0和步骤S503中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S514,P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音;
步骤S515,半可信第三方利用指数机制在边界范围内为每个属性选取父节点从而得到贝叶斯网络结构N1
步骤S516,半可信第三方利用N1和步骤S503中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S517,P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与步骤S514中P1的统计结果累加,为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音,为了提高边际分布的数据效用,P1、P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音;
步骤S518,半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S519,重复步骤S516至步骤S518过程,半可信第三方与医院P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK
步骤S520,每个医院统计贝叶斯网络结构中所有属性-父节点的边际分布,并将统计结果发送给半可信第三方;
步骤S521,半可信第三方将每个属性-父节点相应的边际分布合并作为该属性-父节点对的边际分布,医院和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S522,半可信第三方将含有噪音的贝叶斯网络中每个节点在给定父节点的条件分布的乘积作为数据属性的联合分布;
步骤S523,半可信第三方利用该联合分布生成新的数据。
示例2
如图6所示,以K个商店(编号为P1、P2、…,Pk,K≥2)联合发布整体购买记录为例对本申请进行详细描述。
K个商店的购买记录分别存在于各自的物理主机上,半可信第三方和各个商店通过互联网连接,半可信第三方根据PrivSeq算法流程协调各方进行满足差分隐私保护的数据(整体购买记录)发布工作。
步骤S601,半可信第三方采用无重叠属性划分方法对属性集A(如包含用户的姓名,性别,年龄,购买商品等属性)进行划分,得到一组视图,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i);
步骤S602,每个商店利用自己拥有的数据统计上一步中所有视图的边际分布,并将统计结果发送给半可信第三方,半可信第三方将每个视图相应的边际分布合并作为该视图的边际分布,K个商店和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S603,半可信第三方利用含有噪音的边际分布,计算所有视图中两两属性的互信息;
步骤S604,半可信第三方指定商店按照P1,P2,…,PK的顺序为属性学习父节点,规定每个属性的父节点个数至多为k,并确定每个商店所需学习的属性的个数,前(K-1)个商店分别学习
Figure BDA0001143598140000231
个,第PK个学习
Figure BDA0001143598140000241
个;
步骤S605,P1将属性集A分成两组Ah和An,Ah是由所有已经选定父节点的属性构成的集合,An是由所有未选定父节点的属性构成的集合。显然Ah初始状态为空;
步骤S606,P1从An中随机选取一个属性X1',将其父节点记为空,并将X1'从An移至Ah
步骤S607,P1从An中选取一个属性Xi,从Ah中选取min{k,|Ah|}个属性组成Πi,Xi和Πi构成一组候选属性-父节点对,P1以属性和候选父节点间互信息为评分函数,利用指数机制从所有的候选属性-父节点对中选取一组属性-父节点对(Xii)并记为(X2',Π2),Π2为X2'的父节点。然后将X2'从An移至Ah
步骤S608,P1重复步骤S607过程,直至为
Figure BDA0001143598140000242
个属性选定父节点;
步骤S609,P1将集合Ah,An
Figure BDA0001143598140000243
组属性-父节点对发送给P2
步骤S610,P2按照步骤S607和骤S608过程为
Figure BDA0001143598140000244
个新的属性选定父节点并将集合Ah,An
Figure BDA0001143598140000245
组属性-父节点对发送给P3
步骤S611,P3,…,PK重复步骤S610过程直至为所有属性选定父节点,从而得到贝叶斯网络结构N0
步骤S612,PK将初始化的贝叶斯网络结构N0发送给半可信第三方;
步骤S613,半可信第三方利用N0和步骤S603中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S614,P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方。为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音;
步骤S615,半可信第三方利用指数机制在边界范围内为每个属性选取父节点从而得到贝叶斯网络结构N1
步骤S616,半可信第三方利用N1和步骤S603中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S617,P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与步骤S614中P1的统计结果累加,为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音,为了提高边际分布的数据效用,P1,P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音;
步骤S618,半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S619,重复步骤S616至步骤S618过程,半可信第三方与商店P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK
步骤S620,每个商店统计贝叶斯网络结构中所有属性-父节点的边际分布,并将统计结果发送给半可信第三方;
步骤S621,半可信第三方将每个属性-父节点相应的边际分布合并作为该属性-父节点对的边际分布,商店和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S622,半可信第三方将含有噪音的贝叶斯网络中每个节点在给定父节点的条件分布的乘积作为数据属性的联合分布;
步骤S623,半可信第三方利用该联合分布生成新的数据。
示例3
如图7所示,以K个银行(编号为P1、P2、…,Pk,K≥2)联合发布整体交易信息为例对本申请进行详细描述。
K个银行的交易信息数据分别存在于各自的物理主机上,半可信第三方和各个医院通过互联网连接。半可信第三方根据PrivSeq算法流程协调各方进行满足差分隐私保护的数据(整体交易信息)发布工作。
步骤S701,半可信第三方采用无重叠属性划分方法对属性集A(如包含姓名,性别,年龄,取款金额等属性)进行划分,得到一组视图,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i);
步骤S702,每个银行利用自己拥有的数据统计上一步中所有视图的边际分布,并将统计结果发送给半可信第三方,半可信第三方将每个视图相应的边际分布合并作为该视图的边际分布,K个银行和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S703,半可信第三方利用含有噪音的边际分布,计算所有视图中两两属性的互信息;
步骤S704,半可信第三方指定银行按照P1,P2,…,PK的顺序为属性学习父节点,规定每个属性的父节点个数至多为k,并确定每个银行所需学习的属性的个数,前(K-1)个银行分别学习
Figure BDA0001143598140000261
个,第PK个学习
Figure BDA0001143598140000262
个;
步骤S705,P1将属性集A分成两组Ah和An,Ah是由所有已经选定父节点的属性构成的集合,An是由所有未选定父节点的属性构成的集合,显然Ah初始状态为空;
步骤S706,P1从An中随机选取一个属性X1',将其父节点记为空,并将X1'从An移至Ah
步骤S707,P1从An中选取一个属性Xi,从Ah中选取min{k,|Ah|}个属性组成Πi,Xi和Πi构成一组候选属性-父节点对,P1以属性和候选父节点间互信息为评分函数,利用指数机制从所有的候选属性-父节点对中选取一组属性-父节点对(Xii)并记为(X2',Π2),Π2为X2'的父节点,然后将X2'从An移至Ah
步骤S708,P1重复步骤S707过程,直至为
Figure BDA0001143598140000271
个属性选定父节点;
步骤S709,P1将集合Ah、An
Figure BDA0001143598140000272
组属性-父节点对发送给P2
步骤S710,P2按照步骤S707和步骤S708过程为
Figure BDA0001143598140000273
个新的属性选定父节点并将集合Ah,An
Figure BDA0001143598140000274
组属性-父节点对发送给P3
步骤S711,P3,…,PK重复步骤S710过程直至为所有属性选定父节点,从而得到贝叶斯网络结构N0
步骤S712,PK将初始化的贝叶斯网络结构N0发送给半可信第三方;
步骤S713,半可信第三方利用N0和步骤S703中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S714,P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方。为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音;
步骤S715,半可信第三方利用指数机制在边界范围内为每个属性选取父节点从而得到贝叶斯网络结构N1
步骤S716,半可信第三方利用N1和步骤S703中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S717,P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与步骤S714中P1的统计结果累加,为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音,为了提高边际分布的数据效用,P1、P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音;
步骤S718,半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S719,重复步骤S716至步骤S718过程,半可信第三方与银行P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK
步骤S720,每个银行统计贝叶斯网络结构中所有属性-父节点的边际分布,并将统计结果发送给半可信第三方;
步骤S721,半可信第三方将每个属性-父节点相应的边际分布合并作为该属性-父节点对的边际分布,银行和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S722,半可信第三方将含有噪音的贝叶斯网络中每个节点在给定父节点的条件分布的乘积作为数据属性的联合分布;
步骤S723,半可信第三方利用该联合分布生成新的数据。
示例4
如图8所示,以K个学校(编号为P1、P2、…,Pk,K≥2)联合发布整体学生考试成绩为例对本申请进行详细描述。
K个学校的考试成绩分别存在于各自的物理主机上,半可信第三方和各个学校通过互联网连接,半可信第三方根据PrivSeq算法流程协调各方进行满足差分隐私保护的数据(整体学生考试成绩)发布工作。
步骤S801,半可信第三方采用无重叠属性划分方法对属性集A(如包含学号、姓名、性别、成绩等属性)进行划分,得到一组视图,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i);
步骤S802,每个学校利用自己拥有的数据统计上一步中所有视图的边际分布,并将统计结果发送给半可信第三方,半可信第三方将每个视图相应的边际分布合并作为该视图的边际分布,K个学校和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S803,半可信第三方利用含有噪音的边际分布,计算所有视图中两两属性的互信息;
步骤S804,半可信第三方指定学校按照P1,P2,…,PK的顺序为属性学习父节点,规定每个属性的父节点个数至多为k,并确定每个学校所需学习的属性的个数,前(K-1)个学校分别学习
Figure BDA0001143598140000291
个,第PK个学习
Figure BDA0001143598140000292
个;
步骤S805,P1将属性集A分成两组Ah和An,Ah是由所有已经选定父节点的属性构成的集合,An是由所有未选定父节点的属性构成的集合。显然Ah初始状态为空;
步骤S806,P1从An中随机选取一个属性X1',将其父节点记为空,并将X1'从An移至Ah
步骤S807,P1从An中选取一个属性Xi,从Ah中选取min{k,|Ah|}个属性组成Πi,Xi和Πi构成一组候选属性-父节点对。P1以属性和候选父节点间互信息为评分函数,利用指数机制从所有的候选属性-父节点对中选取一组属性-父节点对(Xii)并记为(X2',Π2),Π2为X2'的父节点。然后将X2'从An移至Ah
步骤S808,P1重复步骤S807过程,直至为
Figure BDA0001143598140000301
个属性选定父节点;
步骤S809,P1将集合Ah,An
Figure BDA0001143598140000302
组属性-父节点对发送给P2
步骤S810,P2按照步骤S807和步骤S808过程为
Figure BDA0001143598140000303
个新的属性选定父节点并将集合Ah,An
Figure BDA0001143598140000304
组属性-父节点对发送给P3
步骤S811,P3,…,PK重复步骤S810过程直至为所有属性选定父节点,从而得到贝叶斯网络结构N0
步骤S812,PK将初始化的贝叶斯网络结构N0发送给半可信第三方;
步骤S813,半可信第三方利用N0和步骤S803中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S814,P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方。为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音;
步骤S815,半可信第三方利用指数机制在边界范围内为每个属性选取父节点从而得到贝叶斯网络结构N1
步骤S816,半可信第三方利用N1和步骤S803中计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界;
步骤S817,P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与步骤S814中P1的统计结果累加,为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音,为了提高边际分布的数据效用,P1,P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音;
步骤S818,半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S819,重复步骤S816至步骤S818过程,半可信第三方与学校P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK
步骤S820,每个学校统计贝叶斯网络结构中所有属性-父节点的边际分布,并将统计结果发送给半可信第三方;
步骤S821,半可信第三方将每个属性-父节点相应的边际分布合并作为该属性-父节点对的边际分布,学校和半可信第三方利用最优多方Laplace机制为合并的边际分布添加Laplace噪音;
步骤S822,半可信第三方将含有噪音的贝叶斯网络中每个节点在给定父节点的条件分布的乘积作为数据属性的联合分布;
步骤S823,半可信第三方利用该联合分布生成新的数据。
在上述实施例中,运用数据隐私领域领先的差分隐私模型在多方数据联合发布过程为各数据拥有者的数据提供ε-差分隐私保护,可以保障用户的隐私,提供更安全的数据发布策略;采用串行的贝叶斯网络更新机制,并结合无重叠属性划分方法和最优多方Laplace机制,从而在各数据拥有者的数据满足ε-差分隐私的条件下,最大程度地减少噪音的加入,使得发布的数据的效用得到提升,保证整体数据服务的质量;采用串行更新机制并结合关联强度感知的边界构造方法,对数据拥有者和半可信第三方之间传递的信息量进行合理的限制,从而在综合利用各方数据提供高质量服务的同时,减少通信开销,降低大数据环境下数据服务的成本。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
本发明实施例中还提供了一种数据发布装置。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是根据本发明实施例的数据发布装置的示意图。如图9所示,该装置可以包括:更新单元91、学习单元92以及发布单元93。
更新单元91,用于更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;
学习单元92,用于学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;
发布单元93,用于利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
通过上述实施例,更新单元更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习单元学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;发布单元利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据,从而解决了相关技术中,在大数据环境下实现多方数据发布时的安全性较低的技术问题,实现了提高数据发布的安全性的技术效果。
可选地,更新单元包括:第一获取模块,用于获取属性集合中任意两个属性的第一互信息;更新模块,用于通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
可选地,第一获取模块包括:划分子模块,用于将属性集合划分为多个视图,其中,每个视图包括属性集合中的部分属性;合并子模块,用于利用最优多方拉普拉斯机制将对应于每个视图的多个边际分布合并为每个视图的实际边际分布,其中,实际边际分布中携带有拉普拉斯噪音;计算子模块,用于利用每个视图的实际边际分布计算每个视图中任意两个属性的第一互信息。
可选地,划分子模块还用于采用无重叠属性划分装置将属性集合划分为多个视图,其中,任意两个视图所包括的属性对不重叠。在得到的一组视图(即多个视图)中,视图为包含部分属性的集合,如视图V1=(X11,X12,…,X1i)。
可选地,合并子模块还用于:获取基于多个对象中每个对象拥有的数据计算得到的每个视图的边际分布,其中,边际分布中添加有拉普拉斯噪音;将多个对象的多个边际分布合并为每个视图的实际边际分布,并将多个边际分布携带的多个拉普拉斯噪音中的最小噪音作为实际边际分布的拉普拉斯噪音。
可选地,更新单元还包括:第二获取模块,用于获取包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构,其中,父子节点关系由多个对象基于指定方式确定。
可选地,更新模块包括:第一更新子模块,用于对初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;第二更新子模块,用于对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;第三更新子模块,用于对第k-1贝叶斯网络结构进行更新,得到实际贝叶斯网络结构。
上述实施例中的初始化单元还用于控制多个数据拥有者基于指数机制确定属性集合中所有属性的父子节点关系,并确定包括属性集合中所有属性的父子节点关系的初始贝叶斯网络结构。
可选地,第一更新子模块还用于:利用第一互信息,采用关联强度感知的边界构造装置构建初始贝叶斯网络结构的第一边界;获取多个对象中的第一对象统计的第一边界内属性及该属性的父节点的第一边际分布,其中,第一边际分布中携带有拉普拉斯噪音;利用指数机制为第一边界内的每个属性选取父节点,得到更新后的第一贝叶斯网络结构。
可选地,第一更新子模块还用于:利用第一互信息,采用关联强度感知的边界构造装置构建第j-1贝叶斯网络结构的第j边界;获取多个对象中第j对象统计的第j边界内属性及该属性的父节点的第j边际分布,其中,第j边际分布中携带有拉普拉斯噪音;利用指数机制为第j边界内的每个属性选取父节点,得到更新后的第j贝叶斯网络结构。
具体地,更新单元可以按照如下步骤实现上述功能:
步骤S21,半可信第三方与第一个数据拥有者P1对初始化网络结构N0进行更新。
半可信第三方利用N0和之前计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点,从而得到贝叶斯网络结构N1
步骤S22,半可信第三方与第二个数据拥有者P2对网络进行更新。
半可信第三方利用N1和计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与P1的统计结果累加。为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音。为了提高边际分布的数据效用,P1、P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S23,半可信第三方与数据拥有者P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK(即实际贝叶斯网络结构)。
可选地,学习单元包括:第三获取模块,用于获取多个对象中每个对象确定的实际贝叶斯网络结构中任一属性和任一属性的父节点的条件分布;合并模块,用于利用最优多方拉普拉斯机制将获取到的多个条件分布合并为任一属性和任一属性的父节点的实际条件分布,其中,实际条件分布中携带有拉普拉斯噪音。
具体地,学习单元可以按照如下步骤实现上述功能:
步骤S21,半可信第三方与第一个数据拥有者P1对初始化网络结构N0进行更新。
半可信第三方利用N0和之前计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P1统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,为了满足差分隐私保护要求,P1需在统计的边际分布中加入Laplace噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点,从而得到贝叶斯网络结构N1
步骤S22,半可信第三方与第二个数据拥有者P2对网络进行更新。
半可信第三方利用N1和计算出的属性间互信息,采用关联强度感知的边界构造方法构建边界。
P2统计边界内所有属性及其父节点的边际分布并发送给半可信第三方,半可信第三方将其与P1的统计结果累加。为了满足差分隐私保护要求,P2需在统计的边际分布中加入Laplace噪音。为了提高边际分布的数据效用,P1、P2和半可信第三方利用安全功能评估协议去除边际分布中P1生成的Laplace噪音,只保留P2生成的噪音。
半可信第三方利用指数机制在边界范围内为每个属性选取父节点得到贝叶斯网络结构N2
步骤S23,半可信第三方与数据拥有者P3,…PK对网络进行更新直至得到最终的贝叶斯网络结构NK(即实际贝叶斯网络结构)。
可选地,发布单元包括:处理模块,用于将各个属性在给定父节点条件下的实际条件分布的乘积作为所有属性的联合分布;发布模块,用于发布由联合分布生成的对应于所有属性的数据。
在上述实施例中,提供了一种实现满足差分隐私的多方数据发布的装置,能够在保护用户隐私的前提下帮助用户充分分析和挖掘数据中的价值,为业务推广和科学研究提供更多依据。运用数据隐私领域领先的差分隐私模型在多方数据联合发布过程为各数据拥有者的数据提供ε-差分隐私保护,可以保障用户的隐私,提供更安全的数据发布策略;采用串行的贝叶斯网络更新机制,并结合无重叠属性划分方法和最优多方Laplace机制,从而在各数据拥有者的数据满足ε-差分隐私的条件下,最大程度地减少噪音的加入,使得发布的数据的效用得到提升,保证整体数据服务的质量;采用串行更新机制并结合关联强度感知的边界构造方法,对数据拥有者和半可信第三方之间传递的信息量进行合理的限制,从而在综合利用各方数据提供高质量服务的同时,减少通信开销,降低大数据环境下数据服务的成本。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;
S2,学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;
S3,利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S4,获取属性集合中任意两个属性的第一互信息;
S5,通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用目标贝叶斯网络结构发布对应于属性集合中所有属性的数据。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取属性集合中任意两个属性的第一互信息;通过第一互信息对初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (23)

1.一种数据发布方法,其特征在于,包括:
更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;
学习所述实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;
利用所述目标贝叶斯网络结构发布对应于所述属性集合中所有属性的数据;
其中,在更新与数据的属性集合对应的初始贝叶斯网络结构之前,所述方法还包括:
获取包括所述属性集合中所有属性的父子节点关系的所述初始贝叶斯网络结构,其中,所述父子节点关系由多个对象基于指定方式确定;
其中,所述指定方式用于指示按照如下方式确定所述父子节点关系:
多个所述对象中的第一对象将所述属性集合划分为第一集合和第二集合,其中,所述第一集合用于保存已经确定父节点的属性,所述第一集合的初始状态为空,所述第二集合用于保存未确定父节点的属性;
所述第一对象从所述第二集合中选取一个属性保存至所述第一集合;
多个所述对象中的第i对象按照预设方式为所述第二集合中第一预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合,其中,i为小于k的正整数,k为多个所述对象的数量;
多个所述对象中的第k对象按照所述预设方式为所述第二集合中第二预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合。
2.根据权利要求1所述的方法,其特征在于,更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构包括:
获取所述属性集合中任意两个属性的第一互信息;
通过所述第一互信息对所述初始贝叶斯网络结构进行串行更新,得到更新后的所述实际贝叶斯网络结构。
3.根据权利要求2所述的方法,其特征在于,获取所述属性集合中任意两个属性的第一互信息包括:
将所述属性集合划分为多个视图,其中,每个所述视图包括所述属性集合中的部分属性;
利用最优多方拉普拉斯机制将对应于每个所述视图的多个边际分布合并为每个所述视图的实际边际分布,其中,所述实际边际分布中携带有拉普拉斯噪音;
利用每个所述视图的实际边际分布计算每个所述视图中任意两个属性的第一互信息。
4.根据权利要求3所述的方法,其特征在于,将所述属性集合划分为多个视图包括:
采用无重叠属性划分方法将所述属性集合划分为多个所述视图,其中,任意两个所述视图所包括的属性对不重叠,所述属性对包括所述属性集合中的两个属性。
5.根据权利要求3或4所述的方法,其特征在于,利用最优多方拉普拉斯机制将对应于每个所述视图的多个边际分布合并为每个所述视图的实际边际分布包括:
获取基于多个对象中每个所述对象拥有的数据计算得到的每个所述视图的边际分布,其中,所述边际分布中添加有拉普拉斯噪音;
将多个所述对象的多个所述边际分布合并为每个所述视图的实际边际分布,并将多个所述边际分布携带的多个拉普拉斯噪音中的最小噪音作为所述实际边际分布的拉普拉斯噪音。
6.根据权利要求1所述的方法,其特征在于,所述预设方式包括:
获取所述第一集合中各个第一属性与第二属性的第二互信息,其中,所述第二属性为从所述第二集合中选取的属性;
使用指数机制从多个所述第二互信息中选取出目标互信息,将与所述目标互信息对应的第一属性作为所述第二属性的父节点。
7.根据权利要求2所述的方法,其特征在于,通过所述第一互信息对所述初始贝叶斯网络结构进行串行更新,得到更新后的实际贝叶斯网络结构包括:
对所述初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;
对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;
对第k-1贝叶斯网络结构进行更新,得到所述实际贝叶斯网络结构。
8.根据权利要求7所述的方法,其特征在于,对所述初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构包括:
利用所述第一互信息,采用关联强度感知的边界构造方法构建所述初始贝叶斯网络结构的第一边界;
获取多个对象中的第一对象统计的所述第一边界内属性及该属性的父节点的第一边际分布,其中,所述第一边际分布中携带有拉普拉斯噪音;
利用指数机制为所述第一边界内的每个属性选取父节点,得到更新后的所述第一贝叶斯网络结构。
9.根据权利要求7所述的方法,其特征在于,对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构包括:
利用所述第一互信息,采用关联强度感知的边界构造方法构建第j-1贝叶斯网络结构的第j边界;
获取多个对象中第j对象统计的所述第j边界内属性及该属性的父节点的第j边际分布,其中,所述第j边际分布中携带有拉普拉斯噪音;
利用指数机制为所述第j边界内的每个属性选取父节点,得到更新后的所述第j贝叶斯网络结构。
10.根据权利要求1所述的方法,其特征在于,学习所述实际贝叶斯网络结构中的参数包括:
获取多个对象中每个所述对象确定的所述实际贝叶斯网络结构中任一属性和所述任一属性的父节点的条件分布;
利用最优多方拉普拉斯机制将获取到的多个所述条件分布合并为所述任一属性和所述任一属性的父节点的实际条件分布,其中,所述实际条件分布中携带有拉普拉斯噪音。
11.根据权利要求1所述的方法,其特征在于,利用所述目标贝叶斯网络结构发布对应于所述属性集合中所有属性的数据包括:
将各个所述属性在给定父节点条件下的实际条件分布的乘积作为所有所述属性的联合分布;
发布由所述联合分布生成的对应于所有所述属性的数据。
12.一种数据发布装置,其特征在于,包括:
更新单元,用于更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;
学习单元,用于学习所述实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;
发布单元,用于利用所述目标贝叶斯网络结构发布对应于所述属性集合中所有属性的数据;
其中,所述更新单元还包括:
第二获取模块,用于获取包括所述属性集合中所有属性的父子节点关系的所述初始贝叶斯网络结构,其中,所述父子节点关系由多个对象基于指定方式确定;
其中,所述指定方式用于指示按照如下方式确定所述父子节点关系:
多个所述对象中的第一对象将所述属性集合划分为第一集合和第二集合,其中,所述第一集合用于保存已经确定父节点的属性,所述第一集合的初始状态为空,所述第二集合用于保存未确定父节点的属性;
所述第一对象从所述第二集合中选取一个属性保存至所述第一集合;
多个所述对象中的第i对象按照预设方式为所述第二集合中第一预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合,其中,i为小于k的正整数,k为多个所述对象的数量;
多个所述对象中的第k对象按照所述预设方式为所述第二集合中第二预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合。
13.根据权利要求12所述的装置,其特征在于,所述更新单元包括:
第一获取模块,用于获取所述属性集合中任意两个属性的第一互信息;
更新模块,用于通过所述第一互信息对所述初始贝叶斯网络结构进行串行更新,得到更新后的所述实际贝叶斯网络结构。
14.根据权利要求13所述的装置,其特征在于,所述第一获取模块包括:
划分子模块,用于将所述属性集合划分为多个视图,其中,每个所述视图包括所述属性集合中的部分属性;
合并子模块,用于利用最优多方拉普拉斯机制将对应于每个所述视图的多个边际分布合并为每个所述视图的实际边际分布,其中,所述实际边际分布中携带有拉普拉斯噪音;
计算子模块,用于利用每个所述视图的实际边际分布计算每个所述视图中任意两个属性的第一互信息。
15.根据权利要求14所述的装置,其特征在于,所述划分子模块还用于采用无重叠属性划分装置将所述属性集合划分为多个所述视图,其中,任意两个所述视图所包括的属性对不重叠,所述属性对包括所述属性集合中的两个属性。
16.根据权利要求14或15所述的装置,其特征在于,所述合并子模块还用于:
获取基于多个对象中每个所述对象拥有的数据计算得到的每个所述视图的边际分布,其中,所述边际分布中添加有拉普拉斯噪音;
将多个所述对象的多个所述边际分布合并为每个所述视图的实际边际分布,并将多个所述边际分布携带的多个拉普拉斯噪音中的最小噪音作为所述实际边际分布的拉普拉斯噪音。
17.根据权利要求13所述的装置,其特征在于,所述更新模块包括:
第一更新子模块,用于对所述初始贝叶斯网络结构进行更新,得到更新后的第一贝叶斯网络结构;
第二更新子模块,用于对第j-1贝叶斯网络结构进行更新,得到更新后的第j贝叶斯网络结构,其中,j为大于1且小于k的正整数;
第三更新子模块,用于对第k-1贝叶斯网络结构进行更新,得到所述实际贝叶斯网络结构。
18.根据权利要求17所述的装置,其特征在于,所述第一更新子模块还用于:
利用所述第一互信息,采用关联强度感知的边界构造装置构建所述初始贝叶斯网络结构的第一边界;
获取多个对象中的第一对象统计的所述第一边界内属性及该属性的父节点的第一边际分布,其中,所述第一边际分布中携带有拉普拉斯噪音;
利用指数机制为所述第一边界内的每个属性选取父节点,得到更新后的所述第一贝叶斯网络结构。
19.根据权利要求17所述的装置,其特征在于,所述第一更新子模块还用于:
利用所述第一互信息,采用关联强度感知的边界构造装置构建第j-1贝叶斯网络结构的第j边界;
获取多个对象中第j对象统计的所述第j边界内属性及该属性的父节点的第j边际分布,其中,所述第j边际分布中携带有拉普拉斯噪音;
利用指数机制为所述第j边界内的每个属性选取父节点,得到更新后的所述第j贝叶斯网络结构。
20.根据权利要求12所述的装置,其特征在于,所述学习单元包括:
第三获取模块,用于获取多个对象中每个所述对象确定的所述实际贝叶斯网络结构中任一属性和所述任一属性的父节点的条件分布;
合并模块,用于利用最优多方拉普拉斯机制将获取到的多个所述条件分布合并为所述任一属性和所述任一属性的父节点的实际条件分布,其中,所述实际条件分布中携带有拉普拉斯噪音。
21.根据权利要求12所述的装置,其特征在于,所述发布单元包括:
处理模块,用于将各个所述属性在给定父节点条件下的实际条件分布的乘积作为所有所述属性的联合分布;
发布模块,用于发布由所述联合分布生成的对应于所有所述属性的数据。
22.一种终端,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
用于根据所述处理器的控制进行信息收发通信的传输装置;
其中,所述处理器用于执行以下操作:更新与数据的属性集合对应的初始贝叶斯网络结构,得到更新后的实际贝叶斯网络结构;学习所述实际贝叶斯网络结构中的参数,得到目标贝叶斯网络结构;利用所述目标贝叶斯网络结构发布对应于所述属性集合中所有属性的数据;
其中,所述处理器还用于获取包括所述属性集合中所有属性的父子节点关系的所述初始贝叶斯网络结构,其中,所述父子节点关系由多个对象基于指定方式确定;
其中,所述指定方式用于指示按照如下方式确定所述父子节点关系:
多个所述对象中的第一对象将所述属性集合划分为第一集合和第二集合,其中,所述第一集合用于保存已经确定父节点的属性,所述第一集合的初始状态为空,所述第二集合用于保存未确定父节点的属性;
所述第一对象从所述第二集合中选取一个属性保存至所述第一集合;
多个所述对象中的第i对象按照预设方式为所述第二集合中第一预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合,其中,i为小于k的正整数,k为多个所述对象的数量;
多个所述对象中的第k对象按照所述预设方式为所述第二集合中第二预设数量的属性确定父节点,并将确定了父节点的属性从所述第二集合迁移至所述第一集合。
23.根据权利要求22所述的终端,其特征在于,所述处理器还用于执行以下操作:获取所述属性集合中任意两个属性的第一互信息;通过所述第一互信息对所述初始贝叶斯网络结构进行串行更新,得到更新后的所述实际贝叶斯网络结构。
CN201610957969.7A 2016-10-27 2016-10-27 数据发布方法和装置及终端 Active CN108009437B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610957969.7A CN108009437B (zh) 2016-10-27 2016-10-27 数据发布方法和装置及终端
PCT/CN2017/099042 WO2018076916A1 (zh) 2016-10-27 2017-08-25 数据发布方法和装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610957969.7A CN108009437B (zh) 2016-10-27 2016-10-27 数据发布方法和装置及终端

Publications (2)

Publication Number Publication Date
CN108009437A CN108009437A (zh) 2018-05-08
CN108009437B true CN108009437B (zh) 2022-11-22

Family

ID=62024310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610957969.7A Active CN108009437B (zh) 2016-10-27 2016-10-27 数据发布方法和装置及终端

Country Status (2)

Country Link
CN (1) CN108009437B (zh)
WO (1) WO2018076916A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959956B (zh) * 2018-06-07 2021-06-22 广西师范大学 基于贝叶斯网络的差分隐私数据发布方法
CN110610098B (zh) * 2018-06-14 2023-05-30 中兴通讯股份有限公司 数据集生成方法及装置
CN111144888B (zh) * 2019-12-24 2022-08-02 安徽大学 一种差分隐私保护的移动群智感知任务分配方法
CN113111383B (zh) * 2021-04-21 2022-05-20 山东大学 一种垂直分割数据的个性化差分隐私保护方法及系统
CN115329898B (zh) * 2022-10-10 2023-01-24 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的多属性数据发布方法及系统
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011016281A2 (ja) * 2009-08-06 2011-02-10 株式会社シーエーシー ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
CN104869126A (zh) * 2015-06-19 2015-08-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法
CN105046559A (zh) * 2015-09-10 2015-11-11 河海大学 一种基于贝叶斯网络和互信息的客户信用评分方法
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105006119B (zh) * 2015-06-30 2017-12-29 中国寰球工程公司 一种基于贝叶斯网络的报警系统优化方法
CN104950808B (zh) * 2015-07-20 2017-05-10 攀枝花学院 基于加强朴素贝叶斯网络的机床热误差补偿方法
CN105608388B (zh) * 2015-09-24 2017-02-22 武汉大学 一种基于相关性去除的差分隐私数据发布方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011016281A2 (ja) * 2009-08-06 2011-02-10 株式会社シーエーシー ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
CN104869126A (zh) * 2015-06-19 2015-08-26 中国人民解放军61599部队计算所 一种网络入侵异常检测方法
CN105046559A (zh) * 2015-09-10 2015-11-11 河海大学 一种基于贝叶斯网络和互信息的客户信用评分方法
CN105512247A (zh) * 2015-11-30 2016-04-20 上海交通大学 基于一致性特征的非交互式差分隐私发布模型的优化方法

Also Published As

Publication number Publication date
CN108009437A (zh) 2018-05-08
WO2018076916A1 (zh) 2018-05-03

Similar Documents

Publication Publication Date Title
CN108009437B (zh) 数据发布方法和装置及终端
Gai et al. Optimal resource allocation using reinforcement learning for IoT content-centric services
Tsai et al. Bat algorithm inspired algorithm for solving numerical optimization problems
Deli Interval-valued neutrosophic soft sets and its decision making
Wieland et al. On topology and dynamics of consensus among linear high-order agents
Nie et al. Existence and global stability of equilibrium point for delayed competitive neural networks with discontinuous activation functions
Yu et al. A node deployment algorithm based on van der Waals force in wireless sensor networks
TW202123118A (zh) 基於隱私保護的關係網路構建方法及裝置
Vasa et al. Deep learning: Differential privacy preservation in the era of big data
Sommer et al. Comparison of graph node distances on clustering tasks
US20190180193A1 (en) Accurate and interpretable rules for user segmentation
Fulginei et al. Metric-topological–evolutionary optimization
Chu et al. Adaptive consensus tracking for linear multi-agent systems with input saturation
Cupertino et al. Data clustering using controlled consensus in complex networks
Tran et al. Evaluating the agility of adaptive command and control networks from a cyber complex adaptive systems perspective
Tao et al. An efficient method for network security situation assessment
Huang et al. Scale-free topology optimization for software-defined wireless sensor networks: A cyber-physical system
Wu et al. An ensemble of random decision trees with local differential privacy in edge computing
Nguyen et al. Load balancing for mitigating hotspot problem in wireless sensor network based on enhanced diversity pollen
Wang RETRACTED: Path planning for unmanned wheeled robot based on improved ant colony optimization
Omer et al. Privacy-preserving of SVM over vertically partitioned with imputing missing data
Mehmood et al. Adaptive cutoff distance: Clustering by fast search and find of density peaks
Shah-Hosseini Improving K-means clustering algorithm with the intelligent water drops (IWD) algorithm
Park et al. On the power of gradual network alignment using dual-perception similarities
Du et al. An improved density peaks clustering algorithm by automatic determination of cluster centres

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant