CN112822004A

CN112822004A - 一种基于信念网络的靶向型隐私保护数据发布方法

Info

Publication number: CN112822004A
Application number: CN202110050995.2A
Authority: CN
Inventors: 周志刚; 白增亮; 苗钧重; 余翔湛
Original assignee: Shanxi University of Finance and Economics
Current assignee: Shanxi University of Finance and Economics
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-18
Anticipated expiration: 2041-01-14
Also published as: CN112822004B

Abstract

本发明数据发布领域，具体涉及一种基于信念网络的靶向型隐私保护数据发布方法。针对以知识挖掘为目标的大数据多源增量发布场景中对数据可用性与隐私保护的协同优化问题，提出一种基于信念网络的靶向型隐私保护数据发布方法，代替发布原始数据，通过抽样、生成、转换等操作发布符合隐私‑效用的信念网络，在解决个体数据隐私泄露的同时极大地提升了数据共享的效率；为防范敌手通过滥用知识挖掘技术对隐私信息的过度分析以及通过异源数据的印证攻击，提出(d，l)‑privacy隐私保护架构，柔性地化解了隐私保护强度的提升对数据可用性的影响，并通过来自多个应用域的4个公开数据集来实证该方法的有效性。

Description

一种基于信念网络的靶向型隐私保护数据发布方法

技术领域

本发明数据发布领域，具体涉及一种基于信念网络的靶向型隐私保护数据发布方法。

背景技术

随着“互联网+”行动计划的稳步实施，将云计算、物联网、人工智能等新型技术与各行各业结合起来，极大地撬动了以“大数据分析、内容咨询服务”为核心的巨量市场。在合作共赢、共享经济的大背景下，产业链上下游企业通过数据共享，分析产品从原料购进到销售的各个环节，能够有效减小产能过剩的风险；不同产业的公司也可以通过信息发布与共享的方式展开多元化产业合作，从而减缓单一领域产品受市场周期变化的冲击。尽管数据融合分析可以为企业提供竞争优势，但据研究机构Gartner对144名全球知名企业首席审计主管的调查显示，随着企业间的信息共享，数据分析的安全风险正在加剧，70％的受访者表示为避免隐私泄露所带来的负面影响，如何保护数据隐私是各方最关注的问题。

隐私保护的数据发布[1](Privacy-Preserving Data Publishing，简称PPDP)作为数据挖掘技术从数据中安全、合法依规提取知识的必要技术前件，在过去几十年中受到相当大的关注。PPDP可以归约为隐私挖掘与敏感信息匿名化的博弈：假设目标对象T具有一组信息属性和一个敏感属性，其中信息属性值A^I为可公开属性(又称为信息属性)，而敏感属性值A^S(又称为隐私属性)需要被匿名处理。在数据发布的过程中要求确保没有人可以根据发布的匿名数据以高于阈值的概率猜测出由可公开属性A^I到敏感属性A^S的映射关系。在大数据场景中，PPDP的内涵得到了扩展。由于数据发布的目标是分析数据分布、探索数据之间的关系以及挖掘隐藏在大数据中的新知识，因此，其中所包含的敏感统计信息(下称为宏隐私，相应地，称个人敏感信息为微隐私)也需要进行相应的匿名化处理。

多源数据安全融合以隐私保护作为合作基础，打破信息孤岛的壁垒，在更广泛数据集上挖掘知识产生协同，并最终按需实现有限开放的信息共享。纵观国内外文献，可以从隐私度量指标、隐私计算和面向多源数据融合的隐私保护技术3个方面进行梳理。

k-匿名(k-anonymity)要求对所发布的数据中的每一条记录至少存在其它k-1条不能与之区分的记录。其中，k作为“匿名度”直接表征了目标数据被保护程度的强弱。康奈尔大学的Machanavajjhala等人提出

多样性(1-diversity)，该策略在k匿名的标准下限制每一个由信息属性划分的等价类中所对应的敏感属性至少包含

个不同的值。为了实现上述数据匿名策略，数据发布方通常采用数据泛化、插入噪声数据、数据分割这三类方法对数据进行处理。然而，伪装的数据需要“精心”设计，正如敌手可以以发布的宏观统计数据为背景知识，通过基于统计推理的攻击消除添加的伪数据。

此外，从k-匿名到

多样化性再到其后演化的诸多变种都围绕弥补k匿名无力对抗背景知识攻击来展开。对此，与之并行的差分隐私方案成为一个新的突破点。Dwork等人提出基于ε-差分隐私(ε-differential privacy)的隐私保护方案，其对数据隐私的保护与攻击者掌握的背景知识无关。该准则利用指定参数ε表征添加噪声的程度，遗憾的是，在面对高维稀疏数据时，差分隐私已被证明将严重的降低数据可用性。为了防止统计推测攻击，普渡大学和AT&T实验室的李宁辉等人提出t-相近性(t-Closeness)原则，在

多样化的基础上，考虑了敏感属性值的分布问题，该策略将t作为“相近程度”的距离度量，表征在匿名数据中，敏感属性值的分布与整体大数据中该属性值分布的相近程度。

针对大数据增量发布的特性，Byun等人首次提出一种支持数据增量发布的匿名准则[10]，使得在多次发布后不同版本的数据集仍满足

diversity隐私保护准则，敌手无法结合历史版本数据进行对隐私的细化分析与推理。为了满足在现实场景中对历史数据集的删除操作，Xiao等人提出m-不变性(m-invariance)，该策略旨在消除不同数据发布版本间的推理通道，通过添加伪用户记录，使得对于任意一条真实的用户记录所在的等价类在累次发布版本中具有相同的敏感属性集合。Bu等人提出HD-composition匿名准则，该策略支持数据重发布时对历史数据版本的修改操作，其将敏感属性分为常量属性和可变属性，若用户记录在待发布的数据集中出现变化，则重构匿名组，使得待发布的数据集依然满足先前的匿名准则。

在大数据多源融合的场景中，不同的数据拥有者对数据实施不同的隐私保护策略，策略间所依据的隐私保护准则和评价标准也各异，如何对其进行统一的度量成为众多研究人员关注的热点问题。其中，中国科技大学李向阳等人提出基于图结构的隐私刻画方法，将数据中隐私和可用性的度量量化地划归为图中顶点间的各种连接关系。李宁辉等人利用随机抽样的统计理论，提出了一种安全的k-匿名算法，使得匿名后的数据集满足差分隐私的测度。中国科学院信息工程研究所李凤华等人首次提出隐私计算的概念，并将隐私计算模型描述为隐私度量I、隐私保护复杂性代价E、隐私保护效果G以及隐私泄露收益损失比C四个量之间的关系。方滨兴等人将隐私普适地刻画为：隐私＝(信息本体+属性)×时间×地点×使用对象。

Mohammed等人基于分类树结构使用数据泛化技术实现数据融合各方的数据隐私保护，但融合后数据的信息损失较高，具体的信息损失度与数据集相关。Jiang等人提出一种可追责计算框架，该框架可以实现数据融合的各方相互验证。扩展研究意在为不同的集成数据挖掘任务设计安全协议，然而这些方法的计算开销过于昂贵。

针对云平台的大数据隐私保护技术，Foresti等人通过定义机密限制和属性可见请求分割数据集并采用分组匿名的方式保护数据隐私，但需要应用领域专家事先建立属性约束规则集。李庆忠等人提出(k，α，β，γ)-隐私保护机制，通过定义属性集合的隐私约束对数据进行垂直分割，使每一个数据分块中的属性都不会导致数据组合隐私泄露，并引入(α，β，γ)3个层次的组合均衡化概念，确保每个数据分块物理存储中各种数据切片出现的概率尽可能的平均，从而保护数据隐私，但属性隐私约束集的构建需要领域专家的指导，且伪数据的生成、识别和混淆数据的重构都需要在可信第三方的协作下完成。

Wang等人借助语义层级树，通过将数量不及匿名需求的记录项进行语义泛化，以使得其在更为宽泛的语义下实现k-匿名。然而，记录项泛化技术的使用造成不可逆的信息损失，且对高维稀疏数据使用k-匿名准则将使得数据的可用性大幅降低。由于差分隐私具有很好的抗背景知识攻击的特性，香港浸会大学的陈睿等人分别通过数据分割及噪声机制使得变换后的数据集满足非交互型ε_-差分隐私，然而在高维稀疏数据环境下，非交互差分隐私机制的实现依然会大幅降低数据可用性。为此，Fung等人另辟蹊径，提出(h，k，p)-coherence作为集值数据的匿名准则，该准则确保任意p个记录项的组合都是非敏感的，这些记录项在数据集中对应的记录数均不少于k，且在整个数据集中至多含有h％的记录保护敏感记录项。He等人借助语义层级树，通过将数量不及匿名需求的记录项进行语义泛化，以使得记录项在更为宽泛的语义下实现k^m-匿名。然而，记录项泛化技术的使用造成不可逆的信息损失。Anatomy针对记录与其背后用户的关联识别问题，引入

多样性的概念，同时为防止信息因泛化产生不可逆的信息损失，在其工作中采用数据分割策略，使得每个数据块中的记录项在满足k-匿名的同时实现记录项的多样化。在Anatomy的基础上，Terrovitis等人提出基于k^m-匿名的迭代式数据分割策略，每一轮选取一个记录项作为目标对象，插入到已有的数据块中并保证该数据块维持k^m-匿名，若不存在这样的数据块，则为该记录项所对应的记录集划分一个新的数据块。然而，该策略中数据块最终被划分的数量与候选记录项列表的顺序密切相关，在现实需求中难以保障数据被最小化分割。在已有研究中，多方安全匿名技术为多方数据融合提供了数据隐私保证，但已知的这些方法的计算开销过大，以至于难以在实际场景中应用。

为了防范在大数据分析过程中可能出现的宏隐私泄露问题，Zhou等人基于模糊概念格提出表示粒度数据信息层次结构的多粒度访问控制策略，但该策略无法解决增量数据发布引起的信念推理攻击。文献[32-34]提出隐私保护的生成式对抗网络，尝试在生成的仿真数据集上实施差分隐私技术，进而实现对宏隐私的保护，然而这些策略没有考虑信息属性与敏感属性间的推演关系，导致隐私保护不具有靶向性，数据的可用性大幅降低。对于以数据挖掘为目的的仿真数据发布任务，如何提升对敏感信息的靶向保护能力仍是一个开放性问题。

发明内容

本发明提出了一种基于信念网络的靶向型隐私保护数据发布策略(A TargetedPrivacy Protection Data Publishing Method Based on Belief Network，下称为TPBN)，旨在针对数据发布对宏隐私信息的挖掘与泄露问题，构建同模态生成数据的隐私保护模式。现有的隐私保护策略大多可以视为一系列对原数据的“修正”操作。与这类策略不同，代替发布原数据，TPBN转而寻求原数据的同模态生成数据作为待发布数据源，进而从根本上解决了微隐私泄露问题。以信念网络作为原数据的模态，TPBN通过生成、编码、匿名等操作发布符合隐私保护与数据挖掘需求的信念网络。TPBN由两个关键部分组成：其一，TPBN将数据发布问题转换为信念网络的生成过程，采用增加样本量的对抗学习策略实现生成信念网络与真实信念网络的逼近。其二，提出了一个“隐私-效用”评估算法，使得TPBN能够量化不同隐私操作、策略对数据可用性的影响。为实现在执行隐私策略的同时减少对数据可用性的影响，TPBN的关键思想是在生成的信念网络中寻找一系列属性节点，以便进行靶向性的扰动注入。由于寻求最优的扰动注入方案是NP完全问题，本发明设计了一个启发式算法，能够有效地计算一个接近最优解的解决方案。该启发式算法通过辨识矩阵来查找与敏感信息最相关的属性序列，将其作为目标，根据

privacy机制注入扰动。此外，本发明探索并扩展了“数据重发布”的问题。大多数现有解决方案通常假定数据属性集在连续数据增量发布版本中保持不变，例如m-invariance。本发明剔除该假设，将原问题扩展为现实世界中的多源数据融合问题，并提出基于n-order多网络融合的隐私保护机制。

为了达到上述目的，本发明采用了下列技术方案：

信念网络：

考虑从数据集D＝{D₁，...，D_n}中学习信念网络结构，包括m个随机变量集是x＝{X₁，...，X_m}。假设变量是分类变量(即变量的状态数有限)并且数据集是完整的。信念网络构造算法的目标是通过定义每个变量的父项集Π₁，...Π_m在节点集x上找到得分最高的有向无环图(Directed Acyclic Graph，DAG)G。通过假定Markov条件，会引入联合概率分布：每个变量在给定其父变量的情况下都在条件上独立于其非后代变量。

对于对生成DAG质量的评估，可以使用不同的评分函数，在本文中，我们采用Bayesian Information Criterion(BIC)，其与DAG的后验概率的乘数成正比。BIC是可分解的，由每个变量及其父节点集合的分数之和构成：

其中，LL(X_i|Π_i)表示X_i与其父节点集合Π_i的对数似然函数：

Pen(X_i|Π_i)表示X_i与其父节点集合Π_i的复杂度惩罚函数：

其中，

是条件概率P(X_i＝x|Π_i＝π)的极大似然估计，N_x，π表示(X＝x|Π_i＝π)在数据集中出现的次数，|·|表示给出变量的笛卡尔积空间的大小。

基于爬山法的信念网络结构生成方法：

本发明使用爬山法生成相应数据的信念网络，主要步骤如下所示：

1)初始化信念网络，将数据的属性设置为信念网络中的节点，并令边集为空；

2)每一轮对信念网络尝试一个单位操作(包括添加、删除、翻转一条边)，并计算实施该操作后信念网络的BIC评分；

3)比较当前信念网络在实施操作前后BIC评分的变化，若后者的BIC评分更大，则对信念网络实施该操作，并迭代执行步骤2)；否则，算法结束。

需要说明的是，“翻转边”操作不能简单地看成＜删除一条边，添加一条与前一操作方向相反的边＞的序列操作。由于算法采用贪心策略，删除边操作可能使得信念网络的BIC评分降低，程序提前终止，进而导致添加相应的翻转边操作无法实施。

辨识矩阵：

为了简化描述，首先形式化地定义数据源所拥有的数据集为一个四元组T(X，A^I，F，A^S)。其中，X为数据记录集，即X＝{x₁，x₂，...，x_n}，每个x_i对应一条用户记录信息；A^I为信息属性集A^I＝{a₁，a₂，...，a_m}；A^S为敏感属性；F为X和A之间的关系集F＝{f_k：U→V_k}，V_k为a_k的值域，A＝A^I∪A^S。

定义1：等价类：在T(X，A^I，F，A^S)上，对于

记R_B＝{(x_i，x_j)|f_k(x_i)＝f_k(x_j)(a_k∈B)}，R_B是X上的等价类。

定义2：辨识矩阵：T(X，A^I，F，A^S)为信息系统，记

D([x_i]A，[x_j]_A)＝{a_k∈A|f_k(x_i)≠f_k(x_j)}，称D([x_i]_A，[x_j]_A)为[x_i]_A与[x_j]_A的属性辨识集。称D＝{D([x_i]_A，[x_j]_A)|[x_i]_A，[x_j]_A∈X/R_A}为属性辨识矩阵。辨识矩阵是辨识集的全体，辨识集中的元素用于区别不同等价类的各种属性。特别地，针对敏感属性S，

为基于敏感属性S的辨识矩阵。

系统模型：

TPBN的架构如图1所示，涉及三种类型的实体：数据所有者、数据平台和数据使用者(即用户)。其中，数据所有者可以是某个企业，具有大量数据存储在数据平台中。为了保护数据中所隐藏的微隐私，在发布数据前，需要构建基于原数据的信念网络，并将其应用于数据平台的数据收集阶段，通过该信念网络生成原数据的同模态数据，即以信念网络为参照，数据具有相同的概率分布。此外，数据平台将根据不同的用户查询请求对生成的信念网络进行隐私匿名化处理。为了初始化服务，数据所有者将为授权用户制定一组预定义的隐私策略。这里，我们假设数据所有者和用户之间的授权在应用初始化时已经完成。授权用户将数据查询(如SQL)提交到数据平台。后者通过信念网络执行搜索，并返回满足相应隐私策略的子网络。

隐私&威胁模型：

何为隐私是PPDP所要解决的首要问题。给定待发布的数据集T(X，A^I，F，A^S)，已有的工作通常假设

x_i代表用户u_i的记录信息，其中u_i的敏感信息记为<u_id-i，v_{s_}i>(u_id-i为u_i的ID标识符，v_{s_}i表示u_i在敏感属性所对应的值)，若敌手能够通过数据集T以高于阈值p的概率建立某个信息属性值序列到用户u_i敏感信息的映射(记为

则该用户的隐私信息因数据发布而泄露。本文将这种与个体用户相对应的隐私称为“微隐私”。然而在大数据场景中，敏感信息不再局限于隐藏在待发布数据集中的个人隐私，随着各种数据挖掘技术在大数据分析中的应用，其内涵已扩展到数据中所隐藏的商业机密、甚至更为主观的数据因人而异的粒度化呈现。相应地，PPDP技术也从对微隐私的保护扩展到对商业机密等可从大数据中挖掘出的非个体敏感统计信息的保护，甚至敏感数据视图对不同角色粒度化的访问控制。本发明将对非个体敏感统计信息的保护称为“宏隐私”保护。

定义3：数据同模态：给定信息系统T₁(X，A^I，F，A^S)和T₂(Y，A^I，F，A^S)，若存在操作M，对于

使得对于

成立，则称X和Y在M操作下是同模态的。

定义4：宏隐私：宏隐私是一类敏感信息概率统计约束范式，指定了发布数据中由信息属性A^I到敏感属性A^S之间推理不确定度下限p。对于给定信息系统T(X，A^I，F，A^S)的匿名数据视图

敌手无法以高于p的精度获知原数据中信息属性A^I到敏感属性A^S的蕴含式。即：

其中，ε≥0，

M(X)为X同模态操作，

特别地，当给定ε，若目标隐私约束规则所支持的记录数等于1，则宏隐私等同于微隐私。

对于大数据发布的隐私保护问题，本发明将其归约为一个“重匿名”过程：如图1所示，首次数据匿名发生在数据拥有者将自身数据发送到数据平台(如云计算中心)的过程中，防止(非完全可信，honest-but-curious)数据平台对敏感信息的挖掘；重匿名发生在数据使用者从数据平台获取数据的过程中，由数据平台根据数据拥有者对数据使用者预设的访问控制规则，利用粒度化的访控机制返回相应的个性化数据视图。本发明聚焦于首次数据匿名过程的技术实现，对于重匿名提供粒度化访控技术，有兴趣的可参看文献。

定义5：同构攻击：同构攻击假设敌手具有与待发布数据相关的背景信息、前期累次发布的数据或它源数据等，并假设背景信息在结构和数据分布上与待发布数据具有相似性。通过将其与当前发布的匿名化数据进行差异化比对，敌手能够滤除或替换匿名数据中的突兀，进而降低数据匿名强度。

定义6：推理攻击：敌手对发布数据实施的推理攻击可以看作是对宏隐私保护的逆过程。敌手通过信息属性(值)对敏感属性(值)的关联/决策关系，构建由信息属性到敏感属性的推理链路，若该推理链路在概率上可辨识，则实现其对敏感属性的推理攻击。具体地，给定信息系统T(X，A^I，F，A^S)及可辨识阈值p，若

有{v_i，...v_j}使得

则称A^I对A^S具有p推理辨识。

一种基于信念网络的靶向型隐私保护数据发布方法，包括以下步骤：

步骤1，抗微隐私泄露的信念网络的生成策略：采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络；

步骤2，信念网络的层次结构编码：针对信念网络中非敏感属性节点所构成节点集合在信念网络中的相对位置，对其进行纵向编码和横向编码，通过编码来对个节点对信念网络的影响力进行排序；

步骤3，基于辨识矩阵的属性筛选：从信念网络采样数据，构建属性节点辨识矩阵，挖掘信念网络中非敏感属性节点所构成节点集合间相对于敏感属性节点概率分布的影响程度，并以此为依据对信念网络中非敏感属性节点所构成节点集合排序，借助辨识矩阵，提出一种以寻求属性差异贡献最大化作为启发式规则的贪心策略；

步骤4，

privacy隐私保护机制：综合信念网络中非敏感属性节点所构成节点集合排序及其编码信息，选出当前轮次对隐私属性节点数据概率分布影响最大且对全局网络影响最小的信念网络中非敏感属性节点所构成节点集合，并对其使用

privacy隐私保护机制进行匿名化保护，其中d表示对原信念网络的单位隐私保护操作次数，

表示所涉修改信息属性的最小个数且

步骤5，基于n-order多网络融合的隐私保护机制：以多个信念网络的公共节点为基节点集，构建n-order候选节点集，即以基节点集为中心，最短跳数n为半径的圆域节点作为候选节点集元素，然后以该n-order候选节点集为论域，构建相应的信念子网络，并将其替换原信念网络中对应的子网络。

进一步，所述步骤1中采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络，具体步骤为：

步骤1.1，通过对原数据分别进行抽样，应用基于爬山法的信念网络生成算法形成初代的辨识器J₁和生成器G₁；

步骤1.2，初代辨识器和生成器各自计算其相应信念网络的BIC评分，分别记为J₁_BIC、G₁_BIC；若W(J₁_BIC，G₁_BIC)＞ε，其中W(*)是对BIC评分设计的统计量，ε为差异阈值，ε＞0，或J₁_BIC＞G₁_BIC(产生对生成器采样数据的“过学习”现象)，则对生成器版本进行更新，通过自举法追加数据样本，以提升其信念网络的表示能力；反之，则以相似的方式更新辨识器的版本；通过对抗式学习迭代地更新辨识器和生成器，直至出现某代生成器G_k使得其在连续两次对抗学习中有W(J_h_BIC，G_k_BIC)≤ε且W(J_h+1BIC，G_kBIC)≤ε，终止迭代。

自举法是一种重采样加速，这里以此对采样过程进行加速：在实验中，采用自举法对源数据的初始采样量n^*远低于源数据的体量n(n^*/n≈1％)，极大地提升算法的效率。在对抗学习中，为了提高辨识器的权威性，初代辨识器和生成器对源数据的采样比应大于1(在本发明中，采样比为2)。

针对源数据X上信念网络的生成BIC评分操作Op，采用自举法从X中分别抽取样本JS和GS作为辨识器和生成器的初始样本，进而分别以JS和GS为论域进行k次和(h+1)次的有放回抽样{JS₁，...，JS_k}、{GS₁，...，GS_h，GS_h+1}。对这些样样本实施BIC评分操作，并通过对结果值的分布分析，评估其近似计算的相对误差。本文使用样本变异系数的相对误差(即W(*))来衡量样本的稳定性。下面引入三个统计量：变异系数(cv)、样本平均值(sm)和样本标准差(sd)，其中，

(其中，JS_cur为当前最新的辨识器版本)，

基于此，样本变异系数的相对误差w可以表示为：

结合(ε，δ)-度量准则，若w_i-1，i＞ε，则生成器下一轮迭代将被激发，计算w_i，i+1；直到在第j轮计算中w_j-1，j≤ε迭代过程终止，此时，称

是Op(X)的ε-approximate估计，其中，ε＝w_j-1，j。

定理1.给定两个数据集X和Y，且Y是X在Op操作下相对误差为ε且错误率δ＝0的同模态数据集，则称Op(Y)的结果满足B-差分隐私，当且仅当B＝ln(ε+1)。

证明.由已知条件得

即，事件

成立的概率为100％。由此可等价推出

或

整理得，

或

令Op(Y)和Op(X)的操作结果为O(O∈Range(Op))，则有

或

变换整理得

Pr[Op(Y)＝O]≤(ε+1)·Pr[Op(X)＝O]

或Pr[Op(Y)＝O]≥(1-ε)·Pr[Op(X)＝O]

根据差分隐私定义，有e^B＝ε+1，或e^B＝1-ε，即B＝ln(ε+1)，或B＝ln(1-ε)。又由于隐私预算B＞0且相对误差ε＞0，因此，B＝ln(1-ε)被舍弃。

需要说明的是，由于发布的是能产生与源数据同模态数据的信念网络，又根据定义1，证明所提方案满足隐私预算B＝ln(ε+1)的差分隐私保护能力，微隐私泄露问题得以量化解决。随着ε的增大，信念网络对源数据的表示能力将随之降低，进而实现对宏隐私的保护。然而由于该方案不具有靶向性，导致数据使用者对非敏感信息的统计分析精度也随之急剧下降。

进一步，所述步骤2中纵向编码包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段；

所述自底向上的编码阶段的具体步骤为：

步骤2.1，所有节点的层次结构最初标记为零，从叶节点开始连续标记，并逐步跟踪相应的父节点，在每个轮次中，当子节点的层次结构为q时，父节点的层次结构将标记为q+1；

步骤2.2，对于非叶节点仅记录当前最大编码，即若该节点的编码非0，则比较新的编码与原编码，保留大者，若两者相等，则停止对该节点的向上回溯，看叶节点队列是否为空，若为空，则停止；

步骤2.3，提取下一个叶节点进行标记，直到叶节点序列为空；

所述自顶向下的修正阶段的具体步骤为：

步骤3.1，按层次结构对所有节点进行从大到小的排序，并将所有节点编码初始化为未标记；

步骤3.2，提取节点序列中层次结构最大的未标记节点，并将该节点作为在广度上遍历图形的起点，逐级向下广度优先遍历，在每一轮中，当父节点的层次结构为q时，子节点的层次结构将标记为q-1；

步骤3.3，将q_old表示的节点的当前层次结构的数值大小与新派生的节点q_new表示的节点的数值大小进行比较，当q_old＜q_new时，将节点的层次结构设置为q_new，并将该节点设为已标记；当q_old＝q_new且该节点为已标记时，此节点的向下遍历将提前终止；

步骤3.4，将继续提取下一个未标记的节点，直到序列中没有未标记的节点。

由信念网络的性质可知，给定隐私节点X_S及其纵向编码X_S.L，在所有以隐私节点为链尾节点的链集合Links中，令X_i和X_j是Links中非X_S的任意两个节点，若X_i.L＜X_j.L，则在同等隐私保护粒度下，修正X_i的概率分布对全局数据可用性的影响更小。由此，形成规则1：

规则1.下贴近原则：该属性节点越向下贴近隐私属性越好。

进一步，所述步骤2中横向编码采用动态编码方式，且编码的范畴为纵向编码中的同层节点，所述动态编码是指该节点的横向编码与隐私节点的相对位置相关，且数据拥有者对不同用户所设定的隐私节点亦不相同，假设数据拥有者对用户的隐私限制已经设定，以纵向编码为基础，隐私节点p_s为目标对象，具体步骤如下：

步骤4.1，以纵向编码相同的节点集合X{X₁，X₂，...X_k}为论域，统计

的所有子孙节点数量，即以X_i节点为根节点，统计向下有向边直连和间接连的节点的数据，记为X_i.nodes；

步骤4.2，以隐私节点X_s为目标对象，计算

与X_s的最小连边数量，记为p_i.edgs；

步骤4.3，

的横向编码为α×X_i.nodes+β×X_i.edgs，其中α+β＝1。

节点的纵(横)向编码越小，优先级越高。需要说明的是，当进行节点选择时，首先比较候选节点的纵向编码，若纵向编码不同，则直接选取纵向编码较小的节点；否则比较纵向编码相同候选节点间的横向编码，最终选取横向编码最小的节点。

规则2.链端性原则：在属性链中，该属性节点下的节点数越少越好。

进一步，所述步骤3中启发式规则的贪心策略，具体步骤如下：

步骤5.1，首先以构建的信念系统T(X，A^I，F，A^S)为模板，生成n条与源数据同模态的数据集T′(Y，A^I，F，A^S)，仅针对敏感属性中的敏感值进行宏隐私保护，即在数据集Y中，将敏感属性AS中所有不含敏感值的记录从中删除，将剩余的数据集记为Y；

步骤5.2，对数据集T′(Y′，A^I，F，A^S)，构建相应的辨识矩阵D_S，将辨识矩阵及相应的下三角矩阵都记为D_S；由定义2可知，D_S是对称矩阵且主对角线项集为

因此，仅需关注D_S的下三角矩阵。为了简化符号，在不影响理解的情况下，将辨识矩阵及相应的下三角矩阵都记为D_S；

步骤5.3，构建辨识超图G(V，E)，其中，V为信息系统T′(Y′，A^I，F，A^S)中信息属性A^I所构成的顶点集合，E是超边的集合，每一条超边表示辨识矩阵D_S的一个项集；

步骤5.4，消解辨识超图，首先寻找所有的独立超边，其公式如下：

若存在独立超边e，则任取其上顶点作为代表节点，结合信念网络判断该节点到敏感属性节点的推理概率是否满足辨识阈值，若满足，则将所对应的顶点集以任意顺序形成一颗单分支树L结构，并将独立超边删除，否则，直接将该独立超边删除；然后迭代地从剩余辨识超图中选取隶属超边数量最多的超边，其公式如下：

将其所拥有的属性顶点作为兄弟节点尾接到L的所有叶节点，并删除所有含有候选集节点的超边，如此迭代，直至超图G(V，E)中不含有超边为止；

步骤5.5，L中从树根节点到每一个叶节点的路径形成一条信息属性到敏感属性的推理链，结合信念网络，计算L中节点间的关联概率，若推理链中边关联概率的乘积大于等于设定的辨识阈值，则称该推理链是可辨识的；否则，删除链尾节点，直至达到可辨识要求，将所有可辨识链路所形成的最长公共子链所包含的属性节点集称为核心信息属性集

L中所有非核心信息属性集所构成的属性集称为相对重要信息属性集

定理2.本发明提出的启发式属性筛选策略能够识别出所有由信息属性到敏感属性的可辨识推理路径。

证明.必要性：由定义2可知，辨识矩阵中的每个项集都从不同的侧面表征了两个信息等价类在敏感属性上形成差异的原因，且同一项集中的各个属性在原因表征上是等效的。所提启发式策略所形成的所有可辨识推理链中的节点皆来自于辨识矩阵，这种对敏感信息差异化的串行表征显然等效于对敏感信息的辨识。

充分性：通过反证法，假设存在可辨识链

即

根据可辨识的定义，

使得D_S([x_i]_A，[x_j]_A)＝{a_i}并且Pr(a_i→A^S)≥辨识阈值，则a_i必定隶属于辨识矩阵的某个项集。根据定义7，辨识超图是辨识矩阵的无损解析，即若a_i∈D_S，则a_i∈V。根据启发式策略步骤5.4，a_i必定属于某个独立超边或非独立超边。若a_i属于某个独立超边，则根据步骤5.4，a_i∈T，与假设矛盾；若a_i属于某个非独立超边，又

则Pr(a_i→A^S)＜辨识阈值，与Pr(a_i→A^S)≥辨识阈值产生矛盾，因此假设不成立。

从防范宏隐私挖掘的视角看，通过基于辨识矩阵筛选出敏感属性信息推理的可辨识推理路径，并结合信念网络纵(横)向编码，从而识别出目标属性节点，对该节点的匿名化操作可以在给定隐私保护预算的前提下，实现对敏感信息保护最大化，对信念网络生成数据可用性影响最小化的多目标优化平衡。但上述策略难以防范基于背景知识的攻击(如同构攻击)。为了进一步防范此类攻击，本文在上述隐私保护策略的基础上提出

privacy隐私保护机制。该机制主要是防止对某个核心信息属性的过度修改，其中d表示对原信念网络的单位隐私保护操作次数，

表示所涉修改信息属性的最小个数且

在实际应用中

往往由核心信息属性集的大小决定(在实验中，

)。由于隐私保护的粒度是事先设定的，通过调节参数d，可以确定单位操作对敏感信息的隐私保护强度。

对于相同的隐私保护粒度，

privacy算法涉及所要修改的节点概率分布更多，且对于核心属性不唯一的数据发布场景，该算法对同构攻击的防范效果往往更好。其中，

越大，在同等隐私保护粒度下，对同构攻击的防范能力越强，但对数据可用性的影响也相对越大。

对于隐私保护操作

本发明定义单位隐私保护操作，即将隐私预算进行d等分，每一轮仅对选定的一个属性节点的概率分布进行隐私保护，对于待进行隐私操作的属性

本发明实现了对属性值泛化、

closeness和

diversity三种隐私保护操作。

属性值泛化：根据领域专家或数据拥有者对属性设置的属性值层次树，将属性

值域中相近的值的概率分布进行融合。将属性

值域中待匿名保护的属性叶节点与其所有兄弟叶节点聚合为一个属性节点并由其直接父节点进行替换，该节点所对应的属性值概率分布继承自参与聚合的所有原叶节点；

closeness：将属性

值域空间中导致信息熵最大化的值分布情况定义为理论基准，使用方差进行度量，对属性

中各个值的概率分布进行修正，使得各值出现概率与理论基准的方差不高于

diversity：根据领域专家或数据拥有者对属性

值域范围的设定，对属性

在信念网络中的值域空间进行扩充，使得其值域空间中不同值的数量大于等于

修正后属性

中各值的概率分布根据信息熵最大化的修正原则，在每一轮修正的过程中，仅选择一个概率分布最大的值作为待修正的目标对象，将其高于均值的概率分布值平均分配给新增的属性值。

针对多版本数据的融合隐私保护需求，需要将其对应的多个信念网络进行融合，然而信念网络的精确融合需要考虑全局节点间的关联关系，即测试每个信念网络各个节点对其它信念网络各节点间是否存在关系边，这是一个时间复杂度为

的极其耗时的操作(其中，V_i表示信念网络H_i的顶点数，m为待融合数据的版本数量)。因此，本发明提出基于n-order的多网络融合隐私保护机制。

为了简化描述，这里以连续的两个发布版本数据的信念网络H₁和H₂融合为例，其中

为H_i所包含的节点集合，

为H_i所包含的边集合，F_i为

与

之间的关系集，即F_i：

基于n-order的多网络融合隐私保护机制以H₁和H₂的公共节点

为基节点集，构建n-order(n≥1)候选节点集，即以

为超点，若

使得p_i到

的最短跳数为n，则将p_i作为

的n-order候选节点集元素。然后以该n-order候选节点集为论域，构建相应的信念子网络，并将其替换原信念网络中对应的子网络。

与现有技术相比本发明具有以下优点：

1)TPBN代替发布源数据，转而发布能够产生与源数据同模态数据的信念网络，并在对抗学习过程中实现对发布数据的(ε，δ)-差分隐私保护能力。

2)设计了一种启发式算法，通过信念网络编码和基于辨识矩阵的属性筛选技术，实现“对敏感信息保护最大化，对信念网络生成数据可用性影响最小化”的多目标优化平衡。

3)提出

-privacy隐私保护机制，有效地防范同构攻击对宏隐私的逆匿名化，并将经典的三种对源数据实施的隐私保护策略(泛化、

diversity、t-closeness)移植到对信念网络的隐私保护。

4)采用来自多个应用域的4个公开数据集来评估TPBN。实验表明，TPBN能够为所有示例提供不同粒度的隐私保护能力，并同时提供较高的数据可用性。

附图说明

图1为TPBN的架构；

图2为本发明基于对抗式学习架构的信念网络生成模型；

图3为隐私保护操作对贝叶斯网络结构的影响；

图4为隐私保护业务对数据可用性的影响；

图5为采用1阶机制的多方数据融合对数据可用性的影响。

具体实施方式

步骤1，抗微隐私泄露的信念网络的生成策略：采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络(如图2所示)，具体步骤如下：

步骤1.2，初代辨识器和生成器各自计算其相应信念网络的BIC评分，分别记为J₁_BIC、G₁_BIC；若W(J₁_BIC，G₁_BIC)＞ε，其中W(*)是对BIC评分设计的统计量，ε为差异阈值，ε＞0，或J₁_BIC＞G₁_BIC，则对生成器版本进行更新，通过自举法追加数据样本，以提升其信念网络的表示能力；反之，则以相似的方式更新辨识器的版本；通过对抗式学习迭代地更新辨识器和生成器，直至出现某代生成器G_k使得其在连续两次对抗学习中有W(J_h_BIC，G_k_BIC)≤ε且W(J_h+1BIC，G_kBIC)≤ε，终止迭代。

其中纵向编码包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段；

所述自底向上的编码阶段的具体步骤为：

所述自顶向下的修正阶段的具体步骤为：

其中横向编码采用动态编码方式，且编码的范畴为纵向编码中的同层节点，所述动态编码是指该节点的横向编码与隐私节点的相对位置相关，且数据拥有者对不同用户所设定的隐私节点亦不相同，假设数据拥有者对用户的隐私限制已经设定，以纵向编码为基础，隐私节点p_s为目标对象，具体步骤如下：

步骤4.2，以隐私节点X_s为目标对象，计算

与X_s的最小连边数量，记为p_i.edgs；

步骤4.3，

的横向编码为α×X_i.nodes+β×X_i.edgs，其中α+β＝1。

其中启发式规则的贪心策略，具体步骤如下：

步骤5.1，首先以构建的信念系统T(X，A^I，F，A^S)为模板，生成n条与源数据同模态的数据集T′(Y，A^I，F，A^S)，仅针对敏感属性中的敏感值进行宏隐私保护，即在数据集Y中，将敏感属性AS中所有不含敏感值的记录从中删除，将剩余的数据集记为Y′；

步骤5.2，对数据集T′(Y′，A^I，F，A^S)，构建相应的辨识矩阵D_S，将辨识矩阵及相应的下三角矩阵都记为D_S；

步骤5.3，构建辨识超图G(V，E)，其中，V为信息系统T(X，A^I，F，A^S)中信息属性A^I所构成的顶点集合，E是超边的集合，每一条超边表示辨识矩阵D_S的一个项集；

步骤4，

表示所涉修改信息属性的最小个数且

在本实施例中利用三个不同的数据集来评估所提出的架构的效能，第一个数据集asia被选为具有典型小型网络模式的数据集案例。选取13264条记录和8个属性，其中{either}作为敏感属性。选取数据集sachs作为典型的中等网络，其中包含178个参数。将{PKA}视为敏感属性。第三个数据集是child，它是一个大型网络，由20个顶点、25个边和230个参数组成。在这个数据集中，{LungParench}被视为敏感属性。三个数据集的详细情况见表1。在当前版本中，我们选择了三种方法对数据集进行匿名化处理，这三种方法分别包含领域泛化、

多样性和

紧密性。所提架构由64位Windows 10系统实现，CPU为Xeon(R)Platinum 6162@1.90GHz，内存为1T。

表1数据集描述

我们从数据可用性、隐私性和运行时性能的角度研究了所提出的架构的效能，其中隐私性的保证由匿名策略决定。

第一组实验旨在研究本发明对于生成贝叶斯网络(内部匿名)的有效性。测量了在什么条件下生成的贝叶斯网络可以满足引导重采样技术的数据可用性要求。使用BIC-scoring作为度量标准来测试基于爬坡策略的贝叶斯网络构建算法。实验设置如下：设置第一代判别器和生成器的采样比为2，固定相对误差w＝1％作为允许波动阈值。表2说明：(1)对比使用原始数据集构建贝叶斯网络，随着n₀的继续增加，基于bootstrapping的重采样迅速减少；(2)当n₀过小(例如小于0.5％)时，bootstrapping不起作用。可以看到，BIC-scoring之所以失真，是因为初始样本量太小，无法完整表达整个数据的真实分布；(3)给定一定的初始样本量n₀，随着迭代次数的累积，时间成本呈指数级增长。幸运的是，我们发现，当给定合适的初始样本大小时，BIC评分可以快速收敛(在实验中，初始样本大小

与原始数据大小n之间的比率被设定为7％，三种数据集都可以在不到三轮的对抗式学习中实现BIC评分收敛)。虽然生成数据集child对应的贝叶斯网络的时间成本高达18351秒，但实际应用中数据属性和参数的数量通常比child数据集少，且该操作只是一次性成本，可以离线实现。因此，所提出的方案是可行的；(4)另外，当BIC-scoring收敛时，生成的贝叶斯网络与原始数据生成的真实贝叶斯网络在形式上并不完全一致。反映在FN和FP不等于0。而且，网络越大，这种现象越明显。但随后的实验证明，即使是这种不完全一致的贝叶斯网络仍然可以很好地满足数据挖掘的需要。可能是由于获得的不一致边可以形成原始边的近似表达式。

使用第二组实验来评估实施隐私保护操作后的数据可用性。图3和图4说明了相应的隐私保护数据可用性，其中贝叶斯网络继承了第一组实验中的数据，采样率为7％。在架构中，在每次迭代中随机选择不同的方法(由领域泛化、

多样性和

贴近性组成)对数据集进行匿名化。在图3中，给定隐私预算B＝0.5，每个隐私操作的成本预算为0.1。使用K-L散度来衡量隐私保护的有效性。相应地，在图4中，实现了经典的k-means聚类算法，对原始数据(作为对比)和匿名贝叶斯网络生成的数据进行数据挖掘操作，并使用归一化互信息(NMI)来评价数据的可用性，数据可用性基本保持不变。

在图5中，模拟了一个多源数据融合的场景来衡量框架F的有效性，假设有两方(数据所有者)，这样每一方在同一组记录上都拥有一部分数据

或

是两方的共享属性。实验中，将数据集{asasia、sachs、child}分别分为两部分，其中属性集{either}、{Mek}和{HypoxiaInO2}分别为双方共享。在数据融合的过程中，采用m阶数据融合机制。在各自内匿名后，以

为上顶点为中心，辐射出m跳节点。在图5中显示，给定m＝1，融合后的数据仍能满足数据可用性的要求。通过将k-means聚类结果与其原始数据进行比较，融合数据集的NMI不低于0.64。

表2为构建生成式对抗贝叶斯安网络的时间开销、BIC-SORING和边学习的准确性

Claims

1.一种基于信念网络的靶向型隐私保护数据发布方法，其特征在于，包括以下步骤：

步骤4，(d,l)-privacy隐私保护机制：综合信念网络中非敏感属性节点所构成节点集合排序及其编码信息，选出当前轮次对隐私属性节点数据概率分布影响最大且对全局网络影响最小的信念网络中非敏感属性节点所构成节点集合，并对其使用(d,l)-privacy隐私保护机制进行匿名化保护，其中d表示对原信念网络的单位隐私保护操作次数，l表示所涉修改信息属性的最小个数且l≤d；

2.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法，其特征在于，所述步骤1中采用对抗式学习架构构建能生成与原数据集同模态数据的信念网络，具体步骤为：

步骤1.2，初代辨识器和生成器各自计算其相应信念网络的BIC评分，分别记为J₁_BIC、G₁_BIC；若W(J₁_BIC，G₁_BIC)>ε，其中W(*)是对BIC评分设计的统计量，ε为差异阈值，ε>0，或J₁_BIC>G₁_BIC，则对生成器版本进行更新，通过自举法追加数据样本，以提升其信念网络的表示能力；反之，则以相似的方式更新辨识器的版本；通过对抗式学习迭代地更新辨识器和生成器，直至出现某代生成器G_k使得其在连续两次对抗学习中有W(J_h_BIC，G_k_BIC)≤ε且W(J_h+1BIC，G_kBIC)≤ε，终止迭代。

3.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法，其特征在于，所述步骤2中纵向编码包括两个阶段：自底向上的编码阶段和自顶向下的修正阶段；

所述自底向上的编码阶段的具体步骤为：

所述自顶向下的修正阶段的具体步骤为：

步骤3.3，将q_old表示的节点的当前层次结构的数值大小与新派生的节点q_new表示的节点的数值大小进行比较，当q_old<q_new时，将节点的层次结构设置为q_new，并将该节点设为已标记；当q_old＝q_new且该节点为已标记时，此节点的向下遍历将提前终止；

4.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法，其特征在于，所述步骤2中横向编码采用动态编码方式，且编码的范畴为纵向编码中的同层节点，所述动态编码是指该节点的横向编码与隐私节点的相对位置相关，且数据拥有者对不同用户所设定的隐私节点亦不相同，假设数据拥有者对用户的隐私限制已经设定，以纵向编码为基础，隐私节点p_s为目标对象，具体步骤如下：

步骤4.1，以纵向编码相同的节点集合X{X₁,X₂,...X_k}为论域，统计

步骤4.2，以隐私节点X_s为目标对象，计算

与X_s的最小连边数量，记为p_i.edgs；

步骤4.3，

的横向编码为α×X_i.nodes+β×X_i.edgs，其中α+β＝1。

5.根据权利要求1所述的一种基于信念网络的靶向型隐私保护数据发布方法，其特征在于，所述步骤3中启发式规则的贪心策略，具体步骤如下：