CN116702214B

CN116702214B - 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Info

Publication number: CN116702214B
Application number: CN202310959881.9A
Authority: CN
Inventors: 张镇; 王亚新; 钱恒; 杨扬; 李士波
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-07
Anticipated expiration: 2043-08-02
Also published as: CN116702214A

Abstract

本发明提供了一种基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统，其属于数据安全技术领域，包括：基于待发布数据中各属性数据的互信息，以各属性数据作为节点构建动态贝叶斯网络；基于各属性数据节点间的相干邻近度以及预设阈值，对各属性数据进行类别划分；基于相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，并基于隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配；根据分配的隐私预算对各属性数据进行加噪，并将加噪后的高维数据进行发布。所述方案数据化度量了数据特征间的关联，有效减少了直接在原始高维数据集加噪产生的噪声累积，优化降低了隐私保护代价，保证了高维数据的安全性及高可用性。

Description

基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

技术领域

本发明属于数据安全技术领域，尤其涉及一种基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统。

背景技术

随着物联网与信息技术的快速发展，所产生的数据规模越来越大，数据特征维度也越加复杂。同时，多维度数据的交叉融合与分析利用具有重要的社会价值，例如各银行通过安全共享形成大规模重叠客户数据库，通过数据分析更好的为客户推荐理财产品。高维数据的发布共享及分析利用已然成为社会生活中不可或缺的一部分，同时，高维数据的发布共享存在隐私泄露问题，如银行泄露客户信息，给客户人身财产安全造成威胁。

差分隐私技术具有严谨的数学理论支撑，能够在理论上对隐私预算分配做精密的数学定量分析与证明，因此，差分隐私技术开始应用于数据保护。王凤祥等人提出基于本地差分隐私的效用优化键值数据保护方法、装置，将数据区分为敏感键值数据和非敏感键值数据，分别对敏感隐私键值数据和非敏感隐私键值数据进行统一扰动，优化了隐私预算分配，实现了对隐私数据的保护，但数据量过多时仍会出现噪声累积问题，影响数据可用性。孙铭阳等人提出一种面向图数据的差分隐私保护发布方法及系统，针对图像数据提取不同粒度的信息并加噪，有效减少了图编码过程的信息损失，但忽略了数据质量对隐私预算分配的影响，隐私预算分配计算仍有待优化。

发明内容

本发明为了解决上述问题，提供了一种基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统，所述方案基于数据质量评估度策略来衡量数据集的质量，并基于相干邻近度和改进动态贝叶斯网络的属性关联性度量，数据化度量了数据特征间的关联，为判断属性关联性提供了可视化计算方法；所述方案有效减少了直接在原始高维数据集加噪产生的噪声累积，优化降低了隐私保护代价，保证了高维数据的安全性及高可用性，为高维数据安全发布共享提供了可行方案。

根据本发明实施例的第一个方面，提供了一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，包括：

计算待发布数据质量评估度；

计算待发布数据中各属性数据的互信息，并基于所述互信息，以各属性数据作为节点构建动态贝叶斯网络；

基于所述动态贝叶斯网络中各属性数据节点间的相干邻近度以及预设阈值，对各属性数据进行类别划分；

基于所述相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，并基于所述隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配；

根据分配的隐私预算对各属性数据进行加噪，并将加噪后的高维数据进行发布。

进一步的，所述动态贝叶斯网络包括若干个时间片，每一个时间片具有一个相同结构的静态贝叶斯网络，每一个静态贝叶斯网络描述了在特定时刻的状态；其中，每个静态贝叶斯网络的构建具体为：基于各属性数据之间互信息值的大小，根据最大支撑图方法为每个属性挑选与其依赖关系最强的属性节点加入贝叶斯网络，直至完成贝叶斯网络的构建。

进一步的，基于所述相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，具体采用如下公式：

其中，为隐私预算分配权值，/>为相干邻近度均值，q为数据质量评估度。

进一步的，所述对各属性数据进行类别划分，将各属性数据划分为两类，相干邻近度大于预设阈值的为高关联属性数据，相干邻近度小于等于预设阈值的为低关联属性数据。

进一步的，所述基于所述隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配，具体为：对于高关联属性数据，基于预设的总隐私预算、高关联属性数据对应的隐私预算分配权值以及高关联属性数据权重值的乘积，获得高关联属性数据初次分配的隐私预算；对于低关联属性数据，基于预设的总隐私预算、低关联属性数据对应的隐私预算分配权值以及低关联属性数据权重值的乘积，获得低关联属性数据初次分配的隐私预算；基于不同类别属性数据初次分配的隐私预算构建协调因子；通过所述协调因子与属性数据所属类别的总隐私预算的乘积，获得各属性数据的隐私预算分配。

进一步的，对于高关联属性数据隐私预算的初次分配，具体表示如下：

其中，表示高关联属性数据初次分配的隐私预算，/>表示高关联属性数据权重值，/>为总隐私预算，/>表示隐私预算分配权值。

进一步的，对于低关联属性数据隐私预算的初次分配，具体表示如下：

其中，表示低关联属性数据初次分配的隐私预算，/>表示低关联属性数据权重值。

进一步的，所述待发布数据质量评估度，基于待发布数据内容多样性、数据集准确性以及数据集完整性的加权和得到。

根据本发明实施例的第二个方面，提供了一种基于相干邻近度与贝叶斯网络的隐私数据发布系统，包括：

质量评估单元，其用于计算待发布数据质量评估度；

贝叶斯网络构建单元，其用于计算待发布数据中各属性数据的互信息，并基于所述互信息，以各属性数据作为节点构建动态贝叶斯网络；

属性数据分类单元，其用于基于所述动态贝叶斯网络中各属性数据节点间的相干邻近度以及预设阈值，对各属性数据进行类别划分；

隐私预算分配单元，其用于基于所述相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，并基于所述隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配；

加噪发布单元，其用于根据分配的隐私预算对各属性数据进行加噪，并将加噪后的高维数据进行发布。

与现有技术相比，本发明的有益效果是：

（1）本发明所述方案提出一种基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统，所述方案基于数据质量评估度策略来衡量数据集的质量，并基于相干邻近度和改进动态贝叶斯网络的属性关联性度量，数据化度量了数据特征间的关联，为判断属性关联性提供了可视化计算方法。

（2）所述方案有效减少了直接在原始高维数据集加噪产生的噪声累积，优化降低了隐私保护代价，保证了高维数据的安全性及高可用性，为高维数据安全发布共享提供了可行方案。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法流程图；

图2为本发明实施例中所述的贝叶斯网络包含有A和B两个节点的构建过程示意图；

图3为本发明实施例中所述的贝叶斯网络包含有A、B和C三个节点的构建过程示意图；

图4为本发明实施例中所述的贝叶斯网络包含有A、B、C和D四个节点的构建过程示意图；

图5为本发明实施例中所述的包含了3个时间片的动态贝叶斯网络。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于相干邻近度与贝叶斯网络的隐私数据发布方法。

一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，包括：

计算待发布数据质量评估度；

在具体实施中，基于所述相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，具体采用如下公式；

其中，为隐私预算分配权值，/>为相干邻近度均值，/>为数据质量评估度。

在具体实施中，所述对各属性数据进行类别划分，将各属性数据划分为两类，相干邻近度大于预设阈值的为高关联属性数据，相干邻近度小于等于预设阈值的为低关联属性数据。

在具体实施中，所述基于所述隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配，具体为：对于高关联属性数据，基于预设的总隐私预算、高关联属性数据对应的隐私预算分配权值以及高关联属性数据权重值的乘积，获得高关联属性数据初次分配的隐私预算；对于低关联属性数据，基于预设的总隐私预算、低关联属性数据对应的隐私预算分配权值以及低关联属性数据权重值的乘积，获得低关联属性数据初次分配的隐私预算；基于不同类别属性数据初次分配的隐私预算构建协调因子；通过所述协调因子与属性数据所属类别的总隐私预算的乘积，获得各属性数据的隐私预算分配。

其中，对于高关联属性数据隐私预算的初次分配，具体表示如下：

其中，表示高关联属性数据初次分配的隐私预算，/>表示高关联属性数据权重值，/>为总隐私预算，/>表示隐私预算分配权值；

对于低关联属性数据隐私预算的初次分配，具体表示如下：

具体的，为了便于理解，以下结合附图对本实施例所述方案进行详细说明：

如图1所示，本实施例所述方案具体包括如下步骤:

步骤1：计算数据质量评估度，评估原始高维数据集质量。

对于机器学习模型训练、数据分析建模、深度学习模型训练等任务，高质量数据可以提供足够和准确的信息使得模型快速收敛，从而提高任务完成效率。

（1）定义：数据集（/>）中各空间向量的平均成对距离称为内容多样性/>（0/>）。

其中，为距离函数，用于计算两个空间向量的距离；/>表示数据集集合的大小；

（2）定义：数据集中各数据准确性之和的平均值称为数据集准确性。例如，在图像分类任务中，图像标签的准确性。

其中，表示数据集/>的正确性，/>表示数据/>的正确性,/>表示数据集集合的大小。

（3）定义：数据集中各数据完整性之和的平均值称为数据集完整性/>（）。例如，在图像分类任务中，图像/>具有标签，则/>=1，否则为0。

其中，表示数据集/>的完整性，/>表示数据集集合的大小。

（4）计算数据质量评估度：

步骤2：计算各属性数据的互信息，使用最大支撑图方法选择动态贝叶斯网络度值K，构建原始高维数据集的改进动态贝叶斯网络G_k。其中，所述最大支撑图方法出自“马苏杭.基于差分隐私保护技术的高维数据发布算法研究[D].贵州大学,2021”，对于该方法的具体细节此处不再赘述；其中：

（1）互信息计算公式：

X和Y是随机变量，表示它们的联合概率分布函数，p(x)和p(y)表示其边际概率分布函数。

（2）每个时间片构建一个贝叶斯网络G_kt；时间链之间为不同变量在相邻时间片之间的状态演变规律。其中，时间链由若干时间片组成；每个时间片表示预设时间间隔。

以下通过具体示例对动态贝叶斯网络的构建过程进行说明：

假设数据集中只有 4 个属性， A、B、C、D 分别代表了这 4 个属性。

随机选取一个属性作为第一个结点，由节点 A 表示，然后分别计算属性 A 与其他属性之间的互信息的大小，来确定它们之间边的连接，候选边有 A→B，A →C，A →D。

其中，最大支撑图是基于数据集中属性之间互信息值的大小，为每个属性挑选与其依赖关系最强的属性节点加入贝叶斯网络；假设，计算的互信息分别为 I(B,A)=-0.1，I(C,A)=-0.3，I(D,A)=-0.4，那么选取互信息最大的一条边 A→B 作为贝叶斯网络的第一条边，则贝叶斯网络中有两个结点 A 和 B，其构建过程具体如图2所示；

此时，候选边有 A→B→C，A→B→D，假如计算求得的互信息分别为 I(C,AB)=-0.2，I(D,AB)=-0.4，那么选取互信息最大的值 I(C,AB)=-0.2，则将结点 C 加入到贝叶斯网络中，现在贝叶斯网络中有 A、B 和 C 三个结点。其构建过程具体如图3所示；

此时，候选边有A→B→D，A →C →D，B→C→D，假设计算的互信息分别为 I(D,AB)=-0.5，I(D,AC)=-0.3，I(D,BC)=-0.2，那么选择互信息的最大值 I(D,BC)=-0.2，将结点 D加入到贝叶斯网络中。此时，所有的属性结点全部计算完毕，则一个时间片内的静态贝叶斯网络构建结束。其构建构成具体如图4所示。

动态贝叶斯网络包含有限个时间片，每一个时间片上都有一个相同结构的静态贝叶斯网络，每一个静态贝叶斯网络都描述了环境在特定时刻的状态。一个动态贝叶斯网络可以被定义为(,/>→)，/>表示初始时刻的贝叶斯网络，记其概率分布为 P(/>)，/>→是包含相邻两个时间片的贝叶斯网络，定义两个相邻时间片的条件概率分布为：

其中，表示第/>个时间片的第/>个节点，/>表示/>的父节点；节点/>和其父节点/>可以在同一个时间片内，也可以在相邻时间片内。位于同一个时间片内的边可以理解为瞬时作用，跨时间片的边可以理解为时变作用，反应了时间的流逝。关于时间片的划分：我们可以提前规定时间片个数，比如1min,时间片设为10个，那么时间片长度为6s。这里假设时间片为3，则时间片长度为20s。如图5所示为包含了3个时间片的动态贝叶斯网络。

具体的，所述改进动态贝叶斯网络的构建步骤如下：

一个动态贝叶斯网络包括多个时间片，每一个时间片上都有一个相同结构的静态贝叶斯网络，每一个静态贝叶斯网络都描述了环境在特定时刻的状态。且每个时间上的静态贝叶斯网络都包含一组随机变量。假设环境状态是一个稳态过程，即变化的过程是由本身不随时间变化的规律支配的。

其中，静态贝叶斯网络的构建，包括：

（1）结构学习。贝叶斯网络的结构可以通过有向无环图来表示，其中节点表示变量，边表示变量之间的依赖关系。结构学习的目标是从给定数据集中学习出这个有向无环图的结构；

（2）参数学习。在学习了贝叶斯网络的结构之后，需要对每个节点之间的条件概率进行估计。

本实施例中对动态贝叶斯网络的改进在于从静态贝叶斯网络到动态贝叶斯网络的转变，并在此基础上限定了动态贝叶斯网络度值。

步骤3：计算各属性数据节点相干邻近度，将属性数据分类（高关联属性数据、低关联属性数据），结合数据质量评估度/>计算隐私预算分配权值/>。

为了更好、更准确地定量分析动态贝叶斯网络中节点的关联性，本实施例采用网络拓扑结构理论中的相干邻近度 (CNP，Coherence neighborhood propinquity)评估网络中属性数据节点的重要性。

（1）对于给定网络G(V,E)中的两个节点()，其计算公式如下：

其中，表示节点/>与节点/>相干邻近度的值。该值包括三个方面的内容：

1）||表示节点/>与节点/>在G(V,E)中直接相连的边的数目，称为直接亲近度（direct propinquity）。

2）||表示节点/>与节点/>的相同邻居节点数目，其值为节点/>的邻居节点集/>与节点/>的邻居节点集/>做交集运算得出的数目，称为角度亲近度（angle propinquity）。

3）||表示由节/>与节点/>的相同邻居节点及其相应连边组成的子图中边的数目，称为共轭亲近度（conjugate propinquity）。

（2）计算各属性数据的相干邻近度

....

（3）设定阈值，将各属性数据节点的/>值与阈值/>作比较，将属性数据分类并计算隐私预算分配权值/>(/>)

注：(/>)可根据不同应用场景需要进行设置，不失一般性。

（4）计算隐私预算分配权值：

(/>+/>)

其中，针对的是每一类数据分配的隐私预算分配权值，比如高关联属性这类数据分配的隐私预算分配权值是0.2，则低关联属性这类数据分配的隐私预算权值是1-0.2=0.8。

步骤4：针对两类属性数据，计算同一类中各属性数据的隐私预算，添加噪声进行差分隐私保护。

若对所有属性数据添加相同的隐私预算，施加相同的隐私保护力度，会出现噪声加入过多，数据可用性降低。噪声加入过少，则存在隐私泄露风险。因此，合理的分配隐私预算尤为重要。

本实施例中提出了一种隐私预算分配策略，对高关联和低关联属性数据，分配隐私预算、/>，同一类中各属性数据分配的隐私预算记为/>、/>。根据差分隐私可组合性质，可得到/>，即总的隐私预算满足/>-差分隐私。

（1）假设有n个高关联属性数据，则每个属性数据初次分配的隐私预算为：

其中，表示高关联属性数据初次分配的隐私预算，/>表示高关联属性数据权重值，/>为总隐私预算，/>表示隐私预算分配权值，其作为高关联属性数据对应的隐私预算分配权值。

其中，表示高关联属性数据/>的属性值数量（例如属性数据sex有男女两个属性值，则/>），/>表示高关联属性数据的数量。

考虑各条数据的属性存在交叉重叠情况，初次分配给高关联属性数据的隐私预算之和可能会大于所给定的隐私预算，故设置协调因子，用于调节分配给各高关联属性数据的隐私预算，使得所有高关联属性数据隐私预算之和小于等于给定的隐私预算。那么最终各高关联属性数据所分配的隐私预算为：

其中，为协调因子，/>为高关联属性数据总隐私预算，/>为各高关联属性数据初次分配的隐私预算，/>为各高关联属性数据分配的隐私预算，/>为高关联属性数据总数量。

（2）假设有m个低关联属性数据，则每个属性数据初次分配的隐私预算为：

其中，表示低关联属性数据初次分配的隐私预算，/>表示低关联属性数据权重值，/>为总隐私预算，/>表示隐私预算分配权值，其中，以/>作为低关联属性数据对应的隐私预算分配权值。

其中，表示低关联属性数据/>的属性值数量，/>表示低关联属性数据数量。

考虑各条数据的属性存在交叉重叠情况，设置协调因子，用于调节分配隐私预算，各低关联属性数据最终所分配的隐私预算为：

其中，为协调因子，/>为低关联属性数据总的隐私预算，/>为各低关联属性数据初次分配的隐私预算，/>为各低关联属性数据分配的隐私预算，/>为低关联属性数据总数量。

（3）根据计算的隐私预算对属性数据进行加噪。

所述加噪方式可以为利用指数机制加噪、利用拉普拉斯机制加噪或利用高斯机制加噪。

步骤5：发布加噪后的高维数据集，该数据集保持原始高维数据集的属性特征分布。

实施例二：

本实施例的目的是提供一种基于相干邻近度与贝叶斯网络的隐私数据发布系统。

一种基于相干邻近度与贝叶斯网络的隐私数据发布系统，包括：

质量评估单元，其用于计算待发布数据质量评估度；

进一步的，本实施例所述系统与实施例一中所述方法相对应，其技术细节在实施例一中已经进行了详细说明，故此处不再赘述。

上述实施例提供的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，其特征在于，包括：

计算待发布数据质量评估度；

根据分配的隐私预算对各属性数据进行加噪，并将加噪后的高维数据进行发布；

所述基于所述相干邻近度及数据质量评估度计算各属性数据节点的隐私预算分配权值，具体采用如下公式；

其中，为隐私预算分配权值，/>为相干邻近度均值，/>为数据质量评估度；

所述基于所述隐私预算分配权值对不同类别的属性数据分别进行隐私预算分配，具体为：对于高关联属性数据，基于预设的总隐私预算、高关联属性数据对应的隐私预算分配权值以及高关联属性数据权重值的乘积，获得高关联属性数据初次分配的隐私预算；对于低关联属性数据，基于预设的总隐私预算、低关联属性数据对应的隐私预算分配权值以及低关联属性数据权重值的乘积，获得低关联属性数据初次分配的隐私预算；基于不同类别属性数据初次分配的隐私预算构建协调因子；通过所述协调因子与属性数据所属类别的总隐私预算的乘积，获得各属性数据的隐私预算分配；

所述对于高关联属性数据隐私预算的初次分配，具体表示如下：

其中，表示高关联属性数据初次分配的隐私预算，/>表示高关联属性数据权重值，为总隐私预算，/>表示隐私预算分配权值；

所述对于低关联属性数据隐私预算的初次分配，具体表示如下：

2.如权利要求1所述的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，其特征在于，所述动态贝叶斯网络包括若干个时间片，每一个时间片具有一个相同结构的静态贝叶斯网络，每一个静态贝叶斯网络描述了在特定时刻的状态。

3.如权利要求2所述的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，其特征在于，每个静态贝叶斯网络的构建具体为：基于各属性数据之间互信息值的大小，根据最大支撑图方法为每个属性挑选与其依赖关系最强的属性节点加入贝叶斯网络，直至完成贝叶斯网络的构建。

4.如权利要求1所述的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，其特征在于，所述对各属性数据进行类别划分，将各属性数据划分为两类，相干邻近度大于预设阈值的为高关联属性数据，相干邻近度小于等于预设阈值的为低关联属性数据。

5.如权利要求1所述的一种基于相干邻近度与贝叶斯网络的隐私数据发布方法，其特征在于，所述待发布数据质量评估度，基于待发布数据内容多样性、数据集准确性以及数据集完整性的加权和得到。

6.一种基于相干邻近度与贝叶斯网络的隐私数据发布系统，其特征在于，包括：

质量评估单元，其用于计算待发布数据质量评估度；

加噪发布单元，其用于根据分配的隐私预算对各属性数据进行加噪，并将加噪后的高维数据进行发布；