CN111914285A

CN111914285A - 一种基于差分隐私的地理分布式图计算方法及系统

Info

Publication number: CN111914285A
Application number: CN202010518901.5A
Authority: CN
Inventors: 周池; 邱锐波; 张嘉睿; 毛睿
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2020-11-10
Anticipated expiration: 2040-06-09
Also published as: CN111914285B; WO2021248937A1

Abstract

本发明公开了基于差分隐私的地理分布式图计算方法及系统，基于差分隐私利用预设处理模型对地理分布图进行图计算，按指数分配机制对每轮迭代分配预算；在DC中增加聚合器收集需要发送向相邻DC数据，将其全部加起来加上本轮迭代对应的噪音平均划分发送给相邻的DC；各DC接收上轮迭代后其他DC发送的数据更新顶点的有效值，重复在DC中增加聚合器来收集需要发送向相邻DC的数据，将其全部加起来加上本轮迭代对应的噪音平均划分发送给相邻的DC的步骤，直至达到收敛条件迭代结束；各DC按照达到收敛条件的处理模型进行分布式图间的数据传输。本发明通过减小噪音的引入而不影响保护效果，提高迭代的收敛能力，同时大大提高了数据的可用性。

Description

一种基于差分隐私的地理分布式图计算方法及系统

技术领域

本发明涉及大规模图分割处理领域，具体涉及一种基于差分隐私的地理分布式图计算方法及系统。

背景技术

在地理分布式的数据中心(DC：Data Center)上进行图处理时，为了保护个人隐私，可以应用差分隐私技术。差分隐私是一种经过严格证明的能够保护个人隐私的差分技术，它通过在不同DC之间的通信上加随机噪音(noise)的方法来实现差分隐私。这个随机的noise的大小主要是由两个参数决定的，一是隐私预算(budget)，一是敏感度(sensitivity)。budget的大小与隐私保护效果、noise的大小之间的关系是这样的：budget越大，所加入的noise越小，保护效果越差；budget越小，加入的noise越大，保护效果越好。这里所说的budget是指总的budget大小，对于计算过程具有迭代特征的应用(PageRank、sssp等)，还需要把这个budget按照某种规则分配给每个迭代过程，然后在具体的每次迭代中再细分给各个顶点。现有技术存在的主要问题有两个：1、对于具有迭代特征的某些应用差分隐私技术时由于noise太大而难以收敛；2、应用了差分隐私之后由于noise的影响实验结果数据可用性较低。

发明内容

因此，本发明提供一种基于差分隐私的地理分布式图计算方法及系统，要解决的技术问题在于克服现有技术中地理分布式图计算时，对于具有迭代特征的某些应用差分隐私技术时由于noise太大而难以收敛，或应用差分隐私之后由于noise的影响实验结果数据可用性较低的缺陷。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种基于差分隐私的地理分布式图计算方法，包括如下步骤：基于差分隐私利用预设处理模型对地理分布图进行图计算，按照指数分配机制对地理分布图中每一轮迭代分配预算；

在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心；

各数据中心接收上一轮迭代后其他数据中心发送的数据，并更新顶点的有效值，并重复所述在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心的步骤，直至达到预设收敛条件，迭代结束；各个数据中心按照达到预设收敛条件的处理模型，进行地理分布式图之间的数据传输。

在一实施例中，在数据中心中增加聚合器来收集需要发送向其他数据中心的消息的步骤之前，还包括：

在某轮迭代中丢弃所有顶点，按照预设重新采样公式得到的概率对所有顶点进行重取样之后，取样成功的顶点将会分配给其应归属的聚合器。

在一实施例中，各个顶点有效值的获取方式包括：最短单源路径算法或PageRank算法；当通过最短单源路径算法获取时，各个顶点的有效值为最短路径长度；当通过PageRank算法获取时，各个顶点的有效值为rank值。

在一实施例中，重取样概率公式为：

式中，rank代表本轮迭代中某个顶点的有效值；

n表征顶点的初始有效值。

在一实施例中，所述预设迭代条件包括：本轮迭代中各个数据中心有效值的平均值达到预设值、迭代次数等于预设最大迭代次数或本轮迭代中各个顶点有效值相对于上轮的有效值的变化值均小于预设值，中的至少之一种。

在一实施例中，预设指数分配机制公式如下：

式中，

代表该指数机制的首项；i代表当前轮的迭代；budget代表预先设定的总的预算；

max代表最大的迭代次数；

代表修正系数，用于保证最终分配给每轮迭代的预算之和为预先设定的预算。

在一实施例中，所述预设处理模型为Pregel模型。

第二方面，本发明实施例提供一种基于差分隐私的地理分布式图计算系统，包括：

每轮迭代预算分配模块，用于基于差分隐私利用预设处理模型对地理分布图进行图计算，按照指数分配机制对地理分布图中每轮迭代分配预算；

噪声添加模块，用于在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心，所述噪音通过该轮迭代分配的预算进行拉普拉斯机制转换得到；

迭代模块，用于各数据中心接收上一轮迭代后其他数据中心发送的数据，并更新顶点自身的有效值，并重复所述在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心的步骤，直至达到预设收敛条件，迭代结束；各个数据中心按照达到预设收敛条件的处理模型，进行地理分布式图之间的数据传输。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面的基于差分隐私的地理分布式图计算方法。

第四方面，本发明实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例第一方面的基于差分隐私的地理分布式图计算方法。

本发明技术方案，具有如下优点：

本发明提供的一种基于差分隐私的地理分布式图计算方法及系统，在满足差分隐私的前提下，通过将总的budget分配给各轮迭代的指数机制，最大程度地减小noise的影响；在DC中新增aggregator来减小noise的引入而不影响保护效果；通过概率取样的方法来减少每轮迭代中顶点的数量，从而减小noise的引入而不影响保护效果。从而提高了迭代的收敛能力，同时大大提高了数据的可用性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于差分隐私的地理分布式图计算方法的一个具体示例的流程图；

图2为本发明实施例中的普通的Pregel模型进行预算分配的示意图；

图3为本发明实施例中的普通的Pregel模型在迭代时预算分配的示意图；

图4为本发明实施例中在普通的Pregel模型中加入聚合器后的预算分配的示意图；

图5为本发明实施例中基于差分隐私的地理分布式图计算方法的另一个具体示例的流程图；

图6为本发明实施例中基于差分隐私的地理分布式图计算系统的一个模块组成图；

图7为本发明实施例中基于差分隐私的地理分布式图计算系统的另一个模块组成图；

图8为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种基于差分隐私的地理分布式图计算方法，如图1所示，包括如下步骤：

步骤S10：基于差分隐私利用预设处理模型对地理分布图进行图计算，按照指数分配机制对地理分布图中每一轮迭代分配预算。

差分隐私是一种经过严格证明的能够保护个人隐私的差分技术，它通过在不同DC之间的通信上加随机noise(噪音的添加方式一般有指数机制以及拉普拉斯机制两种)的方法，来实现差分隐私。定义差分隐私为：设有随机算法M，P_M为M的所有可能输出构成的集合的概率，对于任意两个邻近数据集D与D’以及P_M的任意子集S_M，若算法M满足：

P{M(D)∈S_M}≤e^ε·P{M(D')∈S_M}

则称算法M提供ε-差分隐私保护。

随机的noise的大小主要是由两个参数决定的，一是隐私预算(budget)，一是敏感度(sensitivity)。敏感度不是本发明的主要改进点，因此是按照最差的情况来设置的，即在该设置下能够严格保证满足差分隐私；噪音的添加方式一般有指数机制以及拉普拉斯机制两种，本申请采用拉普拉斯机制进行计算：

敏感度(sensitivity)的定义：给定一个函数集F，D和D’为邻近数据集，其敏感度定义如下：

给定一个函数f:D→R^d，若隐私保护算法A满足ε-差分隐私，当且仅当下述表达式成立：

可知ε(budget)的大小与noise的大小以及差分隐私保护效果之间的关系为：ε越小，Laplace noise越大，隐私保护效果越好。

本发明实施例是基于Pregel模型进行计算的，Pregel模型是基于边切割的，它的计算过程是由一系列迭代过程组成的。在每个迭代过程中，每个顶点上面都会并行执行用户自定义的函数，该函数描述了一个顶点V在一个超步S中需要执行的操作。执行完该函数之后即将得到的结果发送给其所需的其他顶点，但是此时其他顶点并不会马上接受该消息，而是等待下一轮迭代到来才会接收该消息。在下一次迭代中顶点可以读取上一次迭代过程中其他顶点发过来的消息并继续执行用户自定义的函数。该迭代一直持续直至所有顶点处于非活跃状态(当一个顶点不需要执行进一步的计算时会被设置为非活跃状态)为止。

需要说明的是本发明实施例是基于Pregel模型进行计算，但是不以此作为限制，也适用于其他图计算模型，例如是GAS模型，本发明实施例采用Pregel模型的技术效果更优。

将总的budget分配给各轮迭代，一般的方法有诸如平均分配、线性分配、斐波那契数列等分配方式，但是实际应用中由于总的budget设置往往是比较小的，因此noise往往也是比较大的，对此为了尽可能地减小noise的影响，希望能够在迭代的前期分配较少的budget，迭代的后期分配较大的budget，能够最大程度地减小noise的影响。因此本发明实施例提供了一种新的经过修改的指数分配机制。如图2所示，假设总的budget为3，则其会被按照指数机制分配到每一轮迭代中。修改的指数分配机制公式如下：

式中，

max代表最大的迭代次数；

步骤S20：在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心。

如图3所示，假设在某轮迭代中，DC0中有四个顶点需要与DC1通信，如果按照普通的Pregel模型，则需要将本轮迭代分配到的budget_i继续分配个这四个顶点(这里只是举例说明，实际中这样的顶点数量通常是达到10e+05或者以上级别的)。

如图4所示，本发明实施例中在Pregel模型中加入了聚合器aggregator，aggregator负责收集需要发送向其他DC的消息，并将它们全部加起来，这样budget分配就从顶点分配级别上升到了aggregator级别，即此时budget_i只需分配给创建的aggregators即可。对比普通的Pregel模型的将budget分配给所有需要跨DC通信的顶点(顶点数量是10e+05级别或以上)，加入aggregator之后，由于aggregator数量可以自己定义(通常不建议设置太多aggregator)，因此每个aggregator分配到的budget将会远大于Pregel模型下顶点分配到的budget。因此加入aggregator之后可以在不降低隐私保护效果的同时，大大降低noise的影响。

步骤S30：各数据中心接收上一轮迭代后其他数据中心发送的数据，并更新顶点的有效值，并重复所述在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心的步骤，直至达到预设收敛条件，迭代结束；各个数据中心按照达到预设收敛条件的处理模型，进行地理分布式图之间的数据传输。

实际应用中，各个顶点有效值的获取方式包括：最短单源路径算法sssp或网页排序PageRank算法；当通过最短单源路径算法获取时，各个顶点的有效值为最短路径长度；当通过PageRank算法获取时，各个顶点的有效值为rank值。

本发明实施例以PageRank算法为例，一个网页的PR值计算如下：

其中，M_pi是所有对p_i网页有出链的网页集合，L(p_j)是网页p_j的出链数目，N是网页总数，α一般取0.85。

根据上述的公式计算每个网页的PR值，在不断迭代趋于平稳(即收敛)的时候，即为最终结果。

本发明实施例中的预设迭代条件包括：本轮迭代中各个数据中心有效值的平均值达到预设值、迭代次数等于预设最大迭代次数或本轮迭代中各个顶点有效值相对于上轮的有效值的变化值均小于预设值，中的至少之一种。

需要注意的是，由于aggregator的工作原理，它负责收集消息并将这些消息加起来统一加一次noise，之后aggregator负责将这些消息发送给DC1时不能够再按照原来的Msg_rank的比例去还原成4份，而是需要平均划分成4份，否则将会使得其不满足ε-差分隐私。但是平均划分的方法有一个缺点：改变了原顶点的rank值，会使得最终结果误差上升。但是该额外引入的误差对比于不使用aggregator时的noise显得微不足道，因此总体上反而使得加入aggregator之后的数据可用性大大提高，并且通过修改的指数机制的方式已经能够解决Pregel模型下PageRank算法无法收敛的问题，但是数据可用性依然不足。因此为了克服其存在不不足，本发明实施例在数据中心中增加聚合器来收集需要发送向其他数据中心的消息的步骤之前，如图5所示，还包括：

步骤11：在某轮迭代中丢弃所有顶点，按照预设重新采样公式得到的概率对所有顶点进行重取样之后，取样成功的顶点将会分配给其应归属的聚合器。

式中，rank代表本轮迭代中某个顶点的rank值；

n的含义是PageRank算法的顶点的初始rank值，该值应根据不同的应用进行设置，本申请中由于PageRank计算公式中的α取0.85，因此n对应取0.15。

本发明实施例提供的基于差分隐私的地理分布式图计算方法，在满足差分隐私的前提下，通过将总的budget分配给各轮迭代的指数机制，最大程度地减小noise的影响；在DC中新增aggregator来减小noise的引入而不影响保护效果；通过概率取样的方法来减少每轮迭代中顶点的数量，从而减小noise的引入而不影响保护效果。从而提高了迭代的收敛能力，同时大大提高了数据的可用性。

实施例2

本发明实施例提供一种基于差分隐私的地理分布式图计算系统，如图6所示，包括：

每轮迭代预算分配模块10，用于基于差分隐私利用预设处理模型对地理分布图进行图计算，按照指数分配机制对地理分布图中每轮迭代分配预算。此模块执行实施例1中的步骤S10所描述的方法，在此不再赘述。

噪声添加模块20，用于在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心，所述噪音通过该轮迭代分配的预算进行拉普拉斯机制转换得到。此模块执行实施例1中的步骤S20所描述的方法，在此不再赘述。

迭代模块30，用于各数据中心接收上一轮迭代后其他数据中心发送的数据，并更新顶点自身的有效值，并重复所述在数据中心中增加聚合器来收集需要发送向相邻数据中心的数据，并将其全部加起来加上本轮迭代对应的噪音，再平均划分后发送给相邻的数据中心的步骤，直至达到预设收敛条件，迭代结束；各个数据中心按照达到预设收敛条件的处理模型，进行地理分布式图之间的数据传输。此模块执行实施例1中的步骤S30所描述的方法，在此不再赘述。

在一实施例中，上述基于差分隐私的地理分布式图计算系统，如图7所示，还包括：

重采样模块11，用于在某轮迭代中丢弃所有顶点，按照预设重新采样公式得到的概率对所有顶点进行重取样之后，取样成功的顶点将会分配给其应归属的聚合器。此模块执行实施例1中的步骤S11所描述的方法，在此不再赘述。

本发明实施例提供一种基于差分隐私的地理分布式图计算系统，在满足差分隐私的前提下，通过将总的budget分配给各轮迭代的指数机制，最大程度地减小noise的影响；在DC中新增aggregator来减小noise的引入而不影响保护效果；通过概率取样的方法来减少每轮迭代中顶点的数量，从而减小noise的引入而不影响保护效果。从而提高了迭代的收敛能力，同时大大提高了数据的可用性。

实施例3

本发明实施例提供一种计算机设备，如图8所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图8以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的基于差分隐私的地理分布式图计算方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的一种基于差分隐私的地理分布式图计算方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于差分隐私的地理分布式图计算方法，其特征在于，包括如下步骤：

基于差分隐私利用预设处理模型对地理分布图进行图计算，按照指数分配机制对地理分布图中每一轮迭代分配预算；

2.根据权利要求1所述的基于差分隐私的地理分布式图计算方法，其特征在于，在数据中心中增加聚合器来收集需要发送向其他数据中心的消息的步骤之前，还包括：

3.根据权利要求2所述的基于差分隐私的地理分布式图计算方法，其特征在于，各个顶点有效值的获取方式包括：最短单源路径算法或PageRank算法；当通过最短单源路径算法获取时，各个顶点的有效值为最短路径长度；当通过PageRank算法获取时，各个顶点的有效值为rank值。

4.根据权利要求3所述的基于差分隐私的地理分布式图计算方法，其特征在于，重取样概率公式为：

式中，rank代表本轮迭代中某个顶点的有效值；

n表征顶点的初始有效值。

5.根据权利要求1所述的基于差分隐私的地理分布式图计算方法，其特征在于，所述预设迭代条件包括：本轮迭代中各个数据中心有效值的平均值达到预设值、迭代次数等于预设最大迭代次数或本轮迭代中各个顶点有效值相对于上轮的有效值的变化值均小于预设值，中的至少之一种。

6.根据权利要求5所述的基于差分隐私的地理分布式图计算方法，其特征在于，预设指数分配机制公式如下：

式中，

max代表最大的迭代次数；

7.根据权利要求1-6任一所述的基于差分隐私的地理分布式图计算方法，其特征在于，所述预设处理模型为Pregel模型。

8.一种基于差分隐私的地理分布式图计算系统，其特征在于，包括：

9.根据权利要求8所述的基于差分隐私的地理分布式图计算系统，其特征在于，还包括：

重采样模块，用于在某轮迭代中丢弃所有顶点，按照预设重新采样公式得到的概率对所有顶点进行重取样之后，取样成功的顶点将会分配给其应归属的聚合器。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的基于差分隐私的地理分布式图计算方法。

11.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-7任一项所述的基于差分隐私的地理分布式图计算方法。