CN110633402A

CN110633402A - 一种带有差分隐私机制的三维时空信息传播预测方法

Info

Publication number: CN110633402A
Application number: CN201910893891.0A
Authority: CN
Inventors: 多允慧; 孙福权; 姜玉山; 刘晏君
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-31
Anticipated expiration: 2039-09-20
Also published as: CN110633402B

Abstract

本发明公开了一种带有差分隐私机制的三维时空信息传播预测方法，属于信息隐私保护技术领域。所述的三维时空信息传播预测方法包括数据获取与预处理、提取用户属性、建立差分隐私保护机制和构建具有差分隐私机制的信息传播预测模型四个步骤。本发明将用户通信拓扑作为一个连续体，采用极坐标下的复值反应扩散二维偏微分方程对用户的群体动态进行建模，其状态表示用户的位置坐标。该模型能够有效地将信息扩散机制与差分隐私保护技术相结合，从而更好地达到分析在线社交网络中信息在时空维度传播的特点与规律，以及保护社交网络中的用户隐私信息。

Description

一种带有差分隐私机制的三维时空信息传播预测方法

技术领域

本发明属于信息隐私保护技术领域，尤其涉及一种带有差分隐私机制的三维时空信息传播预测方法。

背景技术

随着计算机和通信技术的不断发展，在线社交网络(Online Social Networks,OSNs)已成为人们生活中不可或缺的一部分。用户可以利用社交网络进行信息分享和交流，在线社交网络的信息扩散问题也成为一个热门的研究课题。但社交网络中的信息良莠不齐，不良信息同样得到快速且广泛传播，给社会稳定和经济发展带来很多负面影响，其中隐私泄露已经成为网络的最大威胁之一。因此，研究具有隐私保护的在线社交网络中信息扩散机制，有助于在利用其进行信息交流、商业营销的同时，还能进行网络舆情监测以及保护用户的隐私被泄露。

尽管很多学者已经对于不同的网络提出了很多演化模型算法，如流行病模型和线性影响模型，可以有效地预测和监测在线社会活动。由于网络的实时变化和社会互动的复杂性，分析信息传播过程的机理是一个挑战。以往的许多工作主要针对随时间变化的信息扩散动力学模型。在实际的社交网络中，同时考虑时间和空间两个维度分析信息扩散动力学的较少，尤其是分析地理位置信息对信息扩散的影响。因此本发明将研究地理因素与在线社交网络距离因素相结合的信息传播预测模型，并在三维空间建模来预测在线社交网络的演化规律。

除此之外，随着许多个人信息在社交网络上的传播，数据挖掘技术能从各类发布数据中获得有价值的信息，但同时也会造成个人信息的泄露，比如服务提供商向第三方发布敏感数据，如位置信息和健康状况。由于社交网络中信息安全事件的频繁发生，用户隐私信息保护问题与网络安全问题受到全社会的广泛关注。因此，数据隐私保护在信息传播中起着重要的作用。近年来，在社交网络中差异隐私应用领域，已经有了一些工作，如度信息的发布，复合图的发布等。虽然已经提出了许多方法，但是在社交网络信息传播上应用差异隐私的研究工作还很有限。本发明通过将信息扩散机制与差分隐私机制相结合，建立带有差分隐私机制的三维时空信息传播模型。因此，如何在发布有效数据进行信息传播的同时保证个人信息不被泄露是隐私保护领域面临的一大挑战。

如何将差分隐私的知识点融合到信息传播的模型中，以及讨论地理位置因素是否对信息传播造成影响。考虑在线社交网络的距离因素和地理位置因素，探索受影响的用户密度随着时间和空间的变化，基于偏微分方程以及差分隐私保护机制，建立带有差分隐私机制的三维时空信息传播模型，并讨论在三维空间(极坐标)下的动态信息扩散网络演化模型，是一个需要重点研究的问题。

发明内容

针对现有技术中存在可能泄露用于隐私的问题，本发明提出了一种能够保护用户隐私的带有差分隐私机制的三维时空信息传播预测方法。

一种带有差分隐私机制的三维时空信息传播预测方法，包括以下步骤：

步骤1：数据获取与预处理

步骤1.1：数据获取

本发明在某一热点话题下获取的数据包括信息数据和与信息数据对应的用户数据。其中用户数据包括多个用户属性特征，主要包括用户信息、用户社交关系、用户地理信息(包括经纬度)等三个方面的数据。

本发明通过以下两种方法之一获取数据：

a：从现有的在线社交媒体的公共API下获取用户相关信息；

b：通过网络爬虫技术抓取web中的内容以获取社交网络用户的相关信息；

步骤1.2：数据预处理：

将步骤1.1获取的信息数据中噪音数据去除，并对其按照时间区间进行划分；在单位时间中，从获取的数据中找出对与该热点话题做出反应的用户，并依此建立相应的网络拓扑结构，并存入数据库；

步骤2：提取用户属性

基于步骤1对获取的信息数据，本发明分别从社会属性和地理属性两方面来提取用户属性。

步骤2.1：提取用户的社会属性

本发明用网络距离表示用户社会属性。

社交网络图中，信息从信息源点用户向信息接收用户传递时，会经过多次用户间的传递，每一次用户间的传递过程定义为用户跳，信息从信息源点用户向信息接收用户传递信息过程可能会有多个渠道(每个渠道由不同的用户跳组成)，用p表示信息从信息源点用户向信息接收用户传递所需的最少用户跳次数。在社交网络中，信息接收用户会有多个渠道获取信息，将用户获取信息的途径数定义为入度数，用q表示。考虑到用户的入度(用户的信息来源途径) 对一个用户接收到信息的影响，设信息接收用户i离信息源点用户的网络距离为x_i，其上一层用户集合为{u_i1,u_i2,...,u_iq}，对应的网络距离分别为{x_i1,x_i2,...,x_iq}，提取的网络度量表达式为：

步骤2.2：提取用户地理属性

本发明根据步骤1提取的关于用户签到的地理位置的数据，其包括用户大量的经度纬度信息，本发明通过地理距离来表示用户的地理属性：

其中，R表示地球半径，lat_i和lat_j表示在弧度系统中用户i和j的经度，long_i和long_j表示在弧度系统中用户i和j的纬度，o_ij表示两个用户的伪地理距离。

将伪地理距离o_ij离散化得到地理距离y_i，如下所示：

其中，[o_i/1000]表示为取整数的函数。用o_i表示每个信息接收用户i与信息源用户的伪地理距离。

步骤3：建立差分隐私保护机制

本发明建立差分隐私保护机制是通过构建具有差分隐私的信息扩散系数函数实现的。

信息传播预测模型中包含两个信息扩散系数函数，用d₁和d₂表示。d₁代表信息沿着网络链路传播的能力；d₂代表信息沿着地理距离传播的能力。

由于在社交网络中用户的空间异质性，；d₁代表信息沿着网络链路传播的能力，d₁随网络距离x呈指数衰减；d₂代表信息沿着地理距离传播的能力，d₂随网络距离y呈指数衰减，由下式表示：

其中b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度。

本发明基于上述给出的信息对扩散系数函数d₁和d₂的定义，运用差分隐私保护机制来验证信息扩散系数函数d₁和d₂是满足ε-差分隐私的，并给出以下定义：

所述的信息扩散系数函数d₁的隐私保护机制对每个信息扩散的输出S和社会距离的集合x，给定了ε-差分隐私，其中ε＞0。如果两个数据集D和D′都具有相同的信息源，但是其社会距离x不一样。DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在DΔD′集合中社会距离的个数。Pr表示隐私泄露的概率，对所有数据集

Pr[d′₁(hop2)∈S]≤e^ε×Pr[d₁(hop1)∈S](5)

因此上述提出的信息扩散系数函数d₁是满足ε-差分隐私的。

所述的信息扩散系数函数d₂的隐私保护机制对每个信息扩散的输出S和地理距离的集合 y，给定了ε-差分隐私，其中ε＞0。如果两个数据集D和D′都具有相同的信息源，但是其地理距离不一样。DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在DΔD′集合中地理距离个数。Pr表示隐私泄露的概率，对所有数据集

Pr[d′₂(hop2)∈S]≤e^ε×Pr[d₂(hop1)∈S](6)

因此步骤3提出的信息扩散系数函数d₂是满足ε-差分隐私的。

步骤4：构建信息传播预测模型

步骤4.1：构建具有差分隐私机制的信息传播预测模型

构建具有差分隐私机制信息传播预测模型分为社会过程和生长过程两个步骤，具体实现如下：

步骤4.1.1：构建社会过程

U表示社会信息网络中的用户总数，s表示信息源。根据空间距离的定义，可将所有用户按照他们到信息源的距离进行分类，将U分组表示，即，U＝{U_1y,U_2y,…,U_xy,U_iy}，U_xy(t) 表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合。随着信息在社会信息网络的传播，一些用户通过上传、评论、点赞、转发或其他活动，表达他们对信息的兴趣，把上述用户称为该信息的受影响用户。用I(x,y,t)表示在t时刻、(x,y)处受影响用户的密度，则：

在无向图G＝(V,E)中：G表示社交网络图；V表示节点集V＝{v_i|i＝1,2,…}；E表示边缘集E:E＝{(v_i,v_j)|i,j＝1,2,…,i≠j}。则有社会过程式：

步骤4.1.2：构建生长过程

生长过程作为一种同等距离内的信息传播过程，使用Logistic模型来表示。其生长过程式如下：

其中：h表示具有相同空间距离的受影响用户的内在增长率，衡量信息在用户内部传播的快慢；N表示承载能力，为受影响用户的最大可能密度。

步骤4.1.3：构建带有差分隐私机制的信息传播预测模型

结合社会过程式和生长过程式，得到具有差分隐私保护机制的时空在线社交网络信息传播预测模型，如下所示：

其中信息扩散系数函数d₁和d₂表示信息在社会位置和地理位置上的信息传播能力，分别是网络距离x和地理距离y的指数衰减函数。在区域Ω＝[0,X]×[0,Y]的边界上，x，y和t的取值范围分别取为0≤x≤X，0≤y≤Y和0≤t≤T，其中X，Y，T分别表示x，y，t取值的临界值，且X,Y,T>0。根据Dirchlet的边界条件，在边界

上不存在受影响的用户，即在边界

上的信息传播热度为0。因此，上述信息传播预测模型的边界条件为：

在初始时刻t＝0时，只有源点用户(x＝0,y＝0)为受影响用户，其他点的受影响用户比例为0。因此，初始条件可以选取二维脉冲函数，即

其中

要满足以下条件：

步骤4.2：构建带有差分隐私机制的三维时空信息传播预测模型

为了更准确的捕获信息扩散的时间和拓扑动态，对步骤4.1提出的信息传播预测模型进行改进；

社交网络用户之间的通信图由在极坐标下的网格磁盘二维拓扑上的无向图G(V,E)给出，其中(i,j)代表一个节点，也表示位于该节点的一个用户。在时不变通讯图上，令x_ij(t)，y_ij(t)，z_ij(t)分别表示用户(i,j)在三维空间中t处的位置坐标。

在步骤4.1的基础上，令：I(x,y,t)＝T(t)V(x,y)并得到：

其中上式的前两项为拉普拉斯项，第三项为非线性反应项。利用泰勒展开式对非线性方程进行了线性化处理，得到：

上述等式只有在两边均等于常数时才成立，令此常数为-λ，于是得到下面两个关于函数T(t)和V(x,y)的方程：

T′(t)+λT(t)＝0 (15)

因此：T(t)＝Ae^-(λ-h)t；通过使用元素交换法将式子(16)转化为标准形式，令：

则有：

为研究方程(17)满足边界条件

的固有值及固有函数问题，将V(x′,y′)写为极坐标V(r,θ)的形式，其中V(r,θ)＝{(r,θ):0≤r≤R,0≤θ<2π}，即： (x,y)→(x′,y′)→(r,θ)；令v(r,θ)＝x′(r,θ)+jy′(r,θ)，其分别表示用户的水平坐标和垂直坐标。则式子(17)的极坐标形式为：

令：V(r,θ)＝R(r)Θ(θ)；根据式子(18)可以得到：Θ″(θ)+μΘ(θ)＝0

r²R″(r)+rR′(r)+[(λ-h)r²-μ]R(r)＝0 (19)

由于V的单值性，Θ(θ)必须具有2π的周期，因此μ只能等于如下的整数： 0,1²,2²,…,n²,…。

对应于这些μ_n，有：

现在观察方程(19)，R(r)在r＝0处是有界,又由于R|_r＝R＝0，则R(r)应当满足边界条件R(r)|_r＝R＝0；通过代换以μ_n＝n²带入，即得到下面的n阶贝塞尔方程如下：

ρ²R″(ρ)+ρR′(ρ)+[(λ-h)ρ²-n²]R(ρ)＝0 (21)

其中：λ-h＝1；

上述方程(21)的解在原点ρ＝0处是有界的，那么这种解除去一常数因子外是唯一确定的，则它是第一类n阶贝塞尔函数J_n(ρ)；

贝塞尔函数J_n(ρ)有无穷多个正根，分别记为：

对于成立的

为了使在r＝R处等于零，这里

通过上述式子，基于步骤4提出的信息传播预测模型可以形式化地表示在极坐标下具有空间因素的信息传播预测模型，如下：

通过改变用户的位置，可以得到x和y的多种组合，并可以得到丰富三维曲线图。上述模型可以预测任意用户在r≤R下的任意信息扩散曲线图。

本发明的有益效果是：

针对以往的许多工作主要针对随时间维度变化的信息扩散动力学而忽略空间维度的问题，以及在信息传播的过程中用户隐私信息保护问题。本研究在实现差分隐私保护条件下(结合差分隐私理论)，将时空模型和偏微分方程模型引入信息扩散过程(即将社会距离与地理距离相结合)，研究一种带有差分隐私机制的三维时空信息传播预测方法。

本发明通过提出一种在三维空间中对信息扩散进行建模和分析的方法，将用户通信拓扑作为一个连续体，采用极坐标下的复值反应扩散二维偏微分方程(PDEs)对用户的群体动态进行建模，其状态表示用户的位置坐标。该模型能够有效地将信息扩散机制与差分隐私保护技术相结合，从而更好地达到分析在线社交网络中信息在时空维度传播的特点与规律，以及保护社交网络中的用户隐私信息。

附图说明

图1本发明提供优选实施例整体流程框架图；

图2本发明的Epinions社交网络节点度分布图；

图3本发明的社交网络分层示意图；

图4本发明的最短路径长度分布及平均最短路径长度；

图5本发明的两个用户的朋友跳对比图；

图6本发明的在线社交网络社会过程信息扩散方式；

图7本发明的社会过程与生长过程。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，以下参照附图并结合具体实施方式来进一步描述本发明，以令本领域技术人员参照说明书文字能够据以实施，本发明保护范围并不受限于该具体实施方式。显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种带有隐私机制的三维时空信息传播预测模型的总体流程图，如图1所示，具体说明本发明的详细实施过程，包括以下步骤：

步骤1：数据获取与预处理

步骤1.1：数据获取

获取的数据包括信息数据和与信息数据对应的用户数据。其中用户数据包括多个用户属性特征，主要包括用户信息、用户社交关系、用户地理信息等三个方面的数据。

采用Epinions社交网络数据集，其是一消费者评论网络，用户可以决定是否信任其他用户，从而形成在线社交关系网络。

Epinions在线社交网络的相关统计特性如表1所示。

表1 Epinions社交网络的统计特性

步骤1.2：数据预处理：

将步骤1.1获取的信息数据中噪音数据去除，并存入数据库。

(一)获取度数分布图

本发明通过使用Python的NetworkX库，可以计算Epinions网络中各个节点的度，可知最大度数为3044，且度数分布如图2所示，由图2可以看出度数大的节点只有一小部分，网络中的大部分节点只和很少节点连接，而有极少的节点与非常多的节点连接，且度数分布服从幂律分布，因此Epinions网络是一个无标度网络。

(二)选定信息源

在真实的在线社交网络Epinions社交网络下，选取一个节点(用户)作为信息源点，模拟信息从信息源沿着链路向四周扩散直至稳定的过程。首先，选择节点度数作为用户影响力的评价标准，将影响力最大的用户(度最大的节点)作为信息源。

步骤2：提取用户属性

基于步骤1对获取的信息数据与处理，本发明分别从社会属性和地理属性两方面来提取用户的相关属性，即信息的发起者与任何其他用户之间的社会距离和地理距离。通过分析社交网络中的社会网络特性和地理特征，然后重新定义在信息传播预测模型中的网络距离与地理距离的相关理论。其中通过选择节点度数作为用户影响力的评价标准，度量用户在在线社交网络上的亲密度，并通过依据用户之间的用户跳以及考虑到用户的入度(用户的信息来源途径)对一个用户接收到信息的影响来重新定义网络距离；利用步骤1获取的数据中包含用户大量的经度纬度信息，定义了两个用户之间的地理距离的概念。

步骤2.1：提取用户的社会属性

用网络距离表示用户社会属性。

(一)复杂网络的分层

在进行复杂网络分层时，需先确定一个信息源点。如图3中的A点作为信息源点，设图中的每条边长为1，利用Dijkstra算法计算其到其他点的距离(每条边长度为1)，距离为1的为第1层，距离为2的为第2层，距离为3的为第3层……将图3左侧这个网络，以A为源点分层，分层的结果如图3右侧所示。选定信息源之后，可以利用提到的复杂网络分层的方法，即通过计算源节点与其他节点之间的最短路径，对Epinions网络进行分层。

表2距离A点最短路径长度

在真实的在线社交网络Epinions社交网络下，基于步骤1.2选取一个节点(用户)作为信息源点，以及模拟信息从信息源沿着链路向四周扩散直至稳定的过程。首先，选择节点度数作为用户影响力的评价标准，将影响力最大的用户作为信息源，在选定信息源之后，可以利用提到的复杂网络分层的方法，对Epinions进行分层。通过计算可知，节点度数最大值为3044，找到该节点的编号，并计算该节点距离其他节点的最短路径长度，除去2个孤立的节点，最短路径长度的分布如图5所示，由图4可知，Epinions社交网络被分为8层，且用户多集中在第2层和第3层。

(二)网络距离度量定义

社交网络图中，信息从信息源点用户向信息接收用户传递时，会经过多次用户间的传递，每一次用户间的传递过程定义为用户跳，信息从信息源点用户向信息接收用户传递信息过程可能会有多个渠道(每个渠道由不同的用户跳组成)，用p表示信息从信息源点用户向信息接收用户传递所需的最少用户跳次数。

一般而言，信息源点的用户发布一条信息之后，用户跳越小的节点所对应的用户越快接收到信息。然而，如图5所示，从一个较长的时间段来看，与距离大的用户8相比，距离小的用户7接收信息的可能性不一定大，因为用户8的直接信息来源途径比用户7多。对比用户7和用户8，二者朋友跳分别为x₇＝2，x₈＝3，然而在源点0发出信息之后的一段时间内，用户8对应用户接收该信息的可能性并不一定比用户7小，因为用户8的直接信息来源途径比用户7多。

为了更好的反映社交网络的距离对信息热度的影响，信息接收用户会有多个渠道获取信息，将用户获取信息的途径数定义为入度数，用q表示。考虑到用户的入度(用户的信息来源途径)对用户接收到信息的影响，定义信息接收用户距离信息源点用户的网络距离，用x表示。网络距离x的表达式如下：

设信息接收用户i离信息源点用户的网络距离为x_i，其入度数为q，其上一层用户集合为{u_i1,u_i2,...,u_iq}，对应的网络距离分别为{x_i1,x_i2,...,x_iq}，提取的网络度量表达式为：

步骤2.2：提取用户地理属性

根据步骤1提取的关于用户签到的地理位置的数据，其包括用户大量的经度纬度信息，通过地理距离来表示用户的地理属性：

其中，R表示地球半径，lat_i和lat_j表示在弧度系统中用户i的经度，long_i和long_j表示在弧度系统中用户j的纬度，o_ij表示两个用户的伪地理距离。

将伪地理距离o_ij离散化得到地理距离y_i，如下所示：

其中[o_i/1000]表示为取整数的函数。用o_i表示每个信息接收用户i与信息源用户的伪地理距离。

步骤3：建立差分隐私保护机制

建立差分隐私保护机制的实施是通过构建具有差分隐私的信息扩散系数函数函数实现的。

(一)：构建信息扩散系数函数函数

信息传播预测模型中包含两个信息扩散系数函数，用d₁和d₂表示。其中d₁和d₂分别与用户的社会属性和地理属性有关。d₁代表信息沿着网络链路传播的能力；d₂代表信息沿着地理距离传播的能力。

定义一：由于在社交网络中用户的空间异质性，根据实验分析探讨出d₁和d₂分别是网络距离x和地理距离y的衰减函数，且扩散系数函数d₁和d₂呈指数衰减，则衰减过程可由下式表示：

其中b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度。该信息扩散系数函数的指数衰减函数可以用来建模在社交网络中不同用户之间的交互随着社会距离x或地理距离y的增加而快速衰减。

(二)定义信息扩散系数函数d₁和d₂是满足ε-差分隐私

基于上述给出的信息对扩散系数函数d₁和d₂的定义，运用差分隐私保护机制来验证信息扩散系数函数d₁和d₂是满足ε-差分隐私的，并给出以下定义：

定义一：所述的信息扩散系数函数d₁的隐私保护机制对每个信息扩散的输出S和社会距离的集合x，给定了ε-差分隐私，其中ε>0。如果两个数据集D和D′都具有相同的信息源，但是他们的社会距离x不一样。DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在 DΔD′集合中社会距离的个数。Pr表示隐私泄露的概率，对所有数据集

Pr[d′₁(hop2)∈S]≤e^ε×Pr[d₁(hop1)∈S] (5)

因此上述提出的信息扩散系数函数d₁是满足ε-差分隐私的。

定义二：所述的信息扩散系数函数d₂的隐私保护机制对每个信息扩散的输出S和地理距离的集合y，给定了ε-差分隐私，其中ε>0。如果两个数据集D和D′都具有相同的信息源，但是他们的地理距离不一样。DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在 DΔD′集合中地理距离个数。Pr表示隐私泄露的概率，对所有数据集

Pr[d′₂(hop2)∈S]≤e^ε×Pr[d₂(hop1)∈S] (6)

因此步骤3.1提出的信息扩散系数函数d₂是满足ε-差分隐私的。

步骤4：构建带有差分隐私机制的信息传播预测模型

将信息传播过程形象地分为社会过程和生长过程两个子过程进行描述，用于以传统的信息传播预测模型为基础，将时空模型和偏微分方程模型以及差分隐私机制引入信息扩散过程 (即将社会距离与地理距离相结合)，构建带有差分隐私机制的信息传播预测模型，在保护用户的隐私情况下能够准确的预测信息传播的态势。时间和空间模式类似于包含时间和空间变量的演化方程的动力学。将步骤2提取用户属性模块以及步骤3建立差分隐私保护机制模块相结合引入到社交网络信息扩散的研究中，其中x代表网络距离，区域跳y代表地理距离。因此用户的空间维度指标为(x,y)，则信息源点的空间维度指标值为(0,0)。如图6所示，在社会过程中，为信息从信息源沿着网络链路向周围传播的方式。

构建信息传播预测模型分为社会过程和生长过程两个步骤，如图7所示，该扩散过程包括了社会过程与生长过程，具体实现如下：

步骤4.1.1:构建社会过程

U表示社会信息网络中的用户总数，s表示信息源。根据空间距离的定义，可将所有用户按照他们到信息源的距离进行分类，将U分组表示，即，U＝{U_1y,U_2y,…,U_xy,U_iy}，U_xy(t) 表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合。随着信息在社会信息网络的传播，一些用户通过上传、评论、点赞、转发或其他活动，表达他们对信息的兴趣，上述用户称为该信息的受影响用户。用I(x,y,t)表示在t时刻、(x,y)处受影响用户的密度，则：

在无向图G＝(V,E)中：G表示社交网络图；V表示节点集V＝{v_i|i＝1,2,…,n}；E表示边缘集E:E＝{(v_i,v_j)|i,j＝1,2,…,m,i≠j}。

则有社会过程式：

步骤4.1.2:构建生长过程

步骤4.1.3：构建带有差分隐私机制的信息传播预测模型

其中d₁、d₂表示信息在社会位置和地理位置上的信息传播能力；在区域Ω＝[0,X]×[0,Y] 的边界上，x，y和t的取值范围分别取为0≤x≤X，0≤y≤Y和0≤t≤T，其中X，Y， T分别表示x，y，t取值的临界值，且X,Y,T>0。根据Dirchlet的边界条件，在边界上不存在受影响的用户，即在边界

其中

要满足以下条件：

社交网络用户之间的通信图由在极坐标下的网格磁盘二维拓扑上的无向图G(V,E)给出，其中(i,j)代表一个节点，也表示位于该节点的一个用户。在时不变通讯图上，令x_ij(t)， y_ij(t)，z_ij(t)分别表示用户(i,j)在三维空间中t处的位置坐标。

在步骤4.1的基础上，令：I(x,y,t)＝T(t)V(x,y)并得到：

T′(t)+λT(t)＝0 (15)

则有：

为研究方程(17)满足边界条件

的固有值及固有函数问题，将V(x′,y′)写为极坐标V(r,θ)的形式，其中V(r,θ)＝{(r,θ):0≤r≤R,0≤θ<2π}，即： (x,y)→(x′,y′)→(r,θ)；令v(r,θ)＝x′(r,θ)+jy′(r,θ),其分别表示用户的水平坐标和垂直坐标。则式子(17)的极坐标形式为：

r²R″(r)+rR′(r)+[(λ-h)r²-μ]R(r)＝0(4) (19)

由于V的单值性，Θ(θ)必须具有2π的周期，因此μ只能等于如下的整数：

0,1²,2²,…,n²,…

对应于这些μ_n，有：

现在观察方程(19)，R(r)在r＝0处是有界,又由于R|_r＝R＝0，则R(r)应当满足边界条件R(r)|_r＝R＝0.通过代换

以μ_n＝n²带入，即得到下面的n阶贝塞尔方程如下：

ρ²R″(ρ)+ρR′(ρ)+[(λ-h)ρ²-n²]R(ρ)＝0 (21)

其中：λ-h＝1；

贝塞尔函数J_n(ρ)有无穷多个正根，分别记为：

对于成立的

为了使在r＝R处等于零，这里：

通过改变用户的位置，本发明可以得到x和y的多种组合，并可以得到丰富三维曲线图。上述模型可以预测任意用户在r≤R下的任意信息扩散曲线图。

Claims

1.一种带有差分隐私机制的三维时空信息传播预测方法，其特征在于，包括以下步骤：

步骤1：获取信息数据与预处理

获取信息数据，包括信息数据和与信息数据对应的用户数据；其中用户数据包括多个用户属性特征，主要包括用户信息、用户社交关系、用户地理信息；

将获取的信息数据中噪音数据去除，并对其按照时间区间进行划分；在单位时间中，从获取的数据中找出对与该热点话题做出反应的用户，并依此建立相应的网络拓扑结构，并存入数据库；

步骤2：提取用户属性

基于步骤1对获取的信息数据，分别从社会属性和地理属性两方面提取用户属性；

步骤2.1：采用网络距离表示用户社会属性

用p表示信息从信息源点用户向信息接收用户传递所需的最少用户跳次数；将用户获取信息的途径数定义为入度数，用q表示；考虑到用户的入度对一个用户接收到信息的影响，设信息接收用户i离信息源点用户的网络距离为x_i，其上一层用户集合为{u_i1,u_i2,...,u_iq}，对应的网络距离分别为{x_i1,x_i2,...,x_iq}，提取的网络度量表达式为：

步骤2.2：采用地理距离表示用户地理属性

针对步骤1提取的用户地理信息，通过地理距离来表示用户的地理属性：

其中，R表示地球半径，lat_i和lat_j表示在弧度系统中用户i和j的经度，long_i和long_j表示在弧度系统中用户i和j的纬度，o_ij表示两个用户的伪地理距离；

将伪地理距离o_ij离散化得到地理距离y_i，如下所示：

其中，[o_i/1000]表示为取整数的函数；o_i表示每个信息接收用户i与信息源用户的伪地理距离；

步骤3：通过构建具有差分隐私的信息扩散系数函数建立差分隐私保护机制

步骤3.1：信息传播预测模型中包含两个信息扩散系数函数，用d₁和d₂表示；d₁代表信息沿着网络链路传播的能力，d₁随网络距离x呈指数衰减；d₂代表信息沿着地理距离传播的能力，d₂随网络距离y呈指数衰减；由下式表示：

其中，b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度；

步骤3.2：基于步骤3.1给定的d₁和d₂，运用差分隐私保护机制验证信息扩散系数函数d₁和d₂是满足ε-差分隐私的，并给出以下定义：

所述的信息扩散系数函数d₁的隐私保护机制对每个信息扩散的输出S和社会距离的集合x，给定ε-差分隐私，其中ε＞0；如果两个数据集D和D′都具有相同的信息源，但是其社会距离x不一样；DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在DΔD′集合中社会距离的个数；Pr表示隐私泄露的概率，对所有数据集

Pr[d′₁(hop2)∈S]≤e^ε×Pr[d₁(hop1)∈S] (5)

因此，所述的信息扩散系数函数d₁是满足ε-差分隐私的；

所述的信息扩散系数函数d₂的隐私保护机制对每个信息扩散的输出S和地理距离的集合y，给定了ε-差分隐私，其中ε＞0；如果两个数据集D和D′都具有相同的信息源，但是其地理距离不一样；DΔD′表示两个数据集之间的差异，其中|DΔD′|代表着在DΔD′集合中地理距离个数；Pr表示隐私泄露的概率，对所有数据集

Pr[d′₂(hop2)∈S]≤e^ε×Pr[d₂(hop1)∈S] (6)

因此，所述的信息扩散系数函数d₂是满足ε-差分隐私的；

步骤4：构建信息传播预测模型

步骤4.1：通过社会过程和生长过程构建具有差分隐私机制的信息传播预测模型

步骤4.1.1:构建社会过程

U表示社会信息网络中的用户总数，s表示信息源；根据空间距离的定义，可将所有用户按照他们到信息源的距离进行分类，将U分组表示，即，U＝{U_1y,U_2y,…,U_xy,U_iy}，U_xy(t)表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合；随着信息在社会信息网络的传播，一些用户通过上传、评论、点赞、转发或其他活动，表达他们对信息的兴趣，将上述用户称为该信息的受影响用户；用I(x,y,t)表示在t时刻、(x,y)处受影响用户的密度，则：

在无向图G＝(V,E)中：G表示社交网络图；V表示节点集V＝{v_i|i＝1,2,…}；E表示边缘集E:E＝{(v_i,v_j)|i,j＝1,2,…,i≠j}；

则有社会过程式：

步骤4.1.2:构建生长过程

生长过程作为一种同等距离内的信息传播过程，使用Logistic模型来表示；其生长过程式如下：

其中：h表示具有相同空间距离的受影响用户的内在增长率，衡量信息在用户内部传播的快慢；N表示承载能力，为受影响用户的最大可能密度；

步骤4.1.3：结合步骤4.1.1和步骤4.1.2得到的社会过程式和生长过程式，构建带有差分隐私机制的信息传播预测模型，得如下所示：

其中，信息扩散系数函数d₁和d₂表示信息在社会位置和地理位置上的信息传播能力，分别是网络距离x和地理距离y的指数衰减函数；在区域Ω＝[0,X]×[0,Y]的边界上，x，y和t的取值范围分别取为0≤x≤X，0≤y≤Y和0≤t≤T，其中X，Y，T分别表示x，y，t取值的临界值，且X,Y,T＞0；根据Dirchlet的边界条件，边界

上不存在受影响的用户，即在边界

上的信息传播热度为0；因此，上述信息传播预测模型的边界条件为：

在初始时刻t＝0时，初始条件选取二维脉冲函数，即

其中

要满足以下条件：

步骤4.2：对步骤4.1得到的带有差分隐私机制的信息传播预测模型进行改进，构建带有差分隐私机制的三维时空信息传播预测模型；

基于步骤4.1.3提出的信息传播预测模型可以形式化地表示在极坐标下带有差分隐私机制的三维时空信息传播预测模型，如下：

其中，μ为与r，θ无关的常数；

通过改变用户的位置，得到x和y的多种组合，并能够得到丰富三维曲线图；上述三维时空信息传播预测模型用于预测任意用户在r≤R下的任意信息扩散曲线图。

2.根据权利要求要求1所述的一种带有差分隐私机制的三维时空信息传播预测方法，其特征在于，所述的步骤1中通过以下两种方法之一获取信息数据：

a：从现有的在线社交媒体的公共API下获取用户相关信息；

b：通过网络爬虫技术抓取web中的内容以获取社交网络用户的相关信息。