CN110633402A - 一种带有差分隐私机制的三维时空信息传播预测方法 - Google Patents

一种带有差分隐私机制的三维时空信息传播预测方法 Download PDF

Info

Publication number
CN110633402A
CN110633402A CN201910893891.0A CN201910893891A CN110633402A CN 110633402 A CN110633402 A CN 110633402A CN 201910893891 A CN201910893891 A CN 201910893891A CN 110633402 A CN110633402 A CN 110633402A
Authority
CN
China
Prior art keywords
information
user
social
distance
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910893891.0A
Other languages
English (en)
Other versions
CN110633402B (zh
Inventor
多允慧
孙福权
姜玉山
刘晏君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910893891.0A priority Critical patent/CN110633402B/zh
Publication of CN110633402A publication Critical patent/CN110633402A/zh
Application granted granted Critical
Publication of CN110633402B publication Critical patent/CN110633402B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种带有差分隐私机制的三维时空信息传播预测方法,属于信息隐私保护技术领域。所述的三维时空信息传播预测方法包括数据获取与预处理、提取用户属性、建立差分隐私保护机制和构建具有差分隐私机制的信息传播预测模型四个步骤。本发明将用户通信拓扑作为一个连续体,采用极坐标下的复值反应扩散二维偏微分方程对用户的群体动态进行建模,其状态表示用户的位置坐标。该模型能够有效地将信息扩散机制与差分隐私保护技术相结合,从而更好地达到分析在线社交网络中信息在时空维度传播的特点与规律,以及保护社交网络中的用户隐私信息。

Description

一种带有差分隐私机制的三维时空信息传播预测方法
技术领域
本发明属于信息隐私保护技术领域,尤其涉及一种带有差分隐私机制的三维时空信息传 播预测方法。
背景技术
随着计算机和通信技术的不断发展,在线社交网络(Online Social Networks,OSNs)已成为 人们生活中不可或缺的一部分。用户可以利用社交网络进行信息分享和交流,在线社交网络 的信息扩散问题也成为一个热门的研究课题。但社交网络中的信息良莠不齐,不良信息同样 得到快速且广泛传播,给社会稳定和经济发展带来很多负面影响,其中隐私泄露已经成为网 络的最大威胁之一。因此,研究具有隐私保护的在线社交网络中信息扩散机制,有助于在利 用其进行信息交流、商业营销的同时,还能进行网络舆情监测以及保护用户的隐私被泄露。
尽管很多学者已经对于不同的网络提出了很多演化模型算法,如流行病模型和线性影响 模型,可以有效地预测和监测在线社会活动。由于网络的实时变化和社会互动的复杂性,分 析信息传播过程的机理是一个挑战。以往的许多工作主要针对随时间变化的信息扩散动力学 模型。在实际的社交网络中,同时考虑时间和空间两个维度分析信息扩散动力学的较少,尤 其是分析地理位置信息对信息扩散的影响。因此本发明将研究地理因素与在线社交网络距离 因素相结合的信息传播预测模型,并在三维空间建模来预测在线社交网络的演化规律。
除此之外,随着许多个人信息在社交网络上的传播,数据挖掘技术能从各类发布数据中 获得有价值的信息,但同时也会造成个人信息的泄露,比如服务提供商向第三方发布敏感数 据,如位置信息和健康状况。由于社交网络中信息安全事件的频繁发生,用户隐私信息保护 问题与网络安全问题受到全社会的广泛关注。因此,数据隐私保护在信息传播中起着重要的 作用。近年来,在社交网络中差异隐私应用领域,已经有了一些工作,如度信息的发布,复 合图的发布等。虽然已经提出了许多方法,但是在社交网络信息传播上应用差异隐私的研究 工作还很有限。本发明通过将信息扩散机制与差分隐私机制相结合,建立带有差分隐私机制 的三维时空信息传播模型。因此,如何在发布有效数据进行信息传播的同时保证个人信息不 被泄露是隐私保护领域面临的一大挑战。
如何将差分隐私的知识点融合到信息传播的模型中,以及讨论地理位置因素是否对信息 传播造成影响。考虑在线社交网络的距离因素和地理位置因素,探索受影响的用户密度随着 时间和空间的变化,基于偏微分方程以及差分隐私保护机制,建立带有差分隐私机制的三维 时空信息传播模型,并讨论在三维空间(极坐标)下的动态信息扩散网络演化模型,是一个 需要重点研究的问题。
发明内容
针对现有技术中存在可能泄露用于隐私的问题,本发明提出了一种能够保护用户隐私的 带有差分隐私机制的三维时空信息传播预测方法。
一种带有差分隐私机制的三维时空信息传播预测方法,包括以下步骤:
步骤1:数据获取与预处理
步骤1.1:数据获取
本发明在某一热点话题下获取的数据包括信息数据和与信息数据对应的用户数据。其中 用户数据包括多个用户属性特征,主要包括用户信息、用户社交关系、用户地理信息(包括 经纬度)等三个方面的数据。
本发明通过以下两种方法之一获取数据:
a:从现有的在线社交媒体的公共API下获取用户相关信息;
b:通过网络爬虫技术抓取web中的内容以获取社交网络用户的相关信息;
步骤1.2:数据预处理:
将步骤1.1获取的信息数据中噪音数据去除,并对其按照时间区间进行划分;在单位时 间中,从获取的数据中找出对与该热点话题做出反应的用户,并依此建立相应的网络拓扑结 构,并存入数据库;
步骤2:提取用户属性
基于步骤1对获取的信息数据,本发明分别从社会属性和地理属性两方面来提取用户属 性。
步骤2.1:提取用户的社会属性
本发明用网络距离表示用户社会属性。
社交网络图中,信息从信息源点用户向信息接收用户传递时,会经过多次用户间的传递, 每一次用户间的传递过程定义为用户跳,信息从信息源点用户向信息接收用户传递信息过程 可能会有多个渠道(每个渠道由不同的用户跳组成),用p表示信息从信息源点用户向信息 接收用户传递所需的最少用户跳次数。在社交网络中,信息接收用户会有多个渠道获取信息, 将用户获取信息的途径数定义为入度数,用q表示。考虑到用户的入度(用户的信息来源途径) 对一个用户接收到信息的影响,设信息接收用户i离信息源点用户的网络距离为xi,其上一 层用户集合为{ui1,ui2,...,uiq},对应的网络距离分别为{xi1,xi2,...,xiq},提取的网络度量表达 式为:
步骤2.2:提取用户地理属性
本发明根据步骤1提取的关于用户签到的地理位置的数据,其包括用户大量的经度纬度 信息,本发明通过地理距离来表示用户的地理属性:
Figure BDA0002209627960000032
其中,R表示地球半径,lati和latj表示在弧度系统中用户i和j的经度,longi和longj表示在弧度系统中用户i和j的纬度,oij表示两个用户的伪地理距离。
将伪地理距离oij离散化得到地理距离yi,如下所示:
Figure BDA0002209627960000033
其中,[oi/1000]表示为取整数的函数。用oi表示每个信息接收用户i与信息源用户的伪 地理距离。
步骤3:建立差分隐私保护机制
本发明建立差分隐私保护机制是通过构建具有差分隐私的信息扩散系数函数实现的。
信息传播预测模型中包含两个信息扩散系数函数,用d1和d2表示。d1代表信息沿着网络 链路传播的能力;d2代表信息沿着地理距离传播的能力。
由于在社交网络中用户的空间异质性,;d1代表信息沿着网络链路传播的能力,d1随网 络距离x呈指数衰减;d2代表信息沿着地理距离传播的能力,d2随网络距离y呈指数衰减, 由下式表示:
Figure BDA0002209627960000034
其中b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度。
本发明基于上述给出的信息对扩散系数函数d1和d2的定义,运用差分隐私保护机制来验 证信息扩散系数函数d1和d2是满足ε-差分隐私的,并给出以下定义:
所述的信息扩散系数函数d1的隐私保护机制对每个信息扩散的输出S和社会距离的集合x,给定了ε-差分隐私,其中ε>0。如果两个数据集D和D′都具有相同的信息源,但是其 社会距离x不一样。DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在DΔD′集合中 社会距离的个数。Pr表示隐私泄露的概率,对所有数据集
Figure RE-GDA0002230979320000041
Pr[d′1(hop2)∈S]≤eε×Pr[d1(hop1)∈S](5)
因此上述提出的信息扩散系数函数d1是满足ε-差分隐私的。
所述的信息扩散系数函数d2的隐私保护机制对每个信息扩散的输出S和地理距离的集合 y,给定了ε-差分隐私,其中ε>0。如果两个数据集D和D′都具有相同的信息源,但是其 地理距离不一样。DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在DΔD′集合中地 理距离个数。Pr表示隐私泄露的概率,对所有数据集
Figure RE-GDA0002230979320000042
Pr[d′2(hop2)∈S]≤eε×Pr[d2(hop1)∈S](6)
因此步骤3提出的信息扩散系数函数d2是满足ε-差分隐私的。
步骤4:构建信息传播预测模型
步骤4.1:构建具有差分隐私机制的信息传播预测模型
构建具有差分隐私机制信息传播预测模型分为社会过程和生长过程两个步骤,具体实现 如下:
步骤4.1.1:构建社会过程
U表示社会信息网络中的用户总数,s表示信息源。根据空间距离的定义,可将所有用 户按照他们到信息源的距离进行分类,将U分组表示,即,U={U1y,U2y,…,Uxy,Uiy},Uxy(t) 表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合。随着信息在社 会信息网络的传播,一些用户通过上传、评论、点赞、转发或其他活动,表达他们对信息的 兴趣,把上述用户称为该信息的受影响用户。用I(x,y,t)表示在t时刻、(x,y)处受影响用户 的密度,则:
Figure BDA0002209627960000043
在无向图G=(V,E)中:G表示社交网络图;V表示节点集V={vi|i=1,2,…};E表示边 缘集E:E={(vi,vj)|i,j=1,2,…,i≠j}。则有社会过程式:
Figure BDA0002209627960000044
步骤4.1.2:构建生长过程
生长过程作为一种同等距离内的信息传播过程,使用Logistic模型来表示。其生长过程 式如下:
Figure BDA0002209627960000051
其中:h表示具有相同空间距离的受影响用户的内在增长率,衡量信息在用户内部传播 的快慢;N表示承载能力,为受影响用户的最大可能密度。
步骤4.1.3:构建带有差分隐私机制的信息传播预测模型
结合社会过程式和生长过程式,得到具有差分隐私保护机制的时空在线社交网络信息传 播预测模型,如下所示:
Figure BDA0002209627960000052
其中信息扩散系数函数d1和d2表示信息在社会位置和地理位置上的信息传播能力,分别 是网络距离x和地理距离y的指数衰减函数。在区域Ω=[0,X]×[0,Y]的边界上,x,y和t的 取值范围分别取为0≤x≤X,0≤y≤Y和0≤t≤T,其中X,Y,T分别表示x,y,t取值的 临界值,且X,Y,T>0。根据Dirchlet的边界条件,在边界
Figure BDA0002209627960000053
上不存在受影响的用户,即在边界
Figure BDA0002209627960000054
上的信息传播热度为0。因此,上述信息传播预测模型的边界条件为:
Figure BDA0002209627960000056
在初始时刻t=0时,只有源点用户(x=0,y=0)为受影响用户,其他点的受影响用户比 例为0。因此,初始条件可以选取二维脉冲函数,即
Figure BDA0002209627960000057
其中
Figure BDA0002209627960000058
要满足以下 条件:
Figure BDA0002209627960000055
步骤4.2:构建带有差分隐私机制的三维时空信息传播预测模型
为了更准确的捕获信息扩散的时间和拓扑动态,对步骤4.1提出的信息传播预测模型进 行改进;
社交网络用户之间的通信图由在极坐标下的网格磁盘二维拓扑上的无向图G(V,E)给 出,其中(i,j)代表一个节点,也表示位于该节点的一个用户。在时不变通讯图上,令xij(t),yij(t),zij(t)分别表示用户(i,j)在三维空间中t处的位置坐标。
在步骤4.1的基础上,令:I(x,y,t)=T(t)V(x,y)并得到:
Figure BDA0002209627960000061
其中上式的前两项为拉普拉斯项,第三项为非线性反应项。利用泰勒展开式对非线性方 程进行了线性化处理,得到:
Figure BDA0002209627960000062
上述等式只有在两边均等于常数时才成立,令此常数为-λ,于是得到下面两个关于函 数T(t)和V(x,y)的方程:
T′(t)+λT(t)=0 (15)
Figure BDA0002209627960000063
因此:T(t)=Ae-(λ-h)t;通过使用元素交换法将式子(16)转化为标准形式,令:
Figure BDA0002209627960000064
则有:
Figure BDA0002209627960000065
为研究方程(17)满足边界条件
Figure BDA0002209627960000066
的固有值及固有函数问题,将V(x′,y′)写 为极坐标V(r,θ)的形式,其中V(r,θ)={(r,θ):0≤r≤R,0≤θ<2π},即: (x,y)→(x′,y′)→(r,θ);令v(r,θ)=x′(r,θ)+jy′(r,θ),其分别表示用户的水平坐标和 垂直坐标。则式子(17)的极坐标形式为:
Figure BDA0002209627960000067
令:V(r,θ)=R(r)Θ(θ);根据式子(18)可以得到:Θ″(θ)+μΘ(θ)=0
r2R″(r)+rR′(r)+[(λ-h)r2-μ]R(r)=0 (19)
由于V的单值性,Θ(θ)必须具有2π的周期,因此μ只能等于如下的整数: 0,12,22,…,n2,…。
对应于这些μn,有:
Figure BDA0002209627960000071
现在观察方程(19),R(r)在r=0处是有界,又由于R|r=R=0,则R(r)应当满足边界条件R(r)|r=R=0;通过代换以μn=n2带入,即得到下面的n阶贝塞尔方程 如下:
ρ2R″(ρ)+ρR′(ρ)+[(λ-h)ρ2-n2]R(ρ)=0 (21)
其中:λ-h=1;
上述方程(21)的解在原点ρ=0处是有界的,那么这种解除去一常数因子外是唯一确 定的,则它是第一类n阶贝塞尔函数Jn(ρ);
贝塞尔函数Jn(ρ)有无穷多个正根,分别记为:
Figure BDA0002209627960000073
对于成立的
Figure BDA0002209627960000074
为了使在r=R处等于零,这里
Figure BDA0002209627960000076
通过上述式子,基于步骤4提出的信息传播预测模型可以形式化地表示在极坐标下具有 空间因素的信息传播预测模型,如下:
Figure BDA0002209627960000077
通过改变用户的位置,可以得到x和y的多种组合,并可以得到丰富三维曲线图。上述模 型可以预测任意用户在r≤R下的任意信息扩散曲线图。
本发明的有益效果是:
针对以往的许多工作主要针对随时间维度变化的信息扩散动力学而忽略空间维度的问 题,以及在信息传播的过程中用户隐私信息保护问题。本研究在实现差分隐私保护条件下(结 合差分隐私理论),将时空模型和偏微分方程模型引入信息扩散过程(即将社会距离与地理 距离相结合),研究一种带有差分隐私机制的三维时空信息传播预测方法。
本发明通过提出一种在三维空间中对信息扩散进行建模和分析的方法,将用户通信拓扑 作为一个连续体,采用极坐标下的复值反应扩散二维偏微分方程(PDEs)对用户的群体动态进 行建模,其状态表示用户的位置坐标。该模型能够有效地将信息扩散机制与差分隐私保护技 术相结合,从而更好地达到分析在线社交网络中信息在时空维度传播的特点与规律,以及保 护社交网络中的用户隐私信息。
附图说明
图1本发明提供优选实施例整体流程框架图;
图2本发明的Epinions社交网络节点度分布图;
图3本发明的社交网络分层示意图;
图4本发明的最短路径长度分布及平均最短路径长度;
图5本发明的两个用户的朋友跳对比图;
图6本发明的在线社交网络社会过程信息扩散方式;
图7本发明的社会过程与生长过程。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,以下参照附图并结合具 体实施方式来进一步描述本发明,以令本领域技术人员参照说明书文字能够据以实施,本发 明保护范围并不受限于该具体实施方式。显然,下面所描述的实施例仅仅是本发明一部分实 施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种带有隐私机制的三维时空信息传播预测模型的总体流程图,如图1所示,具体说明 本发明的详细实施过程,包括以下步骤:
步骤1:数据获取与预处理
步骤1.1:数据获取
获取的数据包括信息数据和与信息数据对应的用户数据。其中用户数据包括多个用户属 性特征,主要包括用户信息、用户社交关系、用户地理信息等三个方面的数据。
采用Epinions社交网络数据集,其是一消费者评论网络,用户可以决定是否信任其他用 户,从而形成在线社交关系网络。
Epinions在线社交网络的相关统计特性如表1所示。
表1 Epinions社交网络的统计特性
步骤1.2:数据预处理:
将步骤1.1获取的信息数据中噪音数据去除,并存入数据库。
(一)获取度数分布图
本发明通过使用Python的NetworkX库,可以计算Epinions网络中各个节点的度,可知 最大度数为3044,且度数分布如图2所示,由图2可以看出度数大的节点只有一小部分,网 络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接,且度数分布服 从幂律分布,因此Epinions网络是一个无标度网络。
(二)选定信息源
在真实的在线社交网络Epinions社交网络下,选取一个节点(用户)作为信息源点,模拟 信息从信息源沿着链路向四周扩散直至稳定的过程。首先,选择节点度数作为用户影响力的 评价标准,将影响力最大的用户(度最大的节点)作为信息源。
步骤2:提取用户属性
基于步骤1对获取的信息数据与处理,本发明分别从社会属性和地理属性两方面来提取 用户的相关属性,即信息的发起者与任何其他用户之间的社会距离和地理距离。通过分析社 交网络中的社会网络特性和地理特征,然后重新定义在信息传播预测模型中的网络距离与地 理距离的相关理论。其中通过选择节点度数作为用户影响力的评价标准,度量用户在在线社 交网络上的亲密度,并通过依据用户之间的用户跳以及考虑到用户的入度(用户的信息来源途 径)对一个用户接收到信息的影响来重新定义网络距离;利用步骤1获取的数据中包含用户大 量的经度纬度信息,定义了两个用户之间的地理距离的概念。
步骤2.1:提取用户的社会属性
用网络距离表示用户社会属性。
(一)复杂网络的分层
在进行复杂网络分层时,需先确定一个信息源点。如图3中的A点作为信息源点,设图 中的每条边长为1,利用Dijkstra算法计算其到其他点的距离(每条边长度为1),距离为1的 为第1层,距离为2的为第2层,距离为3的为第3层……将图3左侧这个网络,以A为源 点分层,分层的结果如图3右侧所示。选定信息源之后,可以利用提到的复杂网络分层的方法,即通过计算源节点与其他节点之间的最短路径,对Epinions网络进行分层。
表2距离A点最短路径长度
Figure BDA0002209627960000091
在真实的在线社交网络Epinions社交网络下,基于步骤1.2选取一个节点(用户)作为信息 源点,以及模拟信息从信息源沿着链路向四周扩散直至稳定的过程。首先,选择节点度数作 为用户影响力的评价标准,将影响力最大的用户作为信息源,在选定信息源之后,可以利用 提到的复杂网络分层的方法,对Epinions进行分层。通过计算可知,节点度数最大值为3044, 找到该节点的编号,并计算该节点距离其他节点的最短路径长度,除去2个孤立的节点,最 短路径长度的分布如图5所示,由图4可知,Epinions社交网络被分为8层,且用户多集中 在第2层和第3层。
(二)网络距离度量定义
社交网络图中,信息从信息源点用户向信息接收用户传递时,会经过多次用户间的传递, 每一次用户间的传递过程定义为用户跳,信息从信息源点用户向信息接收用户传递信息过程 可能会有多个渠道(每个渠道由不同的用户跳组成),用p表示信息从信息源点用户向信息 接收用户传递所需的最少用户跳次数。
一般而言,信息源点的用户发布一条信息之后,用户跳越小的节点所对应的用户越快接 收到信息。然而,如图5所示,从一个较长的时间段来看,与距离大的用户8相比,距离小 的用户7接收信息的可能性不一定大,因为用户8的直接信息来源途径比用户7多。对比用 户7和用户8,二者朋友跳分别为x7=2,x8=3,然而在源点0发出信息之后的一段时间内,用户8对应用户接收该信息的可能性并不一定比用户7小,因为用户8的直接信息来源途径比用户7多。
为了更好的反映社交网络的距离对信息热度的影响,信息接收用户会有多个渠道获取信 息,将用户获取信息的途径数定义为入度数,用q表示。考虑到用户的入度(用户的信息来源 途径)对用户接收到信息的影响,定义信息接收用户距离信息源点用户的网络距离,用x表示。 网络距离x的表达式如下:
设信息接收用户i离信息源点用户的网络距离为xi,其入度数为q,其上一层用户集合 为{ui1,ui2,...,uiq},对应的网络距离分别为{xi1,xi2,...,xiq},提取的网络度量表达式为:
Figure BDA0002209627960000101
步骤2.2:提取用户地理属性
根据步骤1提取的关于用户签到的地理位置的数据,其包括用户大量的经度纬度信息, 通过地理距离来表示用户的地理属性:
Figure BDA0002209627960000111
其中,R表示地球半径,lati和latj表示在弧度系统中用户i的经度,longi和longj表示 在弧度系统中用户j的纬度,oij表示两个用户的伪地理距离。
将伪地理距离oij离散化得到地理距离yi,如下所示:
Figure BDA0002209627960000112
其中[oi/1000]表示为取整数的函数。用oi表示每个信息接收用户i与信息源用户的伪地 理距离。
步骤3:建立差分隐私保护机制
建立差分隐私保护机制的实施是通过构建具有差分隐私的信息扩散系数函数函数实现 的。
(一):构建信息扩散系数函数函数
信息传播预测模型中包含两个信息扩散系数函数,用d1和d2表示。其中d1和d2分别与 用户的社会属性和地理属性有关。d1代表信息沿着网络链路传播的能力;d2代表信息沿着地 理距离传播的能力。
定义一:由于在社交网络中用户的空间异质性,根据实验分析探讨出d1和d2分别是网络 距离x和地理距离y的衰减函数,且扩散系数函数d1和d2呈指数衰减,则衰减过程可由下式 表示:
Figure BDA0002209627960000113
其中b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度。该信息扩散系数 函数的指数衰减函数可以用来建模在社交网络中不同用户之间的交互随着社会距离x或地理 距离y的增加而快速衰减。
(二)定义信息扩散系数函数d1和d2是满足ε-差分隐私
基于上述给出的信息对扩散系数函数d1和d2的定义,运用差分隐私保护机制来验证信息 扩散系数函数d1和d2是满足ε-差分隐私的,并给出以下定义:
定义一:所述的信息扩散系数函数d1的隐私保护机制对每个信息扩散的输出S和社会距 离的集合x,给定了ε-差分隐私,其中ε>0。如果两个数据集D和D′都具有相同的信息源, 但是他们的社会距离x不一样。DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在 DΔD′集合中社会距离的个数。Pr表示隐私泄露的概率,对所有数据集
Pr[d′1(hop2)∈S]≤eε×Pr[d1(hop1)∈S] (5)
因此上述提出的信息扩散系数函数d1是满足ε-差分隐私的。
定义二:所述的信息扩散系数函数d2的隐私保护机制对每个信息扩散的输出S和地理距 离的集合y,给定了ε-差分隐私,其中ε>0。如果两个数据集D和D′都具有相同的信息源, 但是他们的地理距离不一样。DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在 DΔD′集合中地理距离个数。Pr表示隐私泄露的概率,对所有数据集
Figure BDA0002209627960000122
Pr[d′2(hop2)∈S]≤eε×Pr[d2(hop1)∈S] (6)
因此步骤3.1提出的信息扩散系数函数d2是满足ε-差分隐私的。
步骤4:构建带有差分隐私机制的信息传播预测模型
将信息传播过程形象地分为社会过程和生长过程两个子过程进行描述,用于以传统的信 息传播预测模型为基础,将时空模型和偏微分方程模型以及差分隐私机制引入信息扩散过程 (即将社会距离与地理距离相结合),构建带有差分隐私机制的信息传播预测模型,在保护 用户的隐私情况下能够准确的预测信息传播的态势。时间和空间模式类似于包含时间和空间 变量的演化方程的动力学。将步骤2提取用户属性模块以及步骤3建立差分隐私保护机制模 块相结合引入到社交网络信息扩散的研究中,其中x代表网络距离,区域跳y代表地理距离。 因此用户的空间维度指标为(x,y),则信息源点的空间维度指标值为(0,0)。如图6所示,在 社会过程中,为信息从信息源沿着网络链路向周围传播的方式。
构建信息传播预测模型分为社会过程和生长过程两个步骤,如图7所示,该扩散过程包 括了社会过程与生长过程,具体实现如下:
步骤4.1.1:构建社会过程
U表示社会信息网络中的用户总数,s表示信息源。根据空间距离的定义,可将所有用 户按照他们到信息源的距离进行分类,将U分组表示,即,U={U1y,U2y,…,Uxy,Uiy},Uxy(t) 表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合。随着信息在社 会信息网络的传播,一些用户通过上传、评论、点赞、转发或其他活动,表达他们对信息的 兴趣,上述用户称为该信息的受影响用户。用I(x,y,t)表示在t时刻、(x,y)处受影响用户的 密度,则:
Figure BDA0002209627960000131
在无向图G=(V,E)中:G表示社交网络图;V表示节点集V={vi|i=1,2,…,n};E表示边缘集E:E={(vi,vj)|i,j=1,2,…,m,i≠j}。
则有社会过程式:
Figure BDA0002209627960000132
步骤4.1.2:构建生长过程
生长过程作为一种同等距离内的信息传播过程,使用Logistic模型来表示。其生长过程 式如下:
其中:h表示具有相同空间距离的受影响用户的内在增长率,衡量信息在用户内部传播 的快慢;N表示承载能力,为受影响用户的最大可能密度。
步骤4.1.3:构建带有差分隐私机制的信息传播预测模型
结合社会过程式和生长过程式,得到具有差分隐私保护机制的时空在线社交网络信息传 播预测模型,如下所示:
Figure BDA0002209627960000134
其中d1、d2表示信息在社会位置和地理位置上的信息传播能力;在区域Ω=[0,X]×[0,Y] 的边界上,x,y和t的取值范围分别取为0≤x≤X,0≤y≤Y和0≤t≤T,其中X,Y, T分别表示x,y,t取值的临界值,且X,Y,T>0。根据Dirchlet的边界条件,在边界上 不存在受影响的用户,即在边界
Figure BDA0002209627960000136
上的信息传播热度为0。因此,上述信息传播预测模型的 边界条件为:
Figure BDA0002209627960000137
在初始时刻t=0时,只有源点用户(x=0,y=0)为受影响用户,其他点的受影响用户比 例为0。因此,初始条件可以选取二维脉冲函数,即
Figure BDA0002209627960000138
其中
Figure BDA0002209627960000139
要满足以 下条件:
Figure BDA0002209627960000141
步骤4.2:构建带有差分隐私机制的三维时空信息传播预测模型
为了更准确的捕获信息扩散的时间和拓扑动态,对步骤4.1提出的信息传播预测模型进 行改进;
社交网络用户之间的通信图由在极坐标下的网格磁盘二维拓扑上的无向图G(V,E)给 出,其中(i,j)代表一个节点,也表示位于该节点的一个用户。在时不变通讯图上,令xij(t), yij(t),zij(t)分别表示用户(i,j)在三维空间中t处的位置坐标。
在步骤4.1的基础上,令:I(x,y,t)=T(t)V(x,y)并得到:
Figure BDA0002209627960000142
其中上式的前两项为拉普拉斯项,第三项为非线性反应项。利用泰勒展开式对非线性方 程进行了线性化处理,得到:
上述等式只有在两边均等于常数时才成立,令此常数为-λ,于是得到下面两个关于函 数T(t)和V(x,y)的方程:
T′(t)+λT(t)=0 (15)
Figure BDA0002209627960000144
因此:T(t)=Ae-(λ-h)t;通过使用元素交换法将式子(16)转化为标准形式,令:
Figure BDA0002209627960000145
则有:
Figure BDA0002209627960000146
为研究方程(17)满足边界条件
Figure BDA0002209627960000147
的固有值及固有函数问题,将V(x′,y′)写 为极坐标V(r,θ)的形式,其中V(r,θ)={(r,θ):0≤r≤R,0≤θ<2π},即: (x,y)→(x′,y′)→(r,θ);令v(r,θ)=x′(r,θ)+jy′(r,θ),其分别表示用户的水平坐标和垂 直坐标。则式子(17)的极坐标形式为:
令:V(r,θ)=R(r)Θ(θ);根据式子(18)可以得到:Θ″(θ)+μΘ(θ)=0
r2R″(r)+rR′(r)+[(λ-h)r2-μ]R(r)=0(4) (19)
由于V的单值性,Θ(θ)必须具有2π的周期,因此μ只能等于如下的整数:
0,12,22,…,n2,…
对应于这些μn,有:
Figure BDA0002209627960000152
现在观察方程(19),R(r)在r=0处是有界,又由于R|r=R=0,则R(r)应当满足边界条件R(r)|r=R=0.通过代换
Figure BDA0002209627960000153
以μn=n2带入,即得到下面的n阶贝塞尔方程 如下:
ρ2R″(ρ)+ρR′(ρ)+[(λ-h)ρ2-n2]R(ρ)=0 (21)
其中:λ-h=1;
上述方程(21)的解在原点ρ=0处是有界的,那么这种解除去一常数因子外是唯一确 定的,则它是第一类n阶贝塞尔函数Jn(ρ);
贝塞尔函数Jn(ρ)有无穷多个正根,分别记为:
Figure BDA0002209627960000154
对于成立的
Figure BDA0002209627960000155
为了使在r=R处等于零,这里:
Figure BDA0002209627960000157
通过上述式子,基于步骤4提出的信息传播预测模型可以形式化地表示在极坐标下具有 空间因素的信息传播预测模型,如下:
Figure BDA0002209627960000158
通过改变用户的位置,本发明可以得到x和y的多种组合,并可以得到丰富三维曲线图。 上述模型可以预测任意用户在r≤R下的任意信息扩散曲线图。
针对以往的许多工作主要针对随时间维度变化的信息扩散动力学而忽略空间维度的问 题,以及在信息传播的过程中用户隐私信息保护问题。本研究在实现差分隐私保护条件下(结 合差分隐私理论),将时空模型和偏微分方程模型引入信息扩散过程(即将社会距离与地理 距离相结合),研究一种带有差分隐私机制的三维时空信息传播预测方法。
本发明通过提出一种在三维空间中对信息扩散进行建模和分析的方法,将用户通信拓扑 作为一个连续体,采用极坐标下的复值反应扩散二维偏微分方程(PDEs)对用户的群体动态进 行建模,其状态表示用户的位置坐标。该模型能够有效地将信息扩散机制与差分隐私保护技 术相结合,从而更好地达到分析在线社交网络中信息在时空维度传播的特点与规律,以及保 护社交网络中的用户隐私信息。

Claims (2)

1.一种带有差分隐私机制的三维时空信息传播预测方法,其特征在于,包括以下步骤:
步骤1:获取信息数据与预处理
获取信息数据,包括信息数据和与信息数据对应的用户数据;其中用户数据包括多个用户属性特征,主要包括用户信息、用户社交关系、用户地理信息;
将获取的信息数据中噪音数据去除,并对其按照时间区间进行划分;在单位时间中,从获取的数据中找出对与该热点话题做出反应的用户,并依此建立相应的网络拓扑结构,并存入数据库;
步骤2:提取用户属性
基于步骤1对获取的信息数据,分别从社会属性和地理属性两方面提取用户属性;
步骤2.1:采用网络距离表示用户社会属性
用p表示信息从信息源点用户向信息接收用户传递所需的最少用户跳次数;将用户获取信息的途径数定义为入度数,用q表示;考虑到用户的入度对一个用户接收到信息的影响,设信息接收用户i离信息源点用户的网络距离为xi,其上一层用户集合为{ui1,ui2,...,uiq},对应的网络距离分别为{xi1,xi2,...,xiq},提取的网络度量表达式为:
Figure RE-FDA0002230979310000011
步骤2.2:采用地理距离表示用户地理属性
针对步骤1提取的用户地理信息,通过地理距离来表示用户的地理属性:
其中,R表示地球半径,lati和latj表示在弧度系统中用户i和j的经度,longi和longj表示在弧度系统中用户i和j的纬度,oij表示两个用户的伪地理距离;
将伪地理距离oij离散化得到地理距离yi,如下所示:
其中,[oi/1000]表示为取整数的函数;oi表示每个信息接收用户i与信息源用户的伪地理距离;
步骤3:通过构建具有差分隐私的信息扩散系数函数建立差分隐私保护机制
步骤3.1:信息传播预测模型中包含两个信息扩散系数函数,用d1和d2表示;d1代表信息沿着网络链路传播的能力,d1随网络距离x呈指数衰减;d2代表信息沿着地理距离传播的能力,d2随网络距离y呈指数衰减;由下式表示:
其中,b代表在社交网络中关于友谊结构的信息受欢迎程度的下降程度;
步骤3.2:基于步骤3.1给定的d1和d2,运用差分隐私保护机制验证信息扩散系数函数d1和d2是满足ε-差分隐私的,并给出以下定义:
所述的信息扩散系数函数d1的隐私保护机制对每个信息扩散的输出S和社会距离的集合x,给定ε-差分隐私,其中ε>0;如果两个数据集D和D′都具有相同的信息源,但是其社会距离x不一样;DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在DΔD′集合中社会距离的个数;Pr表示隐私泄露的概率,对所有数据集
Figure RE-FDA0002230979310000022
Pr[d′1(hop2)∈S]≤eε×Pr[d1(hop1)∈S] (5)
因此,所述的信息扩散系数函数d1是满足ε-差分隐私的;
所述的信息扩散系数函数d2的隐私保护机制对每个信息扩散的输出S和地理距离的集合y,给定了ε-差分隐私,其中ε>0;如果两个数据集D和D′都具有相同的信息源,但是其地理距离不一样;DΔD′表示两个数据集之间的差异,其中|DΔD′|代表着在DΔD′集合中地理距离个数;Pr表示隐私泄露的概率,对所有数据集
Figure RE-FDA0002230979310000023
Pr[d′2(hop2)∈S]≤eε×Pr[d2(hop1)∈S] (6)
因此,所述的信息扩散系数函数d2是满足ε-差分隐私的;
步骤4:构建信息传播预测模型
步骤4.1:通过社会过程和生长过程构建具有差分隐私机制的信息传播预测模型
步骤4.1.1:构建社会过程
U表示社会信息网络中的用户总数,s表示信息源;根据空间距离的定义,可将所有用户按照他们到信息源的距离进行分类,将U分组表示,即,U={U1y,U2y,…,Uxy,Uiy},Uxy(t)表示在t时到信息源在网络距离为x、地理距离为y的所有用户组成的集合;随着信息在社会信息网络的传播,一些用户通过上传、评论、点赞、转发或其他活动,表达他们对信息的兴趣,将上述用户称为该信息的受影响用户;用I(x,y,t)表示在t时刻、(x,y)处受影响用户的密度,则:
Figure RE-FDA0002230979310000031
在无向图G=(V,E)中:G表示社交网络图;V表示节点集V={vi|i=1,2,…};E表示边缘集E:E={(vi,vj)|i,j=1,2,…,i≠j};
则有社会过程式:
Figure RE-FDA0002230979310000032
步骤4.1.2:构建生长过程
生长过程作为一种同等距离内的信息传播过程,使用Logistic模型来表示;其生长过程式如下:
其中:h表示具有相同空间距离的受影响用户的内在增长率,衡量信息在用户内部传播的快慢;N表示承载能力,为受影响用户的最大可能密度;
步骤4.1.3:结合步骤4.1.1和步骤4.1.2得到的社会过程式和生长过程式,构建带有差分隐私机制的信息传播预测模型,得如下所示:
Figure RE-FDA0002230979310000034
其中,信息扩散系数函数d1和d2表示信息在社会位置和地理位置上的信息传播能力,分别是网络距离x和地理距离y的指数衰减函数;在区域Ω=[0,X]×[0,Y]的边界上,x,y和t的取值范围分别取为0≤x≤X,0≤y≤Y和0≤t≤T,其中X,Y,T分别表示x,y,t取值的临界值,且X,Y,T>0;根据Dirchlet的边界条件,边界
Figure RE-FDA0002230979310000036
上不存在受影响的用户,即在边界
Figure RE-FDA0002230979310000037
上的信息传播热度为0;因此,上述信息传播预测模型的边界条件为:
在初始时刻t=0时,初始条件选取二维脉冲函数,即
Figure RE-FDA0002230979310000038
其中
Figure RE-FDA0002230979310000039
要满足以下条件:
Figure RE-FDA0002230979310000041
步骤4.2:对步骤4.1得到的带有差分隐私机制的信息传播预测模型进行改进,构建带有差分隐私机制的三维时空信息传播预测模型;
基于步骤4.1.3提出的信息传播预测模型可以形式化地表示在极坐标下带有差分隐私机制的三维时空信息传播预测模型,如下:
Figure RE-FDA0002230979310000042
其中,μ为与r,θ无关的常数;
通过改变用户的位置,得到x和y的多种组合,并能够得到丰富三维曲线图;上述三维时空信息传播预测模型用于预测任意用户在r≤R下的任意信息扩散曲线图。
2.根据权利要求要求1所述的一种带有差分隐私机制的三维时空信息传播预测方法,其特征在于,所述的步骤1中通过以下两种方法之一获取信息数据:
a:从现有的在线社交媒体的公共API下获取用户相关信息;
b:通过网络爬虫技术抓取web中的内容以获取社交网络用户的相关信息。
CN201910893891.0A 2019-09-20 2019-09-20 一种带有差分隐私机制的三维时空信息传播预测方法 Expired - Fee Related CN110633402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910893891.0A CN110633402B (zh) 2019-09-20 2019-09-20 一种带有差分隐私机制的三维时空信息传播预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910893891.0A CN110633402B (zh) 2019-09-20 2019-09-20 一种带有差分隐私机制的三维时空信息传播预测方法

Publications (2)

Publication Number Publication Date
CN110633402A true CN110633402A (zh) 2019-12-31
CN110633402B CN110633402B (zh) 2021-05-04

Family

ID=68972042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910893891.0A Expired - Fee Related CN110633402B (zh) 2019-09-20 2019-09-20 一种带有差分隐私机制的三维时空信息传播预测方法

Country Status (1)

Country Link
CN (1) CN110633402B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380267A (zh) * 2020-10-21 2021-02-19 山东大学 一种基于隐私图的社区发现方法
CN113158230A (zh) * 2021-03-16 2021-07-23 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247909A (zh) * 2017-06-09 2017-10-13 南京大学 一种在位置信息服务中保护多个位置的差分隐私方法
US20190138743A1 (en) * 2015-11-02 2019-05-09 LeapYear Technologies, Inc. Differentially Private Processing and Database Storage
CN110222092A (zh) * 2019-06-11 2019-09-10 东莞理工学院 一种基于差分隐私保护技术的多方统计查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190138743A1 (en) * 2015-11-02 2019-05-09 LeapYear Technologies, Inc. Differentially Private Processing and Database Storage
CN107247909A (zh) * 2017-06-09 2017-10-13 南京大学 一种在位置信息服务中保护多个位置的差分隐私方法
CN110222092A (zh) * 2019-06-11 2019-09-10 东莞理工学院 一种基于差分隐私保护技术的多方统计查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰微等: "融入兴趣区域的差分隐私轨迹数据保护方法", 《计算机科学与探索》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380267A (zh) * 2020-10-21 2021-02-19 山东大学 一种基于隐私图的社区发现方法
CN112380267B (zh) * 2020-10-21 2022-08-05 山东大学 一种基于隐私图的社区发现方法
CN113158230A (zh) * 2021-03-16 2021-07-23 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法
CN113158230B (zh) * 2021-03-16 2024-02-09 陕西数盾慧安数据科技有限公司 一种基于差分隐私的在线分类方法

Also Published As

Publication number Publication date
CN110633402B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
De Meo et al. On Facebook, most ties are weak
Guille et al. A predictive model for the temporal dynamics of information diffusion in online social networks
Blondel et al. A survey of results on mobile phone datasets analysis
Vastardis et al. Mobile social networks: Architectures, social properties, and key research challenges
Yang et al. Density-based location preservation for mobile crowdsensing with differential privacy
Vastardis et al. An enhanced community-based mobility model for distributed mobile social networks
CN113609656A (zh) 基于数字孪生的智慧城市决策系统及方法
CN110633402B (zh) 一种带有差分隐私机制的三维时空信息传播预测方法
CN109947879A (zh) 一种基于复杂网络的海洋观测大数据可视化分析方法
CN109829337A (zh) 一种社会网络隐私保护的方法、系统及设备
CN114928548A (zh) 一种社交网络信息传播规模预测方法及装置
Zhang et al. Large-scale dynamic social network directed graph k-in&out-degree anonymity algorithm for protecting community structure
Vidyalakshmi et al. Privacy scoring of social network users as a service
Puthal et al. Efficient algorithms for social network coverage and reach
CN112699402A (zh) 基于联邦个性化随机森林的可穿戴设备活动预测方法
Li et al. Dynamic trustworthiness overlapping community discovery in mobile internet of things
Liu et al. DynaPro: dynamic wireless sensor network data protection algorithm in IoT via differential privacy
Din et al. Swarmtrust: A swarm optimization-based approach to enhance trustworthiness in smart homes
Feng et al. Differential privacy protection recommendation algorithm based on student learning behavior
Jiang et al. Efficiency improvements in social network communication via MapReduce
Misue et al. Drawing semi-bipartite graphs in anchor+ matrix style
Zhao et al. Robustness of directed higher-order networks
Hamlili Intelligibility of Erdös-Rényi random graphs and time varying social network modeling
Kiruthiga et al. A study of graph simulation methodologies for synthetic covert social network
Karim et al. A hybrid mobility model based on social, cultural and language diversity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210504