CN110569286A - 基于本地差分隐私的活动时序轨迹挖掘的方法 - Google Patents

基于本地差分隐私的活动时序轨迹挖掘的方法 Download PDF

Info

Publication number
CN110569286A
CN110569286A CN201910858112.3A CN201910858112A CN110569286A CN 110569286 A CN110569286 A CN 110569286A CN 201910858112 A CN201910858112 A CN 201910858112A CN 110569286 A CN110569286 A CN 110569286A
Authority
CN
China
Prior art keywords
data
matrix
time sequence
client
privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910858112.3A
Other languages
English (en)
Other versions
CN110569286B (zh
Inventor
张兆心
闫健恩
许海燕
王雁
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN201910858112.3A priority Critical patent/CN110569286B/zh
Publication of CN110569286A publication Critical patent/CN110569286A/zh
Application granted granted Critical
Publication of CN110569286B publication Critical patent/CN110569286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据隐私保护领域,主要是研究如何在进行个人数据收集挖掘的场景下,既能保证数据满足本地差分隐私的要求,又能保证可以从数据中挖掘出活动时序轨迹的一种基于本地差分隐私的活动时序轨迹挖掘的方法,其设有采集数据的客户端和本地客户端,采集数据的客户端在本地将采用客户端算法的原始隐私数据加噪声,使之满足隐私保护预算参数为

Description

基于本地差分隐私的活动时序轨迹挖掘的方法
技术领域
本发明涉及数据隐私保护领域,主要是研究如何在进行个人数据收集挖掘的场景下,既能保证数据满足本地差分隐私的要求,又能保证可以从数据中挖掘出活动时序轨迹,特别是涉及一种基于本地差分隐私的活动时序轨迹挖掘的方法。
技术背景
大数据时代的到来,使得数据成为了宝贵的资源。这主要得益于各种各样的数据挖掘方法的出现,可以从数据中挖掘出更多的潜在的信息,同时也包含着许多用户个人隐私,而挖掘的信息可分为以下三种:
1.传统差分隐私:是Dwork针对统计数据库的隐私泄露问题提出的一种新的隐私保护框架,是首个针对隐私数据提出的严格的数据隐私保护框架,并且不受攻击者的背景知识影响。
2.本地差分隐私:传统差分隐私理论框架必须要存在一个可信任的第三方数据处理中心,这使得差分隐私理论框架应用受限。为了解决这个问题,本地差分隐私要求在不存在可信任的第三方数据处理中心的假设下,用户隐私数据在收集之前在本地就直接通过添加噪音的方式达到差分隐私保护的要求,同时也保证第三方在收集到加噪数据后仍能较为准确的推断出用户的群体统计信息。
以上两者的区别在于添加噪音的是时机不同。
3.活动时序轨迹:在客户端本地发生的一系列具有先后时序关系的事件元素集合。
现有的本地差分隐私模型只能得到被采集客户端事件元素的发生频率信息,而不能得到客户端的活动时序轨迹的情况信息。
发明内容
本发明就是为了解决现有本地差分隐私模型只能得到被采集客户端事件元素的发生频率信息,而不能得到客户端的活动时序轨迹的情况信息的问题,提供了一种基于本地差分隐私的活动时序轨迹挖掘的方法,使得可以在满足本地差分隐私框架的要求下推断出用户的活动时序轨迹。
为此,本发明一种基于本地差分隐私的活动时序轨迹挖掘的方法,设有采集数据的客户端和本地客户端,该方法包括以下步骤:
步骤一:采集数据的客户端在本地将采用客户端算法的原始隐私数据加噪声,使之满足隐私保护预算参数为的本地差分隐私要求,原始隐私数据会存储在本地客户端,本地客户端会从数据记录集中随机选取一对具有前后时序关系的记录,然后将其转化为时序矩阵,随后加噪处理,具体包括如下步骤:
(一)首先需要设置以下参数的值,第一个参数为p(p<0.5),该参数被称之为翻转概率,第二个参数为事件界定时间间隔dT,第三个参数为次序固定的事件数据记录集中元素个数m;
(二)随机从本地记录的事件集中选取一个元素e(Ti),并记录该事件发生的时间为Ti;
(三)随机从本地记录的事件集的[e(Ti),e(Ti+dT)]中选取另一个事件元素e(Tj);
(四)将序列(e(Ti),e(Tj))转化为时序矩阵T,具体说明如下:
首先初始化一个m*m的矩阵,将Tij,即第i行第j列的元素置为1,即将Tij置为1,其它元素全部置为0,该矩阵即为时序矩阵,如下矩阵所示:
(五)采用随机应答的方法对时序矩阵进行加噪处理,即将每一位以概率p进行翻转,也就是0变1,1变0;
步骤二:服务端从客户端收集到数据后,利用服务端算法对数据进行解析,进而统计出用户活动时序轨迹,服务端收到客户端发来数据后,进行数据处理,包括如下步骤:
(一)初始化一个m*m的矩阵A,并将其元素全部设置为0;
(二)依次遍历n个时序矩阵,然后每次遍历一个矩阵时,然后对于矩阵中A的每个元素Aij,作如下的计算:
(三)返回矩阵H,矩阵H的元素就是客户端总体上发生的每个事件元素时序对的统计期望,该期望等于原始矩阵的期望,即还原了客户端整体的用户行为统计情况。
本发明有益效果是,采用邻接时序对替代随机选取以减小样本空间,提高统计数据的准确性,同时可以做到在加噪声之后,既能在服务端统计出用户的活动时序轨迹,又满足了本地差分隐私的要求。现有的本地差分隐私的方法无法统计出用户的行为序列,只能保证服务器端能够获得某一事件元素的统计频率信息,比如某段时间内某地的人口密度,目的网站的访问频率,热点词汇等,并不能体现出事件元素之间的发生时序关系,而这种时序关系往往蕴含着客户端的活动时序轨迹,比如人流轨迹,网站浏览路线,热点语句等。针对这一问题,本发明将用户的活动时序轨迹进行分解,以时序对集合的形式来表现用户的活动时序轨迹,通过对时序对的挖掘和统计来间接推断出用户的活动时序轨迹。
附图说明
图1是整体功能结构示意图;
图2是不同算法统计出的出现次数大于100的路线图,其中,图2(a) 是利用CMS算法只针对单个事件元素(即客户端的位置信息)统计出来的客户端静态位置信息图;图2(c)是满足P=0.05(ε≈5.89),经过模型统计得到的客户端路线图;图2(d)是P=0.1(ε≈4.39)时的数据(P 为翻转概率,ε为隐私保护预算);
图3是不同参数下统计出的人员流向最明显的路线图,其中,图 3(a)(c)分别是当t=0.7、t=0.8时原始数据中存在的“最多”的路线;图3(b)(d)分别是对应的满足隐私预算为4.39的本地差分隐私框架下统计得到的“最多”的路线;
图4是统计期望矩阵H计算流程图。
具体实施方式
下面通过实施例,进一步阐明本发明。
如下图1所示,本实施例以区域人流活动轨迹分析的方法进行说明,步骤如下:
步骤1:获取地图数据,本实例采用的原始数据是在某城市五年内 (2007年-2012年)针对182名志愿者采集的定位数据。
步骤2:将地图划分为m个不相交区域,并称相邻的区域为领域,将客户端在某一时刻所处的区域看作一个事件元素,则一个活动时序轨迹即为一条轨迹,通常来说客户端轨迹是连续的。具体来说就是选取早上6 点到9点的志愿者定位数据和活动较为密集的区域(39.8-40.1,116.2-116.4),并分别以0.003和0.002为单位将该区域划分成1万个单位区域,实验数据共124292条,图4.1为志愿者原始路线图,为了方便展示,图中的横纵坐标是将原始经纬位置转变为单元区域得来的,比如横坐标20代表实际纬度为39.8+20*0.003,纵坐标15代表实际经度为116.2+15*0.002。
步骤3:去除掉数据中邻接轨迹次数低于给定阈值次数的客户端路线图,本实施例设置阈值为100,图2是不同算法统计出的出现次数大于 100的路线图,如图2(a)是利用CMS算法只针对单个事件元素(即客户端的位置信息)统计出来的客户端静态位置信息图。图2(c)是满足P=0.05 (ε≈5.89),经过模型统计得到的客户端路线图,图2(d)是P=0.1(ε≈4.39)时的数据(P为翻转概率,ε为隐私保护预算),这是直接进行提取相邻时序对的试验。由此可见,而本模型所得到的结果比较容易还原出路线。另外对比2(c)(d)两图可见,当隐私预算减小时,原始路线的还原度会降低。
步骤4:设置阈值参数t,该阈值参数用于判断两个位置之间是否有明显的人员流动关系。例如,t=0.8,对于两点a,b,如果a到b出现的次数是b到a出现次数的4倍,则认为a与b之间存在着a到b的人员流动;
步骤5:从满足阈值t条件的所有邻接路线中选择出现次数最多的那条邻接路线;
步骤6:以该路线的两头端点为起始点和结束点分别层序遍历满足阈值t的邻接路线,由此得到一条人员流动“最多”的连续路线。
下面实验的目的是统计早上6点到9点之间各条路线的客户端流向,这在现有的本地差分隐私模型中是不能直接得到的。图3是不同参数下统计出的人员流向最明显的路线图,图3(a)(c)分别是当t=0.7、t=0.8 时原始数据中存在的“最多”的路线,图3(b)(d)分别是对应的满足隐私预算为4.39的本地差分隐私框架下统计得到的“最多”的路线,可以看到,经过本地差分隐私框架处理后的统计出来的路线近似于原始路线,阈值t越大,近似程度越高。
从上述步骤可知,本方法既能在服务端统计出用户的活动时序轨迹,又满足了本地差分隐私的要求。
图4为逻辑运行框图,原始数据经客户端加噪后达到了保护客户端隐私的目的,服务器端算法的目的则是从收集得到的加噪后数据中还原客户端整体的统计数据,所以通常来说,服务器端算法是根据客户端算法设计的。上述所用的客户端算法对数据实际加噪的步骤只是将时序矩阵的每一位以P的概率进行了翻转,因此在服务器端只需要对从客户端收集到的数据每一位进行一定的偏移变换使其得到的矩阵元素的期望等于原始矩阵即可。上述服务器端的算法如下:
输入:翻转概率P<0.5;从n个客户端处收集到的时序矩阵 T1,T2,...,Tn。
1.令
2.初始化m*m零阵H。
3.以下c为时序矩阵的编号
for c from 0 to n do:
for j from 0 to m do:
for i from 0 to m do:
4.返回矩阵H,完成逻辑运算。
惟以上所述者,仅为本发明的具体实施例而已,当不能以此限定本发明实施的范围,故其等同组件的置换,或依本发明专利保护范围所作的等同变化与修改,皆应仍属本发明权利要求书涵盖之范畴。

Claims (1)

1.一种基于本地差分隐私的活动时序轨迹挖掘的方法,设有采集数据的客户端和本地客户端,其特征是该方法包括以下步骤:
步骤一:采集数据的客户端在本地将采用客户端算法的原始隐私数据加噪声,使之满足隐私保护预算参数为的本地差分隐私要求,原始隐私数据会存储在本地客户端,本地客户端会从数据记录集中随机选取一对具有前后时序关系的记录,然后将其转化为时序矩阵,随后加噪处理,具体包括如下步骤:
(一)首先需要设置以下参数的值,第一个参数为p(p<0.5),该参数被称之为翻转概率,第二个参数为事件界定时间间隔dT,第三个参数为次序固定的事件数据记录集中元素个数m;
(二)随机从本地记录的事件集中选取一个元素e(Ti),并记录该事件发生的时间为Ti;
(三)随机从本地记录的事件集的[e(Ti),e(Ti+dT)]中选取另一个事件元素e(Tj);
(四)将序列(e(Ti),e(Tj))转化为时序矩阵T,具体说明如下:
首先初始化一个m*m的矩阵,将Tij,即第i行第j列的元素置为1,即将Tij置为1,其它元素全部置为0,该矩阵即为时序矩阵,如下矩阵所示:
(五)采用随机应答的方法对时序矩阵进行加噪处理,即将每一位以概率p进行翻转,也就是0变1,1变0;
步骤二:服务端从客户端收集到数据后,利用服务端算法对数据进行解析,进而统计出用户活动时序轨迹,服务端收到客户端发来数据后,进行数据处理,包括如下步骤:
(一)初始化一个m*m的矩阵A,并将其元素全部设置为0;
(二)依次遍历n个时序矩阵,然后每次遍历一个矩阵时,然后对于矩阵中A的每个元素Aij,作如下的计算:
(三)返回矩阵H,矩阵H的元素就是客户端总体上发生的每个事件元素时序对的统计期望,该期望等于原始矩阵的期望,即还原了客户端整体的用户行为统计情况。
CN201910858112.3A 2019-09-11 2019-09-11 基于本地差分隐私的活动时序轨迹挖掘的方法 Active CN110569286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910858112.3A CN110569286B (zh) 2019-09-11 2019-09-11 基于本地差分隐私的活动时序轨迹挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910858112.3A CN110569286B (zh) 2019-09-11 2019-09-11 基于本地差分隐私的活动时序轨迹挖掘的方法

Publications (2)

Publication Number Publication Date
CN110569286A true CN110569286A (zh) 2019-12-13
CN110569286B CN110569286B (zh) 2021-07-27

Family

ID=68779183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910858112.3A Active CN110569286B (zh) 2019-09-11 2019-09-11 基于本地差分隐私的活动时序轨迹挖掘的方法

Country Status (1)

Country Link
CN (1) CN110569286B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995076A (zh) * 2019-12-17 2021-06-18 国家电网有限公司大数据中心 一种离散数据频率估计方法、用户端、数据中心及系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108882152A (zh) * 2018-07-03 2018-11-23 安徽工业大学 一种基于路径选择上报的用户隐私保护方法
US20190068628A1 (en) * 2016-06-12 2019-02-28 Apple Inc. Emoji frequency detection and deep link frequency
CN110022531A (zh) * 2019-03-01 2019-07-16 华南理工大学 一种本地化差分隐私城市垃圾数据报告和隐私计算方法
CN110147996A (zh) * 2019-05-21 2019-08-20 中央财经大学 一种基于区块链的数据交易本地化差分隐私保护方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190068628A1 (en) * 2016-06-12 2019-02-28 Apple Inc. Emoji frequency detection and deep link frequency
CN108882152A (zh) * 2018-07-03 2018-11-23 安徽工业大学 一种基于路径选择上报的用户隐私保护方法
CN110022531A (zh) * 2019-03-01 2019-07-16 华南理工大学 一种本地化差分隐私城市垃圾数据报告和隐私计算方法
CN110147996A (zh) * 2019-05-21 2019-08-20 中央财经大学 一种基于区块链的数据交易本地化差分隐私保护方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAODONG ZHAO等: "Novel trajectory data publishing method under differential privacy", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
聂熠文: "基于差分隐私的数据发布技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
赵萍: "位置服务中的隐私保护关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995076A (zh) * 2019-12-17 2021-06-18 国家电网有限公司大数据中心 一种离散数据频率估计方法、用户端、数据中心及系统
CN112995076B (zh) * 2019-12-17 2022-09-27 国家电网有限公司大数据中心 一种离散数据频率估计方法、用户端、数据中心及系统
CN114091100A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统
CN114091100B (zh) * 2021-11-23 2024-05-03 北京邮电大学 一种满足本地差分隐私的轨迹数据收集方法及系统

Also Published As

Publication number Publication date
CN110569286B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN111540193B (zh) 一种基于图卷积时序生成对抗网络的交通数据修复方法
US8065257B2 (en) System and method for correlating past activities, determining hidden relationships and predicting future activities
Zhu et al. Optimal randomization for privacy preserving data mining
CN107977734B (zh) 一种时空大数据下基于移动马尔可夫模型的预测方法
CN110569286B (zh) 基于本地差分隐私的活动时序轨迹挖掘的方法
CN105843919A (zh) 一种基于多特征融合与聚类集成的移动对象轨迹聚类方法
CN108650614A (zh) 一种自动推断社会关系的移动用户位置预测方法与装置
CN111259444B (zh) 一种融合隐私保护的轨迹数据标签聚类方法
CN108733774B (zh) 一种基于大数据的失业人口动态监测方法
Uddin et al. Online bad data detection using kernel density estimation
Miller et al. Matched filtering for subgraph detection in dynamic networks
Xue et al. A decision model for spatial site selection by criminals: a foundation for law enforcement decision support
CN115130119B (zh) 一种基于本地差分隐私的效用优化集合数据保护方法
Eshun et al. Two de-anonymization attacks on real-world location data based on a hidden Markov model
CN113934772A (zh) 一种面向数据流滑动窗口的自适应直方图发布方法
CN107368938B (zh) 一种单体滑坡风险损失定量评估方法
CN111612531B (zh) 一种点击欺诈的检测方法及系统
CN112560084A (zh) 基于r树的差分隐私轨迹保护方法
Chen et al. A flexible mix-zone selection scheme towards trajectory privacy protection
CN114663960A (zh) 人脸与imsi匹配方法、装置、电子设备和存储介质
CN114639487A (zh) 流行病传播模型构建方法、终端和存储介质
Wu et al. Mining geographic episode association patterns of abnormal events in global earth science data
Pandya et al. Detection of Anomalous Value in Data Mining
Amichi et al. Revealing an inherently limiting factor in human mobility prediction
Wu et al. Clustering in geo-social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant