CN107688751A

CN107688751A - 一种社交媒体用户行为时间模式的自适应隐私保护方法

Info

Publication number: CN107688751A
Application number: CN201710706006.4A
Authority: CN
Inventors: 曾剑平; 张泽文
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2018-02-13
Anticipated expiration: 2037-08-17
Also published as: CN107688751B

Abstract

本发明属于互联网社交媒体技术领域，具体为社交媒体用户行为时间模式的自适应隐私保护方法。本发明方法包含自适应时间粒度选择方法和自适应微聚集隐私保护算法Ada‑MAPP。在用户行为时间模式的处理上，根据社交媒体的活跃度不同，自适应地选择合适的时间粒度；以社交媒体用户行为的时间模式和匿名度参数作为输入，通过Ada‑MAPP，根据信息损失的比较，决定候选点是否加入既有类中。Ada‑MAPP对用户行为模式数据进行由外向内的聚类，最后用质心替代原始数据实现匿名保护，得到隐私保护数据。本发明能够适应于不同活跃度的社交媒体；在保证匿名度的前提下，减少隐私保护所产生的信息损失，提升隐私数据的可用性。

Description

一种社交媒体用户行为时间模式的自适应隐私保护方法

技术领域

本发明属于互联网社交媒体技术领域，具体涉及社交媒体用户行为时间模式的自适应隐私保护方法。

背景技术

伴随着微博、网络论坛等传统的社交媒体以及微信、Facebook、Twitter等新兴社交媒体的出现，人们进入了社交媒体时代。社交媒体的快速兴起加速了信息的流动，使得人与人之间的沟通变得越来越便捷。冯登国等人指出，随着非结构化数据、社交网络数据的激增，以及云计算、移动计算的快速发展，当前数据处理量动辄几PB，而全球数据量也已增长到ZB级[1]。大数据技术的发轫正是源于用户对海量数据的采集、存储、管理、分析以及持久性的需求，因此这是顺应用户需求的产物。

庞大的数据量也导致了大数据安全问题，需要通过隐私保护技术来解决。究其原因，随着网络技术的快速发展和用户在网络中的参与度的极大提高，对于每一个个体，都存在着与之相关的网络信息，这些相关信息的存量不断累积，攻击者就可以通过相关信息的不同组合来挖掘隐私，导致隐私泄露。例如，用户在网络社交媒体上的发贴、回帖等行为都会留下时间戳信息，由此构成的时间模式在很大程度上反映了个人的行为特点，因此容易导致个人隐私泄露。

随着互联网安全与隐私的关注度越来越高，国内外关于隐私保护技术的研究也越来越多。隐私保护技术的主要研究方向包括通用的隐私保护技术、面向数据挖掘的隐私保护技术、基于隐私保护的数据发布、隐私保护算法等[2]。通用的隐私保护技术致力于在较低应用层次上保护数据的隐私，一般通过引入统计模型和概率模型来实现；面向数据挖掘的隐私保护技术主要解决在高层数据应用中，如何根据不同数据挖掘操作的特性，实现对隐私保护；基于隐私保护的数据发布是为了提供一种在各类应用中可以通用的隐私保护方法，进而使得在此基础上设计的隐私保护算法也具有通用性。作为新兴的研究热点，隐私保护技术不论在理论研究还是实际应用方面，都具有非常重要的价值。

传统隐私保护算法的保护对象主要是用户的身份信息、地理位置信息、疾患信息、社会联系信息等，但是，对于社交媒体中的用户行为时间模式的隐私保护的研究还比较少。用户行为时间模式这种新的数据类型在当今网络飞速发展的时代显得越来越突出。首先，当前社会中的各项工作都越来越趋向于无纸化，各类信息通过电子系统、社交媒体等方式记录到存储介质中，而这种记录的行为是由特定的个体来执行的，特定的个体具备特定的时间模式；其次，特定个体参与的各种电子系统、社交媒体的种类越来越多，会在这些平台上留痕，而其中的时间模式是可以公开获取的，这种时间模式可能成为连接各平台、侵害特定个体隐私的准标识符。

虽然以往的算法，如MDAV算法、V-MDAV算法、IV-MDAV算法[3，4]，在某种程度上可以处理这种时间模式数据，但是直接使用这些算法来进行时间行为模式的隐私保护，会造成较大的信息损失，降低数据可用性。在MDAV之类的微聚集算法中，当找到整个元信息集的质心后，需要寻找距离质心最远的第一候选点，和距离第一候选点最远的第二候选点，然后同时考虑第一、第二候选点的聚类问题。这种设计虽然在某种程度上加快了算法的执行效率，但这却是以牺牲算法的整体性为代价的。主要原因是，若同时考虑两个候选点的聚类问题，就无法准确找出单个聚类的信息损失与元信息集整体信息损失之间的关系，同时，也无法判断这两个聚类相互影响的程度。

在互联网社交媒体的使用过程中，用户发贴、回帖等行为所携带的时间戳构成了一种蕴含的时间模式，这种模式具备一定的敏感性，可能会被攻击者再识别，从而产生极大的隐私泄露风险。本发明所提出的自适应隐私保护方法包含自适应微聚集隐私保护算法Ada-MAPP(Adaptive MicroAggregation Privacy Protection)和自适应时间粒度选择方法。在用户行为时间模式的处理上，根据社交媒体的活跃度不同，自适应地选择合适的时间粒度。以社交媒体用户行为的时间模式和匿名度参数k作为输入，通过自适应微聚集隐私保护算法Ada-MAPP，根据信息损失的比较，决定候选点是否加入既有类中。Ada-MAPP对用户行为模式数据进行由外向内的聚类，最后用质心替代原始数据实现匿名保护，输出隐私保护数据。

本方法增加了算法在既有类大小和时间粒度选择上的灵活度，能够适应于不同活跃度的社交媒体。在保证匿名度的前提下，减少了隐私保护所产生的信息损失，提升了隐私数据的可用性。本发明为社交媒体用户行为的时间模式数据提供隐私保护方法。

参考文献

[1]冯登国，张敏，李昊.大数据安全与隐私保护[J].计算机学报，2014，37(1)：246-258.

[2]周水庚，李丰，陶宇飞，肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报，2009，32(5)：847-861.

[3]Domingo-Ferrer,J.and Torra,V.Ordinal,continuous and heterogeneousk-anonymity through microaggregation.Data Mining and Knowledge Discovery,2005,11(2):195-212.

[4]Rawat,G.S.and Borah,B.An Improved Variable-Sized MicroaggregationAlgorithm for Privacy Preservation(IV-MDAV).International Journal of Researchand Engineering,2015,2(10):13-16.。

发明内容

本发明的目的在于提供一种社交媒体用户行为时间模式的自适应隐私保护方法，以解决现有微聚集算法在处理用户行为时间模式时的隐私数据可用性和隐私度的平衡问题。

本发明提供的社交媒体用户行为时间模式的自适应隐私保护方法，包含自适应微聚集算法Ada-MAPP和自适应时间粒度选择方法两大部分。

如前所述，社交媒体用户在发表言论的时候会产生并留下一定的行为模式，而这种模式一旦被攻击者再识别，用户的隐私就很有可能被泄露。具体而言，特定的个体具备特定的时间模式，时间模式随着特定个体的网络行为传递到各个平台上。比如，用户的发贴行为可能遵循某一种特定的时间模式，表明用户可能只在某些特定的时间范围发表评论，用户在线讨论问题的行为可能在某些时间较为密集，而在其他时间较为稀疏，等等。对于攻击者而言，这类行为的时间模式可以作为连接各个社交媒体的准标识符，进而对特定个体进行再识别，从而侵犯个体的隐私。

相对于传统的隐私保护技术，本发明提出了一个新的角度，即结合了时间行为模式的高维特点和微聚集算法的高效进行隐私保护。其基本思路是，首先，将社交媒体用户的时间行为模式数据进行自适应处理，选择合适的时间粒度，将原始的行为数据处理成结构化的、以不同时间粒度表征各维度的矩阵数据。然后，将已经建立的数据作为自适应微聚集隐私保护算法Ada-MAPP的输入，产生各个聚类的质心，并替代原始数据从而完成隐私数据的转换。算法在判断数据点是否加入既有类中时，采用自适应的方法，从而可以在一定的范围内灵活控制聚类的大小，并降低信息损失。

本发明提供的社交媒体用户行为时间模式的自适应隐私保护方法，其总体流程见图1所示，具体包括含预处理流程(图1中左半部分)和隐私保护流程(图1右半部分)。预处理为隐私保护提供必要的基础数据，其中主要进行自适应的时间粒度选择；具体流程为：获取原始数据，按照最小时间分割粒度，扩大时间粒度，生成行为模式元信息集；隐私保护流程根据设定的匿名度对用户行为模式元信息集进行微聚集的质心替代，从而输出隐私保护数据集，具体流程为：设定匿名度k，执行自适应微聚集隐私保护算法(Ada-MAPP)的处理过程，从而输出隐私保护数据集。

本发明的主要创新点在于引入了假想类的思想，设计了算法中降低信息损失的自适应判断条件和自适应的时间粒度选择方法。创新性主要体现在以下三方面。

首先，本发明所提出的方法在用户行为时间模式的处理上，采用自适应时间粒度选择方法，根据社交媒体用户行为时间维度分布，自动选择合适的时间粒度。这种方法避免了简单的以同一个时间粒度进行划分给密集数据区带来的信息损失，因此能适应于不同活跃度的网络社交媒体用户行为时间模式保护。

其次，以信息损失作为判断候选点归入既有类的判定条件，这种处理方法与隐私保护对于信息损失和隐私度平衡的目标是一致的。相比于现有微聚类方法单纯以距离作为判断条件而言，本发明的方法更适合于数据的隐私保护处理。

最后，本发明提出的自适应微聚集隐私保护算法通过构建假想类，每次循环时，只考虑一个候选点的类别归属问题，可以准确地描述候选点加入既有类的前后对既有类和假想类信息损失的影响。相比于现有方法同时处理多个聚类时所带来的相互影响问题而言，本发明在判断候选点归属时能够更加全面，能减少误判，降低隐私保护处理的信息损失。

本发明的主要技术包括：

(1)社交媒体用户行为的时间模式表示；

(2)微聚集隐私保护算法Ada-MAPP处理流程设计；

(3)Ada-MAPP算法中自适应判断条件的设计。

先介绍与本发明相关的概念：

社交媒体用户行为的时间模式表示

本算法的输入为结构化的、以可变时间粒度表征各维度的矩阵数据，因此，从社交媒体中采集的原始数据需要先预处理成这种结构化的元信息。用户在每个时间粒度范围内的行为计数构成元信息的维度，行为模式本身作为元信息，用时间粒度所构成的向量空间来表示。

社交媒体中包含的具备某种特征的用户所构成的集合，可以用元信息集表示。为此，先定义本发明所处理的用户行为、行为模式。

用户行为(定义1)，用户在网络社交媒体中留下附带有时间标签的痕迹的行为，称为用户行为，包括发贴行为、评论行为、签到行为等。在面向以时间点数据为主的应用中，时间模式是导致隐私泄露的主要数据源，因此本发明中将这种原始的用户行为表示为：

U(u，d)＝(t₁，t₂，…t_m)

其中，u表示某个用户，d表示某个时间段(一般以天为单位)，t表示行为在时间标签上的数值，m是在d时间段内的时间标签数。

行为模式元信息(定义2)，一定时间范围内的用户行为对应了一个二维结构，将该时间范围按特定粒度切分成时间段，构成第一个维度，每个时间段上用户行为的频次作为第二个维度，连续的n个时间段上用户行为的频次称为行为模式元信息。时间段是元信息的属性，记作A₁,A₂,…,A_n，时间段上用户行为的频次是元信息的值，记作a₁,a₂,…,a_n，从而元信息可以表示为连续n个时间段属性上的投影，记投影映射为T。

(a₁,a₂,...,a_n)＝T[(A₁,A₂,...,A_n)]

行为模式的元信息集(定义3)，把行为模式元信息看作空间中的数据点，则由社交媒体中所有用户对应的K个数据点所构成的点集称为行为模式的元信息集，形式定义如下：

其中，M_i＝{a₁,a₂,…,a_n}，i＝1,2,…,K。

下面对本发明的两个部分预处理流程和隐私保护流程，作进一步具体介绍：

(一)预处理流程包括：获取原始数据，按最小时间分割粒度，扩大时间粒度，生成行为模式元信息集；

1、获取原始数据

原始数据是指社交媒体上与用户行为有关的数据，可以通过各种网络爬虫或社交媒体自身提供的API(应用程序接口)调用得到。虽然各种社交媒体上的用户行为相关数据各不相同，但是可以从中过滤出本发明所需要的行为数据集。只要将用户标识和行为的时间戳提取出来，该数据集包括若干个用户在一定时间内的行为数据，符合定义1的要求。

2、按最小时间粒度分割

隐私保护所产生的数据集存在隐私度和数据可用性的矛盾，时间粒度太小可能导致隐私度减小，但能提高数据可用性。反之，时间粒度大虽然能够提升导致隐私度，但会降低数据可用性。因此，需要有一定自适应的选择机制。为此，在本发明中先设定一个最小时间粒度，其原则是优先保证数据可用性。一般以10-15分钟中一个数作为最小值可以保证数据的高可用性。分割过程就是对原始数据集的时间跨度按照10-15分钟中一个数进行平均分割。

3、扩大时间粒度

扩大时间粒度的目的是为了提升数据的隐私度，同时减小原始数据的数据量，这样可以保证后续的自适应微聚集算法在处理这些数据时不需要太多的计算资源消耗。扩大时间粒度的过程就是依次扫描每个最小时间粒度上的用户行为数量，当该数量小于匿名度时，表明这种时间粒度无法保证k个不同用户的隐私。因此，就将其与后续的时间粒度进行合并，直到满足行为数量大于匿名度为止，得到获得了一系列时间粒度A₁,A₂,…,A_n。

4、生成行为模式元信息集

生成行为模式的元信息集就是统计每个用户在每个时间粒度分割区间上的行为数量，并构造成为一个大小为(用户数量*时间粒度数)的矩阵。

由于在上个步骤中，已经获得了一系列时间粒度A₁,A₂,…,A_n，按照顺序分别形成分割区间，即[0,A₁],[A₁,A₂],…,[A_n-1,A_n]。

因此，最终所形成的矩阵形式上为：

其中，每个元素M_ij表示第i个用户在第j个区间上的行为次数，K为用户数。

(二)隐私保护流程，包括：设定匿名度k，执行微聚集隐私保护算法(Ada-MAPP)的处理流程，产生隐私保护数据集

1、设定匿名度k

匿名度是用于控制一个数据集中相同记录的个数；对于一个含有k个用户的数据集，如果这些用户的行为数据都相同，那么攻击者成功推断其中任何一个用户的概率为1/k。匿名度的值是根据实际应用中对数据隐私程度的要求而定的，对隐私度要求越高，可以把k设置得越大一些。

2、微聚集隐私保护算法(Ada-MAPP)的处理

算法的流程图参见附图2，具体步骤如下。

输入用户行为模式的元信息集匿名度k；

(1)计算元信息集的整体质心，找出离整体质心最远的点作为离心点，并找出距离离心点最近的2k-1个点。依距离从小到大排序，取前k-1个与离心点组成一个既有类，而剩余的k个点构成一个候选点队列。

(2)对于候选点队列中的每一个候选点，循环执行步骤(3)-(5)中的自适应判断条件，决定是否将候选点加入到既有类中。

(3)构建第一假想类、第二假想类、第三假想类，既有类与候选点共同形成的类作为第一假想类，除第一假想类之外的k个距离候选点最邻近的点形成的类作为第二假想类，候选点与除既有类之外的k个最近邻点形成的类作为第三假想类。候选点与既有类、第一假想类、第二假想类、第三假想类之间的关系示例如图3所示。需要注意的是，第二假想类的点并不局限于候选队列中的数据点，而是可以从元信息集中任意获取。

构造完假想类后，分别计算既有类、第一假想类、第二假想类以及第三假想类这四个类的信息损失。如果既有类与第三假想类的信息损失之和大于第一假想类与第二假想类的信息损失之和，则执行步骤(4)；反之，执行步骤(5)。

(4)将候选点加入既有类之中，并从候选点队列中删除。继续处理下一个候选点。

(5)只将候选点从候选点队列中删除，不加入既有类之中。继续处理下一个候选点。

(6)记录既有类信息，并将该既有类中的点从元信息集中删除，若元信息集剩余点的个数不少于2k，则回到步骤1继续执行；否则，依照信息损失最小原则，将剩余点分配到相应的既有类之中。

(7)生成隐私保护后的数据集。对既有类中的每个点用其质心代替，对所有的既有类都这样处理，从而将原始行为模式的元信息集转换成为新的具备保护隐私能力的数据集。

最后，得到隐私保护后的数据集，作为算法输出。

本发明中，步骤(3)-(5)中的自适应判断条件(Ada-MAPP算法中自适应判断条件)，具体如下：

判断候选点是否加入既有类时，需要构造三个假想类。既有类与第三假想类的信息损失之和大于第一、第二假想类的信息损失之和，就是候选点加入既有类后减小整体信息损失的充要条件。自适应判断条件示意图参见附图3所示。

以下对该判断条件的具体计算方法进行说明。

首先，既有类的信息损失记为IL₁，信息损失采用SSE(Sum of Squares forError)度量方法，即误差项的平方和。由此，可以计算既有类的信息损失IL₁：

上式中，x_i为既有类中的数据点，为既有类的质心，k为类中的样本点数。

在构造的第一假想类中，候选点被分配到了既有类中，因而对既有类的质心造成了扰动，记第一假想类的质心为则第一假想类的信息损失IL′₁的计算方法如下：

同理，第二假想类的信息损失IL₂和第三假想类的信息损失IL′₂可以分别表示为

上式中，x_j为第二假想类和第三假想类中的数据点，为第二假想类的质心，为第三假想类的质心。

如果把候选点分配到既有类中，则整体的信息损失IL_a为第一假想类和第二假想类的信息损失之和，即：

IL_a＝IL′₁+IL₂

如果把候选点分配到第二假想类中，则整体的信息损失IL_b为既有类和第三假想类的信息损失之和，即：

IL_b＝IL₁+IL₂

将两种情况下的信息损失相减，可以得到它们的差值ΔIL：

ΔIL＝IL_a-IL_b＝ΔIL₁-AIL₂

其中，ΔIL₁为第一假想类相对于既有类的信息损失增量，ΔIL₂为第三假想类相对于第二假想类的信息损失增量，ΔIL表示候选点分配到既有类中相对于候选点分配到第二假想类中的整体信息损失的增量。

是否应该将候选点加入既有类中，应根据整体信息损失的增量来具体判断，在本发明的算法中，核心判断条件为ΔIL≤0。这一条件的满足，充分说明候选点分配到既有类中造成的整体信息损失更小，因此应该把候选点加入既有类中；反之，则说明候选点分配到第二假想类中造成的整体信息损失更小，因此不应把候选点加入既有类中，因为存在另外一个可能的类使得整体信息损失更小。

因此，所设计的核心判断条件是充分的、必要的、可行的、有效的。

本发明具有实质性特点和显著进步：

(1)本发明设计了社交媒体用户行为的时间模式的隐私保护方法。用户行为的时间模式是一种特殊的数据类型，现有的隐私保护技术主要侧重于个体属性之类的数据，它们并不适合于行为时间模式这种动态型数据。

(2)本发明所提出的方法能够根据执行过程中数据的实际情况作出自适应的处理，包括时间粒度选择和聚类中的归属判断，因此灵活度和适应性较高，该自适应隐私保护方法的可用性有了明显增强。

(3)Ada-MAPP算法在每次循环时，仅考虑一个候选点的聚类问题，以信息损失作为判断候选点归入既有类的判定条件，既保证了时间复杂度不受影响，又保证了微聚集向着元信息集的整体信息损失减小的方向执行，本发明的方法就更适合于数据的隐私保护处理。

附图说明

图1为一种社交媒体用户行为时间模式的自适应隐私保护方法的总体流程图。

图2为自适应微聚类隐私保护算法流程图。

图3为自适应判断条件示意图。

具体实施方式

具体实施过程包括社交媒体用户行为时间模式构建和数据的隐私保护处理。以下具体说明。

1、社交媒体用户行为的时间模式构建

虽然各种网络社交媒体功能差别很大，但是从用户发贴的时间看，可以从帖子中提取出用户发贴时间。社交媒体用户行为的时间模式构建时所使用的数据就是这种发帖时间的标签数据。根据关于用户行为的相关定义，社交媒体用户行为的时间模式构建就是要把用户行为数据转换成为行为模式的元信息。

给定包含r个用户的行为数据集US(d)＝(U(u₁,d),U(u₂,d),…,U(u_r,d))和隐私保护的匿名度k，用户行为模式元信息中的时间粒度选择方法包含以下六个处理步骤，具体描述如下。

(1)初始化两个集合为空集，即元信息的属性集A＝{}和元信息集

(2)选择10-15分钟中的一个数为最小时间粒度tm，对时间段d进行分割，即分割为x＝int(d/tm)个时间段，记为d₁,d₂,…,d_x。之所以选择10-15分钟范围内的数是考虑到隐私度和数据可用性的矛盾，时间粒度太小可能导致隐私度减小，但会提高数据可用性。

(3)计算时间粒度内的最小行为数min，

min＝k

(4)为了避免一个时间粒度内的行为数量太少而导致隐私风险增大，在这个步骤判断相邻时间粒度内的行为数据是否需要进行合并，即扩大时间粒度。

如果某个时间粒度d_i内的行为数小于min，则将d_i和它之后时间粒度合并，直到行为数量大于min，并将新的时间粒度标志为t_i。

(5)记录下每个时间粒度t_i对应的时间段标签A_i，并插入到集合A中。重复执行步骤4，直到扫描完所有的时间粒度。

(6)对每个用户u₁,u₂,…,u_r，统计在每个时间段A₁,A₂,…,A_n内的行为次数，对于用户i，记为M_i＝{a₁,a₂,…,a_n}。将M_i插入到元信息集中。处理完所有用户。

输出：K为用户个数。

A＝{A₁，A₂，…，A_n}

需要说明的是，元信息集直接提供给后续的自适应隐私保护算法处理，而元信息的属性集A只是为使用隐私保护数据的应用提供数据解释，并不要在后续的算法中处理和使用。

2、自适应隐私保护算法的处理流程

自适应隐私保护算法的处理流程描述如下，主要包含11个步骤，最终将行为模式的元信息集转换成为隐私保护后的数据集。

输入：匿名度k；行为模式的元信息集其中M_i＝{a₁,a₂,…,a_n}，K是用户数，a是用户在某个时间粒度上的行为数量，n是时间粒度数。

处理：

(1)初始化微聚集结果集PD＝{}。

(2)计算元信息集的整体质心C，在第i个时间粒度上的质心分量计算方法如下：

其中，a_i,j表示用户j在时间粒度i上的行为数量，即M_j的第i个分量。

(3)找出离整体质心最远的点作为离心点，并找出距离离心点最近的2k-1个点。依距离从小到大排序，取前k-1个与离心点组成一个既有类，而剩余的k个点构成一个候选点队列。

在这里，距离的计算采用欧氏距离，即：

那么，既有类的构成可以表示为：

CL＝{W，M₁，M₂，…，M_k-1}

其中，M₁,M₂,…,M_k-1是前k-1个距离离心点最近的点，N是离心点。

候选队列L＝{M₁,M₂,…,M_k}是前2k-1个距离离心点最近的点(除去CL中的非离心点)。

(4)对于候选点队列L＝{M₁,M₂,…,M_k}中的每一个候选点M_i，循环执行步骤5-8，判断该点是否可以加入到既有类CL中。

(5)构建第一假想类JC₁、第二假想类JC₂、第三假想类JC₃，如类的构成形式如下：

JC₁＝CLU{M_i}

JC₂＝{M_j|M_j＝argmin_k，JC1d(M_i，M_j)

JC₃＝JC₂U{M_i}

其中，argmin_k,JC1d(M_i,M_j)表示除第一假想类之外的k个距离候选点最邻近的点。

(6)计算既有类CL、第一假想类JC₁、第二假想类JC₂、第三假想类JC₃的信息损失。这里的信息损失是指将类中的点用质心代替所产生的信息损失，因此基本的计算方法如下，并将这四类的信息损失分别记为IL₁、IL′₁、IL₂、IL′₂。

其中，x_i表示JC类中的第i个元素，表示JC类的质心。

(7)当下列条件满足时，

ΔIL＝IL′₁+IL₂-IL₁-IL′₂≤0

把候选点M_i加入既有类中，否则候选点M_i不加入既有类中。

(8)将候选点从候选点队列中删除。继续处理下一个候选点。

(9)保存既有类信息到结果集PD中，PD←CL。

(10)将该既有类中的点从元信息集中删除，若元信息集剩余点的个数不少于2k，则回到步骤2继续执行；否则，依照信息损失最小原则，将剩余点分配到相应的既有类之中，即：

CL_j←argmin_l(IL(CL_lU{M_i})

其中，argmin_l表示遍历所有既有类，求得信息损失最小的既有类。

(11)生成隐私保护后的数据集PD′

PD′＝{}

For each CL_i∈PD

计算CL_i的质心C_i

For each M_j∈CL_i，

PD′←C_i

输出：隐私保护后的数据集PD′。

实施例说明

假如，元信息集的某个区域中有数据点(0,0),(4,5),(5,4),(8,8),(12,12),(13,13),(14,14)，其中(0,0)是离心点，假设匿名度k选为3。

则(0,0),(4,5),(5,4)构成了既有类，信息损失为28。

既有类连同(8,8)构成了第一假想类，信息损失为65.5。

剩余点构成了第二假想类，信息损失为4。

候选点连同第二假想类构成了第三假想类，信息损失为4。

可以得到候选点加入既有类的信息损失为5.77，候选点加入第二假想类的信息损失为41.5。

因此，候选点应该加入第二假想类中。

Claims

1.一种社交媒体用户行为时间模式的自适应隐私保护方法，其特征在于，先定义所需处理的用户行为、行为模式元信息、行为模式的元信息集：

定义1，用户行为，是指用户在网络社交媒体中留下附带有时间标签的痕迹的行为，包括发贴行为、评论行为、签到行为；在面向以时间点数据为主的应用中，时间模式是导致隐私泄露的主要数据源，将这种原始的用户行为表示为：

其中，表示某个用户，表示某个时间段，表示行为在时间标签上的数值，是在时间段内的时间标签数；

定义2，行为模式元信息，一定时间范围内的用户行为对应一个二维结构，将该时间范围按特定粒度切分成时间段，构成第一个维度，每个时间段上用户行为的频次作为第二个维度，连续的个时间段上用户行为的频次称为行为模式元信息；时间段是元信息的属性，记作，时间段上用户行为的频次是元信息的值，记作，从而元信息可以表示为连续个时间段属性上的投影，记投影映射为T：

；

定义3，行为模式的元信息集，把行为模式元信息看作空间中的数据点，由社交媒体中所有用户对应的K个数据点所构成的点集称为行为模式的元信息集，形式定义如下：

其中，，i=1,2,…,K；

自适应隐私保护方法分为预处理流程和隐私保护流程两个步骤：

（一）预处理流程包括：获取原始数据，按最小时间分割粒度，扩大时间粒度，生成行为模式元信息集；

（1）获取原始数据

原始数据是指社交媒体上与用户行为有关的数据，可以通过各种网络爬虫或社交媒体自身提供的应用程序接口调用得到，将用户标识和行为的时间戳提取出来，该数据集包括若干个用户在一定时间内的行为数据，符合定义1的要求；

（2）按最小时间粒度分割

先设定一个最小时间粒度，其原则是优先保证数据可用性；分割过程就是对原始数据集的时间跨度按照最小时间粒度进行平均分割；

（3）扩大时间粒度

扩大时间粒度的目的是为了提升数据的隐私度，同时减小原始数据的数据量，以保证后续的自适应微聚集算法在处理这些数据时不需要太多的计算资源消耗；扩大时间粒度的过程为：依次扫描每个最小时间粒度上的用户行为数量，当该数量小于匿名度时，表明这种时间粒度无法保证k个不同用户的隐私；将其与后续的时间粒度进行合并，直到满足行为数量大于匿名度为止，得到获得了一系列时间粒度；

（4）生成行为模式元信息集

生成行为模式的元信息集就是统计每个用户在每个时间粒度分割区间上的行为数量，并构造成为一个大小为用户数量*时间粒度数的矩阵；

对于已经获得的一系列时间粒度，按照顺序分别形成分割区间，即；

最终所形成的矩阵形式上为：

其中，每个元素表示第i个用户在第j个区间上的行为次数，K为用户数；

（二）隐私保护流程，包括：设定匿名度k，执行微聚集隐私保护算法（Ada-MAPP）的处理流程，产生隐私保护数据集

（1）设定匿名度k

匿名度是用于控制一个数据集中相同记录的个数；对于一个含有k个用户的数据集，如果这些用户的行为数据都相同，那么攻击者成功推断其中任何一个用户的概率为1/k；

（2）微聚集隐私保护算法的处理，具体步骤如下：

对于用户行为模式的元信息集，匿名度k；

1）计算元信息集的整体质心，找出离整体质心最远的点作为离心点，并找出距离离心点最近的2k-1个点；依距离从小到大排序，取前k-1个与离心点组成一个既有类，而剩余的k个点构成一个候选点队列；

2）对于候选点队列中的每一个候选点，循环执行步骤3）-5）的自适应判断条件，决定是否将候选点加入到既有类中；

3）构建第一假想类、第二假想类、第三假想类，既有类与候选点共同形成的类作为第一假想类，除第一假想类之外的个距离候选点最邻近的点形成的类作为第二假想类，候选点与除既有类之外的个最近邻点形成的类作为第三假想类；

构造完假想类后，分别计算既有类、第一假想类、第二假想类以及第三假想类这四个类的信息损失；如果既有类与第三假想类的信息损失之和大于第一假想类与第二假想类的信息损失之和，则执行步骤4）；反之，执行步骤5）；

4）将候选点加入既有类之中，并从候选点队列中删除，继续处理下一个候选点；

5）只将候选点从候选点队列中删除，不加入既有类之中，继续处理下一个候选点；

6）记录既有类信息，并将该既有类中的点从元信息集中删除，若元信息集剩余点的个数不少于2k，则回到步骤1）继续执行；否则，依照信息损失最小原则，将剩余点分配到相应的既有类之中；

7）生成隐私保护后的数据集，对既有类中的每个点用其质心代替，对所有的既有类都这样处理，从而将原始行为模式的元信息集转换成为新的具备保护隐私能力的数据集；

最后得到隐私保护后的数据集。

2.根据权利要求1所述的社交媒体用户行为时间模式的自适应隐私保护方法，其特征在于，步骤3）-5）中的自适应判断条件，具体如下：

判断候选点是否加入既有类时，需要构造三个假想类；既有类与第三假想类的信息损失之和大于第一、第二假想类的信息损失之和，就是候选点加入既有类后减小整体信息损失的充要条件；该判断条件的具体计算方法如下：

首先，既有类的信息损失记为，信息损失采用SSE度量方法，即误差项的平方和，由此，可以计算既有类的信息损失：

上式中，为既有类中的数据点，为既有类的质心，k为类中的样本点数；

在构造的第一假想类中，候选点被分配到了既有类中，因而对既有类的质心造成了扰动，记第一假想类的质心为，则第一假想类的信息损失的计算方法如下：

同理，第二假想类的信息损失和第三假想类的信息损失分别表示为：

上式中，为第二假想类和第三假想类中的数据点，为第二假想类的质心，为第三假想类的质心；

如果把候选点分配到既有类中，则整体的信息损失为第一假想类和第二假想类的信息损失之和，即：

如果把候选点分配到第二假想类中，则整体的信息损失为既有类和第三假想类的信息损失之和，即：

将两种情况下的信息损失相减，得到它们的差值：

其中，为第一假想类相对于既有类的信息损失增量，为第三假想类相对于第二假想类的信息损失增量，表示候选点分配到既有类中相对于候选点分配到第二假想类中的整体信息损失的增量；

判断条件为，这一条件的满足，说明候选点分配到既有类中造成的整体信息损失更小，把候选点加入既有类中；反之，说明候选点分配到第二假想类中造成的整体信息损失更小，不把候选点加入既有类中。