CN110210244B

CN110210244B - 检测社交媒体用户隐私泄露的方法和系统

Info

Publication number: CN110210244B
Application number: CN201910387263.5A
Authority: CN
Inventors: 梁英; 董祥祥; 李锦涛; 谢小杰; 史红周; 高昂
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2020-12-29
Anticipated expiration: 2039-05-10
Also published as: CN110210244A

Abstract

本发明的实施例提供了检测社交媒体用户隐私泄露的方法和系统，其中基于用户发布的数据评估用户每个隐私属性的确定性，基于用户所在社交媒体的网络结构确定用户数据的可见性，以及根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度，并向该用户发出隐私泄露风险提示。本发明实施例的技术方案中基于用户发布的信息内容、社交网络结构、用户社交关系强度、用户隐私偏好设置等因素全面有效量化了用户隐私泄露程度，能帮助社交媒体用户及时发现隐私泄露事件的发生，从而减小了隐私泄露的危害。

Description

检测社交媒体用户隐私泄露的方法和系统

技术领域

本发明涉及社交媒体数据挖掘及隐私保护技术，尤其涉及用于检测社交媒体用户隐私是否泄露的方法和系统。

背景技术

社交媒体(Social Media)指互联网上基于用户关系的内容生产与交换平台。当前，社交媒体已经被广泛应用于人们的日常生活中，是人们彼此之间用来分享意见、见解和观点的工具和平台。社交媒体为人们在线社交提供便利的同时也带来了隐私泄露的风险。人们通常会主动通过社交媒体发布信息，而这些信息很有可能涉及用户隐私，比如用户的性别，工作和地址等。在社交网络中，用户发布的信息可以被他人轻易获取，很可能造成隐私泄露；而用户又难以确切地了解或控制这些消息的具体去向，所以也很难及时察觉其隐私已经被泄露。由此，亟需一种能够帮助社交媒体用户及时发现隐私泄露事件的方法，以尽量减小隐私泄露的危害，这对维护社交网络安全有积极意义。

发明内容

本发明实施例的目的在于提供一种检测社交媒体用户隐私泄露的方法和系统，对用户隐私泄露风险进行有效评估，帮助用户及时发现可能的隐私泄露事件。

上述目的是通过以下技术方案实现的：

根据本发明实施例的第一方面，提供了一种检测社交媒体用户隐私泄露的方法，包括：

基于用户发布的数据评估用户每个隐私属性的确定性，所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小；基于用户所在社交媒体的网络结构确定用户数据的可见性，所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小；根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度；以及响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。

在一些实施例中，该方法还可包括获取用户对于各隐私属性的偏好设置，并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度；以及根据所述用户隐私属性的确定性、用户数据的可见性以及用户对于每个隐私属性的敏感程度来共同衡量所述用户隐私泄露的程度。

在一些实施例中，基于用户发布的数据评估用户隐私属性的确定性可以是利用与各隐私属性对应的预先训练好的属性识别模型来完成的，每个隐私属性对应的属性识别模型输入为用户发布的数据，其输出为该用户的隐私属性分别取各个属性值的概率。

在一些实施例中，每个隐私属性对应的属性识别模型可以是通过下列步骤进行训练的：采集一段时间内社交媒体中各用户发布的信息，对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值；将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。

在一些实施例中，用户隐私属性的确定性可使用如下公式进行计算：

其中，cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性，pra_jmk表示用户j的第m个隐私属性取第k个属性值的概率，K_m表示第m个隐私属性的可能取的属性值的数量。

在一些实施例中，用户数据的可见性可以使用基于下列中的一项或多项来衡量：用户在社交网络中的重要程度、用户之间的社交关系强度和用户的活跃程度；其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的；用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置；用户的活跃程度可以使用用户在一段时间内发布的信息数量来衡量。

在一些实施例中，用户在社交网络中的重要程度可以是通过下列步骤获取的：

步骤A1：将社交媒体的各用户的重要程度以用户重要性向量UR来表示，该向量为n维，其中n指示社交媒体的用户数量，该向量的第i个元素ur_i表示用户i在社交网络中的重要程度，该向量的每个元素取值都初始化为1/n；

步骤A2：基于社交网络中各用户之间的社交关系，按照下面的更新公式对于用户重要性向量进行更新：

其中，UR_t表示更新t轮后的用户重要性向量；q是阻尼系数，其取值为0-1之间的实数；T为指示社交网络中各用户间社交关系的矩阵，该矩阵T中第i行j列的元素t_ij表示用户i对用户j的关注程度，t_ij＝0表示用户i未关注用户j，t_ij>0表示用户i关注了用户j。

在一些实施例中，用户数据的可见性可以使用如下公式计算：

或者

其中，vis_j表示用户j的数据可见性，t_ij表示用户i对用户j的关注程度，t_ij＝0表示用户i未关注用户j，t_ij>0表示用户i关注了用户j；I(x)代表一个指示函数，其输入变量x为真返回1，否则返回0；ur_j表示用户j在社交媒体的网络中的重要程度；wb_j表示用户j在一段时间内发布的信息数量，h为取值为0-1之间的参数。

在一些实施例中，用户对于每个隐私属性的敏感程度可以使用如下公式来计算：

其中sbj_sen_jm表示用户j对于其第m个隐私属性的敏感程度，d表示用户的隐私属性的数量；r_jm表示用户j对于其第m个隐私属性设置的偏好值；r_jq表示用户j对于其第q个隐私属性设置的偏好值。

在一些实施例中，用户隐私泄露的程度可以如下公式来计算：

或

其中ps_j表示用户j的隐私泄露程度；sbj_sen_im表示用户i对于其第m个隐私属性的敏感程度；vis_j表示用户j的数据可见性；cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性；sbj_sen_jm表示用户j对于其第m个隐私属性的敏感程度。

根据本发明实施例的第二方面，还提供了一种检测社交媒体用户隐私泄露的系统，包括属性确定性估计模块，数据可见性估计模块，隐私泄露评估模块和提示模块。其中属性确定性估计模块用于基于用户发布的数据评估用户每个隐私属性的确定性，所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小。数据可见性估计模块用于基于用户所在社交媒体的网络结构确定用户数据的可见性，所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。隐私泄露评估模块用于根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。提示模块用于响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。

本发明实施例的技术方案可以包括以下有益效果：

不仅考虑了用户公开发布的信息对于隐私泄露的影响，还考虑了用户信息在社交网络中的传播范围、用户对隐私的个性化需求等，基于社交网络结构、用户社交关系强度、用户隐私偏好设置等因素来全面并有效量化了用户隐私泄露程度，能帮助社交媒体用户及时发现隐私泄露事件的发生，从而减小了隐私泄露的危害。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本发明一个实施例的检测社交媒体用户隐私泄露的方法的流程示意图。

图2示出了根据本发明一个实施例的用户重要性的计算方法的流程示意图。

图3示出了根据本发明一个实施例的检测社交媒体用户隐私泄露的系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1给出了根据本发明实施例的一种检测社交媒体用户隐私泄露的方法的流程示意图。该方法主要包括：S1)基于用户发布的数据评估用户每个隐私属性的确定性；S2)基于用户所在社交媒体的网络结构确定用户数据的可见性；S3)根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度；以及S4)响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。

更具体地，在步骤S1)基于用户发布的数据评估用户每个隐私属性的确定性。其中隐私属性通常指的是用户希望保密的，不希望社交媒体其他用户在不经允许的情况下获知的用户属性信息。通常，可以通过给社交媒体设置的相应接口来获取由用户设置或指定的隐私属性的集合，或者可以采用社交媒体系统为用户默认设置的隐私属性的集合。虽然用户在发布信息时可能会注意隐藏这些隐私属性相关的信息，但用户发布信息的内容和惯用语言等常常在一定程度上会泄露用户的一些隐私属性信息，因此很有可能通过该用户发布的公开数据推测出用户的隐私属性。例如，如果用户发布的信息中经常出现“本仙女”，“化妆”，“可爱”等类似用语，那么即便用户隐藏了性别属性，在社交网络中其他用户在该用户发布的信息基础上也可能会推测出该用户的性别为女性。由此，在评估用户隐私泄露程度时一个需要考虑的重要因素就是用户的每个隐私属性的确定性。隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小或概率，隐私属性的确定性越大则表示对应属性的隐私泄露风险越大。其中，可以基于属性后验分布的信息熵估计用户属性确定性，例如可使用如下公式进行计算：

其中，cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性，pra_jmk表示用户j的第m个隐私属性取第k个属性值的概率，K_m表示第m个隐私属性的可能取的属性值的数量。用户的每个属性都可能有多个取值，比如“性别”属性可能的取值为“男”和“女”。

在一个实施例中，可以基于关键词统计的方法来估计用户j的第m个隐私属性取第k个属性值的概率pra_jmk。例如，为每个属性值预先设置一些关键词，接着采集一段时间内用户发布的信息文本数据，然后根据用户发表的信息文本中对于该属性值命中的关键词个数来估计pra_jmk。以“性别”属性为例，其属性值包括“男”和“女”，为属性值“男”设置对应关键词有{“哥哥”、“兄弟”、“爷们”}，为属性值“女”设置的对应关键词有{“本仙女”、“化妆”、“可爱”}。在所采集的用户发布的信息文本数据集合中，“哥哥”，“兄弟”，“爷们”三个词出现了8次，而“本仙女”，“化妆”，“可爱”出现了两次，那么，“性别”属性取第1个属性值“男”的概率pra_jm1＝{性别男}＝0.8，“性别”属性取第2个属性值“女”的概率pra_jm2＝{性别女}＝0.2。

在又一个实施例中，可以通过文本分类学习的方法来估计用户j的第m个隐私属性取第k个属性值的概率pra_jmk。在该实施例中，需要为每个隐私属性分别训练相应的属性识别模型，并利用与各隐私属性对应的预先训练好的属性识别模型完成对用户隐私属性的确定性的评估。其中每个隐私属性对应的属性识别模型输入为用户发布的数据，其输出为该用户的隐私属性分别取各个属性值的概率。例如以逻辑回归模型来属性识别模型，对于用户j的第m个属性的属性识别模型，假设该第m个属性的可能的取值为K_m个，则其对应的属性识别模型接收的输入为用户的信息文本，输出共有K_m个，对应该用户的第m个属性分别取各个属性值的概率。其中每个隐私属性对应的属性识别模型可以是通过下列步骤进行训练的：I)采集一段时间内社交媒体中各用户发布的信息，对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值；II)将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。这样，在用户发布的信息的基础上利用上述过程训练好的每个属性的属性识别模型确定该用户对于每个隐私属性取各个属性值的概率，即估计出上述公式中需要的用户j的第m个隐私属性取第k个属性值的概率pra_jmk。

继续参考图1，在步骤S2)基于用户所在社交媒体的网络结构确定用户数据的可见性。虽然通过步骤S1)利用用户发布的信息估计的用户隐私属性的确定性可以在一定程度上反映或体现出用户隐私泄露风险的大小，经发明人研究发现，用户隐私泄露的风险还与该用户发布的信息在社交媒体中传播范围、用户之间的社交关系强度等相关联。由此，在本发明的实施例中，在评估用户隐私泄露程度时还兼顾了另一个重要因素，即用户数据的可见性。用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。用户数据可见性实际上也可以理解为用户数据的曝光程度，即用户数据被他人看到的概率。用户数据可见性越大，用户的隐私泄露风险就越高。用户数据的可见性可以使用基于下列中的一项或多项来衡量：用户在社交媒体中的重要程度、用户之间的社交关系强度和用户的活跃程度。其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的；用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置；用户的活跃程度可以使用用户在一段时间内发布的信息数量来衡量。

在一个实施例中，可以使用用户在社交媒体中的重要程度(也可以称为用户重要性)来指示或表征该用户的数据被他人看到的概率。用户越重要，用户数据被他人看到的概率越大，用户的隐私泄露的风险也就越大。比如微博中的大V账号粉丝众多，重要性比较大，其发布的微博可以被很多人看到，如果微博中包含其隐私就很容易造成隐私泄露。用户重要性可以根据社交媒体的网络结构来进行量化评估。在社交网络中，用户被越多的其他用户关注(即粉丝越多)，那么该用户就越重要；同时关注该用户的用户越重要(即粉丝本身的重要性越大)，相应地该用户也越重要。也就是说用户的重要性与其粉丝用户的数量和粉丝用户的重要性密切相关。而每个粉丝用户本身也会被其他多个用户关注，因此要基于社交网络结构计算某个用户的重要性，需要层层统计其粉丝用户的重要性。

图2给出了根据本发明一个实施例的采用了多轮迭代更新的方式来计算用户重要性的方法的流程图。该方法主要包括：

步骤201：初始化用户重要性向量；其中将社交网络的各用户重要性以用户重要性向量UR来表示，该向量为n维，其中n指示社交网络的用户数量，该向量的第i维元素ur_i表示用户i的重要性，该向量每个元素取值都初始化为1/n。

步骤202：更新用户重要性向量；其中基于社交网络中各用户之间的社交关系，按照下面的更新公式对于用户重要性向量进行更新：

其中，UR_t表示更新t轮后的重要性向量；q是阻尼系数，其取值在0-1之间的实数，通常大于0.5，在该实施例中，可将其设置为0.85，通过合理设置q的取值，可以尽量避免最终得到的重要性值全部流向社交网络中的悬挂点，即那些被其他用户关注却并不关注任何用户的用户。其中T为指示社交网络中各用户间社交关系强度的矩阵，用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置。例如，该矩阵T中第i行j列的元素t_ij表示用户i对用户j的关注程度，例如，t_ij＝0表示用户i未关注用户j，t_ij＝1或t_ij>0表示用户i关注了用户j。又例如，该矩阵T中第i行j列的元素t_ij表示用户i对用户j的交互频率，例如，t_ij＝0表示用户i与用户j无交互，t_ij＝1表示表示用户i与用户j之间有交互，或可以将t_ij设置为大于0自然数，指示在预定时间段内交互的次数。

步骤203：判断当前用户重要性向量UR_t与前一轮的用户重要性向量UR_t-1的欧式距离是否小于可接受误差ε。如果前后两轮之间的欧式距离相差小于可接受误差ε，则停止更新，转到步骤204输出当前的用户重要性向量UR；否则转到步骤202继续更新。这样，用户j的数据被他人看到的概率(即该用户数据可见性)vis_j＝ur_j,其中ur_j为用户重要性向量UR中的第j个元素。

在又一个实施例中，假设以p_ij表示用户i能够获取到用户j发布的数据的概率，那么用户j的数据可见性就可以表示为社交媒体中各个用户能够获取到用户j发布的数据的概率的平均值，也就是用户j的数据可见性vis_j可以如下公式计算：

其中，用户i能够获取到用户j发布的数据的概率p_ij不仅与用户j的重要性相关，还与用户i与用户j之间的社交关系相关。也就是说，用户j的数据一定可以被其粉丝看到，但是被非粉丝看到的概率主要与用户j自身在社交网络中的重要性有关，因此用户i能够获取到用户j发布的数据的概率p_ij可以通过如下公式计算：

那么，将其代入上面的用户j的数据可见性vis_j计算公式(1)可得：

其中t_ij表示用户i对用户j的关注程度，例如，t_ij＝0表示用户i未关注用户j，t_ij>0表示用户i关注了用户j；I(x)代表一个指示函数，其输入变量x为真返回1，否则返回0；ur_j表示用户j在社交媒体的网络中的重要程度。在优选的实施例中，在计算用户i能够获取到用户j发布的数据的概率p_ij时，至少考虑下面3个方面的因素相关：1)用户j自身的重要性ur_j，ur_j越大，用户j的数据被他人看到的可能性越大；2)用户i与用户j的社交关系强度t_ij，t_ij越大，用户i看到用户j数据的可能性越大；3)用户j的活跃程度，例如可以使用用户j近期发布的信息数wb_j来衡量，wb_j越大，用户j数据被他人看到的可能性越大。因此用户i能够获取到用户j发布的数据的概率p_ij可以通过如下公式计算：

其中h∈[0,1]是由系统设置的参数，用于估计在获取到信息之后该信息被点击或查看的程度，h值设置越大则表示信息整体上被用户阅读的可能性越大，不影响相对可见性大小，即不影响信息被获取的可能性大小。p′_ij表示用户i看到用户j的一条信息的概率，其计算方法可以如下：

那么，根据上面用户j的数据可见性vis_j计算公式(1)可得：

其中t_ij表示用户i对用户j的关注程度，例如，t_ij＝0表示用户i未关注用户j，t_ij>0表示用户i关注了用户j；I(x)代表一个指示函数，其输入变量x为真返回1，否则返回0；ur_j表示用户j在社交媒体的网络中的重要程度；wb_j表示用户j在一段时间内发布的信息数量。

继续参考图1，在步骤S3)根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。例如用户隐私泄露的程度可以通过这两种指标的加权求和来获取。例如使用下面的公式：

其中ps_j表示用户j的隐私泄露程度；vis_j表示用户j的数据可见性；cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性。也可以给根据实际需求给vis_j和cer_jm分别指定不同的权重来区别这两种指标的重要程度。

在步骤S4)响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。阈值的设定可以根据基于历史数据统计的经验值来设置或者根据用户对隐私的看重程度而由用户指定。在该实施例中，通过步骤S3)得到的ps_j可以从整体上反映用户j的隐私泄露程度，而通过步骤S1)估计的每个用户隐私属性的确定性可以从更细粒度上反映用户的哪个隐私属性泄露的程度更大。因此，可以给用户提供更细致的隐私泄露风险提示信息。

在又一些实施例中，该方法还可包括获取用户对于各隐私属性的偏好设置，并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度(也可以称为隐私属性敏感性)；以及将用户对于每个隐私属性的敏感程度与上文确定的用户隐私属性的确定性、用户数据的可见性相结合来共同衡量用户隐私泄露的程度。这是考虑到对于用户本身而言，其对于不同的隐私属性的敏感性是不同的。用户通常对于一个或一些隐私属性比较敏感，而对于其余隐私属性不敏感，那么即便其余隐私属性全部被泄露，对于用户而言也可能认为其隐私并未被暴露给其他人；反之如果用户比较敏感的隐私属性的其中一个或几个被泄露，用户会立刻感觉隐私受到侵犯。其中，用户对隐私属性敏感性可以基于用户隐私偏好设置来进行量化评估。假设与用户相关的隐私属性集中包含d个隐私属性。社交网络中每个用户可以根据需求将其隐私属性集中的每个属性的偏好程度或敏感度设置为预设区间内的一个自然数，数值越大表示隐私偏好程度越高，说明用户对该隐私属性越敏感。由此，用户的隐私偏好设置可以表示为d维的整数向量的形式。在经量化后的用户隐私偏好设置的基础上，可以通过下列步骤计算用户对隐私属性的敏感性：

步骤C1：获取社交媒体中每个用户的隐私偏好对应的向量并构建敏感性响应矩阵R。该敏感性响应矩阵R是社交媒体各用户的隐私偏好向量构成的矩阵，行对应用户，列对应属性，其中第j行第m列的元素r_jm表示用户j对第m个属性设置的隐私偏好程度。该敏感性响应矩阵R的第j行R_j表示用户j的隐私偏好向量，第m列R_m表示所有用户为第m个属性设置的隐私偏好程度。

步骤C2：用户j对于其第m个隐私属性的敏感程度sbj_sen_jm可以表示为：

其中d表示用户的隐私属性的数量；r_jm表示用户j对于其第m个隐私属性设置的偏好值；r_jq表示用户j对于其第q个隐私属性设置的偏好值。这里得到的用户j对于其第m个隐私属性的敏感程度sbj_sen_jm实际上可以认为是主观敏感性，表示用户对属性敏感程度的主观评价，与用户和属性都相关，不同用户对同一属性的主观敏感性可能不同。在又一个实施例中，可以基于不同用户对同一属性的敏感程度的平均值来表征在社交媒体用户对于该属性的整体敏感程度，也可理解为客观敏感性，及反映社交媒体中所有用户对于某个属性整体上的敏感程度。例如，属性m的客观敏感性obj_sen_m可由所有用户对于该属性的主观敏感性的均值得到，计算公式如下：

其中n表示社交媒体中的用户总数，sbj_sen_im是主观敏感性，表示用户i对于其第m个隐私属性的敏感程度。这里的客观敏感性可表示属性的固有敏感程度，不再局限于某个用户本身的主观感受。

在获得用户对隐私属性的敏感性的量化评估后，可以将其与上文提到的用户数据可见性指标和/或用户隐私属性确定性指标结合来评估用户隐私泄露的程度。例如，可综合考虑这三个指标来对用户隐私泄露程度进行量化评分。以上文提到的客观敏感性作为用户对隐私属性的敏感性指标，可以使用如下公式评估用户j的隐私泄露程度：

其中obj_ps_j表示用户j的客观隐私泄露程度；obj_sen_m表示社交媒体各用户对于第m个隐私属性的整体敏感程度；vis_j表示用户j的数据可见性；cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性。这里获取的用户j的隐私泄露程度obj_ps_j可以理解为针对用户的全局隐私评分，采用的是属性的客观敏感性进行评估的，由于客观敏感性与属性本身有关而与各个用户本身关系不大，所以可以对不同用户的全局隐私评分相互比较。在又一个实施例中，也可以利用上文提到的主观敏感性作为用户对隐私属性的敏感性指标来评估用户的隐私泄露程度，例如用户j的隐私泄露程度也可以通过如下公式计算：

其中sbj_ps_j表示用户j的主观隐私泄露程度；vis_j表示用户j的数据可见性；cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性；sbj_sen_jm表示用户j对于其第m个隐私属性的敏感程度。这样获取的用户j的隐私泄露程度sbj_ps_j是采用的属性的主观敏感性指标进行评估的，可以理解为针对用户的个性化隐私评分，兼顾了不同用户对于隐私属性的不同偏好，更容易满足用户的个性化需求。在又一个实施例中，也可以同时采用全局隐私评分obj_ps_j和个性化隐私评分sbj_ps_j来从不同的角度对用户的隐私泄露程度进行评估。应理解，符号obj_ps_j和sbj_ps_j是对于用户j的客观隐私泄露程度和主观隐私程度的符号表示的示例，也可以用符号ps_j来指示用户的任何一种隐私泄露程度，本文的实施例中不对具体的符号标记进行限定。

在本发明的实施例中，综合了用户公开发布的信息对于隐私泄露的影响、用户信息在社交网络中的传播范围、用户对隐私的个性化需求，基于社交网络结构、用户社交关系强度、用户隐私偏好设置等因素有效量化了用户隐私泄露程度，能帮助社交媒体用户及时发现隐私泄露事件的发生，从而减小了隐私泄露的危害。

图3为根据本发明一个实施例的检测社交媒体用户隐私泄露的系统的结构示意图。如图3所示，该系统300包括属性确定性估计模块301，数据可见性估计模块302，隐私泄露评估模块303和提示模块304。尽管该框图以功能上分开的方式来描述组件，但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且，无论这样的组件是如何被组合或划分的，它们都可以在同一计算装置或多个计算装置上执行，其中多个计算装置可以是由一个或多个网络连接。

其中属性确定性估计模块301采用如上文介绍的方式基于用户发布的数据评估用户每个隐私属性的确定性，其中隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小。数据可见性估计模块302采用如上文介绍的方式基于用户所在社交媒体的网络结构确定用户数据的可见性，其中用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。隐私泄露评估模块303可以如上文介绍的那样根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。提示模块304可以响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种检测社交媒体用户隐私泄露的方法，包括：

基于用户发布的数据评估用户每个隐私属性的确定性，所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小；

基于用户所在社交媒体的网络结构确定用户数据的可见性，所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小；

根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度；

响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息；

其中基于用户发布的数据评估用户隐私属性的确定性是利用与各隐私属性对应的预先训练好的属性识别模型来完成的，每个隐私属性对应的属性识别模型输入为用户发布的数据，其输出为该用户的隐私属性分别取各个属性值的概率。

2.根据权利要求1所述的方法，还包括获取用户对于各隐私属性的偏好设置，并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度；以及

根据所述用户隐私属性的确定性、用户数据的可见性以及用户对于每个隐私属性的敏感程度来共同衡量所述用户隐私泄露的程度。

3.根据权利要求1所述的方法，其中每个隐私属性对应的属性识别模型是通过下列步骤进行训练的：

采集一段时间内社交媒体中各用户发布的信息，对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值；

将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。

4.根据权利要求1所述的方法，其中用户隐私属性的确定性以如下公式进行计算：

5.根据权利要求1-2或3-4中任一项所述的方法，其中用户数据的可见性以基于下列中的一项或多项来衡量：用户在社交网络中的重要程度、用户之间的社交关系强度和用户的活跃程度；其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的；用户之间的社交关系强度根据用户之间的关注关系和/或用户之间的交互频率来设置；用户的活跃程度以用户在一段时间内发布的信息数量来衡量。

6.根据权利要求5所述的方法，其中用户在社交网络中的重要程度是通过下列步骤获取的：

步骤A2：基于社交网络中各用户之间的社交关系，按照下面的更新公式对用户重要性向量进行更新：

7.根据权利要求6所述的方法，其中用户数据的可见性以如下公式计算：

或者

8.根据权利要求2所述的方法，其中用户对于每个隐私属性的敏感程度以如下公式来计算：

9.根据权利要求8所述的方法，其中用户隐私泄露的程度以如下公式来计算：

或

其中ps_j表示用户j的隐私泄露程度；sbj_sen_im表示用户i对于其第m个隐私属性的敏感程度；vis_j表示用户j的数据可见性；cer_jm代表对于社交媒体中用户j的第m个隐私属性的确定性；sbj_sen_jm表示用户j对于其第m个隐私属性的敏感程度；n表示社交媒体中的用户总数。

10.一种检测社交媒体用户隐私泄露的系统，包括：

属性确定性估计模块，用于基于用户发布的数据评估用户每个隐私属性的确定性，所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小；其中基于用户发布的数据评估用户隐私属性的确定性是利用与各隐私属性对应的预先训练好的属性识别模型来完成的，每个隐私属性对应的属性识别模型输入为用户发布的数据，其输出为该用户的隐私属性分别取各个属性值的概率；

数据可见性估计模块，用于基于用户所在社交媒体的网络结构确定用户数据的可见性，所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小；

隐私泄露评估模块，用于根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度，以及

提示模块，用于响应于用户隐私泄露的程度大于设定的阈值，向该用户发出隐私泄露风险提示信息。