CN110210244B - 检测社交媒体用户隐私泄露的方法和系统 - Google Patents

检测社交媒体用户隐私泄露的方法和系统 Download PDF

Info

Publication number
CN110210244B
CN110210244B CN201910387263.5A CN201910387263A CN110210244B CN 110210244 B CN110210244 B CN 110210244B CN 201910387263 A CN201910387263 A CN 201910387263A CN 110210244 B CN110210244 B CN 110210244B
Authority
CN
China
Prior art keywords
user
privacy
attribute
data
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910387263.5A
Other languages
English (en)
Other versions
CN110210244A (zh
Inventor
梁英
董祥祥
李锦涛
谢小杰
史红周
高昂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910387263.5A priority Critical patent/CN110210244B/zh
Publication of CN110210244A publication Critical patent/CN110210244A/zh
Application granted granted Critical
Publication of CN110210244B publication Critical patent/CN110210244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Abstract

本发明的实施例提供了检测社交媒体用户隐私泄露的方法和系统,其中基于用户发布的数据评估用户每个隐私属性的确定性,基于用户所在社交媒体的网络结构确定用户数据的可见性,以及根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度,并向该用户发出隐私泄露风险提示。本发明实施例的技术方案中基于用户发布的信息内容、社交网络结构、用户社交关系强度、用户隐私偏好设置等因素全面有效量化了用户隐私泄露程度,能帮助社交媒体用户及时发现隐私泄露事件的发生,从而减小了隐私泄露的危害。

Description

检测社交媒体用户隐私泄露的方法和系统
技术领域
本发明涉及社交媒体数据挖掘及隐私保护技术,尤其涉及用于检测社交媒体用户隐私是否泄露的方法和系统。
背景技术
社交媒体(Social Media)指互联网上基于用户关系的内容生产与交换平台。当前,社交媒体已经被广泛应用于人们的日常生活中,是人们彼此之间用来分享意见、见解和观点的工具和平台。社交媒体为人们在线社交提供便利的同时也带来了隐私泄露的风险。人们通常会主动通过社交媒体发布信息,而这些信息很有可能涉及用户隐私,比如用户的性别,工作和地址等。在社交网络中,用户发布的信息可以被他人轻易获取,很可能造成隐私泄露;而用户又难以确切地了解或控制这些消息的具体去向,所以也很难及时察觉其隐私已经被泄露。由此,亟需一种能够帮助社交媒体用户及时发现隐私泄露事件的方法,以尽量减小隐私泄露的危害,这对维护社交网络安全有积极意义。
发明内容
本发明实施例的目的在于提供一种检测社交媒体用户隐私泄露的方法和系统,对用户隐私泄露风险进行有效评估,帮助用户及时发现可能的隐私泄露事件。
上述目的是通过以下技术方案实现的:
根据本发明实施例的第一方面,提供了一种检测社交媒体用户隐私泄露的方法,包括:
基于用户发布的数据评估用户每个隐私属性的确定性,所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小;基于用户所在社交媒体的网络结构确定用户数据的可见性,所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小;根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度;以及响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。
在一些实施例中,该方法还可包括获取用户对于各隐私属性的偏好设置,并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度;以及根据所述用户隐私属性的确定性、用户数据的可见性以及用户对于每个隐私属性的敏感程度来共同衡量所述用户隐私泄露的程度。
在一些实施例中,基于用户发布的数据评估用户隐私属性的确定性可以是利用与各隐私属性对应的预先训练好的属性识别模型来完成的,每个隐私属性对应的属性识别模型输入为用户发布的数据,其输出为该用户的隐私属性分别取各个属性值的概率。
在一些实施例中,每个隐私属性对应的属性识别模型可以是通过下列步骤进行训练的:采集一段时间内社交媒体中各用户发布的信息,对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值;将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。
在一些实施例中,用户隐私属性的确定性可使用如下公式进行计算:
Figure BDA0002055248590000021
其中,cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性,prajmk表示用户j的第m个隐私属性取第k个属性值的概率,Km表示第m个隐私属性的可能取的属性值的数量。
在一些实施例中,用户数据的可见性可以使用基于下列中的一项或多项来衡量:用户在社交网络中的重要程度、用户之间的社交关系强度和用户的活跃程度;其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的;用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置;用户的活跃程度可以使用用户在一段时间内发布的信息数量来衡量。
在一些实施例中,用户在社交网络中的重要程度可以是通过下列步骤获取的:
步骤A1:将社交媒体的各用户的重要程度以用户重要性向量UR来表示,该向量为n维,其中n指示社交媒体的用户数量,该向量的第i个元素uri表示用户i在社交网络中的重要程度,该向量的每个元素取值都初始化为1/n;
步骤A2:基于社交网络中各用户之间的社交关系,按照下面的更新公式对于用户重要性向量进行更新:
Figure BDA0002055248590000031
其中,URt表示更新t轮后的用户重要性向量;q是阻尼系数,其取值为0-1之间的实数;T为指示社交网络中各用户间社交关系的矩阵,该矩阵T中第i行j列的元素tij表示用户i对用户j的关注程度,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j。
在一些实施例中,用户数据的可见性可以使用如下公式计算:
Figure BDA0002055248590000032
或者
Figure BDA0002055248590000033
其中,visj表示用户j的数据可见性,tij表示用户i对用户j的关注程度,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j;I(x)代表一个指示函数,其输入变量x为真返回1,否则返回0;urj表示用户j在社交媒体的网络中的重要程度;wbj表示用户j在一段时间内发布的信息数量,h为取值为0-1之间的参数。
在一些实施例中,用户对于每个隐私属性的敏感程度可以使用如下公式来计算:
Figure BDA0002055248590000034
其中sbj_senjm表示用户j对于其第m个隐私属性的敏感程度,d表示用户的隐私属性的数量;rjm表示用户j对于其第m个隐私属性设置的偏好值;rjq表示用户j对于其第q个隐私属性设置的偏好值。
在一些实施例中,用户隐私泄露的程度可以如下公式来计算:
Figure BDA0002055248590000035
Figure BDA0002055248590000036
其中psj表示用户j的隐私泄露程度;sbj_senim表示用户i对于其第m个隐私属性的敏感程度;visj表示用户j的数据可见性;cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性;sbj_senjm表示用户j对于其第m个隐私属性的敏感程度。
根据本发明实施例的第二方面,还提供了一种检测社交媒体用户隐私泄露的系统,包括属性确定性估计模块,数据可见性估计模块,隐私泄露评估模块和提示模块。其中属性确定性估计模块用于基于用户发布的数据评估用户每个隐私属性的确定性,所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小。数据可见性估计模块用于基于用户所在社交媒体的网络结构确定用户数据的可见性,所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。隐私泄露评估模块用于根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。提示模块用于响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。
本发明实施例的技术方案可以包括以下有益效果:
不仅考虑了用户公开发布的信息对于隐私泄露的影响,还考虑了用户信息在社交网络中的传播范围、用户对隐私的个性化需求等,基于社交网络结构、用户社交关系强度、用户隐私偏好设置等因素来全面并有效量化了用户隐私泄露程度,能帮助社交媒体用户及时发现隐私泄露事件的发生,从而减小了隐私泄露的危害。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本发明一个实施例的检测社交媒体用户隐私泄露的方法的流程示意图。
图2示出了根据本发明一个实施例的用户重要性的计算方法的流程示意图。
图3示出了根据本发明一个实施例的检测社交媒体用户隐私泄露的系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本发明保护的范围。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1给出了根据本发明实施例的一种检测社交媒体用户隐私泄露的方法的流程示意图。该方法主要包括:S1)基于用户发布的数据评估用户每个隐私属性的确定性;S2)基于用户所在社交媒体的网络结构确定用户数据的可见性;S3)根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度;以及S4)响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。
更具体地,在步骤S1)基于用户发布的数据评估用户每个隐私属性的确定性。其中隐私属性通常指的是用户希望保密的,不希望社交媒体其他用户在不经允许的情况下获知的用户属性信息。通常,可以通过给社交媒体设置的相应接口来获取由用户设置或指定的隐私属性的集合,或者可以采用社交媒体系统为用户默认设置的隐私属性的集合。虽然用户在发布信息时可能会注意隐藏这些隐私属性相关的信息,但用户发布信息的内容和惯用语言等常常在一定程度上会泄露用户的一些隐私属性信息,因此很有可能通过该用户发布的公开数据推测出用户的隐私属性。例如,如果用户发布的信息中经常出现“本仙女”,“化妆”,“可爱”等类似用语,那么即便用户隐藏了性别属性,在社交网络中其他用户在该用户发布的信息基础上也可能会推测出该用户的性别为女性。由此,在评估用户隐私泄露程度时一个需要考虑的重要因素就是用户的每个隐私属性的确定性。隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小或概率,隐私属性的确定性越大则表示对应属性的隐私泄露风险越大。其中,可以基于属性后验分布的信息熵估计用户属性确定性,例如可使用如下公式进行计算:
Figure BDA0002055248590000061
其中,cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性,prajmk表示用户j的第m个隐私属性取第k个属性值的概率,Km表示第m个隐私属性的可能取的属性值的数量。用户的每个属性都可能有多个取值,比如“性别”属性可能的取值为“男”和“女”。
在一个实施例中,可以基于关键词统计的方法来估计用户j的第m个隐私属性取第k个属性值的概率prajmk。例如,为每个属性值预先设置一些关键词,接着采集一段时间内用户发布的信息文本数据,然后根据用户发表的信息文本中对于该属性值命中的关键词个数来估计prajmk。以“性别”属性为例,其属性值包括“男”和“女”,为属性值“男”设置对应关键词有{“哥哥”、“兄弟”、“爷们”},为属性值“女”设置的对应关键词有{“本仙女”、“化妆”、“可爱”}。在所采集的用户发布的信息文本数据集合中,“哥哥”,“兄弟”,“爷们”三个词出现了8次,而“本仙女”,“化妆”,“可爱”出现了两次,那么,“性别”属性取第1个属性值“男”的概率prajm1={性别男}=0.8,“性别”属性取第2个属性值“女”的概率prajm2={性别女}=0.2。
在又一个实施例中,可以通过文本分类学习的方法来估计用户j的第m个隐私属性取第k个属性值的概率prajmk。在该实施例中,需要为每个隐私属性分别训练相应的属性识别模型,并利用与各隐私属性对应的预先训练好的属性识别模型完成对用户隐私属性的确定性的评估。其中每个隐私属性对应的属性识别模型输入为用户发布的数据,其输出为该用户的隐私属性分别取各个属性值的概率。例如以逻辑回归模型来属性识别模型,对于用户j的第m个属性的属性识别模型,假设该第m个属性的可能的取值为Km个,则其对应的属性识别模型接收的输入为用户的信息文本,输出共有Km个,对应该用户的第m个属性分别取各个属性值的概率。其中每个隐私属性对应的属性识别模型可以是通过下列步骤进行训练的:I)采集一段时间内社交媒体中各用户发布的信息,对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值;II)将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。这样,在用户发布的信息的基础上利用上述过程训练好的每个属性的属性识别模型确定该用户对于每个隐私属性取各个属性值的概率,即估计出上述公式中需要的用户j的第m个隐私属性取第k个属性值的概率prajmk
继续参考图1,在步骤S2)基于用户所在社交媒体的网络结构确定用户数据的可见性。虽然通过步骤S1)利用用户发布的信息估计的用户隐私属性的确定性可以在一定程度上反映或体现出用户隐私泄露风险的大小,经发明人研究发现,用户隐私泄露的风险还与该用户发布的信息在社交媒体中传播范围、用户之间的社交关系强度等相关联。由此,在本发明的实施例中,在评估用户隐私泄露程度时还兼顾了另一个重要因素,即用户数据的可见性。用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。用户数据可见性实际上也可以理解为用户数据的曝光程度,即用户数据被他人看到的概率。用户数据可见性越大,用户的隐私泄露风险就越高。用户数据的可见性可以使用基于下列中的一项或多项来衡量:用户在社交媒体中的重要程度、用户之间的社交关系强度和用户的活跃程度。其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的;用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置;用户的活跃程度可以使用用户在一段时间内发布的信息数量来衡量。
在一个实施例中,可以使用用户在社交媒体中的重要程度(也可以称为用户重要性)来指示或表征该用户的数据被他人看到的概率。用户越重要,用户数据被他人看到的概率越大,用户的隐私泄露的风险也就越大。比如微博中的大V账号粉丝众多,重要性比较大,其发布的微博可以被很多人看到,如果微博中包含其隐私就很容易造成隐私泄露。用户重要性可以根据社交媒体的网络结构来进行量化评估。在社交网络中,用户被越多的其他用户关注(即粉丝越多),那么该用户就越重要;同时关注该用户的用户越重要(即粉丝本身的重要性越大),相应地该用户也越重要。也就是说用户的重要性与其粉丝用户的数量和粉丝用户的重要性密切相关。而每个粉丝用户本身也会被其他多个用户关注,因此要基于社交网络结构计算某个用户的重要性,需要层层统计其粉丝用户的重要性。
图2给出了根据本发明一个实施例的采用了多轮迭代更新的方式来计算用户重要性的方法的流程图。该方法主要包括:
步骤201:初始化用户重要性向量;其中将社交网络的各用户重要性以用户重要性向量UR来表示,该向量为n维,其中n指示社交网络的用户数量,该向量的第i维元素uri表示用户i的重要性,该向量每个元素取值都初始化为1/n。
步骤202:更新用户重要性向量;其中基于社交网络中各用户之间的社交关系,按照下面的更新公式对于用户重要性向量进行更新:
Figure BDA0002055248590000081
其中,URt表示更新t轮后的重要性向量;q是阻尼系数,其取值在0-1之间的实数,通常大于0.5,在该实施例中,可将其设置为0.85,通过合理设置q的取值,可以尽量避免最终得到的重要性值全部流向社交网络中的悬挂点,即那些被其他用户关注却并不关注任何用户的用户。其中T为指示社交网络中各用户间社交关系强度的矩阵,用户之间的社交关系强度可以根据用户之间的关注关系和/或用户之间的交互频率来设置。例如,该矩阵T中第i行j列的元素tij表示用户i对用户j的关注程度,例如,tij=0表示用户i未关注用户j,tij=1或tij>0表示用户i关注了用户j。又例如,该矩阵T中第i行j列的元素tij表示用户i对用户j的交互频率,例如,tij=0表示用户i与用户j无交互,tij=1表示表示用户i与用户j之间有交互,或可以将tij设置为大于0自然数,指示在预定时间段内交互的次数。
步骤203:判断当前用户重要性向量URt与前一轮的用户重要性向量URt-1的欧式距离是否小于可接受误差ε。如果前后两轮之间的欧式距离相差小于可接受误差ε,则停止更新,转到步骤204输出当前的用户重要性向量UR;否则转到步骤202继续更新。这样,用户j的数据被他人看到的概率(即该用户数据可见性)visj=urj,其中urj为用户重要性向量UR中的第j个元素。
在又一个实施例中,假设以pij表示用户i能够获取到用户j发布的数据的概率,那么用户j的数据可见性就可以表示为社交媒体中各个用户能够获取到用户j发布的数据的概率的平均值,也就是用户j的数据可见性visj可以如下公式计算:
Figure BDA0002055248590000091
其中,用户i能够获取到用户j发布的数据的概率pij不仅与用户j的重要性相关,还与用户i与用户j之间的社交关系相关。也就是说,用户j的数据一定可以被其粉丝看到,但是被非粉丝看到的概率主要与用户j自身在社交网络中的重要性有关,因此用户i能够获取到用户j发布的数据的概率pij可以通过如下公式计算:
Figure BDA0002055248590000092
那么,将其代入上面的用户j的数据可见性visj计算公式(1)可得:
Figure BDA0002055248590000093
其中tij表示用户i对用户j的关注程度,例如,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j;I(x)代表一个指示函数,其输入变量x为真返回1,否则返回0;urj表示用户j在社交媒体的网络中的重要程度。在优选的实施例中,在计算用户i能够获取到用户j发布的数据的概率pij时,至少考虑下面3个方面的因素相关:1)用户j自身的重要性urj,urj越大,用户j的数据被他人看到的可能性越大;2)用户i与用户j的社交关系强度tij,tij越大,用户i看到用户j数据的可能性越大;3)用户j的活跃程度,例如可以使用用户j近期发布的信息数wbj来衡量,wbj越大,用户j数据被他人看到的可能性越大。因此用户i能够获取到用户j发布的数据的概率pij可以通过如下公式计算:
Figure BDA0002055248590000094
其中h∈[0,1]是由系统设置的参数,用于估计在获取到信息之后该信息被点击或查看的程度,h值设置越大则表示信息整体上被用户阅读的可能性越大,不影响相对可见性大小,即不影响信息被获取的可能性大小。p′ij表示用户i看到用户j的一条信息的概率,其计算方法可以如下:
Figure BDA0002055248590000101
那么,根据上面用户j的数据可见性visj计算公式(1)可得:
Figure BDA0002055248590000102
其中tij表示用户i对用户j的关注程度,例如,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j;I(x)代表一个指示函数,其输入变量x为真返回1,否则返回0;urj表示用户j在社交媒体的网络中的重要程度;wbj表示用户j在一段时间内发布的信息数量。
继续参考图1,在步骤S3)根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。例如用户隐私泄露的程度可以通过这两种指标的加权求和来获取。例如使用下面的公式:
Figure BDA0002055248590000103
其中psj表示用户j的隐私泄露程度;visj表示用户j的数据可见性;cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性。也可以给根据实际需求给visj和cerjm分别指定不同的权重来区别这两种指标的重要程度。
在步骤S4)响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。阈值的设定可以根据基于历史数据统计的经验值来设置或者根据用户对隐私的看重程度而由用户指定。在该实施例中,通过步骤S3)得到的psj可以从整体上反映用户j的隐私泄露程度,而通过步骤S1)估计的每个用户隐私属性的确定性可以从更细粒度上反映用户的哪个隐私属性泄露的程度更大。因此,可以给用户提供更细致的隐私泄露风险提示信息。
在又一些实施例中,该方法还可包括获取用户对于各隐私属性的偏好设置,并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度(也可以称为隐私属性敏感性);以及将用户对于每个隐私属性的敏感程度与上文确定的用户隐私属性的确定性、用户数据的可见性相结合来共同衡量用户隐私泄露的程度。这是考虑到对于用户本身而言,其对于不同的隐私属性的敏感性是不同的。用户通常对于一个或一些隐私属性比较敏感,而对于其余隐私属性不敏感,那么即便其余隐私属性全部被泄露,对于用户而言也可能认为其隐私并未被暴露给其他人;反之如果用户比较敏感的隐私属性的其中一个或几个被泄露,用户会立刻感觉隐私受到侵犯。其中,用户对隐私属性敏感性可以基于用户隐私偏好设置来进行量化评估。假设与用户相关的隐私属性集中包含d个隐私属性。社交网络中每个用户可以根据需求将其隐私属性集中的每个属性的偏好程度或敏感度设置为预设区间内的一个自然数,数值越大表示隐私偏好程度越高,说明用户对该隐私属性越敏感。由此,用户的隐私偏好设置可以表示为d维的整数向量的形式。在经量化后的用户隐私偏好设置的基础上,可以通过下列步骤计算用户对隐私属性的敏感性:
步骤C1:获取社交媒体中每个用户的隐私偏好对应的向量并构建敏感性响应矩阵R。该敏感性响应矩阵R是社交媒体各用户的隐私偏好向量构成的矩阵,行对应用户,列对应属性,其中第j行第m列的元素rjm表示用户j对第m个属性设置的隐私偏好程度。该敏感性响应矩阵R的第j行Rj表示用户j的隐私偏好向量,第m列Rm表示所有用户为第m个属性设置的隐私偏好程度。
步骤C2:用户j对于其第m个隐私属性的敏感程度sbj_senjm可以表示为:
Figure BDA0002055248590000111
其中d表示用户的隐私属性的数量;rjm表示用户j对于其第m个隐私属性设置的偏好值;rjq表示用户j对于其第q个隐私属性设置的偏好值。这里得到的用户j对于其第m个隐私属性的敏感程度sbj_senjm实际上可以认为是主观敏感性,表示用户对属性敏感程度的主观评价,与用户和属性都相关,不同用户对同一属性的主观敏感性可能不同。在又一个实施例中,可以基于不同用户对同一属性的敏感程度的平均值来表征在社交媒体用户对于该属性的整体敏感程度,也可理解为客观敏感性,及反映社交媒体中所有用户对于某个属性整体上的敏感程度。例如,属性m的客观敏感性obj_senm可由所有用户对于该属性的主观敏感性的均值得到,计算公式如下:
Figure BDA0002055248590000112
其中n表示社交媒体中的用户总数,sbj_senim是主观敏感性,表示用户i对于其第m个隐私属性的敏感程度。这里的客观敏感性可表示属性的固有敏感程度,不再局限于某个用户本身的主观感受。
在获得用户对隐私属性的敏感性的量化评估后,可以将其与上文提到的用户数据可见性指标和/或用户隐私属性确定性指标结合来评估用户隐私泄露的程度。例如,可综合考虑这三个指标来对用户隐私泄露程度进行量化评分。以上文提到的客观敏感性作为用户对隐私属性的敏感性指标,可以使用如下公式评估用户j的隐私泄露程度:
Figure BDA0002055248590000121
其中obj_psj表示用户j的客观隐私泄露程度;obj_senm表示社交媒体各用户对于第m个隐私属性的整体敏感程度;visj表示用户j的数据可见性;cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性。这里获取的用户j的隐私泄露程度obj_psj可以理解为针对用户的全局隐私评分,采用的是属性的客观敏感性进行评估的,由于客观敏感性与属性本身有关而与各个用户本身关系不大,所以可以对不同用户的全局隐私评分相互比较。在又一个实施例中,也可以利用上文提到的主观敏感性作为用户对隐私属性的敏感性指标来评估用户的隐私泄露程度,例如用户j的隐私泄露程度也可以通过如下公式计算:
Figure BDA0002055248590000122
其中sbj_psj表示用户j的主观隐私泄露程度;visj表示用户j的数据可见性;cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性;sbj_senjm表示用户j对于其第m个隐私属性的敏感程度。这样获取的用户j的隐私泄露程度sbj_psj是采用的属性的主观敏感性指标进行评估的,可以理解为针对用户的个性化隐私评分,兼顾了不同用户对于隐私属性的不同偏好,更容易满足用户的个性化需求。在又一个实施例中,也可以同时采用全局隐私评分obj_psj和个性化隐私评分sbj_psj来从不同的角度对用户的隐私泄露程度进行评估。应理解,符号obj_psj和sbj_psj是对于用户j的客观隐私泄露程度和主观隐私程度的符号表示的示例,也可以用符号psj来指示用户的任何一种隐私泄露程度,本文的实施例中不对具体的符号标记进行限定。
在本发明的实施例中,综合了用户公开发布的信息对于隐私泄露的影响、用户信息在社交网络中的传播范围、用户对隐私的个性化需求,基于社交网络结构、用户社交关系强度、用户隐私偏好设置等因素有效量化了用户隐私泄露程度,能帮助社交媒体用户及时发现隐私泄露事件的发生,从而减小了隐私泄露的危害。
图3为根据本发明一个实施例的检测社交媒体用户隐私泄露的系统的结构示意图。如图3所示,该系统300包括属性确定性估计模块301,数据可见性估计模块302,隐私泄露评估模块303和提示模块304。尽管该框图以功能上分开的方式来描述组件,但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且,无论这样的组件是如何被组合或划分的,它们都可以在同一计算装置或多个计算装置上执行,其中多个计算装置可以是由一个或多个网络连接。
其中属性确定性估计模块301采用如上文介绍的方式基于用户发布的数据评估用户每个隐私属性的确定性,其中隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小。数据可见性估计模块302采用如上文介绍的方式基于用户所在社交媒体的网络结构确定用户数据的可见性,其中用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小。隐私泄露评估模块303可以如上文介绍的那样根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度。提示模块304可以响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。
本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此,短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外,特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此,结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合,只要该组合不是非逻辑性的或不能工作。
本说明书中“包括”和“具有”以及类似含义的术语表达,意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外,本申请附图中的各个元素仅仅为了示意说明,并非按比例绘制。
虽然本发明已经通过上述实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (10)

1.一种检测社交媒体用户隐私泄露的方法,包括:
基于用户发布的数据评估用户每个隐私属性的确定性,所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小;
基于用户所在社交媒体的网络结构确定用户数据的可见性,所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小;
根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度;
响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息;
其中基于用户发布的数据评估用户隐私属性的确定性是利用与各隐私属性对应的预先训练好的属性识别模型来完成的,每个隐私属性对应的属性识别模型输入为用户发布的数据,其输出为该用户的隐私属性分别取各个属性值的概率。
2.根据权利要求1所述的方法,还包括获取用户对于各隐私属性的偏好设置,并根据用户设置的隐私属性偏好确定用户对于每个隐私属性的敏感程度;以及
根据所述用户隐私属性的确定性、用户数据的可见性以及用户对于每个隐私属性的敏感程度来共同衡量所述用户隐私泄露的程度。
3.根据权利要求1所述的方法,其中每个隐私属性对应的属性识别模型是通过下列步骤进行训练的:
采集一段时间内社交媒体中各用户发布的信息,对于所采集的数据集中每条信息标定发布该信息的用户对于该隐私属性的属性取值;
将标定后的数据集作为样本集来训练该隐私属性对应的属性识别模型。
4.根据权利要求1所述的方法,其中用户隐私属性的确定性以如下公式进行计算:
Figure FDA0002702991710000021
其中,cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性,prajmk表示用户j的第m个隐私属性取第k个属性值的概率,Km表示第m个隐私属性的可能取的属性值的数量。
5.根据权利要求1-2或3-4中任一项所述的方法,其中用户数据的可见性以基于下列中的一项或多项来衡量:用户在社交网络中的重要程度、用户之间的社交关系强度和用户的活跃程度;其中用户在社交媒体中的重要程度是根据社交媒体的当前网络结构统计的关注该用户的用户数量以及关注该用户的各用户本身的重要程度来计算的;用户之间的社交关系强度根据用户之间的关注关系和/或用户之间的交互频率来设置;用户的活跃程度以用户在一段时间内发布的信息数量来衡量。
6.根据权利要求5所述的方法,其中用户在社交网络中的重要程度是通过下列步骤获取的:
步骤A1:将社交媒体的各用户的重要程度以用户重要性向量UR来表示,该向量为n维,其中n指示社交媒体的用户数量,该向量的第i个元素uri表示用户i在社交网络中的重要程度,该向量的每个元素取值都初始化为1/n;
步骤A2:基于社交网络中各用户之间的社交关系,按照下面的更新公式对用户重要性向量进行更新:
Figure FDA0002702991710000022
其中,URt表示更新t轮后的用户重要性向量;q是阻尼系数,其取值为0-1之间的实数;T为指示社交网络中各用户间社交关系的矩阵,该矩阵T中第i行j列的元素tij表示用户i对用户j的关注程度,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j。
7.根据权利要求6所述的方法,其中用户数据的可见性以如下公式计算:
Figure FDA0002702991710000023
或者
Figure FDA0002702991710000024
其中,visj表示用户j的数据可见性,tij表示用户i对用户j的关注程度,tij=0表示用户i未关注用户j,tij>0表示用户i关注了用户j;I(x)代表一个指示函数,其输入变量x为真返回1,否则返回0;urj表示用户j在社交媒体的网络中的重要程度;wbj表示用户j在一段时间内发布的信息数量,h为取值为0-1之间的参数。
8.根据权利要求2所述的方法,其中用户对于每个隐私属性的敏感程度以如下公式来计算:
Figure FDA0002702991710000031
其中sbj_senjm表示用户j对于其第m个隐私属性的敏感程度,d表示用户的隐私属性的数量;rjm表示用户j对于其第m个隐私属性设置的偏好值;rjq表示用户j对于其第q个隐私属性设置的偏好值。
9.根据权利要求8所述的方法,其中用户隐私泄露的程度以如下公式来计算:
Figure FDA0002702991710000032
Figure FDA0002702991710000033
其中psj表示用户j的隐私泄露程度;sbj_senim表示用户i对于其第m个隐私属性的敏感程度;visj表示用户j的数据可见性;cerjm代表对于社交媒体中用户j的第m个隐私属性的确定性;sbj_senjm表示用户j对于其第m个隐私属性的敏感程度;n表示社交媒体中的用户总数。
10.一种检测社交媒体用户隐私泄露的系统,包括:
属性确定性估计模块,用于基于用户发布的数据评估用户每个隐私属性的确定性,所述隐私属性的确定性用于指示根据用户发布的数据能推测出用户隐私属性的取值的可能性大小;其中基于用户发布的数据评估用户隐私属性的确定性是利用与各隐私属性对应的预先训练好的属性识别模型来完成的,每个隐私属性对应的属性识别模型输入为用户发布的数据,其输出为该用户的隐私属性分别取各个属性值的概率;
数据可见性估计模块,用于基于用户所在社交媒体的网络结构确定用户数据的可见性,所述用户数据的可见性用于指示用户发布的数据能被社交媒体中其他用户获取的可能性大小;
隐私泄露评估模块,用于根据用户隐私属性的确定性和用户数据的可见性来衡量该用户隐私泄露的程度,以及
提示模块,用于响应于用户隐私泄露的程度大于设定的阈值,向该用户发出隐私泄露风险提示信息。
CN201910387263.5A 2019-05-10 2019-05-10 检测社交媒体用户隐私泄露的方法和系统 Active CN110210244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387263.5A CN110210244B (zh) 2019-05-10 2019-05-10 检测社交媒体用户隐私泄露的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387263.5A CN110210244B (zh) 2019-05-10 2019-05-10 检测社交媒体用户隐私泄露的方法和系统

Publications (2)

Publication Number Publication Date
CN110210244A CN110210244A (zh) 2019-09-06
CN110210244B true CN110210244B (zh) 2020-12-29

Family

ID=67787049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387263.5A Active CN110210244B (zh) 2019-05-10 2019-05-10 检测社交媒体用户隐私泄露的方法和系统

Country Status (1)

Country Link
CN (1) CN110210244B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781518B (zh) * 2019-10-31 2021-07-27 北京工业大学 一种社交网络中确定隐私信息传播范围的仿真方法
CN112364373A (zh) * 2020-11-03 2021-02-12 中国银联股份有限公司 数据处理方法、装置、设备及介质
CN112632328B (zh) * 2020-12-07 2022-12-02 西安电子科技大学 一种vlog隐私泄漏度量评估方法、系统、介质及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914659A (zh) * 2014-03-12 2014-07-09 西安电子科技大学 基于频率的轨迹抑制数据发布隐私保护的系统及其方法
CN106572111A (zh) * 2016-11-09 2017-04-19 南京邮电大学 一种面向大数据的隐私信息发布暴露链的发现方法
CN108390865A (zh) * 2018-01-30 2018-08-10 南京航空航天大学 一种基于隐私驱动的细粒度的访问控制机制及系统
CN109271806A (zh) * 2018-08-14 2019-01-25 同济大学 基于用户行为的隐私保护机制研究

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914659A (zh) * 2014-03-12 2014-07-09 西安电子科技大学 基于频率的轨迹抑制数据发布隐私保护的系统及其方法
CN106572111A (zh) * 2016-11-09 2017-04-19 南京邮电大学 一种面向大数据的隐私信息发布暴露链的发现方法
CN108390865A (zh) * 2018-01-30 2018-08-10 南京航空航天大学 一种基于隐私驱动的细粒度的访问控制机制及系统
CN109271806A (zh) * 2018-08-14 2019-01-25 同济大学 基于用户行为的隐私保护机制研究

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
数据发布中的隐私保护研究综述;兰丽辉 等;《计算机应用研究》;20100831;第27卷(第8期);全文 *
面向云数据的隐私度量研究进展;熊金波 等;《软件学报》;20171017;第29卷(第7期);全文 *

Also Published As

Publication number Publication date
CN110210244A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210244B (zh) 检测社交媒体用户隐私泄露的方法和系统
WO2020119272A1 (zh) 风险识别模型训练方法、装置及服务器
CN105701191B (zh) 一种推送信息点击率估计方法和装置
Babaei et al. Analyzing biases in perception of truth in news stories and their implications for fact checking
EP3179434A1 (en) Designing context-aware recommendation systems, based on latent contexts
CN105574067A (zh) 项目推荐装置以及项目推荐方法
US8346710B2 (en) Evaluating statistical significance of test statistics using placebo actions
WO2018130201A1 (zh) 确定关联账号的方法、服务器及存储介质
CN110035302B (zh) 信息推荐及模型训练方法和装置、计算设备、存储介质
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN109714324A (zh) 基于机器学习算法的用户网络异常行为发现方法及系统
CN108053050A (zh) 点击率预估方法、装置、计算设备及存储介质
WO2022188773A1 (zh) 文本分类方法、装置、设备、计算机可读存储介质及计算机程序产品
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
WO2022142903A1 (zh) 身份识别方法、装置、电子设备及相关产品
WO2023000491A1 (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
WO2017027667A1 (en) Method and system for characterizing a user's reputation
CN110169021B (zh) 用于过滤多条消息的方法和设备
CN109979592A (zh) 心理健康预警方法、用户终端、服务器与系统
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN111177564B (zh) 一种产品推荐方法及装置
CN111489190A (zh) 一种基于用户关系的反作弊方法及系统
Kim et al. Context-aware based item recommendation for personalized service
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
WO2022173397A1 (en) A recommendation system using artificial intelligence algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant