CN110233833A

CN110233833A - 支持社交网络用户隐私保护的消息发送方法及系统

Info

Publication number: CN110233833A
Application number: CN201910433366.0A
Authority: CN
Inventors: 梁英; 高昂; 史红周; 张伟; 董祥祥; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-13
Anticipated expiration: 2039-05-23
Also published as: CN110233833B

Abstract

本发明的实施例提供了支持社交网络用户隐私保护的消息发送方法及系统，包括获取用户待发送的消息和用户对于该消息的隐私保护设置；获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过其泄露给每个不可见对象的概率；以及从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友。本发明实施例的技术方案能准确地预测某个消息到达某个对象的可能性，在尽可能保证消息在好友中曝光度的同时，更有效地保护用户隐私。

Description

支持社交网络用户隐私保护的消息发送方法及系统

技术领域

本发明涉及计算机数据挖掘分析技术领域，尤其涉及便于社交网络上消息推送的方法及系统。

背景技术

近年来，随着微博、Facebook、微信、QQ空间等社交应用的发展，社交网络已经成为人们沟通交流、获取信息和展示自我的重要途径之一。“社交网络”是指社会个体成员之间因为互动而形成的相对稳定的关系体系。每天都有大量的人通过社交网络发布各种各样的消息，希望通过社交网络将消息传播给尽可能多的好友，同时也会希望对消息对于某些对象不可见。然而，实际上在社交网络中用户难以确切地了解这些消息的具体去向，虽然可以通过设置仅对指定好友可见等方式来限制能够直接看到消息的对象，但消息仍然可能被这些看到消息的人继续转发，从而在社交网络中进一步扩散，可能到达不希望其看到消息的对象，从而导致用户隐私的泄露。

发明内容

因此，本发明实施例的目的在于克服上述现有技术的缺陷，提供一种支持社交网络用户隐私保护的消息推送方法及系统，能在尽可能确保发送的消息在好友中的曝光度的同时，更有效地保护用户隐私。

上述目的是通过以下技术方案实现的：

根据本发明实施例的第一方面，提供了一种支持社交网络用户隐私保护的消息发送方法，该方法包括获取用户待发送的消息和用户对于该消息的隐私保护设置，所述隐私保护设置包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值；获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过该好友泄露给每个不可见对象的概率；以及从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友；其中满足所述隐私保护设置的最大子集是指经由该最大子集中所有好友发送所述消息时该消息泄露至各个不可见对象的概率均不超过设定的相应阈值，其中消息泄露至每个不可见对象的概率是基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的。

在本发明的一些实施例中，所述最大子集为好友数量最多的子集。

在本发明的一些实施例中，所述最大子集为其中各好友的影响力之和最大的子集。

在本发明的一些实施例中，用于训练所述隐私泄露概率模型的特征至少包括消息的文本特征和消息在社交网络上传播路径的特征；其中所述传播路径包括转发边和转述边，所述转发边指示社交网络中收到消息的节点直接转发该消息至下一节点的行为；所述转述边指示社交网络中收到消息的节点在设定的时间间隔内向下一节点发送与该收到的消息内容相似的消息的行为。

在本发明的一些实施例中，所述隐私泄露概率模块用于预测消息从社交网络中一个发送节点传播至一个接收节点的概率；以及用于训练所述隐私泄露概率模型的特征包括下列四种类型：(1)消息的文本特征；(2)该发送节点与该接收节点之间的交互特征；(3)该发送节点的用户特征；(4)该发送节点与该接收节点之间消息传播路径的特征。

在本发明的一些实施例中，所述隐私泄露概率模型可采用随机森林模型或梯度提升决策树模型。

在本发明的一些实施例中，该方法还可包括从社交网络中采集与所述特征相关的数据构建样本数据集，以及基于所构建的样本数据集训练所述隐私泄露概率模型。

在本发明的一些实施例中，采集与所述消息传播路径的特征相关的数据还可包括识别消息传播路径中的转发边和转述边；其中转发边是通过检测节点的转发行为来识别的；转述边是通过下列步骤来识别的：对于收到消息的节点，计算该消息与该节点在设定的时间间隔内发送的消息的文本相似度和共用词的频率；若该节点收到的消息与其在所述时间间隔内发送的消息的文本相似度超过预定的阈值且共用词的频率也超过预先设定的阈值，则判定该节点与收到该节点发送的消息的接收方节点之间存在转述边。

在本发明的一些实施例中，利用预先训练好的隐私泄露概率模型计算消息通过每个好友泄露给每个不可见对象的概率可包括：提取消息的文本特征、该好友与该不可见对象的交互特征、该好友的用户特征；该好友与该不可见对象之间消息传播路径的特征；以及将所提取的特征输入至预先训练好的隐私泄露概率模型，以该模型的输出作为该消息通过该好友泄露给该不可见对象的概率。

在本发明的一些实施例中，消息的文本特征可包括下列中的一个或多个：消息的文本向量、消息中是否包含链接、消息中是否包含表情、消息中是否包含颜文字、消息的情感极性、消息分词后的长度。

在本发明的一些实施例中，发送节点与该接收节点之间消息传播路径的特征可包括下列中的一个或多个：发送节点与接收节点在社交网络中的邻居数；发送节点与接收节点在社交网络中的公共邻居数；发送节点的邻居集合与接收节点的邻居集合的jaccard相似度、Adar相似度和Dice系数；发送节点与接收节点在社交网络中的距离；发送节点和接收节点的中介中心性；发送节点与接收节点的接近中心性；发送节点与接收节点是否在同一群；发送节点与接收节点所在群的密度。

根据本发明实施例的第二方面，还提供了一种支持社交网络用户隐私保护的消息发送系统，包括接口模块、预测模块、发送模块和训练模块。其中接口模块用于获取用户待发送的消息和用户对于该消息的隐私保护设置，所述隐私保护设置包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值。预测模块用于获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过该好友泄露给每个不可见对象的概率。发送模块用于从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友；其中满足所述隐私保护设置的最大子集是指经由该最大子集中所有好友发送所述消息时该消息泄露至各个不可见对象的概率均不超过设定的相应阈值，其中消息泄露至每个不可见对象的概率是基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的。训练模块用于根据采集的社交网络相关数据训练所述隐私泄露模型，其中用于训练所述隐私泄露概率模型的特征至少包括消息的文本特征和消息在社交网络上传播路径的特征；其中所述传播路径包括转发边和转述边，所述转发边指示社交网络中收到消息的节点直接转发该消息至下一节点的行为；所述转述边指示社交网络中收到消息的节点在设定的时间间隔内向下一节点发送与该收到的消息内容相似的消息的行为。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被执行时实现如上述实施例第一方面所述的方法。

本发明实施例的技术方案可以包括以下有益效果：

不仅考虑了消息转发行为对于隐私泄露的影响，还考虑了消息内容本身以及消息转述行为对于隐私泄露的影响，能更准确地预测某个消息到达某个对象的可能性，从而在尽可能保证消息在好友中曝光度的同时，更有效地保护用户隐私。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了根据本发明一个实施例的支持社交网络用户隐私保护的消息发送方法的流程示意图。

图2示出了根据本发明一个实施例的社交网络及消息传播路径示意图。

图3示出了根据本发明一个实施例的支持社交网络用户隐私保护的消息发送系统的结构示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在现有的社交网络中，消息发布者为保护其隐私，可以通过设置仅对指定好友可见等方式来限制能看到消息的对象。但大部分社交平台都提供了转发功能，允许看到消息的对象继续转发该消息，从而造成隐私泄漏。也有一些社交平台也提供了设置不可见对象的功能，可以让消息即便经过多次转发，对于指定的对象也不可见。例如，假设A发送了一条消息，B再转发来自A的消息，C再转发来自B的消息，D是B或C的好友，但如果A设置了对象D不可见，那么D也没法通过B或C的转发来看见这条消息。

然而，发明人经研究发现，这样的功能并不能完全阻止隐私泄漏的发生。例如，如果B不是直接转发A，而是用自己的语言描述了A发送的消息中的信息后进行发送，那么接下来如果D是B或者某个转发B消息的人的好友，他就能够看到这条消息，从而获取A的隐私。在本申请中将这种行为称为转述。可见，在社交网络中用户的转发和转述行为都有可能造成隐私泄漏，而且通过转述行为造成的隐私泄露很难被发现或阻止。

图1给出了根据本发明的一个实施例的一种支持社交网络用户隐私保护的消息发送方法的流程示意图。如图1所示，该方法主要包括：步骤S101)获取用户待发送的消息和用户对于该消息的隐私保护设置，例如，该隐私保护设置可包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值；步骤S102)获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过其泄露给每个不可见对象的概率；步骤S103)从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友。

其中隐私泄露概率模型是用于预测消息从社交网络中的一个节点传播到另一个节点的概率，其可以是利用在一段时间内采集的与社交网络中传播的消息相关的数据来进行训练的，例如可采集社交网络中消息以及与消息传播路径相关的数据。如图2所示，在本发明的实施例中，社交网络由互相之间发生互动的多个个体成员(即参与社交网络的用户，也可以称为节点或用户节点)构成，消息通过这些个体成员之间的转发行为或转述行为在社交网络上进行传播，因此消息在社交网络上传播路径可包括转发边和转述边。其中转发边指示社交网络中收到消息的节点直接转发该消息至下一节点，例如图2中节点2收到来自节点1发送的消息之后直接转发给其好友节点3，这样在节点2与节点3之间形成转发边。转述边指示社交网络中收到消息的节点不是直接转发该消息，而是用自己的语言重新描述了消息内容，然后再进行发送；例如图2中节点3收到来自节点2转发的消息之后，重新描述了所接收的消息内容，然后发送给其好友节点4，这样在节点3和节点4之间构成了一条转述边。节点4在收到节点3发送的消息之后，继续转发给节点5，节点5没有再对该消息进行转发或转述，意味着该消息在社交网络中停止了传播。消息自从节点1产生开始，经由节点2、3、4传播至节点5后停止传播，因此该消息的传播路径为可记为节点1-2-3-4-5，该消息内容对于该传播路径上的每个节点都是可见的。

为了确保所训练的隐私泄露概率模型的预测精度，在采集用于训练该模型的样本数据时，需要能准确地定位每个消息在社交网络中的传播路径。考虑到通过转发行为的泄露可以通过设定不可见对象的功能来避免，本发明的实施例中，在采集的样本数据集中，将包含至少一条转述边的传播路径标记为隐私泄露路径，而将不包含任何转述边的传播路径标记为安全路径。对于消息的每条传播路径，转发边可以通过检测节点的转发行为来发现，而转述边则很难被发现。在本发明的一个实施例中，可以通过对比分析社交网络中节点在指定时间间隔内接收和发送的消息来确定该节点是否出现了转述行为。例如，某个节点在收到某条消息后的预定时间间隔(例如，1天)内发送了一条消息，如果该收到的消息与发送的消息的文本相似度超过预定的阈值且共用词的频率也超过预先设定的阈值，则判定该节点与收到该节点发送的消息的接收方节点之间存在转述边。也就是说，在预定时间内收到的消息与发送的消息的文本相似度越大，并且这两个消息共同使用的词在这两个消息使用的所有词中所占比例越大，则该节点对其收到的消息进行转述的可能性也越大。

其中两个消息之间的文本相似度的计算可包括两个主要步骤：i)对每个消息进行文本向量化，得到每个消息对应的文本向量；ii)计算两个消息的文本向量之间的相似度或距离作为这两个消息的文本相似度。可以采用诸如词集模型、词袋模型、n-gram、TF-IDF、word2vec之类的以词为单位的文本向量化方法来获取每个消息的文本向量。在一个示例中，例如采用Word2vec工具训练出消息中出现的每个词的词向量，对该消息中出现的所有单词的词向量取均值得到该消息对应的文本向量。两个消息之间的文本相似度可以用这两个消息的文本向量之间的余弦相似度、欧式距离、曼哈顿距离或闵可夫斯基距离等等来衡量或表征。两个消息之间共用词的频率可以用两个消息的共用词数量与两个消息中所有词的数量之间的比率来表征或衡量，即等于两个消息中出现的词的交集与并集的比值。

通过对上述转述行为的挖掘，可以更准确地定位每个消息在社交网络中的传播路径，从而改善了样本数据的采集精度。另外，经发明人研究发现，在社交网络中隐私泄露的概率除了由上述的转发和转述行为构成的消息传播路径相关之外，还与消息本身内容和参与消息传播的节点的活跃度相关。例如，如果消息内容比较受关注的话题或者发送或传播消息的节点在社交网络中比较活跃，那么消息传播的路径比较多，隐私泄露的概率也比较大。因此，所采集的用于构建样本数据的社交网络相关数据不仅包括与消息在社交网络中传播路径相关的数据，还包括与消息本身相关的数据以及与该消息所经过的用户节点本身相关的数据。

在采集到这些数据之后，从这些采集的数据中提取用于训练隐私泄露概率模型的样本特征来构建样本数据集。从采集的数据中提取哪些样本特征来训练隐私泄露概率模型对于该模型的预测准确率有直接的影响。在一个实施例中，在对用于预测消息从节点f(即消息的发送节点)传播至节点u(即消息的接收节点)的概率的隐私泄露概率模型进行训练时可采用下列两种类型的特征：消息的文本特征以及节点f到节点u之间消息传播路径的特征。在一个优选的实施例中，在对用于预测消息从节点f(即消息的发送节点)传播至节点u(即消息的接收节点)的概率的隐私泄露概率模型进行训练时可采用下列四种类型的特征：1)消息的文本特征；2)节点f与节点u之间的交互特征；3)节点f的用户特征；4)节点f到节点u之间消息传播路径的特征。下面对这四种类型的特征进行详细介绍：

1)消息的文本特征，

·消息的文本向量：如上文介绍的，消息的文本向量可以通过该消息中出现的词的词向量的均值来表示。

·消息中是否包含链接：如果包含链接，则取值为1，否则取值为0。

·消息中是否包含表情：如果包含表情，则取值为1，否则取值为0。

·消息中是否包含颜文字：如果包含颜文字，则取值为1，否则取值为0。

·消息的情感极性：利用情感词词典对消息中出现的词的情感分数求和作为该特征的取值。

·消息分词后的长度：即经分词处理后该消息中出现的词的总数。

2)节点f与节点u之间的交互特征

·节点f和节点u之间相互的历史评论量

·节点f和节点u之间相互的历史转发量

·节点f和节点u之间相互的历史点赞量

·节点f和节点u之间的关注关系

3)节点f的用户特征

·节点f对应的用户的历史消息的设定时间段(例如1小时)内平均转发量，可以通过统计该节点的用户的转发行为来获取。

·节点f对应的用户的历史消息的设定时间段(例如1小时)内平均转述量，可以通过上文介绍的转述行为检测步骤来检测并统计节点f的转述行为来获取。

·节点f对应的用户的微博等级。

·节点f对应的用户的常用设备(iphone,android等)。

·节点f对应的用户的常用地址：通常为取用户个人信息中设置的地址，如果没有，则检测用户发送的历史消息中的出现的地址信息)。

·节点f对应的用户的原创消息数。

·节点f对应的用户的转发消息数。

·节点f对应的用户的历史消息的平均转发量，最大转发量。

·节点f对应的用户的历史消息的平均评论量，最大评论量。

·节点f对应的用户的历史消息的平均点赞量，最大点赞量。

4)节点f到节点u之间消息传播路径的特征

·f在网络中的邻居数

·u在网络中的邻居数

·f与u在网络中的邻居数的乘积

·f与u在网络中的公共邻居数

·f的邻居集合N(f)与u的邻居集合N(u)的jaccard相似度:

·f的邻居集合N(f)与u的邻居集合N(u)的Adamic-Adar相似度:其中out(z)表示节点z的出度数。

·f的邻居集合N(f)与u的邻居集合N(u)的Dice系数：

·f与u在社交网络中的距离d_f,u，可以社交网络中从f到u的路径的长度来表示。

·f的中介中心性:即节点f到社交网络中其它节点距离和的倒数

·u的中介中心性：即节点f到社交网络中其它节点距离和的倒数

·f的接近中心性：节点f在社交网络各节点对间的最短路径上的比例：其中g_s,t表示节点s到节点t间最短路径的数目，g_s,t(x)表示节点s到节点t间最短路中经过节点x的最短路径的数目。

·u的接近中心性：节点u在社交网络各节点对间的最短路径上的比例

·f与u是否在同一个社群，通常可使用诸如Girvan-Newman算法的社群发现算法来标定各节点所属社群，从而判断f和u是否在同一社群。

·f与u所在社群的密度，可以同一个社群构成的子图的聚集系数来表示。

应理解，上述每种类型特征仅是举例说明而非进行限制，在进行训练时，对于每种类型的特征可以采用上文所列特征中的一个或多个。

从所采集的社交网络相关数据中提取上述四种类型的样本特征构建样本数据集，基于样本数据集来训练该隐私泄露概率模型。在本发明的一个实施例中，用于预测消息从节点f(即消息的发送节点)传播至节点u(即消息的接收节点)的概率的隐私泄露概率模型可以采用随机森林模型、诸如梯度提升决策树GBDT(Gradient Boosting Decision Tree)之类的决策树模型等等。在训练完成之后，就可以利用已经训练好的隐私泄露概率模型来预测消息从一个节点传播至另一节点的可能性。以上述四种类型样本特征训练的模型为例，该隐私泄露概率模型的输入包括消息的文本特征、消息发送节点与接收节点之间的交互特征、消息发送节点的用户特征和消息发送节点与接收节点之间消息传播路径的特征；输出为消息从发送节点传播至接收节点的概率。

继续参考图1，更具体地，在步骤S101)，获取用户待发送的消息和用户对于该消息的隐私保护设置。在社交平台中，如果用户不进行隐私保护设置，那么其发送的消息对于该用户的所有好友都是可见的，也就是该用户发送的消息将被转发给该用户在社交网络中的所有好友节点。用户通常可以通过社交平台提供的接口来对其要发送的消息进行隐私保护设置，例如，指定该消息对哪些对象不可见。这样，即便收到消息的好友再次在社交网络中对该消息进行转发，该消息也不会到达所设置的不可见对象。然而如果收到消息的好友并没有转发而是转述了该消息，则该消息仍然有可能到达原先指定的不可见对象，从而暴露用户隐私。因此在本发明的实施例中，在发送消息之前会预测消息从每个好友到达每个不可见对象的可能性，从而有选择性地进行消息的推送。在该实施例中，用户对于待发送的消息msg的隐私保护设置可包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值(也可简称为隐私泄露阈值)，可以将该隐私保护设置记为B＝{(o_j,τ_j)}，其中o_j表示指定的第j个不可见对象，τ_j表示为第j个不可见对象设置的隐私泄露阈值，即用户希望消息msg泄露到对象o_j的概率不超过τ_j。而集合O＝{o_j}可表示用户指定的所有不可见对象，也可称作黑名单集合。在该实施例中，可以对于不同的不可见对象相应设置不同的阈值。这些阈值可以由用户根据自己的实际需求来设置，阈值设置的越小说明用户针对该不可见对象的隐私要求越严格。

在步骤S102)，获取用户的好友列表(记为F)，对于好友列表F中每个好友，预测待发送的消息msg经过该好友到达所设置的每个不可见对象的概率。其中消息msg经由好友列表F中第i个好友f_i到达所设置的第j个不可见对象o_j的概率可记为p(msg,f_i,o_j)，在不引起歧义的前提下，以下简写为p_ij。例如采用上文提前训练好的隐私泄露概率模型来估计这样的概率，以该好友作为消息的发送节点，不可见对象作为消息的接收节点，针对该训练好的隐私泄露概率模型的输入要求，提取相应的特征。例如，以上文利用四种类型样本特征训练隐私泄露概率模型为例，提取待发送消息的文本特征、消息发送节点与接收节点之间的交互特征、消息发送节点的用户特征和消息发送节点与接收节点之间消息传播路径的特征。其中关于与发送节点和接收节点相关的以及与二者之间传播路径相关的特征可以从最近一段时间采集的社交网络相关数据中提取。然后，将所提取的特征输入预先训练好的隐私泄露概率模型，从而可得到该消息通过某个好友泄露给某个不可见对象的概率。

在步骤S103)从该用户的好友列表中选择满足用户指定的隐私保护设置的最大子集，然后将该消息仅发送给所选择的最大子集中的每个好友。这里的满足隐私保护设置的最大子集是指经由该最大子集中所有好友发送消息时该消息泄露至各个不可见对象的概率均不超过在该隐私保护设置中设定的相应阈值。通常消息泄露至每个不可见对象的概率可基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的。例如，如果从好友列表中选择的子集中包括A和B两个好友，经隐私泄露概率模型预测出消息通过好友A泄漏至不可见对象a的概率为0.2，通过好友B泄漏到对象a的概率为0.3，那么对于该子集，该消息泄漏至不可见对象a的概率为1-(1-0.3)*(1-0.2)＝0.44。可以看出，当从好友列表中选择满足用户指定的隐私保护设置的子集时，选择的好友越少越容易满足用户的隐私需求。但是，为了提高消息在用户好友圈中的曝光度，应选择尽可能多的好友或者尽量将消息发送给在社交网络中影响力大的好友。在一些实施例中，最大子集可以是其中包含好友的数量最多的子集。在又一些实施例中，最大子集可以是其中各好友的影响力之和最大的子集。

通常可以采用整数规划求解的方式来获取上述最大子集。也就是可以从用户好友列表中选择部分好友构成子集，要求满足经由所选择的子集中所有好友发送消息时该消息泄露至各个不可见对象的概率均不超过在隐私保护设置中设定的相应阈值的约束条件，同时以该所选择的子集中包含的好友数量最大或者所选择的子集中各好友的影响力之和最大为目标函数，这样就可以将求解最大子集的问题转化为整数规划求解。

更具体地，可设置集合S，该集合中第i个元素s_i用于表示是否选择用户的好友列表F中的第i个好友f_i，其中该s_i的取值为0或1，以指示是否选择将消息发送给好友f_i，s_i＝1时表示将消息发送给f_i，s_i＝0时表示不将消息发送给f_i。这样，例如，可以构建用于求解最大子集的整数规划模型如下：

其中目标函数为所选择的子集中包含的好友数量最大，约束条件为经由所选择的子集中所有好友发送消息时该消息泄露至各个不可见对象的概率均不超过在隐私保护设置中设定的相应阈值，_j表示用户在隐私保护设置中指定的第j个不可见对象，τ_j表示为第j个不可见对象设置的隐私泄露阈值，p_ij表示消息经由好友f_i到达所设置的不可见对象o_j的概率。

又例如，也可以构建用于求解最大子集的整数规划模型如下：

其中目标函数为所选择的子集中各好友的影响力之和最大，约束条件为经由所选择的子集中所有好友发送消息时该消息泄露至各个不可见对象的概率均不超过在隐私保护设置中设定的相应阈值，其中I(S)代表所选择的子集中各好友的影响力之和，即其中w_i表示好友f_i的影响力，例如可通过下面的公式计算：

w_i＝follower(f_i)*α+followee(f_i)*(1-α)

其中follower(f_i)表示关注了f_i的用户的数目，followee(f_i)表示f_i关注的用户的数目，α是调节系数，根据实际需求而定，在该实施例中可将其设置为0.8。

对于上面所构建的整数规划模型，可以采用现有的整数规划求解方法来获得该模型的可行解或最优解，然后从中选择其中一个最优解或可行解作为所选择的最大子集来进行消息发送。在一些实施例中，当用户好友列表的数量级和所指定的不可见对象数量级不大时，可以利用常用整数规划求解，但当用户好友列表的数量级和所指定的不可见对象的数量级较大时使用贪心算法来对上述模型进行求解。假设以n表示用户的好友列表中好友的数量(即集合F的大小)，以m表示用户在隐私保护设置中指定的不可见对象的数量(即集合O的大小)，则当n和m量级不大时(例如，n,m≤40)，可以按照整数规划求解。当n和m量级较大时，使用贪心算法按如下步骤求解满足条件的子集S：

(1)递增构造子集S，初始时令S为空集；

(2)对于每个尚未加入子集S的元素f,f∈F\S,按照如下公式计算l(S,f,o_j)，lratio(S,f)和lmax(S,f)：

(3)计算对于此时子集S的可选集合M,M为集合F\S中添加入集合不会违反隐私保护设置约束的元素集合，即：

M＝{f∈F\S|lmax(S,f)≤1}

(4)若集合M为空集则算法结束，返回S；否则，对于M中每个元素f_i,计算g(f_i)：

然后将g(f_i)最小的元素f_i加入子集S，并重复步骤(2)-(4)。

在本发明的实施例的方案中，在预测隐私泄露概率时不仅考虑了消息转发行为对于隐私泄露的影响，还考虑了消息内容本身、参与消息传播的节点本身以及消息传播路径中各节点对于消息转述行为的影响，能更准确地预测某个消息到达某个对象的可能性，从而在尽可能保证消息在好友中曝光度的同时，更有效地保护用户隐私。

图3为根据本发明一个实施例的支持社交网络用户隐私保护的消息发送系统的结构示意图。如图3所示，该系统300包括接口模块301、预测模块302、发送模块303和训练模块304。尽管该框图以功能上分开的方式来描述组件，但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且，无论这样的组件是如何被组合或划分的，它们都可以在同一计算装置或多个计算装置上执行，其中多个计算装置可以是由一个或多个网络连接。

其中接口模块301获取用户待发送的消息和用户对于该消息的隐私保护设置，所述隐私保护设置包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值。预测模块302如上文介绍的那样获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过该好友泄露给每个不可见对象的概率。发送模块303从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友；其中满足所述隐私保护设置的最大子集是指经由该最大子集中所有好友发送所述消息时该消息泄露至各个不可见对象的概率均不超过设定的相应阈值，其中消息泄露至每个不可见对象的概率是基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的。训练模块304如上文介绍的那样根据采集的社交网络相关数据训练所述隐私泄露模型，其中用于训练所述隐私泄露概率模型的特征至少包括消息的文本特征和消息在社交网络上传播路径的特征；其中所述传播路径包括转发边和转述边，所述转发边指示社交网络中收到消息的节点直接转发该消息至下一节点的行为；所述转述边指示社交网络中收到消息的节点在设定的时间间隔内向下一节点发送与该收到的消息内容相似的消息的行为。

在本发明的又一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序或可执行指令，当所述计算机程序或可执行指令被执行时实现如前述实施例中所述的技术方案，其实现原理类似，此处不再赘述。在本发明的实施例中，计算机可读存储介质可以是任何能够存储数据且可以被计算装置读取的有形介质。计算机可读存储介质的实例包括硬盘驱动器、网络附加存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其它光学或非光学数据存储装置。计算机可读存储介质也可以包括分布在网络耦合计算机系统上的计算机可读介质，以便可以分布式地存储和执行计算机程序或指令。

本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此，短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外，特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此，结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合，只要该组合不是非逻辑性的或不能工作。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外，本申请附图中的各个元素仅仅为了示意说明，并非按比例绘制。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种支持社交网络用户隐私保护的消息发送方法，包括：

获取用户待发送的消息和用户对于该消息的隐私保护设置，所述隐私保护设置包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值；

获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过该好友泄露给每个不可见对象的概率；

从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友；

其中满足所述隐私保护设置的最大子集是指经由该最大子集中所有好友发送所述消息时该消息泄露至各个不可见对象的概率均不超过设定的相应阈值，其中消息泄露至每个不可见对象的概率是基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的。

2.根据权利要求1所述的方法，其中用于训练所述隐私泄露概率模型的特征至少包括消息的文本特征和消息在社交网络上传播路径的特征；其中所述传播路径包括转发边和转述边，所述转发边指示社交网络中收到消息的节点直接转发该消息至下一节点的行为；所述转述边指示社交网络中收到消息的节点在设定的时间间隔内向下一节点发送与该收到的消息内容相似的消息的行为。

3.根据权利要求2所述的方法，其中所述隐私泄露概率模型用于预测消息从社交网络中一个发送节点传播至一个接收节点的概率；并且用于训练所述隐私泄露概率模型的特征包括下列四种类型：(1)消息的文本特征；(2)该发送节点与该接收节点之间的交互特征；(3)该发送节点的用户特征；(4)该发送节点与该接收节点之间消息传播路径的特征。

4.根据权利要求2所述的方法，其中所述隐私泄露概率模型采用随机森林模型或梯度提升决策树模型。

5.根据权利要求2-4中任一项所述的方法，还包括从社交网络中采集与各特征相关的数据构建样本数据集，以及基于所构建的样本数据集训练所述隐私泄露概率模型。

6.根据权利要求5所述的方法，其中采集与所述消息传播路径的特征相关的数据包括识别消息传播路径中的转发边和转述边；其中转发边是通过检测节点的转发行为来识别的；转述边是通过下列步骤来识别的：

对于收到消息的节点，计算该消息与该节点在设定的时间间隔内发送的消息的文本相似度和共用词的频率；

若该节点收到的消息与其在所述时间间隔内发送的消息的文本相似度超过预定的阈值且共用词的频率也超过预先设定的阈值，则判定该节点与收到该节点发送的消息的接收方节点之间存在转述边。

7.根据权利要求3所述的方法，其中利用预先训练好的隐私泄露概率模型计算消息通过每个好友泄露给每个不可见对象的概率包括：

提取消息的文本特征、该好友与该不可见对象的交互特征、该好友的用户特征；该好友与该不可见对象之间消息传播路径的特征；

以及将所提取的特征输入至预先训练好的隐私泄露概率模型，以该模型的输出作为该消息通过该好友泄露给该不可见对象的概率。

8.根据权利要求1所述的方法，其中所述最大子集为好友数量最多的子集。

9.根据权利要求1所述的方法，其中所述最大子集为其中各好友的影响力之和最大的子集。

10.一种支持社交网络用户隐私保护的消息发送系统，包括：

接口模块，用于获取用户待发送的消息和用户对于该消息的隐私保护设置，所述隐私保护设置包括用户指定的该消息的所有不可见对象以及分别为该消息泄露至各个不可见对象的概率设定的相应阈值；

预测模块，用于获取用户的好友列表并对于每个好友，利用预先训练好的隐私泄露概率模型计算该消息通过该好友泄露给每个不可见对象的概率；

发送模块，用于从该用户的好友列表中选择满足所述隐私保护设置的最大子集，将所述消息发送给所选择的最大子集中的每个好友；其中满足所述隐私保护设置的最大子集是指经由该最大子集中所有好友发送所述消息时该消息泄露至各个不可见对象的概率均不超过设定的相应阈值，其中消息泄露至每个不可见对象的概率是基于消息通过该最大子集中各个好友泄露给该不可见对象的概率来确定的；

训练模块，用于根据采集的社交网络相关数据训练所述隐私泄露模型，其中用于训练所述隐私泄露概率模型的特征至少包括消息的文本特征和消息在社交网络上传播路径的特征；其中所述传播路径包括转发边和转述边，所述转发边指示社交网络中收到消息的节点直接转发该消息至下一节点的行为；所述转述边指示社交网络中收到消息的节点在设定的时间间隔内向下一节点发送与该收到的消息内容相似的消息的行为。