CN106339396A

CN106339396A - 用于对用户生成的内容进行隐私风险评估的方法和设备

Info

Publication number: CN106339396A
Application number: CN201510403839.4A
Authority: CN
Inventors: 胡志远; 魏文; 严学强; 骆志刚
Original assignee: Alcatel Lucent Shanghai Bell Co Ltd
Current assignee: Nokia Shanghai Bell Co Ltd
Priority date: 2015-07-10
Filing date: 2015-07-10
Publication date: 2017-01-18
Anticipated expiration: 2035-07-10
Also published as: CN106339396B

Abstract

本发明提供一种用于对用户生成的内容(UGC)进行隐私风险评估的方法和设备，该方法包括：获取转发数据，该转发数据包括关于所述UGC以及发布UGC的用户个人信息的数据；对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及基于所述分析来评估隐私风险。从而，用户能够知道其UGC的隐私风险评估结果，由此能够更新或删除一些信息来避免由于隐私信息公开而带来的负面后果。

Description

用于对用户生成的内容进行隐私风险评估的方法和设备

技术领域

本发明一般涉及通信网络，更具体地，涉及用于对用户生成的内容(UGC)进行隐私风险评估的方法和设备。

背景技术

在线社交网络(OSN)，例如Facebook、Twitter、LinkedIn以及WeChat，已经成为共享和传播信息的流行方式。但是，用户在限定群组成员内发布用户相关信息或者与指定的单个用户共享用户相关信息都有可能会泄漏用户个人隐私信息，并且会对相关用户的工作和生活引起重大不便或者甚至带来伤害。因此，解决OSN内的隐私问题是很重要的。

OSN内的用户个人信息可以分为三种类型：用户特征描述(例如用户姓名、社安号码、电话号码、性别、家庭住址、邮箱地址、生日等)、用户个人资料(例如电子健康记录、保险信息、宗教、犯罪记录、工作记录等)、以及用户生成的内容信息UGC(例如博客、聊天记录、照片、短信等)。有很多研究涉及如何为前两种用户个人信息(即用户特征描述和用户个人资料)提供隐私保护。例如，OSN(例如Facebook和Twitter的隐私保护策略)内隐私保护策略确保只有授权的实体才能访问用户特征描述相关的数据；匿名或虚拟的用户特征描述可以用来防止对用户信息进行交叉或关联分析。但是，OSN内用户所发布的自己生成的内容信息的隐私问题受到的关注很少。当用户的UGC被朋友评论和转发时，用户的个人非公开信息可能会被公开。下面的使用例子“Leo gets salary increase”(Leo(利奥)的工资增加了)解释了用户生成的内容怎样公开用户的个人隐私信息。

员工Leo被通知，由于工作努力他的工资增加。他的老板告诉他，不能让在同一个团队的其他同事知道这件事，这是因为给同一团队里其他人增加工资的预算有限。Leo想与他的亲密朋友分享他工资增加的喜悦，就通过OSN例如博客、facebook或WeChat写出一条信息“My salary isincreased by 30％”(我的工资增加了30％)。假设Leo的朋友不和他在同一个公司工作。一段时间后，他的好朋友Teddy(泰迪)添加了一些评论“This guy is responsible for product testing in company AA”(这家伙是AA公司的产品测试主管)并转发了这条消息。转发消息向Teddy的朋友公布如下“My salary is increased by 30％”和“这家伙是AA公司的产品测试主管”。Leo的另一个好朋友Jack(杰克)增加了一些评论“我的朋友Leo在产品防火墙部门工作”并转发了这条消息。转发消息向Jack的朋友公布如下“我的工资提高30％”和“My friend Leo works in theproduct Firewall department”(我的朋友Leo在产品防火墙部门工作)。Teddy将这条消息转发给James(詹姆士)，而Jack(杰克)将这条消息转发给Martin(马丁)，并且然后James和Martin将这条消息转发给其他朋友……。最后，可能工作在公司AA的产品防火墙部门的Tom(汤姆)能够获得这两条公开的消息(即“My salary is increased by 30％”和“Thisguy is responsible for product testing in company AA”、以及“My salary isincreased by 30％”和“My friend Leo works in the product Firewalldepartment”)。通过这两条转发的消息，Tom得知他部门的Leo工资增加了30％。结果，Leo工资增加的隐私被公开。但是Leo并不知道Tom已经得知了关于其工资增加的信息。这将会给Leo和他的老板带来不便。

根据上面的使用例子，用户在限定群组成员内发布用户相关信息或者与指定的单个用户共享用户相关信息都有可能会泄漏用户个人隐私信息，从而会引起工作和生活上重大不便或者甚至带来伤害。此外，公布了UGC(用户生成的内容)的那些用户不知道其隐私被公开，然后造成的负面影响。因此，解决OSN内的UGC的隐私问题是很重要的。

本发明的目的是为OSN用户所发布/共享的UGC进行隐私风险评估。这样，当用户的隐私被公开时用户将会被通知，从而能让他们提前采取相关措施以避免隐私泄漏而带来的负面影响。

发明内容

本发明目的是为OSN用户所发布/共享的UGC进行隐私风险评估。这样，用户能够知道其所发布/共享的UGC(用户产生的内容)的隐私风险评估结果，从而他们能够更新或删除某些信息以避免隐私泄漏而带来的负面影响。根据上面的使用例子“我的工资增加了30％”，在Teddy和Jack评论并转发了所述消息之后，Leo将会被告知：由于Teddy和Jack转发了其UGC从而有可能导致其隐私被公开的风险。Leo将会联系Teddy和Jack以删除或更新评论“responsible for product testing in company AA”和“Leo works in the product Firewall department”。这样，Tom将不会获得足够的信息来识别出是Leo的工资增加了30％。

本发明涉及一种用于对UGC进行隐私风险评估的方法和设备。

根据本发明的第一个方面，提供了一种用于对UGC进行隐私风险评估的方法，该方法包括：

获取转发数据，该转发数据包括关于所述UGC以及发布UGC的用户个人信息的数据；

对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及

基于所述分析来评估隐私风险。

根据本发明的第二个方面，提供了一种用于对用户生成的内容(UGC)进行隐私风险评估的设备，该设备包括：

获取装置，用于获取转发数据，该转发数据包括关于所述UGC以及发布UGC的用户个人信息的数据；

分析装置，用于对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及

评估装置，用于基于所述分析来评估隐私风险。

在本发明的示例性实施方式中，所提供的方法和设备可以通过获取和分析转发数据以及基于所述分析来评估隐私风险以便获得隐私风险评估结果。从而，用户能够知道其UGC的隐私风险评估结果，由此能够更新或删除一些信息来避免由于隐私公开而带来的负面后果。

在本发明的示例性实施方式中，所提供的方法和设备可以通过获取和分析转发数据以及基于所述分析评估隐私风险来得到隐私风险评估结果。这样，用户将会知道其UGC的隐私风险评估结果，从而让他们能够更新或删除某个信息以避免由于隐私公开而带来的负面影响。

附图说明

结合以下附图通过参考阅读对实施方式的以下详细描述，能够更好地理解本发明、其优选使用方式、以及进一步的目的，在所述附图中：

图1显示根据本发明的实施方式用于对UGC进行隐私风险评估的方法的流程图；

图2显示了根据本发明的实施方式用于对UGC进行隐私风险评估的设备的框图；

图3示例性地显示了隐私风险评估设备的一个概图；以及

图4显示了Leo的UGC的整个转发图。

具体实施方式

参考附图来详细描述本发明的实施方式。参考整个说明书的特征、优点、或类似语言并不意味着本发明能够实现的所有特征和优点都应当采用本发明的任一单个的实施方式。涉及所述特征和优点的语言应当理解为意味着结合一个实施方式描述的特定特征、优点或特性包括在本发明的至少一个实施方式中。此外，所描述的本发明的特征、优点以及特性可以以任一合适的方式在一个或多个实施方式中合并。相关领域的技术人员将会认识到可以在不使用一个特定实施方式的一个或多个特定特点或优点的情况下实现本发明。在其他示例中，在某些实施方式中可以认识到可以不在本发明的所有实施方式中出现的另外的特征和优点。

为了对OSN用户的UGC进行隐私风险评估，OSN服务提供商需要具备以下相关的前提条件。

OSN提供商应当使得OSN用户能够为其UGC预设隐私保护等级。

具体来说，用户可以预设从最高到最低的隐私保护等级，例如L10、L9、L8…L1以及L0。较高的隐私保护等级意味着相应的UGC是较敏感的，而较低的等级意味着相应的UGC是较不敏感的。根据上面的使用例子“Leo gets salary increase”，Leo可以将针对消息“My salary is increasedby 30％”的隐私保护等级设定为L8。

仅原始的UGC的创建者为他/她的UGC设定隐私保护级别。不需要转发UGC的那些朋友为该UGC设定隐私保护等级，这是因为那些朋友设定的等级对我们的分析影响很小。此外，由于转发的UGC不需要记录和存储关于隐私保护等级，这样将会节约系统开销。根据以上使用例子“Leogets salary increase”，Leo将针对消息“My salary is increased by 30％”的隐私保护等级设定为L8。但是Teddy、Jack、James以及Martin在转发消息“My salary is increased by 30％”时并不设定隐私保护等级。

OSN提供商应当唯一地标识UGC。标识符可以为URL或URI。

当UGC在OSN内被评论和转发时，OSN提供商应当：

使得转发的UGC能够记录新的评论，并将该新的评论以附加/补充的方式进行存储。在转发期间可以为UGC设定标记comm_flag。例如，comm_flag的值为“1”意味着该UGC被转发时有新的评论，值“0”意味着UGC被转发时没有新的评论。根据以上使用例子“Leo gets salaryincrease”，标记comm_flag被设定为“1”，而当Teddy和Jack转发该消息时，附加/补充为“This guy is responsible for product testing incompany AA”、以及“My friend Leo works in the product Firewalldepartment”。

使得转发的UGC能够和其被转发前的链接/标识(即父(parent)标识符)(例如URL/URI)一起被发布。这样，转发的UGC能够指示其是从哪个URL/URI转发的。转发的UGC也可以和其被转发前的OSN用户身份标识符一起被发布。根据以上使用例子“Leo gets salary increase”，Teddy转发的消息将会和Leo发布UGC的URL/URI(还可以保持发布UGC是用户身份标识符Leo)一起被发布，而James转发的消息将会和Teddy转发UGC的URL/URI(还可以保持转发UGC的身份标识符Teddy)一起被发布。

使得能够记录转发UGC的次数。根据以上使用例子“Leo gets salaryincrease”，Leo公布的UGC的转发次数可以为1200。

转发次数可以用于检查UGC转发链接的转发图是否正确；转发次数可以有助于隐私风险分析和评估的优化方案；转发次数还可以用于国家合规来监控转发次数过多的UGC是正面的还是负面的。国家合规可以采取措施来避免负面UGC被转发过多次数。

为了对OSN用户的UGC进行隐私风险评估，我们设计了一个隐私风险评估模型来实现以下功能：

可以通过获取OSN内的UGC转发链接来得到转发数据，例如UGC的整个转发图。我们的隐私风险评估方法可以重新使用现有的获取转发图的方法，包括广度优先搜索算法和深度优先搜索算法。转发次数可以用于检查根据所述转发数据而获得的转发图是否包括所有转发链接。

基于在OSN中获取的UGC的整个转发数据，例如通过使用爬虫功能，可以将分析模型设计如下：

一条UGC被转发M次的隐私风险评估定义如下：

\begin{matrix} f i () \\ = f u n c_0 (l e v e l_U G C, W_l e v e l) \\ * Σ_{k = 1}^{M} [{Name}_{k}, {HomeAddr}_{k}, {PhoneNo}_{k}, {email}_{k}, {SocialNo}_{k}, {career}_{k}, {Company}_{k} ......] [\begin{matrix} W_{N a m e} \\ W_{H o m e A d d r} \\ W_{P h o n e N o \cdot} \\ W_{e m a i l} \\ W_{S o c i a l N o} \\ W_{C a r e e r} \\ W_{C o m p a n y} \\ ...... \end{matrix}] \end{matrix} ... (1)

对于上面的等式(1)，func_0()可以表示数学算法，例如一种特定的算法，或者可以定义为根据OSN用户为公开的UGC预设的不同隐私保护级别的变化比率。关于(level_UGC,W_level)，level_UGC表示UGC创建者为公开的UGC预设的隐私保护级别，而W_level意味着由根据UGC的隐私保护级别执行隐私风险评估的系统或设备预设的隐私风险评估的权重。实际上，func_0(level_UGC,W_level)可以线性或非线性地取决于隐私保护级别，其可以通过使用统计分析或取其加权平均值或经验值来确定，例如，如果level_UGC为L8，则func_0(level_UGC,W_Level)的值可以为例如0.1×8＝0.8；如果level_UGC为L9，则func_0(level_UGC,W_Level)的值可以为例如0.15×9＝1.35，也可以使用其他值，例如0.01、0.2或其间的任意值等等作为level_UGC的乘数来得出func_0(level_UGC,W_level)的值。

对于等式(1)，矩阵A_K＝[Name_k,HomeAddr_k,PhoneNo_k,email_k,SocialNo_k,career_k,Company_k……]表示在这条UGC被第K次转发时这些类型的敏感信息是否被包括在评论中。关于上述使用例子“Leo gets salaryincrease”，假设Jack是第二个转发UGC的人且具有评论“My friend Leoworks in the product Firewall department”。由此，A₂＝[1,0,0,0,0,1,0,……]。矩阵A_K的元素例如Name_k and career_k是从Jack提出的评论得出的。[注意：矩阵A_K的元素是在转发期间被公开的OSN用户的敏感信息]

对于等式(1)，矩阵

B = [\begin{matrix} W_{N a m e} \\ W_{H o m e A d d r} \\ W_{P h o n e N o \cdot} \\ W_{e m a i l} \\ W_{S o c i a l N o} \\ W_{C a r e e r} \\ W_{C o m p a n y} \\ ...... \end{matrix}] .

表示用于隐私风险评估的不同敏感信息元素的相应权重。

对于等式(1)，存在一些优化方案。例如，如果UGC被从第k-1次转发而没有新的评论，则矩阵A_K等于其母(parent)矩阵A_K-1。另一种可能的优化方案是矩阵A_K仅考虑具有新评论的转发UGC以及没有新评论的进一步的转发。

应当注意，从一开始，隐私风险评估的准确性可能较低，这是因为用于分析的知识库信息不够精确。随着通过分析足够多的转发UGC，知识库将会变得强大和精确，通过调整分析模型，例如通过对矩阵A_K中的敏感信息元素进行更加精细粒度的分类并且使得矩阵B更加合理和接近实际生活，所述准确性将会越来越高。

针对N条UGC的隐私风险评估定义如下：

F_{N} () = Σ_{i = 1}^{N} λ i * f i () ... (2)

对于等式(2)，fi()表示第i条UGC，并且是根据等式(1)计算的。参数λi表示第i条UGC对隐私风险评估的影响。

应当注意用于两条或更多条UGC的准确评估的分析模型可能比等式(2)更加复杂，并且需要进一步研究。

以上分析仅仅是作为示例给出的，而基于本发明的指导，其他模型也是可以适用的。

在评估之前，我们应当通过分别对大多数OSN用户应用等式(1)和(2)中的上述分析模型来得出临界值(即critical_value_one和critical_value_many)。可以调整这两个临界值(可能根据模型测试结果来进行调整)以便使其更加合理且接近实际生活。

可以根据UGC的隐私风险评估值来得到评估水平(例如，可以由执行隐私风险评估的系统或设备来获得)，举例来说，如果隐私风险评估值高于临界值，则隐私风险评估可以在比平均评估级别更低的评估级别；如果隐私风险评估值小于临界值，则隐私风险评估可以在比平均评估级别更高的评估级别。

例如，评估级别从最高到最低可以为EVA_A、EVA-B、EVA_C、EVA_D以及EVA_E。对于大多数OSN用户来说，平均评估级别可以为EVA_C。对于较注意个人隐私的用户，可以建议评估级别EVA_B。低于EVA_E的隐私评估级别可能对于OSN用户来说是不可接受的。

对于一条UGC，通过对该条UGC应用等式(1)中的分析模型，可以获得评估值。如果该值高于critical_value_one，我们应当向OSN用户通知他/她的隐私可能会被该条UGC公开。

根据等式(1)，可能得出来自评论(其对计算评估值贡献大)的敏感信息，并将其合并成公开用户的隐私信息的句子。对于上述使用例子“Leogets salary increase”，我们可以从Jack的评论“My friend Leo works in theproduct Firewall department”得出Name_k＝“Leo”和career_k＝“Firewallengineer”，并且从Teddy的评论“This guy is responsible for product testingin company AA”得出company_k＝”company AA”。从而，我们可以得出信息“Leo_Firewall engineer_company AA_My salary is increased by 30％”。

对于两条或更多条UGC，通过对这些UGC应用等式(2)中的分析模型，可以获得评估值。如果该值高于critical_value_many，我们应当向OSN用户通知他/她的隐私可能会被那些UGC公开。

根据等式(2)，可能得出来自评论(其对计算评估值贡献大)的敏感信息，并将其合并成公开用户的隐私信息的句子。

可以按照给定的格式(例如*.docx、*.pptx、*xlsx.、*.pdf、*.html)来向用户提供隐私风险评估结果的报告，其可以包括以下项：

隐私风险评估的值、以及根据所述隐私风险评估的值得到的相应的隐私风险评估级别；

为所述UGC预设的临界值(例如根据由执行隐私风险评估的系统或设备的统计分析预设的临界值)；

由所述用户预设的风险保护级别、以及根据所述隐私保护级别预设的用于隐私风险评估的相应权重；并且

如果结果显示用户隐私信息可以被公开，则可以显示以下至少一者：

得出的句子，例如“Leo_Firewall engineer_company AA_Mysalary is increased by 30％”；

对所述评估值贡献大的评论(例如对计算评估值贡献最大的评论)；

包括具有敏感信息的评论的所有转发链接；

给用户的建议：1)删除或更新原始UGC；和/或2)联系发出上述具有敏感信息的评论的那些朋友并请求其删除或更新所述评论，以便提高隐私风险保护。

可以由OSN提供商或第三方服务提供商开发并实施隐私风险评估引擎(enabler)。如果该引擎是由第三方研发和实施的，则OSN提供商应当为第三方提供一些API以便得到相应的信息(例如具有朋友的评论的用户的UGC、UGC的转发链接、转发次数、UGC的隐私保护级别等)以用于分析。

应当注意在本发明中不考虑其他OSN用户通过拷贝&粘贴或打印屏幕转发UGC的情况。

由此，基于以上前提条件和隐私风险评估模型，本发明提供了一种用于对UGC进行隐私风险评估的方法，该方法包括：在步骤S101，获取转发数据，该转发数据包括关于所述UGC以及发布该UGC的用户个人信息的数据；在步骤S102，对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及在步骤S103，基于所述分析来评估隐私风险。从而，用户能够知道其UGC的隐私风险评估结果，由此能够更新或删除一些信息来避免负面后果。

所述转发数据可以包括关于UGC和发布该UGC的用户个人信息的数据，例如转发的UGC及评论、UGC的转发链接、转发次数、以及针对UGC的隐私保护级别。敏感信息元素可以包括关于进行隐私风险评估的UGC和用户的信息元素，例如需要进行隐私保护的用户姓名、家庭地址、电话号码、社安号码、职业。关于进行隐私风险评估的UGC和用户的多个敏感信息元素中的每个敏感信息元素的相应权重可以由用户设定，并且可以由矩阵表示，例如上述矩阵B，存在性因数可以指示多个敏感信息元素中的每个信息元素是否被包括在内，例如“1”表明敏感信息元素出现在随UGC转发的评论中，而“0”表明敏感信息元素不出现在随UGC转发的评论中，存在性因数可以由针对转发UGC的其他用户中的每个用户的矩阵来分别表示，例如上述矩阵A。获取转发数据的步骤可以通过不同方式来执行，例如从网络收集/搜索转发数据，或从网络抓取数据，其可以由爬虫功能/技术来执行，其中爬虫是系统地浏览万维网尤其是针对网络索引的目的的因特网机器人，网络爬虫也可以称为网络蜘蛛、蚂蚁、自动索引、或(在FOAF软件情境中)Web疾走(scutter)。

在一个示例性实施方式中，所述隐私风险还基于由所述用户预设的隐私保护级别、和为隐私风险评估预设的相应权重和转发次数来评估。例如，隐私风险评估的值可以通过将隐私保护级别乘以多个敏感性信息元素中的每个敏感性元素的相应权重、存在性因数以及转发次数的乘积之和来计算。

在一个示例性实施方式中，该方法还可以包括：得出来自所述转发数据的敏感信息元素，并且将其合并成能够公开用户的隐私的句子。

在一个示例性实施方式中，该方法还可以包括：在步骤S104，报告评估结果，该评估结果包括以下至少一者：隐私风险评估的值、以及根据所述隐私风险评估的值得到的相应的隐私风险评估级别；对应于所述UGC的预设的临界值；由所述用户预设的风险保护级别、以及根据所述隐私保护级别预设的用于隐私风险评估的相应权重；并且

在所述隐私风险评估的值高于相应的临界值的情况下，所述评估结果还包括以下至少一者：由来自所述转发数据的敏感信息元素合并成的句子；对所述评估值贡献大的评论；包括具有敏感信息的评论的所有转发链接；给用户的建议：删除或更新原始UGC；和/或联系发出具有敏感信息的评论的其他用户并请求其删除或更新所述评论。

所述临界值可以由系统或设备分别针对一条以及两条或更多条UGC的统计分析来预设，例如critical_value_one和critical_value_many，并且可以随后调整使得其更加合理。

在一个示例性实施方式中，步骤S101可以进一步包括：识别所述UGC；记录在转发所述UGC期间的其他用户的评论和所述UGC的来源、以及转发次数。

在一个示例性实施方式中，步骤S101进一步通过不同方式来执行，例如通过使用广度优先搜索算法或深度优先搜索算法来执行。

在一个示例性实施方式中，所述方法还可以包括：使用转发次数来检查转发数据是否包括所有转发链接，例如检查根据所述转发数据而获得的转发图是否包括所有转发链接，例如该步骤可以通过以下过程来实施：将转发次数与转发链接的数量进行比较，并且在转发次数等于转发链接的数量的情况下确定转发数据包括了所有转发链接。

在一个实施方式中，在对所述转发数据进行分析时仅将具有新评论的转发的UGC以及没有新评论的进一步的转发考虑在内。

在一个示例性实施方式中，在执行分析时，通过复制和粘贴或者打印屏幕转发的UGC不被考虑在内。

本发明还提供一种用于对UGC进行隐私风险评估的设备，该设备包括：获取装置210，被配置为获取转发数据，该转发数据包括关于所述UGC以及发布该UGC的用户个人信息的数据；分析装置220，被配置为对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及评估装置230，被配置为基于所述分析来评估隐私风险。

在一个示例性实施方式中，其中所述隐私风险还基于由所述用户预设的隐私保护级别、和为隐私风险评估预设的相应权重和转发次数来评估。

在一个示例性实施方式中，其中所述转发数据包括具有评论的转发的UGC、UGC的转发链接、转发次数、以及针对UGC的隐私保护级别。

在一个示例性实施方式中，分析装置220还被配置为：得出来自所述转发数据的敏感信息元素，并且将其合并成能够公开用户的隐私的句子。

在一个示例性实施方式中，该设备还可以包括：报告装置240，被配置为报告评估结果，该评估结果包括以下至少一者：隐私风险评估的值、以及根据所述隐私风险评估的值得到的相应的隐私风险评估级别；对应于所述UGC的预设的临界值；由所述用户预设的风险保护级别、以及根据所述隐私保护级别预设的用于隐私风险评估的相应权重；并且在所述隐私风险评估的值高于相应的临界值的情况下，所述评估结果还包括以下至少一者：由来自所述转发数据的敏感信息元素合并成的句子；对所述评估值贡献大的评论；包括具有敏感信息的评论的所有转发链接；给用户的建议：删除或更新原始UGC；和/或联系发出具有敏感信息的评论的其他用户并请求其删除或更新所述评论。

在一个示例性实施方式中，所述获取装置210进一步被配置为：识别所述UGC；记录在转发所述UGC期间的其他用户的评论和所述UGC的来源、以及转发次数。

在一个示例性实施方式中，其中所述获取装置是通过使用广度优先搜索算法或深度优先搜索算法来执行获取的。

在一个示例性实施方式中，分析装置220进一步被配置为：使用转发次数来检查转发数据是否包括所有转发链接，例如检查根据所述转发数据而获得的转发图是否包括所有转发链接。

在一个示例性实施方式中，通过复制和粘贴或者打印屏幕转发的UGC不被分析装置220考虑在内。

下面示例性地给出用于对UGC进行隐私风险评估的设备的一个特定示例，以便于理解本发明。

根据图3，先前描述的OSN内的UGC应当满足的前提条件列出如下：

识别UGC；

允许用户为UGC设定隐私保护级别；

记录转发期间的新的评论、指示转发UGC的来源的先前/父URL/URI、以及转发次数、并设定comm_flag。

使用爬虫功能来获得转发的UGC。通过使用爬虫功能，能够得到UGC的整个转发图。如果隐私风险评估引擎是由第三方开发的，则OSN提供商应当为第三方提供一些API以便得到相应的数据(例如具有朋友的评论的用户的UGC、UGC的转发链接、转发次数、UGC的隐私保护级别等)以用于分析。

分析模块的功能是实施等式(1)和(2)中描述的模型。为矩阵A、矩阵B以及参数λi确定合适的值并不容易。幸运的是，这可以使用通过分析足够的转发的UGC得到的越来越多的知识库来改进。

评估功能用于使用UGC和分析模块的功能来评估隐私风险。隐私风险评估级别作为结果可以被获得。此外，可以从评论(对计算评估的值影响较大的评论)得出敏感信息，并将其合并成公开用户的个人隐私信息的句子。

报告和建议功能用于按照一些格式(例如*.docx、*.pptx、*xlsx.、*.pdf、*.html等)显示隐私风险评估结果。

以使用例子一条UGC“Leo gets salary increase”作为举例，我们执行以下隐私风险评估。

步骤1获得转发图

当接收到针对UGC的隐私风险评估请求时，爬虫功能获取关于Leo公布的内容“My salary is increased by 30％”的所有转发数据(例如具有朋友的评论的转发UGC、UGC的转发链路、转发次数等)，图4中的整个转发图可以显示所述转发数据。

步骤2根据等式(1)来创建分析模型

假设在转发过程中仅Teddy和Jack评论了Leo的消息。不具有评论的那些转发UGC不会公开Leo的隐私。

还假设Teddy公布的关于“Leo gets salary increase”的UGC进一步被Jasmine和其他朋友转发大约1000次，并且Jack公布的消息进一步被Martin和其他朋友转发大约100次。

根据上述等式(1)，即

\begin{matrix} f i () \\ = f u n c_0 (l e v e l_U G C, W_l e v e l) \\ * Σ_{k = 1}^{M} [{Name}_{k}, {HomeAddr}_{k}, {PhoneNo}_{k}, {email}_{k}, {SocialNo}_{k}, {career}_{k}, {Company}_{k} ......] [\begin{matrix} W_{N a m e} \\ W_{H o m e A d d r} \\ W_{P h o n e N o \cdot} \\ W_{e m a i l} \\ W_{S o c i a l N o} \\ W_{C a r e e r} \\ W_{C o m p a n y} \\ ...... \end{matrix}] \end{matrix}

由于Leo将消息“My salary is increased by 30％”的隐私保护级别设定为L8，相应的W-Level预设为0.8，我们可以得到func_0(level_UGC,W_Level)为0.8。

我们可以设定

B = [\begin{matrix} W_{N a m e} \\ W_{H o m e A d d r} \\ W_{P h o n e N o \cdot} \\ W_{e m a i l} \\ W_{S o c i a l N o} \\ W_{C a r e e r} \\ W_{C o m p a n y} \\ ...... \end{matrix}] = [\begin{matrix} 1.00 \\ 0.90 \\ 0.95 \\ 0.85 \\ 1.00 \\ 0.01 \\ 0.005 \\ ...... \end{matrix}] .

我们可以从转发数据得出：A_Teddy＝[0,0,0,0,0,0,1,……]、以及A_Jack＝[1,0,0,0,0,1,0,……]。

假设critical_value_one的值为50。

根据步骤2，我们得出A_Teddy B＝0.005、A_Jack B＝1.01、以及fi()＝0.8*(0.005*1000+1.01*100)＝84.8。评估结果84.8高于critical_value_one 50，因此Leo的隐私会被公开。此外，可以获取评估水平。假设评估水平为EVA_D，低于平均EVA_C。

根据步骤2，我们可以得出Jack和Teddy的评论对隐私风险评估贡献较大。我们可以从Jack的评论“My friend Leo works in the productFirewall department”得出Name_k＝”Leo”和Career_k＝“Firewall engineer”，并且从Teddy的评论“This guy is responsible for product testing incompany AA”得出Compay_k＝”company AA”。因此，Leo的隐私信息被公开如下：“Leo_Firewall engineer_company AA_My salary is increased by30％”

根据步骤2，由于A_Jack B(＝1.01)高于A_Teddy B(＝0.01)，我们还可以得出Jack的评论对计算评估值影响最大。

步骤4报告

根据步骤3，评估结果报告主要包括：

隐私风险评估值为84.8，高于critical_value_one 50；

评估级别为EVA_D，低于评估评估级别EVA_C；

用户为消息预设的隐私保护级别为L8，为隐私风险评估预设的相应权重为0.8；

Leo的隐私信息被公开如下：“Leo_Firewall engineer_companyAA_My salary is increased by 30％”；

Jack的评论对隐私公开影响最大。为了改进隐私保护，建议：1)Leo删除或更新原始消息；和/或2)Leo联系Jack删除或更新其评论。

一个OSN用户可以在OSN内公布两条或更多条用户生成的内容。那些UGC可以被他/她的朋友在OSN内评论并转发。对于每条UGC，它可能不会公开这个用户隐私信息。但是，两条或更多条他/她的UGC可能会公开用户隐私信息。

上述针对一条UGC使用例子的四个步骤适用于两条或更多条UGC使用例子，唯一的不同之处在于用于两条或更多条UGC的纠正评估的分析模型更加复杂。通过将等式(2)中的分析模型应用于那些UGC，将会获得评估值。

虽然以上实施都是作为示例而在OSN中给出的，但是本领域技术人员可以理解所述方法和设备也可以应用于其他网络。

获取装置210、分析装置220、评估装置230以及报告装置240中的至少一个被设想为包括以下程序指令，当该程序指令被执行时，能够使得所述设备根据如上所述的示例性实施方式来操作。上述获取装置210、分析装置220、评估装置230以及报告装置240中的任意装置可以集成在一起活着由分离的组件实现，并且可以是适合本地技术环境中的任意类型的，作为非限制性的示例，其可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)以及基于多核处理器架构的处理器中的一者或多者。上述ROM可以是适合本地技术环境的任意类型的，并且可以使用任意合适的数据存储技术来实现，例如基于存储设备的半导体、闪存、磁性存储设备和系统、光存储设备和系统、固定存储器和可移除存储器。

一般来说，各个示例性实施方式可以用硬件或专用电路、软件、逻辑或其任意组合来实现。例如，一些方面可以用硬件实现，而其他方面可以用固件或可由控制器、微处理器或其他计算设备执行的软件实现，但是本发明并不限于此。虽然本发明的示例性实施方式的各个方面可以用框图、流程图或使用任意其他图示的表示来描述，但是应当理解，作为非限制性的示例，这里描述的这些框、设备、系统、技术或方法可以由硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其组合来实现。

应当理解本发明的示例性实施方式的至少一些方面可以由一个或多个计算机或其他设备用计算机可执行指令(例如一个或多个程序模块)来实现。一般来说，程序模块包括在由计算机或其他设备中的处理器运行时执行特定任务或实施特定抽象数据类型的线程、程序、对象、组件、数据结构等。计算机可执行的指令可以存储在计算机可读媒介上，例如存储在硬盘、光盘、可移除存储媒介、固态存储器、随机访问存储器(RAM)等。本领域技术人员可以认识到，程序模块的功能可以根据需要在各个实施方式在中合并或分开。另外，所述功能可以在固件或硬件等效物(例如集成电路、现场可编程门阵列(FPGA)等)中作为整体或部分实现。

虽然已经公开了本发明的特定实施方式，但是本领域技术人员能够理解在不背离本发明的精神和范围的情况下，可以对特定实施方式进行改变。因此本发明的范围不限于特定实施方式，其目的是所附的权利要求覆盖本发明范围内的任意和所有这种应用、修改以及实施方式。

Claims

1.一种用于对用户生成的内容(UGC)进行隐私风险评估的方法，该方法包括：

基于所述分析来评估隐私风险。

2.根据权利要求1所述的方法，其中所述隐私风险还基于由所述用户预设的隐私保护级别和为隐私风险评估预设的相应权重、以及转发次数来评估。

3.根据权利要求1所述的方法，其中所述转发数据包括具有评论的转发的UGC、UGC的转发链接、转发次数、以及针对UGC的隐私保护级别。

4.根据权利要求1-3中任一权利要求所述的方法，该方法还包括：

得出来自所述转发数据的敏感信息元素，并且将其合并成能够公开用户的隐私的句子。

5.根据权利要求4所述的方法，该方法还包括：

报告评估结果，该评估结果包括以下至少一者：

对应于所述UGC的预设的临界值；

在所述隐私风险评估的值高于相应的临界值的情况下，所述评估结果还包括以下至少一者：

由来自所述转发数据的敏感信息元素合并成的句子；

对所述评估值贡献大的评论；

包括具有敏感信息的评论的所有转发链接；

给用户的建议：删除或更新原始UGC；和/或联系发出具有敏感信息的评论的其他用户并请求其删除或更新所述评论。

6.根据权利要求1-3中任一权利要求所述的方法，其中所述获取的步骤进一步包括：

识别所述用户生成的内容；

记录在转发所述UGC期间的其他用户的评论和所述UGC的来源、以及转发次数。

7.根据权利要求1-3中任一权利要求所述的方法，其中所述获取的步骤是通过使用广度优先搜索算法或深度优先搜索算法来执行的。

8.根据权利要求1-3中任一权利要求所述的方法，其中所述分析的步骤进一步包括：

使用转发次数来检查根据所述转发数据而获得的转发图是否包括所有转发链接。

9.根据权利要求1-3中任一权利要求所述的方法，其中在对所述转发数据进行分析时仅将具有新评论的转发的UGC以及没有新评论的进一步的转发考虑在内。

10.一种用于对用户生成的内容(UGC)进行隐私风险评估的设备，该设备包括：

获取装置，被配置为获取转发数据，该转发数据包括关于所述UGC以及发布UGC的用户个人信息的数据；

分析装置，被配置为对所述转发数据进行分析以得到用于隐私风险评估的关于所述UGC和所述用户的多个敏感信息元素中的每个敏感信息元素的相应权重、以及指示在所述UGC被转发时所述多个敏感信息元素中的每个敏感信息元素是否被包括在内的存在性因数；以及

评估装置，被配置为基于所述分析来评估隐私风险。

11.根据权利要求10所述的设备，其中所述隐私风险还基于由所述用户预设的隐私保护级别和为隐私风险评估预设的相应权重、以及转发次数来评估。

12.根据权利要求10所述的设备，其中所述转发数据包括具有评论的转发的UGC、UGC的转发链接、转发次数、以及针对UGC的隐私保护级别。

13.根据权利要求10-12中任一权利要求所述的设备，其中所述分析装置还被配置为：

14.根据权利要求13所述的设备，该设备还包括：

报告装置，被配置为报告评估结果，该评估结果包括以下至少一者：

对应于所述UGC的预设的临界值；

由来自所述转发数据的敏感信息元素合并成的句子；

对所述评估值贡献大的评论；

包括具有敏感信息的评论的所有转发链接；

15.根据权利要求10-12中任一权利要求所述的设备，其中所述获取装置进一步被配置为：

识别所述用户生成的内容；

16.根据权利要求10-12中任一权利要求所述的设备，其中所述获取装置是通过使用广度优先搜索算法或深度优先搜索算法来执行获取的。

17.根据权利要求10-12中任一权利要求所述的设备，其中所述分析装置进一步被配置为使用转发次数来检查根据所述转发数据而获得的转发图是否包括所有转发链接。

18.根据权利要求10-12中任一权利要求所述的设备，其中所述分析装置被配置为在对所述转发数据进行分析时仅将具有新评论的转发的UGC以及没有新评论的进一步的转发考虑在内。