CN109543094B

CN109543094B - 一种基于矩阵分解的隐私保护内容推荐方法

Info

Publication number: CN109543094B
Application number: CN201811148279.2A
Authority: CN
Inventors: 董恺; 郭桃林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-09-28
Anticipated expiration: 2038-09-29
Also published as: CN109543094A

Abstract

本发明公开了一种基于矩阵分解的隐私保护内容推荐方法，包括如下步骤：(1)客户端安全模块为用户历史记录添加差分隐私噪声；(2)客户端安全模块将隐私的用户历史记录上传至服务器端；(3)服务器端通过矩阵分解的方式，将所有用户的隐私历史记录分解为“用户‑隐式特征”矩阵和“内容‑隐式特征”矩阵，并根据要接受推荐的用户的隐私记录构建用于产生推荐的“内容‑隐式特征”矩阵，并下发至客户端；(4)客户端根据用户的真实历史记录和接收的“内容‑隐式特征”矩阵，分析候选内容与用户真实记录中内容的相似度，并产生最终的推荐结果。本发明中用户历史记录隐私得以保护，内容推荐结果准确，用户端和服务器端的数据传输量较小。

Description

一种基于矩阵分解的隐私保护内容推荐方法

技术领域

本发明涉及信息隐私与安全技术领域，尤其是一种基于矩阵分解的隐私保护内容推荐方法。

背景技术

近年来，随着互联网技术的快速发展，网络空间中的信息量呈指数级增长，从而导致互联网用户从海量数据中获取有用的数据变得越来越难。个性化推荐技术根据用户的历史数据，从海量数据中筛选与用户相关的数据并推荐给用户，已成为网络应用的一个基本功能。

现有个性化推荐技术大致可以分为三类：基于内容的方法、基于协同过滤的方法和混合推荐方法。其中，协同过滤方法基于其他用户的兴趣爱好及历史记录向目标用户进行推荐，该方法因推荐结果准确性较高而被用于各种个性化推荐场景。如亚马逊提出了基于物品的协同过滤推荐方法，该方法通过分析用户的行为记录计算物品之间的相似度给用户推荐那些与他们之前喜欢的物品相似的物品。Netflix也采用相似的方法为用户推荐和他们曾经喜欢的电影相似的电影。

协同过滤方法需要用户将自己的历史数据上传给服务器，然而，用户的历史记录包含用户的行为特征、兴趣偏好等敏感信息，因此，协同过滤会导致用户的敏感信息泄露的问题。针对这一问题，Polat等人提出通过在用户端添加随机噪声的方式干扰个人用户隐私信息，然后将干扰后的信息发送给服务器端进行推荐，从而达到在个性化推荐过程中保护用户信息的目的。然而，该方法并没有从理论上证明能够在个性化推荐过程中保证用户的隐私信息。

Dwork等人在2006年首次提出了差分隐私的概念，与传统隐私保护方法的不同之处在于，差分隐私定义了一个极为严格的攻击模型，并对隐私泄露风险给出了严谨、定量化的表示和证明。McSherry等人首先提出将差分隐私用于个性化推荐系统，并提出了一个基于差分隐私的隐私保护推荐框架，该框架主要被用于为用户推荐电影信息。然而，该方法假设了可信的服务器端，并不能对服务器获取用户隐私信息以及中间人攻击等问题进行保护。

Shen等人假设了服务器端是不可信的，并将差分隐私用于对用户端数据添加噪声，然后将干扰后的个人用户信息提供给服务器端用于推荐。在此基础上，Shen等人设计开发了一个基于差分隐私的个性化推荐系统。该方法是基于内容的方法，需要按类别对所有内容进行分类，然后根据用户干扰的历史记录为每个类别进行评分，最终为用户推荐与用户喜好类别相关的内容。然而，该方法只能用于基于内容的推荐方法，无法适用于基于协同过滤的推荐方法。

发明内容

本发明所要解决的技术问题在于，提供一种基于矩阵分解的隐私保护内容推荐方法，用户历史记录隐私得以保护，内容推荐结果准确，用户端和服务器端的数据传输量较小。

为解决上述技术问题，本发明提供一种基于矩阵分解的隐私保护内容推荐方法，包括如下步骤：

(1)客户端安全模块为用户历史记录添加差分隐私噪声；

(2)客户端安全模块将隐私的用户历史记录上传至服务器端；

(3)服务器端通过矩阵分解的方式，将所有用户的隐私历史记录分解为“用户-隐式特征”矩阵和“内容-隐式特征”矩阵，并根据要接受推荐的用户的隐私记录构建用于产生推荐的“内容-隐式特征”矩阵，并下发至客户端；

(4)客户端根据用户的真实历史记录和接收的“内容-隐式特征”矩阵，分析候选内容与用户真实记录中内容的相似度，并产生最终的推荐结果。

优选的，步骤(1)中，客户端安全模块为用户历史记录添加差分隐私噪声具体为：用户历史记录和用户对历史记录的评分均为隐私信息，将给定的隐私预算∈分解为用户历史记录隐私预算∈₁和历史记录评分隐私预算∈₂，其中∈＝∈₁+∈₂；在用户历史记录保护方面，设用户i的历史记录列表U_i＝{i₁,i₂,…,i_m}，当用户的历史记录中包含对象j时，i_j＝1，否则i_j＝0；当用户拥有t个对象时，通过执行t次指数机制，每次隐私地选择1个对象，最终报告t个隐私的用户历史记录。

优选的，步骤(3)中，服务器端通过矩阵分解的方式，将所有用户的隐私历史记录分解为“用户-隐式特征”矩阵和“内容-隐式特征”矩阵，并根据要接受推荐的用户的隐私记录构建用于产生推荐的“内容-隐式特征”矩阵，并下发至客户端具体为

其中，I_i(i＝1,2,…,n)指对象i，F_j(j＝1,2,…,k)指通过矩阵分解方法分解出来的第j个隐式特征。

优选的，步骤(4)中，客户端根据用户的真实历史记录和接收的“内容-隐式特征”矩阵，分析候选内容与用户真实记录中内容的相似度，并产生最终的推荐结果具体为

Descend_k(sim(U_i,I₁),sim(U_i,I₂),…,sim(U_i,I_n)),

其中，sim(U_i,I_j)指用户对象列表U_i与对象I_j之间的相似度的总和，Descend_k()指将用户列表U_i与对象I_j(j＝1,2,…n)之间的相似度进行降序排序，并输出相似度最高的k个对象作为推荐结果。

本发明的有益效果为：(1)用户历史记录隐私得以保护，且满足严格的差分隐私定义；(2)内容推荐结果准确，无需因为隐私保护而降低推荐准确度；(3)用户端和服务器端的数据传输量较小；(4)与传统推荐框架相比，服务器端计算量有所下降，额外的隐私相关计算量在用户端完成，且在可接受范围内。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

如图1所示，一种基于矩阵分解的隐私保护内容推荐方法，包括如下步骤：

(1)客户端安全模块为用户历史记录添加差分隐私噪声；

(2)客户端安全模块将隐私的用户历史记录上传至服务器端；

本发明提出基于矩阵分解的隐私保护内容推荐框架。具体的实施步骤分为3个阶段，分别是基于差分隐私的用户对内容评分信息收集方法；基于矩阵分解的特征矩阵计算方法；基于特征矩阵的用户端内容推荐方法。接下来将分别介绍这3个阶段的内容：

(1)基于差分隐私的用户对内容评分信息收集方法：

用户的历史信息包含大量隐私信息。需要保护的信息包括：用户看过或关注过哪些内容、用户喜好哪些内容、用户对每个历史内容的具体评分。传统的内容推荐框架以用户上传的历史信息为输入，经过服务器内的内容推荐算法产生推荐结果。要想获得准确的推荐结果则必然要暴露准确的隐私信息。

基于矩阵分解的隐私保护内容推荐框架不要求用户上产准确的历史信息，相应的只需上传满足差分隐私的历史信息即可。满足差分隐私的历史信息可以看成是用户对所有内容评分的一个概率分布，针对任意内容，往往该用户对该内容的真实评分附近概率较高，以此来保证差分隐私的历史信息的可用性。基于差分隐私的用户对内容评分信息收集方法从如下两个方面对隐私和功能性进行保证。

一方面，从隐私的角度，差分隐私的概率机制要保证：首先，用户是否看过任意一个历史内容，都几乎不影响任何内容出现在差分隐私的历史信息的概率；其次，用户喜好的任意一个历史内容，都几乎不影响任何内容被在差分隐私的历史信息中被喜好的概率；最后，用户对任意一个历史内容的具体评分，都几乎不影响任何内容在差分隐私的历史信息中的具体评分的概率分布。故而用户看过的或喜好的任意一个内容、或对该内容的打分都可以被保护。

另一方面，从功能性的角度，虽然每位用户个人上传的是加上噪声的不准确的历史信息，但对大量用户的噪声历史信息进行的统计结果仍然准确，故而服务器可以基于准确的统计信息计算得到准确的特征矩阵(见步骤2)；而由于针对用户个人的内容推荐过程，最终是在用户本地完成，用户可以从服务器端获取特征矩阵，结合自身本地准确的历史信息，从而计算得到准确的推荐结果(见步骤3)。

(2)基于矩阵分解的特征矩阵计算方法：

服务器获得大量用户的历史信息，这些历史信息均是不准确的，并且每条历史信息所添加的噪声满足预设的概率分布。从统计的角度，每种潜在类型的一大批用户对于每条潜在内容的量化评分，其均值将是准确的。服务器使用矩阵分解方法计算特征矩阵，其准确性将随着该种潜在类型的用户数量增长而提升。换言之，基于统计计算得到的特征矩阵，其对于能够刻画多数用户的真正特征可以准确描述，而对于少量用户评分的波动反而可以有效规避，反而避免了基于矩阵分解的特征矩阵计算中可能出现的过拟合。计算得到特征矩阵后，该特征矩阵需要随着用户历史信息的增加而不断更新，当更新历史信息的用户数量达到一定阈值后，服务器需要重新计算，具体阈值设置与应用相关。不同历史版本的特征矩阵均需妥善保存在服务器，历史版本的特征矩阵可以通过数据挖掘方法分析全局特征及特征变化。

当有用户进行查询时，仅有最新版本的特征矩阵将被推送给客户端(从数据传输的角度，真正被推送其实只是全局特征矩阵的很小一部分，具体是哪一部分是根据用户上传的历史内容而决定)。

(3)基于特征矩阵的用户端内容推荐方法：

用户端拥有准确、实时的历史信息，同时拥有从服务器端获取部分内容的特征矩阵，该特征矩阵是准确的，同时却是不完整的。使用经典的矩阵分解方法，即可从该部分内容中计算获得最值得推荐的结果。因此，本专利所述之基于矩阵分解的隐私保护内容推荐框架，影响其准确度的最大因素在于用户端获取的特征矩阵是否能够包含最可能被推荐的内容。根据应用不同，可进行以下权衡与优化，具体权衡与优化算法是应用相关的，不在本专利保护范围内：可以针对推荐框架的准确度与用户下载特征矩阵大小之间进行权衡；同时可以在更新特征矩阵时，针对添加新的特征矩阵推荐内容的评分值与更新特征矩阵现有内容的评分值之间进行优化。

本发明提出一种基于矩阵分解的隐私保护内容推荐方法。首先，为用户本地数据添加差分隐私噪声，并将干扰后的用户数据发送给服务器；然后，服务器端根据隐私的用户数据构建“用户-内容”关系矩阵，然后挖掘；其次，挖掘“用户-内容”关系矩阵中的K个隐式特征，构建“用户-隐式特征”矩阵和“内容-隐式特征”矩阵；再次，服务器端将“内容-隐式特征”矩阵发送给客户端；最后，客户端根据用户真实历史记录和隐私的“内容-隐式特征”矩阵为目标用户产生个性化推荐结果。

Claims

1.一种基于矩阵分解的隐私保护内容推荐方法，其特征在于，包括如下步骤：

(1)客户端安全模块为用户历史记录添加差分隐私噪声；用户历史记录和用户对历史记录的评分均为隐私信息，将给定的隐私预算∈分解为用户历史记录隐私预算∈₁和历史记录评分隐私预算∈₂，其中∈＝∈₁+∈₂；在用户历史记录保护方面，设用户i的历史记录列表U_i＝{i₁,i₂,…,i_m}，当用户的历史记录中包含对象j时，i_j＝1，否则i_j＝0；当用户拥有t个对象时，通过执行t次指数机制，每次隐私地选择1个对象，最终报告t个隐私的用户历史记录；

(2)客户端安全模块将隐私的用户历史记录上传至服务器端；

2.如权利要求1所述的基于矩阵分解的隐私保护内容推荐方法，其特征在于，步骤(3)中，服务器端通过矩阵分解的方式，将所有用户的隐私历史记录分解为“用户-隐式特征”矩阵和“内容-隐式特征”矩阵，并根据要接受推荐的用户的隐私记录构建用于产生推荐的“内容-隐式特征”矩阵，并下发至客户端具体为

3.如权利要求1所述的基于矩阵分解的隐私保护内容推荐方法，其特征在于，步骤(4)中，客户端根据用户的真实历史记录和接收的“内容-隐式特征”矩阵，分析候选内容与用户真实记录中内容的相似度，并产生最终的推荐结果具体为

Descend_k(sim(U_i,I₁),sim(U_i,I₂),…,sim(U_i,I_n)),