CN113886889A

CN113886889A - 一种基于联合随机翻转的差分隐私保护方法

Info

Publication number: CN113886889A
Application number: CN202111248409.1A
Authority: CN
Inventors: 王永; 胡勇进; 高明星; 彭俊杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-04
Anticipated expiration: 2041-10-26
Also published as: CN113886889B

Abstract

本发明涉及一种基于联合随机翻转的差分隐私保护方法，属于隐私安全技术领域。该方法为：S1：将评分用编码机制编码成二进制形式；S2：将二进制形式评分按规则转换成二进制矩阵；S3：对二进制矩阵进行联合随机翻转；S4：将翻转后的二进制矩阵进行S2中的反向操作展开；S5：利用汉明距离求物品间相似性；S6：利用物品相似性与原始评分预测用户对未评分物品的评分，并完成推荐。本发明在保证用户信息隐私安全的同时，避免了差分隐私算法对推荐系统准确性的影响，实现了安全性与准确性的良好平衡。

Description

一种基于联合随机翻转的差分隐私保护方法

技术领域

本发明属于隐私安全技术领域，涉及一种基于联合随机翻转的差分隐私保护方法。

背景技术

推荐系统可以利用用户海量的历史信息对用户的喜好进行推荐，用户如果购买推荐的商品或者下载了推荐的软件，则商家会得到相应的收益，所以提高推荐系统的准确性是很重要的研究方向。但由于用户历史信息中包含用户的隐私数据，为了避免隐私数据的泄漏，各种隐私保护方法被应用到了推荐系统中。其中差分隐私是近年比较热门的隐私保护技术，但是差分隐私对隐私数据起到有效保护作用的同时，也降低了数据对于推荐系统的可用性，从而使推荐系统准确性降低。因此，如何避免差分隐私算法对推荐系统准确性的影响，实现安全性与准确性的良好平衡是差分隐私推荐算法的关键。

随机翻转机制是Rade提出的一种满足差分隐私的机制，用于对二进制数据的隐私保护。在推荐系统中，用户信息的隐式表达为二进制形式，可以用随机翻转机制进行隐私保护。随机翻转机制的定义如下：

其中ε为隐私预算，表达的含义为，二进制位以p的概率翻转，以q的概率不翻转。随机翻转机制具有严格的数学推导和很强的隐私保护性能。

根据以上的分析可知，随机翻转机制在推荐系统中只能处理用户数据的隐式表达，不能处理用户显式表达(如评分数据)，而且随机翻转机制对数据的可用性产生了影响，使推荐系统准确性降低。因此随机翻转机制有着一定的局限性。为了将其进一步推广至用户显式表达的处理，本发明提出了一种新的编码机制。为了消除对数据可用性的影响，本发明提出了一种联合随机翻转机制。

发明内容

有鉴于此，本发明的目的在于提供一种基于联合随机翻转的差分隐私保护方法，实现安全性与推荐系统准确性的良好平衡。

为达到上述目的，本发明提供如下技术方案：

一种基于联合随机翻转的差分隐私保护方法，该方法具体包括以下步骤：

S1：将U中的所有评分数据r_ij利用编码机制编码成二进制形式b_ij，t；r_ij表示第i个用户对第j个物品的评分，利用编码机制编码成二进制形式b_ij，t，t的范围为1～L，L为编码长度；

S2：每个用户的二进制数据转换成二进制矩阵b_i：

S3：每个用户的二进制矩阵拼接成用户二进制矩阵B：

B＝[b₁，b₂，...b_i]；

S4：对用户二进制矩阵B进行联合随机翻转得到B′：

B′＝[b′₁，b′₂，...b′_i]；

S5：将B′进行S2中的反向操作展开U′：

U′＝[u′₁，u′₂，...u′_i]

u′_i＝[(b′_i1，1，b′_i1，2，...b′_i1，L)，(b′_i2，1，b′_i2，2，...b′_i2，L)，...，(b′_ij，1，b′_ij，2，...b′_ij，L)]；

S6：利用汉明距离求U′中物品之间相似性，其中汉明距离公式为：

其中，x，y为二进制数，d(x，y)为x，y之间汉明距离，

为异或运算符；则物品m和物品n之间的相似性表示为sim(m，n)：

其中L为编码长度，s为m和n的共同评分用户集合，len(s)表示集合中共同评分用户的数量，b′_s[t]，m和b′_s[t]，n分别表示s中第t个共同评分用户对m，n的评分的联合随机翻转结果；

S6：利用相似性和原始评分U预测未知评分r(u，i)：

其中，N(i)为物品i的邻居物品集合，r_uj为用户u对物品j的原始评分，将预测评分大于设定阈值的物品推荐给用户，完成推荐。

可选的，所述S1中，根据编码机制编码原始评分，编码机制为：

r_i＝(b₁，b₂，...，b_L)

其中L为编码长度，L＝评分最大值-评分最小值；r_i为评分范围按升序排列的第i个值，b_i∈{0，1}，i∈[1，L]的整数，式子中b₁至b_L-i+1为0，b_L-i+2至b_L为1。

可选的，所述S4中，对用户二进制矩阵B进行联合随机翻转得到B′，联合随机翻转的公式为：r_i＝(b₁，b₂，...，b_L-i+1，b_L-i+2，...，b_L)

其中ε为隐私预算，对于用户二进制矩阵B：

B＝[b₁，b₂，...b_i]＝[(V₁₁，V₁₂，...，V_1L)，(V₂₁，V₂₂，...，V_2L)，，(V_i1，V_i2，...，V_iL)]

将二进制矩阵B中的每一列V以p的概率全部翻转，即V中所有的1翻转为0，所有0翻转为1；以q的概率不翻转，即V中所有1和0均保持不变。

本发明的有益效果在于：本发明所述编码方法可以使编码前后距离度量没有损失；本发明所述方法实现了安全性与推荐系统准确性的良好平衡。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明联合随机翻转推荐方法的流程图；

图2为本发明编码机制的示意图；

图3为固定N值时联合随机翻转推荐算法、随机翻转推荐算法和去掉随机翻转的推荐算法在不同ε值时的对比效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，图1为本发明所述联合随机翻转的差分隐私推荐方法，具体步骤为：

S1：将U中的所有评分数据r_ij(表示第i个用户对第j个物品的评分)利用编码机制编码成二进制形式b_ij，t(t的范围为1～L，L为编码长度)，以保证编码前后距离度量的损失；

S2：每个用户的二进制数据转换成二进制矩阵b_i：

S3：每个用户的二进制矩阵拼接成用户二进制矩阵B：

B＝[b₁，b₂，...b_i]；

S4：对用户二进制矩阵B进行联合随机翻转得到B′：

B＝[b′₁，b′₂，...b′_i]；

S5：将B′进行S2中的反向操作展开U′：

U′＝[u′₁，u′₂，...u′_i]

其中，x，y为二进制数，d(x，y)为x，y之间汉明距离，

为异或运算符。则物品m和物品n之间的相似性可以表示为sim(m，n)：

S6：利用相似性和原始评分U预测未知评分r(u，i)：

其中，N(i)为物品i的邻居物品集合，r_uj为用户u对物品j的原始评分，将预测评分大于设定阈值的物品推荐给用户，完成推荐；

步骤S1中，根据编码机制编码原始评分，编码机制为：

r_i＝(b₁，b₂，...，b_L)

其中L为编码长度，L＝评分最大值-评分最小值。ri为评分范围按升序排列的第i个值，b_i∈{0，1}，i∈[1，L]的整数，式子中b₁至b_L-i+1为0，b_L-i+2至b_L为1

步骤S4中，对用户二进制矩阵B进行联合随机翻转得到B′，联合随机翻转的公式为：

其中ε为隐私预算，对于用户二进制矩阵B：

将二进制矩阵B中的每一列V以p的概率全部翻转，即V中所有的1翻转为0，所有0翻转为1.以q的概率不翻转，即V中所有1和0均保持不变。

实施例：

本发明所述的基于联合随机翻转的差分隐私保护方法，具体包括以下步骤：

步骤1：对评分范围为{1，2，3，4，5，}的数据进行编码，编码长度L＝4；

步骤2：对编码后的数据进行联合随机翻转，利用汉明距离计算相似度并完成推荐；

步骤3：将联合随机翻转推荐算法与随机翻转推荐算法以及去掉联合随机翻转的推荐算法进行比较：

(1)分析N值固定时联合随机推荐算法与随机翻转推荐算法在不同ε值时的表现：如图3所示，当N＝10，在不同的数据集中，联合随机翻转算法在不同隐私预算ε下，表现稳定，始终保证隐私保护后的数据的可用性零损失，且对比随机翻转推荐算法表现良好。其中，在Movielens-1m(图3(a)，图3(c))和YahooMusic(图3(b)，图3(d))两个真实数据集中，随着隐私预算ε的增大，联合随机推荐算法的MAE(图3(a)，图3(b))与RMSE(图3(c)，图3(d))始终不变，且与去掉联合随机翻转的推荐算法相等。随机翻转推荐算法的RMSE与MAE随着隐私预算ε的增大逐渐减小，最后在ε≥100时，等于去掉随机翻转的推荐算法。

(2)分析固定ε值时联合随机推荐算法与去掉联合随机翻转的推荐算法在不同N值上的表现：当ε＝1，在不同数据集中，联合随机推荐算法与去掉联合随机翻转的推荐算法在不同N值上的RMSE与MAE始终相等，联合随机翻转推荐算法在保证隐私信息安全性的同时没有对数据可用性造成任何损失。其中，N＝{10,20,30,40,50}时，在YahooMusic(表1)和Movielens-1m(表2)两个真实数据集中，联合随机推荐算法与去掉联合随机翻转的推荐算法的RMSE与MAE始终相等。

表1数据集：Yahoo Music

表2数据集：MovieLens 1M

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。