CN111125747A

CN111125747A - 一种商务网站用户的商品浏览隐私保护方法及系统

Info

Publication number: CN111125747A
Application number: CN201911005097.4A
Authority: CN
Inventors: 吴宗大; 卢成浪; 谢坚
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-05-08
Anticipated expiration: 2039-10-22
Also published as: CN111125747B

Abstract

本发明公开了一种商务网站用户的商品浏览隐私保护方法及系统。所述方法包括(1)获取商务网站用户发布的当前商品浏览请求；(2)获取的当前商品浏览请求与所述商务网站用户的历史商品浏览请求序列，构造相应的一组哑元请求；(3)将待提交的浏览请求集合U＝{u₀,u₁,u₂,…,u_n}中的商品浏览请求以随机次序逐个提交给所述商务网站后台服务器，获取相应的商品介绍内容集合；(4)从商品介绍内容集合中筛选前商品浏览请求对应的商品介绍内容，返回给所述商务网站用户。本发明提供的系统运行在客户端，不要求改变现有电子商务平台的体系架构，也不要求改变服务器端的后台服务算法；具有良好的实用性。

Description

一种商务网站用户的商品浏览隐私保护方法及系统

技术领域

本发明属于信息安全领域，更具体地，涉及一种商务网站用户的商品浏览隐私保护方法及系统。

背景技术

社会科学领域的学者更多地从法律法规和行业政策角度，研究电子商务中的用户隐私问题。然而，现有法律法规还不能适应电子商务的迅速发展形势，并且层出不穷的用户隐私泄露事件表明，法律法规并不能从根本上解决电商用户的隐私安全问题。近年，学者也尝试从技术角度研究该问题，但已有的技术方法还不够深入且缺乏系统，并且它们更多是针对用户资料隐私，较少关注用户行为隐私，难以满足电子商务平台的隐私保护需求。

针对不可信网络环境下的用户隐私保护问题，自然科学领域的学者们也给出了许多有效的技术方法，代表性地有：假名法、加密法、掩盖法和哑元法。①假名法是指将用户服务请求中的身份标识用临时假名代替，以打破用户和服务请求间的联系。假名法通常采用集中式体系结构，即通过一个可信第三方匿名服务器完成假名的发布、使用、撤销等操作。然而，由于用户身份被隐藏，假名法对需要用户身份认证的应用场景是一个障碍。电子商务平台一般要求用户必须实名登录后才能使用各项服务，为此，假名法难以有效地应用于电子商务平台保护用户行为隐私。②隐私加密是指通过加密变换，使得用户行为对服务器端不可见，以达到隐私保护目的(代表性地有隐私信息检索)。加密法能在确保信息服务可用的前提下，不泄露用户行为隐私，以实现较为严格的隐私保护。然而，该类方法不仅要求额外硬件和复杂算法的支持，且要求改变服务器端的信息服务算法，从而引起整个平台架构的改变，降低了方法在电子商务平台中的可用性。③掩盖法是指通过伪造数据或使用一般化数据来掩盖涉及用户敏感偏好的行为数据。该类方法不改现有服务算法，也不改变现有平台架构，因而具有较好的实用性。然而，由于改写了用户行为数据，该类方法会对服务准确性会造成一定负面影响，即其隐私保护需以牺牲服务质量为代价，难以满足电子商务平台的实际应用需求。④哑元法主要针对位置服务，即通过伪造哑元位置，连同用户位置提交给服务器端，使得攻击者无法识别出用户精确查询位置，以保护用户位置隐私。然而，该类技术严重依赖于哑元的构造质量，而理想哑元位置的构造十分富有挑战性。并且，现有哑元法主要面向位置服务的隐私保护，通常难以直接应用于电子商务环境中保护用户行为隐私(如商品浏览服务、检索服务和推荐服务等)。

综上所述，已有用户隐私保护技术并不是针对电商用户行为隐私问题而专门提出，它们在实用性和安全性上仍无法满足电子商务平台的实际应用需求。理想的商务网站用户行为隐私保护方法应满足以下两个方面的要求。一方面，能有效改善用户行为隐私在不可信网站服务器端的安全性。另一方面，能有效确保现有电子商务平台的实用性，具体包括：不改变信息服务的准确性(即对比引入隐私方法前后，最终服务结果一致)；不改变信息服务的高效性(隐私方法不会对服务效率构成显著性影响)；不改变现有电子商务平台架构(即不改变服务器端的服务算法，也不需要额外硬件的支持)。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种商务网站用户的商品浏览隐私保护方法及系统，其目的在于通过构造合适的哑元请求与用户商品浏览请求一同提交给商务网站后台服务器，并筛选返回结果以保护用户隐私，由此解决的技术需要改变商务平台的信息服务的准确性、高效性降低或需要改变现有电子商务平台服务架构的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种商务网站用户的商品浏览隐私保护方法，包括以下步骤：

(1)获取商务网站用户发布的当前商品浏览请求U₀；所述商品浏览请求为待获取的含有特定商品介绍网页的链接，其对应某一商品名称、以及某一商品类别；

(2)根据步骤(1)获取的当前商品浏览请求U₀与所述商务网站用户的历史商品浏览请求序列，构造相应的一组哑元请求U₁,U₂,…,U_n，并组成待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}；

(3)将步骤(2)获取的待提交的浏览请求集合U＝{u₀,u₁,u₂,…,u_n}中的商品浏览请求以随机次序逐个提交给所述商务网站后台服务器，获取相应的商品介绍内容集合；

(4)从步骤(3)获取的商品介绍内容集合中筛选前商品浏览请求U₀对应的商品介绍内容，返回给所述商务网站用户。

优选地，所述商务网站用户的商品浏览隐私保护方法，其步骤(2)所述历史商品浏览请求序列包括历史构造并提交的哑元请求以及用户提交的历史商品浏览请求。

优选地，所述商务网站用户的商品浏览隐私保护方法，其步骤(2)所述哑元请求U₁,U₂,…,U_n使得所述待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}满足商品浏览信息熵和类别区域距离多目标最优化模型。

优选地，所述商务网站用户的商品浏览隐私保护方法，其步骤(2)所述哑元请求U₁,U₂,…,U_n使得所述待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}满足以下多目标最优化模型：

其中

商品浏览信息熵；

为类别区域距离。

优选地，所述商务网站用户的商品浏览隐私保护方法，其对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}、其对应的商品集合

其对应的商品类别集合

其中g_k＝g(u_k)表示链接u_k所对应的一种商品，d_k＝d(g_k)表示商品g_k所对应的一种商品类别；所述商品浏览信息熵

按照以下方法获取：

其中，

为链接熵、

为商品熵、

为类别熵、分别计算如下：

其中，P(u_k)表示根据历史商品浏览请求序列获取的链接u_k被用户浏览的概率估计，P(g_k)表示历史商品浏览请求序列中商品g_k被用户浏览的概率估计，P(d_k)表示根据历史商品浏览请求序列获取的商品类别d_k被用户浏览的概率估计，P(d_k)表示根据历史商品浏览请求序列获取的商品类别d_k被用户浏览的概率估计；故有：

优选地，所述商务网站用户的商品浏览隐私保护方法，其对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}，其对应的商品类别集合

其中g_k＝g(u_k)表示链接u_k所对应的一种商品，d_k＝d(g_k)表示商品g_k所对应的一种商品类别；其围成的类别区域距离

为其对应商品类别集合

中，任意商品类别之间语义无关性值的累积进行度量，即：

其中R^*(d₁,d₂)为两个商品类别d₁和d₂之间的语义无关性值，按照如下方法计算：

其中R(d₁,d₂)为两个商品类别d₁和d₂之间的语义相关性值，d^-1(d₁)表示类别d₁包含的所有商品集合，即d^-1(d₁)＝{g_k|g_k＝d(d₁)}；d^-1(d₂)表示类别d₂包含的所有商品集合，即d^-1(d₂)＝{g_k|g_k＝d(d₂)}。

优选地，所述商务网站用户的商品浏览隐私保护方法，其步骤(2)具体为：

(2-1)对于目标哑元数量n，选取数倍于目标哑元数量的备选哑元；使得所述备选哑元形成的集合关于当前当前商品浏览请求的商品浏览信息熵最大化；

(2-2)对于步骤(2-1)中获取的备选哑元集合，根据移除概率移除备选哑元；所述移除概率，按照备选哑元与当前当前商品浏览请求的语义距离，按照语义距离越远移除概率越大的原则确定。

按照本发明的另一个方面提供了一种商务网站用户的商品浏览隐私保护系统，其包括设置在商务网站用户和商务网站后台服务器之间的可信客户端；所述可信客户端包括哑元请求构造模块、历史请求序列存储模块、以及服务结果筛选模块；

所述哑元请求构造模块，用于获取商务网站用户发布的当前商品浏览请求U₀，并根据历史请求序列存储模块存储的历史请求序列构造相应的一组哑元请求U₁,U₂,…,U_n并组成待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}；其将所述商品浏览请求集合中的请求以随机的次序逐个提交给所述商务网站后台服务器和所述服务结果筛选模块，并将提交的请求序列发送给历史请求序列存储；

所述历史请求序列，用于存储历史请求序列并提供给所述哑元请求构造模块，并存储所述哑元构造模块提交的请求序列与其存储的历史请求序列合并更新为当前的历史请求序列；

所述服务结果筛选模块，用于获取所述商务网站后台服务器返回的商品介绍内容集合，并根据所述哑元请求构造模块提供的请求序列筛选当前商品浏览请求U₀对应的商品介绍内容返回给用户。

优选地，所述商务网站用户的商品浏览隐私保护系统，其所述哑元请求U₁,U₂,…,U_n使得所述待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}满足商品浏览信息熵和类别区域距离双目标最优化模型，即：

其中

商品浏览信息熵；

为类别区域距离；

所述商品浏览信息熵最大化目标，即

所述类别区域距离最大化目标，即

优选地，所述商务网站用户的商品浏览隐私保护系统，其对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}、其对应的商品集合

其对应的商品类别集合

按照以下方法获取：

其中，

为链接熵、

为商品熵、

为类别熵、分别计算如下：

对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}，其对应的商品类别集合

为其对应商品类别集合

中，任意商品类别之间语义无关性值的累积进行度量，即：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

针对商务网站用户的商品浏览隐私保护问题，本发明提供了一个种商务网站用户的商品浏览隐私保护方法及系统，通过在可信客户端构造为用户商品浏览服务请求构造一组“真假难辨”的哑元请求，连同用户请求，一起提交给不可信服务器端，“以假乱真”掩盖用户的真实商品浏览偏好。该隐私模型引入商品浏览概率信息熵，以度量哑元请求对用户请求的混淆效果，引入商品类别区域距离，以度量哑元请求对用户商品浏览偏好的模糊效果。理论分析和实验评估验证了方法有效性，即相比于其它已有的各类隐私保护技术，该方法能在不损害商务网站可用性的基本前提下，有效改善用户商品浏览隐私在不可信服务器端的安全性，能更好地适应电商网站的实际应用需求。

本发明提供的系统运行在客户端，不要求改变现有电子商务平台的体系架构，也不要求改变服务器端的后台服务算法；每次商品浏览服务过程，网站服务器端所返回的结果必然是用户真实结果的超集，即不改变商品浏览服务的准确性；隐私方法所造成的服务性能下降程度线性相关于哑元请求的数量，因而基本不改变商品浏览服务的高效性。因此，本发明所采用的用户商品浏览隐私保护系统模型不牺牲现有电子商务平台的可用性，具有良好的实用性。

附图说明

图1是本发明提供的商务网站用户的商品浏览隐私保护系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的商务网站用户的商品浏览隐私保护方法，包括以下步骤：

(1)获取商务网站用户发布的当前商品浏览请求U₀；所述商品浏览请求为待获取的含有特定商品介绍网页的链接，其对应某一商品名称、以及某一商品类别。

(2)根据步骤(1)获取的当前商品浏览请求U₀与所述商务网站用户的历史商品浏览请求序列，构造相应的一组哑元请求U₁,U₂,…,U_n，并组成待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}；所述历史商品浏览请求序列包括历史构造并提交的哑元请求以及用户提交的历史商品浏览请求；使得所述待提交的商品浏览请求集合U＝{u₀,u₁,u₂,…,u_n}满足商品浏览信息熵和类别区域距离多目标最优化模型，即：

其中

商品浏览信息熵；

为类别区域距离；

所述商品浏览信息熵最大化目标，即

所述类别区域距离最大化目标，即

对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}、其对应的商品集合

其对应的商品类别集合

按照以下方法获取：

其中，

为链接熵、

为商品熵、

为类别熵、分别计算如下：

且有：

其中，

表示全体链接的集合，

表示全体商品的集合，

表示全体商品类别的结合。

对于任意给定的一个商品链接u₀，则该链接被该用户浏览的概率值可估算如下：

为其对应商品类别集合

中，任意商品类别之间语义无关性值的累积进行度量，即：

优选方案，包括以下子步骤：

本发明提供的商务网站用户的商品浏览隐私保护系统，如图1所示，包括设置在商务网站用户和商务网站后台服务器之间的可信客户端；所述可信客户端包括哑元请求构造模块、历史请求序列存储模块、以及服务结果筛选模块；

以下为实施例：

(1)一种商务网站用户的商品浏览隐私保护方法，包括以下步骤：获取商务网站用户发布的当前商品浏览请求U₀；所述商品浏览请求为待获取的含有特定商品介绍网页的链接，其对应某一商品名称、以及某一商品类别。

其中

商品浏览信息熵；

为类别区域距离；

所述商品浏览信息熵最大化目标，即

所述类别区域距离最大化目标，即

对于浏览请求集合U＝{u₀,u₁,u₂,…,u_n}、其对应的商品集合

其对应的商品类别集合

按照以下方法获取：

其中，

为链接熵、

为商品熵、

为类别熵、分别计算如下：

且有：

其中，

表示全体链接的集合，

表示全体商品的集合，

表示全体商品类别的结合。

为其对应商品类别集合

中，任意商品类别之间语义无关性值的累积进行度量，即：

包括以下子步骤：

(2-1)对于目标哑元数量n，选取4n个备选哑元；使得所述备选哑元形成的集合关于当前当前商品浏览请求的商品浏览信息熵最大化；具体而言，选择商品知识空间内，链接的浏览概率、商品的浏览概率以及商品类别的浏览概率之和与当前商品浏览请求差异小于阈值的链接作为备选哑元；备选哑元数目不足时扩大阈值从而选择更多的备选哑元直至备选哑元数量为目标哑元数量的4倍。

(2-2)对于步骤(2-1)中获取的备选哑元集合，根据移除概率移除备选哑元；所述移除概率，按照备选哑元与当前当前商品浏览请求的语义距离，按照语义距离越远移除概率越大的原则确定，优选移除概率为：

步骤(2)具体实现见算法1

算法1给出了用户商品浏览隐私模型的简要形式描述。可以看出，哑元请求与用户请求拥有越相似的商品浏览概率(具体包括链接浏览概率、商品浏览概率和商品类别浏览概率)，则它们所构成的候选集合的信息熵也就越高(当各备选请求的浏览概率值彼此相同时，候选集合的信息熵达到最高)。因此，算法1通过为用户当前商品浏览服务请求u₀搜索一组拥有高度相似浏览概率值的候选请求，以实现商品浏览信息熵最大化目标(即语句1至语句4)。这里为用户请求生成的候选请求数量被设定为4n(其中，n为期望最终生成的哑元请求数量)，主要基于两种考虑：①当链接空间U^*中与用户请求拥有相同浏览概率值的请求数量小于4n时，算法仍坚持选择足够多的候选请求是为了后续的区域距离最大化目标能在一定程度上得到实现(否则，后续操作可能无法挑选出区域距离足够大的候选请求)；②当U^*中与用户请求拥有相同浏览概率值的请求数量大于4n时，算法却不找出所有的这些请求是为了确保后续区域距离最大化操作的执行效率。此外，在语句3的候选请求挑选过程中，引入了随机操作是为了进一步增加目标哑元请求集合的不确定性(从而进一步降低攻击者猜测出用户请求的可能性)，使得即使面对相同的输入，两次运行算法也有可能会得到完全不同的输出。

随后，算法1从前面确定的能较好满足商品浏览信息熵最大化目标的4n个候选请求所组成的集合U中，进一步筛选出n个服务请求(即语句5至语句8)，要求它们与用户请求所构成的集合拥有最大化的商品类别区域距离，从而得到一个较好的哑元请求集合

从算法1可以看出，在该过程中，一次循环操作确定一个哑元请求u_k。在每次循环过程中，算法并不是直接从集合U中挑选出一个语义距离最远的候选请求，而是首先据语义距离远近，为集合U中的每个候选请求根设定一个选择概率值，然后，根据选择概率值设定从集合U中概率性地为用户请求挑选一个哑元请求。因此，这种做法使得即使面对相同输入，两次运行过程也可能会导致不同的输出。与前面的随机操作目标类似，这样的做法均也是为了进一步增加攻击者成功猜测出用户请求的不确定性，从而进一步提高隐私算法的安全性。

可看出，算法实现还需借助于“内部商品知识空间”，它是一个非常重要的数据结构。内部商品知识空间是包含三个层次，具有以下特征：第三层表示商品链接；第二层节点表示商品名称；第一层节点表示商品类别；第一层和第二层间的连接表示各商品所属类别(为多对多关系)；第二层和第三层间的连接表示各链接对应的商品(为多对一关系)。内部商品知识空间需预先离线构造，其基本内容信息可通过网络爬虫预先爬取(或预先由电商网站服务器提供)。并且，知识空间还需预先加载到内存中，以提高算法的执行效率。然而，当面对小型电商网站时(商品数量在百万级别)，预先在内存中加载完整商品知识空间信息是可行的，但是当面对的是大型电商网站时(商品量超过千万级别)，商品知识空间会变得较为庞大，预先加载它则需耗费较大的内存空间开销。此时，我们将采用以下策略进行处理：首先，对于第三层的链接空间和第二层的商品空间，随机挑选部分元素加载到内存中，以降低内存空间开销；然后，每间隔一段时间，算法自动为第一层类别中间中的各商品类别随机挑选一批新的商品和新的链接，以替换内存中老的商品链接信息。

攻击者常用的攻击方式主要有窃听攻击、合谋攻击和推理攻击等。从本发明给出的攻击模型可看出，本发明直接将电商网站服务器端视为主动攻击者，因而攻击者掌握了来自于客户端的全部历史服务请求记录(包括用户请求和哑元请求)和丰富的商品背景知识(包括商品基本信息和分类信息)，所以可执行攻击能力强大的推理攻击。此外，我们还假定攻击者获取了运行在客户端的用户隐私保护算法副本。那么现在我们需要考虑，在此攻击模型下的攻击者能否根据其掌握的服务请求记录，是否能分析猜测出特定用户真实的商品浏览偏好呢。以下，将通过逐渐增强攻击者的推理攻击能力，分四种具体情况进行讨论。

情况1：如何攻击者仅仅获取了客户端针对用户一次商品浏览服务所提交的一组服务请求集合U＝{u₀,…,u_n}，攻击者能否从中成功猜测出用户真实请求u₀呢？此时，攻击者缺乏关于用户的历史商品浏览信息，所能凭借的仅是其掌握的商品背景知识。为此，攻击者只能据此来分析集合U中各请求的有效性，以排除无效请求。然而，在本文方法中，每个哑元请求均挑选自电商网站中真实存在的有效商品链接网址，为此，攻击者无法通过网址有效性分析排除哑元请求，即攻击者成功猜测出用户请求的概率为理想的

情况2：如何攻击者已经掌握特定用户的全部历史服务请求记录(包括用户请求和相应的哑元请求)，攻击者能否从请求集合U中成功猜测出用户真实请求u₀呢？此时，攻击者可根据先验知识“用户的历史商品浏览请求富有规律”来计算排除掉集合U中被用户浏览概率较低的服务请求(因为它们很可能就是哑元请求)。然而，由于本文方法构造生成的哑元请求与用户请求具有高度一致的浏览概率值(具体包括链接浏览概率、商品浏览概率和类别浏览概率)，所以，攻击者无法根据用户请求拥有较高浏览概率的先验知识，区分用户请求和哑元请求，即攻击者成功猜测出用户请求的概率仍为

情况3：如何攻击者进一步获得了运行在客户端的隐私算法副本，攻击者能否从请求集合U中成功猜测出用户真实请求u₀呢？此时，攻击者可将集合U中的各个请求u_k逐个输入到隐私算法中，然后观测它能否输出其余请求U-{u_k}。如果尝试成功，则表明u_k是用户请求，其余为哑元请求。然而，这样的尝试不会成功，因为在隐私算法中，每个哑元请求均从一个较大的候选集合(其大小为4n)概率性地选取(见算法1的语句6和语句7)，即即使输入相同的数据，两次运行也很可能会输出不同的结果。此外，在算法1在语句4中也引入了一个随机操作，这进一步增加了隐私算法所生成哑元请求集合的不确定性，从而使得上述尝试不会成功。

情况4：在没有找出集合U中用户请求u₀的前提下，攻击者能否直接根据其掌握的用户请求序列直接猜测出用户真实商品浏览偏好呢？此时，根据先验知识“用户在某段时间内通常会偏好于浏览某类或某几类商品”，攻击者可基于语义距离度量，通过聚类等方法找出其掌握的请求序列背后所蕴含的显著商品类别，以视为用户偏好。然而一方面，本文方法所产生的哑元请求与用户偏好类别拥有非常远的语义距离，因而，哑元请求并不会增强用户偏好的显著性。另一方面，这些哑元请求与用户请求拥有高度一致的商品类别浏览概率，且哑元请求彼此间也拥有非常远的语义距离，这使得聚类方法确定的显著商品类别绝大部分来自于哑元请求(其数量通常为用户偏好的n倍)。为此，攻击者难以直接猜测出用户商品浏览偏好。

在上述案例分析中，情况1、情况2和情况3表明哑元请求能有效地混淆用户请求，拥有良好的“真假难辨”效果；情况4表面哑元请求能有效地掩盖用户偏好，拥有良好的“以假乱真”效果。综上所述，虽然攻击者掌握着丰富的背景知识，但还是难以从电商网站服务端所记录的历史商品浏览服务请求记录中，分析识别出用户真实请求或用户偏好类别，因而本文方法具有良好的隐私安全性。我们可得出结论：本文方法所生成的哑元请求能在不损害电商平台商品浏览服务的实用性、准确性和高效性的前提下，有效改善用户商品浏览隐私在不可信服务器端的安全性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。