CN116595254B

CN116595254B - 一种智慧城市中数据隐私与服务的推荐方法

Info

Publication number: CN116595254B
Application number: CN202310573640.0A
Authority: CN
Inventors: 吴志华; 冯清洋; 赵仕鹏; 王斌
Original assignee: Hangzhou Greentown Information Technology Co ltd
Current assignee: Hangzhou Greentown Information Technology Co ltd
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-12-12
Anticipated expiration: 2043-05-18
Also published as: CN116595254A

Abstract

本发明公开了一种智慧城市中数据隐私与服务的推荐方法，属于智慧城市领域，所述的数据隐私与服务的推荐方法包括用户数据隐私模糊，用户数据融合，用户数据切片，用户数据分类，用户行为预测分析。本发明在用户服务信息收集阶段，为了防止泄露用户个人隐私信息，在将用户信息集中到一起前，首先根据拉普拉斯分布将噪音加入初始数据，再将加入噪音的数据提供用来进行QoS的预测。

Description

一种智慧城市中数据隐私与服务的推荐方法

技术领域

本发明属于智慧城市领域，更具体的说涉及一种智慧城市中数据隐私与服务的推荐方法。

背景技术

随着数据时代的发展，互联网的数据总量正在急速增长，图电影、视频、文字等数据充斥着用户的网络空间的同时也在不断推陈出新。在这种情况下，推荐系统应运而生，推荐系统能够较好地解决数据分发问题，通过适当的算法设计，能将更匹配的数据推送到用户手上，增加用户的使用体验。当前，推荐系统已经成为了目前大多数互联网平台软件系统中不可或缺的一部分。近几年深度学习的迅猛发展，基于深度学习的推荐系统在业界得到了广泛的应用，在推荐效果极大提升的同时，使用的推荐系统模型也变得更加复杂，难以调试，随之而来的就是巨大的训练数据需求。在现有的技术下，商业公司往往通过广泛收集用户数据的方式来获取原始数据资料，进行一定处理后再用于推荐系统模型的训练。但数据收集的过程隐藏着不可忽视的隐私隐患，用户的个人隐私得不到充足的保证。目前，在全球范围内，许多国家与地区都开始重视互联网中的隐私问题，相继推出了各种有关隐私保护的法案，如欧盟的GDPR,中国的数据安全法。

智慧城市中，存在着各种各样的网络应用服务，例如医疗服务、饮食服务、交通服务于等，这些服务已经慢慢地渗透到人们的生活中。现如今，人们每天都需要和这些Web服务进行上百次的交互。因此，用户调用服务就会产生大量的信息，如何根据这些信息对用户进行精准的推荐就是服务推荐是现在服务推荐的一个方向。

发明内容

本发明通过智慧城市中用户在不同种类服务器上用户的信息数据，并且对在用户隐私保护和服务推荐之间做到一个很好的权衡。在最大程度上保护了用户的隐私，也能够完成商品的精确推荐。

为了实现上述目的，本发明是采用以下技术方案实现的：所述的数据隐私与服务的推荐方法包括：

S1用户数据隐私模糊，提取不同服务器上用户的数据，并在数据中加入噪音进行隐私模糊；

S2用户数据融合，将不同服务器提到的用户数据进行融合，形成一个统一的用户行为数据集；

S3用户数据切片，将整合好的用户数据，按照用户、服务、时间，三个方面进行数据切片分解；

S4用户数据分类，将用户的数据划分为不同的行为类别，并且将相似的行为类别数据划分到同一个类簇；

S5用户行为预测，对每个类簇使用分解算法对缺失的数据进行预测，补充完整用户的行为。

进一步地，所述的S1用户数据隐私模糊；各服务器节点上的初始数据{r₁,r₂,...,r_k}首先需要根据拉普拉斯分布添加随机的噪音{α₁,α₂,...,α_k}，得到加入噪音后的新数据{r₁′,r₂′,...,r_k′}，再将新的数据集中到同一节点中进行后续的步骤。

进一步地，所述的S2用户数据融合，在收到各个服务器节点上传来的加入噪音后的数据{r₁′,r₂′,...,r_k′}后，将这些数据整合为一个新的三维矢量数据R，三个维度分别是用户、服务、时间。

进一步地，所述的S3用户数据切片，根据用户、服务、时间三个维度对三维矢量R进行分割，根据时间维度划分得到时间片集合{t₁,t₂,...,t_k}；根据用户维度划分得到用户片集合{u₁,u₂,...,u_i}；根据服务维度划分得到服务片集合{s₁,s₂,...,s_j}；将得到时间片集合拼接为新的矩阵T-M；将用户片集合拼接为新的矩阵U_M；将服务片集合拼接为新的矩阵S-M。

进一步地，所述的S4用户数据分类；对拼接后的矩阵T-M,U-M,S-M分别使用K-Means聚类算法将数据划分为k个类簇{C₁,C₂,...,C_k}，将相似的数据划分到同一个类簇。

进一步地，S5用户行为预测；对聚类后的每一个类簇C_i(1≤i≤k)使用L1低秩矩阵分解算法进行预测，根据观测矩阵中数据的分布，用户类簇预测后得到的矩阵为P，服务类簇预测后得到的矩阵为Q，时间类簇预测后得到的矩阵为M，根据F＝P+Q+M公式可以得到最终的预测矩阵F。

进一步地，所述的拉普拉斯分布添加随机的噪音{α₁,α₂,...,α_k}，在噪音添加过程中需要根据满足一些特定的条件，保证用户之间的相似性，采用改进的PCC公式作为衡量用户之间相似性的指标，在传统的PCC中添加权重的方式，改进PCC公式，改进后的PCC公式如下：

其中、δ为用户对服务的评分，n为根据用户行为判断的需要保护级别，s_u是用户相似度，sv是用户兴趣爱好似度。

进一步地，所述的δ用户对服务的评分，计算步骤如下：

(1)用户数据大数据收集与建模，收集用户对于不同线上服务的评价数据，收集用户对服务偏好影响较高的用户个人特征信息，根据具体的线上服务类型分析和确定用户特征维度；

(2)计算用户相似度；

(3)预测用户对服务的评分，通过相似度计算，选择与目标用户相似的前K个用户，对相似用户感兴趣的服务项目进行预测评分。

进一步地，所述的根据用户行为判断的需要保护级别，具体步骤如下：

通过时间维度，对数据产生的时间波动进行分析：

Ti:用户对属性数据i访问时间；Tmin:用户最早数据生成时间；Tmax:用户最近数据生成时间。

本发明有益效果：

附图说明

图1为本发明方法流程图；

图2为本发明用户数据隐私模糊流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本发明所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，所述的数据隐私与服务的推荐方法包括：

所述的S1用户数据隐私模糊；各服务器节点上的初始数据{r₁,r₂,...,r_k}首先需要根据拉普拉斯分布添加随机的噪音{α₁,α₂,...,α_k}，得到加入噪音后的新数据{r₁′,r₂′,...,r_k′}，再将新的数据集中到同一节点中进行后续的步骤。

在服务推荐的过程中，由于用户的移动性，导致用户调用的服务往往不可能在同一个服务器节点，因此我们需要将这些分布式的数据节点中的数据集中到一起才能更加准确地对用户进行推荐。但是，考虑每个节点包含的用户-服务数据中很有可能包含用户重要的隐私信息，这样就会出现隐私泄露的问题。使用拉普拉斯分布对差分隐私实现的一种方式，向原始数据中加入噪音，这样在集中数据时用户的隐私就会得到保护，具体的流程如下。

用户u_i在时间t_k调用了服务s_j时，产生了服务质量值q_i,j,k，这时候根据拉普拉斯分布将噪音加入数据，因此原始的服务质量值q_i,j,k变成了q_i′_,j,k。其中，通过差异隐私增加的噪音取决于灵敏度和隐私预算。隐私预算是由隐私保护程度决定的参数。此外，灵敏度由公式Δf＝max((u_i,s_j,t_k)-(u_v,s_w,t_k))计算。随机的噪音根据公式R′(u,s,t)＝R(u,s,t)+X公式中X就是根据拉普拉斯分布(Lap(Δf/ε))生成的随机噪音。拉普拉斯分布的概率密度函数为一般情况μ＝0，因此公式变为/>

如图2所示，差分隐私中所加入的噪音并不是随便加入的，它需要满足一些特定的条件，也就是保证用户之间的相似性。PCC作为衡量用户之间相似性的指标被研究人员广泛接受。但是尽管PCC可以精准地计算出用户之间的相似性，但是它会计算出的相似性一般会出现偏高的情况。有可能某些用户之间其实并不相似，但是在调用共同的web服务时的QoS值是一样的，这样就会导致相似性偏高。通过在传统的PCC中添加权重的方式，改进了PCC公式。

所述的拉普拉斯分布添加随机的噪音{α₁,α₂,...,α_k}，在噪音添加过程中需要根据满足一些特定的条件，保证用户之间的相似性，采用改进的PCC公式作为衡量用户之间相似性的指标，在传统的PCC中添加权重的方式，改进PCC公式，改进后的PCC公式如下：

所述的δ用户对服务的评分，计算步骤如下：

(1)用户数据大数据收集与建模，收集用户对于不同线上服务的评价数据，收集用户对服务偏好影响较高的用户个人特征信息，根据具体的线上服务类型分析和确定用户特征维度。

大数据背景下海量数据充斥网络，个性化线上服务智能推荐除了收集用户对于不同线上服务的评价数据外，还需收集用户对服务偏好影响较高的用户个人特征信息。具体的用户特征维度，需要根据具体的线上服务类型分析和确定。使用A_i＝(a_i1,a_i2...a_im)表示用户u_i的个人特征信息集，S_i＝(S_i1,S_i2...S_in)表示用户u_i的服务评分数据集。根据用户大数据建立用户-特征矩阵和用户-评分矩阵。

(2)计算用户相似度；采用皮尔逊相关系数法计算用户相似度。皮尔逊相关系数是计算两个向量之间相似程度的方法，其计算出来的值域为(-1,1)，当计算结果接近于-1或者1时，两个向量之间的线性关系越强，即相似度越高。计算用户个人特征相似度。设A′为用户u1和用户u2的特征集，a_1m和a_2m为用户u1和用户u2在m项用户个人特征值。其用户个人特征数据集分别表示为向量A₁＝(a₁₁,a₁₂...a_1m)和向量A₂＝(a₂₁,a₂₂...a_2m)，则两者之间的用户个人特征相似度sim1(u₁,u₂)公式如下：

计算用户兴趣偏好相似度。设S′为用户U1和用户U2共同评分集，S_1j和S_2j为用户U1和用户U2在j项服务的评分。其用户共同服务项目评分数据集分别表示为向量S₁＝(s₁₁,s₁₂…s_1j)和向量S₂＝(S₂₁,S₂₂…S_2j)，则两者之间的用户兴趣偏好相似度sim2(u₁,u₂)公式如下：

计算综合相似度。本文改进后的用户相似度为考虑用户个人特征信息相似度与考虑服务项目评分相似度的综合，这里我们为了计算方便，对用户个人特征信息相似度和服务评分相似度采用了相同的权重，用户综合相似度计算公式如下：

其中，D_1a为目标用户U₁对未评分服务项目a的预测评分，K为目标用户的邻近用户数，为目标用户U₁已评分项目的评分平均值。评分预测公式如下：

所述的根据用户行为判断的需要保护级别，具体步骤如下：通过时间维度，对数据产生的时间波动进行分析：

S2用户数据融合，将不同服务器提到的用户数据进行融合，形成一个统一的用户行为数据集；在收到各个服务器节点上传来的加入噪音后的数据{r₁′,r₂′,…,r_k′}后，将这些数据整合为一个新的三维矢量数据R，三个维度分别是用户、服务、时间。

用户集表示为U＝{u₁,u₂,…,u_m}；

服务集表示为S＝{s₁,s₂,...,s_n}；

时间集表示为T＝{t₁,t₂,...,t_d}。

服务质量：q_i,j,k(1≤i≤m,1≤j≤n,1≤k≤d)一个三维向量，它代表用户u_i在时刻t_k调用了服务S_j所得到的服务质量。

S3用户数据切片，将整合好的用户数据，按照用户、服务、时间，三个方面进行数据切片分解；根据用户、服务、时间三个维度对三维矢量R进行分割，根据时间维度划分得到时间片集合

{t₁,t₂,…,t_k}；根据用户维度划分得到用户片集合{u₁,u₂,…,u_i}；根据服务维度划分得到服务片集合{s₁,s₂,...,s_j}；将得到时间片集合拼接为新的矩阵T-M；将用户片集合拼接为新的矩阵U_M；将服务片集合拼接为新的矩阵S-M。

服务推荐会按照时间维度去划分，表明在不同的时间片上用户u_i调用服务S_j所产生的QoS值q_i,j，同样的，我们可以从另外两个维度对QoS值进行划分，即按照用户维度和服务维度去划分数据集。按照用户维度划分时，每一个用户片上的QoS值q_j,k表示这个用户在不同的时间调用服务的情况。按照服务维度划分时，每个用户片上的QoS值q_i,k表示这个服务在不同的时间被用户调用的情况。按照这个思路，我们将原始的三维矢量数据集从三个维度区划分，分别会得到时间片集合T，用户片集合U和服务片集合S。

将得到时间片集合按T列拼接得到时间片二维矩阵，如公式所示：

将得到用户片集合按U列拼接得到用户片二维矩阵，如公式所示：

将得到服务片集合S按列拼接得到用服务二维矩阵，如公式所示：

S4用户数据分类，将用户的数据划分为不同的行为类别，并且将相似的行为类别数据划分到同一个类簇；对拼接后的矩阵T-M,U-M,S-M分别使用K-Means聚类算法将数据划分为k个类簇{C₁,C₂,...,C_k}，将相似的数据划分到同一个类簇。

由于需要预测数据是由三维矢量切分后拼接而成，三维矢量由各个节点上的数据集合而成，因此数据量是非常巨大的。如果将整个矩阵进行L1范式低秩矩阵分解，这个过程是非常漫长的。因此使用K-Means聚类算法的第一个优点是可以将数据划分为k个类簇{C₁,C₂,…,C_k}在对每一个类簇分别使用L1范式低秩矩阵分解，在最后一个步骤L1范式低秩矩阵分解阶段，整个算法的迭代时间会大大的减少。使用K-Means聚类算法的第二个优点是将相似的数据聚集到同一个类簇中，相似的数据聚集到同一个类簇可以使预测算法推荐的时候更加准确。

S5用户行为预测；对聚类后的每一个类簇C_i(1≤i≤k)使用L1低秩矩阵分解算法进行预测，根据观测矩阵中数据的分布，用户类簇预测后得到的矩阵为P，服务类簇预测后得到的矩阵为Q，时间类簇预测后得到的矩阵为M，根据F＝P+Q+M公式可以得到最终的预测矩阵F。

L1范式低秩矩阵分解主要分为两个步骤，如下：步骤一：聚类后的数据使用低秩矩阵分解进行服务质量预测。通过min_U,V||X-U^TV||_P可以将每个簇的二维矩阵分解两个矩阵，其中原始矩阵X是一个n×m的矩阵，矩阵U是分解后的r×n的矩阵，矩阵V是分解后的r×m的矩阵。P代表的是第P范式，本方法使用L1范式低秩矩阵分解，因此得到min_U,V||W⊙(X-U^TV)||₁。其中⊙代表的是哈达玛积(对应位置分量相乘)，W和X都为n×m的矩阵，矩阵W为原始矩阵X的观测矩阵，当原始矩阵中的元素x_ij存在时，w_ij为1。x_ij不存在时，w_ij为0。为了缩小求解空间并提高优化收敛性，得到min_U,V||W⊙(X-U^TV)||₁+λ‖V)‖_*，λ表示的是平衡因子，‖V)‖_*表示的是V的轨迹范数(V的奇异值之和)。该公式使用增强拉格朗日乘数的算法计算出分解后的矩阵U_opt和V_opt，接着本方法根据公式可以得到补全和恢复后的矩阵X_opt。将每个聚类后的类簇补全后的矩阵重新按照原来的矩阵顺序恢复，得到补全后的矩阵P。

步骤二：计算平均绝对误差和均方根误差。将补全后的矩阵P中预测的99％数据和稀疏前的数据对比根据和/>计算MAE值和EMSE值，其中r_ui是原始的服务质量值，/>是预测的服务质量值，N是预测出的服务质量值的总数。、

根据预测出来的用户行为，就可以在保护用户隐私的情况下，采用现有的推荐算法，为用户进行精确的商品推广。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnlyMemory，ROM)或随机存储记忆体(RandomABBessMemory，RAM)等。

应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智慧城市中数据隐私与服务的推荐方法，其特征在于：所述的数据隐私与服务的推荐方法包括：

所述的S1用户数据隐私模糊；各服务器节点上的初始数据{r₁,r₂,...,r_k}首先需要根据拉普拉斯分布添加随机的噪音{α₁,α₂,...,α_k}，得到加入噪音后的新数据{r₁′,r₂′,...,r_k′}，再将新的数据集中到同一节点中进行后续的步骤；

其中、δ为用户对服务的评分，n为根据用户行为判断的需要保护级别，s_u是用户相似度，s_v是用户兴趣爱好似度；

所述的δ用户对服务的评分，计算步骤如下：

(2)计算用户相似度；

(3)预测用户对服务的评分，通过相似度计算，选择与目标用户相似的前K个用户，对相似用户感兴趣的服务项目进行预测评分；评分预测公式如下：

其中，D_1a为目标用户U₁对未评分服务项目a的预测评分，K为目标用户的邻近用户数，为目标用户U₁已评分项目的评分平均值；

所述的根据用户行为判断的需要保护级别，具体步骤如下：

通过时间维度，对数据产生的时间波动进行分析：

Ti:用户对属性数据i访问时间；Tmin:用户最早数据生成时间；Tmax:用户最近数据生成时间；

所述的S2用户数据融合，在收到各个服务器节点上传来的加入噪音后的数据{r₁′,r₂′,...,r_k′}后，将这些数据整合为一个新的三维矢量数据R，三个维度分别是用户、服务、时间；

用户集表示为U＝{u₁,u₂,...,u_m}；

服务集表示为S＝{s₁,s₂,...,s_n}；

时间集表示为T＝{t₁,t₂,...,t_d}；

服务质量：q_i,j,k(1≤i≤m,1≤j≤n,1≤k≤d)一个三维向量，它代表用户u_i在时刻t_k调用了服务S_j所得到的服务质量；

所述的S3用户数据切片，根据用户、服务、时间三个维度对三维矢量R进行分割，根据时间维度划分得到时间片集合{t₁,t₂,...,t_k}；根据用户维度划分得到用户片集合{u₁,u₂,...,u_i}；根据服务维度划分得到服务片集合{s₁,s₂,...,s_j}；将得到时间片集合拼接为新的矩阵T_M；将用户片集合拼接为新的矩阵U_M；将服务片集合拼接为新的矩阵S_M；

所述的S4用户数据分类；对拼接后的矩阵T_M,U_M,S_M分别使用K-Means聚类算法将数据划分为k个类簇{C₁,C₂,...,C_k}，将相似的数据划分到同一个类簇；

S5用户行为预测，对每个类簇使用分解算法对缺失的数据进行预测，补充完整用户的行为；