CN116595254B - 一种智慧城市中数据隐私与服务的推荐方法 - Google Patents
一种智慧城市中数据隐私与服务的推荐方法 Download PDFInfo
- Publication number
- CN116595254B CN116595254B CN202310573640.0A CN202310573640A CN116595254B CN 116595254 B CN116595254 B CN 116595254B CN 202310573640 A CN202310573640 A CN 202310573640A CN 116595254 B CN116595254 B CN 116595254B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- service
- users
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000006399 behavior Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100421536 Danio rerio sim1a gene Proteins 0.000 description 1
- 101100495431 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cnp1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智慧城市中数据隐私与服务的推荐方法,属于智慧城市领域,所述的数据隐私与服务的推荐方法包括用户数据隐私模糊,用户数据融合,用户数据切片,用户数据分类,用户行为预测分析。本发明在用户服务信息收集阶段,为了防止泄露用户个人隐私信息,在将用户信息集中到一起前,首先根据拉普拉斯分布将噪音加入初始数据,再将加入噪音的数据提供用来进行QoS的预测。
Description
技术领域
本发明属于智慧城市领域,更具体的说涉及一种智慧城市中数据隐私与服务的推荐方法。
背景技术
随着数据时代的发展,互联网的数据总量正在急速增长,图电影、视频、文字等数据充斥着用户的网络空间的同时也在不断推陈出新。在这种情况下,推荐系统应运而生,推荐系统能够较好地解决数据分发问题,通过适当的算法设计,能将更匹配的数据推送到用户手上,增加用户的使用体验。当前,推荐系统已经成为了目前大多数互联网平台软件系统中不可或缺的一部分。近几年深度学习的迅猛发展,基于深度学习的推荐系统在业界得到了广泛的应用,在推荐效果极大提升的同时,使用的推荐系统模型也变得更加复杂,难以调试,随之而来的就是巨大的训练数据需求。在现有的技术下,商业公司往往通过广泛收集用户数据的方式来获取原始数据资料,进行一定处理后再用于推荐系统模型的训练。但数据收集的过程隐藏着不可忽视的隐私隐患,用户的个人隐私得不到充足的保证。目前,在全球范围内,许多国家与地区都开始重视互联网中的隐私问题,相继推出了各种有关隐私保护的法案,如欧盟的GDPR,中国的数据安全法。
智慧城市中,存在着各种各样的网络应用服务,例如医疗服务、饮食服务、交通服务于等,这些服务已经慢慢地渗透到人们的生活中。现如今,人们每天都需要和这些Web服务进行上百次的交互。因此,用户调用服务就会产生大量的信息,如何根据这些信息对用户进行精准的推荐就是服务推荐是现在服务推荐的一个方向。
发明内容
本发明通过智慧城市中用户在不同种类服务器上用户的信息数据,并且对在用户隐私保护和服务推荐之间做到一个很好的权衡。在最大程度上保护了用户的隐私,也能够完成商品的精确推荐。
为了实现上述目的,本发明是采用以下技术方案实现的:所述的数据隐私与服务的推荐方法包括:
S1用户数据隐私模糊,提取不同服务器上用户的数据,并在数据中加入噪音进行隐私模糊;
S2用户数据融合,将不同服务器提到的用户数据进行融合,形成一个统一的用户行为数据集;
S3用户数据切片,将整合好的用户数据,按照用户、服务、时间,三个方面进行数据切片分解;
S4用户数据分类,将用户的数据划分为不同的行为类别,并且将相似的行为类别数据划分到同一个类簇;
S5用户行为预测,对每个类簇使用分解算法对缺失的数据进行预测,补充完整用户的行为。
进一步地,所述的S1用户数据隐私模糊;各服务器节点上的初始数据{r1,r2,...,rk}首先需要根据拉普拉斯分布添加随机的噪音{α1,α2,...,αk},得到加入噪音后的新数据{r1′,r2′,...,rk′},再将新的数据集中到同一节点中进行后续的步骤。
进一步地,所述的S2用户数据融合,在收到各个服务器节点上传来的加入噪音后的数据{r1′,r2′,...,rk′}后,将这些数据整合为一个新的三维矢量数据R,三个维度分别是用户、服务、时间。
进一步地,所述的S3用户数据切片,根据用户、服务、时间三个维度对三维矢量R进行分割,根据时间维度划分得到时间片集合{t1,t2,...,tk};根据用户维度划分得到用户片集合{u1,u2,...,ui};根据服务维度划分得到服务片集合{s1,s2,...,sj};将得到时间片集合拼接为新的矩阵T-M;将用户片集合拼接为新的矩阵U_M;将服务片集合拼接为新的矩阵S-M。
进一步地,所述的S4用户数据分类;对拼接后的矩阵T-M,U-M,S-M分别使用K-Means聚类算法将数据划分为k个类簇{C1,C2,...,Ck},将相似的数据划分到同一个类簇。
进一步地,S5用户行为预测;对聚类后的每一个类簇Ci(1≤i≤k)使用L1低秩矩阵分解算法进行预测,根据观测矩阵中数据的分布,用户类簇预测后得到的矩阵为P,服务类簇预测后得到的矩阵为Q,时间类簇预测后得到的矩阵为M,根据F=P+Q+M公式可以得到最终的预测矩阵F。
进一步地,所述的拉普拉斯分布添加随机的噪音{α1,α2,...,αk},在噪音添加过程中需要根据满足一些特定的条件,保证用户之间的相似性,采用改进的PCC公式作为衡量用户之间相似性的指标,在传统的PCC中添加权重的方式,改进PCC公式,改进后的PCC公式如下:
其中、δ为用户对服务的评分,n为根据用户行为判断的需要保护级别,su是用户相似度,sv是用户兴趣爱好似度。
进一步地,所述的δ用户对服务的评分,计算步骤如下:
(1)用户数据大数据收集与建模,收集用户对于不同线上服务的评价数据,收集用户对服务偏好影响较高的用户个人特征信息,根据具体的线上服务类型分析和确定用户特征维度;
(2)计算用户相似度;
(3)预测用户对服务的评分,通过相似度计算,选择与目标用户相似的前K个用户,对相似用户感兴趣的服务项目进行预测评分。
进一步地,所述的根据用户行为判断的需要保护级别,具体步骤如下:
通过时间维度,对数据产生的时间波动进行分析:
Ti:用户对属性数据i访问时间;Tmin:用户最早数据生成时间;Tmax:用户最近数据生成时间。
本发明有益效果:
本发明通过智慧城市中用户在不同种类服务器上用户的信息数据,并且对在用户隐私保护和服务推荐之间做到一个很好的权衡。在最大程度上保护了用户的隐私,也能够完成商品的精确推荐。
附图说明
图1为本发明方法流程图;
图2为本发明用户数据隐私模糊流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本发明所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,所述的数据隐私与服务的推荐方法包括:
S1用户数据隐私模糊,提取不同服务器上用户的数据,并在数据中加入噪音进行隐私模糊;
所述的S1用户数据隐私模糊;各服务器节点上的初始数据{r1,r2,...,rk}首先需要根据拉普拉斯分布添加随机的噪音{α1,α2,...,αk},得到加入噪音后的新数据{r1′,r2′,...,rk′},再将新的数据集中到同一节点中进行后续的步骤。
在服务推荐的过程中,由于用户的移动性,导致用户调用的服务往往不可能在同一个服务器节点,因此我们需要将这些分布式的数据节点中的数据集中到一起才能更加准确地对用户进行推荐。但是,考虑每个节点包含的用户-服务数据中很有可能包含用户重要的隐私信息,这样就会出现隐私泄露的问题。使用拉普拉斯分布对差分隐私实现的一种方式,向原始数据中加入噪音,这样在集中数据时用户的隐私就会得到保护,具体的流程如下。
用户ui在时间tk调用了服务sj时,产生了服务质量值qi,j,k,这时候根据拉普拉斯分布将噪音加入数据,因此原始的服务质量值qi,j,k变成了qi′,j,k。其中,通过差异隐私增加的噪音取决于灵敏度和隐私预算。隐私预算是由隐私保护程度决定的参数。此外,灵敏度由公式Δf=max((ui,sj,tk)-(uv,sw,tk))计算。随机的噪音根据公式R′(u,s,t)=R(u,s,t)+X公式中X就是根据拉普拉斯分布(Lap(Δf/ε))生成的随机噪音。拉普拉斯分布的概率密度函数为一般情况μ=0,因此公式变为/>
如图2所示,差分隐私中所加入的噪音并不是随便加入的,它需要满足一些特定的条件,也就是保证用户之间的相似性。PCC作为衡量用户之间相似性的指标被研究人员广泛接受。但是尽管PCC可以精准地计算出用户之间的相似性,但是它会计算出的相似性一般会出现偏高的情况。有可能某些用户之间其实并不相似,但是在调用共同的web服务时的QoS值是一样的,这样就会导致相似性偏高。通过在传统的PCC中添加权重的方式,改进了PCC公式。
所述的拉普拉斯分布添加随机的噪音{α1,α2,...,αk},在噪音添加过程中需要根据满足一些特定的条件,保证用户之间的相似性,采用改进的PCC公式作为衡量用户之间相似性的指标,在传统的PCC中添加权重的方式,改进PCC公式,改进后的PCC公式如下:
其中、δ为用户对服务的评分,n为根据用户行为判断的需要保护级别,su是用户相似度,sv是用户兴趣爱好似度。
所述的δ用户对服务的评分,计算步骤如下:
(1)用户数据大数据收集与建模,收集用户对于不同线上服务的评价数据,收集用户对服务偏好影响较高的用户个人特征信息,根据具体的线上服务类型分析和确定用户特征维度。
大数据背景下海量数据充斥网络,个性化线上服务智能推荐除了收集用户对于不同线上服务的评价数据外,还需收集用户对服务偏好影响较高的用户个人特征信息。具体的用户特征维度,需要根据具体的线上服务类型分析和确定。使用Ai=(ai1,ai2...aim)表示用户ui的个人特征信息集,Si=(Si1,Si2...Sin)表示用户ui的服务评分数据集。根据用户大数据建立用户-特征矩阵和用户-评分矩阵。
(2)计算用户相似度;采用皮尔逊相关系数法计算用户相似度。皮尔逊相关系数是计算两个向量之间相似程度的方法,其计算出来的值域为(-1,1),当计算结果接近于-1或者1时,两个向量之间的线性关系越强,即相似度越高。计算用户个人特征相似度。设A′为用户u1和用户u2的特征集,a1m和a2m为用户u1和用户u2在m项用户个人特征值。其用户个人特征数据集分别表示为向量A1=(a11,a12...a1m)和向量A2=(a21,a22...a2m),则两者之间的用户个人特征相似度sim1(u1,u2)公式如下:
计算用户兴趣偏好相似度。设S′为用户U1和用户U2共同评分集,S1j和S2j为用户U1和用户U2在j项服务的评分。其用户共同服务项目评分数据集分别表示为向量S1=(s11,s12…s1j)和向量S2=(S21,S22…S2j),则两者之间的用户兴趣偏好相似度sim2(u1,u2)公式如下:
计算综合相似度。本文改进后的用户相似度为考虑用户个人特征信息相似度与考虑服务项目评分相似度的综合,这里我们为了计算方便,对用户个人特征信息相似度和服务评分相似度采用了相同的权重,用户综合相似度计算公式如下:
(3)预测用户对服务的评分,通过相似度计算,选择与目标用户相似的前K个用户,对相似用户感兴趣的服务项目进行预测评分。
其中,D1a为目标用户U1对未评分服务项目a的预测评分,K为目标用户的邻近用户数,为目标用户U1已评分项目的评分平均值。评分预测公式如下:
所述的根据用户行为判断的需要保护级别,具体步骤如下:通过时间维度,对数据产生的时间波动进行分析:
Ti:用户对属性数据i访问时间;Tmin:用户最早数据生成时间;Tmax:用户最近数据生成时间。
S2用户数据融合,将不同服务器提到的用户数据进行融合,形成一个统一的用户行为数据集;在收到各个服务器节点上传来的加入噪音后的数据{r1′,r2′,…,rk′}后,将这些数据整合为一个新的三维矢量数据R,三个维度分别是用户、服务、时间。
用户集表示为U={u1,u2,…,um};
服务集表示为S={s1,s2,...,sn};
时间集表示为T={t1,t2,...,td}。
服务质量:qi,j,k(1≤i≤m,1≤j≤n,1≤k≤d)一个三维向量,它代表用户ui在时刻tk调用了服务Sj所得到的服务质量。
S3用户数据切片,将整合好的用户数据,按照用户、服务、时间,三个方面进行数据切片分解;根据用户、服务、时间三个维度对三维矢量R进行分割,根据时间维度划分得到时间片集合
{t1,t2,…,tk};根据用户维度划分得到用户片集合{u1,u2,…,ui};根据服务维度划分得到服务片集合{s1,s2,...,sj};将得到时间片集合拼接为新的矩阵T-M;将用户片集合拼接为新的矩阵U_M;将服务片集合拼接为新的矩阵S-M。
服务推荐会按照时间维度去划分,表明在不同的时间片上用户ui调用服务Sj所产生的QoS值qi,j,同样的,我们可以从另外两个维度对QoS值进行划分,即按照用户维度和服务维度去划分数据集。按照用户维度划分时,每一个用户片上的QoS值qj,k表示这个用户在不同的时间调用服务的情况。按照服务维度划分时,每个用户片上的QoS值qi,k表示这个服务在不同的时间被用户调用的情况。按照这个思路,我们将原始的三维矢量数据集从三个维度区划分,分别会得到时间片集合T,用户片集合U和服务片集合S。
将得到时间片集合按T列拼接得到时间片二维矩阵,如公式所示:
将得到用户片集合按U列拼接得到用户片二维矩阵,如公式所示:
将得到服务片集合S按列拼接得到用服务二维矩阵,如公式所示:
S4用户数据分类,将用户的数据划分为不同的行为类别,并且将相似的行为类别数据划分到同一个类簇;对拼接后的矩阵T-M,U-M,S-M分别使用K-Means聚类算法将数据划分为k个类簇{C1,C2,...,Ck},将相似的数据划分到同一个类簇。
由于需要预测数据是由三维矢量切分后拼接而成,三维矢量由各个节点上的数据集合而成,因此数据量是非常巨大的。如果将整个矩阵进行L1范式低秩矩阵分解,这个过程是非常漫长的。因此使用K-Means聚类算法的第一个优点是可以将数据划分为k个类簇{C1,C2,…,Ck}在对每一个类簇分别使用L1范式低秩矩阵分解,在最后一个步骤L1范式低秩矩阵分解阶段,整个算法的迭代时间会大大的减少。使用K-Means聚类算法的第二个优点是将相似的数据聚集到同一个类簇中,相似的数据聚集到同一个类簇可以使预测算法推荐的时候更加准确。
S5用户行为预测,对每个类簇使用分解算法对缺失的数据进行预测,补充完整用户的行为。
S5用户行为预测;对聚类后的每一个类簇Ci(1≤i≤k)使用L1低秩矩阵分解算法进行预测,根据观测矩阵中数据的分布,用户类簇预测后得到的矩阵为P,服务类簇预测后得到的矩阵为Q,时间类簇预测后得到的矩阵为M,根据F=P+Q+M公式可以得到最终的预测矩阵F。
L1范式低秩矩阵分解主要分为两个步骤,如下:步骤一:聚类后的数据使用低秩矩阵分解进行服务质量预测。通过minU,V||X-UTV||P可以将每个簇的二维矩阵分解两个矩阵,其中原始矩阵X是一个n×m的矩阵,矩阵U是分解后的r×n的矩阵,矩阵V是分解后的r×m的矩阵。P代表的是第P范式,本方法使用L1范式低秩矩阵分解,因此得到minU,V||W⊙(X-UTV)||1。其中⊙代表的是哈达玛积(对应位置分量相乘),W和X都为n×m的矩阵,矩阵W为原始矩阵X的观测矩阵,当原始矩阵中的元素xij存在时,wij为1。xij不存在时,wij为0。为了缩小求解空间并提高优化收敛性,得到minU,V||W⊙(X-UTV)||1+λ‖V)‖*,λ表示的是平衡因子,‖V)‖*表示的是V的轨迹范数(V的奇异值之和)。该公式使用增强拉格朗日乘数的算法计算出分解后的矩阵Uopt和Vopt,接着本方法根据公式可以得到补全和恢复后的矩阵Xopt。将每个聚类后的类簇补全后的矩阵重新按照原来的矩阵顺序恢复,得到补全后的矩阵P。
步骤二:计算平均绝对误差和均方根误差。将补全后的矩阵P中预测的99%数据和稀疏前的数据对比根据和/>计算MAE值和EMSE值,其中rui是原始的服务质量值,/>是预测的服务质量值,N是预测出的服务质量值的总数。、
根据预测出来的用户行为,就可以在保护用户隐私的情况下,采用现有的推荐算法,为用户进行精确的商品推广。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnlyMemory,ROM)或随机存储记忆体(RandomABBessMemory,RAM)等。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
1.一种智慧城市中数据隐私与服务的推荐方法,其特征在于:所述的数据隐私与服务的推荐方法包括:
S1用户数据隐私模糊,提取不同服务器上用户的数据,并在数据中加入噪音进行隐私模糊;
所述的S1用户数据隐私模糊;各服务器节点上的初始数据{r1,r2,...,rk}首先需要根据拉普拉斯分布添加随机的噪音{α1,α2,...,αk},得到加入噪音后的新数据{r1′,r2′,...,rk′},再将新的数据集中到同一节点中进行后续的步骤;
所述的拉普拉斯分布添加随机的噪音{α1,α2,...,αk},在噪音添加过程中需要根据满足一些特定的条件,保证用户之间的相似性,采用改进的PCC公式作为衡量用户之间相似性的指标,在传统的PCC中添加权重的方式,改进PCC公式,改进后的PCC公式如下:
其中、δ为用户对服务的评分,n为根据用户行为判断的需要保护级别,su是用户相似度,sv是用户兴趣爱好似度;
所述的δ用户对服务的评分,计算步骤如下:
(1)用户数据大数据收集与建模,收集用户对于不同线上服务的评价数据,收集用户对服务偏好影响较高的用户个人特征信息,根据具体的线上服务类型分析和确定用户特征维度;
(2)计算用户相似度;
(3)预测用户对服务的评分,通过相似度计算,选择与目标用户相似的前K个用户,对相似用户感兴趣的服务项目进行预测评分;评分预测公式如下:
其中,D1a为目标用户U1对未评分服务项目a的预测评分,K为目标用户的邻近用户数,为目标用户U1已评分项目的评分平均值;
所述的根据用户行为判断的需要保护级别,具体步骤如下:
通过时间维度,对数据产生的时间波动进行分析:
Ti:用户对属性数据i访问时间;Tmin:用户最早数据生成时间;Tmax:用户最近数据生成时间;
S2用户数据融合,将不同服务器提到的用户数据进行融合,形成一个统一的用户行为数据集;
所述的S2用户数据融合,在收到各个服务器节点上传来的加入噪音后的数据{r1′,r2′,...,rk′}后,将这些数据整合为一个新的三维矢量数据R,三个维度分别是用户、服务、时间;
用户集表示为U={u1,u2,...,um};
服务集表示为S={s1,s2,...,sn};
时间集表示为T={t1,t2,...,td};
服务质量:qi,j,k(1≤i≤m,1≤j≤n,1≤k≤d)一个三维向量,它代表用户ui在时刻tk调用了服务Sj所得到的服务质量;
S3用户数据切片,将整合好的用户数据,按照用户、服务、时间,三个方面进行数据切片分解;
所述的S3用户数据切片,根据用户、服务、时间三个维度对三维矢量R进行分割,根据时间维度划分得到时间片集合{t1,t2,...,tk};根据用户维度划分得到用户片集合{u1,u2,...,ui};根据服务维度划分得到服务片集合{s1,s2,...,sj};将得到时间片集合拼接为新的矩阵T_M;将用户片集合拼接为新的矩阵U_M;将服务片集合拼接为新的矩阵S_M;
S4用户数据分类,将用户的数据划分为不同的行为类别,并且将相似的行为类别数据划分到同一个类簇;
所述的S4用户数据分类;对拼接后的矩阵T_M,U_M,S_M分别使用K-Means聚类算法将数据划分为k个类簇{C1,C2,...,Ck},将相似的数据划分到同一个类簇;
S5用户行为预测,对每个类簇使用分解算法对缺失的数据进行预测,补充完整用户的行为;
S5用户行为预测;对聚类后的每一个类簇Ci(1≤i≤k)使用L1低秩矩阵分解算法进行预测,根据观测矩阵中数据的分布,用户类簇预测后得到的矩阵为P,服务类簇预测后得到的矩阵为Q,时间类簇预测后得到的矩阵为M,根据F=P+Q+M公式可以得到最终的预测矩阵F。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573640.0A CN116595254B (zh) | 2023-05-18 | 2023-05-18 | 一种智慧城市中数据隐私与服务的推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573640.0A CN116595254B (zh) | 2023-05-18 | 2023-05-18 | 一种智慧城市中数据隐私与服务的推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116595254A CN116595254A (zh) | 2023-08-15 |
CN116595254B true CN116595254B (zh) | 2023-12-12 |
Family
ID=87604168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310573640.0A Active CN116595254B (zh) | 2023-05-18 | 2023-05-18 | 一种智慧城市中数据隐私与服务的推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595254B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392049A (zh) * | 2017-07-26 | 2017-11-24 | 安徽大学 | 一种基于差分隐私保护的推荐方法 |
CN107609421A (zh) * | 2017-09-25 | 2018-01-19 | 深圳大学 | 隐私保护协同Web服务质量预测的基于邻域的协同过滤方法 |
CN107659444A (zh) * | 2017-09-25 | 2018-02-02 | 深圳大学 | 隐私保护协同Web服务质量的差分隐私预测系统及方法 |
CN107679415A (zh) * | 2017-09-25 | 2018-02-09 | 深圳大学 | 隐私保护协同Web服务质量预测的基于模型的协同过滤方法 |
CN108256000A (zh) * | 2017-12-29 | 2018-07-06 | 武汉大学 | 一种基于局部聚类的个性化差分隐私推荐方法 |
CN109033453A (zh) * | 2018-08-24 | 2018-12-18 | 安徽大学 | 一种基于rbm与差分隐私保护的聚类的电影推荐方法及系统 |
CN109257217A (zh) * | 2018-09-19 | 2019-01-22 | 河海大学 | 移动边缘环境下基于隐私保护的Web服务QoS预测方法 |
CN109617877A (zh) * | 2018-12-12 | 2019-04-12 | 上海海事大学 | 基于差分隐私噪声添加选择的位置隐私保护系统及方法 |
CN110837603A (zh) * | 2019-11-09 | 2020-02-25 | 安徽大学 | 一种基于差分隐私保护的集成推荐方法 |
CN112364914A (zh) * | 2020-11-10 | 2021-02-12 | 郑州大学 | 基于簇相似度与变换不变性的差分隐私k均值聚类方法 |
CA3174627A1 (en) * | 2020-03-06 | 2021-09-10 | The Regents Of The University Of California | Methods of providing data privacy for neural network based inference |
CN114372527A (zh) * | 2022-01-10 | 2022-04-19 | 辽宁工业大学 | 一种采用主成分分析的高维数据差分隐私发布方法 |
CN114491644A (zh) * | 2022-02-15 | 2022-05-13 | 辽宁工业大学 | 一种满足个性化隐私预算分配的差分隐私数据发布方法 |
CN114564747A (zh) * | 2022-02-28 | 2022-05-31 | 福建工程学院 | 基于语义和预测的轨迹差分隐私保护方法及系统 |
CN114943041A (zh) * | 2022-05-17 | 2022-08-26 | 重庆邮电大学 | 一种基于差分隐私的隐式反馈协同过滤推荐方法 |
CN115168900A (zh) * | 2022-07-22 | 2022-10-11 | 南京邮电大学 | 一种用于智慧交通系统的轨迹数据隐私保护方法及系统 |
CN115510478A (zh) * | 2022-09-16 | 2022-12-23 | 安徽信息工程学院 | 一种协同过滤推荐中的隐私保护方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11483294B2 (en) * | 2019-08-28 | 2022-10-25 | University Of Maryland, Baltimore County | Method for anonymizing network data using differential privacy |
-
2023
- 2023-05-18 CN CN202310573640.0A patent/CN116595254B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392049A (zh) * | 2017-07-26 | 2017-11-24 | 安徽大学 | 一种基于差分隐私保护的推荐方法 |
CN107609421A (zh) * | 2017-09-25 | 2018-01-19 | 深圳大学 | 隐私保护协同Web服务质量预测的基于邻域的协同过滤方法 |
CN107659444A (zh) * | 2017-09-25 | 2018-02-02 | 深圳大学 | 隐私保护协同Web服务质量的差分隐私预测系统及方法 |
CN107679415A (zh) * | 2017-09-25 | 2018-02-09 | 深圳大学 | 隐私保护协同Web服务质量预测的基于模型的协同过滤方法 |
CN108256000A (zh) * | 2017-12-29 | 2018-07-06 | 武汉大学 | 一种基于局部聚类的个性化差分隐私推荐方法 |
CN109033453A (zh) * | 2018-08-24 | 2018-12-18 | 安徽大学 | 一种基于rbm与差分隐私保护的聚类的电影推荐方法及系统 |
CN109257217A (zh) * | 2018-09-19 | 2019-01-22 | 河海大学 | 移动边缘环境下基于隐私保护的Web服务QoS预测方法 |
CN109617877A (zh) * | 2018-12-12 | 2019-04-12 | 上海海事大学 | 基于差分隐私噪声添加选择的位置隐私保护系统及方法 |
CN110837603A (zh) * | 2019-11-09 | 2020-02-25 | 安徽大学 | 一种基于差分隐私保护的集成推荐方法 |
CA3174627A1 (en) * | 2020-03-06 | 2021-09-10 | The Regents Of The University Of California | Methods of providing data privacy for neural network based inference |
CN112364914A (zh) * | 2020-11-10 | 2021-02-12 | 郑州大学 | 基于簇相似度与变换不变性的差分隐私k均值聚类方法 |
CN114372527A (zh) * | 2022-01-10 | 2022-04-19 | 辽宁工业大学 | 一种采用主成分分析的高维数据差分隐私发布方法 |
CN114491644A (zh) * | 2022-02-15 | 2022-05-13 | 辽宁工业大学 | 一种满足个性化隐私预算分配的差分隐私数据发布方法 |
CN114564747A (zh) * | 2022-02-28 | 2022-05-31 | 福建工程学院 | 基于语义和预测的轨迹差分隐私保护方法及系统 |
CN114943041A (zh) * | 2022-05-17 | 2022-08-26 | 重庆邮电大学 | 一种基于差分隐私的隐式反馈协同过滤推荐方法 |
CN115168900A (zh) * | 2022-07-22 | 2022-10-11 | 南京邮电大学 | 一种用于智慧交通系统的轨迹数据隐私保护方法及系统 |
CN115510478A (zh) * | 2022-09-16 | 2022-12-23 | 安徽信息工程学院 | 一种协同过滤推荐中的隐私保护方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116595254A (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177575B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN110162706B (zh) | 一种基于交互数据聚类的个性化推荐方法及系统 | |
CN109543109B (zh) | 一种融合时间窗技术和评分预测模型的推荐算法 | |
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
CN109471982B (zh) | 一种基于用户和服务聚类QoS感知的Web服务推荐方法 | |
CN110069713B (zh) | 一种基于用户上下文感知的个性化推荐方法 | |
CN106055661A (zh) | 基于多Markov链模型的多兴趣资源推荐方法 | |
CN115062732A (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN118132856B (zh) | 一种基于大数据的智能分析方法及系统 | |
CN111475744A (zh) | 一种基于集成学习的个性化位置推荐方法 | |
CN115712657A (zh) | 基于元宇宙的用户需求挖掘方法及系统 | |
CN112070559A (zh) | 状态获取方法和装置、电子设备和存储介质 | |
Cao et al. | Web API recommendation via combining graph attention representation and deep factorization machines quality prediction | |
Ulian et al. | Exploring the effects of different Clustering Methods on a News Recommender System | |
Hou | [Retracted] Personalized Book Recommendation Algorithm for University Library Based on Deep Learning Models | |
CN108491477B (zh) | 基于多维云和用户动态兴趣的神经网络推荐方法 | |
Chen et al. | A hybrid recommender system for Gaussian mixture model and enhanced social matrix factorization technology based on multiple interests | |
CN109271555A (zh) | 信息聚类方法、系统、服务器及计算机可读存储介质 | |
CN111931035B (zh) | 业务推荐方法、装置及设备 | |
CN116595254B (zh) | 一种智慧城市中数据隐私与服务的推荐方法 | |
CN112464106A (zh) | 对象推荐方法及装置 | |
CN114741592B (zh) | 一种基于多模型融合的产品推荐方法、设备及介质 | |
Hidayati et al. | The Influence of User Profile and Post Metadata on the Popularity of Image-Based Social Media: A Data Perspective | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
Hamad et al. | Sentiment analysis of restaurant reviews in social media using naïve bayes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |