CN117033947B - 一种隐私保护的云边协同的频繁项目挖掘方法 - Google Patents
一种隐私保护的云边协同的频繁项目挖掘方法 Download PDFInfo
- Publication number
- CN117033947B CN117033947B CN202311287544.6A CN202311287544A CN117033947B CN 117033947 B CN117033947 B CN 117033947B CN 202311287544 A CN202311287544 A CN 202311287544A CN 117033947 B CN117033947 B CN 117033947B
- Authority
- CN
- China
- Prior art keywords
- cloud
- frequency
- matrix
- edge
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005065 mining Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 115
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims abstract description 25
- 238000011084 recovery Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003094 perturbing effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000007418 data mining Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种隐私保护的云边协同的频繁项目挖掘方法,包括以下步骤:将真实项目域编码为虚拟项目域;云边端协同挖掘k1个频繁虚拟项目;基于频繁虚拟项目构建云端频率表征矩阵;将云端频率表征矩阵和所有边端进行分组并配对;各边端基于所在边端组与对应频率子矩阵获得信息表征矩阵,并将信息表征矩阵进行向量化表征;各边端对本地向量进行扰动获得扰动值及扰动序号;云端聚合各边端组的扰动值及扰动序号,获得对应的频率恢复子矩阵,进而获得频率恢复矩阵;云边端协同融合隐私保护技术挖掘频繁项目。本发明采用本地差分隐私技术,在云端不可信的情况下,保证边端数据的隐私性的同时实现安全可靠的云边端协同的频繁项目挖掘。
Description
技术领域
本发明涉及数据隐私保护和数据挖掘领域,包括本地差分隐私、频繁项目挖掘等方法。具体涉及一种隐私保护的云边协同的频繁项目挖掘方法。
背景技术
随着数字经济的全球化推进,数据已成为影响世界各国竞争的战略性资源,能够充分发挥数据经济价值和战略意义的数据挖掘技术蓬勃发展。数据挖掘已被广泛研究并应用于现实应用中,企业通过挖掘用户数据中的价值信息,来提供更加个性化、智能化的服务。然而,传统的数据挖掘方案面临的隐私泄露风险成为制约数据价值释放的重要短板。一方面,由于传统的解决方案采用了收集和分析范式,需要边端上传真实数据到集中云端进行汇聚分析,所以在数据的收集、存储、分析处理的过程中潜在着边端隐私泄漏的风险。因此,在严格遵守隐私保护法律的前提下,研究隐私保护的数据挖掘方法,能有效缓解数据可用性和隐私性之间尚存的矛盾关系,并且对保障企业的利益和客户的隐私安全有着重大的现实意义。
近年来,差分隐私DP日益成为隐私保护的标准范式。该模型通过严格的数学证明,保证了攻击者无法根据已知的边端信息推测出未知的边端信息。DP不需要考虑攻击者的背景知识和攻击模型的特点,能够在敌手具有全部背景知识的情况下防御任何敌手。传统的差分隐私机制依赖一个可信的云端聚合边端的原始数据,然后将干扰过的聚合信息发布。然而,在现实世界中很难找到一个完全可信的云端来管理边端的数据。为此,本地差分隐私LDP出现了,相较于传统的差分隐私,LDP可以通过不可信的云端聚合分布式边端在本地扰动过的私有数据,分析得到总体数据的统计信息。通常,LDP技术包括一个扰动算法和一个聚合算法。扰动算法扰动私有数据以确保隐私,并在每个边端响应云端的查询时本地使用。聚合算法由云端用来从所有边端提供的扰动响应中提取全局知识。
频繁项目挖掘的任务目标是找到频率超过阈值或者排名top-k的项目。隐私保护的频繁项挖掘是数据挖掘中重要的安全研究问题,其应用包括趋势监测和营销分析等。例如,谷歌推出的RAPPOR使用bloom过滤器来识别频繁访问的热门网站,苹果推出SFP方法以识别用户频繁使用的表情。然而,近年来提出的满足本地差分隐私的解决方案仅仅支持维度较低的频繁项目挖掘任务。其大致可以分为以下四类方法,包括基于频率估计协议的方法,基于划分的方法,基于树的方法,基于采样的方法。其中,目前只有基于采样的方法能够适用于数据大小异构的场景。
基于采样的方法能适用于边端数据大小异构的场景。其思想是将边端的数据数量统一成m个。即如果边端拥有的项数超过m 个,则边端数据将被截断为 m个;否则,通过虚拟项填充原始数据将项数扩充为m 个。然后,每个边端随机抽取一个项目进行报告。为了提高准确性,有人提出采取两阶段机制的LDPMiner方法用于挖掘频繁项目。在第一阶段,使用一部分隐私预算执行sample-Hist来确定频繁项目的候选集。剩余预算用于在第二阶段执行sampleRAPPOR以计算候选集中项目的频率。也有人基于LDPMiner方法的思想,结合采样隐私放大的特性,提出了用于集值数据的自适应的频率估计协议PSFO。在此基础上,其进一步提出了频繁项目解决方案SVIM方法。该方法尽管适用于边端数据大小异构的场景但是在数据维度较大的情况下准确率受限。因此,亟须研究一种不仅适用于边端大小异构并且能在高维场景下保证准确性的隐私保护的频繁项目挖掘方法。
发明内容
本发明的目的在于:在保护各边端隐私的前提下,云端从其下属边端同类型的项目中挖掘出使用频率高的频繁项目,为实现上述目的,本发明提供如下技术方案:一种隐私保护的云边协同的频繁项目挖掘方法,包括以下步骤:
S1、各边端拥有的真实项目分别构成边端项目域,云端汇集其下属边端所拥有的所有真实项目,构成云端项目域,其中,云端项目域包含d个真实项目;云端将云端项目域编码为虚拟项目域,其中,虚拟项目域包含f个虚拟项目;并将云端项目域与虚拟项目域的对应关系统一至各边端;
S2、云端和各边端协同采用集值型数据项目挖掘SVIM协议估计虚拟项目域中各虚
拟项目的频率;依据虚拟项目域中各虚拟项目的估计频率获得由预设数量k1个高频率虚拟
项目构成集合Y;进而基于集合Y中的虚拟项目及其估计频率,获得云端频率表征矩阵;
S3、云端将云端频率表征矩阵的行和列都平均分成m份,其中,m为k1的因数,即
将云端频率表征矩阵均分为个不相交的频率子矩阵,表示第p行第q列个子矩
阵;云端将其下属边端随机分为个边端组,并将频率子矩阵与边端组进行一对一不重复配
对,形成个频率子矩阵与边端组的组合;
S4、各边端组中的边端根据所在边端组对应的频率子矩阵以及本地拥有的真实项
目分别获得各自的本地信息表征矩阵,表示该边端组中第j个边端的本地信息表征矩
阵;
S5、各边端分别基于矩阵分解将本地信息表征矩阵进行向量化表征,并分别从
各自的向量中随机采样扰动序号为l的元素进行扰动得到扰动值,各边端将各自的扰动序
号l及扰动值上传给云端;
S6、云端以边端组为单位聚合每组边端上传的扰动值及扰动序号l,分别获得个
边端组的平均向量,根据各边端组的平均向量分别获得对应的频率恢复子矩阵,进而
获得频率恢复矩阵;
S7、云端从频率恢复矩阵中选择k2个高频率元素,按照步骤S1中编码的规则,分
别将k2个高频率元素解码为对应的真实项目,获得k2个真实项目构成的候选集,其中,k2是
预设值;
S8、云端与各边端针对候选集中的k2个真实项目采用集值型数据项目挖掘SVIM协议估计候选集中的每个真实项目的频率,进而从中挖掘出预设数量k3个高频率的频繁项目;其中,k3是预设值,k3<k2。
进一步地,前述的S1中将云端项目域编码为虚拟项目域的具体过程包含:
S11、通过云端项目域的值域大小d计算出虚拟项目域的值域大小f,计算公式为;
S12、构造阶数的编码矩阵,编码矩阵的行索引与列索引都设为,将
云端项目域中的所有真实项目依次排列为编码矩阵的元素,即将云端项目域中的所有真实
项目编码为其对应的虚拟项目对;
S13、云端将构成的集合记为虚拟项目域。
进一步地,前述的S2具体包含:
S21、各边端从其拥有的真实项目对中随机采样一个私有真实项目,针对该私有真实项目所对应的虚拟项目对,遵循集值型数据项目挖掘SVIM协议的扰动机制对该虚拟项目对进行扰动,获得扰动值,并发送给云端;云端收集各边端发送的扰动值,聚合估计出虚拟项目域中各虚拟项目的估计频率;
S22、将虚拟项目域中各虚拟项目的估计频率从高到低进行排序,获取前k1个高频虚拟项目构成集合Y,其中,k1为预设值且k1<f;
S23、基于集合Y中k1个虚拟项目,云端构建一个阶数的云端频率表征矩阵,云端频率表征矩阵的行索引和列索引分别对应集合Y中k1个虚拟项目,云端频率表
征矩阵中的 k1 2个元素分别代表行索引虚拟项目与列索引虚拟项目组成的虚拟项目对
的估计频率;
S24、根据集合Y中k1个虚拟项目的估计频率,采用如下公式初始化云端频率表征
矩阵中的元素:
;
其中,表示对应虚拟项目的估计频率,表示虚拟项目对的初始
估计频率。
进一步地,前述的S4具体包含:各边端所在边端组对应的频率子矩阵的阶数为,对应个真实项目,各边端根据本地是否拥有频率子矩阵对应个真实项
目,分别生成阶数为的本地信息表征矩阵。
进一步地,前述的S5具体包含:
S51、云端对各频率子矩阵进行矩阵分解,获得各频率子矩阵的左矩阵和右
矩阵,并将各频率子矩阵的左矩阵和右矩阵分发给对应的边端组;其中矩阵分解公式如下:
;其中,和分别为左矩阵和右矩阵;
S52、各边端基于所在边端组对应的频率子矩阵的左矩阵和右矩阵,分别根据如下
公式将本地信息表征矩阵转化为向量:其中包含个元素;
;
其中,是维度为的向量,表示矩阵的对角线,中的任一元素表记
为;为左矩阵的转置矩阵,为右矩阵的转置矩阵;
S53、各边端从对应向量中随机采样一个元素通过混合机制HM协议进行扰动,
分别获得各边端的扰动值以及扰动序号l。
进一步地,前述的S53中通过混合机制HM协议进行扰动的过程如下:
首先,边端将映射到[-1,1]范围内,映射值记为;
然后,HM协议根据隐私预算的大小,自适应选择采用Duchi协议或PM协议进行扰
动:
当时,选择Duchi协议,其以的概率输出扰动值,以的概率输出扰动值;
当时,选择PM协议,先根据下式确定一个相关的范围;
;/>,
其中;
其以概率将扰动为上,以概率得到
扰动值。
进一步地,前述的S6具体包含:
S61、以边端组为单位,云端分别将各边端组内边端上传的扰动值按扰动序号分成组,并分别将各扰动序号下的扰动值计算出平均扰动值,获得各边端组内个扰动序
号下的平均扰动值;
S62、云端分别将各边端组内个扰动序号下的平均扰动值从[-1,1]范围重新映
射回原始的定义域,再按扰动序号顺序重新排列,获得各边端组的平均向量;
S63、基于各边端组的平均向量,云端采用如下公式获得m2个边端组对应的频率恢
复子矩阵,
其中,为平均向量,将向量对角化为一个对角矩阵,和为分解
得到的左矩阵和右矩阵;
S64、云端根据p与q将各边端组对应的频率恢复子矩阵拼接成完整的频率恢复
矩阵。
进一步地,前述的S8具体包含:各边端分别从其拥有的候选集内真实项目中随机采样一个真实项目,遵循SVIM协议的扰动机制将其扰动,并将扰动值报告给云端;
云端收集各边端报告的扰动值,聚合估计出候选集内各真实项目的,进而将各真实项目的频率从高到低进行排序,获取前k3个频率高的项目作为挖掘的频繁项目。
本发明所述一种隐私保护的云边协同的频繁项目挖掘方法,采用以上技术方案与现有技术相比,具有以下技术效果:
1、通过本地差分隐私技术,即使在云端不可信的情况下,也能严格保护边端数据,从而实现安全可靠的云边端协同的频繁项目挖掘,保证数据的隐私性;
2、通过一种编码的方式,将高维的项目编码为低维虚拟项目的二元对形式,并在云端进行矩阵化表征,矩阵中的元素与项目一一对应,这使得所需估计的维度大小降低为原本的1/2次方,以减少统计误差;
3、基于矩阵分解的方法,使得边端信息能够以向量的形式进行表征并且云端通过分组的方式聚合边端的部分矩阵以恢复完整矩阵,进一步减少所需添加的噪声,保障数据可用性。
附图说明
图1是一种隐私保护的云边协同的频繁项目挖掘方法的整体流程图;
图2是真实项目到虚拟项目的编码示意图。
实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
本实施例中,本发明提出的一种隐私保护的云边协同的频繁项目挖掘方法可以应用于网页内容挖掘推荐的场景。该场景下共有n个边端,每个边端对应一个用户,每个用户在本地浏览过若干个网页,每个网页对应一个项目。由这些所有的网页构成的集合便是真实项目域,共有d个网页。云端对应一个服务器,基于本地差分隐私技术安全汇聚边端的网页浏览信息,以便在保障每个边端用户隐私的同时准确挖掘出被用户频繁浏览的网页以用作热门推荐。如图1所示,具体实施可分为以下步骤:
第一步:云端将真实网页项目域编码为虚拟项目域;
所有n个边端用户浏览过的真实网页的集合作为网页项目域,网页项目域包含d个真实网页;云端将网页项目域编码为虚拟项目域,虚拟项目域包含f个虚拟项目;云端将网页项目域与虚拟项目域的对应关系统一至各边端。其中,网页项目域编码为虚拟项目域的具体过程如下:云端通过网页项目域的值域大小d计算出虚拟项目域的值域大小f,计算公式为,然后构造/>阶数的编码矩阵,编码矩阵的行索引与列索引都设为/>,将网页项目域中的所有网页项目依次排列为编码矩阵的元素,即将网页项目域中的所有网页项目编码为虚拟项目对/>,/>;那么网页项目域中的每一网页项目都有唯一与其对应的虚拟项目对,最终得到/>构成的集合即为虚拟项目域,诸如图2所示。
第二步:云边端协同融合隐私保护技术挖掘频繁虚拟项目;
云端和n个边端协同采用集值型数据项目挖掘SVIM协议估计虚拟项目域中各虚拟项目的频率。具体过程为:每个边端从其拥有的网页项目中随机采样一个网页,针对该网页所对应的虚拟项目对,遵循集值型数据项目挖掘SVIM协议的扰动机制对该虚拟项目对进行扰动, 并将扰动值报告给云端;云端收集各边端的报告以聚合估计出虚拟项目域中所有虚拟项的频率。将虚拟项目域中各虚拟项目的估计频率从高到低进行排序,获取前k1个高频虚拟项目构成集合Y,其中,k1为预设值且k1<f。
第三步:云端基于k1个高频率虚拟项目,构建云端频率表征矩阵;
云端构建一个阶数的云端频率表征矩阵/>,矩阵/>的行索引和列索引分别对应集合Y中k1个虚拟项目,云端频率表征矩阵/>中的/>个元素分别代表行索引虚拟项目与列索引虚拟项目组成的虚拟项目对的估计频率;
根据集合Y中k1个虚拟项目的估计频率,采用如下公式初始化云端频率表征矩阵中的元素:
;
其中,表示对应虚拟项目的估计频率, />表示虚拟项目对/>的初始估计频率。
第四步:云端分别将频率表征矩阵和所有边端分成相同数量的组数,并将频率子矩阵与边端组进行不重复的一一配对;
首先,云端将云端频率表征矩阵的行和列都平均分成m份,其中,m为k1 的因
数,即将云端频率表征矩阵均分为个不相交的频率子矩阵,表示第p行第q列个
子矩阵;
;
然后,云端将其下属边端随机分为个边端组,并将频率子矩阵与边端组进行一对
一不重复配对,形成个频率子矩阵与边端组的组合;各边端所在边端组对应的频率子矩阵
的阶数为,对应个真实项目。
第五步:各边端将本地的网页浏览信息进行向量化表征;
首先,云端对各频率子矩阵进行矩阵分解,获得各频率子矩阵的左矩阵和
右矩阵,并将各频率子矩阵的左矩阵和右矩阵分发给对应的边端组;其中矩阵分解公式如
下:
其中,和分别为左矩阵和右矩阵;
接着,频率子矩阵对应的边端组中的各个边端根据本地是否拥有的个网
页项目,分别生成阶数为的本地信息表征矩阵,表示该边端组中第j个边端的本
地信息表征矩阵;是与该边端组对应的频率子矩阵阶数相同的0-1矩阵,0表示与第j个边
端中没有对应的网页项目,1表示与第j个边端中拥有对应的网页项目;
然后,各边端基于所在边端组对应的频率子矩阵的左矩阵和右矩阵,分别根据如
下公式将本地信息表征矩阵转化为向量:其中包含个元素;
其中,是维度为的向量,表示矩阵的对角线,中的任一元素表记
为;为左矩阵的转置矩阵,为右矩阵的转置矩阵。
第六步:各边端融合隐私保护技术对本地向量进行扰动,并将扰动值以及扰动序号l发送给云端;
频率子矩阵对应的边端组中的各边端从各自的本地向量中随机采样一个元
素,通过混合机制HM协议进行扰动,各边端分别将扰动值以及扰动序号l发送给云端;
具体而言,边端将映射到[-1,1]范围内,映射值记为;然后,HM协议根据隐私
预算的大小,自适应选择采用Duchi协议或PM协议进行扰动:
当时,选择Duchi协议,其以的概率输出扰动值,以的概率输出扰动值;
当时,选择PM协议,先根据下式确定一个相关的范围;
,
其中;
其以概率将扰动为上,以概率得到
扰动值。
第七步:云端以边端组为单位聚合每组边端上传的扰动值及扰动序号l,分别获得个边端组的平均向量,根据各边端组的平均向量分别获得对应的频率恢复子矩阵,进
而获得频率恢复矩阵;
对于每个频率子矩阵而言,云端分别将各边端组内边端上传的扰动值按扰动
序号分成组,并分别将各扰动序号下的扰动值计算出平均扰动值,获得各边端组内
个扰动序号下的平均扰动值;
云端将该平均扰动值从[-1,1]范围重新映射回原始的定义域,再按扰动序号顺序
进行排列,获得各边端组的平均向量 ;
云端基于各边端组的平均向量,采用如下公式获得个边端组对应的频率恢复子
矩阵,
其中,为平均向量,将向量对角化为一个对角矩阵,和为分解
得到的左矩阵和右矩阵;
云端根据p与q将各边端组对应的频率恢复子矩阵拼接成完整的频率恢复矩阵。
第八步:云边协同融合隐私保护技术挖掘频繁网页;
云端从频率恢复矩阵中选择预设数量k2个高频率的元素,按照第一步中编码的
规则,分别将k2个高频率元素解码为对应的网页项目,即可获得k2个频繁网页构成的候选
集;
各边端分别从其浏览过的并且在候选集内的网页中随机采样一个网页,遵循SVIM协议的扰动机制将其扰动,并将扰动值报告给云端;
云端收集各边端报告的扰动值,聚合估计出候选集内各网页的频率,进而从候选集中挖掘出预设数量k3个高频率的频繁浏览的网页作为热门内容推荐。
虽然本发明已以较佳实施例阐述如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (6)
1.一种隐私保护的云边协同的频繁项目挖掘方法,用于在保护各边端隐私的前提下,云端从其下属边端同类型的项目中挖掘出使用频繁的高频项目,其特征在于,包括以下步骤:
S1、各边端拥有的真实项目分别构成边端项目域,云端汇集其下属边端所拥有的所有真实项目,构成云端项目域,其中,云端项目域包含d个真实项目;云端将云端项目域编码为虚拟项目域,具体过程包含步骤S11至S13:
S11、通过云端项目域的值域大小d计算出虚拟项目域的值域大小f,计算公式为;
S12、构造阶数的编码矩阵,编码矩阵的行索引与列索引都设为/>,将云端项目域中的所有真实项目依次排列为编码矩阵的元素,即将云端项目域中的所有真实项目编码为其对应的虚拟项目对;
S13、云端将构成的集合记为虚拟项目域;
其中,虚拟项目域包含f个虚拟项目;并将云端项目域与虚拟项目域的对应关系统一至各边端;
S2、云端和各边端协同采用集值型数据项目挖掘SVIM协议估计虚拟项目域中各虚拟项目的频率;依据虚拟项目域中各虚拟项目的估计频率获得由预设数量k1个高频率虚拟项目构成集合Y;进而基于集合Y中的虚拟项目及其估计频率,获得云端频率表征矩阵 ;具体包括以下子步骤S21至S24:
S21、各边端从其拥有的真实项目对中随机采样一个私有真实项目,针对该私有真实项目所对应的虚拟项目对,遵循集值型数据项目挖掘SVIM协议的扰动机制对该虚拟项目对进行扰动,获得扰动值,并发送给云端;云端收集各边端发送的扰动值,聚合估计出虚拟项目域中各虚拟项目的估计频率;
S22、将虚拟项目域中各虚拟项目的估计频率从高到低进行排序,获取前k1个高频虚拟项目构成集合Y,其中,k1为预设值且k1 <f;
S23、基于集合Y中k1个虚拟项目,云端构建一个阶数的云端频率表征矩阵/>,云端频率表征矩阵/>的行索引和列索引分别对应集合Y中k1个虚拟项目,云端频率表征矩阵中的 k1 2个元素分别代表行索引虚拟项目与列索引虚拟项目组成的虚拟项目对的估计频率;
S24、根据集合Y中k1个虚拟项目的估计频率,采用如下公式初始化云端频率表征矩阵中的元素:
;
其中, 表示对应虚拟项目的估计频率, />表示虚拟项目对/>的初始估计频率;
S3、云端将云端频率表征矩阵的行和列都平均分成m份,其中,m为k1 的因数,即将云端频率表征矩阵/>均分为 />个不相交的频率子矩阵/>,/>表示第p行第q列个子矩阵;云端将其下属边端随机分为/>个边端组,并将频率子矩阵与边端组进行一对一不重复配对,形成/>个频率子矩阵与边端组的组合;
S4、各边端组中的边端根据所在边端组对应的频率子矩阵以及本地拥有的真实项目分别获得各自的本地信息表征矩阵, />表示该边端组中第j个边端的本地信息表征矩阵;
S5、各边端分别基于矩阵分解将本地信息表征矩阵进行向量化表征,并分别从各自的向量中随机采样扰动序号为l的元素进行扰动得到扰动值,各边端将各自的扰动序号l 及扰动值上传给云端;
S6、云端以边端组为单位聚合每组边端上传的扰动值及扰动序号l,分别获得个边端组的平均向量,根据各边端组的平均向量分别获得对应的频率恢复子矩阵/>,进而获得频率恢复矩阵/>;
S7、云端从频率恢复矩阵中选择k2个高频率元素,按照步骤S1中编码的规则,分别将k2个高频率元素解码为对应的真实项目,获得k2个真实项目构成的候选集,其中,k2是预设值;
S8、云端与各边端针对候选集中的k2个真实项目采用集值型数据项目挖掘SVIM协议估计候选集中的每个真实项目的频率,进而从中挖掘出预设数量k3个高频率的频繁项目;其中,k3是预设值,k3 <k2。
2.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S4具体包含:各边端所在边端组对应的频率子矩阵的阶数为,对应/>个真实项目,各边端根据本地是否拥有频率子矩阵对应/>个真实项目,分别生成阶数为/>的本地信息表征矩阵/>。
3.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S5具体包含:
S51、云端对各频率子矩阵进行矩阵分解,获得各频率子矩阵/>的左矩阵和右矩阵,并将各频率子矩阵的左矩阵和右矩阵分发给对应的边端组;其中矩阵分解公式如下:
;其中, />和/>分别为左矩阵和右矩阵;
S52、各边端基于所在边端组对应的频率子矩阵的左矩阵和右矩阵,分别根据如下公式将本地信息表征矩阵转化为向量/>:其中/>包含/>个元素;
;
其中,是维度为/>的向量,/>表示矩阵的对角线,/>中的任一元素表记为/>;为左矩阵/>的转置矩阵,/>为右矩阵/>的转置矩阵;
S53、各边端从对应向量中随机采样一个元素/>通过混合机制HM协议进行扰动,分别获得各边端的扰动值以及扰动序号l。
4.根据权利要求3所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S53中通过混合机制HM协议进行扰动的过程如下:
首先,边端将映射到[-1,1]范围内,映射值记为/>;
然后,HM协议根据隐私预算的大小,自适应选择采用Duchi协议或PM协议进行扰动:
当时,选择Duchi协议,其以/>的概率输出扰动值/>,以/>的概率输出扰动值/>;
当时,选择PM协议,先根据下式确定一个相关的范围/>;
,
其中;
其以概率将/>扰动为
上,以概率/> 得到扰动值/>。
5.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S6具体包含:
S61、以边端组为单位,云端分别将各边端组内边端上传的扰动值按扰动序号分成组,并分别将各扰动序号下的扰动值计算出平均扰动值,获得各边端组内/>个扰动序号下的平均扰动值;
S62、云端分别将各边端组内个扰动序号下的平均扰动值从[-1,1]范围重新映射回原始的定义域,再按扰动序号顺序重新排列,获得各边端组的平均向量/> ;
S63、基于各边端组的平均向量,云端采用如下公式获得m2个边端组对应的频率恢复子矩阵,
;其中,/>为平均向量,/> 将向量/>对角化为一个对角矩阵,/>和为/>分解得到的左矩阵和右矩阵;
S64、云端根据p与q将各边端组对应的频率恢复子矩阵拼接成完整的频率恢复矩阵。
6.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S8具体包含:各边端分别从其拥有的候选集内真实项目中随机采样一个真实项目,遵循SVIM协议的扰动机制将其扰动,并将扰动值报告给云端;
云端收集各边端报告的扰动值,聚合估计出候选集内各真实项目的,进而将各真实项目的频率从高到低进行排序,获取前k3个频率高的项目作为挖掘的频繁项目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287544.6A CN117033947B (zh) | 2023-10-08 | 2023-10-08 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311287544.6A CN117033947B (zh) | 2023-10-08 | 2023-10-08 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117033947A CN117033947A (zh) | 2023-11-10 |
CN117033947B true CN117033947B (zh) | 2023-12-22 |
Family
ID=88635819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311287544.6A Active CN117033947B (zh) | 2023-10-08 | 2023-10-08 | 一种隐私保护的云边协同的频繁项目挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033947B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123504A (zh) * | 2014-06-27 | 2014-10-29 | 武汉理工大学 | 一种基于频繁项检索的云平台隐私保护方法 |
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN113361694A (zh) * | 2021-06-30 | 2021-09-07 | 哈尔滨工业大学 | 一种应用差分隐私保护的分层联邦学习方法及系统 |
CN113407986A (zh) * | 2021-05-21 | 2021-09-17 | 南京逸智网络空间技术创新研究院有限公司 | 基于奇异值分解的本地差分隐私保护的频繁项集挖掘方法 |
CN113569286A (zh) * | 2021-03-26 | 2021-10-29 | 东南大学 | 基于本地化差分隐私的频繁项集挖掘方法 |
CN114385391A (zh) * | 2020-10-22 | 2022-04-22 | 中兴通讯股份有限公司 | 一种nfv虚拟化设备运行数据分析方法及装置 |
CN116227621A (zh) * | 2022-12-29 | 2023-06-06 | 国网四川省电力公司电力科学研究院 | 一种基于电力数据的联邦学习模型训练方法 |
CN116467751A (zh) * | 2023-04-25 | 2023-07-21 | 重庆邮电大学 | 一种带有隐私保护的关联规则学习方法 |
CN116562373A (zh) * | 2023-04-07 | 2023-08-08 | 百度(中国)有限公司 | 数据挖掘方法、装置、设备和介质 |
CN116702231A (zh) * | 2023-04-17 | 2023-09-05 | 哈尔滨工程大学 | 一种面向拜占庭不可信多方协同差分隐私数据的频繁项集挖掘方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9672495B2 (en) * | 2014-12-23 | 2017-06-06 | Sap Se | Enhancing frequent itemset mining |
US10095883B2 (en) * | 2016-07-22 | 2018-10-09 | International Business Machines Corporation | Method/system for the online identification and blocking of privacy vulnerabilities in data streams |
-
2023
- 2023-10-08 CN CN202311287544.6A patent/CN117033947B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123504A (zh) * | 2014-06-27 | 2014-10-29 | 武汉理工大学 | 一种基于频繁项检索的云平台隐私保护方法 |
CN109409128A (zh) * | 2018-10-30 | 2019-03-01 | 南京邮电大学 | 一种面向差分隐私保护的频繁项集挖掘方法 |
CN114385391A (zh) * | 2020-10-22 | 2022-04-22 | 中兴通讯股份有限公司 | 一种nfv虚拟化设备运行数据分析方法及装置 |
CN113569286A (zh) * | 2021-03-26 | 2021-10-29 | 东南大学 | 基于本地化差分隐私的频繁项集挖掘方法 |
CN113407986A (zh) * | 2021-05-21 | 2021-09-17 | 南京逸智网络空间技术创新研究院有限公司 | 基于奇异值分解的本地差分隐私保护的频繁项集挖掘方法 |
CN113361694A (zh) * | 2021-06-30 | 2021-09-07 | 哈尔滨工业大学 | 一种应用差分隐私保护的分层联邦学习方法及系统 |
CN116227621A (zh) * | 2022-12-29 | 2023-06-06 | 国网四川省电力公司电力科学研究院 | 一种基于电力数据的联邦学习模型训练方法 |
CN116562373A (zh) * | 2023-04-07 | 2023-08-08 | 百度(中国)有限公司 | 数据挖掘方法、装置、设备和介质 |
CN116702231A (zh) * | 2023-04-17 | 2023-09-05 | 哈尔滨工程大学 | 一种面向拜占庭不可信多方协同差分隐私数据的频繁项集挖掘方法 |
CN116467751A (zh) * | 2023-04-25 | 2023-07-21 | 重庆邮电大学 | 一种带有隐私保护的关联规则学习方法 |
Non-Patent Citations (6)
Title |
---|
EPPSQ: Achieving efficient and privacy-preserving statistics queries over encrypted data in smart grids;Beibei Li 等;《Future Generation Computer Systems》;1-15 * |
Mining frequent items from high-dimensional set-valued data under local differential privacy protection;Haonan Wu 等;《Expert Systems With Applications》;1-13 * |
Preserving privacy in association rule mining with bloom filters;Ling Qiu 等;《J Intell Inf Syst 》;253–278 * |
Top-k 频繁子图挖掘的差分隐私保护算法;徐捷 等;《计算机技术与发展》;第32卷(第5期);80-86 * |
本地化差分隐私下的频繁序列模式挖掘算法PrivSPM;黄硕 等;《计算机应用》;第43卷(第7期);2057-2064 * |
面向本地差分隐私保护的频率估计和频繁项集挖掘研究;王广艺;《中国优秀硕士学位论文全文数据库 信息科技辑》(第2022年03期);I138-172 * |
Also Published As
Publication number | Publication date |
---|---|
CN117033947A (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ji et al. | Parameter estimation for block‐oriented nonlinear systems using the key term separation | |
Li | A magic state’s fidelity can be superior to the operations that created it | |
Sharma et al. | PrivateGraph: Privacy-preserving spectral analysis of encrypted graphs in the cloud | |
CN113206831B (zh) | 一种面向边缘计算的数据采集隐私保护方法 | |
CN111475838B (zh) | 基于深度神经网络的图数据匿名方法、装置、存储介质 | |
CN113569286B (zh) | 基于本地化差分隐私的频繁项集挖掘方法 | |
Jenčová | Preservation of a quantum Rényi relative entropy implies existence of a recovery map | |
US20160254826A1 (en) | Method and apparatus for reconstructing a data block | |
CN114662157B (zh) | 社交文本数据流的块压缩感知不可区分性保护方法及装置 | |
Wang et al. | Improved RPCA method via non‐convex regularisation for image denoising | |
Yu | Almost surely asymptotic stability of exact and numerical solutions for neutral stochastic pantograph equations | |
Wang et al. | Block‐sparse signal recovery via minimisation method | |
You et al. | Gatae: Graph attention-based anomaly detection on attributed networks | |
Cho et al. | Asymptotic properties of the empirical spatial extremogram | |
CN117033947B (zh) | 一种隐私保护的云边协同的频繁项目挖掘方法 | |
Zhang et al. | Longshot: Indexing growing databases using MPC and differential privacy | |
Gligoroski et al. | Repair duality with locally repairable and locally regenerating codes | |
Gzyl et al. | Stieltjes moment problem and fractional moments | |
Liu et al. | Recommendation unlearning via matrix correction | |
Xue et al. | Stability of nonlinear neutral stochastic functional differential equations | |
Wang et al. | Coded alternating least squares for straggler mitigation in distributed recommendations | |
Wang et al. | [Retracted] Multimedia Image Data Compression Based on Wavelet Analysis | |
Le et al. | Comment: Ridge regression and regularization of large matrices | |
Leng et al. | Construction of fusion frame systems in finite dimensional Hilbert spaces | |
Li et al. | Low‐complexity linear massive MIMO detection based on the improved BFGS method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |