CN113792215A - 基于深度自编码器的差分隐私推荐方法及系统 - Google Patents

基于深度自编码器的差分隐私推荐方法及系统 Download PDF

Info

Publication number
CN113792215A
CN113792215A CN202111080910.1A CN202111080910A CN113792215A CN 113792215 A CN113792215 A CN 113792215A CN 202111080910 A CN202111080910 A CN 202111080910A CN 113792215 A CN113792215 A CN 113792215A
Authority
CN
China
Prior art keywords
gradient matrix
self
noise
privacy
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111080910.1A
Other languages
English (en)
Inventor
钱新宇
周治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202111080910.1A priority Critical patent/CN113792215A/zh
Publication of CN113792215A publication Critical patent/CN113792215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度自编码器的差分隐私推荐方法及系统,包括以下步骤:构建隐私推荐模型;获取所述隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵;通过深度自编码器对所述梯度矩阵进行降维,并对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵;对所述编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵;基于重建后的噪音梯度矩阵对所述隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型;使用更新后的隐私推荐模型向用户推荐感兴趣内容。其推荐精度高,保护个人隐私信息,安全性强。

Description

基于深度自编码器的差分隐私推荐方法及系统
技术领域
本发明涉及推荐系统技术领域,尤其是指一种基于深度自编码器的差分隐私推荐方法及系统。
背景技术
推荐系统对于现代社会提高信息掌握效率具有十分重要的作用,而移动设备的广泛使用使得用户对个性化推荐的使用要求越来越高。随着推荐系统在实际生活中越来越广泛的应用,个人用户对于推荐精度的需求愈发得高了,传统推荐算法已经不能有效满足人们的需求了。NLP技术的实现使得词向量推荐成为主流,将非线性特征提取技术与推荐算法有效结合,在提取词向量特征方面更加具有优势,对提取到的特征的训练精度越高,推荐效果就更加优秀。训练需求的增加使得数据量呈海量增长,海量的数据用于训练造成了隐私问题,攻击者可以通过窃取神经网络的训练模型和参数,进行训练,还原训练数据,造成个人隐私信息的泄露。
近年来,研究人员提出很多的隐私保护策略,但是,许多传统的攻击方式可以通过匿名化等手段进行防御。通过窃取神经网络参数的推理攻击难以被防御。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中网络推荐系统存在易被攻击,个人隐私信息易泄露的技术缺陷。
为解决上述技术问题,本发明提供了一种基于深度自编码器的差分隐私推荐方法,包括以下步骤:
S1、构建隐私推荐模型,所述隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型;
S2、获取所述隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵;
S3、通过深度自编码器对所述梯度矩阵进行降维,并对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵;
S4、对所述编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵;
S5、基于重建后的噪音梯度矩阵对所述隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型;
S6、使用更新后的隐私推荐模型向用户推荐感兴趣内容。
作为优选的,所述S3中,对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵,具体包括:
对降维后的梯度矩阵添加高斯噪声以实现近似差分隐私,获得编码后的噪声梯度矩阵。
作为优选的,所述S3具体包括:
对梯度矩阵g={g1,g2,...,gn}进行维度,获得降维后的梯度矩阵c={c1,c2,...,cn};
对降维后的梯度矩阵加入噪声σc,获得编码后的噪声梯度矩阵C=c+σc
作为优选的,所述σc满足:
Figure BDA0003263951210000021
其中,ε为隐私预算,δ为松弛因子,
Figure BDA0003263951210000031
为映射函数的二范式敏感性;给定映射函数f:D→Rd作用于邻近数据集D,D'∈Dn,其中,D为输入矩阵,当输入矩阵D的信息发生变化,获得数据集D',n指n维空间。
作为优选的,所述S1中隐私推荐模型还包括全连接层;
通过拼接所述感知时间间隔的自注意力模型和基于物品-属性的自注意力模型的输出,获得时间间隔信息的物品级关系和物品属性特征级关系的融合表示;
将所述时间间隔信息的物品级关系和物品属性特征级关系的融合表示作为全连接层的输入,获得物品的偏好得分。
作为优选的,所述S1中,感知时间间隔的自注意力模型包括:物品、物品位置以及时间间隔的嵌入表示层和感知时间间隔的自注意力区块层。
作为优选的,所述S1中,基于物品-属性的自注意力模型包括:嵌入表示层和物体-属性的自注意力层。
作为优选的,所述S4具体包括:根据所述深度自编码器的参数,对编码后的噪声梯度矩阵进行解码复原以恢复梯度噪声矩阵的维度,获得重建后的噪音梯度矩阵。
本发明还公开了一种基于网络浏览的感兴趣内容推荐系统,包括用户端和服务器端;
所述服务器端获取用户端浏览网络的信息;
根据浏览网络的信息,所述服务器基于权利要求1-8任一项所述的差分隐私推荐方法筛选出符合用户要求的信息,并将其推荐给用户端。
本发明还公开了一种基于深度自编码器的差分隐私推荐系统,包括:
模型构建模块,所述模型构建模块用于构建隐私推荐模型,所述隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型;
梯度矩阵获取模块,所述梯度矩阵获取模块用于获取所述隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵;
降维加噪模块,所述降维加噪模块通过深度自编码器对所述梯度矩阵进行降维,并对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵;
解码模块,所述解码模块用于对所述编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵;
训练模块,所述训练模块基于重建后的噪音梯度矩阵对所述隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型;
推荐模块,所述推荐模块使用更新后的隐私推荐模型向用户推荐感兴趣内容。
本发明的上述技术方案相比现有技术具有以下优点:
1、本发明引入深度自编码器进行降噪,针对神经网络梯度下降过程中存在的梯度冗余现象,利用深度自编码器进行降维,对降维后的矩阵重新计算全局敏感度使得噪声规模的计算更加准确;随后对降维梯度矩阵加入噪声以实现差分隐私,利用自编码器的解码功能将噪声梯度映射为与原梯度维度相同的噪声梯度并进行神经网络的下一次更新。
2、本发明通过神经网络降维和还原过程,有效减低冗余梯度位置的噪声量,大大提高了推荐精度。
3、本发明中的推荐方法保护个人隐私信息,安全性强。
附图说明
图1为本发明基于深度自编码器的差分隐私推荐方法的流程图;
图2为差分隐私推荐系统基础框架图;
图3为模型的构建与训练示意图;
图4为深度自编码器的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1-图4所示,本发明公开了一种基于深度自编码器的差分隐私推荐方法,包括以下步骤:
步骤一、构建隐私推荐模型,隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型。
其中,感知时间间隔的自注意力模型包括:物品、物品位置以及时间间隔的嵌入表示层和感知时间间隔的自注意力区块层;基于物品-属性的自注意力模型包括:嵌入表示层和物体-属性的自注意力层。
而隐私推荐模型还包括全连接层;通过拼接感知时间间隔的自注意力模型和基于物品-属性的自注意力模型的输出,获得时间间隔信息的物品级关系和物品属性特征级关系的融合表示;将时间间隔信息的物品级关系和物品属性特征级关系的融合表示作为全连接层的输入,获得物品的偏好得分。
步骤二、获取隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵。
步骤三、通过深度自编码器对梯度矩阵进行降维,并对降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵。
其中,对降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵,具体包括:对降维后的梯度矩阵添加高斯噪声以实现近似差分隐私,获得编码后的噪声梯度矩阵。
步骤三具体包括:对梯度矩阵g={g1,g2,...,gn}进行维度,获得降维后的梯度矩阵c={c1,c2,...,cn};对降维后的梯度矩阵加入噪声σc,获得编码后的噪声梯度矩阵C=c+σc
σc满足:
Figure BDA0003263951210000061
其中,ε为隐私预算,δ为松弛因子,
Figure BDA0003263951210000062
为映射函数的二范式敏感性;给定映射函数f:D→Rd作用于邻近数据集D,D'∈Dn,其中,D为输入矩阵,当输入矩阵D的信息发生变化,获得数据集D',n指n维空间。
步骤四、对编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵,具体包括:
根据深度自编码器的参数,对编码后的噪声梯度矩阵进行解码复原以恢复梯度噪声矩阵的维度,获得重建后的噪音梯度矩阵。
步骤五、基于重建后的噪音梯度矩阵对隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型。
步骤六、使用更新后的隐私推荐模型向用户推荐感兴趣内容。
本发明公开了一种基于网络浏览的感兴趣内容推荐系统,包括用户端和服务器端;
服务器端获取用户端浏览网络的信息;根据浏览网络的信息,服务器基于上述差分隐私推荐方法筛选出符合用户要求的信息,并将其推荐给用户端。
本发明还公开了一种基于深度自编码器的差分隐私推荐系统,包括模型构建模块、梯度矩阵获取模块、降维加噪模块、解码模块、训练模块和推荐模块。
模型构建模块用于构建隐私推荐模型,隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型。
梯度矩阵获取模块用于获取隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵。
降维加噪模块通过深度自编码器对梯度矩阵进行降维,并对降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵。
解码模块用于对编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵。
训练模块基于重建后的噪音梯度矩阵对隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型。
推荐模块使用更新后的隐私推荐模型向用户推荐感兴趣内容。
本发明建立在一个优秀的推荐系统之上。首先将物品表示与其每一个属性表示连接起来输入到一个注意力网络,经过注意力加权后得到一种基于属性的物品表示。然后应用感知时间间隔的自注意力区块和基于物品-属性的自注意力区块分别捕捉物品与交互序列时间间隔之间的关系模式和物品与属性之间的隐式关系。最后将两个自注意力区块的输出表示连接起来,并将其作为联合输出表示输入到全连接层用于下一个物品的推荐。在此推荐系统的基础上实现差分隐私保护技术,针对联合表示后的全连接层梯度摄入噪声。直接摄入全局噪声的方法会导致推荐精度的大大降低。因此,本发明中引入深度自编码器进行降噪。针对神经网络梯度下降过程中存在的梯度冗余现象,利用深度自编码器进行降维,对降维后的矩阵重新计算全局敏感度使得噪声规模的计算更加准确。随后对降维梯度矩阵加入噪声以实现差分隐私,利用自编码器的解码功能将噪声梯度映射为与原梯度维度相同的噪声梯度并进行神经网络的下一次更新。本发明通过神经网络降维和还原过程,有效减低冗余梯度位置的噪声量,大大提高了推荐精度。
下面,结合具体的实施方式,对本发明的推荐系统做进一步说明与解释。
如图2所示,本发明的推荐系统需要用户和服务器联合使用,用户通过浏览网络产生一条条的特征信息,对这些特征信息进行提取和训练可以得到用户感兴趣的内容,服务器针对这些内容筛选出符合用户要求的信息,并将其推荐给给用户。当推荐者共享物品项目矩阵vj的时候(其中,j=1、2、3、……、m),可以在用户的设备中计算用户的配置文件ui(其中,i=1、2、3、……、n)。在每次迭代之后,推荐服务器比必须向被推荐者提供新的vj,用户根据服务器提供的配置重新计算ui,并向服务器提供加噪后的梯度矩阵。随后被推荐者和服务器之间通过这样的方式多次反馈,达到固定次数后停止就能够得到对应的推荐结果。
下面,结合具体实施方式,对本发明的推荐方法做进一步说明与解释。
一、隐私推荐模型的构建
参照图3所示,本发明中,隐私推荐模型包括两大块:一部分是感知时间间隔的自注意力模型,其用于提取物品特征;另一部分是基于物品-属性的自注意力模型,其用于提取用户特征,之后通过将感知时间间隔的自注意力模型和基于物品-属性的自注意力模型的输出联合,并输入至全连接层,计算用户对物品的偏好得分。
1、感知时间间隔的自注意力模型
基于感知时间间隔的自注意力机制模型共分为两层。第一层是物品、物品位置以及时间间隔的嵌入表示,第二层是感知时间间隔的自注意力区块层。利用矩阵
Figure BDA0003263951210000091
作为物品的嵌入表示,为了方便处理,将训练序列
Figure BDA0003263951210000092
转变为一个长度固定的序列s=(s1,s2,...,sn)。其中,n为自注意力模型处理长度的最大值。在实际运作过程中,如果交互物品的个数正好是n,则直接进行处理,如果不满n,则进行补0操作方便下一步的处理。同理,对时间序列
Figure BDA0003263951210000093
做相同的处理操作,也即将其进行转化,转化为一个固定的长度序列t=(t1,t2,...,tn)。根据时间序列可以计算得到物品i和j之间时间的间隔大小为:|ti-tj|。不妨设定用户交互过程中时间间隔矩阵为Ru,则这里可用计算物品两两之间的最小的时间间隔为
Figure BDA0003263951210000094
为了防止时间间隔过大,不便于处理,这里将时间间隔做归一化处理:
Figure BDA0003263951210000095
根据公式(1)可以的到归一化后的时间间隔矩阵
Figure BDA0003263951210000096
为:
Figure BDA0003263951210000097
(1.1)嵌入表示层
将用户-物品交互序列中物品的嵌入表示为
Figure BDA0003263951210000098
Figure BDA0003263951210000099
在传统推荐系统模型中,嵌入表示层会提高自注意力模块的性能,在本发明中,
分别引入两个可学习的位置嵌入矩阵
Figure BDA00032639512100000910
分别作为自注意力机制的Key和Value。如下公式所示:
Figure BDA00032639512100000911
Figure BDA0003263951210000101
根据公式(1)(2)的推导,可以将嵌入表示矩阵
Figure BDA0003263951210000102
Figure BDA0003263951210000103
也分别作为自注意力机制中的Key和Value。
Figure BDA0003263951210000104
(1.2)感知时间间隔的自注意力区块层
本发明中,将自注意力层的输出序列嵌入设为:
Figure BDA0003263951210000105
自注意力层的输入由三部分组成,分别是序列物品的嵌入表示、相对时间间隔的嵌入表示和物品位置的嵌入,则可以将嵌入表示为这三部分的权重和:
Figure BDA0003263951210000106
Figure BDA0003263951210000107
是Value的可学习的权重参数。权重系数αij是通过softmax函数计算。
Figure BDA0003263951210000108
cij是当前物品与序列物品的关系函数。
Figure BDA0003263951210000109
Figure BDA00032639512100001010
是Query和Key的可学习的权重矩阵。d表示每个物品的维度。最终得到物品信息和位置新的以及时间间隔信息的联合输出形式:
O=LayerNorm(O) (11)
O1=ReLU((OW1+b1)W2+b2) (12)
O1=LayerNorm(O1+O) (13)
W1,W2∈Rd×d,b1,b2是d维向量,在堆叠了2个自注意力模块后,得到了物品嵌入表示、位置信息以及时间间隔的联合表示O2
2、基于物品-属性的自注意力模型
在实际的用户浏览场景中,用户对物品的兴趣往往是根据物品本身带有的属性来决定的。例如,很多用户会对某类特殊的商标物品感兴趣,这是生活中必然会发生的。因此融合物品的嵌入表示和每一个属性的嵌入表示进行注意力加权,即可知道物品的哪一个属性决定了用户的选择。
(2.1)嵌入表示层
对于物品i,将它的属性向量表示为
Figure BDA0003263951210000111
vecj表示第j个属性的向量表示。J表示物品属性的个数。由于物品的属性类型总是复杂多样的,包括类别型特征、数值型特征以及文本特征型。当属性是数值型时,其向量表示是一个标量。具体地表示如下:
Figure BDA0003263951210000112
其中Vj是一个embedding矩阵,vecj是属性的向量表示。
当属性是文本类型时,
Figure BDA0003263951210000113
是物品的文本属性向量。在对文本类型属性的处理上,由于单个物品的文本信息通常都较短,传统的LDA主题模型并不适合对于短文本主题词的处理,故本文采用了另外一种方法。具体步骤如下:
1.将所属同于用户的物品的文本信息进行拼接,使其成为长文本。将得到的长文本送入经过预训练的LDA模型,并提取前5个主题词;
2.通过Word2vec获取长文本中的每个词向量,并计算其权重,根据权重进行排序;
3.将每个主题词的权重和其词向量做内积并求和,得到该主题的词向量。
4.将单个文本中词向量之和除以次数以得到文本向量;
5.将各向量与主向量欧式距离作为排序依据;
6.利用平均池化技术合并5个词向量;
(2.2)物品-属性的自注意力层
将物品的属性嵌入表示标记为
Figure BDA0003263951210000121
物品的嵌入表示拼接属性的嵌入表示为
Figure BDA0003263951210000122
为了量化每一个属性对于用户选择的影响,将拼接后的嵌入表示进行注意力加权。
Figure BDA0003263951210000123
Figure BDA0003263951210000124
是权重矩阵和偏置矩阵。则物品i的特征级表示为
Figure BDA0003263951210000125
Figure BDA0003263951210000126
表示物品i的第j个属性的嵌入表示。
自注意力区块的输入为
R=[R1 R2 ... Rn]T (17)
基于物品-属性的自注意力模型和感知时间的序列模型基本是相同的,同样由自注意力层、前馈网络层和残差连接层组成。仅是区块的输入和残差连接部分不一样。由于物品和属性的维度设置低,在低维度下将维度分解到多个子空间的效果明显比在单个子空间的效果差。所以本文使用了单头的注意力。则在经过自注意力层后的输出为
Hf=Attention(RWQ,RWK,RWV) (18)
Figure BDA0003263951210000127
是可学习的参数矩阵。
最终,自注意力区块的输出为
Lf=LayerNorm(Hf+R) (19)
Figure BDA0003263951210000128
Of=LayerNorm(Of+Lf) (21)
其中,W1,W2,b1,b2是模型的参数。为了捕捉到更复杂的特征关联模式,通常需要经过多个自注意力区块。所以在获得第一个自注意力区块表示后会直接进入到下一个自注意力块中,在经过多个自注意力区块后的输出表示为Os
3、全连接层
通过拼接感知时间间隔自注意力区块的输出O2和基于物品-属性的自注意力区块的输出Os,获得时间间隔信息的物品级关系和物品属性特征级关系的联合表示。将其作为全连接层的输入:
O2s=[O2;Os]W2s+b2s (22)
Figure BDA0003263951210000131
对于每一个用户u,物品的偏好得分。
Figure BDA0003263951210000132
Figure BDA0003263951210000138
是O2s中第t行表示,
Figure BDA0003263951210000133
是物品的嵌入表示矩阵,
Figure BDA0003263951210000134
表示根据前t个物品的相关信息(时间间隔信息、属性特征信息)计算用户u对物品i的偏好得分。
二、隐私推荐模型的训练
对于隐私推荐模块,通过计算隐私推荐模块的损失函数,该损失函数对神经网络参数求偏导,获得梯度矩阵。通过对梯度矩阵进行降维和加噪处理,以此保护个人隐私。之后对处理后的梯度矩阵进行训练和迭代,从而更行隐私推荐模型的参数,获得隐私保护极强的隐私推荐模型。
1、隐私推荐模块的损失函数
模型的损失函数:
Figure BDA0003263951210000135
λ是正则化参数,
Figure BDA0003263951210000136
是一组嵌入矩阵集。在每一个正样本i中,都会随机负采样一个负样本j来与之配对。
2、梯度下降求解
对式(24)的损失函数表达式而言,输入为前t个物品的相关信息(时间间隔信息、属性特征信息)计算用户对物品i的偏好得分yt,i,对神经网络参数W2s求偏导并进行下降:
Figure BDA0003263951210000137
和参数更新:
Figure BDA0003263951210000141
损失函数L代表不匹配训练数据的惩罚,复杂的神经网络损失函数l往往十分复杂并且是非凸的。分别将损失函数求偏导就能够得到神经网络梯度:
Figure BDA0003263951210000142
深度神经网络在实际运用当中往往具有多层结构,并且不管是隐含层还是输入和输出层往往具有多个神经元。梯度矩阵的大小由神经网络层间映射关系来决定,例如前后层的神经元数量为m,n,则对应的梯度矩阵维度为m×n,在实际使中,m,n取值往往会比较大,以保证特征得到充分的提取和训练。也就是说,在实际训练过程中梯度矩阵往往是一个高维矩阵。
3、梯度矩阵的处理
(3.1)差分隐私技术介绍
差分隐私保护的基本方法是添加噪声实现数据扰动,在处理复杂数据时,如高维向量和矩阵,添加高斯噪声实现近似差分隐私以提高数据可用性更为合理。将差分隐私应用于神经网络训练以阻止攻击者确定已知背景信息的用户记录或图片信息是否出现在数据集中,以保护个人隐私。
假设D为输入矩阵,当输入矩阵的某一条信息发生变化,包括修改数据内容,删除等操作时,会得到数据集D'
(ε,δ)-差分隐私:给定一随机映射算法M:Dn→R,算法输出集合为R。对于任意邻近数据集D,D'∈Dn,以及R的任意子集SM满足条件:
Pr[M(D)∈SM]≤exp(ε)Pr[M(D')∈SM]+δ (27)
M为(ε,δ)-差分隐私,ε为隐私预算,δ为松弛因子,一般取10-5
高斯机制:给定映射函数f:D→Rd作用于邻近数据集D,D'∈Dn,如果M(D)=f(D)+N(0,σ2),且高斯噪声满足式(28),那么随机扰动机制M满足(ε,δ)-差分隐私。
Figure BDA0003263951210000143
其中,
Figure BDA0003263951210000151
为映射函数的二范式敏感性。
当差分隐私应用于神经网络梯度时,可以将神经网络到梯度矩阵运算过程看做是一映射函数f,这里fg表示。用因为映射函数本身是一种抽象概念,因此合适的运算关系都能看做是一种映射函数。
输入数据集D在本文中为用户矩阵和物品矩阵合并后的[O2;Os],经过神经网络映射后得到梯度矩阵g,即fg([O2;Os])→g。通过计算梯度矩阵二范数即可得到其二范数敏感性Δ2(g)。
(3.2)深度自编码器降维加噪:
神经网路通过梯度下降来更新模型参数,随着梯度下降的进行,梯度矩阵会出现梯度冗余现象,即高维的梯度矩阵中有部分数值归零。而差分隐私的本质是通过噪声扰动数据的统计规律以保护隐私,因此当高维矩阵中存在梯度冗余现象对归零数值添加和其余数据相同量的噪声意义不大,反而会导致训练精度的大大降低。为了解决这一问题,本发明引入深度自编码器技术,对梯度矩阵进行编码降维。随着训练的持续进行,梯度矩阵冗余的现象越来越明显,根据差分隐私的定义,要保护梯度矩阵的信息,就要对梯度矩阵添加全局噪声:
Figure BDA0003263951210000152
其中,ε为隐私预算大小,δ为松弛因子,也即邻近数据集D,D'经过差分隐私处理后不完全相等的概率,因此,从此因子的取值是极小的,一般情况下的取值为δ=10-5。Δ2(g)为梯度矩阵的二范式敏感性大小。
由于梯度矩阵中存在较大的梯度冗余,如果直接对梯度矩阵加噪会在冗余梯度上引入过量噪声,导致训练精度大大降低,这里引入深度自编码器对梯度矩阵降维。图4为自编码器示意图:
在本发明中,将梯度矩阵g作为输入,梯度矩阵中共有n个向量,将n个向量依次输入深度自编码器中进行训练。在本发明中,自编码器的主要作用是对梯度矩阵进行降维,将输入g={g1,g2,...,gn}维度降低为c={c1,c2,...,cn}。这里,输入[O2;Os]经过神经网络运算再经过自编码器编码得到降维矩阵c的过程可以看做是一个映射函数f,这里用fc表示,也即fc([O2;Os])→c,通过计算c的二范数即可得到其二范数敏感性Δ2(c)。根据式(28)同样可以计算得已经降维的梯度矩阵需要加入噪声为σc,由于自编码器只是起到了降低数据维度的作用,从更深层次的角度上来说,这对矩阵范数的影响并不大,只是消除了原矩阵中稀疏的成分,因此,敏感度值与元矩阵相差并不大,也即加入噪声规模相差不大。深度自编码器要求输入与输出尽可能相同,但在实际的运行过程中,对于复杂数据,输入与输出很难相同,存在一定的残差,因此往往σc略小于σg。经过编码得到降维后的噪声梯度矩阵为C=c+σc
(3.3)噪声梯度恢复
本发明中,将加入噪声的低维梯度C按照自编码器的参数,进行解码复原,即可得到最后用于梯度下降更新的噪声梯度
Figure BDA0003263951210000161
引入深度自编码器的目的就是得到经过自编码器编码的噪声梯度。这里不妨将利用解码的过程将低维噪声梯度矩阵还原为噪声梯度矩阵的过程看做是矩阵之间的一种映射过程,将这种映射过程定义为φ。在降维梯度冗余点上添加的等量噪声经过φ映射后能够显著降低,这使得添加噪声量有效降低了,而非冗余点上的噪声经过映射之后得到了等比例的缩放,也即梯度矩阵中的隐私信息得到了有效的保护,但是冗余梯度值上的噪声被有效的降低了,这能够大大增加训练精度,从而提高推荐效果。攻击者只能得知推荐系统是利用神经网络训练特征的,但却无法得知,隐私保护方式,因此自编码器不存在二次隐私泄露的危险。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于深度自编码器的差分隐私推荐方法,其特征在于,包括以下步骤:
S1、构建隐私推荐模型,所述隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型;
S2、获取所述隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵;
S3、通过深度自编码器对所述梯度矩阵进行降维,并对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵;
S4、对所述编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵;
S5、基于重建后的噪音梯度矩阵对所述隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型;
S6、使用更新后的隐私推荐模型向用户推荐感兴趣内容。
2.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S3中,对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵,具体包括:
对降维后的梯度矩阵添加高斯噪声以实现近似差分隐私,获得编码后的噪声梯度矩阵。
3.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S3具体包括:
对梯度矩阵g={g1,g2,...,gn}进行维度,获得降维后的梯度矩阵c={c1,c2,...,cn};
对降维后的梯度矩阵加入噪声σc,获得编码后的噪声梯度矩阵C=c+σc
4.根据权利要求3所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述σc满足:
Figure FDA0003263951200000021
其中,ε为隐私预算,δ为松弛因子,
Figure FDA0003263951200000022
为映射函数的二范式敏感性;给定映射函数f:D→Rd作用于邻近数据集D,D'∈Dn,其中,D为输入矩阵,当输入矩阵D的信息发生变化,获得数据集D',n指n维空间。
5.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S1中隐私推荐模型还包括全连接层;
通过拼接所述感知时间间隔的自注意力模型和基于物品-属性的自注意力模型的输出,获得时间间隔信息的物品级关系和物品属性特征级关系的融合表示;
将所述时间间隔信息的物品级关系和物品属性特征级关系的融合表示作为全连接层的输入,获得物品的偏好得分。
6.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S1中,感知时间间隔的自注意力模型包括:物品、物品位置以及时间间隔的嵌入表示层和感知时间间隔的自注意力区块层。
7.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S1中,基于物品-属性的自注意力模型包括:嵌入表示层和物体-属性的自注意力层。
8.根据权利要求1所述的基于深度自编码器的差分隐私推荐方法,其特征在于,所述S4具体包括:根据所述深度自编码器的参数,对编码后的噪声梯度矩阵进行解码复原以恢复梯度噪声矩阵的维度,获得重建后的噪音梯度矩阵。
9.一种基于网络浏览的感兴趣内容推荐系统,其特征在于,包括用户端和服务器端;
所述服务器端获取用户端浏览网络的信息;
根据浏览网络的信息,所述服务器基于权利要求1-8任一项所述的差分隐私推荐方法筛选出符合用户要求的信息,并将其推荐给用户端。
10.一种基于深度自编码器的差分隐私推荐系统,其特征在于,包括:
模型构建模块,所述模型构建模块用于构建隐私推荐模型,所述隐私推荐模型包括感知时间间隔的自注意力模型和基于物品-属性的自注意力模型;
梯度矩阵获取模块,所述梯度矩阵获取模块用于获取所述隐私推荐模型的损失函数,根据损失函数获得其对应的梯度矩阵;
降维加噪模块,所述降维加噪模块通过深度自编码器对所述梯度矩阵进行降维,并对所述降维后的梯度矩阵进行加噪操作,获得编码后的噪声梯度矩阵;
解码模块,所述解码模块用于对所述编码后的噪声梯度矩阵进行解码,获得重建后的噪音梯度矩阵;
训练模块,所述训练模块基于重建后的噪音梯度矩阵对所述隐私推荐模型进行训练,更新隐私推荐模型的参数,获得更新后的隐私推荐模型;
推荐模块,所述推荐模块使用更新后的隐私推荐模型向用户推荐感兴趣内容。
CN202111080910.1A 2021-09-15 2021-09-15 基于深度自编码器的差分隐私推荐方法及系统 Pending CN113792215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111080910.1A CN113792215A (zh) 2021-09-15 2021-09-15 基于深度自编码器的差分隐私推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111080910.1A CN113792215A (zh) 2021-09-15 2021-09-15 基于深度自编码器的差分隐私推荐方法及系统

Publications (1)

Publication Number Publication Date
CN113792215A true CN113792215A (zh) 2021-12-14

Family

ID=78878390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111080910.1A Pending CN113792215A (zh) 2021-09-15 2021-09-15 基于深度自编码器的差分隐私推荐方法及系统

Country Status (1)

Country Link
CN (1) CN113792215A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659408A (zh) * 2022-12-05 2023-01-31 国网湖北省电力有限公司信息通信公司 一种电力系统敏感数据共享方法、系统及存储介质
CN116257688A (zh) * 2023-03-14 2023-06-13 广东电力交易中心有限责任公司 一种基于差分隐私随机梯度下降的信息推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法
CN111127165A (zh) * 2019-12-26 2020-05-08 纪信智达(广州)信息技术有限公司 基于自注意力自编码器的序列推荐方法
US20210158211A1 (en) * 2019-11-22 2021-05-27 Google Llc Linear time algorithms for privacy preserving convex optimization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法
US20210158211A1 (en) * 2019-11-22 2021-05-27 Google Llc Linear time algorithms for privacy preserving convex optimization
CN111127165A (zh) * 2019-12-26 2020-05-08 纪信智达(广州)信息技术有限公司 基于自注意力自编码器的序列推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUSONG CHEN 等: "Temporal Hierarchical Attention at Category- and Item-Level for Micro-Video Click-Through Prediction", 《2018 ACM MULTIMEDIA CONFERENCE》 *
刘忠雨: "《深入浅出图神经网络 GNN原理解析》", 31 January 2020 *
刘晓迁: "差分隐私保护分类及推荐算法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659408A (zh) * 2022-12-05 2023-01-31 国网湖北省电力有限公司信息通信公司 一种电力系统敏感数据共享方法、系统及存储介质
CN116257688A (zh) * 2023-03-14 2023-06-13 广东电力交易中心有限责任公司 一种基于差分隐私随机梯度下降的信息推荐方法
CN116257688B (zh) * 2023-03-14 2024-04-02 广东电力交易中心有限责任公司 一种基于差分隐私随机梯度下降的信息推荐方法

Similar Documents

Publication Publication Date Title
CN111259133B (zh) 一种融合多信息的个性化推荐方法
CN111310063B (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN108287904A (zh) 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN112464097B (zh) 一种多辅助域信息融合跨域推荐方法与系统
CN113792215A (zh) 基于深度自编码器的差分隐私推荐方法及系统
CN112307332B (zh) 基于用户画像聚类的协同过滤推荐方法、系统及存储介质
CN109977250A (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN112883070B (zh) 一种带有差分隐私的生成式对抗网络推荐方法
CN112800342A (zh) 基于异质信息的推荐方法、系统、计算机设备和存储介质
CN113033090B (zh) 推送模型训练方法、数据推送方法、装置及存储介质
CN111178986B (zh) 用户-商品偏好的预测方法及系统
CN112631560A (zh) 一种推荐模型的目标函数的构建方法及终端
CN113918832A (zh) 基于社交关系的图卷积协同过滤推荐系统
CN110837603A (zh) 一种基于差分隐私保护的集成推荐方法
Liu et al. Representation interpretation with spatial encoding and multimodal analytics
CN104008204A (zh) 一种动态的多维情境感知电影推荐系统及其实现方法
CN115080868A (zh) 产品推送方法、装置、计算机设备、存储介质和程序产品
Chen et al. Deformable convolutional matrix factorization for document context-aware recommendation in social networks
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN117150145B (zh) 一种基于大语言模型的个性化新闻推荐方法及系统
CN110134861B (zh) 一种基于项目类别和用户偏好的推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214