CN115600677A - 针对序列推荐系统成员推断攻击推理系统及方法 - Google Patents

针对序列推荐系统成员推断攻击推理系统及方法 Download PDF

Info

Publication number
CN115600677A
CN115600677A CN202211278586.9A CN202211278586A CN115600677A CN 115600677 A CN115600677 A CN 115600677A CN 202211278586 A CN202211278586 A CN 202211278586A CN 115600677 A CN115600677 A CN 115600677A
Authority
CN
China
Prior art keywords
attack
recommendation system
shadow
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211278586.9A
Other languages
English (en)
Inventor
张旭东
王赞
王岚君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211278586.9A priority Critical patent/CN115600677A/zh
Publication of CN115600677A publication Critical patent/CN115600677A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对序列推荐系统成员推断攻击推理系统及方法,包括标签数据生成模块、差异特征构造模块以及攻击模型训练模块;步骤1、进行标签数据生成;步骤2、进行成员和非成员的差异特征构造;步骤3、进行攻击模型的训练。与现有技术相比,本发明可以在更广泛的场景下保证用户的数据隐私;填补了更严格场景下进行成员推断攻击的空白;显著提高了攻击推断效果。

Description

针对序列推荐系统成员推断攻击推理系统及方法
技术领域
本发明涉及隐私安全技术领域,特别是涉及一种基于鲁棒性的针对序列推荐系统成员推断攻击系统及方法。
背景技术
成员推断攻击的定义是判断某一个数据记录是否在模型的训练集中。该技术的核心问题是给定数据记录,和黑盒模型查询的权限,判断数据是否在训练集中。成员推断攻击出现在了机器学习的各种领域,如分类模型、生成模型、嵌入模型和回归模型。一般来说,将成员推断攻击大致分为两类:
(1)白盒攻击,即攻击者可以得到模型的所有权重并利用它来攻击模型;
(2)黑盒攻击,即攻击者被赋予有限的模型信息,但只能不断的查询模型。与白盒攻击相比,黑盒攻击更危险,因为攻击者可以用有限的知识破坏成员隐私。
更具体地说,有两种主要的黑盒攻击:基于影子模型的攻击和基于度量的攻击。基于影子模型的攻击的主要思想是,对手可以创建一个或多个影子模型来模仿目标模型的行为。基于影子模型的攻击依靠一个二元分类器来识别成员和非成员之间的复杂关系。同时,基于度量的成员推断攻击通过计算数据记录的预测向量的度量来做出成员推断决策。成员推断攻击中使用的度量包括预测正确率、预测损失、预测熵等。
此外,前人阐述了以往做法的两个问题:(1)一些发明是基于极其过度拟合但没有有实际用途的模型,这种模型上的结果不应该归纳为训练有素的模型;(2)没有给出攻击模型在负面样本(非成员)的表现,特别是有多少负面样本被误归为正面(假阳性)。因此,采用使用误报率或其等效指标(如AUC)来说明成员推断攻击的性能。
关于针对新闻推荐系统的成员推断攻击:与计算机视觉和自然语言处理等领域相比,推荐系统的研究非常有限。更具体地说,以前只有两项研究与推荐系统有关。①第一项研究是针对推荐系统的成员推断攻击研究的关键思想,是用数据集构建一个用户-项目矩阵进行评级,并将该矩阵分解为用户矩阵和项目矩阵。对于每个用户,对手提取两组项目(一组包含推荐项目,另一组包含用户已经互动过的项目)并分别计算这两组的中心向量。这两个中心向量的差值被用来作为区分成员和非成员的特征。这与以往的成员推断攻击的不同在于:首先,攻击是在用户级别进行的,而以前的大多数攻击都集中在样本级别。在推荐系统的场景之下,显然用户级别的成员推断攻击更能体现出机器学习、深度模型中存在的用户隐私泄露。其次,在针对推荐系统的成员推断攻击中,并不能准确的获得推荐系统对每个物品的评分,而只能知道推荐系统针对候选集合的排名。在此工作中,所有的攻击流程均是在推荐系统会给成员记录进行个性化推荐,而对非成员数据进行基于规则的推荐的假设下进行的。但此假设存在一定的局限性,用户的隐私数据可能不用于目标模型的训练,但却可以被应用到目标模型的推理中。②第二项研究是第一篇研究的后续研究,它保留了提取推荐项目和互动项目之间的差异作为特征的想法,但解决了阴影模型和目标模型之间的差距以及差异向量估计的偏差问题。这两项研究证明了推荐系统中成员推断攻击的风险。然而,它们有一个假设,即非成员的推荐是基于受欢迎程度的,这是不实际的,因为推荐系统总是不仅用于服务成员,而且也用于服务非成员。如果推荐系统不用于非成员,要么系统的使用范围受到限制,不能达到最大的效益,要么系统训练的工作量很大,因为系统的训练数据必须覆盖所有的人群。
关于基于序列的推荐系统。基于序列的推荐系统主要通过对用户与项目互动的顺序依赖关系进行建模,来推荐用户可能感兴趣的项目(例如,在一个在线信息平台上查看新闻)的顺序。与传统的推荐系统相比,基于序列的推荐系统以静态的方式对用户与物品的交互进行建模,只能捕捉到用户的一般偏好,而基于序列的推荐系统将用户与物品的交互视为一个动态的序列,并将顺序依赖关系考虑在内,以捕捉用户当前和最近的偏好,从而获得更准确的推荐结果。
另外,针对推荐系统的成员推断攻击,即判断给定用户隐私序列成员还是非成员。从攻击者的知识角度来说,攻击者假设目标模型为一个黑盒模型,只能获取输入输出,具体来说,攻击者无法获得推荐系统对于每条新闻的评分,只能得到推荐系统对于候选集合的排序。除此之外,攻击者没有任何的用户信息,而只能获取用户的浏览历史,以此来进行用户的建模。这使得针对推荐系统的成员推断攻击变得困难。
现有研究中推荐系统是对成员和成员用户进行差异化服务的,即成员用户的推荐结果是由推荐算法推理产生的,而非成员用户的推荐结果是根据流行度产生的,这扩大了成员和非成员推荐结果之间的差距,使得它们容易被攻击者区分。同时,这种假设并不实际,为了增加利润,推荐系统需要1)减少训练成本,即用少量的数据达到高性能;2)获得更多的收入,即向用户推荐物品,获得高点击率。因此,推荐系统总是不仅用于服务成员用户,也用于服务非成员用户。一旦放宽上述假设,也就是假设非成员也被训练好的推荐系统所服务,而不是只进行基于流行度的推荐,那么现有研究中基于计算中心向量提取差异特征的方法就不起作用了。因此,在服务阶段,当成员和非成员用户被同一策略服务时,即它们都享受推荐系统的推理,此时亟需提出一个方法来对它们进行区分。
发明内容
针对以上现有技术存在的问题,本发明提出了一种针对序列推荐系统成员推断攻击推理系统及方法,考虑成员的行为输出的排名列表对输入扰动更加鲁棒性,实现了基于序列的推荐系统的成员攻击推断方法。
本发明利用以下技术方案实现:
一种针对序列推荐系统成员推断攻击推理系统,该系统包括依序连接的标签数据生成模块、差异特征构造模块以及攻击模型训练模块;
其中,所述标签数据生成模块用于对攻击者获取的一份影子数据集中的成员影子数据集
Figure BDA0003897650600000031
和非成员影子数据集
Figure BDA0003897650600000032
设定标签,生成标签数据;所述差异特征构造模块用于从成员影子数据集
Figure BDA0003897650600000033
和非成员影子数据集
Figure BDA0003897650600000034
中提取特征,计算特征差异向量,利用特征向量进行成员和非成员的区分;所述攻击模型训练模块用于获取到训练好的攻击模型,最终输入到训练好的攻击模型进行成员关系的推理。
一种针对序列推荐系统成员推断攻击推理方法,该方法具体包括以下
步骤1、生成标签数据:首先攻击者获取一份影子数据集记作DS,对数据集进行用于训练的正、负样本划分,其中训练过的样本为正样本,未训练过的样本为负样本;将正样本作为成员影子数据集
Figure BDA0003897650600000041
将负样本作为非成员影子数据集
Figure BDA0003897650600000042
为成员影子数据集
Figure BDA0003897650600000043
和非成员影子数据集
Figure BDA0003897650600000044
设定标签,利用成员影子数据集
Figure BDA0003897650600000045
训练影子推荐系统MS
步骤2、从成员影子数据集
Figure BDA0003897650600000046
和非成员影子数据集
Figure BDA0003897650600000047
中提取特征,计算特征差异向量:
首先,建立相关数学模型,如下:
攻击者的目标为基于序列的推荐系统,将一个代表用户历史浏览记录的序列,作为当前推荐系统的原始输入,推荐系统M的数学模型的表达式为:
M(x)=r
其中,x是用户历史浏览记录的序列,为当前推荐系统的输入,r是当前推荐系统对推荐集合的排序列表,为当前推荐系统的原始输出;
第i个扰动后的输入xi的表达式为:
xi=pi(x)
其中,pi()是i个扰动对应的扰动算子;
攻击者把第i个扰动后的输入xi输入到推荐系统M,得到第i个扰动后的输出排名列表ri,表达式为:
ri=M(xi)
接下来,得到原始输出r和第i个扰动后的输出ri之间的差异特征向量,表达式如下:
di=D(ri,r)
其中,D是三种关于排名质量的测量方法,即合成排名协议SRA、Jaro-Winkler相似度JWS和归一化折现累积收益NDCG;
关于攻击者一系列的扰动{p1,…,pN}的差异特征向量d的表达式如下:
d=[d1,...,dN]
当前推荐系统的输入的行为序列x1,…,xL被分成N+1份相等的部分;接下来,从头到尾依次去除这些扰动部分,留下的部分作为第i个扰动后的输入xi
依据合成排名协议SRA、Jaro-Winkler相似度JWS和归一化折现累积收益NDCG这三种关于排名质量的测量方法,攻击者所得到相应的差异向量分别表示为dSRA、dJWS和dNDCG,将这三个差异向量串联起来,以区分成员和非成员;
步骤3、建立攻击模型,表达式如下:
h1=ReLU(BN(w1d+b1))
h2=ReLU(BN(w2h1+b2))
y=w3h2+b3
其中,d是差异特征向量,w1,w2,w3,b1,b2,b3是训练过程中要被更新的参数,ReLUO是隐藏层的输出激活函数,BNO是批标准化函数,用于对线性变换后的结果进行批标准化处理,h1和h2是经过ReLUO之后的两个隐藏层的结果,y是攻击输出的二维向量;
最终,获取到训练好的攻击模型,当面对一个待推断的用户序列x时,首先对目标模型查询得到原始输出,之后将扰动之后的用户序列再次输入到目标模型,进行特征提取,计算差异特征向量,最终输入到训练好的攻击模型进行成员关系的推理。
与现有技术相比,本发明能够达成以下有益技术效果:
1)本发明扩展了之前已有的针对推荐系统进行攻击场景假设,使得针对推荐系统的成员推理攻击可以在更广泛的场景下保证用户的数据隐私;
2)本发明设计了一个针对推荐模型输入的扰动过程,然后提出了一种计算扰动后推荐系统输出变化的方法,并以此作为特征,最后利用二元分类器来进行成员与非成员的划分,填补了更严格场景下进行成员推断攻击的空白;
3)本发明还进行了度量序列的多种指标的联合学习,显著提高了攻击推断效果。
附图说明
图1为本发明的一种针对序列推荐系统成员推断攻击推理系统的模块图;
图2为本发明的一种针对序列推荐系统成员推断攻击推理方法整体流程图;
图3为本发明具体实施例过程示意图;
图4为扰动长度超参数对攻击效果影响统计图。
具体实施方式
下面将结合附图,对本发明技术方案进行详细地描述。
本发明所涉及的推荐系统中还包含了基于内容的新闻推荐算法。对于成员推断攻击来说,这是一个全新的领域,即使有工作已经对商品推荐系统进行了研究,但新闻推荐有很强的文本属性,之前基于矩阵分解提取特征的方式不再适用。因此需要找到适当的且能够融合进成员推断攻击框架的文本特征提取方法。
为了使成员推断攻击更广泛的应用于不同推荐场景,本发明假设非成员数据也被目标推荐系统所服务。除了这个区别,本发明关注的是与以前的研究相同的攻击模型,其目的是推断用户的行为记录是否被用来训练目标推荐系统,并设定攻击者对目标系统只能进行黑盒的访问。
为了保持成员推断攻击的实际使用,本发明为攻击者选取了一种黑盒攻击,用影子模型来模仿目标模型,用一个二元分类模型作为攻击模型。
如图1所示,为本发明的一种针对序列推荐系统成员推断攻击推理系统的模块图。该系统包括标签数据生成模块100、差异特征构造模块200以及攻击模型训练模块300。其中,所述标签数据生成模块100用于对攻击者获取的一份影子数据集中的成员影子数据集
Figure BDA0003897650600000061
和非成员影子数据集
Figure BDA0003897650600000062
设定标签,生成标签数据;所述差异特征构造模块200用于从成员影子数据集
Figure BDA0003897650600000071
和非成员影子数据集
Figure BDA0003897650600000072
中提取特征,计算特征差异向量,利用特征向量进行成员和非成员的区分;所述攻击模型训练模块300用于获取到训练好的攻击模型,最终输入到训练好的攻击模型进行成员关系的推理。
本发明的基于鲁棒性的针对序列推荐系统成员推断攻击框架采用Python语言实现,主要步骤包括:步骤1、进行标签数据生成;步骤2、进行成员和非成员的差异特征构造;步骤3、进行攻击模型的训练。
如图2所示,为本发明的一种针对序列推荐系统成员推断攻击推理方法整体流程图,该流程具体包括以下步骤:
步骤1、生成标签数据:首先攻击者获取一份影子数据集记作Ds,对数据集进行用于训练的正、负样本划分,其中训练过的样本为正样本,未训练过的样本为负样本;将正样本作为成员影子数据集
Figure BDA0003897650600000073
将负样本作为非成员影子数据集
Figure BDA0003897650600000074
为成员影子数据集
Figure BDA0003897650600000075
和非成员影子数据集
Figure BDA0003897650600000076
设定标签,利用成员数据集
Figure BDA0003897650600000077
训练影子推荐系统MS
步骤2、从成员影子数据集
Figure BDA0003897650600000078
和非成员影子数据集
Figure BDA0003897650600000079
中提取特征,计算特征差异:
有关的数学模型描述如下:
攻击者的目标为基于序列的推荐系统,将一个代表用户历史浏览记录的序列,作为当前推荐系统的原始输入,推荐系统M的数学模型的表达式为:
M(x)=r (1)
其中,x是用户历史浏览记录的序列,为当前推荐系统的输入,r是当前推荐系统对推荐集合的排序列表,为当前推荐系统的原始输出;
第i个扰动后的输入xi的表达式为:
xi=pi(x) (2)
其中,pi()是i个扰动对应的扰动算子,i=1,…,N。
攻击者把第i个扰动后的输入xi输入到推荐系统M,得到第i个扰动后的输出排名列表ri,表达式为:
ri=M(xi) (3)
接下来,得到原始输出r和第i个扰动后的输出ri之间的差异特征向量,表达式如下:
di=D(ri,r) (4)
其中,D是三种关于排名质量的测量方法,即合成排名协议(SRA)、Jaro-Winkler相似度(JWS)和归一化折现累积收益(NDCG),
关于攻击者一系列的扰动{p1,…,pN}的差异特征向量d的表达式如下:
d=[d1,...,dN] (5)
因此本发明以移除操作(从模型的输入中移除某些历史浏览记录是一个非常直接的方法,信息减少导致了输出的变化)作为扰动单元为例:首先,作为当前推荐系统的输入的行为序列x1,…,xL被分成N+1份相等的部分;接下来,从头到尾依次去除这些部分,也就是说,第i个扰动算子是将
Figure BDA0003897650600000081
从当前推荐系统的输入中移除,留下的部分作为第i个扰动后的输入xi,表达式如下:
Figure BDA0003897650600000082
其中,L是当前推荐系统的输入的行为序列的长度;
本发明利用三种关于排名质量的测量方法,即合成排名协议(SRA)、Jaro-Winkler相似度(JWS)和归一化折现累积收益(NDCG)。对于每个测量方法,攻击者所得到相应的差异向量分别表示为dSRA、dJWS和dNDCG;将这三个差异向量串联起来,即
d=[dSRA,dJWs,dNDCG]
以区分成员和非成员。攻击者使用所有的差异向量,因为每一个差异向量在排序列表的比较上都有自己的属性。具体来说,SRA对所有的项目都一视同仁,也就是说,排在第一位的差异和排在最后一位的差异有相同的惩罚;而JWS和NDCG则对那些排名高的项目相互接近的排名列表有兴趣。此外,比较JWS和NDCG,JWS对固定数量的高等级项目的考虑是平等的,在实验中被设定为四个;而NDCG对所有地方的处理是不同的;
综上所述,攻击者的目标为基于序列的推荐系统,将一个代表用户历史浏览记录的序列作为输入,对输入序列进行扰动,检查输出的候选集排名列表的变化,对一系列扰动产生的变化进行特征提取,将这些特征作为划分成员记录和非成员记录的依据;这种方法的灵感是,由于成员的行为是由模型学习的,所以输出的排名列表对输入扰动更加鲁棒性,而非成员则不然;
步骤3、建立攻击模型:选择了一个二分类模型作为攻击模型,攻击模型的表达式如下:
h1=ReLU(BN(w1d+b1))
h2=ReLU(BN(w2h1+b2)) (7)
y=w3 h2+b3
其中,d是差异特征向量,w1,w2,w3,b1,b2,b3是训练过程中要被更新的参数,ReLUO是隐藏层的输出激活函数,BNO是批标准化函数,用于对线性变换后的结果进行批标准化处理,h1和h2是经过ReLUO之之后的两个隐藏层的结果,y是攻击模型输出的二维向量,表达式如下:
Figure BDA0003897650600000091
具体的,若a>b,则说明当前记录x为成员否则为非成员。
在训练阶段的损失函数为交叉熵函数,表达式为:
Figure BDA0003897650600000092
其中,yj为攻击模型对第j个记录所输出的二维向量,
Figure BDA0003897650600000093
为第j个记录的真实二维向量,具体来说当此记录为成员时
Figure BDA0003897650600000094
为非成员时
Figure BDA0003897650600000095
最终,获取到训练好的攻击模型,当面对一个待推断的用户序列x时,首先对目标模型查询得到原始输出,之后再将扰动之后的用户序列再次输入到目标模型,进行特征提取,计算差异特征,最终输入到训练好的攻击模型进行成员关系的推理。
本发明选择了两个数据集MIND和Amazon Review。MIND是一个新闻数据集,它是从微软新闻的用户行为日志中收集的。该数据集包含100万用户,他们在2019年10月12日至11月22日的6周内至少有5次新闻点击记录。它包含161,013条新闻和24,155,470条阅读记录。同时,Amazon Review是一个开源数据集,包含亚马逊的产品评论和元数据。现在,它被广泛用作推荐系统领域的基准数据集。本发明选择亚马逊评论数据集中电影和电视这个子数据集进行实验,其中包含1,224,267个用户,212,836个推荐项和1,697,535条评论。
在本发明中选取了4个推荐模型作为攻击的主要目标:
(1)LSTUR:一个模型利用GRU网络来模拟用户的浏览历史序列。重点是解决用户将同时拥有长期偏好和短期兴趣的情况。
(2)GRU4REC:基于用户浏览序列的算法,旨在利用递归神经网络捕捉长期和短期的用户偏好。
(3)CASER:一种基于卷积神经网络的推荐算法,旨在捕捉用户的一般偏好和序列模式。
(4)NEXTITNET:基于扩张卷积和残差网络的推荐算法,旨在捕获序列的模式。它同时考虑了用户/物品的互动和特征。
截止到目前针对推荐系统的成员推断攻击相关较少,有两项研究对推荐系统进行了成员推理攻击的实践,但他们对非成员的设置并不实用,也就是对非成员的推荐是基于推荐项的流行度。为了在相同的条件下对方法进行比较,本发明将他们的方法应用在与基于扰动的攻击方法相同的实际环境下,即非成员也被推荐系统所服务。
在本实验中由于最终的攻击模型为二分类模型,因此沿用了在分类模型中常用的评价指标AUC值、精准率(Precison)、召回率(Recall)、F1分数。以此来衡量攻击模型的攻击效果。在本发明中,为了保证攻击的实际使用,遵循普遍公认的评价指标,在所有实验中都展示出了攻击的误报率或其等效指标AUC。
如表1所示,为以4个推荐模型作为攻击的主要目标时本发明与基线方法的性能指标比较结果。根据表1观察到本发明所提出的基于鲁棒性的成员推断攻击方法优于基线方法。这一结果说明,在更加实际的场景下,通过扰动变化构建的特征向量比前人由用户历史记录和推荐结果计算出的中心向量差更具区分性。在非成员用户以物品流行度作为推荐的逻辑的基本场景下,由于成员的推荐结果是基于推荐系统的,而非会员是基于流行度的,所以差异很容易区分。然而,当在新的更具挑战性的条件下计算成员用户和非成员用户的差异时,基线攻击的性能AUC值下降到仅高于50%的水平,这表明其已经不能作为一个有效的攻击方法了。
表1
Figure BDA0003897650600000111
如图4所示,图4为扰动长度超参数对攻击效果影响统计图。该统计结果表明,当增加扰动大小时,模型的攻击性能增加。这是因为更大的扰动尺寸表明作为攻击模型输入的特征尺寸更大,从而带来更多的信息来估计成员。
根据表2至表5发现所有类型的扰动总体上都有效,这也说明了攻击的有效性。比较这四种扰动过程,失序法的性能不如去除法的好。这表明,输入的更多变化带来了更好的结果。在去除方法的范围内,随机方法的效果比那些有顺序的去除方法差一点。其原因是在实验中使用的推荐方法同时考虑了用户的长期和短期利益。在随机删除中,这些类型的兴趣不会被推荐系统所遗漏。因此,随机删除对推荐系统的扰动没有有序删除的扰动强,从而使代表输出变化的特征信息量较少。
表2
Figure BDA0003897650600000121
表3
Figure BDA0003897650600000122
表4
Figure BDA0003897650600000123
表5
Figure BDA0003897650600000124
Figure BDA0003897650600000131
本发明对将三个差异向量进行了联合学习,作为成员预测的特征向量,每个向量都由一种排名质量度量计算,其中包括SRA、NDCG和JWS。表6至表9说明即使使用其中一种指标进行度量,本发明所提出的框架仍然是有效的。此外,联合学习总能达到或接近最佳性能。
表6
Figure BDA0003897650600000132
表7
Figure BDA0003897650600000133
表8
Figure BDA0003897650600000134
Figure BDA0003897650600000141
表9
Figure BDA0003897650600000142

Claims (4)

1.一种针对序列推荐系统成员推断攻击推理系统,其特征在于,该系统包括依序连接的标签数据生成模块、差异特征构造模块以及攻击模型训练模块;
其中,所述标签数据生成模块用于对攻击者获取的一份影子数据集中的成员影子数据集
Figure FDA0003897650590000011
和非成员影子数据集
Figure FDA0003897650590000012
设定标签,生成标签数据;所述差异特征构造模块用于从成员影子数据集
Figure FDA0003897650590000013
和非成员影子数据集
Figure FDA0003897650590000014
中提取特征,计算特征差异向量,利用特征向量进行成员和非成员的区分;所述攻击模型训练模块用于获取到训练好的攻击模型,最终输入到训练好的攻击模型进行成员关系的推理。
2.一种针对序列推荐系统成员推断攻击推理方法,其特征在于,该方法具体包括以下
步骤1、生成标签数据:首先攻击者获取一份影子数据集记作Ds,对数据集进行用于训练的正、负样本划分,其中训练过的样本为正样本,未训练过的样本为负样本;将正样本作为成员影子数据集
Figure FDA0003897650590000015
将负样本作为非成员影子数据集
Figure FDA0003897650590000016
为成员影子数据集
Figure FDA0003897650590000017
和非成员影子数据集
Figure FDA0003897650590000018
设定标签,利用成员影子数据集
Figure FDA0003897650590000019
训练影子推荐系统MS
步骤2、从成员影子数据集
Figure FDA00038976505900000110
和非成员影子数据集
Figure FDA00038976505900000111
中提取特征,计算特征差异向量:
首先,建立相关数学模型,如下:
攻击者的目标为基于序列的推荐系统,将一个代表用户历史浏览记录的序列,作为当前推荐系统的原始输入,推荐系统M的数学模型的表达式为:
M(x)=r
其中,x是用户历史浏览记录的序列,为当前推荐系统的输入,r是当前推荐系统对推荐集合的排序列表,为当前推荐系统的原始输出;
第i个扰动后的输入xi的表达式为:
xi=pi(x)
其中,pi()是i个扰动对应的扰动算子;
攻击者把第i个扰动后的输入xi输入到推荐系统M,得到第i个扰动后的输出排名列表ri,表达式为:
ri=M(xi)
接下来,得到原始输出r和第i个扰动后的输出ri之间的差异特征向量,表达式如下:
di=D(ri,r)
其中,D是三种关于排名质量的测量方法,即合成排名协议SRA、Jaro-Winkler相似度JWS和归一化折现累积收益NDCG;
关于攻击者一系列的扰动{p1,...,pN}的差异特征向量d的表达式如下:
d[d1,...,dN]
当前推荐系统的输入的行为序列x1,...,xL被分成N+1份相等的部分;接下来,从头到尾依次去除这些扰动部分,留下的部分作为第i个扰动后的输入xi
依据合成排名协议SRA、Jaro-Winkler相似度JWS和归一化折现累积收益NDCG这三种关于排名质量的测量方法,攻击者所得到相应的差异向量分别表示为dSRA、dJWS和dNDCG,将这三个差异向量串联起来,以区分成员和非成员;
步骤3、建立攻击模型,表达式如下:
h1=ReLU(BN(w1d+b1))
h2=ReLU(BN(w2h1+b2))
y=w3h2+b3
其中,d是差异特征向量,w1,w2,w3,b1,b2,b3是训练过程中要被更新的参数,ReLU()是隐藏层的输出激活函数,BN()是批标准化函数,用于对线性变换后的结果进行批标准化处理,h1和h2是经过ReLU()之后的两个隐藏层的结果,y是攻击输出的二维向量;
最终,获取到训练好的攻击模型,当面对一个待推断的用户序列x时,首先对目标模型查询得到原始输出,之后将扰动之后的用户序列再次输入到目标模型,进行特征提取,计算差异特征向量,最终输入到训练好的攻击模型进行成员关系的推理。
3.如权利要求2所述的一种针对序列推荐系统成员推断攻击推理方法,其特征在于,利用三种关于排名质量的测量方法,即合成排名协议SRA、Jaro-Winkler相似度JWS和归一化折现累积收益NDCG,对于每个测量方法,攻击者所得到相应的差异向量分别表示为dSRA、dJWS和dNDCG;每一个差异向量dSRA、dJWS和dNDCG在排序列表的比较上都有自己的属性,dSRA对所有的项目的差异有相同的惩罚;而dJWS和dNDCG则对那些排名高的项目相互接近的排名列表有兴趣。
4.如权利要求2所述的一种基于鲁棒性的针对序列推荐系统成员攻击推断方法,其特征在于,当前记录x是成员或非成员的二维向量y,表达式如下:
Figure FDA0003897650590000031
具体的,若a>b,则说明当前记录为成员否则为非成员;
在训练阶段的损失函数为交叉熵函数,表达式为:
Figure FDA0003897650590000032
其中,yj为攻击模型对第j个记录所输出的二维向量,
Figure FDA0003897650590000033
为第j个记录的真实二维向量,具体来说当此记录为成员时
Figure FDA0003897650590000034
为非成员时
Figure FDA0003897650590000035
CN202211278586.9A 2022-10-19 2022-10-19 针对序列推荐系统成员推断攻击推理系统及方法 Pending CN115600677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211278586.9A CN115600677A (zh) 2022-10-19 2022-10-19 针对序列推荐系统成员推断攻击推理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211278586.9A CN115600677A (zh) 2022-10-19 2022-10-19 针对序列推荐系统成员推断攻击推理系统及方法

Publications (1)

Publication Number Publication Date
CN115600677A true CN115600677A (zh) 2023-01-13

Family

ID=84848457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211278586.9A Pending CN115600677A (zh) 2022-10-19 2022-10-19 针对序列推荐系统成员推断攻击推理系统及方法

Country Status (1)

Country Link
CN (1) CN115600677A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186693A (zh) * 2023-04-27 2023-05-30 中国科学技术大学 针对推荐系统的用户隐私保护方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186693A (zh) * 2023-04-27 2023-05-30 中国科学技术大学 针对推荐系统的用户隐私保护方法、系统、设备及介质
CN116186693B (zh) * 2023-04-27 2023-08-29 中国科学技术大学 针对推荐系统的用户隐私保护方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Zhou et al. Atrank: An attention-based user behavior modeling framework for recommendation
CN111460130B (zh) 信息推荐方法、装置、设备和可读存储介质
Wang et al. Learning hierarchical representation model for nextbasket recommendation
Wu et al. Improving performance of tensor-based context-aware recommenders using bias tensor factorization with context feature auto-encoding
Li et al. A review-driven neural model for sequential recommendation
Christakopoulou et al. Hoslim: Higher-order sparse linear method for top-n recommender systems
CN111310063A (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
Nguyen et al. Npe: neural personalized embedding for collaborative filtering
CN108805598A (zh) 相似度信息确定方法、服务器及计算机可读存储介质
Freno Practical lessons from developing a large-scale recommender system at Zalando
Ding et al. Personalized fashion outfit generation with user coordination preference learning
Razghandi et al. A context-aware and user behavior-based recommender system with regarding social network analysis
Chen et al. Query-free clothing retrieval via implicit relevance feedback
Singh et al. One embedding to do them all
CN115600677A (zh) 针对序列推荐系统成员推断攻击推理系统及方法
Kumar et al. Friend Recommendation using graph mining on social media
CN117474631A (zh) 基于电商平台评论的数据挖掘与情感分析的推荐算法
Yin et al. Rsygan: Generative adversarial network for recommender systems
Fang et al. An interactive system for mental face retrieval
Qiu A predictive model for customer purchase behavior in e-commerce context
CN114610913A (zh) 多媒体数据的推荐方法、推荐模型训练方法及相关设备
CN114022233A (zh) 一种新型的商品推荐方法
Barbieri et al. Simulating real profiles for shilling attacks: A generative approach
Hoiriyah et al. Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs
Paiva et al. A personality-based recommender system for semantic searches in vehicles sales portals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination