CN113609394B

CN113609394B - 面向信息流的安全推荐系统

Info

Publication number: CN113609394B
Application number: CN202110909752.XA
Authority: CN
Inventors: 夏子超; 潘鑫龙; 王屿轩; 饶茜霖; 王士林; 孟魁
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-09-05
Anticipated expiration: 2041-08-09
Also published as: CN113609394A

Abstract

本发明提供了一种面向信息流的安全推荐系统，包括安全推荐模型，所述安全推荐模型包括对抗子系统、召回子系统、精排序子系统以及深度恶意检测器；所述对抗子系统模拟攻击、测试模型的防御效果；所述召回子系统基于流行度特征区分正常用户和恶意用户，生成推荐项目；所述精排序子系统通过对抗训练提高鲁棒性，推荐得分高的推荐项目；所述深度恶意检测器通过提取数据高位特征，识别恶意样本。本发明提高了对于信息流推荐系统中恶意用户样本的检测能力，减小了模型受到投毒攻击的可能；设计了高鲁棒性的精推荐模型，保证模型的公平无偏性，保护了推荐系统不会被攻击者利用。

Description

面向信息流的安全推荐系统

技术领域

本发明涉及推荐系统设计的技术领域，具体地，涉及面向信息流的安全推荐系统。

背景技术

随着信息时代的到来，用户面对海量的数据，难以准确的获得自己想要的那一部分信息。针对此问题，各大网络提供商设计或使用了不同种类的推荐系统。推荐系统被誉为人工智能应用的一个成功典范，在社会生活中帮助人们解决信息过载问题，在大量信息中发现并推送给用户感兴趣的、或用户需求的信息。随着推荐系统的发展，它逐渐成为一门独立的学科在学术研究和业界应用中都取得了很多成果。

信息流推荐是消费互联网背景下形成的一种成熟的业务模式。信息流被定义为运营方编辑精选后给用户浏览的内容流，如文章或新闻列表或产品列表、服务列表等。随着信息与消费的增长，各类服务的项目数目极大增加，无论是电商应用，还是自媒体平台，新闻类应用，音乐视频软件都可以采用信息流推荐系统。

信息流推荐有着巨大的经济价值。推广项目所代表的产品或内容更容易被用户了解和接收，可以在短时间内产生巨大的导向力。同时推荐经常与广告相结合，最终推荐顺序是推荐评价加权广告价格后生成的，因此推荐算法很大程度上决定了平台的收入。

信息流推荐还有巨大的社会价值。近年来社交媒体、新闻资讯类应用也采用信息流推荐框架，而这类产品或服务往往影响着舆论场，能够触动人群神经末梢。

信息流推荐同时面临诸多安全威胁。首先是传统的托攻击，恶意用户会通过向推荐系统中注入大量虚假的用户概貌，以达到影响推荐系统真实性的目的，使得推荐系统产生的推荐符合他们的利益。其次，随着人工智能的发展，产生了一些新型的AI赋能的攻击，例如对抗样本攻击。这类伪造数据更加有针对性和伪装性，这些恶意用户行为样本注入训练池之后会破坏正常样本的纯净性，无偏性，从而严重破坏训练完整性，最终的得到有利于攻击者的推荐模型。

在公告号为CN106777229B的专利文献中公开了一种个性化推荐实时性测试方法，包括：选取应用信息显示列表中的多条内容信息，对所述内容信息进行操作，并向应用服务器发送多条内容信息的特征，记录多条内容信息操作完成时的第一时间点；向应用服务器发送信息更新请求，记录信息更新请求发送时的第二时间点，信息更新请求用于指示应用服务器根据多条内容信息向用户终端推荐信息流；接收应用服务器发送的信息流；确定信息流中与多条内容信息匹配的推荐内容所占信息流的数量比例；当数量比例大于预设阈值时，根据第一时间点和第二时间点，确定信息个性化推荐的实时性。

正因为信息流推荐的巨大价值和面临威胁，本领域的技术人员致力于在提升推荐系统性能的同时，增加推荐系统的安全性。一方面增加推荐系统对于恶意样本的鲁棒性，另一方面提高提高对恶意样本的检测能力。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向信息流的安全推荐系统。

根据本发明提供的一种面向信息流的安全推荐系统，包括安全推荐模型，所述安全推荐模型包括对抗子系统、召回子系统、精排序子系统以及深度恶意检测器；

所述对抗子系统模拟攻击、测试模型的防御效果；

所述召回子系统基于流行度特征区分正常用户和恶意用户，生成推荐项目；

所述精排序子系统通过对抗训练提高鲁棒性，推荐得分高的推荐项目；

所述深度恶意检测器通过提取数据高位特征，识别恶意样本。

优选地，所述对抗子系统包括从目标推荐系统爬取部分交互数据、代理推荐模型以及虚假用户样本；

所述的对抗子系统的代理推荐模型由攻击者采用矩阵分解方法本地搭建，并导入爬取的目标推荐系统交互数据和虚假用户数据，对虚假用户样本攻击效果进行评估和调整。

优选地，所述虚假用户样本由托攻击方法和对抗样本攻击方法生成；

所述托攻击方法包括随机攻击、流行攻击和混合攻击。

优选地，所述对抗样本攻击以随机选择的正常用户样本为对抗样本的原型，根据攻击目的确定损失函数，使用随机梯度下降SGD在本地代理推荐模型训练对抗样本；

所述召回子系统包括流行度检测器模块和粗推荐模块。

优选地，所述流行度检测器模块采用Degree SAD算法；

所述Degree SAD算法计算用户所选物品及的流行度统计信息MUD、RUD、QUD，其中MUD表示用户流行度均值、RUD表示用户流行度极差、QUD表示用户流行度上分位值，根据特征，使用决策树模型进行分类训练，区分正常用户和恶意用户。

优选地，所述粗推荐模块采用基于图的personal rank协同算法；

所述personal rank协同算法基于用户的相似性，通过衡量待推荐用户和某一用户的相似性，决定是否向该用户推荐商品；通过随机游走，为每个用户生成推荐项目。

优选地，所述精排序子系统采用A模型和B模型双模型进行训练。

所述A模型包括用户实时数据转换模块、用户兴趣提取与捕捉模块、兴趣迁移学习模块以及基于用户监督训练模块，所述B模型与A模型结构相同，共享数据转换模块，所述B模型训练过程中主要用于反向传播梯度构造对于实时数据转换模块构造特异性噪声。

优选地，所述用户实时数据转换模块将用户本地上报的数据根据时间戳进行切分，根据用户-项目交互数据，分别提取对应的项目特征、用户特征和项目类别特征，并通过embedding层，转化为：

点击历史嵌入click_item_his_eb，表示用户上述切分的时间段内的点击序列在embedding层的表示，具体表示为[e_item1,e_item2,…,e_itemn]；

其中e_item1表示上述时间段内第一个点击项目在embedding层的表示向量，e_itemn表示第n个点击项目在embedding层的表示向量；

[e_item1,e_item2,…,e_itemn]是第一个点击项目、第二个点击项目到第n个项目的表示向量的连接；

输入模型的交互数据还包括构造的负例样本中未曾点击的项目noclick_item_his_eb，这段时间内用户未曾点击的项目列表的特征嵌入；

[e_itemlist1,e_itemlist2,…,e_itemlistn]e_itemlist1表示上述时间段内用户第一次点击发生时未曾点击的项目列表的表示向量，e_itemlist2表示第二次点击发生时未曾点击的项目列表的表示向量；

[e_itemlist1,e_itemlist2,…,e_itemlistn]表示用户第一次未点击项目列表的表示向量到第n次点击时未点击项目列表的表示向量的连接；

所述用户兴趣提取和捕捉模块采用了GRU模型将用户前后时刻的不同行为联系起来，通过GRU模型参数的更新学习历史时刻对于下一时刻点击商品的影响。

优选地，所述兴趣迁移学习模块引入接收当前目标项目的特征与历史时刻的隐藏特征的attention层捕捉用户兴趣的演化；

所述基于用户监督训练模块将兴趣迁移学习模块得到的用户兴趣和用户特征，目标项目特征输入到全连接层，对用户的点击概率进行预测。

优选地，所述B模型总输入进入系统的全量数据，与A模型共享embedding，B模型部分输入的小批数据是A模型每批数量的数倍，且与A独立；并使用基于embedding层的扰动训练提高系统鲁棒性；

所述深度恶意检测器将在初始纯净数据训练得到的模型文件保存为断点，并作为固定值输入系统中；

所述深度恶意检测器在用户点击序列输入后，固定除过user embedding以外的模型参数，再最小化损失函数，得到用户embedding对于点击序列的一个特征表示；

所述深度恶意检测器使用18维特征向量训练分类器对用户进行分类。。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提高了对于信息流推荐系统中恶意用户样本的检测能力，减小了模型受到投毒攻击的可能；

2、本发明设计了高鲁棒性的精推荐模型，保证模型的公平无偏性，保护了推荐系统不会被攻击者利用；

3、本发明提供了多个标准接口方便构建或迁移到安全推荐系统：本发明的软件部分由django，vue，Graphpipe搭建的客户服务端构成，相比于目前市场中所存在的信息流推荐框架该项目提供了四个通用接口方便从不同场景的数据集上生成子系统训练数据，三个安全模块修改参数后可以迁移到多种业务流。对抗子系统预留接口上传新的攻击方法，帮助系统动态增强安全能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明系统整体架构图；

图2为本发明对抗子系统用来生成虚假用户的配置信息解释图；

图3为本发明对抗子系统生成攻击样本的模型结构图；

图4为本发明对抗目标函数循环计算示意图；

图5为本发明召回子系统模型架构图；

图6为本发明排序子系统结构图；

图7为本发明双损失函数模块图；

图8为本发明基于精排序的深度恶意检测器模型架构图；

图9为本发明系统交互示意图；

图10为本发明对抗测试页面图；

图11为本发明模型训练页面图；

图12为生产监控页面图

图13为客户端推荐页面示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1所示，本发明提供一种面向信息流的安全推荐系统，包括：对抗子系统：如图2是用来生成对抗样本的模型示意图，对抗子系统用于模拟攻击、测试模型的防御效果。对抗子系统中实现了托攻击和对抗样本攻击。其中托攻击采用了三种方法：随机攻击，流行攻击和混合攻击。对抗样本攻击则使用部分目标推荐系统数据在本地代理推荐系统上训练，生成对抗样本注入到目标推荐系统中。

如图2，攻击参数包括：攻击规模attackSize(虚假用户数量占整个收集到的用户数量的比例)，填充规模fillerSize(填充项目占所有项目数量的比例)，选择项目规模selectedSize(选择项目占所有项目数量的比例)。

算法实现：如图3为计算对抗目标函数的一个循环的计算图，其中θ⁽⁰⁾到θ^(L)(上角标表示训练迭代的次数，0表示未迭代，1表示迭代第一次，L表示迭代第L次)计算过程为代理推荐系统的训练过程，黑色箭头代表前向计算过程，红色虚线箭头代表从对抗函数到虚假数据/>的梯度反向传播过程。

召回子系统：如图4和图5所示，用户数据在训练召回子系统之需要经过检测器初筛，流行度检测器具体采用Degree SAD算法处理后可以计算用户所选物品及的流行度统计信息MUD、RUD、QUD。其中MUD表示用户流行度均值、RUD表示用户流行度极差、QUD表示用户流行度上分位值。最后根据特征进行机器学习，进行分类训练，可以区分正常用户和恶意用户。本模块的机器学习模型采用决策树模型。

推荐模块采用personal rank算法是一种基于图的模型，属于协同算法的一种。personal rank算法是基于用户的相似性，通过衡量待推荐用户和某一用户的相似性，决定是否向该用户推荐商品。通过随机游走，为每个用户生成100个推荐项目，生成一个候选集，用于后续排序。

精排序子系统如图6所示，排序子系统是本推荐系统的最为重要的组件。

本发明设计AB双模型训练流程，B模块的主要作用是构造对抗性的噪声。B部分总输入同样是进入系统的全量数据，并且与A共享embedding，但是B部分每次输入的小批数据是A每批数量的数倍，且与A独立。这是因为B部分取值越接近总数据规模，构造的噪声具有更大的代表性和效果。

首先B模块的输入数据经过embedding之后生成对应特征，同样通过兴趣提取层，兴趣演化层，与用户特征以及目标特征一起拼接经过线性层训练，也计算附加任务损失函数L_aux,B与预测任务损失函数L_target,B,两部分的总和进行反向传播，计算对于embedding表示的梯度值，只要保证用户embedding，项目embedding以及项目所在类别embedding沿着梯度的方向上升就可以得到对于embedding的最坏扰动。构造这个扰动就是为了让系统可以接受一定偏差，但是模型中也必须控制扰动的大小，否则会由于整体高维空间位置的混乱导致无法正常推荐，在这里参数选择了0.01，也就是将扰动大小控制在0.01的范围内，然后将构造值加到embedding层。

此时已经对于embedding构造了扰动，A模型与之前不同可记为A’在此基础上重新进性2次前向传播第二次过程中得到辅助损失函数，记为L_aux,A′，在全连接层得到主损失函数，记为L_target,A′，两项加和得到第二次总的损失函数L_adv,如下方公式，L_adv与第一次前向传播得到的损失函数L₁相加得到总的损失函数L_total，优化L_total是为了控制整个模型在参数有扰动的情况下依然可以做出正确预测。

L_adv＝L_aux,A′+L_target,A′

L_total＝L₁+L_adv

接下来通过反向传播L_total对嵌入层的梯度来最小化损失函数，完成一个迭代，这个过程持续多轮，直到损失函数值不再减小，通过以上流程这样就完成了鲁棒性模型的训练。

深度恶意检测器如图8所示，该检测器的输入是高维特征，这些特征是基于对抗性隐空间上的向量学习提取到的。

首先，通过AB双模型的对抗训练过程已经得到能够表示用户对商品兴趣的语义知识，三个embedding是对抗训练后隐空间的特征表示。考虑到每一条用户点击序列其实是一个用户的兴趣点画像，正常的用户兴趣点画像与刻意构造与模仿的用户兴趣点画像必然有一些统计上的区别或联系，于是本项目采用了以下流程得到用户数据的特征。

参照图7，图中Output为A模型第一次前向传播输出的预测值，Output1’为A模型第二次前向传播输出的预测值，Min()表示将括号中的变量向最小方向改变；进一步地，在初始纯净数据训练得到的模型文件保存为断点，这个断点将会被单独输入系统中，此时模型对于用户的兴趣已经形成了知识表示，将一段用户的点击序列输入，此时固定除过userembedding以外的模型参数，再最小化损失函数，在此过程中，用户embedding层将会向着结果的方向去变化，最终得到的效果就是该用户embedding是对于该点击序列的一个特征表示。

进一步地，分析了数据特征，特征提取的结果证明本方法所提取的用户特征在流形结构上是有差异的，不同策略生成的样本与的用户样本的类间距离是有很大差异的：于是下面训练支持向量机来得到异常检测器。

进一步地，使用抽取得到的18位特征向量训练分类器，旨在降低对于用户特征表示的信息损失，直接用所得的用户特征表示做多分类就可以分别正常的用户点击行为与恶意构造的用户点击行为，到达异常检测的目的，同时也可以分类出异常的类型。

进一步地，训练好的异常检测器部署在排序子系统的上游，当系统需要训练增量数据更新模型时，先把所有增量数据输入异常检测器，得到系统可以信任的数据。这些数据将帮助建立新能可靠的安全排序模型。

如图11所示，在模型训练阶段，首先导入用户数据，训练产生召回使用的推荐模型和排序使用的精推荐模型，部署后就可为用户推荐浏览信息。之后系统不断记录用户新的点击数据，作为增量数据装入到缓冲池中。每隔一段时间进行模型升级，这时系统取出增量数据，首先用流行度检测器检测，筛选出其中可疑的托攻击样本。经过初步筛选后的增量数据对召回算法进行升级，生成新的召回粗推荐模型。同时深度恶意检测器对增量数据做更加深入的筛选，通过深度神经网络的特定训练得到用户特征向量，并将特征送给判别器识别恶意用户，从而过滤深度伪造的样本数据。剩余的数据集再经过长度筛选可作为排序子系统的训练数据，原有的CTR模型使用新的数据再训练，就可以使得模型对用户兴趣的迁移有很好的掌握。

参照图12和图13，在生产阶段，系统提供业务逻辑层，通过训练好模型进行排序和推荐，提给用户提供推荐详情页面，用户可以浏览喜欢的各类商品或者信息，用户每次滚动进度条到底部时网页客户端会发出请求。后端接收到用户请求之后，将用户实时的点击记录传递给召回子系统并使用随机游走模型快速为用户生成一百个候选产品；进入排序阶段，排序子系统则对这一百个推荐产品进行精排序，生成最终的用户推荐列表。生成的推荐列表最后通过网页端呈现给该用户。

本发明面向CTR模型设计了AB双模型训练法并取得高鲁棒性增益：本发明对基于点击率预测模型进行了改进，在其中引入了对抗性训练的思想，在排序子系统的训练时使用了AB双模型。在保证模型的推荐的准确率下，极大的提升了模型对于对抗样本等恶意样本攻击的鲁棒性。

本发明通过新的特征提取方式设计高可靠的深度检测器：新的特征提取方式主要是基于对抗隐空间上的学习过程，将用户提交的样本输入初始训练后的鲁棒性排序模型，冻结用户embedding以外的参数，通过优化损失函数得到用户的特征表达。通过多种降维算法分析这些特征，发现正常样本与深度伪造样本的流行结构特征存在差异，并以此训练了恶意样本检出率到达97％以上的深度伪造样本检测器。

本发明提出并实现基于主动防御策略的推荐框架，在传统的信息流推荐框架中，加入了主被动防御策略来保证推荐系统模型的安全训练，保证对用户提供准确无偏的信息推荐。

被动防御策略基于本项目设计的AB双模型训练算法，在排序模型重训练时使用AB双模型训练算法来训练，得到的模型可以保证准确性不降低的情况下鲁棒性大大增强，增加被动策略后，系统整体的推荐性能得到保证，目标用户被攻击成功的比率下降。评分偏移的情况有一定好转。

参照图9和图10，主动防御策略包含两部分，在召回子系统上部署流行度检测器，快速初筛恶意样本，将攻击能力较低的托攻击样本区分出来。第二部分为深度恶意检测器，基于自主提取的用户特征训练多个不同机器学习模型的检测器，从中挑选性能最好的检测器作为深度检测器，本项目证明该检测器可以有效检测各类恶意样本，在测试集不平衡的情况下，可以达到97％以上的召回率。通过两次主动检测可以基本将恶意样本筛选出来。并结合被动防御，可以保证推荐系统的训练完整性和推荐性能。

本发明提供了多个标准接口方便构建或迁移到安全推荐系统：本发明的软件部分由django，vue，Graphpipe搭建的客户服务端构成，相比于目前市场中所存在的信息流推荐框架该项目提供了四个通用接口方便从不同场景的数据集上生成子系统训练数据，三个安全模块修改参数后可以迁移到多种业务流。对抗系统预留接口上传新的攻击方法，帮助系统动态增强安全能力。管理员可以监控训练全流程，和生产流程。

本发明提高了对于信息流推荐系统中恶意用户样本的检测能力，减小了模型受到投毒攻击的可能；设计了高鲁棒性的精推荐模型，保证模型的公平无偏性，保护了推荐系统不会被攻击者利用；提供了多个标准接口方便构建或迁移到安全推荐系统：本发明的软件部分由django，vue，Graphpipe搭建的客户服务端构成，相比于目前市场中所存在的信息流推荐框架该项目提供了四个通用接口方便从不同场景的数据集上生成子系统训练数据，三个安全模块修改参数后可以迁移到多种业务流。对抗子系统预留接口上传新的攻击方法，帮助系统动态增强安全能力。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向信息流的安全推荐系统，其特征在于，包括安全推荐模型，所述安全推荐模型包括对抗子系统、召回子系统、精排序子系统以及深度恶意检测器；

所述对抗子系统模拟攻击、测试模型的防御效果；

所述深度恶意检测器通过提取数据高位特征，识别恶意样本；

所述精排序子系统采用A模型和B模型双模型进行训练；

所述A模型包括用户实时数据转换模块、用户兴趣提取与捕捉模块、兴趣迁移学习模块以及基于用户监督训练模块，所述B模型与A模型结构相同，共享数据转换模块，所述B模型训练过程中主要用于反向传播梯度构造对于实时数据转换模块构造特异性噪声；

所述用户实时数据转换模块将用户本地上报的数据根据时间戳进行切分，根据用户一项目交互数据，分别提取对应的项目特征、用户特征和项目类别特征，并通过embedding层，转化为：

点击历史嵌入click_item_his_eb，表示用户上述切分的时间段内的点击序列在embedding层的表示，具体表示为[e_item1，e_item2，...，e_itemn]；

[e_item1，e_item2，...，e_itemn]是第一个点击项目、第二个点击项目到第n个项目的表示向量的连接；

[e_{item list1}，e_{item list2}，...，e_{item listn}]e_{item list1}表示上述时间段内用户第一次点击发生时未曾点击的项目列表的表示向量，e_{item list2}表示第二次点击发生时未曾点击的项目列表的表示向量；

[e_{item list1}，e_{item list2}，...，e_{item listn}]表示用户第一次未点击项目列表的表示向量到第n次点击时未点击项目列表的表示向量的连接；

所述用户兴趣提取和捕捉模块采用了GRU模型将用户前后时刻的不同行为联系起来，通过GRU模型参数的更新学习历史时刻对于下一时刻点击商品的影响；

所述兴趣迁移学习模块引入接收当前目标项目的特征与历史时刻的隐藏特征的attention层捕捉用户兴趣的演化；

所述基于用户监督训练模块将兴趣迁移学习模块得到的用户兴趣和用户特征，目标项目特征输入到全连接层，对用户的点击概率进行预测；

所述B模型总输入进入系统的全量数据，与A模型共享embedding，B模型部分每次输入的小批数据是A模型每批数量的数倍，且与A独立；并使用基于embedding层的扰动训练提高系统鲁棒性；

所述深度恶意检测器将在初始纯净数据训练得到的模型文件保存为断点，并作为固定值输入系统中；所述初始纯净数据为真实数据；

所述深度恶意检测器使用18维特征向量训练分类器对用户进行分类；

B模块的输入数据经过embedding之后生成对应特征，通过兴趣提取层和兴趣演化层，与用户特征以及目标特征一起拼接经过线性层训练，计算附加任务损失函数L_aux，B与预测任务损失函数L_target，B，两部分的总和进行反向传播，计算对于embedding表示的梯度值；

A模型与之前不同可记为A’在此基础上重新进性2次前向传播第二次过程中得到辅助损失函数，记为L_aux，A′，在全连接层得到主损失函数，记为L_{target，A′}，两项加和得到第二次总的损失函数L_adv，如下方公式，L_adv与第一次前向传播得到的损失函数L₁相加得到总的损失函数L_total：

L_adv＝L_aux，A′+L_{target，A′}

L_total＝L₁+L_adv

通过反向传播L_total对嵌入层的梯度来最小化损失函数，完成一个迭代，这个过程持续多轮，直到损失函数值不再减小，完成鲁棒性模型的训练。

2.根据权利要求1所述的面向信息流的安全推荐系统，其特征在于，所述对抗子系统包括从目标推荐系统爬取部分交互数据、代理推荐模型以及虚假用户样本；

3.根据权利要求2所述的面向信息流的安全推荐系统，其特征在于，所述虚假用户样本由托攻击方法和对抗样本攻击方法生成；

所述托攻击方法包括随机攻击、流行攻击和混合攻击。

4.根据权利要求3所述的面向信息流的安全推荐系统，其特征在于，所述对抗样本攻击以随机选择的正常用户样本为对抗样本的原型，根据攻击目的确定损失函数，使用随机梯度下降SGD在本地代理推荐模型训练对抗样本；

所述召回子系统包括流行度检测器模块和粗推荐模块。

5.根据权利要求4所述的面向信息流的安全推荐系统，其特征在于，所述流行度检测器模块采用Degree SAD算法；

所述Degree SAD算法计算用户所选物品及流行度的统计信息MUD、RUD、QUD，其中MUD表示用户流行度均值、RUD表示用户流行度极差、QUD表示用户流行度上分位值，根据特征，使用决策树模型进行分类训练，区分正常用户和恶意用户。

6.根据权利要求5所述的面向信息流的安全推荐系统，其特征在于，所述粗推荐模块采用基于图的personal rank协同算法；