CN117194803B - 一种用户隐私增强的序列推荐方法、装置及设备 - Google Patents

一种用户隐私增强的序列推荐方法、装置及设备 Download PDF

Info

Publication number
CN117194803B
CN117194803B CN202311468807.3A CN202311468807A CN117194803B CN 117194803 B CN117194803 B CN 117194803B CN 202311468807 A CN202311468807 A CN 202311468807A CN 117194803 B CN117194803 B CN 117194803B
Authority
CN
China
Prior art keywords
content
sequence
representation
target sequence
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311468807.3A
Other languages
English (en)
Other versions
CN117194803A (zh
Inventor
孙福辉
王晓燕
王伟
李玉军
胡伟凤
赵思文
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Court Information Technology Service Center
Shandong University
Original Assignee
People's Court Information Technology Service Center
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Court Information Technology Service Center, Shandong University filed Critical People's Court Information Technology Service Center
Priority to CN202311468807.3A priority Critical patent/CN117194803B/zh
Publication of CN117194803A publication Critical patent/CN117194803A/zh
Application granted granted Critical
Publication of CN117194803B publication Critical patent/CN117194803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书涉及人工智能技术领域,尤其涉及一种用户隐私增强的序列推荐方法、装置及设备。包括,计算目标序列与每条现有序列的相似度,根据相似度从现有序列中选取多条现有序列作为目标序列的相似序列;计算目标序列与所有相似序列的共享特征表示,并根据共享特征表示确定目标序列中各内容的修改类型;根据修改类型对目标序列中的内容进行修改,得到被修改序列;根据被修改序列计算待推荐用户的推荐内容。通过本说明书实施例,推荐器接收到的内容不再是待推荐用户真实的内容,而是经过修改后的内容序列,因此即便推荐器被攻击,也不会导致真实的内容记录泄露,从而增加了用户内容的安全性,解决了现有技术中推荐模型对用户隐私的保护性差的问题。

Description

一种用户隐私增强的序列推荐方法、装置及设备
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种用户隐私增强的序列推荐方法、装置及设备。
背景技术
互联网资源的指数级增长使得互联网用户面临严重的信息过载问题,目前推荐系统作为解决信息过载问题的有效工具,被广泛应用与网络服务平台。由于用户兴趣特征的动态变化,许多工作致力于建模用户历史记录的演变模式。其中,序列推荐在近年得到了更多研究,因为它能够提取用户行为记录背后丰富的时空信息。序列推荐的本质目标是捕捉内容或服务间的转移关系,从而根据用户在一段时间内的交互记录,为用户推荐下一件内容或服务。
与此同时,随着通用数据保护条例(GDPR) 的提出,互联网推荐服务中的用户交易记录等隐私数据的泄露问题也得到了越来越多的关注。这一问题来源于用户与互联网服务供应商之间的数据传输有被攻击者截获的风险。针对推荐系统中的隐私保护问题,虽近年已有大量相关研究,但这些研究面向于传统的矩阵分解或者协同过滤推荐,针对目前流行的序列推荐系统,仍极少有研究关注用户数据的隐私保护问题。
在司法系统中,由于司法系统的案例库中存在数量众多的案例,用户很难快速找到想要的案例,因此有必要将序列推荐应用在司法系统中。但因为案例的私密性较高,若直接将用户历史的案例记录发送给推荐器,很可能导致用户隐私的泄露。因此目前已有的序列推荐方法不适用于司法系统的案例推荐。
现在亟需一种用户隐私增强的序列推荐方法,从而解决现有的推荐模型对用户隐私的保护性差的问题。
发明内容
为解决现有技术中存在的问题,本说明书实施例提供了涉及一种用户隐私增强的序列推荐方法、装置及设备,提高序列推荐模型对用户隐私的保护性。
为了解决上述技术问题中的任意一种,本说明书的具体技术方案如下:
本说明书实施例提供了一种用户隐私增强的序列推荐方法,包括:
获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列;
计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;
根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
根据所述被修改序列计算所述待推荐用户的推荐内容。
进一步地,计算所述目标序列与所有所述相似序列的共享特征表示进一步包括:
在预先定义的内容嵌入矩阵中确定所述目标序列中每个内容的嵌入向量以及每个相似序列中每个内容的嵌入向量;
根据所述目标序列中每个内容的嵌入向量以及所述内容在所述目标序列中的位置构建所述目标序列的特征表示;
根据所述相似序列中每个内容的嵌入向量以及所述内容在所述相似序列中的位置构建所述相似序列的特征表示;
计算每个所述相似序列的特征表示相对所述目标序列的特征表示的第一注意力得分;
针对每个所述相似序列,计算该相似序列的第一注意力得分与该相似序列的特征表示的乘积;并对所有所述相似序列对应的乘积进行归一化;
计算归一化的结果与所述目标序列的特征表示之和,得到所述共享特征表示。
进一步地,根据所述共享特征表示确定所述目标序列中各内容的修改类型进一步包括:
利用softmax函数对所述共享特征表示中所述目标序列中的每个内容的共享特征向量分别计算每个内容执行多个预定修改类型的第一概率值;
选择所述第一概率值最高的所述预定修改类型作为所述修改类型。
进一步地,所述修改类型包括保留、删除和插入。
进一步地,在所述修改类型为插入时,根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列进一步包括:
将操作类型为插入操作的内容作为修改目标内容,将所述修改目标内容加入到插入序列中;
在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量,并根据每个内容的在所述插入序列中的位置分别构建每个内容的隐藏表示;
对所述插入序列中每个内容的隐藏表示进行堆叠,得到初始特征表示矩阵;
利用单向Transformer更新所述初始特征表示矩阵,取最后一层的隐藏表示作为特征表示;
根据所述特征表示、所述相似序列的特征表示计算和候选池序列中每个内容能够被插入的第二概率值;
根据所述第二概率值从所述候选池序列的内容中确定待插入内容;
将所述待插入内容加入到所述插入序列中;
将所述插入序列插入到所述修改目标内容前,得到所述被修改序列。
进一步地,根据所述特征表示、所述相似序列的特征表示计算和候选池序列中每个内容能够被插入的第二概率值进一步包括:
计算每个所述相似序列的特征表示相对所述特征表示中最后一个位置的表示的第二注意力得分;
对所有所述相似序列对应的第二注意力得分进行归一化,并通过加权求和得到上下文特征向量;
利用公式:
将所述上下文特征向量和所述最后一个位置的表示转换为概率分布,分别得到从所述相似序列中插入内容的概率和从所述候选池序列中插入内容的概率,其中,P(col|S col ,h n )表示从相似序列中选择内容执行插入的概率,P(all|S col ,h n )表示从候选池序列选择内容执行插入的概率,和/>表示转换矩阵,c n 表示所述上下文特征向量,h n 表示特征表示中最后一个位置的表示;
对于所述候选池序列中的一个内容i j ,通过公式:
计算该内容的所述第二概率值,其中,表示候选池序列中内容i j 的所述第二概率值,/>表示所述插入序列,n表示插入序列的最大插入长度;P col (i j )表示来自相似序列的内容i j 被插入的概率,P all (i j )表示来自候选池序列的内容i j 被插入的概率;
其中:
P all (i j ) =softmax(e j h n );
其中,e j 表示候选池序列中内容i j 的嵌入向量,h n 表示所述特征表示中最后一个位置的表示;N 表示内容i j 在相似序列中出现的次数,|I|表示候选池序列中的内容总数。
进一步地,将所述待插入内容加入到所述插入序列中之后,所述方法还包括:
判断所述插入序列的长度是否小于所述最大插入长度;
若是,则判断是否需要继续执行插入操作,若是,重复执行在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量,并根据每个内容的在所述插入序列中的位置分别构建每个内容的隐藏表示的步骤,直至所述插入序列达到所述最大插入长度。
另一方面,本说明书实施例还提供了一种用户隐私增强的序列推荐装置,包括:
内容交互记录获取单元,用于获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
编码器,用于计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列,并将目标序列与相似序列编码成隐藏表示;
修改器,用于计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
推荐器,用于根据所述被修改序列计算所述待推荐用户的推荐内容。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在存储器上的计算机程序,处理器执行所述计算机程序时实现上述的方法。
另一方面,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
利用本说明书实施例,根据待推荐用户的内容交互记录构建目标序列,根据其他用户非隐私敏感的内容交互记录构建现有序列,然后再选择出于目标序列具有高相似度的现有序列作为相似序列,根据相似序列来计算出目标序列中各内容的修改类型,按照修改类型直接对待推荐用户交互的内容本身进行修改,不再依赖真实的内容序列,最后根据被修改序列计算待推荐用户的推荐内容。通过本说明书实施例的方法,推荐器接收到的内容不再是待推荐用户真实的内容,而是经过修改后的内容序列,因此即便推荐器被攻击,也不会导致待推荐用户真实的内容记录泄露,从而增加了用户内容的安全性,解决了现有技术中推荐模型对用户隐私的保护性差的问题。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本说明书实施例一种用户隐私增强的序列推荐方法的实施系统示意图;
图2所示为本说明书实施例一种用户隐私增强的序列推荐方法的流程示意图;
图3所示为本说明书实施例一种用户隐私增强的序列推荐装置的结构示意图;
图4所示为本说明书实施例中计算目标序列与所有相似序列的共享特征表示的流程示意图;
图5所示为本说明书实施例中根据共享特征表示确定目标序列中各内容的修改类型的流程示意图;
图6所示为本说明书实施例中根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列的流程示意图;
图7所示为本说明书实施例计算机设备的结构示意图;
图8所示为本说明书实施例中复制机制的示意图。
【附图标记说明】:
101、用户;
102、修改器;
103、推荐器;
301、内容交互记录获取单元;
302、编码器;
303、修改器;
304、推荐器;
702、计算机设备;
704、处理设备;
706、存储资源;
708、驱动机构;
710、输入/输出模块;
712、输入设备;
714、输出设备;
716、呈现设备;
718、图形用户接口;
720、网络接口;
722、通信链路;
724、通信总线。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
需要说明的是,本说明书的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示为本说明书实施例一种用户隐私增强的序列推荐方法的实施系统示意图,可以包括:修改器102、推荐器103以及用户101所在的终端,用户101所在的终端、修改器以及推荐器三者之间均可通过网络进行通信,网络可以包括局域网(Local Area Network,简称为LAN)、广域网(Wide Area Network,简称为WAN)、因特网或其组合,并连接至网站、用户设备(例如计算设备)和后端系统。在司法系统中,向用户推荐案例时,首先用户101所在的终端将待推荐用户的历史案例浏览记录等打包成序列,并将序列发送给修改器102。修改器102部署在司法系统本地,修改器根据待推荐用户的历史案例浏览记录以及其他用户的历史案例浏览记录对待推荐 用户的历史案例浏览记录进行修改,得到被修改序列,然后修改器102将被修改序列发送给推荐器103,推荐器103部署在远端的服务器上,可选地,推荐器103可以是第三方系统,由第三方系统根据与推荐用户的历史案例浏览记录不同的被修改序列计算出推荐的案例,将推荐的案例返回给用户101。
可选地,修改器102可以是云计算系统的节点(图中未显示),或者单独的云计算系统,包括由网络互连并作为分布式处理系统工作的多台计算机。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用场景,例如智慧司法、数字家庭、商品营销等。本说明书不做限制。
为了解决现有技术中存在的问题,本说明书实施例提供了一种用户隐私增强的序列推荐方法,提高序列推荐模型对用户隐私的保护性。图2所示为本说明书实施例一种用户隐私增强的序列推荐方法的流程示意图。在本图中描述了根据用户的内容交互记录向用户推荐内容的过程,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示,所述方法可以包括:
步骤201:获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
步骤202:计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列;
步骤203:计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;
步骤204:根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
步骤205:根据所述被修改序列计算所述待推荐用户的推荐内容。
利用本说明书实施例,根据待推荐用户的内容交互记录构建目标序列,根据其他用户非隐私敏感的内容交互记录构建现有序列,然后再选择出于目标序列具有高相似度的现有序列作为相似序列,根据相似序列来计算出目标序列中各内容的修改类型,按照修改类型直接对待推荐用户交互的内容本身进行修改,不再依赖真实的内容序列,最后根据被修改序列计算待推荐用户的推荐内容。通过本说明书实施例的方法,推荐器接收到的内容不再是待推荐用户真实的内容,而是经过修改后的内容序列,因此即便推荐器被攻击,也不会导致待推荐用户真实的内容记录泄露,从而增加了用户内容的安全性,解决了现有技术中推荐模型对用户隐私的保护性差的问题。
基于同一发明构思,本说明书实施例还提供了一种用户隐私增强的序列推荐装置,如图3所示,包括:
内容交互记录获取单元301,用于获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
编码器302,用于计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列,并将目标序列与相似序列编码成隐藏表示;
修改器303,用于计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
推荐器304,用于根据所述被修改序列计算所述待推荐用户的推荐内容。
在本说明书实施例中,内容可以是司法系统中的案例,也可以商品营销中的物品等,本说明书实施例不做限制。
在本说明书实施例中,首先编码输入序列。编码器302首先定义全部内容的嵌入矩阵ER |I|×e,用户将每个内容的表示投影到低维稠密向量,其中e表示嵌入向量的维度,|I|表示内容的总数。对于输入序列S中的一个内容i t ,对嵌入矩阵E进行索引得到它的嵌入向量:e t R e R e 表示实数向量,本说明书实施例中所有的R均表示实数矩阵,本说明书实施例中R的上角标表示实数矩阵的行列数。随后,通过添加位置嵌入将位置信息注入到模型(1)中:
其中,p t 代表第t个位置的位置嵌入,代表内容i t 的初始特征向量,将输入序列S中所有内容的初始特征向量堆叠后,就得到了初始特征矩阵/>
接下来计算输入序列S与数据集中其他序列的Jaccard相似度,并选取其中相似度最高的K条作为S的相似序列S col ,同理,对于每一条相似序列S col ,通过公式(1)得到它的初始特征矩阵
本说明书实施例使用L层的双向Transformer更新和/>
其中Trm bi 代表双向Transformer编码模块。和/>代表第l层的特征矩阵,|S|表示输入序列S中内容的数量,|S col |表示相似序列S col 中内容的数量。最后,编码器将最后一层的隐藏表示/>和/>输入到修改器与推荐器。为了简化符号的表示,在接下来的部分中省略了上标/>
然后修改目标序列:
修改器303是本说明书实施例的核心部分,用于对编码后的原始序列进行修改。
首先计算目标序列与所有相似序列的共享特征表示,如图4所示,包括如下步骤:
步骤401:在预先定义的内容嵌入矩阵中确定所述目标序列中每个内容的嵌入向量以及每个相似序列中每个内容的嵌入向量;
在本步骤中,嵌入向量e t 是在嵌入矩阵E进行索引得到的。
步骤402:根据所述目标序列中每个内容的嵌入向量以及所述内容在所述目标序列中的位置构建所述目标序列的特征表示;
在本步骤中,通过公式(1)和(2)构建目标序列的特征表示H e
步骤403:根据所述相似序列中每个内容的嵌入向量以及所述内容在所述相似序列中的位置构建所述相似序列的特征表示;
在本步骤中,通过公式(1)和(3)构建相似序列的特征表示
步骤404:计算每个所述相似序列的特征表示相对所述目标序列的特征表示的第一注意力得分;
在本步骤中,通过公式(4)计算第一注意力得分:
其中,a k 表示第k条相似序列的特征表示和目标序列的特征表示H e 的第一注意力得分。
步骤405:针对每个所述相似序列,计算该相似序列的第一注意力得分与该相似序列的特征表示的乘积;并对所有所述相似序列对应的乘积进行归一化;
步骤406:计算归一化的结果与所述目标序列的特征表示之和,得到所述共享特征表示。
在步骤405-406中,通过公式(5)得到共享特征表示:
其中,表示共享特征表示,K表示相似序列的总数。
然后根据共享特征表示确定目标序列中各内容的修改类型,具体地,如图5所述,可以包括如下步骤:
步骤501:利用softmax函数对所述共享特征表示中所述目标序列中的每个内容的共享特征向量分别计算每个内容执行多个预定修改类型的第一概率值;
在本步骤中,给定内容i t 和它在共享特征表示中索引得到的表示(即共享特征向量)/>,根据公式(6)得到执行三种操作的概率分布/>
其中,代表修改器预测的要执行的操作类型,WR 3×e 是投影矩阵,用于保证输出三种操作的概率分布,投影矩阵中包括三个元素,一个元素对应的计算结果对应一种操作的概率分布,对应关系是在训练修改器时确定的,本说明书实施例不再赘述。
步骤502:选择所述第一概率值最高的所述预定修改类型作为所述修改类型。
根据本说明书的一个实施例,所述修改类型包括保留、删除和插入。
如图6所示,在所述修改类型为插入时,根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列进一步包括:
步骤601:将操作类型为插入操作的内容作为修改目标内容,将所述修改目标内容加入到插入序列中;
在本步骤中,首先定义一个插入序列,其中,n表示插入序列的最大插入长度。
步骤602:在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量,并根据每个内容的在所述插入序列中的位置分别构建每个内容的隐藏表示;
在本步骤中,隐藏表示h t 如公式(1)所示。
步骤603:对所述插入序列中每个内容的隐藏表示进行堆叠,得到初始特征表示矩阵;
在本步骤中,初始特征表示矩阵如公式(7)所示:
当插入序列中只有一个内容时,初始特征矩阵中只有一行元素,当插入序列中有多个内容时,初始特征矩阵中包括多行元素。
步骤604:利用单向Transformer更新所述初始特征表示矩阵,取最后一层的隐藏表示作为特征表示;
在本步骤中,使用一个单向Transformer更新,因为已生成的内容不会受到未生成的内容的影响:
其中Trm uni 代表单向Transformer编码模块,代表第l层的隐藏表示矩阵,取最后一层的表示并将它做为特征表示H c
步骤605:根据所述特征表示、所述相似序列的特征表示计算和候选池序列中每个内容能够被插入的第二概率值;
在本步骤中,本说明书实施例设计了一个复制机制,如图8所示,使来自相似序列的物品(即内容)有更高的被插入概率,具体地,首先应用一个注意力机制,使用特征表示H c 的最后一个位置的表示h n 匹配每一条相似序列S col ,得到一个注意力得分:
其中,表示第k条相似序列与特征表示H c 的最后一个位置表示h n 的第二注意力得分,W co R e×e U co R e×e 、v co R 1,均为转换矩阵,h k 为第k条相似序列的特征表示/>
对所有所述相似序列对应的第二注意力得分进行归一化:
其中,表示第k条相似序列对应的第二注意力得分/>的归一化结果。
通过加权求和得到上下文特征向量c n
利用公式:
将所述上下文特征向量c n 和所述最后一个位置的表示h n 转换为概率分布,分别得到从所述相似序列中插入内容的概率和从所述候选池序列中插入内容的概率,其中,S col 代表相似序列,P(col|S col ,h n )表示从相似序列中选择内容执行插入的概率,P(all|S col ,h n )表示从候选池序列中选择内容执行插入的概率,和/>表示转换矩阵,转换矩阵是随初始化的,用于改变特征的维度,无实际意义;c n 表示所述上下文特征向量,h n 表示特征表示中最后一个位置的表示,其中c n h n 中的n无实际意义,仅仅是符号;
对于所述候选池序列中的一个内容i j ,通过公式:
计算该内容的所述第二概率值,其中,表示候选池序列中内容i j 的所述第二概率值,其中/>用于表示内容i j 被选中,/>仅为概率计算中的一个标识,/>表示所述插入序列,n表示插入序列的最大插入长度;P col (i j )表示来自相似序列的内容i j 被插入的概率,P all (i j ) 表示来自候选池序列的内容i j 被插入的概率;
其中:
其中,e j 表示候选池序列中内容i j 的嵌入向量,h n 表示所述特征表示H c 中最后一个位置的表示;N 表示内容i j 在相似序列中出现的次数,|I|表示候选池序列中的内容总数。
步骤606:根据所述第二概率值从所述候选池序列的内容中确定待插入内容;
在本步骤中,将候选池序列中第二概率值最大的内容作为待插入内容。
步骤607:将所述待插入内容加入到所述插入序列中;
步骤608:将所述插入序列插入到所述修改目标内容前,得到所述被修改序列。
在本说明书实施例中,插入序列中还可以包括多个内容,具体地,步骤607将待插入内容加入到所述插入序列中之后,所述方法还包括:
判断所述插入序列的长度是否小于所述最大插入长度;
若是,则判断是否继续执行插入操作;若是,则重复执行步骤601,在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量e t ,并根据每个内容的在所述插入序列中的位置p t 分别构建每个内容的隐藏表示h t 的步骤,直至所述插入序列达到所述最大插入长度。
在本步骤中,公式(7)所示的初始特征表示矩阵为公式(16):
其中,h t 可以理解为是修改目标内容的隐藏表示,修改目标内容对应的隐藏表示位于初始特征矩阵的第一行,e n-1+p n 表示插入序列中第n-1个内容的嵌入向量e n-1和位置p n 构成的隐藏表示。
在训练阶段,本说明书实施例中使用特征表示H c 中的每一个位置计算待插入的内容序列。在实际测试中,生成器将从第一个位置开始,依次预测下一个被插入内容,直到生成终止符[eos]或者达到预定的最大插入长度。
然后推荐下一内容:
推荐器用于在训练时预测序列中被掩盖的内容,或在测试时预测下一个内容。
推荐器是可灵活更换的,本说明书实施例默认基于双向Transformer框架设计推荐器。
给定输入序列S和它在encoder中的隐藏表示矩阵H e ,推荐器再次使用一个双向Transformer更新H e 。定义,其中/>
代表推荐器的初始隐藏表示矩阵。本发明用公式(17)更新
其中代表第l层的表示矩阵。本说明书实施例使用最后一层的表示,并简短地将它定义为H r
当训练时,假设将序列中的某些位置遮盖为一个特殊的内容i t ,推荐器根据公式(18)预测该位置所有内容的概率分布:
其中,表示输入序列S在该位置处的内容为/>的概率,E代表和编码器以及修改器共享的内容表示矩阵,h t R e 代表被遮盖内容的隐藏表示向量。当实际应用时,被遮盖内容被添加到序列末尾。
需要说明的是,推荐器的训练方法为本领域的公知常识,本说明书实施例不再赘述。
在本说明书实施例中,将被修改序列输入到训练好的推荐器中,推荐器输出推荐的下一内容。
在本说明书实施例中,还需要对修改器和推荐器进行联合训练。
为了训练修改器,首先随机对一条原始序列S r 执行删除和插入操作,得到被修改序列S m ,然后要求修改器将S m 完全还原回S r 。具体的,对于被随机插入的内容,只需要修改器准确地预测到删除操作;对于被删除的内容,要求修改器不仅要执行插入操作,还要插入正确的内容。本说明书实施例对每一条原始序列重复这一过程,使模型可以自监督地训练不需要人工标注。如公式(19)所示,修改器的目标损失函数是最小化概率P(S r |S m )的负对数似然:
其中,L mod 表示修改器的损失函数,O表示执行的操作,I ins 表示目标序列中需要被执行插入操作的位置,S <i 表示需要被插入的子序列,|S m |表示被修改序列中内容的数量,表示被预测的操作等于需要执行的操作的概率,|I|表示候选池的内容数量,/>表示被预测的插入内容等于需要插入的内容的概率。
然后采用遮盖内容预测任务训练推荐器,以概率P m 随机遮盖原始序列S r 和修改后序列S c ,并且要求推荐器预测出被遮盖的内容。推荐器的目标损失函数是最小化概率和/>的负对数似然:
其中,L rec 表示推荐器的损失函数,表示预测原始序列中被掩盖内容的概率,/>表示预测修改后序列中被掩盖内容的概率,/>表示原始序列中被掩盖的内容,/>表示经过掩盖处理的原始序列,/>表示被预测的内容等于原始序列中被掩盖内容的概率,/>表示修改后序列中被掩盖的内容,/>表示经过掩盖处理的修改后序列,表示被预测的内容等于修改后序列中被掩盖内容的概率。
最后,本说明书实施例使用标准反向传播算法最小化联合损失L,并采用业内常用的Adam自适应优化器进行参数优化:
示例性地,隐私性验证的实验结果如下:
表1 修改序列的比例展示
实验结果如表1所示,其中相似度代表修改后序列与目标序列的Jaccard相似度,保留、删除和插入代表执行三种操作的比例。具体的,在Beauty和Sports上的修改比例超过三成,修改前后的序列平均相似度分别为59.68%和63.01%。特别的,在Yelp数据集上的修改比例高达66.57%,Jaccard相似度也仅有41.78%,证明了本说明书实施例训练的修改器拥有强大的修改序列的能力,直接降低了用户真实交互
记录泄漏的风险。
推荐性能验证的实验结果如下:
此处对比了本说明书实施例包括修改器和推荐器的推荐模型CLOUD和其他3种先进基线模型的总体推荐性能。推荐列表的长度被分别设置为5,10,20,实验结果如表2所示。
表2 CLOUD推荐性能展示
其中,粗体代表最优的实验结果,下划线代表次优的实验结果。命中率HR和平均倒数排名MRR是推荐中常用的评价指标,HR和MRR的值越高,代表推荐越准确。实验结果表明,本说明书实施例提出的CLOUD在三个公开数据集上的推荐性能均优于CL4SRec和DuoRec。相比最先进的自纠正推荐算法STEAM,CLOUD取得了总体上与之相当的推荐性能。这证明了本说明书实施例提出的方法在提高用户数据隐私安全的同时,还取得了先进的推荐性能,这是本说明书实施例相比现有研究的优势之处。
如图7所示为本说明书实施例计算机设备的结构示意图,本文中的装置可以为本实施例中的计算机设备,执行上述本文的方法。计算机设备702可以包括一个或多个处理设备704,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储资源706,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储资源都可以使用任何技术来存储信息。进一步地,任何存储资源可以提供信息的易失性或非易失性保留。进一步地,任何存储资源可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理设备704执行被存储在任何存储资源或存储资源的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储资源交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714)。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口(GUI)718。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本说明书实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行上述方法。
应理解,在本说明书的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本说明书实施例的实施过程构成任何限定。
还应理解,在本说明书实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本说明书中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本说明书中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本说明书的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书实施例方案的目的。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中应用了具体实施例对本说明书的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本说明书的方法及其核心思想;同时,对于本领域的一般技术人员,依据本说明书的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本说明书的限制。

Claims (9)

1.一种用户隐私增强的序列推荐方法,其特征在于,包括:
获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列,并将目标序列与相似序列编码成隐藏表示;
计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;
根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
根据所述被修改序列计算所述待推荐用户的推荐内容;
计算所述目标序列与所有所述相似序列的共享特征表示进一步包括:
在预先定义的内容嵌入矩阵中确定所述目标序列中每个内容的嵌入向量以及每个相似序列中每个内容的嵌入向量;
根据所述目标序列中每个内容的嵌入向量以及所述内容在所述目标序列中的位置构建所述目标序列的特征表示;
根据所述相似序列中每个内容的嵌入向量以及所述内容在所述相似序列中的位置构建所述相似序列的特征表示;
计算每个所述相似序列的特征表示相对所述目标序列的特征表示的第一注意力得分;
针对每个所述相似序列,计算该相似序列的第一注意力得分与该相似序列的特征表示的乘积;并对所有所述相似序列对应的乘积进行归一化;
计算归一化的结果与所述目标序列的特征表示之和,得到所述共享特征表示。
2.根据权利要求1所述的方法,其特征在于,根据所述共享特征表示确定所述目标序列中各内容的修改类型进一步包括:
利用softmax函数对所述共享特征表示中所述目标序列中的每个内容的共享特征向量分别计算每个内容执行多个预定修改类型的第一概率值;
选择所述第一概率值最高的所述预定修改类型作为所述修改类型。
3.根据权利要求2所述的方法,其特征在于,所述修改类型包括保留、删除和插入。
4.根据权利要求3所述的方法,其特征在于,在所述修改类型为插入时,根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列进一步包括:
将操作类型为插入操作的内容作为修改目标内容,将所述修改目标内容加入到插入序列中;
在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量,并根据每个内容的在所述插入序列中的位置分别构建每个内容的隐藏表示;
对所述插入序列中每个内容的隐藏表示进行堆叠,得到初始特征表示矩阵;
利用单向Transformer更新所述初始特征表示矩阵,取最后一层的隐藏表示作为特征表示;
根据所述特征表示、所述相似序列的特征表示计算和候选池序列中每个内容能够被插入的第二概率值;
根据所述第二概率值从所述候选池序列的内容中确定待插入内容;
将所述待插入内容加入到所述插入序列中;
将所述插入序列插入到所述修改目标内容前,得到所述被修改序列。
5.根据权利要求4所述的方法,其特征在于,根据所述特征表示、所述相似序列的特征表示计算和候选池序列中每个内容能够被插入的第二概率值进一步包括:
计算每个所述相似序列的特征表示相对所述特征表示中最后一个位置的表示的第二注意力得分;
对所有所述相似序列对应的第二注意力得分进行归一化,并通过加权求和得到上下文特征向量;
利用公式:
将所述上下文特征向量和所述最后一个位置的表示转换为概率分布,分别得到从所述相似序列中插入内容的概率和从所述候选池序列中插入内容的概率,其中,P(col|S col , h n )表示从相似序列中选择内容执行插入的概率,P(all|S col , h n )表示从候选池序列中选择内容执行插入的概率,/>和/>表示转换矩阵,c n 表示所述上下文特征向量,h n 表示特征表示中最后一个位置的表示;
对于所述候选池序列中的一个内容i j ,通过公式:
计算该内容的所述第二概率值,其中,/>表示候选池序列中内容i j 的所述第二概率值,表示所述插入序列,n表示插入序列的最大插入长度;P col (i j )表示来自相似序列的内容i j 被插入的概率,P all (i j ) 表示来自候选池序列的内容i j 被插入的概率;
其中:P all (i j ) = softmax(e j h n );
其中,e j 表示候选池序列中内容i j 的嵌入向量,h n 表示所述特征表示中最后一个位置的表示;N 表示内容i j 在相似序列中出现的次数,|I|表示候选池序列中的内容总数。
6.根据权利要求5所述的方法,其特征在于,将所述待插入内容加入到所述插入序列中之后,所述方法还包括:
判断所述插入序列的长度是否小于所述最大插入长度;
若是,则判断是否需要继续执行插入操作;若是,重复执行在所述预先定义的内容嵌入矩阵中确定所述插入序列中每个内容的嵌入向量,并根据每个内容的在所述插入序列中的位置分别构建每个内容的隐藏表示的步骤,直至所述插入序列达到所述最大插入长度。
7.一种用户隐私增强的序列推荐装置,其特征在于,包括:
内容交互记录获取单元,用于获取待推荐用户的内容交互记录以及其他用户非隐私敏感的内容交互记录,并根据所述待推荐用户的内容交互记录构建目标序列,根据其他用户的内容交互记录构建多条现有序列;
编码器,用于计算所述目标序列与每条现有序列的相似度,根据所述相似度从所述现有序列中选取多条现有序列作为所述目标序列的相似序列,并将目标序列与相似序列编码成隐藏表示;
修改器,用于计算所述目标序列与所有所述相似序列的共享特征表示,并根据所述共享特征表示确定所述目标序列中各内容的修改类型;根据所述修改类型对所述目标序列中的内容进行修改,得到被修改序列;
推荐器,用于根据所述被修改序列计算所述待推荐用户的推荐内容;
计算所述目标序列与所有所述相似序列的共享特征表示进一步包括:
在预先定义的内容嵌入矩阵中确定所述目标序列中每个内容的嵌入向量以及每个相似序列中每个内容的嵌入向量;
根据所述目标序列中每个内容的嵌入向量以及所述内容在所述目标序列中的位置构建所述目标序列的特征表示;
根据所述相似序列中每个内容的嵌入向量以及所述内容在所述相似序列中的位置构建所述相似序列的特征表示;
计算每个所述相似序列的特征表示相对所述目标序列的特征表示的第一注意力得分;
针对每个所述相似序列,计算该相似序列的第一注意力得分与该相似序列的特征表示的乘积;并对所有所述相似序列对应的乘积进行归一化;
计算归一化的结果与所述目标序列的特征表示之和,得到所述共享特征表示。
8.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6任一所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
CN202311468807.3A 2023-11-07 2023-11-07 一种用户隐私增强的序列推荐方法、装置及设备 Active CN117194803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311468807.3A CN117194803B (zh) 2023-11-07 2023-11-07 一种用户隐私增强的序列推荐方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311468807.3A CN117194803B (zh) 2023-11-07 2023-11-07 一种用户隐私增强的序列推荐方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117194803A CN117194803A (zh) 2023-12-08
CN117194803B true CN117194803B (zh) 2024-01-23

Family

ID=88987351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311468807.3A Active CN117194803B (zh) 2023-11-07 2023-11-07 一种用户隐私增强的序列推荐方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117194803B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633465A (zh) * 2019-07-19 2019-12-31 广州视源电子科技股份有限公司 文本序列的修改定位方法及装置、电子设备
CN114631092A (zh) * 2020-07-15 2022-06-14 谷歌有限责任公司 隐私保护数据收集和分析
CN115563985A (zh) * 2022-09-30 2023-01-03 语联网(武汉)信息技术有限公司 语句分析方法、装置、设备、存储介质及程序产品
CN116522001A (zh) * 2023-06-27 2023-08-01 深圳大学 一种隐私保护的跨域序列推荐方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140223099A1 (en) * 2013-02-06 2014-08-07 Adam Kidron Content management platform apparatus, methods, and systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633465A (zh) * 2019-07-19 2019-12-31 广州视源电子科技股份有限公司 文本序列的修改定位方法及装置、电子设备
CN114631092A (zh) * 2020-07-15 2022-06-14 谷歌有限责任公司 隐私保护数据收集和分析
CN115563985A (zh) * 2022-09-30 2023-01-03 语联网(武汉)信息技术有限公司 语句分析方法、装置、设备、存储介质及程序产品
CN116522001A (zh) * 2023-06-27 2023-08-01 深圳大学 一种隐私保护的跨域序列推荐方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient and Privacy-Enhanced Federated Learning for Industrial Artificial Intelligence;Meng Hao 等;《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》;第16卷(第10期);第6532-6542页 *
基于隐私保护的联邦推荐算法综述;张洪磊 等;《自动化学报》;第48卷(第9期);第2142-2163页 *

Also Published As

Publication number Publication date
CN117194803A (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN108428132B (zh) 欺诈交易识别方法、装置、服务器及存储介质
CN107527091B (zh) 数据处理方法和装置
JP7095140B2 (ja) 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体
US20180276542A1 (en) Recommendation Result Generation Method and Apparatus
CN109960761B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
WO2019165944A1 (zh) 基于转移概率网络的商户推荐方法及其系统
JP2023537879A (ja) 動的属性モデル化による次のバスケット推薦のためのシステムと方法
CN111669366A (zh) 一种本地化差分隐私数据交换方法及存储介质
CN110689110B (zh) 处理交互事件的方法及装置
CN110798709B (zh) 视频处理方法和装置、存储介质及电子装置
US10067990B1 (en) System, method, and computer program for identifying significant attributes of records
CN115496970A (zh) 图像任务模型的训练方法、图像识别方法以及相关装置
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN117194803B (zh) 一种用户隐私增强的序列推荐方法、装置及设备
KR20230069578A (ko) 그래프 신경망을 이용한 부호 인지 추천 장치 및 방법
CN113032001A (zh) 一种智能合约分类方法及装置
CN111460113A (zh) 一种数据交互方法及相关设备
Cramer et al. Progressive T ype‐II censoring and coherent systems
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN113674083A (zh) 互联网金融平台信用风险监测方法、装置及计算机系统
CN113542767B (zh) 一种信息隐藏图像处理模型构建方法、装置、终端及介质
CN114330758B (zh) 基于联邦学习的数据处理方法、装置及存储介质
US20220382909A1 (en) Private recommendation in a client-server environment
TWI829558B (zh) 保護資料摘要的聯邦學習系統及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant