CN113312644B - 基于隐私保护的跨域推荐模型训练方法及训练系统 - Google Patents

基于隐私保护的跨域推荐模型训练方法及训练系统 Download PDF

Info

Publication number
CN113312644B
CN113312644B CN202110662599.5A CN202110662599A CN113312644B CN 113312644 B CN113312644 B CN 113312644B CN 202110662599 A CN202110662599 A CN 202110662599A CN 113312644 B CN113312644 B CN 113312644B
Authority
CN
China
Prior art keywords
feature vector
domain
information
vector
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110662599.5A
Other languages
English (en)
Other versions
CN113312644A (zh
Inventor
郑小林
刘伟明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jinzhita Technology Co ltd
Original Assignee
Hangzhou Jinzhita Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jinzhita Technology Co ltd filed Critical Hangzhou Jinzhita Technology Co ltd
Priority to CN202110662599.5A priority Critical patent/CN113312644B/zh
Publication of CN113312644A publication Critical patent/CN113312644A/zh
Application granted granted Critical
Publication of CN113312644B publication Critical patent/CN113312644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于隐私保护的跨域推荐模型训练方法及训练系统,其中基于隐私保护的跨域推荐模型训练方法包括:数据域单元获取到用户信息和项目信息后,提取用户信息的特征向量和项目信息的特征向量,然后对提取的用户信息的特征向量、项目信息的特征向量分别进行数据加密,再基于加密后的特征向量进行向量融合处理,得到融合向量,数据域单元基于融合向量训练跨域推荐模型。本申请实施例的特征向量经过了数据加密,其他用户无法轻易获得原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。

Description

基于隐私保护的跨域推荐模型训练方法及训练系统
技术领域
本申请涉及数据处理技术领域,特别涉及基于隐私保护的跨域推荐模型训练方法及训练系统。本申请同时涉及跨域推荐方法及装置、计算设备和计算机可读存储介质。
背景技术
随着互联网的飞速发展,互联网中的数据信息呈现爆发式增长,面对海量的数据信息,用户很难从众多选择中挑选出自己感兴趣的项目。为了改善用户的体验,推荐系统被广泛应用于不同的场景,如在线购物、音乐推荐、电影推荐等。在现实场景中,很多用户会在不同的数据与平台上享受网络服务,例如在订票网站点评电影、在购书网站点评书籍、在购物网站购买商品等。
跨域推荐的任务,一般是指在两个数据域中用户的构成有重叠,这样,不同的数据域之间就有了一定量的用户数据。但是总体来说,用户数据在每一个数据域上并不一定都很充足。可能有的数据域的用户数据比较稠密,但有的数据域的用户数据非常稀疏,那么如何克服数据域之间的不平衡性,使得不同数据域上的用户数据可以相互利用、相互补充,成为跨域推荐中的重要任务。
目前的跨域推荐一般是利用跨域推荐模型实现的,目标域可以获得源域的用户数据,然后利用获得的源域的用户数据和目标域本地的用户数据,训练跨域推荐模型,这样训练出来的模型可以实现跨域推荐。然而,随着互联网数据量越来越大,数据隐私问题日益严重,当前的跨域推荐模型训练中,用户数据都是显示交互的,数据隐私性差。
发明内容
有鉴于此,本申请实施例提供了一种基于隐私保护的跨域推荐模型训练方法及训练系统、跨域推荐方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种基于隐私保护的跨域推荐模型训练方法,应用于训练系统,训练系统包括计算单元和多个数据域单元,该跨域推荐模型训练方法包括:
各数据域单元获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息,提取用户信息的第一特征向量及项目信息的第二特征向量,对第一特征向量、第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量,并将第一加密特征向量和第二加密特征向量发送至计算单元;
计算单元对各数据域单元发送的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量,并将融合向量反馈至各数据域单元;
各数据域单元基于融合向量及标注关联信息,训练跨域推荐模型。
根据本申请实施例的第二方面,提供了一种基于隐私保护的跨域推荐模型训练方法,应用于训练系统,训练系统包括源域单元和目标域单元,该跨域推荐模型训练方法包括:
源域单元获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息,提取源域用户信息的第三特征向量及源域项目信息的第四特征向量,对第三特征向量、第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量,并将第三加密特征向量、第四加密特征向量及第一标注关联信息发送至目标域单元;
目标域单元获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息,提取目标域用户信息的第五特征向量及目标域项目信息的第六特征向量,基于源域单元发送的第三加密特征向量、第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量,并基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。
根据本申请实施例的第三方面,提供了一种跨域推荐方法,包括:
获取指定用户的用户信息;
将用户信息输入跨域推荐模型,得到针对指定用户的项目推荐信息,其中,跨域推荐模型为利用本申请实施例第一方面或第二方面提供的跨域推荐模型训练方法训练得到。
根据本申请实施例的第四方面,提供了一种训练系统,该训练系统包括计算单元和多个数据域单元;
各数据域单元,被配置为获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息,提取用户信息的第一特征向量及项目信息的第二特征向量,对第一特征向量、第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量,并将第一加密特征向量和第二加密特征向量发送至计算单元;
计算单元,被配置为对各数据域单元发送的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量,并将融合向量反馈至各数据域单元;
各数据域单元,还被配置为基于融合向量及标注关联信息,训练跨域推荐模型。
根据本申请实施例的第五方面,提供了一种训练系统,该训练系统包括源域单元和目标域单元;
源域单元,被配置为获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息,提取源域用户信息的第三特征向量及源域项目信息的第四特征向量,对第三特征向量、第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量,并将第三加密特征向量、第四加密特征向量及第一标注关联信息发送至目标域单元;
目标域单元,被配置为获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息,提取目标域用户信息的第五特征向量及目标域项目信息的第六特征向量,基于源域单元发送的第三加密特征向量、第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量,并基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。
根据本申请实施例的第六方面,提供了一种跨域推荐装置,包括:
获取模块,被配置为获取指定用户的用户信息;
推荐模块,被配置为将用户信息输入跨域推荐模型,得到针对指定用户的项目推荐信息,其中,跨域推荐模型为利用本申请实施例第一方面或第二方面提供的跨域推荐模型训练方法训练得到。
根据本申请实施例的第七方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,处理器执行计算机指令时实现本申请实施例第三方面提供的方法。
根据本申请实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例第三方面提供的方法。
本申请实施例中,数据域单元获取到用户信息和项目信息后,提取用户信息的特征向量和项目信息的特征向量,然后对提取的用户信息的特征向量、项目信息的特征向量分别进行数据加密,再基于加密后的特征向量进行向量融合处理,得到融合向量,数据域单元基于融合向量训练跨域推荐模型。本申请实施例的特征向量经过了数据加密,其他用户无法轻易获得原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。
附图说明
图1是本申请实施例提供的一种基于隐私保护的跨域推荐模型训练方法的流程示意图;
图2是本申请实施例提供的另一种基于隐私保护的跨域推荐模型训练方法的流程示意图;
图3是本申请实施例提供的一种跨域推荐方法的流程示意图;
图4是本申请实施例提供的一种训练系统的结构示意图;
图5是本申请实施例提供的另一种训练系统的结构示意图;
图6是本申请实施例提供的一种跨域推荐装置的结构示意图;
图7是本申请实施例的计算设备的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了实现在训练跨域推荐模型的过程中,保证用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务,本申请实施例提供了一种基于隐私保护的跨域推荐模型训练方法及训练系统、跨域推荐方法及装置、计算设备和计算机可读存储介质,在下面的实施例中将逐一进行详细说明。
图1示出了本申请实施例提供的一种基于隐私保护的跨域推荐模型训练方法的流程示意图,该方法应用于训练系统,训练系统包括计算单元和多个数据域单元,该方法具体包括如下步骤。
S101,各数据域单元获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息。
数据域单元是指数据域相应的数据处理单元,一个数据域相应配置一个数据域单元。数据域单元可以是管理数据域中用户数据的服务器,也可以是数据域侧的中心管理模块。数据域生成用户信息、项目信息后,数据域单元可以从相应数据域获取到用户信息和项目信息,其中,用户信息表征了用户的属性,例如用户姓名、用户身份标识、用户性别等,项目信息表征了项目的属性,例如项目名称、项目标记、产生的时间等,在本申请实施例中,项目是指数据域的平台提供的服务项目,具体可以是商品、书籍、音乐、电影等。
数据域可以分为源域和目标域,源域一般指的是有稠密用户数据的数据域,目标域一般指的是有稀疏用户数据的数据域,一般是希望源域得到的知识能够有效地迁移到目标域上,实现对目标域的跨域推荐。当然,在实际应用中,任何一个数据域都可以作为源域或者目标域,这里不做具体的限定。
用户在对项目进行点评、购买等操作后,会相应的生成用户与项目的标注关联信息,标注关联信息表征了用户与项目的关联程度,例如,用户购买过某一个商品,就表明该用户与该商品具有较高的关联度,可以分配一个较大的关联值表示该用户与该商品的标注关联信息,再例如,用户评论过某一部电影,就表明该用户与该电影具有较高的关联度,可以分配一个较大的关联值表示该用户与该电影的标注关联信息。在一种实现方式中,可以通过评分来表示用户与项目的关联程度,用户对不同项目进行评分,或者用户评论、点击、购买不同的项目生成评分,即可组成一个评分矩阵,该评分矩阵即为标注关联信息,评分矩阵中行列分别代表用户和项目,某一项的评分越高,则表示这一项对应行的用户对这一项对应列的项目越感兴趣。
在本申请实施例中,不同数据域之间的用户信息一般是有重合的,即同一个用户在不同的数据域平台上都进行了注册,产生有用户信息。不同数据域之间的项目信息可以有重合,也可以完全不同。在具体实现时,可以约定不同数据域的用户是一样的,并且可以要求每一位用户都至少交互过一定量(例如5个)的项目。对于获取到的用户信息和项目信息,可以按照一定的比例进行数据集划分,例如按照8:1:1的比例,将用户信息和项目信息组成的数据集划分为训练集、验证集和测试集,训练集用来进行模型训练,验证集用来验证模型精度,测试集用来进行模型测试。在用户交互过项目后,会产生相应的标注关联信息,对于未交互的情况,可以通过设置关联值为0来表示。
S102,各数据域单元提取用户信息的第一特征向量及项目信息的第二特征向量。
各数据域单元在获取到用户信息和项目信息后,可以通过特征向量提取的方式,提取出用户信息和项目信息的数字化的特征向量,以进行后续的数据加密。
在本申请实施例的一种实现方式中,S102具体可以为:各数据域单元将用户信息、项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出用户信息的第一特征向量、项目信息的第二特征向量。
具体的特征提取方式,可以利用神经网络的隐层进行提取,神经网络的隐层就是神经网络的几个卷积层,经过神经网络的隐层能够对输入神经网络的数据提取隐含特征。特征提取的过程也可以称为初始化,经过特征提取可以提取出用户信息的第一特征向量
Figure BDA0003115689940000071
,源域项目的第二特征向量
Figure BDA0003115689940000072
和目标域项目的第二特征向量
Figure BDA0003115689940000073
。当然,特征向量提取的方式可以不限于上述经隐层提取,也可以是其他特征提取方式,这里不做具体限定。
S103,各数据域单元对第一特征向量、第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量。
在提取出第一特征向量和第二特征向量后,为了对数据进行隐私保护,需要对提取的第一特征向量和第二特征向量进行数据加密,数据加密的方式有多种,可以是哈希运算的方式加密、加入数据噪声的方式进行加密等。
在本申请实施例的一种实现方式中,S103具体可以为:各数据域单元分别在第一特征向量、第二特征向量中加入服从差分隐私的噪声数据,得到第一加密特征向量和第二加密特征向量。
为了提高数据加密的效率,并且防止被反推出原始数据,本申请实施例采用分别在第一特征向量、第二特征向量中加入服从差分隐私的噪声数据的方式进行加密,其中,服从差分隐私具体可以指服从高斯分布、服从拉普拉斯分布等。这样,既能够保证第一特征向量、第二特征向量的隐私性,还能够提高数据加密的效率,同时,还能够降低反推的风险。
S104,各数据域单元将第一加密特征向量和第二加密特征向量发送至计算单元。
数据加密后的第一加密特征向量和第二加密特征向量会送入计算单元,计算单元可以是独立于数据域的计算设备,也可以是设置在数据域中的计算模块,计算单元可以设置在源域中,也可以设置在目标域中。
S105,计算单元对各数据域单元发送的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量。
S106,计算单元将融合向量反馈至各数据域单元。
计算单元在接收到各数据域单元发送的第一加密特征向量、第二加密特征向量后,需要进行向量融合,以体现各数据域之间的交互,具体的向量融合处理就是对特征向量中重合的用户信息、项目信息的特征向量进行融合。
在本申请实施例的一种实现方式中,各数据域生成的用户信息有重合,各数据域生成的项目信息不同;S105具体可以为:计算单元利用预设的融合函数,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和第二加密特征向量。
由于用户信息有重合,为了体现各数据域之间交互用户信息,增强跨域推荐模型的性能,可以利用预设的融合函数,例如求平均、加权平均等,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量进行融合计算,例如源域的第一加密特征向量中用户u1的第一加密特征向量为u1_s,目标域的第一加密特征向量中用户u1的第一加密特征向量为u1_t,则融合计算为u1′=f(u1_s,u1_t),其中,u1′为融合计算结果,f()为融合函数。这样就可以得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和第二加密特征向量。
在本申请实施例的另一种实现方式中,各数据域生成的用户信息有重合,各数据域生成的项目信息有重合;S105具体可以为:计算单元利用预设的融合函数,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量、重合的项目信息的第二加密特征向量分别进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、重合的项目信息的第二加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和非重合的项目信息的第二加密特征向量。
由于用户信息有重合,项目信息也有重合,为了进一步体现各数据域之间交互用户信息,增强跨域推荐模型的性能,可以利用预设的融合函数,例如求平均、加权平均等,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量、重合的项目信息的第二加密特征向量分别进行融合计算,例如源域的第一加密特征向量中用户u1的第一加密特征向量为u1_s,目标域的第一加密特征向量中用户u1的第一加密特征向量为u1_t,源域的第二加密特征向量中项目i1的第二加密特征向量为i1_s,目标域的第二加密特征向量中项目i1的第二加密特征向量为i1_t,则融合计算为i1′=f(i1_s,i1_t),其中,u1′、i1′为融合计算结果,f()为融合函数。这样就可以得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、重合的项目信息的第二加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和非重合的项目信息的第二加密特征向量。
S107,各数据域单元基于融合向量及标注关联信息,训练跨域推荐模型。
各数据域单元在接收到计算单元反馈的融合向量之后,即可基于融合向量及标注关联信息,训练跨域推荐模型,具体的训练过程可以包括如下步骤:
第一步,从融合向量中读取任一用户的第一加密特征向量和任一项目的第二加密特征向量。
第二步,将读取的该用户的第一加密特征向量和该项目的第二加密特征向量输入预设神经网络,得到该用户与项目的预测关联信息;例如,关于源域项目的预测关联信息为
Figure BDA0003115689940000091
关于目标域项目的预测关联信息为
Figure BDA0003115689940000092
第三步,根据预测关联信息、以及获取的该用户与物品的标注关联信息,计算模型梯度值;在得到预测关联信息
Figure BDA0003115689940000093
Figure BDA0003115689940000094
之后,可以利用常见的最小二乘的平方损失函数等损失函数,根据源域项目的标注关联信息
Figure BDA0003115689940000095
和目标项目的标注关联信息
Figure BDA0003115689940000096
计算模型梯度值,得到针对源域的模型梯度值
Figure BDA0003115689940000097
和针对目标域的模型梯度值
Figure BDA0003115689940000098
其中,L为梯度,θ为网络参数。
第四步,基于模型梯度值,调整网络参数,返回执行第一步,直至模型梯度小于预设阈值或者返回执行的次数达到预设次数,则停止训练,得到训练后的跨域推荐模型。具体调整网络参数的方式为:
Figure BDA0003115689940000099
其中,∈为更新变量,θ为更新后的网络参数,不断重复执行第一步至第四步,至模型收敛(即模型梯度小于预设阈值)或者迭代次数达到一定的峰值,则停止训练,得到训练好的跨域推荐模型。
由于本申请实施例中,跨域推荐模型训练是基于加密后的特征向量进行训练的,不是原始信息的特征向量,会一定程度上影响跨域推荐模型的精度,为了尽可能减小这种影响,可以选择适当的加密方法,例如,采用加入噪声数据的方式进行加密,加入的噪声数据应尽量小一些。
应用本申请实施例的方案,各数据域单元获取到相应数据域生成的用户信息和项目信息后,提取用户信息的第一特征向量和项目信息的第二特征向量,然后对提取的第一特征向量、第二特征向量分别进行数据加密,计算单元再对加密后的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量,各数据域单元基于融合向量及获取的标注关联信息训练跨域推荐模型。本申请实施例的第一特征向量、第二特征向量经过了数据加密,其他用户无法轻易获得原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。
图2示出了本申请实施例提供的另一种基于隐私保护的跨域推荐模型训练方法的流程示意图,该方法应用于训练系统,训练系统包括源域单元和目标域单元,该方法具体包括如下步骤。
S201,源域单元获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息。
S202,源域单元提取源域用户信息的第三特征向量及源域项目信息的第四特征向量。
源域单元在获取到源域用户信息和源域项目信息后,可以通过特征向量提取的方式,提取出源域用户信息和源域项目信息的数字化的特征向量,以进行后续的数据加密。
在本申请实施例的一种实现方式中,S202具体可以为:源域单元将源域用户信息、源域项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出源域用户信息的第三特征向量、源域项目信息的第四特征向量。
具体的特征提取方式,可以利用神经网络的隐层进行提取,神经网络的隐层就是神经网络的几个卷积层,经过神经网络的隐层能够对输入神经网络的数据提取隐含特征。特征提取的过程也可以称为初始化,经过特征提取可以提取出源域用户信息的第三特征向量
Figure BDA0003115689940000101
源域项目的第四特征向量
Figure BDA0003115689940000102
当然,特征向量提取的方式可以不限于上述经隐层提取,也可以是其他特征提取方式,这里不做具体限定。
S203,源域单元对第三特征向量、第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量。
在提取出第三特征向量和第四特征向量后,为了对数据进行隐私保护,需要对提取的第三特征向量和第四特征向量进行数据加密,数据加密的方式有多种,可以是哈希运算的方式加密、加入数据噪声的方式进行加密等。
在本申请实施例的一种实现方式中,S203具体可以为:源域单元分别在第三特征向量、第四特征向量中加入服从差分隐私的噪声数据,得到第三加密特征向量和第四加密特征向量。
为了提高数据加密的效率,并且防止被反推出原始数据,本申请实施例采用分别在第三特征向量、第四特征向量中加入服从差分隐私的噪声数据的方式进行加密,其中,服从差分隐私具体可以指服从高斯分布、服从拉普拉斯分布等。这样,既能够保证第三特征向量、第四特征向量的隐私性,还能够提高数据加密的效率,同时,还能够降低反推的风险。
S204,源域单元将第三加密特征向量、第四加密特征向量及第一标注关联信息发送至目标域单元。
数据加密后的第三加密特征向量和第四加密特征向量以及第一标注关联信息会送入目标域单元。
S205,目标域单元获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息。
S206,目标域单元提取目标域用户信息的第五特征向量及目标域项目信息的第六特征向量。
目标域单元在获取到目标域用户信息和目标域项目信息后,可以通过特征向量提取的方式,提取出目标域用户信息和目标域项目信息的数字化的特征向量,以进行后续的数据加密。
在本申请实施例的一种实现方式中,S206具体可以为:目标域单元将目标域用户信息、目标域项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出目标域用户信息的第五特征向量、目标域项目信息的第六特征向量。
具体的特征提取方式,可以利用神经网络的隐层进行提取,神经网络的隐层就是神经网络的几个卷积层,经过神经网络的隐层能够对输入神经网络的数据提取隐含特征。特征提取的过程也可以称为初始化,经过特征提取可以提取出目标域用户信息的第五特征向量
Figure BDA0003115689940000121
,目标域项目的第六特征向量
Figure BDA0003115689940000122
。当然,特征向量提取的方式可以不限于上述经隐层提取,也可以是其他特征提取方式,这里不做具体限定。
S207,目标域单元基于源域单元发送的第三加密特征向量、第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量。
目标域单元在接收到源域单元发送的第三加密特征向量、第四加密特征向量后,需要进行向量融合,以体现各数据域之间的交互,具体的向量融合处理就是对特征向量中重合的用户信息、项目信息的特征向量进行融合。
在本申请实施例的一种实现方式中,源域用户信息与目标域用户信息有重合,源域项目信息与目标域项目信息不同;S207具体可以为:目标域单元利用预设的融合函数,对第三加密特征向量和第五特征向量中重合的用户信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量、第六特征向量。
由于用户信息有重合,为了体现各数据域之间交互用户信息,增强跨域推荐模型的性能,可以利用预设的融合函数,例如求平均、加权平均等,对源域单元发送的第三加密特征向量和第五特性向量中重合的用户信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量、第六特征向量。
在本申请实施例的另一种实现方式中,源域用户信息与目标域用户信息有重合,源域项目信息与目标域项目信息有重合;S207具体可以为:目标域单元利用预设的融合函数,对第三加密特征向量和第五特征向量中重合的用户信息的特征向量进行融合计算,对第四加密特征向量和第六特征向量中重合的项目信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、重合的项目信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量和第六特征向量中非重合的项目信息的特征向量。
由于用户信息有重合,项目信息也有重合,为了进一步体现各数据域之间交互用户信息,增强跨域推荐模型的性能,可以利用预设的融合函数,例如求平均、加权平均等,对各数据域单元发送的第三加密特征向量和第五特征向量中重合的用户信息的特征向量进行融合计算、对第四加密特征向量和第六特征向量中重合的项目信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、重合的项目信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量和第六特征向量中非重合的项目信息的特征向量。
S208,目标域单元基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。
目标域单元可基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型,具体的训练过程可以包括如下步骤:
第一步,从融合向量中读取任一用户的特征向量和任一项目的特征向量。
第二步,将读取的该用户的特征向量和该项目的特征向量输入预设神经网络,得到该用户与项目的预测关联信息;例如,关于源域项目的预测关联信息为
Figure BDA0003115689940000131
关于目标域项目的预测关联信息为
Figure BDA0003115689940000132
第三步,根据预测关联信息、以及获取的该用户与物品的标注关联信息,计算模型梯度值;在得到预测关联信息
Figure BDA0003115689940000133
Figure BDA0003115689940000134
之后,可以利用常见的最小二乘的平方损失函数等损失函数,根据源域项目的标注关联信息
Figure BDA0003115689940000135
和目标项目的标注关联信息
Figure BDA0003115689940000136
计算模型梯度值,得到针对源域的模型梯度值
Figure BDA0003115689940000137
和针对目标域的模型梯度值
Figure BDA0003115689940000138
其中,L为梯度,θ为网络参数。
第四步,基于模型梯度值,调整网络参数,返回执行第一步,直至模型梯度小于预设阈值或者返回执行的次数达到预设次数,则停止训练,得到训练后的跨域推荐模型。具体调整网络参数的方式为:
Figure BDA0003115689940000139
其中,∈为更新变量,θ′为更新后的网络参数,不断重复执行第一步至第四步,至模型收敛(即模型梯度小于预设阈值)或者迭代次数达到一定的峰值,则停止训练,得到训练好的跨域推荐模型。
由于本申请实施例中,跨域推荐模型训练是基于加密后的特征向量进行训练的,不是原始信息的特征向量,会一定程度上影响跨域推荐模型的精度,为了尽可能减小这种影响,可以选择适当的加密方法,例如,采用加入噪声数据的方式进行加密,加入的噪声数据应尽量小一些。
应用本申请实施例的方案,源域单元获取到源域用户信息和源域项目信息后,提取源域用户信息的第三特征向量和源域项目信息的第四特征向量,然后对提取的第三特征向量、第四特征向量分别进行数据加密,将加密后的第三加密特征向量、第四加密特征向量发送至目标域单元,目标域单元获取到目标域用户信息和目标域项目信息后,提取目标域用户信息的第五特征向量和目标域项目信息的第六特征向量,最后,目标域单元基于源域单元发送的第三加密特征向量,第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量,并基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。本申请实施例的第三特征向量、第四特征向量经过了数据加密,目标域用户无法轻易获得源域原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。
图3示出了本申请实施例提供的一种跨域推荐方法的流程示意图,该方法应用于任意数据源单元,该方法具体包括如下步骤。
S301,获取指定用户的用户信息。
S302,将用户信息输入跨域推荐模型,得到针对指定用户的项目推荐信息。
其中,跨域推荐模型为利用图1或图2所示的跨域推荐模型训练方法训练得到。针对指定用户的项目推荐信息可以是一个列表,该列表中按照指定用户与各项目的关联值从高到低的顺序排列,以进行针对该指定用户的项目推荐,当然,项目推荐信息也可以仅为与指定用户的关联值最大的项目。
应用本申请实施例的方案,由于在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务,实现了跨域推荐,并且保证了数据安全性。
相应于上述基于隐私保护的跨域推荐模型训练方法实施例,图4示出了本申请实施例提供的一种训练系统的结构示意图,该训练系统包括:计算单元410和多个数据域单元420;
各数据域单元420,被配置为获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息,提取用户信息的第一特征向量及项目信息的第二特征向量,对第一特征向量、第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量,并将第一加密特征向量和第二加密特征向量发送至计算单元410;
计算单元410,被配置为对各数据域单元420发送的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量,并将融合向量反馈至各数据域单元420;
各数据域单元420,还被配置为基于融合向量及标注关联信息,训练跨域推荐模型。
可选的,各数据域单元420,进一步被配置为:将用户信息、项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出用户信息的第一特征向量、项目信息的第二特征向量。
可选的,各数据域单元420,进一步被配置为:分别在第一特征向量、第二特征向量中加入服从差分隐私的噪声数据,得到第一加密特征向量和第二加密特征向量。
可选的,各数据域生成的用户信息有重合,各数据域生成的项目信息不同;
计算单元410,进一步被配置为:利用预设的融合函数,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和所述第二加密特征向量。
可选的,各数据域生成的用户信息有重合,各数据域生成的项目信息有重合;
计算单元410,进一步被配置为:利用预设的融合函数,对各数据域单元发送的第一加密特征向量中重合的用户信息的第一加密特征向量、重合的项目信息的第二加密特征向量分别进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、重合的项目信息的第二加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和非重合的项目信息的第二加密特征向量。
应用本申请实施例的方案,各数据域单元获取到相应数据域生成的用户信息和项目信息后,提取用户信息的第一特征向量和项目信息的第二特征向量,然后对提取的第一特征向量、第二特征向量分别进行数据加密,计算单元再对加密后的第一加密特征向量、第二加密特征向量进行向量融合处理,得到融合向量,各数据域单元基于融合向量及获取的标注关联信息训练跨域推荐模型。本申请实施例的第一特征向量、第二特征向量经过了数据加密,其他用户无法轻易获得原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。
相应于上述基于隐私保护的跨域推荐模型训练方法实施例,图5示出了本申请实施例提供的另一种训练系统的结构示意图,该训练系统包括:源域单元510和目标域单元520;
源域单元510,被配置为获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息,提取源域用户信息的第三特征向量及源域项目信息的第四特征向量,对第三特征向量、第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量,并将第三加密特征向量、第四加密特征向量及第一标注关联信息发送至目标域单元520;
目标域单元520,被配置为获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息,提取目标域用户信息的第五特征向量及目标域项目信息的第六特征向量,基于源域单元510发送的第三加密特征向量、第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量,并基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。
可选的,源域单元510,进一步被配置为:将源域用户信息、源域项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出源域用户信息的第三特征向量、源域项目信息的第四特征向量。
可选的,源域单元510,进一步被配置为:分别在第三特征向量、第四特征向量中加入服从差分隐私的噪声数据,得到第三加密特征向量和第四加密特征向量。
可选的,目标域单元520,进一步被配置为:将目标域用户信息、目标域项目信息分别输入预设神经网络,经预设神经网络的隐层,提取出目标域用户信息的第五特征向量、目标域项目信息的第六特征向量。
可选的,源域用户信息与目标域用户信息有重合,源域项目信息与目标域项目信息不同;
目标域单元520,进一步被配置为:利用预设的融合函数,对第三加密特征向量和第五特征向量中重合的用户信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量、第六特征向量。
可选的,源域用户信息与目标域用户信息有重合,源域项目信息与目标域项目信息有重合;
目标域单元520,进一步被配置为:利用预设的融合函数,对第三加密特征向量和第五特征向量中重合的用户信息的特征向量进行融合计算,对第四加密特征向量和第六特征向量中重合的项目信息的特征向量进行融合计算,得到融合向量,其中,融合向量包括重合的用户信息的特征向量的融合计算结果、重合的项目信息的特征向量的融合计算结果、第三加密特征向量和第五特征向量中非重合的用户信息的特征向量、第四加密特征向量和第六特征向量中非重合的项目信息的特征向量。
应用本申请实施例的方案,源域单元获取到源域用户信息和源域项目信息后,提取源域用户信息的第三特征向量和源域项目信息的第四特征向量,然后对提取的第三特征向量、第四特征向量分别进行数据加密,将加密后的第三加密特征向量、第四加密特征向量发送至目标域单元,目标域单元获取到目标域用户信息和目标域项目信息后,提取目标域用户信息的第五特征向量和目标域项目信息的第六特征向量,最后,目标域单元基于源域单元发送的第三加密特征向量,第四加密特征向量、第五特征向量、第六特征向量,进行向量融合处理,得到融合向量,并基于融合向量及第一标注关联信息、第二标注关联信息,训练跨域推荐模型。本申请实施例的第三特征向量、第四特征向量经过了数据加密,目标域用户无法轻易获得源域原始的用户信息和项目信息,在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务。
上述为本实施例的训练系统的示意性方案。需要说明的是,该训练系统的技术方案与上述的基于隐私保护的跨域推荐模型训练方法的技术方案属于同一构思,训练系统的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护的跨域推荐模型训练方法的技术方案的描述。
相应于上述跨域推荐方法实施例,图6示出了本申请实施例提供的一种跨域推荐装置的结构示意图,该训练系统包括:获取模块610和推荐模块620;
获取模块610,被配置为获取指定用户的用户信息;
推荐模块620,被配置为将用户信息输入跨域推荐模型,得到针对指定用户的项目推荐信息,其中,跨域推荐模型为利用上述图1或图2所示的跨域推荐模型训练方法训练得到。
应用本申请实施例的方案,由于在训练跨域推荐模型的过程中,保证了用户信息和项目信息的隐私性,同时使得训练得到的跨域推荐模型可以适配跨域推荐的任务,实现了跨域推荐,并且保证了数据安全性。
上述为本实施例的一种跨域推荐装置的示意性方案。需要说明的是,该跨域推荐装置的技术方案与上述的跨域推荐方法的技术方案属于同一构思,跨域推荐装置的技术方案未详细描述的细节内容,均可以参见上述跨域推荐方法的技术方案的描述。
需要说明的是,装置中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图7示出了根据本申请实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备7的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令,处理器720执行计算机可执行指令时实现上述跨域推荐方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的跨域推荐方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述跨域推荐方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前述跨域推荐方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述跨域推荐方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述跨域推荐方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前述跨域推荐方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种基于隐私保护的跨域推荐模型训练方法,其特征在于,应用于训练系统,所述训练系统包括计算单元和多个数据域单元,所述训练方法包括:
各数据域单元获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息,提取所述用户信息的第一特征向量及所述项目信息的第二特征向量,对所述第一特征向量、所述第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量,并将所述第一加密特征向量和所述第二加密特征向量发送至所述计算单元;
所述计算单元对所述各数据域单元发送的所述第一加密特征向量、所述第二加密特征向量进行向量融合处理,得到融合向量,并将所述融合向量反馈至所述各数据域单元;
所述各数据域单元基于所述融合向量及所述标注关联信息,训练跨域推荐模型。
2.根据权利要求1所述的跨域推荐模型训练方法,其特征在于,所述各数据域单元提取所述用户信息的第一特征向量及所述项目信息的第二特征向量的步骤,包括:
所述各数据域单元将所述用户信息、所述项目信息分别输入预设神经网络,经所述预设神经网络的隐层,提取出所述用户信息的第一特征向量、所述项目信息的第二特征向量。
3.根据权利要求1所述的跨域推荐模型训练方法,其特征在于,所述各数据域单元对所述第一特征向量、所述第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量的步骤,包括:
所述各数据域单元分别在所述第一特征向量、所述第二特征向量中加入服从差分隐私的噪声数据,得到第一加密特征向量和第二加密特征向量。
4.根据权利要求1-3任一项所述的跨域推荐模型训练方法,其特征在于,各数据域生成的用户信息有重合,所述各数据域生成的项目信息不同;
所述计算单元对所述各数据域单元发送的所述第一加密特征向量、所述第二加密特征向量进行向量融合处理,得到融合向量的步骤,包括:
所述计算单元利用预设的融合函数,对所述各数据域单元发送的所述第一加密特征向量中重合的用户信息的第一加密特征向量进行融合计算,得到融合向量,其中,所述融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和所述第二加密特征向量。
5.根据权利要求1-3任一项所述的跨域推荐模型训练方法,其特征在于,各数据域生成的用户信息有重合,所述各数据域生成的项目信息有重合;
所述计算单元对所述各数据域单元发送的所述第一加密特征向量、所述第二加密特征向量进行向量融合处理,得到融合向量的步骤,包括:
所述计算单元利用预设的融合函数,对所述各数据域单元发送的所述第一加密特征向量中重合的用户信息的第一加密特征向量、重合的项目信息的第二加密特征向量分别进行融合计算,得到融合向量,其中,所述融合向量包括重合的用户信息的第一加密特征向量的融合计算结果、重合的项目信息的第二加密特征向量的融合计算结果、非重合的用户信息的第一加密特征向量和非重合的项目信息的第二加密特征向量。
6.一种基于隐私保护的跨域推荐模型训练方法,其特征在于,应用于训练系统,所述训练系统包括源域单元和目标域单元,所述训练方法包括:
所述源域单元获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息,提取所述源域用户信息的第三特征向量及所述源域项目信息的第四特征向量,对所述第三特征向量、所述第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量,并将所述第三加密特征向量、所述第四加密特征向量及所述第一标注关联信息发送至所述目标域单元;
所述目标域单元获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息,提取所述目标域用户信息的第五特征向量及所述目标域项目信息的第六特征向量,基于所述源域单元发送的所述第三加密特征向量、所述第四加密特征向量、所述第五特征向量、所述第六特征向量,进行向量融合处理,得到融合向量,并基于所述融合向量及所述第一标注关联信息、所述第二标注关联信息,训练跨域推荐模型。
7.根据权利要求6所述的跨域推荐模型训练方法,其特征在于,所述源域单元提取所述源域用户信息的第三特征向量及所述源域项目信息的第四特征向量的步骤,包括:
所述源域单元将所述源域用户信息、所述源域项目信息分别输入预设神经网络,经所述预设神经网络的隐层,提取出所述源域用户信息的第三特征向量、所述源域项目信息的第四特征向量。
8.根据权利要求6所述的跨域推荐模型训练方法,其特征在于,所述源域单元对所述第三特征向量、所述第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量的步骤,包括:
所述源域单元分别在所述第三特征向量、所述第四特征向量中加入服从差分隐私的噪声数据,得到第三加密特征向量和第四加密特征向量。
9.根据权利要求6所述的跨域推荐模型训练方法,其特征在于,所述目标域单元提取所述目标域用户信息的第五特征向量及所述目标域项目信息的第六特征向量的步骤,包括:
所述目标域单元将所述目标域用户信息、所述目标域项目信息分别输入预设神经网络,经所述预设神经网络的隐层,提取出所述目标域用户信息的第五特征向量、所述目标域项目信息的第六特征向量。
10.根据权利要求6-9任一项所述的跨域推荐模型训练方法,其特征在于,所述源域用户信息与所述目标域用户信息有重合,所述源域项目信息与所述目标域项目信息不同;
所述目标域单元基于所述源域单元发送的所述第三加密特征向量、所述第四加密特征向量、所述第五特征向量、所述第六特征向量,进行向量融合处理,得到融合向量的步骤,包括:
所述目标域单元利用预设的融合函数,对所述第三加密特征向量和所述第五特征向量中重合的用户信息的特征向量进行融合计算,得到融合向量,其中,所述融合向量包括重合的用户信息的特征向量的融合计算结果、所述第三加密特征向量和所述第五特征向量中非重合的用户信息的特征向量、所述第四加密特征向量、所述第六特征向量。
11.根据权利要求6-9任一项所述的跨域推荐模型训练方法,其特征在于,所述源域用户信息与所述目标域用户信息有重合,所述源域项目信息与所述目标域项目信息有重合;
所述目标域单元基于所述源域单元发送的所述第三加密特征向量、所述第四加密特征向量、所述第五特征向量、所述第六特征向量,进行向量融合处理,得到融合向量的步骤,包括:
所述目标域单元利用预设的融合函数,对所述第三加密特征向量和所述第五特征向量中重合的用户信息的特征向量进行融合计算,对所述第四加密特征向量和所述第六特征向量中重合的项目信息的特征向量进行融合计算,得到融合向量,其中,所述融合向量包括重合的用户信息的特征向量的融合计算结果、重合的项目信息的特征向量的融合计算结果、所述第三加密特征向量和所述第五特征向量中非重合的用户信息的特征向量、所述第四加密特征向量和所述第六特征向量中非重合的项目信息的特征向量。
12.一种跨域推荐方法,其特征在于,包括:
获取指定用户的用户信息;
将所述用户信息输入跨域推荐模型,得到针对所述指定用户的项目推荐信息,其中,所述跨域推荐模型为利用如权利要求1-5任一项或6-11任一项所述的跨域推荐模型训练方法训练得到。
13.一种训练系统,其特征在于,所述训练系统包括计算单元和多个数据域单元;
所述多个数据域单元中的各数据域单元,被配置为获取相应数据域生成的用户信息、项目信息以及用户与项目的标注关联信息,提取所述用户信息的第一特征向量及所述项目信息的第二特征向量,对所述第一特征向量、所述第二特征向量分别进行数据加密,得到第一加密特征向量和第二加密特征向量,并将所述第一加密特征向量和所述第二加密特征向量发送至所述计算单元;
所述计算单元,被配置为对所述各数据域单元发送的所述第一加密特征向量、所述第二加密特征向量进行向量融合处理,得到融合向量,并将所述融合向量反馈至所述各数据域单元;
所述各数据域单元,还被配置为基于所述融合向量及所述标注关联信息,训练跨域推荐模型。
14.一种训练系统,其特征在于,所述训练系统包括源域单元和目标域单元;
所述源域单元,被配置为获取源域生成的源域用户信息、源域项目信息以及源域用户与源域项目的第一标注关联信息,提取所述源域用户信息的第三特征向量及所述源域项目信息的第四特征向量,对所述第三特征向量、所述第四特征向量分别进行数据加密,得到第三加密特征向量和第四加密特征向量,并将所述第三加密特征向量、所述第四加密特征向量及所述第一标注关联信息发送至所述目标域单元;
所述目标域单元,被配置为获取目标域生成的目标域用户信息、目标域项目信息以及目标域用户与目标域项目的第二标注关联信息,提取所述目标域用户信息的第五特征向量及所述目标域项目信息的第六特征向量,基于所述源域单元发送的所述第三加密特征向量、所述第四加密特征向量、所述第五特征向量、所述第六特征向量,进行向量融合处理,得到融合向量,并基于所述融合向量及所述第一标注关联信息、所述第二标注关联信息,训练跨域推荐模型。
15.一种跨域推荐装置,其特征在于,包括:
获取模块,被配置为获取指定用户的用户信息;
推荐模块,被配置为将所述用户信息输入跨域推荐模型,得到针对所述指定用户的项目推荐信息,其中,所述跨域推荐模型为利用如权利要求1-5任一项或6-11任一项所述的跨域推荐模型训练方法训练得到。
16.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求12所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求12所述方法的步骤。
CN202110662599.5A 2021-06-15 2021-06-15 基于隐私保护的跨域推荐模型训练方法及训练系统 Active CN113312644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662599.5A CN113312644B (zh) 2021-06-15 2021-06-15 基于隐私保护的跨域推荐模型训练方法及训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662599.5A CN113312644B (zh) 2021-06-15 2021-06-15 基于隐私保护的跨域推荐模型训练方法及训练系统

Publications (2)

Publication Number Publication Date
CN113312644A CN113312644A (zh) 2021-08-27
CN113312644B true CN113312644B (zh) 2022-05-24

Family

ID=77378844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662599.5A Active CN113312644B (zh) 2021-06-15 2021-06-15 基于隐私保护的跨域推荐模型训练方法及训练系统

Country Status (1)

Country Link
CN (1) CN113312644B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139052B (zh) * 2021-11-19 2022-10-21 北京百度网讯科技有限公司 用于智能推荐的排序模型训练方法、智能推荐方法及装置
CN114048826B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 一种推荐模型训练方法、装置、设备及介质
CN116502271B (zh) * 2023-06-21 2023-09-19 杭州金智塔科技有限公司 基于生成模型的隐私保护跨域推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984733A (zh) * 2018-07-13 2018-12-11 北京京东金融科技控股有限公司 跨域数据融合方法、系统以及存储介质
CN109389168A (zh) * 2018-09-29 2019-02-26 国信优易数据有限公司 项目推荐模型训练方法、项目推荐方法以及装置
CN110059262A (zh) * 2019-04-19 2019-07-26 武汉大学 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法
CN112699310A (zh) * 2020-12-30 2021-04-23 航天信息股份有限公司 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN112734104A (zh) * 2021-01-06 2021-04-30 河北工业大学 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200366459A1 (en) * 2019-05-17 2020-11-19 International Business Machines Corporation Searching Over Encrypted Model and Encrypted Data Using Secure Single-and Multi-Party Learning Based on Encrypted Data
US20210110306A1 (en) * 2019-10-14 2021-04-15 Visa International Service Association Meta-transfer learning via contextual invariants for cross-domain recommendation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984733A (zh) * 2018-07-13 2018-12-11 北京京东金融科技控股有限公司 跨域数据融合方法、系统以及存储介质
CN109389168A (zh) * 2018-09-29 2019-02-26 国信优易数据有限公司 项目推荐模型训练方法、项目推荐方法以及装置
CN110059262A (zh) * 2019-04-19 2019-07-26 武汉大学 一种基于混合神经网络的项目推荐模型的构建方法及装置、项目推荐方法
CN112699310A (zh) * 2020-12-30 2021-04-23 航天信息股份有限公司 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN112734104A (zh) * 2021-01-06 2021-04-30 河北工业大学 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法

Also Published As

Publication number Publication date
CN113312644A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113312644B (zh) 基于隐私保护的跨域推荐模型训练方法及训练系统
CN107729937B (zh) 用于确定用户兴趣标签的方法及装置
Al Dmour et al. The influence of mobile application quality and attributes on the continuance intention of mobile shopping
CN112000819B (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
JP7029003B2 (ja) パスワード保護質問設定方法及び装置
JP7095140B2 (ja) 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体
Layton et al. Authorship attribution of irc messages using inverse author frequency
CN112989399A (zh) 数据处理系统及方法
CN112446736A (zh) 一种点击通过率ctr预测方法及装置
CN107005576A (zh) 从服务器日志生成用于链接标识符的桥接匹配标识符
CN112561644B (zh) 基于链接预测的商品推荐方法、装置及相关设备
JP7113822B2 (ja) 実世界コンバージョントラッキングシステム
CN113761350A (zh) 一种数据推荐方法、相关装置和数据推荐系统
CN111787042B (zh) 用于推送信息的方法和装置
CN104318168B (zh) 一种虚拟机镜像文件的加密、解密方法和系统
CN116226532A (zh) 基于联邦学习的信息推荐方法及相关装置
Koneru et al. Sentiment analysis on top five cloud service providers in the market
Solanki et al. Secure Online Book Resale Store System using Machine Learning
Panda et al. Teach LLMs to Phish: Stealing Private Information from Language Models
Himangi et al. Investigating Role of Deep Learning in Metaverse
Vithya et al. Recommendation system based on optimal feature selection algorithm for predictive analysis
Li et al. Task-agnostic privacy-preserving representation learning via federated learning
Kosaka et al. A Service Field Concept for Service Value Creation
Divekar et al. Machine Learning Based Customized Online Commercial Business Model
CN117077816B (zh) 联邦模型的训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant