CN117421486B - 基于球树算法和联邦学习的推荐模型更新系统及方法 - Google Patents

基于球树算法和联邦学习的推荐模型更新系统及方法 Download PDF

Info

Publication number
CN117421486B
CN117421486B CN202311738313.2A CN202311738313A CN117421486B CN 117421486 B CN117421486 B CN 117421486B CN 202311738313 A CN202311738313 A CN 202311738313A CN 117421486 B CN117421486 B CN 117421486B
Authority
CN
China
Prior art keywords
data
distance
target
sub
distance data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311738313.2A
Other languages
English (en)
Other versions
CN117421486A (zh
Inventor
王克华
陈超超
郑小林
鲍力成
张建勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jinzhita Technology Co ltd
Original Assignee
Hangzhou Jinzhita Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jinzhita Technology Co ltd filed Critical Hangzhou Jinzhita Technology Co ltd
Priority to CN202311738313.2A priority Critical patent/CN117421486B/zh
Publication of CN117421486A publication Critical patent/CN117421486A/zh
Application granted granted Critical
Publication of CN117421486B publication Critical patent/CN117421486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供基于球树算法和联邦学习的推荐模型更新系统及方法,所述系统包括至少两个参与方和服务提供方,至少两个参与方分别持有的用户行为数据具有数据对齐关系,服务提供方持有用户行为数据的数据标识:至少两个参与方中的目标参与方计算第一距离数据,并将第一距离数据发送至服务提供方;服务提供方基于第一距离数据确定初始距离数据;基于初始距离数据确定第一标识;将第一标识分别发送至至少两个参与方;目标参与方确定第二距离数据,将第二距离数据发送至服务提供方;服务提供方基于第二距离数据确定第二标识;将第二标识分别发送至至少两个参与方;目标参与方根据第一标识和第二标识对目标用户行为数据进行划分,生成目标推荐模型。

Description

基于球树算法和联邦学习的推荐模型更新系统及方法
技术领域
本说明书涉及计算机技术领域,特别涉及一种基于球树算法和联邦学习的推荐模型更新系统及方法。
背景技术
随着计算机技术的发展,数据安全问题也日渐获得重视。在基于用户的行为信息、个人信息进行推荐或预测场景下,通常会用到隐私计算、联邦学习等技术手段。然而这种方法虽然能够实现保护用户隐私的目的,但是在模型训练完成后的应用阶段,每次执行预测任务或推荐任务,均需要遍历所有数据,才能够达到预测或推荐的目的,模型处理效率低。因此,亟需一种较为有效的方法以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种基于球树算法和联邦学习的推荐模型更新系统。本说明书同时涉及一种基于球树算法和联邦学习的推荐模型更新方法,一种基于球树算法和联邦学习的推荐系统,一种基于球树算法和联邦学习的推荐方法,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于球树算法和联邦学习的推荐模型更新系统,所述系统包括至少两个参与方和服务提供方,所述至少两个参与方分别持有的用户行为数据具有数据对齐关系,所述服务提供方持有用户行为数据的数据标识:
所述至少两个参与方中的目标参与方,用于计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至所述服务提供方;
所述服务提供方,用于基于接收到的所述至少两个参与方分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在所述数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方,其中,所述至少两个参与方分别对应的第一距离数据具有数据互补关系;
所述目标参与方,用于基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方;
所述服务提供方,用于基于接收到的所述至少两个参与方分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方;
所述目标参与方,用于根据所述第一标识和所述第二标识确定数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
可选地,所述目标参与方,用于确定所述目标用户行为数据对应的第一中心数据;计算所述目标用户行为数据中至少两个第一用户子数据分别相对于所述第一中心数据的初始子距离数据,并基于至少两个初始子距离数据确定所述第一距离数据。
可选地,在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方,用于确定每个第一用户子数据分别对应的第一子数据标识;根据每个第一用户子数据分别对应的第一子数据标识,在所述第一参与方的第一距离数据和所述第二参与方的第一距离数据中确定具有数据互补关系的第一子距离数据和第二子距离数据;基于每个第一子数据标识对应的第一子距离数据和第二子距离数据组成第一距离数据对,并根据每个第一子数据标识对应的第一距离数据对计算每个第一用户子数据相对于所述第一中心数据的初始距离子数据;在每个第一用户子数据相对于所述第一中心数据的初始距离子数据中选择初始距离数据。
可选地,所述目标参与方,用于基于所述第一标识在所述目标用户行为数据中确定第二中心数据;计算所述目标用户行为数据中至少两个第二用户子数据分别相对于所述第二中心数据的中间子距离数据,并基于至少两个中间子距离数据确定所述第二距离数据。
可选地,在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方,用于确定每个第二用户子数据分别对应的第二子数据标识;根据每个第二用户子数据分别对应的第二子数据标识,在所述第一参与方的第二距离数据和所述第二参与方的第二距离数据中确定具有数据互补关系的第三子距离数据和第四子距离数据;基于每个第二子数据标识对应的第三子距离数据和第四子距离数据组成第二距离数据对,并根据每个第二子数据标识对应的第二距离数据对计算每个第二用户子数据相对于所述第二中心数据的目标距离子数据;在每个第二用户子数据相对于所述第二中心数据的目标距离子数据中选择目标距离数据。
可选地,所述目标参与方,用于根据所述第一标识在所述目标用户行为数据中确定第一划分数据,以及根据所述第二标识在所述目标用户行为数据中确定第二划分数据;根据所述目标用户行为数据中待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中待划分数据分别与所述第二划分数据之间的第二划分距离确定所述数据划分路径。
可选地,所述目标参与方,用于确定所述目标用户行为数据中至少两个待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中至少两个待划分数据分别与所述第二划分数据之间的第二划分距离;在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择至少两个待划分数据分别对应的目标划分距离,并基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径;基于至少两个数据划分子路径组成所述数据划分路径。
可选地,所述目标参与方,用于基于预设加密数据对所述第一距离数据进行加密,并将加密后的第一距离数据发送至所述服务提供方;
相应的,所述目标参与方,用于基于所述预设加密数据对所述第二距离数据进行加密,并将加密后的第二距离数据发送至所述服务提供方。
可选地,所述目标参与方,用于基于所述数据划分路径将所述目标用户行为数据划分为第一子节点数据和第二子节点数据;分别将所述第一子节点数据和第二子节点数据作为所述目标用户行为数据,并执行所述计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据的步骤,直至获得目标推荐模型。
可选地,所述目标参与方,还用于在接收到携带用户信息的商品推荐请求的情况下,将所述用户信息输入至所述目标推荐模型,获得与所述用户信息匹配的目标商品。
根据本说明书实施例的第二方面,提供了一种基于球树算法和联邦学习的推荐模型更新方法,包括:
至少两个参与方中的目标参与方计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至服务提供方,其中,所述至少两个参与方分别持有的用户行为数据具有数据对齐关系;
所述服务提供方基于接收到的所述至少两个参与方分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在所述数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方,其中,所述至少两个参与方分别对应的第一距离数据具有数据互补关系其中,所述服务提供方持有用户行为数据的数据标识;
所述目标参与方基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方;
所述服务提供方基于接收到的所述至少两个参与方分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方;
所述目标参与方根据所述第一标识和所述第二标识确定数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
根据本说明书实施例的第三方面,提供了一种基于球树算法和联邦学习的推荐系统,所述系统包括第一参与方、第二参与方和服务提供方;所述第一参与方持有目标用户的第一用户数据,所述第二参与方持有所述目标用户的第二用户数据;所述第一用户数据和所述第二用户数据之间具有数据对齐关系;
所述第一参与方,用于接收所述目标用户提交的推荐请求,并基于所述推荐请求将所述第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据;将所述第一推荐距离数据发送至所述服务提供方;以及向所述第二参与方发送关联所述目标用户的关联推荐请求;其中,所述第一目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;
所述第二参与方,用于将所述第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据;将所述第二推荐距离数据发送至所述服务提供方;其中,所述第二目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;
所述服务提供方,用于基于所述第一推荐距离数据和所述第二推荐距离数据确定目标推荐距离数据,并将所述目标推荐距离数据发送至所述第一参与方;
所述第一参与方,用于基于所述目标推荐距离数据确定与所述推荐请求对应的推荐信息并反馈至所述目标用户。
根据本说明书实施例的第四方面,提供了一种基于球树算法和联邦学习的推荐方法,包括:
第一参与方接收所述目标用户提交的推荐请求,并基于所述推荐请求将所述第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据;将所述第一推荐距离数据发送至服务提供方;以及向所述第二参与方发送关联所述目标用户的关联推荐请求;其中,所述第一目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述第一参与方持有目标用户的第一用户数据;
第二参与方将所述第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据;将所述第二推荐距离数据发送至所述服务提供方;其中,所述第二目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述第二参与方持有所述目标用户的第二用户数据;所述第一用户数据和所述第二用户数据之间具有数据对齐关系;
服务提供方基于所述第一推荐距离数据和所述第二推荐距离数据确定目标推荐距离数据,并将所述目标推荐距离数据发送至所述第一参与方;
第一参与方基于所述目标推荐距离数据确定与所述推荐请求对应的推荐信息并反馈至所述目标用户。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该指令被处理器执行时实现所述基于球树算法和联邦学习的推荐模型更新方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述基于球树算法和联邦学习的推荐模型更新方法的步骤。
本说明书提供的基于球树算法和联邦学习的推荐模型更新系统包括至少两个参与方和服务提供方,至少两个参与方分别持有的用户行为数据具有数据对齐关系,服务提供方持有用户行为数据的数据标识:至少两个参与方中的目标参与方,用于计算目标用户行为数据相对于目标用户行为数据对应的第一中心数据的第一距离数据,并将第一距离数据发送至服务提供方;服务提供方,用于基于接收到的至少两个参与方分别提交的第一距离数据确定初始距离数据;基于初始距离数据在数据标识中确定第一标识;将第一标识分别发送至至少两个参与方,其中,至少两个参与方分别对应的第一距离数据具有数据互补关系;目标参与方,用于基于目标用户行为数据和第一标识确定第二距离数据,并将第二距离数据发送至服务提供方;服务提供方,用于基于接收到的至少两个参与方分别提交的第二距离数据确定目标距离数据;基于目标距离数据在数据标识中确定第二标识;将第二标识分别发送至至少两个参与方;目标参与方,用于根据第一标识和第二标识确定数据划分路径,并基于数据划分路径对目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
本说明书实施例中,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
附图说明
图1是本说明书一实施例提供的一种基于球树算法和联邦学习的推荐模型更新系统的示意图;
图2是本说明书一实施例提供的一种基于球树算法和联邦学习的推荐模型更新系统的结构示意图;
图3是本说明书一实施例提供的一种基于球树算法和联邦学习的推荐模型更新方法的流程图;
图4是本说明书一实施例提供的一种应用于商品推荐的基于球树算法和联邦学习的推荐模型更新方法的交互示意图;
图5是本说明书一实施例提供的一种基于球树算法和联邦学习的推荐系统的结构示意图;
图6是本说明书一实施例提供的一种基于球树算法和联邦学习的推荐方法的流程图;
图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
隐私计算:一种旨在保护个体隐私的计算方法,允许在保护数据隐私的前提下进行数据分析和计算。利用隐私计算技术可以使得多个数据持有方在不泄露己方隐私数据的情况下进行联合数据分析和建模,实现数据可用不可见。
联邦学习:一种通过分布在多个设备(例如手机或服务器)上的数据进行模型训练的方法,而不需要将这些数据集中存储。这样可以更好地保护数据隐私和安全,同时可以利用各个设备上的数据进行全局优化。在联邦学习中,最近邻算法(如K-最近邻)也有其应用场景。
球树(Ball Tree):一种用于高效空间搜索的数据结构,常用于数据点的最近邻搜索。球树使用超球体(球)作为节点来进行空间的划分。球树的基本原理是将数据集划分为一系列嵌套的超球体,每个超球体内部的数据点都被认为在某种意义上是“接近”的。这样,对于一个给定查询点,我们可以快速确定哪些超球体可能包含最近邻点,从而避免遍历整个数据集。
随机种子(Random Seed):计算机专业术语,一种以随机数作为对象的以真随机数(种子)为初始条件的随机数。一般计算机的随机数都是伪随机数,以一个真随机数(种子)作为初始条件,然后用一定的算法不停迭代产生随机数。
参见图1所示的示意图,本说明书一实施例提供的基于球树算法和联邦学习的推荐模型更新系统包括至少两个参与方和服务提供方,至少两个参与方分别持有的用户行为数据具有数据对齐关系,服务提供方持有用户行为数据的数据标识:至少两个参与方中的任意一个参与方均可作为目标参与方,至少两个参与方分别作为目标参与方与服务提供方进行数据交互。目标参与方确定目标用户行为数据对应的第一中心数据,计算目标用户行为数据相对于第一中心数据的第一距离数据,并将第一距离数据发送至服务提供方。服务提供方基于接收到的至少两个参与方分别提交的第一距离数据计算初始距离数据,并基于初始距离数据在数据标识中确定第一标识,将第一标识分别发送至至少两个参与方。至少两个参与方分别对应的第一距离数据具有数据互补关系,即,至少两个参与方分别对应的第一距离数据能够组成目标用户行为数据中的子数据分别与所述第一中心数据之间的距离数据。目标参与方基于目标用户行为数据和第一标识确定第二距离数据,并将第二距离数据发送至服务提供方。服务提供方于接收到的至少两个参与方分别提交的第二距离数据确定目标距离数据。基于目标距离数据在数据标识中确定第二标识,并将第二标识分别发送至至少两个参与方。目标参与方根据第一标识和第二标识确定数据划分路径,并基于数据划分路径对目标用户行为数据进行划分,根据划分结果生成目标推荐模型。目标推荐模型用于在执行推荐任务时实现数据预测。
综上所述,本说明书实施例中,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
在本说明书中,提供了一种基于球树算法和联邦学习的推荐模型更新系统。本说明书同时涉及一种基于球树算法和联邦学习的推荐模型更新方法,一种基于球树算法和联邦学习的推荐系统,一种基于球树算法和联邦学习的推荐方法,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图2示出了根据本说明书一实施例提供的一种基于球树算法和联邦学习的推荐模型更新系统的结构示意图。基于球树算法和联邦学习的推荐模型更新系统200包括至少两个参与方210和服务提供方220,所述至少两个参与方210分别持有的用户行为数据具有数据对齐关系,所述服务提供方220持有用户行为数据的数据标识:所述至少两个参与方210中的目标参与方,用于计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至所述服务提供方220;所述服务提供方220,用于基于接收到的所述至少两个参与方210分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在所述数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方210,其中,所述至少两个参与方210分别对应的第一距离数据具有数据互补关系;所述目标参与方,用于基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方220;所述服务提供方220,用于基于接收到的所述至少两个参与方210分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方210;所述目标参与方,用于根据所述第一标识和所述第二标识确定数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
具体的,至少两个参与方210为针对推荐模型进行训练的参与方;服务提供方220用于提供推荐模型进行训练过程中的计算服务和标识确定服务;推荐模型的本质即为球树结构;至少两个参与方210分别持有的用户行为数据具有数据对齐关系,也就是至少两个参与方210分别持有的用户行为数据为相同用户在不同维度或领域的数据;例如相同用于在电商、医疗等领域的行为数据;数据标识可以是数据索引,服务提供方220以索引的形式存储用户行为数据,数据标识表示用户行为数据的索引信息,可以以标号的形式记录用户行为数据;第一中心数据是指在目标用户行为数据为空间分布表示的情况下,处于数据中心位置的数据;即,以空间坐标表示目标用户行为数据中的每个行为数据,处于数据中心位置的数据即为第一中心数据;目标用户行为数据由用户的多个行为数据组成,每个行为数据可以代表用户一个维度的特征数据,因此第一中心数据的确定可以是基于至少两个行为数据对应的特征数据进行求和取均值确定;第一距离数据是指目标用户行为数据中每个第一用户子数据分别相对于第一中心数据的距离组成的数据集;初始距离数据即为对至少两个参与方210分别提交的第一距离数据进行计算获得的数据;至少两个参与方210分别提交的第一距离数据可以分别为针对同一第一用户子数据的不同坐标维度的数据;第一参与方提供的第一距离数据为坐标系下X轴维度的数据;第二参与方提供的第一距离数据为坐标系下Y轴维度的数据;进而基于X轴维度的数据和Y轴维度的数据计算初始距离数据;数据互补关系即为在坐标系下互补的坐标数据关系,即,第一参与方提供的第一距离数据与第二参与方提供的第一距离数据为空间分布中相同的坐标点的不同坐标维度。
第一标识即为基于初始距离数据确定的,在空间分布维度距离第一中心数据最远的第一用户子数据的标识;第二距离数据是指目标用户行为数据中每个第二用户子数据分别相对于第一标识对应的第二中心数据的距离组成的数据集;目标距离数据即为对至少两个参与方210分别提交的第二距离数据进行计算获得的数据;第二距离的计算可以参考第一距离的计算;相应的,第二标识的确定过程也可以参考第一标识的确定过程,是基于目标距离数据确定的,在空间分布维度距离第二中心数据最远的第二用户子数据的标识;数据划分路径是指目标用户行为数据中的用户数据分别相对于第一中心数据和第二中心数据的划分结果,基于目标用户行为数据中的用户数据分别相对于第一中心数据和第二中心数据的距离确定;目标推荐模型即为构建完成的球树模型,用于执行推荐任务时针对目标用户进行信息预测。
基于此,基于球树算法和联邦学习的推荐模型更新系统200包括至少两个参与方210和服务提供方220,至少两个参与方210分别持有具有数据对齐关系的不同维度的用户行为数据,服务提供方220持有用户行为数据中每个用户数据的数据标识:至少两个参与方210中的目标参与方计算目标用户行为数据相对于目标用户行为数据对应的第一中心数据的第一距离数据,并将第一距离数据发送至服务提供方220。服务提供方220,接收到的是至少两个参与方210分别提交的第一距离数据,基于至少两个参与方210分别提交的第一距离数据,进行联合计算,确定初始距离数据。基于初始距离数据在数据标识中确定第一标识,将第一标识分别发送至至少两个参与方210,至少两个参与方210分别对应的第一距离数据在具有数据对齐关系的基础上还具有数据互补关系。目标参与方基于目标用户行为数据和第一标识确定第二距离数据,并将第二距离数据发送至服务提供方220。服务提供方220基于接收到的至少两个参与方210分别提交的第二距离数据确定目标距离数据。基于目标距离数据在数据标识中确定第二标识,将第二标识分别发送至至少两个参与方210。目标参与方根据第一标识和第二标识确定数据划分路径,并基于数据划分路径对目标用户行为数据进行划分,根据划分结果生成初始推荐模型;将初始推荐模型分别对应的以第一中心数据为中心的数据集,以及以第二中心数据为中心的数据集分别作为目标用户行为数据,并进行上述步骤对应的处理,直至获得目标推荐模型。
举例说明,至少两个参与方可以包含第一参与方和第二参与方,第一参与方持有用户集合中用户在电商领域的数据;第二参与方持有用户集合中用户在通信领域的数据;双方基于联邦学习集合各自持有的数据实现推荐模型的训练。第一参与方和第二参与方针对自身持有的数据同时进行相同的处理操作,即双方同时确定商领域的数据以及通信领域的数据分别对应的数据中心,第一参与方计算电商领域的数据与电商领域的数据对应的数据中心之间的距离作为第一距离数据发送至服务提供方;第二参与方计算通信领域的数据与通信领域的数据对应的数据中心之间的距离作为第一距离数据发送至服务提供方;服务提供方基于双方提供的第一距离数据计算初始距离数据,确定与中心数据之间距离最远的数据标识,并分别发送至第一参与方和第二参与方。第一参与方和第二参与方能够基于数据标识确定第一中心数据,基于相同的方法,在确定距离第一中心数据距离最远的第二中心数据,第一参与方和第二参与方各自分别基于第一中心数据和第二中心数据将持有的用户数据划分为两组,构建球树的两个节点,在将球树的两个节点分别作为根节点继续进行划分,直至获得的节点为叶子结点无法继续进行划分,获得的推荐模型即为球树结构的目标推荐模型。
综上所述,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
进一步的,考虑到目标用户行为数据中包含至少一个第一用户子数据,因此在计算第一距离数据时,需要基于全部第一用户子数据进行计算,具体实施时,所述目标参与方,用于确定所述目标用户行为数据对应的第一中心数据;计算所述目标用户行为数据中至少两个第一用户子数据分别相对于所述第一中心数据的初始子距离数据,并基于至少两个初始子距离数据确定所述第一距离数据。
具体的,第一用户子数据是指目标用户行为数据中除第一中心数据之外的用户行为数据;相应的,初始子距离数据即为每个第一用户子数据与第一中心数据之间的距离数据。
基于此,目标参与方基于目标用户行为数据中各行为数据对应维度计算目标用户行为数据对应的维度均值,将维度均值对应的用户行为数据作为第一中心数据,或者将维度均值作为第一中心数据。计算目标用户行为数据中至少两个第一用户子数据分别相对于第一中心数据的初始子距离数据,并由至少两个初始子距离数据组成第一距离数据。
沿用上例,目标参与方可以为至少两个参与方中的任意一个参与方。第一参与方基于电商领域的数据中包含的每个维度的电商子数据计算维度均值,将维度均值作为第一中心数据。分别计算电商领域的数据中每个维度的电商子数据分别与第一中心数据之间的初始子距离数据,由电商领域的数据中每个维度的电商子数据分别对应的初始子距离数据组成第一距离数据。
综上所述,基于目标用户行为数据对应的全部第一用户子数据进行计算第一距离数据,从而提高数据处理的全面性,每个第一用户子数据均作为目标推荐模型训练过程中的影响因子,提高目标推荐模型的准确度。
进一步的,考虑到服务提供方220接收到的第一距离数据是至少两个参与方210同时发送的,因此在后续处理过程中,也需要基于至少两个参与方210分别发送的第一距离数据进行处理,具体实施时,在所述至少两个参与方210包含第一参与方和第二参与方的情况下,所述服务提供方220,用于确定每个第一用户子数据分别对应的第一子数据标识;根据每个第一用户子数据分别对应的第一子数据标识,在所述第一参与方的第一距离数据和所述第二参与方的第一距离数据中确定具有数据互补关系的第一子距离数据和第二子距离数据;基于每个第一子数据标识对应的第一子距离数据和第二子距离数据组成第一距离数据对,并根据每个第一子数据标识对应的第一距离数据对计算每个第一用户子数据相对于所述第一中心数据的初始距离子数据;在每个第一用户子数据相对于所述第一中心数据的初始距离子数据中选择初始距离数据。
具体的,第一子数据标识是指服务提供方220持有的与第一用户子数据对应的标识信息,第一子数据标识可以是符号或字符的表达形式;第一子距离数据选自第一参与方的第一距离数据,第二子距离数据选自第二参与方的第一距离数据,且第一子距离数据和第二子距离数据的选择是基于第一子数据标识实现的,第一子距离数据和第二子距离数据均对应相同的第一子数据标识;第一距离数据对即为第一子距离数据和第二子距离数据组成的两个关联数据,二者均对应第一子数据标识;初始距离子数据即为基于第一距离数据对中第一子距离数据和第二子距离数据计算获得的第一用户子数据相对于所述第一中心数据的距离数据。
基于此,在至少两个参与方210包含第一参与方和第二参与方的情况下,服务提供方220确定每个第一用户子数据分别对应的第一子数据标识;根据每个第一用户子数据分别对应的第一子数据标识,在第一参与方的第一距离数据中第一子距离数据,以及在第二参与方的第一距离数据中确定第二子距离数据,第一子距离数据和第二子距离数据之间具有数据互补关系。确定每个第一子数据标识对应的第一子距离数据和第二子距离数据,由每个第一子数据标识对应的第一子距离数据和第二子距离数据组成第一距离数据对。根据每个第一子数据标识对应的第一距离数据对中的第一子距离数据和第二子距离数据计算每个第一用户子数据相对于第一中心数据的初始距离子数据,分别将第一子距离数据和第二子距离数据作为坐标系中X轴维度的距离数据和Y轴维度的距离数据,并计算初始距离子数据。在每个第一用户子数据相对于第一中心数据的初始距离子数据中选择初始距离数据。
沿用上例,服务提供方分别获得第一参与方发送的电商领域的数据对应的第一距离数据,以及第二参发送的通信领域的数据对应的第一距离数据。在双方发送的第一距离数据中,基于数据标识对双方发送的第一距离数据中的第一子距离数据和第二子距离数据进行对应,组成第一距离数据对,并基于第一距离数据对中来自第一参与方的第一子距离数据和来自第二参与方的第二子距离数据计算每个第一距离数据对的初始距离子数据,根据初始距离子数据选择数值最大的第一距离数据对,将这一第一距离数据对的初始距离子数据作为初始距离数据。
综上所述,服务提供方在每个第一用户子数据相对于所述第一中心数据的初始距离子数据中选择初始距离数据。从而达到选取最大距离对应的初始距离数据的目的。
进一步的,考虑到目标用户行为数据中包含至少一个第二用户子数据,因此在计算第二距离数据时,需要基于全部第二用户子数据进行计算,具体实施时,所述目标参与方,用于基于所述第一标识在所述目标用户行为数据中确定第二中心数据;计算所述目标用户行为数据中至少两个第二用户子数据分别相对于所述第二中心数据的中间子距离数据,并基于至少两个中间子距离数据确定所述第二距离数据。
具体的,第二用户子数据是指目标用户行为数据中除第二中心数据之外的用户行为数据;相应的,中间子距离数据即为每个第二用户子数据与第二中心数据之间的距离数据。
基于此,目标参与方基于第一标识在目标用户行为数据中确定第二中心数据。计算目标用户行为数据中至少两个第二用户子数据分别相对于第二中心数据的中间子距离数据,并由至少两个中间子距离数据组成第二距离数据。
沿用上例,针对第一参与方,在第一标识为1的情况下,则在电商领域的数据中确定标识为1的电商子数据,将电商子数据作为第二中心数据。分别计算电商领域的数据中每个维度的电商子数据分别与第二中心数据之间的中间子距离数据,由电商领域的数据中每个维度的电商子数据分别对应的中间子距离数据组成第二距离数据。
综上所述,计算目标用户行为数据中至少两个第二用户子数据分别相对于第二中心数据的中间子距离数据,并由至少两个中间子距离数据组成第二距离数据,从而在第二距离计算时,目标用户行为数据中至少两个第二用户子数据均能够影响计算结果,提高数据多样性。
进一步的,考虑到服务提供方220接收到的第二距离数据是至少两个参与方210同时发送的,因此在后续处理过程中,也需要基于至少两个参与方210分别发送的第二距离数据进行处理,具体实施时,在所述至少两个参与方210包含第一参与方和第二参与方的情况下,所述服务提供方220,用于确定每个第二用户子数据分别对应的第二子数据标识;根据每个第二用户子数据分别对应的第二子数据标识,在所述第一参与方的第二距离数据和所述第二参与方的第二距离数据中确定具有数据互补关系的第三子距离数据和第四子距离数据;基于每个第二子数据标识对应的第三子距离数据和第四子距离数据组成第二距离数据对,并根据每个第二子数据标识对应的第二距离数据对计算每个第二用户子数据相对于所述第二中心数据的目标距离子数据;在每个第二用户子数据相对于所述第二中心数据的目标距离子数据中选择目标距离数据。
具体的,第二子数据标识是指服务提供方220持有的与第二用户子数据对应的标识信息,第二子数据标识可以是符号或字符的表达形式;第三子距离数据选自第一参与方的第二距离数据,第四子距离数据选自第二参与方的第二距离数据,且第三子距离数据和第四子距离数据的选择是基于第二子数据标识实现的,第三子距离数据和第四子距离数据均对应相同的第二子数据标识;第二距离数据对即为第三子距离数据和第四子距离数据组成的两个关联数据,二者均对应第二子数据标识;目标距离子数据即为基于第二距离数据对中第三子距离数据和第四子距离数据计算获得的第二用户子数据相对于所述第二中心数据的距离数据。
基于此,在至少两个参与方210包含第一参与方和第二参与方的情况下,服务提供方220确定每个第二用户子数据分别对应的第二子数据标识。根据每个第二用户子数据分别对应的第二子数据标识,在第一参与方的第二距离数据中选择第三子距离数据,以及在第二参与方的第二距离数据中选择第四子距离数据,第三子距离数据和第四子距离数据之间具有数据互补关系。基于每个第二子数据标识对应的第三子距离数据和第四子距离数据组成第二距离数据对。根据每个第二子数据标识对应的第二距离数据对中的第三子距离数据和第四子距离数据计算每个第二用户子数据相对于第二中心数据的目标距离子数据,分别将第三子距离数据和第四子距离数据作为坐标系中X轴维度的距离数据和Y轴维度的距离数据,并计算目标距离子数据。在第二用户子数据相对于所述第二中心数据的目标距离子数据中中选择目标距离数据。
沿用上例,服务提供方分别获得第一参与方发送的电商领域的数据对应的第二距离数据,以及第二参发送的通信领域的数据对应的第二距离数据。在双方发送的第二距离数据中,基于数据标识对双方发送的第二距离数据中的第三子距离数据和第四子距离数据进行对应,组成第二距离数据对,并基于第二距离数据对中来自第一参与方的第三子距离数据和来自第二参与方的第四子距离数据计算每个第二距离数据对的目标距离子数据,根据目标距离子数据选择数值最大的第二距离数据对,将这一第二距离数据对的目标距离子数据作为目标距离数据。
综上所述,服务提供方在每个第二用户子数据相对于所述第二中心数据的目标距离子数据中选择目标距离数据。从而达到选取最大距离对应的目标距离数据的目的,便于基于球树的目标推荐模型的训练。
进一步的,考虑到第一标识对应的数据和第二标识对应的数据分别为目标用户行为数据的划分基础,因此可以基于第一标识对应的数据和第二标识对应的数据确定数据划分路径,具体实施时,所述目标参与方,用于根据所述第一标识在所述目标用户行为数据中确定第一划分数据,以及根据所述第二标识在所述目标用户行为数据中确定第二划分数据;根据所述目标用户行为数据中待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中待划分数据分别与所述第二划分数据之间的第二划分距离确定所述数据划分路径。
具体的,目标用户行为数据中每个行为数据均对应一个标识数据,第一划分数据即为目标用户行为数据中与第一标识匹配的用户行为数据;相应的,第二划分数据即为目标行为数据中与第二标识匹配的用户行为数据;第一划分距离是指目标用户行为数据中至少两个待划分数据分别与第一划分数据之间的距离数据;相应的,第二划分距离是指目标用户行为数据中至少两个待划分数据分别与第二划分数据之间的距离数据。实际应用中,目标用户行为数据、第一划分数据和第二划分数据可以是坐标的表达形式,也可以是特征向量的表达形式,基于坐标或特征向量即可计算第一划分距离以及第二划分距离。
基于此,目标参与方根据第一标识在目标用户行为数据中确定数据标识与第一标识匹配的第一划分数据,以及根据第二标识在目标用户行为数据中确定数据标识与第一标识匹配的第二划分数据。确定目标用户行为数据中待划分数据分别与第一划分数据之间的第一划分距离,以及目标用户行为数据中待划分数据分别与第二划分数据之间的第二划分距离,基于第一划分距离和第二划分距离确定数据划分路径。
综上所述,基于目标用户行为数据中待划分数据分别与第一划分数据之间的第一划分距离,以及目标用户行为数据中待划分数据分别与第二划分数据之间的第二划分距离确定数据划分路径,从而达到将目标用户行为数据中待划分数据划分为两组的目的。
进一步的,考虑到至少两个待划分数据分别对应第一划分距离和第二划分距离,还需要针对第一划分距离和第二划分距离进行选择,选择一个距离作为目标划分距离,从而达到数据划分的目的,具体实施时,所述目标参与方,用于确定所述目标用户行为数据中至少两个待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中至少两个待划分数据分别与所述第二划分数据之间的第二划分距离;在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择至少两个待划分数据分别对应的目标划分距离,并基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径;基于至少两个数据划分子路径组成所述数据划分路径。
具体的,目标划分距离是第一划分距离和第二划分距离之间距离最短的一方,数据划分子路径是指目标划分距离对应的数据划分路径,是与待划分数据对应的数据划分目标,数据划分目标即为划分至第一划分数据对应的数据分组,或者划分至第二划分数据对应的数据分组。
基于此,目标参与方确定目标用户行为数据中至少两个待划分数据分别与第一划分数据之间的第一划分距离,以及目标用户行为数据中至少两个待划分数据分别与第二划分数据之间的第二划分距离。在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择距离最大者作为至少两个待划分数据分别对应的目标划分距离。基于至少两个目标划分距离分别对应的目标划分数据确定目标用户行为数据中至少两个待划分数据分别对应的数据划分子路径。基于至少两个数据划分子路径组成数据划分路径。
沿用上例,第一参与方基于第一标识在电商领域的数据中确定第一划分数据,以及基于第二标识在电商领域的数据中确定第二划分数据。第一划分数据为与第一中心数据之间距离最远的数据;第二划分数据是与第一划分数据之间距离最远的数据。分别以第一划分数据和第二划分数据为数据中心,依次计算电商领域的数据中每个电商子数据分别与第一划分数据和第二划分数据之间的距离。针对每个电商子数据在第一划分数据和第二划分数据之间选择距离最近的路径,作为数据划分子路径。基于第一划分数据对应的数据划分子路径,以及第二划分数据对应的数据划分子路径组成数据划分路径。第一划分数据对应的数据划分子路径以及第二划分数据对应的数据划分子路径表示将第一参与方持有的电商领域的数据划分为分别以第一划分数据和第二划分数据为核心的两组。
综上所述,在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择距离最大者作为至少两个待划分数据分别对应的目标划分距离,进而基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径,由至少两个数据划分子路径组成数据划分路径,从而实现对目标用户行为数据中的至少两个待划分数据分别确定数据划分子路径,提高数据处理的全面性。
进一步的,考虑到在进行目标推荐模型的训练时,是由至少两个参与方210和服务提供方220联合进行的,因此在训练过程中会涉及到多次数据传输,为了保证数据传输过程中的数据安全,可以在进行数据传输之前进行加密,具体实施时,所述目标参与方,用于基于预设加密数据对所述第一距离数据进行加密,并将加密后的第一距离数据发送至所述服务提供方220;相应的,所述目标参与方,用于基于所述预设加密数据对所述第二距离数据进行加密,并将加密后的第二距离数据发送至所述服务提供方220。
具体的,预设加密数据是指预先设定的加密数据,用于在目标参与方发送第一距离数据,以及第二距离数据之前进行加密,使得服务提供方220接收到加密后的第一距离数据和第二距离数据后,基于密文状态下的第一距离数据和第二距离数据进行处理,达到数据保密的作用,加密数据可以是随机生成的随机数,第一距离数据对应的预设加密数据和第二距离数据对应的预设加密数据可以分别基于随机种子确定。
基于此,目标参与方基于预设加密数据对第一距离数据进行加密,并将加密后的第一距离数据发送至服务提供方220,使得服务提供方220接收到的是密文状态下的第一距离数据。相应的,在目标参与方向服务提供方220发送第二距离数据时,基于预设加密数据对第二距离数据进行加密,并将加密后的第二距离数据发送至服务提供方220。
综上所述,在目标参与方将第一距离数据和第二距离数据发送至服务提供方之前,基于预设加密数据进行加密,从而提高数据传输的安全性。
进一步的,考虑到目标用户行为数据中包含多个用户行为数据,基于目标用户行为数据训练目标推荐模型时,则需要至少两个参与方210和服务提供方220协同重复执行确定数据划分路径的步骤,直至将目标用户行为数据中包含多个用户行为数据均进行划分,具体实施时,所述目标参与方,用于基于所述数据划分路径将所述目标用户行为数据划分为第一子节点数据和第二子节点数据;分别将所述第一子节点数据和第二子节点数据作为所述目标用户行为数据,并执行所述计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据的步骤,直至获得目标推荐模型。
基于此,目标参与方基于数据划分路径将目标用户行为数据划分为第一子节点数据和第二子节点数据。分别将第一子节点数据和第二子节点数据作为目标用户行为数据,并计算目标用户行为数据相对于目标用户行为数据对应的第一中心数据的第一距离数据。也就是将第一子节点数据作为目标用户行为数据,计算目标用户行为数据相对于目标用户行为数据对应的第一中心数据的第一距离数据;并将第一距离数据发送至服务提供方220,直至确定作为目标用户行为数据的第一子节点数据的数据划分路径,并对第一子节点数据进行划分。针对第二子节点数据也做与第一子节点数据相同的处理。直至基于确定的数据划分路径对目标用户行为数据对应的节点数据进行划分后,获得叶子节点数据,无法再继续划分,即获得目标推荐模型。
沿用上例,在将电商领域的数据划分为两组后,再将每组数据作为电商领域的数据继续进行划分,直至获得的数据分组不可再分。即完成了目标推荐模型待训练。
综上所述,通过基于目标用户行为数据进行循环迭代,确定数据划分路径并多次对目标用户行为数据进行划分,直至获得目标推荐模型,从而提高目标推荐模型的训练速度。获得具有较高预测精准度的目标推荐模型。
进一步的,在目标推荐模型训练完成后,即可基于目标推荐模型的预测实现商品推荐,具体实施时,所述目标参与方,还用于在接收到携带用户信息的商品推荐请求的情况下,将所述用户信息输入至所述目标推荐模型,获得与所述用户信息匹配的目标商品。
具体的,用户信息可以是待推荐用户的行为信息和标签信息,代表待推荐用户的身份;商品推荐请求是指用于获取推荐商品的计算机指令;目标商品即为针对待推荐用户,利用目标推荐模型预测获得的商品信息。
基于此,目标参与方在接收到携带用户信息的商品推荐请求的情况下,将用户信息输入至目标推荐模型,目标推荐模型基于用户信息进行匹配,获得与用户信息匹配的目标商品。
沿用上例,在目标用户需要获得商品信息的情况下,将目标用户的用户数据输入至目标推荐模型进行处理,由目标推荐模型预测目标用户对应的商品信息。
综上所述,通过训练完成获得的目标推荐模型实现基于用户信息进行商品信息的预测,从而提高预测效率。
本说明书实施例中,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
与上述系统实施例相对应,本说明书还提供了一种基于球树算法和联邦学习的推荐模型更新方法实施例,图3示出了根据本说明书一实施例提供的一种基于球树算法和联邦学习的推荐模型更新方法的流程图,具体包括以下步骤:
步骤S302,至少两个参与方中的目标参与方计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至服务提供方,其中,所述至少两个参与方分别持有的用户行为数据具有数据对齐关系;
步骤S304,所述服务提供方基于接收到的所述至少两个参与方分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在所述数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方,其中,所述至少两个参与方分别对应的第一距离数据具有数据互补关系其中,所述服务提供方持有用户行为数据的数据标识;
步骤S306,所述目标参与方基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方;
步骤S308,所述服务提供方基于接收到的所述至少两个参与方分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方;
步骤S310,所述目标参与方根据所述第一标识和所述第二标识确定数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
可选地,所述目标参与方确定所述目标用户行为数据对应的第一中心数据;计算所述目标用户行为数据中至少两个第一用户子数据分别相对于所述第一中心数据的初始子距离数据,并基于至少两个初始子距离数据确定所述第一距离数据。
可选地,所述在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方确定每个第一用户子数据分别对应的第一子数据标识;根据每个第一用户子数据分别对应的第一子数据标识,在所述第一参与方的第一距离数据和所述第二参与方的第一距离数据中确定具有数据互补关系的第一子距离数据和第二子距离数据;基于每个第一子数据标识对应的第一子距离数据和第二子距离数据组成第一距离数据对,并根据每个第一子数据标识对应的第一距离数据对计算每个第一用户子数据相对于所述第一中心数据的初始距离子数据;在每个第一用户子数据相对于所述第一中心数据的初始距离子数据中选择初始距离数据。
可选地,所述目标参与方基于所述第一标识在所述目标用户行为数据中确定第二中心数据;计算所述目标用户行为数据中至少两个第二用户子数据分别相对于所述第二中心数据的中间子距离数据,并基于至少两个中间子距离数据确定所述第二距离数据。
可选地,所述在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方确定每个第二用户子数据分别对应的第二子数据标识;根据每个第二用户子数据分别对应的第二子数据标识,在所述第一参与方的第二距离数据和所述第二参与方的第二距离数据中确定具有数据互补关系的第三子距离数据和第四子距离数据;基于每个第二子数据标识对应的第三子距离数据和第四子距离数据组成第二距离数据对,并根据每个第二子数据标识对应的第二距离数据对计算每个第二用户子数据相对于所述第二中心数据的目标距离子数据;在每个第二用户子数据相对于所述第二中心数据的目标距离子数据中选择目标距离数据。
可选地,所述目标参与方根据所述第一标识在所述目标用户行为数据中确定第一划分数据,以及根据所述第二标识在所述目标用户行为数据中确定第二划分数据;根据所述目标用户行为数据中待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中待划分数据分别与所述第二划分数据之间的第二划分距离确定所述数据划分路径。
可选地,所述目标参与方确定所述目标用户行为数据中至少两个待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中至少两个待划分数据分别与所述第二划分数据之间的第二划分距离;在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择至少两个待划分数据分别对应的目标划分距离,并基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径;基于至少两个数据划分子路径组成所述数据划分路径。
可选地,所述目标参与方基于预设加密数据对所述第一距离数据进行加密,并将加密后的第一距离数据发送至所述服务提供方;
相应的,所述目标参与方,用于基于所述预设加密数据对所述第二距离数据进行加密,并将加密后的第二距离数据发送至所述服务提供方。
可选地,所述目标参与方基于所述数据划分路径将所述目标用户行为数据划分为第一子节点数据和第二子节点数据;分别将所述第一子节点数据和第二子节点数据作为所述目标用户行为数据,并执行所述计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据的步骤,直至获得目标推荐模型。
可选地,所述目标参与方在接收到携带用户信息的商品推荐请求的情况下,将所述用户信息输入至所述目标推荐模型,获得与所述用户信息匹配的目标商品。
综上所述,本说明书实施例中,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
上述为本实施例的一种基于球树算法和联邦学习的推荐模型更新方法的示意性方案。需要说明的是,该基于球树算法和联邦学习的推荐模型更新方法的技术方案与上述的基于球树算法和联邦学习的推荐模型更新系统的技术方案属于同一构思,基于球树算法和联邦学习的推荐模型更新方法的技术方案未详细描述的细节内容,均可以参见上述基于球树算法和联邦学习的推荐模型更新系统的技术方案的描述。
下述结合附图4,以本说明书提供的基于球树算法和联邦学习的推荐模型更新方法在商品推荐的应用为例,对所述基于球树算法和联邦学习的推荐模型更新方法进行进一步说明。其中,图4示出了本说明书一实施例提供的一种应用于商品推荐的基于球树算法和联邦学习的推荐模型更新方法的处理流程图,具体包括以下步骤:
步骤S402,第一参与方生成随机种子,并基于第二参与方的公钥进行加密后发送至第二参与方。
本实施例可以应用于电商平台和通讯平台之间的模型训练,提供一种高效的纵向联邦最近邻算法。在第一参与方持有电商数据,第二参与方持有通讯数据,第一参与方持有的电商数据和第二参与方持有的通讯数据之间具有数据对齐关系。第一参与方和第二参与方之前达成数据共享和隐私保护的协议。电商数据和通讯数据可以是浏览历史数据、购买数据、应用使用信息、地理位置信息等。
第一参与方基于随机种子生成随机数,通过第二参与方的公钥进行加密后发送至第二参与方。
步骤S404,第一参与方确定第一目标用户数据对应的第一中心数据,并计算第一目标用户数据中待计算用户数据分别与第一中心数据之间的第一距离数据。
步骤S406,第一参与方生成第一掩码数据,并基于第一掩码数据对第一距离数据进行掩码处理后发送至服务提供方。
步骤S408,第二参与方确定第二目标用户数据对应的第二中心数据,并计算第二目标用户数据中待计算用户数据分别与第二中心数据之间的第二距离数据。
步骤S410,第二参与方生成第二掩码数据,并基于第二掩码数据对第二距离数据进行掩码处理后发送至服务提供方。
其中,第一目标用户数据和第二目标用户数据之间具有数据对齐关系。需要说明的是,步骤S404和步骤S406对应的针对第一目标用户数据的处理过程,与步骤S408和步骤S410对应的针对第二目标用户数据的处理过程可以同步执行。
步骤S412,服务提供方基于第一距离数据和第二距离数据生成第一距离数据集,并基于第一距离数据集中每个距离子数据的索引信息确定第一索引信息,将第一索引信息发送至第一参与方。
步骤S414,服务提供方将第一索引信息发送至第二参与方。
第一参与方和第二参与方可以基于第一索引信息确定距离第一中心数据最远的用户行为数据。
步骤S416,第一参与方基于第一索引信息在第一目标用户数据中确定第一初始数据,并计算第一目标用户数据中待计算用户数据分别与第一初始数据之间的第三距离数据,将第三距离数据发送至服务提供方。
步骤S418,第二参与方基于第一索引信息在第二目标用户数据中确定第二初始数据,并计算第二目标用户数据中待计算用户数据分别与第二初始数据之间的第四距离数据,将第四距离数据发送至服务提供方。
步骤S420,服务提供方基于第三距离数据和第四距离数据,确定第二索引信息,并将第二索引信息发送至第一参与方。
步骤S422,服务提供方将第二索引信息发送至第二参与方。
以距离第一中心数据最远的用户行为数据为基准用户行为数据,第一参与方和第二参与方可以基于第二索引信息确定距离基准用户行为数据最远的用户行为数据。
步骤S424,第一参与方基于第二索引信息确定第一目标数据,并计算第一目标用户数据中待计算用户数据分别与第一目标数据之间的第五距离数据,将第五距离数据发送至服务提供方。
步骤S426,第二参与方基于第二索引信息确定第二目标数据,并计算第二目标用户数据中待计算用户数据分别与第二目标数据之间的第六距离数据,将第六距离数据发送至服务提供方。
步骤S428,服务提供方基于所述第五距离数据和第六距离数据确定数据划分策略,并将数据划分策略发送至第一参与方。
步骤S430,服务提供方将数据划分策略发送至第二参与方。
步骤S432,第一参与方基于数据划分策略对第一目标用户数据进行划分,直至根据划分结果生成第一目标推荐模型。
步骤S434,第二参与方基于数据划分策略对第二目标用户数据进行划分,直至根据划分结果生成第二目标推荐模型。
综上所述,本说明书实施例中,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
与上述系统实施例相对应,本说明书还提供了基于球树算法和联邦学习的推荐系统实施例,图5示出了根据本说明书一实施例提供的一种基于球树算法和联邦学习的推荐系统的结构示意图。基于球树算法和联邦学习的推荐系统500包括第一参与方510、第二参与方520和服务提供方530;所述第一参与方510持有目标用户的第一用户数据,所述第二参与方520持有所述目标用户的第二用户数据;所述第一用户数据和所述第二用户数据之间具有数据对齐关系;所述第一参与方510,用于接收所述目标用户提交的推荐请求,并基于所述推荐请求将所述第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据;将所述第一推荐距离数据发送至所述服务提供方530;以及向所述第二参与方520发送关联所述目标用户的关联推荐请求;其中,所述第一目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述第二参与方520,用于将所述第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据;将所述第二推荐距离数据发送至所述服务提供方530;其中,所述第二目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述服务提供方530,用于基于所述第一推荐距离数据和所述第二推荐距离数据确定目标推荐距离数据,并将所述目标推荐距离数据发送至所述第一参与方510;所述第一参与方510,用于基于所述目标推荐距离数据确定与所述推荐请求对应的推荐信息并反馈至所述目标用户。
实际应用中,在完成目标推荐模型的训练后,第一参与方和第二参与方分别在本地部署有第一目标推荐模型和第二目标推荐模型。第一参与方和第二参与方均可以接收目标用户提交的推荐请求,执行相应的推荐任务。在第一参与方接收到目标用户提交的推荐请求后,基于推荐请求将第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据。将第一推荐距离数据发送至服务提供方,以及向第二参与方发送关联目标用户的关联推荐请求,第二参与方将第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据。将第二推荐距离数据发送至服务提供方。服务提供方融合第二参与方的预测结果基于第一推荐距离数据和第二推荐距离数据确定目标推荐距离数据。将目标推荐距离数据发送至第一参与方。第一参与方基于目标推荐距离数据确定与推荐请求对应的推荐信息并反馈至目标用户。
举例说明,第一参与方和第二参与分别对应的本地部署的第一目标推荐模型和本地部署的第二目标推荐模型即为球树结构。目标用户提交的推荐请求对应样本点p,针对样本点P的预测过程对应球树的遍历过程。也就是确定样本点p在球树的每层中确定树节点,直至确定球树中与样本点p对应的叶子节点。对于待预测的样本点p,从球树的根节点进行遍历训练好的球树。对于球树的节点N,如果节点N不是球树的叶子节点,则左子节点PartA,右子节点PartB分别计算第一距离A.partd ,和第二距离B.partd。A方、B方分别为第一参与方和第二参与方,A方、B方分别将计算获得的第一距离A.partd,第二距离B.partd添加掩码之后发送给服务提供方,服务提供方基于A.partd+B.partd判断该节点N是否被丢弃,若否,继续向下遍历,直至球树被遍历完成。如果节点N是叶子节点,则A,B两方分别计算样本点到叶子节点的所有样本点的距离d1,d2。分别将d1,d2添加掩码后发送给服务提供方,服务提供方根据样本间距离d=d1+d2更新预测样本点的最近邻样本点值。获取K-近邻后,基于K-近邻样本的标签值确定样本点P的预测值。通过遍历球树确定推荐请求对应样本点p的预测类别,根据预测类别确定推荐信息,并反馈至目标用户。
综上所述,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
与上述系统实施例相对应,本说明书还提供了一种基于球树算法和联邦学习的推荐方法实施例,图6示出了本说明书一个实施例提供的一种基于球树算法和联邦学习的推荐方法的流程图。如图6所示,该方法包括:
步骤S602,第一参与方接收所述目标用户提交的推荐请求,并基于所述推荐请求将所述第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据;将所述第一推荐距离数据发送至服务提供方;以及向所述第二参与方发送关联所述目标用户的关联推荐请求;其中,所述第一目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述第一参与方持有目标用户的第一用户数据;
步骤S604,第二参与方将所述第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据;将所述第二推荐距离数据发送至所述服务提供方;其中,所述第二目标推荐模型基于上述基于球树算法和联邦学习的推荐模型更新系统生成;所述第二参与方持有所述目标用户的第二用户数据;所述第一用户数据和所述第二用户数据之间具有数据对齐关系;
步骤S606,服务提供方基于所述第一推荐距离数据和所述第二推荐距离数据确定目标推荐距离数据,并将所述目标推荐距离数据发送至所述第一参与方;
步骤S608,第一参与方基于所述目标推荐距离数据确定与所述推荐请求对应的推荐信息并反馈至所述目标用户。
实际应用中,在第一参与方接收到目标用户提交的推荐请求后,基于推荐请求将第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据。将第一推荐距离数据发送至服务提供方,以及向第二参与方发送关联目标用户的关联推荐请求,第二参与方将第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据。将第二推荐距离数据发送至服务提供方。服务提供方融合第二参与方的预测结果基于第一推荐距离数据和第二推荐距离数据确定目标推荐距离数据。将目标推荐距离数据发送至第一参与方。第一参与方基于目标推荐距离数据确定与推荐请求对应的推荐信息并反馈至目标用户。
综上所述,通过基于球树算法和联邦学习训练目标推荐模型,在确保了联邦学习场景下至两个参与方分别持有的用户行为数据不被泄露的情况下,通过构建球树这种较为高效的空间搜索数据结构,使得目标推荐模型在预测过程中无需计算全部样本,预测计算效率更高,减少查询等待时间,使得数据量大和高维计算情况下,提高目标推荐模型的处理效率。
上述为本实施例的一种基于球树算法和联邦学习的推荐方法的示意性方案。需要说明的是,该基于球树算法和联邦学习的推荐方法的技术方案与上述的基于球树算法和联邦学习的推荐系统的技术方案属于同一构思,基于球树算法和联邦学习的推荐方法的技术方案未详细描述的细节内容,均可以参见上述基于球树算法和联邦学习的推荐系统的技术方案的描述。
图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于球树算法和联邦学习的推荐方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于球树算法和联邦学习的推荐方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于球树算法和联邦学习的推荐方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现上述基于球树算法和联邦学习的推荐方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于球树算法和联邦学习的推荐方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于球树算法和联邦学习的推荐方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种基于球树算法和联邦学习的推荐模型更新系统,其特征在于,所述系统包括至少两个参与方和服务提供方,所述至少两个参与方分别持有的用户行为数据具有数据对齐关系,所述至少两个参与方分别持有的用户行为数据为相同用户在不同维度或领域的数据,所述服务提供方持有用户行为数据的数据标识:
所述至少两个参与方中的目标参与方,用于计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至所述服务提供方;
所述服务提供方,用于基于接收到的所述至少两个参与方分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在所述数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方,其中,所述至少两个参与方分别对应的第一距离数据具有数据互补关系,所述数据互补关系为在坐标系下互补的坐标数据关系,所述至少两个参与方中的第一参与方提供的第一距离数据与所述至少两个参与方中的第二参与方提供的第一距离数据为空间分布中相同的坐标点的不同坐标维度;
所述目标参与方,用于基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方;
所述服务提供方,用于基于接收到的所述至少两个参与方分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方;
所述目标参与方,用于根据所述第一标识在所述目标用户行为数据中确定第一划分数据,以及根据所述第二标识在所述目标用户行为数据中确定第二划分数据;确定所述目标用户行为数据中至少两个待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中至少两个待划分数据分别与所述第二划分数据之间的第二划分距离;在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择至少两个待划分数据分别对应的目标划分距离,并基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径;基于至少两个数据划分子路径组成数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
2.根据权利要求1所述的系统,其特征在于,所述目标参与方,用于确定所述目标用户行为数据对应的第一中心数据;计算所述目标用户行为数据中至少两个第一用户子数据分别相对于所述第一中心数据的初始子距离数据,并基于至少两个初始子距离数据确定所述第一距离数据。
3.根据权利要求2所述的系统,其特征在于,在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方,用于确定每个第一用户子数据分别对应的第一子数据标识;根据每个第一用户子数据分别对应的第一子数据标识,在所述第一参与方的第一距离数据和所述第二参与方的第一距离数据中确定具有数据互补关系的第一子距离数据和第二子距离数据;基于每个第一子数据标识对应的第一子距离数据和第二子距离数据组成第一距离数据对,并根据每个第一子数据标识对应的第一距离数据对计算每个第一用户子数据相对于所述第一中心数据的初始距离子数据;在每个第一用户子数据相对于所述第一中心数据的初始距离子数据中选择初始距离数据。
4.根据权利要求1所述的系统,其特征在于,所述目标参与方,用于基于所述第一标识在所述目标用户行为数据中确定第二中心数据;计算所述目标用户行为数据中至少两个第二用户子数据分别相对于所述第二中心数据的中间子距离数据,并基于至少两个中间子距离数据确定所述第二距离数据。
5.根据权利要求4所述的系统,其特征在于,在所述至少两个参与方包含第一参与方和第二参与方的情况下,所述服务提供方,用于确定每个第二用户子数据分别对应的第二子数据标识;根据每个第二用户子数据分别对应的第二子数据标识,在所述第一参与方的第二距离数据和所述第二参与方的第二距离数据中确定具有数据互补关系的第三子距离数据和第四子距离数据;基于每个第二子数据标识对应的第三子距离数据和第四子距离数据组成第二距离数据对,并根据每个第二子数据标识对应的第二距离数据对计算每个第二用户子数据相对于所述第二中心数据的目标距离子数据;在每个第二用户子数据相对于所述第二中心数据的目标距离子数据中选择目标距离数据。
6.根据权利要求1所述的系统,其特征在于,所述目标参与方,用于基于预设加密数据对所述第一距离数据进行加密,并将加密后的第一距离数据发送至所述服务提供方;
相应的,所述目标参与方,用于基于所述预设加密数据对所述第二距离数据进行加密,并将加密后的第二距离数据发送至所述服务提供方。
7.根据权利要求1所述的系统,其特征在于,所述目标参与方,用于基于所述数据划分路径将所述目标用户行为数据划分为第一子节点数据和第二子节点数据;分别将所述第一子节点数据和第二子节点数据作为所述目标用户行为数据,并执行所述计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据的步骤,直至获得目标推荐模型。
8.根据权利要求1所述的系统,其特征在于,所述目标参与方,还用于在接收到携带用户信息的商品推荐请求的情况下,将所述用户信息输入至所述目标推荐模型,获得与所述用户信息匹配的目标商品。
9.一种基于球树算法和联邦学习的推荐系统,其特征在于,所述系统包括第一参与方、第二参与方和服务提供方;所述第一参与方持有目标用户的第一用户数据,所述第二参与方持有所述目标用户的第二用户数据;所述第一用户数据和所述第二用户数据之间具有数据对齐关系;
所述第一参与方,用于接收所述目标用户提交的推荐请求,并基于所述推荐请求将所述第一用户数据输入至本地部署的第一目标推荐模型,获得第一推荐距离数据;将所述第一推荐距离数据发送至所述服务提供方;以及向所述第二参与方发送关联所述目标用户的关联推荐请求;其中,所述第一目标推荐模型基于权利要求1-8任一项所述的基于球树算法和联邦学习的推荐模型更新系统生成;
所述第二参与方,用于将所述第二用户数据输入至本地部署的第二目标推荐模型,获得第二推荐距离数据;将所述第二推荐距离数据发送至所述服务提供方;其中,所述第二目标推荐模型基于权利要求1-8任一项所述的基于球树算法和联邦学习的推荐模型更新系统生成;
所述服务提供方,用于基于所述第一推荐距离数据和所述第二推荐距离数据确定目标推荐距离数据,并将所述目标推荐距离数据发送至所述第一参与方;
所述第一参与方,用于基于所述目标推荐距离数据确定与所述推荐请求对应的推荐信息并反馈至所述目标用户。
10.一种基于球树算法和联邦学习的推荐模型更新方法,其特征在于,包括:
至少两个参与方中的目标参与方计算目标用户行为数据相对于所述目标用户行为数据对应的第一中心数据的第一距离数据,并将所述第一距离数据发送至服务提供方,其中,所述至少两个参与方分别持有的用户行为数据具有数据对齐关系,所述至少两个参与方分别持有的用户行为数据为相同用户在不同维度或领域的数据;
所述服务提供方基于接收到的所述至少两个参与方分别提交的第一距离数据确定初始距离数据;基于所述初始距离数据在数据标识中确定第一标识;将所述第一标识分别发送至所述至少两个参与方,其中,所述至少两个参与方分别对应的第一距离数据具有数据互补关系,其中,所述服务提供方持有用户行为数据的数据标识,所述数据互补关系为在坐标系下互补的坐标数据关系,所述至少两个参与方中的第一参与方提供的第一距离数据与所述至少两个参与方中的第二参与方提供的第一距离数据为空间分布中相同的坐标点的不同坐标维度;
所述目标参与方基于所述目标用户行为数据和所述第一标识确定第二距离数据,并将所述第二距离数据发送至所述服务提供方;
所述服务提供方基于接收到的所述至少两个参与方分别提交的第二距离数据确定目标距离数据;基于所述目标距离数据在所述数据标识中确定第二标识;将所述第二标识分别发送至所述至少两个参与方;
所述目标参与方根据所述第一标识在所述目标用户行为数据中确定第一划分数据,以及根据所述第二标识在所述目标用户行为数据中确定第二划分数据;确定所述目标用户行为数据中至少两个待划分数据分别与所述第一划分数据之间的第一划分距离,以及所述目标用户行为数据中至少两个待划分数据分别与所述第二划分数据之间的第二划分距离;在至少两个待划分数据分别对应的第一划分距离和第二划分距离中选择至少两个待划分数据分别对应的目标划分距离,并基于至少两个目标划分距离分别对应的目标划分数据确定数据划分子路径;基于至少两个数据划分子路径组成数据划分路径,并基于所述数据划分路径对所述目标用户行为数据进行划分,根据划分结果生成目标推荐模型。
11.一种计算设备,其特征在于,包括存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现权利要求10所述基于球树算法和联邦学习的推荐模型更新方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求10所述基于球树算法和联邦学习的推荐模型更新方法的步骤。
CN202311738313.2A 2023-12-18 2023-12-18 基于球树算法和联邦学习的推荐模型更新系统及方法 Active CN117421486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311738313.2A CN117421486B (zh) 2023-12-18 2023-12-18 基于球树算法和联邦学习的推荐模型更新系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311738313.2A CN117421486B (zh) 2023-12-18 2023-12-18 基于球树算法和联邦学习的推荐模型更新系统及方法

Publications (2)

Publication Number Publication Date
CN117421486A CN117421486A (zh) 2024-01-19
CN117421486B true CN117421486B (zh) 2024-03-19

Family

ID=89528824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311738313.2A Active CN117421486B (zh) 2023-12-18 2023-12-18 基于球树算法和联邦学习的推荐模型更新系统及方法

Country Status (1)

Country Link
CN (1) CN117421486B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021121106A1 (zh) * 2019-12-20 2021-06-24 深圳前海微众银行股份有限公司 基于联邦学习的个性化推荐方法、装置、设备及介质
WO2021249086A1 (zh) * 2020-06-12 2021-12-16 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质
CN114021735A (zh) * 2021-10-22 2022-02-08 中国银联股份有限公司 一种联邦学习中数据处理的方法及装置
CN114741611A (zh) * 2022-06-08 2022-07-12 杭州金智塔科技有限公司 联邦推荐模型训练方法以及系统
CN114997327A (zh) * 2022-06-20 2022-09-02 中国电信股份有限公司 目标对象的分类方法、装置、存储介质以及电子设备
CN115269983A (zh) * 2022-07-28 2022-11-01 上海光之树科技有限公司 基于双方数据隐私保护的目标样本推荐方法
WO2023061276A1 (zh) * 2021-10-11 2023-04-20 维沃移动通信有限公司 数据推荐方法、装置、电子设备及存储介质
CN115994226A (zh) * 2023-03-21 2023-04-21 杭州金智塔科技有限公司 基于联邦学习的聚类模型训练系统及方法
CN116522399A (zh) * 2023-06-30 2023-08-01 杭州金智塔科技有限公司 保护用户隐私的推荐模型更新方法、系统及装置
CN116567670A (zh) * 2023-06-12 2023-08-08 浙江工业大学 一种基于联邦学习的数字孪生网络模型的能耗优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316370A1 (en) * 2022-03-29 2023-10-05 Microsoft Technology Licensing, Llc System and method for generating personalized efficiency recommendations

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021121106A1 (zh) * 2019-12-20 2021-06-24 深圳前海微众银行股份有限公司 基于联邦学习的个性化推荐方法、装置、设备及介质
WO2021249086A1 (zh) * 2020-06-12 2021-12-16 深圳前海微众银行股份有限公司 多方联合决策树构建方法、设备及可读存储介质
WO2023061276A1 (zh) * 2021-10-11 2023-04-20 维沃移动通信有限公司 数据推荐方法、装置、电子设备及存储介质
CN114021735A (zh) * 2021-10-22 2022-02-08 中国银联股份有限公司 一种联邦学习中数据处理的方法及装置
CN114741611A (zh) * 2022-06-08 2022-07-12 杭州金智塔科技有限公司 联邦推荐模型训练方法以及系统
CN114997327A (zh) * 2022-06-20 2022-09-02 中国电信股份有限公司 目标对象的分类方法、装置、存储介质以及电子设备
CN115269983A (zh) * 2022-07-28 2022-11-01 上海光之树科技有限公司 基于双方数据隐私保护的目标样本推荐方法
CN115994226A (zh) * 2023-03-21 2023-04-21 杭州金智塔科技有限公司 基于联邦学习的聚类模型训练系统及方法
CN116567670A (zh) * 2023-06-12 2023-08-08 浙江工业大学 一种基于联邦学习的数字孪生网络模型的能耗优化方法
CN116522399A (zh) * 2023-06-30 2023-08-01 杭州金智塔科技有限公司 保护用户隐私的推荐模型更新方法、系统及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Federated Learning foDeep Federated Learning for IoT-based Decentralized Healthcare Systems;Haya Elayan 等;2021 International Wireless Communications and Mobile Computing (IWCMC);20210809;全文 *
联邦学习安全与隐私保护研究综述;周俊;方国英;吴楠;;西华大学学报(自然科学版);20200710(第04期);第9-17页 *
课程推荐预测模型优化方案及数据离散化算法;张戈;;计算机系统应用;20200415(第04期);第248-253页 *
面向用户隐私保护的联邦安全树算法;张君如;赵晓焱;袁培燕;;计算机应用;20201031(第10期);第2980-2985页 *

Also Published As

Publication number Publication date
CN117421486A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
Hao et al. Towards efficient and privacy-preserving federated deep learning
Song et al. Influential node tracking on dynamic social network: An interchange greedy approach
Zhou et al. Privacy-preserving online task allocation in edge-computing-enabled massive crowdsensing
US9083757B2 (en) Multi-objective server placement determination
Lien et al. A novel privacy preserving location-based service protocol with secret circular shift for k-nn search
Zhang et al. Message in a sealed bottle: Privacy preserving friending in mobile social networks
CN108520303A (zh) 一种推荐系统构建方法及装置
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
Alrahhal et al. AES-route server model for location based services in road networks
CN113505882A (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN109359476A (zh) 一种隐藏输入的两方模式匹配方法及装置
Xin et al. A location-context awareness mobile services collaborative recommendation algorithm based on user behavior prediction
CN116502276B (zh) 匿踪查询方法及装置
CN114255037A (zh) 隐私保护下的多方联合排序方法和数据处理方法
Wang et al. Social identity–aware opportunistic routing in mobile social networks
JPWO2018116826A1 (ja) メッセージ送信システム、通信端末、サーバ装置、メッセージ送信方法、およびプログラム
CN112468521B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN107005576A (zh) 从服务器日志生成用于链接标识符的桥接匹配标识符
CN117421486B (zh) 基于球树算法和联邦学习的推荐模型更新系统及方法
CN112507372A (zh) 实现隐私保护的多方协同更新模型的方法及装置
Xu et al. An efficient and privacy-preserving route matching scheme for carpooling services
Zhang et al. LPPS-AGC: Location privacy protection strategy based on alt-geohash coding in location-based services
CN116502732A (zh) 基于可信执行环境的联邦学习方法以及系统
CN112632063B (zh) 受限最短距离查询方法、电子设备和可读存储介质
Brandão et al. Efficient privacy preserving distributed k-means for non-iid data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant