CN116432039A - 协同训练方法及装置、业务预测方法及装置 - Google Patents

协同训练方法及装置、业务预测方法及装置 Download PDF

Info

Publication number
CN116432039A
CN116432039A CN202310702653.3A CN202310702653A CN116432039A CN 116432039 A CN116432039 A CN 116432039A CN 202310702653 A CN202310702653 A CN 202310702653A CN 116432039 A CN116432039 A CN 116432039A
Authority
CN
China
Prior art keywords
party
prediction
training
embedded
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310702653.3A
Other languages
English (en)
Other versions
CN116432039B (zh
Inventor
李群伟
钟文亮
魏鹏
孙仁恩
林建滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310702653.3A priority Critical patent/CN116432039B/zh
Publication of CN116432039A publication Critical patent/CN116432039A/zh
Application granted granted Critical
Publication of CN116432039B publication Critical patent/CN116432039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例披露一种协同训练方法及装置,以及一种业务预测方法及装置。协同训练方法由第一方执行,包括:先利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征,并从第二方接收第二嵌入表征,其由第二方利用第二预测模型中的第二嵌入层处理训练样本的第二特征部分而得到;再利用第一预测模型中的第一预测层处理第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果,并从第二方接收第二预测结果,其由第二方利用第二预测模型对训练样本进行预测而得到;之后基于第一预测结果、第二预测结果和训练样本的真实标签,训练第一预测模型。上述业务预测方法由第一方基于训练好的第一预测模型而执行。

Description

协同训练方法及装置、业务预测方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习技术领域,尤其涉及一种协同训练方法及装置,以及一种业务预测方法及装置。
背景技术
计算机技术的发展,使得机器学习在各种各样的业务场景中得到越来越广泛的应用。联邦学习(Federated Learning,简称FL)实现在隐私保护基础上,有效打破数据孤岛,实现多方联合建模。
然而,目前已有的联邦学习算法存在局限性。因此,需要一种联邦学习方案,可以更好地满足实际应用需求,例如,支持各参与方采用不同的模型结构,实现双向协同等。
发明内容
本说明书实施例描述一种协同训练方法及装置,以及一种业务预测方法及装置,可以更好地满足实际应用需求。
根据第一方面,提供一种协同训练方法,由第一方执行,包括:
利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征;从第二方接收第二嵌入表征,其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到;利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果;从所述第二方接收第二预测结果,其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到;基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型。
在一个实施例中,所述第一预测模型还具有第一融合层;所述方法还包括:利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征,得到所述第一融合表征。
在一个实施例中,还包括:在所述第一嵌入表征中添加差分隐私噪声,得到加躁嵌入表征;将所述加躁嵌入表征发送给所述第二方。
在一个实施例中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:根据第一损失项和第二损失项确定第一训练损失,所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关,第二损失项与所述第一预测结果和第二预测结果之间的差距正相关;基于所述第一训练损失,训练所述第一预测模型。
在一个具体的实施例中,根据第一损失项和第二损失项确定第一训练损失,包括:基于第一权重系数对第一损失项和第二损失项加权求和;其中,所述第一权重系数不同于第二权重系数,所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。
在一个实施例中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:在所述第二预测结果指示的预测标签与所述真实标签一致的情况下,利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失,训练所述第一预测模型。
在一个实施例中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下,仅利用所述第一预测结果和真实标签确定第一训练损失,训练所述第一预测模型。
在一个实施例中,所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;或者,所述第二方为服务端,所述第一方是所述服务端的多个客户端之一。
在一个实施例中,所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;其中,所述第一预测模型的模型参数数量大于所述第二预测模型的模型参数数量,和/或,所述第一预测模型的神经网络层数大于所述第二预测模型的神经网络层数。
根据第二方面,提供一种业务预测方法,由第一方执行,包括:
确定待预测的目标样本;利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分,得到第一嵌入表征;所述第一预测模型由所述第一方采用第一方面提供的方法而预先训练;获取第二嵌入表征,其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到;利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征,得到针对所述目标样本的目标预测结果。
在一个实施例中,所述第一方是客户端,所述第二方是所述客户端的服务端;其中,确定待预测的目标样本,包括:响应于基于所述客户端发起的业务操作,确定该业务操作对应的目标用户,作为目标样本;其中,所述方法还包括:从所述客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据,归入所述第一特征部分。
在一个具体的实施例中,获取第二嵌入表征包括:在本地读取所述服务端预先发送的所述第二嵌入表征。
根据第三方面,提供一种协同训练装置,集成于第一方。该装置包括:嵌入处理模块,配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征。表征接收模块,配置为从第二方接收第二嵌入表征,其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到。预测模块,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果。结果接收模块,配置为从所述第二方接收第二预测结果,其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到。训练模块,配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型。
根据第四方面,提供一种业务预测装置,集成于第一方。该装置包括:样本确定模块,配置为确定待预测的目标样本。嵌入处理模块,配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分,得到第一嵌入表征;所述第一预测模型由所述第一方执行第一方面提供的方法而预先训练。表征获取模块,配置为获取第二嵌入表征,其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到。预测模块,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征,得到针对目标样本的目标预测结果。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面提供的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面或第二方面提供的方法。
采用本说明书实施例披露的上述方法及装置,可以实现:1)促进本地个性化。对一个数据方(如云端)的特征进行抽取后传输至另一数据方(如移动端),可以增强FL算法的个性化。2)支持模型的异构性(heterogeneity)。相较传统FL算法中要求不同数据方(如不同移动端)中部署的模型必须具有完全相同的结构,本说明书实施例披露的方案中只要求不同数据方中的模型具有相同的输入维数和输出维数。3)支持训练异步化(asynchronization)。当存在部分训练设备被选取时,传输的嵌入特征和预测结果对异步化不敏感。4)减轻通讯负担。相较传统FL算法中不同数据方(如云端和移动端)之间需要传输的大量的模型梯度数据,本说明书实施例披露的方案中传输的嵌入特征和预测结果具有更小的数据量级。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出传统联邦学习算法的实施架构;
图2示出本说明书实施例披露的移动端和云端协同训练方案的实施架构示意图;
图3示出本说明书实施例披露的协同训练方法的通信交互示意图;
图4示出本说明书实施例披露的业务预测方法的流程示意图;
图5示出本说明书实施例披露的协同训练装置的结构示意图;
图6示出本说明书实施例披露的业务预测装置的结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出传统联邦学习算法的实施架构。将分布式设备上的本地模型进行聚合,更新全局模型。与此同时,为了保护用户数据的隐私,每个设备只向全局模型汇报模型参数梯度,而非原始数据。通过这种方式,全局模型可以不断地从本地设备上各自训练的模型参数中学习到更多的信息,从而提高全局模型的性能,同时不会危及到数据隐私问题。
在一种典型场景中,图1中示出的中立方是云端(或者说服务端),
Figure SMS_1
个数据方是
Figure SMS_2
个移动端(或者说服务端的
Figure SMS_3
个客户端)。此时,在联邦学习中只用到了云端的强大算力,但 未用到云端存储的丰富特征。
由此提出一种协同训练方案,在此方案中,云端和移动端各自维护本地模型,在模型中抽取本地独有的特征传输给对端,供对端的模型进行训练和使用。可选地,还向对端传输本地的预测信息,以供对端进行知识蒸馏(Knowledge Distillation,简称KD)。
为便于理解,下面先从问题设立(Problem Setup)和学习目标(LearningObjectives)这两个方面,介绍上述协同训练方案。
一、问题设立
将参与协同训练的移动端数量记作
Figure SMS_4
,且
Figure SMS_5
。具体地,训练任务(如推荐任务、 图像分类任务等)的全量数据集根据其中特征数据涉及的不同持有方可以分为两大部分, 一部分由云端持有,记作
Figure SMS_6
,另一部分由K个移动端共同持有,记作
Figure SMS_7
。需理解,文中的“持 有”主要指具有读取、使用权限,示例性的,云端可以将数据集
Figure SMS_8
存储在本地,并按需调用。
Figure SMS_10
个移动端中任意的第
Figure SMS_13
个移动端持有数据集
Figure SMS_14
,其定义式可记作
Figure SMS_11
。其中,
Figure SMS_16
表示
Figure SMS_19
中第
Figure SMS_21
个样本的本地特征,
Figure SMS_9
表示该第i个样本的样本 标签,且
Figure SMS_18
Figure SMS_20
表示样本标签的总个数;
Figure SMS_22
表示数据集
Figure SMS_12
中的样本总数。由此 可得,
Figure SMS_15
Figure SMS_17
示例性的,移动端中的本地特征可以包括实时产生的用户行为数据等隐私敏感特征。以推荐任务为例,隐私敏感特征可以包括用户的兴趣爱好、收货地址、用户与业务对象(如商品、广告等)的实时交互数据(如是否点击、浏览时长等)。需说明,文中与用户相关的数据均是在用户确认授权后进行的采集。另外一般地,移动端将实时采集的特征数据存储在本地,云端无法对其进行获取。
云端持有数据集
Figure SMS_23
,先定义
Figure SMS_24
,由此
Figure SMS_25
示例性的,云端中可以存储非敏感或低敏感度的特征、
Figure SMS_26
个移动端的历史特征等。 以推荐任务为例,云端特征包括用户与业务对象的历史交互行为,业务对象的类别,商品相 似推荐的历史嵌入向量等。
通过对
Figure SMS_28
Figure SMS_30
的定义可以观察到,第
Figure SMS_32
个移动端和云端均持有第i个样本的标签
Figure SMS_29
。对此在一种实施情况中,第
Figure SMS_31
个移动端和云端各自获取标签
Figure SMS_33
。在另一种实施情况中, 第
Figure SMS_34
个移动端和云端中的一端获取标签
Figure SMS_27
后,将之同步给另一端。
以推荐任务为例,标签
Figure SMS_35
指示用户对业务对象是否做出预定行为。进一步,假定业 务对象是广告,预定行为可以是点击,或者,假定业务对象是商品,预定行为可以是购买,又 或者,假定业务对象是内容资讯,预定行为可以是浏览达到预设时长,等等。
二、学习目标
图2示出本说明书实施例披露的移动端和云端协同训练方案的实施架构示意图。对于学习目标这部分内容,可以参考图2进行阅读。
在第
Figure SMS_37
个移动端,可以部署一个轻量级的特征编码器(或称提取器)
Figure SMS_40
和一个轻量 级的分类器(或称下游模型)
Figure SMS_42
,同时在云端,可以部署一个大型的编码器
Figure SMS_36
和一个大型分 类器
Figure SMS_39
。由此,可以将第
Figure SMS_41
个移动端中部署的预测模型记作
Figure SMS_43
,以及,将云端 部署的预测模型记作
Figure SMS_38
因为云端和移动端中的特征是互不相同的,由此可以将全局模型的优化重构为一 个非凸优化问题,实现云端模型
Figure SMS_44
和移动端模型
Figure SMS_45
的联合训练。将云端模型
Figure SMS_46
和移动 端模型
Figure SMS_47
的训练损失分别记作
Figure SMS_48
Figure SMS_49
,由此可以将学习目标表示为:
Figure SMS_50
(1)
Figure SMS_51
(2)
其中,
Figure SMS_52
(3)
在公式(1)和(2)中,
Figure SMS_54
表示利用第
Figure SMS_60
个移动端中的编码器
Figure SMS_61
对第i个样本的移动 端特征
Figure SMS_53
进行特征提取而得到的嵌入表征,
Figure SMS_57
表示利用云端中的编码器
Figure SMS_58
对第
Figure SMS_59
个样本的 云端特征
Figure SMS_55
进行特征提取而得到的嵌入表征,
Figure SMS_56
表示将两个嵌入表征拼接为一个表征的拼 接操作。
在实际训练过程中,可以采用交替最小化(Alternating Minimization,简称AM) 的方式优化上述学习目标。具体地,对于云端的模型优化,可以固定移动端的嵌入表征
Figure SMS_62
; 对于第
Figure SMS_63
个移动端的模型优化,可以固定服务端的嵌入表征
Figure SMS_64
除了采用嵌入向量,还提出传输预测信息以引入知识蒸馏(Knowledge Distillation,简称KD)来增强知识学习。通过共享嵌入表征和预测信息可以实现云端和移 动端协同学习中的双向知识传输,进一步,对于云端和第
Figure SMS_65
个移动端,可以分别采用以下损 失函数:
Figure SMS_66
(4)
Figure SMS_67
(5)
其中
Figure SMS_68
表示预测标签和真实标签之间的交叉熵损失(cross-entropy loss),
Figure SMS_69
表示用于实现知识蒸馏的KL散度,
Figure SMS_70
Figure SMS_71
表示预测分数(prediction logits)。另外,
Figure SMS_72
Figure SMS_73
是用来控制知识蒸馏强度的超参数。
以上从问题设立和学习目标两方面,介绍云端和
Figure SMS_74
个移动端协同学习的方案。进 一步,申请人发现,上述协同学习方案不限于用在云端和移动端之间,还可以拓展到任意的 合作执行训练任务的不同数据方之间,例如,银行和企业之间,又例如,支付平台和电商平 台之间,等等。
下面结合图3,对任意两个数据方进行协同学习的交互步骤进行介绍。图3示出本 说明书实施例披露的协同训练方法的通信交互示意图,该方法涉及第一数据方和第二数据 方,或称第一方和第二方,图3中对应示意为
Figure SMS_75
方和
Figure SMS_76
方。需理解,
Figure SMS_77
方和
Figure SMS_78
方可以实现为任 何具有计算、处理能力的装置、平台、服务器或设备集群等。示例性的,
Figure SMS_79
方为上述第
Figure SMS_80
个移 动端,
Figure SMS_81
方为上述云端。另外,“第一方”中的“第一”、“第二方”中的“第二”,以及文中他处类 似用语,均是为了区分同类事物,不具有排序等其他限定作用。
如图3所示,交互过程包括以下步骤:
步骤S301,
Figure SMS_82
方利用其部署的第一预测模型
Figure SMS_83
中的第一嵌入层
Figure SMS_84
处理训练样本 的第一特征部分
Figure SMS_85
,得到第一嵌入表征
Figure SMS_86
需理解,第一嵌入层
Figure SMS_87
用于进行特征嵌入处理,特征嵌入处理是指将原始特征数 据转换(通常是降维转换)为固定维度的特征表示,或称嵌入表征。嵌入层还可以被称为上 述特征编码器、或特征提取器。
对于第一嵌入层
Figure SMS_88
包含的神经网络的层数,以及各层神经网络中的神经元数量, 可以按照实际需求设定,例如,假定
Figure SMS_89
方是上述第
Figure SMS_90
个移动端,其存储的第一特征部分
Figure SMS_91
的 数据量级较小,由此可以将第一嵌入层
Figure SMS_92
设计为轻量级的神经网络,具有较少的神经网络 层数和神经元数,具有较少的模型参数(或称网络参数)。
上述训练样本可以是训练样本集中任意的一个训练样本。需理解,实际训练过程中通常是以batch(批次)为单位,同时处理一批次的多个训练样本,文中为清楚描述,主要从模型处理单个样本的角度出发对协同学习方案进行介绍,对一批次样本的处理方式可以简单推知。
第一嵌入表征
Figure SMS_93
的数学形式可以是向量、矩阵或其他维数的数组。
在本步骤中,可以得到第一嵌入表征
Figure SMS_94
步骤S302,
Figure SMS_95
方将第一嵌入表征
Figure SMS_96
发送给
Figure SMS_97
方。
在一种实施方式中,可以直接将原始的第一嵌入表征
Figure SMS_98
发送给
Figure SMS_99
方。需理解,因为 第一嵌入表征
Figure SMS_100
是基于嵌入处理而得到,相当于对第一特征部分
Figure SMS_101
进行了加密、脱敏处理, 可以有效降低原始特征数据的泄露风险。
在另一种实施方式中,可以不将原始的第一嵌入表征
Figure SMS_102
发送给
Figure SMS_103
方,而是先在第 一嵌入表征
Figure SMS_104
中添加差分隐私噪声,得到第一加躁嵌入表征
Figure SMS_105
,再将第一加躁嵌入表征
Figure SMS_106
发送给第二方。如此,可以进一步加强隐私防护,抵御查询攻击。需说明,差分隐私噪声 是指基于差分隐私(differential privacy)机制采样的噪声。另外,对于此种实施情况未 在图3中进行示意。
步骤S303,
Figure SMS_107
方利用其部署的第二预测模型
Figure SMS_108
中的第二嵌入层
Figure SMS_109
处理训练样本 的第二特征部分
Figure SMS_110
,得到第二嵌入表征
Figure SMS_111
在假定
Figure SMS_112
方是上述第
Figure SMS_113
个移动端的基础上,进一步假定
Figure SMS_114
方是上述云端,此时,其 存储的第二特征部分
Figure SMS_115
的数据量级较大,由此可以将第二嵌入层
Figure SMS_116
设计为重量级的神经网 络,相较第一嵌入层
Figure SMS_117
具有更多的神经网络层数和/或神经元数,具有更多的模型参数。
第二嵌入表征
Figure SMS_118
通常与第一嵌入表征
Figure SMS_119
具有相同的数学形式,例如同为向量,但 二者的维数可以相同也可以不同。
需说明,对步骤S303的描述还可以参见对步骤S301的介绍,不作赘述。
步骤S304,
Figure SMS_120
方将第二嵌入表征
Figure SMS_121
发送给
Figure SMS_122
方。
在一种实施情况中,
Figure SMS_123
方直接将原始的第二嵌入表征
Figure SMS_124
发送给
Figure SMS_125
方。在另一种实施 情况中,
Figure SMS_126
方先在第二嵌入表征
Figure SMS_127
中添加差分隐私噪声,得到第二加躁嵌入表征
Figure SMS_128
,再将 第二加躁嵌入表征
Figure SMS_129
发送给第一方。
需说明,对步骤S304的描述还可以参见对步骤S302的介绍。
步骤S305,
Figure SMS_130
方利用第一预测模型
Figure SMS_131
中的第一预测层
Figure SMS_132
处理第一嵌入表征
Figure SMS_133
和 第二嵌入表征
Figure SMS_134
的第一融合表征
Figure SMS_135
,得到第一预测结果
Figure SMS_136
需理解,预测层还可以被称为上述分类器或下游模型。对于第一预测层
Figure SMS_137
中神经 网络的层数,以及各层神经网络中的神经元数量,可以按照实际需求设定,例如,假定
Figure SMS_138
方 是上述第
Figure SMS_139
个移动端,其硬件水平和算力有限,由此可以将第一预测层
Figure SMS_140
设计为轻量级的神 经网络,具有较少的神经网络层数和/或较少的网络参数。
第一融合表征
Figure SMS_142
是通过对第一嵌入表征
Figure SMS_145
和第二嵌入表征
Figure SMS_148
进行融合处理而得 到。在一个实施例中,该融合处理可以是拼接,对此还可以参见上示公式(1)、(2)和图1中示 意的拼接符号
Figure SMS_141
。在另一个实施例中,若
Figure SMS_146
Figure SMS_147
具有相同维数,则融合处理可以是相加、求 平均等。在一个具体的实施例中,可以对第一嵌入表征
Figure SMS_149
和第二嵌入表征
Figure SMS_143
进行加权求和 得到第一融合表征
Figure SMS_144
。示例性的,计算式如下:
Figure SMS_150
(6)
其中
Figure SMS_151
可以是超参数,也可以是需要学习的模型参数。
需说明,可以设计第一预测模型
Figure SMS_152
中还具有第一融合层
Figure SMS_155
,用于进行上述融合处 理,记作
Figure SMS_158
。另外,在另一种实施情况中,
Figure SMS_153
方从
Figure SMS_156
方接收到的是第二加噪嵌 入表征
Figure SMS_160
而非第二嵌入表征
Figure SMS_161
,此时,融合处理针对第一嵌入表征
Figure SMS_154
和第二加噪嵌入表征
Figure SMS_157
进行,得到第一融合表征
Figure SMS_159
,对于此种实施情况未在图3中进行示意。
在一个实施例中,第一预测结果
Figure SMS_162
可以包括对应多个备选标签的多个预测分数 (prediction logits)。在另一个实施例中,第一预测结果
Figure SMS_163
可以包括对该多个预测分数进 行归一化处理而得到的多个预测概率。示例性的,归一化处理可以采用softmax函数实现。
步骤S306,
Figure SMS_164
方将第一预测结果
Figure SMS_165
发送给
Figure SMS_166
方。
步骤S307,
Figure SMS_167
方利用第二预测模型
Figure SMS_168
中的第二预测层
Figure SMS_169
处理第一嵌入表征
Figure SMS_170
和 第二嵌入表征
Figure SMS_171
的第二融合表征
Figure SMS_172
,得到第二预测结果
Figure SMS_173
在假定
Figure SMS_174
方是上述第
Figure SMS_175
个移动端的基础上,进一步假定
Figure SMS_176
方是上述云端,此时,因 云端的硬件水平和算力一般远高于移动端,由此将第二预测层
Figure SMS_177
设计为大规模的神经网 络,相较第一预测层
Figure SMS_178
具有更多的神经网络层数和/或更多的模型参数。
需说明,对步骤S307的介绍还可以参见对步骤S305的描述,不作赘述。
步骤S308,
Figure SMS_179
方将第二预测结果
Figure SMS_180
发送给
Figure SMS_181
方。
步骤S309,
Figure SMS_182
方基于所述第一预测结果
Figure SMS_183
、第二预测结果
Figure SMS_184
和训练样本的真实标 签
Figure SMS_185
,训练第一预测模型
Figure SMS_186
需理解,
Figure SMS_187
Figure SMS_188
Figure SMS_189
方中的真实标签
Figure SMS_190
是自主采集或人 工打标而得到的,或者,
Figure SMS_191
方中的真实标签
Figure SMS_192
是从
Figure SMS_193
方接收的。
在一种实施方式中,直接基于第一预测结果
Figure SMS_194
、第二预测结果
Figure SMS_195
和训练样本的真 实标签
Figure SMS_196
确定第一训练损失
Figure SMS_197
,从而基于该第一训练损失
Figure SMS_198
训练第一预测模型
Figure SMS_199
对于第一训练损失
Figure SMS_200
的确定,可以先确定反映第一预测结果
Figure SMS_201
和真实标签
Figure SMS_203
之间 差距的损失项
Figure SMS_202
,以及反映第一预测结果
Figure SMS_207
和第二预测结果
Figure SMS_208
之间差距的损失项
Figure SMS_209
;再 确定与损失项
Figure SMS_204
和损失项
Figure SMS_205
分别正相关的第一训练损失
Figure SMS_206
在一个具体的实施例中,损失项
Figure SMS_210
可以基于分类损失函数,如交叉熵损失函数或 铰链损失函数等进行确定。在一个具体的实施例中,损失项
Figure SMS_211
可以基于KL散度或欧式距离 等确定。
在一个具体的实施例中,可以直接将第一训练损失
Figure SMS_212
确定为损失项
Figure SMS_213
与损失项
Figure SMS_214
的和。在另一个具体的实施例中,可以利用第一权重系数对损失项
Figure SMS_215
和损失项
Figure SMS_217
进行 加权求和。一般地,第一权重系数中损失项
Figure SMS_218
对应的权重系数大于损失项
Figure SMS_219
对应的权重 系数,示例性的,前者为1,后者为区间
Figure SMS_216
中的某个数值,对此可参见下式:
Figure SMS_220
(7)
其中,
Figure SMS_221
为超参数,例如,设定为0.1。
假定
Figure SMS_222
方为上述第
Figure SMS_223
个移动端,此时,可以将公式(7)进一步细化为上述公式(5)。
在另一种实施方式中,考虑到将第二预测结果
Figure SMS_224
存在与真实标签
Figure SMS_225
不匹配,导致 蒸馏出的知识可能存在错误,因此提出对第二预测结果
Figure SMS_226
进行选择性使用,以加速训练收 敛。
具体地,先判断第一预测结果
Figure SMS_227
指示的预测标签
Figure SMS_228
与真实标签
Figure SMS_229
是否一致。示例性 的,第一预测结果
Figure SMS_230
包括对应多个备选标签的多个预测分数(或多个预测概率),此时,可以 将最高预测分数(或最大预测概率)所对应的备选标签确定为预测标签
Figure SMS_231
,从而判断预测标 签
Figure SMS_232
与真实标签
Figure SMS_233
是否一致。
进一步,在一个实施例中,在第一预测结果
Figure SMS_234
指示的预测标签
Figure SMS_236
与真实标签
Figure SMS_238
一致 的情况下,利用第一预测结果
Figure SMS_235
、真实标签
Figure SMS_239
和第二预测结果
Figure SMS_240
确定第一训练损失
Figure SMS_241
,训练 第一预测模型
Figure SMS_237
。对此,可以参见前述实施例中的相关描述,不作赘述。
在另一个实施例中,在第一预测结果
Figure SMS_242
指示的预测标签
Figure SMS_245
与真实标签
Figure SMS_248
不一致的 情况下,仅利用第一预测结果
Figure SMS_244
和真实标签
Figure SMS_246
训练第一预测模型
Figure SMS_249
。简而言之,可以直接 将上述损失项
Figure SMS_250
确定为第一训练损失
Figure SMS_243
,用以训练第一预测模型
Figure SMS_247
需说明,还可以考虑预测标签
Figure SMS_251
与真实标签
Figure SMS_256
部分一致的情况,例如,假定第一预 测结果
Figure SMS_259
包括对应多个备选标签的多个预测概率,此时,可以确定各个预测概率是否大于 预设的概率阈值(如0.6),若大于则将预测标签
Figure SMS_254
的对应项置1,否则置0。示例性的,根据第 一预测结果
Figure SMS_258
确定出预测标签
Figure SMS_261
,而真实标签
Figure SMS_263
,此时可以确定出前4维的标签元素是一致的,从而仅利用第一预测结果
Figure SMS_252
和第二预测结果
Figure SMS_257
中的前4维元素确定上述损失项
Figure SMS_260
,再结合上述损失项
Figure SMS_262
确定第一训 练损失
Figure SMS_253
,用以训练第一预测模型
Figure SMS_255
步骤S310,
Figure SMS_264
方基于第一预测结果
Figure SMS_265
、第二预测结果
Figure SMS_266
和训练样本的真实标签
Figure SMS_267
, 训练第二预测模型
Figure SMS_268
在一个实施例中,可以利用第二权重系数,对反映第二预测结果
Figure SMS_269
和真实标签
Figure SMS_273
之间差距的损失项
Figure SMS_276
,以及反映第二预测结果
Figure SMS_271
和第一预测结果
Figure SMS_272
之间差距的损失项
Figure SMS_274
进行加权求和,得到第二训练损失
Figure SMS_275
,用以训练第二预测模型
Figure SMS_270
一般地,第二权重系数中损失项
Figure SMS_277
对应的权重系数大于损失项
Figure SMS_278
对应的权重系 数,示例性的,前者为1,后者为区间
Figure SMS_279
中的某个数值,对此可参见下式:
Figure SMS_280
(8)
其中,
Figure SMS_282
为超参数,例如,设定为0.05。进一步,假定
Figure SMS_284
方为移动端,
Figure SMS_285
方为云端,此 时,对比公式(7)和(8),公式(7)中的
Figure SMS_283
是以云端为老师、以移动端为学生进行蒸馏学习的 损失项,公式(8)中的
Figure SMS_286
是以移动端为老师,以云端为学生进行蒸馏学习的损失项,考虑到 通常云端的数据量比移动端更为丰富,且模型也更为复杂,即便是云端和移动端双向学习, 移动端向云端学得的知识一般更加权威,因此可以设定
Figure SMS_287
的加权系数比
Figure SMS_288
的加权系数 大,也就是
Figure SMS_281
需说明的是,对步骤S310的介绍还可以参见对步骤S309的描述,不作赘述。
由上,可以实现两个数据方之间的双向协同学习,完成对第一预测模型
Figure SMS_289
和第二 预测模型
Figure SMS_290
的训练。
另外需说明的是,在实际应用中,数据方可以将其生成的嵌入向量存储在本地缓 存中,直到缓存满了,再将缓存的全部嵌入向量传输给另一数据方,如此可以有效降低通信 轮次、节省通信开销。另外,缓存中的嵌入表征无需来自参数相同的预测模型,比如,有些嵌 入表征于第t轮次训练中生成,第t轮次训练中预测模型的起始参数是
Figure SMS_291
,还有些嵌入表征 于第t+1轮次训练中生成,第t+1轮次训练中预测模型的起始参数是
Figure SMS_292
。如此,免除了传统 FL学习中需要不同数据方(如不同移动端)之间具有相同模型版本的要求。
综上,采用本说明书实施例披露的协同训练方法,可以实现:1)促进本地个性化。对一个数据方(如云端)的特征进行抽取后传输至另一数据方(如移动端),可以增强FL算法的个性化。2)支持模型的异构性。相较传统FL算法中要求不同数据方(如不同移动端)中部署的模型必须具有完全相同的结构,本说明书实施例披露的方案中只要求不同数据方中的模型具有相同的输入维数和输出维数。3)支持训练异步化。当存在部分训练设备被选取时,传输的嵌入特征和预测结果对异步化不敏感。4)减轻通讯负担。相较传统FL算法中不同数据方(如云端和移动端)之间需要传输的大量的模型梯度数据,本说明书实施例披露的方案中传输的嵌入特征和预测结果具有更小的数据量级。
以上主要结合图3,对协同学习的训练流程进行介绍。在进行多轮次迭代训练后,两方可以各自得到达到收敛标准的、训练好的预测模型。下面介绍基于训练好的预测模型进行实际预测的过程。
图4示出本说明书实施例披露的业务预测方法的流程示意图,所述方法由上述第一方执行。如图4所示,所述方法包括以下步骤:
步骤S410,确定待预测的目标样本。
在一个实施例中,假定第一方是客户端(或移动端),此时,响应于基于客户端(或移动端)发起的业务操作,可以将发起该业务操作的用户作为目标样本。示例性的,业务操作可以为打开客户端中包括广告展示位的某个界面。
在另一个实施例中,假定第一方是服务端(或云端),此时,响应于从客户端(或移动端)接收到业务请求,可以将该业务请求指示的请求用户作为目标样本。
步骤S420,利用第一方部署的第一预测模型
Figure SMS_293
中的第一嵌入层
Figure SMS_297
处理目标样本 的第一特征部分
Figure SMS_299
,得到第一嵌入表征
Figure SMS_295
。需理解,
Figure SMS_296
Figure SMS_298
等中的符号
Figure SMS_300
表示对应模型是 训练好的,具有最优模型参数;
Figure SMS_294
Figure SMS_301
等中的上标
Figure SMS_302
指代目标(target),表示对应数据与目 标样本之间具有关联关系。
在一个实施例中,假定第一方是客户端,此时,可以从客户端的缓存中读取在自当 前时刻起回溯预设时长内采集的用户行为数据,归入第一特征部分
Figure SMS_303
。或者说,将客户端针 对用户采集的实时行为特征归入第一特征部分
Figure SMS_304
在一个实施例中,假定第一方是云端,此时,可以读取目标用户的云端特征,作为 第一特征部分
Figure SMS_305
另外,对于第一嵌入表征
Figure SMS_306
的生成,可以参见前述实施例中的相关描述,不作赘 述。
步骤S430,获取第二嵌入表征
Figure SMS_307
,其由第二方利用其第二预测模型
Figure SMS_308
中的第二嵌 入层
Figure SMS_309
处理目标样本的第二特征部分
Figure SMS_310
而得到。
在一种实施情况中,可以在本地读取第二方预先发送的第二嵌入表征
Figure SMS_311
。具体地, 第一方和第二方在得到训练好的预测模型后,可以对共有样本进行处理,并将生成的嵌入 表征互相发送给对方,以供对方按需使用。
在一个实施例中,假定第一方是客户端,第二方是服务端,此时,客户端可以直接 读取服务端预先发送的第二嵌入表征
Figure SMS_312
。如此,客户端可以基于本地最新生成的嵌入表征 和服务端预先提供的嵌入表征进行预测,从而快速得到时效性较好的预测结果。
在另一个实施例中,假定第一方是服务端,第二方是客户端,此时,服务端可以读 取客户端预先发送的第二嵌入表征
Figure SMS_313
。如此,服务端可以基于本地最新生成的嵌入表征和 客户端预先提供的嵌入表征进行预测,从而快速得到通用性和鲁棒性较强的预测结果。
在另一种实施情况中,可以将目标样本的样本标识发送给第二方,以使第二方根 据样本标识调用本地特征生成第二嵌入表征
Figure SMS_314
,并从第二方接收其反馈的第二嵌入表征
Figure SMS_315
步骤S440,利用第一预测模型
Figure SMS_316
中的第一预测层
Figure SMS_317
处理第一嵌入表征
Figure SMS_318
和第二 嵌入表征
Figure SMS_319
的融合表征,得到针对目标样本的目标预测结果
Figure SMS_320
在一个实施例中,目标预测结果
Figure SMS_321
包括对应多个备选类别的多个预测分数或多个 预测概率,此时,还可以进一步确定目标预测结果
Figure SMS_322
对应的目标预测标签
Figure SMS_323
,作为最终的业 务反馈结果。
另外,对本步骤的介绍还可以参见前述实施例中的相关描述,不作赘述。
综上,采用本说明书实施例披露的业务预测方法,可以实现对目标样本进行高效、准确地预测。
以上介绍协同训练方法、业务预测方法,本说明书实施例中还披露对应的装置。
图5示出本说明书实施例披露的协同训练装置的结构示意图,该装置集成于第一方。如图5所示,该装置500包括:
嵌入处理模块510,配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征。表征接收模块520,配置为从第二方接收第二嵌入表征,其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到。预测模块530,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果。结果接收模块540,配置为从所述第二方接收第二预测结果,其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到。训练模块550,配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型。
在一个实施例中,所述第一预测模型还具有第一融合层;所述装置500还包括:融合处理模块560,配置为利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征,得到所述第一融合表征。
在一个实施例中,所述装置500还包括:噪声添加模块570,配置为在所述第一嵌入表征中添加差分隐私噪声,得到加躁嵌入表征;加噪表征发送模块580,配置为将所述加躁嵌入表征发送给所述第二方。
在一个实施例中,训练模块550具体配置为:根据第一损失项和第二损失项确定第一训练损失,所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关,第二损失项与所述第一预测结果和第二预测结果之间的差距正相关;基于所述第一训练损失,训练所述第一预测模型。
在一个具体的实施例中,训练模块550进一步配置为:基于第一权重系数对第一损失项和第二损失项加权求和;其中,所述第一权重系数不同于第二权重系数,所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。
在一个实施例中,训练模块550具体配置为:在所述第二预测结果指示的预测标签与所述真实标签一致的情况下,利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失,训练所述第一预测模型。
在一个实施例中,训练模块550具体配置为:在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下,仅利用所述第一预测结果和真实标签确定第一训练损失,训练所述第一预测模型。
在一个实施例中,所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;或者,所述第二方为服务端,所述第一方是所述服务端的多个客户端之一。
在一个实施例中,所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;其中,所述第一预测模型的模型参数数量大于所述第二预测模型的模型参数数量,和/或,所述第一预测模型的神经网络层数大于所述第二预测模型的神经网络层数。
图6示出本说明书实施例披露的业务预测装置的结构示意图,该装置集成于第一方。如图6所示,该装置600包括:
样本确定模块610,配置为确定待预测的目标样本。嵌入处理模块620,配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分,得到第一嵌入表征;所述第一预测模型由所述第一方通过与第二方进行协同训练而得到。表征获取模块630,配置为获取第二嵌入表征,其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到。预测模块640,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征,得到针对所述目标样本的目标预测结果。
在一个实施例中,所述第一方是客户端,所述第二方是所述客户端的服务端。基于此,样本确定模块610具体配置为:响应于基于所述客户端发起的业务操作,确定该业务操作对应的目标用户,作为目标样本;所示装置600还包括:特征读取模块650,配置为:从所述客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据,归入所述第一特征部分。
在一个具体的实施例中,表征获取模块630具体配置为:在本地读取所述服务端预先发送的所述第二嵌入表征。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图4所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图4所描述的方法。本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (16)

1.一种协同训练方法,由第一方执行,包括:
利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征;
从第二方接收第二嵌入表征,其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到;
利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果;
从所述第二方接收第二预测结果,其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到;
基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型。
2.根据权利要求1所述的方法,其中,所述第一预测模型还具有第一融合层;所述方法还包括:
利用所述第一融合层处理所述第一嵌入表征和第二嵌入表征,得到所述第一融合表征。
3.根据权利要求1所述的方法,其中,还包括:
在所述第一嵌入表征中添加差分隐私噪声,得到加躁嵌入表征;
将所述加躁嵌入表征发送给所述第二方。
4.根据权利要求1所述的方法,其中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:
根据第一损失项和第二损失项确定第一训练损失,所述第一损失项与所述第一预测结果和所述真实标签之间的差距正相关,第二损失项与所述第一预测结果和第二预测结果之间的差距正相关;
基于所述第一训练损失,训练所述第一预测模型。
5.根据权利要求4所述的方法,其中,根据第一损失项和第二损失项确定第一训练损失,包括:
基于第一权重系数对第一损失项和第二损失项加权求和;其中,所述第一权重系数不同于第二权重系数,所述第二权重系数是所述第二方对应训练所述第二预测模型所采用的权重系数。
6.根据权利要求1所述的方法,其中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:
在所述第二预测结果指示的预测标签与所述真实标签一致的情况下,利用所述第一预测结果、真实标签和第二预测结果确定第一训练损失,训练所述第一预测模型。
7.根据权利要求1所述的方法,其中,基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型,包括:
在所述第二预测结果指示的预测标签与所述真实标签不一致的情况下,仅利用所述第一预测结果和真实标签确定第一训练损失,训练所述第一预测模型。
8.根据权利要求1所述的方法,其中,
所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;或者,
所述第二方为服务端,所述第一方是所述服务端的多个客户端之一。
9.根据权利要求1-7中任一项所述的方法,其中,所述第一方为服务端,所述第二方是所述服务端的多个客户端之一;其中,所述第一预测模型的模型参数数量大于所述第二预测模型的模型参数数量,和/或,所述第一预测模型的神经网络层数大于所述第二预测模型的神经网络层数。
10.一种业务预测方法,由第一方执行,包括:
确定待预测的目标样本;
利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分,得到第一嵌入表征;所述第一预测模型由所述第一方执行权利要求1所述的方法而预先训练;
获取第二嵌入表征,其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到;
利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征,得到针对所述目标样本的目标预测结果。
11.根据权利要求10所述的方法,其中,所述第一方是客户端,所述第二方是所述客户端的服务端;其中,确定待预测的目标样本,包括:
响应于基于所述客户端发起的业务操作,确定该业务操作对应的目标用户,作为目标样本;
其中,所述方法还包括:从所述客户端的缓存中读取在自当前时刻起回溯预设时长内采集的用户行为数据,归入所述第一特征部分。
12.根据权利要求11所述的方法,其中,获取第二嵌入表征包括:
在本地读取所述服务端预先发送的所述第二嵌入表征。
13.一种协同训练装置,集成于第一方,包括:
嵌入处理模块,配置为利用第一方部署的第一预测模型中的第一嵌入层处理训练样本的第一特征部分,得到第一嵌入表征;
表征接收模块,配置为从第二方接收第二嵌入表征,其由所述第二方利用第二预测模型中的第二嵌入层处理所述训练样本的第二特征部分而得到;
预测模块,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的第一融合表征,得到第一预测结果;
结果接收模块,配置为从所述第二方接收第二预测结果,其由所述第二方利用所述第二预测模型对所述训练样本进行预测而得到;
训练模块,配置为基于所述第一预测结果、第二预测结果和所述训练样本的真实标签,训练所述第一预测模型。
14.一种业务预测装置,集成于第一方,包括:
样本确定模块,配置为确定待预测的目标样本;
嵌入处理模块,配置为利用所述第一方部署的第一预测模型中的第一嵌入层处理所述目标样本的第一特征部分,得到第一嵌入表征;所述第一预测模型由所述第一方执行权利要求1所述的方法而预先训练;
表征获取模块,配置为获取第二嵌入表征,其由第二方利用其第二预测模型中的第二嵌入层处理所述目标样本的第二特征部分而得到;
预测模块,配置为利用所述第一预测模型中的第一预测层处理所述第一嵌入表征和第二嵌入表征的融合表征,得到针对所述目标样本的目标预测结果。
15.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项所述的方法。
16.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。
CN202310702653.3A 2023-06-13 2023-06-13 协同训练方法及装置、业务预测方法及装置 Active CN116432039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310702653.3A CN116432039B (zh) 2023-06-13 2023-06-13 协同训练方法及装置、业务预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310702653.3A CN116432039B (zh) 2023-06-13 2023-06-13 协同训练方法及装置、业务预测方法及装置

Publications (2)

Publication Number Publication Date
CN116432039A true CN116432039A (zh) 2023-07-14
CN116432039B CN116432039B (zh) 2023-09-05

Family

ID=87083671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310702653.3A Active CN116432039B (zh) 2023-06-13 2023-06-13 协同训练方法及装置、业务预测方法及装置

Country Status (1)

Country Link
CN (1) CN116432039B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720005A (zh) * 2023-08-10 2023-09-08 四川大学 一种自适应噪声的数据协同对比推荐模型

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851713A (zh) * 2019-11-06 2020-02-28 腾讯科技(北京)有限公司 信息处理方法、推荐方法及相关设备
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
WO2021082633A1 (zh) * 2019-10-29 2021-05-06 支付宝(杭州)信息技术有限公司 实现安全防御的多方联合训练神经网络的方法及装置
CN113159314A (zh) * 2021-04-02 2021-07-23 支付宝(杭州)信息技术有限公司 业务模型的训练方法、装置及系统
WO2021179839A1 (zh) * 2020-03-11 2021-09-16 支付宝(杭州)信息技术有限公司 保护用户隐私的用户分类系统的构建方法及装置
CN113902473A (zh) * 2021-09-29 2022-01-07 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
CN114792173A (zh) * 2022-06-20 2022-07-26 支付宝(杭州)信息技术有限公司 预测模型训练方法和装置
CN115186876A (zh) * 2022-06-22 2022-10-14 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练业务预测模型的方法及装置
CN115329387A (zh) * 2022-10-17 2022-11-11 中国科学技术大学 基于差分隐私置乱模型的联邦协同蒸馏方法及系统
CN115438787A (zh) * 2022-09-26 2022-12-06 支付宝(杭州)信息技术有限公司 行为预测系统的训练方法及装置
WO2023082864A1 (zh) * 2021-11-09 2023-05-19 腾讯科技(深圳)有限公司 内容推荐模型的训练方法、装置、设备及存储介质
WO2023087914A1 (zh) * 2021-11-19 2023-05-25 腾讯科技(深圳)有限公司 推荐内容的选择方法、装置、设备、存储介质及程序产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177792B (zh) * 2020-04-10 2020-06-30 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置
CN111553754B (zh) * 2020-07-10 2020-12-01 支付宝(杭州)信息技术有限公司 行为预测系统的更新方法及装置
CN115917535A (zh) * 2020-07-24 2023-04-04 华为技术有限公司 推荐模型的训练方法、推荐方法、装置及计算机可读介质
CN115169583A (zh) * 2022-07-13 2022-10-11 支付宝(杭州)信息技术有限公司 用户行为预测系统的训练方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082633A1 (zh) * 2019-10-29 2021-05-06 支付宝(杭州)信息技术有限公司 实现安全防御的多方联合训练神经网络的方法及装置
CN110851713A (zh) * 2019-11-06 2020-02-28 腾讯科技(北京)有限公司 信息处理方法、推荐方法及相关设备
WO2021179839A1 (zh) * 2020-03-11 2021-09-16 支付宝(杭州)信息技术有限公司 保护用户隐私的用户分类系统的构建方法及装置
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
CN113159314A (zh) * 2021-04-02 2021-07-23 支付宝(杭州)信息技术有限公司 业务模型的训练方法、装置及系统
CN113902473A (zh) * 2021-09-29 2022-01-07 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
WO2023082864A1 (zh) * 2021-11-09 2023-05-19 腾讯科技(深圳)有限公司 内容推荐模型的训练方法、装置、设备及存储介质
WO2023087914A1 (zh) * 2021-11-19 2023-05-25 腾讯科技(深圳)有限公司 推荐内容的选择方法、装置、设备、存储介质及程序产品
CN114792173A (zh) * 2022-06-20 2022-07-26 支付宝(杭州)信息技术有限公司 预测模型训练方法和装置
CN115186876A (zh) * 2022-06-22 2022-10-14 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练业务预测模型的方法及装置
CN115438787A (zh) * 2022-09-26 2022-12-06 支付宝(杭州)信息技术有限公司 行为预测系统的训练方法及装置
CN115329387A (zh) * 2022-10-17 2022-11-11 中国科学技术大学 基于差分隐私置乱模型的联邦协同蒸馏方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张随雨;杨成;: "一种多标签统一域嵌入的推荐模型", 哈尔滨工业大学学报, no. 05, pages 185 - 191 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720005A (zh) * 2023-08-10 2023-09-08 四川大学 一种自适应噪声的数据协同对比推荐模型
CN116720005B (zh) * 2023-08-10 2023-10-20 四川大学 一种基于自适应噪声的数据协同对比推荐模型的系统

Also Published As

Publication number Publication date
CN116432039B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US20200183557A1 (en) Virtual teller systems and methods
CN113688855B (zh) 数据处理方法、联邦学习的训练方法及相关装置、设备
CN112000819B (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
Wang et al. Recsys-dan: discriminative adversarial networks for cross-domain recommender systems
CN111401558A (zh) 数据处理模型训练方法、数据处理方法、装置、电子设备
US20080208966A1 (en) Hierarchical Temporal Memory (HTM) System Deployed as Web Service
CN116432039B (zh) 协同训练方法及装置、业务预测方法及装置
CN112650875A (zh) 房产图片验证方法、装置、计算机设备及存储介质
CN112231570A (zh) 推荐系统托攻击检测方法、装置、设备及存储介质
Karimi et al. Exploiting the characteristics of matrix factorization for active learning in recommender systems
CN110097010A (zh) 图文检测方法、装置、服务器及存储介质
WO2019116352A1 (en) Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
CN111008335A (zh) 一种信息处理方法、装置、设备及存储介质
CN114612688B (zh) 对抗样本生成方法、模型训练方法、处理方法及电子设备
CN114580794B (zh) 数据处理方法、装置、程序产品、计算机设备和介质
Goode Digital identity: solving the problem of trust
CN116089715A (zh) 一种基于个性化联邦技术的序列推荐方法
CN115841366A (zh) 物品推荐模型训练方法、装置、电子设备及存储介质
CN117009873A (zh) 支付风险识别模型的生成方法、支付风险识别方法及装置
Ma et al. A novel computerized adaptive testing framework with decoupled learning selector
Njoya et al. Characterizing Mobile Money Phishing Using Reinforcement Learning
Yang et al. Federated continual learning via knowledge fusion: A survey
CN112214387B (zh) 基于知识图谱的用户操作行为预测方法及装置
WO2020075462A1 (ja) 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム
Sandoval-Bravo et al. Coverless image steganography framework using distance local binary pattern and convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant