CN116796852A - 模型训练方法和模型训练装置 - Google Patents
模型训练方法和模型训练装置 Download PDFInfo
- Publication number
- CN116796852A CN116796852A CN202211657688.1A CN202211657688A CN116796852A CN 116796852 A CN116796852 A CN 116796852A CN 202211657688 A CN202211657688 A CN 202211657688A CN 116796852 A CN116796852 A CN 116796852A
- Authority
- CN
- China
- Prior art keywords
- model
- sub
- gradient
- sample
- intermediate result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000006870 function Effects 0.000 claims abstract description 36
- 230000006837 decompression Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 20
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 19
- 230000002411 adverse Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种模型训练方法和模型训练装置,属于纵向联邦学习领域。所述模型训练方法,应用于纵向联邦学习模型,纵向联邦学习模型包括多个第一子模型和第二子模型,第一子模型的输出端与第二子模型的输入端连接,所述方法包括:对第一中间结果进行随机稀疏化处理,获取样本中间结果;对样本中间结果进行解压处理,获取样本解压结果;基于样本解压结果,确定损失函数对于第二子模型的第三梯度和损失函数对于多个第一子模型中目标第一子模型的第一梯度;基于第一梯度和样本中间结果,训练目标第一子模型;基于第三梯度,训练第二子模型。本申请的模型训练方法,通过在训练过程中采用随机稀疏化算法处理第一中间结果,可以提高训练效果。
Description
技术领域
本申请属于纵向联邦学习领域,尤其涉及一种模型训练方法和模型训练装置。
背景技术
随着大数据时代的来临,工业互联网中涉及越来越多的数据,如何对数据进行有效的隐私保护成为亟待解决的问题。相关技术中,主要采用拆分学习的方法来进行联邦学习,以基于工业特征数据获取与该工业特征数据对应的标签,从而达到保护本地端的工业特征数据的隐私的目的。然而,该拆分学习的方法涉及较多的数据量,从而影响数据处理效率以及通信速率。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种模型训练方法和模型训练装置,能够在提高通信效率的基础上提高训练效果,从而提高模型的精确度和普适性。
第一方面,本申请提供了一种模型训练方法,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,该方法包括:
对第一中间结果进行随机稀疏化处理,获取样本中间结果;
对所述样本中间结果进行解压处理,获取样本解压结果;
基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度;
基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型;基于所述第三梯度,训练所述第二子模型。
根据本申请的模型训练方法,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
根据本申请的一个实施例,所述对第一中间结果进行随机稀疏化处理,获取样本中间结果,包括:
基于所述第一中间结果,获取随机化向量,所述第一中间结果包括第一目标数量的元素;
基于所述随机化向量,确定绝对值最大的第二目标数量的下标对应的元素;
保留所述第二目标数量的下标对应的元素,获取所述样本中间结果。
根据本申请的一个实施例,所述随机化向量基于如下公式确定:
r=(r1~U(0,|x1|α),...,rN~U(0,|XN|α))
其中,r为所述随机化向量;α为目标实数,用于控制随机程度;N为所述第一目标数量;XN为第N个元素的向量;x1为第1个元素的向量。
根据本申请的一个实施例,所述第一中间结果为下标编码的数据。
根据本申请的一个实施例,所述基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度,包括:
将所述样本中间结果发送至所述第二子模型,获取所述第二子模型输出的所述样本中间结果对应的预测标签;
基于所述预测标签和所述样本工业特征数据对应的真实标签,确定所述损失函数;
对所述损失函数进行链式求导,获取所述第一梯度和所述第三梯度。
根据本申请的一个实施例,所述基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型,包括:
采用链式法则处理所述第一梯度,确定第二梯度;
基于所述第二梯度,优化所述目标第一子模型。
第二方面,本申请提供了一种模型训练装置,该装置包括:
根据本申请的模型训练装置,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而提高模型的精确度和普适性。
第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的模型训练方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的模型训练方法。
第五方面,本申请提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的模型训练方法。
第六方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的模型训练方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
进一步的,通过链式求导法处理基于标签提供方生成的损失函数所得到的第一梯度来优化目标第一子模型,具有较好的训练效果,能够在不影响模型精度的情况下,降低训练过程中的通讯量。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的模型训练方法的流程示意图之一;
图2是本申请实施例提供的模型训练方法的流程示意图之二;
图3是本申请实施例提供的模型训练装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法、模型训练装置、电子设备和可读存储介质进行详细地说明。
其中,模型训练方法可应用于终端,具体可由,终端中的硬件或软件执行。
该终端包括但不限于具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话或平板电脑等便携式通信设备。还应当理解的是,在某些实施例中,该终端可以不是便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
以下各个实施例中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。
本申请实施例提供的模型训练方法,该模型训练方法的执行主体可以为电子设备或者电子设备中能够实现该模型训练方法的功能模块或功能实体,本申请实施例提及的电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等,下面以电子设备作为执行主体为例对本申请实施例提供的模型训练方法进行说明。
需要说明的是,该模型训练方法可以应用于工业大数据处理领域。
该模型训练方法应用于纵向联邦学习模型,纵向联邦学习模型包括多个第一子模型和一个第二子模型,各第一子模型的输出端与第二子模型的输入端连接。
每一个第一子模型对应一个特征提供方,第二子模型对应于标签提供方。
其中,各第一子模型之间无数据共享。
在训练过程中,第一子模型的输入数据为与该第一子模型对应的特征提供方所提供的工业特征数据和样本中间结果。
在训练过程中,第二子模型的输入数据为各特征提供方所提供的样本中间结果和各样本中间结果对应的样本标签。
在应用过程中,第一子模型的输入数据为该第一子模型对应的特征提供方所提供的目标工业特征数据,输出数据为目标中间结果,该目标中间结果为稀疏化的数据。
第二子模型的输入数据为各特征提供方所提供的目标中间结果,输出数据为基于各目标中间结果预测得到的目标标签。
例如,如图2所示,典型的双层拆分学习模型可以表示为如下的函数:
其中,表示模型预测结果,Mt表示尾部模型(即第二子模型),Mhi表示第i个头部模型(即初始第一子模型),xi表示第i个头部模型对应的输入特征。
在拆分学习场景下,Mt,Mh1,...,Mhn以及其对应的输入:模型标签y、不同的输入特征x1,...,xn往往被不同的参与方所拥有。
在本申请中,将拥有尾部模型Mt和标签y的参与方称为标签提供方,将拥有头部模型Mhi和其对应输入xi的参与方称为第i个特征提供方。
如图1所示,该模型训练方法包括:步骤110、步骤120、步骤130和步骤140。
步骤110、对第一中间结果进行随机稀疏化处理,获取样本中间结果;
在该步骤中,样本中间结果为用于训练第一子模型的数据。
可以理解的是,在纵向联邦学习过程中,涉及多个特征提供方,每一个特征提供方均对应有工业特征数据,各特征提供方所提供的工业特征数据不完全相同且差异较大。
需要说明的是,各特征提供方相互之间无信息共享。
以样本工业特征数据为用户家庭所在小区的建设年限以及小区房屋均价等特征数据为例,用户家庭所在小区的建设年限等相关特征数据可能由企业A提供,小区房屋均价等特征数据可能由企业B提供,且企业A和企业B之间不存在信息共享。
在该步骤中,目标特征提供方可以为多个特征提供方中的任一提供方,目标第一子模型为目标特征提供方所对应的第一子模型,样本工业特征数据即为目标特征提供方所提供的工业特征数据。
第一中间结果为特征提供方对自身对应的样本工业特征数据进行加密处理以及对齐处理后所得到的数据,该第一中间结果可与其他特征提供方所提供的第一中间结果保持数据对齐,从而便于标签提供方基于多个特征提供方所提供的第一中间结果进行联邦训练,以生成各工业特征数据对应的标签。
样本中间结果为对第一中间结果进行随机稀疏化处理后所生成的新的中间结果。
其中,稀疏化指的是将一个向量中的大部分元素变为0,只保留小部分元素。
在本申请中,通过采用随机稀疏化的方法处理第一中间结果,可以缓解简单的top-k稀疏化仅存在唯一一种稀疏化后的结果所带来的问题,以降低对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而提高模型的精确度。
可以理解的是,在样本工业特征数据量较大的情况下,第一中间结果的数据量也相对较大。
通过对第一中间结果进行随机稀疏化处理,可以降低所得到的样本中间结果的数据量,从而提高训练效率。
例如,第i个特征提供方首先获取自己对应的样本工业特征数据Xi,将其输入第一子模型Mhi,以得到第一中间结果Hi;然后利用随机稀疏算子S将第一中间结果Hi进行随机稀疏化处理,得到样本中间结果H′i=S[Hi]。
在一些实施例中,步骤110可以包括:
基于第一中间结果,获取随机化向量,第一中间结果包括第一目标数量的元素;
基于随机化向量,确定绝对值最大的第二目标数量的下标对应的元素;
保留第二目标数量的下标对应的元素,获取样本中间结果。
在该实施例中,第一目标数量为第一中间结果所包括的全部元素的数量。
随机稀疏化方法的基础可以为top-k稀疏化。
例如,对于一个含有N个元素的第一中间结果,第一目标数量即为N,其中,N为正整数。
第二目标数量可以基于用户自定义,如设置为k;其中k为正整数且k<N。
例如,对于一个含有N个元素的向量,可以首先生成一个随机化向量,然后从该随机化向量中随机保留绝对值最大的k个元素,该k个元素即为样本中间结果。
在一些实施例中,第一中间结果可以为下标编码的数据。
在该实施例中,可以采用下标编码方式。
例如,在前向传播的过程中,各个特征提供方传输给标签提供方的数据为则,编码下标j至少需要要log2N bit的存储。
假设神经网络的运算精度为32位,则最终的传输通讯bit数为(32+log2N)k位,压缩比率为
在一些实施例中,随机化向量可以基于如下公式确定:
r=(r1~U(0,|x1|α),...,rN~U(0,|XN|α))
其中,r为随机化向量;α为目标实数,用于控制随机程度;N为第一目标数量;XN为第N个元素的向量;x1为第1个元素的向量。
在该实施例中,对于一个含有N个元素的向量,可以首先生成一个随机化向量:
r=(r1~U(0,|x1|α),...,rN~U(0,|XN|α))
其中,α为一个控制随机程度的实数,数值可以设置为2或3。
当α=0时,该随机稀疏化方法退化为Dropout,即随机保留k个元素;当α逐渐变大时,该方法越来越接近top-k。
然后根据随机化向量r找到绝对值最大的k个元素的下标:\{j_1,j_2,…,j_k\},然后在x中保留具有这些下标的元素。
在实际执行过程中,例如,可以在得到第一中间结果Hi之后,利用随机稀疏算子S将第一中间结果Hi进行随机稀疏化处理,得到样本中间结果H′i=S[Hi]。
在本申请中,通过在训练过程中采用随机稀疏化算法,可以缓解简单的top-k稀疏化仅存在唯一一种稀疏化后的结果所带来的问题,以降低对拆分学习的模型训练过程导致的不良影响,提高训练效果。
根据本申请实施例提供的模型训练方法,通过在训练过程中采用随机稀疏化算法,可以缓解简单的top-k稀疏化仅存在唯一一种稀疏化后的结果所带来的问题,以降低对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而提高模型的精确度。
步骤120、对样本中间结果进行解压处理,获取样本解压结果;
在该步骤中,样本解压缩结果为标签提供方对样本中间结果进行解压处理所获取的结果。
样本解压缩结果用于进行第二子模型的训练。
在实际执行过程中,标签提供方接收到所有的特征提供方的压缩的输出值(即样本中间结果)之后,对其依次进行解压缩,得到非0值和对应的下标:然后标签提供方产生对应的向量H′,其中第ij个元素为/>其余元素为0,生成样本解压缩结果H′1,...,H′n。
步骤130、基于样本解压结果,确定损失函数对于第二子模型的第三梯度和损失函数对于多个第一子模型中目标第一子模型的第一梯度;
在该步骤中,第三梯度为损失函数对于第二子模型参数的梯度,用于更新第二子模型。
第二子模型为联邦学习过程中,由标签提供方所训练得到的模型。
在应用过程中,第二子模型用于基于目标中间结果,输出目标标签。
在训练过程中,可以将样本中间结果和样本中间结果对应的样本标签均输入至第二子模型,以训练第二子模型。
继续以样本工业特征数据为用户家庭所在小区的建设年限以及小区房屋均价等样本特征数据为例,则样本标签可以为A地区的用户是否有意愿购买A地区的产品(如房子),或A地区的用户购买某一产品的实际概率等。
第一梯度为损失函数对于目标第一子模型输出的梯度,用于更新目标第一子模型。
在一些实施例中,步骤130可以包括:
将样本中间结果发送至第二子模型,获取第二子模型输出的样本中间结果对应的预测标签;
基于预测标签和样本工业特征数据对应的真实标签,确定损失函数;
对损失函数进行链式求导,获取第一梯度和第三梯度。
在该实施例中,真实标签即为样本标签,为样本中间结果对应的真实数据。
预测标签为第二子模型基于样本中间结果预测得到的数据、
基于预测标签和真实标签的差异,即可确定损失函数。
在得到损失函数后,进行链式求导,即可获取第一梯度和第三梯度。
继续以上述实施例为例,如图2所示,在标签提供方接收到特征提供方提供的样本中间结果H′i=S[Hi]之后,对其进行解压处理,并将得到的将样本解压结果输入第二子模型Mt,然后得到预测标签标签提供方同时载入该批样本对应的真实标签Y,计算出损失函数然后通过反向传播算法,即可确定第一梯度和第三梯度。
根据本申请实施例提供的模型训练方法,通过链式求导法处理基于标签提供方生成的损失函数所得到的第一梯度来优化目标第一子模型,具有较好的训练效果,能够在不影响模型精度的情况下,降低训练过程中的通讯量。
步骤140、基于第一梯度和样本中间结果,训练目标第一子模型;基于第三梯度,训练第二子模型。
在该步骤中,可以样本工业特征数据为样本,以与样本工业特征对应的样本中间结果为样本标签,训练目标第一子模型,并基于第一梯度优化目标第一子模型。
可以样本中间结果为样本,以与样本中间结果对应的真实标签为样本标签,训练第二子模型,并基于第三梯度优化第二子模型。
在一些实施例中,基于第一梯度和样本中间结果,训练目标第一子模型,可以包括:
采用链式法则处理第一梯度,确定第二梯度;
基于第二梯度,优化目标第一子模型。
在该实施例中,继续参考图2,标签预测方在计算得到损失函数之后,对其进行链式求导,可获取该损失函数/>相对于第二子模型参数的第三梯度/>和损失函数对于各第一子模型输出的第一梯度/>
其中,第三梯度用于标签提供方自己更新尾部模型。
第一梯度是头部模型输出的梯度。
可以理解的是,头部模型输出本身已经是稀疏化的,只需要保留梯度对应下标的值,然后传回给特征提供方即可。
由于特征提供方保存了下标,因此传输时不需要传输下标信息。
第i个特征提供方解压缩得到稀疏的第一梯度后,采用链式法则进行计算,即可得到第二梯度/>然后利用第二梯度更新其对应的头部模型(即目标第一子模型)。
根据本申请实施例提供的模型训练方法,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
本申请实施例提供的模型训练方法,执行主体可以为模型训练装置。本申请实施例中以模型训练装置执行模型训练方法为例,说明本申请实施例提供的模型训练装置。
本申请实施例还提供一种模型训练装置。
如图3所示,该模型训练装置应用于纵向联邦学习模型,纵向联邦学习模型包括多个第一子模型和第二子模型,第一子模型的输出端与第二子模型的输入端连接,该装置包括:第一处理模块310、第二处理模块320、第三处理模块330和第四处理模块340。
第一处理模块310,用于对第一中间结果进行随机稀疏化处理,获取样本中间结果;
第二处理模块320,用于对样本中间结果进行解压处理,获取样本解压结果;
第三处理模块330,用于基于样本解压结果,确定损失函数对于第二子模型的第三梯度和损失函数对于多个第一子模型中目标第一子模型的第一梯度;
第四处理模块340,用于基于第一梯度,训练目标第一子模型;基于第三梯度,训练第二子模型。
根据本申请实施例提供的模型训练装置,通过在训练过程中采用随机稀疏化算法处理第一中间结果,通过提高训练样本的随机性,可以有效缓解单一稀疏化对拆分学习的模型训练过程导致的不良影响,提高训练效果,从而实现在降低拆分学习的通讯量以提高通讯效率的基础上,提高模型的精确度和普适性。
在一些实施例中,第一处理模块310,还可以用于:
基于第一中间结果,获取随机化向量,第一中间结果包括第一目标数量的元素;
基于随机化向量,确定绝对值最大的第二目标数量的下标对应的元素;
保留第二目标数量的下标对应的元素,获取样本中间结果。
在一些实施例中,第一处理模块310,还可以用于:基于如下公式确定随机化向量:
r=(r1~U(0,|x1|α),...,rN~U(0,|XN|α))
其中,r为随机化向量;α为目标实数,用于控制随机程度;N为第一目标数量;XN为第N个元素的向量;x1为第1个元素的向量。
在一些实施例中,第三处理模块330,还可以用于:
将样本中间结果发送至第二子模型,获取第二子模型输出的样本中间结果对应的预测标签;
基于预测标签和样本工业特征数据对应的真实标签,确定损失函数;
对损失函数进行链式求导,获取第一梯度和第三梯度。
在一些实施例中,第四处理模块340,还可以用于:
采用链式法则处理第一梯度,确定第二梯度;
基于第二梯度,优化目标第一子模型。
本申请实施例中的模型训练装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的模型训练装置能够实现图1至图2的方法实施例实现的各个过程,为避免重复,这里不再赘述。
在一些实施例中,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401、存储器402及存储在存储器402上并可在处理器401上运行的计算机程序,该程序被处理器401执行时实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本申请实施例还提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述模型训练方法。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种模型训练方法,其特征在于,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,所述方法包括:
对第一中间结果进行随机稀疏化处理,获取样本中间结果;
对所述样本中间结果进行解压处理,获取样本解压结果;
基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度;
基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型;基于所述第三梯度,训练所述第二子模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述对第一中间结果进行随机稀疏化处理,获取样本中间结果,包括:
基于所述第一中间结果,获取随机化向量,所述第一中间结果包括第一目标数量的元素;
基于所述随机化向量,确定绝对值最大的第二目标数量的下标对应的元素;
保留所述第二目标数量的下标对应的元素,获取所述样本中间结果。
3.根据权利要求2所述的模型训练方法,其特征在于,所述随机化向量基于如下公式确定:
r=(r1~U(0,|x1|α),...,rN~U(0,|XN|α))
其中,r为所述随机化向量;α为目标实数,用于控制随机程度;N为所述第一目标数量;XN为第N个元素的向量;x1为第1个元素的向量。
4.根据权利要求2所述的模型训练方法,其特征在于,所述第一中间结果为下标编码的数据。
5.根据权利要求1-4任一项所述的模型训练方法,其特征在于,所述基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度,包括:
将所述样本中间结果发送至所述第二子模型,获取所述第二子模型输出的所述样本中间结果对应的预测标签;
基于所述预测标签和所述样本工业特征数据对应的真实标签,确定所述损失函数;
对所述损失函数进行链式求导,获取所述第一梯度和所述第三梯度。
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于所述第一梯度和所述样本中间结果,训练所述目标第一子模型,包括:
采用链式法则处理所述第一梯度,确定第二梯度;
基于所述第二梯度,优化所述目标第一子模型。
7.一种模型训练装置,其特征在于,应用于纵向联邦学习模型,所述纵向联邦学习模型包括多个第一子模型和第二子模型,所述第一子模型的输出端与所述第二子模型的输入端连接,所述装置包括:
第一处理模块,用于对第一中间结果进行随机稀疏化处理,获取样本中间结果;
第二处理模块,用于对所述样本中间结果进行解压处理,获取样本解压结果;
第三处理模块,用于基于所述样本解压结果,确定损失函数对于所述第二子模型的第三梯度和所述损失函数对于所述多个第一子模型中目标第一子模型的第一梯度;
第四处理模块,用于基于所述第一梯度,训练所述目标第一子模型;基于所述第三梯度,训练所述第二子模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述模型训练方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的模型训练方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657688.1A CN116796852A (zh) | 2022-12-22 | 2022-12-22 | 模型训练方法和模型训练装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211657688.1A CN116796852A (zh) | 2022-12-22 | 2022-12-22 | 模型训练方法和模型训练装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116796852A true CN116796852A (zh) | 2023-09-22 |
Family
ID=88042687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211657688.1A Pending CN116796852A (zh) | 2022-12-22 | 2022-12-22 | 模型训练方法和模型训练装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796852A (zh) |
-
2022
- 2022-12-22 CN CN202211657688.1A patent/CN116796852A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569227B (zh) | 模型参数确定方法、装置和电子设备 | |
CN108628898B (zh) | 数据入库的方法、装置和设备 | |
CN111967035B (zh) | 模型训练方法、装置和电子设备 | |
CN110866040B (zh) | 用户画像生成方法、装置和系统 | |
CN112149706B (zh) | 模型训练方法、装置、设备和介质 | |
CN114612600B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
JP7437517B2 (ja) | 予測情報を生成する方法、装置、電子機器及びコンピュータ可読媒体 | |
CN113722755A (zh) | 实现隐私保护的数据处理系统、方法、装置和设备 | |
CN112615852A (zh) | 数据的处理方法、相关装置及计算机程序产品 | |
CN113592593B (zh) | 序列推荐模型的训练及应用方法、装置、设备及存储介质 | |
CN110969261A (zh) | 基于加密算法的模型构建方法及相关设备 | |
CN114143000A (zh) | 基于不经意传输协议与秘密分享的匿踪查询方法及装置 | |
CN112507323A (zh) | 基于单向网络的模型训练方法、装置和计算设备 | |
CN112149834B (zh) | 模型训练方法、装置、设备和介质 | |
CN112511361B (zh) | 模型训练方法、装置和计算设备 | |
CN114860411B (zh) | 多任务学习方法、装置、电子设备和存储介质 | |
CN116796852A (zh) | 模型训练方法和模型训练装置 | |
CN116011595A (zh) | 数据处理方法和数据处理装置 | |
CN113961962A (zh) | 一种基于隐私保护的模型训练方法、系统及计算机设备 | |
CN112632384A (zh) | 针对应用程序的数据处理方法、装置、电子设备和介质 | |
CN112598127A (zh) | 联邦学习模型训练方法和装置、电子设备、介质和产品 | |
CN115994369A (zh) | 数据处理方法和数据处理装置 | |
CN113011459B (zh) | 模型训练方法、装置和计算设备 | |
US11928232B1 (en) | Protecting sensitive data from being exposed in graph embedding vectors | |
CN113657353B (zh) | 公式识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |