CN111738453A - 基于样本加权的业务模型训练方法、装置及系统 - Google Patents

基于样本加权的业务模型训练方法、装置及系统 Download PDF

Info

Publication number
CN111738453A
CN111738453A CN202010762022.7A CN202010762022A CN111738453A CN 111738453 A CN111738453 A CN 111738453A CN 202010762022 A CN202010762022 A CN 202010762022A CN 111738453 A CN111738453 A CN 111738453A
Authority
CN
China
Prior art keywords
model
share
data
fraction
model update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010762022.7A
Other languages
English (en)
Other versions
CN111738453B (zh
Inventor
陈超超
周俊
王力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010762022.7A priority Critical patent/CN111738453B/zh
Publication of CN111738453A publication Critical patent/CN111738453A/zh
Application granted granted Critical
Publication of CN111738453B publication Critical patent/CN111738453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供基于样本加权的业务模型训练方法及系统。第一和第二数据拥有方分别具有第一和第二数据集以及第一和第二模型。第一数据拥有方包括具有标签权重的数据标签。各个数据拥有方对所具有的模型和标签权重进行份额分解并进行共享。在各个数据拥有方之间,使用各个模型份额、第一和第二数据集以及数据标签,确定各个模型的模型更新量份额。在各个数据拥有方之间,使用各个模型的模型更新量份额以及标签权重份额,确定各个模型的加权模型更新量份额。各个数据拥有方根据各个加权模型更新量份额更新对应的模型份额。在循环结束时,各个数据拥有方共享更新后的模型份额,并根据更新后的模型份额确定训练出的第一和第二模型。

Description

基于样本加权的业务模型训练方法、装置及系统
技术领域
本说明书实施例通常涉及机器学习领域,尤其涉及基于样本加权的业务模型训练方法、装置及系统。
背景技术
机器学习技术被广泛地应用于各种业务应用场景。在业务应用场景中,使用机器学习模型作为业务模型来进行各种业务服务。在很多情况下,业务模型需要采用多个数据拥有方的业务数据来进行模型训练。多个数据拥有方(例如,电子商务公司、快递公司和银行)各自拥有训练业务模型所使用的特征数据的不同部分数据。该多个数据拥有方通常想共同使用彼此的数据来统一训练业务模型,但又不想把各自的数据提供给其它数据拥有方以防止自己的数据被泄露。
面对这种情况,提出了能够保护数据安全的业务模型训练方法,其能够在保证多个数据拥有方的各自数据安全的情况下,协同该多个数据拥有方来训练业务模型,以供该多个数据拥有方使用。然而,现有业务模型训练方法不能适用于训练样本的数据标签具有权重的应用场景。
发明内容
鉴于上述,本说明书实施例提供一种基于样本加权的业务模型训练方法、装置及系统。
根据本说明书实施例的一个方面,提供一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集
Figure 478649DEST_PATH_IMAGE001
、第一模型
Figure 395790DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 175527DEST_PATH_IMAGE003
和第二模型
Figure 836315DEST_PATH_IMAGE004
,第一数据集
Figure 650688DEST_PATH_IMAGE001
和第二数据集
Figure 473150DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 943446DEST_PATH_IMAGE002
和第二模型
Figure 142346DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述方法由第一数据拥有方执行,所述方法包括:将第一模型
Figure 811225DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 70168DEST_PATH_IMAGE005
Figure 824497DEST_PATH_IMAGE006
以及标签权重份额
Figure 561509DEST_PATH_IMAGE007
Figure 84894DEST_PATH_IMAGE008
,并将第一模型份额
Figure 983580DEST_PATH_IMAGE006
和标签权重份额
Figure 225205DEST_PATH_IMAGE008
发送给第二数据拥有方;从第二数据拥有方接收第二模型
Figure 500329DEST_PATH_IMAGE004
的第二模型份额
Figure 347062DEST_PATH_IMAGE009
,第二模型份额
Figure 682229DEST_PATH_IMAGE009
经由第二数据拥有方将第二模型
Figure 411150DEST_PATH_IMAGE004
分解为第二模型份额
Figure 755544DEST_PATH_IMAGE009
Figure 253521DEST_PATH_IMAGE010
得到;执行下述循环过程,直到满足循环结束条件:在各个数据拥有方之间,使用第一模型份额
Figure 25168DEST_PATH_IMAGE005
Figure 975807DEST_PATH_IMAGE006
、第二模型份额
Figure 61574DEST_PATH_IMAGE009
Figure 414058DEST_PATH_IMAGE010
、第一数据集
Figure 356607DEST_PATH_IMAGE001
和第二数据集
Figure 263383DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 684000DEST_PATH_IMAGE002
的模型更新量份额
Figure 156569DEST_PATH_IMAGE011
Figure 535598DEST_PATH_IMAGE012
以及第二模型
Figure 460829DEST_PATH_IMAGE004
的模型更新量份额
Figure 685137DEST_PATH_IMAGE013
Figure 746634DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 234247DEST_PATH_IMAGE011
Figure 646774DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 674773DEST_PATH_IMAGE012
Figure 325197DEST_PATH_IMAGE014
;在各个数据拥有方之间,使用第一模型
Figure 514870DEST_PATH_IMAGE002
的模型更新量份额
Figure 414692DEST_PATH_IMAGE011
Figure 980803DEST_PATH_IMAGE012
、第二模型
Figure 548051DEST_PATH_IMAGE004
的模型更新量份额
Figure 908625DEST_PATH_IMAGE013
Figure 295744DEST_PATH_IMAGE014
以及标签权重份额
Figure 868808DEST_PATH_IMAGE007
Figure 759403DEST_PATH_IMAGE008
,确定第一模型
Figure 556458DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 430873DEST_PATH_IMAGE015
Figure 604365DEST_PATH_IMAGE016
以及第二模型
Figure 615047DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 583003DEST_PATH_IMAGE017
Figure 147976DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 859580DEST_PATH_IMAGE015
Figure 724768DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 63958DEST_PATH_IMAGE016
Figure 647386DEST_PATH_IMAGE018
;分别根据加权模型更新量份额
Figure 897102DEST_PATH_IMAGE015
Figure 882375DEST_PATH_IMAGE017
更新第一模型份额
Figure 457713DEST_PATH_IMAGE005
和第二模型份额
Figure 528437DEST_PATH_IMAGE009
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额
Figure 581844DEST_PATH_IMAGE006
和第二模型份额
Figure 890466DEST_PATH_IMAGE010
根据加权模型更新量份额
Figure 371126DEST_PATH_IMAGE016
Figure 663567DEST_PATH_IMAGE018
更新,在满足循环结束条件时,将更新后的第二模型份额
Figure 520664DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 418213DEST_PATH_IMAGE006
;以及根据更新后的第一模型份额
Figure 69774DEST_PATH_IMAGE005
Figure 115091DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 775879DEST_PATH_IMAGE002
可选地,在上述方面的一个示例中,在各个数据拥有方之间,使用第一模型份额
Figure 324672DEST_PATH_IMAGE005
Figure 412714DEST_PATH_IMAGE006
、第二模型份额
Figure 883009DEST_PATH_IMAGE009
Figure 81910DEST_PATH_IMAGE010
、第一数据集
Figure 485209DEST_PATH_IMAGE001
和第二数据集
Figure 212994DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 967323DEST_PATH_IMAGE002
的模型更新量份额
Figure 704335DEST_PATH_IMAGE011
Figure 227720DEST_PATH_IMAGE012
以及第二模型
Figure 923144DEST_PATH_IMAGE004
的模型更新量份额
Figure 899190DEST_PATH_IMAGE013
Figure 439893DEST_PATH_IMAGE014
包括:根据第一模型份额
Figure 286626DEST_PATH_IMAGE005
和第一数据集
Figure 621792DEST_PATH_IMAGE001
确定第一预测值
Figure 350714DEST_PATH_IMAGE019
;在各个数据拥有方之间,使用第一模型份额
Figure 429528DEST_PATH_IMAGE006
和第一数据集
Figure 396347DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 902415DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 118633DEST_PATH_IMAGE009
和第二数据集
Figure 266717DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 619201DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 561750DEST_PATH_IMAGE020
的预测值份额
Figure 202946DEST_PATH_IMAGE022
和第三预测值
Figure 623564DEST_PATH_IMAGE021
的预测值份额
Figure 96133DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 944003DEST_PATH_IMAGE020
的预测值份额
Figure 134813DEST_PATH_IMAGE024
和第三预测值
Figure 359121DEST_PATH_IMAGE021
的预测值份额
Figure 686197DEST_PATH_IMAGE025
;根据第一预测值
Figure 439390DEST_PATH_IMAGE019
以及预测值份额
Figure 851917DEST_PATH_IMAGE022
Figure 614336DEST_PATH_IMAGE023
确定第一数据拥有方处的模型预测值份额
Figure 999181DEST_PATH_IMAGE026
;根据模型预测值份额
Figure 454433DEST_PATH_IMAGE026
以及数据标签Y确定第一数据拥有方处的预测差值份额
Figure 354256DEST_PATH_IMAGE027
;以及在各个数据拥有方之间,使用预测差值份额
Figure 920367DEST_PATH_IMAGE027
Figure 222035DEST_PATH_IMAGE028
以及第一数据集
Figure 848189DEST_PATH_IMAGE001
和第二数据集
Figure 235308DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 808371DEST_PATH_IMAGE002
的模型更新量份额
Figure 964546DEST_PATH_IMAGE011
Figure 761601DEST_PATH_IMAGE012
以及第二模型
Figure 370437DEST_PATH_IMAGE004
的模型更新量份额
Figure 747191DEST_PATH_IMAGE013
Figure 757873DEST_PATH_IMAGE014
,其中,预测差值份额
Figure 725829DEST_PATH_IMAGE028
是由第二数据拥有方使用第四预测值
Figure 87540DEST_PATH_IMAGE029
、预测值份额
Figure 533565DEST_PATH_IMAGE024
Figure 664332DEST_PATH_IMAGE025
确定出的模型预测值份额
Figure 6451DEST_PATH_IMAGE030
,第四预测值
Figure 589880DEST_PATH_IMAGE029
由第二数据拥有方根据第二模型份额
Figure 839595DEST_PATH_IMAGE010
和第二数据集
Figure 293710DEST_PATH_IMAGE003
确定。
可选地,在上述方面的一个示例中,所述多方安全计算包括下述安全计算中的一种:基于秘密共享的多方安全计算;基于同态加密的多方安全计算;基于不经意传输的多方安全计算;基于混淆电路的多方安全计算;或者基于可信执行环境的多方安全计算。
可选地,在上述方面的一个示例中,在各个数据拥有方之间,使用预测差值份额
Figure 869048DEST_PATH_IMAGE027
Figure 939772DEST_PATH_IMAGE028
以及第一数据集
Figure 993179DEST_PATH_IMAGE001
和第二数据集
Figure 832959DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 516881DEST_PATH_IMAGE002
的模型更新量份额
Figure 809322DEST_PATH_IMAGE011
Figure 666420DEST_PATH_IMAGE012
以及第二模型
Figure 829548DEST_PATH_IMAGE004
的模型更新量份额
Figure 481109DEST_PATH_IMAGE013
Figure 526426DEST_PATH_IMAGE014
包括:根据预测差值份额
Figure 187214DEST_PATH_IMAGE027
和第一数据集
Figure 736007DEST_PATH_IMAGE001
确定第一模型更新量
Figure 824049DEST_PATH_IMAGE031
;在各个数据拥有方之间,使用预测差值份额
Figure 91082DEST_PATH_IMAGE028
和第一数据集
Figure 224736DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 893614DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 152557DEST_PATH_IMAGE027
和第二数据集
Figure 906887DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 909478DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 432863DEST_PATH_IMAGE032
的模型更新量份额
Figure 65970DEST_PATH_IMAGE034
和第三模型更新量
Figure 307595DEST_PATH_IMAGE033
的模型更新量份额
Figure 848298DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 429452DEST_PATH_IMAGE032
的模型更新量份额
Figure 30198DEST_PATH_IMAGE036
和第三模型更新量
Figure 493540DEST_PATH_IMAGE033
的模型更新量份额
Figure 837934DEST_PATH_IMAGE037
;以及将第一模型更新量
Figure 601490DEST_PATH_IMAGE031
与模型更新量份额
Figure 107558DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 323776DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 675123DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 27607DEST_PATH_IMAGE013
,其中,模型更新量份额
Figure 704576DEST_PATH_IMAGE012
是模型更新量份额
Figure 345773DEST_PATH_IMAGE036
,以及模型更新量份额
Figure 31969DEST_PATH_IMAGE014
是第四模型更新量
Figure 238959DEST_PATH_IMAGE038
与模型更新量份额
Figure 617988DEST_PATH_IMAGE037
之和,第四模型更新量
Figure 543219DEST_PATH_IMAGE038
由第二数据拥有方根据预测差值份额
Figure 767527DEST_PATH_IMAGE028
和第二数据集
Figure 297865DEST_PATH_IMAGE003
确定。
可选地,在上述方面的一个示例中,在各个数据拥有方之间,使用第一模型
Figure 582216DEST_PATH_IMAGE002
的模型更新量份额
Figure 729163DEST_PATH_IMAGE011
Figure 757162DEST_PATH_IMAGE012
、第二模型
Figure 407587DEST_PATH_IMAGE004
的模型更新量份额
Figure 862839DEST_PATH_IMAGE013
Figure 762662DEST_PATH_IMAGE014
以及标签权重份额
Figure 594351DEST_PATH_IMAGE007
Figure 630440DEST_PATH_IMAGE008
,确定第一模型
Figure 256594DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 581396DEST_PATH_IMAGE015
Figure 951197DEST_PATH_IMAGE016
以及第二模型
Figure 107372DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 904427DEST_PATH_IMAGE017
Figure 778842DEST_PATH_IMAGE018
包括:在各个数据拥有方之间,使用第一模型
Figure 686755DEST_PATH_IMAGE002
的模型更新量份额
Figure 697437DEST_PATH_IMAGE011
Figure 134234DEST_PATH_IMAGE012
、第二模型
Figure 230366DEST_PATH_IMAGE004
的模型更新量份额
Figure 941970DEST_PATH_IMAGE013
Figure 275999DEST_PATH_IMAGE014
以及标签权重份额
Figure 414857DEST_PATH_IMAGE007
Figure 732706DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 513580DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 498853DEST_PATH_IMAGE015
Figure 808612DEST_PATH_IMAGE016
以及第二模型
Figure 613757DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 136005DEST_PATH_IMAGE017
Figure 975785DEST_PATH_IMAGE018
可选地,在上述方面的一个示例中,分别根据加权模型更新量份额
Figure 456445DEST_PATH_IMAGE015
Figure 217728DEST_PATH_IMAGE017
更新第一模型份额
Figure 809246DEST_PATH_IMAGE005
和第二模型份额
Figure 769112DEST_PATH_IMAGE009
包括:按照以下等式更新第一数据拥有方处的模型份额:
Figure 420673DEST_PATH_IMAGE039
,其中,
Figure 465989DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 861199DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,
Figure 675571DEST_PATH_IMAGE042
表示学习率,以及
Figure 701296DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
可选地,在上述方面的一个示例中,所述循环结束条件包括:预定循环次数;或者所确定出的预测差值在预定范围内。
根据本说明书的实施例的另一方面,提供一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集
Figure 968329DEST_PATH_IMAGE001
、第一模型
Figure 167229DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 304949DEST_PATH_IMAGE003
和第二模型
Figure 298313DEST_PATH_IMAGE004
,第一数据集
Figure 52643DEST_PATH_IMAGE001
和第二数据集
Figure 55234DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 844198DEST_PATH_IMAGE002
和第二模型
Figure 8463DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述方法由第二数据拥有方执行,所述方法包括:将第二模型
Figure 250089DEST_PATH_IMAGE004
分解为第二模型份额
Figure 994054DEST_PATH_IMAGE009
Figure 371946DEST_PATH_IMAGE010
,并将第二模型份额
Figure 972691DEST_PATH_IMAGE009
发送给第一数据拥有方;从第一数据拥有方接收第一模型
Figure 904875DEST_PATH_IMAGE002
的第一模型份额
Figure 249269DEST_PATH_IMAGE006
以及标签权重份额
Figure 481667DEST_PATH_IMAGE008
,第一模型份额
Figure 253314DEST_PATH_IMAGE006
以及标签权重份额
Figure 469532DEST_PATH_IMAGE008
经由第一数据拥有方将第一模型
Figure 352037DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 704521DEST_PATH_IMAGE005
Figure 859120DEST_PATH_IMAGE006
以及标签权重份额
Figure 297055DEST_PATH_IMAGE007
Figure 983251DEST_PATH_IMAGE008
得到;执行下述循环过程,直到满足循环结束条件:在各个数据拥有方之间,使用第一模型份额
Figure 455821DEST_PATH_IMAGE005
Figure 569270DEST_PATH_IMAGE006
、第二模型份额
Figure 494501DEST_PATH_IMAGE009
Figure 187651DEST_PATH_IMAGE010
、第一数据集
Figure 514727DEST_PATH_IMAGE001
和第二数据集
Figure 533498DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 946025DEST_PATH_IMAGE002
的模型更新量份额
Figure 177286DEST_PATH_IMAGE011
Figure 358869DEST_PATH_IMAGE012
以及第二模型
Figure 814121DEST_PATH_IMAGE004
的模型更新量份额
Figure 713944DEST_PATH_IMAGE013
Figure 280055DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 581723DEST_PATH_IMAGE011
Figure 207876DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 798258DEST_PATH_IMAGE012
Figure 168059DEST_PATH_IMAGE014
;在各个数据拥有方之间,使用第一模型
Figure 324234DEST_PATH_IMAGE002
的模型更新量份额
Figure 324551DEST_PATH_IMAGE011
Figure 933387DEST_PATH_IMAGE012
、第二模型
Figure 841300DEST_PATH_IMAGE004
的模型更新量份额
Figure 117561DEST_PATH_IMAGE013
Figure 85517DEST_PATH_IMAGE014
以及标签权重份额
Figure 181649DEST_PATH_IMAGE007
Figure 893253DEST_PATH_IMAGE008
,确定第一模型
Figure 961703DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 100560DEST_PATH_IMAGE015
Figure 683988DEST_PATH_IMAGE016
以及第二模型
Figure 668125DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 387819DEST_PATH_IMAGE017
Figure 697578DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 33881DEST_PATH_IMAGE015
Figure 87288DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 927068DEST_PATH_IMAGE016
Figure 407728DEST_PATH_IMAGE018
;分别根据加权模型更新量份额
Figure 169010DEST_PATH_IMAGE016
Figure 760529DEST_PATH_IMAGE018
更新第一模型份额
Figure 454815DEST_PATH_IMAGE006
和第二模型份额
Figure 637535DEST_PATH_IMAGE010
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额
Figure 417272DEST_PATH_IMAGE005
和第二模型份额
Figure 812481DEST_PATH_IMAGE009
分别根据加权模型更新量份额
Figure 95695DEST_PATH_IMAGE015
Figure 918157DEST_PATH_IMAGE017
更新,在满足循环结束条件时,将更新后的第一模型份额
Figure 185191DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 384091DEST_PATH_IMAGE009
;以及根据更新后的第二模型份额
Figure 256232DEST_PATH_IMAGE009
Figure 249596DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 3925DEST_PATH_IMAGE004
可选地,在上述方面的一个示例中,在各个数据拥有方之间,使用第一模型份额
Figure 6516DEST_PATH_IMAGE005
Figure 529901DEST_PATH_IMAGE006
、第二模型份额
Figure 959746DEST_PATH_IMAGE009
Figure 670213DEST_PATH_IMAGE010
、第一数据集
Figure 945336DEST_PATH_IMAGE001
和第二数据集
Figure 588807DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 923974DEST_PATH_IMAGE002
的模型更新量份额
Figure 856158DEST_PATH_IMAGE011
Figure 934972DEST_PATH_IMAGE012
以及第二模型
Figure 432949DEST_PATH_IMAGE004
的模型更新量份额
Figure 470176DEST_PATH_IMAGE013
Figure 420814DEST_PATH_IMAGE014
包括:根据第二模型份额
Figure 303319DEST_PATH_IMAGE010
和第二数据集
Figure 859066DEST_PATH_IMAGE003
确定第四预测值
Figure 801614DEST_PATH_IMAGE029
;在各个数据拥有方之间,使用第一模型份额
Figure 239549DEST_PATH_IMAGE006
和第一数据集
Figure 660166DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 601577DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 715026DEST_PATH_IMAGE009
和第二数据集
Figure 640257DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 130144DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 191641DEST_PATH_IMAGE020
的预测值份额
Figure 475992DEST_PATH_IMAGE022
和第三预测值
Figure 91781DEST_PATH_IMAGE021
的预测值份额
Figure 119780DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 770204DEST_PATH_IMAGE020
的预测值份额
Figure 959877DEST_PATH_IMAGE024
和第三预测值
Figure 859700DEST_PATH_IMAGE021
的预测值份额
Figure 425810DEST_PATH_IMAGE025
;根据第四预测值
Figure 993058DEST_PATH_IMAGE029
、预测值份额
Figure 353632DEST_PATH_IMAGE024
Figure 740751DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 310885DEST_PATH_IMAGE030
,作为第二数据拥有方处的预测差值份额
Figure 201481DEST_PATH_IMAGE028
;以及在各个数据拥有方之间,使用预测差值份额
Figure 998536DEST_PATH_IMAGE027
Figure 607371DEST_PATH_IMAGE028
以及第一数据集
Figure 46443DEST_PATH_IMAGE001
和第二数据集
Figure 57124DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 25080DEST_PATH_IMAGE002
的模型更新量份额
Figure 590054DEST_PATH_IMAGE011
Figure 301658DEST_PATH_IMAGE012
以及第二模型
Figure 166846DEST_PATH_IMAGE004
的模型更新量份额
Figure 508965DEST_PATH_IMAGE013
Figure 92393DEST_PATH_IMAGE014
,其中,预测差值份额
Figure 342109DEST_PATH_IMAGE027
由第一数据拥有方根据第一数据拥有方处的模型预测值份额
Figure 592962DEST_PATH_IMAGE026
和数据标签Y确定,模型预测值份额
Figure 902721DEST_PATH_IMAGE026
根据第一预测值
Figure 973445DEST_PATH_IMAGE019
、预测值份额
Figure 26851DEST_PATH_IMAGE022
Figure 335473DEST_PATH_IMAGE023
确定,以及第一预测值
Figure 816133DEST_PATH_IMAGE019
根据第一模型份额
Figure 108574DEST_PATH_IMAGE005
和第一数据集
Figure 168934DEST_PATH_IMAGE001
确定。
可选地,在上述方面的一个示例中,在各个数据拥有方之间,使用预测差值份额
Figure 863220DEST_PATH_IMAGE027
Figure 514782DEST_PATH_IMAGE028
以及第一数据集
Figure 560098DEST_PATH_IMAGE001
和第二数据集
Figure 220886DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 769679DEST_PATH_IMAGE002
的模型更新量份额
Figure 857721DEST_PATH_IMAGE011
Figure 328017DEST_PATH_IMAGE012
以及第二模型
Figure 526917DEST_PATH_IMAGE004
的模型更新量份额
Figure 930216DEST_PATH_IMAGE013
Figure 658001DEST_PATH_IMAGE014
包括:根据预测差值份额
Figure 412330DEST_PATH_IMAGE028
和第二数据集
Figure 149342DEST_PATH_IMAGE003
确定第四模型更新量
Figure 672728DEST_PATH_IMAGE038
;在各个数据拥有方之间,使用预测差值份额
Figure 368151DEST_PATH_IMAGE028
和第一数据集
Figure 344197DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 884900DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 731633DEST_PATH_IMAGE027
和第二数据集
Figure 66800DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 795721DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 343377DEST_PATH_IMAGE032
的模型更新量份额
Figure 841355DEST_PATH_IMAGE034
和第三模型更新量
Figure 347422DEST_PATH_IMAGE033
的模型更新量份额
Figure 829219DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 711725DEST_PATH_IMAGE032
的模型更新量份额
Figure 64209DEST_PATH_IMAGE036
和第三模型更新量
Figure 6757DEST_PATH_IMAGE033
的模型更新量份额
Figure 647954DEST_PATH_IMAGE037
;以及将第四模型更新量
Figure 68571DEST_PATH_IMAGE038
与模型更新量份额
Figure 541140DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 654590DEST_PATH_IMAGE014
,并将模型更新量份额
Figure 48662DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 272970DEST_PATH_IMAGE012
,其中,模型更新量份额
Figure 803309DEST_PATH_IMAGE011
是第一模型更新量
Figure 87659DEST_PATH_IMAGE031
与模型更新量份额
Figure 500186DEST_PATH_IMAGE034
之和,模型更新量份额
Figure 528185DEST_PATH_IMAGE013
是模型更新量份额
Figure 709768DEST_PATH_IMAGE035
,第一模型更新量
Figure 165020DEST_PATH_IMAGE031
由第一数据拥有方根据预测差值份额
Figure 533684DEST_PATH_IMAGE027
和第一数据集
Figure 99795DEST_PATH_IMAGE001
确定。
根据本说明书的实施例的另一方面,提供一种用于经由第一和第二数据拥有方训练业务模型的装置,第一数据拥有方具有第一数据集
Figure 135884DEST_PATH_IMAGE001
、第一模型
Figure 965300DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 352419DEST_PATH_IMAGE003
和第二模型
Figure 456641DEST_PATH_IMAGE004
,第一数据集
Figure 878395DEST_PATH_IMAGE001
和第二数据集
Figure 675450DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 487548DEST_PATH_IMAGE002
和第二模型
Figure 661040DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述装置应用于第一数据拥有方,所述装置包括:分解单元,将第一模型
Figure 671722DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 108519DEST_PATH_IMAGE005
Figure 204651DEST_PATH_IMAGE006
以及标签权重份额
Figure 650676DEST_PATH_IMAGE007
Figure 47022DEST_PATH_IMAGE008
;份额共享单元,将第一模型份额
Figure 185880DEST_PATH_IMAGE006
和标签权重份额
Figure 969640DEST_PATH_IMAGE008
发送给第二数据拥有方,以及从第二数据拥有方接收第二模型
Figure 219356DEST_PATH_IMAGE004
的第二模型份额
Figure 204630DEST_PATH_IMAGE009
,第二模型份额
Figure 514388DEST_PATH_IMAGE009
经由第二数据拥有方将第二模型
Figure 53954DEST_PATH_IMAGE004
分解为第二模型份额
Figure 107361DEST_PATH_IMAGE009
Figure 947141DEST_PATH_IMAGE010
得到;模型更新量确定单元,在各个数据拥有方之间,使用第一模型份额
Figure 693380DEST_PATH_IMAGE005
Figure 985821DEST_PATH_IMAGE006
、第二模型份额
Figure 842918DEST_PATH_IMAGE009
Figure 740467DEST_PATH_IMAGE010
、第一数据集
Figure 392028DEST_PATH_IMAGE001
和第二数据集
Figure 437345DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 98133DEST_PATH_IMAGE002
的模型更新量份额
Figure 646926DEST_PATH_IMAGE011
Figure 734968DEST_PATH_IMAGE012
以及第二模型
Figure 2001DEST_PATH_IMAGE004
的模型更新量份额
Figure 404164DEST_PATH_IMAGE013
Figure 73043DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 331986DEST_PATH_IMAGE011
Figure 23998DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 26589DEST_PATH_IMAGE012
Figure 549974DEST_PATH_IMAGE014
;加权处理单元,在各个数据拥有方之间,使用第一模型
Figure 979819DEST_PATH_IMAGE002
的模型更新量份额
Figure 221444DEST_PATH_IMAGE011
Figure 762147DEST_PATH_IMAGE012
、第二模型
Figure 343301DEST_PATH_IMAGE004
的模型更新量份额
Figure 944047DEST_PATH_IMAGE013
Figure 407389DEST_PATH_IMAGE014
以及标签权重份额
Figure 751783DEST_PATH_IMAGE007
Figure 718602DEST_PATH_IMAGE008
,确定第一模型
Figure 224669DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 440887DEST_PATH_IMAGE015
Figure 588972DEST_PATH_IMAGE016
以及第二模型
Figure 941456DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 618425DEST_PATH_IMAGE017
Figure 259621DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 945818DEST_PATH_IMAGE015
Figure 152808DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 266258DEST_PATH_IMAGE016
Figure 660330DEST_PATH_IMAGE018
;模型更新单元,分别根据加权模型更新量份额
Figure 884638DEST_PATH_IMAGE015
Figure 211714DEST_PATH_IMAGE017
更新第一模型份额
Figure 761644DEST_PATH_IMAGE005
和第二模型份额
Figure 908592DEST_PATH_IMAGE009
;模型共享单元,在满足循环结束条件时,将更新后的第二模型份额
Figure 936590DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 321435DEST_PATH_IMAGE006
;以及训练模型确定单元,根据更新后的第一模型份额
Figure 776688DEST_PATH_IMAGE005
Figure 676510DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 242621DEST_PATH_IMAGE002
,其中,所述模型更新量确定单元、所述加权处理单元和所述模型更新单元循环执行操作,直到满足循环结束条件,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额
Figure 544289DEST_PATH_IMAGE006
和第二模型份额
Figure 170443DEST_PATH_IMAGE010
分别根据加权模型更新量份额
Figure 291982DEST_PATH_IMAGE016
Figure 130625DEST_PATH_IMAGE018
更新。
可选地,在上述方面的一个示例中,所述模型更新量确定单元包括:本地预测值确定模块,根据第一模型份额
Figure 286800DEST_PATH_IMAGE005
和第一数据集
Figure 83855DEST_PATH_IMAGE001
确定第一预测值
Figure 895953DEST_PATH_IMAGE019
;多方安全计算模块,在各个数据拥有方之间,使用第一模型份额
Figure 803866DEST_PATH_IMAGE006
和第一数据集
Figure 814548DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 48083DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 144215DEST_PATH_IMAGE009
和第二数据集
Figure 855819DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 986586DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 594285DEST_PATH_IMAGE020
的预测值份额
Figure 912134DEST_PATH_IMAGE022
和第三预测值
Figure 427429DEST_PATH_IMAGE021
的预测值份额
Figure 615965DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 925723DEST_PATH_IMAGE020
的预测值份额
Figure 730868DEST_PATH_IMAGE024
和第三预测值
Figure 49854DEST_PATH_IMAGE021
的预测值份额
Figure 889634DEST_PATH_IMAGE025
;预测值份额确定模块,根据第一预测值
Figure 370294DEST_PATH_IMAGE019
以及预测值份额
Figure 928314DEST_PATH_IMAGE022
Figure 723095DEST_PATH_IMAGE023
确定第一数据拥有方处的模型预测值份额
Figure 682961DEST_PATH_IMAGE026
;预测差值份额确定模块,根据模型预测值份额
Figure 334522DEST_PATH_IMAGE026
以及数据标签Y确定第一数据拥有方处的预测差值份额
Figure 583101DEST_PATH_IMAGE027
;以及模型更新量确定模块,在各个数据拥有方之间,使用预测差值份额
Figure 978310DEST_PATH_IMAGE027
Figure 792682DEST_PATH_IMAGE028
以及第一数据集
Figure 880724DEST_PATH_IMAGE001
和第二数据集
Figure 147757DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 346657DEST_PATH_IMAGE002
的模型更新量份额
Figure 215869DEST_PATH_IMAGE011
Figure 209232DEST_PATH_IMAGE012
以及第二模型
Figure 963562DEST_PATH_IMAGE004
的模型更新量份额
Figure 966153DEST_PATH_IMAGE013
Figure 958380DEST_PATH_IMAGE014
,其中,预测差值份额
Figure 122645DEST_PATH_IMAGE028
是由第二数据拥有方使用第四预测值
Figure 364270DEST_PATH_IMAGE029
、预测值份额
Figure 170552DEST_PATH_IMAGE024
Figure 548444DEST_PATH_IMAGE025
确定出的模型预测值份额
Figure 149190DEST_PATH_IMAGE030
,第四预测值
Figure 612532DEST_PATH_IMAGE029
由第二数据拥有方根据第二模型份额
Figure 160188DEST_PATH_IMAGE010
和第二数据集
Figure 392586DEST_PATH_IMAGE003
确定。
可选地,在上述方面的一个示例中,所述多方安全计算包括下述安全计算中的一种:基于秘密共享的多方安全计算;基于同态加密的多方安全计算;基于不经意传输的多方安全计算;基于混淆电路的多方安全计算;或者基于可信执行环境的多方安全计算。
可选地,在上述方面的一个示例中,所述模型更新量确定模块:根据预测差值份额
Figure 164233DEST_PATH_IMAGE027
和第一数据集
Figure 380451DEST_PATH_IMAGE001
确定第一模型更新量
Figure 262956DEST_PATH_IMAGE031
;在各个数据拥有方之间,使用预测差值份额
Figure 615440DEST_PATH_IMAGE028
和第一数据集
Figure 26830DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 464764DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 150961DEST_PATH_IMAGE027
和第二数据集
Figure 561213DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 674663DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 599894DEST_PATH_IMAGE032
的模型更新量份额
Figure 824202DEST_PATH_IMAGE034
和第三模型更新量
Figure 416857DEST_PATH_IMAGE033
的模型更新量份额
Figure 435629DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 848155DEST_PATH_IMAGE032
的模型更新量份额
Figure 79417DEST_PATH_IMAGE036
和第三模型更新量
Figure 260999DEST_PATH_IMAGE033
的模型更新量份额
Figure 716251DEST_PATH_IMAGE037
;以及将第一模型更新量
Figure 819336DEST_PATH_IMAGE031
与模型更新量份额
Figure 385447DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 687115DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 313269DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 700388DEST_PATH_IMAGE013
可选地,在上述方面的一个示例中,所述加权处理单元:在各个数据拥有方之间,使用第一模型
Figure 70189DEST_PATH_IMAGE002
的模型更新量份额
Figure 226364DEST_PATH_IMAGE011
Figure 226681DEST_PATH_IMAGE012
、第二模型
Figure 835517DEST_PATH_IMAGE004
的模型更新量份额
Figure 743430DEST_PATH_IMAGE013
Figure 222953DEST_PATH_IMAGE014
以及标签权重份额
Figure 190909DEST_PATH_IMAGE007
Figure 287041DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 998645DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 129412DEST_PATH_IMAGE015
Figure 268269DEST_PATH_IMAGE016
以及第二模型
Figure 851698DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 570255DEST_PATH_IMAGE017
Figure 289949DEST_PATH_IMAGE018
可选地,在上述方面的一个示例中,所述模型更新单元按照以下等式更新第一数据拥有方处的模型份额:
Figure 599708DEST_PATH_IMAGE039
,其中,
Figure 936011DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 989418DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,
Figure 829198DEST_PATH_IMAGE042
表示学习率,以及
Figure 309858DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
根据本说明书的实施例的另一方面,提供一种用于经由第一和第二数据拥有方训练业务模型的装置,第一数据拥有方具有第一数据集
Figure 336720DEST_PATH_IMAGE001
、第一模型
Figure 928238DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 622524DEST_PATH_IMAGE003
和第二模型
Figure 742927DEST_PATH_IMAGE004
,第一数据集
Figure 522664DEST_PATH_IMAGE001
和第二数据集
Figure 917874DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 997825DEST_PATH_IMAGE002
和第二模型
Figure 820288DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述装置应用于第二数据拥有方,所述装置包括:分解单元,将第二模型
Figure 87321DEST_PATH_IMAGE004
分解为第二模型份额
Figure 755063DEST_PATH_IMAGE009
Figure 423941DEST_PATH_IMAGE010
;份额共享单元,将第二模型份额
Figure 417305DEST_PATH_IMAGE009
发送给第一数据拥有方,以及从第一数据拥有方接收第一模型
Figure 171634DEST_PATH_IMAGE002
的第一模型份额
Figure 111909DEST_PATH_IMAGE006
以及标签权重份额
Figure 635294DEST_PATH_IMAGE008
,第一模型份额
Figure 65138DEST_PATH_IMAGE006
以及标签权重份额
Figure 572343DEST_PATH_IMAGE008
经由第一数据拥有方将第一模型
Figure 847466DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 490937DEST_PATH_IMAGE005
Figure 826104DEST_PATH_IMAGE006
以及标签权重份额
Figure 758288DEST_PATH_IMAGE007
Figure 837102DEST_PATH_IMAGE008
得到;模型更新量确定单元,在各个数据拥有方之间,使用第一模型份额
Figure 335080DEST_PATH_IMAGE005
Figure 575568DEST_PATH_IMAGE006
、第二模型份额
Figure 526207DEST_PATH_IMAGE009
Figure 408712DEST_PATH_IMAGE010
、第一数据集
Figure 26775DEST_PATH_IMAGE001
和第二数据集
Figure 969323DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 407258DEST_PATH_IMAGE002
的模型更新量份额
Figure 827875DEST_PATH_IMAGE011
Figure 512496DEST_PATH_IMAGE012
以及第二模型
Figure 625945DEST_PATH_IMAGE004
的模型更新量份额
Figure 551176DEST_PATH_IMAGE013
Figure 244326DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 305823DEST_PATH_IMAGE011
Figure 590173DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 268279DEST_PATH_IMAGE012
Figure 296278DEST_PATH_IMAGE014
;加权处理单元,在各个数据拥有方之间,使用第一模型
Figure 477861DEST_PATH_IMAGE002
的模型更新量份额
Figure 542900DEST_PATH_IMAGE011
Figure 442723DEST_PATH_IMAGE012
、第二模型
Figure 477675DEST_PATH_IMAGE004
的模型更新量份额
Figure 779343DEST_PATH_IMAGE013
Figure 139917DEST_PATH_IMAGE014
以及标签权重份额
Figure 199140DEST_PATH_IMAGE007
Figure 568942DEST_PATH_IMAGE008
,确定第一模型
Figure 459537DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 522171DEST_PATH_IMAGE015
Figure 131007DEST_PATH_IMAGE016
以及第二模型
Figure 304500DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 518443DEST_PATH_IMAGE017
Figure 486399DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 582531DEST_PATH_IMAGE015
Figure 762977DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 628165DEST_PATH_IMAGE016
Figure 767022DEST_PATH_IMAGE018
;模型更新单元,分别根据加权模型更新量份额
Figure 350450DEST_PATH_IMAGE016
Figure 865745DEST_PATH_IMAGE018
更新第一模型份额
Figure 851019DEST_PATH_IMAGE006
和第二模型份额
Figure 160777DEST_PATH_IMAGE010
;模型共享单元,在满足循环结束条件时,将更新后的第一模型份额
Figure 434764DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 488170DEST_PATH_IMAGE009
;以及训练模型确定单元,根据更新后的第二模型份额
Figure 327950DEST_PATH_IMAGE009
Figure 74190DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 366631DEST_PATH_IMAGE004
,其中,所述模型更新量确定单元、所述加权处理单元和所述模型更新单元循环执行操作,直到满足所述循环结束条件,在未满足所述循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额
Figure 223728DEST_PATH_IMAGE005
和第二模型份额
Figure 386856DEST_PATH_IMAGE009
分别根据加权模型更新量份额
Figure 38417DEST_PATH_IMAGE015
Figure 286996DEST_PATH_IMAGE017
更新。
可选地,在上述方面的一个示例中,所述模型更新量确定单元包括:本地预测值确定模块,根据第二模型份额
Figure 682205DEST_PATH_IMAGE010
和第二数据集
Figure 230998DEST_PATH_IMAGE003
确定第四预测值
Figure 584619DEST_PATH_IMAGE029
;多方安全计算模块,在各个数据拥有方之间,使用第一模型份额
Figure 851653DEST_PATH_IMAGE006
和第一数据集
Figure 50553DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 922694DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 181637DEST_PATH_IMAGE009
和第二数据集
Figure 139229DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 876240DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 665205DEST_PATH_IMAGE020
的预测值份额
Figure 95049DEST_PATH_IMAGE022
和第三预测值
Figure 71096DEST_PATH_IMAGE021
的预测值份额
Figure 812131DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 455602DEST_PATH_IMAGE020
的预测值份额
Figure 790768DEST_PATH_IMAGE024
和第三预测值
Figure 988531DEST_PATH_IMAGE021
的预测值份额
Figure 67346DEST_PATH_IMAGE025
;预测值份额确定模块,根据第四预测值
Figure 565323DEST_PATH_IMAGE029
、预测值份额
Figure 336970DEST_PATH_IMAGE024
Figure 553188DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 435693DEST_PATH_IMAGE030
,作为第二数据拥有方处的预测差值份额
Figure 788177DEST_PATH_IMAGE028
;以及模型更新量份额确定模块,在各个数据拥有方之间,使用预测差值份额
Figure 933988DEST_PATH_IMAGE027
Figure 371922DEST_PATH_IMAGE028
以及第一数据集
Figure 792539DEST_PATH_IMAGE001
和第二数据集
Figure 733951DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 581821DEST_PATH_IMAGE002
的模型更新量份额
Figure 507052DEST_PATH_IMAGE011
Figure 996939DEST_PATH_IMAGE012
以及第二模型
Figure 324015DEST_PATH_IMAGE004
的模型更新量份额
Figure 608366DEST_PATH_IMAGE013
Figure 224155DEST_PATH_IMAGE014
,其中,预测差值份额
Figure 986574DEST_PATH_IMAGE027
由第一数据拥有方根据第一数据拥有方处的模型预测值份额
Figure 168157DEST_PATH_IMAGE026
和数据标签Y确定,模型预测值份额
Figure 623409DEST_PATH_IMAGE026
根据第一预测值
Figure 788811DEST_PATH_IMAGE019
、预测值份额
Figure 354922DEST_PATH_IMAGE022
Figure 391011DEST_PATH_IMAGE023
确定,以及第一预测值
Figure 486006DEST_PATH_IMAGE019
根据第一模型份额
Figure 873125DEST_PATH_IMAGE005
和第一数据集
Figure 977347DEST_PATH_IMAGE001
确定。
可选地,在上述方面的一个示例中,所述模型更新量确定模块:根据预测差值份额
Figure 336784DEST_PATH_IMAGE028
和第二数据集
Figure 133839DEST_PATH_IMAGE003
确定第四模型更新量
Figure 742675DEST_PATH_IMAGE038
;在各个数据拥有方之间,使用预测差值份额
Figure 916167DEST_PATH_IMAGE028
和第一数据集
Figure 192428DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 160384DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 256516DEST_PATH_IMAGE027
和第二数据集
Figure 905803DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 36570DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 175427DEST_PATH_IMAGE032
的模型更新量份额
Figure 227697DEST_PATH_IMAGE034
和第三模型更新量
Figure 477413DEST_PATH_IMAGE033
的模型更新量份额
Figure 462686DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 772445DEST_PATH_IMAGE032
的模型更新量份额
Figure 108748DEST_PATH_IMAGE036
和第三模型更新量
Figure 162155DEST_PATH_IMAGE033
的模型更新量份额
Figure 1935DEST_PATH_IMAGE037
;以及将第四模型更新量
Figure 685857DEST_PATH_IMAGE038
与模型更新量份额
Figure 978298DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 835396DEST_PATH_IMAGE014
,并将模型更新量份额
Figure 998524DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 650085DEST_PATH_IMAGE012
根据本说明书的实施例的另一方面,提供一种用于经由第一和第二数据拥有方训练业务模型的系统,包括:第一数据拥有方,包括如上所述的装置;以及第二数据拥有方,包括如上所述的装置,其中,第一数据拥有方具有第一数据集
Figure 695401DEST_PATH_IMAGE001
、第一模型
Figure 356190DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 904983DEST_PATH_IMAGE003
和第二模型
Figure 993025DEST_PATH_IMAGE004
,第一数据集
Figure 260058DEST_PATH_IMAGE001
和第二数据集
Figure 396641DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 65520DEST_PATH_IMAGE002
和第二模型
Figure 324463DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述在第一数据拥有方执行的方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述在第一数据拥有方执行的方法。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述在第二数据拥有方执行的方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述在第二数据拥有方执行的方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的经过垂直切分的训练样本集的示例的示意图。
图2示出了根据本说明书的实施例的用于经由第一和第二数据拥有方训练业务模型的系统的架构示意图。
图3示出了根据本说明书的实施例的用于经由第一和第二数据拥有方训练业务模型的方法的流程图。
图4示出了根据本说明书的实施例的模型更新量确定过程的一个示例的流程图。
图5示出了根据本说明书的实施例的基于预测差值份额的模型更新量确定过程的一个示例的流程图。
图6示出了根据本说明书的实施例的用于经由第一和第二数据拥有方训练业务模型的装置的一个示例的方框图。
图7示出了根据本说明书的实施例的模型更新量确定单元的一个示例的方框图。
图8示出了根据本说明书的实施例的用于经由第一和第二数据拥有方训练业务模型的装置的另一示例的方框图。
图9示出了根据本说明书的实施例的模型更新量确定单元的另一示例的方框图。
图10示出了根据本说明书的实施例的用于实现第一数据拥有方侧的业务模型训练过程的电子设备的示意图。
图11示出了根据本说明书的实施例的用于实现第二数据拥有方侧的业务模型训练过程的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书中,术语“数据拥有方”和“训练参与方”可互换使用。
秘密共享方法是一种将秘密分解存储的密码技术,其将秘密以适当的方式拆分成多个秘密份额,每一个秘密份额由多个参与方(数据拥有方)中的一个参与方拥有和管理,单个参与方无法恢复完整秘密,只有若干个参与方共同协作才能恢复完整秘密。秘密共享方法目标在于阻止秘密过于集中,以达到分散风险和容忍入侵的目的。
在本说明书中,业务模型训练方案中所使用的训练样本集是经过垂直切分的训练样本集。术语“对训练样本集进行垂直切分”是指按照模块/功能(或者某种指定规则)来将该训练样本集切分为多个训练样本子集中,各个训练样本子集包含训练样本集中的每条训练样本的部分训练子样本,所有训练样本子集中所包含的部分训练子样本构成该条训练样本。在一个例子中,假设训练样本包括标签
Figure 78792DEST_PATH_IMAGE044
和属性
Figure 81383DEST_PATH_IMAGE045
Figure 604769DEST_PATH_IMAGE046
,则经过垂直切分后,数据拥有方Alice拥有该训练样本的
Figure 237875DEST_PATH_IMAGE044
Figure 479501DEST_PATH_IMAGE045
,以及数据拥有方Bob拥有该训练样本的
Figure 20204DEST_PATH_IMAGE046
。在另一个例子中,假设训练样本包括标签
Figure 601358DEST_PATH_IMAGE044
和属性
Figure 202103DEST_PATH_IMAGE045
Figure 665446DEST_PATH_IMAGE046
Figure 9839DEST_PATH_IMAGE047
,则经过垂直切分后,数据拥有方Alice拥有该训练样本的
Figure 773396DEST_PATH_IMAGE044
Figure 279464DEST_PATH_IMAGE045
Figure 495681DEST_PATH_IMAGE046
,以及数据拥有方Bob拥有该训练样本的
Figure 847028DEST_PATH_IMAGE046
Figure 199512DEST_PATH_IMAGE047
。除了这两个例子之外,还有其他可能的情况,这里不一一列举。
在本说明书中,业务模型可以是任何适合于进行模型预测的机器学习模型,比如线性回归模型、逻辑回归模型、神经网络模型等。下文以线性回归模型作为业务模型的示例进行说明。在其它实施例中,也可以使用其它机器学习模型。
假设给定由d个属性(也称为特征)描述的属性值样本示例x T=(x 1 ; x 2 ;…; x d ),其中,x i x在第i个属性上的取值和T表示转置,线性回归模型为Y=Wx,其中,Y是预测值,以及W是线性回归模型的模型参数,模型W被垂直切分为两个子模型
Figure 876481DEST_PATH_IMAGE002
Figure 517678DEST_PATH_IMAGE004
,每个数据拥有方部署一个子模型。
在本说明书中,各个数据拥有方各自拥有训练线性回归模型所使用的训练样本的不同部分数据。例如,以两个数据拥有方为例,假设训练样本集包括100个训练样本,每一个训练样本包含多个特征值(也可以称为“特征数据”)和标签值,由此,100个训练样本中的特征值组成用于模型训练的特征数据。在垂直切分数据集的情况下,第一数据拥有方拥有的数据可以是该100个训练样本中的每个训练样本的部分特征值和标签值,以及第二数据拥有方拥有的数据可以是该100个训练样本中的每个训练样本的部分特征值。
在本说明书中的任何地方描述的矩阵乘法计算,需要根据情况来确定是否对参与矩阵乘法的两个或多个矩阵中的一个或多个对应的矩阵进行转置处理,以满足矩阵乘法规则,由此完成矩阵乘法计算。
下面将结合附图来详细描述根据本说明书实施例的基于样本加权的业务模型训练方法、装置以及系统。
图1示出了根据本说明书实施例的经过垂直切分的训练样本集的示例的示意图。图1中示出了2个数据拥有方Alice和Bob,多个数据拥有方也类似。每个数据拥有方Alice和Bob拥有训练样本集中的所有训练样本中的每条训练样本的部分训练子样本,对于每条训练样本,数据拥有方Alice和Bob拥有的部分训练子样本组合在一起,可以构成该训练样本的完整内容。比如,假设某个训练样本的内容包括标签
Figure 203874DEST_PATH_IMAGE048
和属性特征(下文中称为“特征数据”)
Figure 410865DEST_PATH_IMAGE045
Figure 524314DEST_PATH_IMAGE046
,则经过垂直切分后,数据拥有方Alice拥有该训练样本的标签
Figure 715124DEST_PATH_IMAGE049
和特征数据
Figure 939432DEST_PATH_IMAGE045
,以及数据拥有方Bob拥有该训练样本的特征数据
Figure 266508DEST_PATH_IMAGE046
图2示出了示出了根据本说明书实施例的用于经由第一和第二数据拥有方训练业务模型的系统1(下文中称为模型训练系统1)的架构示意图。
如图2所示,模型训练系统1包括第一数据拥有方设备10以及第二数据拥有方设备20。第一数据拥有方设备10以及第二数据拥有方设备20可以通过例如但不局限于互联网或局域网等的网络30相互通信。
第一数据拥有方设备10具有第一数据集
Figure 751192DEST_PATH_IMAGE050
、第一模型
Figure 898139DEST_PATH_IMAGE051
以及具有标签权重C的数据标签Y。第二数据拥有方设备20具有第二数据集
Figure 926138DEST_PATH_IMAGE052
和第二模型
Figure 576562DEST_PATH_IMAGE053
。第一数据集
Figure 31814DEST_PATH_IMAGE050
和第二数据集
Figure 931637DEST_PATH_IMAGE052
按照垂直切分方式组成业务模型
Figure 763327DEST_PATH_IMAGE054
的训练样本。第一模型
Figure 799416DEST_PATH_IMAGE051
和第二模型
Figure 425570DEST_PATH_IMAGE053
按照垂直切分方式组成业务模型
Figure 547109DEST_PATH_IMAGE054
。这里,每个数据拥有方所具有的模型和数据集是该数据拥有方的秘密,不能被其他数据拥有方获悉或者完整地获悉。
在本说明书中,数据标签Y具有标签权重是指在进行模型训练时每个数据标签所具有的权重值。标签权重也可以称为样本权重。在机器学习应用中,在一些情形下需要为数据样本赋予不同的标签权重。以分类为例,在分类模型中,经常会遇到两种情形。第一种情形是误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户误分类为合法用户的代价很高,由此宁愿将合法用户误分类为非法用户,然后再进行人工甄别,而不愿将非法用户误分类为合法用户。这时,可以适当提高非法用户的标签权重class_weight={0:0.9, 1:0.1}。第二种情形是样本高度失衡,比如,具有合法用户和非法用户的二元样本数据10000条,其中,合法用户样本为9995条,非法用户样本只有5条。如果不考虑标签权重,则可能会将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意义。这时需要提高非法用户样本的标签权重。
在本说明书中,第一数据拥有方设备10和第二数据拥有方设备20一起使用各自的数据集来协同训练业务模型。关于模型的具体训练过程将在下面参照图3到图9进行详细描述。
在本说明书中,第一数据拥有方设备10以及第二数据拥有方设备20可以是任何合适的具有计算能力的计算设备。所述计算设备包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。为了描述简单,在下面的描述中,将第一数据拥有方设备10和第二数据拥有方设备20简称为第一数据拥有方10和第二数据拥有方20。
图3示出了根据本说明书的实施例的用于经由第一和第二数据拥有方训练业务模型的方法300的流程图。在图3中,第一数据拥有方10具有第一数据集
Figure 120173DEST_PATH_IMAGE001
、第一模型
Figure 276348DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y。第二数据拥有方设备20具有第二数据集
Figure 73403DEST_PATH_IMAGE003
和第二模型
Figure 151080DEST_PATH_IMAGE004
。第一数据集
Figure 58993DEST_PATH_IMAGE001
和第二数据集
Figure 69675DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型
Figure 303210DEST_PATH_IMAGE054
的训练样本。第一模型
Figure 399342DEST_PATH_IMAGE002
和第二模型
Figure 110946DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型
Figure 444975DEST_PATH_IMAGE054
如图3所示,在完成针对第一模型
Figure 583833DEST_PATH_IMAGE002
和第二模型
Figure 901681DEST_PATH_IMAGE004
的初始化处理后,在310,在第一数据拥有方10处,将第一模型
Figure 416976DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 667829DEST_PATH_IMAGE005
Figure 977588DEST_PATH_IMAGE006
以及标签权重份额
Figure 782733DEST_PATH_IMAGE007
Figure 304981DEST_PATH_IMAGE008
。在第二数据拥有方20处,将第二模型
Figure 144761DEST_PATH_IMAGE004
分解为第二模型份额
Figure 625421DEST_PATH_IMAGE009
Figure 183441DEST_PATH_IMAGE010
。在本说明书中,针对第一模型
Figure 978222DEST_PATH_IMAGE002
、第二模型
Figure 938088DEST_PATH_IMAGE004
和标签权重C的份额分解可以采用任何合适的份额分解方式来实现。
在320,第一数据拥有方10将第一模型
Figure 855228DEST_PATH_IMAGE002
的第一模型份额
Figure 634965DEST_PATH_IMAGE006
和标签权重份额
Figure 30174DEST_PATH_IMAGE008
发送给第二数据拥有方20。第二数据拥有方20将第二模型
Figure 844547DEST_PATH_IMAGE004
的第二模型份额
Figure 870272DEST_PATH_IMAGE009
发送给第一数据拥有方10。
接着,循环执行330到360的操作,直到满足循环结束条件。在一个示例中,循环结束条件可以是预定循环次数。如果达到预定循环次数,则认为满足循环结束条件。在另一示例中,循环结束条件可以是所确定出的预测差值位于预定范围内。例如,预测差值中的各个元素之和小于预定阈值,或者预测差值中的各个元素的均值小于预定阈值。
具体地,在330,在各个数据拥有方之间,使用第一模型份额
Figure 137305DEST_PATH_IMAGE005
Figure 336205DEST_PATH_IMAGE006
、第二模型份额
Figure 473925DEST_PATH_IMAGE009
Figure 467289DEST_PATH_IMAGE010
、第一数据集
Figure 221618DEST_PATH_IMAGE001
和第二数据集
Figure 489789DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 13174DEST_PATH_IMAGE002
的模型更新量份额
Figure 177439DEST_PATH_IMAGE011
Figure 419065DEST_PATH_IMAGE012
以及第二模型
Figure 163030DEST_PATH_IMAGE004
的模型更新量份额
Figure 540921DEST_PATH_IMAGE013
Figure 141667DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 73851DEST_PATH_IMAGE011
Figure 418245DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 650643DEST_PATH_IMAGE012
Figure 687869DEST_PATH_IMAGE014
图4示出了根据本说明书的实施例的模型更新量确定过程400的一个示例的流程图。
如图4所示,在410,在第一数据拥有方10处,根据第一模型份额
Figure 638507DEST_PATH_IMAGE005
和第一数据集
Figure 521013DEST_PATH_IMAGE001
,确定第一预测值
Figure 76759DEST_PATH_IMAGE055
。在第二数据拥有方20处,根据第二模型份额
Figure 19307DEST_PATH_IMAGE010
和第二数据集
Figure 457242DEST_PATH_IMAGE003
,确定第四预测值
Figure 143438DEST_PATH_IMAGE056
在420,在各个数据拥有方之间,根据第一模型份额
Figure 616008DEST_PATH_IMAGE006
、第二模型份额
Figure 729457DEST_PATH_IMAGE009
、第一数据集
Figure 654688DEST_PATH_IMAGE001
以及第二数据集
Figure 347837DEST_PATH_IMAGE003
,使用多方安全计算确定第二预测值
Figure 674914DEST_PATH_IMAGE057
和第三预测值
Figure 693685DEST_PATH_IMAGE058
。其中,第一数据拥有方具有第二预测值
Figure 309474DEST_PATH_IMAGE020
的预测值份额
Figure 337473DEST_PATH_IMAGE059
以及第三预测值
Figure 519056DEST_PATH_IMAGE021
的预测值份额
Figure 239887DEST_PATH_IMAGE060
,第二数据拥有方具有第二预测值
Figure 874131DEST_PATH_IMAGE020
的预测值份额
Figure 440241DEST_PATH_IMAGE061
以及第三预测值
Figure 741910DEST_PATH_IMAGE021
的预测值份额
Figure 836905DEST_PATH_IMAGE062
。其中,
Figure 958444DEST_PATH_IMAGE063
Figure 328246DEST_PATH_IMAGE064
。这里,多方安全计算可以采用各种合适的多方安全计算方法。多方安全计算的示例可以包括但不限于:基于秘密共享的多方安全计算;基于同态加密的多方安全计算;基于不经意传输的多方安全计算;基于混淆电路的多方安全计算;或者基于可信执行环境的多方安全计算。
在430,在第一数据拥有方10处,根据第一预测值
Figure 687683DEST_PATH_IMAGE019
以及预测值份额
Figure 484738DEST_PATH_IMAGE022
Figure 93574DEST_PATH_IMAGE023
,确定第一数据拥有方处的模型预测值份额
Figure 267066DEST_PATH_IMAGE065
。在第二数据拥有方20处,根据第四预测值
Figure 277747DEST_PATH_IMAGE029
、预测值份额
Figure 711615DEST_PATH_IMAGE024
Figure 807747DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 519351DEST_PATH_IMAGE066
在440,在第一数据拥有方10处,根据模型预测值份额
Figure 587801DEST_PATH_IMAGE026
以及数据标签Y,确定第一数据拥有方处的预测差值份额
Figure 726659DEST_PATH_IMAGE067
。在第二数据拥有方20处,将所确定出的模型预测值份额
Figure 310087DEST_PATH_IMAGE030
,确定为第二数据拥有方处的预测差值份额
Figure 90961DEST_PATH_IMAGE028
在450,在各个数据拥有方之间,使用预测差值份额
Figure 810655DEST_PATH_IMAGE027
Figure 120414DEST_PATH_IMAGE028
以及第一数据集
Figure 191138DEST_PATH_IMAGE001
和第二数据集
Figure 447807DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 287587DEST_PATH_IMAGE002
的模型更新量份额
Figure 768247DEST_PATH_IMAGE011
Figure 795109DEST_PATH_IMAGE012
以及第二模型
Figure 386627DEST_PATH_IMAGE004
的模型更新量份额
Figure 80914DEST_PATH_IMAGE013
Figure 263633DEST_PATH_IMAGE014
。第一数据拥有方10具有模型更新量份额
Figure 43371DEST_PATH_IMAGE011
Figure 438580DEST_PATH_IMAGE013
,以及第二数据拥有方20具有模型更新量份额
Figure 456214DEST_PATH_IMAGE012
Figure 278677DEST_PATH_IMAGE014
。这里,模型更新量份额
Figure 545710DEST_PATH_IMAGE068
是指第i个模型在第j个数据拥有方处的模型更新量份额。
图5示出了根据本说明书的实施例的基于预测差值份额的模型更新量确定过程500的一个示例的流程图。
如图5所示,在510,在第一数据拥有方10处,根据预测差值份额
Figure 10190DEST_PATH_IMAGE027
和第一数据集
Figure 679068DEST_PATH_IMAGE001
,确定第一模型更新量
Figure 672432DEST_PATH_IMAGE069
。在第二数据拥有方20处,根据预测差值份额
Figure 895603DEST_PATH_IMAGE028
和第二数据集
Figure 632615DEST_PATH_IMAGE003
,确定第四模型更新量
Figure 156000DEST_PATH_IMAGE070
在520,在各个数据拥有方之间,使用预测差值份额
Figure 585844DEST_PATH_IMAGE027
Figure 30732DEST_PATH_IMAGE028
、第一数据集
Figure 305856DEST_PATH_IMAGE001
、第二数据集
Figure 949327DEST_PATH_IMAGE003
,按照多方安全计算确定第二模型更新量
Figure 550072DEST_PATH_IMAGE071
和第三模型更新量
Figure 278994DEST_PATH_IMAGE072
。第一数据拥有方具有第二模型更新量
Figure 357808DEST_PATH_IMAGE032
的模型更新量份额
Figure 324627DEST_PATH_IMAGE073
以及第三模型更新量
Figure 96274DEST_PATH_IMAGE033
的模型更新量份额
Figure 46913DEST_PATH_IMAGE074
,第二数据拥有方具有第二模型更新量
Figure 132680DEST_PATH_IMAGE032
的模型更新量份额
Figure 485164DEST_PATH_IMAGE075
以及第三模型更新量
Figure 427713DEST_PATH_IMAGE033
的模型更新量份额
Figure 131226DEST_PATH_IMAGE076
在530,在第一数据拥有方10处,将第一模型更新量
Figure 551843DEST_PATH_IMAGE031
与模型更新量份额
Figure 24413DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 341125DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 266356DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 959505DEST_PATH_IMAGE013
。在第二数据拥有方20处,将模型更新量份额
Figure 21002DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 305353DEST_PATH_IMAGE012
,并且将第四模型更新量
Figure 983459DEST_PATH_IMAGE038
与模型更新量份额
Figure 11458DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 193040DEST_PATH_IMAGE014
回到图3,在如上得到第一模型
Figure 585976DEST_PATH_IMAGE002
的模型更新量份额
Figure 485798DEST_PATH_IMAGE011
Figure 51909DEST_PATH_IMAGE012
以及第二模型
Figure 822419DEST_PATH_IMAGE004
的模型更新量份额
Figure 182993DEST_PATH_IMAGE013
Figure 570112DEST_PATH_IMAGE014
后,在340,在各个数据拥有方之间,使用第一模型
Figure 205493DEST_PATH_IMAGE002
的模型更新量份额
Figure 96088DEST_PATH_IMAGE011
Figure 893143DEST_PATH_IMAGE012
、第二模型
Figure 705241DEST_PATH_IMAGE004
的模型更新量份额
Figure 878734DEST_PATH_IMAGE013
Figure 889415DEST_PATH_IMAGE014
以及标签权重份额
Figure 122950DEST_PATH_IMAGE007
Figure 219082DEST_PATH_IMAGE008
,确定第一模型
Figure 930686DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 795874DEST_PATH_IMAGE015
Figure 403573DEST_PATH_IMAGE016
以及第二模型
Figure 987001DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 236717DEST_PATH_IMAGE017
Figure 425253DEST_PATH_IMAGE018
。第一数据拥有方10具有加权模型更新量份额
Figure 735011DEST_PATH_IMAGE015
Figure 805735DEST_PATH_IMAGE017
,以及第二数据拥有方20具有加权模型更新量份额
Figure 124721DEST_PATH_IMAGE016
Figure 964501DEST_PATH_IMAGE018
可选地,在一个示例中,在各个数据拥有方之间,可以使用第一模型
Figure 445161DEST_PATH_IMAGE002
的模型更新量份额
Figure 737602DEST_PATH_IMAGE011
Figure 72330DEST_PATH_IMAGE012
、第二模型
Figure 766617DEST_PATH_IMAGE004
的模型更新量份额
Figure 418178DEST_PATH_IMAGE013
Figure 666757DEST_PATH_IMAGE014
以及标签权重份额
Figure 61966DEST_PATH_IMAGE007
Figure 610759DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 964380DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 231413DEST_PATH_IMAGE015
Figure 430314DEST_PATH_IMAGE016
以及第二模型
Figure 36875DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 295818DEST_PATH_IMAGE017
Figure 50148DEST_PATH_IMAGE018
这里,多方安全计算的示例例如可以包括基于秘密共享的多方安全计算。具体地,第一数据拥有方10具有
Figure 787160DEST_PATH_IMAGE007
Figure 779386DEST_PATH_IMAGE013
,第二数据拥有方20具有
Figure 209231DEST_PATH_IMAGE008
Figure 185277DEST_PATH_IMAGE014
Figure 991559DEST_PATH_IMAGE077
,以及
Figure 635030DEST_PATH_IMAGE078
,其中,
Figure 970196DEST_PATH_IMAGE079
是与第二模型
Figure 902380DEST_PATH_IMAGE004
对应的模型更新量。由此,可以采用秘密共享的方法计算出第二模型
Figure 981195DEST_PATH_IMAGE004
的加权模型更新量
Figure 479172DEST_PATH_IMAGE080
,其中,第一数据拥有方10具有加权模型更新量份额
Figure 985240DEST_PATH_IMAGE017
,以及第二数据拥有方20具有加权模型更新量份额
Figure 467037DEST_PATH_IMAGE018
。同样,可以采用秘密共享的方法计算出第二模型
Figure 349542DEST_PATH_IMAGE002
的加权模型更新量
Figure 702026DEST_PATH_IMAGE081
,其中,第一数据拥有方10具有加权模型更新量份额
Figure 113416DEST_PATH_IMAGE015
,以及第二数据拥有方20具有加权模型更新量份额
Figure 551350DEST_PATH_IMAGE016
在350,在第一数据拥有方10处,分别根据加权模型更新量份额
Figure 971967DEST_PATH_IMAGE015
Figure 647799DEST_PATH_IMAGE017
更新第一模型份额
Figure 495670DEST_PATH_IMAGE005
和第二模型份额
Figure 420900DEST_PATH_IMAGE009
。在第二数据拥有方20处,分别根据加权模型更新量份额
Figure 910788DEST_PATH_IMAGE016
Figure 237864DEST_PATH_IMAGE018
更新第一模型份额
Figure 522215DEST_PATH_IMAGE006
和第二模型份额
Figure 403583DEST_PATH_IMAGE010
在一个示例中,在第一数据拥有方10处,可以按照以下等式更新第一数据拥有方处的第一模型份额
Figure 166003DEST_PATH_IMAGE005
和第二模型份额
Figure 347585DEST_PATH_IMAGE009
Figure 6100DEST_PATH_IMAGE039
,其中,
Figure 905922DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 472033DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,表示学习率,以及
Figure 508122DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
同样,在第二数据拥有方20处,可以按照以下等式更新第二数据拥有方处的第一模型份额
Figure 399855DEST_PATH_IMAGE006
和第二模型份额
Figure 786974DEST_PATH_IMAGE010
Figure 891196DEST_PATH_IMAGE082
,其中,
Figure 250633DEST_PATH_IMAGE083
表示第二数据拥有方处针对第i模型的更新后的模型份额,
Figure 47688DEST_PATH_IMAGE084
表示第二数据拥有方处针对第i模型的当前模型份额,
Figure 656524DEST_PATH_IMAGE085
表示学习率,以及
Figure 830016DEST_PATH_IMAGE086
表示第二数据拥有方处针对第i模型的模型更新份额。
在360,判断是否满足循环结束条件。例如,判断是否达到预定循环次数。如果达到预定循环次数,则流程结束。如果未达到预定循环次数,则流程返回到330的操作来执行下一训练循环过程,其中,在该下次训练循环过程中,各个数据拥有方在当前循环过程所获得的更新后的第一和第二模型份额用作下一循环的当前第一和第二模型份额。
在判断为满足循环结束条件时,在370,第一数据拥有方10和第二数据拥有方20共享所更新的模型份额。具体地,第一数据拥有方10将更新后的第二模型份额
Figure 309539DEST_PATH_IMAGE009
发送给第二数据拥有方20,并且第二数据拥有方20将更新后的第一模型份额
Figure 277495DEST_PATH_IMAGE006
发送给第一数据拥有方10。
在380,在第一数据拥有方10处,根据更新后的第一模型份额
Figure 373627DEST_PATH_IMAGE005
Figure 85231DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 215998DEST_PATH_IMAGE002
。在第二数据拥有方20处,根据更新后的第二模型份额
Figure 354855DEST_PATH_IMAGE009
Figure 141546DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 391262DEST_PATH_IMAGE004
。由此,完成基于样本权重的业务模型训练过程。
利用图1-图5中公开的业务模型训练方法,能够在不泄漏各个数据拥有方的隐私数据和模型参数的情况下实现基于样本加权的业务模型训练过程。此外,通过在模型更新量确定过程和加权模型更新量确定过程中使用多方安全计算实现,可以进一步提升业务模型训练的数据隐私保护。
图6示出了根据本说明书实施例的用于经由第一和第二数据拥有方训练业务模型的装置(下文中称为模型训练装置)600的示意图。在该实施例中,第一数据拥有方10具有第一数据集
Figure 376535DEST_PATH_IMAGE001
、第一模型
Figure 155135DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y。第二数据拥有方设备20具有第二数据集
Figure 225859DEST_PATH_IMAGE003
和第二模型
Figure 279266DEST_PATH_IMAGE004
。第一数据集
Figure 119046DEST_PATH_IMAGE001
和第二数据集
Figure 865285DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型
Figure 157726DEST_PATH_IMAGE054
的训练样本。第一模型
Figure 14824DEST_PATH_IMAGE002
和第二模型
Figure 912373DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型
Figure 563934DEST_PATH_IMAGE054
。模型训练装置600应用于第一数据拥有方10。
如图6所示,模型训练装置600包括分解单元610、份额共享单元620、模型更新量确定单元630、加权处理单元640、模型更新单元650、模型共享单元660和训练模型确定单元670。
分解单元610被配置为将第一模型
Figure 609250DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 270039DEST_PATH_IMAGE005
Figure 818832DEST_PATH_IMAGE006
以及标签权重份额
Figure 906874DEST_PATH_IMAGE007
Figure 173907DEST_PATH_IMAGE008
。分解单元610的操作可以参考上面参照图3描述的310的操作。
份额共享单元620被配置为将第一模型份额
Figure 576069DEST_PATH_IMAGE006
和标签权重份额
Figure 448210DEST_PATH_IMAGE008
发送给第二数据拥有方,以及从第二数据拥有方接收第二模型
Figure 438645DEST_PATH_IMAGE004
的第二模型份额
Figure 130657DEST_PATH_IMAGE009
,第二数据拥有方将第二模型
Figure 133248DEST_PATH_IMAGE004
分解为第二模型份额
Figure 656633DEST_PATH_IMAGE009
Figure 820898DEST_PATH_IMAGE010
。份额共享单元620的操作可以参考上面参照图3描述的320的操作。
模型更新量确定单元630被配置为在各个数据拥有方之间,使用第一模型份额
Figure 328103DEST_PATH_IMAGE005
Figure 868806DEST_PATH_IMAGE006
、第二模型份额
Figure 246698DEST_PATH_IMAGE009
Figure 50706DEST_PATH_IMAGE010
、第一数据集
Figure 514048DEST_PATH_IMAGE001
和第二数据集
Figure 858442DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 825261DEST_PATH_IMAGE002
的模型更新量份额
Figure 331328DEST_PATH_IMAGE011
Figure 547546DEST_PATH_IMAGE012
以及第二模型
Figure 695631DEST_PATH_IMAGE004
的模型更新量份额
Figure 48114DEST_PATH_IMAGE013
Figure 725083DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 366280DEST_PATH_IMAGE011
Figure 52477DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 259467DEST_PATH_IMAGE012
Figure 372917DEST_PATH_IMAGE014
。模型更新量确定单元630的操作可以参考上面参照图3描述的330的操作。
加权处理单元640被配置为在各个数据拥有方之间,使用第一模型
Figure 563726DEST_PATH_IMAGE002
的模型更新量份额
Figure 788034DEST_PATH_IMAGE011
Figure 115111DEST_PATH_IMAGE012
、第二模型
Figure 868303DEST_PATH_IMAGE004
的模型更新量份额
Figure 15251DEST_PATH_IMAGE013
Figure 43249DEST_PATH_IMAGE014
以及标签权重份额
Figure 428094DEST_PATH_IMAGE007
Figure 883346DEST_PATH_IMAGE008
,确定第一模型
Figure 783169DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 349280DEST_PATH_IMAGE015
Figure 650948DEST_PATH_IMAGE016
以及第二模型
Figure 277102DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 398641DEST_PATH_IMAGE017
Figure 237284DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 393459DEST_PATH_IMAGE015
Figure 190514DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 2612DEST_PATH_IMAGE016
Figure 910525DEST_PATH_IMAGE018
。加权处理单元640的操作可以参考上面参照图3描述的340的操作。
可选地,在一个示例中,加权处理单元640可以被配置为在各个数据拥有方之间,使用第一模型
Figure 921207DEST_PATH_IMAGE002
的模型更新量份额
Figure 889163DEST_PATH_IMAGE011
Figure 250874DEST_PATH_IMAGE012
、第二模型
Figure 962478DEST_PATH_IMAGE004
的模型更新量份额
Figure 93245DEST_PATH_IMAGE013
Figure 435365DEST_PATH_IMAGE014
以及标签权重份额
Figure 753213DEST_PATH_IMAGE007
Figure 268508DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 722624DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 32382DEST_PATH_IMAGE015
Figure 837527DEST_PATH_IMAGE016
以及第二模型
Figure 890934DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 996293DEST_PATH_IMAGE017
Figure 476953DEST_PATH_IMAGE018
模型更新单元650被配置为分别根据加权模型更新量份额
Figure 34973DEST_PATH_IMAGE015
Figure 829754DEST_PATH_IMAGE017
更新第一模型份额
Figure 789620DEST_PATH_IMAGE005
和第二模型份额
Figure 441181DEST_PATH_IMAGE009
。模型更新单元650的操作可以参考上面参照图3描述的350的操作。
模型共享单元660被配置为在满足循环结束条件时,将更新后的第二模型份额
Figure 689760DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 84969DEST_PATH_IMAGE006
。模型共享单元660的操作可以参考上面参照图3描述的370的操作。
训练模型确定单元670被配置为根据更新后的第一模型份额
Figure 899341DEST_PATH_IMAGE005
Figure 987383DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 254416DEST_PATH_IMAGE002
在模型训练装置600的操作中,模型更新量确定单元630、加权处理单元640和模型更新单元650循环执行操作,直到满足循环结束条件。在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额。
图7示出了根据本说明书的实施例的模型更新量确定单元700的一个示例的方框图。如图7所示,模型更新量确定单元700包括本地预测值确定模块710、多方安全计算模块720、预测值份额确定模块730、预测差值份额确定模块740和模型更新量确定模块750。
本地预测值确定模块710被配置为根据第一模型份额
Figure 453316DEST_PATH_IMAGE005
和第一数据集
Figure 325457DEST_PATH_IMAGE001
,确定第一预测值
Figure 318821DEST_PATH_IMAGE055
多方安全计算模块720被配置为在各个数据拥有方之间,根据第一模型份额
Figure 73150DEST_PATH_IMAGE006
、第二模型份额
Figure 544583DEST_PATH_IMAGE009
、第一数据集
Figure 67968DEST_PATH_IMAGE001
以及第二数据集
Figure 232233DEST_PATH_IMAGE003
,使用多方安全计算确定第二预测值
Figure 473859DEST_PATH_IMAGE057
和第三预测值
Figure 280141DEST_PATH_IMAGE058
,第一数据拥有方具有第二预测值
Figure 658033DEST_PATH_IMAGE020
的预测值份额
Figure 462041DEST_PATH_IMAGE022
和第三预测值
Figure 925383DEST_PATH_IMAGE021
的预测值份额
Figure 269777DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 767754DEST_PATH_IMAGE020
的预测值份额
Figure 539401DEST_PATH_IMAGE024
和第三预测值
Figure 490039DEST_PATH_IMAGE021
的预测值份额
Figure 372545DEST_PATH_IMAGE025
预测值份额确定模块730被配置为根据第一预测值
Figure 190941DEST_PATH_IMAGE019
以及预测值份额
Figure 133489DEST_PATH_IMAGE022
Figure 571423DEST_PATH_IMAGE023
,确定第一数据拥有方处的模型预测值份额
Figure 460882DEST_PATH_IMAGE065
预测差值份额确定模块740被配置为根据模型预测值份额
Figure 667872DEST_PATH_IMAGE026
以及数据标签Y,确定第一数据拥有方处的预测差值份额
Figure 781322DEST_PATH_IMAGE027
。同样,在第二数据拥有方处,使用第四预测值
Figure 972132DEST_PATH_IMAGE029
以及预测值份额
Figure 196440DEST_PATH_IMAGE024
Figure 523516DEST_PATH_IMAGE025
,确定第二数据拥有方处的模型预测值份额
Figure 745550DEST_PATH_IMAGE066
,作为预测差值份额
Figure 158077DEST_PATH_IMAGE028
,第四预测值
Figure 186075DEST_PATH_IMAGE056
根据第二模型份额
Figure 836500DEST_PATH_IMAGE010
和第二数据集
Figure 291752DEST_PATH_IMAGE003
确定。
模型更新量确定模块750被配置为在各个数据拥有方之间,使用预测差值份额
Figure 925995DEST_PATH_IMAGE027
Figure 492106DEST_PATH_IMAGE028
以及第一数据集
Figure 59354DEST_PATH_IMAGE001
和第二数据集
Figure 685507DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 807047DEST_PATH_IMAGE002
的模型更新量份额
Figure 380111DEST_PATH_IMAGE011
Figure 536285DEST_PATH_IMAGE012
以及第二模型
Figure 333340DEST_PATH_IMAGE004
的模型更新量份额
Figure 411017DEST_PATH_IMAGE013
Figure 318931DEST_PATH_IMAGE014
可选地,在一个示例中,模型更新量确定模块750被配置为根据预测差值份额
Figure 329612DEST_PATH_IMAGE027
和第一数据集
Figure 563147DEST_PATH_IMAGE001
,确定第一模型更新量
Figure 659279DEST_PATH_IMAGE069
;在各个数据拥有方之间,根据预测差值份额
Figure 370883DEST_PATH_IMAGE027
Figure 439333DEST_PATH_IMAGE028
、第一数据集
Figure 578191DEST_PATH_IMAGE001
以及第二数据集
Figure 161619DEST_PATH_IMAGE003
,使用多方安全计算确定第二模型更新量
Figure 676914DEST_PATH_IMAGE071
和第三模型更新量
Figure 662187DEST_PATH_IMAGE072
,第一数据拥有方具有第二模型更新量
Figure 971946DEST_PATH_IMAGE032
的模型更新量份额
Figure 511512DEST_PATH_IMAGE034
和第三模型更新量
Figure 564918DEST_PATH_IMAGE033
的模型更新量份额
Figure 404698DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 88621DEST_PATH_IMAGE032
的模型更新量份额
Figure 646641DEST_PATH_IMAGE036
和第三模型更新量
Figure 238159DEST_PATH_IMAGE033
的模型更新量份额
Figure 198025DEST_PATH_IMAGE037
;以及将第一模型更新量
Figure 115165DEST_PATH_IMAGE031
和模型更新量份额
Figure 894903DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 758953DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 573326DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 395788DEST_PATH_IMAGE013
可选地,在一个示例中,模型更新单元650可以按照以下等式更新第一数据拥有方处的模型份额:
Figure 866084DEST_PATH_IMAGE039
,其中,
Figure 64984DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 733863DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,
Figure 992806DEST_PATH_IMAGE087
表示学习率,以及
Figure 747135DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
图8示出了根据本说明书实施例的用于经由第一和第二数据拥有方训练业务模型的装置(下文中称为模型训练装置)800的示意图。在该实施例中,第一数据拥有方10具有第一数据集
Figure 484147DEST_PATH_IMAGE001
、第一模型
Figure 7532DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y。第二数据拥有方设备20具有第二数据集
Figure 640639DEST_PATH_IMAGE003
和第二模型
Figure 882264DEST_PATH_IMAGE004
。第一数据集
Figure 157388DEST_PATH_IMAGE001
和第二数据集
Figure 269700DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型
Figure 604867DEST_PATH_IMAGE054
的训练样本。第一模型
Figure 333788DEST_PATH_IMAGE002
和第二模型
Figure 678182DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型
Figure 176159DEST_PATH_IMAGE054
。模型训练装置800应用于第二数据拥有方20。
如图8所示,模型训练装置800包括分解单元810、份额共享单元820、模型更新量确定单元830、加权处理单元840、模型更新单元850、模型共享单元860和训练模型确定单元870。
分解单元810被配置为将第二模型
Figure 947806DEST_PATH_IMAGE004
分解为第二模型份额
Figure 898445DEST_PATH_IMAGE009
Figure 984212DEST_PATH_IMAGE010
。分解单元810的操作可以参考上面参照图3描述的310的操作。
份额共享单元820被配置为将第二模型份额
Figure 336696DEST_PATH_IMAGE009
发送给第一数据拥有方,并且从第一数据拥有方接收第一模型
Figure 279245DEST_PATH_IMAGE002
的第一模型份额
Figure 186021DEST_PATH_IMAGE006
以及标签权重份额
Figure 606638DEST_PATH_IMAGE008
,第一数据拥有方将第一模型
Figure 79207DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 458236DEST_PATH_IMAGE005
Figure 383467DEST_PATH_IMAGE006
以及标签权重份额
Figure 607775DEST_PATH_IMAGE007
Figure 872534DEST_PATH_IMAGE008
。份额共享单元820的操作可以参考上面参照图3描述的320的操作。
模型更新量确定单元830被配置为在各个数据拥有方之间,使用第一模型份额
Figure 156885DEST_PATH_IMAGE005
Figure 569412DEST_PATH_IMAGE006
、第二模型份额
Figure 597410DEST_PATH_IMAGE009
Figure 44572DEST_PATH_IMAGE010
、第一数据集
Figure 234245DEST_PATH_IMAGE001
和第二数据集
Figure 134068DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 166090DEST_PATH_IMAGE002
的模型更新量份额
Figure 467759DEST_PATH_IMAGE011
Figure 828333DEST_PATH_IMAGE012
以及第二模型
Figure 215452DEST_PATH_IMAGE004
的模型更新量份额
Figure 788516DEST_PATH_IMAGE013
Figure 679111DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 476166DEST_PATH_IMAGE011
Figure 350581DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 524074DEST_PATH_IMAGE012
Figure 534755DEST_PATH_IMAGE014
。模型更新量确定单元830的操作可以参考上面参照图3描述的330的操作。
加权处理单元840被配置为在各个数据拥有方之间,使用第一模型的模型更新量份额
Figure 705973DEST_PATH_IMAGE011
Figure 802105DEST_PATH_IMAGE012
、第二模型的模型更新量份额
Figure 513709DEST_PATH_IMAGE013
Figure 847739DEST_PATH_IMAGE014
以及标签权重份额
Figure 986596DEST_PATH_IMAGE007
Figure 570024DEST_PATH_IMAGE008
,确定第一模型
Figure 819740DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 70593DEST_PATH_IMAGE015
Figure 380351DEST_PATH_IMAGE016
以及第二模型
Figure 451075DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 707744DEST_PATH_IMAGE017
Figure 547524DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 28184DEST_PATH_IMAGE015
Figure 789467DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 646564DEST_PATH_IMAGE016
Figure 340851DEST_PATH_IMAGE018
。加权处理单元840的操作可以参考上面参照图3描述的340的操作。
可选地,在一个示例中,加权处理单元840可以被配置为在各个数据拥有方之间,使用第一模型的模型更新量份额
Figure 257991DEST_PATH_IMAGE011
Figure 303308DEST_PATH_IMAGE012
、第二模型的模型更新量份额
Figure 698517DEST_PATH_IMAGE013
Figure 450572DEST_PATH_IMAGE014
以及标签权重份额
Figure 538614DEST_PATH_IMAGE007
Figure 805647DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 4548DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 673426DEST_PATH_IMAGE015
Figure 932369DEST_PATH_IMAGE016
以及第二模型
Figure 686699DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 892552DEST_PATH_IMAGE017
Figure 415937DEST_PATH_IMAGE018
模型更新单元850被配置为分别根据加权模型更新量份额
Figure 845782DEST_PATH_IMAGE016
Figure 25090DEST_PATH_IMAGE018
更新第一模型份额
Figure 565793DEST_PATH_IMAGE006
和第二模型份额
Figure 209264DEST_PATH_IMAGE010
。模型更新单元850的操作可以参考上面参照图3描述的350的操作。
模型共享单元860被配置为在满足循环结束条件时,将更新后的第一模型份额
Figure 810010DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 538931DEST_PATH_IMAGE009
。模型共享单元860的操作可以参考上面参照图3描述的370的操作。
训练模型确定单元870被配置为根据更新后的第二模型份额
Figure 617746DEST_PATH_IMAGE009
Figure 115723DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 90632DEST_PATH_IMAGE004
在模型训练装置800的操作中,模型更新量确定单元830、加权处理单元840和模型更新单元850循环执行操作,直到满足循环结束条件。在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额。
图9示出了根据本说明书的实施例的模型更新量确定单元900的一个示例的方框图。如图9所示,模型更新量确定单元900包括本地预测值确定模块910、多方安全计算模块920、预测值份额确定模块930和模型更新量确定模块940。
本地预测值确定模块910被配置为根据第二模型份额
Figure 306850DEST_PATH_IMAGE010
和第二数据集
Figure 189355DEST_PATH_IMAGE003
,确定第四预测值
Figure 745102DEST_PATH_IMAGE056
多方安全计算模块920被配置为在各个数据拥有方之间,根据第一模型份额
Figure 687650DEST_PATH_IMAGE006
、第二模型份额
Figure 125584DEST_PATH_IMAGE009
、第一数据集
Figure 811781DEST_PATH_IMAGE001
以及第二数据集
Figure 284350DEST_PATH_IMAGE003
,使用多方安全计算确定第二预测值
Figure 132221DEST_PATH_IMAGE057
和第三预测值
Figure 57451DEST_PATH_IMAGE058
,第一数据拥有方具有第二预测值
Figure 485022DEST_PATH_IMAGE020
的预测值份额
Figure 812098DEST_PATH_IMAGE022
和第三预测值
Figure 96449DEST_PATH_IMAGE021
的预测值份额
Figure 977817DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 740237DEST_PATH_IMAGE020
的预测值份额
Figure 921819DEST_PATH_IMAGE024
和第三预测值
Figure 642650DEST_PATH_IMAGE021
的预测值份额
Figure 542473DEST_PATH_IMAGE025
预测值份额确定模块930被配置为根据第四预测值
Figure 108584DEST_PATH_IMAGE029
、预测值份额
Figure 347935DEST_PATH_IMAGE024
Figure 974089DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 361208DEST_PATH_IMAGE066
,作为预测差值份额
Figure 465430DEST_PATH_IMAGE028
模型更新量确定模块940被配置为在各个数据拥有方之间,使用预测差值份额
Figure 90446DEST_PATH_IMAGE027
Figure 887501DEST_PATH_IMAGE028
以及第一数据集
Figure 496337DEST_PATH_IMAGE001
和第二数据集
Figure 935409DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 946090DEST_PATH_IMAGE002
的模型更新量份额
Figure 914046DEST_PATH_IMAGE011
Figure 10178DEST_PATH_IMAGE012
以及第二模型
Figure 659465DEST_PATH_IMAGE004
的模型更新量份额
Figure 790232DEST_PATH_IMAGE013
Figure 929089DEST_PATH_IMAGE014
可选地,在一个示例中,模型更新量确定模块940被配置为:根据预测差值份额
Figure 778097DEST_PATH_IMAGE028
和第二数据集
Figure 27812DEST_PATH_IMAGE003
,确定第四模型更新量
Figure 13086DEST_PATH_IMAGE070
;在各个数据拥有方之间,根据预测差值份额
Figure 800475DEST_PATH_IMAGE027
Figure 871199DEST_PATH_IMAGE028
、第一数据集
Figure 924606DEST_PATH_IMAGE001
以及第二数据集
Figure 764386DEST_PATH_IMAGE003
,使用多方安全计算确定第二模型更新量
Figure 448308DEST_PATH_IMAGE071
和第三模型更新量
Figure 740749DEST_PATH_IMAGE072
,第一数据拥有方具有第二模型更新量
Figure 597847DEST_PATH_IMAGE032
的模型更新量份额
Figure 557713DEST_PATH_IMAGE034
和第三模型更新量
Figure 209274DEST_PATH_IMAGE033
的模型更新量份额
Figure 254590DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 853062DEST_PATH_IMAGE032
的模型更新量份额
Figure 401855DEST_PATH_IMAGE036
和第三模型更新量
Figure 489897DEST_PATH_IMAGE033
的模型更新量份额
Figure 225771DEST_PATH_IMAGE037
;以及将第四模型更新量
Figure 159092DEST_PATH_IMAGE038
和模型更新量份额
Figure 827971DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 86914DEST_PATH_IMAGE014
,并将模型更新量份额
Figure 841244DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 843835DEST_PATH_IMAGE012
可选地,在一个示例中,模型更新单元850可以按照以下等式更新第二数据拥有方处的模型份额:
Figure 367220DEST_PATH_IMAGE082
,其中,
Figure 734747DEST_PATH_IMAGE083
表示第二数据拥有方处针对第i模型的更新后的模型份额,
Figure 976373DEST_PATH_IMAGE084
表示第二数据拥有方处针对第i模型的当前模型份额,
Figure 517076DEST_PATH_IMAGE087
表示学习率,以及
Figure 363809DEST_PATH_IMAGE086
表示第二数据拥有方处针对第i模型的模型更新份额。
如上参照图1到图9,对根据本说明书实施例的模型训练方法、模型训练装置及系统进行了描述。上面的模型训练装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图10示出了根据本说明书的实施例的用于实现第一数据拥有方侧的业务模型训练过程的电子设备1000的示意图。如图10所示,电子设备1000可以包括至少一个处理器1010、存储器(例如,非易失性存储器)1020、内存1030和通信接口1040,并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1060连接在一起。至少一个处理器1010执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1010:将第一模型
Figure 964554DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 427897DEST_PATH_IMAGE005
Figure 37870DEST_PATH_IMAGE006
以及标签权重份额
Figure 535847DEST_PATH_IMAGE007
Figure 41915DEST_PATH_IMAGE008
,并将第一模型份额
Figure 258133DEST_PATH_IMAGE006
和标签权重份额
Figure 343900DEST_PATH_IMAGE008
发送给第二数据拥有方;从第二数据拥有方接收第二模型
Figure 696384DEST_PATH_IMAGE004
的第二模型份额
Figure 373353DEST_PATH_IMAGE009
,第二模型份额
Figure 76867DEST_PATH_IMAGE009
经由第二数据拥有方将第二模型
Figure 763063DEST_PATH_IMAGE004
分解为第二模型份额
Figure 970054DEST_PATH_IMAGE009
Figure 83503DEST_PATH_IMAGE010
得到;执行下述循环过程,直到满足循环结束条件:在各个数据拥有方之间,使用第一模型份额
Figure 477575DEST_PATH_IMAGE005
Figure 701883DEST_PATH_IMAGE006
、第二模型份额
Figure 28959DEST_PATH_IMAGE009
Figure 516573DEST_PATH_IMAGE010
、第一数据集
Figure 663520DEST_PATH_IMAGE001
和第二数据集
Figure 691519DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 138681DEST_PATH_IMAGE002
的模型更新量份额
Figure 593933DEST_PATH_IMAGE011
Figure 493756DEST_PATH_IMAGE012
以及第二模型
Figure 528708DEST_PATH_IMAGE004
的模型更新量份额
Figure 564797DEST_PATH_IMAGE013
Figure 190951DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 312490DEST_PATH_IMAGE011
Figure 885554DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 41729DEST_PATH_IMAGE012
Figure 838784DEST_PATH_IMAGE014
;在各个数据拥有方之间,使用第一模型
Figure 713199DEST_PATH_IMAGE002
的模型更新量份额
Figure 621112DEST_PATH_IMAGE011
Figure 631793DEST_PATH_IMAGE012
、第二模型
Figure 740695DEST_PATH_IMAGE004
的模型更新量份额
Figure 836827DEST_PATH_IMAGE013
Figure 17272DEST_PATH_IMAGE014
以及标签权重份额
Figure 148039DEST_PATH_IMAGE007
Figure 286897DEST_PATH_IMAGE008
,确定第一模型
Figure 870325DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 854461DEST_PATH_IMAGE015
Figure 839735DEST_PATH_IMAGE016
以及第二模型
Figure 615405DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 420550DEST_PATH_IMAGE017
Figure 473957DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 516999DEST_PATH_IMAGE015
Figure 997659DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 555679DEST_PATH_IMAGE016
Figure 412777DEST_PATH_IMAGE018
;分别根据加权模型更新量份额
Figure 372643DEST_PATH_IMAGE015
Figure 24204DEST_PATH_IMAGE017
更新第一模型份额
Figure 272783DEST_PATH_IMAGE005
和第二模型份额
Figure 667992DEST_PATH_IMAGE009
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额
Figure 482364DEST_PATH_IMAGE006
和第二模型份额
Figure 508089DEST_PATH_IMAGE010
根据加权模型更新量份额
Figure 775122DEST_PATH_IMAGE016
Figure 974022DEST_PATH_IMAGE018
更新,在满足循环结束条件时,将更新后的第二模型份额
Figure 908480DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 901844DEST_PATH_IMAGE006
;以及根据更新后的第一模型份额
Figure 656174DEST_PATH_IMAGE005
Figure 658765DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 385412DEST_PATH_IMAGE002
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1010进行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。
图11示出了根据本说明书的实施例的用于实现第二数据拥有方侧的业务模型训练过程的电子设备1100的示意图。如图11所示,电子设备1100可以包括至少一个处理器1110、存储器(例如,非易失性存储器)1120、内存1130和通信接口1140,并且至少一个处理器1110、存储器1120、内存1130和通信接口1140经由总线1160连接在一起。至少一个处理器1110执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1110:将第二模型
Figure 549677DEST_PATH_IMAGE004
分解为第二模型份额
Figure 791303DEST_PATH_IMAGE009
Figure 800847DEST_PATH_IMAGE010
,并将第二模型份额
Figure 178739DEST_PATH_IMAGE009
发送给第一数据拥有方;从第一数据拥有方接收第一模型
Figure 779484DEST_PATH_IMAGE002
的第一模型份额
Figure 508406DEST_PATH_IMAGE006
以及标签权重份额
Figure 852800DEST_PATH_IMAGE008
,第一模型份额
Figure 85198DEST_PATH_IMAGE006
以及标签权重份额
Figure 60107DEST_PATH_IMAGE008
经由第一数据拥有方将第一模型
Figure 10746DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 893251DEST_PATH_IMAGE005
Figure 714576DEST_PATH_IMAGE006
以及标签权重份额
Figure 657125DEST_PATH_IMAGE007
Figure 95059DEST_PATH_IMAGE008
得到;执行下述循环过程,直到满足循环结束条件:在各个数据拥有方之间,使用第一模型份额
Figure 781255DEST_PATH_IMAGE005
Figure 253825DEST_PATH_IMAGE006
、第二模型份额
Figure 367275DEST_PATH_IMAGE009
Figure 292505DEST_PATH_IMAGE010
、第一数据集
Figure 720076DEST_PATH_IMAGE001
和第二数据集
Figure 47152DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 65923DEST_PATH_IMAGE002
的模型更新量份额
Figure 744029DEST_PATH_IMAGE011
Figure 772028DEST_PATH_IMAGE012
以及第二模型
Figure 953611DEST_PATH_IMAGE004
的模型更新量份额
Figure 877705DEST_PATH_IMAGE013
Figure 511948DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 78059DEST_PATH_IMAGE011
Figure 379727DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 209143DEST_PATH_IMAGE012
Figure 330683DEST_PATH_IMAGE014
;在各个数据拥有方之间,使用第一模型
Figure 700484DEST_PATH_IMAGE002
的模型更新量份额
Figure 122238DEST_PATH_IMAGE011
Figure 919293DEST_PATH_IMAGE012
、第二模型
Figure 528129DEST_PATH_IMAGE004
的模型更新量份额
Figure 904883DEST_PATH_IMAGE013
Figure 915565DEST_PATH_IMAGE014
以及标签权重份额
Figure 883521DEST_PATH_IMAGE007
Figure 182915DEST_PATH_IMAGE008
,确定第一模型
Figure 894519DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 759707DEST_PATH_IMAGE015
Figure 898564DEST_PATH_IMAGE016
以及第二模型
Figure 747572DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 262866DEST_PATH_IMAGE017
Figure 982561DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 495582DEST_PATH_IMAGE015
Figure 566306DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 619713DEST_PATH_IMAGE016
Figure 928334DEST_PATH_IMAGE018
;分别根据加权模型更新量份额
Figure 408994DEST_PATH_IMAGE016
Figure 967014DEST_PATH_IMAGE018
更新第一模型份额
Figure 558533DEST_PATH_IMAGE006
和第二模型份额
Figure 518398DEST_PATH_IMAGE010
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额
Figure 435539DEST_PATH_IMAGE005
和第二模型份额
Figure 418538DEST_PATH_IMAGE009
分别根据加权模型更新量份额
Figure 813748DEST_PATH_IMAGE015
Figure 628120DEST_PATH_IMAGE017
更新,在满足循环结束条件时,将更新后的第一模型份额
Figure 450582DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 983195DEST_PATH_IMAGE009
;以及根据更新后的第二模型份额
Figure 182095DEST_PATH_IMAGE009
Figure 850974DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 310249DEST_PATH_IMAGE004
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1110进行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (24)

1.一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集
Figure 583203DEST_PATH_IMAGE001
、第一模型
Figure 500343DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 217763DEST_PATH_IMAGE003
和第二模型
Figure 612972DEST_PATH_IMAGE004
,第一数据集
Figure 614295DEST_PATH_IMAGE001
和第二数据集
Figure 436758DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 641474DEST_PATH_IMAGE002
和第二模型
Figure 840374DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述方法由第一数据拥有方执行,所述方法包括:
将第一模型
Figure 509253DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 191033DEST_PATH_IMAGE005
Figure 945362DEST_PATH_IMAGE006
以及标签权重份额
Figure 620057DEST_PATH_IMAGE007
Figure 143442DEST_PATH_IMAGE008
,并将第一模型份额
Figure 760237DEST_PATH_IMAGE006
和标签权重份额
Figure 1863DEST_PATH_IMAGE008
发送给第二数据拥有方;
从第二数据拥有方接收第二模型
Figure 276986DEST_PATH_IMAGE004
的第二模型份额
Figure 858140DEST_PATH_IMAGE009
,第二模型份额
Figure 193307DEST_PATH_IMAGE009
经由第二数据拥有方将第二模型
Figure 922228DEST_PATH_IMAGE004
分解为第二模型份额
Figure 689458DEST_PATH_IMAGE009
Figure 187436DEST_PATH_IMAGE010
得到;
执行下述循环过程,直到满足循环结束条件:
在各个数据拥有方之间,使用第一模型份额
Figure 896766DEST_PATH_IMAGE005
Figure 847404DEST_PATH_IMAGE006
、第二模型份额
Figure 729909DEST_PATH_IMAGE009
Figure 269344DEST_PATH_IMAGE010
、第一数据集
Figure 211892DEST_PATH_IMAGE001
和第二数据集
Figure 587510DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 8127DEST_PATH_IMAGE002
的模型更新量份额
Figure 480697DEST_PATH_IMAGE011
Figure 282562DEST_PATH_IMAGE012
以及第二模型
Figure 207792DEST_PATH_IMAGE004
的模型更新量份额
Figure 369783DEST_PATH_IMAGE013
Figure 431280DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 715631DEST_PATH_IMAGE011
Figure 315109DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 343107DEST_PATH_IMAGE012
Figure 462373DEST_PATH_IMAGE014
在各个数据拥有方之间,使用第一模型
Figure 652046DEST_PATH_IMAGE002
的模型更新量份额
Figure 240285DEST_PATH_IMAGE011
Figure 806395DEST_PATH_IMAGE012
、第二模型
Figure 108063DEST_PATH_IMAGE004
的模型更新量份额
Figure 406321DEST_PATH_IMAGE013
Figure 793440DEST_PATH_IMAGE014
以及标签权重份额
Figure 350192DEST_PATH_IMAGE007
Figure 240787DEST_PATH_IMAGE008
,确定第一模型
Figure 975525DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 584361DEST_PATH_IMAGE015
Figure 757854DEST_PATH_IMAGE016
以及第二模型
Figure 468669DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 436625DEST_PATH_IMAGE017
Figure 532757DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 182044DEST_PATH_IMAGE015
Figure 47232DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 373040DEST_PATH_IMAGE016
Figure 956468DEST_PATH_IMAGE018
分别根据加权模型更新量份额
Figure 206184DEST_PATH_IMAGE015
Figure 129141DEST_PATH_IMAGE017
更新第一模型份额
Figure 438899DEST_PATH_IMAGE005
和第二模型份额
Figure 198039DEST_PATH_IMAGE009
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额
Figure 251446DEST_PATH_IMAGE006
和第二模型份额
Figure 28909DEST_PATH_IMAGE010
分别根据加权模型更新量份额
Figure 509569DEST_PATH_IMAGE016
Figure 802010DEST_PATH_IMAGE018
更新,
在满足循环结束条件时,将更新后的第二模型份额
Figure 846058DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 540344DEST_PATH_IMAGE006
;以及
根据更新后的第一模型份额
Figure 129589DEST_PATH_IMAGE005
Figure 174905DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 570114DEST_PATH_IMAGE002
2.如权利要求1所述的方法,其中,在各个数据拥有方之间,使用第一模型份额
Figure 807323DEST_PATH_IMAGE005
Figure 895365DEST_PATH_IMAGE006
、第二模型份额
Figure 162398DEST_PATH_IMAGE009
Figure 298981DEST_PATH_IMAGE010
、第一数据集
Figure 702281DEST_PATH_IMAGE001
和第二数据集
Figure 148174DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 902504DEST_PATH_IMAGE002
的模型更新量份额
Figure 639516DEST_PATH_IMAGE011
Figure 100584DEST_PATH_IMAGE012
以及第二模型
Figure 530428DEST_PATH_IMAGE004
的模型更新量份额
Figure 194890DEST_PATH_IMAGE013
Figure 735593DEST_PATH_IMAGE014
包括:
根据第一模型份额
Figure 379064DEST_PATH_IMAGE005
和第一数据集
Figure 651913DEST_PATH_IMAGE001
确定第一预测值
Figure 380835DEST_PATH_IMAGE019
在各个数据拥有方之间,使用第一模型份额
Figure 646600DEST_PATH_IMAGE006
和第一数据集
Figure 144577DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 650645DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 804546DEST_PATH_IMAGE009
和第二数据集
Figure 687051DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 727951DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 670499DEST_PATH_IMAGE020
的预测值份额
Figure 108434DEST_PATH_IMAGE022
和第三预测值
Figure 466734DEST_PATH_IMAGE021
的预测值份额
Figure 939303DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 974124DEST_PATH_IMAGE020
的预测值份额
Figure 899355DEST_PATH_IMAGE024
和第三预测值
Figure 61346DEST_PATH_IMAGE021
的预测值份额
Figure 388422DEST_PATH_IMAGE025
根据第一预测值
Figure 672773DEST_PATH_IMAGE019
以及预测值份额
Figure 773715DEST_PATH_IMAGE022
Figure 536135DEST_PATH_IMAGE023
确定第一数据拥有方处的模型预测值份额
Figure 655401DEST_PATH_IMAGE026
根据模型预测值份额
Figure 110653DEST_PATH_IMAGE026
以及数据标签Y确定第一数据拥有方处的预测差值份额
Figure 10476DEST_PATH_IMAGE027
;以及
在各个数据拥有方之间,使用预测差值份额
Figure 763537DEST_PATH_IMAGE027
Figure 799626DEST_PATH_IMAGE028
以及第一数据集
Figure 363463DEST_PATH_IMAGE001
和第二数据集
Figure 750582DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 854804DEST_PATH_IMAGE002
的模型更新量份额
Figure 699394DEST_PATH_IMAGE011
Figure 496449DEST_PATH_IMAGE012
以及第二模型
Figure 42968DEST_PATH_IMAGE004
的模型更新量份额
Figure 216460DEST_PATH_IMAGE013
Figure 227142DEST_PATH_IMAGE014
其中,预测差值份额
Figure 382048DEST_PATH_IMAGE028
是由第二数据拥有方使用第四预测值
Figure 478180DEST_PATH_IMAGE029
、预测值份额
Figure 924205DEST_PATH_IMAGE024
Figure 992655DEST_PATH_IMAGE025
确定出的模型预测值份额
Figure 819928DEST_PATH_IMAGE030
,第四预测值
Figure 403356DEST_PATH_IMAGE029
由第二数据拥有方根据第二模型份额
Figure 590755DEST_PATH_IMAGE010
和第二数据集
Figure 576029DEST_PATH_IMAGE003
确定。
3.如权利要求2所述的方法,其中,所述多方安全计算包括下述安全计算中的一种:
基于秘密共享的多方安全计算;
基于同态加密的多方安全计算;
基于不经意传输的多方安全计算;
基于混淆电路的多方安全计算;或者
基于可信执行环境的多方安全计算。
4.如权利要求2所述的方法,其中,在各个数据拥有方之间,使用预测差值份额
Figure 885787DEST_PATH_IMAGE027
Figure 143462DEST_PATH_IMAGE028
以及第一数据集
Figure 196869DEST_PATH_IMAGE001
和第二数据集
Figure 974332DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 454992DEST_PATH_IMAGE002
的模型更新量份额
Figure 747433DEST_PATH_IMAGE011
Figure 281227DEST_PATH_IMAGE012
以及第二模型
Figure 975514DEST_PATH_IMAGE004
的模型更新量份额
Figure 564758DEST_PATH_IMAGE013
Figure 610074DEST_PATH_IMAGE014
包括:
根据预测差值份额
Figure 5284DEST_PATH_IMAGE027
和第一数据集
Figure 741027DEST_PATH_IMAGE001
确定第一模型更新量
Figure 829069DEST_PATH_IMAGE031
在各个数据拥有方之间,使用预测差值份额
Figure 33785DEST_PATH_IMAGE028
和第一数据集
Figure 967106DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 635985DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 583344DEST_PATH_IMAGE027
和第二数据集
Figure 72094DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 74685DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 535753DEST_PATH_IMAGE032
的模型更新量份额
Figure 700018DEST_PATH_IMAGE034
和第三模型更新量
Figure 128594DEST_PATH_IMAGE033
的模型更新量份额
Figure 669297DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 47189DEST_PATH_IMAGE032
的模型更新量份额
Figure 585618DEST_PATH_IMAGE036
和第三模型更新量
Figure 48960DEST_PATH_IMAGE033
的模型更新量份额
Figure 81769DEST_PATH_IMAGE037
;以及
将第一模型更新量
Figure 579747DEST_PATH_IMAGE031
与模型更新量份额
Figure 85814DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 239715DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 122221DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 661655DEST_PATH_IMAGE013
其中,模型更新量份额
Figure 338624DEST_PATH_IMAGE012
是模型更新量份额
Figure 714242DEST_PATH_IMAGE036
,以及模型更新量份额
Figure 400438DEST_PATH_IMAGE014
是第四模型更新量
Figure 607428DEST_PATH_IMAGE038
与模型更新量份额
Figure 409294DEST_PATH_IMAGE037
之和,第四模型更新量
Figure 334524DEST_PATH_IMAGE038
由第二数据拥有方根据预测差值份额
Figure 496515DEST_PATH_IMAGE028
和第二数据集
Figure 823591DEST_PATH_IMAGE003
确定。
5.如权利要求1所述的方法,其中,在各个数据拥有方之间,使用第一模型
Figure 294893DEST_PATH_IMAGE002
的模型更新量份额
Figure 441840DEST_PATH_IMAGE011
Figure 469839DEST_PATH_IMAGE012
、第二模型
Figure 589105DEST_PATH_IMAGE004
的模型更新量份额
Figure 44357DEST_PATH_IMAGE013
Figure 632596DEST_PATH_IMAGE014
以及标签权重份额
Figure 198706DEST_PATH_IMAGE007
Figure 234795DEST_PATH_IMAGE008
,确定第一模型
Figure 798632DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 920172DEST_PATH_IMAGE015
Figure 476924DEST_PATH_IMAGE016
以及第二模型
Figure 633099DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 367836DEST_PATH_IMAGE017
Figure 976672DEST_PATH_IMAGE018
包括:
在各个数据拥有方之间,使用第一模型
Figure 884585DEST_PATH_IMAGE002
的模型更新量份额
Figure 583682DEST_PATH_IMAGE011
Figure 551638DEST_PATH_IMAGE012
、第二模型
Figure 585453DEST_PATH_IMAGE004
的模型更新量份额
Figure 297057DEST_PATH_IMAGE013
Figure 427824DEST_PATH_IMAGE014
以及标签权重份额
Figure 753632DEST_PATH_IMAGE007
Figure 71481DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 524459DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 509733DEST_PATH_IMAGE015
Figure 819492DEST_PATH_IMAGE016
以及第二模型
Figure 313052DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 366459DEST_PATH_IMAGE017
Figure 143922DEST_PATH_IMAGE018
6.如权利要求1所述的方法,其中,分别根据加权模型更新量份额
Figure 624582DEST_PATH_IMAGE015
Figure 182602DEST_PATH_IMAGE017
更新第一模型份额
Figure 961071DEST_PATH_IMAGE005
和第二模型份额
Figure 920937DEST_PATH_IMAGE009
包括:
按照以下等式更新第一数据拥有方处的模型份额:
Figure 510181DEST_PATH_IMAGE039
其中,
Figure 289918DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 373543DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,
Figure 187915DEST_PATH_IMAGE042
表示学习率,以及
Figure 948061DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
7.如权利要求1到6中任一所述的方法,其中,所述循环结束条件包括:
预定循环次数;或者
所确定出的预测差值在预定范围内。
8.一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集
Figure 215094DEST_PATH_IMAGE001
、第一模型
Figure 413994DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 269824DEST_PATH_IMAGE003
和第二模型
Figure 263188DEST_PATH_IMAGE004
,第一数据集
Figure 955200DEST_PATH_IMAGE001
和第二数据集
Figure 957791DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 481176DEST_PATH_IMAGE002
和第二模型
Figure 345576DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述方法由第二数据拥有方执行,所述方法包括:
将第二模型
Figure 587201DEST_PATH_IMAGE004
分解为第二模型份额
Figure 65587DEST_PATH_IMAGE009
Figure 443479DEST_PATH_IMAGE010
,并将第二模型份额
Figure 44224DEST_PATH_IMAGE009
发送给第一数据拥有方;
从第一数据拥有方接收第一模型
Figure 694517DEST_PATH_IMAGE002
的第一模型份额
Figure 38911DEST_PATH_IMAGE006
以及标签权重份额
Figure 208992DEST_PATH_IMAGE008
,第一模型份额
Figure 980639DEST_PATH_IMAGE006
以及标签权重份额
Figure 619693DEST_PATH_IMAGE008
经由第一数据拥有方将第一模型
Figure 502199DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 854683DEST_PATH_IMAGE005
Figure 734914DEST_PATH_IMAGE006
以及标签权重份额
Figure 172849DEST_PATH_IMAGE007
Figure 45995DEST_PATH_IMAGE008
得到;
执行下述循环过程,直到满足循环结束条件:
在各个数据拥有方之间,使用第一模型份额
Figure 252986DEST_PATH_IMAGE005
Figure 366435DEST_PATH_IMAGE006
、第二模型份额
Figure 229349DEST_PATH_IMAGE009
Figure 453657DEST_PATH_IMAGE010
、第一数据集
Figure 469149DEST_PATH_IMAGE001
和第二数据集
Figure 487920DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 900447DEST_PATH_IMAGE002
的模型更新量份额
Figure 866129DEST_PATH_IMAGE011
Figure 47712DEST_PATH_IMAGE012
以及第二模型
Figure 689915DEST_PATH_IMAGE004
的模型更新量份额
Figure 324158DEST_PATH_IMAGE013
Figure 890269DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 129620DEST_PATH_IMAGE011
Figure 755774DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 565729DEST_PATH_IMAGE012
Figure 935530DEST_PATH_IMAGE014
在各个数据拥有方之间,使用第一模型
Figure 91705DEST_PATH_IMAGE002
的模型更新量份额
Figure 826443DEST_PATH_IMAGE011
Figure 435279DEST_PATH_IMAGE012
、第二模型
Figure 530143DEST_PATH_IMAGE004
的模型更新量份额
Figure 540824DEST_PATH_IMAGE013
Figure 446463DEST_PATH_IMAGE014
以及标签权重份额
Figure 542595DEST_PATH_IMAGE007
Figure 254199DEST_PATH_IMAGE008
,确定第一模型
Figure 807803DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 946660DEST_PATH_IMAGE015
Figure 530088DEST_PATH_IMAGE016
以及第二模型
Figure 983066DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 702760DEST_PATH_IMAGE017
Figure 199470DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 270194DEST_PATH_IMAGE015
Figure 323601DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 101064DEST_PATH_IMAGE016
Figure 581724DEST_PATH_IMAGE018
分别根据加权模型更新量份额
Figure 828159DEST_PATH_IMAGE016
Figure 419678DEST_PATH_IMAGE018
更新第一模型份额
Figure 113964DEST_PATH_IMAGE006
和第二模型份额
Figure 968788DEST_PATH_IMAGE010
,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额
Figure 748525DEST_PATH_IMAGE005
和第二模型份额
Figure 330685DEST_PATH_IMAGE009
分别根据加权模型更新量份额
Figure 145057DEST_PATH_IMAGE015
Figure 905203DEST_PATH_IMAGE017
更新,
在满足循环结束条件时,将更新后的第一模型份额
Figure 172236DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 59552DEST_PATH_IMAGE009
;以及
根据更新后的第二模型份额
Figure 728430DEST_PATH_IMAGE009
Figure 721794DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 413807DEST_PATH_IMAGE004
9.如权利要求8所述的方法,其中,在各个数据拥有方之间,使用第一模型份额
Figure 150819DEST_PATH_IMAGE005
Figure 861154DEST_PATH_IMAGE006
、第二模型份额
Figure 290999DEST_PATH_IMAGE009
Figure 532624DEST_PATH_IMAGE010
、第一数据集
Figure 745431DEST_PATH_IMAGE001
和第二数据集
Figure 77317DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 412484DEST_PATH_IMAGE002
的模型更新量份额
Figure 79089DEST_PATH_IMAGE011
Figure 157903DEST_PATH_IMAGE012
以及第二模型
Figure 842831DEST_PATH_IMAGE004
的模型更新量份额
Figure 614478DEST_PATH_IMAGE013
Figure 565116DEST_PATH_IMAGE014
包括:
根据第二模型份额
Figure 385305DEST_PATH_IMAGE010
和第二数据集
Figure 737789DEST_PATH_IMAGE003
确定第四预测值
Figure 357034DEST_PATH_IMAGE029
在各个数据拥有方之间,使用第一模型份额
Figure 794968DEST_PATH_IMAGE006
和第一数据集
Figure 215585DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 625838DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 739288DEST_PATH_IMAGE009
和第二数据集
Figure 851469DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 75777DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 74957DEST_PATH_IMAGE020
的预测值份额
Figure 359308DEST_PATH_IMAGE022
和第三预测值
Figure 771835DEST_PATH_IMAGE021
的预测值份额
Figure 488249DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 669832DEST_PATH_IMAGE020
的预测值份额
Figure 859505DEST_PATH_IMAGE024
和第三预测值
Figure 697011DEST_PATH_IMAGE021
的预测值份额
Figure 263121DEST_PATH_IMAGE025
根据第四预测值
Figure 751740DEST_PATH_IMAGE029
、预测值份额
Figure 112314DEST_PATH_IMAGE024
Figure 437116DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 806918DEST_PATH_IMAGE030
,作为第二数据拥有方处的预测差值份额
Figure 697514DEST_PATH_IMAGE028
;以及
在各个数据拥有方之间,使用预测差值份额
Figure 182984DEST_PATH_IMAGE027
Figure 791820DEST_PATH_IMAGE028
以及第一数据集
Figure 902995DEST_PATH_IMAGE001
和第二数据集
Figure 913676DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 881632DEST_PATH_IMAGE002
的模型更新量份额
Figure 164715DEST_PATH_IMAGE011
Figure 876319DEST_PATH_IMAGE012
以及第二模型
Figure 679190DEST_PATH_IMAGE004
的模型更新量份额
Figure 818047DEST_PATH_IMAGE013
Figure 401475DEST_PATH_IMAGE014
其中,预测差值份额
Figure 339607DEST_PATH_IMAGE027
由第一数据拥有方根据第一数据拥有方处的模型预测值份额
Figure 324880DEST_PATH_IMAGE026
和数据标签Y确定,模型预测值份额
Figure 572322DEST_PATH_IMAGE026
根据第一预测值
Figure 643046DEST_PATH_IMAGE019
、预测值份额
Figure 883404DEST_PATH_IMAGE022
Figure 723184DEST_PATH_IMAGE023
确定,以及第一预测值
Figure 203843DEST_PATH_IMAGE019
根据第一模型份额
Figure 433968DEST_PATH_IMAGE005
和第一数据集
Figure 291065DEST_PATH_IMAGE001
确定。
10.如权利要求9所述的方法,其中,在各个数据拥有方之间,使用预测差值份额
Figure 673767DEST_PATH_IMAGE027
Figure 325328DEST_PATH_IMAGE028
以及第一数据集
Figure 370645DEST_PATH_IMAGE001
和第二数据集
Figure 703537DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 252330DEST_PATH_IMAGE002
的模型更新量份额
Figure 527323DEST_PATH_IMAGE011
Figure 794356DEST_PATH_IMAGE012
以及第二模型
Figure 930939DEST_PATH_IMAGE004
的模型更新量份额
Figure 334239DEST_PATH_IMAGE013
Figure 593182DEST_PATH_IMAGE014
包括:
根据预测差值份额
Figure 35927DEST_PATH_IMAGE028
和第二数据集
Figure 772938DEST_PATH_IMAGE003
确定第四模型更新量
Figure 234007DEST_PATH_IMAGE038
在各个数据拥有方之间,使用预测差值份额
Figure 663851DEST_PATH_IMAGE028
和第一数据集
Figure 639897DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 367551DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 11022DEST_PATH_IMAGE027
和第二数据集
Figure 283871DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 12793DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 780023DEST_PATH_IMAGE032
的模型更新量份额
Figure 278000DEST_PATH_IMAGE034
和第三模型更新量
Figure 784068DEST_PATH_IMAGE033
的模型更新量份额
Figure 937969DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 820474DEST_PATH_IMAGE032
的模型更新量份额
Figure 359909DEST_PATH_IMAGE036
和第三模型更新量
Figure 302457DEST_PATH_IMAGE033
的模型更新量份额
Figure 740392DEST_PATH_IMAGE037
;以及
将第四模型更新量
Figure 98692DEST_PATH_IMAGE038
与模型更新量份额
Figure 571261DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 107547DEST_PATH_IMAGE014
,并将模型更新量份额
Figure 32778DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 257086DEST_PATH_IMAGE012
其中,模型更新量份额
Figure 521845DEST_PATH_IMAGE011
是第一模型更新量
Figure 806196DEST_PATH_IMAGE031
与模型更新量份额
Figure 405673DEST_PATH_IMAGE034
之和,模型更新量份额
Figure 168093DEST_PATH_IMAGE013
是模型更新量份额
Figure 349676DEST_PATH_IMAGE035
,第一模型更新量
Figure 742611DEST_PATH_IMAGE031
由第一数据拥有方根据预测差值份额
Figure 642434DEST_PATH_IMAGE027
和第一数据集
Figure 908679DEST_PATH_IMAGE001
确定。
11.一种用于经由第一和第二数据拥有方训练业务模型的装置,第一数据拥有方具有第一数据集
Figure 944768DEST_PATH_IMAGE001
、第一模型
Figure 570921DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 895723DEST_PATH_IMAGE003
和第二模型
Figure 999945DEST_PATH_IMAGE004
,第一数据集
Figure 343071DEST_PATH_IMAGE001
和第二数据集
Figure 140126DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 686645DEST_PATH_IMAGE002
和第二模型
Figure 860137DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述装置应用于第一数据拥有方,所述装置包括:
分解单元,将第一模型
Figure 870818DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 527190DEST_PATH_IMAGE005
Figure 623322DEST_PATH_IMAGE006
以及标签权重份额
Figure 7030DEST_PATH_IMAGE007
Figure 137797DEST_PATH_IMAGE008
份额共享单元,将第一模型份额
Figure 276654DEST_PATH_IMAGE006
和标签权重份额
Figure 47033DEST_PATH_IMAGE008
发送给第二数据拥有方,以及从第二数据拥有方接收第二模型
Figure 296749DEST_PATH_IMAGE004
的第二模型份额
Figure 219705DEST_PATH_IMAGE009
,第二模型份额
Figure 529464DEST_PATH_IMAGE009
经由第二数据拥有方将第二模型
Figure 600188DEST_PATH_IMAGE004
分解为第二模型份额
Figure 342010DEST_PATH_IMAGE009
Figure 181790DEST_PATH_IMAGE010
得到;
模型更新量确定单元,在各个数据拥有方之间,使用第一模型份额
Figure 600133DEST_PATH_IMAGE005
Figure 892574DEST_PATH_IMAGE006
、第二模型份额
Figure 749672DEST_PATH_IMAGE009
Figure 630909DEST_PATH_IMAGE010
、第一数据集
Figure 282470DEST_PATH_IMAGE001
和第二数据集
Figure 265470DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 660679DEST_PATH_IMAGE002
的模型更新量份额
Figure 897888DEST_PATH_IMAGE011
Figure 985929DEST_PATH_IMAGE012
以及第二模型
Figure 190646DEST_PATH_IMAGE004
的模型更新量份额
Figure 123967DEST_PATH_IMAGE013
Figure 792845DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 238739DEST_PATH_IMAGE011
Figure 727489DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 667763DEST_PATH_IMAGE012
Figure 191149DEST_PATH_IMAGE014
加权处理单元,在各个数据拥有方之间,使用第一模型
Figure 355414DEST_PATH_IMAGE002
的模型更新量份额
Figure 285455DEST_PATH_IMAGE011
Figure 826158DEST_PATH_IMAGE012
、第二模型
Figure 141732DEST_PATH_IMAGE004
的模型更新量份额
Figure 742478DEST_PATH_IMAGE013
Figure 392771DEST_PATH_IMAGE014
以及标签权重份额
Figure 737165DEST_PATH_IMAGE007
Figure 172825DEST_PATH_IMAGE008
,确定第一模型
Figure 678893DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 583526DEST_PATH_IMAGE015
Figure 466032DEST_PATH_IMAGE016
以及第二模型
Figure 818515DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 433168DEST_PATH_IMAGE017
Figure 871102DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 744249DEST_PATH_IMAGE015
Figure 951240DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 2372DEST_PATH_IMAGE016
Figure 927603DEST_PATH_IMAGE018
模型更新单元,分别根据加权模型更新量份额
Figure 151911DEST_PATH_IMAGE015
Figure 167402DEST_PATH_IMAGE017
更新第一模型份额
Figure 451753DEST_PATH_IMAGE005
和第二模型份额
Figure 536384DEST_PATH_IMAGE009
模型共享单元,在满足循环结束条件时,将更新后的第二模型份额
Figure 564383DEST_PATH_IMAGE009
发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额
Figure 745965DEST_PATH_IMAGE006
;以及
训练模型确定单元,根据更新后的第一模型份额
Figure 388168DEST_PATH_IMAGE005
Figure 287991DEST_PATH_IMAGE006
,确定训练出的第一模型
Figure 791785DEST_PATH_IMAGE002
其中,所述模型更新量确定单元、所述加权处理单元和所述模型更新单元循环执行操作,直到满足循环结束条件,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额
Figure 827874DEST_PATH_IMAGE006
和第二模型份额
Figure 142443DEST_PATH_IMAGE010
分别根据加权模型更新量份额
Figure 201666DEST_PATH_IMAGE016
Figure 758418DEST_PATH_IMAGE018
更新。
12.如权利要求11所述的装置,其中,所述模型更新量确定单元包括:
本地预测值确定模块,根据第一模型份额
Figure 914593DEST_PATH_IMAGE005
和第一数据集
Figure 711647DEST_PATH_IMAGE001
确定第一预测值
Figure 258166DEST_PATH_IMAGE019
多方安全计算模块,在各个数据拥有方之间,使用第一模型份额
Figure 166080DEST_PATH_IMAGE006
和第一数据集
Figure 853458DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 821414DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 917546DEST_PATH_IMAGE009
和第二数据集
Figure 566833DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 697600DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 23408DEST_PATH_IMAGE020
的预测值份额
Figure 341257DEST_PATH_IMAGE022
和第三预测值
Figure 856552DEST_PATH_IMAGE021
的预测值份额
Figure 779508DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 89267DEST_PATH_IMAGE020
的预测值份额
Figure 582827DEST_PATH_IMAGE024
和第三预测值
Figure 636234DEST_PATH_IMAGE021
的预测值份额
Figure 476014DEST_PATH_IMAGE025
预测值份额确定模块,根据第一预测值
Figure 894357DEST_PATH_IMAGE019
以及预测值份额
Figure 452377DEST_PATH_IMAGE022
Figure 230846DEST_PATH_IMAGE023
确定第一数据拥有方处的模型预测值份额
Figure 190712DEST_PATH_IMAGE026
预测差值份额确定模块,根据模型预测值份额
Figure 779956DEST_PATH_IMAGE026
以及数据标签Y确定第一数据拥有方处的预测差值份额
Figure 559694DEST_PATH_IMAGE027
;以及
模型更新量确定模块,在各个数据拥有方之间,使用预测差值份额
Figure 954903DEST_PATH_IMAGE027
Figure 457691DEST_PATH_IMAGE028
以及第一数据集
Figure 280153DEST_PATH_IMAGE001
和第二数据集
Figure 484870DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 683770DEST_PATH_IMAGE002
的模型更新量份额
Figure 352648DEST_PATH_IMAGE011
Figure 532963DEST_PATH_IMAGE012
以及第二模型
Figure 287292DEST_PATH_IMAGE004
的模型更新量份额
Figure 227566DEST_PATH_IMAGE013
Figure 750952DEST_PATH_IMAGE014
,其中,预测差值份额
Figure 915217DEST_PATH_IMAGE028
是由第二数据拥有方使用第四预测值
Figure 845258DEST_PATH_IMAGE029
、预测值份额
Figure 385961DEST_PATH_IMAGE024
Figure 701535DEST_PATH_IMAGE025
确定出的模型预测值份额
Figure 302281DEST_PATH_IMAGE030
,第四预测值
Figure 765623DEST_PATH_IMAGE029
由第二数据拥有方根据第二模型份额
Figure 296968DEST_PATH_IMAGE010
和第二数据集
Figure 529366DEST_PATH_IMAGE003
确定。
13.如权利要求12所述的装置,其中,所述多方安全计算包括下述安全计算中的一种:
基于秘密共享的多方安全计算;
基于同态加密的多方安全计算;
基于不经意传输的多方安全计算;
基于混淆电路的多方安全计算;或者
基于可信执行环境的多方安全计算。
14.如权利要求12所述的装置,其中,所述模型更新量确定模块:
根据预测差值份额
Figure 238696DEST_PATH_IMAGE027
和第一数据集
Figure 189334DEST_PATH_IMAGE001
确定第一模型更新量
Figure 71840DEST_PATH_IMAGE031
在各个数据拥有方之间,使用预测差值份额
Figure 112739DEST_PATH_IMAGE028
和第一数据集
Figure 55287DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 430905DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 117101DEST_PATH_IMAGE027
和第二数据集
Figure 324092DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 624492DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 549723DEST_PATH_IMAGE032
的模型更新量份额
Figure 711714DEST_PATH_IMAGE034
和第三模型更新量
Figure 38790DEST_PATH_IMAGE033
的模型更新量份额
Figure 745977DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 158504DEST_PATH_IMAGE032
的模型更新量份额
Figure 186503DEST_PATH_IMAGE036
和第三模型更新量
Figure 305768DEST_PATH_IMAGE033
的模型更新量份额
Figure 761021DEST_PATH_IMAGE037
;以及
将第一模型更新量
Figure 582215DEST_PATH_IMAGE031
与模型更新量份额
Figure 148325DEST_PATH_IMAGE034
之和确定为模型更新量份额
Figure 449994DEST_PATH_IMAGE011
,并将模型更新量份额
Figure 13830DEST_PATH_IMAGE035
确定为模型更新量份额
Figure 823786DEST_PATH_IMAGE013
15.如权利要求11所述的装置,其中,所述加权处理单元:
在各个数据拥有方之间,使用第一模型
Figure 193587DEST_PATH_IMAGE002
的模型更新量份额
Figure 287445DEST_PATH_IMAGE011
Figure 84500DEST_PATH_IMAGE012
、第二模型
Figure 880286DEST_PATH_IMAGE004
的模型更新量份额
Figure 788199DEST_PATH_IMAGE013
Figure 736564DEST_PATH_IMAGE014
以及标签权重份额
Figure 704520DEST_PATH_IMAGE007
Figure 489067DEST_PATH_IMAGE008
,按照多方安全计算确定第一模型
Figure 200671DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 3542DEST_PATH_IMAGE015
Figure 142400DEST_PATH_IMAGE016
以及第二模型
Figure 912778DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 428073DEST_PATH_IMAGE017
Figure 85451DEST_PATH_IMAGE018
16.如权利要求11所述的装置,其中,所述模型更新单元按照以下等式更新第一数据拥有方处的模型份额:
Figure 395209DEST_PATH_IMAGE039
其中,
Figure 166068DEST_PATH_IMAGE040
表示第一数据拥有方处针对第i模型的更新后的模型份额,
Figure 219475DEST_PATH_IMAGE041
表示第一数据拥有方处针对第i模型的当前模型份额,
Figure 59255DEST_PATH_IMAGE042
表示学习率,以及
Figure 477598DEST_PATH_IMAGE043
表示第一数据拥有方处针对第i模型的模型更新份额。
17.一种用于经由第一和第二数据拥有方训练业务模型的装置,第一数据拥有方具有第一数据集
Figure 35618DEST_PATH_IMAGE001
、第一模型
Figure 814087DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 446057DEST_PATH_IMAGE003
和第二模型
Figure 363197DEST_PATH_IMAGE004
,第一数据集
Figure 831350DEST_PATH_IMAGE001
和第二数据集
Figure 226559DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 978614DEST_PATH_IMAGE002
和第二模型
Figure 801077DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型,所述装置应用于第二数据拥有方,所述装置包括:
分解单元,将第二模型
Figure 255061DEST_PATH_IMAGE004
分解为第二模型份额
Figure 453961DEST_PATH_IMAGE009
Figure 122840DEST_PATH_IMAGE010
份额共享单元,将第二模型份额
Figure 53887DEST_PATH_IMAGE009
发送给第一数据拥有方,以及从第一数据拥有方接收第一模型
Figure 808216DEST_PATH_IMAGE002
的第一模型份额
Figure 233643DEST_PATH_IMAGE006
以及标签权重份额
Figure 757029DEST_PATH_IMAGE008
,第一模型份额
Figure 124556DEST_PATH_IMAGE006
以及标签权重份额
Figure 366181DEST_PATH_IMAGE008
经由第一数据拥有方将第一模型
Figure 641305DEST_PATH_IMAGE002
和标签权重C分别分解为第一模型份额
Figure 471727DEST_PATH_IMAGE005
Figure 806893DEST_PATH_IMAGE006
以及标签权重份额
Figure 473498DEST_PATH_IMAGE007
Figure 552312DEST_PATH_IMAGE008
得到;
模型更新量确定单元,在各个数据拥有方之间,使用第一模型份额
Figure 50290DEST_PATH_IMAGE005
Figure 510352DEST_PATH_IMAGE006
、第二模型份额
Figure 460990DEST_PATH_IMAGE009
Figure 281179DEST_PATH_IMAGE010
、第一数据集
Figure 633663DEST_PATH_IMAGE001
和第二数据集
Figure 576211DEST_PATH_IMAGE003
以及数据标签Y,确定第一模型
Figure 201096DEST_PATH_IMAGE002
的模型更新量份额
Figure 621713DEST_PATH_IMAGE011
Figure 31966DEST_PATH_IMAGE012
以及第二模型
Figure 145416DEST_PATH_IMAGE004
的模型更新量份额
Figure 759062DEST_PATH_IMAGE013
Figure 983370DEST_PATH_IMAGE014
,第一数据拥有方具有模型更新量份额
Figure 44867DEST_PATH_IMAGE011
Figure 266901DEST_PATH_IMAGE013
,以及第二数据拥有方具有模型更新量份额
Figure 679427DEST_PATH_IMAGE012
Figure 894377DEST_PATH_IMAGE014
加权处理单元,在各个数据拥有方之间,使用第一模型
Figure 75960DEST_PATH_IMAGE002
的模型更新量份额
Figure 265633DEST_PATH_IMAGE011
Figure 103139DEST_PATH_IMAGE012
、第二模型
Figure 669249DEST_PATH_IMAGE004
的模型更新量份额
Figure 659333DEST_PATH_IMAGE013
Figure 19907DEST_PATH_IMAGE014
以及标签权重份额
Figure 407026DEST_PATH_IMAGE007
Figure 714511DEST_PATH_IMAGE008
,确定第一模型
Figure 605106DEST_PATH_IMAGE002
的加权模型更新量份额
Figure 589112DEST_PATH_IMAGE015
Figure 197948DEST_PATH_IMAGE016
以及第二模型
Figure 371440DEST_PATH_IMAGE004
的加权模型更新量份额
Figure 319804DEST_PATH_IMAGE017
Figure 287760DEST_PATH_IMAGE018
,第一数据拥有方具有加权模型更新量份额
Figure 72308DEST_PATH_IMAGE015
Figure 783912DEST_PATH_IMAGE017
,以及第二数据拥有方具有加权模型更新量份额
Figure 649100DEST_PATH_IMAGE016
Figure 725640DEST_PATH_IMAGE018
模型更新单元,分别根据加权模型更新量份额
Figure 309068DEST_PATH_IMAGE016
Figure 745735DEST_PATH_IMAGE018
更新第一模型份额
Figure 731008DEST_PATH_IMAGE006
和第二模型份额
Figure 40767DEST_PATH_IMAGE010
模型共享单元,在满足循环结束条件时,将更新后的第一模型份额
Figure 49174DEST_PATH_IMAGE006
发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额
Figure 790996DEST_PATH_IMAGE009
;以及
训练模型确定单元,根据更新后的第二模型份额
Figure 630776DEST_PATH_IMAGE009
Figure 49119DEST_PATH_IMAGE010
,确定训练出的第二模型
Figure 341560DEST_PATH_IMAGE004
其中,所述模型更新量确定单元、所述加权处理单元和所述模型更新单元循环执行操作,直到满足所述循环结束条件,在未满足所述循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额
Figure 385609DEST_PATH_IMAGE005
和第二模型份额
Figure 79895DEST_PATH_IMAGE009
分别根据加权模型更新量份额
Figure 669140DEST_PATH_IMAGE015
Figure 714456DEST_PATH_IMAGE017
更新。
18.如权利要求17所述的装置,其中,所述模型更新量确定单元包括:
本地预测值确定模块,根据第二模型份额
Figure 786362DEST_PATH_IMAGE010
和第二数据集
Figure 335155DEST_PATH_IMAGE003
确定第四预测值
Figure 423197DEST_PATH_IMAGE029
多方安全计算模块,在各个数据拥有方之间,使用第一模型份额
Figure 627913DEST_PATH_IMAGE006
和第一数据集
Figure 826813DEST_PATH_IMAGE001
按照多方安全计算确定第二预测值
Figure 230113DEST_PATH_IMAGE020
,以及使用第二模型份额
Figure 676006DEST_PATH_IMAGE009
和第二数据集
Figure 430336DEST_PATH_IMAGE003
按照多方安全计算确定第三预测值
Figure 105031DEST_PATH_IMAGE021
,第一数据拥有方具有第二预测值
Figure 628416DEST_PATH_IMAGE020
的预测值份额
Figure 58260DEST_PATH_IMAGE022
和第三预测值
Figure 722722DEST_PATH_IMAGE021
的预测值份额
Figure 263425DEST_PATH_IMAGE023
,第二数据拥有方具有第二预测值
Figure 844579DEST_PATH_IMAGE020
的预测值份额
Figure 179745DEST_PATH_IMAGE024
和第三预测值
Figure 908667DEST_PATH_IMAGE021
的预测值份额
Figure 174432DEST_PATH_IMAGE025
预测值份额确定模块,根据第四预测值
Figure 672409DEST_PATH_IMAGE029
、预测值份额
Figure 116160DEST_PATH_IMAGE024
Figure 332378DEST_PATH_IMAGE025
,确定模型预测值份额
Figure 214883DEST_PATH_IMAGE030
,作为第二数据拥有方处的预测差值份额
Figure 255783DEST_PATH_IMAGE028
;以及
模型更新量份额确定模块,在各个数据拥有方之间,使用预测差值份额
Figure 198331DEST_PATH_IMAGE027
Figure 573949DEST_PATH_IMAGE028
以及第一数据集
Figure 994566DEST_PATH_IMAGE001
和第二数据集
Figure 467135DEST_PATH_IMAGE003
,按照多方安全计算确定第一模型
Figure 501956DEST_PATH_IMAGE002
的模型更新量份额
Figure 427187DEST_PATH_IMAGE011
Figure 589178DEST_PATH_IMAGE012
以及第二模型
Figure 916254DEST_PATH_IMAGE004
的模型更新量份额
Figure 889021DEST_PATH_IMAGE013
Figure 301547DEST_PATH_IMAGE014
其中,预测差值份额
Figure 63967DEST_PATH_IMAGE027
由第一数据拥有方根据第一数据拥有方处的模型预测值份额
Figure 183233DEST_PATH_IMAGE026
和数据标签Y确定,模型预测值份额
Figure 638485DEST_PATH_IMAGE026
根据第一预测值
Figure 725258DEST_PATH_IMAGE019
、预测值份额
Figure 291369DEST_PATH_IMAGE022
Figure 265141DEST_PATH_IMAGE023
确定,以及第一预测值
Figure 891295DEST_PATH_IMAGE019
根据第一模型份额
Figure 278414DEST_PATH_IMAGE005
和第一数据集
Figure 71051DEST_PATH_IMAGE001
确定。
19.如权利要求18所述的装置,其中,所述模型更新量确定模块:
根据预测差值份额
Figure 227226DEST_PATH_IMAGE028
和第二数据集
Figure 961964DEST_PATH_IMAGE003
确定第四模型更新量
Figure 570800DEST_PATH_IMAGE038
在各个数据拥有方之间,使用预测差值份额
Figure 744292DEST_PATH_IMAGE028
和第一数据集
Figure 941924DEST_PATH_IMAGE001
按照多方安全计算确定第二模型更新量
Figure 909880DEST_PATH_IMAGE032
,以及使用预测差值份额
Figure 943695DEST_PATH_IMAGE027
和第二数据集
Figure 389720DEST_PATH_IMAGE003
按照多方安全计算确定第三模型更新量
Figure 520487DEST_PATH_IMAGE033
,第一数据拥有方具有第二模型更新量
Figure 347760DEST_PATH_IMAGE032
的模型更新量份额
Figure 868871DEST_PATH_IMAGE034
和第三模型更新量
Figure 118587DEST_PATH_IMAGE033
的模型更新量份额
Figure 103861DEST_PATH_IMAGE035
,第二数据拥有方具有第二模型更新量
Figure 600570DEST_PATH_IMAGE032
的模型更新量份额
Figure 671294DEST_PATH_IMAGE036
和第三模型更新量
Figure 662384DEST_PATH_IMAGE033
的模型更新量份额
Figure 502164DEST_PATH_IMAGE037
;以及
将第四模型更新量
Figure 982824DEST_PATH_IMAGE038
与模型更新量份额
Figure 963680DEST_PATH_IMAGE037
之和确定为模型更新量份额
Figure 820778DEST_PATH_IMAGE014
,并将模型更新量份额
Figure 452748DEST_PATH_IMAGE036
确定为模型更新量份额
Figure 104309DEST_PATH_IMAGE012
20.一种用于经由第一和第二数据拥有方训练业务模型的系统,包括:
第一数据拥有方,包括如权利要求11到16中任一所述的装置;以及
第二数据拥有方,包括如权利要求17到19中任一所述的装置,
其中,第一数据拥有方具有第一数据集
Figure 149625DEST_PATH_IMAGE001
、第一模型
Figure 731785DEST_PATH_IMAGE002
以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集
Figure 280578DEST_PATH_IMAGE003
和第二模型
Figure 306303DEST_PATH_IMAGE004
,第一数据集
Figure 573336DEST_PATH_IMAGE001
和第二数据集
Figure 195073DEST_PATH_IMAGE003
按照垂直切分方式组成业务模型的训练样本,第一模型
Figure 863951DEST_PATH_IMAGE002
和第二模型
Figure 122894DEST_PATH_IMAGE004
按照垂直切分方式组成业务模型。
21.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到7中任一所述的方法。
22.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到7中任一所述的方法。
23.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求8到10中任一所述的方法。
24.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求8到10中任一所述的方法。
CN202010762022.7A 2020-07-31 2020-07-31 基于样本加权的业务模型训练方法、装置及系统 Active CN111738453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010762022.7A CN111738453B (zh) 2020-07-31 2020-07-31 基于样本加权的业务模型训练方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010762022.7A CN111738453B (zh) 2020-07-31 2020-07-31 基于样本加权的业务模型训练方法、装置及系统

Publications (2)

Publication Number Publication Date
CN111738453A true CN111738453A (zh) 2020-10-02
CN111738453B CN111738453B (zh) 2020-12-01

Family

ID=72656860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010762022.7A Active CN111738453B (zh) 2020-07-31 2020-07-31 基于样本加权的业务模型训练方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111738453B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184847A1 (zh) * 2022-03-31 2023-10-05 深圳前海环融联易信息科技服务有限公司 一种基于秘密共享的纵向隐私保护逻辑回归方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198399B1 (en) * 2018-03-06 2019-02-05 KenSci Inc. Cryptographically secure machine learning
CN110851482A (zh) * 2019-11-07 2020-02-28 支付宝(杭州)信息技术有限公司 为多个数据方提供数据模型的方法及装置
CN111062487A (zh) * 2019-11-28 2020-04-24 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111368983A (zh) * 2020-05-15 2020-07-03 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及业务模型训练系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198399B1 (en) * 2018-03-06 2019-02-05 KenSci Inc. Cryptographically secure machine learning
CN110851482A (zh) * 2019-11-07 2020-02-28 支付宝(杭州)信息技术有限公司 为多个数据方提供数据模型的方法及装置
CN111062487A (zh) * 2019-11-28 2020-04-24 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111368983A (zh) * 2020-05-15 2020-07-03 支付宝(杭州)信息技术有限公司 业务模型训练方法、装置及业务模型训练系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NITIN等: ""QUOTIENT: Two-Party Secure Neural Network Training and Prediction"", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184847A1 (zh) * 2022-03-31 2023-10-05 深圳前海环融联易信息科技服务有限公司 一种基于秘密共享的纵向隐私保护逻辑回归方法和装置

Also Published As

Publication number Publication date
CN111738453B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN110929870B (zh) 图神经网络模型训练方法、装置及系统
CN110942147B (zh) 基于多方安全计算的神经网络模型训练及预测方法、装置
CN111523673B (zh) 模型训练方法、装置及系统
CN111061963B (zh) 基于多方安全计算的机器学习模型训练及预测方法、装置
CN111079939B (zh) 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111062487B (zh) 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN112052942B (zh) 神经网络模型训练方法、装置及系统
CN111027715B (zh) 基于蒙特卡洛的联邦学习模型训练方法及装置
CN112132270B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN111260053A (zh) 使用可信执行环境来进行神经网络模型训练的方法和装置
CN111738438B (zh) 图神经网络模型训练方法、装置及系统
CN112000991A (zh) 多方数据联合处理方法、装置及系统
CN111523556B (zh) 模型训练方法、装置及系统
CN110929887B (zh) 逻辑回归模型训练方法、装置及系统
CN111523134B (zh) 基于同态加密的模型训练方法、装置及系统
CN111523674B (zh) 模型训练方法、装置及系统
CN111737756B (zh) 经由两个数据拥有方进行的xgb模型预测方法、装置及系统
CN111738453B (zh) 基于样本加权的业务模型训练方法、装置及系统
CN112183757B (zh) 模型训练方法、装置及系统
CN112183759B (zh) 模型训练方法、装置及系统
CN111523675B (zh) 模型训练方法、装置及系统
CN111931870B (zh) 基于模型复用的模型预测方法、模型预测装置及系统
CN112183565B (zh) 模型训练方法、装置及系统
CN112183566B (zh) 模型训练方法、装置及系统
US12001577B1 (en) Encrypted machine learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant