CN113379042B - 保护数据隐私的业务预测模型训练方法及装置 - Google Patents

保护数据隐私的业务预测模型训练方法及装置 Download PDF

Info

Publication number
CN113379042B
CN113379042B CN202110835599.0A CN202110835599A CN113379042B CN 113379042 B CN113379042 B CN 113379042B CN 202110835599 A CN202110835599 A CN 202110835599A CN 113379042 B CN113379042 B CN 113379042B
Authority
CN
China
Prior art keywords
sub
parameters
parameter
type
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110835599.0A
Other languages
English (en)
Other versions
CN113379042A (zh
Inventor
郑龙飞
陈超超
王力
张本宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110835599.0A priority Critical patent/CN113379042B/zh
Publication of CN113379042A publication Critical patent/CN113379042A/zh
Application granted granted Critical
Publication of CN113379042B publication Critical patent/CN113379042B/zh
Priority to PCT/CN2022/093628 priority patent/WO2023000794A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供了一种保护数据隐私的业务预测模型训练方法及装置。在训练过程中,成员设备利用自身持有的对象特征数据,通过业务预测模型进行预测,利用预测结果确定用于更新模型参数的更新参量,其中包括针对业务预测模型的多个计算层的多个子参量;利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,第一类计算层的子参量值在指定范围以内;对第一类计算层的子参量进行隐私处理,并输出处理后子参量。多个成员设备的处理后子参量可以被聚合成聚合子参量。成员设备可以获取第一类计算层的聚合子参量,并利用聚合子参量和第二类计算层的子参量,对模型参数进行更新。

Description

保护数据隐私的业务预测模型训练方法及装置
技术领域
本说明书一个或多个实施例涉及隐私保护技术领域,尤其涉及一种保护数据隐私的业务预测模型训练方法及装置。
背景技术
随着人工智能技术的发展,神经网络已逐渐应用于风险评估、语音识别、人脸识别和自然语言处理等领域。不同应用场景下的神经网络结构已经相对固定,为了实现更好的模型性能,需要更多的训练数据。在医疗、金融等领域,不同的企业或机构拥有不同的数据样本,一旦将这些数据进行联合训练,将极大提升模型精度。然而,不同企业或机构拥有的数据样本通常包含大量的隐私数据,一旦信息泄露,将导致不可挽回的负面影响。因此,在多方联合训练解决数据孤岛问题的场景下,保护数据隐私成为近年来研究的重点。
因此,希望能有改进的方案,可以在多方联合训练的场景下,尽可能提高对各方隐私数据的保护。
发明内容
本说明书一个或多个实施例描述了保护数据隐私的业务预测模型训练方法及装置,以在多方联合训练的场景下,尽可能提高对各方隐私数据的保护。具体的技术方案如下。
第一方面,实施例提供了一种保护数据隐私的业务预测模型训练方法,通过服务器和多个成员设备联合训练,所述业务预测模型包括多个计算层,所述方法通过任意一个成员设备执行,包括:
利用所述成员设备持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;
利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
对第一类计算层的子参量进行隐私处理,并输出处理后子参量;
获取所述第一类计算层的聚合子参量,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联;
利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
在一种实施方式中,所述更新参量采用模型参数梯度或者模型参数差值实现;其中,所述模型参数梯度基于本次训练中得到的预测损失确定;
所述模型参数差值采用以下方式确定:
获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度;
利用所述模型参数梯度对所述初始模型参数进行更新,得到模拟更新参数;
基于所述初始模型参数与所述模拟更新参数的差值,确定模型参数差值。
在一种实施方式中,所述通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量的步骤,包括:
将对象的对象特征数据输入所述业务预测模型,通过所述业务预测模型中包含模型参数的多个计算层对对象特征数据的处理,得到该对象的预测结果;
基于该对象的预测结果与该对象的标注信息之间的差值,确定预测损失;
基于所述预测损失确定与该对象特征数据关联的更新参量。
在一种实施方式中,所述将多个计算层划分成第一类计算层和第二类计算层的步骤,包括:
利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,所述子参量表征值用于表征对应的子参量的数值大小;
利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。
在一种实施方式中,所述子参量表征值采用以下中的一种实现:范数值、均值、方差值、标准差值、最大值、最小值或者最大值与最小值的差值。
在一种实施方式中,第一类计算层的子参量表征值大于第二类计算层的所述子参量表征值。
在一种实施方式中,所述指定范围包括:多个子参量值的数量级在预设量级范围内。
在一种实施方式中,所述对所述第一类计算层的子参量进行隐私处理的步骤,包括:
基于(ε,δ)-差分隐私算法,确定针对所述第一类计算层的子参量的噪声数据;
将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。
在一种实施方式中,所述确定针对第一类计算层的子参量的噪声数据的步骤,包括:
利用差分隐私参数ε和δ,计算高斯噪声的噪声方差值;
基于所述噪声方差值,针对第一类计算层的子参量包含的向量元素生成对应的噪声数据。
在一种实施方式中,在将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加之前,还包括:
利用所述第一类计算层对应的若干个子参量,确定用于标识所述第一类计算层的子参量的总体表征值;
利用所述总体表征值和预设的裁剪参数,对所述第一类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
所述将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加的步骤,包括:
将所述噪声数据分别与所述第一类计算层的对应裁剪后子参量进行叠加。
在一种实施方式中,所述对所述模型参数进行更新的步骤,包括:
利用所述总体表征值和预设的裁剪参数,对所述第二类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
利用所述聚合子参量和所述第二类计算层的裁剪后子参量,对所述模型参数进行更新。
在一种实施方式中,该方法还包括:
在所述业务预测模型经过训练后,获取待预测对象的对象特征数据;
利用所述待预测对象的对象特征数据,通过训练后的业务预测模型,确定所述待预测对象的预测结果。
在一种实施方式中,所述成员设备中训练的多个计算层,是所述业务预测模型的所有计算层,或者部分计算层。
在一种实施方式中,所述对象包括用户、商品、交易、事件中的一种;所述对象特征数据包括以下特征组中的至少一个:对象的基本属性特征、对象的历史行为特征、对象的关联关系特征、对象的交互特征、对象的身体指标。
在一种实施方式中,所述业务预测模型采用深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN或图神经网络GNN实现。
第二方面,实施例提供了一种保护数据隐私的业务预测模型训练方法,通过服务器和多个成员设备联合训练,所述业务预测模型包括多个计算层,所述方法包括:
多个成员设备,分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;
多个成员设备,分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
多个成员设备,分别对所述第一类计算层的子参量进行隐私处理,将得到的处理后子参量分别发送至所述服务器;
所述服务器,基于两个以上成员设备发送的处理后子参量,分别针对计算层进行聚合,得到与所述第一类计算层分别对应的聚合子参量,并将所述聚合子参量发送至对应的成员设备;
多个成员设备,分别接收所述服务器发送的所述聚合子参量,利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
第三方面,实施例提供了一种保护数据隐私的业务预测模型训练装置,通过多个成员设备联合训练,所述业务预测模型包括多个计算层,所述装置部署在任意一个成员设备中,包括:
参量确定模块,配置为,利用所述成员设备持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;
计算层划分模块,配置为,利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
隐私处理模块,配置为,对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;
参量聚合模块,配置为,获取所述第一类计算层的聚合子参量,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联;
模型更新模块,配置为,利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
在一种实施方式中,所述更新参量采用模型参数梯度或者模型参数差值实现;其中,所述模型参数梯度基于本次训练中得到的预测损失确定;
所述装置还包括差值确定模块,配置为采用以下方式确定所述模型参数差值:
获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度;
利用所述模型参数梯度对所述初始模型参数进行更新,得到模拟更新参数;
基于所述初始模型参数与所述模拟更新参数的差值,确定模型参数差值。
在一种实施方式中,所述计算层划分模块,具体配置为:
利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,所述子参量表征值用于表征对应的子参量的数值大小;
利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。
在一种实施方式中,所述隐私处理模块,具体配置为:
基于(ε,δ)-差分隐私算法,确定针对所述第一类计算层的子参量的噪声数据;
将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。
第四方面,实施例提供了一种保护数据隐私的业务预测模型训练系统,包括多个成员设备,所述业务预测模型包括多个计算层;
其中,多个成员设备,用于分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;分别对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;分别获取第一类计算层的聚合子参量,利用所述聚合子参量和所述第二类计算层的子参量,对所述模型参数进行更新;其中,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联。
第五方面,实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面和第二方面中任一项所述的方法。
第六方面,实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面和第二方面中任一项所述的方法。
根据本说明书实施例提供的方法及装置,多个成员设备联合训练业务预测模型,任意的一个成员设备利用业务预测模型对对象特征数据进行预测,并利用预测结果确定用于更新模型参数的更新参量,利用更新参量中的多个子参量,将多个计算层进行划分,对第一类计算层的子参量进行隐私处理,并输出处理后子参量,获取第一类计算层的聚合子参量,利用聚合子参量和第二类计算层的子参量对模型参数进行更新。成员设备对第一类子参量进行隐私处理,能够避免输出隐私数据的明文。通过对多个成员设备发送的处理后子参量进行聚合,实现了将分立数据变为聚合数据,也使得每个接收到聚合数据的成员设备,实现对业务预测模型的联合训练,并且该过程不会对其他成员设备泄露自身的隐私数据,较好地保护了成员设备自身的隐私数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-1为本说明书披露的一个实施例的实施架构示意图;
图1-2为另一种实施例的实施架构示意图;
图2为实施例提供的保护数据隐私的业务预测模型训练方法的一种流程示意图;
图3为针对某个成员设备中的多个计算层分别进行处理的一种过程示意图;
图4为实施例提供的保护数据隐私的业务预测模型训练方法的另一种流程示意图;
图5为实施例提供的保护数据隐私的业务预测模型训练装置的一种示意性框图;
图6为实施例提供的保护数据隐私的业务预测模型训练系统的一种示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1-1为本说明书披露的一个实施例的实施架构示意图。其中,服务器分别与多个成员设备进行通信连接,并能够进行数据传输。多个成员设备的数量N可以是2或大于2的自然数。通信连接可以是通过局域网连接,也可以通过公网连接。每个成员设备可以拥有各自的业务数据,多个成员设备通过与服务器之间的数据交互,联合训练业务预测模型,通过这种方式训练的业务预测模型以所有成员设备的业务数据作为数据样本,训练得到的模型性能和鲁棒性也会更好。
上述服务器与两个以上的成员设备构成的客户-服务器架构是联合训练的一种具体实施方式。在实际应用中,还可以采用对等网络架构实现联合训练。在对等网络架构中包括两个以上的成员设备,不包含服务器。在这种网络架构中,多个成员设备之间通过预设的数据传输方式实现对业务预测模型的联合训练。参见图1-2,该图1-2为另一种实施例的实施架构示意图,其中的多个成员设备之间直接进行通信连接,并传输数据。
成员设备中的业务数据属于隐私数据,不能从成员设备所在的内部安全环境发送到外部。基于业务数据得到的包含隐私数据的各种参量,也不能明文发送到外部。总结来看,在现有的多成员联合训练模型的场景下,首要解决的技术问题,是尽可能地不泄露隐私数据。
成员设备可以分别对应于不同的服务平台,不同的服务平台利用其计算机设备与服务器进行数据传输。服务平台可以是银行、医院、体检机构或其他机构或组织,这些参与方利用其设备和拥有的业务数据进行联合模型训练。不同的成员设备即代表不同的服务平台。
再来看所要训练的业务预测模型。业务预测模型可以用于利用模型参数对输入的对象特征数据进行处理,得到预测结果。该业务预测模型可以包括多个计算层,多个计算层按照既定的顺序排列,前面计算层的输出,作为后面计算层的输入,利用多个计算层对对象特征数据进行特征提取,并对提取的特征进行分类处理或回归处理,输出针对对象的预测结果。计算层中包含模型参数。
初始训练时,多个成员设备可以预先获取到业务预测模型的多个计算层,其中可以包含初始的模型参数。业务预测模型可以是服务器下发给各个成员设备的,也可以是人工配置的。初始的模型参数还可以是成员设备各自确定的。本实施例对业务预测模型的计算层个数不做限定,图1-1中所示的成员设备中的计算层仅仅是一种示意图,并不是对本申请的限定。
在利用多个成员设备的业务数据进行联合模型训练的迭代过程中,为了保护成员设备隐私数据的安全性,成员设备在任意的迭代训练中,利用子参量对多个计算层进行划分,将子参量值在指定范围内的计算层,进行隐私处理,并输出处理后子参量,然后获取对两个以上成员设备的处理后子参量进行聚合而得到的聚合子参量。在该联合处理过程中,隐私处理后的子参量不会泄露隐私数据,对隐私处理后的子参量进行聚合,既无法使得基于隐私处理后的子参量反推出数据特征,又实现了对参量的聚合处理,较好地在训练过程和数据交互过程中保护了数据隐私。
下面以客户-服务器架构为例,结合具体实施例对本申请进行说明。
图2为实施例提供的保护数据隐私的业务预测模型训练方法的一种流程示意图。该方法通过服务器和多个成员设备联合训练,服务器和多个成员设备均可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。为了便于描述清楚,下面多以两个成员设备为例进行说明,例如以第一成员设备A和第二成员设备B进行描述,但在实际应用中多以两个以上成员设备的情况进行实施。业务预测模型采用W来表示,不同成员设备中的业务预测模型采用对应的W下标表示。对业务预测模型W的联合训练可以包含多次迭代训练过程,下面通过以下步骤S210~S250,来说明任意一次迭代训练过程。
首先,步骤S210,第一成员设备A利用自身持有的多个对象的对象特征数据SA,通过业务预测模型WA进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量GA。第二成员设备B利用自身持有的多个对象的对象特征数据SB,通过业务预测模型WB进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量GB
任意一个成员设备(例如第一成员设备A或第二成员设备B),其持有的对象特征数据S,是对应的服务平台的业务数据,属于隐私数据。该对象特征数据S可以直接存储在该成员设备中,也可以存储在高可用存储设备中,成员设备在需要时可以从该高可用存储设备中读取。高可用存储设备可以位于该服务平台的内部网络中,也可以位于外部网络中。为了安全起见,对象特征数据S以密文形式进行存储。
任意一个成员设备持有的多个对象的对象特征数据S,可以存在于训练集中,任意一个对象的对象特征数据S即为一条业务数据,也是一条样本数据。对象特征数据S可以采用特征向量的形式表示。
由于服务平台的多样性,及其服务种类的多样性,上述对象及其对象特征数据可以包含多种具体形式和内容。例如,对象可以是用户、商品、交易、事件中的一种。对象特征数据可以包括以下特征组中的至少一个:对象的基本属性特征、对象的历史行为特征、对象的关联关系特征、对象的交互特征、对象的身体指标。
当对象是用户时,对象特征数据即为用户特征数据,其中包括,例如用户的年龄、性别、注册时长、教育程度等基本属性特征,例如最近浏览历史、最近购物历史等历史行为特征,例如与该用户存在关联关系的商品、其他用户等关联关系特征,例如该用户在页面的点击、查看等交互特征,以及用户的血压值、血糖值、体脂率等身体指标的信息。
当对象是商品时,对象特征数据即为商品特征数据,其中包括商品的类别、产地、配料、工序等基本属性特征,例如与该商品存在关联关系的用户、商铺或其他商品等关联关系特征,以及商品被购买、转存、退货等历史行为特征。
当对象是交易时,对象特征数据即为交易特征数据,其中包括交易的编号、款额、收款方、付款方、付款时间等特征。
当对象是事件时,事件可以包括登录事件、购买事件和社交事件等等。事件的基本属性信息可以是用于描述事件的文字信息,关联关系信息可以包括与该事件在上下文上存在关系的文本、与该事件存在关联性的其他事件信息等,历史行为信息可以包括该事件在时间维度上发展变化的记录信息等。
任意一个成员设备,通过业务预测模型W进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量G时,具体可以包括步骤1至3。
步骤1,将对象的对象特征数据S输入业务预测模型W,通过业务预测模型W中包含模型参数的多个计算层对对象特征数据S的处理,得到该对象的预测结果;
步骤2,基于该对象的预测结果与该对象的标注信息之间的差值,确定预测损失;
步骤3,基于该预测损失确定与该对象特征数据S关联的更新参量G。
在用户风险检测场景中,对象可以是用户,业务预测模型实现为风险检测模型。该风险检测模型用于对输入的用户特征数据进行处理,得到用户是否为高风险用户的预测结果。在该场景中,样本特征是用户特征数据,样本标注信息例如为该用户是否为高风险用户。
在具体的模型训练过程中,可以将用户特征数据输入风险检测模型,通过该风险检测模型中的多个计算层对用户特征数据的处理,得到该用户是否为高风险用户的分类预测结果;基于该分类预测结果与包含该用户是否为高风险用户的样本标签信息之间的差值,确定预测损失;基于该预测损失确定与该用户特征数据关联的更新参量,该更新参量中包含了该用户特征数据中的相关信息。
在用户风险检测场景中,不同的服务平台包含用户的不同业务数据,如何从大量的用户账户操作中,确定哪些用户是高风险用户,这是风险检测模型要解决的技术问题。利用多个服务平台的用户特征数据进行联合训练,能够有效地增加高风险样本的样本量,提高风险检测模型的性能,进而能更有效地区分哪些用户是高风险用户。
在医疗评测场景中,对象可以为药物,药物特征数据可以包括该药物的功用信息、适用范围信息、患者在使用该药物前后的相关身体指标数据、患者的基本属性特征等。业务检测模型实现为药物评测模型。该药物评测模型用于对输入的药物特征数据进行处理,得到该药物的效果评测结果。在该场景中,样本标注信息例如为根据患者在使用该药物前后的相关身体指标数据而标注的药物有效值。
在具体的模型训练过程中,可以将药物特征数据输入药物评测模型,通过该药物评测模型中的多个计算层对药物特征数据进行处理,得到预测结果,其中包括该药物对该患者病情的药物有效值;基于该预测结果与标注信息的药物有效值之间的差值,确定预测损失,基于该预测损失确定与该药物特征数据关联的更新参量,该更新参量中包含了该药物特征数据中的相关信息。
在药物风险检测场景中,服务平台可以是多家医院。某种药物在投入使用后,其实际的有效值有多大,是药物评测模型所要解决的技术问题。某家医院使用该药物的患者数量有限,利用多家医院的病例数据进行联合模型训练,能够有效地提高样本量,丰富样本种类,从而使得药物评测模型更准确,实现对药物有效性的更准确判断。
上述业务预测模型W,可以作为特征提取模型,用于对输入的对象特征数据S进行特征提取,得到对象的深层特征。任意一个成员设备,可以将对象的对象特征数据输入业务预测模型W中,利用该业务预测模型W确定对象的深层特征,成员设备将该深层特征输入分类器,得到分类预测结果,或者对该深层特征进行回归处理,得到回归预测结果。通过业务预测模型W得到的预测结果可以包括分类预测结果或回归预测结果。
上述业务预测模型W,也可以包含特征提取层和分类层,或者包括特征提取层和回归层。成员设备将对象特征数据S输入业务预测模型W,该业务预测模型W输出分类预测结果或回归预测结果,成员设备可以获取到该分类预测结果或回归预测结果。
业务预测模型可以采用深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)或图神经网络(Graph Neural Networks,GNN)实现。
在步骤S210中,更新参量G用于更新模型参数,该更新参量中包括针对多个计算层的多个子参量Gj,j为计算层的编号。例如,当有100个计算层时,j的取值可以为0至99。
具体来说,更新参量G可以采用模型参数梯度G1或者模型参数差值G2实现。其中,模型参数梯度G1基于本次训练中得到的预测损失确定。例如,可以利用反向传播法,基于预测损失,确定多个计算层的多个子参量。
反向传播算法包括多种类型,例如包括Adam、动量梯度下降、RMSprop、SGD等优化器算法。在使用Adam、动量梯度下降、RMSprop等优化器时,采用模型参数梯度作为更新参量,与采用模型参数差值作为更新参量,其对模型参数的更新效果是不同的。而使用SGD一类的优化器算法时,模型参数梯度与模型参数差值对模型参数的更新效果相同。
在针对业务预测模型的任意一次迭代训练过程中,模型参数差值可以采用以下方式确定,获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度,利用模型参数梯度对初始模型参数进行更新,得到模拟更新参数,基于初始模型参数与模拟更新参数的差值,确定模型参数差值。
其中,本次训练的初始模型参数,是上述步骤1中业务预测模型W的模型参数,该初始模型参数在本次训练中并未被更新。本次训练中得到的模型参数梯度,可以是在步骤3中基于预测损失确定的模型参数梯度。
当本次训练是第一次训练时,初始模型参数可以是预设值,或者是随机确定的值。当本次训练不是第一次训练时,初始模型参数是上一次训练中采用聚合后的模型参数差值对模型参数进行更新而得到。服务器实施对模型参数差值的聚合操作,具体的实施过程可以参见本实施例的后续流程。
利用该模型参数梯度对初始模型参数进行更新,所得到的模拟更新参数,并不是真正地将该模型更新参数应用在业务预测模型W中,因为该模拟更新参数的更新过程并没有结合其他成员设备的对象特征数据,仅是基于本成员设备单方的业务数据其训练得到的模拟参数。
再来看更新参量的表示形式。由于业务预测模型W包括多个计算层,任意一个计算层中包括对应的模型参数,该计算层的模型参数可以采用向量或矩阵表示,因此所有计算层的模型参数差值也可以采用矩阵或矩阵集合表示。
在基于预测损失确定模型参数梯度时,可以确定出每个计算层的模型参数梯度(即子参量),任意一个计算层的模型参数梯度采用矩阵表示,所有计算层的模型参数梯度可以采用矩阵集合表示。
因此,不管更新参量G是采用模型参数梯度G1,还是采用模型参数差值G2实现,更新参量G都可以是一个矩阵集合,每个计算层的子参量Gj可以是矩阵或向量。为了便于说明,后续将第一成员设备A的子参量表示为GAj,将第二成员设备B的子参量表示为GBj
接着,在步骤S220中,第一成员设备A利用多个子参量GAj,将多个计算层划分成第一类计算层和第二类计算层,第二成员设备B利用多个子参量GBj,将多个计算层划分成第一类计算层和第二类计算层。
其中,第一类计算层的子参量值在指定范围以内,第二类计算层的子参量值在指定范围之外。指定范围可以包括:多个子参量值的数量级在预设量级范围内,或者,多个子参量值的差值在预设差值范围内。这两个条件可以择一使用,也可以结合起来使用。当结合起来使用时,可以要求第一类计算层同时满足两个条件,也可以要求其只满足其中任意一个条件。
预设量级范围[a,b],可以看预先设置的。它可以包括一个量级,此时a=b。也就是,多个子参量值的数量级处于同一量级。预设量级范围[a,b]也可以包括多个量级,此时a不等于b。也就是,[a,b]中包括多个数值,即多个子参量值的数量级处于多个量级范围内,这多个量级通常是连续的量级。量级也可以理解为倍数,多个子参量值可以不同,但其之间的倍数处于一定的倍数范围内,则这样的子参量值对应的计算层,可以归为第一类计算层;多个子参量值超出倍数范围,则这样的子参量值对应的计算层,归为第二类计算层。
预设差值范围[c,d]可以是预先设置的。第一类计算层的子参量值在预设差值范围[c,d]以内,第二类计算层的子参量之间的差值在预设差值范围[c,d]之外。
总之,第一类计算层的子参量的数值相互接近,大小比较一致,而第二类计算层的子参量的数值相对于第一类计算层的子参量的数值差别较大。可选地,第一类计算层的子参量的数值大于第二类计算层的子参量的数值。例如,第一类计算层的子参量值的数量级为10000、100000,第二类计算层的子参量值的数量级为10、100。子参量值越大的计算层在联邦聚合时贡献越大,因此与子参量值小的计算层相比,优先选择子参量值大的计算层作为第一类计算层来进行后述的联邦聚合。
子参量可以是一个数值,也可以是包含多个元素的矩阵或向量。
对于任意一个成员设备,当子参量是一个数值时,可以直接基于多个子参量的数值大小,对多个计算层进行划分。在子参量是矩阵或者向量的情况下,在对多个计算层进行划分时,可以利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。上述子参量表征值用于表征对应的子参量的数值大小。
由于子参量是矩阵或向量的形式,因此直接比较多个子参量的差值并不是很容易。采用子参量表征值表征子参量的数值大小,能够使得子参量的数值比较更容易。
具体而言,子参量表征值可以采用范数值、均值、方差值、标准差值、最大值、最小值或者最大值与最小值的差值等进行计算。更具体的,子参量表征值可以基于子参量包含的向量元素的绝对值,采用范数值、均值、方差值、标准差值、最大值、最小值或者最大值与最小值的差值等方式确定子参量表征值。下面以范数值为例进行说明。任意一个成员设备,可以利用子参量包含的向量元素g1、g2、……gk,采用欧几里得范数(L2范数)计算子参量表征值,例如可以采用以下公式计算
Figure BDA0003177188580000111
其中,Lj是第j个计算层的子参量表征值,gk是该第j个计算层的子参量中第k个向量元素,求和符号对k的取值进行求和。采用L2范数计算子参量表征值,即是求子参量的向量元素的平方和再开根号。子参量表征值还可以采用L0范数或L1范数计算,具体不再详述。
当采用均值、方差值或标准差值等计算子参量表征值时,也可以基于子参量包含的向量元素,按照对应的公式计算子参量表征值,具体不再详述。当子参量表征值采用最大值、最小值,或者最大值与最小值的差值等方式确定时,该最大值可以取子参量包含的向量元素的绝对值中的最大值,最小值可以取子参量包含的向量元素的绝对值中的最小值,或者可以确定该最大值与最小值的差值,将该差值作为子参量表征值。
在利用多个子参量表征值,对多个计算层进行划分时,其中的指定范围可以是针对子参量表征值设定的。例如,指定范围可以包括,多个子参量表征值的数量级在预设量级范围内,或者,多个子参量表征值的差值在预设差值范围内。这两个条件在使用时,可以择一使用,或者同时使用。
成员设备具体对多个计算层进行划分时,可以分别确定任意两个计算层的子参量表征值之间的倍数,得到多个倍数,将倍数处于该预设量级范围[a,b]中的两个计算层归为第一类计算层,将剩余的计算层归为第二类计算层。当然,对计算层进行划分的方式还有很多种,只要是能将计算层划分成满足上述条件的两类计算层,都是可以的。
由于成员设备分别基于自身的子参量对计算层进行划分,不同成员设备的划分结果可能是不同的。例如,第一成员设备A的第一类计算层包括计算层1、2、3、5和6,第二类计算层包括计算层4、7、8、9和10;而第二成员设备B的第一类计算层包括计算层1、3、5和6,第二类计算层包括计算层2、4、7、8、9和10。不同成员设备的第一类计算层包含的计算层的数量和种类均可能是不同的,当然也可能是相同的。
任意一个成员设备,其对计算层的划分结果,受该成员设备的对象特征数据的影响。不同的对象特征数据,可能导致不同的计算层划分结果。该计算层的划分结果与对象特征数据的内在特征相关联。
通常,较大或较小的模型参数梯度或模型参数差值会使得模型参数过拟合。对成员设备的计算层按照子参量大小进行划分,能够避免将较大或较小的模型参数梯度或模型参数差值分享至其他成员设备,也能够避免对联合模型训练中的模型参数添加可能导致过拟合的因素。
步骤S230,第一成员设备A对第一类计算层的子参量进行隐私处理,得到处理后子参量,将处理后子参量发送至服务器。第二成员设备B对第一类计算层的子参量进行隐私处理,得到处理后子参量,将处理后子参量发送至服务器。
服务器接收第一成员设备A发送的处理后子参量,接收第二成员设备B发送的处理后子参量。
其中,处理后子参量包含若干个计算层的经过隐私处理后的子参量。第一成员设备A与第二成员设备B的处理后子参量是不同的,例如其中涉及的计算层不同,当存在相同计算层时,其相同计算层的子参量也是不同的。
为了保护成员设备的隐私数据,子参量需经过隐私处理后发送至服务器。该隐私处理需要达到这样的目的,既不会泄露隐私数据,又使得经过服务器聚合后的数据能直接被成员设备所利用。
在一种实施方式中,任意的成员设备可以基于(ε,δ)-差分隐私算法,确定针对第一类计算层的子参量的噪声数据,将噪声数据分别与第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。也就是,可以对子参量添加实现差分隐私的噪声,进而实现对子参量的隐私处理,例如可以通过诸如拉普拉斯噪声、高斯噪声等方式实现。利用差分隐私算法,在子参量中添加一定的噪声数据,既能够保护成员设备的子参量不泄露隐私,又能尽可能减少隐私处理对数据本身的影响。
其中,ε为差分隐私算法的隐私预算,δ为差分隐私算法的隐私误差。ε和δ可以预先根据经验值进行设定。
在一个实施例中,以高斯噪声为例。任意的成员设备,可以利用差分隐私参数ε和δ,计算高斯噪声的噪声方差值,基于该噪声方差值,针对第一类计算层的子参量包含的向量元素生成对应的噪声数据
Figure BDA0003177188580000121
子参量中包含多少个向量元素,就生成多少个噪声数据。
在将噪声数据
Figure BDA0003177188580000122
分别与第一类计算层的对应子参量进行叠加之前,还可以基于裁剪参数C和噪声缩放系数η对子参量进行裁剪。其中,裁剪参数C可以是预先设定的,噪声缩放系数η可以基于第一类计算层的子参量进行确定。
具体的,任意的成员设备,可以利用第一类计算层对应的若干个子参量,确定用于标识第一类计算层的子参量的总体表征值,利用总体表征值Lη和预设的裁剪参数C,对第一类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量。具体的,可以利用裁剪参数C与总体表征值Lη的比值,对第一类计算层的子参量进行数值裁剪。
在叠加时,将噪声数据
Figure BDA0003177188580000123
分别与第一类计算层的对应裁剪后子参量进行叠加。该叠加操作例如可以包括求和。
基于上述内容可知,这种方式一方面对子参量进行裁剪,另一方面将裁剪后的子参量与噪声数据叠加,从而实现对子参量进行满足高斯噪声的差分隐私处理。
对第一类计算层的子参量进行数值裁剪,例如可以进行以下处理
Figure BDA0003177188580000131
其中,Gj为第j个计算层的子参量,其属于第一类计算层,GC,j为裁剪后子参量,C为裁剪参数,属于超参数,Lη为总体表征值,max为最大值函数。也就是说,可以根据对裁剪参数的调整,按照相同比例对子参量进行缩放。例如,当C小于或等于Lη时,子参量保持不变;当C大于Lη时,按照C/Lη的比例对子参量进行缩小。
为裁剪后子参量添加噪声数据,得到处理后子参量,例如为
Figure BDA0003177188580000132
其中,GN,j为处理后子参量,
Figure BDA0003177188580000133
表示概率密度符合以0为均值、以η2C2I为分布方差的高斯噪声,η表示上述噪声缩放系数,可以预设,也可以采用总体表征值来代替,C为裁剪参数,I表示指示函数,可以取0或1,例如可以设定在多次训练中的偶数轮次取1,奇数轮次取0。
以上描述了在第一类计算层的子参量中添加噪声数据,实现对子参量进行差分隐私处理的方式。可以理解的是,本实施例从多个计算层中挑选出子参量数值在指定范围内的第一类计算层,这些计算层的子参量值相对来说比较平均化,没有过大的值也没有过小的值。噪声数据对这样的子参量值的影响更小,聚合后子参量也会更接近不添加噪声的聚合值,这使得聚合后子参量更加准确。再者,利用裁剪参数和总体表征值对第一计算层、第二计算层的子参量按照比例进行裁剪,能够削减较大子参量数据对模型参数的影响。
步骤S240,服务器,基于多个成员设备的处理后子参量进行聚合,得到第一类计算层的聚合子参量,并将聚合子参量发送至对应的第一成员设备A和第二成员设备B。服务器分别针对计算层对处理后子参量进行聚合,得到与第一类计算层分别对应的聚合子参量,并将聚合子参量发送至对应的成员设备。
第一成员设备A接收服务器发送的对应聚合子参量,第二成员设备B接收服务器发送的对应聚合子参量。
其中,聚合子参量与多个成员设备的对象特征数据相关联,聚合子参量中包含了多个成员设备的对象特征数的内在特征。
服务器针对计算层进行聚合时,例如第一成员设备A发送的数据包括计算层1、3、5和6的处理后子参量,第二成员设备B发送的数据包括计算层1、2、4和5的处理后子参量,第三成员设备C发送的数据包括3、4、5和6的处理后子参量。
服务器可以针对每个计算层,确定该计算层对应的成员设备的处理后子参量,对所确定的成员设备的处理后子参量进行聚合,得到该计算层的聚合子参量。例如,针对计算层1,接收到了第一成员设备A和第二成员设备B发送的处理后子参量,则可以对这两个处理后子参量进行聚合,得到计算层1的聚合子参量。其他计算层依此进行,不再赘述。在发送聚合子参量时,服务器可以向参与该计算层的数据聚合的成员设备发送对应的聚合子参量。例如,服务器可以向第一成员设备A和第二成员设备B发送计算层1的聚合子参量,而并不向第三成员设备C发送计算层1的聚合子参量。
上述聚合是对矩阵或向量的聚合。具体的聚合方式可以包括直接求和,或者进行加权求和。在加权求和方式中,处理后子参量的权重可以是对应的成员设备中的样本量与总样本量的比例,总样本量是服务器针对某个计算层,所接收到的处理后子参量对应的所有成员设备的样本量之和。例如,在上述例子中,针对计算层1,接收到了第一成员设备A和第二成员设备B发送的处理后子参量,以及各个成员设备的样本量nA和nB,在对处理后子参量聚合时,可以分别以nA/(nA+nB)和nB/(nA+nB)作为权重。
除了以上述比例作为权重,还可以以基于业务预测模型的性能或准确率计算权重。其中模型性能可以采用曲线下面积(Area Under Curve,AUC)算法确定。
以上描述了服务器端对处理后子参量进行聚合的具体方式。从上述内容可知,成员设备与服务器之间还可以传输例如样本量、模型性能、准确率等数据,这样能更好地实现对子参量的聚合。
步骤S250,第一成员设备A利用聚合子参量和第二类计算层的子参量,对模型参数进行更新;第二成员设备B利用聚合子参量和第二类计算层的子参量,对模型参数进行更新。这能使得更新后的模型参数与多个成员设备的对象特征数据相关联,使得更新后的模型参数包含多个成员设备的对象特征数据的内在特征。
在第一类计算层的子参量经过裁剪的情况下,任意一个成员设备也可以利用上述总体表征值Lη和预设的裁剪参数C,对第二类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;利用第二类计算层的裁剪后子参量,对这部分模型参数进行更新。具体的裁剪方式可以参见步骤S230中的描述,不再赘述。
图3为针对某个成员设备中的多个计算层分别进行处理的一种过程示意图。该成员设备为多个成员设备中的任意一个。假设该成员设备的业务预测模型中包含10个计算层,每个计算层对应一个子参量,10个子参量形成更新参量,利用子参量可以将计算层划分为两部分,一部分是第一类计算层,采用1标识,另一部分是第二类计算层,采用0标识。对第一类计算层和第二类计算层的子参量均进行裁剪处理,然后,对第一类计算层的裁剪后子参量添加噪声,实现差分隐私处理,得到处理后子参量,最后将处理后子参量发送至服务器。该成员设备接收服务器返回的聚合子参量,利用聚合子参量和第二类计算层的裁剪后子参量对计算层中的模型参数进行更新。
对于任意一个成员设备来说,如果其没有接收到服务器发送的例如第一计算层的聚合子参量,也就是该第一计算层不属于第一类计算层,则该成员设备可以直接利用自身得到的该第一计算层的子参量,对该第一计算层中的模型参数进行更新。
上述步骤S210至S250为一次迭代训练过程,可以基于该迭代训练过程,对业务预测模型进行多次训练,直至满足预设的收敛条件。收敛条件可以是训练次数达到阈值,或者损失值小于预设阈值等。
在业务预测模型经过训练后,还可以获取待预测对象的对象特征数据,利用待预测对象的对象特征数据,通过训练后的业务预测模型,确定待预测对象的预测结果。
在用户风险检测场景中,可以将待检测用户的对象特征数据输入风险检测模型,得到待检测用户是否为高风险用户的预测结果。
在医疗评测场景中,可以将待检测药物的对象特征数据输入药物评测模型,得到该待检测药物对患者病情的药物有效性。
在本申请的一个实施例中,成员设备中训练的多个计算层,可以是业务预测模型的所有计算层,也可以是部分计算层。
图4为实施例提供的保护数据隐私的业务预测模型训练方法的另一种流程示意图。该方法通过服务器和多个成员设备联合训练,该业务预测模型包括多个计算层,该方法包括以下步骤S410~S450。
步骤S410,多个成员设备,分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量。
所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;
步骤S420,多个成员设备,分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层。所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
步骤S430,多个成员设备,分别对第一类计算层的子参量进行隐私处理,得到处理后子参量,并将处理后子参量分别发送至服务器。
步骤S440,服务器,基于两个以上成员设备发送的处理后子参量,分别针对计算层进行聚合,得到与第一类计算层分别对应的聚合子参量,并将聚合子参量发送至对应的成员设备。
步骤S450,多个成员设备,分别接收服务器发送的聚合子参量,利用聚合子参量和第二类计算层的子参量,对模型参数进行更新,以使得更新后的模型参数与多个成员设备的对象特征数据相关联。
上述图4实施例是基于图2实施例得到的实施例,其实施方式和说明与图2实施例相同,可以参见图2部分的描述。
以上描述是以客户-服务器架构为例对本申请实施例的说明。下面以对等网络架构为例,对本申请的另一实施例进行简要说明。在以下说明中,重点描述该实施例与以上图2所示实施例的不同之处。
在本实施例中,步骤S210至步骤S220、步骤S250均不变,与图2所示实施例相同。在步骤S230中,成员设备对第一计算层的子参量进行隐私处理,得到处理后子参量的过程,也与图2所示实施例中的描述相同。
在成员设备得到处理后子参量之后,并不将处理后子参量发送至服务器,而可以将处理后子参量发送至其他成员设备,例如可以发送给所有的其他成员设备,或者按照循环传输的方式,在多个成员设备构成的链中传输处理后子参量;又或者按照随机传输的方式,将处理后子参量发送至其他成员设备。
这样,任意一个成员设备,可以获取第一类计算层的聚合子参量。该聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联。具体的,对于任意一个成员设备,可以直接获取其他成员设备确定的聚合子参量,也可以对该成员设备自身获取的多个处理后子参量进行聚合,得到聚合子参量。
并且,聚合子参量可以是基于所有成员设备的处理后子参量进行聚合得到,也可以是基于所有成员设备中的部分成员设备的处理后子参量进行聚合得到。所有成员设备是指对等网络架构中的所有成员设备。
在本实施例中,经过隐私处理后的子参量不会泄露隐私数据,通过成员设备对隐私处理后的子参量进行聚合,能够避免成员设备根据其他成员设备的子参量反推数据特征,因此能够在聚合训练过程中保护数据隐私。
本说明书中,第一类计算层中的“第一”,以及文中的“第二”,仅仅是为了区分和描述方便,而不具有任何限定意义。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
图5为实施例提供的保护数据隐私的业务预测模型训练装置的一种示意性框图。该装置通过多个成员设备联合训练,所述业务预测模型包括多个计算层。该装置实施例与图2所示方法实施例相对应。所述装置部署在任意的第一成员设备中,包括:
参量确定模块510,配置为,利用所述第一成员设备持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,并包括针对多个计算层的多个子参量;
计算层划分模块520,配置为,利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
隐私处理模块530,配置为,对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;
参量聚合模块540,配置为,获取所述第一类计算层的聚合子参量,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联;
模型更新模块550,配置为,利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
在一种实施方式中,所述更新参量采用模型参数梯度或者模型参数差值实现;其中,所述模型参数梯度基于本次训练中得到的预测损失确定;
该装置500还包括差值确定模块(图中未示出),配置为采用以下方式确定模型参数差值:
获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度;
利用所述模型参数梯度对所述初始模型参数进行更新,得到模拟更新参数;
基于所述初始模型参数与所述模拟更新参数的差值,确定模型参数差值。
在一种实施方式中,所述参量确定模块510,具体配置为:
将对象的对象特征数据输入所述业务预测模型,通过所述业务预测模型中包含模型参数的多个计算层对对象特征数据的处理,得到该对象的预测结果;
基于该对象的预测结果与该对象的标注信息之间的差值,确定预测损失;
基于所述预测损失确定与该对象特征数据关联的更新参量。
在一种实施方式中,所述计算层划分模块520具体配置为:
利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,所述子参量表征值用于表征对应的子参量的数值大小;
利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。
在一种实施方式中,所述子参量表征值采用以下中的一种实现:范数值、均值、方差值、标准差值、最大值、最小值或者最大值与最小值的差值。
在一种实施方式中,第一类计算层的子参量表征值大于第二类计算层的子参量表征值。
在一种实施方式中,所述指定范围包括:多个子参量值的数量级在预设量级范围内。
在一种实施方式中,所述隐私处理模块530,具体配置为:
基于(ε,δ)-差分隐私算法,确定针对所述第一类计算层的子参量的噪声数据;
将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。
在一种实施方式中,所述隐私处理模块530,确定针对所述第一类计算层的子参量的噪声数据时,包括:
利用差分隐私参数ε和δ,计算高斯噪声的噪声方差值;
基于所述噪声方差值,针对所述第一类计算层的子参量包含的向量元素生成对应的噪声数据。
在一种实施方式中,所述隐私处理模块530,在将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加之前,还包括:
利用所述第一类计算层对应的若干个子参量,确定用于标识所述第一类计算层的子参量的总体表征值;
利用所述总体表征值和预设的裁剪参数,对所述第一类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
所述隐私处理模块530,将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加时,包括:
将所述噪声数据分别与所述第一类计算层的对应裁剪后子参量进行叠加。
在一种实施方式中,所述模型更新模块550具体配置为:
利用所述总体表征值和预设的裁剪参数,对所述第二类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
利用所述聚合子参量和所述第二类计算层的裁剪后子参量,对所述模型参数进行更新。
在一种实施方式中,该装置500还包括模型预测模块(图中未示出),配置为:
在所述业务预测模型经过训练后,获取待预测对象的对象特征数据;
利用所述待预测对象的对象特征数据,通过训练后的业务预测模型,确定所述待预测对象的预测结果。
在一种实施方式中,所述成员设备中训练的多个计算层,是所述业务预测模型的所有计算层,或者部分计算层。
在一种实施方式中,所述对象包括用户、商品、交易、事件中的一种;所述对象特征数据包括以下特征组中的至少一个:对象的基本属性特征、对象的历史行为特征、对象的关联关系特征、对象的交互特征、对象的身体指标。
在一种实施方式中,所述业务预测模型采用DNN、CNN、RNN或GNN实现。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
图6为实施例提供的保护数据隐私的业务预测模型训练系统的一种示意性框图。该系统600包括多个成员设备610,所述业务预测模型包括多个计算层;
其中,多个成员设备610,用于分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,其中包括针对多个计算层的多个子参量;分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;分别对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;分别获取第一类计算层的聚合子参量,利用所述聚合子参量和所述第二类计算层的子参量,对所述模型参数进行更新;其中,聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联。
在一种实施方式中,成员设备610在输出处理后子参量时,可以将处理后子参量发送至其他成员设备。成员设备610从其他成员设备中获取聚合子参量;或者,成员设备610从其他成员设备中获取处理后子参量,对两个以上成员设备的处理后子参量进行聚合,得到聚合子参量。
在一种实施方式中,该系统600还可以包括服务器(图中未示出)。成员设备610可以将处理后子参量发送至该服务器,并接收服务器发送的聚合子参量。服务器,基于两个以上成员设备发送的处理后子参量,分别针对计算层进行聚合,得到与第一类计算层分别对应的聚合子参量,并将聚合子参量发送至对应的成员设备。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行图1-1、图1-2至图4任一项所述的方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现图1-1、图1-2至图4任一项所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种保护数据隐私的业务预测模型训练方法,所述业务预测模型通过多个成员设备联合训练,所述业务预测模型包括多个计算层,所述方法通过任意一个成员设备执行,包括:
利用所述成员设备持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,所述更新参量包括针对多个计算层的多个子参量;
利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;
获取所述第一类计算层的聚合子参量,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,所述聚合子参量与两个以上成员设备的对象特征数据相关联;
利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
2.根据权利要求1所述的方法,所述更新参量采用模型参数梯度或者模型参数差值实现;其中,所述模型参数梯度基于本次训练中得到的预测损失确定;
所述模型参数差值采用以下方式确定:
获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度;
利用所述模型参数梯度对所述初始模型参数进行更新,得到模拟更新参数;
基于所述初始模型参数与所述模拟更新参数的差值,确定模型参数差值。
3.根据权利要求1所述的方法,所述将多个计算层划分成第一类计算层和第二类计算层的步骤,包括:
利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,所述子参量表征值用于表征对应的子参量的数值大小;
利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。
4.根据权利要求3所述的方法,所述子参量表征值采用以下中的一种实现:范数值、均值、方差值、标准差值、最大值、最小值或者最大值与最小值的差值。
5.根据权利要求3所述的方法,所述第一类计算层的所述子参量表征值大于所述第二类计算层的所述子参量表征值。
6.根据权利要求1所述的方法,所述指定范围包括:多个子参量值的数量级在预设量级范围内。
7.根据权利要求1所述的方法,所述对所述第一类计算层的子参量进行隐私处理的步骤,包括:
基于(ε,δ)-差分隐私算法,确定针对所述第一类计算层的子参量的噪声数据;
将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。
8.根据权利要求7所述的方法,所述确定针对所述第一类计算层的子参量的噪声数据的步骤,包括:
利用差分隐私参数ε和δ,计算高斯噪声的噪声方差值;
基于所述噪声方差值,针对所述第一类计算层的子参量包含的向量元素生成对应的噪声数据。
9.根据权利要求7所述的方法,在将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加之前,还包括:
利用所述第一类计算层对应的若干个子参量,确定用于标识所述第一类计算层的子参量的总体表征值;
利用所述总体表征值和预设的裁剪参数,对所述第一类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
所述将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加的步骤,包括:
将所述噪声数据分别与所述第一类计算层的对应裁剪后子参量进行叠加。
10.根据权利要求9所述的方法,所述对所述模型参数进行更新的步骤,包括:
利用所述总体表征值和预设的裁剪参数,对所述第二类计算层的子参量进行数值裁剪,得到对应的裁剪后子参量;
利用所述聚合子参量和所述第二类计算层的裁剪后子参量,对所述模型参数进行更新。
11.一种保护数据隐私的业务预测模型训练方法,通过服务器和多个成员设备联合训练,所述业务预测模型包括多个计算层,所述方法包括:
多个成员设备,分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,所述更新参量包括针对多个计算层的多个子参量;
多个成员设备,分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
多个成员设备,分别对所述第一类计算层的子参量进行隐私处理,将得到的处理后子参量分别发送至所述服务器;
所述服务器,基于两个以上成员设备发送的处理后子参量,分别针对计算层进行聚合,得到与所述第一类计算层分别对应的聚合子参量,并将所述聚合子参量发送至对应的成员设备;
多个成员设备,分别接收所述服务器发送的所述聚合子参量,利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
12.一种保护数据隐私的业务预测模型训练装置,通过多个成员设备联合训练,所述业务预测模型包括多个计算层,所述装置部署在任意一个成员设备中,包括:
参量确定模块,配置为,利用所述成员设备持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,所述更新参量包括针对多个计算层的多个子参量;
计算层划分模块,配置为,利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;
隐私处理模块,配置为,对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;
参量聚合模块,配置为,获取所述第一类计算层的聚合子参量,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,所述聚合子参量与两个以上成员设备的对象特征数据相关联;
模型更新模块,配置为,利用所述聚合子参量和所述第二类计算层的子参量,对模型参数进行更新。
13.根据权利要求12所述的装置,所述更新参量采用模型参数梯度或者模型参数差值实现;其中,所述模型参数梯度基于本次训练中得到的预测损失确定;
所述装置还包括差值确定模块,配置为采用以下方式确定所述模型参数差值:
获取本次训练的初始模型参数以及本次训练中得到的模型参数梯度;
利用所述模型参数梯度对所述初始模型参数进行更新,得到模拟更新参数;
基于所述初始模型参数与所述模拟更新参数的差值,确定模型参数差值。
14.根据权利要求12所述的装置,所述计算层划分模块,具体配置为:
利用子参量包含的向量元素,确定多个子参量分别对应的子参量表征值,所述子参量表征值用于表征对应的子参量的数值大小;
利用多个子参量表征值,将多个计算层划分成第一类计算层和第二类计算层。
15.根据权利要求12所述的装置,所述隐私处理模块,具体配置为:
基于(ε,δ)-差分隐私算法,确定针对所述第一类计算层的子参量的噪声数据;
将所述噪声数据分别与所述第一类计算层的对应子参量进行叠加,得到对应的处理后子参量。
16.一种保护数据隐私的业务预测模型训练系统,包括多个成员设备,所述业务预测模型包括多个计算层;
其中,多个成员设备,用于分别利用各自持有的多个对象的对象特征数据,通过业务预测模型进行预测,利用对象的预测结果确定与对象特征数据关联的更新参量,所述更新参量用于更新模型参数,所述更新参量包括针对多个计算层的多个子参量;分别利用多个子参量,将多个计算层划分成第一类计算层和第二类计算层,所述第一类计算层的子参量值在指定范围以内,所述第二类计算层的子参量值在所述指定范围之外;分别对所述第一类计算层的子参量进行隐私处理,并输出处理后子参量;分别获取所述第一类计算层的聚合子参量,利用所述聚合子参量和所述第二类计算层的子参量,对所述模型参数进行更新;其中,所述聚合子参量是基于两个以上成员设备的处理后子参量进行聚合而得到,并与两个以上成员设备的对象特征数据相关联。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202110835599.0A 2021-07-23 2021-07-23 保护数据隐私的业务预测模型训练方法及装置 Active CN113379042B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110835599.0A CN113379042B (zh) 2021-07-23 2021-07-23 保护数据隐私的业务预测模型训练方法及装置
PCT/CN2022/093628 WO2023000794A1 (zh) 2021-07-23 2022-05-18 保护数据隐私的业务预测模型训练的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110835599.0A CN113379042B (zh) 2021-07-23 2021-07-23 保护数据隐私的业务预测模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN113379042A CN113379042A (zh) 2021-09-10
CN113379042B true CN113379042B (zh) 2022-05-17

Family

ID=77582696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110835599.0A Active CN113379042B (zh) 2021-07-23 2021-07-23 保护数据隐私的业务预测模型训练方法及装置

Country Status (2)

Country Link
CN (1) CN113379042B (zh)
WO (1) WO2023000794A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379042B (zh) * 2021-07-23 2022-05-17 支付宝(杭州)信息技术有限公司 保护数据隐私的业务预测模型训练方法及装置
CN115081642B (zh) * 2022-07-19 2022-11-15 浙江大学 一种多方协同更新业务预测模型的方法及系统
WO2024065709A1 (zh) * 2022-09-30 2024-04-04 华为技术有限公司 一种通信方法及相关设备
CN115544580B (zh) * 2022-11-29 2023-04-07 支付宝(杭州)信息技术有限公司 保护数据隐私的两方联合训练预测模型的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045829A (zh) * 2020-03-13 2020-04-21 支付宝(杭州)信息技术有限公司 业务预测模型的划分处理及预测方法和装置
CN111091193A (zh) * 2019-10-31 2020-05-01 武汉大学 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法
CN111915023A (zh) * 2020-08-28 2020-11-10 支付宝(杭州)信息技术有限公司 一种基于联邦学习的超参数确定方法及装置
CN112288100A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 一种基于联邦学习进行模型参数更新的方法、系统及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941520B2 (en) * 2020-01-09 2024-03-26 International Business Machines Corporation Hyperparameter determination for a differentially private federated learning process
CN111324911B (zh) * 2020-05-15 2021-01-01 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN113379042B (zh) * 2021-07-23 2022-05-17 支付宝(杭州)信息技术有限公司 保护数据隐私的业务预测模型训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091193A (zh) * 2019-10-31 2020-05-01 武汉大学 一种面向深度神经网络的基于差分隐私的域适应隐私保护方法
CN111045829A (zh) * 2020-03-13 2020-04-21 支付宝(杭州)信息技术有限公司 业务预测模型的划分处理及预测方法和装置
CN111915023A (zh) * 2020-08-28 2020-11-10 支付宝(杭州)信息技术有限公司 一种基于联邦学习的超参数确定方法及装置
CN112288100A (zh) * 2020-12-29 2021-01-29 支付宝(杭州)信息技术有限公司 一种基于联邦学习进行模型参数更新的方法、系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习的隐私保护研究综述;刘俊旭等;《计算机研究与发展》;20200215(第02期);全文 *

Also Published As

Publication number Publication date
WO2023000794A1 (zh) 2023-01-26
CN113379042A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113379042B (zh) 保护数据隐私的业务预测模型训练方法及装置
CN111915023B (zh) 一种基于联邦学习的超参数确定方法及装置
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
EP3292492B1 (en) Predicting likelihoods of conditions being satisfied using recurrent neural networks
US9953171B2 (en) System and method for tokenization of data for privacy
Dong et al. An analytic hierarchy process model of group consensus
CN112799708B (zh) 联合更新业务模型的方法及系统
CN111080397A (zh) 信用评估方法、装置及电子设备
WO2015165372A1 (en) Method and apparatus for classifying object based on social networking service, and storage medium
CN111738441B (zh) 兼顾预测精度和隐私保护的预测模型训练方法及装置
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN112330684A (zh) 对象分割方法、装置、计算机设备及存储介质
Anitha et al. Neural network and rough set hybrid scheme for prediction of missing associations
CN110874481B (zh) 一种基于gbdt模型的预测方法和装置
CN113821827B (zh) 保护多方数据隐私的联合建模方法及装置
CN108985755B (zh) 一种账号状态识别方法、装置及服务器
CN111368337B (zh) 保护隐私的样本生成模型构建、仿真样本生成方法及装置
CN115860802A (zh) 产品价值预测方法、装置、计算机设备和存储介质
CN115169637A (zh) 社交关系预测方法、装置、设备和介质
US20240135258A1 (en) Methods and apparatuses for data privacy-preserving training of service prediction models
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
Wang et al. Robust Client Selection Based Secure Collaborative Learning Algorithm for Pneumonia Detection
Gambs et al. Fair mapping
Branets Detecting money laundering with Benford’s law and machine learning
De Cock et al. Fast secure logistic regression for high dimensional gene data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40057948

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant