CN110955915A - 一种隐私数据的处理方法及装置 - Google Patents

一种隐私数据的处理方法及装置 Download PDF

Info

Publication number
CN110955915A
CN110955915A CN201911287600.XA CN201911287600A CN110955915A CN 110955915 A CN110955915 A CN 110955915A CN 201911287600 A CN201911287600 A CN 201911287600A CN 110955915 A CN110955915 A CN 110955915A
Authority
CN
China
Prior art keywords
sample data
training
training member
locally stored
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911287600.XA
Other languages
English (en)
Other versions
CN110955915B (zh
Inventor
郑龙飞
陈超超
王力
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911287600.XA priority Critical patent/CN110955915B/zh
Publication of CN110955915A publication Critical patent/CN110955915A/zh
Application granted granted Critical
Publication of CN110955915B publication Critical patent/CN110955915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种隐私数据的处理方法,包括:训练成员设备从本地的样本数据集中读取样本数据,基于秘密共享算法将样本数据中拆分出的数据片段,与其它的训练成员设备发送的从样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;将共享样本数据作为输入数据,执行深度学习网络的前N层的训练计算,并将计算结果发送至服务器;服务器将各训练成员设备分别发送的计算结果作为输入数据,执行剩余层的训练计算,并将输出结果发送至多个训练成员设备中的目标设备,由目标设备基于输出结果计算训练误差,并将训练误差发送至服务器;获取服务器发送的基于训练误差计算出的前N层的网络参数对应的参数调整量,基于参数调整量调整前N层的网络参数。

Description

一种隐私数据的处理方法及装置
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种隐私数据的处理方法及装置方法及装置。
背景技术
随着人工智能技术的发展,基于深度学习网络的模型,已逐渐应用于风险评估、语音识别、自然语言处理等各种领域。为实现更好的模型性能,通常需要为深度学习网络提供更多的训练数据;因此,通过数据共享的模式,将不同的企业或机构拥有的样本数据进行联合训练,可以充分扩展训练数据的数量,提升模型的训练精度。
然而,在实际应用中,不同的企业或机构拥有的样本数据可能包含用户的隐私数据;因此,将不同的企业或机构拥有的样本数据进行联合训练,虽然可以提升模型的训练精度,但会面临用户的隐私泄露的风险。
发明内容
为克服相关技术中存在的问题,本说明书提供了方法及装置。
本说明书提出一种隐私数据的处理方法,应用于深度学习网络的分布式训练系统中的训练成员设备;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器,以使所述服务器进一步将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差,并将所述训练误差发送至所述服务器;
获取所述服务器发送的基于所述训练误差计算出的与所述前N层的网络参数对应的参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
可选的,还包括:
基于PSI隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并将计算出的所述数据交集作为所述样本数据集在本地存储。
可选的,从本地存储的样本数据集中读取样本数据之前,还包括:
将本地存储的样本数据集的属性信息发送给其它各训练成员设备;以及,接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息;
基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证;
如果各训练成员设备本地存储的样本数据集通过所述数据对齐验证,进一步从本地存储的样本数据集中读取样本数据。
可选的,还包括:
如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,重新基于所述隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的所述样本数据集进行更新。
可选的,所述样本数据为由若干特征构成的特征向量;所述数据交集包括ID相同且包含的特征不同的样本数据;或者,ID不相同且包含的特征相同的样本数据。
可选的,所述样本数据集的属性信息包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数;
基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证,包括:
如果所述数据样本集包括ID相同且包含的特征不同的样本数据,验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
如果所述数据样本集包括ID不相同且包含的特征相同的样本数据,验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
可选的,所述多个训练成员设备训练的所述深度学习网络的前N层的层数和前N层每层的节点数,由多个训练成员设备之间进行通信协商得到;
所述多个训练成员设备分别从本地存储的样本数据集中读取的样本数据的数量,由多个训练成员设备之间进行通信协商得到。
可选的,基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据之前,还包括:
如果所述数据交集包括ID相同且包含的特征不同的样本数据,验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,进一步基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
如果所述数据交集包括ID不相同且包含的特征相同的样本数据,验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,进一步基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
可选的,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
可选的,所述秘密共享算法包括SMM秘密矩阵乘法。
可选的,所述深度学习网络包括深度神经网络。
本说明书还提出一种隐私数据的处理方法,应用于深度学习网络的分布式训练系统中的服务器;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
接收各训练成员设备分别发送的将共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,得到的所述前N层的训练计算结果;其中,所述共享样本数据,为各训练成员设备基于秘密共享算法将从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算得到;
将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备,以使各训练成员设备基于所述参数调整量对所述前N层的网络参数进行调整。
可选的,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量之前,还包括:
基于所述训练误差计算与所述前N层以外的剩余层的网络参数对应的参数调整量,并基于所述参数调整量对所述剩余层的网络参数进行调整。
可选的,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
可选的,所述秘密共享算法包括SMM秘密矩阵乘法。
可选的,所述深度学习网络包括深度神经网络。
本说明书还提出一种隐私数据的处理装置,应用于深度学习网络的分布式训练系统中的训练成员设备;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
第一计算模块,从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
第二计算模块,将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器,以使所述服务器进一步将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差,并将所述训练误差发送至所述服务器;
第一调整模块,获取所述服务器发送的基于所述训练误差计算出的与所述前N层的网络参数对应的参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
可选的,所述第一计算模块进一步:
基于PSI隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并将计算出的所述数据交集作为所述样本数据集在本地存储。
可选的,还包括:
发送模块,从本地存储的样本数据集中读取样本数据之前,将本地存储的样本数据集的属性信息发送给其它各训练成员设备;以及,接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息;
验证模块,基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证;
如果各训练成员设备本地存储的样本数据集通过所述数据对齐验证,由所述第一计算模块进一步从本地存储的样本数据集中读取样本数据。
可选的,所述第一计算模块进一步:
如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,重新基于所述隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的所述样本数据集进行更新。
可选的,所述样本数据为由若干特征构成的特征向量;所述数据交集包括ID相同且包含的特征不同的样本数据;或者,ID不相同且包含的特征相同的样本数据。
可选的,所述样本数据集的属性信息包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数;
所述验证模块:
如果所述数据样本集包括ID相同且包含的特征不同的样本数据,验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
如果所述数据样本集包括ID不相同且包含的特征相同的样本数据,验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
可选的,所述多个训练成员设备训练的所述深度学习网络的前N层的层数和前N层每层的节点数,由多个训练成员设备之间进行通信协商得到;
所述多个训练成员设备分别从本地存储的样本数据集中读取的样本数据的数量,由多个训练成员设备之间进行通信协商得到。
可选的,所述验证模块进一步:
如果所述数据交集包括ID相同且包含的特征不同的样本数据,验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,进一步由第二计算模块基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
如果所述数据交集包括ID不相同且包含的特征相同的样本数据,验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,进一步由第二计算模块基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
可选的,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
可选的,所述秘密共享算法包括SMM秘密矩阵乘法。
可选的,所述深度学习网络包括深度神经网络。
本说明书还提出一种隐私数据的处理装置,应用于深度学习网络的分布式训练系统中的服务器;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
接收模块,接收各训练成员设备分别发送的将共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,得到的所述前N层的训练计算结果;其中,所述共享样本数据,为各训练成员设备基于秘密共享算法将从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算得到;
第三计算模块,将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
第二调整模块,接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备,以使各训练成员设备基于所述参数调整量对所述前N层的网络参数进行调整。
可选的,所述第二调整模块:
基于所述训练误差计算与所述前N层的网络参数对应的参数调整量之前,基于所述训练误差计算与所述前N层以外的剩余层的网络参数对应的参数调整量,并基于所述参数调整量对所述剩余层的网络参数进行调整。
可选的,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
可选的,所述秘密共享算法包括SMM秘密矩阵乘法。
可选的,所述深度学习网络包括深度神经网络。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例中,一方面,由于各训练成员设备可以基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,来生成共享样本数据;因此,可以在保护隐私数据的前提下,实现各训练成员设备本地存储的样本数据的数据共享,进而对于各训练成员设备来说,无论其本地存储的样本数据中包含的特征相同还是不相同,都能取得良好的训练效果;而且,由于生成的共享样本数据,是基于秘密共享运算计算出的加密后的样本数据;对于服务器来说,基于参数调整量将无法还原出原始的样本数据;因此,可以避免服务器通过参数调整量还原出原始的样本数据而造成的隐私泄露问题;
另一方面,由于在训练过程中深度学习网络的参数调整量,将不再由服务器来进行计算;对于训练成员设备而言,不再需要将计算参数调整量的样本数据的标签数据,发送给服务器;因此,可以避免将样本数据的标签数据发送给服务器而造成的隐私泄露。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书一示例性实施例提供的一种分布式训练系统的架构图;
图2是本说明书一示例性实施例提供的一种隐私数据处理方法的流程图;
图3是本说明书一示例性实施例提供的一种电子设备的硬件结构图;
图4是本说明书一示例性实施例提供的一种隐私数据处理装置的框图;
图5是本说明书一示例性实施例提供的另一种隐私数据处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参见图1,图1为本说明书中示出的一种用于联合训练的分布式训练系统的架构图;
如图1所示,传统的用于联合训练的分布式训练系统,通常包括服务器和多个训练成员设备;其中,服务器和各训练成员设备,以及各训练成员设备之间需要保持通信连接;各个训练成员设备可以基于本地存储的样本数据,通过数据共享的方式,一起进行联合训练深度学习网络。
需要说明的是,上述通信连接的具体类型在本说明书中不进行特别限定;例如,可以是TCP连接;服务器和各训练成员设备,以及各训练成员设备之间可以通过运行TCP协议进行三次握手,来创建TCP连接。
在传统的联合训练方案中,每个训练成员设备通常均拥有完整的深度学习网络,各自利用其本地存储的样本数据,独立的对该完整的深度学习网络进行训练,并将训练过程中产生的对深度学习网络的网络参数进行调整的参数调整量发送给服务器。
例如,以利用梯度下降法训练深度学习网络为例,上述参数调整量,可以是在训练过程中通过调用梯度函数生成的梯度。
而对于服务器来说,也拥有完整的深度学习网络,服务器可以在训练过程中收集各训练成员设备发送的参数调整量,并根据各训练成员设备本地存储的训练样本对应的权重,对各训练成员设备发送的参数调整量进行加权计算,得到深度学习网络最终的参数调整量,然后再基于该最终的参数调整量对本地拥有的深度学习网络的网络参数进行调整更新,并将该最终的参数调整量分别发送给各训练成员设备,由各训练成员设备基于该最终的参数调整量,对其本地拥有的深度学习网络的网络参数进行同步更新,进而完成一次训练迭代。
在以上描述的基于分布式训练系统的联合训练方案中,由于各训练成员设备都是基于本地存储的样本数据进行独立的训练;因此,适用于各训练成员本地存储的样本数据中包含的特征相同,但样本数据的ID不同情况;而如果各训练成员设备本地存储的样本数据的ID相同,但包含的特征不相同,则无法实现各训练成员设备的数据共享,进而导致训练效果不佳;
而且,由于在以上描述的联合训练方案中,各训练成员设备会向服务器共享生成的参数调整量,而基于参数调整量进行一些数学运算,可以还原出原始的样本数据;因此,以上描述的联合训练方案,可能会造成一定程度的隐私泄露问题。
基于此,在本说明书中提出一种,多个训练成员设备通过秘密共享算法实现各训练成员之间的数据共享,在各自本地的样本数据不泄露的前提下,来联合训练深度学习网络的技术方案。
在实现时,仍然可以采用如图1示出的分布式训练系统的架构。
各训练成员设备可以训练深度学习网络的前N层;服务器可以训练深度学习网络的前N层以外的剩余层;
在开始训练时,各训练成员设备,可以分别从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
然后,可以将上述共享样本数据作为输入数据,执行上述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至服务器。
而服务器可以将各训练成员设备分别发送的上述前N层的训练计算结果作为输入数据,执行上述前N层以外的剩余层的训练计算,并将上述深度学习网络最终的输出结果发送至各训练成员设备中的目标设备,由该目标设备基于上述输出结果来计算上述深度学习网络的训练误差,然后再将上述训练误差发送至服务器;
例如,在实际应用中,上述目标设备,具体可以是上述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
进一步的,服务器可以根据上述目标设备发送的训练误差,计算出的与上述前N层的网络参数对应的参数调整量,并将该参数调整量下发给各训练成员设备;而各训练成员设备,可以基于该述参数调整量分别对上述前N层的网络参数进行调整,进而完成一次训练迭代。
在以上技术方案中,一方面,由于各训练成员设备可以基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,来生成共享样本数据;因此,可以在保护隐私数据的前提下,实现各训练成员设备本地存储的样本数据的数据共享,进而对于各训练成员设备来说,无论其本地存储的样本数据中包含的特征相同还是不相同,都能取得良好的训练效果;而且,由于生成的共享样本数据,是基于秘密共享运算计算出的加密后的样本数据;对于服务器来说,基于参数调整量将无法还原出原始的样本数据;因此,可以避免服务器通过参数调整量还原出原始的样本数据而造成的隐私泄露问题;
另一方面,由于在训练过程中深度学习网络的参数调整量,将不再由服务器来进行计算;对于训练成员设备而言,不再需要将计算参数调整量的样本数据的标签数据,发送给服务器;因此,可以避免将样本数据的标签数据发送给服务器而造成的隐私泄露。
如图2所示,图2是本说明书根据一示例性实施例示出的一种隐私数据的处理方法的流程图,应用于图1所示的分布式训练;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括以下步骤:
步骤202,各成员节点设备从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
步骤204,各成员节点设备将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器;
步骤206,服务器将各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
步骤208,服务器接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备;
步骤210,各训练成员设备获取所述服务器发送的所述参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
上述深度学习网络,可以包括任意类型的深度学习网络,在本说明书中不进行特别限定;
例如,在一种实施方式中,上述深度学习网络具体可以包括任意类型的深度神经网络(Deep Neural Networks);比如,卷积神经网络,等等;
上述秘密共享算法,可以包括任意类型的秘密共享算法,在本说明书中也不进行特别限定;
例如,在一种实施方式中,上述秘密共享算法具体可以包括SMM(Secret MatrixMultiplication,秘密矩阵乘法)、同态加密等算法。
在本说明书中,各训练成员设备可以训练深度学习网络的前N层;而服务器可以训练深度学习网络的前N层以外的剩余层;
其中,需要说明的是,各训练成员设备训练的深度学习网络的前N层的具体层数和每层的节点数,可以由各训练成员设备之间通过保持的通信连接进行数据通信来协商得到。
例如,以深度学习网络为深度神经网络为例,各训练成员设备可以进行数据通信协商出需要训练的前N层的具体层数,和每层的神经元个数(即节点数)。
通过这种方式,由于前N层的层数和每层的节点数是由各训练成员设备自主的协商得到;因此,对于服务器而言,各训练成员设备训练的层数和每层的节点数是不可知的,从而可以保证各训练成员设备训练的前N层的网络结构的灵活性和隐私性。
在本说明书中,各训练成员设备本地存储的样本数据,具体可以是由若干特征构成的特征向量;而且,各训练成员设备本地存储的样本数据,可以是水平切分的样本数据,也可以是垂直切分的样本数据;
所谓水平切分,是指各训练成员设备本地存储的样本数据,为ID不相同,但包含的特征相同的样本数据;
其中,样本数据的ID,是指样本数据在各训练成员设备中的全局且唯一的标识;
例如,在实际应用中,可以将产生样本数据的用户的唯一标识(比如,用户的身份证号、手机号等唯一性标识);或者,基于用户的唯一标识计算出的唯一性ID(比如用户标识的hash值),作为样本数据的ID。
而所谓垂直切分,是指各训练成员设备本地存储的样本数据,为ID相同,但包含的特征不相同的样本数据;
例如,在实际应用中,不同的企业或机构可能拥有同一个用户产生的数据(即ID相同的数据),但如果该不同的企业或机构实际运营的业务或者提供的服务不同,就导致该不同的企业或机构的服务器存储的该同一个用户产生的数据中所包含的特征是完全不同的;在这种场景下,不同的企业或机构拥有的数据,就是水平切分的数据。
又如,在实际应用中,不同的企业或机构也可能拥有不同的用户产生的数据(即ID不相同的数据),但如果该不同的企业或机构实际运营的业务或者提供的服务完全相同,就导致该不同的企业或机构的服务器存储的由不同的用户产生的数据中所包含的特征是完全相同的;在这种场景下,不同的企业或机构拥有的数据,就是垂直切分的数据。
各训练成员设备在基于各自本地存储的样本数据进行联合训练时,为了保证各训练成员设备可以基于相同的样本数据集训练深度学习网络,可以对各自需要参与训练的样本数据进行数据对齐处理。
其中,所谓数据对齐,是指各训练成员设备在保护数据隐私的前提下,确定出各训练成员设备本地存储的样本数据的数据交集的过程。对于求解数据交集的具体方式,在本说明书中不进行特别的限定。
在示出的一种实施方式中,在进行数据对齐时,各训练成员设备可以基于PSI(Private Set Intersection,隐私保护集合交集)算法,与各训练成员设备共同计算出各训练成员设备本地存储的样本数据的数据交集,然后将求解出的该数据交集作为参与训练的样本数据集在本地进行存储;
其中,在本说明书中,采用的上述PSI算法的具体算法类型,在本说明书中不进行特别限定;
各训练成员设备基于PSI共同计算出各训练成员设备本地存储的样本数据的数据交集的具体计算过程,在本说明书中也不进行特别限定,本领域技术人员可以参考相关技术中的记载。
在示出的一种实施方式中,当各训练成员设备从本地存储的样本数据中,求解出参与训练的样本数据集后,还可以通过各训练成员设备保持的通信连接进行数据通信,将各自本地存储的上述样本数据集的属性信息,分别发送给其它各训练成员设备;同时,对于各训练成员设备而言,还可以接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息。
对于任一训练成员设备而言,当接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息之后,可以基于本地存储的样本数据集的属性信息,和接收到的其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据进行数据对齐验证。
其中,在示出的一种实施方式中,上述样本数据集的属性信息具体可以包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数等指标。
需要说明的是,各训练成员设备本地存储的样本数据,为水平切分的样本数据和垂直切分的样本数据的情况下,对各训练成员设备本地存储的样本数据进行数据对齐验证时所采用的样本数据集的属性信息可以存在一定的差异。
在示出的一种实施方式中,如果上述数据样本集包括ID相同且包含的特征不同的样本数据(即为垂直切分的数据),在进行数据对齐验证时,可以验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,则可以确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,可以确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
在示出的一种实施方式中,如果上述数据样本集包括ID不相同且包含的特征相同的样本数据(即为水平切分的数据),在进行数据对齐验证时,可以验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,可以确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,可以确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
进一步的,如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,此时可以重新基于上述PSI算法,与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的上述样本数据集进行更新。
当各训练成员设备本地存储的样本数据集均通过数据对齐验证之后,各训练成员设备可以从本地存储的样本数据集中读取样本数据,来训练深度学习网络。
其中,各训练成员设备从本地存储的样本数据集中读取的样本数据的数量(即一次训练迭代所需的样本数量),可以是一条也可以是多条。而且,一次训练迭代所需的样本数量,可以由多个训练成员设备通过保持的通信连接进行数据通信协商得到。
在示出的一种实施方式中,当各训练成员设备从本地存储的样本数据集中读取到参与训练的样本数据之后,还可以对读取到的数据样本进行数据对齐验证;
需要说明的是,各训练成员设备本地存储的样本数据,为水平切分的样本数据和垂直切分的样本数据的情况下,对各训练成员设备从本地存储的样本数据集中读取到的样本数据进行数据对齐验证时,所采用的样本数据集的属性信息可以存在一定的差异。
在示出的一种实施方式中,如果所述数据交集包括ID相同且包含的特征不同的样本数据(即为垂直切分的数据),可以验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,可以确定各训练成员设备从其本地存储的样本数据集中读取到的样本数据通过数据对齐验证;反之,可以确定各训练成员设备从其本地存储的样本数据集中读取到的样本数据未通过数据对齐验证。
在示出的另一种实施方式中,如果所述数据交集包括ID不相同且包含的特征相同的样本数据(即为水平切分的数据),可以验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,可以确定各训练成员设备从其本地存储的样本数据集中读取到的样本数据通过数据对齐验证;反之,可以确定各训练成员设备从其本地存储的样本数据集中读取到的样本数据未通过数据对齐验证。
在本说明书中,如果各训练成员设备从其本地存储的样本数据集中读取到的样本数据未通过数据对齐验证,此时各数据训练成员设备可以从本地存储的样本数据集中重新读取样本数据。
如果各训练成员设备从其本地存储的样本数据集中读取到的样本数据通过数据对齐验证,此时各训练成员设备可以基于秘密共享算法,将读取到的样本数据拆分成若干数据片段;
其中,基于秘密共享算法,拆分出的数据片段的数量,与各训练成员设备的总数量保持一致。各训练成员设备可以在本地保留拆分出的其中的一个数据片段,然后将其余的数据片段分别发送给其它各训练成员设备。
对于任一训练成员设备而言,在接收到其它各训练成员设备发送的数据片段后,将从读取到的样本数据中拆分出的数据片段(即本地保留的数据片段),与其它的训练成员设备发送的数据片段进行秘密共享运算,得到共享样本数据;
例如,各训练成员设备读取到的样本数据,本质上是一个由若干条特征向量组成的特征矩阵;而上述数据片段,可以是各训练成员设备,将从本地存储的样本数据集中读取到的特征矩阵,拆分成的若干个特征子矩阵;而上述共享样本数据,可以是将从读取到的样本数据中拆分出的特征子矩阵,与其它的训练成员设备发送的特征子矩阵一起进行秘密共享运算,得到的秘密共享矩阵;
其中,由于对于各训练成员设备而言,其本地只保留拆分出的其中一个数据片段;对于任一训练成员设备而言,通过上述秘密共享运算得到的共享样本数据,是一个融合了各个训练成员设备从其本地的样本数据集中读取到的样本数据拆分出的其中一个数据片段的样本数据;也即,该共享样本数据包括由多个来自不同的训练成员设备拆分出的数据片段,融合而成的样本数据;因此,不同的训练成员设备最终生成的共享样本数据,也是彼此完全不同的样本数据。
需要说明的是,将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的数据片段进行秘密共享运算的具体计算过程,本质上是将读取到的样本数据中拆分出的特征子矩阵,与其它的训练成员设备发送的特征子矩阵进行矩阵运算的过程。
其中,上述矩阵运算所采用的矩阵运算方式,通常取决于各训练成员设备采用的秘密共享算法的类型;在实际应用中,可以采用矩阵相乘的运算方式,也可以采用其它类型的矩阵运算方式;
例如,以各训练成员设备采用的秘密共享算法为SMM算法为例,基于SMM算法,可以将读取到的样本数据中拆分出的特征子矩阵,与其它的训练成员设备发送的特征子矩阵进行矩阵乘法运算,得到上述秘密共享矩阵。
在本说明书中,各训练成员设备在生成了上述共享样本数据后,可以将该共享样本数据作为输入数据,输入至深度学习网络,执行该深度学习网络的前N层的训练计算;
例如,在实现时,可以针对前N层中的每一层逐层的初始化权重矩阵,然后将上述秘密共享矩阵,与前N层中的第一层的权重矩阵进行矩阵相乘,再将矩阵相乘的计算结果作为输入数据,继续输入至下一层,与下一层的权重矩阵进行矩阵相乘,以此类推。
当各训练成员设备在完成了该深度学习网络的前N层的训练计算后,可以将前N层的训练计算结果发送给服务器;而服务器可以收集各训练成员设备发送的前N层的训练计算结果,再继续将各训练成员设备分别发送的前N层的训练计算结果作为输入数据,执行前N层以外的剩余层的训练计算;
例如,在实现时,各训练成员设备分别发送的前N层的训练计算结果,通常也是权重矩阵和秘密共享矩阵进行矩阵相乘后得到的一个中间结果矩阵,而服务器可以将各训练成员设备发送的中间结果矩阵进行矩阵相加计算,汇总各训练成员设备发送的前N层的训练结果,然后将上述矩阵相加计算得到的矩阵作为输入数据,执行前N层以外的剩余层的训练计算。
其中,服务器将各训练成员设备分别发送的前N层的训练计算结果作为输入数据,执行前N层以外的剩余层的训练计算的过程,不再赘述。
在本说明书中,服务器将不再完成深度学习网络的训练误差的计算;当服务器完成前N层以外的剩余层的训练后,可以将上述深度学习网络的输出结果,发送给上述多个训练成员设备中的目标设备,由该目标设备基于该深度学习网络的输出结果,来计算深度学习网络的训练误差。
在示出的一种实施方式中,上述目标设备,可以是上述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。当该目标设备收到服务器发送的上述深度学习网络的输出结果后,可以基于该输出结果和样本标签,来计算该上述深度学习网络的训练误差;
其中,需要说明的是,基于上述输出结果和样本标签,来计算该上述深度学习网络的训练误差的过程,即为基于上述深度学习网络的预测值,和样本标签代表的真实值,计算上述深度学习网络的损失函数的取值的过程。关于计算上述深度学习网络的损失函数的取值的具体计算过程,本说明书不再进行详述,本领域技术人员可以参考相关技术中的记载。
当然,在实际应用中,上述目标设备,除了可以是上述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备,也可以是从上述多个训练成员设备中指定的任一不携带样本标签的训练成员设备;
例如,在一个例子中,上述目标设备,也可以是上述多个训练成员设备中不携带样本标签,但搭载了安全运算环境的设备;在这种情况下,该目标设备可以将其它训练成员设备发送的样本标签导入到该安全运算环境,并在安全运算环境中计算上述损失函数的取值。
在本说明书中,当上述目标设备基于上述输出结果和样本标签,计算出上述深度学习网络的训练误差之后,可以将该训练误差发送给上述服务器;
而服务器在收到上述训练误差后,可以基于上述训练误差计算与上述前N层以外的剩余层的网络参数对应的参数调整量,并基于上述参数调整量对上述剩余层的网络参数逐层的进行调整;
进一步的,当上述剩余层的网络参数调整完成后,可以进一步计算与上述前N层的网络参数对应的参数调整量,然后将计算出的参数调整量发送给各训练成员设备,由各训练成员设备基于该参数调整量对上述前N层的网络参数进行逐层调整。
例如,以利用梯度下降法训练深度学习网络为例,上述参数调整量,可以是服务器通过调用梯度函数生成的梯度;而关于生成梯度的具体计算过程,以及将梯度反向传播至各层的过程,在本说明书中不再进行详述,本领域技术人员可以参考相关技术中的记载。
在本说明书中,当各训练成员设备基于服务器发送的与上述前N层对应的参数调整量,对上述前N层的网络参数进行逐层调整完成后,此时一次训练迭代完成。各训练成员设备可以迭代执行以上描述的训练过程,直到上述深度学习网络收敛;
例如,在一个例子中,上述深度学习网络的收敛条件可以是训练次数达到阈值;当迭代训练的次数达到该阈值时,该深度学习网络训练完成。
在实际应用中,各训练成员设备本地存储的上述样本数据集,还可以预先拆分出一个验证集和测试集,当上述深度学习网络训练完成后,各训练成员设备还可以基于上述验证集和测试集对训练完成的深度学习网络进行验证和测试;如果深度学习网络的预测精度不满足需求,则可通过增加训练集,增加训练迭代轮数,或者数据正则化等方法,来进一步提高深度学习网络的预测精度。
在以上实施例中,以各训练成员设备可以训练深度学习网络的前N层;而服务器可以训练深度学习网络的前N层以外的剩余层为例进行了说明;需要强调的是,在实际应用中,上述服务器也可以仅训练深度学习网络的前N层和后M层以外的若干中间层;
而对于上述训练深度学习网络的后M层,可以交由各训练成员设备来共同训练;或者,也可以交由上述目标设备来进行训练;在这种情况下,基于上述目标设备计算出的上述训练误差,计算与所述前N层的网络参数对应的参数调整量的计算过程,可以不再由服务器来完成,而是由上述目标设备来完成。
在以上技术方案中,一方面,由于各训练成员设备可以基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,来生成共享样本数据;因此,可以在保护隐私数据的前提下,实现各训练成员设备本地存储的样本数据的数据共享,进而对于各训练成员设备来说,无论其本地存储的样本数据中包含的特征相同还是不相同,都能取得良好的训练效果;而且,由于生成的共享样本数据,是基于秘密共享运算计算出的加密后的样本数据;对于服务器来说,基于参数调整量将无法还原出原始的样本数据;因此,可以避免服务器通过参数调整量还原出原始的样本数据而造成的隐私泄露问题;
另一方面,由于在训练过程中深度学习网络的参数调整量,将不再由服务器来进行计算;对于训练成员设备而言,不再需要将计算参数调整量的样本数据的标签数据,发送给服务器;因此,可以避免将样本数据的标签数据发送给服务器而造成的隐私泄露。
与上述方法实施例相对应,本申请还提供了装置的实施例。
与上述方法实施例相对应,本说明书还提供了一种隐私数据处理装置的实施例。
本说明书的隐私数据处理装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
从硬件层面而言,如图3所示,为本说明书的隐私数据处理装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图4是本说明书一示例性实施例示出的一种隐私数据处理装置的框图。
请参考图4,所述隐私数据处理装置40可以应用在前述图3所示的电子设备中,所述电子设备作为训练成员设备部署于深度学习网络的分布式训练系统;其中,所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;所述装置40包括:
第一计算模块401,从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
第二计算模块402,将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器,以使所述服务器进一步将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差,并将所述训练误差发送至所述服务器;
第一调整模块403,获取所述服务器发送的基于所述训练误差计算出的与所述前N层的网络参数对应的参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
在本说明书中,所述第一计算模块401进一步:
基于PSI隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并将计算出的所述数据交集作为所述样本数据集在本地存储。
在本说明书中,还包括:
发送模块404(图4中未示出),从本地存储的样本数据集中读取样本数据之前,将本地存储的样本数据集的属性信息发送给其它各训练成员设备;以及,接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息;
验证模块405(图4中未示出),基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证;如果各训练成员设备本地存储的样本数据集通过所述数据对齐验证,由所述第一计算模块401进一步从本地存储的样本数据集中读取样本数据。
在本说明书中,所述第一计算模块401进一步:
如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,重新基于所述隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的所述样本数据集进行更新。
在本说明书中,所述样本数据为由若干特征构成的特征向量;所述数据交集包括ID相同且包含的特征不同的样本数据;或者,ID不相同且包含的特征相同的样本数据。
在本说明书中,所述样本数据集的属性信息包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数;
所述验证模块405:
如果所述数据样本集包括ID相同且包含的特征不同的样本数据,验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
如果所述数据样本集包括ID不相同且包含的特征相同的样本数据,验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
在本说明书中,所述多个训练成员设备训练的所述深度学习网络的前N层的层数和前N层每层的节点数,由多个训练成员设备之间进行通信协商得到;
所述多个训练成员设备分别从本地存储的样本数据集中读取的样本数据的数量,由多个训练成员设备之间进行通信协商得到。
在本说明书中,所述验证模块405进一步:
如果所述数据交集包括ID相同且包含的特征不同的样本数据,验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,进一步由第二计算模块402基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
如果所述数据交集包括ID不相同且包含的特征相同的样本数据,验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,进一步由第二计算模块402基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
在本说明书中,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
在本说明书中,所述秘密共享算法包括SMM秘密矩阵乘法。
在本说明书中,所述深度学习网络包括深度神经网络。
图5是本说明书一示例性实施例示出的一种隐私数据处理装置的框图。
请参考图5,所述隐私数据处理装置50也可以应用在前述图3所示的电子设备中,所述电子设备作为服务器部署于深度学习网络的分布式训练系统;其中,所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;所述装置50包括:
接收模块501,接收各训练成员设备分别发送的将共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,得到的所述前N层的训练计算结果;其中,所述共享样本数据,为各训练成员设备基于秘密共享算法将从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算得到;
第三计算模块502,将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
第二调整模块503,接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备,以使各训练成员设备基于所述参数调整量对所述前N层的网络参数进行调整。
在本说明书,所述第二调整模块503:
基于所述训练误差计算与所述前N层的网络参数对应的参数调整量之前,基于所述训练误差计算与所述前N层以外的剩余层的网络参数对应的参数调整量,并基于所述参数调整量对所述剩余层的网络参数进行调整。
在本说明书,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
在本说明书,所述秘密共享算法包括SMM秘密矩阵乘法。
在本说明书,所述深度学习网络包括深度神经网络。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (34)

1.一种隐私数据的处理方法,应用于深度学习网络的分布式训练系统中的训练成员设备;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器,以使所述服务器进一步将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差,并将所述训练误差发送至所述服务器;
获取所述服务器发送的基于所述训练误差计算出的与所述前N层的网络参数对应的参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
2.根据权利要求1所述的方法,还包括:
基于PSI隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并将计算出的所述数据交集作为所述样本数据集在本地存储。
3.根据权利要求2所述的方法,从本地存储的样本数据集中读取样本数据之前,还包括:
将本地存储的样本数据集的属性信息发送给其它各训练成员设备;以及,接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息;
基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证;
如果各训练成员设备本地存储的样本数据集通过所述数据对齐验证,进一步从本地存储的样本数据集中读取样本数据。
4.根据权利要求3所述的方法,还包括:
如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,重新基于所述隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的所述样本数据集进行更新。
5.根据权利要求3所述的方法,所述样本数据为由若干特征构成的特征向量;所述数据交集包括ID相同且包含的特征不同的样本数据;或者,ID不相同且包含的特征相同的样本数据。
6.根据权利要求5所述的方法,所述样本数据集的属性信息包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数;
基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证,包括:
如果所述数据样本集包括ID相同且包含的特征不同的样本数据,验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
如果所述数据样本集包括ID不相同且包含的特征相同的样本数据,验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
7.根据权利要求5所述的方法,所述多个训练成员设备训练的所述深度学习网络的前N层的层数和前N层每层的节点数,由多个训练成员设备之间进行通信协商得到;
所述多个训练成员设备分别从本地存储的样本数据集中读取的样本数据的数量,由多个训练成员设备之间进行通信协商得到。
8.根据权利要求7所述的方法,基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据之前,还包括:
如果所述数据交集包括ID相同且包含的特征不同的样本数据,验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,进一步基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
如果所述数据交集包括ID不相同且包含的特征相同的样本数据,验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,进一步基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据。
9.根据权利要求8所述的方法,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
10.根据权利要求1所述的方法,所述秘密共享算法包括SMM秘密矩阵乘法。
11.根据权利要求1所述的方法,所述深度学习网络包括深度神经网络。
12.一种隐私数据的处理方法,应用于深度学习网络的分布式训练系统中的服务器;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
接收各训练成员设备分别发送的将共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,得到的所述前N层的训练计算结果;其中,所述共享样本数据,为各训练成员设备基于秘密共享算法将从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算得到;
将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备,以使各训练成员设备基于所述参数调整量对所述前N层的网络参数进行调整。
13.根据权利要求12所述的方法,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量之前,还包括:
基于所述训练误差计算与所述前N层以外的剩余层的网络参数对应的参数调整量,并基于所述参数调整量对所述剩余层的网络参数进行调整。
14.根据权利要求12所述的方法,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
15.根据权利要求12所述的方法,所述秘密共享算法包括SMM秘密矩阵乘法。
16.根据权利要求12所述的方法,所述深度学习网络包括深度神经网络。
17.一种隐私数据的处理装置,应用于深度学习网络的分布式训练系统中的训练成员设备;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
第一计算模块,从本地存储的样本数据集中读取样本数据,并基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
第二计算模块,将所述共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,并将前N层的训练计算结果发送至所述服务器,以使所述服务器进一步将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差,并将所述训练误差发送至所述服务器;
第一调整模块,获取所述服务器发送的基于所述训练误差计算出的与所述前N层的网络参数对应的参数调整量,并基于所述参数调整量对所述前N层的网络参数进行调整。
18.根据权利要求17所述的装置,所述第一计算模块进一步:
基于PSI隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并将计算出的所述数据交集作为所述样本数据集在本地存储。
19.根据权利要求18所述的装置,还包括:
发送模块,从本地存储的样本数据集中读取样本数据之前,将本地存储的样本数据集的属性信息发送给其它各训练成员设备;以及,接收其它各训练成员设备发送的其本地存储的样本数据集的属性信息;
验证模块,基于本地存储的样本数据集的属性信息,与接收到其它各训练成员设备发送的其本地存储的样本数据集的属性信息,对各训练成员设备本地存储的样本数据集进行数据对齐验证;
如果各训练成员设备本地存储的样本数据集通过所述数据对齐验证,由所述第一计算模块进一步从本地存储的样本数据集中读取样本数据。
20.根据权利要求19所述的装置,所述第一计算模块进一步:
如果各训练成员设备本地存储的样本数据集未通过数据对齐验证,重新基于所述隐私保护集合交集算法与各训练成员设备共同计算各训练成员设备本地存储的样本数据的数据交集,并基于计算出的所述数据交集对本地存储的所述样本数据集进行更新。
21.根据权利要求19所述的装置,所述样本数据为由若干特征构成的特征向量;所述数据交集包括ID相同且包含的特征不同的样本数据;或者,ID不相同且包含的特征相同的样本数据。
22.根据权利要求21所述的装置,所述样本数据集的属性信息包括:所述样本数据集中包含的样本数据个数;以及,所述样本数据集中的样本数据包含的特征个数;
所述验证模块:
如果所述数据样本集包括ID相同且包含的特征不同的样本数据,验证本地存储的样本数据集包含的样本数据个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数是否匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证;
如果所述数据样本集包括ID不相同且包含的特征相同的样本数据,验证本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数,与接收到其它各训练成员设备发送的其本地存储的样本数据集包含的样本数据个数和样本数据包含的特征个数是否均匹配;如果是,确定各训练成员设备本地存储的样本数据集通过数据对齐验证;反之,确定各训练成员设备本地存储的样本数据集未通过数据对齐验证。
23.根据权利要求21所述的装置,所述多个训练成员设备训练的所述深度学习网络的前N层的层数和前N层每层的节点数,由多个训练成员设备之间进行通信协商得到;
所述多个训练成员设备分别从本地存储的样本数据集中读取的样本数据的数量,由多个训练成员设备之间进行通信协商得到。
24.根据权利要求23所述的装置,所述验证模块进一步:
如果所述数据交集包括ID相同且包含的特征不同的样本数据,验证从本地存储的样本数据集中读取到的样本数据的ID,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据的ID是否相同;如果是,进一步由第二计算模块基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据;
如果所述数据交集包括ID不相同且包含的特征相同的样本数据,验证从本地存储的样本数据集中读取到的样本数据包含的特征,与其它各训练成员设备从其本地存储的样本数据集中读取到的样本数据包含的特征是否相同;如果是,进一步由第二计算模块基于秘密共享算法将从读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算,得到共享样本数据。
25.根据权利要求24所述的装置,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
26.根据权利要求17所述的装置,所述秘密共享算法包括SMM秘密矩阵乘法。
27.根据权利要求17所述的装置,所述深度学习网络包括深度神经网络。
28.一种隐私数据的处理装置,应用于深度学习网络的分布式训练系统中的服务器;所述分布式训练系统包括服务器和多个训练成员设备;其中,所述多个训练成员设备分别存储了包含隐私数据的样本数据集;包括:
接收模块,接收各训练成员设备分别发送的将共享样本数据作为输入数据,执行所述深度学习网络的前N层的训练计算,得到的所述前N层的训练计算结果;其中,所述共享样本数据,为各训练成员设备基于秘密共享算法将从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段,与其它的训练成员设备发送的从其本地存储的样本数据集中读取到的样本数据中拆分出的数据片段进行秘密共享运算得到;
第三计算模块,将所述各训练成员设备分别发送的所述前N层的训练计算结果作为输入数据,执行所述前N层以外的剩余层的训练计算,并将所述深度学习网络的输出结果发送至所述多个训练成员设备中的目标设备,以由所述目标设备基于所述输出结果计算所述深度学习网络的训练误差;
第二调整模块,接收所述目标设备发送的所述训练误差,基于所述训练误差计算与所述前N层的网络参数对应的参数调整量,并将所述参数调整量发送至各训练成员设备,以使各训练成员设备基于所述参数调整量对所述前N层的网络参数进行调整。
29.根据权利要求28所述的装置,所述第二调整模块:
基于所述训练误差计算与所述前N层的网络参数对应的参数调整量之前,基于所述训练误差计算与所述前N层以外的剩余层的网络参数对应的参数调整量,并基于所述参数调整量对所述剩余层的网络参数进行调整。
30.根据权利要求28所述的装置,所述目标设备为所述多个训练成员设备中,其本地存储的样本数据集中携带样本标签的训练成员设备。
31.根据权利要求28所述的装置,所述秘密共享算法包括SMM秘密矩阵乘法。
32.根据权利要求28所述的装置,所述深度学习网络包括深度神经网络。
33.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-11中任一项所述的方法。
34.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求12-16中任一项所述的方法。
CN201911287600.XA 2019-12-14 2019-12-14 一种隐私数据的处理方法及装置 Active CN110955915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911287600.XA CN110955915B (zh) 2019-12-14 2019-12-14 一种隐私数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911287600.XA CN110955915B (zh) 2019-12-14 2019-12-14 一种隐私数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN110955915A true CN110955915A (zh) 2020-04-03
CN110955915B CN110955915B (zh) 2022-03-25

Family

ID=69981584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911287600.XA Active CN110955915B (zh) 2019-12-14 2019-12-14 一种隐私数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN110955915B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506922A (zh) * 2020-04-17 2020-08-07 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行显著性检验的方法和装置
CN111931947A (zh) * 2020-10-12 2020-11-13 支付宝(杭州)信息技术有限公司 一种用于分布式模型训练的训练样本重组方法及系统
CN112149158A (zh) * 2020-08-19 2020-12-29 成都飞机工业(集团)有限责任公司 一种基于同态加密技术的3d打印多数据库共享优化算法
CN112507388A (zh) * 2021-02-05 2021-03-16 支付宝(杭州)信息技术有限公司 基于隐私保护的word2vec模型训练方法、装置及系统
CN112818389A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN113922960A (zh) * 2020-07-08 2022-01-11 神州融安科技(北京)有限公司 一种基于sm2的psi获取方法、装置及系统
CN114650134A (zh) * 2022-03-31 2022-06-21 深圳前海环融联易信息科技服务有限公司 一种基于秘密共享的纵向隐私保护逻辑回归方法
CN114925744A (zh) * 2022-04-14 2022-08-19 支付宝(杭州)信息技术有限公司 联合训练的方法及装置
JP7414655B2 (ja) 2020-07-01 2024-01-16 株式会社東芝 学習システム、情報処理装置、学習方法およびプログラム

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN107688493A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 训练深度神经网络的方法、装置及系统
CN108021819A (zh) * 2016-11-04 2018-05-11 西门子保健有限责任公司 使用深度学习网络的匿名和安全分类
CN108491928A (zh) * 2018-03-29 2018-09-04 腾讯科技(深圳)有限公司 模型参数训练方法、装置、服务器及存储介质
CN108712260A (zh) * 2018-05-09 2018-10-26 曲阜师范大学 云环境下保护隐私的多方深度学习计算代理方法
CN109308418A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
US20190042934A1 (en) * 2017-12-01 2019-02-07 Meenakshi Arunachalam Methods and apparatus for distributed training of a neural network
CN109388662A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
WO2019048390A1 (en) * 2017-09-07 2019-03-14 Koninklijke Philips N.V. MULTI-PART CALCULATION SYSTEM FOR LEARNING A CLASSIFIER
WO2019072316A2 (en) * 2019-01-11 2019-04-18 Alibaba Group Holding Limited DISTRIBUTED MULTI-PART SECURITY MODEL LEARNING APPARATUS FOR PRIVACY PROTECTION
CN109685202A (zh) * 2018-12-17 2019-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、存储介质和电子装置
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
CN110268423A (zh) * 2016-08-19 2019-09-20 莫维迪乌斯有限公司 用于深度学习模型的分布式训练的系统和方法
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110443416A (zh) * 2019-07-30 2019-11-12 卓尔智联(武汉)研究院有限公司 基于共享数据的联邦建模装置、方法及可读存储介质
CN110460600A (zh) * 2019-08-13 2019-11-15 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069286A (zh) * 2015-07-24 2015-11-18 上海交通大学 基于垂直分布隐私数据保护的logistic回归分析系统
CN107688493A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 训练深度神经网络的方法、装置及系统
CN110268423A (zh) * 2016-08-19 2019-09-20 莫维迪乌斯有限公司 用于深度学习模型的分布式训练的系统和方法
CN108021819A (zh) * 2016-11-04 2018-05-11 西门子保健有限责任公司 使用深度学习网络的匿名和安全分类
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
CN109308418A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
CN109388662A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
WO2019048390A1 (en) * 2017-09-07 2019-03-14 Koninklijke Philips N.V. MULTI-PART CALCULATION SYSTEM FOR LEARNING A CLASSIFIER
US20190042934A1 (en) * 2017-12-01 2019-02-07 Meenakshi Arunachalam Methods and apparatus for distributed training of a neural network
CN108491928A (zh) * 2018-03-29 2018-09-04 腾讯科技(深圳)有限公司 模型参数训练方法、装置、服务器及存储介质
CN108712260A (zh) * 2018-05-09 2018-10-26 曲阜师范大学 云环境下保护隐私的多方深度学习计算代理方法
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN109685202A (zh) * 2018-12-17 2019-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、存储介质和电子装置
WO2019072316A2 (en) * 2019-01-11 2019-04-18 Alibaba Group Holding Limited DISTRIBUTED MULTI-PART SECURITY MODEL LEARNING APPARATUS FOR PRIVACY PROTECTION
CN109977694A (zh) * 2019-03-11 2019-07-05 暨南大学 一种基于协作深度学习的数据共享方法
CN110288094A (zh) * 2019-06-10 2019-09-27 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法及装置
CN110443416A (zh) * 2019-07-30 2019-11-12 卓尔智联(武汉)研究院有限公司 基于共享数据的联邦建模装置、方法及可读存储介质
CN110460600A (zh) * 2019-08-13 2019-11-15 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506922A (zh) * 2020-04-17 2020-08-07 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行显著性检验的方法和装置
CN111506922B (zh) * 2020-04-17 2023-03-10 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行显著性检验的方法和装置
JP7414655B2 (ja) 2020-07-01 2024-01-16 株式会社東芝 学習システム、情報処理装置、学習方法およびプログラム
CN113922960A (zh) * 2020-07-08 2022-01-11 神州融安科技(北京)有限公司 一种基于sm2的psi获取方法、装置及系统
CN113922960B (zh) * 2020-07-08 2023-10-24 神州融安数字科技(北京)有限公司 一种基于sm2的psi获取方法、装置及系统
CN112149158A (zh) * 2020-08-19 2020-12-29 成都飞机工业(集团)有限责任公司 一种基于同态加密技术的3d打印多数据库共享优化算法
CN111931947A (zh) * 2020-10-12 2020-11-13 支付宝(杭州)信息技术有限公司 一种用于分布式模型训练的训练样本重组方法及系统
CN112818389A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN112818389B (zh) * 2021-01-26 2023-12-22 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN112507388B (zh) * 2021-02-05 2021-05-25 支付宝(杭州)信息技术有限公司 基于隐私保护的word2vec模型训练方法、装置及系统
CN112507388A (zh) * 2021-02-05 2021-03-16 支付宝(杭州)信息技术有限公司 基于隐私保护的word2vec模型训练方法、装置及系统
CN114650134A (zh) * 2022-03-31 2022-06-21 深圳前海环融联易信息科技服务有限公司 一种基于秘密共享的纵向隐私保护逻辑回归方法
CN114925744A (zh) * 2022-04-14 2022-08-19 支付宝(杭州)信息技术有限公司 联合训练的方法及装置

Also Published As

Publication number Publication date
CN110955915B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN110955915B (zh) 一种隐私数据的处理方法及装置
CN110929886B (zh) 模型训练、预测方法及其系统
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
CN109165725B (zh) 基于迁移学习的神经网络联邦建模方法、设备及存储介质
WO2021047535A1 (en) Method, apparatus and system for secure vertical federated learning
US20230023520A1 (en) Training Method, Apparatus, and Device for Federated Neural Network Model, Computer Program Product, and Computer-Readable Storage Medium
US20230078061A1 (en) Model training method and apparatus for federated learning, device, and storage medium
CN112085159B (zh) 一种用户标签数据预测系统、方法、装置及电子设备
KR20200079219A (ko) 일반 계정 모델 및 동형 암호화 기반의 블록 체인 데이터 보호
CN112288097A (zh) 联邦学习数据处理方法、装置、计算机设备及存储介质
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN111738361B (zh) 业务模型的联合训练方法及装置
CN111460528B (zh) 一种基于Adam优化算法的多方联合训练方法及系统
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN111860829A (zh) 联邦学习模型的训练方法及装置
CN110751291A (zh) 实现安全防御的多方联合训练神经网络的方法及装置
CN112799708B (zh) 联合更新业务模型的方法及系统
CN111612167B (zh) 机器学习模型的联合训练方法、装置、设备及存储介质
US11341411B2 (en) Method, apparatus, and system for training neural network model
CN114611720B (zh) 联邦学习模型训练方法、电子设备及存储介质
CN116167868A (zh) 基于隐私计算的风险识别方法、装置、设备以及存储介质
CN110874638B (zh) 面向行为分析的元知识联邦方法、装置、电子设备及系统
CN114186256A (zh) 神经网络模型的训练方法、装置、设备和存储介质
CN112860800A (zh) 基于区块链和联邦学习的可信网络应用方法和装置
CN111507218A (zh) 语音与人脸图像的匹配方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026906

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant