CN111490995A - 保护隐私的模型训练方法和装置、数据处理方法、服务器 - Google Patents

保护隐私的模型训练方法和装置、数据处理方法、服务器 Download PDF

Info

Publication number
CN111490995A
CN111490995A CN202010533506.4A CN202010533506A CN111490995A CN 111490995 A CN111490995 A CN 111490995A CN 202010533506 A CN202010533506 A CN 202010533506A CN 111490995 A CN111490995 A CN 111490995A
Authority
CN
China
Prior art keywords
data
server
processed
characteristic data
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010533506.4A
Other languages
English (en)
Inventor
李翰林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010533506.4A priority Critical patent/CN111490995A/zh
Publication of CN111490995A publication Critical patent/CN111490995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/04Protocols for data compression, e.g. ROHC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/0819Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
    • H04L9/0822Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using key encryption key

Abstract

本说明书提供了保护隐私的模型训练方法和装置、数据处理方法、服务器。在一个实施例中,基于保护隐私的模型训练方法,第一服务器、第二服务器可以分别对各自所拥有的第一特征数据、第二特征数据先进行矩阵压缩,再对压缩后的特征数据进行加密处理,得到数据量相对较小、安全性较高的处理后的特征数据,并将上述处理后的特征数据发送至第三服务器;由于处理后的特征数据的数据量较小,第三服务器可以在安全等级较高的可信执行环境中,直接根据上述处理后的第一特征数据、处理后的第二特征数据进行相应的模型训练,从而可以减少数据处理量,能够在可信执行环境中高效、安全地进行模型训练,保护双方的数据隐私,降低了训练数据遭到泄漏的风险。

Description

保护隐私的模型训练方法和装置、数据处理方法、服务器
技术领域
本说明书属于互联网技术领域,尤其涉及保护隐私的模型训练方法和装置、数据处理方法、服务器。
背景技术
在一些应用场景中,有时需要同时获取并利用两方各自拥有的数据进行模型训练,且还要求在模型训练的过程中避免两方各自拥有的数据遭到泄漏。
目前,亟需一种能够高效、安全地利用两方分别拥有的数据进行模型训练的方法。
发明内容
本说明书提供了一种保护隐私的模型训练方法和装置、数据处理方法、服务器,以便可以减少数据处理量,在可信执行环境中高效、安全地利用两方分别拥有的特征数据进行模型训练,保护参与模型训练的双方的数据隐私,降低了用于模型训练的数据遭到泄漏的风险。
本说明书提供的一种保护隐私的模型训练方法和装置、数据处理方法、服务器是这样实现的:
一种保护隐私的模型训练方法,包括:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
一种保护隐私的模型训练方法,包括:接收处理后的第一特征数据,以及处理后的第二特征数据,其中,所述处理后的第一特征数据包括第一服务器对压缩后的第一特征数据进行加密处理得到的数据,所述压缩后的第一特征数据包括对第一特征数据进行矩阵压缩得到的数据,所述处理后的第二特征数据包括第二服务器对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据;在可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型。
一种保护隐私的模型训练方法,包括:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;获取处理后的第二特征数据,其中,所述处理后的第二特征数据包括第二服务器响应所述模型训练请求,对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据;在可信执行环境中,根据所述压缩后的第一特征数据,以及所述处理后的第二特征数据,进行模型训练, 以得到目标模型。
一种保护隐私的模型训练方法,包括:接收多个处理后的特征数据,其中,所述多个处理后的特征数据包括多个服务器分别对压缩后的特征数据进行加密处理得到的数据,所述压缩后的特征数据包括服务器对特征数据进行矩阵压缩得到的数据;在可信执行环境中,根据所述多个处理后的特征数据进行模型训练,以得到目标模型。
一种数据处理方法,包括:第一服务器响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据,利用第一加密秘钥对所述压缩后的第一数据进行加密处理,得到处理后的第一数据,将所述处理后的第一数据发送至第三服务器;第二服务器响应数据处理请求,获取并对第二数据进行矩阵压缩,得到压缩后的第二数据,利用第二加密秘钥对所述压缩后的第二数据进行加密处理,得到处理后的第二数据,将所述处理后的第二数据发送至第三服务器;第三服务器接收所述处理后的第一数据、所述处理后的第二数据;所述第三服务器在可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行相应的数据处理。
一种数据处理方法,包括:响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据;获取处理后的第二数据,其中,所述处理后的第二数据包括第二服务器响应所述数据处理请求,对压缩后的第二数据进行加密处理得到的数据,所述压缩后的第二数据包括对第二数据进行矩阵压缩得到的数据;在可信执行环境中,根据所述压缩后的第一数据,以及所述处理后的第二数据,进行相应的数据处理。
一种保护隐私的模型训练装置,包括:第一处理模块,用于响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;第二处理模块,用于利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;发送模块,用于将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
本说明书提供的保护隐私的模型训练方法和装置、数据处理方法、服务器,通过第一服务器、第二服务器分别对各自所拥有的第一特征数据、第二特征数据先进行矩阵压缩,再对压缩后的特征数据进行加密处理,得到数据量相对较小、安全性较高的处理后的第一特征数据和处理后的第二特征数据,并将上述处理后的特征数据发送至第三服务器;由于处理后的特征数据的数据量较小,第三服务器可以在安全等级较高的可信执行环境中,直接根据上述处理后的第一特征数据、处理后的第二特征数据进行相应的模型训练,从而可以减少数据处理量,能够在可信执行环境中高效、安全地利用参与模型训练的两方各自拥有的特征数据进行模型训练,保护了两方的数据隐私,降低了用于模型训练的数据遭到泄漏的风险。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的保护隐私的模型训练方法的系统结构组成的一个实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的保护隐私的模型训练方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的保护隐私的模型训练方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的保护隐私的模型训练方法的一种实施例的示意图;
图5是本说明书的一个实施例提供的保护隐私的模型训练方法的流程示意图;
图6是本说明书的一个实施例提供的保护隐私的模型训练方法的一个实施例示意图;
图7是本说明书的一个实施例提供的保护隐私的模型训练方法的一个实施例示意图;
图8是本说明书的一个实施例提供的保护隐私的模型训练方法的一个实施例示意图;
图9是本说明书的一个实施例提供的保护隐私的模型训练方法的流程示意图;
图10是本说明书的一个实施例提供的保护隐私的模型训练方法的一个实施例示意图;
图11是本说明书的一个实施例提供的保护隐私的模型训练方法的流程示意图;
图12是本说明书的一个实施例提供的数据处理方法的流程示意图;
图13是本说明书的一个实施例提供的服务器的结构组成示意图;
图14是本说明书的一个实施例提供的保护隐私的模型训练装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供了一种保护隐私的模型训练方法,所述保护隐私的模型训练方法具体可以应用于包含有多个服务器的系统中。具体可以参与图1所示。该系统具体可以包括三个服务器,分别为第一服务器、第二服务器和第三服务器。其中,第一服务器拥有用于模型训练的第一特征数据,第二服务器拥有用于模型训练的第二特征数据。第一服务器和第二服务器分别可以通过有线或无线的方式与第三服务器相连。
具体实施时,第一服务器可以响应模型训练请求,对所获取的第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;再将所述处理后的第一特征数据发送至第三服务器。
同时,第二服务器可以响应模型训练请求,获取并对第二特征数据进行矩阵压缩,得到压缩后的第二特征数据;利用第二加密秘钥对所述压缩后的第二特征数据进行加密处理,得到处理后的第二特征数据;再将所述处理后的第二特征数据发送至第三服务器。
第三服务器可以接收所述处理后的第一特征数据、所述处理后的第二特征数据;由于处理后的第一特征数据、处理后的第二特征数据的数据量相对较小,第三服务器可以直接在可信执行环境中加载所述处理后的第一特征数据、所述处理后的第二特征数据。
进一步,第三服务器还可以在所述可信执行环境中,对上述处理后的第一特征数据和第二特征数据进行解密处理,得到压缩后的第一特征数据和压缩后的第二特征数据;并在可信执行环境中,根据所述压缩后的第一特征数据和压缩后的第二特征数据进行模型训练。从而能够有效地减少数据处理量,能够在可信执行环境中高效、安全地进行模型训练,降低了用于模型训练的数据遭到泄漏的风险,有效地保护了参与模型训练双方的数据隐私。
在本实施例中,所述第一服务器、第二服务器和第三服务器具体可以包括一种应用于数据处理平台一侧,能够实现数据传输、数据处理等功能的服务器。具体的,所述第一服务器、第二服务器和第三服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。上述第一服务器、第二服务器和第三服务器具体可以为一个服务器,也可以为由若干服务器形成的服务器集群。
在一个具体的场景示例中,参阅图2所示,可以应用本说明书实施例提供的保护隐私的模型训练方法来共同进行模型训练。
在本场景示例中,A购物网的第一服务器和B购物网的第二服务器分别拥有大量的所属购物网上的用户的商品交易数据。其中,A购物网上的用户的商品交易数据与B购物网上的用户的商品交易数据会存在一定的差异。例如,A购物网上的用户的商品交易数据中大多是购买电器类商品的交易数据,而B购物网上的用户的商品交易数据中大多是购买服装类商品的交易数据。
目前,A购物网和B购物网想要通过合作,利用双方各自所拥有的交易数据来共同训练出一个能较为准确、全面地预测用户在购物网上对不同类型商品的购买偏好的模型。同时,A购物网和B购物网还要求在模型训练过程中,不希望将各自所拥有的用户的商品交易数据泄漏给对方,或者其他第三方。
在本场景示例中,A购物网和B购物网可以选择C计算平台作为负责模型训练的第三方,由C计算平台的第三服务器和第一服务器、第二服务器协作,来共同训练模型。
具体实施时,可以由第一服务器、第二服务器或第三服务器中的任意一个服务器发起模型训练请求。
第一服务器和第二服务器可以响应上述模型训练请求,各自分别生成并保存第一加密秘钥和第二加密秘钥。
进一步,第一服务器和第二服务还可以根据各自所拥有的第一加密秘钥和第二加密秘钥,分别生成匹配的第一解密秘钥和第二解密秘钥,并将上述第一解密秘钥和第二解密秘钥分别发送给第三服务器。
其中,上述第一解密秘钥和第二解密秘钥可以是基于预设的秘钥处理规则生成的。具体的,上述第一解密秘钥和第二解密秘钥可以是与第三服务器的可信执行环境关联的秘钥数据。例如,上述第一解密秘钥和第二解密秘钥可以是一种只有在第三服务器的可信执行环境中才能有效,才能用于解密第一加密秘钥和第二加密秘钥加密后的数据的秘钥数据。
其中,上述可信执行环境具体可以包括第三服务器中的安全等级较高(例如,安全等级符合预设的安全要求)环境区域。具体的,上述可信执行环境可以是通过硬件配置等方式从第三服务器中划分出的与常用的相对较开放的环境区域(例如,Rich ExecutionEnvironment,REE等)隔离开的硬件区域。
在本场景示例中,上述可信执行环境(Trust Execution Environment,TEE)可以运行一个完整的操作系统,可以理解为第三服务器中的Secure World。区别于NormalWorld(例如,第三服务器中的REE),上述可信执行环境的内存空间通常相对较小,例如,可能只有100MB。在第三服务器中,通常只有部分安全性要求较高的数据会在上述TEE中执行处理;大部分的数据则会在例如REE等 Normal World上执行处理。当然,上述所列举的可信执行环境只是一种示意性说明。具体实施,根据具体的应用场景,以及第三服务器的具体情况,也可以选择第三服务器中的其他安全等级较高的区域替换上述可信执行环境。
在本场景示例中,第一服务器在生成第一加密秘钥的同时,还可以获取所拥有A购物网上的用户的商品交易数据作为第一样本数据,并对上述第一样本数据进行相应的数据处理,例如,特征提取等处理,得到对应的特征矩阵(例如,X矩阵),作为第一特征数据。
参阅图3所示,进一步,第一服务器可以根据预设的压缩规则,对上述第一特征数据进行矩阵压缩,得到压缩后的第一特征数据。这样可以将原本数据量相对较大的第一特征数据压缩成数据量相对较小,但保留了第一特征数据中的有效数据(例如,第一特征数据中的非零数据元素)的压缩后的第一特征数据,便于后续第三服务器可以直接在第三服务器的TEE中加载、使用上述压缩后的第一特征数据。
在本场景示例中,考虑到上述特征数据大多是包含有大量无意义的数据值为零的数据元素的稀疏矩阵,具体实施时,第一服务器可以先检测并确定出上述第一特征数据中非零数据元素的位置信息。例如,可以确定出第一特征数据中各个非零数据元素在X矩阵中的行号、列号等信息作为第一特征数据中非零数据元素的位置信息。再根据预设的压缩规则,确定出第一特征数据的结构类型。例如确定第一特征数据是否与预设的结构化特征(例如,一种标准的结构化的且非零数据元素对称分布或者沿对角线分布的矩阵模板)相同或相近的第一结构类型,或者与预设的非结构化特征(例如,一个标准的非结构化的矩阵模板等)相同或相近的第二结构类型,又或者是介于第一结构类型和第二结构类型之间的第三结构类型。
其中,上述预设的压缩规则具体可以包括用于判定特征数据所属的结构类型的数据,例如,预设的结构化特征、预设的非结构化特征,以及用于判定的第一预设匹配度阈值、第二预设匹配度阈值等。此外,上述预设的压缩规则具体还可以包括不同结构类型与不同矩阵压缩方式的对应关系等。
上述结构类型具体可以包括:第一结构类型、第二结构类型和第三结构类型等。其中,上述第一结构类型具体可以包括与预设的结构化特征相同,或者相近的结构类型(例如,与预设的结构化特征之间的匹配度大于第一预设匹配度阈值的矩阵)。上述匹配度具体可以理解为一种矩阵结构的相似程度。上述第二结构类型具体可以包括与预设的非结构化特征相同,或者相近的结构类型(例如,与预设的非结构化特征之间的匹配度大于第二预设匹配度阈值的矩阵)。上述第三结构类型具体可以包括介于第一结构类型和第二结构类型之间的结构类型(例如,与预设的结构化特征之间的匹配度小于或等于第一预设匹配度阈值,且与预设的非结构化特征之间的匹配度小于或等于第二预设匹配度阈值的矩阵)。当然,需要说明的是,上述所列举的结构类型只是一种示意性说明。具体实施时,根据具体的应用场景和所涉及的特征数据的具体结构特点,上述结构类型还可以包括除上述所列举的结构类型以外其他的结构类型。对此,本说明书不作限定。
上述矩阵压缩方式具体可以包括:COO(Coordinate)、CSR(Compressed SparseRow)和DIA(Diagonal)等。当然,上述所列举的矩阵压缩方式只是一种示意性说明。具体实施时,根据具体的应用场景和所涉及的特征数据的具体特点,上述结构类型还可以包括其他合适的矩阵压缩方式。
上述结构类型和矩阵压缩方式的对应关系具体可以包括:第一结构类型与DIA对应,第二结构类型与COO应,第三结构类型与CSR对应。
在本场景示例中,第一服务器可以根据预设的压缩规则和第一特征数据中非零数据元素的位置信息,确定出第一特征数据分别与预设的结构化特征、预设的非结构化特征之间的近似度作为对应与预设的结构化特征、预设的非结构化特征之间的匹配度,再根据上述与预设的结构化特征、预设的非结构化特征之间的匹配,以及第一预设匹配度阈值和第二预设匹配度阈值,来确定出第一特征数据所属的结构类型。
进而可以根据第一特征数据的结构类型、预设的压缩规则中的对应关系,选择匹配的矩阵压缩方式对第一特征数据进行具体的矩阵压缩,得到压缩后的第一特征数据。这样可以充分利用第一特征数据的结构特点,有针对性地选择较为合适的矩阵压缩方式对第一特征数据进行矩阵压缩,从而可以进一步减少压缩后的第一特征数据的数据量。
接着,第一服务器可以利用第一加密秘钥对上述压缩后的第一特征数据进行加密处理,得到加密后的被压缩的第一特征数据,作为处理后的第一特征数据。再将上述处理后的第一特征数据,通过有线或无线的方式发送至第三服务器。
类似的,第二服务器可以在生成第二加密秘钥的同时,可以获取所拥有B购物网上的用户的商品交易数据作为第二样本数据,并对上述第二样本数据进行相应的数据处理,例如,特征提取等,得到对应的特征矩阵(例如,Y矩阵),作为第二特征数据。再按照与上述第一服务器处理第一特征数据类似的处理方式,先对第二特征数据进行矩阵压缩得到压缩后的第二特征数据,再利用第二加密秘钥对上述压缩后的第二特征数据进行加密处理,得到处理后的第二特征数据,并将上述处理后的第二特征数据发送至第三服务器。
第三服务器在接收到上述处理后的第一特征数据和处理后的第二特征数据后,由于上述处理后的第一特征数据和处理后的第二特征数据是事先经过矩阵压缩的,数据量相同较小。因此,第三服务器可以直接将所接收到的处理后的第一特征数据和处理后的第二特征数据加载并保存在第三服务器的TEE中,相对于保存在第三服务器的REE中,可以有效地降低处理后的第一特征数据和处理后的第二特征数据被泄漏的风险。后续第三服务器还可以在TEE中,基于多方安全计算的方式与第一服务器和第二服务器根据上述处理后的第一特征数据和处理后的第二特征数据,共同进行模型训练,以进一步提高数据的安全性。
进一步,第三服务器可以利用事先得到的第一解密秘钥在TEE中解密处理后的第一特征数据,得到压缩后的第一特征数据。同时,利用事先得到的第二解密秘钥在TEE中解密处理后的第二特征数据,得到压缩后的第二特征数据。由于压缩后的第一特征数据、压缩后的第二特征数据经矩阵压缩后,数据量相对较小。因此,第三服务器可以直接在TEE中利用上述压缩后的第一特征数据和压缩后的第二特征数据进行模型训练,得到符合要求的能较为准确、全面地预测用户在购物网上对不同类型商品的购买偏好的模型作目标模型。
在本场景示例中,第三服务器在按照上述方式得到目标模型后,可以根据C计算平台事先与A购物网、B购物网约定的协议规则,确定第一服务器和第二服务器均具有获取目标模型的权限。进而可以将上述目标模型分别发送给第一服务器和第二服务器。
具体实施时,为了避免目标模型遭到泄漏,第三服务器还可以在TEE中生成第三加密秘钥,以及与第三加密秘钥对应的第三解密秘钥,并将所述第三解密秘钥分别发送给第一服务器和第二服务器。
第三服务器可以在TEE中,利用第三加密秘钥对目标模型进行加密处理,得到加密后的目标模型,再将加密后的目标模型分别发送给第一服务器和第二服务器。
相应的,第一服务器和第二服务器在接收到加密后的目标模型后,可以利用事先得到的第三解密秘钥对上述加密后的目标模型进行解密处理,得到目标模型。进而,第一服务器和第二服务器可以分别利用上述目标模型来预测各自购物网上的用户对商品的购买偏好,得到对应的预测结果,再根据上述预测结果,有针对性地在各自购物网上对不同的用户开展相对应的商品推广活动,以提高购物网的商品交易成单率。这样可以在A购物网和B购物网都无法知晓获取对方所拥有的用户的商品交易数据的情况下,综合利用双方各自拥有的数据,高效、安全地训练得到了相应目标模型,减少了训练过程中所涉及的数据处理量,也降低了训练过程中数据遭到泄漏的风险,保护了双方的数据隐私。
在另一个场景示例中,参阅图4所示,可以应用本说明书实施例提供的数据处理方法来获取并综合利用多方各自拥有的数据,来预测用户的健康情况,生成用户的健康报告。
在本场景示例中,体检机构的服务器W拥有并保管有当前用户甲在该体检机构体检时所采集得到的体检数据(记为体检数据1)。此外,服务器W还拥有该体检机构自主研发的能够综合用户的多种体检数据,从多角度分析并预测用户的健康状况,生成较为全面、精准的健康报告的健康预测模型。而医院的服务器V拥有并保管有用户甲之前在该医院治疗时所采集的与治疗相关的体检数据(记为体检数据2)。基因检测公司的服务器T拥有并保管有用户甲之前参与该公司的基因检测项目时所采集的包含基因数据的体检数据(记为体检数据3)。
当前体检机构的服务器W想要获取并综合利用上述三种不同的体检数据,以便能够较为全面、精准地确定用户甲的健康状况。但由于上述体检数据涉及用户甲的个人隐私,为了避免用户甲的隐私数据在使用的过程中遭到泄漏。具体实施时,可以按照以下方式实现。
体检机构的服务器W发起关于用户甲的处理请求,其中,上述处理请求中可以携带有用户甲的身份标识。
医院的服务器V接收并响应该处理请求,根据处理请求上携带的用户甲的身份标识从医院的数据库中检索并获取与该身份标识匹配的体检数据2。同时,服务器V还响应该处理请求,生成第一加密秘钥,以及与第一加密秘钥匹配的,但只在服务器W的TEE中有效的第一解密秘钥,并将上述第一解密秘钥发送至服务器W。
进一步,服务器V可以先对上述体检数据2进行矩阵压缩,得到压缩后的体检数据2。并利用第一加密秘钥对压缩后的体检数据2进行加密处理,得到处理后的体检数据2。再将上述处理后的体检数据2发送至服务器W。
类似的,基因检测公司的服务器T接收并响应该处理请求,根据处理请求上携带的用户甲的身份标识,从该基因检测公司的数据库中检索并获取与该身份标识匹配的体检数据3。同时,服务器T还响应该处理请求,生成第二加密秘钥,以及与第二加密秘钥匹配的,但只在服务器W的TEE中有效的第二解密秘钥,并将上述第二解密秘钥发送至服务器W。
进一步,服务器T可以先对上述体检数据3进行矩阵压缩,得到压缩后的体检数据3。并利用第二加密秘钥对压缩后的体检数据3进行加密处理,得到处理后的体检数据3。再将上述处理后的体检数据3发送至服务器W。
服务器W接收到处理后的体检数据2、处理后的体检数据3,以及第一解密秘钥和第二解密秘钥。由于上述处理后的体检数据2、体检数据3是经过矩阵压缩的数据,数据量相对较小。因此,服务器W可以根据预设的调用规则(例如,GlobalPlatform的规范),调用相应的接口将上述处理后的体检数据2、处理后的体检数据3,以及第一解密秘钥和第二解密秘钥加载保存在服务器W的TEE中。
此外,服务器W还可以根据用户甲的身标识,检索体检机构的数据库,获取与该身份标识匹配的体检数据1。并对上述体检数据1进行矩阵压缩,得到压缩后的体检数据1,将上述压缩后的体检数据1保存到服务器W的TEE中。
在本场景示例中,具体实施时,服务器W可以在TEE中,先利用第一解密秘钥对处理后的体检数据2进行解密处理,得到压缩后的体检数据2;利用第二解密秘钥对处理后的体检数据3进行解密处理,得到压缩后的体检数据3。再在TEE中,将上述压缩后的体检数据1、压缩后的体检数据2和压缩后的体检数据3进行组合,得到模型的输入数据。在TEE中,将上述输入数据输入至健康预测模型;并在TEE中,运行上述健康预测模型,得到对应的模型输出。再根据上述模型输出,生成用户甲的健康报告。这样可以有效地保护用户甲的数据隐私,避免了用户甲的体检数据在使用的过程中出现泄漏。
参阅图5所示,本说明书实施例提供了一种保护隐私的模型训练方法。其中,该方法具体可以应用于包含有至少两个服务器的系统中。具体实施时,该方法可以包括以下内容。
第一服务器响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据,利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据,将所述处理后的第一特征数据发送至第三服务器。第二服务器响应模型训练请求,获取并对第二特征数据进行矩阵压缩,得到压缩后的第二特征数据,利用第二加密秘钥对所述压缩后的第二特征数据进行加密处理,得到处理后的第二特征数据,将所述处理后的第二特征数据发送至第三服务器。
第三服务器接收所述处理后的第一特征数据、所述处理后的第二特征数据;所述第三服务器在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
在一些实施例中,上述可信执行环境具体可以为第三服务器中的安全等级较高(例如,安全等级符合预设的安全要求)环境区域。具体的,上述可信执行环境可以是通过硬件配置等方式从第三服务器中划分出的与常用的相对较开放的环境区域(例如,RichExecution Environment,REE等)隔离开的硬件区域。
在一些实施例中,上述第一特征数据具体可以是第一服务器所属的数据提供方所拥有的数据,上述第二特征数据具体可以是第二服务器所属的数据提供方所拥有的数据。其中,上述第一特征数据和第二特征数据具体可以用于针对目标模型的模型训练。
具体实施时,根据目标模型所对应的不同的应用场景,上述第一特征数据、第二特征数据具体可以是不同类型、内容的特征数据。
例如,如果待训练的目标模型为人脸识别模型,上述第一特征数据和第二特征数据可以是不同数据提供方所采集得到的与人脸相关的特征数据。又例如,如果待训练的目标模型为用于预测网上用户购买商品偏好的模型,上述第一特征数据和第二特征数据可以是不同数据提供方从不同的购物网上采集得到与用户购买商品相关的特征数据。还例如,如果待训练的目标模型为用于预测用户健康状况的模型,上述第一特征数据和第二特征数据可以是不同数据提供方采集得到的与用户的健康情况相关的特征数据等。当然,上述所列举的第一特征数据、第二特征数据只是一种示意性说明。具体实施时,根据所对应的具体应用场景,上述第一特征数据、第二特征数据还可以是其他内容、类型的特征数据。
在一些实施中,上述第一特征数据具体可以包括一种矩阵数据。具体的,例如,上述第一特征数据可以为一种稀疏矩阵。具体的,上述第一特征数据中往往会包含有数量较多的数据值为零的数据元素。但这类数据元素对于后续的模型训练的作用往往相对较小。上述第二特征数据与上述第一特征数据类似,可以参照上述关于第一特征数据的说明,在此不作赘述。
在一些实施例中,上述第一服务器和上述第二服务器作为数据提供方,希望与对方合作,可以综合利用双方各自所拥有的特征数据,以共同训练模型;同时,还要求避免将己方所拥有的特征数据泄漏给对方,或者其他第三方。上述第三服务器(例如,计算平台的服务器)可以作为第三方,参与模型计算,并按照上述第一服务器和第二服务器要求来高效、安全地训练模型,避免在模型训练的过程中特征数据遭到泄漏。
在一些实施例中,具体实施时,可以由第一服务器、第二服务器和第三服务器中的任意一个服务器发起模型训练请求。系统中的其他服务器接收该模型训练请求后,可以与发起该模型训练请求的服务器一起响应该模型训练请求,通过基于多方安全计算(MPC)的方式,来共同进行具体的模型训练。
在一些实施例中,对于第一服务器,具体实施时,可以响应模型训练请求,先获取上述第一特征数据。
在一些实施例中,具体实施时,第一服务器可以响应所述模型训练请求,获取第一样本数据,再对上述第一样本数据进行处理,得到所述第一特征数据。
其中,上述第一样本数据具体可以是第一服务器所拥有的样本数据。也可以是属于第一服务器所属的数据提供方的其他的服务器所拥有的样本数据。还可以是与第一服务器关联,且第一服务器有权限使用的其他服务器所拥有的样本数据等。
在一些实施例中,第一服务器可以获取上述第一样本数据,再通过对上述第一样数据进行例如特征工程、特征提取等处理,从上述第一样本数据中提取得到对应的第一特征数据。当然,也可以是第一服务器直接从其他服务器获取得到的处理好的特征数据,作为上述第一特征数据。
在一些实施例中,上述第一特征数据所包含的数据量有时会相对比较大,而第三服务器中的可信执行环境的内存空间往往相对有限,导致第三服务器可能无法将上述第一特征数据加载保存到可信执行环境中,或者无法在可信执行环境中直接使用上述第一特征数据和第二特征数据进行模型训练。因此,具体实施时,第一服务器在得到上述第一特征数据后,可以利用第一特征数据的结构特点,先对第一特征数据进行矩阵压缩,以减少第一特征数据所包含的数据量。
在一些实施例中,具体实施时,第一服务器可以根据预设的压缩规则,确定所述第一特征数据的结构类型;根据所述预设的压缩规则,以及所述第一特征数据的结构类型,对所述第一特征数据进行相应的矩阵压缩。
其中,上述预设的压缩规则具体可以包括用于判定特征数据所属的结构类型的数据,例如,预设的结构化特征、预设的非结构化特征,以及用于判定结构类型的第一预设匹配度阈值、第二预设匹配度阈值等。此外,上述预设的压缩规则具体还可以包括不同结构类型与不同矩阵压缩方式的对应关系等。
上述结构类型具体可以包括:第一结构类型、第二结构类型和第三结构类型等。其中,上述第一结构类型具体可以包括与预设的结构化特征相同,或者相近的结构类型(例如,与预设的结构化特征之间的匹配度大于第一预设匹配度阈值的矩阵)。上述第二结构类型具体可以包括与预设的非结构化特征相同,或者相近的结构类型(例如,与预设的非结构化特征之间的匹配度大于第二预设匹配度阈值的矩阵)。上述第三结构类型具体可以包括介于第一结构类型和第二结构类型之间的结构类型(例如,与预设的结构化特征之间的匹配度小于或等于第一预设匹配度阈值,且与预设的非结构化特征之间的匹配度小于或等于第二预设匹配度阈值的矩阵)。当然,需要说明的是,上述所列举的结构类型只是一种示意性说明。具体实施时,根据具体的应用场景和所涉及的特征数据的具体特点,上述结构类型还可以包括除上述所列举的结构类型以外其他的结构类型。对此,本说明书不作限定。
上述矩阵压缩方式具体可以包括:COO(Coordinate)、CSR(Compressed SparseRow)和DIA(Diagonal)等。当然,上述所列举的矩阵压缩方式只是一种示意性说明。具体实施时,根据具体的应用场景和所涉及的特征数据的具体特点,上述结构类型还可以包括其他合适的矩阵压缩方式。
上述结构类型和矩阵压缩方式的对应关系具体可以包括:第一结构类型与DIA对应,第二结构类型与COO应,第三结构类型与CSR对应。
在一些实施例中,基于矩阵压缩方式COO,具体实施时,可以根据特征数据中的非零数据元素在矩阵的位置信息和元素数据值,通过使用预设三元信息组只存储特征数据中的非零数据元素,来存储特征数据,得到压缩后的特征数据。其中,上述预设三元信息组包含有非零数据元素在矩阵中的行号、列号,以及元素数据值。
具体的,例如,可以参阅图6所示。左侧的原矩阵可以作为一种压缩前的第一特征数据,包括多个非零数据元素。基于矩阵压缩方式COO可以通过利用预设三元信息组只存储原矩阵中的非零数据元素的在原矩阵中的行号、列号和元素数据值,对原矩阵进行矩阵压缩,得到压缩后的矩阵(例如,图6右侧的矩阵),作为压缩后的第一特征数据。其中,上述压缩后的矩阵中每一列对应所保存的原矩阵中的一个非零数据元素。在压缩后的矩阵中,每一列又包含三行数据,其中,第一行的数据值表示该非零数据元素在矩阵中的行号,第二行的数据值表示该非零数据元素在矩阵中的列号,第三行的数据值表示该非零数据元素的元素数据值。基于上述COO进行矩阵压缩,可以将原本的m*n大小的矩阵压缩成3*nnz大小的矩阵。其中,m为压缩前的矩阵的行数,n为压缩前的矩阵的列数,nnz为矩阵中非零数据元素的数量。
在一些实施例中,基于矩阵压缩方式CSR,具体实施时,可以根据特征数据中的非零数据元素在矩阵的位置信息和元素数据值,确定并利用能够表示非零数据元素所在行的索引行,以及非零数据的列号和元素数据值,来存储特征数据,得到压缩后的特征数据。
具体的,例如,可以参阅图7所示。左侧的原矩阵可以作为一种压缩前的第一特征数据,包括多个非零数据元素。右侧的矩阵为基于CSR进行矩阵压缩后得到的压缩后的矩阵,作为压缩后的第一特征数据。其中,压缩后的矩阵中的第一行数据为能够表示非零数据元素所在行的索引行;索引行下方的数据中的每一列数据,分别对应原矩阵中的一个非零数据元素的列号和元素数据值。具体的,索引行“0,2,4,7,9”中起始的“0.2”表示在原矩阵中起始的行号为0的行中,有两个(2-0=2)非零数据元素,且分别对应索引行下方数据中的起始的前两列数据(即第一列数据和第二列数据)。依序紧接着“0,2”后的组合“2,4”表示在原矩阵中紧接着行号为0的下面一行,即行号为1的行中,有两个(4-2=2)非零数据元素,且分别依序对应所索引行下方数据中的第三列数据和第四列数据。以此类推。而索引行下方数据中的每一列数据中的第一行数据又具体表示非零数据元素的在原矩阵中的列数,第二行数据表示该非零数据元素的元素数据值。例如,原矩阵中1行1列的数据值为2的数据元素,对应于压缩后的矩阵中基于索引行中“2,4”确定出的索引行下方数据中的第三列数据(1,2)。基于上述CSR进行矩阵压缩,可以将原本的m*n大小的矩阵压缩成2*nnz+m大小的矩阵。其中,m为压缩前的矩阵的行数,n为压缩前的矩阵的列数,nnz为矩阵中非零数据元素的数量。
在一些实施例中,基于矩阵压缩方式DIA,具体实施时,可以根据特征数据中非零数据元素在矩阵中的位置信息和元素数据值,按对角线来存储第一特征数据中的非零数据元素,得到压缩后的特征数据。
具体的,例如,可以参阅图8所示。压缩第一特征数据时,可以按对角线方式来存储矩阵,得到右侧压缩后的矩阵,对应压缩后的第一特征数据。其中,列代表对角线,行代表原矩阵中的行,省略全零的对角线。具体存储时,从左下往右上开始逐个分析储存对象:第一个对角线是零忽略,第二个对角线是5,6,第三个对角线是零忽略,第四个对角线是1,2,3,4,第五个对角线是7,8,9,第六第七个对角线忽略。处理时,由于行对应行,所以5和6是分别在第三行第四行的,前面可以补上无效元素*。如果对角线中间有0,储存的时候也可以补上0。对于结构对称、对角性较好的矩阵,基于上述DIA进行矩阵压缩,可以获得较好的压缩效果。
在一些实施例中,第一服务器具体实施时,可以先确定出第一特征数据中非零数据元素的位置信息(例如,非零数据元素在矩阵中的行号和列号等);再根据第一特征数据中非零数据元素的位置信息来确定出第一特征数据的结构特征分别与预设的结构化特征、预设的非结构化特征之间的匹配度;进而可以根据所述预设的压缩规则,以及所述第一特征数据的结构特征分别与所述预设的结构化特征、预设的非结构化特征之间的匹配度,确定出所述第一特征数据的结构类型。
在一些实施例中,第一服务器可以根据第一特征数据的结构类型,根据预设的压缩规则,选择与结构类型匹配的,适合该第一特征数据的矩阵压缩方式对该第一特征数据进行矩阵压缩,从而能够得到相对更好的压缩效果。
具体的,第一服务器在确定所述第一特征数据的结构类型为所述第一结构类型的情况下,可以根据所述预设的压缩规则,通过DIA的矩阵压缩方式对所述第一特征数据进行矩阵压缩;在确定所述第一特征数据的结构类型为所述第二结构类型的情况下,可以根据所述预设的压缩规则,通过COO的矩阵压缩方式对所述第一特征数据进行矩阵压缩;在确定所述第一特征数据的结构类型为所述第三结构类型的情况下,可以根据所述预设的压缩规则,通过CSR的矩阵压缩方式对所述第一特征数据进行矩阵压缩等。
在一些实施例中,在有些情况下,上述第一特征数据还可能是一种与稀疏矩阵相似,但不是稀疏矩阵的矩阵数据。例如,第一特征数据中可能是一个包含有许多数据值都为1的数据元素的矩阵。
针对上述情况,第一服务器在进行矩阵压缩前可以先统计第一特征数据中的所包含的数值相同的非零数据元素的占比;再确定所述第一特征数据中数据值相同的非零数据元素的占比是否大于预设的占比阈值。
如果确定所述第一特征数据中所包含有的数值相同的非零数据元素的占比小于或等于预设的占比阈值,则可以按照之前的处理方式进行矩阵压缩。
如果确定所述第一特征数据中所包含的数值相同的非零数据元素的占比大于所述预设的占比阈值,则可以先对该第一特征数据进行调整,再对调整后的第一特征数据进行矩阵压缩。
具体的,可以先将所述第一特征数据中数据值相同的非零数据元素作为目标调整元素;并且记录下所述目标调整元素的数据值,以及目标调整元素的位置信息作为第一附件数据;进一步将所述第一特征数据中的目标调整元素的数据值替换成0,得到调整后的第一特征数据。这样得到的调整后的第一特征数据是满足稀疏矩阵的特征数据,从而可以按照之前的处理方式,对所述调整后的第一特征数据进行矩阵压缩,得到压缩后的被调整的第一特征数据。
在一些实施例中,第一服务器还可以响应模型训练请求生成第一加密秘钥,并保管第一加密秘钥。
在一些实施例中,具体实施时,第一服务器还可以根据第一加密秘钥和预设的秘钥处理规则,生成与第一加密秘钥对应的第一解密秘钥。第一服务器可以将上述第一解密秘钥发送至第三服务器。第三服务器可以接收并将第一解密秘钥保存在可信执行环境中。
在一些实施例中,具体实施时,第一服务器可以利用上述第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据,再将上述处理后的第一特征数据发送给第三服务器。这样传输出去的处理后的第一特征数据是一种加密后的数据,可以降低第一特征数据在传输过程中被泄露的风险。
在一些实施例中,第三服务器还可以利用可信执行环境所提供的秘钥协商功能,来同第一服务器一同参与秘钥的生成。
具体的,例如,第三服务器的Intel SGX还可以提供Diffie-Hellman秘钥交换协议接口,通过该接口可以让双方在不获取对方(隐私)信息的前提下,通过安全的信道达成一个用于对交互的数据进行对称加密的共享秘钥。
具体实施时,第一服务可以根据预设的秘钥处理规则,通过上述Diffie-Hellman秘钥交换协议接口与第三服务器的可信执行环境进行DH秘钥协商,双方得到一个对称秘钥keyAES,其中,该秘钥既可以用于加密,也可以用于解密。
第一服务器可以利用第一加密秘钥(例如,私钥keyPri)通过非对称加密的方式,对压缩后的第一特征数据(例如,压缩后的矩阵A)进行加密处理,得到加密后的数据,记为enc(A),即处理后的第一特征数据。同时,第一服务器还可以利用对称秘钥keyAES对第一解密秘钥(例如,公钥keyPub)进行加密处理,得到加密后的第一解密秘钥。并将上述加密后的第一解密秘钥和处理后的第一特征数据发送至第三服务器。
第三服务器可以在可信执行环境中加载上述加密后的第一解密秘钥,并在可信执行环境中利用对称秘钥keyAES对上述加密后的第一解密秘钥进行解密处理,得到第一解密秘钥。进而,第三服务器可以在可信执行环境中加载处理后的第一特征数据,并在可信执行环境中,利用所得到的第一解密秘钥对该处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据,即压缩后的矩阵A。
在一些实施例中,如果待加密的是压缩后的被调整的第一特征数据,第一服务器可以利用第一加密秘钥对所述压缩后的被调整的第一特征数据和所述第一附件数据分别进行加密处理,得到处理后的第一特征数据和处理后的第一附件数据。再将所述处理后的第一特征数据和所述处理后的第一附件数据发送至第三服务器。
第二服务器可以按照与第一服务器类似的处理方式,获取并向第三服务器发送处理后的第二特征数据。其中,第二服务器的具体处理过程可以参照上述第一服务器的实施例,在此不作赘述。
在一些实施例中,第三服务器在接收到第一服务器发送的处理后的第一特征数据,以及第二服务器发送的处理后的第二特征数据后,可以将上述处理后的第一特征数据和处理后的第二特征数据保存在第三服务器的可信执行环境中,从而可以避免上述处理的第一特征数据和处理后的第二特征数据在第三服务器的例如REE等较开放的外部环境区域中保存遭到泄漏。
在一些实施例中,为了避免特征数据的泄漏,第三服务器具体实施时,可以在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据;利用第二解密秘钥对所述处理后的第二特征数据进行解密处理,得到压缩后的第二特征数据。
在一些实施例中,具体实施时,第三服务器还会检测是否收到处理后的第一附件数据,和/或处理后的第二附件数据。
以检测到有接收到处理后的第一附件数据为例,在确定接收到的数据中还包括处理后的第一附件数据的情况下,第三服务器可以在所述可信执行环境中,可以利用第一解密秘钥对所述处理后的第一特征数据和所述处理后的第一附件数据分别进行解密处理,得到压缩后的被调整的第一特征数据和第一附件数据。进一步,第三服务器可以在所述可信执行环境中,根据所述第一附件数据,对所述压缩后的被调整的第一特征数据中的被替换为0的数据元素进行还原。例如,根据第一附件数据中的位置信息,将数据值被替换成0的数据元素填充成原本的数据值,从而还原得到压缩后的第一特征数据。
在一些实施例中,进一步,第三服务器可以在所述可信执行环境中,根据所述压缩后的第一特征数据和所述压缩后的第二特征数据,进行模型训练,以得到目标模型。
在本实施例中,上述压缩后的第一特征数据和压缩后的第二特征数据都是经过矩阵压缩后得到的特征数据,数据量相对较小,因此可以直接保存在可信执行环境中,也能够直接在可信执行环境中使用。而上述可信执行环境相对于第三服务器的其他内存区域具有更高的安全等级,且往往与例如REE等较为开放的外部环境隔离,因此,在上述可信执行环境中解密得到压缩后的第一特征数据、压缩后的第二特征数据,并利用上述压缩后的第一特征数据和压缩后的第二特征数据进行模型训练可以有效降低特征数据遭到泄露的风险。
同时,又由于在模型训练的过程中所使用的特征数据是经过矩阵压缩后所包含的数据量较少的压缩后的特征数据,因此还可以有效地降低模型训练过程中所涉及数据处理量,减少模型训练过程中的计算开销,提高模型的训练效率。
在一些实施例中,在得到所述目标模型后,第三服务器具体实施时,还可以根据事先与第一服务器、第二服务器达成的预设的协议规则,确定拥有获取目标模型权限的服务器,再将所得到的目标模型发送至拥有获取模型权限的服务器。
具体的,第三服务器可以根据预设的协议规则,确定所述第一服务器是否具有获取目标模型的权限;在确定所述第一服务器具有获取目标模型的权限的情况下,将所述目标模型发送至所述第一服务器。
相应的,第一服务器在得到上述目标模型后,可以利用上述目标模型进行与应用场景相关的数据处理。例如,第一服务器可以利用目标模型进行人脸识别等。
在一些实施例中,为了避免目标模型遭到泄漏,具体实施时,第三服务器可以在可信执行环境中对所述目标模型进行加密处理,得到加密后的目标模型;再将所述加密后的目标模型发送至所述具有获取目标模型权限的服务器。
具体的,第三服务器可以先在可信执行环境中生成第三加密秘钥,以及与第三加密秘钥对应的第三解密秘钥。并将上述第三解密秘钥先发送给具有获取目标模型的权限的服务器。
第三服务器在训练好的目标模型后,可以先在可信执行环境中,利用第三加密秘钥加密目标模型,得到加密后的目标模型;再将上述加密后的目标模型发送给具有获取目标模型权限的服务器。
相应的,具有获取目标模型权限的服务器在接收到上述加密后的目标模型后,可以利用事先接收到的第三解密秘钥对该加密后的目标模型进行解密处理,得到目标模型。这样可以降低目标模型遭到泄漏风险,进一步保护数据安全。
在一些实施例中,需要说明的是,上述所列举的第一服务器、第二服务器只是一种示意性说明。具体实施时,根据具体情况和处理需求,参与模型训练的还可以包括第四服务器、第五服务器,甚至更多的服务器。其中,上述第四服务器、第五服务器等可以参照第一服务器的处理方式,并向第三服务器提供处理后的特征数据,以便与系统的其他服务器协作共同进行模型训练。
由上可见,本说明书实施例提供的保护隐私的模型训练方法,通过第一服务器、第二服务器分别对各自所拥有的第一特征数据、第二特征数据先进行矩阵压缩,再对压缩后的特征数据进行加密处理,得到数据量相对较小、安全性较高的处理后的第一特征数据、处理后的第二特征数据,并将上述处理后的特征数据发送至第三服务器;由于处理后的特征数据的数据量较小,第三服务器可以在安全等级较高的可信执行环境中,直接根据上述处理后的第一特征数据、处理后的第二特征数据进行相应的模型训练,从而可以减少数据处理量,能够在可信执行环境中高效、安全地利用双方各自拥有的数据进行模型训练,降低了用于模型训练的数据遭到泄漏的风险,保护了第一服务器和第二服务器双方的数据隐私;由于通过上述处理方式,得到并进行传输的处理后的第一特征数据、处理后的第二特征数据的数据量相对较小,提高了第一服务器、第二服务器向第三服务器传送处理后的特征数据的传送效率,进一步提高了模型训练的效率;并且通过上述处理方式,还能减少了保存处理后的特征数据的存储开销,减少具体处理时所涉及的加密次数、解密次数,以及模型训练时的计算量,从而能够有效地减少了系统中各个服务器的计算开销。还通过第一服务器和第二服务器确定并根据各自所拥有的特征数据的结构类型,以及预设的压缩规则,选择与特征数据的结构类型匹配的矩阵压缩方式对各自所拥有的特征数据进行针对性的矩阵压缩,从而可以进一步降低处理后的第一特征数据和处理后的第二特征数据的数据量,进一步提高模型训练的效率。
参阅图9所示,本说明书实施例还提供了一种保护隐私的模型训练方法,该方法具体可以应用于第一服务器一侧。具体实施时, 该方法可以包括以下内容。
S901:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据。
S902:利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据。
S903:将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
在一些实施例中,所述响应模型训练请求,获取第一特征数据,具体实施时,可以包括以下内容:响应所述模型训练请求,获取第一样本数据,其中,所述第一样本数据属于所述第一服务器,和/或,与第一服务器关联的服务器;对所述第一样本数据进行特征处理,得到所述第一特征数据。
在一些实施例中,所述对所述第一特征数据进行矩阵压缩,具体实施时,可以包括以下内容:根据预设的压缩规则,确定所述第一特征数据的结构类型;根据所述预设的压缩规则,以及所述第一特征数据的结构类型,对所述第一特征数据进行相应的矩阵压缩。
在一些实施例中,所述结构类型具体可以包括以下至少之一:第一结构类型、第二结构类型和第三结构类型等。其中,所述第一结构类型具体可以包括与所述预设的结构化特征之间的匹配度大于第一预设匹配度阈值的结构类型,所述第二结构类型具体可以包括与所述预设的非结构化特征之间的匹配度大于第二预设匹配度阈值的结构类型,所述第三结构类型具体可以包括介于第一结构类型和第二结构类型之间的结构类型。
在一些实施例中,所述根据所述预设的压缩规则,以及所述第一特征数据的结构类型,对所述第一特征数据进行相应的矩阵压缩,具体实施时,可以包括以下内容:在确定所述第一特征数据的结构类型为所述第一结构类型的情况下,通过DIA的压缩方式对所述第一特征数据进行矩阵压缩;在确定所述第一特征数据的结构类型为所述第二结构类型的情况下,通过COO的压缩方式对所述第一特征数据进行矩阵压缩;在确定所述第一特征数据的结构类型为所述第三结构类型的情况下,通过CSR的压缩方式对所述第一特征数据进行矩阵压缩。
在一些实施例中,所述对所述第一特征数据进行矩阵压缩,具体实施时,还可以包括以下内容:确定所述第一特征数据中数据值相同的非零数据元素的占比是否大于预设的占比阈值;在确定所述第一特征数据中数据值相同的非零数据元素的占比大于所述预设的占比阈值的情况下,将所述第一特征数据中数据值相同的非零数据元素作为目标调整元素;记录下所述目标调整元素的数据值,以及目标调整元素的位置信息作为第一附件数据,并将所述第一特征数据中的目标调整元素的数据值替换成0,得到调整后的第一特征数据;对所述调整后的第一特征数据进行矩阵压缩,得到压缩后的被调整的第一特征数据。
在一些实施例中,所述利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据,具体实施时,可以包括:利用第一加密秘钥对所述压缩后的被调整的第一特征数据和所述第一附件数据分别进行加密处理,得到处理后的第一特征数据和处理后的第一附件数据,并将所述处理后的第一特征数据和所述处理后的第一附件数据发送至第三服务器。
在一些实施例中,所述方法具体实施时,还可以包括以下内容:响应所述模型训练请求,第一服务器生成并保留第一加密秘钥。
在一些实施例中,在响应所述模型训练请求,生成并保留第一加密秘钥后,所述方法具体实施时,还可以包括以下内容:根据预设的秘钥处理规则、所述第一加密秘钥,生成与所述第一加密秘钥匹配的第一解密秘钥;将所述第一解密秘钥发送至第三服务器。
在一些实施例中,在将所述处理后的第一特征数据发送至第三服务器后,所述方法具体实施时,还可以包括以下内容:接收所述第三服务器反馈的目标模型;利用所述目标模型进行数据处理。
针对不同的应用场景,参阅图10和图11所示,本说明书实施例还提供了一种保护隐私的模型训练方法。该方法具体可以应用于第三服务器一侧。具体实施时,可以包括以下内容。
S1101:接收处理后的第一特征数据,以及处理后的第二特征数据,其中,所述处理后的第一特征数据包括第一服务器对压缩后的第一特征数据进行加密处理得到的数据,所述压缩后的第一特征数据包括对第一特征数据进行矩阵压缩得到的数据,所述处理后的第二特征数据包括第二服务器对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据。
S1102:在可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型。
在一些实施例中,所述在所述可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型,具体可以包括以下内容:在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据;利用第二解密秘钥对所述处理后的第二特征数据进行解密处理,得到压缩后的第二特征数据;其中,所述第一解密秘钥和所述第二解密秘钥具体可以是在可信执行环境中才有效;在所述可信执行环境中,根据所述压缩后的第一特征数据和所述压缩后的第二特征数据,进行模型训练,以得到目标模型。
在一些实施例中,在所接收到的数据还包括处理后的第一附件数据的情况下,在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据,具体可以包括:在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据和所述处理后的第一附件数据分别进行解密处理,得到压缩后的被调整的第一特征数据和第一附件数据;在所述可信执行环境中,根据所述第一附件数据,对所述压缩后的被调整的第一特征数据中的被替换为0的数据元素进行还原,得到压缩后的第一特征数据。
在一些实施例中,在得到所述目标模型后,所述方法具体实施时,还可以包括以下内容:根据预设的协议规则,确定所述第一服务器是否具有获取目标模型的权限;在确定所述第一服务器具有获取目标模型的权限的情况下,将所述目标模型发送至所述第一服务器;其中,所述第一服务器用于获取并利用所述目标模型进行数据处理。
在一些实施例中,所述将所述目标模型发送至所述第一服务器,具体实施时,可以包括:在可信执行环境中对所述目标模型进行加密处理,得到加密后的目标模型;将所述加密后的目标模型发送至所述第一服务器。
本说明书实施例还提供了另一种保护隐私的模型训练方法。该方法具体可以应用于第一服务器。具体实施时,该方法可以包括以下内容。
S1:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;获取处理后的第二特征数据,其中,所述处理后的第二特征数据包括第二服务器响应所述模型训练请求,对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据。
S2:在可信执行环境中,根据所述压缩后的第一特征数据,以及所述处理后的第二特征数据,进行模型训练,以得到目标模型。
本说明书实施例还提供了另一种保护隐私的模型训练方法,该方法具体实施时,可以包括以下内容。
S1:接收多个处理后的特征数据,其中,所述多个处理后的特征数据包括多个服务器分别对压缩后的特征数据进行加密处理得到的数据,所述压缩后的特征数据包括服务器对特征数据进行矩阵压缩得到的数据。
S2:在可信执行环境中,根据所述多个处理后的特征数据进行模型训练,以得到目标模型。
参阅图12所示,本说明书实施例还提供了一种数据处理方法。该方法具体可以应用于包含有第一服务器、第二服务器和第三服务器的系统中。具体实施时,可以包括以下内容。
S1201:第一服务器响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据,利用第一加密秘钥对所述压缩后的第一数据进行加密处理,得到处理后的第一数据,将所述处理后的第一数据发送至第三服务器;第二服务器响应数据处理请求,获取并对第二数据进行矩阵压缩,得到压缩后的第二数据,利用第二加密秘钥对所述压缩后的第二数据进行加密处理,得到处理后的第二数据,将所述处理后的第二数据发送至第三服务器。
S1202:第三服务器接收所述处理后的第一数据、所述处理后的第二数据;所述第三服务器在可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行相应的数据处理。
在一些实施例中,所述第三服务器在所述可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行相应的数据处理,具体实施时,可以包括以下内容:所述第三服务器在所述可信执行环境中,对所述处理后的第一数据进行解密处理,得到压缩后的第一数据;对处理后的第二数据进行解密处理,得到压缩后的第二数据;在所述可信执行环境中,根据所述压缩后的第一数据和所述压缩后的第二数据,进行相应的数据处理。
在一些实施例中,第三服务器在所述可信执行环境中,根据所述压缩后的第一数据和所述压缩后的第二数据,进行相应的数据处理,具体实施时,可以包括:根据所述压缩后的第一数据和所述压缩后的第二数据,确定目标用户是否验证通过;其中,所述第一数据包括验证规则和用于验证的数据库,所述第二数据包括与目标用户相关的待验证的信息数据。
在一些实施例中,第三服务器在所述可信执行环境中,还可以根据所述压缩后的第一数据和所述压缩后的第二数据,生成目标用户的健康报告;其中,所述第一数据包括健康预测模型,所述第二数据包括用户的体检数据。
当然,需要说明的是,上述所列举的数据处理只是一种示意性说明。具体实施时,根据具体的应用场景以及处理需求,上述第一数据和第二数据还可以包括其他类型、内容的数据。相应的,所述第三服务器在所述可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行其他类型的数据处理。
通过上述,可以高效、安全地利用第一数据和第二数据进行相应的数据处理,降低了数据处理过程中第一数据和/或第二数据遭到泄漏的风险,保护双方的数据隐私。
本说明书实施例还提供了一种数据处理方法。该方法具体可以应用于第一服务器一侧。具体实施时,该方法可以包括以下内容。
S1:响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据;获取处理后的第二数据,其中,所述处理后的第二数据包括第二服务器响应所述数据处理请求,对压缩后的第二数据进行加密处理得到的数据,所述压缩后的第二数据包括对第二数据进行矩阵压缩得到的数据。
S2:在可信执行环境中,根据所述压缩后的第一数据,以及所述处理后的第二数据,进行相应的数据处理。
本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
为了能够更加准确地完成上述指令,参阅图13所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口1301、处理器1302以及存储器1303,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口1301,具体可以用于接收或发起模型训练请求。
所述处理器1302,具体可以用于响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
所述存储器1303,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口1301可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器1302可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器1303可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了另一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:接收处理后的第一特征数据,以及处理后的第二特征数据,并将所述处理后的第一特征数据和所述处理后的第二特征数据保存在可信执行环境中,其中,所述处理后的第一特征数据包括第一服务器对压缩后的第一特征数据进行加密处理得到的数据,所述压缩后的第一特征数据包括对第一特征数据进行矩阵压缩得到的数据,所述处理后的第二特征数据包括第二服务器对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据;在所述可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型。
本说明书实施例还提供了一种基于上述保护隐私的模型训练方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory, RAM)、只读存储器(Read-Only Memory, ROM)、缓存(Cache)、硬盘(Hard DiskDrive, HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图14所示,在软件层面上,本说明书实施例还提供了一种保护隐私的模型训练装置,该装置具体可以包括以下的结构模块。
第一处理模块1401,具体可以用于响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据。
第二处理模块1402,具体可以用于利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据。
发送模块1403,具体可以用于将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的保护隐私的模型训练装置,通过第一服务器、第二服务器分别对各自所拥有的第一特征数据、第二特征数据先进行矩阵压缩,再对压缩后的特征数据进行加密处理,得到数据量相对较小、安全性较高的处理后的第一特征数据、处理后的第二特征数据,并将上述处理后的特征数据发送至第三服务器;由于处理后的特征数据的数据量较小,第三服务器可以在安全等级较高的可信执行环境中,直接根据上述处理后的第一特征数据、处理后的第二特征数据进行相应的模型训练,从而可以减少数据处理量,能够在可信执行环境中高效、安全地进行模型训练,降低了用于模型训练的数据遭到泄漏的风险。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (19)

1.一种保护隐私的模型训练方法,包括:
响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;
利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;
将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
2.根据权利要求1所述的方法,所述对所述第一特征数据进行矩阵压缩,包括:
根据预设的压缩规则,确定所述第一特征数据的结构类型;
根据所述预设的压缩规则,以及所述第一特征数据的结构类型,对所述第一特征数据进行相应的矩阵压缩。
3.根据权利要求2所述的方法,所述根据所述预设的压缩规则,以及所述第一特征数据的结构类型,对所述第一特征数据进行相应的矩阵压缩,包括:
在确定所述第一特征数据的结构类型为第一结构类型的情况下,通过DIA的压缩方式对所述第一特征数据进行矩阵压缩;
在确定所述第一特征数据的结构类型为第二结构类型的情况下,通过COO的压缩方式对所述第一特征数据进行矩阵压缩;
在确定所述第一特征数据的结构类型为第三结构类型的情况下,通过CSR的压缩方式对所述第一特征数据进行矩阵压缩。
4.根据权利要求2所述的方法,所述对所述第一特征数据进行矩阵压缩,还包括:
确定所述第一特征数据中数据值相同的非零数据元素的占比是否大于预设的占比阈值;
在确定所述第一特征数据中数据值相同的非零数据元素的占比大于所述预设的占比阈值的情况下,将所述第一特征数据中数据值相同的非零数据元素作为目标调整元素;
记录所述目标调整元素的数据值,以及目标调整元素的位置信息作为第一附件数据,并将所述第一特征数据中的目标调整元素的数据值替换成0,得到调整后的第一特征数据;
对所述调整后的第一特征数据进行矩阵压缩,得到压缩后的被调整的第一特征数据。
5.根据权利要求4所述的方法,所述利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据,包括:
利用第一加密秘钥对所述压缩后的被调整的第一特征数据和所述第一附件数据分别进行加密处理,得到处理后的第一特征数据和处理后的第一附件数据,并将所述处理后的第一特征数据和所述处理后的第一附件数据发送至第三服务器。
6.根据权利要求1所述的方法,在将所述处理后的第一特征数据发送至第三服务器后,所述方法还包括:
接收所述第三服务器反馈的目标模型;
利用所述目标模型进行数据处理。
7.一种保护隐私的模型训练方法,包括:
接收处理后的第一特征数据,以及处理后的第二特征数据,其中,所述处理后的第一特征数据包括第一服务器对压缩后的第一特征数据进行加密处理得到的数据,所述压缩后的第一特征数据包括对第一特征数据进行矩阵压缩得到的数据,所述处理后的第二特征数据包括第二服务器对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据;
在可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型。
8.根据权利要求7所述的方法,所述在可信执行环境中,根据所述处理后的第一特征数据和所述处理后的第二特征数据进行模型训练,以得到目标模型,包括:
在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据;利用第二解密秘钥对所述处理后的第二特征数据进行解密处理,得到压缩后的第二特征数据;
在所述可信执行环境中,根据所述压缩后的第一特征数据和所述压缩后的第二特征数据,进行模型训练,以得到目标模型。
9.根据权利要求8所述的方法,在所接收到的数据还包括处理后的第一附件数据的情况下,在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据进行解密处理,得到压缩后的第一特征数据,包括:
在所述可信执行环境中,利用第一解密秘钥对所述处理后的第一特征数据和所述处理后的第一附件数据分别进行解密处理,得到压缩后的被调整的第一特征数据和第一附件数据;
在所述可信执行环境中,根据所述第一附件数据,对所述压缩后的被调整的第一特征数据中的被替换为0的数据元素进行还原,得到压缩后的第一特征数据。
10.根据权利要求7所述的方法,在得到所述目标模型后,所述方法还包括:
根据预设的协议规则,确定所述第一服务器是否具有获取目标模型的权限;
在确定所述第一服务器具有获取目标模型的权限的情况下,将所述目标模型发送至所述第一服务器;其中,所述第一服务器用于获取并利用所述目标模型进行数据处理。
11.根据权利要求10所述的方法,所述将所述目标模型发送至所述第一服务器,包括:
在可信执行环境中对所述目标模型进行加密处理,得到加密后的目标模型;
将所述加密后的目标模型发送至所述第一服务器。
12.一种保护隐私的模型训练方法,包括:
响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;获取处理后的第二特征数据,其中,所述处理后的第二特征数据包括第二服务器响应所述模型训练请求,对压缩后的第二特征数据进行加密处理得到的数据,所述压缩后的第二特征数据包括对第二特征数据进行矩阵压缩得到的数据;
在可信执行环境中,根据所述压缩后的第一特征数据,以及所述处理后的第二特征数据,进行模型训练,以得到目标模型。
13.一种保护隐私的模型训练方法,包括:
接收多个处理后的特征数据,其中,所述多个处理后的特征数据包括多个服务器分别对压缩后的特征数据进行加密处理得到的数据,所述压缩后的特征数据包括服务器对特征数据进行矩阵压缩得到的数据;
在可信执行环境中,根据所述多个处理后的特征数据进行模型训练,以得到目标模型。
14.一种数据处理方法,包括:
第一服务器响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据,利用第一加密秘钥对所述压缩后的第一数据进行加密处理,得到处理后的第一数据,将所述处理后的第一数据发送至第三服务器;第二服务器响应数据处理请求,获取并对第二数据进行矩阵压缩,得到压缩后的第二数据,利用第二加密秘钥对所述压缩后的第二数据进行加密处理,得到处理后的第二数据,将所述处理后的第二数据发送至第三服务器;
第三服务器接收所述处理后的第一数据、所述处理后的第二数据;所述第三服务器在可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行相应的数据处理。
15.根据权利要求14所述的方法,所述第三服务器在可信执行环境中,根据所述处理后的第一数据和所述处理后的第二数据进行相应的数据处理,包括:
所述第三服务器在所述可信执行环境中,对所述处理后的第一数据进行解密处理,得到压缩后的第一数据;对所述处理后的第二数据进行解密处理,得到压缩后的第二数据;
所述第三服务器在所述可信执行环境中,根据所述压缩后的第一数据和所述压缩后的第二数据,确定目标用户是否验证通过;其中,所述第一数据包括验证规则和用于验证的数据库,所述第二数据包括与目标用户相关的待验证的信息数据。
16.一种数据处理方法,包括:
响应数据处理请求,获取并对第一数据进行矩阵压缩,得到压缩后的第一数据;获取处理后的第二数据,其中,所述处理后的第二数据包括第二服务器响应所述数据处理请求,对压缩后的第二数据进行加密处理得到的数据,所述压缩后的第二数据包括对第二数据进行矩阵压缩得到的数据;
在可信执行环境中,根据所述压缩后的第一数据,以及所述处理后的第二数据,进行相应的数据处理。
17.一种保护隐私的模型训练装置,包括:
第一处理模块,用于响应模型训练请求,获取并对第一特征数据进行矩阵压缩,得到压缩后的第一特征数据;
第二处理模块,用于利用第一加密秘钥对所述压缩后的第一特征数据进行加密处理,得到处理后的第一特征数据;
发送模块,用于将所述处理后的第一特征数据发送至第三服务器;其中,所述第三服务器用于接收来自第一服务器的处理后的第一特征数据,以及来自第二服务器的处理后的第二特征数据;所述第三服务器还用于在可信执行环境中,根据所述处理后的第一特征数据和处理后的第二特征数据进行模型训练。
18.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至6中任一所述方法的步骤。
19.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求7至11中任一所述方法的步骤。
CN202010533506.4A 2020-06-12 2020-06-12 保护隐私的模型训练方法和装置、数据处理方法、服务器 Pending CN111490995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010533506.4A CN111490995A (zh) 2020-06-12 2020-06-12 保护隐私的模型训练方法和装置、数据处理方法、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010533506.4A CN111490995A (zh) 2020-06-12 2020-06-12 保护隐私的模型训练方法和装置、数据处理方法、服务器

Publications (1)

Publication Number Publication Date
CN111490995A true CN111490995A (zh) 2020-08-04

Family

ID=71813461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010533506.4A Pending CN111490995A (zh) 2020-06-12 2020-06-12 保护隐私的模型训练方法和装置、数据处理方法、服务器

Country Status (1)

Country Link
CN (1) CN111490995A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935179A (zh) * 2020-09-23 2020-11-13 支付宝(杭州)信息技术有限公司 一种基于可信执行环境的模型训练方法和装置
CN112085589A (zh) * 2020-09-02 2020-12-15 支付宝(杭州)信息技术有限公司 规则模型的安全性的确定方法、装置和服务器
CN112800467A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 基于数据隐私保护的在线模型训练方法、装置以及设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106546704A (zh) * 2016-12-09 2017-03-29 华北电力大学(保定) 一种压缩感知的氮氧化物软测量装置及其测量方法
CN106656629A (zh) * 2017-01-13 2017-05-10 南京理工大学 一种流媒体播放质量的预测方法
CN106886846A (zh) * 2017-04-26 2017-06-23 中南大学 一种基于长短期记忆循环神经网络的银行网点备付金预测方法
CN107122641A (zh) * 2017-04-25 2017-09-01 杭州安石信息技术有限公司 基于使用习惯的智能设备机主识别方法及机主识别装置
CN109426732A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN110060471A (zh) * 2019-04-01 2019-07-26 长安大学 一种车辆od流预测模型构建方法及车辆od流预测方法
CN110647508A (zh) * 2019-08-30 2020-01-03 北京达佳互联信息技术有限公司 数据压缩方法、数据解压缩方法、装置及电子设备
CN110796267A (zh) * 2019-11-12 2020-02-14 支付宝(杭州)信息技术有限公司 数据共享的机器学习方法和机器学习装置
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN110969264A (zh) * 2019-12-11 2020-04-07 支付宝(杭州)信息技术有限公司 模型训练方法、分布式预测方法及其系统
CN110995737A (zh) * 2019-12-13 2020-04-10 支付宝(杭州)信息技术有限公司 联邦学习的梯度融合方法及装置和电子设备
CN111079152A (zh) * 2019-12-13 2020-04-28 支付宝(杭州)信息技术有限公司 一种模型部署方法、装置及设备
US20200134180A1 (en) * 2019-12-23 2020-04-30 Intel Corporation Enhanced protections against adversarial machine learning threats utilizing cryptography and hardware assisted monitoring in accelerators
CN111126600A (zh) * 2019-12-20 2020-05-08 上海寒武纪信息科技有限公司 神经网络模型的训练方法、数据处理方法和相关产品

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106546704A (zh) * 2016-12-09 2017-03-29 华北电力大学(保定) 一种压缩感知的氮氧化物软测量装置及其测量方法
CN106656629A (zh) * 2017-01-13 2017-05-10 南京理工大学 一种流媒体播放质量的预测方法
CN107122641A (zh) * 2017-04-25 2017-09-01 杭州安石信息技术有限公司 基于使用习惯的智能设备机主识别方法及机主识别装置
CN106886846A (zh) * 2017-04-26 2017-06-23 中南大学 一种基于长短期记忆循环神经网络的银行网点备付金预测方法
CN109426732A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN110060471A (zh) * 2019-04-01 2019-07-26 长安大学 一种车辆od流预测模型构建方法及车辆od流预测方法
CN110647508A (zh) * 2019-08-30 2020-01-03 北京达佳互联信息技术有限公司 数据压缩方法、数据解压缩方法、装置及电子设备
CN110838069A (zh) * 2019-10-15 2020-02-25 支付宝(杭州)信息技术有限公司 数据处理方法、装置以及系统
CN110796267A (zh) * 2019-11-12 2020-02-14 支付宝(杭州)信息技术有限公司 数据共享的机器学习方法和机器学习装置
CN110969264A (zh) * 2019-12-11 2020-04-07 支付宝(杭州)信息技术有限公司 模型训练方法、分布式预测方法及其系统
CN110995737A (zh) * 2019-12-13 2020-04-10 支付宝(杭州)信息技术有限公司 联邦学习的梯度融合方法及装置和电子设备
CN111079152A (zh) * 2019-12-13 2020-04-28 支付宝(杭州)信息技术有限公司 一种模型部署方法、装置及设备
CN111126600A (zh) * 2019-12-20 2020-05-08 上海寒武纪信息科技有限公司 神经网络模型的训练方法、数据处理方法和相关产品
US20200134180A1 (en) * 2019-12-23 2020-04-30 Intel Corporation Enhanced protections against adversarial machine learning threats utilizing cryptography and hardware assisted monitoring in accelerators

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张铭凯 等: ""多数据源下机器学习的隐私保护研究"", 《网络空间安全》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085589A (zh) * 2020-09-02 2020-12-15 支付宝(杭州)信息技术有限公司 规则模型的安全性的确定方法、装置和服务器
CN111935179A (zh) * 2020-09-23 2020-11-13 支付宝(杭州)信息技术有限公司 一种基于可信执行环境的模型训练方法和装置
US11500992B2 (en) 2020-09-23 2022-11-15 Alipay (Hangzhou) Information Technology Co., Ltd. Trusted execution environment-based model training methods and apparatuses
CN112800467A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 基于数据隐私保护的在线模型训练方法、装置以及设备
CN112800467B (zh) * 2021-02-18 2022-08-26 支付宝(杭州)信息技术有限公司 基于数据隐私保护的在线模型训练方法、装置以及设备

Similar Documents

Publication Publication Date Title
CN107145791B (zh) 一种具有隐私保护的K-means聚类方法及系统
Sun et al. Data security and privacy in cloud computing
US10693657B2 (en) Method and apparatus for verifying processed data
CN110084063B (zh) 一种保护隐私数据的梯度下降计算方法
CN112182644A (zh) 一种数据处理方法、装置和电子设备
CN111490995A (zh) 保护隐私的模型训练方法和装置、数据处理方法、服务器
CN111428887B (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN113537633B (zh) 基于纵向联邦学习的预测方法、装置、设备、介质和系统
CN112100679B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN112073444B (zh) 数据集的处理方法、装置和服务器
Abiodun et al. Security and information assurance for IoT-based big data
CN116502254B (zh) 可查得统计的匿踪查询方法及装置
CN112381000A (zh) 基于联邦学习的人脸识别方法、装置、设备及存储介质
CN112380404B (zh) 数据过滤方法、装置及系统
CN111931221B (zh) 数据处理方法、装置和服务器
CN116502732B (zh) 基于可信执行环境的联邦学习方法以及系统
Sarwar et al. A survey on privacy preservation in fog-enabled internet of things
KR20170022455A (ko) 협력형으로 개인정보를 보호하는 통신환경에서의 분석서버 및 분석서버의 동작 방법, 서비스제공장치 및 서비스제공장치의 동작 방법
US20200311303A1 (en) Methods, systems, apparatuses and devices for facilitating user privacy using encryption based pseudonymization
CN115913537A (zh) 基于隐私保护的数据求交方法、系统及相关设备
CN113965310A (zh) 基于可控去标识化的标签实现混合隐私计算处理的方法
CN113051587A (zh) 一种隐私保护智能交易推荐方法、系统和可读介质
Feng et al. Secure outsourced principal eigentensor computation for cyber-physical-social systems
CN112749780A (zh) 数据的处理方法、装置及设备
CN113094745B (zh) 基于隐私保护的数据变换方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804