CN112948883A

CN112948883A - 保护隐私数据的多方联合建模的方法、装置和系统

Info

Publication number: CN112948883A
Application number: CN202110317328.6A
Authority: CN
Inventors: 范东云; 孟昌华; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-11
Anticipated expiration: 2041-03-25
Also published as: CN112948883B

Abstract

本说明书实施例提供一种保护隐私数据的多方联合建模的方法、装置和系统，方法包括：第一方将用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；第一神经网络模型利用伪标签通过自监督方式训练得到，伪标签基于用户集中各用户的第一隐私数据而构造；将中间数据和第一用户的用户标识发送给第二方，以使第二方根据用户标识，对中间数据和第一用户对应的第二隐私数据整合后，利用第一用户对应的类别标签，对第二神经网络模型进行训练。能够在多方联合建模时，既保护隐私数据，又能够有效提升模型表现。

Description

保护隐私数据的多方联合建模的方法、装置和系统

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及保护隐私数据的多方联合建模的方法、装置和系统。

背景技术

当前，在很多场景下会涉及多方联合建模，比如在诸多金融产品平台上，由于一方数据积累不足、维度较少，信息量有限，可能仅有非常有限的基础数据和用户表现的标签，建模困难，此时，通常采用与另一方联合建模的方式，综合各方数据来提升模型表现。而多方联合建模可能涉及隐私数据的泄露。

现有技术中，为了避免隐私数据的泄露，通常一方先采用将隐私数据进行哈希映射等处理后，再将处理后的隐私数据传递给另一方，用于两方联合建模，并实现隐私数据的保护。由于处理后的隐私数据可能不利于建模学习，从而导致模型表现不佳。

因此，希望能有改进的方案，能够在多方联合建模时，既保护隐私数据，又能够有效提升模型表现。

发明内容

本说明书一个或多个实施例描述了一种保护隐私数据的多方联合建模的方法、装置和系统，能够在多方联合建模时，既保护隐私数据，又能够有效提升模型表现。

第一方面，提供了一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法由所述第一方执行，包括：

将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

将所述中间数据和所述第一用户的用户标识发送给所述第二方，以使所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合后，利用所述第一用户对应的类别标签，对第二神经网络模型进行训练。

在一种可能的实施方式中，所述方法还包括：

基于各用户的各第一隐私数据，构造对应的样本特征和伪标签，形成各训练样本；

利用各训练样本，训练所述第一神经网络模型。

进一步地，所述基于各用户的各第一隐私数据，构造对应的样本特征和伪标签，形成各训练样本，包括：

针对各第一隐私数据中的任一第一隐私数据，遮蔽至少一个第一特征项对应的原始特征值，将其替换成目标特征值，替换后的第一隐私数据作为样本特征，并将被遮蔽的原始特征值作为伪标签，形成该第一隐私数据对应的训练样本。

进一步地，所述目标特征值以第一概率为预设值，以第二概率为随机值，以第三概率为替换前的原值，所述第一概率大于所述第二概率和第三概率。

在一种可能的实施方式中，所述目标隐层为所述第一神经网络模型包含的多个隐层中的最后一个隐层。

在一种可能的实施方式中，所述将所述中间数据和所述第一用户的用户标识发送给所述第二方，包括：

将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方，所述第二方具有所述私钥对应的公钥。

进一步地，所述将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方之前，所述方法还包括：

将所述用户标识利用第一函数进行同态加密，得到加密用户标识；

所述将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方，包括：

将所述中间数据、所述加密用户标识和所述第一函数，利用自身的私钥加密后发送给所述第二方。

第二方面，提供了一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法由所述第二方执行，包括：

从所述第一方接收中间数据和第一用户的用户标识；所述中间数据为所述第一方通过将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取的第一神经网络模型的目标隐层的输出；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；

利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

在一种可能的实施方式中，所述从所述第一方接收中间数据和第一用户的用户标识，包括：

从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识；

所述根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合之前，所述方法还包括：

利用所述私钥对应的公钥，对加密后的中间数据和第一用户的用户标识进行解密。

进一步地，所述从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识，包括：

从所述第一方接收利用所述第一方的私钥加密后的中间数据、加密用户标识和第一函数；所述加密用户标识为将所述第一用户的用户标识利用所述第一函数进行同态加密得到的；

解密后得到中间数据、加密用户标识和第一函数；

所述根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合，包括：

利用所述第一函数对所述用户集中各用户的用户标识进行同态加密，得到各对照用户标识；

从所述各对照用户标识中选择与所述加密用户标识相一致的匹配用户标识；

对所述中间数据和所述匹配用户标识对应的第二隐私数据进行整合。

第三方面，提供了一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法包括：

所述第一方将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

所述第一方将所述中间数据和所述第一用户的用户标识发送给所述第二方；

所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；

所述第二方利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

第四方面，提供了一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第一方，包括：

获取单元，用于将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

发送单元，用于将所述获取单元获取的中间数据和所述第一用户的用户标识发送给所述第二方，以使所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合后，利用所述第一用户对应的类别标签，对第二神经网络模型进行训练。

第五方面，提供了一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第二方，包括：

接收单元，用于从所述第一方接收中间数据和第一用户的用户标识；所述中间数据为所述第一方通过将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取的第一神经网络模型的目标隐层的输出；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

整合单元，用于根据所述接收单元接收的用户标识，对所述接收单元接收的中间数据和所述第一用户对应的第二隐私数据整合；

训练单元，用于利用所述整合单元整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

第六方面，提供了一种保护隐私数据的多方联合建模的系统，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述系统包括：

所述第一方，用于将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；将所述中间数据和所述第一用户的用户标识发送给所述第二方；

所述第二方，用于根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一至三方面中任一方面的方法。

第八方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一至三方面中任一方面的方法。

通过本说明书实施例提供的方法、装置和系统，第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，首先所述第一方将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；然后所述第一方将所述中间数据和所述第一用户的用户标识发送给所述第二方；接着所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；最后所述第二方利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。由上可见，本说明书实施例，第一神经网络模型通过自监督方式训练得到，第一方将第一隐私数据经过第一神经网络模型转换后，转换后的数据相对于原始的第一隐私数据，数据信息损失少，数据分布信息较完整，将转换后的数据发送给第二方后，便于第二方利用第二神经网络模型学习各方提供的特征数据，训练后得到的第二神经网络模型具有较佳的模型表现；同时上述转换后的数据反向计算较困难，不容易计算出原始的第一隐私数据，可有效保护各方持有的用户隐私数据，从而能够在多方联合建模时，既保护隐私数据，又能够有效提升模型表现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的保护隐私数据的多方联合建模的方法交互示意图；

图3示出根据一个实施例的保护隐私数据的多方联合建模的全局示意图；

图4示出根据一个实施例的保护隐私数据的多方联合建模的装置的示意性框图；

图5示出根据另一个实施例的保护隐私数据的多方联合建模的装置的示意性框图；

图6示出根据一个实施例的保护隐私数据的多方联合建模的系统的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及保护隐私数据的多方联合建模。参照图1，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，例如，图1中的用户标识用来标识用户集中的各用户，月工资、还款、用户等级、偏好品类、月均购物属于第一特征项，用户对应于第一特征项的原始特征值属于第一方的隐私数据，第一方不能将各原始特征值直接传输给第二方，注册天数、金额属于第二特征项，是否逾期属于类别标签，用户对应于第二特征项的原始特征值以及用户对应的类别标签属于第二方的隐私数据，第二方不能将各原始特征值和类别标签直接传输给第一方。

如图1所示，多方联合建模的场景涉及第一方和第二方，或称为参与方A和参与方B，或称为A方和B方。各个参与方可以实现为任何具有计算、处理能力的设备、平台、服务器或设备集群。多方要在保护数据隐私的情况下，联合训练模型。该场景可以理解为联邦学习场景，联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升模型的效果。

本说明书实施例中，对于第一特征项、第二特征项和类别标签的含义不做限定，图1仅作为示例。可以理解的是，隐私数据可以是任何不便于公开的数据，可以但不限于代表用户的个人信息的数据，或者商业秘密等。

本说明书实施例，通过自监督学习设定代理任务，学习到原始数据的数据分布信息，提高建模预测性能，同时融合多个特征数据，保证最终输出经过自监督网络的数据经过加密后，特征列无具体意义，也提高了反向计算原始数据的难度。自监督学习是一种在数据没有标签的情况下，通过使用数据集本身的信息来构造伪标签，从而进行监督学习的方法。

图2示出根据一个实施例的保护隐私数据的多方联合建模的方法交互示意图，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，该方法可以基于图1所示的实施场景。如图2所示，该实施例中保护隐私数据的多方联合建模的方法包括以下步骤：步骤21，第一方将用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；步骤22，第一方将所述中间数据和所述第一用户的用户标识发送给第二方；步骤23，第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；步骤24，第二方利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。下面描述以上各个步骤的具体执行方式。

首先在步骤21，第一方将用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造。可以理解的是，第一隐私数据由第一用户对应于若干第一特征项的原始特征值构成，上述第一神经网络模型属于自监督网络。

在一个示例中，所述方法还包括：

利用各训练样本，训练所述第一神经网络模型。

可以理解的是，上述遮蔽的方式可以但不限于为随机遮蔽的方式，一个用户对应的第一隐私数据可以构造成一个或多个训练样本。

进一步地，所述目标特征值以第一概率为预设值，以第二概率为随机值，以第三概率为替换前的原值，所述第一概率大于所述第二概率和第三概率。例如，第一概率为80％，第二概率为10％，第三概率为10％。

在一个示例中，所述目标隐层为所述第一神经网络模型包含的多个隐层中的最后一个隐层。

然后在步骤22，第一方将所述中间数据和所述第一用户的用户标识发送给第二方。可以理解的是，所述中间数据相当于经过加密保护的数据，并不是原始的第一隐私数据。

在一个示例中，所述将所述中间数据和所述第一用户的用户标识发送给所述第二方，包括：

该示例采用了非对称加密的方式，非对称加密算法需要两个密钥：公开密钥(简称公钥)和私有密钥(简称私钥)。公钥与私钥是一对，如果用公钥对数据进行加密，只有用对应的私钥才能解密。因为加密和解密使用的是两个不同的密钥，所以这种算法称为非对称加密算法。

可以理解的是，上述同态加密的方式具有单向性，也就是说，在获取加密用户标识和第一函数之后，不容易推得加密用户标识对应的原始的用户标识，或者说明文的用户标识。

接着在步骤23，第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合。可以理解的是，上述整合实际上是将对应于同一用户的中间数据和第二隐私数据进行整合，而确定中间数据和第二隐私数据是否属于同一用户的依据是用户标识。

本说明书实施例，第一用户为用户集中的任意一个用户，因此上述整合并不是针对单一用户进行的，可以批量处理，以减少暴露和碰撞测试的可能。

在一个示例中，第二方从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识；利用所述私钥对应的公钥，对加密后的中间数据和第一用户的用户标识进行解密，根据解密后的所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据进行整合。

进一步地，第二方从所述第一方接收利用所述第一方的私钥加密后的中间数据、加密用户标识和第一函数；所述加密用户标识为将所述第一用户的用户标识利用所述第一函数进行同态加密得到的；利用所述私钥对应的公钥，对加密后的中间数据和第一用户的用户标识进行解密，解密后得到中间数据、加密用户标识和第一函数；利用所述第一函数对所述用户集中各用户的用户标识进行同态加密，得到各对照用户标识；从所述各对照用户标识中选择与所述加密用户标识相一致的匹配用户标识；对所述中间数据和所述匹配用户标识对应的第二隐私数据进行整合。

最后在步骤24，第二方利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。可以理解的是，在对所述中间数据和第二隐私数据进行整合后，相应地可以匹配出第一用户对应的类别标签。

本说明书实施例，可以采取常规方式对第二神经网络模型进行训练，在此不做赘述。

通过本说明书实施例提供的方法，第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，首先所述第一方将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；然后所述第一方将所述中间数据和所述第一用户的用户标识发送给所述第二方；接着所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；最后所述第二方利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。由上可见，本说明书实施例，第一神经网络模型通过自监督方式训练得到，第一方将第一隐私数据经过第一神经网络模型转换后，转换后的数据相对于原始的第一隐私数据，数据信息损失少，数据分布信息较完整，将转换后的数据发送给第二方后，便于第二方利用第二神经网络模型学习各方提供的特征数据，训练后得到的第二神经网络模型具有较佳的模型表现；同时上述转换后的数据反向计算较困难，不容易计算出原始的第一隐私数据，可有效保护各方持有的用户隐私数据，从而能够在多方联合建模时，既保护隐私数据，又能够有效提升模型表现。

图3示出根据一个实施例的保护隐私数据的多方联合建模的全局示意图。参照图3，机构A对应于前述第一方，机构A部署有自监督网络A，机构B对应于前述第二方，机构B部署有深度学习模型B。机构A，通过使用自有数据进行基于深度学习的自监督训练，训练结束后，将自监督网络A的隐层的输出数据输出给机构B，上述隐层的输出数据作为将原始数据经过加密保护后的数据。其中，网络信息传递：使用非对称加密方式与同态加密组合进行用户标识(id)的加密与联合训练时的一致性保证，确保多方合作时，存在的数据整合建模过程，也可保证样本的id(如身份证号等)不被暴露在网络传输过程中。机构B在收到机构A的数据后，对机构A的隐层输出的数据和B端原始数据进行整合，利用整合后的数据训练深度学习模型B。机构A与机构B分别独立部署模型，保证数据与模型的安全。

本说明书实施例，通过自监督学习通过设定代理任务，学习到原始数据的数据分布信息，提高建模预测性能，同时融合多个特征数据，保证最终输出经过自监督网络的数据经过加密后，特征列无具体意义，也提高了反向计算原始数据的难度。

根据另一方面的实施例，还提供一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第一方，用于执行本说明书方法实施例中第一方执行的动作。图4示出根据一个实施例的保护隐私数据的多方联合建模的装置的示意性框图。如图4所示，该装置400包括：

获取单元41，用于将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

发送单元42，用于将所述获取单元41获取的中间数据和所述第一用户的用户标识发送给所述第二方，以使所述第二方根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合后，利用所述第一用户对应的类别标签，对第二神经网络模型进行训练。

可选地，作为一个实施例，所述装置还包括：

构造单元，用于基于各用户的各第一隐私数据，构造对应的样本特征和伪标签，形成各训练样本；

训练单元，用于利用所述构造单元形成的各训练样本，训练所述第一神经网络模型。

进一步地，所述构造单元，具体用于针对各第一隐私数据中的任一第一隐私数据，遮蔽至少一个第一特征项对应的原始特征值，将其替换成目标特征值，替换后的第一隐私数据作为样本特征，并将被遮蔽的原始特征值作为伪标签，形成该第一隐私数据对应的训练样本。

可选地，作为一个实施例，所述目标隐层为所述第一神经网络模型包含的多个隐层中的最后一个隐层。

可选地，作为一个实施例，所述发送单元42，具体用于将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方，所述第二方具有所述私钥对应的公钥。

进一步地，所述装置还包括：

同态加密单元，用于在所述发送单元42将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方之前，将所述用户标识利用第一函数进行同态加密，得到加密用户标识；

所述发送单元42，具体用于将所述中间数据、所述同态加密单元得到的加密用户标识和所述第一函数，利用自身的私钥加密后发送给所述第二方。

根据另一方面的实施例，还提供一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第二方，用于执行本说明书方法实施例中第二方执行的动作。图5示出根据另一个实施例的保护隐私数据的多方联合建模的装置的示意性框图。如图5所示，该装置500包括：

接收单元51，用于从所述第一方接收中间数据和第一用户的用户标识；所述中间数据为所述第一方通过将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取的第一神经网络模型的目标隐层的输出；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；

整合单元52，用于根据所述接收单元51接收的用户标识，对所述接收单元接收的中间数据和所述第一用户对应的第二隐私数据整合；

训练单元53，用于利用所述整合单元52整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

可选地，作为一个实施例，所述接收单元51，具体用于从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识；

所述装置还包括：

解密单元，用于在所述整合单元52根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合之前，利用所述私钥对应的公钥，对所述接收单元51接收的加密后的中间数据和第一用户的用户标识进行解密。

进一步地，所述接收单元51，具体用于从所述第一方接收利用所述第一方的私钥加密后的中间数据、加密用户标识和第一函数；所述加密用户标识为将所述第一用户的用户标识利用所述第一函数进行同态加密得到的；

所述解密单元解密后得到中间数据、加密用户标识和第一函数；

所述整合单元52包括：

同态加密子单元，用于利用所述解密单元得到的第一函数对所述用户集中各用户的用户标识进行同态加密，得到各对照用户标识；

选择子单元，用于从所述同态加密子单元得到的各对照用户标识中选择与所述解密单元得到的加密用户标识相一致的匹配用户标识；

整合子单元，用于对所述中间数据和所述匹配用户标识对应的第二隐私数据进行整合。

根据另一方面的实施例，还提供一种保护隐私数据的多方联合建模的系统，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签。图6示出根据一个实施例的保护隐私数据的多方联合建模的系统的示意性框图。如图6所示，该系统600包括：

第一方61，用于将所述用户集中任意的第一用户对应的第一隐私数据输入第一神经网络模型，获取第一神经网络模型的目标隐层输出的中间数据；所述第一神经网络模型利用伪标签通过自监督方式训练得到，所述伪标签基于所述用户集中各用户的第一隐私数据而构造；将所述中间数据和所述第一用户的用户标识发送给第二方62；

第二方62，用于根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合；利用整合后的所述中间数据、第二隐私数据和所述第一用户对应的类别标签，对第二神经网络模型进行训练。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法由所述第一方执行，包括：

2.如权利要求1所述的方法，其中，所述方法还包括：

利用各训练样本，训练所述第一神经网络模型。

3.如权利要求2所述的方法，其中，所述基于各用户的各第一隐私数据，构造对应的样本特征和伪标签，形成各训练样本，包括：

4.如权利要求3所述的方法，其中，所述目标特征值以第一概率为预设值，以第二概率为随机值，以第三概率为替换前的原值，所述第一概率大于所述第二概率和第三概率。

5.如权利要求1所述的方法，其中，所述目标隐层为所述第一神经网络模型包含的多个隐层中的最后一个隐层。

6.如权利要求1所述的方法，其中，所述将所述中间数据和所述第一用户的用户标识发送给所述第二方，包括：

7.如权利要求6所述的方法，其中，所述将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方之前，所述方法还包括：

8.一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法由所述第二方执行，包括：

9.如权利要求8所述的方法，其中，所述从所述第一方接收中间数据和第一用户的用户标识，包括：

10.如权利要求9所述的方法，其中，所述从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识，包括：

解密后得到中间数据、加密用户标识和第一函数；

11.一种保护隐私数据的多方联合建模的方法，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述方法包括：

12.一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第一方，包括：

13.如权利要求12所述的装置，其中，所述装置还包括：

14.如权利要求13所述的装置，其中，所述构造单元，具体用于针对各第一隐私数据中的任一第一隐私数据，遮蔽至少一个第一特征项对应的原始特征值，将其替换成目标特征值，替换后的第一隐私数据作为样本特征，并将被遮蔽的原始特征值作为伪标签，形成该第一隐私数据对应的训练样本。

15.如权利要求14所述的装置，其中，所述目标特征值以第一概率为预设值，以第二概率为随机值，以第三概率为替换前的原值，所述第一概率大于所述第二概率和第三概率。

16.如权利要求12所述的装置，其中，所述目标隐层为所述第一神经网络模型包含的多个隐层中的最后一个隐层。

17.如权利要求12所述的装置，其中，所述发送单元，具体用于将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方，所述第二方具有所述私钥对应的公钥。

18.如权利要求17所述的装置，其中，所述装置还包括：

同态加密单元，用于在所述发送单元将所述中间数据和所述第一用户的用户标识，利用自身的私钥加密后发送给所述第二方之前，将所述用户标识利用第一函数进行同态加密，得到加密用户标识；

所述发送单元，具体用于将所述中间数据、所述同态加密单元得到的加密用户标识和所述第一函数，利用自身的私钥加密后发送给所述第二方。

19.一种保护隐私数据的多方联合建模的装置，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述装置设置于所述第二方，包括：

20.如权利要求19所述的装置，其中，所述接收单元，具体用于从所述第一方接收利用所述第一方的私钥加密后的中间数据和第一用户的用户标识；

所述装置还包括：

解密单元，用于在所述整合单元根据所述用户标识，对所述中间数据和所述第一用户对应的第二隐私数据整合之前，利用所述私钥对应的公钥，对所述接收单元接收的加密后的中间数据和第一用户的用户标识进行解密。

21.如权利要求20所述的装置，其中，所述接收单元，具体用于从所述第一方接收利用所述第一方的私钥加密后的中间数据、加密用户标识和第一函数；所述加密用户标识为将所述第一用户的用户标识利用所述第一函数进行同态加密得到的；

所述整合单元包括：

22.一种保护隐私数据的多方联合建模的系统，所述多方包括第一方和第二方，所述第一方具有用户集中各用户对应于若干第一特征项的各第一隐私数据，所述第二方具有所述用户集中各用户对应于若干第二特征项的各第二隐私数据和各用户分别对应的类别标签，所述系统包括：

23.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

24.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项的所述的方法。