CN113032838A

CN113032838A - 基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质

Info

Publication number: CN113032838A
Application number: CN202110562405.4A
Authority: CN
Inventors: 徐慧囝; 高昊宇; 周枭
Original assignee: Yishang Credit Information Co ltd
Current assignee: Yishang Credit Information Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-06-25
Anticipated expiration: 2041-05-24
Also published as: CN113032838B

Abstract

本申请公开一种基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质，本申请通过至少两个数据提供方获取目标共有特征数据；每个数据提供方从各自的业务数据中获取目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；确定每个待测对象的随机配对数据；分别将每个待测对象的随机配对数据发送给协调服务器；协调服务器基于每个待测对象的随机配对数据得到随机配对数据集；利用随机配对数据集对标签预测模型进行训练，得到目标标签预测模型，将目标标签预测模型发送给至少两个数据提供方，可以实现在不共享多个数据提供方业务数据，对每方业务数据进行隐私保护的前提下，生成多个数据提供方业务数据的标签预测模型。

Description

基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质

技术领域

本发明涉及大数据安全处理技术领域，尤其涉及基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质。

背景技术

随着数字化经济时代的到来，数据作为生产要素，其价值愈发明显，越来越多的企业或组织需要与产业链上下游业务伙伴在数据流通和交易领域进行深度合作，只有通过各方数据协同计算，才能更好地释放数据价值。但用户对隐私日益重视，政策法规趋向严格，数据协作和隐私保护这一矛盾也日益严重，现有的一些政策或管理规范正在逐步加强对隐私数据的管理，如《金融机构客户身份识别和客户身份资料及交易记录保存管理办法》、《中国人民银行金融消费者权益保护实施办法》、《关于进一步加强征征信信息安全管理的通知》、《个人金融信息保护规范》（JRT0171-2020）、《金融数据安全数据生命周期安全规范》、《金融科技创新应用测试规范》等文件中对用户的身份数据、交易数据等的收集、传输、存储、使用、删除、销毁各环节都要求进行安全防护，从安全技术和安全管理等方面，对个人信息保护提出了规范性要求。由于企业和机构对数据自身价值的保护以及对用户隐私授权的保护，数据被储存在不同地方，像一个个孤岛难以被有效的连接互动。因此，隐私计算应运而生，隐私计算是数据科学与工程、密码学、分布式计算与存储的综合工程，包括多方安全计算、可信硬件、联邦机器学习等多项技术。

其中，联邦机器学习，又名联邦学习、联合学习、联盟学习。联邦机器学习是一个机器学习框架，能够有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式，可以有效解决数据孤岛问题，让参与方在不共享数据的基础上联合建模，能够从技术上打破数据孤岛，实现多机构的大数据协作。

联邦学习定义了机器学习框架，在此框架下通过设计虚拟模型解决不同数据提供方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型，各自区域依据模型为本地提供目标服务。联邦学习要求此建模结果应当无限接近传统模式，即，将多个数据提供方的数据汇聚到一处进行建模。但在多个数据提供方提供的数据没有共享ID的情况下，将各方的数据聚合在一起得到最优模型相当困难。

发明内容

为了解决上述技术问题，本发明提供一种基于隐私计算的标签预测模型生成方法、预测方法、模型生成装置、系统及介质，可以实现在不共享多个数据提供方业务数据的前提下，对多个数据提供方业务数据进行隐私计算，生成多个数据提供方业务数据的标签预测模型。

为了达到上述申请的目的，本申请提供了一种基于隐私计算的标签预测模型生成方法，该方法可以包括：

至少两个数据提供方获取目标共有特征数据；

每个数据提供方从各自的业务数据中获取所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；

所述每个数据提供方分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；

所述每个数据提供方分别将每个待测对象的随机配对数据发送给协调服务器；

所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集；

所述协调服务器利用所述随机配对数据集对标签预测模型进行训练，将训练的结果作为目标标签预测模型；

所述协调服务器将所述目标标签预测模型发送给所述至少两个数据提供方。

另一方面，本申请还提供一种基于隐私计算的标签预测模型生成方法，应用于协调服务器，该方法可以包括：

接收至少两个数据提供方发送的每个待测对象的随机配对数据，所述每个待测对象的随机配对数据为所述至少两个数据提供方获取目标共有特征数据，从各自的业务数据中获取所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，并分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定的每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；

基于所述每个待测对象的随机配对数据得到随机配对数据集；

利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型；

将所述目标标签预测模型发送给所述至少两个数据提供方。

另一方面，本申请还提供一种基于隐私计算的标签预测模型生成方法，应用于数据提供方，该方法包括：

获取目标共有特征数据；

从各自的业务数据中确定所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；

分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；

分别将每个待测对象的随机配对数据发送给协调服务器，以使所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集，利用所述随机配对数据集对标签预测模型进行训练，并计算所述标签预测模型的损失函数，将满足预设条件的损失函数对应的标签预测模型作为目标标签预测模型。

另一方面，本申请还提供一种基于隐私计算的标签预测方法，应用于数据提供方，所述方法可以包括：

获取业务数据，所述业务数据包括至少一个待测对象的数据特征向量；

将所述至少一个待测对象的数据特征向量输入前述的目标标签预测模型，得到所述至少一个待测对象对应的标签数据。

另一方面，本申请还提供一种基于隐私计算的标签预测模型生成装置，应用于协调服务器，该装置包括：

随机配对数据接收模块，用于接收至少两个数据提供方发送的每个待测对象的随机配对数据，所述每个待测对象的随机配对数据为所述至少两个数据提供方获取目标共有特征数据，从各自的业务数据中获取所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，并分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定的每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；

随机配对数据集确定模块，用于基于所述至少两个数据提供方发送的随机配对数据得到随机配对数据集；

训练模块，用于利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型；

模型发送模块，用于将所述目标标签预测模型发送给所述至少两个数据提供方。

另一方面，本申请还提供一种基于隐私计算的标签预测模型生成装置，应用于数据提供方，所述装置包括：

第一数据获取模块，用于获取目标共有特征数据；

第一数据确定模块，用于从各自的业务数据中确定所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；

随机配对数据确定模块，用于分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；

随机配对数据发送模块，用于分别将每个待测对象的随机配对数据发送给协调服务器，以使所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集，利用所述随机配对数据集对标签预测模型进行训练，并计算所述标签预测模型的损失函数，将满足所述预设条件的损失函数对应的标签预测模型作为目标标签预测模型。

另一方面，本申请还提供一种基于隐私计算的标签预测模型生成系统，所述系统包括：

至少两个数据提供方和协调服务器；

所述协调服务器用于接收至少两个数据提供方发送的每个待测对象的随机配对数据；以及，基于所述每个待测对象的随机配对数据得到随机配对数据集；以及，利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型，并将所述目标标签预测模型发送给所述至少两个数据提供方；

所述至少两个数据提供方用于获取目标共有特征数据；以及，从各自的业务数据中确定所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；以及，分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；以及，分别将每个待测对象的随机配对数据发送给协调服务器。

另外，本申请还提供一种存储介质，应用于协调服务器，该存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一项所述的方法。

另外，本申请还提供一种存储介质，应用于数据提供方，该存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一项所述的方法。

实施本申请，具有如下有益效果：

本申请通过至少两个数据提供方获取目标共有特征数据；每个数据提供方从各自的业务数据中获取所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；所述每个数据提供方分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；所述每个数据提供方分别将每个待测对象的随机配对数据发送给协调服务器；所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集；所述协调服务器利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型，协调服务器将所述目标标签预测模型发送给所述至少两个数据提供方，可以实现在不共享多个数据提供方业务数据的前提下，对多个数据提供方业务数据进行隐私计算，生成多个数据提供方业务数据的标签预测模型。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本申请实施例提供的一种基于隐私计算的标签预测模型生成方法的应用场景示意图；

图2为本申请另一实施例提供的一种基于隐私计算的标签预测模型生成方法的应用场景示意图；

图3为本申请实施例提供的一种基于隐私计算的标签预测模型生成方法的数据交互示意图；

图4为本申请实施例提供的一种业务数据垂直分布的示意图；

图5为本申请另一实施例提供的一种基于隐私计算的标签预测模型生成方法的数据交互示意图；

图6为本申请另一实施例提供的一种基于隐私计算的标签预测模型生成方法的数据交互示意图；

图7为本申请实施例提供的以协调服务器为执行主体进行介绍的标签预测模型生成方法的流程示意图；

图8为本申请另一实施例提供的以协调服务器为执行主体进行介绍的标签预测模型生成方法的流程示意图；

图9为本申请另一实施例提供的以协调服务器为执行主体进行介绍的标签预测模型生成方法的流程示意图；

图10为本申请实施例提供的训练标签预测模型的流程示意图；

图11为本申请实施例提供的以数据提供方为执行主体进行介绍的标签预测模型生成方法的流程示意图；

图12为本申请实施例提供的基于隐私计算的标签预测方法的流程示意图；

图13为本申请实施例提供的基于隐私计算的标签预测模型生成装置的结构示意图；

图14为本申请另一实施例提供的基于隐私计算的标签预测模型生成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了实现本申请的技术方案，让更多的工程技术工作者容易了解和应用本申请，将结合具体的实施例，进一步阐述本申请的工作原理。

本申请可应用于大数据安全处理技术领域，涉及垂直数据分布下，绕过实体匹配的联邦学习。根据参与的数据提供方数据源的分布情况，联邦学习大致可以被分为两类：横向联邦学习和纵向联邦学习。在两个数据集的用户重叠较多而用户特征重叠较少的情况下，将数据集按照纵向，即按特征维度进行切分，并取出双方用户相同而用户特征不完全相同的部分数据进行训练。例如，有两个不同数据提供方，分别为数据提供方A和数据提供方B，它们的用户群体包含某个地区的大部分居民，因此用户的交集较大。但是，由于数据提供方A和数据提供方B提供的业务服务不同，数据提供方A和数据提供方B中的数据集中用户特征交集较小。

图1和图2分别示出根据本申请实施例的基于隐私计算的标签预测模型生成方法的应用场景示意图。图1和图2所示的应用场景中，可以包括一个协调服务器和至少两个数据提供方。以两个数据提供方为例，如图1所示，基于隐私计算的标签预测模型生成应用场景可以包括数据提供方A、数据提供方B和协调服务器C。协调服务器C向数据提供方A和数据提供方B广播目标共有特征数据，数据提供方A和数据提供方B分别具有业务数据的数据集，各自的数据集中均包括共有特征数据，数据提供方A和数据提供方B分别基于共有特征数据，在本地对各自的业务数据的数据集进行随机配对，得到各自的随机配对数据，并将各自的随机配对数据发送给协调服务器C。协调服务器C利用数据提供方A和数据提供方B提供的随机配对数据对标签预测模型进行训练，生成目标标签预测模型。

如图2所示，基于隐私计算的标签预测模型生成应用场景可以包括数据提供方A、数据提供方B和协调服务器C。数据提供方A确定目标共有特征数据，并发送给数据提供方B。数据提供方A和数据提供方B分别具有业务数据的数据集，各自的数据集中均包括共有特征数据，数据提供方A和数据提供方B分别基于共有特征数据，在本地对各自的业务数据的数据集进行随机配对，得到各自的随机配对数据，并将各自的随机配对数据发送给协调服务器C。协调服务器C利用数据提供方A和数据提供方B提供的随机配对数据对标签预测模型进行训练，生成目标标签预测模型。

在基于隐私计算的标签预测模型生成过程中，数据提供方A和数据提供方B的业务数据只在本地，不会将涉及用户隐私的业务数据进行传送，可以有效保护本地数据的安全。

据此，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。以下介绍本申请实施例提供的一种基于隐私计算的标签预测模型生成方法，如图3所示，该方法可以包括：

S101：至少两个数据提供方获取目标共有特征数据。

本申请中的目标共有特征数据是指数据集垂直分布时，按特征维度进行切分，至少两个数据提供方的数据集中的共有特征。以两个数据提供方为例，图4示出数据提供方A和数据提供方B两方业务数据垂直分布的示意图，双方的业务数据在纵向上按照特征分布，其中部分特征为数据提供方A和数据提供方B的共有特征，例如，双方的业务数据中用户的性别、年龄段和邮政编码等特征属于共有特征。

S103：每个数据提供方从各自的业务数据中获取目标共有特征数据各自对应的待测对象的特有特征数据和数据标签。

待测对象是指一个特有特征或多个特有特征的集合，每个待测对象对应有特有特征数据、目标共有特征数据和数据标签，特有特征数据是指部分待测对象特有的特征数据。本申请中的数据标签表示目标预测行为是否发生，数据标签的取值可以包括1或-1，也可以包括1或0，1代表发生目标预测行为，-1和0代表不发生目标预测行为，本申请提供数据标签可能的取值情况，但对此不作限定。

S105：每个数据提供方分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据。

具体的，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合。例如，表1示出一个简单的数据集，P1为第一特有特征，P2为第二特有特征，J为目标共有特征，y为数据标签，表1中的1或0表示相应用户的相应特征或标签发生的情况（如：特征1表示性别，1为性别男，0为性别女）。

表1

	P1	P2	J	y
					x1：用户1	1	0	1	1
x2：用户2	1	1	0	0
					x3：用户3	0	1	1	1
x4：用户4	1	1	1	0

取目标共有特征数据J =（1）时，待测对象P1的随机配对数据

，

表示第

行数据中待测对象对应的特有特征和共有特征的向量，

表示第

行的数据标签。该公式中

第一个1为P1的数据，第二个1为J的数据，第三个1为y的数据。

同理，确定J =（1）时，待测对象P2的随机配对数据，以及J =（0）时，待测对象P1和P2的随机配对数据。

上述例子示出的是目标共有特征数据J仅包括一个特征的情况，当目标共有特征J包括至少两个共有特征时，J的取值为多个，例如，目标共有特征J包括两个共有特征时，J的取值可以为（0,0）、（0,1）、（1,0）或（1,1），相应的，需要确定J不同取值对应的每个待测对象的随机配对数据。

S107：每个数据提供方分别将每个待测对象的随机配对数据发送给协调服务器。

具体的，数据提供方可以直接将每个待测对象的随机配对数据，或者先对每个待测对象的随机配对数据进行加密，再发送给协调服务器。

S109：协调服务器基于每个待测对象的随机配对数据得到随机配对数据集。

具体的，

为共有特征，对于任何的

，即

为目标共有特征向量，

为

对应的数据标签，记

为与标识组

相对应的业务数据中的样本数量（在一些应用场景中，

为标识组

对应的用户数量，由此可以得到

对应的随机配对集为

其中，

和

表示垂直数据的列数，待测对象对应的随机配对

是长度小于总特征数量d的向量，

将

变换为长度为d的向量，并用“0”来填充该待测对象下的当前

不存在的特征。例如，

，那么当前的

，其中（1,1,0，……0,0,0,0……，0,1）的0,0,0,0等为填充的待测对象以外的剩余特有特征。同理，

是将

以外的剩余特征用“0”填充。

表示所有满足标识组

的

的求和，由于每个待测对象已经将

相加了

次，用

可以表示

对应的随机配对集。

S111：协调服务器利用随机配对数据集对标签预测模型进行训练，将训练的结果作为目标标签预测模型。

S113：协调服务器将目标标签预测模型发送给至少两个数据提供方。

在一些实施例中，如图5所示，步骤S101：至少两个数据提供方获取目标共有特征数据可以包括：

S1011：协调服务器向至少两个数据提供方中的目标数据提供方发送目标标签预测模型生成请求。

S1013：目标数据提供方响应于该目标标签预测模型生成请求，确定目标共有特征数据。

S1015：目标数据提供方将目标共有特征数据发送给非目标数据提供方。

该实施例中，当数据提供方的数量较少时，确定一个目标数据提供方，由目标数据提供方响应于该目标标签预测模型生成请求，确定目标共有特征数据，并将目标共有特征数据发送给非目标数据提供方，有助于提高目标共有特征数据传输的效率。

在另一些实施例中，如图6所示，步骤S101：至少两个数据提供方获取目标共有特征数据可以包括：

S1012：协调服务器确定目标共有特征数据，

S1014：协调服务器向至少两个数据提供方发送目标共有特征数据。

该实施例中，当数据提供方的数量较多时，利用协调服务器进行目标共有特征数据的广播，可以提高目标共有特征数据传输的效率。

上述实施例通过至少两个数据提供方获取目标共有特征数据；每个数据提供方从各自的业务数据中获取目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；每个数据提供方分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合；每个数据提供方分别将每个待测对象的随机配对数据发送给协调服务器；协调服务器基于每个待测对象的随机配对数据得到随机配对数据集；协调服务器利用随机配对数据集对标签预测模型进行训练，并计算标签预测模型的损失函数；当损失函数满足预设条件时，协调服务器将满足预设条件的损失函数对应的标签预测模型作为目标标签预测模型，可以实现在不共享多个数据提供方业务数据的前提下，对多个数据提供方业务数据进行隐私计算，生成多个数据提供方业务数据的标签预测模型。

需要强调的是，本申请实施例中在描述特征时，不局限于布尔值（如特征A的数值为1和-1, 1表示发生，-1表示不发生），即，可以用多元描述特征。本申请中的特征，服从独立同分布。

本申请实施例中，随着共享特征数量的增加，基于隐私计算生成的标签预测模型趋于最佳模型。

以下以协调服务器为执行主体介绍本申请一种基于隐私计算的标签预测模型生成方法的实施例，如图7所示，该方法可以包括：

S201：接收至少两个数据提供方发送的每个待测对象的随机配对数据。

具体的，每个待测对象的随机配对数据为至少两个数据提供方获取目标共有特征数据，从各自的业务数据中获取目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，并分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定的每个待测对象的随机配对数据，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合。

S203：基于每个待测对象的随机配对数据得到随机配对数据集。

S205：利用随机配对数据集对标签预测模型进行训练，将训练的结果作为目标标签预测模型。

S207：当损失函数满足预设条件时，将满足预设条件的损失函数对应的标签预测模型作为目标标签预测模型。

S209：将目标标签预测模型发送给至少两个数据提供方。

在一些实施例中，如图8所示，步骤S201，接收至少两个数据提供方发送的每个待测对象的随机配对数据之前，该方法还可以包括：

S2011a：确定目标共有特征数据，并向至少两个数据提供方发送目标共有特征数据。

在另外的实施例中，如图9所示，步骤S201，接收至少两个数据提供方发送的每个待测对象的随机配对数据之前，该方法还可以包括：

S2011b：向至少两个数据提供方发送目标标签预测模型生成请求，以使至少两个数据提供方中的目标数据提供方响应于目标标签预测模型生成请求，确定目标共有特征数据，并将目标共有特征数据发送给至少两个数据提供方中的非目标数据提供方。

在一些实施例中，如图10所示步骤S205：利用随机配对数据集对标签预测模型进行训练，将训练的结果作为目标标签预测模型可以包括：

S2051：构建标签预测模型。

具体的，构建标签预测模型是指根据实际业务需求确定机器学习模型，对于简单的数据集，可以采用简单的模型，例如确定线性模型为标签预测模型。对于复杂的数据集，可以采用如卷积神经网络、循环神经网络、全连接神经网络中的一种或多种的组合，作为标签预测模型。在实际部署中，预先确定数据提供方的数据复杂度，基于数据提供方的数据复杂度确定对应使用的标签预测模型种类，在赋予标签预测模型预测能力的同时，节省算力，提高工作效率。

S2053：将随机配对数据集输入标签预测模型，得到预测标签数据。

具体的，随机配对数据集中包括特有特征数据和共有特征数据的随机配对，随机配对对应的数据标签，利用标签预测模型对随机配对数据集进行预测，得到预测标签数据。

S2055：基于预测标签数据和数据标签确定标签预测模型的模型损失。

本申请提供计算两个损失函数的实施例，用于确定标签预测模型的模型损失标签预测模型的模型损失表征预测标签与实际标签的差距，模型损失越小，说明，预测标签与实际标签的差距越小，对应的标签预测模型的预测能力越高。

实施例a，利用岭回归下的平方损失差表示标签预测模型损失函数，该损失函数表征预测标签与真实输入标签之间的差距，损失函数的公式为

其中，

为随机配对数据集，

为标签预测模型的模型参数，

为正定矩阵，

为

的转置变换，

为样本数量。

利用岭回归下的平方损失差表示标签预测模型损失函数的过程中，该损失函数的封闭解为

其中，

，表示业务数据的垂直分布中，某一个或某多个特有特征对应的所有用户的特征数值所构成的向量，因此，

。

通过对利用岭回归下的平方损失差表示标签预测模型损失函数，并求该损失函数的封闭解，得到目标标签预测模型。

实施例b，设置标签预测模型的损失函数为

其中，

，

和

分布表示计算的期望和方差，期望和方差为

在

的均匀采样，

。该损失函数似于马科维茨的均值-方差模型，但本申请实施例中

损失的均方差准则没有风险平均系数，其中，风险是预测的方差。通过最小化

，可以学习得到目标标签预测模型。

S2057：判断模型损失是否满足预设条件。

具体的，预设条件可以包括模型损失小于预设阈值，预设阈值根据实际需求设置。

S2059：若满足，将模型损失所对应的标签预测模型作为目标标签预测模型。

S2061：若不满足，基于模型损失对标签预测模型的模型参数进行调整，得到新的标签预测模型。

重复S2053至 S2057的步骤，直至模型损失满足预设条件，其中S2053步骤中的标签预测模型为每次更新后的标签预测模型。

在一些实施例中，当训练确定目标标签预测模型后，可以再次利用随机配对集对目标标签预测模型进行验证。验证使用的随机配对集可以是数据提供方额外提供的，与训练标签预测模型时的随机配对集不存在交集。或者是协调服务器在获取所有随机配对集后，大部分随机配对集用于训练标签预测模型，小部分随机配对集用于对得到的目标标签预测模型进行测试验证，将测试验证通过的目标标签预测模型发送给数据提供方，以供数据提供方利用该目标标签预测模型进行标签预测。

以下以数据提供方为执行主体介绍本申请一种基于隐私计算的标签预测模型生成方法的实施例，如图11所示，该方法可以包括：

S301：获取目标共有特征数据。

S303：从各自的业务数据中确定目标共有特征数据各自对应的待测对象的特有特征数据和数据标签。

S305：分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据。

随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合。

S307：分别将每个待测对象的随机配对数据发送给协调服务器，以使协调服务器基于每个待测对象的随机配对数据得到随机配对数据集，利用随机配对数据集对标签预测模型进行训练，得到目标标签预测模型。

本申请另一方面还提供一种基于隐私计算的标签预测方法，如图12所示，该方法可以包括：

S401：获取业务数据。

具体的，业务数据包括至少一个待测对象的数据特征向量。

S403：将至少一个待测对象的数据特征向量输入目标标签预测模型中，得到该至少一个待测对象对应的标签数据。

具体的，目标标签预测模型为采用本申请实施例中的基于隐私计算的标签预测模型生成方法生成的标签预测模型，目标标签预测模型可以是协调服务器发送给多个数据提供方，由数据提供方进行存储，当需要对业务数据进行预测时，数据提供方将至少一个待测对象的数据特征向量输入目标标签预测模型，从而确定待测对象对应的标签数据。

本申请另一方面还提供一种基于隐私计算的标签预测模型生成装置，应用于协调服务器，如图13所示，该装置可以包括：

随机配对数据接收模块501，用于接收至少两个数据提供方发送的每个待测对象的随机配对数据，每个待测对象的随机配对数据为至少两个数据提供方获取目标共有特征数据，从各自的业务数据中获取目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，并分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定的每个待测对象的随机配对数据，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合。

随机配对数据集确定模块503，用于基于至少两个数据提供方发送的随机配对数据得到随机配对数据集。

训练模块505，用于利用随机配对数据集对标签预测模型进行训练，得到目标标签预测模型。

模型发送模块507，用于将所述目标标签预测模型发送给所述至少两个数据提供方。

在一些实施例中，训练模块505可以包括：

模型构建单元，用于构建标签预测模型；

训练单元，用于将随机配对数据集输入标签预测模型，得到预测标签数据。

损失确定单元，用于基于预测标签数据和数据标签确定标签预测模型的模型损失。

判断单元，用于判断模型损失是否满足预设条件。

目标标签预测模型确定单元，用于将满足预设条件的模型损失所对应的标签预测模型作为目标标签预测模型。

模型更新单元，用于基于模型损失对标签预测模型的模型参数进行调整，得到新的标签预测模型。

本申请另一方面还提供一种基于隐私计算的标签预测模型生成装置，应用于数据提供方，如图14所示，该装置可以包括：

第一数据获取模块601，用于获取目标共有特征数据。

第一数据确定模块603，用于从各自的业务数据中确定目标共有特征数据各自对应的待测对象的特有特征数据和数据标签。

随机配对数据确定模块605，用于分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合。

随机配对数据发送模块607，用于分别将每个待测对象的随机配对数据发送给协调服务器，以使协调服务器基于每个待测对象的随机配对数据得到随机配对数据集，利用随机配对数据集对标签预测模型进行训练，得到目标标签预测模型。

另外，本申请还提供一种基于隐私计算的标签预测模型生成系统，该系统可以包括：

至少两个数据提供方和协调服务器。

协调服务器用于接收至少两个数据提供方发送的每个待测对象的随机配对数据；以及，基于每个待测对象的随机配对数据得到随机配对数据集；以及，利用随机配对数据集对标签预测模型进行训练，得到目标标签预测模型；

至少两个数据提供方用于获取目标共有特征数据；以及，从各自的业务数据中确定目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；以及，分别基于目标共有特征数据，以及目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，随机配对数据为每个待测对象对应的数据特征向量和数据标签的乘积和，每个待测对象对应的数据特征向量为每个待测对象对应的特有特征数据和对应的目标共有特征数据的向量组合；以及，分别将每个待测对象的随机配对数据发送给协调服务器。

本申请实施例中，当协调服务器向至少两个数据提供方广播目标共有特征数据时，至少两个数据提供方可以为物理隔离的服务器。

在示例性实施例中，本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由处理器加载并执行以实现应用于协调服务器的标签预测模型生成方法。

另外，本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由处理器加载并执行以实现应用于数据提供方的标签预测模型生成方法。

上述实施例通过至少两个数据提供方获取目标共有特征数据；每个数据提供方从各自的业务数据中获取所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签；所述每个数据提供方分别基于所述目标共有特征数据，以及所述目标共有特征数据各自对应的待测对象的特有特征数据和数据标签，确定每个待测对象的随机配对数据，所述随机配对数据为所述每个待测对象对应的数据特征向量和数据标签的乘积和，所述每个待测对象对应的数据特征向量为所述每个待测对象对应的特有特征数据和对应的所述目标共有特征数据的向量组合；所述每个数据提供方分别将每个待测对象的随机配对数据发送给协调服务器；所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集；所述协调服务器利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型，协调服务器将所述目标标签预测模型发送给所述至少两个数据提供方，可以实现在不共享多个数据提供方业务数据的前提下，对多个数据提供方业务数据进行隐私计算，生成多个数据提供方业务数据的标签预测模型。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如本发明的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(如计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，也可以在载体信号上提供，或者以任何其他形式提供。

应该注意的是，上述实施例是对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或者步骤等。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中，这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二以及第三等的使用不表示任何顺序，可将这些单词解释为名称。

Claims

1.一种基于隐私计算的标签预测模型生成方法，其特征在于，所述方法包括：

至少两个数据提供方获取目标共有特征数据；

2.一种基于隐私计算的标签预测模型生成方法，应用于协调服务器，其特征在于，所述方法包括：

将所述目标标签预测模型发送给所述至少两个数据提供方。

3.根据权利要求2所述的方法，其特征在于，所述接收至少两个数据提供方发送的每个待测对象的随机配对数据之前，所述方法还包括：

确定目标共有特征数据，并向所述至少两个数据提供方发送所述目标共有特征数据；

或者向所述至少两个数据提供方发送所述目标标签预测模型生成请求，以使所述至少两个数据提供方中的目标数据提供方响应于所述目标标签预测模型生成请求，确定所述目标共有特征数据，并将所述目标共有特征数据发送给所述至少两个数据提供方中的非目标数据提供方。

4.根据权利要求2所述的方法，其特征在于，所述利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型包括：

构建标签预测模型；

将所述随机配对数据集输入所述标签预测模型，得到预测标签数据，所述随机配对数据集包括所述数据标签；

基于所述预测标签数据和所述数据标签确定所述标签预测模型的模型损失；

判断所述模型损失是否满足预设条件；

若满足，将所述模型损失所对应的标签预测模型作为所述目标标签预测模型；

若不满足，重复基于所述模型损失对所述标签预测模型的模型参数进行调整，得到新的标签预测模型；将所述随机配对数据集输入所述新的标签预测模型，得到新的预测标签数据；基于所述新的预测标签数据和所述数据标签确定新的模型损失，直至所述新的模型损失满足预设条件；

将满足预设条件的所述新的模型损失所对应的标签预测模型作为所述目标标签预测模型。

5.一种基于隐私计算的标签预测模型生成方法，应用于数据提供方，其特征在于，所述方法包括：

获取目标共有特征数据；

6.一种基于隐私计算的标签预测方法，应用于数据提供方，其特征在于，所述方法包括：

将所述至少一个待测对象的数据特征向量输入权利要求2至4任意一项所述的目标标签预测模型，得到所述至少一个待测对象对应的标签数据。

7.一种基于隐私计算的标签预测模型生成装置，应用于协调服务器，其特征在于，所述装置包括：

8.一种基于隐私计算的标签预测模型生成装置，应用于数据提供方，其特征在于，所述装置包括：

第一数据获取模块，用于获取目标共有特征数据；

随机配对数据发送模块，用于分别将每个待测对象的随机配对数据发送给协调服务器，以使所述协调服务器基于所述每个待测对象的随机配对数据得到随机配对数据集，利用所述随机配对数据集对标签预测模型进行训练，得到目标标签预测模型；

接收所述协调服务器发送的所述目标标签预测模型。

9.一种基于隐私计算的标签预测模型生成系统，其特征在于，所述系统包括：

至少两个数据提供方和协调服务器；

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求2至4任意一项所述的标签预测模型生成方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求5所述的标签预测模型生成方法。