CN112686390A

CN112686390A - 联合建模方法、系统、装置及具有存储功能的装置

Info

Publication number: CN112686390A
Application number: CN202011582882.9A
Authority: CN
Inventors: 吕昕; 储昭斌; 张龙; 杨柳; 周斌斌; 冯庭好
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-20
Anticipated expiration: 2040-12-28
Also published as: CN112686390B

Abstract

本申请公开了一种联合建模方法、系统、装置及具有存储功能的装置，应用于第三方鉴权节点的所述联合建模方法包括：获取第一设备传输的第一用户标识列表以及第二设备传输的第二用户标识列表；对第一用户标识列表和第二用户标识列表进行匹配、排序和添加噪声标识，以分别获得第一标识样本列表和第二标识样本列表，其中，第一标识样本列表和第二标识样本列表中代表同一用户的排序序号相同；将加密后的第一标识样本列表和第二标识样本列表发送至对应的第一设备和第二设备，以使得第一设备和第二设备分别利用对应的标识样本列表进行模型训练。通过上述方式，能够解决联合建模时匹配攻击的技术问题。

Description

联合建模方法、系统、装置及具有存储功能的装置

技术领域

本申请属于联合建模技术领域，具体涉及一种联合建模方法、系统、装置及具有存储功能的装置。

背景技术

随着互联网的发展和智能设备的普及，互联网企业和传统企业都积累了大量的用户数据，但是受限于企业采集的数据范围，各个企业都难以对全网的用户做精细化的刻画。此外，随着国家对个人隐私保障的要求提高，各个企业也日益重视数据安全，各个企业间难以进行数据共享。在这种情况下，数据孤岛问题日益严重，各个企业的数据由于无法打通和联合建模，导致数据价值无法发挥。

联邦学习技术为各个企业的联合建模提供了技术支持，但是基于联邦学习的建模存在匹配攻击的问题，即建模的一方在匹配到对方的真实用户标识后，并不进行后续建模过程。

发明内容

本申请提供一种联合建模方法、系统、装置及具有存储功能的装置，以解决联合建模时匹配攻击的技术问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种联合建模方法，应用于第三方鉴权节点，包括：获取第一设备传输的第一用户标识列表以及第二设备传输的第二用户标识列表；对所述第一用户标识列表和所述第二用户标识列表进行匹配、排序和添加噪声标识，以分别获得第一标识样本列表和第二标识样本列表，其中，所述第一标识样本列表和所述第二标识样本列表中代表同一用户的排序序号相同；将加密后的所述第一标识样本列表和所述第二标识样本列表分别发送至对应的第一设备和第二设备，以使得所述第一设备和所述第二设备分别利用所述第一标识样本列表和所述第二标识样本列表进行模型训练。

其中，所述对所述第一用户标识列表和所述第二用户标识列表进行匹配、排序的步骤，包括：响应于所述第一用户标识列表中的标识类型和所述第二用户标识列表中的标识类型不同，调用标识映射库，对所述第一用户标识列表和所述第二用户标识列表进行匹配和排序，以获得共同用户标识列表；其中，所述共同用户标识列表中包含三排，分别代表排序序号、所述第一设备处共同用户标识、所述第二设备处共同用户标识。

其中，所述添加噪声标识的步骤，包括：对所述第一用户标识列表和所述第二用户标识列表中未匹配的用户标识进行随机配对，以形成至少一组噪声标识；将所述至少一组噪声标识分别插入所述共同用户标识列表的对应位置处，且插入噪声标识后的所述共同用户标识列表中代表同一用户的排序序号相同。

其中，所述分别获得第一标识样本列表和所述第二标识样本列表的步骤包括：将插入噪声标识后的所述共同用户标识列表拆分为第一标识样本列表和第二标识样本列表；其中，所述第一标识样本列表包含两列，分别代表排序序号和所述第一设备处的用户标识；所述第二标识样本列表包含两列，分别代表排序序号和所述第二设备处的用户标识。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种联合建模方法，应用于第一设备，包括：第一设备获取第三方鉴权节点传输的第一标识样本列表，其中，所述第一标识样本列表包括多个排序序号和对应的用户标识，所述用户标识包括噪声标识，且所述第一标识样本列表和第二设备接收的第二标识样本列表中代表同一用户的排序序号相同；利用所述第一标识样本列表训练第一训练模型。

其中，所述利用所述第一标识样本列表训练第一训练模型的步骤，包括：从所述第一标识样本列表中依次获得多个第一用户标识；将与所述多个第一用户标识对应的多个第一训练数据以及初始结果输入至第一训练模型中，以获得第一中间结果；将所述第一中间结果发送至第二设备，以使得所述第二设备根据所述第一中间结果和第二训练模型获得第二中间结果，其中，所述第二设备获得所述第二中间结果所利用的第二用户标识的排序序号与当前利用的多个第一用户标识的排序序号相同；接收所述第二中间结果，并将所述第二中间结果作为所述初始结果；判断是否遍历所述第一标识样本列表；若是，则输出所述第一训练模型；若否，则返回至从所述第一标识样本列表中依次获得多个第一用户标识的步骤。

其中，所述利用所述第一标识样本列表训练第一训练模型的步骤之后，包括：接收第二设备传输的待预测用户标识，将所述待预测用户标识输入至训练后的所述第一训练模型中，以获得与用户评分相关预测结果；或者，接收第二设备传输的一批待预测用户标识，将所述一批待预测用户标识输入至训练后的所述第一训练模型中，以获得与用户评分分布相关的预测结果；或者，接收第二设备传输的用户评分区间和期望用户量级，将所述用户评分区间和所述期望用户量级输入至训练后的所述第一训练模型中，以获得期望用户量级的用户标识相关的预测结果；或者，接收第二设备传输的用户量级，将所述用户量级输入至训练后的所述第一训练模型中，以获得与当前用户量级的用户评分相关的预测结果。

其中，接收所述第二设备传输的秘钥；响应于所述秘钥正确，将所述预测结果返回至所述第二设备。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种联合建模系统，包括：至少一个第一设备、至少一个第二设备和第三方鉴权节点；其中，所述至少一个第一设备和所述至少一个第二设备分别为不同企业的设备；所述至少一个第一设备、所述至少一个第二设备以及所述第三方鉴权节点相互配合以实现上述任一实施例中所述的建模方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种联合建模装置，包括：处理器、存储器和通信电路，其中，所述处理器分别与所述存储器和所述通信电路耦接，用于实现上述任一实施例中所述的建模方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种具有存储功能的装置，其上存储有程序数据，所述程序数据能够被处理器执行以实现上述任一实施例中所述的建模方法。

区别于现有技术情况，本申请的有益效果是：本申请中第三方鉴权节点在获得来自于不同设备传输的第一用户标识列表和第二用户标识列表中的共同用户后，会对获得的共同用户进行排序、添加噪声标识以分别获得第一标识样本列表和第二标识样本列表，且第一标识样本列表和第二标识样本列表中代表同一用户的排序序号相同；后续第一设备和第二设备会分别利用对应的标识样本列表进行模型训练。上述设计方式可以使得双方企业无法对对方企业的数据进行匹配攻击，即无法获得真实的共同用户标识。

此外，在第一设备和第二设备的用户标识类型不同时，第三方鉴权节点可以通过映射匹配的方式实现不同类型的用户标识匹配；且后续第一设备和第二设备根据其获得的标识样本列表进行解密，仅能获得排序序号和自身存储的对应的用户标识，无法获得对方的用户标识，从而进一步降低匹配攻击的概率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请联合建模系统一实施方式的结构示意图；

图2为第三方鉴权节点处对应的联合建模方法一实施方式的流程示意图；

图3为第一设备处对应的联合建模方法一实施方式的流程示意图；

图4为图3中步骤S202对应的一实施方式的流程示意图；

图5为第二设备处对应的联合建模方法一实施方式的流程示意图；

图6为图5中步骤S402对应的一实施方式的流程示意图；

图7为本申请联合建模装置一实施方式的结构示意图；

图8为本申请具有存储功能的装置一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请联合建模系统一实施方式的结构示意图。该联合建模系统包括至少一个第一设备10、至少一个第二设备12和第三方鉴权节点14。

其中，至少一个第一设备10和至少一个第二设备12分别为不同企业的设备；例如，至少一个第一设备10属于互联网企业的设备，其内可以存储有大量互联网企业侧数据；至少一个第二设备12属于传统企业的设备，其内可以存储有大量传统企业侧数据，但传统企业侧数据一般比互联网企业侧数据小很多。进一步，当有多个第一设备10时，多个第一设备10可以使用开源的框架搭建形成训练集群，该训练集群可以基于K8S进行分布式训练和网络交互。同样地，当有多个第二设备12时，多个第二设备12也可以使用开源的框架搭建形成训练集群，该训练集群也可以基于K8S进行分布式训练和网络交互。另外，上述第一设备10和第二设备12在正式进行建模之前，还可进行网络调试，以及相互之间的访问授权，通过该访问授权可以使得第一设备10和第二设备12之间可以进行通信，且可以相互访问对方所存储的数据，但可以限定对方可以访问的数据区域。上述第三方鉴权节点14可以由互联网企业和传统企业共同搭建形成，或者，该第三方鉴权节点14也可仅由互联网企业和传统企业中的一个搭建形成。上述第三方鉴权节点14、第一设备10以及第二设备12的工作流程将在后续分别进行详细说明。

例如，请一并参阅图1和图2，图2为第三方鉴权节点处对应的联合建模方法一实施方式的流程示意图，该联合建模方法包括：

S101：第三方鉴权节点14获取第一设备10传输的第一用户标识列表以及第二设备12传输的第二用户标识列表。

具体地，第一设备10和第二设备12为不同企业的设备；例如，第一设备10可以为互联网企业侧的设备，第二设备12可以为传统企业侧的设备。第一用户标识列表中用户标识类型可以为手机序列号IMEI等，第二用户标识列表中的用户标识类型可以为手机序列号IMEI、手机号、MAC、OpenID等中任意一种。

在一个实施方式中，在上述步骤S101之前，本申请所提供的联合建模方法还包括：第三方鉴权节点14接收第一设备10和第二设备12发布的数据协议和数据字段说明，以使得后续第三方鉴权节点14根据数据协议和数据字段说明能够从第一设备10和第二设备12传输的用户数据中获得第一用户标识列表和对应的标识类型、第二用户标识列表和对应的标识类型。

S102：对第一用户标识列表和第二用户标识列表进行匹配、排序和添加噪声标识，以分别获得第一标识样本列表和第二标识样本列表；其中，第一标识样本列表和第二标识样本列表中代表同一用户的排序序号相同。

具体地，在一个实施方式中，当第三方鉴权节点14判断出第一用户标识列表中的标识类型与第二用户标识列表中的标识类型相同时，例如，均为IMEI等时，第三方鉴权节点14可以直接进行匹配和排序过程，以获得共同用户标识列表；该共同用户标识列表可以包含两排，其中一排可以为排序序号，另一排可以为共同用户标识；在本实施例中，上述两排数据可以以行排列或者列排列的方式进行排列。

而当第三方鉴权节点14判断出第一用户标识列表中的标识类型与第二用户标识列表中的标识类型不同时，例如，一个标识类型为IMEI，而另一个标识类型为MAC。此时第三方鉴权节点14调用预设的标识映射库，将其中一个用户标识列表中的标识类型映射为另一个用户标识列表中的标识类型，然后再对第一用户标识列表和第二用户标识列表进行匹配和排序，以获得共同用户标识列表。通过该设计方式可以实现不同类型的用户标识之间的对齐、匹配，而无需指定第一设备10和第二设备12双方使用统一类型的标识。在本实施例中，共同用户标识列表中可以包含三排，分别代表排序序号、第一设备处共同用户标识、第二设备处共同用户标识。

进一步，上述步骤S102中添加噪声标识的步骤具体包括：A、对第一用户标识列表和第二用户标识列表中未匹配的用户标识进行随机配对，以形成至少一组噪声标识；B、将至少一组噪声标识分别插入共同用户标识列表的对应位置处，且插入噪声标识后的共同用户标识列表中代表同一用户的排序序号相同。上述利用差分隐私的方式添加噪声标识较为简单，且易于实现。当然，在其他实施例中，也可在第一用户标识列表和第二用户标识列表之外的其他用户标识列表中选取噪声标识，本申请对此不作限定。另外，上述插入的噪声标识的数量与匹配的用户标识的数量正相关，即匹配的用户标识数量越多，插入的噪声标识的数量也可以多些；但为了不影响后续训练模型的精度，上述噪声标识的个数与匹配的用户标识的个数的比值可以小于预设值，具体预设值大小可以根据实际情况设定。

在一个具体的应用场景中，如下表1和表2所示，表1为第一用户标识列表，表2为第二用户标识列表；其中，第一用户标识列表中的标识类型和第二用户标识列表中的标识类型不同。

表1：第一用户标识列表

排序序号	用户标识
		1	A
2	B
		3	C
4	D

表2：第二用户标识列表

首先，经映射匹配发现，第一用户标识列表中的C、D分别与第二用户标识列表中的C'、D'代表同一个用户；具体映射匹配时，可以将第一用户标识列表中的用户标识映射为与第二用户标识列表中的用户标识类型相同；或者，也可以将第二用户标识列表中的用户标识映射为与第一用户标识列表中的用户标识类型相同。

然后，对上述代表同一用户的用户标识进行重新排序，以形成如下表3所示的重新排序后的共同用户标识列表。具体排序规则并无限定，只要保证同一排序序号位置处对应的是同一用户即可。

接着，对第一用户标识列表和第二用户标识列表中未匹配的用户标识A、B和E'进行随机匹配，以获得一组噪声标识A和E'；当然，在其他实施例中，可以获得多组噪声标识，此处仅是为了举例说明。将该组噪声标识分别插入表3中共同用户标识列表的对应位置处，以形成如下表4所示的插入噪声后的共同用户标识列表。此处对应位置处是指来自于第一设备处的噪声标识插入到第一设备处的共同用户标识周围，来自于第二设备处的噪声标识插入到第二设备处的共同用户标识周围。且插入噪声后的共同用户标识列表中，代表同一真实用户的排序序号相同。另外，需要说明的是，表4中噪声标识的排序序号为3，在其他实施例中，噪声标识的排序序号也可以为1或2等，即本申请对于噪声标识的具体插入位置并无限定。

表3：重新排序后的共同用户标识列表

表4：插入噪声后的共同用户标识列表

在上述获得插入噪声后的共同用户标识列表之后，上述步骤S102中分别获得第一标识样本列表和第二标识样本列表的步骤具体包括：将插入噪声标识后的共同用户标识列表拆分为第一标识样本列表和第二标识样本列表；其中，第一标识样本列表包含两列，分别代表排序序号和第一设备处的用户标识；第二标识样本列表包含两列，分别代表排序序号和第二设备处的用户标识。

以上述表4为例，可以将上述表4拆分为如下表5和表6所示的第一标识样本列表和第二标识样本列表。

表5：第一标识样本列表

排序序号	第一设备处共同用户标识
		1	C
2	D
		3	A

表6：第二标识样本列表

排序序号	第二设备处共同用户标识
		1	C'
2	D'
		3	E'

当然，在其他实施例中，在对第一用户标识列表和第二用户标识列表进行匹配、排序时，也可分别获得对应的第一共同用户标识列表和第二共同用户标识列表；其中，第一共同用户标识列表和第二共同用户标识列表分别包含两排，其中一个排为排序序号，另一排为第一设备或第二设备处的共同用户标识；然后在第一共同用户标识列表和第二共同用户标识列表的对应位置插入噪声标识，以分别形成第一标识样本列表和第二标识样本列表。

S103：将加密后第一标识样本列表和第二标识样本列表分别发送至对应的第一设备和第二设备，以使得第一设备和第二设备分别利用第一标识样本列表和第二标识样本列表进行模型训练。

具体地，可以对第一标识样本列表和第二标识样本列表中所有排序序号以及对应的用户标识进行编码和加密。

至此，第三方鉴权节点处的工作流程结束。在上述工作流程过程中，第三方鉴权节点通过差分隐私保护方式，在匹配出的共同用户标识中加入少量噪声标识，以使得双方企业无法对对方企业的数据进行匹配攻击，即无法获得真实的共同用户标识；此外，在第一设备和第二设备的用户标识类型不同时，第三方鉴权节点可以通过映射匹配的方式实现不同类型的用户标识匹配；且后续第一设备和第二设备根据其获得的标识样本列表进行解密，仅能获得排序序号和自身存储的对应的用户标识，无法获得对方的用户标识，从而进一步降低匹配攻击的概率。

请一并参阅图1和图3，图3为第一设备处对应的联合建模方法一实施方式的流程示意图，该联合建模方法包括：

S201：第一设备10获取第三方鉴权节点14传输的第一标识样本列表，其中，第一标识样本列表包括多个排序序号和对应的用户标识，用户标识包括噪声标识，且第一标识样本列表和第二设备接收的第二标识样本列表中代表同一用户的排序序号相同。

具体地，第一标识样本列表的获取过程可以如上述实施例中所示，在此不再赘述。且第三方鉴权节点14传输的第一标识样本列表为编码、加密后的列表，第一设备10在接收到加密、编码后的第一标识样本列表后，还可对其进行解密、解码。

S202：利用第一标识样本列表训练第一训练模型。

具体地，请参阅图4，图4为图3中步骤S202对应的一实施方式的流程示意图，上述步骤S202具体包括：

S301：从第一标识样本列表中依次获得多个第一用户标识。

具体地，在本实施例中，可以按照第一标识样本列表中的排序序号依次获得多个第一用户标识；例如，第一设备和第二设备可以预先约定按照排序序号从小到大或者从大到小的顺序每次获得预定数目(例如，20条等)的用户标识。该方式可以使得后续在训练过程中，第一设备和第二设备无需传输当前训练所使用的排序序号。

S302：将与多个第一用户标识对应的多个第一训练数据以及初始结果输入至第一训练模型中，以获得第一中间结果。

具体地，在上述步骤S302之前，还可以包括准备训练数据。当第一设备处于互联网侧时，可以准备与多个第一用户标识分别对应的用户标签数据、用户行为数据，以形成训练数据。

当第一训练模型在第一次训练时，该初始结果可以为预先设定的参数值；而当第一训练模型非第一次训练时，该初始结果可以为第二设备处第二训练模型返回的第二中间结果。

S303：将第一中间结果发送至第二设备，以使得第二设备根据第一中间结果和第二训练模型获得第二中间结果；其中，第二设备获得第二中间结果所利用的第二用户标识的排序序号与当前利用的多个第一用户标识的排序序号相同。

具体地，由于第一设备所利用的第一标识样本列表和第二设备所利用的第二标识样本列表中代表同一用户的排序序号相同，在第一设备和第二设备预先约定好每次训练所使用的排序序号时，即可保证第一设备和第二设备每次训练所采用的数据中真实的共同用户是相互对应的；当然，第一标识样本列表和第二标识样本列表中也包含噪声标识，但由于噪声标识的数据量小，所以对第一训练模型和第二训练模型的精度影响不大。

当然，在其他实施例中，在第一设备和第二设备没有预先约定好时，在上述步骤S303中第一设备也可同时将第一中间结果和获得第一中间结果所利用的第一用户标识的排序序号发送至第二设备，第二设备同样可以根据该排序序号获得本次所需训练的第二用户标识。

另外，上述第一训练模型和第二训练模型的结构可以相同，或者，第一训练模型和第二训练模型可以分别为一整个全局模型中的部分模型结构。

S304：接收第二中间结果，并将第二中间结果作为初始结果。

S305：判断是否遍历第一标识样本列表。

具体地，当按照排序序号从小到大的顺序获得多个第一用户标识时，可以判断是否遍历到排序序号最大的第一用户标识。当按照排序序号从大到小的顺序获得多个第一用户标识时，可以判断是否遍历到排序序号最小的第一用户标识。

S306：若是，则输出第一训练模型。

S307：若否，则返回至从第一标识样本列表中依次获得多个第一用户标识的步骤。

进一步，在上述步骤S202获得训练后的第一训练模型后，当第一设备10属于互联网企业时，还可利用该第一训练模型以及互联网侧的全量数据进行预测。

例如，第一设备10还可接收第二设备12传输的待预测用户标识，将待预测用户标识输入至训练后的第一训练模型中，以获得与用户评分相关预测结果，即第一训练模型可以进行用户打分预测。

又例如，第一设备10还可接收第二设备12传输的一批待预测用户标识，将一批待预测用户标识输入至训练后的第一训练模型中，以获得与用户评分分布相关的预测结果；即第一训练模型可以进行打分分布洞察，为传统企业作战略和产品的决策。

又例如，第一设备10还可接收第二设备12传输的用户评分区间和期望用户量级，将用户评分区间和期望用户量级输入至训练后的第一训练模型中，以获得期望用户量级的用户标识相关的预测结果；即第一训练模型可以进行批量用户导出，以供传统企业作后续用户的获取、运营等。

又例如，第一设备10还可接收第二设备12传输的用户量级，将用户量级输入至训练后的第一训练模型中，以获得与当前用户量级的用户评分相关的预测结果；即第一训练模型可以进行用户抽样，供传统企业做运营、测试和打分模型实际效果检验。

当然，在本实施例中，互联网侧的第一设备10还可根据传统企业侧的第二设备12所提供的数据量级决定为传统企业提供的服务类型、规模、访问次数等，并授予传统企业侧访问秘钥，以使得在第一设备10接收到第二设备12传输的秘钥后，响应于秘钥正确，将预测结果返回至第二设备12。上述秘钥的设计方式可以降低数据泄露的概率。

至此，第一设备10处的工作流程结束。在上述工作流程过程中，由于第一设备10所获得的第一标识样本列表中包含噪声标识，使得第一设备10无法对对方企业的数据进行匹配攻击，即无法获得真实的共同用户标识；且第一设备10根据其获得的第一标识样本列表进行解密，仅能获得排序序号和自身存储的对应的用户标识，无法获得对方的用户标识，从而进一步降低匹配攻击的概率。此外，在第一设备10训练第一训练模型过程中，第一设备10中的训练数据未离开本地数据库，数据安全性较高，降低数据外泄的概率；且由于训练数据未离开本地数据库，因此互联网侧公司可以使用全量数据进行匹配建模，即可以有效的利用数据，提高模型的精度。

请一并参阅图1和图5，图5为第二设备处对应的联合建模方法一实施方式的流程示意图，该联合建模方法包括：

S401：第二设备获取第三方鉴权节点传输的第二标识样本列表，其中，第二标识样本列表包括多个排序序号和对应的用户标识，用户标识包括噪声标识，且第二标识样本列表和第一设备接收的第一标识样本列表中代表同一用户的排序序号相同。

具体地，第二标识样本列表的获取过程可以如上述实施例中所示，在此不再赘述。且第三方鉴权节点14传输的第二标识样本列表为编码、加密后的列表，第二设备12在接收到加密、编码后的第二标识样本列表后，还可对其进行解密、解码。

S402：利用第二标识样本列表训练第二训练模型。

具体地，请参阅图6，图6为图5中步骤S402对应的一实施方式的流程示意图，上述步骤S402具体包括：

S501：接收第一设备传输的第一训练模型的第一中间结果。

S502：将与多个第二用户标识对应的多个第二训练数据以及第一中间结果输入至第二训练模型中，以获得第二中间结果；其中，多个第二用户标识的排序序号与第一设备获得第一中间结果所利用的第一用户标识的排序序号相同。

具体地，由于第一设备所利用的第一标识样本列表和第二设备所利用的第二标识样本列表中代表同一用户的排序序号相同，在第一设备和第二设备预先约定好每次训练所使用的排序序号时，即可保证第一设备和第二设备每次训练所采用的数据中真实的共同用户是相互对应的；故此时，第二设备可以根据预定获得与第一中间结果所利用的用户标识的排序序号相同的第二用户标识。

当然，在其他实施例中，在第一设备和第二设备没有预先约定好时，在上述步骤S501具体包括：接收第一设备传输的第一中间结果和获得第一中间结果所利用的第一用户标识的排序序号，第二设备同样可以根据该排序序号获得本次所需训练的第二用户标识。

S503：判断是否遍历第二标识样本列表。

具体地，当按照排序序号从小到大的顺序获得多个第二用户标识时，可以判断是否遍历到排序序号最大的第二用户标识。当按照排序序号从大到小的顺序获得多个第二用户标识时，可以判断是否遍历到排序序号最小的第二用户标识。

S504：若是，则输出第二训练模型。

S505：若否，则返回至接收第一设备传输的第一训练模型的第一中间结果的步骤。

进一步，在上述步骤S402获得训练后的第二训练模型之后，当第二设备12属于传统企业时，还可包括：发送待预测用户标识、或者一批待预测用户标识、或者用户评分区间和期望的用户量级、或者用户量级至第一设备，以使得第一设备10根据接收的信息和训练后的第一训练模型获得对应的预测结果。

此外，在第一设备10获得预测结果后，当第二设备12需要获知对应的预测结果时，可以发送秘钥至第一设备10，然后接收第一设备10返回的预测结果。上述秘钥的设计方式可以降低数据泄露的概率。进一步，在第二设备12接收到预测结果之后，当第二设备12内存储有与该预测结果相关的用户标识时，还可以将该预测结果再输入至第二训练模型中再预测一次，以进行整合预测，提高精度。

下面从系统的角度对上述联合建模方法作进一步说明。上述联合建模方法主要包括以下流程：

A、互联网企业和传统企业各自搭建联邦学习训练集群，可以使用开源的框架搭建训练集群，训练集群基于K8S进行分布式训练和网路交互；互联网企业侧的训练集群包括至少一个第一设备10，传统企业侧的训练集群包括至少一个第二设备12。

B、互联网企业和传统企业进行网络调试，集群网络进行访问授权，以使得第一设备10和第二设备12之间可以相互通信，且相互限制对方可以访问的数据区域。

C、互联网企业和传统企业共同搭建第三方鉴权节点14；当然，该第三方鉴权节点14也可以由其中一方搭建。

D、互联网企业和传统企业准备各自的训练数据，互联网企业准备的训练数据包括互联网用户标签数据、用户行为数据和用户标识数据，这些数据可以对互联用户进行划分；传统企业准备的训练数据包括用户评分数据和用户标识数据。

E、第一设备10和第二设备12将数据协议和数据字段说明发布到第三方鉴权节点14。

F、第三方鉴权节点14执行如图2所示的步骤；

G、第一设备10和第二设备12共同执行如图3和图5所示的步骤；

H、互联网企业集群节点根据训练完成的模型，对全网用户进行打分，并发布打分查询系统，为企业侧提供授权秘钥，为企业侧提供全网用户查询洞察服务；传统企业侧使用授权秘钥，获得对应的预测结果。

通过上述设计方式可以共同发挥互联网企业的用户覆盖广度优势和传统企业的行业知识和用户精度优势。

请参阅图7，图7为本申请联合建模装置一实施方式的结构示意图，该联合建模装置包括处理器20、存储器22和通信电路24，其中，处理器20分别与存储器22和通信电路24耦接，用于实现上述任一实施例中所述的联合建模方法。在本实施例中，处理器20还可以称为CPU(Central Processing Unit，中央处理单元)。处理器20可能是一种集成电路芯片，具有信号的处理能力。处理器20还可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器20可以由多个集成电路芯片共同实现。上述联合建模装置可以是第一设备、第二设备或第三方鉴权节点等。

请参阅图8，图8为本申请具有存储功能的装置一实施方式的结构示意图。该具有存储功能的装置30上存储有程序数据300，程序数据300能够被处理器执行以实现上述任一实施例中所述的建模方法。其中，该程序数据300可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种联合建模方法，应用于第三方鉴权节点，其特征在于，包括：

获取第一设备传输的第一用户标识列表以及第二设备传输的第二用户标识列表；

对所述第一用户标识列表和所述第二用户标识列表进行匹配、排序和添加噪声标识，以分别获得第一标识样本列表和第二标识样本列表，其中，所述第一标识样本列表和所述第二标识样本列表中代表同一用户的排序序号相同；

将加密后的所述第一标识样本列表和所述第二标识样本列表分别发送至对应的第一设备和第二设备，以使得所述第一设备和所述第二设备分别利用所述第一标识样本列表和所述第二标识样本列表进行模型训练。

2.根据权利要求1所述的建模方法，其特征在于，所述对所述第一用户标识列表和所述第二用户标识列表进行匹配、排序的步骤，包括：

响应于所述第一用户标识列表中的标识类型和所述第二用户标识列表中的标识类型不同，调用标识映射库，对所述第一用户标识列表和所述第二用户标识列表进行匹配和排序，以获得共同用户标识列表；其中，所述共同用户标识列表中包含三排，分别代表排序序号、所述第一设备处共同用户标识、所述第二设备处共同用户标识。

3.根据权利要求2所述的建模方法，其特征在于，所述添加噪声标识的步骤，包括：

对所述第一用户标识列表和所述第二用户标识列表中未匹配的用户标识进行随机配对，以形成至少一组噪声标识；

将所述至少一组噪声标识分别插入所述共同用户标识列表的对应位置处，且插入噪声标识后的所述共同用户标识列表中代表同一用户的排序序号相同。

4.根据权利要求3所述的建模方法，其特征在于，所述分别获得第一标识样本列表和所述第二标识样本列表的步骤包括：

将插入噪声标识后的所述共同用户标识列表拆分为第一标识样本列表和第二标识样本列表；其中，所述第一标识样本列表包含两列，分别代表排序序号和所述第一设备处的用户标识；所述第二标识样本列表包含两列，分别代表排序序号和所述第二设备处的用户标识。

5.一种联合建模方法，应用于第一设备，其特征在于，包括：

第一设备获取第三方鉴权节点传输的第一标识样本列表，其中，所述第一标识样本列表包括多个排序序号和对应的用户标识，所述用户标识包括噪声标识，且所述第一标识样本列表和第二设备接收的第二标识样本列表中代表同一用户的排序序号相同；

利用所述第一标识样本列表训练第一训练模型。

6.根据权利要求5所述的建模方法，其特征在于，所述利用所述第一标识样本列表训练第一训练模型的步骤，包括：

从所述第一标识样本列表中依次获得多个第一用户标识；

将与所述多个第一用户标识对应的多个第一训练数据以及初始结果输入至第一训练模型中，以获得第一中间结果；

将所述第一中间结果发送至第二设备，以使得所述第二设备根据所述第一中间结果和第二训练模型获得第二中间结果，其中，所述第二设备获得所述第二中间结果所利用的第二用户标识的排序序号与当前利用的多个第一用户标识的排序序号相同；

接收所述第二中间结果，并将所述第二中间结果作为所述初始结果；

判断是否遍历所述第一标识样本列表；

若是，则输出所述第一训练模型；若否，则返回至从所述第一标识样本列表中依次获得多个第一用户标识的步骤。

7.根据权利要求5所述的建模方法，其特征在于，所述利用所述第一标识样本列表训练第一训练模型的步骤之后，包括：

接收第二设备传输的待预测用户标识，将所述待预测用户标识输入至训练后的所述第一训练模型中，以获得与用户评分相关预测结果；或者，

接收第二设备传输的一批待预测用户标识，将所述一批待预测用户标识输入至训练后的所述第一训练模型中，以获得与用户评分分布相关的预测结果；或者，

接收第二设备传输的用户评分区间和期望用户量级，将所述用户评分区间和所述期望用户量级输入至训练后的所述第一训练模型中，以获得期望用户量级的用户标识相关的预测结果；或者，

接收第二设备传输的用户量级，将所述用户量级输入至训练后的所述第一训练模型中，以获得与当前用户量级的用户评分相关的预测结果。

8.根据权利要求7所述的建模方法，其特征在于，还包括：

接收所述第二设备传输的秘钥；

响应于所述秘钥正确，将所述预测结果返回至所述第二设备。

9.一种联合建模系统，其特征在于，包括：

至少一个第一设备、至少一个第二设备和第三方鉴权节点；其中，所述至少一个第一设备和所述至少一个第二设备分别为不同企业的设备；所述至少一个第一设备、所述至少一个第二设备以及所述第三方鉴权节点相互配合以实现权利要求1-4或5-8中任一项所述的建模方法。

10.一种联合建模装置，其特征在于，包括：

处理器、存储器和通信电路，其中，所述处理器分别与所述存储器和所述通信电路耦接，用于实现权利要求1-4或5-8中任一项所述的建模方法。

11.一种具有存储功能的装置，其特征在于，其上存储有程序数据，所述程序数据能够被处理器执行以实现如权利要求1-4或5-8中任一项所述的建模方法。