CN112100643A

CN112100643A - 基于隐私保护的数据处理方法、装置和服务器

Info

Publication number: CN112100643A
Application number: CN202011278017.5A
Authority: CN
Inventors: 周亚顺
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2020-12-18
Anticipated expiration: 2040-11-16
Also published as: CN112100643B

Abstract

本说明书提供了基于隐私保护的数据处理方法、装置和服务器。基于该方法，第二服务器在接收到包含有按照标识信息排列的数据标签的密文数据的第一标签列后，可以先根据己方所拥有的按照特征数据的数据值排列的特征列，对第一标签列进行重新排列，得到按照特征数据的数据值排列的第二标签列，并将该第二标签列发送给第一服务器；再接收来自第一服务器基于上述第二标签列所反馈的数据箱分隔点的位置信息；进而可以根据上述分隔点的位置信息，对特征列上的特征数据进行数据分箱处理。从而可以在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全地完成符合目标要求的特征数据的数据分箱。

Description

基于隐私保护的数据处理方法、装置和服务器

技术领域

本说明书属于互联网技术领域，尤其涉及基于隐私保护的数据处理方法、装置和服务器。

背景技术

在许多数据处理场景中，不同的数据方可能会拥有同一组数据对象的不同数据。例如，两个不同的数据方中的一个数据方拥有数据对象的数据标签，另一个数据方拥有同一组数据对象的特征数据。有时，不同数据方需要利用到其它数据方所拥有的数据进行例如联合统计等相关的数据处理。

在进行上述数据处理前，往往需要同时基于己方所拥有的数据，和对方所拥有的数据，先对相应的特征数据进行符合某些要求的数据分箱；再利用分箱后的特征数据，确定出特征数据的信息值（例如IV值），并根据特征数据的信息值来筛选出效果相对较好的特征数据进行具体的数据处理。而参与上述数据分箱过程的数据方，通常又不希望向对方泄露己方所拥有的数据信息。

因此，亟需一种能够在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全地完成符合目标要求的特征数据的数据分箱的方法。

发明内容

本说明书提供了一种基于隐私保护的数据处理方法、装置和服务器，能在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全地完成符合目标要求的特征数据的数据分箱。

本说明书提供的一种基于隐私保护的数据处理方法、装置和服务器是这样实现的：

一种基于隐私保护的数据处理方法，包括：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

一种基于隐私保护的数据处理方法，包括：对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；将所述分隔点的位置信息发送至第二服务器。

一种基于隐私保护的数据处理装置，包括：第一接收模块，用于接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；排列模块，用于根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；第二接收模块，用于接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；分箱模块，用于根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

一种基于隐私保护的数据处理装置，包括：加密模块，用于对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；接收模块，用于接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；解密模块，用于对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；确定模块，用于确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；发送模块，用于将所述分隔点的位置信息发送至第二服务器。

一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述基于隐私保护的数据处理方法。

一种基于隐私保护的数据处理方法，包括：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据；根据所述多个数据箱中的各个数据箱所包含的特征数据，确定所述特征数据的信息值。

本说明书提供的基于隐私保护的数据处理方法、装置和服务器，具体实施时，第二服务器在接收到包含有按照标识信息的排列顺序排列的数据标签的密文数据的第一标签列之后，可以先根据己方所拥有的按照特征数据的数据值排列的特征列，对第一标签列进行重新排列，得到按照特征数据的数据值排列的第二标签列，并将该第二标签列发送给第一服务器；第一服务器通过解密处理，得到的第二标签列中的数据标签的明文数据，再根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在第二标签列上确定出数据箱的分隔点和分隔点的位置信息，并将分隔点的位置信息发送给第一服务器；第一服务器可以根据上述分隔点的位置信息，对相对应的特征列上的特征数据进行数据分箱处理，得到分别包含有预设数量的与目标标签对应的特征数据的多个数据箱。从而可以在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全、高效地完成例如等正例分箱或等负例分箱等符合目标要求的特征数据的数据分箱。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用本说明书实施例提供的基于隐私保护的数据处理方法的系统的结构组成的一个实施例的示意图；

图2是本说明书的一个实施例提供的基于隐私保护的数据处理方法的流程示意图；

图3是在一个场景示例中，应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图；

图4是在一个场景示例中，应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图；

图5是在一个场景示例中，应用本说明书实施例提供的基于隐私保护的数据处理方法的一种实施例的示意图；

图6是本说明书的一个实施例提供的基于隐私保护的数据处理方法的流程示意图；

图7是本说明书的一个实施例提供的基于隐私保护的数据处理方法的流程示意图；

图8是本说明书的一个实施例提供的服务器的结构组成示意图；

图9是本说明书的一个实施例提供的基于隐私保护的数据处理装置的结构组成示意图；

图10是本说明书的一个实施例提供的基于隐私保护的数据处理装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例提供一种基于隐私保护的数据处理方法，所述基于隐私保护的数据处理方法具体可以应用于包含有第一服务器和第二服务器的系统中。可以参阅图1所示。

其中，上述第一服务器具体可以理解为部署于第一数据方一侧的服务器，至少持有第一数据方所拥有的与标识信息对应的数据标签。上述第二服务器具体可以理解为部署于第二数据方一侧的服务器，至少持有第二数据方所拥有的与同一组标识信息对应的特征数据。第一服务器和第二服务器之间可以通过有线或无线的方式相连，以进行具体的数据交互。

在本实施例中，上述第一服务器、第二服务器具体可以包括一种能够实现数据传输、数据处理等功能的后台服务器。具体的，上述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，上述第一服务器、第二服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定上述第一服务器、第二服务器所包含的服务器数量。上述第一服务器、第二服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

当前要求在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，完成对第二服务器所持有的特征数据进行数据分箱处理。

具体实施时，第一服务器可以先对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

第二服务器可以根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；进一步，第二服务器可以确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

第二服务器可以根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

通过上述系统，可以安全、高效地完成例如等正例分箱或等负例分箱等符合要求的数据分箱处理，保护处理过程中的数据信息安全，避免双方的数据信息遭到泄露。

参阅图2所示，本说明书实施例提供了一种基于隐私保护的数据处理方法。其中，该方法具体应用于第二服务器一侧。具体实施时，该方法可以包括以下内容。

S201：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

在一个实施例中，上述第二服务器具体可以理解为部署于第二数据方一侧的服务器，其中，第二服务器可以持有并使用第二数据方所拥有的与标识信息对应的特征数据。上述第一服务器具体可以理解为部署于第一数据方一侧的服务器，其中，第一服务器至少持有并使用第一数据方所拥有的与相同的标识信息对应的数据标签。可以将对应同一标识信息的特征数据和数据标签称为相互对应。

需要补充的是，除了持有数据标签外，上述第一服务器还可以持有对应相同标识信息的其他类型的特征数据，可以记为第一特征数据。

在一个实施例中，上述标识信息具体可以包括一种与数据对象一一对应的标识信息。具体的，上述标识信息可以是用户（对象）的身份ID、用户的账户名，或者用户的注册手机号码等。上述标识信息也可以是设备（对象）的设备编号、设备的物理地址，或者设备的IP地址等。上述标识信息还可以是通过哈希计算所得到的哈希值中的指定字段等。当然，上述所列举的标识信息只是一种示意性说明。具体实施时，根据具体的应用场景和处理需要上述标识信息还可以包括其他类型的标识信息。对此，本说明书不作限定。

上述特征数据具体可以包括一种以数值的形式反映所对应的标识信息所指示的数据对象的属性特征的数据。例如，上述特征数据具体可以是用户的年龄、用户的月收入、用户的违约次数等数据。

上述数据标签具体可以包括一种用于指示数据对象所属类型的标签。具体的，上述数据标签可以包括正标签和负标签。

在不同的应用场景中，上述正标签和负标签具体又可以用于指示数据对象所属的不同类型。例如，在用户信用风险检测场景中，上述正标签可以用于指示不存在信用风险的用户，上述负标签可以用于指示存在信用风险的用户。又例如，在用户的购买意愿预测场景中，上述正标签可以指示具有购买意愿的用户，上述负标签可以用于指示不具有购买意愿的用户等等。

相应的，对应正标签的数据对象的特征数据可以记为正例特征数据，对应负标签的数据对象的特征数据可以记为负例特征数据。

在一个实施例中，具体的，例如，在用户的信用风险检测场景中，第一服务器可以持有与用户A的身份ID对应的用于指示用户A是否存在信用风险的数据标签。第二服务器可以持有与用户A的身份ID对应的，用户A的一种或多种特征数据。例如，第二服务器可以持有用户A的年龄数据、用户A的月收入数据、用户A的违约次数数据中的一种或多种。

在一个实施例中，具体实施前，第二服务器可以根据特征数据所对应的标识信息的排列顺序排列所拥有的特征数据，得到初始的特征数据列。

具体的，例如，基于标识信息的排列顺序，用户A的身份ID排在第一位；相应的，在所述初始的特征数据列中，用户A的特征数据也排在第一位。

在一个实施例中，具体实施前，第一服务器可以根据相同的标识信息的排列顺序排列所拥有的数据标签，得到初始的数据标签列，可以简记为标签列。

具体的，例如，基于标识信息的排列顺序，用户A的身份ID排在第一位；相应的，在所述初始的数据标签列中，用户A的数据标签也排在第一位。

在一个实施例中，具体实施时，第一服务器可以响应相应的数据处理请求，先对所拥有的标签列中的各个数据标签进行加密处理，得到对应的第一标签列（可以记为label_cipher）。其中，上述第一标签列包含有与标识信息对应的数据标签的密文数据，并且第一标签列中的数据标签的密文数据可以是根据标识信息的排列顺序排列的。再将上述第一标签列发送给第二服务器。这样第二服务器无法根据上述第一标签列知晓各个数据对象的数据标签的具体内容，从而可以避免向第二服务器泄露数据标签的数据信息，保护第一服务器一侧的数据隐私。

在一个实施例中，第一服务器具体可以通过同态加密算法对上述标签列中的各个数据标签进行加密处理，得到各个数据标签的密文数据，从而可以得到对应的第一标签列。

其中，所使用的同态加密算法具体可以包括elgamal同态加密算法。通过上述elgamal同态加密算法加密数据标签得到的密文数据的大小是固定的，且上述数据标签的密文数据在第一标签列中还是按照之前的标识信息的排列顺序排列的。当然，上述所列举的同态加密算法只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，第一服务器还可以采用其他合适的同态加密算法对标签列进行加密处理。

在一个实施例中，上述数据处理请求具体可以是一种请求对第二服务器所持有的特征数据进行数据分箱处理的请求数据，也可以是一种请求对第二服务器所持有的特征数据进行信息值计算的请求数据等。当然，上述所列举的数据处理请求只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述数据处理请求还可以包括其他类型的数据处理请求。对此，本说明书不作限定。

其中，上述数据处理请求具体可以是第一服务器发起的，也可以是第二服务器发起的。

在一个实施例中，第二服务器可以接收第一服务器发送的上述第一标签列。

S202：根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

在一个实施例中，第二服务器可以响应数据处理请求，根据特征数据的数据值重新排列初始的特征数据列中的特征数据，得到对应的特征列。其中，上述特征列具体可以包含有与标识信息对应的特征数据，且在所述特征列中的特征数据按照特征数据的数据值排列。

具体的，可以按照特征数据的数据值由大到小的顺序排列初始的特征数据列中的特征数据，得到对应的特征列。也可以按照特征数据的数据值由小到大的顺然排列初始的特征数据列中的得到对应的特征列等。

在一个实施例中，第二服务器在具体实施之前，也可以不需要构建初始的特征数据列，而是直接根据特征数据的数据值排列所拥有的特征数据，得到对应的特征列。

在一个实施例中，参阅图3所示，第二服务器可以根据上述特征列，对第一标签列中的数据标签的密文数据进行重新排列，得到对应的第二标签列。

其中，上述第二标签列中的数据标签的密文数据是根据所对应的数据数据对象的特征数据的数据值排列得到的。

具体的，由于在第一标签列中的数据标签的密文数据是按照标识信息排列的。因此，第二服务器可以先根据各个数据标签的密文数据在第一标签列中的排列位置，确定出该数据标签的密文数据所对应的标识信息，即确定出该数据标签的密文数据所对应的数据对象。但是，由于第二服务器无法解密数据标签的密文数据，因此，第二服务器无法知晓各个与各个标识信息对应的数据标签的具体内容。

进一步，第二服务器可以根据对应同一个标识信息的特征数据在特征列中的排列位置，对应调整数据标签的密文数据在标签列中的排列位置，从而实现对第一标签列中的数据标签的密文数据的重新排列，得到第二标签列。

例如，参阅图3所示，在特征列中，对应于用户A的身份ID的特征数据排列位置为第四位，这时第二服务器可以将标签列中对应用户A的身份ID的数据标签的密文数据从原来的第一位，调整到对应的第四位。

在一个实施例中，第二服务器在按照上述方式得到第二标签列后，可以将上述第二标签列发送至第一服务器。

在一个实施例中，第二服务器在得到第二标签列之后，在向第一服务器发送第二标签列之前，参阅图4所示，可以先对所述第二标签列中数据标签的密文数据进行随机化操作，得到随机化操作后的第二标签列；再将所述随机化操作后的第二标签列发送至第一服务器。

在一个实施例中，上述随机化操作具体可以包括rerandom操作。具体实施时，上述对所述第二标签列中数据标签的密文数据进行随机化操作可以包括：在所述第二标签列中的数据标签的密文数据分别加上一个同态0的密文（例如，E（0），非确定性密文），得到随机化操作后的第二标签列，可以记为rerandom_label_cipher。

通过上述随机化操作，可以使得随机化操作后的第二标签列中数据标签的密文数据在形式与第一标签列中的数据标签的密文数据存在差别，从而可以使得第一服务器无法根据第二标签列中数据标签的密文数据反推出各个数据标签的密文数据所对应的标识信息。能够有效地避免第一服务器根据第二标签列反推出对应不同标识信息的特征数据的数据值的排列顺序，从而可以避免向第一服务器泄露第二服务器所拥有的特征数据的相关信息，进一步更好地保护第二服务器一侧的数据隐私。此外，通过上述随机化操作，不影响第一服务器正常的解密处理。

S203：接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

在一个实施例中，第一服务器可以对所接收到的第二标签列中的数据标签的密文数据进行解密处理，从而可以得到数据标签的明文数据。根据上述数据标签的明文数据，第一服务器可以确定各个数据标签的具体内容。例如，是正标签还是负标签。

在一个实施例中，在第一服务器所接收到的是随机化操作后的第二标签列时，第一服务器无法根据第二标签列中数据标签的密文数据发推出该数据标签的密文数据所对应的标识信息，但是可以正常地进行解密处理的，得到对应的数据标签的明文数据。

在一个实施例中，第一服务器还可以确定出目标标签，以及单个数据箱中目标标签的预设数量等于数据分箱相关的参数数据。其中，上述目标标签具体可以理解为后续数据分箱得到的各个数据箱中占比相对较小的特征数据所对应的数据标签。

在一个实施例中，第一服务器可以先获取第二服务器的特征数据中正例特征数据和负例特征数据的数量比；再根据上述正例特征数据和负例特征数据的数量比，确定出占比较少的特征数据所对应的数据标签作为目标标签。其中，上述正例特征数据所对应的数据标签为正标签，上述负例特征数据所对应的数据标签为负标签。

在一个实施例中，具体实施时，第一服务器可以将上述正例特征数据和负例特征数据的数量比与预设的第一比例阈值、第二比例阈值进行比较，其中，所述第一比例阈值大于所述第二比例阈值。在确定所述正例特征数据和负例特征数据的数量比，大于等于第一比例阈值的情况下，确定所述目标标签为负标签；在确定所述正例特征数据和负例特征数据的数量比，小于等于第二比例阈值的情况下，确定所述目标标签为正标签。其中，上述第一比例阈值和第二比例阈值的具体数值可以根据具体情况和精度要求灵活设置。对此，本说明书不作限定。

在一个实施例中，第一服务器可以获取待分箱的数据箱的总数，同时检测出数据标签中目标标签的总数；再计算所述目标标签的总数与所述数据箱的总数的比值，作为所述单个数据箱中目标标签的预设数量。其中，所述数据箱的总数可以是第一服务器接收并根据用户自定义的分箱参数确定，也可以是第一服务器根据标识信息的总数，结合兼顾精度要求和处理效率，自行设置的。

在一个实施例中，第一服务器可以根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取上述分隔点的位置信息（例如，可以记为position）。其中，上述分隔点的位置信息具体可以是分隔点在所述第二标签列上的排列位置。

在一个实施例中，可以以确定当前分隔点为例，具体实施时，可以以当前分隔点之前的上一个分隔点作为起始分隔点，检索第二标签列上的数据标签的明文数据，并累计所检索到的目标标签的标签数量；将第二标签列上累计所检索到的目标标签的标签数量达到预设数量的位置点确定为所述当前分隔点；其中，在所述起始分隔点和当前分隔点之间包含有预设数量个目标标签。按照上述方式，第一服务器可以在上述第二标签列上确定出各个分隔点，并将上述各个分隔点的位置信息发送给第一服务器。

当然，上述所列举的确定分隔点的方式只是一种示意性说明。具体实施时，根据具体的应用场景，也可以采用其他方式来确定分隔点，只要使得在标签列上相邻的两个分隔点之间所包含的目标标签的标签数量等于预设数量即可。具体的，也可以参阅图5所示，结合具体的应用场景和特征数据的数据值分布范围特点，可以根据预设的划分规则，在已检索到的目标标签的临近区域内选择一个合适的位置点作为分隔点，并使得相邻的两个分隔点之间包含有预设数量（例如两个）个目标标签。

S204：根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

在一个实施例中，由于第二标签列中的数据标签的密文数据的排列顺序和特征列中的特征数据的排列顺序是相同的，都是按照特征数据的数据值进行排列的。因此，第二服务器可以根据上述分隔点的位置信息，在特征列中找到对应的位置设置分隔标记；再将特征列中相邻的两个分隔标记之间的特征数据划分为一个数据箱，得到多个不同的数据箱。这样得到的数据箱中包含有预设数量个特征数据所对应的数据对象的数据标签为目标标签，即，数据箱包含有预设数量个与所述目标标签对应的特征数据。从而可以实现符合目标要求的特征数据的数据分箱处理。

具体的，上述目标标签具体可以包括正标签，或负标签。具体实施时，例如，在目标标签为正标签的情况下，通过上述方式可以实现等正例分箱。在目标标签为负标签的情况下，通过上述方式可以实现等负例分箱。其中，上述等正例分箱具体可理解为将特征数据划分为多个数据箱，且不同数据箱中所包含的对应正标签的正例特征数据的数量相同。上述等负例分箱具体可以理解为将特征数据划分为多个数据箱，且不同数据箱中所包含的对应负标签的负例特征数据的数量相同。

通过上述方式可以进行符合要求的数据分箱，得到分组相对更加合理，后续应用（例如，计算特征数据的信息值）时效果更好、更稳定的数据箱。

在本实施例中，由于第二服务器在接收到包含有按照标识信息的排列顺序排列的数据标签的密文数据的第一标签列之后，先根据己方所拥有的按照特征数据的数据值排列的特征列，对第一标签列进行重新排列，得到按照特征数据的数据值排列的第二标签列，并将该第二标签列发送给第一服务器；第一服务器通过解密处理，得到的第二标签列中的数据标签的明文数据，再根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在第二标签列上确定出数据箱的分隔点和分隔点的位置信息，并将分隔点的位置信息发送给第一服务器；第一服务器可以根据上述分隔点的位置信息，对特征列上的特征数据进行数据分箱处理，得到分别包含有预设数量的与目标标签对应的特征数据的多个数据箱。从而可以在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全、高效地完成符合要求（例如等正例或等负例）的特征数据的数据分箱。

在一个实施例中，在得到第二标签列之后，所述方法具体实施时，还可以包括：对所述第二标签列中数据标签的密文数据进行随机化操作（例如，rerandom操作），得到随机化操作后的第二标签列；将所述随机化操作后的第二标签列发送至第一服务器。从而可以有效地避免向第一服务器泄露第二服务器所拥有的关于特征数据的数据值的排序信息，可以进一步保护数据处理过程中的数据隐私。

在一个实施例中，在接收第一服务器反馈的分隔点的位置信息的同时，所述方法具体实施时，还可以包括以下内容：接收第一服务器发送的目标标签，以及单个数据箱中目标标签的预设数量。

在一个实施例中，在数据处理请求为请求对第二服务器所持有的特征数据进行信息值计算的请求数据的情况下，第二服务器在确定出数据箱的分隔点，并将分隔点的位置信息发送给第一服务器的同时，还会将确定分隔点时所使用的目标标签，以及单个数据箱中目标标签的预设数量一同发送给第一服务器，以便第一服务器可以结合上述数据，根据各个数据箱所包含的特征数据计算特征数据的信息值。

其中，上述特征数据的信息值（Information Value，IV）具体可以理解为一种能够衡量特征数据整体的预测能力的参数值。通常如果特征数据的信息值越大，表明该组特征数据的预测能力越高，用于模型训练或者数据统计的效果越好。相反，如果特征数据的信息值越小，表明该组特征数据的预测能力越低，用于模型训练或者数据统计的效果越差。

在一个实施例中，在根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱之后，所述方法具体实施时，还可以包括以下内容：根据所述多个数据箱中的各个数据箱所包含的特征数据、目标标签，以及单个数据箱中目标标签的预设数量，计算各个数据箱的权重证明；根据所述数据箱的权重证明，计算所述数据箱的信息值；根据所述数据箱的信息值，计算特征数据的信息值。

其中，上述数据箱的权重证明（Weight of Evidence，WOE）具体可以理解为对数据箱中所包含的特征数据的编码形式。

在一个实施例中，具体实施时，可以按照以下算式，根据数据箱所包含的特征数据、目标标签，以及单个数据箱中目标标签的预设数量，计算多个数据箱中编号为i的数据箱的权重证明：

。其中，

具体可以表示为编号为i的数据箱的权重证明，

具体可以表示为编号为i的数据箱中对应目标标签的特征数据的数量（即目标标签的预设数量），

具体可以表示为所有数据箱中对应目标标签的特征数据的数量，

具体可以表示为编号为i的数据箱中对应的数据标签不是目标标签的特征数据的数量，

具体可以表示为所有数据箱中对应的数据标签不是目标标签的特征数据的数量。

在一个实施例中，具体实施时，可以按照以下算式，根据数据箱的权重证明，计算多个数据箱中编号为i的数据箱的信息值：

。其中，

具体可以表示为编号为i的数据箱的信息值。

在一个实施例中，具体实施时，可以按照以下算式，根据数据箱的信息值，计算出该特征数据的信息值：

。其中，

具体可以表示为特征数据的信息值，N具体可以表示为数据箱的个数。

通过上述方式，可以使得第二服务器完成符合目标要求的特征数据的数据分箱后，进一步能够在保护双方所各自拥有的数据信息的同时，安全地计算出第二服务器所拥有的特征数据的信息值。

在一个实施例中，在根据各个数据箱的信息值，计算特征数据的信息值之后，所述方法具体实施时，还可以包括以下内容：将所述特征数据的信息值发送至第一服务器；其中，所述第一服务器用于根据所述特征数据的信息值筛选出符合目标要求的特征数据。

在一个实施例中，在第二服务器持有多种不同特征数据的情况下，第二服务器可以按照上述方式分别计算对应不同特征数据的信息值，得到多个特征数据的信息值，并将上述多个特征数据的信息值发送给第一服务器。第一服务器可以根据上述多个特征数据的信息值，从第二服务器所持有的多个特征数据中筛选出一个或多个符合目标要求的特征数据来使用。

具体的，第一服务器可以根据多个特征数据的信息值，从第二服务器所持有的多个特征数据中筛选出信息值最大的一个或多个特征数据，作为符合目标要求的特征数据。或者，从多个特征数据中筛选出信息值大于预设的信息值阈值的特征数据，作为符合目标要求的特征数据等。进一步，第一服务器可以利用上述符合目标要求的特征数据，进行目标模型的训练；或者，进行相关的数据统计等数据处理。

在一个实施例中，第二服务器可以根据上述特征数据的信息值衡量第一服务器所持有的特征数据是否适合进行所需要的数据处理，例如训练目标模型，或进行数据统计等。进而可以确定该特征数据是否符合要求，并筛选出符合要求的，例如，在训练目标模型，或进行数据统计时使用效果较好的特征数据。从而可以使得第一服务器能够有针对性地筛选出合适的特征数据。

参阅图6所示，本说明书实施例还提供了一种基于隐私保护的数据处理方法。其中，该方法具体应用于第一服务器一侧。具体实施时，可以包括以下内容。

S601：对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

S602：接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

S603：对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据。

S604：确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

S605：将所述分隔点的位置信息发送至第二服务器。

在一个实施例中，上述目标标签具体可以包括正标签，或负标签。

在一个实施例中，上述确定目标标签，具体实施时，可以包括：获取第二服务器的特征数据中正例特征数据和负例特征数据的数量比；根据所述正例特征数据和负例特征数据的数量比，确定所述目标标签。

在一个实施例中，上述根据所述正例特征数据和负例特征数据的数量比，确定所述目标标签，具体实施时，可以包括：在确定所述正例特征数据和负例特征数据的数量比，大于等于第一比例阈值的情况下，确定所述目标标签为负标签；在确定所述正例特征数据和负例特征数据的数量比，小于等于第二比例阈值的情况下，确定所述目标标签为正标签；其中，所述第一比例阈值大于所述第二比例阈值。

这样第一服务器可以根据第二服务器所持有的特征数据的具体情况，准确且有针对性地自动确定出合适的标签作为目标标签。从而可以实现在第二服务器所持有的特征数据中正例特征数据较多的情况下，确定并选中负标签作为目标标签，以进行后续的等负例分箱。在第二服务器所持有的特征数据中副厅长数据较多的情况下，确定并选中正标签作为目标标签，以进行后续的等正例分箱。从而可以更加合理地实现满足要求的数据分箱。

在一个实施例中，上述根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，具体实施时，可以包括：按照以下方式在所述第二标签列上确定出当前分隔点：以当前分隔点之前的上一个分隔点作为起始分隔点，检索第二标签列上的数据标签的明文数据，并累计所检索到的目标标签的标签数量；将第二标签列上累计所检索到的目标标签的标签数量达到预设数量的位置点确定为所述当前分隔点；其中，在所述起始分隔点和当前分隔点之间包含有预设数量个目标标签。

在本实施例中，第一服务器可以按照上述方式依次在第二标签列上确定出各个数据箱的分隔点，获取各个分隔点的位置信息，并将上述各个分隔点的位置信息反馈给第二服务器。其中，在第二标签列上相邻的两分隔点之间包含有预设数量个目标标签。第二服务器可以根据上述分隔点的位置信息，以及特征列，将所持有的特征数据划分成多个数据箱，完成满足要求的数据分箱。

在一个实施例中，第一服务器在将上述分隔点的位置信息发送给第二服务器的同时，还可以将目标标签，以及目标标签的预设数量发送给第二服务器，以便第二服务器可以根据各个数据箱所包含的特征数据、目标标签，以及目标标签的预设数量计算并反馈特征数据的信息值。

在一个实施例中，第一服务器也可以只将预设数量，以及分隔点的位置信息发送给第二服务器。第一服务器也可以只根据各个数据箱所包含的特征数据，以及预设数量来计算并反馈特征数据的信息值。

在一个实施例中，在将所述分隔点的位置信息发送至第二服务器之后，所述方法具体实施时，还可以包括以下内容：接收第一服务器反馈的多个特征数据的信息值接收第二服务器反馈的多个特征数据的信息值；根据所述特征数据的信息值，从所述多个特征数据中筛选出符合目标要求的特征数据。

在一个实施例中，在存在多个第二服务器，且不同的第二服务器分别持有不同的特征数据的情况下，第一服务器可以根据各个第二服务器反馈的特征数据的信息值，从多个第二服务器中筛选出持有符合目标要求的特征数据的第二服务器进行合作，进而可以利用该第二服务器的所持有的特征数据进行相应的数据处理。

在一个实施例中，在第二服务器持有多个特征数据的情况下，第二服务器可以将多个特征数据的信息值发送给第一服务器。相应的，第一服务器可以根据不同特征数据的信息值，从第二服务器所持有的多个特征数据中筛选出符合目标要求的特征数据。进而可以只获取并利用上述符合目标要求的特征数据进行相应的数据处理。

在一个实施例中，在从所述多个特征数据中筛选出符合目标要求的特征数据之后，所述方法具体实施实施，还可以包括：获取并利用所述符合目标要求的特征数据进行数据统计。例如，第二服务器可以获取并利用第一服务器所持有的用户的年龄数据，统计不同年龄段的用户中出现信用风险的概率。

在一个实施例中，在从所述多个特征数据中筛选出符合目标要求的特征数据之后，所述方法具体实施时，还可以包括：第一服务器可以利用己方所拥有的第一特征数据，与第二服务器利用所筛选出的符合目标要求的特征数据，来共同训练目标模型。其中，上述第一特征数据具体可以包括第一服务器所持有的与相同的一组标识信息对应的特征数据。具体的，上述第一特征数据可以是与符合目标要求的特征数据不同类型的特征数据。

在一个实施例中，具体实施时，第二服务器可以以第一特征数据作为输出，与以所述符合目标要求的特征数据作为输出的第二服务器，通过多方安全计算，来建立目标模型；其中，所述第一特征数据包括第一服务器所拥有的与标识信息对应的特征数据。从而可以在保护双方所各自拥有的数据信息的同时，安全地通过共同训练来得到所需要的目标模型，进一步保护双方的数据隐私。

在一个实施例中，上述第一特征数据具体可以包括以下至少之一：用户的年龄数据、用户的月收入数据、用户的违约次数数据等。当然，上述所列举的特征数据只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述第一特征数据还可以包括其他类型的特征数据。对此，本说明书不作限定。

在一个实施例中，上述目标模型具体可以包括用户信用风险预测模型。通过上述方式，第一服务器可以筛选出符合目标要求的特征数据，并利用上述符合目标要求的特征数据训练得到应用于用户信用风险预测场景中的用户信用风险预测模型作为目标模型。进而，后续第一服务器可以利用上述训练好的目标模型预测用户是否存在信用风险，并根据预测结果对预测存在较高信用风险的用户设置风险标记，进而后续可以有针对性地对携带有风险标记的用户进行监控和管理。

本说明书实施例还提供了一种基于隐私保护的数据处理方法。具体可以应用于第二服务器一侧。参阅图7所示，具体实施时，该方法可以包括以下内容。

S701：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

S702：根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

S703：接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

S704：根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

S705：根据所述多个数据箱中的各个数据箱所包含的特征数据，确定所述特征数据的信息值。

在一个实施例中，上述第二服务器在接收第一服务器发送的分隔点的位置信息的同时，还可以接收到第一服务器在确定分隔点时所使用到的目标标签，以及目标标签的预设数量；进而可以各个数据箱所包含的特征数据、目标标签，以及目标标签的预设数量来确定出特征数据的信息值。

本说明书实施例还提供了另一种基于隐私保护的数据处理方法。具体可以应用于第一服务器一侧。具体实施时，该方法可以包括以下内容。

S1：对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；

S2：接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；

S3：对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；

S4：确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；

S5：将所述分隔点的位置信息发送至第一服务器将所述分隔点的位置信息发送至第二服务器；其中，所述第一服务器用于根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；并根据所述多个数据箱中的各个数据箱所包含的特征数据，确定所述特征数据的信息值。

通过上述方式，第一服务器和第二服务器可以合作，在不泄露己方所拥有的数据信息、保护双方的数据隐私的前提下，安全地完成符合目标要求的特征数据的数据分箱，并计算出特征数据的信息值。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

为了能够更加准确地完成上述指令，参阅图8所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口801、处理器802以及存储器803，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口801，具体可以用于接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

所述处理器802，具体可以用于根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

所述存储器803，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口801可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器802可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器803可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了另一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；将所述分隔点的位置信息发送至第二服务器。

本说明书实施例还提供了一种基于上述基于隐私保护的数据处理方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

在本实施例中，上述存储介质包括但不限于随机存取存储器（Random AccessMemory, RAM）、只读存储器（Read-Only Memory, ROM）、缓存（Cache）、硬盘（Hard DiskDrive, HDD）或者存储卡（Memory Card）。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图9所示，在软件层面上，本说明书实施例还提供了一种基于隐私保护的数据处理装置，该装置具体可以包括以下的结构模块。

第一接收模块901，具体可以用于接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

排列模块902，具体可以用于根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

第二接收模块903，具体可以用于接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

分箱模块904，具体可以用于根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

参阅图10所示，在软件层面上，本说明书实施例还提供了另一种基于隐私保护的数据处理装置，该装置具体可以包括以下的结构模块。

加密模块1001，具体可以用于对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列。

接收模块1002，具体可以用于接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列。

解密模块1003，具体可以用于对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据。

确定模块1004，具体可以用于确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息。

发送模块1005，具体可以用于将所述分隔点的位置信息发送至第二服务器。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，本说明书实施例提供的基于隐私保护的数据处理装置，能够在不泄露双方所各自拥有的数据信息、保护数据隐私的前提下，安全地完成符合目标要求的特征数据的数据分箱。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境）。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，移动终端，服务器，或者网络设备等）执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种基于隐私保护的数据处理方法，包括：

接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；

根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；

接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；

根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

2.根据权利要求1所述的方法，在得到第二标签列之后，所述方法还包括：

对所述第二标签列中数据标签的密文数据进行随机化操作，得到随机化操作后的第二标签列；

将所述随机化操作后的第二标签列发送至第一服务器。

3.根据权利要求1所述的方法，在接收第一服务器反馈的分隔点的位置信息的同时，所述方法还包括：

接收第一服务器发送的目标标签，以及单个数据箱中目标标签的预设数量。

4.根据权利要求3所述的方法，在根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱之后，所述方法还包括：

根据所述多个数据箱中的各个数据箱所包含的特征数据、目标标签，以及单个数据箱中目标标签的预设数量，计算各个数据箱的权重证明；

根据所述数据箱的权重证明，计算所述数据箱的信息值；

根据所述数据箱的信息值，计算特征数据的信息值。

5.根据权利要求4所述的方法，在根据各个数据箱的信息值，计算特征数据的信息值之后，所述方法还包括：

将所述特征数据的信息值发送至第一服务器；其中，所述第一服务器用于根据所述特征数据的信息值筛选出符合目标要求的特征数据。

6.根据权利要求1所述的方法，所述目标标签包括正标签，或负标签。

7.一种基于隐私保护的数据处理方法，包括：

对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；

接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；

对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；

确定目标标签以及单个数据箱中目标标签的预设数量，并根据所述数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；

将所述分隔点的位置信息发送至第二服务器。

8.根据权利要求7所述的方法，所述确定目标标签，包括：

获取第二服务器的特征数据中正例特征数据和负例特征数据的数量比；

根据所述正例特征数据和负例特征数据的数量比，确定所述目标标签。

9.根据权利要求8所述的方法，根据所述正例特征数据和负例特征数据的数量比，确定所述目标标签，包括：

在确定所述正例特征数据和负例特征数据的数量比，大于等于第一比例阈值的情况下，确定所述目标标签为负标签；

在确定所述正例特征数据和负例特征数据的数量比，小于等于第二比例阈值的情况下，确定所述目标标签为正标签；其中，所述第一比例阈值大于所述第二比例阈值。

10.根据权利要求7所述的方法，根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，包括：

按照以下方式在所述第二标签列上确定出当前分隔点：

以当前分隔点之前的上一个分隔点作为起始分隔点，检索第二标签列上的数据标签的明文数据，并累计所检索到的目标标签的标签数量；

将第二标签列上累计所检索到的目标标签的标签数量达到预设数量的位置点确定为所述当前分隔点；其中，在所述起始分隔点和当前分隔点之间包含有预设数量个目标标签。

11.根据权利要求7所述的方法，在将所述分隔点的位置信息发送至第二服务器之后，所述方法还包括：

接收第二服务器反馈的多个特征数据的信息值；

根据所述特征数据的信息值，从所述多个特征数据中筛选出符合目标要求的特征数据。

12.根据权利要求11所述的方法，在从所述多个特征数据中筛选出符合目标要求的特征数据之后，所述方法还包括：

获取并利用所述符合目标要求的特征数据进行数据统计。

13.根据权利要求11所述的方法，在从所述多个特征数据中筛选出符合目标要求的特征数据之后，所述方法还包括：

以第一特征数据作为输出，与以所述符合目标要求的特征数据作为输出的第二服务器，通过多方安全计算，来建立目标模型；其中，所述第一特征数据包括第一服务器所拥有的与标识信息对应的特征数据。

14.根据权利要求13所述的方法，所述第一特征数据包括以下至少之一：用户的年龄数据、用户的月收入数据、用户的违约次数数据。

15.根据权利要求14所述的方法，所述目标模型包括用户信用风险预测模型。

16.一种基于隐私保护的数据处理装置，包括：

第一接收模块，用于接收第一服务器发送的第一标签列；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；

排列模块，用于根据特征列，对所述第一标签列中的数据标签的密文数据进行重新排列，得到第二标签列，并将所述第二标签列发送至第一服务器；其中，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；

第二接收模块，用于接收第一服务器反馈的分隔点的位置信息；其中，所述第一服务器对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；所述第一服务器根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；

分箱模块，用于根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据。

17.一种基于隐私保护的数据处理装置，包括：

加密模块，用于对标签列进行加密处理，得到第一标签列，并将所述第一标签列发送至第二服务器；其中，所述第一标签列包含有与标识信息对应的数据标签的密文数据，所述第一标签列中的数据标签的密文数据根据标识信息的排列顺序排列；

接收模块，用于接收第二标签列；其中，所述第二标签列为第二服务器根据特征列对所述第一标签列中的数据标签的密文数据进行重新排列所得到的，所述特征列包含有与标识信息对应的特征数据，所述特征列中的特征数据根据特征数据的数据值排列；

解密模块，用于对所述第二标签列中的数据标签的密文数据进行解密处理，得到数据标签的明文数据；

确定模块，用于确定目标标签以及单个数据箱中目标标签的预设数量，并根据数据标签的明文数据、目标标签以及单个数据箱中目标标签的预设数量，在所述第二标签列上确定出数据箱的分隔点，并获取所述分隔点的位置信息；

发送模块，用于将所述分隔点的位置信息发送至第二服务器。

18.一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至6，或7至15中任一项所述方法的步骤。

19.一种基于隐私保护的数据处理方法，包括：

根据所述分隔点的位置信息，对所述特征列上的特征数据进行数据分箱处理，得到多个数据箱；其中，所述多个数据箱中的各个数据箱包含有预设数量个与所述目标标签对应的特征数据；

根据所述多个数据箱中的各个数据箱所包含的特征数据，确定所述特征数据的信息值。