CN115081004B

CN115081004B - 数据处理方法、相关装置及存储介质

Info

Publication number: CN115081004B
Application number: CN202211003080.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-04
Anticipated expiration: 2042-08-22
Also published as: CN115081004A

Abstract

本申请实施例涉及数据处理领域，提供一种数据处理方法、相关装置及存储介质，该方法包括：特征方设备根据自身分箱处理后得到的第一分箱结果，与接收到的标签方设备发送的标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量；标签方设备根据接收到的特征方设备发送的分箱概况密文进行解密，对第一分箱结果进行合箱优化，得到第二分箱结果；其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式，且可以通过有点同态或全同态加密提高数据的安全性和隐私性。

Description

数据处理方法、相关装置及存储介质

技术领域

本申请实施例涉及数据处理领域，更具体地涉及一种数据处理方法、相关装置及存储介质。

背景技术

信息价值&证据权重（Information Value & Weight of Evidence,IV-WoE）特征工程方法，是在风险分析、商品推荐等场景下对结构化数据采用的常用特征工程方法，通常作为机器学习的前置步骤。但在联邦学习，尤其是纵向联邦学习中，标签数据与特征数据可能属于不同的数据属主，且联邦学习要求在特征工程处理过程中不泄露各方原始数据，这对IV-WoE这种需要结合标签进行特征工程的方法提出了极大挑战。

在机器学习中，进行特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法，比如，要考察特征与标签之间的相关程度时，信息价值(InformationValue，IV)往往是变量显著性的重要指标，可运用于特征选择之中。

特征分箱方法分为无监督分箱和有监督分箱。在无监督分箱中，对特征进行分箱时不需要依据样本标签。而在有监督分箱中，需要结合样本标签对特征进行分箱。

在有监督分箱中，一种应用场景是，样本的特征值和标签值分布在不同的持有方中，并且每个持有方对各自的数据存在隐私保护的要求，不会将自身数据进行明文输出。但是，两方为了联合训练模型等目的，又需要对特征值进行有监督的分箱。因此，希望能有改进的方案，可以在特征值和标签值分布在不同方的场景下实现有监督分箱，同时保证各方数据的隐私性和安全性。

发明内容

本申请实施例提供一种数据处理方法、相关装置及存储介质,能够在保证各方数据隐私不泄露的情况下，实现有监督分箱。

第一方面，本申请实施例从特征方设备角度提供一种数据处理方法，该方法应用于特征方设备，所述特征方设备存储有多个特征值，所述方法包括：

接收标签方设备发送的标签密文，其中，所述标签密文由标签方设备对标签明文进行同态加密后得到，所述标签明文包括多个标签值，所述标签值和所述特征值一一对应；

对所述多个特征值进行分箱处理，得到第一分箱结果，其中，所述第一分箱结果用于表示各个特征值归属的箱子；

基于所述第一分箱结果和所述标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量；

将所述分箱概况密文发送至标签方设备。

第二方面，本申请实施例从标签方设备角度提供一种数据处理方法，该方法应用于标签方设备，所述标签方设备存储有多个标签值，所述方法包括：

对所述标签明文进行同态加密，构造标签密文，并将所述标签密文发送至特征方设备；

接收特征方设备发送的分箱概况密文，其中，所述分箱概况密文由特征方设备基于第一分箱结果、所述标签密文计算得到；

解密所述分箱概况密文，得到分箱概况明文，其中，所述分箱概况明文用于确定各个箱子的正、负样本数量；

根据所述分箱概况明文对第一分箱结果进行合箱优化，获取第二分箱结果；

其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。

第三方面，本申请实施例提供一种数据处理装置，具有实现对应于上述第一方面提供的数据处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述数据处理装置应用于特征方设备，所述特征方设备存储有多个特征值，所述装置包括：

收发模块，被配置为接收标签方设备发送的标签密文，其中，所述标签密文由标签方设备对标签明文进行同态加密后得到，所述标签明文包括多个标签值，所述标签值和所述特征值一一对应；

处理模块，被配置为对所述多个特征值进行分箱处理，得到第一分箱结果，其中，所述第一分箱结果用于表示各个特征值归属的箱子；

所述处理模块，还被配置为基于所述第一分箱结果和所述标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量；

所述收发模块，还被配置为将所述分箱概况密文发送至标签方设备。

第四方面，本申请实施例提供一种数据处理装置，具有实现对应于上述第二方面提供的数据处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元，所述单元可以是软件和/或硬件。

在一个实施方式中，所述数据处理装置应用于标签方设备，所述标签方设备存储有标签明文，所述标签明文包括多个标签值，所述装置包括：

处理单元，被配置为对所述标签明文进行同态加密，构造标签密文，并将所述标签密文发送至特征方设备；

收发单元，被配置为接收特征方设备发送的分箱概况密文，其中，所述分箱概况密文由特征方设备基于第一分箱结果、所述标签密文计算得到；

所述处理单元，还被配置为解密所述分箱概况密文，得到分箱概况明文，其中，所述分箱概况明文用于确定各个箱子的正、负样本数量；

所述处理单元，还被配置为根据所述分箱概况明文对第一分箱结果进行合箱优化，获取第二分箱结果；

第五方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行第一方面中所述的数据处理方法，或执行第二方面中所述的数据处理方法。

第六方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面中所述的数据处理方法，或实现第二方面中所述的数据处理方法。

相较于现有技术，本申请实施例中，特征方设备根据自身持有的特征值分箱处理后得到的第一分箱结果，与接收到的标签方设备发送的对多个标签值整体同态加密得到的标签密文进行计算，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量。一方面，由于标签方设备发送的是多个标签值整体同态加密后得到的标签密文，而不是一些现有技术中的各个标签值单独同态加密后得到的多个加密标签值，因此，减少了标签方设备加密处理的次数，节省了计算时间和计算资源。另一方面，由于特征方设备基于标签密文、第一分箱结果可以仅通过一次计算得到分箱概况密文，即仅通过一次数据发送过程就能够使得标签方设备得到各个箱子的正样本数量或负样本数量，而不是一些现有技术中的需要将各个加密标签值作为中介在特征方设备和标签方设备之间来回传输，以便标签方设备确定各个特征值归属的箱子，从而标签方设备可以结合各个特征值的标签值确定各个箱子的正样本数量或负样本数量，因此，本申请实施例节省了数据传输时间和资源，且处理效率更高。标签方设备接收到特征方设备发送的分箱概况密文之后，可以解密得到分箱概况明文，标签方设备基于分箱概况明文对第一分箱结果进行合箱优化，得到第二分箱结果；其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式，且可以通过有点同态或全同态加密提高数据的安全性和隐私性。另外，由于本申请实施例在特征方设备与标签方设备的交互过程中传输的是分箱概况密文，而不是各个具体样本的分箱归属，所以降低了任一方获取对方数据的可能性。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中适用数据处理方法的一种数据处理系统的示意图；

图2为本申请实施例的数据处理方法的信令交互图；

图3为本申请实施例的非数值特征值映射分箱值的流程示意图；

图4a为本申请实施例的一种非数值特征值映射分箱值的示意图；

图4b为本申请实施例的又一种非数值特征值映射分箱值的示意图；

图5为本申请实施例中一种获取分箱概况密文方法的流程示意图；

图6为本申请实施例中又一种获取分箱概况密文方法的流程示意图；

图7为本申请实施例的一种数据处理装置的结构示意图；

图8为本申请实施例的又一种数据处理装置的结构示意图；

图9为本申请实施例的计算设备的一种结构示意图；

图10为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象（例如第一分箱结果和第二分箱结果分别表示为不同的分箱结果，其他类似），而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供一种数据处理方法，可应用于联邦学习场景，涉及至少两个服务设备，至少两个服务设备包括至少两个数据处理装置。例如，一个服务设备包括一个第一数据处理装置，另一个服务设备包括一个第二数据处理装置，所述第一数据处理装置和所述第二数据处理装置分别归属于不同的数据属主。例如，第一数据处理装置归属于特征持有方，第二数据处理装置归属于标签持有方。该第一数据处理装置至少用于对持有的特征值进行分箱处理，得到第一分箱结果、基于第一分箱结果与接收到的标签密文计算分箱概况密文并发送至第二数据处理装置。该第二数据处理装置至少用于构建标签密文并发送至第一数据处理装置、接收第一分箱的分箱概况密文、基于所述分箱概况密文对第一分箱结果进行优化，合并一些分箱，得到第二分箱结果。其中，第一数据处理装置可为对持有的特征值进行分箱处理，得到第一分箱结果、基于第一分箱结果与接收到的标签密文计算分箱概况密文并发送至第二数据处理装置的应用程序，或为安装了对持有的特征值进行分箱处理，得到第一分箱结果、基于第一分箱结果与接收到的标签密文计算分箱概况密文并发送至第二数据处理装置的应用程序的服务器；第二数据处理装置可为构建标签密文并发送至第一数据处理装置、接收第一分箱的分箱概况密文、基于所述分箱概况密文对第一分箱结果进行优化，得到第二分箱结果的应用程序，或为安装了构建标签密文并发送至第一数据处理装置、接收第一分箱的分箱概况密文、基于所述分箱概况密文对第一分箱结果进行优化，得到第二分箱结果的应用程序的服务器。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence， AI)、联邦学习(Federated Learning，FL)、机器学习(Machine Learning， ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

联邦学习（Federated Learning，FL）是一种分布式机器学习技术，其核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，在不需要交换本地个体或样本数据的前提下，仅通过交换模型参数或中间结果的方式，构建基于虚拟融合数据下的全局模型，从而实现数据隐私保护和数据共享计算的平衡，即“数据可用不可见”、“数据不动模型动”的应用新范式。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

现有技术（例如中国发明专利CN202010502530.1）中为了在保证数据隐私不泄露的情况下实现有监督分箱，可以由标签持有方将各个标签值加密后作为中介，获取特征持有方的各个特征值的无监督分箱结果，然后由标签持有方基于无监督分箱结果进行有监督分箱。具体来说，标签持有方可以将每个标签值分别加密后，按照特征持有方持有的特征值顺序对加密后的各个标签值排序，最后将排序后的加密标签值发送至特征持有方；特征持有方接收到加密标签值后，对自身持有的特征值进行无监督分箱，然后按照无监督分箱后的特征值对加密标签值重新进行排序，最后将重新排序后的加密标签值返回标签持有方；标签持有方接收到重新排序的加密标签值后进行解密，即可得到无监督分箱结果，然后再基于无监督分箱结果进行有监督分箱。

与现有技术相比，本申请实施例中标签方设备将各个标签值整体进行同态加密、得到标签密文，然后由特征方设备构建特定数据格式的第一分箱结果，从而特征方设备可以基于第一分箱结果与标签密文的计算结果输出加密的分箱概况（与标签值加密的密钥相同，可由标签方设备解密；只能表示各个分箱包括的正、负样本数量，无法表示各个特征值的具体分箱归属），标签方设备基于分箱概况可以进行有监督分箱。即本申请实施例中提出了一种在保证数据隐私不泄露的情况下实现有监督分箱的新方式，一方面，通过采用全同态加密的加密方式，使得数据更加安全；另一方面，由于特征方设备仅仅向标签方设备输出各个分箱的分箱概况，而不是各个特征值具体的分箱归属，所以进一步降低了特征持有方的数据泄露风险。

一些实施方式中，第一数据处理装置和第二数据处理装置分离式部署，参照图1，本申请实施例提供的数据处理方法可基于图1所示的一种数据处理系统实现。该数据处理系统可以包括特征方设备01和标签方设备02。

该特征方设备01可以是第一数据处理装置，其中可以部署数据处理程序。

该标签方设备02可以是第二数据处理装置，其中可以部署数据处理程序。

标签方设备02可以对自身持有的多个标签值进行整体加密（加密方式可以为有点同态加密或全同态加密），得到标签密文，然后发送至特征方设备01。

特征方设备01可以从标签方设备02接收标签密文，以及对自身持有的多个特征值进行分箱处理（分箱方式例如是无监督分箱），得到第一分箱结果，然后基于第一分箱结果与标签密文计算得到分箱概况密文，并将所述分箱概况密文发送至标签方设备02。标签方设备02可以接收分箱概况密文，并解密得到第一分箱结果的分箱概况明文，基于第一分箱结果的分箱概况明文，可以确定第一分箱结果中各个箱子的正、负样本数量，由此，可以对第一分箱结果进行临箱合并，优化第一分箱结果，得到有监督分箱的第二分箱结果。

特征方设备和标签方设备均可以是服务器。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

为了更加清楚地介绍本申请实施例的数据处理方法，下面结合具体的应用场景以及图1所示的数据处理系统，对商品推荐场景下的特征分箱过程进行介绍，图1为本申请实施例的一个实施数据处理方法的数据处理系统示意图。其中，特征方设备存储有M个样本的同一类特征（例如是资产特征）的M个特征值，标签方设备02存储有该M个样本的标签值，在两方中，该M个样本的特征值和标签值均按照既定顺序排列。其中，M为自然数。

所述多个特征值关联同一类特征，可以是样本的多个特征中的任意一个。例如，每个样本可以是以下对象之一：用户、商品、商户和事件等。当样本是商品时，样本的特征可以包括：价格、销量等，样本的标签可以包括推荐商品（标签值为1）和不推荐商品（标签值为0）；当样本是用户时，样本的特征可以包括：用户年龄、收入、消费额等，样本的标签可以包括目标用户（标签值为1）或非目标用户（标签值为0）。所述同一类特征的特征值可以是离散型特征值，也可以是连续型特征值；可以是数值型特征值，也可以是非数值型特征值（例如字符串类型）。样本的标签可以是二分类标签中的任一种，数值可以是0或1。

在商品推荐场景中，样本的特征可以包括用户数据。用户可以划分为有目标用户和非目标用户，该用户数据是需要保密的隐私数据。在这种场景下，样本的标签可以是目标（标签值为1）或非目标（标签值为0）的分类标签，该样本所在的数据集可以用于训练商品推荐模型。

特征方设备01存储有6个样本的样本id和对应的特征值（即特征数据），图1中示例性地将样本的特征值采用Vn来代替。标签方设备02存储有6个样本的样本id和对应的标签值（即标签数据），图1中示例性地将标签的取值采用0或1来表示。特征方设备01和标签方设备02可以共享样本排序。6个样本按照既定顺序排列可以理解为，特征方设备01对样本的排序和标签方设备02对标签的排序可以使得：特征方设备01的第n条样本和标签方设备02的第n个标签匹配成带标签的一条完整样本，n为小于等于M的一个值。比如说特征方设备01的第1条特征值用来描述用户A的具体特征（如年龄大小、学历高低、月消费金额等等），标签方设备02的第1个标签值用来描述用户A是否属于目标用户，特征方设备01的第1条特征值和标签方设备02的第1个标签值构成了一条描述用户A的带标签值的样本。又例如，特征方设备01的第6条特征值用来描述用户P的特征（如年龄大小、学历高低、月消费金额等等），标签方设备02第6个标签值描述用户P是否属于目标用户，特征方设备01的第1条特征值和标签方设备02的第6个标签只构成了一条描述用户P的带标签值的样本。上述特征数据和标签数据均属于隐私数据。

当样本的特征值和标签值分布在不同的持有方中，并且每个持有方对各自的数据存在隐私保护的要求，不会将自身数据进行明文输出时，为了实现对特征值的有监督分箱，又不泄露各方的隐私数据，本申请实施例提供了一种两方联合的分箱方法。参见图1中示出的交互过程，标签方设备02对各个标签值整体进行同态加密（例如全同态加密），得到标签密文，并将其发送至特征方设备01；特征方设备01对特征值进行分箱处理得到第一分箱结果，并根据第一分箱结果和接收到的标签密文进行处理，得到分箱概况密文，将分箱概况密文发送至标签方设备02；标签方设备02基于接收的分箱概况密文进行解密，然后基于解密得到分箱概况明文对第一分箱结果进行邻箱合并优化，得到第二分箱结果。可见，整个交互过程没有任何明文数据的发送，同时实现了对特征值的有监督分箱，采用的（全）同态加密也极大程度保证了隐私数据的隐私性和安全性。

图1中，特征方设备01中分箱得到的每个箱子（箱子0、箱子1和箱子2）可以包含不同数量的特征值，一般来说不同箱子中的特征值也是不重叠的。该第一分箱结果仅为一种示例，具体应用中的第一分箱结果可以包含不同数量的箱子以及每个箱子中有不同的特征值。

当特征持有方存储有样本的多个特征的特征值时，可以针对每一个特征，采用本申请实施例的数据处理方法，通过与特征持有方的交互，实现对该特征的有监督分箱。当样本的多个特征分布在不同的特征持有方（或特征方设备）中时，可以由待分箱的特征所在的特征持有方（或特征方设备）与标签方设备采用本申请实施例的方式执行。

下面结合图1所示的场景示意图，对本申请实施例进行更详细的说明。

参照图2，图2为本申请实施例提供的一种数据处理方法的流程示意图。该方法可应用于联邦学习的数据处理系统，由联邦学习中的特征持有方和标签持有方各自的服务设备交互执行。所述联邦学习的数据处理系统可以包括特征方设备和标签方设备，所述数据处理方法可以由所述特征方设备、标签方设备各自包括的数据处理装置执行，对所述特征方设备存储的特征值进行分箱，所述数据处理方法包括：

步骤S210，标签方设备对所述标签明文进行同态加密，构造标签密文，并将所述标签密文发送至特征方设备。

在本申请实施例中，所述标签方设备归属于标签持有方，所述标签持有方存储有所述标签明文，所述标签明文包括多个标签值，所述标签值与归属于特征持有方的特征方设备存储的特征值一一对应。例如特征方设备存储有N个样本的多个特征值f1~fn，标签方设备存储有N个样本的多个标签值l1~ln，其中f1与l1对应、f2与l2对应···fn与ln对应。需要说明的是，本申请实施例中的标签值与特征值一一对应，不仅仅是两者之间的关联关系一一对应，还包括二者之间的顺序也一一对应，即第一个特征值对应第一个标签值。

需要说明的是，在本申请实施例中，对标签明文进行同态加密，指的是对多个标签值进行整体的同态加密，而不是对各个标签值分别进行独立的加密。例如，若采用公钥Pkey1对多个标签值l1~ln进行同态加密，则是对（l1，l2，···，ln）进行整体加密，即得到的标签密文是Pkey1（l1，l2，···，ln），而不是Pkey1（l1）、Pkey1（l2）或Pkey1（ln）等等。在得到标签密文Pkey1（l1，l2，···，ln）之后，即可将其向标签方设备发送。

考虑到，同态加密包括部分同态（partially homomorphic）加密、有点同态（somewhat homomorphic）加密和全同态（fully homomorphic）加密。部分同态也叫单同态（single homomorphic），指的是该同态加密方案只能做无限次同态加法（additive-only）或者只能做无限次同态乘法（multiplicative-only）操作；有点同态加密的方案，可以对密文进行有限次数的任意同态操作，换句话说，它既能做乘法又能做加法，但是不能同态计算任意的函数；全同态加密方案，可以对密文进行无限次数的任意同态操作，也就是说它可以同态计算任意的函数（当然也需要是 efficiently computable functions）。为了实现后续步骤中的分箱概况密文计算，本申请实施例中对标签明文的加密采用有点同态加密或全同态加密（例如CKKS），以便实现加密状态下的矩阵乘法计算或向量数量积计算（同时满足同态乘法和同态加法）。

考虑到，现有的有点同态加密或全同态加密方式，无法对单个数据进行逐个加密。而中国发明专利CN202010502530.1明确记载其对各个标签值分别进行同态加密，得到各个加密标签值，由此，其采用的同态加密方式为部分同态加密。在安全性上低于本申请实施例中采用全同态加密方式的数据处理方法。

步骤S220，标签方设备接收特征方设备发送的标签密文。

在本申请实施例中，由于标签方设备接收到的是标签密文，例如Pkey1（l1，l2，~ln），由此，特征持有方无法获知各个特征的标签值，不存在标签持有方的数据泄露风险。

需要说明的是，虽然本申请实施例中将标签方设备接收标签密文的步骤排序在分箱步骤之前，但是在实际应用中，步骤的执行顺序并不限于此。所述标签方设备也可以先进行特征分箱，再接收标签密文；或者二者可以同时进行，本申请实施例对此不做限定。

步骤S230，特征方设备对所述多个特征值进行分箱处理，得到第一分箱结果。

在本申请实施例中，特征方设备对所述多个特征值进行分箱处理可以采用无监督分箱的方式，例如等频分箱、等距分箱等方式。

考虑到所述特征值可能并不是数值，而无监督分箱方式都是基于特征值的数值进行的，即非数值的特征值无法采用等频分箱、等距分箱等方式进行无监督分箱。例如，若特征方设备存储的是样本用户的职业特征，那么职业特征的特征值可能是字符串，例如“医生”、“教师”或“律师”等等，这些字符串特征无法基于特征值进行区间或间距划分。由此，在本申请实施例中，参照图3，在所述对一个特征的所述多个特征值进行分箱处理，得到第一分箱结果之前，所述方法还包括步骤S231-S232：

步骤S231，将所述非数值特征的多个特征值分别映射，得到多个分箱值。

在本申请实施例中，所述分箱值为数值，且所述分箱值与所述特征值一一对应。具体来说，可以为每个特征值均映射一个分箱值，且每个特征值的分箱值均不同；在映射分箱值时，可以按照特征值的顺序，递增地为每个特征值映射分箱值。例如，若待分箱的样本特征为职业特征，所述多个特征值为“医生”、“教师”和“律师”，那么可以将各个特征值分别映射为分箱值，即“医生”可以映射为分箱值1、“教师”可以映射为分箱值2、“律师”可以映射为分箱值3。

可以理解的是，各个特征值的分箱值也可以不是按照特征值顺序依次加一递增的；例如还可以从零开始加二递增，使得各个特征值的分箱值均为偶数；或者可以是依次递减的；只要各个特征值均映射有数值类型的分箱值，本申请实施例对具体的映射规则不做限定。

考虑到，按照各个特征值的顺序自动映射后，进行分箱处理虽然能够无监督的得到第一分箱结果，较为便捷，但是可能无法针对特定的应用领域，得到最佳的第一分箱结果。由此，在一个可能的设计中，在自动映射分箱之后，还可以接收再次映射指令和相关的领域知识，以便适应特定的应用领域得到最佳的第一分箱结果。

具体来说，在自动映射分箱之后，所述方法还包括：接收再次分箱指令，所述再次分箱指令包括至少一个分箱点，所述分箱点用于表示待分箱特征值的分箱依据；根据所述再次分箱指令，对所述多个特征值重新进行分箱值映射，得到各个特征值更新后的分箱值。

在本实施例中，所述分箱点可以是特征方设备根据各个特征值确定的，也可以是相关专业人员根据实际的应用领域确定的，本实施例对此不作限定。

具体来说，若自动分箱值映射时，得到的分箱值映射结果如图4a所示，其中，特征值为空值的被映射为分箱值-1，特征值A、B、C···Z分别被映射为分箱值0、1、2···N，在接收到再次映射的指令后，如图4b所示，所述再次映射指令包括将特征值C、E与空值特征合并为同一组，特征值A、B合并为同一组，特征值D与其他特征值的分组保持不变，那么，根据所述再次映射指令，将各个特征值的分箱值更新为：空值特征、特征值C和特征值E分箱值为-1，特征值A和特征B值分箱值为两者中较小的分箱值0，其他特征值的分箱值不变。

步骤S232，基于所述多个分箱值对所述非数值特征的多个分箱值进行分箱，得到第一分箱结果。

在本申请实施例中，各个非数值类型的特征值已经被映射为数值类型的分箱值，由此，可以采用等频分箱、等距分箱等方式基于所述分箱值对各个特征值进行分箱。

在步骤S231-S232介绍了如何对非数值类型的特征值进行数值映射，得到各个特征值的数值类型的分箱值，以对各个非数值类型的特征值进行无监督分箱。下面继续介绍如何在保证数据隐私不泄露的情况下，进行有监督分箱。

步骤S240，基于所述第一分箱结果和所述标签密文，得到分箱概况密文。

在本申请实施例中，所述分箱概况密文解密后至少用于确定各个分箱的正、负样本数量。具体来说，所述分箱概况密文将被发送至标签方设备，标签方设备对所述分箱概况密文解密之后，可以得到分箱概况明文，分箱概况明文可以包括各个箱子包括的正样本数量或负样本数量。需要说明的是，本申请实施例的分箱概况密文或分箱概况密文，仅仅需要满足帮助标签方设备确定各个箱子包括的正样本数量或负样本数量，且不包括各个箱子具体包括哪些特征值。可以理解的是，本申请实施例的分箱概况密文或分箱概况明文，也不排除包括各个箱子具体包括哪些特征值的情况，只要可以帮助标签方设备确定各个箱子包括的正样本数量或负样本数量即可。

可以理解的是，正样本可以是标签值为1的样本关联的特征值，负样本可以是标签值为0的样本关联的特征值。由此，一个箱子中的正样本数量，即为其中的标签值为1的样本关联的特征值数量。负样本数量的具体含义类似，此处不再赘述。

例如，特征方设备存储有6个样本的资产特征的特征值：f1、f2···f6，标签方设备按照特征值顺序存储有这6个样本的标签值：[1, 0, 1, 0, 1, 1]，其中，标签值为1表示对应的样本为正样本，标签值为0表示对应的样本为负样本；特征方设备进行无监督分箱，得到第一分箱结果，即各个特征值被分入哪个箱子，例如可以对应各个特征值的顺序构造分箱节点数组：[0,1,1,2,2,2]；即f1被分入0号箱子，f2被分入1号箱子，···，f6被分入2号箱子，由此，第一分箱结果宏观上可以是0号箱子包括1个样本，1号箱子包括2个样本，2号箱子包括3个样本；为了执行后续的有监督分箱步骤，本申请实施例中还需要明确各个箱子中的正、负样本数量，在一个可能的设计中，可以将第一分箱结果与标签密文结合，得到分箱概况，即0号箱子包括1个正样本，1号箱子包括1个正样本，2号箱子包括2个正样本。

为了得到能够表示分箱得到的各个箱子中的正、负样本数量，需要将第一分箱结果与标签密文结合，考虑到标签密文是全部标签值整体是同态加密后得到的，由此，可以通过矩阵乘法或向量数量积的方式获取分箱概况密文。具体来说，在本申请实施例中可以提供两种方式（方式①和方式②）获取所述分箱概况密文。

方式①基于第一分箱结果构造矩阵，通过矩阵乘法结合标签密文，获取分箱概况密文。

在本方式①中，参照图5，具体可以包括如下步骤S241a-S242a:

步骤S241a，基于所述第一分箱结果构造分箱节点矩阵。

其中，所述分箱节点矩阵中的任一行或任一列用于表示一个箱子的样本分布，所述一个箱子的样本分布表示各个特征值在所述箱子中分布（归属）情况，且所述分箱节点矩阵中的各个矩阵元素的数值为0或1。

在本申请实施例中，所述第一分箱结果可以表示各个特征值具体的分箱归属。基于所述第一分箱结果构建分箱节点矩阵，可以是通过矩阵的形式表示分箱后，各个箱子包括的特征值的情况。具体来说，可以将所述分箱节点矩阵的列数量与所述特征值的数量设置为一致，行数量与所述第一分箱结果的箱子数量设置为一致；即所述分箱节点矩阵的同一行的矩阵元素均关联同一个箱子，同一列的矩阵元素均关联同一个特征值；所述分箱节点矩阵的矩阵元素的数值为0或1，表示其所关联的箱子中是否包括其所关联的特征值，其中0表示不包括，1表示包括。例如，若基于第一分箱结果得到分箱节点数组为[0,1,1,2,2,2]，那么可以构造分箱节点矩阵：

其中，第一行的各个矩阵元素的数值依次为1,0,0,0,0,0,即表示第一个特征值划分至第0号箱子，后续的第二至第六个特征值均未划分至第0号箱子；第二行和第三行的各个矩阵元素表示的具体含义与第一行类似，此处不再赘述。

在一个可能的设计中，还可以将所述分箱节点矩阵的列数量设置为与所述第一分箱结果的箱子数量一致，行数量设置为与所述特征值的数量一致；即所述分箱节点矩阵的同一行的矩阵元素均关联同一个特征值，同一列的矩阵元素均关联同一个箱子；所述分箱节点矩阵的矩阵元素的数值为0或1，表示其所关联的箱子中是否包括其所关联的特征值，其中0表示不包括，1表示包括。还以分箱节点数组 [0,1,1,2,2,2]为例，那么可以构造分箱节点矩阵：

其中，第一列的各个矩阵元素的数值依次为1,0,0,0,0,0,即表示第一个特征值划分至第0号箱子，后续的第二至第六个特征值均未划分至第0号箱子；第二列和第三列的各个矩阵元素表示的具体含义与第一列类似，此处不再赘述。

步骤S242a，获取所述分箱节点矩阵与所述标签密文的矩阵乘法运算结果，作为所述分箱概况密文。

在本申请实施例中，考虑到标签密文是各个标签值整体加密后的产物，且加密后保持了未加密前包括各个标签值的标签明文的数据结构。例如，标签明文为[1, 0, 1, 0,1, 1]，按照各个标签值的排列顺序依次表示样本f1、f2···f6的正、负样本情况（标签值为1表示关联的样本为正样本，标签值为0表示关联的样本为负样本），那么加密时，是将[1,0, 1, 0, 1, 1]进行整体加密，采用公钥对其加密后得到的标签密文为cipher（1, 0, 1,0, 1, 1）。由此，将分箱节点矩阵与标签密文进行矩阵乘法计算可得：

其中，cipher([112])即为分箱概况密文，第一行第一列的矩阵元素“1”表示0号箱子包括1个正样本，第一行第二列的矩阵元素“1”表示1号箱子包括1个正样本，第一行第三列的矩阵元素“2”表示2号箱子包括2个正样本。由此，标签方设备对分箱概况密文解密之后，即可获得各个箱子的正样本数量，再结合各个箱子的样本数量，即可获取各个箱子的负样本数量，进而执行有监督分箱的步骤。

需要说明的是，在本申请实施例中，分箱节点矩阵的数据格式与标签密文的数据格式之间是存在配合关系的。即考虑到矩阵乘法的计算原则是A矩阵的第m行与B矩阵的第m列进行对位相乘求和，由此，分箱节点矩阵的矩阵元素排列与标签密文的标签值排列密切相关。为了使得两个矩阵（分箱节点矩阵与标签密文）的乘法计算结果（分箱概况密文）中的每个矩阵元素均能够表示一个箱子中包括的正样本数量，若所述分箱节点矩阵中同一列的矩阵元素关联同一个特征值，则标签密文的各个标签值成纵向排列，即标签密文与所述分箱节点矩阵进行矩阵乘法运算时，每两个相乘的矩阵元素均关联同一个特征值，且每个相加的乘积均关联同一个箱子。

考虑到，标签方设备若要进行有监督分箱，往往需要基于各个箱子的正、负样本数量进行重新分箱（有监督分箱）后的增益计算，即标签方设备需要获知每个箱子的正样本数量和负样本数量，而不能只单单获知正样本数量或负样本数量。由此，在本申请实施例中，可以提供两种方式（方式A和方式B）帮助标签方设备获取无监督分箱后的各个箱子的正、负样本数量。

方式A分别获取各个箱子的样本数量和正样本数量，基于各个箱子的样本数量和正样本数量，计算得出各个箱子的负样本数量。

在方式A中，特征方设备对各个特征值进行分箱之后，即可根据第一分箱结果确定各个箱子中包括的样本数量。

例如，特征方设备存储有6个样本的资产特征的特征值：f1、f2···f6，；特征方设备进行无监督分箱，得到第一分箱结果，即各个特征值被分入哪个箱子，例如可以对应各个特征值的顺序构造分箱节点数组：[0,1,1,2,2,2]；即f1被分入0号箱子，f2被分入1号箱子，···，f6被分入2号箱子，由此，可以得出各个箱子的样本数量为：0号箱子包括1个样本，1号箱子包括2个样本，2号箱子包括3个样本。若标签方设备按照特征值顺序存储有这6个样本的标签值：[1, 0, 1, 0, 1, 1]，其中，标签值为1表示对应的样本为正样本，标签值为0表示对应的样本为负样本；将基于第一分箱结果构建的分箱节点矩阵与标签密文结合，得到分箱概况密文cipher([112])，即0号箱子包括1个正样本，1号箱子包括1个正样本，2号箱子包括2个正样本；由此，基于各个箱子的样本数量和正样本数量，可以得出0号箱子包括0个负样本，1号箱子包括1个负样本，2号箱子包括1个负样本。

可以理解的是，在一个可能的设计中，方式A还可以基于分箱节点矩阵各行的列元素数值加总或各列的行元素数值加总，获取每个箱子包括的样本数量。具体采取哪种加总方式，与分箱节点矩阵如何构建有关，本设计中，实质还是将同一个箱子中包括的所有样本均总计起来，得到每个箱子中包括的样本数量。例如，若分箱节点矩阵的同一行的各个列元素与不同特征值关联，即所述分箱节点矩阵中同一行的各个矩阵元素均与同一个箱子关联，则可以将各行的列元素数值加总，作为所述每个箱子中包括的样本数量。

方式B分别构建两个不同的标签密文，基于两个不同的标签密文分别与分箱节点矩阵进行矩阵乘法运算，获取各个箱子的正、负样本数量。

在方式B中，标签方设备可以先按照方式A中的固有方法，构建第一标签密文，所述第一标签密文中的各个标签值为0或1，其中，标签值为1的表示其关联的样本为正样本，标签值为0的表示其关联的样本为负样本。然后特征方设备可以基于所述第一标签密文和分箱节点矩阵进行矩阵乘法运算，即可得到能够表示各个箱子包括的正样本数量的第一子分箱概况密文。

在构建第二标签密文时，可以是采取与所述第一标签密文的构建方法相反的方式，即第二标签密文中，将第一标签密文中的各个标签值进行0/1交换。在第二标签密文中，标签值为0的表示其关联的样本为正样本，标签值为1的表示其关联的样本为负样本。例如，若第一标签密文为cipher（[1, 0, 1, 0, 1, 1]），那么第二标签密文可以为cipher （[0,1, 0, 1, 0, 0]）。然后特征方设备可以基于所述第二标签密文和分箱节点矩阵进行矩阵乘法运算，即可得到能够表示各个箱子包括的负样本数量的第二子分箱概况密文。

例如，还是基于方式①中步骤S241a中列举的各个示例，假设分箱节点数组为 [0,1,1,2,2,2]，第一标签密文为cipher（ [1, 0, 1, 0, 1, 1] ），用于表示各个箱子的正样本数量的第一子分箱概况密文为cipher([112])。那么用于计算用于表示各个箱子的负样本数量的第二子分箱概况密文可以是：

即，cipher([011)])为第二子分箱概况密文，标签方设备解密之后可以获取到0号箱子包括0个负样本，1号箱子包括1个负样本，2号箱子包括1个负样本。

最后，特征方设备可将第一子分箱概况密文和第二子分箱概况密文发送至标签方设备，以便标签方设备分别进行解密后，获取到各个箱子的正、负样本数量。

方式①介绍了如何基于第一分箱结果构建分箱节点矩阵，以及如何基于分箱节点矩阵计算分箱概况密文。方式①中还通过方式A和方式B分别介绍了如何帮助标签方设备获取各个箱子的正、负样本数量。下面结合方式②介绍如何通过另外一种方式获取分箱概况密文。

方式②基于第一分箱结果为每个箱子构建子分箱向量，通过向量数量积结合标签密文，获取分箱概况密文。

在本方式②中，参照图6，具体可以包括如下步骤S241b-S242b：

步骤S241b，特征方设备基于所述第一分箱结果构造多个子分箱向量。

其中，多个所述子分箱向量与分箱得到的多个箱子一一对应，且每个向量元素的数值为0或1，其中0表示对应的向量元素不属于关联的箱子，1表示对应的向量元素属于关联的箱子；即每个子分箱向量均关联一个箱子，且仅与一个箱子关联。具体来说，在本申请实施例中，可以基于各个特征值在各个箱子的归属情况分别构建子分箱向量，即每个子分箱向量中包括的向量元素的数量与所述特征值的数量一致，且每个子分箱向量中的向量元素均与特征值一一对应。需要说明的是，本申请实施例中的向量元素与特征值一一对应，不仅仅是两者之间的关联关系一一对应，还包括二者之间的顺序也一一对应，即各个子分箱向量中的第一个向量元素均与第一个特征值对应。

例如，特征方设备存储有6个样本的资产特征的特征值：f1、f2，···，f6，；特征方设备进行无监督分箱，得到第一分箱结果，即各个特征值被分入哪个箱子，例如可以对应各个特征值的顺序构造分箱节点数组：[0,1,1,2,2,2]；即f1被分入0号箱子，f2被分入1号箱子，···，f6被分入2号箱子，那么可以分别构建关联0号箱子的第一子分箱向量（1,0,0,0,0,0），关联1号箱子的第二子分箱向量（0,1,1,0,0,0），关联2号箱子的第三子分箱向量（0,0,0,1,1,1）。

步骤S242b，特征方设备分别获取所述多个子分箱向量与所述标签密文的多个数量积，作为所述分箱概况密文。

在本申请实施例中，获取到各个箱子关联的子分箱向量之后，即可通过各个子分箱向量与标签密文分别进行数量积计算，获取能够用于表示各个箱子中包括的正样本数量的分箱概况密文。

例如，与所述6个样本的资产特征的特征值关联的标签密文为cipher（[1, 0, 1,0, 1, 1]），那么获取能够表示0号箱子中包括的正样本数量的密文可以是：

（0,1,1,0,0,0）·cipher（[1, 0, 1, 0, 1, 1]）=（0×1+1×0+1×1+

0×0+0×1+0×1）= cipher（1）。

与0号箱子中包括的正样本数量的密文的计算过程类似，基于第二子分箱向量、第三子分箱向量分别与标签密文进行数量积计算，可以得到1号箱子中包括的正样本数量的密文cipher（1）和2号箱子中包括的正样本数量的密文cipher（2）。

可以理解的是，与方式①中可以通过方式A或方式B获取各个箱子的负样本数量类似。在方式②中，也可以同样分别通过两种方式（获取各个箱子包括的样本数量或构建与第一标签密文的标签值不同的第二标签密文）帮助标签方设备获取各个箱子的负样本数量，从而使得标签方设备能够获取各个箱子的正、负样本数量。

需要说明的是，虽然本申请实施例中通过方式①和方式②分别介绍了两种获取分箱概况密文的方式，但是并不限于此，本领域的技术人员还可以根据方式①或方式②所披露的实质原理（基于各个特征值的分箱归属构建与标签值对应的中介数据，然后通过中介数据与标签密文进行计算获取各个箱子中包括的正样本数量或负样本数量的密文），实施其他可行的方式。

步骤S250，特征方设备将所述分箱概况密文发送至标签方设备。

可以理解的是，虽然在本申请实施例中，仅仅描述了特征方设备发送一个分箱概况密文，以便标签方设备接收后进行第二次分箱的示例，即仅仅描述了基于一个样本集的一个维度的特征进行分箱的示例，但并不限于此。所述特征方设备可以同时发送多个不同的分箱概况密文，所述多个不同的分箱概况密文可以来源于多个不同的样本集，或者同一个样本集的多个不同维度的特征。

例如，可以是对根据资产特征对样本集S1、样本集S2和样本集S3分别进行分箱，由此，特征方设备可以同时生成并发送样本集S1的分箱概况密文cipher（S1）、样本集S2的分箱概况密文cipher（S2）和样本集S3的分箱概况密文cipher（S3）。或者，可以是根据资产特征m、信用特征t对样本集S1分别进行分箱，由此，特征方设备可以同时生成并发送基于资产特征m对样本集S1进行分箱的分箱概况密文cipher（S1m）、基于信用特征t样本集S1进行分箱的分箱概况密文cipher（S1t）。

需要说明的是，在发送不同的分箱概况密文时，可以发送所述分箱概况密文的标识，以便第一、标签方设备对多个不同的分箱概况密文进行区分。例如，假设一个待发送的分箱概况密为cipher（S1），其标识为S1，那么可以构建待发送数据{ S1+cipher（S1）}，由此，标签方设备接收到特征方设备发送的{ S1+cipher（S1）}之后，进行解析处理，得到S1，即可确定分箱概况密文cipher（S1）是样本集S1的分箱概况。

步骤S260，标签方设备接收分箱概况密文。

步骤S270，标签方设备解密所述分箱概况密文，得到分箱概况明文。

其中，所述分箱概况明文用于确定各个箱子的正、负样本数量。

步骤S280，标签方设备根据所述分箱概况明文对第一分箱结果进行合箱优化，获取第二分箱结果。

在本申请实施例中，标签方设备基于所述分箱概况明文，可以确定第一分箱之后的各个箱子中包括的正、负样本数量，基于第一分箱之后、各个箱子中的正、负样本数量，可以采用各种有监督分箱方式对第一分箱（无监督分箱）结果进行优化，例如合并相邻的箱子。具体的进行有监督分箱的方式可以包括决策树分箱、卡方分箱、Best-KS等方式，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不做限定。

在本申请实施例中，在标签方设备基于第一分箱的分箱概况进行有监督分箱，得到第二分箱结果之后，可以计算各个箱子的信息量（Information Value，IV）与证据权重（Weight of Evidence，WoE），然后将各个证据权重及其与箱子的映射关系发送至特征方设备，特征方设备可以根据各个证据权重及其与箱子的映射关系对各个特征值进行编码。由此，即可完成整个IV-WoE特征工程分箱与编码的流程。

本申请实施例的数据处理方法，特征方设备根据自身持有的特征值分箱处理后得到的第一分箱结果，与接收到的标签方设备发送的对多个标签值整体同态加密得到的标签密文进行计算，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量。一方面，由于标签方设备发送的是多个标签值整体同态加密后得到的标签密文，而不是一些现有技术中的各个标签值单独同态加密后得到的多个加密标签值，因此，减少了标签方设备加密处理的次数，节省了计算时间和计算资源。另一方面，由于特征方设备基于标签密文、第一分箱结果可以仅通过一次计算得到分箱概况密文，即仅通过一次数据发送过程就能够使得标签方设备得到各个箱子的正样本数量或负样本数量，而不是一些现有技术中的需要将各个加密标签值作为中介在特征方设备和标签方设备之间来回传输，以便标签方设备确定各个特征值归属的箱子，从而标签方设备可以结合各个特征值的标签值确定各个箱子的正样本数量或负样本数量，因此，本申请实施例节省了数据传输时间和资源，且处理效率更高。标签方设备接收到特征方设备发送的分箱概况密文之后，可以解密得到分箱概况明文，标签方设备基于分箱概况明文对第一分箱结果进行合箱优化，得到第二分箱结果；其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式，且可以通过有点同态或全同态加密提高数据的安全性和隐私性。另外，由于本申请实施例在特征方设备与标签方设备的交互过程中传输的是分箱概况密文，而不是各个具体样本的分箱归属，所以降低了任一方获取对方数据的可能性。

以上从特征持有方设备、标签持有方设备的角度对本申请实施例中的一种数据处理方法进行说明，以下对执行上述数据处理方法的分别归属于不同数据属主（标签持有方、特征持有方）的数据处理装置进行介绍。

参阅图7，如图7所示的一种数据处理装置的结构示意图，其可应用于联邦学习中特征工程处理场景下的特征方设备，所述特征方设备存储有多个特征值。本申请实施例中的数据处理装置60能够实现对应于上述图1所对应的实施例中由特征方设备所执行的数据处理方法的步骤。数据处理装置60实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述数据处理装置60可包括收发模块601、处理模块602，所述处理模块602、所述收发模块601的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块602可用于控制所述收发模块601的数据收发操作。

一些实施方式中，所述收发模块601 ，被配置为接收标签方设备发送的标签密文，其中，所述标签密文由标签方设备对标签明文进行同态加密后得到，所述标签明文包括多个标签值，所述标签值和所述特征值一一对应；

所述处理模块602，被配置为对所述多个特征值进行分箱处理，得到第一分箱结果，其中，所述第一分箱结果用于表示各个特征值归属的箱子；

所述处理模块602，还被配置为基于所述第一分箱结果和所述标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量；

所述收发模块601，还被配置为将所述分箱概况密文发送至标签方设备。

一些实施方式中，所述标签值的数值为0或1；

所述处理模块602，还被配置为基于所述第一分箱结果构造分箱节点矩阵，其中，所述分箱节点矩阵中的任一行或任一列用于表示一个箱子的样本分布，且所述分箱节点矩阵中的各个矩阵元素的数值为0或1；以及获取所述分箱节点矩阵与所述标签密文的矩阵乘法运算结果，作为所述分箱概况密文；

或者

所述处理模块602，还被配置为基于所述第一分箱结果构造多个子分箱向量，其中，所述子分箱向量与所述箱子一一对应，且任一所述子分箱向量中的各个向量元素的数值为0或1；以及分别获取所述多个子分箱向量与所述标签密文的数量积，作为所述分箱概况密文。

一些实施方式中，在分箱节点矩阵中，列数量与所述特征值的数量一致，行数量与所述第一分箱结果的箱子数量一致；或者

在分箱节点矩阵中，列数量与所述第一分箱结果的箱子数量一致，行数量与所述特征值的数量一致；

在子分箱向量中，向量元素的数量与所述特征值的数量一致。

一些实施方式中，所述多个特征值中的至少部分不为数值，所述处理模块602，还被配置为将非数值的多个特征值分别映射，得到多个分箱值，其中，所述分箱值为数值，且所述分箱值与所述特征值一一对应；以及基于所述多个分箱值对所述多个特征值进行分箱，得到第一分箱结果。

一些实施方式中，所述分箱概况密文解密后仅用于表示各个箱子的正样本数量或负样本数量；

所述处理模块602，还被配置为获取各个箱子的样本数量；

所述收发模块601，还被配置为将所述各个箱子的样本数量加密发送至所述标签方设备；

其中，所述各个箱子的样本数量基于分箱节点矩阵、子分箱向量或第一分箱结果获取；

基于分箱节点矩阵获取所述各个箱子的样本数量，包括：

基于所述分箱节点矩阵各行中矩阵元素的数值之和确定各个箱子的样本数量，其中，所述分箱节点矩阵的每一行与一个箱子对应；

基于子分箱向量获取所述子分箱向量关联的箱子中的样本数量，包括：

基于所述子分箱向量中的全部向量元素的数值之和，确定所述子分箱向量关联的箱子中的样本数量。

本申请实施例的应用于特征方设备的数据处理装置，使得特征方设备可以根据掉自身持有的特征值分箱处理后得到的第一分箱结果，与接收到的标签方设备发送的标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量，然后将分箱概况密文发送至标签方设备，以便标签方设备基于第一分箱结果进行有监督的第二分箱，优化合并第一分箱结果。由于特征方设备基于标签密文、第一分箱结果可以仅通过一次计算得到分箱概况密文，即仅通过一次数据发送过程就能够使得标签方设备得到各个箱子的正样本数量或负样本数量，而不是一些现有技术中的需要将各个加密标签值作为中介在特征方设备和标签方设备之间来回传输，以便标签方设备确定各个特征值归属的箱子，从而标签方设备可以结合各个特征值的标签值确定各个箱子的正样本数量或负样本数量，因此，本申请实施例节省了数据传输时间和资源，且处理效率更高。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式。另外，由于本申请实施例在特征方设备与标签方设备的交互过程中传输的是分箱概况密文，而不是各个具体样本的分箱归属，所以降低了任一方获取对方数据的可能性。

参阅图8，如图8所示的一种数据处理装置的结构示意图，其可应用于联邦学习中特征工程处理场景下的标签方设备，所述标签方设备存储有标签明文，所述标签明文包括多个标签值。本申请实施例中的数据处理装置70能够实现对应于上述图1所对应的实施例中由标签方设备所执行的数据处理方法的步骤。数据处理装置70实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元，所述单元可以是软件和/或硬件。所述数据处理装置70可包括收发单元701、处理单元702，所述处理单元702、所述收发单元701的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理单元702可用于控制所述收发单元701的数据收发操作。

一些实施方式中，所述处理单元702，被配置为对所述标签明文进行同态加密，构造标签密文，并将所述标签密文发送至特征方设备；

所述收发单元701，被配置为接收特征方设备发送的分箱概况密文，其中，所述分箱概况密文由特征方设备基于第一分箱结果、所述标签密文计算得到；

所述处理单元702，还被配置为解密所述分箱概况密文，得到分箱概况明文，其中，所述分箱概况明文用于确定各个箱子的正、负样本数量；

所述处理单元702，还被配置为根据所述分箱概况明文对第一分箱结果进行合箱优化，获取第二分箱结果；

一些实施方式中，得到第二分箱结果之后，所述处理单元702还可以被配置为计算各个箱子的信息量（Information Value，IV）与证据权重（Weight of Evidence，WoE）；

所述收发单元701，还可以被配置为将各个证据权重及其与箱子的映射关系发送至特征方设备。特征方设备可以根据各个证据权重及其与箱子的映射关系对各个特征值进行编码。由此，即可完成整个IV-WoE特征工程分箱与编码的流程。

本申请实施例的应用于标签方设备的数据处理装置，使得标签方设备可以根据接收到的特征方设备发送的分箱概况密文进行解密，对第一分箱结果进行合箱优化，得到第二分箱结果；其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量。由于标签方设备发送的是多个标签值整体同态加密后得到的标签密文，而不是一些现有技术中的各个标签值单独同态加密后得到的多个加密标签值，因此，减少了标签方设备加密处理的次数，节省了计算时间和计算资源。本申请实施例提供了一种数据隐私保护场景下实现有监督分箱的新方式，且标签方设备可以通过有点同态或全同态加密提高数据的安全性和隐私性。另外，由于本申请实施例在特征方设备与标签方设备的交互过程中传输的是分箱概况密文，而不是各个具体样本的分箱归属，所以降低了任一方获取对方数据的可能性。

在介绍了本申请实施例的方法和装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，接收标签方设备发送的标签密文，其中，所述标签密文由标签方设备对标签明文进行同态加密后得到，所述标签明文包括多个标签值，所述标签值和所述特征值一一对应；对所述多个特征值进行分箱处理，得到第一分箱结果，其中，所述第一分箱结果用于表示各个特征值归属的箱子；基于所述第一分箱结果和所述标签密文，得到分箱概况密文，所述分箱概况密文解密后至少用于确定各个箱子的正、负样本数量；将所述分箱概况密文发送至标签方设备。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的数据处理装置60、数据处理装置70进行了描述，下面从硬件处理的角度分别对本申请实施例中的特征持有方的数据处理装置、标签持有方的数据处理装置进行描述。

需要说明的是，本申请数据处理装置各实施例（包括图7、图8所示的实施例）的收发模块对应的实体设备可以为收发器、射频电路、通信模块和输入/输出（I/O）接口等，处理模块对应的实体设备可以为处理器。图7、图8所示的数据处理装置均可以具有如图9所示的结构。

例如，图7所示的数据处理装置60可以具有如图9所示的结构，当图7所示的装置具有如图9所示的结构时，图9中的处理器和收发器能够实现前述对应该数据处理装置60的装置实施例提供的处理模块602和收发模块601相同或相似的功能，图9中的中央存储器存储处理器执行上述应用于特征方设备的数据处理方法时需要调用的计算机程序。在本申请实施例图7所示的实施例中的收发模块601所对应的实体设备可以为输入输出接口，处理模块602对应的实体设备可以为处理器。

又例如，图8所示的数据处理装置70可以具有如图9所示的结构，当图8所示的装置具有如图9所示的结构时，图9中的处理器和收发器能够实现前述对应该数据处理装置70的装置实施例提供的处理单元702和收发单元701相同或相似的功能，图9中的中央存储器存储处理器执行上述应用于标签方设备的数据处理方法时需要调用的计算机程序。在本申请实施例图7所示的实施例中的收发单元701所对应的实体设备可以为输入输出接口，处理单元702对应的实体设备可以为处理器。

图10是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，CPU）1122（例如，一个或一个以上处理器）和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130（例如一个或一个以上海量存储设备）。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块（图中未示出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1120，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix, Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器1100的结构。例如，例如上述实施例中由图10所示的数据处理装置60所执行的步骤可以基于该图10所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158接收标签方设备发送的标签密文，其中，所述标签密文由标签方设备对标签明文进行同态加密后得到，所述标签明文包括多个标签值，所述标签值和所述特征值一一对应；

通过输入输出接口1158将所述分箱概况密文发送至标签方设备。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘Solid State Disk(SSD)）等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种数据处理方法，应用于特征方设备，所述特征方设备存储有多个特征值，所述方法包括：

将所述分箱概况密文发送至标签方设备；

其中，所述标签值的数值为0或1；

所述基于所述第一分箱结果和所述标签密文，得到分箱概况密文，包括：

基于所述第一分箱结果构造分箱节点矩阵，其中，所述分箱节点矩阵中的任一行或任一列用于表示一个箱子的样本分布，且所述分箱节点矩阵中的各个矩阵元素的数值为0或1；以及获取所述分箱节点矩阵与所述标签密文的矩阵乘法运算结果，作为所述分箱概况密文；

或者

基于所述第一分箱结果构造多个子分箱向量，其中，所述子分箱向量与所述箱子一一对应，且任一所述子分箱向量中的各个向量元素的数值为0或1；以及分别获取所述多个子分箱向量与所述标签密文的数量积，作为所述分箱概况密文。

2.如权利要求1所述的方法，其中，在分箱节点矩阵中，列数量与所述特征值的数量一致，行数量与所述第一分箱结果的箱子数量一致；或者

3.如权利要求1所述的方法，其中，所述多个特征值中的至少部分不为数值，在对所述多个特征值进行分箱处理之前，所述方法还包括：

将非数值的多个特征值分别映射，得到多个分箱值，其中，所述分箱值为数值，且所述分箱值与所述特征值一一对应；

基于所述多个分箱值对所述多个特征值进行分箱处理，得到第一分箱结果；

其中，采用无监督分箱的方式基于所述多个分箱值对所述多个特征值进行分箱。

4.如权利要求1或2所述的方法，其中，所述分箱概况密文解密后仅用于表示各个箱子的正样本数量或负样本数量；

所述对所述多个特征值进行分箱处理，得到第一分箱结果之后，所述方法还包括：

获取各个箱子的样本数量，并将所述各个箱子的样本数量加密发送至所述标签方设备；

基于分箱节点矩阵获取所述各个箱子的样本数量，包括：

5.一种数据处理方法，应用于标签方设备，所述标签方设备存储有标签明文，所述标签明文包括多个标签值，所述方法包括：

其中，所述第二分箱结果中的箱子数量不多于所述第一分箱结果中的箱子数量；

其中，所述标签值的数值为0或1；

所述特征方设备通过以下方式基于所述第一分箱结果和所述标签密文，得到分箱概况密文：

或者

6.一种数据处理装置，应用于特征方设备，所述特征方设备存储有多个特征值，所述装置包括：

所述收发模块，还被配置为将所述分箱概况密文发送至标签方设备；

其中，所述标签值的数值为0或1；

所述处理模块，还被配置为通过以下方式基于所述第一分箱结果和所述标签密文，得到分箱概况密文：

或者

7.一种数据处理装置，应用于标签方设备，所述标签方设备存储有标签明文，所述标签明文包括多个标签值，所述装置包括：

其中，所述标签值的数值为0或1；

或者

8.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的方法，或者实现权利要求5所述的方法。

9.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-4中任一项所述的方法，或者执行权利要求5所述的方法。