CN113392422B

CN113392422B - 一种数据处理方法、装置和用于数据处理的装置

Info

Publication number: CN113392422B
Application number: CN202110936387.1A
Authority: CN
Inventors: 陈智隆; 王国赛; 陈琨
Original assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Current assignee: Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-10-29
Anticipated expiration: 2041-08-16
Also published as: CN113392422A

Abstract

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置。其中的方法包括：根据参与计算的数据个数确定中位数的序号k；在每个参与方的明文端对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；确定循环轮数n的值；执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到数组hsum；基于密文比较hsum＜k，确定第一个比较结果为假的元素对应的箱号i；更新k的值；在每个参与方的明文端对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。本发明实施例可以提高查找中位数的效率。

Description

一种数据处理方法、装置和用于数据处理的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术

中位数是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值，不受分布数列的极大或极小值影响，从而在一定程度上提高了中位数对分布数列的代表性。

在多方数据融合计算的场景下，经常需要对多个不同数据拥有方持有的数据计算中位数。为了避免各数据拥有方的数据泄露，可以利用多方安全计算系统基于多方的加密数据计算中位数，既可以实现数据共享，又可以保证数据的隐私安全。

然而，当数据量较大时，对全部数据进行加密需要大量的时间消耗。并且需要大量的空间消耗，在多方安全计算平台上，加密后的数据的内存消耗为明文数据的数倍，导致查找中位数的效率较低，难以适用于大数据量的应用场景。

发明内容

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以在保证数据隐私安全的基础上，提高在多方数据中查找中位数的效率，可以适用于大数据量的应用场景。

为了解决上述问题，本发明实施例公开了一种数据处理方法，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述方法包括：

根据参与计算的数据个数确定中位数的序号k；

在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；

根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；

执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；

在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

可选地，所述在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组，包括：

在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱，并统计每个参与方各个箱内的数据个数，得到每个参与方的直方图数组；

对每个参与方的直方图数组分别求前缀和，得到每个参与方的分箱数组。

可选地，所述更新k的值，包括：

令k = k – hsum[i-1]。

可选地，所述根据各参与方第i箱中的数据确定中位数，包括：

对于所述各参与方中的任一参与方，若所述参与方的第i箱内的数据个数为1，则确定所述参与方的第i箱内的数据为中位数；或者，若所述参与方的第i箱内的数据个数大于1，则基于明文从所述参与方的第i箱内的数据中确定中位数。

可选地，所述方法还包括：

在所述参与方的第i箱内的数据个数为1的情况下，对确定的中位数标记为第一标记；

在所述参与方的第i箱内的数据个数大于1的情况下，对确定的中位数标记为第二标记。

可选地，所述根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值，包括：

通过下式确定循环轮数n的值：

其中，D为参与计算的数据个数，B为预设分箱数，p为预设算法失败概率。

可选地，所述根据参与计算的数据个数确定中位数的序号k，包括：

在参与计算的数据个数为2m+1的情况下，令k=m+1；

在参与计算的数据个数为2m的情况下，令k分别为m和m+1；

其中，在参与计算的数据个数为2m的情况下，所述方法还包括：

在k分别为m和m+1的情况下，分别查找得到第一中位数和第二中位数，对所述第一中位数和第二中位数求均值得到中位数。

另一方面，本发明实施例公开了一种数据处理装置，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述装置包括：

k值确定模块，用于根据参与计算的数据个数确定中位数的序号k；

分箱处理模块，用于在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；

n值确定模块，用于根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；

循环操作模块，用于执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；

结果确定模块，用于在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

可选地，所述分箱处理模块，包括：

直方图数组确定子模块，用于在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱，并统计每个参与方各个箱内的数据个数，得到每个参与方的直方图数组；

分箱数组确定子模块，用于对每个参与方的直方图数组分别求前缀和，得到每个参与方的分箱数组。

可选地，所述循环操作模块，包括k值更新子模块，用于更新k的值；所述k值更新子模块具体用于令k = k – hsum[i-1]。

可选地，所述结果确定模块，具体用于：对于所述各参与方中的任一参与方，若所述参与方的第i箱内的数据个数为1，则确定所述参与方的第i箱内的数据为中位数；或者，若所述参与方的第i箱内的数据个数大于1，则基于明文从所述参与方的第i箱内的数据中确定中位数。

可选地，所述装置还包括：

第一标记模块，用于在所述参与方的第i箱内的数据个数为1的情况下，对确定的中位数标记为第一标记；

第二标记模块，用于在所述参与方的第i箱内的数据个数大于1的情况下，对确定的中位数标记为第二标记。

可选地，所述n值确定模块，具体用于通过下式确定循环轮数n的值：

可选地，所述k值确定模块，包括：

第一确定子模块，用于在参与计算的数据个数为2m+1的情况下，令k=m+1；

第二确定子模块，用于在参与计算的数据个数为2m的情况下，令k分别为m和m+1；

其中，在参与计算的数据个数为2m的情况下，所述装置还包括：

结果计算模块，用于在k分别为m和m+1的情况下，分别查找得到第一中位数和第二中位数，对所述第一中位数和第二中位数求均值得到中位数。

再一方面，本发明实施例公开了一种用于数据处理的装置，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如前述一个或多个所述的数据处理方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例基于明密文混合计算系统实现对至少两个参与方的数据查找中位数，并且使用分箱求中位数的方案，来加速求中位数的速度。具体地，本发明实施例将一部分运算，例如分箱操作，在各参与方在本地明文端完成明文运算，通过分箱操作可以大大减少需要传输和计算的数据量。将小部分的必要计算（加法和比较）操作在密文端完成，并且加法和比较操作均通过向量化实现，在保证数据隐私安全的基础上，极大地提高密文加法操作和密文比较操作的效率。以及通过n轮循环操作对各参与方的分箱数组进行更细粒度的处理，逐步缩小中位数的查找范围，在n轮循环操作完成后，即可得到中位数。在多方数据融合计算的场景中，本发明实施例可以在保护各参与方数据的隐私安全的情况下，求出其中位数。并且，通过明密文混合运算，大大降低了密文任务的计算量，可以提高查找中位数的效率。此外，本发明实施例可以在不需要额外储存空间的条件下查找中位数，提高多方安全计算系统中排序算法的空间效率，可以适用于大数据量的应用场景。再者，本发明实施例在求中位数的过程中，无需使用快速排序算法，可以避免快速排序算法过程中后续排序需要依赖前面的排序结果，导致暴露中间结果的情况，可以进一步保证中间结果不会被泄露，保证数据的隐私安全。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种数据处理方法实施例的步骤流程图；

图2是本发明的一种在两个参与方的数据中查找中位数的流程示意图；

图3是本发明的一种数据处理装置实施例的结构框图；

图4是本发明的一种用于数据处理的装置800的框图；

图5是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明的一种数据处理方法实施例的步骤流程图，所述方法可应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述方法具体可以包括如下步骤：

步骤101、根据参与计算的数据个数确定中位数的序号k；

步骤102、在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；

步骤103、根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；

步骤104、执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；

步骤105、在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

本发明提供的数据处理方法可应用于明密文混合计算系统，所述明密文混合计算系统是一种既可以进行明文计算，又可以进行密文计算的系统。所述明密文混合计算系统包括明文计算端（简称明文端）和密文计算端（简称密文端）。可选地，所述明密文混合计算系统可以包括一个密文端和至少两个参与方的明文端。所述参与方可以为数据拥有方。

所述明文端和/或密文端可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例对所述明文端和密文端的具体类型不做限制。

进一步地，所述明密文混合计算系统可以是一种多方安全计算系统，本发明实施例对所述多方安全计算系统采用的安全计算协议不做限制。例如，所述多方安全计算系统可以基于MPC（Secure Multi-party Computation，多方安全计算）协议，在基于MPC协议的多方安全计算系统中，多个计算参与方可以在不泄漏自身数据的前提下，使用多方安全计算技术进行协同计算得到计算结果，参与计算的数据、中间结果、以及最终结果可以为密文。当然，所述多方安全计算系统还可以基于秘密分享、半同态、不经意传输等技术实现的多方安全计算协议。

本发明实施例可以对至少两个参与方的数据查找中位数。在实际应用中，基于秘密分享、半同态、不经意传输等技术实现的多方安全计算协议，进行比较的开销远远大于加乘等运算带来的开销。为了减少比较操作的开销，本发明实施例通过在多方安全计算中使用明密文混合运算，并使用分箱求中位数的方案，来加速对多方数据求中位数的速度。

此外，由于直接在密文上进行分箱的速度较慢，内存开销较大，因此本发明实施例使用明密文混合方案。将一部分运算，例如分箱操作，在各参与方在本地明文端完成明文运算，小部分计算（如加法和比较）操作在密文端运行。本发明实施例利用明密文混合计算系统基于明密文混合运算求多方数据的中位数，可以极大提高查找中位数的效率，能够满足大数据量下求中位数的应用需求，并使用较小的资源消耗。

以两个参与方为例，参照图2，示出了本发明的一种在两个参与方的数据中查找中位数的流程示意图。假设两个参与方包括A方和B方。设A方有m个数据，B方有m+1个数据，共2m+1个数据。需要在这2m+1个数据中查找中位数，并且不暴露各方的数据明文。由于参与计算的数据个数为2m+1，也即需要查找第k小的数，在k为中位数时，则k=m+1。

首先在各参与方的明文端进行分箱处理。具体地，在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组。

需要说明的是，本发明实施例对预设分箱数不做限制。预设分箱数越多，分箱间隔越小，则查找结果的正确性就越高，但是计算开销也就越大。预设分箱数可以根据参与计算的数据范围所确定。在具体实施中，预设分箱数可以根据实际需求灵活设置。

示例性地，A方的数据包括：[1,2,3,4,6,7,8,9]，B方的数据包括：[1,2,3,7,11,10,13]。已知两方数据的数据范围为0到14，根据该数据范围，设置预设分箱数为7，则间隔为2。也即，可以划分如下7个分箱：[0,2)为第一箱，[2,4)为第二箱，[4,6)为第三箱，[6,8)为第四箱，[8,10)为第五箱，[10,12)为第六箱，[12,14)为第七箱。

需要说明的是，上述数据范围可以是一个估计值，只要该数据范围可以包括各参与方的数据即可。例如，可以按照数据范围为0到14划分7个分箱，也可以按照数据范围为1到13划分7个分箱，还可以按照数据范围为1到15划分7个分箱，等等。当然，上述7个分箱也是本发明的一个示例，本发明对分箱个数不做限制。

在确定预设分箱数和每个分箱的范围之后，在每个参与方的明文端对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组。该分箱数组中的各元素可以表示小于该元素对应分箱的右端点的数据个数。

在本发明的一种可选实施例中，所述在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组，可以包括：

步骤S11、在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱，并统计每个参与方各个箱内的数据个数，得到每个参与方的直方图数组；

步骤S12、对每个参与方的直方图数组分别求前缀和，得到每个参与方的分箱数组。

仍以上述示例为例，A方的数据包括：[1,2,3,4,6,7,8,9]，B方的数据包括：[1,2,3,7,11,10,13]。在A方的明文端根据预设分箱数对A方的数据进行明文分箱，并统计A方各个箱内的数据个数，得到A方的直方图数组。

例如，本发明实施例根据A方和B方的数据范围，划分7个分箱，在A方的明文端统计A方数据在各个箱内的数据个数，得到A方的直方图数组，如记为h1，则h1=[ 1, 2, 1, 2,2, 0, 0]。直方图数组中的各元素表示该元素对应分箱内的数据个数。例如，h1=[1, 2, 1,2, 2, 0, 0]，其中，第1个元素为1，表示A方的数据在第1个分箱[0,2)内的数据个数为1。第2个元素为2，表示A方的数据在第2个分箱[2,4)内的数据个数为2。第3个元素为1，表示A方的数据在第3个分箱[4,6)内的数据个数为1。以此类推。

同样地，在B方的明文端统计B方数据在各个箱内的数据个数，得到B方的直方图数组，如记为h2，则h2=[1, 2, 0, 1, 0, 2, 1]。其中，第1个元素为1，表示B方的数据在第1个分箱[0,2)内的数据个数为1。第2个元素为2，表示B方的数据在第2个分箱[2,4)内的数据个数为2。第3个元素为0，表示B方的数据在第3个分箱[4,6)内的数据个数为0。以此类推。

各参与方的明文端在基于明文分箱统计得到每个参与方的直方图数组之后，对各自的直方图数组求前缀和，得到分箱数组。

进一步地，假设某个参与方的直方图数组记为h1，该参与方的分箱数组记为hsum1，则hsum1[i]= hsum1[i-1]+ h1[i]。

例如，在A方的明文端对A方的直方图数组h1=[1, 2, 1, 2, 2, 0, 0]求前缀和，得到A方的分箱数组，假设记为hsum1，则hsum1[i]= hsum1[i-1]+ h1[i]。在上述示例中，hsum1= [1, 3, 4, 6, 8, 8, 8]。

同样地，在B方的明文端对B方的直方图数组h2=[1, 2, 0, 1, 0, 2, 1]求前缀和，得到B方的分箱数组，假设记为hsum2，则hsum2[i]= hsum2[i-1]+ h2[i]。在上述示例中，hsum2= [1, 3, 3, 4, 4, 6, 7]。

在本发明实施例中，分箱数组中的各元素与各分箱一一对应。例如，分箱数组中的第1个元素对应第1个分箱，分箱数组中的第2个元素对应第2个分箱，以此类推。某个参与方的分箱数组中的各元素表示该参与方的数据中小于该元素对应分箱的右端点的数据个数。例如，A方的分箱数组为hsum1= [1, 3, 4, 6, 8, 8, 8]，第5个元素为8，第5个元素对应的是第5个分箱[8,10)，因此，该元素表示A方的数据中有8个数据小于第5个分箱[8,10)的右端点10。通过分箱数组，可以快速找到第k小的数据所在位置，可以提高查找中位数的效率。

本发明实施例在各参与方的明文端计算得到各参与方的分箱数组之后，通过n轮循环操作对各参与方的分箱数组进行更细粒度的处理，可以逐步缩小中位数的查找范围，在n轮循环操作完成后，即可得到中位数。

循环轮数n的值可以是一个预设的经验值，进一步地，本发明实施例可以根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值。

假设参与计算的数据总量为D，每轮循环的预设分箱数为B，循环轮数为n，则算法失败概率p为：

（1）

具体地，在参与计算的数据总量D、每轮循环的预设分箱数B、循环轮数n、以及算法失败概率p的值确定的情况下，通过上式（1）可以计算得到循环轮数n的值，并且在确定该n值的情况下，使得查找的中位数可以满足预设算法失败概率p。例如，对于数据总量D为1000万的数据，预设分箱数B为1万，循环轮数为n为5，则算法失败概率p可以低至e^-13级别。

在本发明实施例中，每轮循环操作可以包括如下步骤：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组。

在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组之后，可以进入密文处理阶段（如图2所示）。在密文处理阶段，通过密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum。

在上述示例中，A方的分箱数组为hsum1 = [1, 3, 4, 6, 8, 8, 8]，B方的分箱数组为hsum2= [1, 3, 3, 4, 4, 6, 7]。以第5个分箱为例，A方数据中有8个数据小于10，B方数据中有4个数据小于10。各参与方由于统一了分箱边界，也即hsum1和hsum2中相应元素对应相同的分箱，因此，对A方的分箱数组hsum1和B方的分箱数组hsum2进行密文相加后，得到的密文结果数组为hsum=[2, 6, 7, 10, 12, 14, 15]。hsum的第5个元素为12，即可得知A方和B方共有12个数据小于10。

需要说明的是，密文结果数组hsum中的数据为密文，此处为了便于描述，以明文示出。

基于密文比较hsum＜k，可以得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i。

在上述示例中，hsum=[2, 6, 7, 10, 12, 14, 15]，基于密文比较hsum＜k。也即，基于密文分别比较hsum中各元素是否小于k的值。若小于，则比较结果为真，如记为true；否则，比较结果为假，如记为false。

具体地，可以得到比较结果数组如下：[true, true, true, false, false,false, false]。其中，第4个元素为第一个比较结果为假（false）的元素，该元素对应第4个分箱，因此，确定箱号i为4。

接下来，更新k的值。本发明实施例更新k的值的目的在于，舍弃各参与方前i-1箱的数据。进一步地，所述更新k的值，可以包括：令k = k – hsum[i-1]。

令k = k – hsum[i-1]，即舍弃各参与方前i-1箱的数据，使得后续任务为在各参与方的所有数据中查找第k – hsum[i-1]小的数。

在上述示例中，在第一轮循环操作中，计算得到i为4，则令k – hsum[4-1]=k –hsum[3]= 8-7=1, 即，下一轮循环操作需要查找的是各参与方的所有数据中第1小的数。

在密文端确定第一个比较结果为假的箱号i之后，密文端可以将箱号i的值返回给各参与方，以进入明文处理阶段。在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组。

例如，在上述示例中，密文端在确定比较结果数组中第一个比较结果为假的元素对应的箱号i为4之后，可以向各参与方返回箱号i的值为4，以使各参与方在其明文端对各自的第4箱数据进行进一步处理。具体地，在A方的明文端根据预设分箱数对A方的第4箱数据进行明文分箱处理，得到下一轮待处理的A方的分箱数组，以及在B方的明文端根据预设分箱数对B方的第4箱数据进行明文分箱处理，得到下一轮待处理的B方的分箱数组。

具体地，第4个分箱为[6,8)，假设预设分箱为7，则可以将第4个分箱进一步划分为如下7个分箱：[6, 6.28571429)、[6.28571429, 6.57142857)、[6.57142857,6.85714286)、[6.85714286, 7.14285714)、[7.14285714, 7.42857143)、[7.42857143, 7.71428571)、[7.71428571, 8)。

A方的第4箱数据包括[6,7]，A方的明文端可以统计得到A方的直方图数组为h1=[1, 0, 0, 1, 0, 0, 0]；A方的明文端对该直方图数组求前缀和，可以得到下一轮待处理的A方的分箱数组为hsum1 = [1, 1, 1, 2, 2, 2, 2]。B方的第4箱数据包括[7]，B方的明文端可以统计得到B方的直方图数组为h2= [0, 0, 0, 1, 0, 0, 0]；B方的明文端对该直方图数组求前缀和，得到下一轮待处理的B方的分箱数组为hsum2= [0, 0, 0, 1, 1, 1,1]。

由此完成第一轮循环操作，进入第二轮循环操作。具体地，在密文端对各参与方的分箱数组进行密文相加，得到密文结果hsum。例如，在密文端对A方和B方的分箱数组hsum1= [1, 1, 1, 2, 2, 2, 2]和hsum2= [0, 0, 0, 1, 1, 1, 1]进行密文相加，得到密文结果数组hsum=[1, 1, 1, 3, 3, 3, 3]。比较hsum3<k，此时k=1，因此，得到比较结果数组为[False, False, False, False, False, False, False]。此时，比较结果数组中第一个比较结果为假的元素对应的箱号i为1，则向各参与方返回箱号i的值为1，并且更新k= k –hsum[i-1]=1-1=0。

在A方的明文端，由于A方的第1箱（i=1）中只有一个数据；而在B方的明文端，B方的第1箱中没有数据。此时，可以确定A方第1箱中的这个数据即为中位数，A方可以返回该中位数，B方不返回数据。

需要说明的是，为便于说明，上述示例中A方和B方列举了较少的数据，因此，循环轮数n设置为2即可准确查找得到中位数。在实际应用中，对于海量数据的中位数查找，可以根据实际数据量设置合适的循环轮数。

本发明实施例通过n轮循环操作在各参与方的明文端逐步进行更细粒度的分箱，每一轮循环逐步缩小中位数的查找范围，最后，在n轮循环操作完成后，通过查看各参与方第i箱中的数据即可确定中位数。

此外，n轮循环操作中的每一轮操作包括明文操作阶段和密文操作阶段。在明文操作阶段，各参与方的明文端分别根据预设分箱数对其数据进行明文分箱，并统计各个箱内的数据个数，得到每个参与方的直方图数组。例如，将1亿数据分成1万箱统计得到直方图数组后，所需要传递给密文端的数据量可以由1亿减少至1万，可以大大减少需要传输和计算的密文数据量。在密文操作阶段，本发明实施例的密文计算仅包括一步加法和一步比较操作，并且加法操作和比较操作均通过向量化实现，极大地提高了密文加法操作和密文比较操作的效率。

在本发明的一种可选实施例中，所述根据各参与方第i箱中的数据确定中位数，可以包括：

对于所述各参与方中的每个参与方，检查自身第i箱内的数据个数，根据所述各参与方中每个参与方第i箱内的数据个数，确定中位数。具体地，对于所述各参与方中的任一参与方，若该参与方的第i箱内的数据个数为1，则可以确定该参与方的第i箱内的数据即为中位数，该参与方可以返回该中位数。如上述示例所示。

如果没有参与方第i箱内的数据个数为1，并且对于某个参与方，该参与方的第i箱内的数据个数大于1，则可以基于明文从该参与方的第i箱内的数据中确定中位数，该参与方可以返回该中位数。需要说明的是，如果有至少两个参与方的第i箱内的数据个数大于1，则分别在至少两个参与方的每个参与方的明文端从其各自第i箱内的数据中确定中位数。

对于所述各参与方中的任一参与方，若该参与方的第i箱内的数据个数为0，说明中位数不在该参与方的数据中，则该参与方可以不返回任何值。

进一步地，所述方法还可以包括：

对于参与求中位数的各参与方，如果存在某个参与方的第i箱内的数据个数为1，则可以确定该数据即为各参与方的数据的中位数，并且该中位数是真实值，因此，本发明实施例对该中位数标记为第一标记，如标记为“真实”。该参与方返回该中位数时，也可以同时返回该中位数的第一标记，以使用户可以得知该中位数为真实的中位数。

如果不存在某个参与方的第i箱内的数据个数为1，而是存在至少一个参与方的第i箱内的数据个数大于1的情况，此时确定的中位数不一定是真实的中位数，而是一个估计值，因此，本发明实施例对这种情况下确定的中位数标记为第二标记，以表示该中位数为估计值。

在本发明的一种可选实施例中，所述根据参与计算的数据个数确定中位数的序号k，可以包括：

在参与计算的数据个数为2m+1的情况下，令k=m+1；

在参与计算的数据个数为2m的情况下，令k分别为m和m+1；

其中，在参与计算的数据个数为2m的情况下，所述方法还可以包括：

需要说明的是，本发明实施例为了便于描述，上述示例均是以参与计算的数据个数为2m+1（奇数）个的情况为例。

在实际应用中，参与计算的数据个数也可能是2m（偶数）个。在参与计算的数据个数为2m的情况下，可以令k分别为m和m+1。在令k为m的情况下，按照上述步骤对所述至少两个参与方的数据查找一次中位数，得到第一中位数；以及在令k为m+1的情况下，按照上述步骤对所述至少两个参与方的数据查找一次中位数，得到第二中位数。对所述第一中位数和第二中位数求均值，可以得到所述至少两个参与方的数据的中位数。

综上，本发明实施例基于明密文混合计算系统实现对至少两个参与方的数据查找中位数，并且使用分箱求中位数的方案，来加速求中位数的速度。具体地，本发明实施例将一部分运算，例如分箱操作，在各参与方在本地明文端完成明文运算，通过分箱操作可以大大减少需要传输和计算的数据量。将小部分的必要计算（加法和比较）操作在密文端完成，并且加法和比较操作均通过向量化实现，在保证数据隐私安全的基础上，极大地提高密文加法操作和密文比较操作的效率。以及通过n轮循环操作对各参与方的分箱数组进行更细粒度的处理，逐步缩小中位数的查找范围，在n轮循环操作完成后，即可得到中位数。在多方数据融合计算的场景中，本发明实施例可以在保护各参与方数据的隐私安全的情况下，求出其中位数。并且，通过明密文混合运算，大大降低了密文任务的计算量，可以提高查找中位数的效率。此外，本发明实施例可以在不需要额外储存空间的条件下查找中位数，提高多方安全计算系统中排序算法的空间效率，可以适用于大数据量的应用场景。再者，本发明实施例在求中位数的过程中，无需使用快速排序算法，可以避免快速排序算法过程中后续排序需要依赖前面的排序结果，导致暴露中间结果的情况，可以进一步保证中间结果不会被泄露，保证数据的隐私安全。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种数据处理装置实施例的结构框图，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述装置具体可以包括：

k值确定模块301，用于根据参与计算的数据个数确定中位数的序号k；

分箱处理模块302，用于在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；

n值确定模块303，用于根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；

循环操作模块304，用于执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；

结果确定模块305，用于在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

可选地，所述分箱处理模块，包括：

可选地，所述装置还包括：

可选地，所述k值确定模块，包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述装置包括有存储器，以及一个以上的程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行以下操作的指令：根据参与计算的数据个数确定中位数的序号k；在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

可选地，所述更新k的值，包括：

令k = k – hsum[i-1]。

可选地，所述装置还经配置以由一个以上处理器执行所述一个以上程序包含用于进行以下操作的指令：

通过下式确定循环轮数n的值：

在参与计算的数据个数为2m+1的情况下，令k=m+1；

在参与计算的数据个数为2m的情况下，令k分别为m和m+1；

图4是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出（I/ O）的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风（MIC），当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/ O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频信息处理（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

图5是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processingunits，CPU）1922（例如，一个或一个以上处理器）和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930（例如一个或一个以上海量存储设备）。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行图1所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：根据参与计算的数据个数确定中位数的序号k；在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组；根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值；执行n轮循环操作，每轮循环操作包括：在密文端对各参与方的分箱数组进行密文相加，得到密文结果数组hsum；基于密文比较hsum＜k，得到比较结果数组，并确定比较结果数组中第一个比较结果为假的元素对应的箱号i；更新k的值，以舍弃各参与方前i-1箱的数据；在每个参与方的明文端根据预设分箱数对每个参与方的第i箱数据进行明文分箱处理，得到下一轮待处理的每个参与方的分箱数组；在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据处理方法，其特征在于，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述方法包括：

根据参与计算的数据个数确定中位数的序号k；

在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数；

其中，所述根据所述参与计算的数据个数、所述预设分箱数、以及预设算法失败概率确定循环轮数n的值，包括：

通过下式确定循环轮数n的值：

2.根据权利要求1所述的方法，其特征在于，所述在每个参与方的明文端根据预设分箱数对每个参与方的数据进行明文分箱处理，得到每个参与方的分箱数组，包括：

3.根据权利要求1所述的方法，其特征在于，所述更新k的值，包括：

令k = k – hsum[i-1]。

4.根据权利要求1所述的方法，其特征在于，所述根据各参与方第i箱中的数据确定中位数，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据参与计算的数据个数确定中位数的序号k，包括：

在参与计算的数据个数为2m+1的情况下，令k=m+1；

在参与计算的数据个数为2m的情况下，令k分别为m和m+1；

7.一种数据处理装置，其特征在于，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述装置用于对所述至少两个参与方的数据查找中位数，所述装置包括：

结果确定模块，用于在n轮循环操作完成后，根据各参与方第i箱中的数据确定中位数；

其中，所述n值确定模块，具体用于通过下式确定循环轮数n的值：

8.根据权利要求7所述的装置，其特征在于，所述分箱处理模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述循环操作模块，包括k值更新子模块，用于更新k的值；所述k值更新子模块具体用于令k = k – hsum[i-1]。

10.根据权利要求7所述的装置，其特征在于，所述结果确定模块，具体用于：对于所述各参与方中的任一参与方，若所述参与方的第i箱内的数据个数为1，则确定所述参与方的第i箱内的数据为中位数；或者，若所述参与方的第i箱内的数据个数大于1，则基于明文从所述参与方的第i箱内的数据中确定中位数。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述k值确定模块，包括：

13.一种用于数据处理的装置，其特征在于，应用于明密文混合计算系统，所述明密文混合计算系统包括密文端和至少两个参与方的明文端，所述方法用于对所述至少两个参与方的数据查找中位数，所述装置包括有存储器以及一个以上程序，其中一个以上程序存储于存储器中，且经配置以由一个以上处理器执行所述一个以上程序，所述一个以上程序包含用于进行如权利要求1至6任一所述的数据处理方法的指令。

14.一种机器可读介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至6任一所述的数据处理方法。