CN111984932B

CN111984932B - 两方数据分组统计方法、装置及系统

Info

Publication number: CN111984932B
Application number: CN202010854996.8A
Authority: CN
Inventors: 张文彬; 李漓春
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2023-11-14
Anticipated expiration: 2040-08-24
Also published as: CN111984932A

Abstract

本说明书的实施例提供两方数据分组统计方法、装置及系统。在第一数据拥有方处，根据数据样本的统计变量的变量值以及第一分组变量的变量值数目来为数据样本集中的各个数据样本构建样本数组，并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方。在第二数据拥有方处，根据所具有的第二分组变量的变量值对数据样本集进行分组，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果，并将各个样本分组的第一密文统计结果发送给第一数据拥有方。随后，在第一数据拥有方处，对各个样本分组的第一密文统计结果进行解密得到分组统计结果，由此实现基于隐私数据保护的两方数据分组统计。

Description

两方数据分组统计方法、装置及系统

技术领域

本说明书实施例通常涉及数据处理领域，尤其涉及用于经由第一和第二数据拥有方联合分组统计的方法、装置及系统。

背景技术

在很多应用场景下，存在两个数据拥有方(例如，个体或机构)联合进行数据统计的需求，比如，若干商业保险机构联合统计得到行业总体情况，或者若干医疗机构联合统计得到某些疾病的总体情况。

然而，在进行联合统计时，每个数据拥有方的用户数据都是机密数据，需要进行隐私保护，不能泄露给对方。如何在确保两方数据隐私安全的情况下实现分组统计成为亟待解决的问题。

发明内容

鉴于上述，本说明书实施例提供用于经由第一和第二数据拥有方联合分组统计的方法、装置和系统。利用该方法、装置和系统，在第一数据拥有方处，根据所具有的第一分组变量的变量值和统计变量的变量值，为每个数据样本构建样本数组，所构建出的样本数组的每个维度分别对应于第一分组变量的不同变量值，并且除了该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，其它维度处的维度值都为零，并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方。在第二数据拥有方处，根据第二分组变量的变量值对数据样本集进行分组，然后，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到密文统计结果，由此得到根据第一分组变量和第二分组变量分组出的各个分组的密文统计结果，并在第一数据拥有方处对各个分组的密文统计结果进行解密，由此得到分组统计结果。按照上述方案，由于第一数据拥有方提供给第二数据拥有方的数据是密文数据，从而第二数据拥有方无法获悉第一数据拥有方的分组变量信息和统计变量信息，由此实现两方数据的隐私保护。

根据本说明书实施例的一个方面，提供一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法包括：在第一数据拥有方处，为数据样本集中的各个数据样本构建样本数组，并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；在第二数据拥有方处，根据所具有的第二分组变量的变量值对所述数据样本集进行分组，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果，并将各个样本分组的第一密文统计结果发送给第一数据拥有方；以及在第一数据拥有方处，对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

可选地，在上述方面的一个示例中，所述方法还可以包括：在第二数据拥有方处，对各个样本分组的第一密文统计结果进行重随机处理，将各个样本分组的第一密文统计结果发送给第一数据拥有方包括：将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。

可选地，在上述方面的一个示例中，所述第一数据拥有方具有公钥/私钥对，所述第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密，所述方法还包括：第一数据拥有方将所述公钥发送给第二数据拥有方，在第二数据拥有方处，对各个样本分组的第一密文统计结果进行重随机处理包括：在第二数据拥有方处，针对各个样本分组，使用所述公钥生成0的随机密文，并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果。

可选地，在上述方面的一个示例中，将各个样本分组的第一密文统计结果发送给第一数据拥有方包括：将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。

可选地，在上述方面的一个示例中，所述第一分组变量包括多个第一分组变量，以及所述样本分组的维度数等于所述多个第一分组变量的变量取值的不同组合的组合数。

可选地，在上述方面的一个示例中，所述样本数组的加密过程采用同态加密算法实现。

可选地，在上述方面的一个示例中，所述同态加密算法包括基于Paillier的分段加密算法。

可选地，在上述方面的一个示例中，所述分组统计包括：分组求和，分组计数，分组求均值或者分组求方差。

根据本说明书的实施例的另一方面，提供一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法应用于第一数据拥有方，所述方法包括：为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；对各个数据样本的样本数组进行加密并将加密后的样本数组发送给第二数据拥有方；从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到；以及对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

根据本说明书的实施例的另一方面，提供一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法应用于第二数据拥有方，所述方法包括：从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；根据所具有的第二分组变量的变量值对所述数据样本集进行分组；针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果；以及将各个样本分组的第一密文统计结果发送给第一数据拥有方。

根据本说明书的实施例的另一方面，提供一种用于经由第一和第二数据拥有方联合分组统计的装置，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述装置应用于第一数据拥有方，所述装置包括：数组构建单元，为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；数据加密单元，对各个数据样本的样本数组进行加密；数据发送单元，将加密后的样本数组发送给第二数据拥有方；结果获取单元，从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到；以及数据解密单元，对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

可选地，在上述方面的一个示例中，所述第一数据拥有方具有公钥/私钥对，所述数据加密单元使用公钥/私钥对中的公钥对样本数组进行加密，所述数据发送单元将所述公钥发送给第二数据拥有方，所述公钥被第二数据拥有方使用来针对各个样本分组生成0的随机密文，所生成的随机密文用于对该样本分组的第一密文统计结果进行重随机处理。

根据本说明书的实施例的另一方面，提供一种用于经由第一和第二数据拥有方联合分组统计的装置，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述装置应用于第二数据拥有方，所述装置包括：数据获取单元，从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；样本分组单元，根据所具有的第二分组变量的变量值对所述数据样本集进行分组；密文统计单元，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果；以及数据发送单元，将各个样本分组的第一密文统计结果发送给第一数据拥有方。

可选地，在上述方面的一个示例中，所述装置还可以包括：重随机处理单元，对各个样本分组的第一密文统计结果进行重随机处理，所述数据发送单元将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。

可选地，在上述方面的一个示例中，所述第一数据拥有方具有公钥/私钥对，所述第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密，所述数据获取单元从第一数据拥有方获取所述公钥，以及针对各个样本分组，所述重随机处理单元使用所述公钥生成0的随机密文，并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果。

可选地，在上述方面的一个示例中，所述数据发送单元将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。

根据本说明书的实施例的另一方面，提供一种用于经由第一和第二数据拥有方联合分组统计的系统，包括：第一数据拥有方，第一数据拥有方具有数据样本的第一分组变量和统计变量，并且包括如上所述的装置；以及第二数据拥有方，第二数据拥有方具有所述数据样本的第二分组变量，并且包括如上所述的装置。

根据本说明书的实施例的另一方面，提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的在第一或第二数据拥有方侧执行的方法。

根据本说明书的实施例的另一方面，提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的在第一或第二数据拥有方侧执行的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的两个数据拥有方所具有的数据样本的示例示意图。

图2示出了根据本说明书的实施例的用于经由第一和第二数据拥有方联合分组统计的系统的架构示意图。

图3示出了根据本说明书的实施例的用于经由第一和第二数据拥有方联合分组统计的方法的示例流程图。

图4示出了根据本说明书的实施例的样本数组的示例示意图。

图5示出了根据本说明书的实施例的在第一数据拥有方侧的分组统计装置的方框图。

图6示出了根据本说明书的实施例的在第二数据拥有方侧的分组统计装置的方框图。

图7示出了根据本说明书的实施例的用于实现第一数据拥有方侧的分组统计过程的电子设备的示意图。

图8示出了根据本说明书的实施例的用于实现第二数据拥有方侧的分组统计过程的电子设备的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本说明书中，术语“业务服务提供方”和“数据拥有方”可以互换使用。术语“第一数据拥有方”和“第一数据拥有方设备”可以互换使用。术语“第二数据拥有方”和“第二数据拥有方设备”可以互换使用。

在一些经由两个数据拥有方联合提供业务服务的应用场景下，需要两个数据拥有方联合进行数据统计，比如，若干商业保险机构联合统计得到行业总体情况，或者若干医疗机构联合统计得到某些疾病的总体情况。

在本说明书中，两个数据拥有方具有的数据是垂直切分数据。术语“垂直切分数据”是指对数据样本的特征变量进行垂直切分而得到的数据。例如，两个数据拥有方各自拥有用户的身份ID(比如身份证号、手机号等)，并且各个数据拥有方各自拥有用户的部分特征变量(在下文中称为“变量”)。比如，一个数据拥有方拥有用户的年龄和工资信息，另一数据拥有方拥有用户的学历信息。两个数据拥有方希望联合起来对共同用户统计每种学历和每一年龄下用户的收入信息，即，按照学历和年龄分组，相同学历和年龄的用户组成一组，然后统计出每组用户的收入总和、用户数量、收入均值、收入中位数等。在进行联合统计后，两个数据拥有方中的一方或双方可以得到统计的结果，但是除了统计结果之外，不能泄露用户的变量信息。

鉴于上述，本说明书的实施例提出了用于经由第一和第二数据拥有方联合分组统计的方法、装置和系统。利用该方法、装置和系统，在第一数据拥有方处，根据所具有的第一分组变量的变量值和统计变量的变量值，为每个数据样本构建样本数组，所构建出的样本数组的每个维度分别对应于第一分组变量的不同变量值，并且除了该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，其它维度处的维度值都为零，并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方。在第二数据拥有方处，根据第二分组变量的变量值对数据样本集进行分组，然后，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果，由此得到根据第一分组变量和第二分组变量分组出的各个分组的密文统计结果，并在第一数据拥有方处对各个分组的密文统计结果进行解密，由此得到分组统计结果。按照上述方案，由于第一数据拥有方提供给第二数据拥有方的数据是密文数据，从而第二数据拥有方无法获悉第一数据拥有方的分组变量信息和统计变量信息，由此实现两方数据的隐私保护。

在本说明书中，术语“分组”也可以称为“数据分组”、“GROUP BY”或“SQL GROUPBY”，是指按照某个列col_name对数据库的一个数据表中的数据进行分组。例如，GROUP BYYear是指对数据按年份分组，相同年份的数据样本被分到同一分组中。如果把比如求和、计数、求平均值、中位数等统计函数和GROUP BY结合，则统计结果就是对分组内的数据统计。GROUP BY分组结果的数据条数，就是分组数量，比如：GROUP BY Year，全部数据里有几年，就返回几条数据。

术语“安全多方计算”又称为多方安全计算，即，多方共同计算出一个函数的结果，而不泄露这个函数各方的输入数据，计算的结果公开给其中的一方或多方。安全多方计算的一个典型应用是基于隐私保护的多方数据联合统计分析和机器学习。安全多方计算能让参与的各方在不暴露各自原始数据的情况下，能够计算出基于各方联合数据的统计结果和机器学习结果。

术语“同态加密”是一种密码学技术。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与使用同一方法处理未加密的原始数据得到的输出结果一样。

下面参照附图描述根据本说明书的实施例的用于经由第一和第二数据拥有方联合分组统计的方法、装置和系统。

如图1所示，第一数据拥有方具有由数据样本ID为1到N的N个数据样本组成的第一数据集，并且针对每个数据拥有样本，具有第一分组变量A的变量值和统计变量Y的变量值。例如，对于数据样本1，具有第一分组变量A的变量值a_1和统计变量Y的变量值y_1，以及对于数据样本N，具有第一分组变量A的变量值a_N和统计变量Y的变量值y_N。这里，第一分组变量A具有m个不同值a’_1到a’_m，第k个数据样本的第一分组变量A的变量值a_k＝a’_u，其中，1≤u≤m。

第二数据拥有方具有由数据样本ID为1到N的N个数据样本组成的第二数据集，并且针对每个数据拥有样本，具有第二分组变量B的变量值。例如，对于数据样本1，具有第二分组变量B的变量值b_1，以及对于数据样本N，具有第二分组变量B的变量值b_N。这里，第二分组变量B具有n个不同值b’_1到b’_n，第k个数据样本的第二分组变量B的变量值b_k＝b’_v，其中，1≤v≤n。

要说明的是，图1中示出的仅仅是第一和第二数据拥有方所具有的数据的示例。在本说明书的其它实施例中，第一和/或第二数据拥有方可以具有更多的分组变量。

图2示出了根据本说明书的实施例的用于经由第一和第二数据拥有方联合分组统计的系统(下文中称为“分组统计系统”)200的架构示意图。

如图2所示，分组统计系统200包括第一数据拥有方210和第二数据拥有方220。第一数据拥有方210具有第一数据集，以及第二数据拥有方220具有第二数据集。第一数据集可以是由第一数据拥有方210在本地收集的本地数据，以及第二数据集可以是由第二数据拥有方220在本地收集的本地数据。第一数据集和第二数据集的组成示例例如可以如图1中所示。在本说明书中，分组统计的示例可以包括但不限于：分组求和、分组计数、分组求均值或者分组求方差等。

在本说明书中，第一数据拥有方210和第二数据拥有方220可以是参与业务处理的业务参与方，或者是为业务参与方提供数据的数据拥有方。例如，第一数据拥有方210和第二数据拥有方220例如可以是不同金融机构或医疗机构的私有数据存储服务器或智能终端设备。

在本说明书中，第一数据拥有方210以及第二数据拥有方220可以是任何合适的具有计算能力的计算设备。所述计算设备包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。

第一数据拥有方210具有分组统计装置211，第二数据拥有方220具有分组统计装置221。第一数据拥有方210中的分组统计装置211与第二数据拥有方220中的分组统计装置221可以通过例如包括但不局限于互联网或局域网等的网络230相互通信，由此分组统计装置211与分组统计装置221协同来基于第一数据集和第二数据集进行分组求和。在本说明书的其它实施例中，第一数据拥有方210中的分组统计装置211与第二数据拥有方220中的分组统计装置221也可以直接可通信地连接来相互通信。

图3示出了根据本说明书的实施例的用于经由第一和第二数据拥有方联合分组统计的方法300的示例流程图。

如图3所示，在310，在第一数据拥有方210处，为数据样本集中的各个数据样本构建样本数组。在针对各个数据样本构建的样本数组中，每个维度分别对应于第一分组变量的不同变量值。换言之，为第一分组变量的每个变量值构建一个维度。例如，假设第一分组变量具有m个不同值，则所构建的样本数组具有m个维度。此外，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为0。通过构建上述样本数组，由于仅仅该数据样本所具有的第一分组变量的变量值所对应的维度处才具有统计量，而其它维度为0，从而可以利用该样本数组来反映出基于第一分组变量的变量值的分组结果。

图4示出了根据本说明书的实施例的样本数组的示例示意图。如图4所示，所构建的样本数组的维度数为m，其中，第k个数据样本的统计变量Y的变量值为y_i，该变量值y_i所对应的样本数组维度为i，由此，在所得到第k个数据样本的样本数组中，除了维度i处的维度值为y_i之外，其余维度的维度值都为0。图4中示出的示例适用于分组统计为分组求和、分组求均值的情形，即，统计量为变量值。在分组统计为分组计数的情形下，统计量为1。在分组统计为分组求方差的情形下，维度i处的统计量为该统计变量的变量值y_i以及变量值y_i的平方值。

在本说明书的另一示例中，第一数据拥有方处的数据样本可以具有多个第一分组变量，则样本分组的维度数等于多个第一分组变量的变量取值的不同组合的组合数，即，各个第一分组变量的变量取值数目的乘积。例如，假设存在3个第一分组变量A1到A3，其中，A1的取值为m个，A2的取值为p个，以及A3的取值为q个，则样本分组的维度数等于m×p×q。

在如上针对各个数据样本构建出样本数组后，在320，对各个数据样本的样本数组进行加密。在一个示例中，可以采用同态加密算法来实现针对各个数据样本的样本数组加密。例如，所述同态加密算法可以是基于Paillier的分段加密算法。

在基于Paillier的分段加密算法来实现样本数组加密的情况下，假设变量值使用32bit表示，对于第k个样本的样本数组(y_{k,1},…,y_{k,m})，由于Paillier的明文具有2048bit，可以装填多个y_{k,i}，从而将该样本数组按顺序拆分成m'＝m*32/2048＝m/64段，并且计算每段的Paillier密文，由此得到该样本数组的密文数据(E_{k,1},…,E_{k,m’})，其中，E_{k,1}是对(y_{k,1},…,y_{k,64})进行加密得到的密文，例如，使用公钥PK加密得到的密文，E_{k,2}是对(y_{k,65},…,y_{k,128})进行加密得到的密文，其它的密文E_{k,i}依次类推。

在330，将经过加密后的各个数据样本的样本数组发送给第二数据拥有方。

在340，在第二数据拥有方处，根据所具有的第二分组变量的变量值对数据样本集进行分组。具体地，将所具有的第二分组变量的变量值相同的数据样本划分为同一样本分组，由此可以基于第二分组变量来对数据样本进行分组划分。在第二数据拥有方具有多个第二分组变量的情况下，可以基于多个第二分组变量的变量值的不同组合来进行样本分组。例如，假设具有两个第二分组变量B1和B2，则将B1的取值和B2的取值的组合作为分组标准，只要该组合中的一个元素不同，则认为是不同的分组。

在350，在第二数据拥有方处，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果，其中，样本分组i的第一密文统计结果为SumE_i。在样本数组的密文数据是基于Paillier的分段加密算法得到的(E_{k,1},…,E_{k,m’})的情况下，对该样本分组i中的每个分段密文进行密文统计，得到该样本分组i的密文统计结果SumE_i为(SumE_{i,1},…,SumE_{i,m’})。

要说明的是，在分组统计是分组求和以及分组计数的情况下，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计包括：根据该样本分组中的所有数据样本的加密后的样本数组进行密文求和。在分组统计是分组求均值的情况下，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计包括：根据该样本分组中的所有数据样本的加密后的样本数组进行密文求和，并对密文求和结果求平均来得到密文均值。在分组统计是分组求均值的情况下，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计包括：根据该样本分组中的所有数据样本的加密后的样本数组中的变量值以及变量值的平方值，确定出密文方差值。

在360，第二数据拥有方将各个样本分组的第一密文统计结果发送给第一数据拥有方。

在370，在第一数据拥有方处，对各个样本分组的第一密文统计结果进行解密得到分组统计结果。例如，针对样本分组i的密文统计结果SumE_i，经过解密后得到的样本数组中的每个维度都代表基于第一分组变量的分组结果，由此解密后得到的样本数组中的每个维度的维度值可以表征基于第一分组变量和第二分组变量分组出的各个数据样本的分组统计结果。例如，假设样本分组i是基于第二分组变量的变量值为i而分组出的样本分组，则对于解密后的SumE_i的第k个维度的维度值可以表征基于第一分组变量的变量值k以及第二分组变量的变量值i分组出的各个数据样本的分组统计结果。在所采用的加密算法是基于Paillier的分段加密算法时，将各段加密密文的解密结果组合得到数据样本的分组统计结果。

利用上述两方数据分组统计方法，由于第一数据拥有方向第二数据拥有方发送的是经过加密处理后的密文信息，从而第二数据拥有方无法获悉第一数据拥有方的分组变量信息和统计变量信息，由此实现两方数据的隐私保护。

此外，可选地，在另一示例中，在第二数据拥有方处，还可以对各个样本分组的第一密文统计结果进行重随机处理。然后，第二数据拥有方将将各个样本分组的经过重随机处理后的第一密文求和结果发送给第一数据拥有方。

例如，在一个示例中，第一数据拥有方具有公钥/私钥对，第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密。在这种情况下，第一数据拥有方还将公钥发送给第二数据拥有方。随后，在第二数据拥有方处，针对各个样本分组i，使用所接收的公钥生成0的随机密文，并将所生成的随机密文与该样本分组i的第一密文统计结果SumE_i同态相加得到该样本分组的第二密文统计结果，由此完成重随机处理过程。然后，将第二密文统计结果发送给第一数据拥有方。

在样本数组的密文数据是基于Paillier的分段加密算法得到的(E_{k,1},…,E_{k,m’})的情况下，针对每段第一密文统计结果SumE_{i,j}，使用所接收的公钥生成0的随机密文，并将所生成的随机密文与该第一密文统计结果SumE_{i,j}相加得到新的第二密文统计结果，由此完成重随机处理过程。

利用上述针对第一密文统计结果的重随机处理过程，由于第二数据拥有方向第一数据拥有方发送的密文统计结果是经过重随机处理后的密文统计结果，可以使得第一数据拥有方无法通过反推方法(例如，组合)来推断出该密文统计结果基于哪些密文得到，由此不能推断出第二数据拥有方的分组信息，从而实现针对第二数据拥有方的数据的隐私保护。

此外，可选地，在另一示例中，将各个样本分组的第一密文统计结果发送给第一数据拥有方可以包括：将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。在这种情况下，第一数据拥有方可以知道第二数据拥有方的第二分组变量具有哪些变量值，由此可以知道每个样本分组所对应的第一分组变量和第二分组变量的变量值。但是由于第二数据拥有方发送的是该样本分组的所有数据样本的统计值，从而第一数据拥有方无法知晓每个样本对应的第二分组变量的变量值，由此可以保护第二数据拥有方的隐私数据安全。

图5示出了根据本说明书的实施例的在第一数据拥有方侧的分组统计装置500的方框图。如图5所示，分组统计装置500包括数组构建单元510、数据加密单元520、数据发送单元530、结果获取单元540和数据解密单元550。

数组构建单元510为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零。数组构建单元510的操作可以参考上面参照图3描述的310的操作。

数据加密单元520被配置为对各个数据样本的样本数组进行加密。数据加密单元520的操作可以参考上面参照图3描述的320的操作。

数据发送单元530被配置为将加密后的样本数组发送给第二数据拥有方。数据发送单元530的操作可以参考上面参照图3描述的330的操作。

结果获取单元540被配置为从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到。结果获取单元540的操作可以参考上面参照图3描述的360的操作。

数据解密单元550被配置为对各个样本分组的第一密文统计结果进行解密得到分组统计结果。数据解密单元550的操作可以参考上面参照图3描述的370的操作。

可选地，在一个示例中，第一数据拥有方具有公钥/私钥对，数据加密单元520使用公钥/私钥对中的公钥对样本数组进行加密，以及数据发送单元530将公钥发送给第二数据拥有方，所述公钥被第二数据拥有方使用来针对各个样本分组生成0的随机密文，所生成的随机密文用于对该样本分组的第一密文统计结果进行重随机处理。

图6示出了根据本说明书的实施例的在第二数据拥有方侧的分组统计装置600的方框图。如图6所示，分组统计装置600包括数据获取单元610、样本分组单元620、密文统计单元630和数据发送单元640。

数据获取单元610被配置为从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零。数据获取单元610的操作可以参考上面参照图3描述的330的操作。

样本分组单元620被配置为根据所具有的第二分组变量的变量值对数据样本集进行分组。样本分组单元620的操作可以参考上面参照图3描述的340的操作。

密文统计单元630被配置为针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果。密文统计单元630的操作可以参考上面参照图3描述的350的操作。

数据发送单元640被配置为将各个样本分组的第一密文统计结果发送给第一数据拥有方。数据发送单元640的操作可以参考上面参照图3描述的360的操作。

此外，可选地，在一个示例中，分组求和装置600还可以包括重随机处理单元(未示出)。所述重随机处理单元被配置为对各个样本分组的第一密文统计结果进行重随机处理。随后，数据发送单元640将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。

可选地，在一个示例中，第一数据拥有方具有公钥/私钥对，并且第一数据拥有方中的数据加密单元使用公钥/私钥对中的公钥对样本数组进行加密。相应地，数据获取单元610从第一数据拥有方获取公钥。针对各个样本分组，所述重随机处理单元使用所接收的公钥生成0的随机密文，并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果，由此完成重随机处理过程。

此外，可选地，在另一示例中，数据发送单元640还可以将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。

如上参照图1到图6，对根据本说明书实施例的分组统计方法和分组统计装置进行了描述。上面的分组统计装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图7示出了根据本说明书的实施例的用于实现第一数据拥有方侧的分组统计过程的电子设备700的示意图。如图7所示，电子设备700可以包括至少一个处理器710、存储器(例如，非易失性存储器)720、内存730和通信接口740，并且至少一个处理器710、存储器720、内存730和通信接口740经由总线760连接在一起。至少一个处理器710执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器710：为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；对各个数据样本的样本数组进行加密并将加密后的样本数组发送给第二数据拥有方；从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到；以及对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器710进行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。

图8示出了根据本说明书的实施例的用于实现第二数据拥有方侧的分组统计过程的电子设备800的示意图。如图8所示，电子设备800可以包括至少一个处理器810、存储器(例如，非易失性存储器)820、内存830和通信接口840，并且至少一个处理器810、存储器820、内存830和通信接口840经由总线860连接在一起。至少一个处理器810执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器810：从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；根据所具有的第二分组变量的变量值对数据样本集进行分组；针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果；以及将各个样本分组的第一密文统计结果发送给第一数据拥有方。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器810进行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。

根据一个实施例，提供了一种比如机器可读介质(例如，非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法包括：

在第一数据拥有方处，为数据样本集中的各个数据样本构建样本数组，并将经过加密后的各个数据样本的样本数组发送给第二数据拥有方，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；

在第二数据拥有方处，根据所具有的第二分组变量的变量值对所述数据样本集进行分组，针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果，并将各个样本分组的第一密文统计结果发送给第一数据拥有方；以及

在第一数据拥有方处，对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

2.如权利要求1所述的方法，还包括：

在第二数据拥有方处，对各个样本分组的第一密文统计结果进行重随机处理，

将各个样本分组的第一密文统计结果发送给第一数据拥有方包括：

将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。

3.如权利要求2所述的方法，其中，所述第一数据拥有方具有公钥/私钥对，所述第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密，所述方法还包括：

第一数据拥有方将所述公钥发送给第二数据拥有方，

在第二数据拥有方处，对各个样本分组的第一密文统计结果进行重随机处理包括：

在第二数据拥有方处，针对各个样本分组，使用所述公钥生成0的随机密文，并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果。

4.如权利要求1所述的方法，其中，将各个样本分组的第一密文统计结果发送给第一数据拥有方包括：

将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。

5.如权利要求1所述的方法，其中，所述第一分组变量包括多个第一分组变量，以及所述样本分组的维度数等于所述多个第一分组变量的变量取值的不同组合的组合数。

6.如权利要求1所述的方法，其中，所述样本数组的加密过程采用同态加密算法实现。

7.如权利要求6所述的方法，其中，所述同态加密算法包括基于Paillier的分段加密算法。

8.如权利要求1到7中任一所述的方法，其中，所述分组统计包括：

分组求和；

分组计数；

分组求均值；或者

分组求方差。

9.一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法应用于第一数据拥有方，所述方法包括：

为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；

对各个数据样本的样本数组进行加密并将加密后的样本数组发送给第二数据拥有方；

从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到；以及

对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

10.一种用于经由第一和第二数据拥有方联合分组统计的方法，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述方法应用于第二数据拥有方，所述方法包括：

从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；

根据所具有的第二分组变量的变量值对所述数据样本集进行分组；

针对各个样本分组，根据该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果；以及

将各个样本分组的第一密文统计结果发送给第一数据拥有方。

11.一种用于经由第一和第二数据拥有方联合分组统计的装置，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述装置应用于第一数据拥有方，所述装置包括：

数组构建单元，为数据样本集中的各个数据样本构建样本数组，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；

数据加密单元，对各个数据样本的样本数组进行加密；

数据发送单元，将加密后的样本数组发送给第二数据拥有方；

结果获取单元，从第二数据拥有方获取各个样本分组的第一密文统计结果，各个样本分组由第二数据拥有方根据所具有的第二分组变量的变量值对所述数据样本集进行分组得到，各个样本分组的第一密文统计结果由第二数据拥有方使用该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到；以及

数据解密单元，对各个样本分组的第一密文统计结果进行解密得到分组统计结果。

12.如权利要求11所述的装置，其中，所述第一数据拥有方具有公钥/私钥对，所述数据加密单元使用公钥/私钥对中的公钥对样本数组进行加密，所述数据发送单元将所述公钥发送给第二数据拥有方，所述公钥被第二数据拥有方使用来针对各个样本分组生成0的随机密文，所生成的随机密文用于对该样本分组的第一密文统计结果进行重随机处理。

13.如权利要求12所述的装置，其中，所述第一分组变量包括多个第一分组变量，以及所述样本分组的维度数等于所述多个第一分组变量的变量取值的不同组合的组合数。

14.一种用于经由第一和第二数据拥有方联合分组统计的装置，第一数据拥有方具有数据样本的第一分组变量和统计变量，第二数据拥有方具有所述数据样本的第二分组变量，所述装置应用于第二数据拥有方，所述装置包括：

数据获取单元，从第一数据拥有方获取各个数据样本的加密后的样本数组，各个数据样本的样本数组由第一数据拥有方根据该数据样本的统计变量的变量值以及第一分组变量的变量值数目构建，在所述样本数组中，每个维度分别对应于所述第一分组变量的不同变量值，该数据样本的第一分组变量的变量值所对应的维度处的维度值等于该数据样本的统计变量的统计量，以及其它维度处的维度值为零；

样本分组单元，根据所具有的第二分组变量的变量值对所述数据样本集进行分组；

密文统计单元，针对各个样本分组，对该样本分组中的所有数据样本的加密后的样本数组进行密文统计得到第一密文统计结果；以及

数据发送单元，将各个样本分组的第一密文统计结果发送给第一数据拥有方。

15.如权利要求14所述的装置，还包括：

重随机处理单元，对各个样本分组的第一密文统计结果进行重随机处理，

所述数据发送单元将各个样本分组的经过重随机处理后的第一密文统计结果发送给第一数据拥有方。

16.如权利要求15所述的装置，其中，所述第一数据拥有方具有公钥/私钥对，所述第一数据拥有方使用公钥/私钥对中的公钥对样本数组进行加密，

所述数据获取单元从第一数据拥有方获取所述公钥，以及

针对各个样本分组，所述重随机处理单元使用所述公钥生成0的随机密文，并将所生成的随机密文与该样本分组的第一密文统计结果同态相加得到该样本分组的第二密文统计结果。

17.如权利要求14所述的装置，其中，所述数据发送单元将各个样本分组的第一密文统计结果以及对应的第二分组变量的变量值发送给第一数据拥有方。

18.一种用于经由第一和第二数据拥有方联合分组统计的系统，包括：

第一数据拥有方，第一数据拥有方具有数据样本的第一分组变量和统计变量，并且包括如权利要求11到13中任一所述的装置；以及

第二数据拥有方，第二数据拥有方具有所述数据样本的第二分组变量，并且包括如权利要求14到17中任一所述的装置。

19.一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求9或10所述的方法。

20.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求9或10所述的方法。