CN112380404A

CN112380404A - 数据过滤方法、装置及系统

Info

Publication number: CN112380404A
Application number: CN202011463415.4A
Authority: CN
Inventors: 崔锦铭; 陈超超; 王力
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-02-19
Anticipated expiration: 2040-12-14
Also published as: CN112380404B

Abstract

本说明书的实施例提供一种数据过滤方法、装置及设备。第一和第二成员设备分别具有待过滤的数据样本集中的每条数据样本的分片数据。响应于数据样本过滤请求，第一和第二成员设备执行多方安全计算来确定各条数据样本的过滤标签数据，每个成员设备分别具有过滤标签数据的标签分片数据。随后，第一和第二成员设备使用各自具有的分片数据和标签分片数据，执行两次基于同态加密的不经意过滤处理来得到过滤出的数据样本。在所得到的过滤出的数据样本中，每个成员设备分别具有过滤出的数据样本的两个原始分片数据的一个二次分片数据。每个成员设备组合所具有的二次分片数据得到与原始分片数据不同的新分片数据。

Description

数据过滤方法、装置及系统

技术领域

本说明书实施例通常涉及数据处理领域，尤其涉及用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法、数据过滤装置以及数据过滤系统。

背景技术

随着技术的发展，越来越多的业务应用场景需要使用多个数据拥有方的本地数据来进行多方数据联合处理，例如，使用机器学习模型的业务应用场景，比如，使用机器学习模型进行风险评估、人群识别、业务分类等。在机器学习模型的应用中，在比如模型预测或模型训练的应用场景下，需要使用多个数据拥有方的本地数据来联合进行模型预测处理得到模型预测结果。

在进行多方数据联合处理时，可以对各个数据拥有方具有的本地数据组成的数据集进行分片处理，每个数据拥有方具有数据集中的每条数据的分片数据，由此得到经过加密处理后的数据集（加密数据集），每个数据拥有方都不能知晓完整数据信息，从而在多方数据联合处理时实现各个数据拥有方的数据隐私保护。

在一些应用场景下，在进行多方数据联合处理时，需要从利用分片数据组成的加密数据集中过滤出期望的数据样本来进行后续处理，如何从上述加密数据集中过滤出期望的数据样本成为亟待解决的问题。

发明内容

鉴于上述，本说明书实施例提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法、数据过滤装置以及数据过滤系统。利用该数据过滤方法、数据过滤装置及数据过滤系统，可以从基于分片数据组成的加密数据集中过滤出期望的数据样本。

根据本说明书实施例的一个方面，提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的方法，所述数据样本集中的每条数据样本具有多个特征维度，第一和第二成员设备分别具有每条数据样本的分片数据，所述方法由第一成员设备或第二成员设备执行，所述方法包括：响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求，与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据，每个成员设备具有所述过滤标签数据的标签分片数据；与所述另一成员设备一起，使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据，所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据；与所述另一成员设备一起，使用所具有的标签分片数据以及所述另一成员设备所具有的分片数据和标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第三和第四分片数据，所述第三和第四分片数据是所述另一成员设备所具有的分片数据的二次分片数据；以及对所述第一和第三分片数据进行求和，得到所述过滤出的数据样本在所述成员设备处的分片数据，其中，所述第二和第四分片数据经由所述另一成员设备进行求和，得到所述过滤出的数据样本在所述另一成员设备处的分片数据。

可选地，在上述方面的一个示例中，在第一和第二成员设备之间执行基于同态加密的不经意过滤处理包括：在所述第一和第二成员设备处分别生成用于同态加密的公钥/私钥对，并且共享各自的公钥；在第一和第二成员设备中的仅仅具有标签分片数据的一个成员设备处，使用本地公钥来对所具有的标签分片数据进行同态加密，得到第一加密序列，并将所述第一加密序列发送给对端成员设备；在所述对端成员设备处，使用所接收的公钥对所具有的标签分片数据进行同态加密以及使用本地公钥对所具有的分片数据进行同态加密来分别得到第二和第三加密序列，对所述第一和第二加密序列进行同态加密分析得到第四加密序列，所述第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果，并将所述第三和第四加密序列经过打乱处理后发送给所述一个成员设备；在所述一个成员设备处，使用本地私钥对打乱后的第四加密序列进行解密处理，根据所述打乱后的第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列，所述第五加密序列包括过滤出的数据样本的密文分片数据，对经过打乱处理后的第五加密序列进行分片处理，得到所述第五加密序列中的密文分片数据的明文二级分片数据以及密文二级分片数据，并且将每个密文分片数据的密文二级分片数据发送给所述对端成员设备；以及在所述对端成员设备处，使用本地私钥对所接收的密文二级分片数据进行解密，得到每个密文分片数据的明文二级分片数据。

可选地，在上述方面的一个示例中，所述分片数据和/或所述标签分片数据是基于秘密分享处理得到的分片数据。

可选地，在上述方面的一个示例中，所述一个成员设备处的明文二级分片数据为随机掩码数据。

可选地，在上述方面的一个示例中，在多方安全计算结果示出数据样本的对应特征维度的特征值等于所述过滤特征维度值时，该数据样本的过滤标签数据为0，以及在多方安全计算结果示出数据样本的对应特征维度的特征值不等于所述过滤特征维度值时，该数据样本的过滤标签数据为1。

可选地，在上述方面的一个示例中，根据所述第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列包括：从所述第三加密序列中提取与所述第四加密序列中的解密结果为0的元素对应的元素，得到第五加密序列。

可选地，在上述方面的一个示例中，所述多方安全计算包括下述多方安全计算中的一种：基于秘密分享的多方安全计算；基于同态加密的多方安全计算；基于不经意传输的多方安全计算；基于混淆电路的多方安全计算；和基于可信执行环境的多方安全计算。

可选地，在上述方面的一个示例中，所述数据样本包括基于文本数据、图像数据和/或视频数据的数据样本。

可选地，在上述方面的一个示例中，所述数据样本包括应用于机器学习模型训练或机器学习模型预测的数据样本或者应用于多方数据查询的数据样本。

根据本说明书的实施例的另一方面，提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的装置，所述数据样本集中的每条数据样本具有多个特征维度，第一和第二成员设备分别具有每条数据样本的分片数据，所述装置应用于第一或第二成员设备，所述装置包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现：响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求，与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据，每个成员设备具有所述过滤标签数据的标签分片数据；与所述另一成员设备一起，使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据，所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据；与所述另一成员设备一起，使用所具有的标签分片数据以及所述另一成员设备所具有的分片数据和标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第三和第四分片数据，所述第三和第四分片数据是所述另一成员设备所具有的分片数据的二次分片数据；以及对所述第一和第三分片数据进行求和，得到所述过滤出的数据样本在所述成员设备处的分片数据，其中，所述第二和第四分片数据经由所述另一成员设备进行求和，得到所述过滤出的数据样本在所述另一成员设备处的分片数据。

可选地，在上述方面的一个示例中，在所述成员设备和另一成员设备之间执行基于同态加密的不经意过滤处理包括：在所述成员设备和另一成员设备处分别生成用于同态加密的公钥/私钥对，并且共享各自的公钥；在所述成员设备和另一成员设备中的仅仅具有标签分片数据的一个成员设备处，使用本地公钥来对所具有的标签分片数据进行同态加密，得到第一加密序列，并将所述第一加密序列发送给对端成员设备；在所述对端成员设备处，使用所接收的公钥对所具有的标签分片数据进行同态加密以及使用本地公钥对所具有的分片数据进行同态加密来分别得到第二和第三加密序列，对所述第一和第二加密序列进行同态加密分析得到第四加密序列，所述第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果，并将所述第三和第四加密序列经过打乱处理后发送给所述一个成员设备；在所述一个成员设备处，使用本地私钥对打乱后的第四加密序列进行解密处理，根据所述打乱后的第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列，所述第五加密序列包括过滤出的数据样本的密文分片数据，对经过打乱处理后的第五加密序列进行分片处理，得到所述第五加密序列中的密文分片数据的明文二级分片数据以及密文二级分片数据，并且将每个密文分片数据的密文二级分片数据发送给所述对端成员设备；以及在所述对端成员设备处，使用本地私钥对所接收的密文二级分片数据进行解密，得到每个密文分片数据的明文二级分片数据。

根据本说明书的实施例的另一方面，提供一种用于对第一和第二成员设备的数据样本集进行过滤处理的系统，包括：包括如上所述的用于对第一和第二成员设备的数据样本集进行过滤处理的装置的第一成员设备；以及包括如上所述的用于对第一和第二成员设备的数据样本集进行过滤处理的装置的第二成员设备，其中，所述数据样本集中的每条数据样本具有多个维度特征，第一和第二成员设备分别具有每条数据样本的分片数据。

根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行来实现如上所述的用于对第一和第二成员设备的数据样本集进行过滤处理的方法。

根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于对第一和第二成员设备的数据样本集进行过滤处理的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤系统的架构示例示意图。

图2示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法的流程图。

图3示出了根据本说明书的实施例的基于同态加密的不经意过滤处理过程的一个示例的流程图。

图4示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤装置的方框图。

图5示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤装置的示例示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

一些业务应用场景会涉及两个数据拥有方，每个数据拥有方在本地收集本地数据。在进行业务处理时，需要使用两个数据拥有方的本地数据来进行两方数据联合处理。例如，在使用机器学习模型来进行风险评估、人群识别、业务分类等的应用场景下，需要使用两个数据拥有方的本地隐私数据来联合进行模型预测处理得到模型预测结果。

由于各个数据拥有方的本地数据是隐私数据，需要进行数据隐私保护。鉴于此，在进行两方数据联合处理时，采用多方安全计算的方式来实现两个数据拥有方之间的联合数据计算，由此每个数据拥有方得到联合数据计算处理结果的分片数据，或者每个数据拥有方具有自有数据以及对端数据的分片数据。按照这种处理方式，每个数据拥有方所具有的数据都是部分数据，由此不能得到完整数据信息，进而实现数据隐私保护。

在上述应用场景下，每个数据拥有方具有分片数据，并由此基于两个数据拥有方所具有的分片数据来组成数据集。在本说明书中，各个数据拥有方所收集的本地数据例如可以包括但不限于在本地收集的用户特征数据、业务处理数据、金融交易数据、商品交易数据、医疗健康数据等等。所述本地数据例如可以应用于机器学习模型来进行模型预测、模型训练以及其它合适的多方数据联合处理，比如，多方数据查询处理。

此外，在本说明书中所提及的数据也可以称为数据样本。每条数据可以具有多个特征维度，每个特征维度可以具有一个特征值。例如，在所收集的数据是用户特征数据的情况下，特征维度例如可以包括用户年龄、身高、学历、收入、爱好等等。此外，术语“数据集”可以与术语“数据样本集”互换使用。

在一些应用场景下，在如上得到基于两个数据拥有方所具有的分片数据组成的数据样本集的情况下，还需要对该数据样本集进行数据过滤处理。例如，在后续两方数据联合处理时，仅仅需要使用某个特征维度为特定值的数据。比如，在所收集的数据是用户特征数据的情况下，后续使用的数据仅仅是“年龄为19”的用户数据，由此需要从该数据样本集中过滤出“年龄为19”的用户数据。

本说明书的实施例提供一种数据过滤处理方案。在该数据过滤处理方案中，第一和第二成员设备分别具有待过滤的数据样本集中的每条数据样本的分片数据。响应于包含用于数据样本过滤的过滤特征维度以及过滤特征维度值的数据样本过滤请求，第一与第二成员设备一起执行多方安全计算来确定出各条数据样本的过滤标签数据，每个成员设备分别具有过滤标签数据的标签分片数据。随后，第一和第二成员设备使用各自具有的分片数据和标签分片数据，执行两次基于同态加密的不经意过滤处理来得到过滤出的数据样本。每个成员设备分别得到过滤出的数据样本的两个原始分片数据的一个二次分片数据，并组合所得到的二次分片数据得到与原始分片数据不同的新分片数据，由此在实现数据样本过滤的同时，使得各个成员设备无法根据最终得到的分片数据来推断出过滤出的数据样本的原始数据信息，进而实现数据隐私保护。

在本说明书的实施例中，术语“秘密分享”属于一种密码学原语。在秘密分享处理时，通过随机数掩码的方式将原始数据进行拆分、分发，每一份分发数据由不同管理者持有，单个数据持有者或协议规定数量以下的数据持有者无法进行秘密恢复。秘密分享技术是保护信息安全以及进行安全计算的基础技术。

例如，如果希望对原始数据

进行秘密分享。首先，选取相应安全等级参数并生成相应的有限域（例如

）。接着，在有限域内均匀分布地选取随机数并记为

。随后，计算

，将

分发给数据拥有方1，以及将

分发给数据拥有方2。在下面的协议描述中，将数据

的秘密分享记为

，其中，

。

在本说明书的实施例中，术语“同态加密”属于一种密码学加密方法。利用同态加密，可以对原始数据进行加密并生成加密数据以保护数据的保密性。另一方面，同态加密允许对密文进行运算，并通过解密得到运算后的明文。抽象来看，同态加密由四个算法Gen，Enc，Dec和Eval组成。Gen 算法用于生成加密、解密使用的公钥/私钥对。Enc 算法用于加密数据。Dec 算法用于解密数据。Eval 算法用于执行加密数据（密文数据）之间的运算操作。

下面将参考附图来详细描述根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法、数据过滤装置及数据过滤系统。

图1示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤系统100的架构示例示意图。

如图1所示，数据过滤系统100包括第一成员设备110、第二成员设备120和网络130。在图1的示例中，第一成员设备110和第二成员设备120经由网络130可通信地连接，由此彼此之间进行数据通信。在本说明书的其它实施例中，数据过滤系统100可以不包括网络130，并且第一成员设备110和第二成员设备120直接可通信地连接。

第一成员设备110和第二成员设备120分别具有每条数据样本的分片数据，并且第一成员设备110和第二成员设备120所具有的分片数据组成待过滤的数据样本集。这里，第一成员设备110和第二成员设备120所具有的分片数据例如可以是通过对第一成员设备110和第二成员设备120在本地收集的原始数据样本（本地数据）进行分片处理后得到的，所述分片处理例如可以是基于两方数据联合处理时执行的秘密分享处理等等。

在本说明书的实施例中，第一和第二成员设备可以包括终端设备或服务端设备。所述服务器设备可以包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。所述终端设备可以包括但不限于：智能手机、个人电脑（personal computer，PC）、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种。

此外，第一成员设备110和第二成员设备120分别具有数据过滤装置111和121。数据过滤装置111和121可以经由网络130执行网络通信来进行数据交互，由此协作处理来执行针对第一成员设备110和第二成员设备120所具有的分片数据的数据过滤处理。数据过滤装置111和121的操作和结构将在下面参照附图进行详细说明。

在一些实施例中，网络130可以是有线网络或无线网络中的任意一种或多种。网络130的示例可以包括但不限于电缆网络、光纤网络、电信网络、企业内部网络、互联网、局域网络（LAN）、广域网络（WAN）、无线局域网络（WLAN）、城域网（MAN）、公共交换电话网络（PSTN）、蓝牙网络、紫蜂网络（ZigZee）、近场通讯（NFC）、设备内总线、设备内线路等或其任意组合。

图2示出了根据本说明书的实施例的用于对第一和第二成员设备的数据样本集进行过滤处理的数据过滤方法200的流程图。在图2示出的实施例中，第一成员设备110和第二成员设备120分别具有待过滤的数据样本集中的每条数据样本的分片数据。这里，分片数据是通过对每条数据样本的每个特征维度的特征值进行分片处理得到，由此，第一成员设备110和第二成员设备120分别具有该特征维度的特征值的一个分片值（分片数据）。

如图2所示，在210，响应于数据样本过滤请求，第一成员设备110和第二成员设备120一起执行多方安全计算来确定待过滤的数据样本集的各条数据样本的过滤标签数据。这里，数据样本过滤请求包含用于数据样本过滤的过滤特征维度以及过滤特征维度值。例如，在数据包含“用户年龄”的特征维度的情况下，过滤特征维度例如可以为“用户年龄”，过滤特征维度值例如可以是“19”，即，数据样本过滤请求是从第一和第二成员设备的分片数据所组成的数据样本集中过滤出“用户年龄为19”的数据样本。

在一些实施例中，数据样本过滤请求可以直接包含“用户年龄为19”。在一些实施例中，数据样本过滤请求可以包含查询语句，例如，“从数据样本集中查询出用户年龄为19的数据样本”。在这种情况下，可以通过对查询语句进行分析来得到过滤特征维度及过滤特征维度值。此外，数据样本过滤请求可以是经由外部设备输入给第一成员设备110和第二成员设备120。

在一些实施例中，第一成员设备110和第二成员设备120可以使用各自的分片数据执行多方安全计算来计算出数据样本集中的每条数据样本的每个特征维度的完整特征值。然后，将所计算出的过滤特征维度的特征值与数据样本过滤请求中的过滤特征维度值进行比较，并根据比较结果来确定每条数据样本的过滤标签数据。

在一些实施例中，在多方安全计算结果示出数据样本的过滤特征维度的特征值等于所述过滤特征维度值时，将该数据样本的过滤标签数据确定为0。在多方安全计算结果示出数据样本的过滤特征维度的特征值不等于所述过滤特征维度值时，将该数据样本的过滤标签数据确定为1。

在本说明书的其它实施例中，也可以按照与上述过滤标签数据确定过程相反的方式来进行过滤标签数据确定。即，在多方安全计算结果示出数据样本的过滤特征维度的特征值等于所述过滤特征维度值时，将该数据样本的过滤标签数据确定为1。在多方安全计算结果示出数据样本的过滤特征维度的特征值不等于所述过滤特征维度值时，将该数据样本的过滤标签数据确定为0。

此外，在如上确定出每条数据样本的过滤标签数据后，对所确定出的每条数据样本的过滤标签数据进行分片处理，得到两个标签分片数据，第一和第二成员设备分别具有其中的一个标签分片数据。在这种情况下，由于每个成员设备仅仅具有其中的一个标签分片数据，从而每个成员设备无法推断哪些分片数据是需要过滤出的分片数据。

在一些实施例中，数据样本的分片数据和/或过滤标签数据的分片数据可以是基于秘密分享处理得到的分片数据。在这种实现方案中，在确定过滤标签数据的过程中，各个成员设备可以直接得到过滤标签数据的标签分片数据，而无需对过滤标签数据的分片处理。

在一些实施例中，所述多方安全计算的示例可以包括但不限于：基于秘密分享的多方安全计算；基于同态加密的多方安全计算；基于不经意传输的多方安全计算；基于混淆电路的多方安全计算；和基于可信执行环境的多方安全计算。

回到图2，在如上确定出第一和第二成员设备处的各条数据样本的标签分片数据后，在220，第一成员设备110使用所具有的分片数据和标签分片数据以及第二成员设备使用所具有的标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在第一成员设备110和第二成员设备120处的第一和第二分片数据。第一和第二分片数据是第一成员设备所具有的各条数据样本的分片数据的二次分片数据。

图3示出了根据本说明书的实施例的基于同态加密的不经意过滤处理过程300的一个示例的流程图。在图3示出的示例中，第一成员设备110具有分片数据

到

以及标签分片数据

到

。第二成员设备120具有标签分片数据

到

。这里，分片数据

和过滤标签数据

对应于第i条数据样本，

是第i条数据样本在第一成员设备110处的分片数据，

是第i条数据样本在第一成员设备110处的标签分片数据，

是第i条数据样本在第二成员设备120处的标签分片数据。此外，第二成员设备120具有第i条数据样本的分片数据

。

如图3所示，在第一和第二成员设备处分别生成用于同态加密的公钥/私钥对，并且共享各自的公钥。具体地，在301，在第一成员设备110处生成公钥pk0和私钥sk0，在第二成员设备120处生成公钥pk1和sk1。接着，在302，第一成员设备110将公钥pk0发送给第二成员设备120，以及第二成员设备120将公钥pk1发送给第一成员设备110。

在303，在第二成员设备120处，使用本地公钥pk1对所具有的标签分片数据

到

进行同态加密，得到第一加密序列

，…，

。然后，在304，将第一加密序列

，…，

发送给第一成员设备110。

在305，在第一成员设备110处，使用所接收的公钥pk1对标签分片数据

，…，

进行同态加密，得到第二加密序列

，…，

，并且使用本地公钥pk0对分片数据

到

进行同态加密，得到第三加密序列

，…，

。然后，对第一加密序列

，…，

和第二加密序列

，…，

进行同态加密分析Eval（

），…，Eval（

），得到第四加密序列

，…，

。这里，第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果。在本说明书中，同态加密包括半同态加密、层次型同态加密和全同态加密。

在306，在第一成员设备110处，对第三加密序列

，…，

和第四加密序列

，…，

进行乱序处理（例如，随机打乱），得到乱序后的加密序列

，…，

以及

，…，

。

在307，将乱序后的加密序列

，…，

以及

，…，

发送给第二成员设备120。

在308，在第二成员设备120处，使用本地私钥sk1对乱序后的第四加密序列

，…，

进行解密处理，由此得到各个

的值。

在309，在第二成员设备120处，根据打乱后的第四加密序列的解密结果来从第三加密序列中确定出第五加密序列

，…，

。第五加密序列包括过滤出的数据样本的密文分片数据。由于针对0值的分片处理，所得到的分片数据相同，由此对应的

的值为0，从而可以根据

的值是否为0，确定出过滤出的密文数据样本。例如，在将所具有的过滤特征维度的特征值等于指定的过滤特征维度值的数据样本的过滤标签数据确定为0的情况下，可以从第三加密序列中提取与第四加密序列中的解密结果为0（即，

的值为 0）的元素对应的元素，得到第五加密序列，由此将

的值为0的数据样本确定为过滤出的数据样本。在将所具有的过滤特征维度的特征值等于指定的过滤特征维度值的数据样本的过滤标签数据确定为1的情况下，可以将待过滤的数据样本集中去除

的值为0的数据样本而剩下的数据样本确定为过滤出的数据样本。此外，还对确定出的第五加密序列进行乱序处理，得到乱序后的第五加密序列

，…，

。

在310，在第二成员设备120处，对经过乱序处理后的第五加密序列

，…，

进行分片处理，得到第五加密序列中的每个密文分片数据的明文二级分片数据以及密文二级分片数据。例如，在一个示例中，可以生成多个（例如，n个）随机掩码（随机掩码数据）

到

，每个随机掩码

作为一个密文分片数据的明文二级分片数据。这里，随机掩码的个数与第五加密序列的元素个数相同。然后，对

，…，

以及随机掩码

到

进行同态加密分析 Eval（），得到每个密文分片数据的密文二级分片数据

，…，

。

在311，将

到

作为第一成员设备110的分片数据在第二成员设备120处的二级分片数据（明文二级分片数据），即，

，并且将每个密文分片数据的密文二级分片数据

，…，

发送给第一成员设备110。

在312，在第一成员设备110处，使用本地私钥sk0对所接收的密文二级分片数据

，…，

进行解密，得到每个密文分片数据的明文二级分片数据，即，

。

回到图2，在230，第一成员设备110使用标签分片数据以及第二成员设备120使用分片数据和标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在第一成员设备和第二成员设备处的第三分片数据

和第四分片数据

。第三分片数据和第四分片数据是第二成员设备所具有的分片数据

的二次分片数据。要说明的是，可以采用与220相同的处理方式来得到230中的第三分片数据和第四分片数据，其不同之处仅仅在于第一成员设备110和第二成员设备120的角色互换。

在240，在第一成员设备110处，对第一和第三分片数据进行求和，得到过滤出的数据样本在第一成员设备处的分片数据

。在第二成员设备120 处，对第二和第四分片数据进行求和，得到过滤出的数据样本在第二成员设备120处的分片数据

。

可选地，在一个示例中，数据样本可以包括基于文本数据、图像数据和/或视频数据的数据样本，由此根据本说明书的实施例的数据过滤方法可以应用于采用文本数据、图像数据和/或视频数据实现的应用场景。

如上参照图1到图3，对根据本说明书的实施例的用于对第一和第二成员设备的数据集进行数据过滤的数据过滤方法进行了描述。

利用上述数据过滤方法，响应于数据样本过滤请求，第一与第二成员设备执行多方安全计算来确定出各条数据样本的过滤标签数据，每个成员设备分别具有过滤标签数据的标签分片数据。随后，第一和第二成员设备使用各自具有的分片数据和标签分片数据，执行两次基于同态加密的不经意过滤处理来得到过滤出的数据样本。在所得到的过滤出的数据样本中，每个成员设备分别得到过滤出的数据样本的两个原始分片数据的一个二次分片数据，并组合所得到的二次分片数据得到与原始分片数据不同的新分片数据。按照上述方法，在实现数据样本过滤的同时，各个成员设备不具有完整的过滤标签数据，并且所得到的过滤出的数据样本的分片数据不同于该数据样本的原始分片数据，从而使得各个成员设备无法推断出哪些数据样本被过滤出，进而实现数据隐私保护。

此外，利用上述数据过滤方法，在进行基于同态加密的不经意过滤处理时，通过在第一（或第二）成员设备处对所得到的第三和第四加密序列进行乱序处理，使得第二（或第一）成员设备无法根据解密出的标签分片数据的差值结果来确定出过滤出的数据样本的序号信息，从而不能推断出哪些数据样本被过滤出。此外，通过在第二（或第一）成员设备处对所得到的第五加密序列进行乱序处理，可以保证最终结果位置的随机性，从而使得第一（或第二）成员设备无法根据最终结果位置来推断出哪些数据样本被过滤出。

图4示出了根据本说明书的实施例的用于对第一和第二成员设备的数据集进行数据过滤的装置（下文中称为“数据过滤装置”）400的方框图。数据过滤装置400应用于第一成员设备110或者第二成员设备120中的一个成员设备，即，对应于图1中示出的数据过滤装置111或者数据过滤装置121。如图4所示，数据过滤装置400包括过滤标签数据确定单元410、第一数据过滤单元420、第二数据过滤单元430和分片数据确定单元440。

过滤标签数据确定单元410被配置为响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求，与另一成员设备一起执行多方安全计算来确定数据样本集的各条数据样本的过滤标签数据，两个成员设备分别具有过滤标签数据的标签分片数据。过滤标签数据确定单元410的操作可以参考上面参照图2的210描述的操作。

第一数据过滤单元420被配置为与另一成员设备一起，使用所具有的分片数据和标签分片数据以及另一成员设备所具有的标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在该成员设备和另一成员设备处的第一和第二分片数据，第一和第二分片数据是该成员设备所具有的分片数据的二次分片数据。第一数据过滤单元420的操作可以参考上面参照图2的220描述的操作以及参照图3描述的操作。

第二数据过滤单元430被配置为与另一成员设备一起，使用所具有的标签分片数据以及另一成员设备所具有的分片数据和标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在该成员设备和另一成员设备处的第三和第四分片数据，所述第三和第四分片数据是另一成员设备所具有的分片数据的二次分片数据。第二数据过滤单元430的操作可以参考上面参照图2的230描述的操作以及参照图3描述的操作。

分片数据确定单元440被配置为对第一和第三分片数据进行求和，得到过滤出的数据样本在该成员设备处的分片数据。此外，第二和第四分片数据经由另一成员设备进行求和，得到过滤出的数据样本在所述另一成员设备处的分片数据。分片数据确定单元440的操作可以参考上面参照图2的240描述的操作。

此外，可选地，在一个示例中，第一数据过滤单元420和第二数据过滤单元430可以采用同一模块实现。

如上参照图1到图4，对根据本说明书实施例的用于对第一和第二成员设备的数据集进行数据过滤的数据过滤方法和数据过滤装置进行了描述。上面的数据过滤装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。在采用软件实现的情况下，图3中示出的数据过滤装置的各个单元可以被实现为计算机程序中的程序模块。

图5示出了根据本说明书的实施例的基于计算机实现的数据过滤装置500的示例示意图。如图5所示，数据过滤装置500可以包括至少一个处理器510、存储器（例如，非易失性存储器）520、内存530和通信接口540，并且至少一个处理器510、存储器520、内存530和通信接口540经由总线560连接在一起。至少一个处理器510执行在存储器中存储或编码的至少一个计算机可读程序/指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器中存储计算机程序，其当执行时使得至少一个处理器510：响应于包含用于数据样本过滤的第一维度及第一维度特征值的数据样本过滤请求，与另一成员设备一起执行多方安全计算来确定数据样本集的各条数据样本的过滤标签数据，两个成员设备分别具有所述过滤标签数据的标签分片数据；与另一成员设备一起，使用所具有的分片数据和标签分片数据以及另一成员设备所具有的标签分片数据来执行基于同态加密的不经意过滤处理，得到过滤出的数据样本在该成员设备和另一成员设备处的第一和第二分片数据，第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据；与另一成员设备一起，使用所具有的标签分片数据以及另一成员设备所具有的分片数据和标签分片数据来执行基于同态加密的不经意过滤处理，得到过滤出的数据样本在该成员设备和另一成员设备处的第三和第四分片数据，第三和第四分片数据是另一成员设备所具有的分片数据的二次分片数据；以及对第一和第三分片数据进行求和，得到过滤出的数据样本在该成员设备处的分片数据，其中，第二和第四分片数据经由另一成员设备进行求和，得到过滤出的数据样本在另一成员设备处的分片数据。

应该理解，在存储器中存储的计算机程序当执行时使得至少一个处理器510进行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。

根据一个实施例，提供一种比如计算机可读介质（例如，非暂时性计算机可读介质）的程序产品。计算机可读介质可以具有计算机程序（即，上述以软件形式实现的元素），该计算机程序当被处理器执行时，使得处理器执行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

根据一个实施例，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序当被处理器执行时，使得处理器执行本说明书的各个实施例中以上结合图1-4描述的各种操作和功能。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑（如专门的处理器，FPGA或ASIC）来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路（如通用处理器或其它可编程处理器），可以由软件进行临时的设置以完成相应操作。具体的实现方式（机械方式、或专用的永久性电路、或者临时设置的电路）可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于对第一和第二成员设备的数据样本集进行过滤处理的方法，所述数据样本集中的每条数据样本具有多个特征维度，第一和第二成员设备分别具有每条数据样本的分片数据，所述方法由第一成员设备或第二成员设备执行，所述方法包括：

响应于包含用于数据样本过滤的过滤特征维度及过滤特征维度值的数据样本过滤请求，与另一成员设备一起执行多方安全计算来确定所述数据样本集的各条数据样本的过滤标签数据，每个成员设备具有所述过滤标签数据的标签分片数据；

与所述另一成员设备一起，使用所具有的分片数据和标签分片数据以及所述另一成员设备所具有的标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第一和第二分片数据，所述第一和第二分片数据是所述成员设备所具有的分片数据的二次分片数据；

与所述另一成员设备一起，使用所具有的标签分片数据以及所述另一成员设备所具有的分片数据和标签分片数据，执行基于同态加密的不经意过滤处理来得到过滤出的数据样本在所述成员设备和所述另一成员设备处的第三和第四分片数据，所述第三和第四分片数据是所述另一成员设备所具有的分片数据的二次分片数据；以及

对所述第一和第三分片数据进行求和，得到所述过滤出的数据样本在所述成员设备处的分片数据，

其中，所述第二和第四分片数据经由所述另一成员设备进行求和，得到所述过滤出的数据样本在所述另一成员设备处的分片数据。

2.如权利要求1所述的方法，其中，在第一和第二成员设备之间执行基于同态加密的不经意过滤处理包括：

在所述第一和第二成员设备处分别生成用于同态加密的公钥/私钥对，并且共享各自的公钥；

在第一和第二成员设备中的仅仅具有标签分片数据的一个成员设备处，使用本地公钥来对所具有的标签分片数据进行同态加密，得到第一加密序列，并将所述第一加密序列发送给对端成员设备；

在所述对端成员设备处，使用所接收的公钥对所具有的标签分片数据进行同态加密以及使用本地公钥对所具有的分片数据进行同态加密来分别得到第二和第三加密序列，对所述第一和第二加密序列进行同态加密分析得到第四加密序列，所述第四加密序列是两个成员设备的标签分片数据的对应维度特征差值的同态加密结果，并将所述第三和第四加密序列经过打乱处理后发送给所述一个成员设备；

在所述一个成员设备处，使用本地私钥对打乱后的第四加密序列进行解密处理，根据所述打乱后的第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列，所述第五加密序列包括过滤出的数据样本的密文分片数据，对经过打乱处理后的第五加密序列进行分片处理，得到所述第五加密序列中的密文分片数据的明文二级分片数据以及密文二级分片数据，并且将每个密文分片数据的密文二级分片数据发送给所述对端成员设备；以及

在所述对端成员设备处，使用本地私钥对所接收的密文二级分片数据进行解密，得到每个密文分片数据的明文二级分片数据。

3.如权利要求1所述的方法，其中，所述分片数据和/或所述标签分片数据是基于秘密分享处理得到的分片数据。

4.如权利要求2所述的方法，其中，所述一个成员设备处的明文二级分片数据为随机掩码数据。

5.如权利要求2所述的方法，其中，在多方安全计算结果示出数据样本的过滤特征维度的特征值等于所述过滤特征维度值时，该数据样本的过滤标签数据为0，以及在多方安全计算结果示出数据样本的过滤特征维度的特征值不等于所述过滤特征维度值时，该数据样本的过滤标签数据为1。

6.如权利要求5所述的方法，其中，根据所述第四加密序列的解密结果来从所述第三加密序列中确定出第五加密序列包括：

从所述第三加密序列中提取与所述第四加密序列中的解密结果为0的元素对应的元素，得到第五加密序列。

7.如权利要求1所述的方法，其中，所述多方安全计算包括下述多方安全计算中的一种：

基于秘密分享的多方安全计算；

基于同态加密的多方安全计算；

基于不经意传输的多方安全计算；

基于混淆电路的多方安全计算；和

基于可信执行环境的多方安全计算。

8.如权利要求1到7中任一所述的方法，其中，所述数据样本包括基于文本数据、图像数据和/或视频数据的数据样本。

9.如权利要求1到7中任一所述的方法，其中，所述数据样本包括：

应用于机器学习模型训练或机器学习模型预测的数据样本；或者

应用于多方数据查询的数据样本。

10.一种用于对第一和第二成员设备的数据样本集进行过滤处理的装置，所述数据样本集中的每条数据样本具有多个特征维度，第一和第二成员设备分别具有每条数据样本的分片数据，所述装置应用于第一或第二成员设备，所述装置包括：

至少一个处理器，

与所述至少一个处理器耦合的存储器，以及

存储在所述存储器中的计算机程序，所述至少一个处理器执行所述计算机程序来实现：

11.如权利要求10所述的装置，其中，所述至少一个处理器执行所述计算机程序来实现：

在所述成员设备和另一成员设备处分别生成用于同态加密的公钥/私钥对，并且共享各自的公钥；

在所述成员设备和另一成员设备中的仅仅具有标签分片数据的一个成员设备处，使用本地公钥来对所具有的标签分片数据进行同态加密，得到第一加密序列，并将所述第一加密序列发送给对端成员设备；

12.如权利要求10所述的装置，其中，所述分片数据和/或所述标签分片数据是基于秘密分享处理得到的分片数据。

13.如权利要求11所述的装置，其中，所述一个成员设备处的明文二级分片数据为随机掩码数据。

14.一种用于对第一和第二成员设备的数据样本集进行过滤处理的系统，包括：

包括如权利要求10到13中任一所述的装置的第一成员设备；以及

包括如权利要求10到13中任一所述的装置的第二成员设备，

其中，所述数据样本集中的每条数据样本具有多个维度特征，第一和第二成员设备分别具有每条数据样本的分片数据。

15.一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行来实现如权利要求1到9中任一所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如权利要求1到9中任一所述的方法。