CN116488789B

CN116488789B - 一种数据处理方法、装置、设备和介质

Info

Publication number: CN116488789B
Application number: CN202310443647.0A
Authority: CN
Inventors: 蔡权伟; 林宇; 王雅飞; 张道德; 吴烨
Original assignee: Beijing Volcano Engine Technology Co Ltd
Current assignee: Beijing Volcano Engine Technology Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2024-06-07
Anticipated expiration: 2043-04-23
Also published as: CN116488789A

Abstract

本公开实施例提供了一种数据处理方法、装置、设备和介质。该方法包括：接收第二参与方对其集合乱序和ID随机化，替换特征为第一同态密文得到的第一集合；对第一参与方集合和仿制元素的合集乱序和ID随机化，替换合集元素特征为第二同态密文，得到第二集合并发送给第二参与方；接收第二参与方拆分第二同态密文为第二分享密文和第二分享数，替换第二同态密文为第二分享密文得到的第三集合；拆分第三与第四集合的交集元素和混淆元素的第一同态密文为第一分享密文和第一分享数；拆分第一/第二预设值，得到交集元素/混淆元素的标识值；根据第二分享密文、第一分享数和标识值，构建第一特征合并集；将第一分享密文、标识值发送给第二参与方。

Description

一种数据处理方法、装置、设备和介质

技术领域

本公开实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备和介质。

背景技术

现有的利用多个参与方的数据集进行安全计算或联合分析的方案中，常常通过隐私集合求交技术获取双方数据集的交集，并在此基础上得到计算或分析结果。但是，现有的隐私集合求交方案，通常会向参与方暴露隐私交集的大小。在一些场景中，恶意的参与方可以利用获取隐私交集的大小，例如通过成员推理方法，间接的获取真实的用户信息，导致用户隐私数据的泄露。

因此，需要一种新的针对隐私数据的数据处理方法。

发明内容

本公开实施例描述了一种数据处理方法和装置。

根据第一方面，提供了一种数据处理方法，由第一参与方执行，所述方法包括：

接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，将第二集合发送给第二参与方；

接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；

对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数；

根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数，所述第一预设值和所述第二预设值用于指示元素真伪；根据各交集元素和混淆元素的第二分享密文的同态解密值、第一分享数和第三分享数，构建第一特征合并集，所述第一特征合并集用于第一参与方进行联合计算；以及，将各交集元素和混淆元素对应的第一分享密文和第四分享数发送给第二参与方，用于第二参与方构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

根据第二方面，提供一种数据处理方法，由第二参与方执行，所述方法包括：

对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；

接收第一参与方发送的与第三集合中各元素对应的第一分享密文和第四分享数，第一分享密文对应于第一明文特征，第四分享数对应于指示元素真伪的预设值；根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

根据第三方面，提供一种数据处理方法，由第一参与方执行，所述方法包括：

接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，并将第二集合发送给第二参与方；

接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；以及，接收第二参与方发送的第三集合各数据元素对应的第二分享数的同态加密值；

对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数；

根据第三预设值进行秘密拆分，得到各交集元素的第五分享数和第六分享数，根据第四预设值进行秘密拆分，得到混淆元素的第五分享数和第六分享数；根据各交集元素的第二分享密文的同态解密值与第五分享数之和、第一分享数，以及各混淆元素的第五分享数、第一分享数，构建第三特征合并集，所述第三特征合并集用于第一参与方进行联合计算；以及，将各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数的同态加密值、第一分享密文，发送给第二参与方，用于构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

根据第四方面，提供一种数据处理方法，由第二参与方执行，所述方法包括：

对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；以及，将第三集合各数据元素对应的第二分享数的同态加密值发送到第一参与方；

接收第一参与方发送的对应于第三集合中各元素对应的第一分享密文和秘密分享值，以所述秘密分享值作为根据第二分享数的同态加密值而确定的同态计算值，根据所述第一分享密文和秘密分享值，构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

根据第五方面，提供一种数据处理装置，部署于第一参与方，所述装置包括：

收发单元，配置为，接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，将第二集合发送给第二参与方；

接收单元，配置为，接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；

处理单元，配置为，对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数；

构建单元，配置为，根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数，所述第一预设值和所述第二预设值用于指示元素真伪；根据各交集元素和混淆元素的第二分享密文的同态解密值、第一分享数和第三分享数，构建第一特征合并集，所述第一特征合并集用于第一参与方进行联合计算；以及，将各交集元素和混淆元素对应的第一分享密文和第四分享数发送给第二参与方，用于第二参与方构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

根据第六方面，提供一种数据处理装置，部署于第二参与方，所述装置包括：

第一发送单元，配置为，对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

接收单元，配置为，接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

第二发送单元，配置为，对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；

构建单元，配置为，接收第一参与方发送的与第三集合中各元素对应的第一分享密文和第四分享数，第一分享密文对应于第一明文特征，第四分享数对应于指示元素真伪的预设值；根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

根据第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令上述计算机执行第一至第四方面所述的方法。

根据第八方面，提供了一种电子设备，包括存储器和处理器，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现第一至第四方面所述的方法。

根据本公开实施例提供一种数据处理方法和装置。可以通过在第一参与方确定客户方数据集和服务方数据集的隐私交集后，在隐私交集中添加混淆元素并对混淆元素添加基于秘密分享的标识，将混淆后的交集发送给第二参与方。利用上述方法、装置、存储介质和电子设备中的任意一种，可以在保证混淆后的交集的统计价值的前提下，使得第二参与方无法获取真实的交集大小，从而防止第二参与方利用交集大小获取真实的第一参与方隐私数据信息。

附图说明

图1示出了根据本公开实施例的一种数据处理方法的流程示意图；

图2示出了根据本公开另一实施例的一种数据处理方法的流程示意图；

图3示出了根据本公开实施例的一种数据处理方法的流程示意图；

图4示出了根据本公开另一实施例的一种数据处理方法的流程示意图；

图5示出了根据本公开又一实施例的一种数据处理方法的流程示意图；

图6示出了根据本公开再一实施例的一种数据处理方法的流程示意图；

图7示出了根据本公开实施例的一种数据处理装置的示意性框图；

图8示出了根据本公开另一实施例的一种数据处理装置的示意性框图；

图9示出了根据本公开再一实施例的一种数据处理装置的示意性框图；

图10示出了根据本公开又一实施例的一种数据处理装置的示意性框图；

图11示出了适于用来实现本公开实施例的电子设备的结构示意图；

图12示出了适于用来实现本公开实施例的存储介质的结构示意图。

具体实施方式

下面结合附图和实施例，对本说明书提供的技术方案做进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在本公开的实现方式的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个/种实现方式”或“该实现方式”应当理解为“至少一个/种实现方式”。术语“一些实现方式”应当理解为“至少一些实现方式”。下文还可能包括其他明确的和隐含的定义。

如前所述，现有的利用多个参与方的数据集进行安全计算或联合分析的方案中，常常通过隐私集合求交技术获取双方数据集的交集，并在此基础上得到计算或分析结果。隐私集合求交(Private Set Intersection，PSI)是指，参与双方在不泄露任何额外信息的情况下，得到双方持有数据的交集。在这里，额外的信息指的是除了双方的数据交集以外的任何信息。例如，线上广告是当前常见的广告形式。一种对于广告的有效程度的衡量方法是计算浏览用户与最终用户的转换率，也就是浏览广告的用户中有多少用户最终购买了相应的商品或是服务。该转换率可以通过在不泄露双方持有数据的情况下，计算浏览广告的用户信息(由媒体方占有)和完成商品/服务交易的用户信息(由广告主，即商品或服务提供方占有)的交集来计算(如计算交易总额或是总交易量等)。现有的一些隐私求交方案，主要通过不泄露双方在隐私求交过程中各自投入的数据集元素及其特征信息，包括不泄露数据集中计入隐私求交结果(即双方数据集的交集)的交集元素及其特征信息、以及运算过程中使用但未计入交集的非交集元素及对应的特征信息，来保证双方隐私数据的安全。

但是，这些隐私求交方案也存在如下问题：虽然不泄露上述交集元素和非交集元素本身的特征信息，但是会暴露交集元素的数量，或者说会暴露交集大小(size)。在一些场景中，对于恶意的参与方而言，可以利用获取的交集元素的数量信息，基于已有的背景知识，可以通过成员推理(Membership Inference)的方式，间接获取真正的用户信息。例如，上述计算转换率的例子中，例如商品提供方获取的交集中通常并不泄露交集元素本身具体的特征信息，所以商品提供方通常并不能知道有哪些用户是浏览广告后购买产品的，这样可以保护用户的隐私。但是，商品提供方可以通过交集size，间接的获取这些用户的信息。例如，商品提供方使用购买商品的用户“李四”的信息，与媒体方浏览广告的用户信息进行隐私求交。商品提供方可以根据交集size，判断“李四”是否是浏览广告的用户，从而判断出“李四”是否是通过浏览广告购买产品的用户。

为了解决上述技术问题，本公开实施例提供了一种数据处理方法。图1示出了根据本公开实施例的一种数据处理方法的流程示意图。

首先，第一参与方(例如为客户方)，可以在步骤S101，对于例如客户方数据集中的数据元素进行乱序化和ID随机化，并将数据元素的数据特征(例如特征1)进行同态加密，得到处理后的数据集(为方便描述，称之为第一集合)并发送给第二参与方(例如为服务方)。在不同的实施例中，客户方数据集可以用于不同具体业务的数据集，本说明书对此不做限制，在一个实施例中，客户方数据集中的数据元素中可以包括用户的客户方信息，例如用户的商品购买信息等，本公开对客户方数据集中的数据元素的具体种类和内容均不做限制。乱序化，指依据预定规则或算法对数据集中的数据元素(或简称元素)重新排序，从而改变数据集中数据元素的原有顺序。在不同的实施例中，乱序化依据的规则或算法可以不同，本说明书对此不做限制。在一个例子中，例如可以对客户方数据集中的数据元素进行随机排序。例如图1所示中，客户方数据集为{(b,17),(c,8),(f,11)}，其中，包括(b,17)、(c,8)、(f,11)三个数据元素，可以改变这些元素的原有顺序，例如变为{(c,8),(f,11),(b,17)}。其中，各元素的前一个分量表示元素标识，或称为元素ID，各元素的后一个分量表示元素的特征数据。需要注意的是，在不同的实施例中，客户方数据集中的元素可以有多个特征数据，为了说明方便，本例中使用一个特征(特征1)进行描述。在客户方数据集元素包括多个特征的实施例中，对于其他特征的处理，可以参照对于特征1的处理。

ID随机化，是指根据本方的秘密数(其他参与方不知的数)和数据元素的ID进行计算，得到数据元素的新的ID，从而掩盖数据元素原有的ID，并使得参与求交的其他参与方无法反向推算出原有的ID。在不同的实施例中，ID随机化的具体方式可以不同。在一个实施例中，例如可以根据客户方的随机秘密数(例如为rp)和客户方数据集中各个元素的原有I，计算得到各个元素新的ID，即对客户方数据集中各个元素进行ID随机化。例如，对于上述乱序后的客户方数据集，进行ID随机化可以得到{[rp]c,[rp]f,[rp]b}，其中，[rp]c表示根据秘密数rp和原元素ID c，计算出的新的元素ID。

同态加密(Homomorphic Encryption)是一种加密方法，其特点是对经过同态加密的数据进行运算得到运算输出，将运算输出进行解密，其解密结果与根据未加密的原始数据进行运算得到的输出结果是一样的。在不同的实施例中，可以采用不同的同态加密算法，对各个元素的特征进行同态加密。在一个实施例中，可以利用客户方的公钥对各个元素的特征进行同态加密，得到上述各个元素的特征对应的同态加密值(或称，第一同态密文)。例如，图1所示中，各个元素的同态加密值例如表示为{e1(8),e1(11),e1(17)}，其中e1()表示通过客户方公钥进行的同态加密得到的同态加密值。在图1中，具有斜纹背景的数值，表示利用客户方公钥得到的该数值的同态加密值。

在对客户方数据集的元素进行乱序化、ID随机化，以及对元素特征的同态加密后，可以得到第一集合。可以将第一集合发送到服务方。如图1所示中，对于客户方数据集{(b,17),(c,8),(f,11)}，得到的第一集合例如为{([rp]c,e1(8)),([rp]f,e1(11)),([rp]b,e1(17))}。

第二参与方(例如为服务方)在接收第一集合后，可以在步骤S102，构造针对服务方集合的仿制元素，并对服务方集合中的数据元素与仿制元素的合集进行乱序化和ID随机化，对合集中各元素包括的特征进行同态加密，得到第二集合，将第二集合发送给客户方。

与步骤S101中的客户方数据集类似，在不同的实施例中，服务方数据集也可以是用于不同具体业务的数据集，本说明书对此不做限制，在一个实施例中，服务方数据集中的数据元素中可以包括用户的服务方信息，例如用户的广告点击信息等，本公开对服务方数据集中的数据元素的具体种类和内容均不做限制。服务方数据集中的数据元素可以具有与客户方数据集数据元素不同的数据特征。与客户方数据集数据元素类似地，在不同的实施例中，服务方数据集中的元素也可以有多个特征数据，为了说明方便，本例中使用一个特征(例如特征2)进行描述。在服务方数据集元素包括多个特征的实施例中，对于其他特征的处理，可以参照对于特征2的处理。

可以根据服务方集合的原有元素的结构，构建服务方集合的仿制元素。在一个例子中，例如可以根据原有元素的元素ID类型以及特征数据类型，构建具有相同ID类型和特征类型的仿制元素。在不同的实施例中，构造的针对服务方集合的仿制元素的数量可以不同，可以为0到多个。例如，在一个实施例中，当服务方集合的元素数量小于接收的第一集合的元素数量时，向客户方泄露服务方集合的元素数量可以导致而泄露服务方用户数据的后果。因此，可以构造等于第一集合与服务方集合的元素数量之差的数量的仿制元素，将仿制元素和服务方集合原有元素合并后，做同样的隐私化处理，并发送到客户方。如此，客户方收到的集合的元素数量与其发送第一集合的元素数量相同，不会导致泄露服务方用户数据的后果。在一个实施例中，当服务方集合的元素数量等于或大于接收的第一集合的元素数量时，客户方即使知道服务方集合的元素数量，通常不会导致泄露用户数据的后果。因此，可以直接对服务方集合原有元素进行隐私化处理后，发送到客户方，既构造的仿制元素数量可以为0。

对服务方集合的数据元素与仿制元素的合集进行乱序化和ID随机化，对合集中各元素包括的特征(例如特征2)进行同态加密，可以得到第二集合并发送到客户方。其中，对于数据集元素进行乱序化和ID随机化、以及对元素特性进行同态加密的具体方式，与步骤S101对于客户方数据集中的数据元素进行乱序化和ID随机化，并将数据元素的数据特征(例如特征1)进行同态加密的具体方式相类似，可以参考步骤S101的描述，这里不再赘述。在一个实施例中，可以对合集元素进行乱序化，利用服务方秘密值(例如为rc)对合集各元素的元素ID进行随机化，对合集中各元素包括的特征(例如特征2)进行同态加密。在图1所示的例子中，服务方集合原有的元素例如包括(a,10)和(b,21)，构造仿制元素(d,7)。在一个实施例中，为了排除仿制元素ID和后续求取的交集元素ID出现相同的可能性，可以构建具有特定组成方式的仿制元素ID，例如具有特定前缀或后缀、特定长度范围的仿制元素ID，以区别于其他数据元素的ID。得到原有元素和仿制元素的合集{(a,10),(b,21),(d,7)}。对合集元素进行乱序化，如变为{(b,21),(d,7),(a,10)}。再进行ID随机化和特征的同态加密(获得第二同态密文)，得到第二集合具体为{([rc]b,e2(21)),([rc]d,e2(7)),([rc]a,e2(10))}。其中，rc为服务方秘密数，e2()表示利用服务方公钥进行同态加密后得到的同态加密值。在图1中，具有交叉纹背景的数值，表示利用服务方公钥得到的该数值的同态加密值。

客户方在接收到第二集合后，可以在步骤103，对于接收到的第二集合中的元素再次乱序化，并利用本方秘密值再次ID随机化，对第二集合中各元素的加密特征进行秘密拆分，得到各加密特征对应的秘密分享值和分享随机数，将各元素的各加密特征替换为对应的秘密分享值，得到第三集合并发送给服务方。秘密拆分(secret splitting，也称为秘密分享，secret sharing)，主要指将一个数随机的分裂为满足特定关系的两个或多个数(例如拆分后的多个数的和为被拆分的数)，分裂后的数可以分属不同的计算方，各计算方即可根据这些分享的数据展开隐私保护下的计算。在不同的实施例中，可以采用不同的秘密拆分的具体算法，本说明书对此不做限制。在一个实施例中，可以对合集元素进行乱序化，利用服务方秘密值(例如为rc)对合集各元素的元素ID进行随机化，对合集中各元素包括的特征(例如特征2)进行同态加密。在图1所示的例子中，可以对接收到的第二集合{([rc]b,e2(21)),([rc]d,e2(7)),([rc]a,e2(10))}进行乱序化，例如得到{([rc]a,e2(10))，([rc]d,e2(7))，([rc]b,e2(21))}，利用客户方随机数rp进行ID随机化，得到{([rp][rc]a,e2(10))，([rp][rc]d,e2(7))，([rp][rc]b,e2(21))}，然后例如根据随机数(例如，6，4，3)对第二集合中的同态加密特征进行秘密拆分，并将拆分得到的、由服务方公钥加密的分享密文(例如，e2(4)、e2(3)、e2(18)，其中，e2(4)＝e2(10)-6、e2(3)＝e2(7)-4、e2(18)＝e2(21)-3，注意，此处例如e2(10)-6为e2(10)与-6的同态和)替换同态加密特征，得到第三集合{([rp][rc]a,e2(4))，([rp][rc]d,e2(3))，([rp][rc]b,e2(18))}并发送给服务方，客户方可以保留拆分得到的随机数明文(第二分享数)，例如(6,4,3)。

服务方在接收第三集合之后，可以在步骤S104,可以对此前接收的第一集合，利用本方秘密数rc再次ID随机化，例如得到第四集合，图1中例如为{([rc][rp]c,e1(8)),([rc][rp]f,e1(11)),([rc][rp]b,e1(17))，例如根据第四集合与第三集合的集合元素的ID(两个集合的ID都分别根据服务方和客户方的秘密数rc和rp进行了双重ID随机化，且交换rc和rp的运算次序的运算结果相等，例如[rc][rp]b＝[rp][rc]b)，确定第三集合与第四集合的交集。对于交集中的交集元素，可以根据元素ID从第四集合获取对应的第一同态密文；可以构造针对所述交集的混淆元素，混淆元素的ID可以根据第三集合中非交集元素的ID确定，混淆元素的数量可以根据第三集合中非交集元素的数量确定。在一个实施例中，混淆元素的数量可以等于第三集合中非交集元素的数量。混淆元素的数量等于第三集合中非交集元素的数量，可以更好的提供隐私保护。在一个实施例中，混淆元素的数量可以小于第三集合中非交集元素的数量，混淆元素的数量小于第三集合中非交集元素的数量，可以节约计算消耗时间和空间计算资源。然后，确定出混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数。在不同的实施例中，确定出混淆元素对应的第一同态密文可以不同。一个实施例中，混淆元素对应的第一同态密文例如可以是服务方密钥加密的0的同态加密值。例如图1所示中，交集元素可以为([rc][rp]b),其对应的第一分享密文和第一分享数为e1(9)和8，e1(9)＝e1(17)-8；根据第三集合ID构建的混淆元素可以为([rc][rp]a)和([rc][rp]d),([rc][rp]a)对应的第一分享密文和第一分享数为e1(-2)和2，([rc][rp]d)对应的第一分享密文和第一分享数为e1(-1)和1。可以在本地保留交集元素和混淆元素的第一分享数，将其第一分享密文发送给客户方。在一个实施例中，可以根据第三集合的元素排列次序，将第一分享密文发送给客户方。

在步骤S106，服务方可以给各交集元素和混淆元素添加标识值(IfReal)以标识其为交集元素或混淆元素(或称，标识真元素或伪元素)。具体的，可以根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数，所述第一预设值和所述第二预设值用于指示元素真伪。然后，根据各交集元素和混淆元素的第二分享密文的同态解密值、第一分享数和第三分享数，构建第一特征合并集。并且，将各交集元素和混淆元素对应的第一分享密文和第四分享数发送给客户方。在不同的实施例中，第一预设值和第二预设值可以分别为不同的具体值。在一个实施例中，第一预设值可以为1，第二预设值可以为0。例如图1所示中，交集元素可以为([rc][rp]b)，对应的第三分享数和第四分享数为7和-6，它们的和为1(第一预设值)；混淆元素([rc][rp]a)对应的第三分享数和第四分享数为3和-3，它们的和为0(第二预设值)，混淆元素([rc][rp]d)对应的第三分享数和第四分享数为4和-4，它们的和为0(第二预设值)。

客户端在接收到各交集元素和混淆元素对应的第一分享密文和第四分享数后，可以在步骤S107，根据各交集元素和混淆元素的第一分享密文的同态解密值、第二分享数和第四分享数(IfReal)，构建第二特征合并集。

此后，服务方和客户方，可以根据第一特征合并集和第二特征合并集进行联合计算，例如计算统计指标。在一个例子中，将双方集合中所有对应元素的对应特征求和，可以根据对应元素的真伪标识值之和确定双方集合中对应元素的真假，然后可以根据分别保存在双方特征集中的真元素的特征分享值(同态分享密文的解密值)和特征分享数确定统计指标。尤其在双方数据集元素数量较大时，利用该方法可以在联合计算时，有效的保护双方的真实特征数据不被对方知道，同时保证真实的交集元素数量不被客户方知道，防止客户方获取服务方的数据集数据。

图2示出了根据本公开另一实施例的一种数据处理方法的流程示意图。如图2所示，首先，例如客户方，可以在步骤S201，对于例如客户方数据集中的数据元素进行乱序化和ID随机化，并将数据元素的数据特征(例如特征1)进行同态加密，得到处理后的数据集(称之为第一集合)并发送给服务方。该步骤的具体实施方式与步骤S101类似，详情参见对于步骤S101的描述，这里不再赘述。

服务方在接收第一集合后，可以在步骤S202，构造针对服务方集合的仿制元素，并对服务方集合中的数据元素与仿制元素的合集进行乱序化和ID随机化，对合集中各元素包括的特征进行同态加密，得到第二集合，将第二集合发送给客户方。

该步骤的具体实施方式与步骤S102类似，详情参见对于步骤S102的描述，这里不再赘述。

客户方在接收到第二集合后，可以在步骤S203，对于接收到的第二集合中的元素再次乱序化，并利用本方秘密值再次ID随机化，对第二集合中各元素的加密特征进行秘密拆分，得到各加密特征对应的秘密分享值和分享随机数(第二分享数)，将各元素的各加密特征替换为对应的秘密分享值，得到第三集合并发送给服务方。上述过程的具体实施方式与步骤S103中类似，详情参见对于步骤S103的描述，不再赘述。客户方还可以在步骤S205,向服务方发送，第三集合各数据元素对应的第二分享数的同态加密值。在一个实施例中，第二分享数的同态加密值可以通过客户方公钥加密得到。

服务方在接收第三集合之后，可以在步骤S204,可以对此前接收的第一集合，利用本方秘密数rc再次ID随机化，例如得到第四集合，图2所示中例如为{([rc][rp]c,e1(8)),([rc][rp]f,e1(11)),([rc][rp]b,e1(17))，例如根据第四集合与第三集合的集合元素的ID(两个集合的ID都分别根据服务方和客户方的秘密数rc和rp进行了双重ID随机化，且交换rc和rp的运算次序的运算结果相等，例如[rc][rp]b＝[rp][rc]b)，确定第三集合与第四集合的交集。对于交集中的交集元素，可以根据元素ID从第四集合获取对应的第一同态密文；可以构造针对所述交集的混淆元素，混淆元素的ID可以根据第三集合中非交集元素的ID确定，混淆元素的数量可以根据第三集合中非交集元素的数量确定。在一个实施例中，混淆元素的数量可以等于第三集合中非交集元素的数量。在一个实施例中，混淆元素的数量可以小于第三集合中非交集元素的数量。然后，根据第三预设值确定出混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数。在不同的实施例中，确定出混淆元素对应的第一同态密文可以不同。在一个实施例中，可以根据后续的统计指标，确定第一同态密文。在一个实施例中，所述统计指标可以是基于和运算的具体指标，混淆元素对应的第一同态密文例如可以是客户方密钥加密的0的同态加密值。在一个实施例中，所述统计指标可以是基于求最大值或最小值运算的具体指标，混淆元素对应的第一同态密文例如可以是客户方密钥加密的预定最小值或最大值的同态加密值。例如图2所示中以后续统计指标基于和运算为例，交集元素可以为([rc][rp]b),其对应的第一分享密文和第一分享数为e1(9)和8，e1(9)＝e1(17)-8；根据第三集合ID构建的混淆元素可以为([rc][rp]a)和([rc][rp]d),([rc][rp]a)对应的第一分享密文和第一分享数为e1(-2)和2，([rc][rp]d)对应的第一分享密文和第一分享数为e1(-1)和1。可以在本地保留交集元素和混淆元素的第一分享数，将其第一分享密文发送给客户方。在一个实施例中，可以根据第三集合的元素排列次序，将第一分享密文发送给客户方。

在步骤S206，服务方可以根据第三预设值进行秘密拆分，得到各交集元素的第五和第六分享数，根据第四预设值进行秘密拆分，得到混淆元素的第五和第六分享数。然后，根据各交集元素的第二分享密文的同态解密值与第五分享数之和、第一分享数，以及各混淆元素的第五分享数、第一分享数，构建第三特征合并集。并且，服务方还将各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数同态密文、第一分享密文，发送给客户方，用于构建第四特征合并集。在不同的实施例中，第三预设值和第四预设值可以分别为不同的具体值。在一个实施例中，可以根据后续的统计指标，确定第三预设值。在一个实施例中，所述统计指标可以基于和运算获取，第三预设值和第四预设值可以均为0。例如图2所示中，交集元素([rc][rp]b)对应的第五和第六分享数为-2和2，它们的和为0(第三预设值)；混淆元素([rc][rp]a)对应的第五和第六分享数为4和-4，它们的和为0(第四预设值)，混淆元素([rc][rp]d),对应的第五和第六分享数为3和-3，它们的和为0(第四预设值)。在一个实施例中，所述统计指标可以是基于求最大值或最小值运算的具体指标，第四预设值例如可以是预定取值范围内的最小值或最大值。

客户方在接收到各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数的同态密文、第一分享密文后，可以在步骤S207，根据各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数的同态密文、第一分享密文，构建第四特征合并集。

此后，服务方和客户方，可以根据第三特征合并集和第四特征合并集进行联合计算，例如，计算统计指标。在一个例子中，在第四预设值为0的场景下，可以将双方集合中所有对应元素的对应特征求和，双方集合中伪元素的对应特征之和均为0，真元素的对应特征之和为可用值，所以在基于和运算进行统计指标计算时，伪元素的对应特征数并不对计算结果施加影响。在另一个例子中，在第四预设值为预定范围内最小值的场景下，可以将双方集合中所有对应元素的对应特征求和后例如求最大值，由于双方集合中伪元素的对应特征之和均为预定范围内最小值，真元素的对应特征之和为可用值，所以在基于求最大值运算进行统计指标计算时，伪元素的对应特征数并不对计算结果施加影响。利用该方法也可以在联合计算时，有效的保护双方的真实特征数据不被对方知道，同时保证真实的交集元素数量不被客户方知道，防止客户方获取服务方的数据集数据。

图3示出了根据本公开实施例的一种数据处理方法的流程示意图。该方法由第一参与方执行，如图3所示，该方法包括：

步骤S301，接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，将第二集合发送给第二参与方。

在一个实施例中，可以根据所述第一明文特征、以及第二参与方的公钥进行同态加密，得到第一同态密文；将各第一数据元素包括的第一明文特征替换为第一同态密文。在一个实施例中，可以根据所述第二明文特征、以及第一参与方的公钥进行同态加密，得到第二同态密文；将所述合集中各数据元素包括的第二明文特征替换所述第二同态密文。

在一个实施例中，若第一集合的元素数量大于第一参与方集合的元素数量，则可以构造第一集合与第一参与方集合的元素数量之差的数目的仿制元素；或者，若第一集合的元素数量小于或等于第一参与方集合的元素数量，则可以构造零数目的仿制元素。

步骤S303，接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到。

步骤S305，对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数。

在一个实施例中，可以构造数量为第三集合中非交集元素数量的混淆元素。在一个实施例中，可以构造小于第三集合中非交集元素数量的混淆元素。

步骤S307，根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数，所述第一预设值和所述第二预设值用于指示元素真伪；根据各交集元素和混淆元素的第二分享密文的同态解密值、第一分享数和第三分享数，构建第一特征合并集，所述第一特征合并集用于第一参与方进行联合计算；以及，将各交集元素和混淆元素对应的第一分享密文和第四分享数发送给第二参与方，用于第二参与方构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

在一个实施例中，第一预设值可以为1，第二预设值可以为0。

图4示出了根据本公开另一实施例的一种数据处理方法的流程示意图。该方法由第二参与方执行，如图4所示，该方法至少包括如下步骤：

步骤S401，对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

步骤S403，接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

步骤S405，对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；

步骤S407，接收第一参与方发送的与第三集合中各元素对应的第一分享密文和第四分享数，第一分享密文对应于第一明文特征，第四分享数对应于指示元素真伪的预设值；根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

图5示出了根据本公开又一实施例的一种数据处理方法的流程示意图。该方法由第一参与方执行，如图5所示，该方法至少包括如下步骤：

步骤S501，接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，并将第二集合发送给第二参与方；

步骤S503，接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；以及，接收第二参与方发送的第三集合各数据元素对应的第二分享数的同态加密值；

步骤S505，对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数；

步骤S507，根据第三预设值进行秘密拆分，得到各交集元素的第五分享数和第六分享数，根据第四预设值进行秘密拆分，得到混淆元素的第五分享数和第六分享数；根据各交集元素的第二分享密文的同态解密值与第五分享数之和、第一分享数，以及各混淆元素的第五分享数、第一分享数，构建第三特征合并集，所述第三特征合并集用于第一参与方进行联合计算；以及，将各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数的同态加密值、第一分享密文，发送给第二参与方，用于构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

在一个实施例中，第三预设值可以为0，第四预设值可以为0。

图6示出了根据本公开再一实施例的一种数据处理方法的流程示意图。该方法由第二参与方执行。如图6所示，该方法至少包括如下步骤：

步骤S601，对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

步骤S603，接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

步骤S605，对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；以及，将第三集合各数据元素对应的第二分享数的同态加密值发送到第一参与方；

步骤S607，接收第一参与方发送的第三集合中各元素对应的第一分享密文和秘密分享值，所述第一分享密文对应于第一明文特征，以所述秘密分享值作为根据第二分享数的同态加密值而确定的同态计算值，根据所述第一分享密文和秘密分享值，构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

图7示出了根据本公开实施例的一种数据处理装置的示意性框图。该装置部署于第一参与方，用于执行如图3所示方法，如图7所示，该装置700包括：

收发单元701，配置为，接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，将第二集合发送给第二参与方；

接收单元702，配置为，接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；

处理单元703，配置为，对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数；

构建单元704，配置为，根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数；根据各交集元素和混淆元素的第二分享密文的同态解密值、第一分享数和第三分享数，构建第一特征合并集，所述第一特征合并集用于第一参与方进行联合计算；以及，将各交集元素和混淆元素对应的第一分享密文和第四分享数发送给第二参与方，用于第二参与方构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

图8示出了根据本公开另一实施例的一种数据处理装置的示意性框图。该装置部署于第二参与方，用于执行如图4所示方法，如图8所示，该装置800包括：

第一发送单元801，配置为，对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

接收单元802，配置为，接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

第二发送单元803，配置为，对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；

构建单元804，配置为，接收第一参与方发送的与第三集合中各元素对应的第一分享密文和第四分享数，第一分享密文对应于第一明文特征，第四分享数对应于指示元素真伪的预设值；根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

图9示出了根据本公开再一实施例的一种数据处理装置的示意性框图。该装置部署于第一参与方，用于执行如图5所示方法，如图9所示，该装置900包括：

收发单元901，配置为，接收第二参与方发送的第一集合，所述第一集合由第二参与方对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文而得到；构造针对第一参与方集合的仿制元素，对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，得到第二集合，并将第二集合发送给第二参与方；

接收单元902，配置为，接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；以及，接收第二参与方发送的第三集合各数据元素对应的第二分享数的同态加密值；

处理单元903，配置为，对第一集合中各元素进行ID随机化得到第四集合，确定所述第三集合与所述第四集合的交集，从第四集合获取交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数；

构建单元904，配置为，根据第三预设值进行秘密拆分，得到各交集元素的第五分享数和第六分享数，根据第四预设值进行秘密拆分，得到混淆元素的第五分享数和第六分享数；根据各交集元素的第二分享密文的同态解密值与第五分享数之和、第一分享数，以及各混淆元素的第五分享数、第一分享数，构建第三特征合并集，所述第三特征合并集用于第一参与方进行联合计算；以及，将各交集元素的第二分享数的同态加密值与第六分享数的同态和、第一分享密文，以及，各混淆元素的第六分享数的同态加密值、第一分享密文，发送给第二参与方，用于构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

图10示出了根据本公开再一实施例的一种数据处理装置的示意性框图。该装置部署于第二参与方，用于执行如图6所示方法，如图10所示，该装置1000包括：

第一发送单元1001，配置为，对第二参与方集合中多个第一元素进行乱序化和ID随机化，并将各第一元素的第一明文特征替换为对应的第一同态密文，得到第一集合，将第一集合发送给第一参与方；

接收单元1002，配置为，接收第一参与方发送的第二集合，所述第二集合由第一参与方构造针对第一参与方集合的仿制元素，并对第一参与方集合中多个第二元素与仿制元素的合集进行乱序化和ID随机化，将合集中各元素包括的第二明文特征替换为对应的第二同态密文而得到；

第二发送单元1003，配置为，对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；以及，将第三集合各数据元素对应的第二分享数的同态加密值发送到第一参与方；

构建单元1004，配置为，接收第一参与方发送的第三集合中各元素对应的第一分享密文和秘密分享值，所述第一分享密文对应于第一明文特征，以所述秘密分享值作为根据第二分享数的同态加密值而确定的同态计算值，根据所述第一分享密文和秘密分享值，构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

本公开实施例还提供一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现如图1-图6中任一附图所示的方法。

下面还可以参考图11，其示出了适于用来实现本申请实施例的电子设备1100的结构示意图。图11示出的电子设备1100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101。上述的处理装置1101可以是通用处理器、数字信号处理器(Digital SignalProcessing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储装置1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM1103中，还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

通常，以下装置可以连接至I/O接口1105：包括例如触摸屏、触摸板、键盘、鼠标等的输入装置1106；包括例如液晶显示器(Liquid Crystal Display，LCD)、扬声器、振动器等的输出装置1107；包括例如磁带、硬盘等的存储装置1108；以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备1100，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1109从网络上被下载和安装，或者从存储装置1108被安装，或者从ROM1102被安装。在该计算机程序被处理装置1101执行时，执行本申请实施例所提供的数据处理方法中限定的上述功能。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本申请实施例所提供的如图1-图6中任一附图所示的数据处理方法。图12为实现本申请实施例的一种存储介质的示意图。例如，如图12所示，存储介质1200可以为非暂时性计算机可读存储介质，用于存储非暂时性计算机可执行指令1201。当非暂时性计算机可执行指令1201由处理器执行时可以实现本申请实施例所提供的数据处理方法，例如，当非暂时性计算机可执行指令1201由处理器执行时，可以执行根据本申请实施例所提供的数据处理方法中的一个或多个步骤。例如，该存储介质1200可以应用于上述电子设备中，例如，该存储介质1200可以包括电子设备中的存储器。关于存储介质1200的说明可以参考电子设备的实施例中对于存储器的描述，重复之处不再赘述。存储介质1200的具体功能和技术效果可以参考关于本申请实施例所提供的数据处理方法的描述，此处不再赘述。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、智能电话的存储卡、平板电脑的存储部件、便携式计算机磁盘、个人计算机的硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(Radio Frequency，射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该电子设备实现本申请实施例所提供的数据处理方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种数据处理方法，由第一参与方执行，所述方法包括：

2.根据权利要求1所述的方法，其中，将各第一元素的第一明文特征替换为对应的第一同态密文，包括：

根据所述第一明文特征、以及第二参与方的公钥进行同态加密，得到第一同态密文；

将各第一元素包括的第一明文特征替换为第一同态密文；

其中，将合集中各元素包括的第二明文特征替换为对应的第二同态密文，包括：

根据所述第二明文特征、以及第一参与方的公钥进行同态加密，得到第二同态密文；

将所述合集中各元素包括的第二明文特征替换所述第二同态密文。

3.根据权利要求1所述的方法，其中，构造针对第一参与方集合的仿制元素，包括：

若第一集合的元素数量大于第一参与方集合的元素数量，则构造第一集合与第一参与方集合的元素数量之差的数目的仿制元素；或者

若第一集合的元素数量小于或等于第一参与方集合的元素数量，则构造零数目的仿制元素。

4.根据权利要求1所述的方法，其中，构造针对所述交集的混淆元素，包括：

构造数量为第三集合中非交集元素数量的混淆元素；或者

构造小于第三集合中非交集元素数量的混淆元素。

5.根据权利要求1所述的方法，其中，所述第一预设值为1，所述第二预设值为0。

6.一种数据处理方法，由第二参与方执行，所述方法包括：

接收第一参与方发送的第一分享密文和第四分享数，所述第一分享密文通过所述第一参与方执行如下操作而获得：确定所述第三集合与第四集合的交集，所述第四集合通过所述第一参与方对第一集合中各元素进行ID随机化而得到，从所述第四集合获取所述交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数；

所述第四分享数通过所述第一参与方执行如下操作而获得：根据第一预设值进行秘密拆分，得到各交集元素对应的第三分享数和第四分享数，根据第二预设值进行秘密拆分，得到各混淆元素对应的第三分享数和第四分享数，所述第一预设值和所述第二预设值用于指示元素真伪；

根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

7.一种数据处理方法，由第一参与方执行，所述方法包括：

接收第二参与方发送的第三集合，所述第三集合由第二参与方对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文而得到；以及，接收第二参与方发送的第三集合各元素对应的第二分享数的同态加密值；

8.根据权利要求7所述的方法，其中，所述第三预设值为0，所述第四预设值为0。

9.一种数据处理方法，由第二参与方执行，所述方法包括：

对所述第二集合中的各元素进行乱序化和ID随机化，将第二集合中各元素的第二同态密文秘密拆分为第二分享密文和第二分享数，并将第二同态密文替换为第二分享密文，得到第三集合，将第三集合发送到第一参与方；以及，将第三集合各元素对应的第二分享数的同态加密值发送到第一参与方；

接收第一参与方发送的第一分享密文和秘密分享值，所述第一分享密文通过所述第一参与方执行如下操作而获得：确定所述第三集合与第四集合的交集，所述第四集合通过对所述第一集合中各元素进行ID随机化而得到，从所述第四集合获取所述交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为对应的第一分享密文和第一分享数；

所述秘密分享值包括各个所述交集元素对应的第二分享数的同态加密值与第六分享数的同态和、以及各混淆元素的第六分享数的同态加密值，其中，所述交集元素的第六分享数通过所述第一参与方根据第三预设值进行秘密拆分而得到，所述混淆元素的第六分享数通过所述第一参与方根据第四预设值进行秘密拆分而得到；

根据所述第一分享密文和秘密分享值，构建第四特征合并集，所述第四特征合并集用于第二参与方进行联合计算。

10.一种数据处理装置，部署于第一参与方，所述装置包括：

11.一种数据处理装置，部署于第二参与方，所述装置包括：

构建单元，配置为，接收第一参与方发送的第一分享密文和第四分享数；所述第一分享密文通过所述第一参与方执行如下操作而获得：确定所述第三集合与第四集合的交集，所述第四集合通过所述第一参与方对第一集合中各元素进行ID随机化而得到，从所述第四集合获取所述交集中各交集元素对应的第一同态密文；构造针对所述交集的混淆元素，并确定出所述混淆元素对应的第一同态密文，将各交集元素和混淆元素的第一同态密文秘密拆分为第一分享密文和第一分享数；

所述构建单元，还配置为，根据第一分享密文的同态解密值、第二分享数和第四分享数，构建第二特征合并集，所述第二特征合并集用于第二参与方进行联合计算。

12.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1-9中任一项所述的方法。

13.一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。