CN113127916B

CN113127916B - 数据集合处理方法、数据处理方法、装置及存储介质

Info

Publication number: CN113127916B
Application number: CN202110541183.8A
Authority: CN
Inventors: 侯忱; 蒋杰; 潘军伟; 薛焕然; 符芳诚; 程勇; 刘煜宏; 陈鹏; 陶阳宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-07-28
Anticipated expiration: 2041-05-18
Also published as: CN113127916A

Abstract

本申请公开了一种数据集合处理方法、数据处理方法、装置及存储介质，先获取第一数据集合和第二数据集合的交集数据集合，然后从交集数据集合在第二数据集合的补集中确定目标数据元素，并将目标数据元素添加进交集数据集合得到目标集合，接着分别向第一参与方和第二参与方发送目标集合，使得各参与方能够根据目标集合对预测模型进行联邦学习的训练，以支持云计算中大数据分析的实现。由于目标集合中的交集数据集合和目标数据元素均为第二数据集合的子集，第二参与方无法从目标集合中确定第一参与方的数据信息，所以能够在第一参与方的数据保密性要求更高的情况下，提高第一参与方的隐私信息的保密性。可见，本申请可以广泛应用于信息处理技术中。

Description

数据集合处理方法、数据处理方法、装置及存储介质

技术领域

本申请涉及信息处理技术领域，尤其是一种数据集合处理方法、数据处理方法、装置及存储介质。

背景技术

隐私保护集合交集(Private Set Intersection，PSI)能够使得各个参与方在不获取其他参与方的数据集合的情况下，通过协同计算，得到各个参与方的数据集合的交集。PSI广泛应用于联邦学习、多方安全计算等领域，能够支持云计算技术中的大数据分析。随着用户数据的隐私保护越来越受到重视，在人们能够便利地享受各类依赖个人信息的业务的同时，如何最大程度地保护个人信息的私密性，是研究PSI的主要方向。

然而，相关技术中提出的采用PSI获得各个参与方的数据集合的交集的方案中，会将各个参与方均看作具有对等的关系，即各个参与方均可以得到交集结果。但是，在某些合作双方具有不对等关系的场景下，例如在其中一方要求更高的数据保密性的场景下，要求仅有数据保密性更高的一方获得正确的交集结果，如果采用相关技术中的基于各参与方具有对等关系的PSI方案，则另一方只需分析获取到的交集结果，即可推断得到该数据保密性要求更高的一方的数据，从而会使得数据保密性要求更高的一方暴露在隐私信息泄露的风险之下。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种数据集合处理方法、数据处理方法、数据集合处理装置、数据处理装置及计算机可读存储介质，能够提高隐私信息的保密性。

一方面，本申请实施例提供了一种数据集合处理方法，包括以下步骤：

获取来自第一参与方的第一数据信息，其中，所述第一数据信息包括第一数据集合；

获取来自第二参与方的第二数据集合；

获取所述第一数据集合和所述第二数据集合的交集数据集合；

从所述交集数据集合在所述第二数据集合的补集中确定若干个目标数据元素，将若干个所述目标数据元素添加进所述交集数据集合得到目标集合；

向所述第一参与方发送所述目标集合，使得所述第一参与方获得所述目标集合并根据所述目标集合与所述第一数据集合得到第一目标交集数据；

向所述第二参与方发送所述目标集合，使得所述第二参与方获得所述目标集合并根据所述目标集合与所述第二数据集合得到第二目标交集数据。

另一方面，本申请实施例还提供了一种数据处理方法，包括以下步骤：

向第三参与方发送第一数据信息，其中，所述第一数据信息包括第一数据集合；

获取由所述第三参与方应用前面所述的数据集合处理方法发送的目标集合；

根据所述第一数据集合与所述目标集合得到所述第一目标交集数据。

另一方面，本申请实施例还提供了一种数据集合处理装置，包括：

第一获取单元，用于获取来自第一参与方的第一数据信息，其中，所述第一数据信息包括第一数据集合；

第二获取单元，用于获取来自第二参与方的第二数据集合；

交集获取单元，用于获取所述第一数据集合和所述第二数据集合的交集数据集合；

数据混合单元，用于从所述交集数据集合在所述第二数据集合的补集中确定若干个目标数据元素，将若干个所述目标数据元素添加进所述交集数据集合得到目标集合；

第一发送单元，用于向所述第一参与方发送所述目标集合，使得所述第一参与方获得所述目标集合并根据所述目标集合与所述第一数据集合得到第一目标交集数据；

第二发送单元，用于向所述第二参与方发送所述目标集合，使得所述第二参与方获得所述目标集合并根据所述目标集合与所述第二数据集合得到第二目标交集数据。

可选地，所述第一数据信息还包括元素比例值；所述数据混合单元具体包括：

补集确定单元，用于确定所述交集数据集合在所述第二数据集合的补集；

随机选取单元，用于从所述补集中随机选取若干个目标数据元素；

目标集合生成单元，用于将若干个所述目标数据元素添加进所述交集数据集合得到目标集合，使得所述目标集合的元素个数与所述交集数据集合的元素个数的比值等于所述元素比例值。

可选地，所述第一发送单元包括：

匿名处理单元，用于对所述目标集合中所述目标数据元素的值进行匿名化处理；

第一发送子单元，用于向所述第一参与方发送经过匿名化处理的所述目标集合，使得所述第一参与方获得经过匿名化处理的所述目标集合，并根据所述第一数据集合和经过匿名化处理的所述目标集合得到第一目标交集数据。

可选地，所述匿名处理单元具体用于：

对所述目标集合中的所述目标数据元素的值进行置为预设字符值、添加随机数或加密中的任意一种处理。

可选地，所述第一参与方为商家平台，所述第一数据集合为购买过所述商家平台的商品的第一用户账号集合，所述第二参与方为广告平台，所述第二数据集合为通过所述广告平台浏览过所述商家平台的商品的第二用户账号集合；所述交集获取单元具体用于：

计算所述第二用户账号集合和所述第一用户账号集合的交集，得到通过所述广告平台购买所述商家平台的商品的交集数据集合。

可选地，所述第一数据信息还包括元素比例值，所述目标数据元素为所述交集数据集合在所述第二用户账号集合的补集中的目标用户账号；所述数据混合单元具体用于：

确定所述交集数据集合在所述第二用户账号集合的补集；

从所述补集中随机选取若干个所述目标用户账号；

将若干个所述目标用户账号添加进所述交集数据集合得到目标集合，使得所述目标集合的元素个数与所述交集数据集合的元素个数的比值等于所述元素比例值。

另一方面，本申请实施例还提供了一种数据处理装置，包括：

信息发送单元，用于向前面所述的数据集合处理装置发送第一数据信息，其中，所述第一数据信息包括第一数据集合；

数据获取单元，用于获取由所述数据集合处理装置发送的目标集合；

目标交集获取单元，用于根据所述第一数据集合与所述目标集合得到所述第一目标交集数据。

可选地，所述目标交集获取单元包括：

交集计算单元，用于计算所述第一数据集合与所述目标集合的交集得到所述第一目标交集数据；

模型训练单元，用于利用所述第一目标交集数据对预测模型进行联邦学习的训练。

可选地，所述第一数据信息还包括元素比例值；所述数据处理装置还包括：

比值计算单元，用于计算所述目标集合的元素个数与所述第一目标交集数据的数据个数的比值，得到数据量比值；

合法判断单元，用于在所述数据量比值等于所述元素比例值的情况下，确定所述第一目标交集数据的合法性为合法。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的数据集合处理方法。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的数据处理方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时用于实现如前面所述的数据集合处理方法或者实现如前面所述的数据处理方法。

另一方面，本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行前面任意实施例所述的数据集合处理方法，或者执行前面任意实施例所述的数据处理方法。

在获取到来自第一参与方的第一数据集合和来自第二参与方的第二数据集合之后，通过先获取第一数据集合和第二数据集合的交集数据集合，然后从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，并将这些目标数据元素添加进交集数据集合得到目标集合，接着分别向第一参与方和第二参与方发送该目标集合，使得第一参与方能够根据该目标集合与第一数据集合得到第一目标交集数据、第二参与方能够根据该目标集合与第二数据集合得到第二目标交集数据，从而实现了第一参与方和第二参与方之间的集合求交处理。由于第二参与方接收到的目标集合中，交集数据集合和目标数据元素均为第二数据集合的子集，因此第二参与方无法从第二目标交集数据中确定来自第一参与方的具体数据信息，因此本申请实施例的方案能够提供非对称的隐私保护特性，所以，可以在传统PSI的基础上增加本申请实施例的非对称的隐私保护特性，使得一个参与方能够获取真实的交集数据，另一个参与方获得混淆后的交集数据，从而能够更好地保护实际场景中对数据隐私需求更强的一方的隐私信息，从而达到提高隐私信息的保密性的目的。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是相关技术中采用可信执行环境进行PSI处理的原理图；

图2是本申请实施例提供的一种实施环境的示意图；

图3是本申请实施例提供的一种数据集合处理方法的流程图；

图4是图3中步骤400的具体方法流程图；

图5是图3中步骤500的具体方法流程图；

图6是应用本申请实施例提供的数据集合处理方法支持联邦学习的广告转化效率预测任务的实现的场景示意图；

图7是本申请一个实施例提供的数据处理方法的流程图；

图8是图7中步骤900的具体方法流程图；

图9是本申请另一个实施例提供的数据处理方法的流程图；

图10是本申请一个具体示例提供的数据集合处理方法的流程原理图；

图11是本申请实施例提供的一种数据集合处理装置的示意图；

图12是本申请实施例提供的一种数据处理装置的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)隐私保护集合交集(Private Set Intersection，PSI)：PSI允许持有各自集合的两方来共同计算两个集合的交集运算，在协议交互的最后，一方或是两方应该得到正确的交集，而且不会得到交集以外的另一方集合中的任何信息。简单来说，PSI可以理解为在基于隐私保护的前提下，确定各方之间的交集。PSI往往是多方协同训练机器学习算法的核心。

2)集合：集合是指具有某种特定性质的具体的或抽象的对象汇总而成的集体。其中，构成集合的这些对象称为该集合的元素。

3)交集：交集是指两个集合的共有元素所组成的集合。例如，假设有集合A和集合B，那么，由属于集合A且属于集合B的相同元素组成的集合即为集合A和集合B的交集。

4)补集：由属于集合A而不属于集合B的元素组成的集合，称为集合B在集合A的补集。

5)子集：假设集合A中的部分或全部元素构成了集合B，则集合B称为集合A的子集。

6)多方安全计算：又称安全多方计算，即多方共同计算出一个函数的结果但不泄露各方的输入数据，计算的结果公开给其中的一方或多方。其中，PSI是多方安全计算的一个典型的应用。

7)联邦学习(Federated Learning)：联邦学习本质上是一种分布式机器学习技术或者机器学习框架。联邦学习的目标是在保证数据隐私安全及合法合规的基础上，实现各参与方的共同建模，解决数据孤岛的问题，提升人工智能模型的效果。

8)人工智能(Artificial Intelligence，AI)：AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。

9)机器学习(Machine Learning，ML)：机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括联邦学习、深度学习、迁移学习等技术。

本申请实施例所提供的数据集合处理方法和数据处理方法均可以应用于云技术之中。

云技术(Cloud Technology)，是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站、电商平台网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(Cloud Computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

在很多场景下，保护数据集合的隐私性是自然甚至必要的需求，例如，当数据集合是某商家的客户信息、某用户的通讯录信息或者某基因诊断服务用户的基因组信息时，如果对这些数据集合进行交集处理，则需要保证这些数据集合的隐私性。在相关技术中，可以利用可信第三方平台或者可信执行环境协助合作双方进行PSI处理。例如图1所示，图1是相关技术中采用可信执行环境进行PSI处理的原理图。在图1中，可信执行环境103是一个中心化的安全计算平台，能够支持PSI算法。当可信执行环境103分别接收到由参与PSI处理的第一方101和第二方102发送的密文数据后，可信执行环境103能够在加密的可信执行区域中进行PSI操作以计算第一方101的密文数据和第二方102的密文数据的交集数据，得到交集结果，然后再将该交集结果分别发送给第一方101和第二方102，从而完成PSI的完整处理流程。

在如图1所示的相关技术中，可信执行环境103把参与PSI处理的合作双方看作是对等的双方，因此双方都能够获取到正确的交集数据。然而，在某些场景下，当合作双方具有不对等的关系时，例如第一方101为电商平台，第二方102为售卖某类特定药物的商家，第二方102希望通过PSI处理从自身所具有的用户信息(如用户账号)中获得通过第一方101购买该特定药物的用户信息，由于购买该特定药物的用户信息是私密性极强的数据，因此即便是经过PSI处理后得到的交集数据，第二方102也不希望这些交集数据被第一方101获悉以避免用户信息的泄露。但是，如果采用如图1所示的基于各参与方具有对等关系的PSI方案，由于交集数据也是第一方101发送给可信执行环境103的数据集合中的一部分，因此当第一方101获取到交集数据后，第一方101可以通过分析这些交集数据而确定购买该特定药物的用户的具体信息，所以，对于第二方102来说，用户的隐私信息会存在泄漏的风险。

为了提高隐私信息的保密性，本申请实施例提供了一种数据集合处理方法、数据处理方法、数据集合处理装置、数据处理装置及计算机可读存储介质，在获取到来自第一参与方的第一数据集合和来自第二参与方的第二数据集合之后，通过先获取第一数据集合和第二数据集合的交集数据集合，然后从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，并将这些目标数据元素添加进交集数据集合得到目标集合，接着分别向第一参与方和第二参与方发送该目标集合，使得第一参与方能够根据该目标集合与第一数据集合得到第一目标交集数据、第二参与方能够根据该目标集合与第二数据集合得到第二目标交集数据，从而实现第一参与方和第二参与方之间的集合求交处理。由于第二参与方接收到的目标集合中，交集数据集合和目标数据元素均为第二数据集合的子集，因此第二参与方无法通过对第二目标交集数据进行分析而确定来自第一参与方的具体数据信息，所以，本申请实施例的方案能够提供非对称的隐私保护特性，所以，可以在传统PSI的基础上增加本申请实施例的非对称的隐私保护特性，使得一个参与方能够获取真实的交集数据，另一个参与方获得混淆后的交集数据，从而能够更好地保护实际场景中对数据隐私需求更强的一方的隐私信息，从而达到提高隐私信息的保密性的目的。

本申请实施例提供的方案主要涉及云技术中的云计算、大数据分析等技术，具体通过如下实施例进行说明。

图2是本申请实施例提供的一种实施环境的示意图。参照图2，该实施环境包括第一终端201、第二终端202和服务器203，其中，第一终端201可以作为进行集合求交处理的第一参与方，第二终端202可以作为与第一终端201进行集合求交处理的第二参与方，服务器203则作为协助第一终端201与第二终端202进行集合求交处理的第三参与方。

服务器203可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

作为协助第一终端201与第二终端202进行集合求交处理的第三参与方，服务器203自身可以为第一终端201与第二终端202均信任的可信第三方，用于提供安全计算环境，或者，服务器203内部构建有可信执行环境(Trusted Execution Environment，TEE)，TEE能够提供一个完全隔离的运行空间，能够进行不会被常规操作系统干扰的计算，从而起到保护敏感数据不被泄漏的作用。服务器203至少具有对各个参与方的数据进行集合求交的功能，能够在获取到来自第一终端201的第一数据集合和来自第二终端202的第二数据集合之后，通过先获取第一数据集合和第二数据集合的交集数据集合，然后从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，并将这些目标数据元素添加进交集数据集合得到目标集合，接着分别向第一终端201和第二终端202发送该目标集合。

第一终端201和第二终端202均可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。在不同的应用场景下，第一终端201和第二终端202可以为不同的具体设备，例如，在商家请求与电商平台的用户账号进行集合求交处理以希望能够计算广告的转化效果的场景下，第一终端201可以为与商家的数据服务器连接的台式计算机，第二终端202可以为与电商平台的数据服务器连接的台式计算机；又如，在应用服务商针对用户的应用服务注册操作而请求与用户的联系人信息进行集合求交处理以希望能够向用户推荐注册了相同应用服务的联系人的场景下，第一终端201可以为应用服务商的数据处理设备，第二终端202可以为智能手机。

第一终端201和第二终端202可以为区块链(Blockchain)中的节点。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

第一终端201与服务器203之间，以及第二终端202与服务器203之间，均可以通过有线或无线通信方式进行直接或间接的连接，本申请实施例在此不做限制。

在一种可选的实现方式中，在第一终端201为与商家的数据服务器连接的台式计算机，第二终端202为与电商平台的数据服务器连接的台式计算机的情况下，服务器203响应于第一终端201发送的用户账号求交请求，分别获取来自第一终端201的第一账号密文数据和来自第二终端202的第二账号密文数据，计算第一账号密文数据和第二账号密文数据的交集数据集合，然后从交集数据集合在第二账号密文数据的补集中确定若干个目标数据元素，并将这些目标数据元素添加进交集数据集合得到目标集合，接着分别向第一终端201和第二终端202发送该目标集合。

图3是本申请实施例提供的一种数据集合处理方法的流程图。在本实施例中，以作为第三参与方的服务器为执行主体为例进行说明，参照图3，该数据集合处理方法包括但不限于有以下步骤100至步骤600。

步骤100：获取来自第一参与方的第一数据信息，其中，第一数据信息包括第一数据集合。

本步骤中，第一参与方为发起集合求交请求的一方，即第一参与方为希望获取到正确交集数据的一方，在一些场景下，例如在第一参与方的数据保密性要求更高(例如第一参与方的数据为购买某些特定药物的用户账号)的场景下，即便是经过PSI处理后得到的交集数据，第一参与方也不希望这些交集数据被第二参与方获悉，从而避免出现信息泄露的风险。

需要说明的是，第一数据信息可以是加密后的密文信息，也可以是未经加密的明文信息，可以根据具体的应用场景需求而进行适当的选择。第一数据信息包括有用于进行集合求交计算的第一数据集合，因此，对应地，第一数据集合也可以为加密后的密文信息或者为未经加密的明文信息。根据具体应用场景的不同，第一数据集合具体可以为不同的数据信息的集合，例如，第一数据集合可以为用户账号的集合、用户昵称的集合或者电话号码的集合等。

需要说明的是，在一些场景中，第一数据信息还可以包括有用于辅助计算的其他信息，本实施例对此并不作具体限定。例如，当第一数据集合为密文信息时，第一数据信息可以还包括有用于解密该密文信息的密钥；当第一数据集合为密文信息或者明文信息时，第一数据信息可以还包括有用于调整目标集合的数据量的元素比例值。关于该元素比例值的相关说明，将在后面的内容中给出。

值得注意的是，在第三参与方执行步骤100之前，第三参与方可以先与第一参与方建立用于传输数据的安全信道以提高数据传输的安全性。第三参与方与第一参与方之间可以使用任意的方式建立安全信道，只要能够保证双方的通信内容安全即可，本实施例对此并不作具体限定。在一种可选的实现方式中，第三参与方和第一参与方共享一个用于双向消息加密的对称加密密钥，该对称加密密钥仅在第三参与方和第一参与方中使用，该对称加密密钥维持安全信道的形成，在安全信道中传输的数据，均需要先利用该对称加密密钥进行加密处理。该对称加密密钥可以由第三参与方或者第一参与方生成。当该对称加密密钥为由第三参与方生成，则第三参与方可以先获取来自第一参与方的加密公钥，然后，第三参与方利用该加密公钥对该对称加密密钥进行加密并发送，当第一参与方接收到经过加密的对称加密密钥，则第一参与方可以利用其保存的与该加密公钥对应的加密私钥对该对称加密密钥进行解密处理，从而获得该对称加密密钥；当该对称加密密钥为由第一参与方生成，则第一参与方可以先获取来自第三参与方的加密公钥，然后，第一参与方利用该加密公钥对该对称加密密钥进行加密并发送，当第三参与方接收到经过加密的对称加密密钥，则第三参与方可以利用其保存的与该加密公钥对应的加密私钥对该对称加密密钥进行解密处理，从而获得该对称加密密钥。另外，在一些安全性需求更强的场景下，在第三参与方与第一参与方进行信息交互之前，可以先要求双方执行双向远程证明，当双方均通过双向远程证明后，才允许双方建立安全信道或者进行数据交互。其中，双向远程证明是指两个远程实体之间相互向对方证明自身的平台配置状况是安全的。

步骤200：获取来自第二参与方的第二数据集合。

本步骤中，第二参与方为配合第一参与方进行集合求交处理的一方，第二参与方基于与第一参与方进行集合求交处理的协商，会将相关的数据形成第二数据集合并发送给第三参与方。

需要说明的是，第二数据集合可以是加密后的密文信息，也可以是未经加密的明文信息，可以根据具体的应用场景需求而进行适当的选择，但是，第二数据集合的数据类型需要与第一参与方的第一数据集合的数据类型相一致。另外，第二数据集合所包括的数据信息，也需要与第一数据集合所包括的数据信息相一致，例如，当第一数据集合为用户账号的集合，则第二数据集合也为用户账号的集合；当第一数据集合为用户昵称的集合，则第二数据集合也为用户昵称的集合；当第一数据集合为电话号码的集合，则第二数据集合也为电话号码的集合。

步骤300：获取第一数据集合和第二数据集合的交集数据集合。

本步骤中，由于在步骤100中获取到了来自第一参与方的第一数据集合，并且在步骤200中获取到了来自第二参与方的第二数据集合，因此可以利用集合运算求取第一数据集合和第二数据集合的交集数据集合，以便于后续步骤能够根据该交集数据集合得到目标集合。

需要说明的是，由于第一数据集合和第二数据集合均可以为密文信息或者明文信息，因此，获取到的第一数据集合和第二数据集合的交集数据集合会有所不同。

例如，当第一数据集合和第二数据集合均为密文信息时，这两个密文信息均可以先被加密并通过安全信道传输到第三参与方，当第三参与方通过安全信道接收到这两个被加密的密文信息后，第三参与方会对这两个被加密的密文信息进行解密，得到两个密文信息，然后第三参与方会以这两个密文信息作为求交对象进行集合求交计算，所以，计算得到的交集数据集合也会是密文信息，由于交集数据集合中的数据属于第一参与方发送给第三参与方的数据中的一部分，因此第一参与方本地能够对该交集数据集合进行解密处理，从而能够得到其所希望得到的数据信息，另外，由于交集数据集合中的数据也属于第二参与方发送给第三参与方的数据中的一部分，因此第二参与方本地也能够对该交集数据集合进行解密处理，从而能够得到交集数据集合中的具体信息。

又如，当第一数据集合和第二数据集合均为明文信息时，这两个明文信息均可以先被加密并通过安全信道传输到第三参与方，当第三参与方通过安全信道接收到这两个被加密的明文信息后，第三参与方会对这两个被加密的明文信息进行解密，得到两个明文信息，然后第三参与方会以这两个明文信息作为求交对象进行集合求交计算，所以，计算得到的交集数据集合也会是明文信息，由于对第一参与方和第二参与方来说，第三参与方是可信的，因此第三参与方可以先利用公共密钥对交集数据集合进行加密处理，然后再分别向第一参与方和第二参与方发送加密后的交集数据集合，而第一参与方和第二参与方均可以利用该公共密钥对加密后的交集数据集合进行解密处理，从而能够得到交集数据集合中的具体信息。需要说明的是，为了提高数据的保密性，第三参与方与第一参与方之间使用的公共密钥和第三参与方与第二参与方之间使用的公共密钥并不相同。

步骤400：从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，将若干个目标数据元素添加进交集数据集合得到目标集合。

本步骤中，由于在步骤300中得到了第一数据集合和第二数据集合的交集数据集合，因此，可以从该交集数据集合在第二数据集合的补集中确定若干个目标数据元素，然后将这些目标数据元素添加进交集数据集合以得到目标集合。由于目标集合中的数据均属于第二数据集合，因此第二参与方无法通过对目标集合进行分析而确定来自第一参与方的具体数据信息，所以，在第一参与方的数据保密性要求更高的情况下，能够达到提高第一参与方的隐私信息的保密性的目的。

需要说明的是，从交集数据集合在第二数据集合的补集中确定的目标数据元素的个数，可以根据实际的应用情况而进行适当的选择，本实施例对此并不作具体限定。例如，目标数据元素的个数可以选择为交集数据集合的元素个数的一半，或者可以选择为与交集数据集合的元素个数相同。

需要说明的是，将目标数据元素添加进交集数据集合的方式可以有多种，本实施例对此并不作具体限定。例如，当目标数据元素的个数只有一个时，可以将该目标数据元素插入到交集数据集合中的任意位置；当目标数据元素的个数有多个时，可以将这些目标数据元素分散插入到交集数据集合中的不同位置，或者将这些目标数据元素整体插入到交集数据集合中的某一位置。另外，在将目标数据元素添加进交集数据集合形成新的数据集合之后，还可以将该新的数据集合中的数据进行打乱，最后得到目标集合。此外，在对该新的数据集合中的数据进行打乱后，还可以先对打乱后的数据进行从大到小或者从小到大等任意顺序方式进行排序，而后再得到目标集合。

步骤500：向第一参与方发送目标集合，使得第一参与方获得目标集合并根据目标集合与第一数据集合得到第一目标交集数据。

本步骤中，由于在步骤400中得到了目标集合，因此可以向第一参与方发送该目标集合，使得第一参与方能够获取到其所希望得到的数据信息。

需要说明的是，虽然第一参与方获取到的目标集合包括了交集数据集合和目标数据元素，但是，由于目标数据元素并非为第一数据集合中的数据元素，因此，第一参与方将目标集合与其本地的第一数据集合进行集合求交处理，即可从目标集合中获取交集数据集合(即第一目标交集数据)，从而能够得到其所希望得到的数据信息。

步骤600：向第二参与方发送目标集合，使得第二参与方获得目标集合并根据目标集合与第二数据集合得到第二目标交集数据。

本步骤中，由于在步骤400中得到了目标集合，因此可以向第二参与方发送该目标集合，使得第二参与方能够获取到目标集合中的数据信息。需要说明的是，第二目标交集数据是目标集合与第二数据集合的交集数据，而目标集合包括有交集数据集合和目标数据元素，目标数据元素为交集数据集合在第二数据集合的补集中的数据元素，因此，第二目标交集数据由交集数据集合和目标数据元素构成。

需要说明的是，由于第二目标交集数据包括了交集数据集合和目标数据元素，而且交集数据集合和目标数据元素均为第二数据集合的子集，因此第二参与方无法从第二目标交集数据中确定来自第一参与方的具体数据信息，所以，在第一参与方的数据保密性要求更高的情况下，能够提高第一参与方的隐私信息的保密性。

本实施例中，通过采用包括有前面步骤100至步骤600的数据集合处理方法，在获取到来自第一参与方的第一数据集合和来自第二参与方的第二数据集合之后，通过先获取第一数据集合和第二数据集合的交集数据集合，然后从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，并将这些目标数据元素添加进交集数据集合得到目标集合，接着分别向第一参与方和第二参与方发送该目标集合，使得第一参与方能够根据该目标集合与第一数据集合得到第一目标交集数据、第二参与方能够根据该目标集合与第二数据集合得到第二目标交集数据，从而实现了第一参与方和第二参与方之间的集合求交处理。由于第二参与方接收到的目标集合中，交集数据集合和目标数据元素均为第二数据集合的子集，因此第二参与方无法通过对第二目标交集数据进行分析而确定来自第一参与方的具体数据信息，因此，在第一参与方的数据保密性要求更高的情况下，能够提高第一参与方的隐私信息的保密性。

参照图4所示，本申请的一个实施例，对步骤400进行进一步的说明，在第一数据信息还包括元素比例值的情况下，在执行步骤300得到第一数据集合和第二数据集合的交集数据集合之后，步骤400具体可以包括以下步骤：

步骤410：确定交集数据集合在第二数据集合的补集；

步骤420：从补集中随机选取若干个目标数据元素；

步骤430：将若干个目标数据元素添加进交集数据集合得到目标集合，使得目标集合的元素个数与交集数据集合的元素个数的比值等于元素比例值。

本步骤中，由于在步骤100中获取到的第一数据信息还包括有元素比例值，因此可以先确定交集数据集合在第二数据集合的补集，然后在该补集中随机选取若干个目标数据元素，接着把这些目标数据元素添加进交集数据集合以得到目标集合。而在随机选取目标数据元素并将其添加进交集数据集合以得到目标集合时，需要使目标集合的元素个数与交集数据集合的元素个数的比值等于元素比例值，从而使得目标集合中的数据量能够满足第一参与方的数据量需求。

需要说明的是，元素比例值可以由第一参与方根据本地的使用需求而确定，并且该元素比例值对第二参与方保密，或者，元素比例值也可以由第一参与方和第二参与方协商后确定，本实施例对此并不作具体限定。另外，元素比例值的具体数值，可以根据实际的应用情况而进行适当的选择，例如，可以选择元素比例值的具体数值使得目标数据元素的个数是交集数据集合的元素个数的一半，或者可以选择元素比例值的具体数值使得目标数据元素的个数与交集数据集合的元素个数相同，本实施例对此并不作具体限定。

参照图5所示，本申请的一个实施例，对步骤500进行进一步的说明，步骤500具体可以包括步骤510和步骤520。

步骤510：对目标集合中目标数据元素的值进行匿名化处理。

为了提高第一参与方的隐私信息的保密性，步骤400中将第二数据集合中的若干个目标数据元素添加进了交集数据集合而得到了目标集合，使得第二参与方无法从目标集合中确定来自第一参与方的具体数据信息，但是，在某些场景下，第二参与方同样不希望自己的那些不属于交集数据集合的数据(即目标数据元素)被第一参与方所获得，因此，在这种情况下，可以执行本步骤而将目标集合中目标数据元素的值进行匿名化处理，使得目标数据元素的具体数值能够被隐藏起来，所以，即使后续步骤中第一参与方获得了目标集合，第一参与方也只能够判断出该目标数据元素不属于交集数据集合，但无法获得该目标数据元素的具体数值，从而起到了保护第二参与方的隐私数据的作用。

需要说明的是，对目标集合中目标数据元素的值进行匿名化处理，可以有多种不同的实施方式，例如，可以对目标数据元素的值进行置为预设字符值、添加随机数或加密中的任意一种处理，本实施例对此并不作具体限定。需要说明的是，预设字符值可以为预设的数字、字母或者其他特殊符号等，所以，将目标数据元素的值置为预设字符值，可以为将目标数据元素的值置为0或者置为“NULL”等，本实施例对此并不作具体限定。另外，对目标数据元素的值进行添加随机数的处理，可以为在目标数据元素中的任意位置添加随机数，本实施例对此也不作具体限定；此外，对目标数据元素的值进行加密处理，例如可以为对目标数据元素的值进行哈希加密，即计算目标数据元素的哈希值，本实施例对此同样不作具体限定。

需要说明的是，步骤510中对目标集合中目标数据元素的值进行匿名化处理，仅为对目标数据元素的值进行处理，并不改变目标数据元素在目标集合中的位置，即是说，数值进行了匿名化处理的目标数据元素，其在目标集合中会作为占位符，所以，进行了匿名化处理的目标集合和没有进行匿名化处理的目标集合，具有相同的元素个数，并且，交集数据集合在进行了匿名化处理的目标集合中的次序位置，和在没有进行匿名化处理的目标集合中的次序位置相同。

步骤520：向第一参与方发送经过匿名化处理的目标集合，使得第一参与方获得经过匿名化处理的目标集合，并根据第一数据集合和经过匿名化处理的目标集合得到第一目标交集数据。

本步骤中，由于在步骤510中对目标集合中目标数据元素的值进行了匿名化处理，因此可以向第一参与方发送经过匿名化处理的目标集合。由于交集数据集合在进行了匿名化处理的目标集合中的次序位置和在没有进行匿名化处理的目标集合中的次序位置相同，因此，能够便于第一参与方和第二参与方在互不泄露各自的隐私数据的情况下，利用各自接收到的目标集合中的交集数据集合对预测模型进行联邦学习的训练，从而能够在保护隐私信息不外泄的情况下，支持云计算技术中大数据分析的实现。

下面结合具体的应用场景对本申请实施例提供的技术方案进行具体说明。

如图6所示，图6是应用本申请实施例提供的数据集合处理方法支持联邦学习的广告转化效率预测任务的实现的场景示意图。在图6中，第一参与方201为商家平台，第二参与方202为广告平台，双方希望通过联邦学习实现对预测模型的训练，并且利用训练后的预测模型对广告转化效率进行预测。

首先，商家平台向第三参与方203发送第一数据集合，广告平台向第三参与方203发送第二数据集合，其中，第一数据集合为购买过该商家平台的商品的第一用户账号集合，第二数据集合为通过该广告平台浏览过该商家平台的商品的第二用户账号集合，另外，商家平台还向第三参与方203发送元素比例值。

当第三参与方203接收到第一用户账号集合和第二用户账号集合后，第三参与方203先计算第一用户账号集合和第二用户账号集合的交集，得到通过该广告平台购买该商家平台的商品的交集数据集合，然后确定该交集数据集合在第二用户账号集合的补集，并从该补集中随机选取若干个目标用户账号，接着将这些目标用户账号添加进该交集数据集合得到目标集合，使得该目标集合的元素个数与该交集数据集合的元素个数的比值等于元素比例值。

在第三参与方203获取到该目标集合之后，第三参与方203先将该目标集合中的目标用户账号的值置为“NULL”，使得在不改变目标集合的数据量以及不改变目标集合中数据的次序位置的情况下，能够把目标用户账号的具体数值隐藏起来以达到匿名化的目的，接着，第三参与方203将经过匿名化处理的目标集合发送给商家平台，并将没有经过匿名化处理的目标集合发送给广告平台。

当商家平台接收到经过匿名化处理的目标集合后，商家平台只需求取目标集合与本地的第一用户账号集合的交集，即可确定通过该广告平台购买该商家平台的商品的交集数据集合的具体账号信息。另外，虽然商家平台可以通过对目标集合和本地的第一用户账号集合进行比较判断而得到第二用户账号集合的目标用户账号在目标集合中的位置，但是由于目标用户账号的值已经被置为“NULL”，商家平台无法获得目标用户账号的具体数值，因此能够起到保护广告平台的隐私数据的作用。

当广告平台接收到没有经过匿名化处理的目标集合后，由于没有经过匿名化处理的目标集合包括了交集数据集合和目标用户账号，而且交集数据集合和目标用户账号均为广告平台的第二用户账号集合的子集，因此广告平台无法从目标集合中确定来自商家平台的具体账号信息，所以能够更好地保护商家平台的隐私信息，避免商家平台暴露在隐私信息泄露的风险之下。

另外，由于第三参与方203仅将目标集合中的目标用户账号的值置为“NULL”，并没有改变目标用户账号在目标集合中的位置，因此，在商家平台接收到的目标集合以及在广告平台接收到的目标集合中，交集数据集合具有相同的次序位置。此外，由于商家平台和广告平台均获取不了对方的用户账号的具体数值，因此，交集数据集合中的用户账号对应的标签信息只有商家平台具有，而交集数据集合中的用户账号对应的用户特征信息只有广告平台具有，所以，商家平台和广告平台能够在互不泄露用户账号的情况下对预测模型进行联邦学习的训练，当完成对预测模型的联邦学习的训练后，商家平台可以利用训练后的预测模型对广告转化效率进行预测，从而支持云计算技术中大数据分析的实现。

参照图7所示，图7是本申请实施例提供的一种数据处理方法的流程图。在本实施例中，以作为第一参与方的终端为执行主体为例进行说明，在图7中，该数据处理方法包括但不限于有以下步骤700至步骤900。

步骤700：向第三参与方发送第一数据信息，其中，第一数据信息包括第一数据集合。

本步骤中，第一数据信息可以是加密后的密文信息，也可以是未经加密的明文信息，可以根据具体的应用场景需求而进行适当的选择。第一数据信息包括有用于进行集合求交计算的第一数据集合，因此，对应地，第一数据集合也可以为加密后的密文信息或者为未经加密的明文信息。根据具体应用场景的不同，第一数据集合具体可以为不同的数据信息的集合，例如，第一数据集合可以为用户账号的集合、用户昵称的集合或者电话号码的集合等。

需要说明的是，在一些场景中，第一数据信息还可以包括有用于辅助计算的其他信息，本实施例对此并不作具体限定。例如，当第一数据集合为密文信息时，第一数据信息可以还包括有用于解密该密文信息的密钥；当第一数据集合为密文信息或者明文信息时，第一数据信息可以还包括有用于调整目标集合的数据量的元素比例值。

值得注意的是，在第一参与方执行步骤700之前，第一参与方可以先与第三参与方建立用于传输数据的安全信道以提高数据传输的安全性。第一参与方与第三参与方之间可以使用任意的方式建立安全信道，只要能够保证双方的通信内容安全即可，本实施例对此并不作具体限定。在一种可选的实现方式中，第一参与方与第三参与方共享一个用于双向消息加密的对称加密密钥，该对称加密密钥仅在第一参与方与第三参与方中使用，该对称加密密钥维持安全信道的形成，在安全信道中传输的数据，均需要先利用该对称加密密钥进行加密处理。该对称加密密钥可以由第一参与方或者第三参与方生成。当该对称加密密钥为由第一参与方生成，则第一参与方可以先获取来自第三参与方的加密公钥，然后，第一参与方利用该加密公钥对该对称加密密钥进行加密并发送，当第三参与方接收到经过加密的对称加密密钥，则第三参与方可以利用其保存的与该加密公钥对应的加密私钥对该对称加密密钥进行解密处理，从而获得该对称加密密钥；当该对称加密密钥为由第三参与方生成，则第三参与方可以先获取来自第一参与方的加密公钥，然后，第三参与方利用该加密公钥对该对称加密密钥进行加密并发送，当第一参与方接收到经过加密的对称加密密钥，则第一参与方可以利用其保存的与该加密公钥对应的加密私钥对该对称加密密钥进行解密处理，从而获得该对称加密密钥。另外，在一些安全性需求更强的场景下，在第一参与方与第三参与方进行信息交互之前，可以先要求双方执行双向远程证明，当双方均通过双向远程证明后，才允许双方建立安全信道或者进行数据交互。

步骤800：获取由第三参与方应用前面实施例的数据集合处理方法发送的目标集合。

本步骤中，由于步骤700中已经将第一数据集合发送给了第三参与方，因此第三参与方会应用前面实施例的数据集合处理方法向第一参与方发送目标集合，所以，第一参与方执行步骤800以获取到目标集合之后，即完成了第一参与方所希望进行的集合求交的处理。

需要说明的是，由于第一参与方获取到的目标集合是第三参与方应用前面实施例的数据集合处理方法而发送的，因此本实施例的步骤800与前面实施例的数据集合处理方法能够具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

步骤900：根据第一数据集合与目标集合得到第一目标交集数据。

本步骤中，由于在步骤800中获取到了由第三参与方应用前面实施例的数据集合处理方法发送的目标集合，因此第一参与方可以根据第一数据集合和目标集合得到第一目标交集数据，从而得到第一参与方所希望获取到的数据信息。

参照图8所示，本申请的一个实施例，对步骤900进行进一步的说明，步骤900可以包括但不限于有步骤910和步骤920。

步骤910：计算第一数据集合与目标集合的交集得到第一目标交集数据。

本步骤中，由于在步骤800中获取到了由第三参与方应用前面实施例的数据集合处理方法发送的目标集合，因此可以计算该目标集合与本地的第一数据集合的交集以得到第一目标交集数据，从而便于后续步骤可以利用该第一目标交集数据对预测模型进行联邦学习的训练。

步骤920：利用第一目标交集数据对预测模型进行联邦学习的训练。

本步骤中，由于在步骤910中得到了第一目标交集数据，因此可以与第二参与方配合，利用该第一目标交集数据对预测模型进行联邦学习的训练，从而能够支持云计算技术中大数据分析的实现。

需要说明的是，由于第三参与方也会向第二参与方发送目标集合，并且在第一参与方接收到的目标集合以及在第二参与方接收到的目标集合中，双方真实的交集数据(即第一目标交集数据)具有相同的次序位置，因此，第一参与方能够与第二参与方相配合，利用目标集合中双方真实的交集数据对预测模型进行联邦学习的训练。

参照图9所示，本申请的一个实施例，对数据处理方法进行进一步的说明，在第一数据信息还包括有元素比例值的情况下，在执行步骤920之前，该数据处理方法具体还可以包括有步骤1000和步骤1100。

步骤1000：计算目标集合的元素个数与第一目标交集数据的数据个数的比值，得到数据量比值；

步骤1100：当数据量比值等于元素比例值，确定第一目标交集数据的合法性为合法。

当第三参与方应用前面实施例的数据集合处理方法向第一参与方发送目标集合时，由于在数据传输过程中可能会受到攻击或者受到传输信道质量的影响，从而可能会导致目标集合中的数据发生变化。为了避免这个问题，本步骤中，当第一参与方在步骤910中通过计算第一数据集合与目标集合的交集而得到第一目标交集数据(即前面实施例中的交集数据集合)后，可以先计算目标集合的元素个数与第一目标交集数据的数据个数的比值以得到数据量比值，然后判断该数据量比值是否等于发送给第三参与方的元素比例值，当数据量比值等于元素比例值时，说明交集数据集合中的数据并没有发生变化，因此可以认为在第三参与方向第一参与方发送目标集合的过程中，并没有受到攻击或者所受到的传输信道质量的影响较小，所以，可以确定该第一目标交集数据的合法性为合法。另外，在确定第一目标交集数据的合法性为合法之后，即说明第一目标交集数据是安全的，因此可以利用该第一目标交集数据对预测模型进行联邦学习的训练，从而支持云计算技术中大数据分析的实现。

为了更加清楚的说明本申请实施例提供的技术方案的处理流程，下面以具体的示例进行说明。

如图10所示，图10是本申请一个具体示例提供的数据集合处理方法的流程原理图。在图10中，第一参与方201和第二参与方202希望通过第三参与方203的可信安全计算环境进行数据集合的求交处理。

图10中的数据集合处理方法包括有以下三个阶段：

(1)准备阶段：

首先，第一参与方201和第三参与方203之间，以及第二参与方202和第三参与方203之间，分别建立用于传输数据的安全信道；然后，第一参与方201根据当前应用场景在本地进行筛选，确定最适合当前应用场景的需要参与集合求交处理的样本集合G，第二参与方202也根据当前应用场景在本地进行筛选，确定最适合当前应用场景的需要参与集合求交处理的样本集合H，另外，第一参与方201还根据自身的需求，确定一个元素比例值r，该元素比例值r用于要求第一参与方201最后获取到的目标集合的元素个数与双方的实际交集的元素个数的比值为该元素比例值r，并且，该元素比例值r对第二参与方202保密；接着，第一参与方201将样本集合G和元素比例值r通过安全信道加密上传到第三参与方203，第二参与方202将样本集合H通过安全信道加密上传到第三参与方203。

(2)集合求交计算阶段：

首先，第三参与方203接收并解密来自第一参与方201的样本集合G和元素比例值r，以及接收并解密来自第二参与方202的样本集合H；然后，第三参与方203计算样本集合G和样本集合H之间的交集，得到交集数据集合I；接着，第三参与方203根据元素比例值r，从交集数据集合I在样本集合H的补集中随机抽取一定数量的目标样本C，并将该目标样本C和交集数据集合I混合组成新的集合M，使得交集数据集合I是集合M的子集，并且使得集合M与交集数据集合I的比值等于元素比例值r；然后，第三参与方203将集合M中的目标样本C的数值进行例如置为预设字符值、添加随机数或加密的匿名化处理，得到经过匿名化处理的集合M’；接着，第三参与方203将集合M’通过安全信道加密发送到第一参与方201，并且将集合M通过安全信道加密发送到第二参与方202。需要说明的是，第三参与方203在将集合M’和集合M对外发送之前，第三参与方203还可以将集合M中的样本和集合M’中的样本分别进行打乱并形成有序的样本队列，并保证相同的样本在集合M和集合M’中的次序位置对齐。

(3)结束阶段：

第二参与方202在接收并解密来自第三参与方203的集合M之后，将集合M保存；第一参与方201在接收并解密来自第三参与方203的集合M’之后，计算样本集合G和集合M’的交集得到交集数据集合I，并将交集数据集合I保存。需要说明的是，第一参与方201在计算样本集合G和集合M’的交集而得到交集数据集合I之后，还可以对交集数据集合I进行验证，当集合M’与交集数据集合I的比值等于元素比例值r，即说明交集数据集合I的合法性为合法。

参照图11，本申请实施例公开了一种数据集合处理装置，该数据集合处理装置110能够作为第三参与方以实现如前面实施例所述的数据集合处理方法，该数据集合处理装置110包括：

第一获取单元111，用于获取来自第一参与方的第一数据信息，其中，第一数据信息包括第一数据集合；

第二获取单元112，用于获取来自第二参与方的第二数据集合；

交集获取单元113，用于获取第一数据集合和第二数据集合的交集数据集合；

数据混合单元114，用于从交集数据集合在第二数据集合的补集中确定若干个目标数据元素，将若干个目标数据元素添加进交集数据集合得到目标集合；

第一发送单元115，用于向第一参与方发送目标集合，使得第一参与方获得目标集合并根据目标集合与第一数据集合得到第一目标交集数据；

第二发送单元116，用于向第二参与方发送目标集合，使得第二参与方获得目标集合并根据目标集合与第二数据集合得到第二目标交集数据。

在一实施例中，在第一数据信息还包括元素比例值的情况下，数据混合单元114具体包括：

补集确定单元，用于确定交集数据集合在第二数据集合的补集；

随机选取单元，用于从补集中随机选取若干个目标数据元素；

目标集合生成单元，用于将若干个目标数据元素添加进交集数据集合得到目标集合，使得目标集合的元素个数与交集数据集合的元素个数的比值等于元素比例值。

在一实施例中，第一发送单元115包括：

匿名处理单元，用于对目标集合中目标数据元素的值进行匿名化处理；

第一发送子单元，用于向第一参与方发送经过匿名化处理的目标集合，使得第一参与方获得经过匿名化处理的目标集合，并根据第一数据集合和经过匿名化处理的目标集合得到第一目标交集数据。

在一实施例中，匿名处理单元具体用于：

对目标集合中的目标数据元素的值进行置为预设字符值、添加随机数或加密中的任意一种处理。

在一实施例中，当第一参与方为商家平台，第一数据集合为购买过商家平台的商品的第一用户账号集合，第二参与方为广告平台，第二数据集合为通过广告平台浏览过商家平台的商品的第二用户账号集合，交集获取单元113具体用于：

计算第二用户账号集合和第一用户账号集合的交集，得到通过广告平台购买商家平台的商品的交集数据集合。

在一实施例中，当第一数据信息还包括元素比例值，目标数据元素为交集数据集合在第二用户账号集合的补集中的目标用户账号，数据混合单元114具体用于：

确定交集数据集合在第二用户账号集合的补集；

从补集中随机选取若干个目标用户账号；

将若干个目标用户账号添加进交集数据集合得到目标集合，使得目标集合的元素个数与交集数据集合的元素个数的比值等于元素比例值。

需要说明的是，由于本实施例的数据集合处理装置110能够作为第三参与方以实现如前面实施例所述的数据集合处理方法，因此本实施例的数据集合处理装置110与前面实施例所述的由第三参与方作为执行主体的数据集合处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

参照图12，本申请实施例还公开了一种数据处理装置，该数据处理装置120能够作为第一参与方以实现如前面实施例的数据处理方法，该数据处理装置120包括：

信息发送单元121，用于向前面所述的数据集合处理装置110发送第一数据信息，其中，第一数据信息包括第一数据集合；

数据获取单元122，用于获取由前面所述的数据集合处理装置110发送的目标集合。

在一实施例中，数据处理装置120还包括：

交集计算单元，用于计算第一数据集合与目标集合的交集得到第一目标交集数据；

模型训练单元，用于利用第一目标交集数据对预测模型进行联邦学习的训练。

在一实施例中，在第一数据信息还包括元素比例值的情况下，数据处理装置120还包括：

比值计算单元，用于计算目标集合的元素个数与第一目标交集数据的数据个数的比值，得到数据量比值；

合法判断单元，用于在数据量比值等于元素比例值的情况下，确定第一目标交集数据的合法性为合法。

需要说明的是，由于本实施例的数据处理装置120能够作为第一参与方以实现如前面实施例所述的数据处理方法，因此本实施例的数据处理装置120与前面实施例所述的由第一参与方作为执行主体的数据处理方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

另外，本申请实施例还公开了一种数据集合处理装置，该数据集合处理装置包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时，实现如前面任意实施例所述的数据集合处理方法。

另外，本申请实施例还公开了一种数据处理装置，该数据处理装置包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时，实现如前面任意实施例所述的数据处理方法。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时，用于实现如前面任意实施例所述的数据集合处理方法，或者实现如前面任意实施例所述的数据处理方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面任意实施例所述的数据集合处理方法，或者执行前面任意实施例所述的数据处理方法。

本申请的说明书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种数据集合处理方法，其特征在于，包括以下步骤：

获取来自第二参与方的第二数据集合；

2.根据权利要求1所述的数据集合处理方法，其特征在于，所述第一数据信息还包括元素比例值；

所述从所述交集数据集合在所述第二数据集合的补集中确定若干个目标数据元素，将若干个所述目标数据元素添加进所述交集数据集合得到目标集合，包括：

确定所述交集数据集合在所述第二数据集合的补集；

从所述补集中随机选取若干个目标数据元素；

将若干个所述目标数据元素添加进所述交集数据集合得到目标集合，使得所述目标集合的元素个数与所述交集数据集合的元素个数的比值等于所述元素比例值。

3.根据权利要求2所述的数据集合处理方法，其特征在于，所述向所述第一参与方发送所述目标集合，使得所述第一参与方获得所述目标集合并根据所述目标集合与所述第一数据集合得到第一目标交集数据，包括：

对所述目标集合中所述目标数据元素的值进行匿名化处理；

向所述第一参与方发送经过匿名化处理的所述目标集合，使得所述第一参与方获得经过匿名化处理的所述目标集合，并根据所述第一数据集合和经过匿名化处理的所述目标集合得到第一目标交集数据。

4.根据权利要求3所述的数据集合处理方法，其特征在于，所述对所述目标集合中所述目标数据元素的值进行匿名化处理，包括：

5.根据权利要求1所述的数据集合处理方法，其特征在于，所述第一参与方为商家平台，所述第一数据集合为购买过所述商家平台的商品的第一用户账号集合，所述第二参与方为广告平台，所述第二数据集合为通过所述广告平台浏览过所述商家平台的商品的第二用户账号集合；

所述获取所述第一数据集合和所述第二数据集合的交集数据集合，包括：

计算所述第一用户账号集合和所述第二用户账号集合的交集，得到通过所述广告平台购买所述商家平台的商品的交集数据集合。

6.根据权利要求5所述的数据集合处理方法，其特征在于，所述第一数据信息还包括元素比例值，所述目标数据元素为所述交集数据集合在所述第二用户账号集合的补集中的目标用户账号；

确定所述交集数据集合在所述第二用户账号集合的补集；

从所述补集中随机选取若干个所述目标用户账号；

7.一种数据处理方法，其特征在于，包括以下步骤：

获取由所述第三参与方应用权利要求1至6任意一项所述的数据集合处理方法发送的目标集合；

8.根据权利要求7所述的数据处理方法，其特征在于，所述根据所述第一数据集合与所述目标集合得到所述第一目标交集数据，包括：

计算所述第一数据集合与所述目标集合的交集得到所述第一目标交集数据；

利用所述第一目标交集数据对预测模型进行联邦学习的训练。

9.根据权利要求8所述的数据处理方法，其特征在于，所述第一数据信息还包括元素比例值；在利用所述第一目标交集数据对预测模型进行联邦学习的训练之前，所述数据处理方法还包括：

计算所述目标集合的元素个数与所述第一目标交集数据的数据个数的比值，得到数据量比值；

当所述数据量比值等于所述元素比例值，确定所述第一目标交集数据的合法性为合法。

10.一种数据集合处理装置，其特征在于，包括：

第二获取单元，用于获取来自第二参与方的第二数据集合；

11.根据权利要求10所述的数据集合处理装置，其特征在于，所述第一数据信息还包括元素比例值；

所述数据混合单元具体包括：

12.根据权利要求11所述的数据集合处理装置，其特征在于，所述第一发送单元包括：

13.一种数据处理装置，其特征在于，包括：

信息发送单元，用于向权利要求10至12任意一项所述的数据集合处理装置发送第一数据信息，其中，所述第一数据信息包括第一数据集合；

14.一种数据集合处理装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至6任意一项所述的数据集合处理方法。

15.一种计算机可读存储介质，其特征在于：其中存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时用于实现如权利要求1至6任意一项所述的数据集合处理方法或者实现如权利要求7至9任意一项所述的数据处理方法。