CN112685395A

CN112685395A - 纵向联邦统计中的无序数据去重方法、装置、设备及介质

Info

Publication number: CN112685395A
Application number: CN202011599999.8A
Authority: CN
Inventors: 马国强; 谭明超; 范涛; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-20
Anticipated expiration: 2040-12-28
Also published as: CN112685395B

Abstract

本发明公开了一种纵向联邦统计中的无序数据去重方法、装置、终端设备、存储介质以及计算机程序产品，通过接收纵向联邦中的其他参与方发送的各第一幂运算结果；在本地对各预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各第二哈希数据进行幂运算得到各第二幂运算结果；按照各预设对齐标识聚合各第一幂运算结果和各第二幂运算结果得到各聚合结果，并针对各聚合结果进行二次幂运算得到各二次幂运算结果；确定各二次幂运算结果中相等结果在各预设对齐标识中指向的目标对齐标识，并根据目标对齐标识对第一无序数据和第二无序数据进行去重处理。本发明能够在保证纵向联邦数据隐私安全的前提下，对该联邦中的无序数据进行去重。

Description

纵向联邦统计中的无序数据去重方法、装置、设备及介质

技术领域

本发明涉及联邦数据去重技术领域，尤其涉及一种纵向联邦统计中的无序数据去重方法、装置、终端设备、存储介质以及计算机程序产品。

背景技术

时下，科学技术的发展早已步入数据信息化时代，而针对数据的统计应用也已经变得越来越广泛。在数据统计场景中，针对重复的数据进行去重处理是十分常见的操作，而重复的数据当中当然不能排除无序数据，即，对于统计得到的多行数据，若以选择特定的统计特征为列所构成的集合是相等的，则认为该多行数据等价，从而仅需要保留该多行数据当中的其中一行。

然而，在多个拥有自有数据的用户联合组成纵向的联邦场景之后，基于对各个用户自有数据的隐私安全考虑，就无法像单边场景一样先对无序数据进行排序后再哈希进而实现去重，即，在纵向联邦场景中难以将多方数据聚合在一起然后进行排序去重，且尽管在纵向联邦场景下可基于加密传输的方式完成数据聚合，目前纵向联邦场景中的数据去重方案也仅仅是针对特征列固定的数据进行去重处理。

综上，目前在纵向联邦场景下的数据去重方案，尚无法针对无序数据进行去重。

发明内容

本发明的主要目的在于提供一种纵向联邦统计中的无序数据去重方法、装置、终端设备、存储介质以及计算机程序产品，旨在解决现有技术中，纵向联邦场景下的数据去重方案，尚无法针对无序数据进行去重的技术问题。

为实现上述目的，本发明提供一种纵向联邦统计中的无序数据去重方法，所述纵向联邦统计中的无序数据去重方法应用于纵向联邦中的任意一个参与方，所述纵向联邦统计中的无序数据去重方法包括：

接收纵向联邦中的其他参与方发送的各第一幂运算结果，其中，各所述第一幂运算结果为所述其他参与方在本地，对各预设对齐标识下的第一无序数据分别进行哈希运算后再基于预设随机数进行幂运算得到；

在本地对各所述预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各所述第二哈希数据进行幂运算得到各第二幂运算结果；

按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果；

确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识，并根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理。

进一步地，所述预设对齐标识为纵向联邦中各参与方预先执行数据对齐后，已对齐部分自有无序数据的行标识，各所述参与方预先协商一个在各自本地进行哈希运算的哈希函数，

所述在本地对各所述预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各所述第二哈希数据进行幂运算得到各第二幂运算结果的步骤，包括：

在本端的自有无序数据中提取所述行标识下的各行第二无序数据；

调用所述哈希函数分别针对各行所述第二无序数据中，属于各第二特征列的特征数据进行哈希运算得到各哈希结果；

将属于同一个所述行标识的各哈希结果标记为一行第二哈希数据，并基于预设质数针对各行所述第二哈希数据分别进行幂运算得到各第二幂运算结果，其中，所述预设质数为预先与所述其他参与方协商确定。

进一步地，所述在本端的自有无序数据中提取所述行标识下的各行第二无序数据的步骤，包括：

接收预设数据去重请求，并解析所述预设数据去重请求得到行标识，其中，所述行标识的数量大于或者等于一；

在本端检测自有无序数据中各第二特征列下属于所述行标识的特征数据；

将相同所述行标识下的所述特征数据作为一行第二无序数据，以提取到各行所述第二无序数据。

进一步地，所述按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果的步骤，包括：

遍历各所述第一幂运算结果和各所述第二幂运算结果各自映射的所述预设对齐标识；

将映射相同所述预设标识的所述第一幂运算结果和所述第二幂运算结果进行聚合以得到各所述预设标识各自映射的聚合结果；

在本地针对各所述聚合结果分别进行二次幂运算得到各所述预设对齐标识各自映射的二次幂运算结果。

进一步地，所述确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识的步骤，包括：

检测各所述二次幂运算结果中的相等结果；

将各所述相等结果在各所述预设对齐标识中各自映射的预设对齐标识确定为目标对齐标识。

进一步地，所述根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理的步骤，包括：

确定所述目标对齐标识分别在各行所述第二无序数据中指向的目标第二去重数据，并在各所述目标第二去重数据中确定唯一的保留数据；

将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除；

确定所述保留数据在所述目标对齐标识中对应的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标对齐标识发送至所述其他参与方，以供所述其他参与方确定所述其他目标对齐标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

进一步地，在所述将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除的步骤之后，还包括：

向所述其他参与方分发携带有所述目标对齐标识的去重指令，以供所述其他参与方各自在本地，从所述目标对齐标识中确定唯一的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

此外，为实现上述目的，本发明还提供一种纵向联邦统计中的无序数据去重装置，所述纵向联邦统计中的无序数据去重装置应用于纵向联邦中的任意一个参与方，所述纵向联邦统计中的无序数据去重装置包括：

接收模块，用于接收纵向联邦中的其他参与方发送的各第一幂运算结果，其中，各所述第一幂运算结果为所述其他参与方在本地，对各预设对齐标识下的第一无序数据分别进行哈希运算后再基于预设随机数进行幂运算得到；

第一计算模块，用于在本地对各所述预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各所述第二哈希数据进行幂运算得到各第二幂运算结果；

第二计算模块，用于按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果；

去重模块，用于确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识，并根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理。

此外，为实现上述目的，本发明还提供一种终端设备，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦统计中的无序数据去重程序，所述纵向联邦统计中的无序数据去重程序被所述处理器执行时实现如上述中的纵向联邦统计中的无序数据去重方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的纵向联邦统计中的无序数据去重方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，所述计算机程序产品包括有计算机程序，所述计算机程序被处理器执行时实现如上述的纵向联邦统计中的无序数据去重方法的步骤。

本发明提出的纵向联邦统计中的无序数据去重方法、装置、终端设备、存储介质以及计算机程序产品，通过纵向联邦中的任意一个参与方接收纵向联邦中的其他参与方发送的各第一幂运算结果，其中，各所述第一幂运算结果为所述其他参与方在本地，对各预设对齐标识下的第一无序数据分别进行哈希运算后再基于预设随机数进行幂运算得到；在本地对各所述预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各所述第二哈希数据进行幂运算得到各第二幂运算结果；按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果；确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识，并根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理。

本发明在纵向联邦场景中，基于参与方利用利用数论幂运算的可交换性质，针对已经进行数据对齐后的自有无序数据进行幂运算，并通过比对幂运算结果是否相等以完成在纵向联邦场景下对无序数据的去重，此外，因为其他参与方在进行幂运算过程中利用了随机数，从而接收该幂运算结果的参与方无法还原以对其他参与方的数据隐私安全构成威胁，达成了其他参与方自有数据不出本地，满足在纵向联邦中保护数据隐私的要求。

另一方面，基于数论幂运算的性质，接收其他参与方传递幂运算结果的当前参与方和该其他参与方均能够扩展成更多方，提升了针对纵向联邦数据统计中无序数据进行去重的扩展性。

附图说明

图1是本发明实施例方案涉及终端设备的硬件运行的结构示意图；

图2是本发明一种纵向联邦统计中的无序数据去重方法一实施例的流程示意图；

图3是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及纵向联邦的硬件框架示意图；

图4是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中纵向联邦的参与方在本端统计的自有无序数据；

图5是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中纵向联邦的参与方各自自有无序数据经过对齐后的样本数据；

图6是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中纵向联邦的参与方各自对对齐后的自有无序数据进行哈希运算后的哈希数据；

图7是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中纵向联邦的参与方在本端对各自的哈希数据进行幂运算之后的幂运算结果；

图8是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中当前参与方在本端对幂运算结果先进行聚合在进行二次幂运算之后的二次幂运算结果；

图9是本发明一种纵向联邦统计中的无序数据去重方法一实施例中所涉及应用场景中纵向联邦的参与方各自所拥有经过去重处理后的自有无序数据；

图10是本发明一种纵向联邦统计中的无序数据去重系统的模块结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及终端设备的硬件运行环境的结构示意图。

需要说明的是，图1即可为终端设备的硬件运行环境的结构示意图。本发明实施例终端设备可以是PC，便携计算机等终端设备。

如图1所示，该终端设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及分布式任务的处理程序。其中，操作系统是管理和控制样本终端设备硬件和软件资源的程序，支持分布式任务的处理程序以及其它软件或程序的运行。

在图1所示的终端设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的纵向联邦统计中的无序数据去重程序，并执行以下操作：

进一步地，所述预设对齐标识为纵向联邦中各参与方预先执行数据对齐后，已对齐部分自有无序数据的行标识，各所述参与方预先协商一个在各自本地进行哈希运算的哈希函数，处理器1001可以调用存储器1005中存储的纵向联邦统计中的无序数据去重程序，还执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的纵向联邦统计中的无序数据去重程序，还执行以下操作：

检测各所述二次幂运算结果中的相等结果；

进一步地，处理器1001可以调用存储器1005中存储的纵向联邦统计中的无序数据去重程序，在执行将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除之后，还执行以下操作：

基于上述的结构，提出本发明纵向联邦统计中的无序数据去重方法的各个实施例。

请参照图2，图2为本发明纵向联邦统计中的无序数据去重方法第一实施例的流程示意图。

本发明实施例提供了纵向联邦统计中的无序数据去重方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例纵向联邦统计中的无序数据去重方法应用于上述作为纵向联邦中其中一个参与方的终端设备，本发明实施例终端设备可以是PC，便携计算机等终端设备，在此不做具体限制。

本实施例纵向联邦统计中的无序数据去重方法包括：

步骤S100，接收纵向联邦中的其他参与方发送的各第一幂运算结果，其中，各所述第一幂运算结果为所述其他参与方在本地，对各预设对齐标识下的第一无序数据分别进行哈希运算后再基于预设随机数进行幂运算得到；

需要说明的是，在本实施例中，请参照如图3所示的纵向联邦的硬件框架，以及图4所示的纵向联邦中各参与方在本端统计的自有无序数据，纵向联邦中各参与方包括A方(图3中所示的参与方A设备)和B方(图3中所示的参与方B1、B2...B_N设备，此处，B方具体可以为该B1、B2...B_N方设备当中的任意一个设备)，A方和B方各自在本地以用户各自的id作为横向的标识(例如，u1、u2、u3、u4和u5)，并以用户的不同特征维度作为竖向的备选列(例如，第一列、第二列至第六列)，将各用户各自属于不同特征维度的特征数据(例如，1、2、3至9)填充至对应位置，以此形成各行数据来统计得到各参与方(A方和B方)各自本端的自有无序数据。

在由多个参与方组建构成的纵向联邦中，除当前参与方之外的各个其他参与方在本地各自基于接收到的预设数据去重请求，在自有无序数据中选取需要进行数据去重的各第一无序数据，并基于该各第一无序数据分别进行哈希运算得到各哈希数据，然后基于预设随机数针对各哈希数据进行幂运算得到各第一幂运算结果，并将该各第一幂运算结果传递至当前参与方，当前参与方则接收该其他参与方传递的各第一幂运算结果用于后续聚合。

需要说明的是，在本实施例中，预设数据去重请求具体可以由作为其他参与方终端设备自动触发或者基于该终端设备的用户人为触发，自动或者人为触发该预设数据去重请求时，同步配置用于在本端自有无序数据中提取要判断是否去重的数据的预设对齐标识，该预设对齐标识为纵向联邦中各参与方预先对各自的自有无序数据执行数据对齐后，已对齐的部分自有无序数据的行标识。

具体地，例如，在由参与方A和参与方B(为便于阐述，后文中均以“A方”和“B方”对应代替“参与方A”和“参与方B”进行说明)联合构建的纵向联邦中，A方和B方基于各自所拥有的如图4所示的自有无序数据，使用现有成熟的隐私保护ID交集算法，求取得到该A方和B方各自的无序数据中已对齐的如图5所示的部分自有无序数据。

需要说明的是，在本实施例中，纵向联邦中的各参与方预先基于协商确定出用于进行幂运算的预设质数，该预设质数包括第一质数—g和第二质素—n，且，在数论中，g为模n的原根，应当理解的是，本实施例中各参与反在本地针对无序数据进行的幂运算即为数论中成熟的幂运算；此外，各参与方在预先协商质数g和n的同时，还进一步协商约定一个各自在本地针对无序数据进行哈希运算的哈希函数—H(x)，其中，其中H(x)对于输入的x(一行无序中的各特征数据)进行哈希运算(签名)后可得到一个整数。

具体地，例如，在由A方和B方联合构建的纵向联邦中，作为其他参与方的B方在本地基于该已对齐的部分自有无序数据的行标识—u1、u2和u3，自动触发一个预设数据去重请求，从而按照该行标识—u1、u2和u3从本地自有无序数据中提取得到分别以该行标识—u1、u2和u3所标识，属于“第四行”、“第五行”和“第六行”的3行第一无序数据之后，B方即开始对每一行的各个特征数据分别利用预先约定的哈希函数H(x)进行签名，从而得到如图6右侧表格所示以u1、u2和u3标识的3行哈希数据(该3行哈希数据的每一行均由经过哈希函数H(x)签名后的各个哈希结果组成)，再然后，B方基于预先协商的第一质数—g和第二质数—n和自己随机生成的随机数b，按照如下所示的幂运算规则对每一行哈希数据执行幂运算得到3个如图7右侧表格所示以u1、u2和u3标识的3个第一幂运算结果(bop)，最后，B方将在本地计算得到的该3个第一幂运算结果传递至A方。

幂运算规则：((((g^b)^H(x1))^H(x2))^H(x3))…

其中“^”表示幂运算，即，对于每一行：ret＝g^b，对于每一列:ret＝ret^(H(xi))％n，因为幂运算(g^x)^y＝g^(x*y)，所以最终每行数据最终的结果是g^(b*H(x1)*H(x2)*…H(xn))％n。

步骤S200，在本地对各所述预设对齐标识下的第二无序数据分别进行哈希运算得到各第二哈希数据，针对各所述第二哈希数据进行幂运算得到各第二幂运算结果；

当前参与方在接收到其他参与方传递的各个第一幂运算结果之后，当前参与方随即在本地自有无序数据中提取预设对齐标识下的各行第二无序数据，并通过调用其他参与方所使用相同的哈希函数，对该第二无序数据先进行哈希运算得到各行哈希数据，然后，继续针对各行哈希数据进行幂运算以得到各个第二幂运算结果。

需要说明的是，在本实施例中，纵向联邦中的各参与方各自在本地提取无误数据，然后针对该无序数据进行哈希运算和幂运算的过程是一致的。

进一步地，在一种可行的实施例中，步骤S200，可以包括：

步骤S201，在本端的自有无序数据中提取所述行标识下的各行第二无序数据；

需要说明的是，在本实施例中，为了能够判断自有无序数据中各条以用户id(u1、u2...)标识的无序数据是否相同，各参与方在本地从各自的自有无序数据中提取出的无序数据的条数均大于等于一，即，至少需要保证提取出两行以不同用户id标识的无序数据，才能够判断该两行无序数据是否相同从而需要进行去重处理。

步骤S202，调用所述哈希函数分别针对各行所述第二无序数据中，属于各第二特征列的特征数据进行哈希运算得到各哈希结果；

步骤S203，将属于同一个所述行标识的各哈希结果标记为一行第二哈希数据，并基于预设质数针对各行所述第二哈希数据分别进行幂运算得到各第二幂运算结果，其中，所述预设质数为预先与所述其他参与方协商确定。

具体地，例如，A方在本地接收到了B方所传递的3个第一幂运算结果之后，A方随即在本地自动触发预设数据去重请求，并解析该预设数据去重请求以从本地自有无序数据中提取得到分别以行标识—u1、u2和u3所标识、属于“第一行”、“第二行”和“第三行”的3行第二无序数据，然后，A方即开始对每一行的各个特征数据分别利用预先约定的哈希函数H(x)进行签名，从而得到如图6左侧表格所示以u1、u2和u3标识的3行哈希数据(该3行哈希数据的每一行均由经过哈希函数H(x)签名后的各个哈希结果组成)，再然后，A方基于预先协商的第一质数—g和第二质数—n，按照如下所示的幂运算规则对每一行哈希数据执行幂运算得到3个如图7左侧表格所示以u1、u2和u3标识的3个第二幂运算结果(aop)。

幂运算规则：(((g^H(x1))^H(x2))^H(x3))…

其中“^”表示幂运算，即，对于每一行：ret＝g，对于每一列:ret＝ret^(H(xi))％n，因为幂运算(g^x)^y＝g^(x*y)，所以最终每行数据最终的结果是g^(H(x1)*H(x2)*…H(xn))％n。

进一步地，在一种可行的实施例中，在上述步骤S201，在本端的自有无序数据中提取所述行标识下的各行第二无序数据，可以包括：

步骤S2011，接收预设数据去重请求，并解析所述预设数据去重请求得到行标识，其中，所述行标识的数量大于或者等于一；

当前参与方在接收到其他参与方传递的各第一幂运算结果之后，可在本端输出一提示消息然后接收基于该提示消息触发的预设数据去重请求，进而解析该预设数据去重请求以从该预设数据去重请求中，提取得到一个或者多个行标识。

需要说明的是，在本实施例中，行标识为作为当前参与方的终端设备，自动触发或者基于该终端设备的用户人为触发预设数据去重请求时，同步配置的一个或者多个用于在本端自有无序数据中提取要判断是否去重的数据的预设对齐标识，该预设对齐标识为纵向联邦中各参与方预先对各自的自有无序数据执行数据对齐后，已对齐的部分自有无序数据的行标识。此外，提示消息具体可以为用于提醒作为当前参与方的终端设备的用户，其他参与方当前正发起针对各自自有无序数据判断是否需要进行去重处理的请求，以令用户确认是否响应该请求并选取本端自有无序数据中的待去重数据进行判断和执行数据去重处理，应当理解的是，基于实际应用的不同设计需要，该提示消息的具体内容可以被设定为任意要求内容，本发明纵向联邦统计中的无序数据去重方法并不针对该提示消息的具体内容进行限定。

具体地，例如，在由A方和B方联合构建的纵向联邦中，当前参与方—A方在接收到B方传递的3个第一幂运算结果(bop)之后，当A方在本端输出一个提示消息，若当A方接收到了基于用户或者本端自动输入的确认反馈从而封装A方和B方预先使用隐私保护ID交集算法求取得到的已对齐部分自有无序数据的行标识(如图5所示部分自有无序数据的行标识—u1、u2和u3)，进而触发的预设数据去重请求，则当A方基于时下成熟的指令解析技术解析该预设数据去重请求，并从该预设数据去重请求中提取得到行标识—u1、u2和u3。

步骤S2012，在本端检测自有无序数据中各第二特征列下属于所述行标识的特征数据；

步骤S2013，将相同所述行标识下的所述特征数据作为一行第二无序数据，以提取到各行所述第二无序数据。

当前参与方在解析预设数据去重请求从而提取出行标识之后，当前参与方随即在本端已经统计的自有无序数据中，检测各个统计特征下分别属于该行标识的特征数据，然后，当前参与方将该特征数据中隶属相同的行标识的各特征数据作为一行第二无序数据，进而得到按照各个行标识的各行第二无序数据。

具体地，例如，A方在基于从接收到的预设数据去重请求中解析出的行标识—u1、u2和u3，在自有无序数据中检测统计特征“第一列”、“第二列”和“第三列”所标识的每一列特征数据中，各自属于该行标识—u1、u2和u3的9个特征数据，然后，A方将该9个特征数据中，处于行标识—u1下的3个特征数据作为一行第二无序数据、处于行标识—u2下的3个特征数据作为另一行第二无序数据，以及处于行标识—u1下的3个特征数据作为又一行第二无序数据，从而得到本端自有无序数据中提取得到的三行第二无序数据。

步骤S300，按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果；

当前参与方在本地针对无序数据先后进行哈希运算和幂运算以得到各个第二幂运算结果之后，当前参与方随即按照各第一幂运算结果和各第二幂运算结果所拥有相同的预设对齐标识，将对应的第一幂运算结果和第二幂运算结果聚合得到各个聚合结果，然后，当前参与方针对该各个聚合结果再一次进行幂运算以得到各个二次幂运算结果。

进一步地，在一种可行的实施例中，步骤S300，可以包括：

步骤S301，遍历各所述第一幂运算结果和各所述第二幂运算结果各自映射的所述预设对齐标识；

步骤S302，将映射相同所述预设标识的所述第一幂运算结果和所述第二幂运算结果进行聚合以得到各所述预设标识各自映射的聚合结果；

步骤S303，在本地针对各所述聚合结果分别进行二次幂运算得到各所述预设对齐标识各自映射的二次幂运算结果。

需要说明的是，在本实施例中，纵向联邦的各参与方在针对从自有无序数据中提取出的经过对齐之后的无序数据，并针对该无序数据进行哈希运算得到哈希数据，以及进一步针对哈希数据进行幂运算得到幂运算结果的过程中，该哈希数据和幂运算结果均与预设对齐标识之间存在一一对应的映射关系。

具体地，例如，A方在本地针对接收到的如图7右侧表格所示以行标识u1、u2和u3分别标识的3个第一幂运算结果，以及在本地针对如图5左侧表格所示以行标识u1、u2和u3分别标识的3行第二无序数据进行哈希运算得到如图6左侧表格所示以行标识u1、u2和u3分别标识的3行哈希数据，并进一步针对该3行哈希数据进行幂运算得到如图7左侧表格所示以行标识u1、u2和u3分别标识的3行第二幂运算结果之后，A方在本地遍历该3行第一幂运算结果和该3行第二幂运算结果各自所映射的行标识，并遍历得到具体的映射对应关系为：

第1行第一幂运算结果映射行标识u1；第1行第二幂运算结果也映射行标识u1；

第2行第一幂运算结果映射行标识u2；第2行第二幂运算结果也映射行标识u2；

第3行第一幂运算结果映射行标识u3；第3行第二幂运算结果也映射行标识u3。

A方在本地遍历得到该3行第一幂运算结果和该3行第二幂运算结果各自所映射行标识的映射对应关系之后，随即将图7两个表格所示同样都是映射行标识u1的第1行第一幂运算结果和第1行第二幂运算结果，聚合在一起作为第一聚合结果，并，将同样都是映射行标识u2的第2行第一幂运算结果和第2行第二幂运算结果，聚合在一起作为第二聚合结果，以及，将同样都是映射行标识u3的第3行第一幂运算结果和第3行第二幂运算结果，聚合在一起作为第三聚合结果。

最后，A方在本地进一步利用数论的幂运算针对该第一聚合结果进行二次幂运算得到如图8表格所示以行标识u1标识的第1行二次幂运算结果，并，利用数论的幂运算针对该第二聚合结果进行二次幂运算得到如图8表格所示以行标识u2标识的第2行二次幂运算结果，以及，利用数论的幂运算针对该第三聚合结果进行二次幂运算得到如图8表格所示以行标识u3标识的第3行二次幂运算结果。

步骤S400，确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识，并根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理。

当前参与方在将与相同预设对齐标识对应的第一幂运算结果和第二幂运算结果聚合得到各个聚合结果，并针对该各个聚合结果再一次进行幂运算以得到各个二次幂运算结果之后，当前参与方先确定出该各个二次幂运算结果当中的相等结果，然后，进一步确定该相等结果各自在预设对齐标识当中映射指向的各个目标对齐标识，最后，基于该各个目标对齐标识确定第一无序数据和第二无序数据当中需要去重的数据并执行去重处理。

进一步地，在一种可行的实施例中，步骤S400中，“确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识”的步骤，可以包括：

步骤S401，检测各所述二次幂运算结果中的相等结果；

步骤S402，将各所述相等结果在各所述预设对齐标识中各自映射的预设对齐标识确定为目标对齐标识。

具体地，例如，A方在本地进一步利用数论的幂运算分别针对3个聚合

结果进行二次幂运算得到如图8表格所示分别以行标识u1、u2以及u3标识的3行二次幂运算结果之后，A方检测到该3行二次幂运算结果当中，第1行二次幂运算结果与第2行二次幂运算结果为相等结果，从而，A方进一步将该第1行二次幂运算结果与第2行二次幂运算结果各自映射的行标识u1和u2确定为标识重复无序数据的两个目标对齐标识。

进一步地，在一种可行的实施例中，步骤S400中，“根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理”的步骤，可以包括：

步骤S403，确定所述目标对齐标识分别在各行所述第二无序数据中指向的目标第二去重数据，并在各所述目标第二去重数据中确定唯一的保留数据；

当前参与方基于各目标对齐标识分别与各行第二无序数据之间的一一对应关系，确定目标对齐标识在各行第二无序数据中所指向的目标第二去重数据，然后随机在该目标第二去重数据中确定出一条唯一需要保留的保留数据。

具体地，例如，当A方将如图8表格所示的3行幂运算结果中的第1行二次幂运算结果，与第2行二次幂运算结果各自映射的行标识u1和u2，确定为标识重复无序数据的两个目标对齐标识之后，A方随即将该行标识u1和u2在如图5左侧表格所示的3行第二无序数据中确定由该行标识u1和u2所标识指向的第1行第二无序数据以及第2行无序数据，是在联合B方第一无序数据之后、重复从而需要进行去重的两行目标第二去重数据，然后，A方随机在该两行目标第二无序数据中，确定行标识u1所标识的第1行第二无序数据为唯一一行需要进行保留的保留数据。

步骤S404，将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除；

当前参与方在从目标第二去重数据中确定出唯一的需要保留的保留数据之后，随即将该目标第二去重数据中，除开该保留数据之外的其他全部目标第二去重数据进行清除。

具体地，例如，当A方在从如图5左侧表格所示行标识u1和u2各自所标识的两行目标第二去重数据中，确定行标识u1所标识的第1行第二无序数据为需要进行保留的保留数据之后，A方随即将行标识u2所标识的目标第二去重数据进行清除，从而得到如图9左侧表格所示经过去重处理之后的自有无序数据。

步骤S405，确定所述保留数据在所述目标对齐标识中对应的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标对齐标识发送至所述其他参与方，以供所述其他参与方确定所述其他目标对齐标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

当前参与方将从目标第二去重数据中随机确定的唯一保留数据，在目标对齐标识当中所映射的目标对齐标识确定为保留标识，然后，将该目标对齐标识当中，除开该保留标识之外的其他的目标对齐标识传递至其他参与方，其他参与方在接收到该目标对齐标识之后，直接在本地基于各行第一无序数据各自与该目标对齐标识之间的一一对应关系，确定该目标对齐标识在该各行第一无序数据中所指向的目标第一去重数据，然后直接清除该目标第一去重数据。

具体地，例如，A方在从如图5左侧表格所示行标识u1和u2各自所标识的两行目标第二去重数据中，确定行标识u1所标识的第1行第二无序数据为需要进行保留的保留数据之后，进一步将行标识u1确定为保留标识，并将行标识u1和u2中的行标识u2下发至B方，在B方接收到该行标识u2之后，直接将该行标识u2在如图5右侧表格所示的3行第一无序数据中，确定由该行标识u2所标识指向的第2行第一无序数据，是在联合A方第二无序数据之后、重复从而需要进行去重的目标第一去重数据，并直接清除该目标第一去重数据，从而得到如图9右侧表格所示经过去重处理之后的自有无序数据。

进一步地，在另一种可行的实施例中，在上述步骤S404，将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除之后，本发明纵向联邦统计中的无序数据去重方法，还可以包括：

步骤S406，向所述其他参与方分发携带有所述目标对齐标识的去重指令，以供所述其他参与方各自在本地，从所述目标对齐标识中确定唯一的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

当前参与方在确定出目标对齐标识之后，将该目标对齐标识封装至分发给其他参与方的去重指令当中，其他参与方在本地接收到该去重指令之后，解析提取出该目标对齐标识，并随机在该目标对齐标识中确定其中一个目标对齐标识作为唯一的保留标识，然后，其他参与方即可基于各行第一无序数据各自与目标对齐标识之间的一一对应关系，确定该目标对齐标识中除开保留标识之外的其他的目标对齐标识，在该各行第一无序数据中所指向的目标第一去重数据，然后直接清除该目标第一去重数据。

具体地，例如，当A方将如图8表格所示的3行幂运算结果中的第1行二次幂运算结果，与第2行二次幂运算结果各自映射的行标识u1和u2，确定为标识重复无序数据的两个目标对齐标识之后，即将该行标识u1和u2封装作为去重指令下发给B方，B方在接收到该去重指令之后，在本地解析提取出行标识u1和u2，并随机确定行标识u1作为保留标识，然后，B方在本直接将该标识u1和u2中的行标识u2，在如图5右侧表格所示的3行第一无序数据中所标识指向的第2行第一无序数据，是在联合A方第二无序数据之后、重复从而需要进行去重的目标第一去重数据，并直接清除该目标第一去重数据，从而得到如图9右侧表格所示经过去重处理之后的自有无序数据。

需要说明的是，在本实施例中，A方将行标识u1和u2封装作为去重指令下发至B方，以由B方随机确定u1作为保留标识之后，B方可向A方返回该保留标识(u1)以供A方在本地确定行标识u1和u2中除开该保留标识(u1)之外的行标识u2，在本地如图5左侧表格所示的3行第二无序数据中，清除该行标识u2指向的第2行第二无序数据，进而得到如图9左侧表格所示经过去重处理之后的自有无序数据。

在本实施例中，通过在由多个参与方组建构成的纵向联邦中，除当前参与方之外的各个其他参与方在本地各自基于接收到的预设数据去重请求，在自有无序数据中选取需要进行数据去重的各第一无序数据，并基于该各第一无序数据分别进行哈希运算得到各哈希数据，然后基于预设随机数针对各哈希数据进行幂运算得到各第一幂运算结果，并将该各第一幂运算结果传递至当前参与方；当前参与方在接收到其他参与方传递的各个第一幂运算结果之后，随即在本地自有无序数据中提取预设对齐标识下的各行第二无序数据，并通过调用其他参与方所使用相同的哈希函数，对该第二无序数据先进行哈希运算得到各行哈希数据，然后，继续针对各行哈希数据进行幂运算以得到各个第二幂运算结果；当前参与方按照各第一幂运算结果和各第二幂运算结果所拥有相同的预设对齐标识，将对应的第一幂运算结果和第二幂运算结果聚合得到各个聚合结果，然后，当前参与方针对该各个聚合结果再一次进行幂运算以得到各个二次幂运算结果；当前参与方先确定出该各个二次幂运算结果当中的相等结果，然后，进一步确定该相等结果各自在预设对齐标识当中映射指向的各个目标对齐标识，最后，基于该各个目标对齐标识确定第一无序数据和第二无序数据当中需要去重的数据并执行去重处理。

此外，请参照图10，本发明实施例还提出一种纵向联邦统计中的无序数据去重装置，所述纵向联邦统计中的无序数据去重装置应用于纵向联邦中的任意一个参与方，所述纵向联邦统计中的无序数据去重装置包括：

优选地，所述预设对齐标识为纵向联邦中各参与方预先执行数据对齐后，已对齐部分自有无序数据的行标识，各所述参与方预先协商一个在各自本地进行哈希运算的哈希函数，所述第一计算模块，包括：

提取单元，用于在本端的自有无序数据中提取所述行标识下的各行第二无序数据；

哈希运算单元，用于调用所述哈希函数分别针对各行所述第二无序数据中，属于各第二特征列的特征数据进行哈希运算得到各哈希结果；

幂运算单元，用于将属于同一个所述行标识的各哈希结果标记为一行第二哈希数据，并基于预设质数针对各行所述第二哈希数据分别进行幂运算得到各第二幂运算结果，其中，所述预设质数为预先与所述其他参与方协商确定。

优选地，所述提取单元，包括：

接收子单元，用于接收预设数据去重请求，并解析所述预设数据去重请求得到行标识，其中，所述行标识的数量大于或者等于一；

检测子单元，用于在本端检测自有无序数据中各第二特征列下属于所述行标识的特征数据；

标记子单元，用于将相同所述行标识下的所述特征数据作为一行第二无序数据，以提取到各行所述第二无序数据。

优选地，所述第二计算模块，包括：

遍历单元，用于遍历各所述第一幂运算结果和各所述第二幂运算结果各自映射的所述预设对齐标识；

聚合单元，用于将映射相同所述预设标识的所述第一幂运算结果和所述第二幂运算结果进行聚合以得到各所述预设标识各自映射的聚合结果；

优选地，所述去重模块，包括：

检测单元，用于检测各所述二次幂运算结果中的相等结果；

第一确定单元，用于将各所述相等结果在各所述预设对齐标识中各自映射的预设对齐标识确定为目标对齐标识。

优选地，所述去重模块，还包括：

第二确定单元，用于确定所述目标对齐标识分别在各行所述第二无序数据中指向的目标第二去重数据，并在各所述目标第二去重数据中确定唯一的保留数据；

清除单元，用于将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除；

第一发送单元，用于确定所述保留数据在所述目标对齐标识中对应的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标对齐标识发送至所述其他参与方，以供所述其他参与方确定所述其他目标对齐标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

优选地，所述去重模块，还包括：

第二发送单元，用于向所述其他参与方分发携带有所述目标对齐标识的去重指令，以供所述其他参与方各自在本地，从所述目标对齐标识中确定唯一的保留标识，并将所述目标对齐标识中除所述保留标识之外的其他目标标识在各行所述第一无序数据中指向的目标第一去重数据，并清除所述目标第一去重数据。

其中，本发明纵向联邦统计中的无序数据去重装置的各功能模块在运行时所实现的步骤，可参照上述本发明纵向联邦统计中的无序数据去重方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种终端设备，该终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦统计中的无序数据去重程序，该纵向联邦统计中的无序数据去重程序被所述处理器执行时实现如上述中的纵向联邦统计中的无序数据去重方法的步骤。

其中，在所述处理器上运行的纵向联邦统计中的无序数据去重程序被执行时所实现的步骤可参照本发明纵向联邦统计中的无序数据去重方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种存储介质，应用于计算机，该存储介质可以为非易失性计算机可读存储介质，该存储介质上存储有纵向联邦统计中的无序数据去重程序，所述纵向联邦统计中的无序数据去重程序被处理器执行时实现如上所述的纵向联邦统计中的无序数据去重方法的步骤。

此外，本发明实施例还提出一种计算机程序产品，该计算机程序产品包括计算机程序或者计算机指令，该计算机程序或者计算机指令存储在计算机设备的存储介质中。计算机设备的处理器从该存储介质读取该计算机程序或者计算机指令并执行该计算机程序或者计算机指令，以使得该计算机设备所实现的步骤可参照本发明纵向联邦统计中的无序数据去重方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种纵向联邦统计中的无序数据去重方法，其特征在于，所述纵向联邦统计中的无序数据去重方法应用于纵向联邦中的任意一个参与方，所述纵向联邦统计中的无序数据去重方法包括：

2.如权利要求1所述的纵向联邦统计中的无序数据去重方法，其特征在于，所述预设对齐标识为纵向联邦中各参与方预先执行数据对齐后，已对齐部分自有无序数据的行标识，各所述参与方预先协商一个在各自本地进行哈希运算的哈希函数，

3.如权利要求2所述的纵向联邦统计中的无序数据去重方法，其特征在于，所述在本端的自有无序数据中提取所述行标识下的各行第二无序数据的步骤，包括：

4.如权利要求1所述的纵向联邦统计中的无序数据去重方法，其特征在于，所述按照各所述预设对齐标识聚合各所述第一幂运算结果和各所述第二幂运算结果得到各聚合结果，并针对各所述聚合结果进行二次幂运算得到各二次幂运算结果的步骤，包括：

5.如权利要求1所述的纵向联邦统计中的无序数据去重方法，其特征在于，所述确定各所述二次幂运算结果中相等结果在各所述预设对齐标识中指向的目标对齐标识的步骤，包括：

检测各所述二次幂运算结果中的相等结果；

6.如权利要求1所述的纵向联邦统计中的无序数据去重方法，其特征在于，所述根据所述目标对齐标识对所述第一无序数据和所述第二无序数据进行去重处理的步骤，包括：

7.如权利要求6所述的纵向联邦统计中的无序数据去重方法，其特征在于，在所述将各所述目标第二去重数据中除所述保留数据之外的其他目标第二去重数据进行清除的步骤之后，还包括：

8.一种纵向联邦统计中的无序数据去重装置，其特征在于，所述纵向联邦统计中的无序数据去重装置应用于纵向联邦中的任意一个参与方，所述纵向联邦统计中的无序数据去重装置包括：

9.一种终端设备，其特征在于，所述终端设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的纵向联邦统计中的无序数据去重程序，所述纵向联邦统计中的无序数据去重程序被所述处理器执行时实现如权利要求1至7中任一项所述的纵向联邦统计中的无序数据去重方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的纵向联邦统计中的无序数据去重方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的纵向联邦统计中的无序数据去重方法的步骤。