CN115865323A

CN115865323A - 一种基于秘密分享和ot协议的皮尔逊相关系数计算方法

Info

Publication number: CN115865323A
Application number: CN202211460326.3A
Authority: CN
Inventors: 喻博; 怀朋; 徐潜; 章庆; 贺伟
Original assignee: Tianyi Electronic Commerce Co Ltd
Current assignee: Tianyi Electronic Commerce Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-28

Abstract

本申请提出了一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，涉及联邦学习领域。一种基于秘密分享和OT协议的皮尔逊相关系数计算方法包括：获取数据方A和数据方B的特征数据及对齐后的样本量N；基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算乘法三元组用于秘密分享乘法计算；计算输出数据方A和数据方B的相关系数。首先基于OT协议离线环境下批量生成安全乘法三元组，在此基础上进行安全乘法运算参与方各自得到相应的结果。在整个过程中，由于使用OT协议离线生成大量的乘法三元组重复使用，大大减少了整个协议计算量。而且，计算过程完全基于分片数据，无需第三方参与计算，保证整个协议的安全。

Description

一种基于秘密分享和OT协议的皮尔逊相关系数计算方法

技术领域

本申请涉及联邦学习领域，具体而言，涉及一种基于秘密分享和OT协议的皮尔逊相关系数计算方法。

背景技术

当前，隐私数据的保护受到越来越多的关注，通过传统的机器学习技术挖掘分布在多个节点的数据价值被一系列新颁布的法律和政策所限制。为了解决数据分享带来的隐私问题，联邦学习技术应运而生。所谓的联邦学习，本质上是一种隐私保护的分布式机器学习，各个数据拥有方协作训练机器学习模型而不泄露各自的隐私信息。纵向联邦学习是指在联邦学习领域中，多个参与方所有的用户ID重叠程度很高而用户属性特征重叠程度很低的一种模式，例如电信运营商和互联网企业之间由于商业领域不同，用户群体重叠程度较高，但是每个平台收集的用户特征几乎不同，这种情况双方就需要在保护用户隐私的同时，使用纵向联邦学习技术进行业务场景的优化和拓展。

Pearson相关系数是一种计算特征之间相关性的方法，可以用在机器学习特征工程中，以便筛选出对最终模型效果作用不大，无关多余的特征。秘密分享(Secret Sharing，SS)作为一种基础的安全多方计算协议，是构建很多隐私计算协议的底层模块之一。基本思想是将秘密以某种方式拆分，拆分后的每一个“份额”由不同的参与者管理，单个参与者无法恢复秘密信息，只有若干个或全部参与者一同协作才能重构秘密消息。最简单的算术秘密分享的基本思想就是数据切片，此外包括Shamir秘密分享和门限秘密分享等也有许多实现与应用。在联邦学习中，秘密分享技术经常被用来保护隐私数据。在秘密分享的分片结果上我们可以进行加法和乘法运算。加法操作我们可以直接在本地计算无需参与方通信交互，而在进行乘法时，通常需要生成乘法三元组(beaver triple)，甚至在一些应用场景中每次乘法计算都会消耗一个三元组，因此，三元组的生成和配置方式关系到多方安全乘法的效率。通过不经意传输(oblivious transfer，OT)的密码协议可以在不引入第三方的情况下，离线计算高效构建乘法三元组用于乘法运算。

发明内容

本申请的目的在于提供一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其能够通过秘密分享的方式保护参与方数据的隐私安全。基于参与方节点分片后的数据，首先基于OT协议离线环境下批量生成安全乘法三元组，在此基础上进行安全乘法运算参与方各自得到相应的结果。在整个过程中，由于使用OT协议离线生成大量的乘法三元组重复使用，大大减少了整个协议计算量。而且，计算过程完全基于分片数据，无需第三方参与计算，保证整个协议的安全。

本申请的另一目的在于提供一种基于秘密分享和OT协议的皮尔逊相关系数计算系统，其能够运行一种基于秘密分享和OT协议的皮尔逊相关系数计算方法。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其包括获取数据方A和数据方B的特征数据及对齐后的样本量N；基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算乘法三元组用于秘密分享乘法计算；计算输出数据方A和数据方B的相关系数。

在本申请的一些实施例中，在上述获取数据方A和数据方B的特征数据及对齐后的样本量N之后还包括：根据纵向联邦学习特点，数据方A和数据方B基于ID做隐私求交。

在本申请的一些实施例中，上述基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算包括：基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算乘法三元组用于秘密分享乘法计算包括：数据方A和数据方B基于本地的数据计算每一个特征的均值μ和标准差σ，各自得到μ^A，σ^A和μ^B，σ^B；然后数据方A和数据方B基于本地的均值和标准化预处理归一化本地数据，得到

和/>

X_A为数据方A的特征数据，μ^A为数据方A的特征的均值，σ^A为数据方A的标准差，X_B为数据方B的特征数据，μ^B为数据方B的特征的均值，σ^B为数据方B的标准差。

在本申请的一些实施例中，上述还包括根据OT协议进行离线计算大量乘法三元组：数据方A和数据方B根据OT协议离线计算生成大量乘法三元组并保存在本地，然后数据方A得到a_A,b_A,c_A,数据方B得到a_B,b_B,c_B，其中，a＝a_A+a_B,b＝b_A+b_B,c＝c_A+c_B，c＝a-b，其中a_A,b_A,c_A是经过OT协议生成的只有数据方A知道的乘法三元组随机数，a_B,b_B,c_B是经过OT协议生成的只有数据方B知道的乘法三元组随机数。

在本申请的一些实施例中，上述还包括：数据方A在本地生成一组与

相同维度的一组安全随机数r^A,计算/>

并将/>

发给数据方B，数据方A本地保留r^A，数据方B进行同样的操作并将/>

发给数据方A，数据方B本地保留r^B。

在本申请的一些实施例中，上述还包括：数据方A本地计算r^A-a_A，

并发给数据方B，数据方B本地计算r^B-a_B，/>

并发给数据方A；数据方A基于收到数据方B发过来的r^B-a_B，/>

在本地计算：

其中，r^A为数据方A本地保留的一组安全随机数，

为数据方A本地保留的特征数据，r^B为数据方B本地保留的一组安全随机数，/>

为数据方B本地保留的特征数据，D和E是经过乘法三元组计算后的share结果。/>

在本申请的一些实施例中，上述还包括：数据方A基于D、E的结果计算，

Z_A＝c_A+D-b_A+a_A-E+D*E

返回r_A＝sum(Z_A)；

数据方B计算得到，

Z_B＝c_B+D*b_B+a_B*E

返回r_B＝sum(Z_B)；

其中，Z_A和Z_B分别是A和B各自计算的乘法秘密分享的分片结果矩阵sum(Z_A)为对Z_A进行求和，sum(Z_B)为对Z_B进行求和，r_A和r_B分别是A和B计算相关系数各自分片结果；

计算X_A和X_B相关系数

第二方面，本申请实施例提供一种基于秘密分享和OT协议的皮尔逊相关系数计算系统，其包括输入模块，用于获取数据方A和数据方B的特征数据及对齐后的样本量N；

处理计算模块，用于基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算大量乘法三元组；

输出模块，用于计算输出数据方A和数据方B的相关系数。

在本申请的一些实施例中，上述包括：用于存储计算机指令的至少一个存储器；与上述存储器通讯的至少一个处理器，其中当上述至少一个处理器执行上述计算机指令时，上述至少一个处理器使上述系统执行：输入模块、处理计算模块及输出模块。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如一种基于秘密分享和OT协议的皮尔逊相关系数计算方法中任一项的方法。

相对于现有技术，本申请的实施例至少具有如下优点或有益效果：

在联邦学习领域计算pearson相关系数的方法主要有两种，一种是参与方将本地数据归一化后，加上本地生成的一组随机数来保护本地数据，这种做法首先需要假设所生成的随机数的分布与本地数据是相互独立的，然而利用添加了随机数掩码的数据直接交互计算得到pearson相关系数。然而在实际应用中，很难利用先验知识判断所生成的随机数分布和已有的数据是否相互独立，当二者存在一定相关性时，所计算出来的pearson相关系数会受到随机数的干扰而不准确；另一种方法是通过引入半诚实第三方辅助秘密分享计算。在该方法中半诚实第三方生成乘法三元组并参与部分计算过程，然而这样的第三方在实际应用场景中很难找到，如果第三方受到恶意攻击将会泄露所有参与方的隐私数据。所以具有如下创新实现：

1.在不引入第三方的情况下，采用OT协议离线生成乘法三元组，减少线上计算的节点通信量和计算量，提升算法效率。

2.不需要任何的先验假设，避免由于随机掩码的引入影响计算结果准确性。

3.在最终相关系数的计算时不需要再次秘密分享求和，只需要在各自本地计算求和结果并分享，减少通信次数。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法步骤示意图；

图2为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法应用框架示意图；

图3为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算系统模块示意图；

图4为本申请实施例提供的一种电子设备。

图标：10-输入模块；20-处理计算模块；30-输出模块；101-存储器；102-处理器；103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法步骤示意图，其如下所示：

当前电信运营商正在大力推广5G相关产品的营销，特别是针对移动终端用户的5G套餐的营销正在如火如荼进行着。但如果只使用电信集团以往的通信数据是远远不够的，需要联合互联网企业数据构建相关的机器学习模型，然而在个人信息保护法等相关法律政策的颁布实施后，传统的中心化建模方式受到严格的限制，所以需要使用联邦学习技术挖掘联合数据蕴藏的价值。然而在多节点联合特征中可能存在大量的冗余特征及强相关特征，这时需要一种高效的pearson相关系数计算协议在特征入模前进行筛选，减少模型复杂度的同时提升联邦学习模型训练效率。我们以电信运营商的月流量使用量{X_A:[5,10,1,1,2,20,1]，ID:[1,2,3,4,5,6,7}和互联网视频网站的浏览时间{X_B:[2,9,1,9,5,7,80],ID:[1,3,5,7,10,11,19]}为例说明采用本专利提出的方法计算的pearson相关系数，实施过程如下：

电信集团A和互联网企业B通过隐私交集技术按照用户ID对齐,得到交集数据X_A＝[5,1,2,1]，X_B＝[2,9,1,9]，交集数量N＝4；

将X_A和X_B本地标准化得到

电信集团和互联网企业离线状态下通过OT协议生成乘法三元组，A、B双方分别得到a_A＝[5.9572,7.3733,3.6181,5.5974],b_A＝[9.7033,5.9251,9.7542,7.4333],c_A＝[2.9979,8.8366,2.8605,9.2675],a_B＝[-6.6489,-6.8932,-4.0915,-5.5299],b_B＝[-9.8693,-5.4845,-10.754,-7.8286],c_B＝[-2.8831,-8.6251,-2.3872,-9.2942]；

A本地生成随机数r^A＝[0.7469,0.9371,0.7384,0.0617],并将

传给B；B本地生成随机数r^B＝[0.5426,-0.9585,0.2673,0.4976]，并将/>

传给A；

A,B本地计算得到D＝[-5.2103，-6.4362，-2.8797，-5.5357]，E＝[-11.10874031，-3.97101503，-11.14982963，-6.93531503]，

A、B双方基于本地计算结果得到r_A＝40.27439641，r_B＝-43.06798164，最终的pearson相关系数

由于|ρ|>0.6，如果选用线性联邦学习模型就要舍去其中一个特征，剩下的特征进入模型继续建模。

实施例2

请参阅图2，图2为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法应用框架示意图，其如下所示：

将数据方A的特征数据和数据方B的特征数据输入至pearson系数矩阵进行计算，判断结果的绝对值是否大于0.6，若是，则筛选入模变量，进行训练联邦学习模块；若判断结果的绝对值小于0.6，则进行后续筛选算法，然后进行训练联邦学习模块。

实施例3

请参阅图3，图3为本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算系统模块示意图，其如下所示：

输入模块10，用于获取数据方A和数据方B的特征数据及对齐后的样本量N；

处理计算模块20，用于基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算；

输出模块30，用于计算输出数据方A和数据方B的相关系数。

如图4所示，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器101(Random Access Memory，RAM)，只读存储器101(Read Only Memory，ROM)，可编程只读存储器101(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器101(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(Central Processing Unit，CPU)、网络处理器102(Network Processor，NP)等；还可以是数字信号处理器102(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

另一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器101(ROM，Read-Only Memory)、随机存取存储器101(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法及系统，将离线OT协议引入纵向联邦pearson相关系数计算中乘法三元组生成。完全去中心化的计算协议，无需第三方参与计算；优化已有的秘密分享计算相关系数结果合并，从原始2N个分片结果的聚合简化成2个。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其特征在于，包括：

获取数据方A和数据方B的特征数据及对齐后的样本量N；

基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算乘法三元组用于秘密分享乘法计算；

计算输出数据方A和数据方B的相关系数。

2.如权利要求1所述的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其特征在于，在所述获取数据方A和数据方B的特征数据及对齐后的样本量N之后还包括：

根据纵向联邦学习特点，数据方A和数据方B基于ID做隐私求交。

3.如权利要求1所述的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其特征在于，所述基于数据方A和数据方B的特征数据进行数据预处理，根据OT协议进行离线计算乘法三元组用于秘密分享乘法计算包括：

数据方A和数据方B基于本地的数据计算每一个特征的均值μ和标准差σ，各自得到μ^A，σ^A和μ^B，σ^B；

然后数据方A和数据方B基于本地的均值和标准化预处理归一化本地数据，得到

和

4.如权利要求3所述的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其特征在于，还包括根据OT协议进行离线计算大量乘法三元组：

数据方A和数据方B根据OT协议离线计算生成大量乘法三元组并保存在本地，然后数据方A得到a_A,b_A,c_A,数据方B得到a_B,b_B,c_B，其中，a＝a_A+a_B,b＝b_A+b_B,c＝c_A+c_B，c＝a*b，其中a_A,b_A,c_A是经过OT协议生成的只有数据方A知道的乘法三元组随机数，a_B,b_B,c_B是经过OT协议生成的只有数据方B知道的乘法三元组随机数。

5.如权利要求4所述的一种基于秘密分享和OT协议的皮尔逊相关系数计算方法，其特征在于，还包括：

数据方A在本地生成一组与