CN115378693B

CN115378693B - 一种用于纵向联邦学习数据对齐的隐匿集合求交方法

Info

Publication number: CN115378693B
Application number: CN202210995361.9A
Authority: CN
Inventors: 马卓; 杨昊; 刘洋; 李腾; 张俊伟; 杨易龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2024-02-23
Anticipated expiration: 2042-08-18
Also published as: CN115378693A

Abstract

本发明提出了一种用于纵向联邦学习数据对齐的隐匿集合求交方法，实现步骤为：两个用户初始化相应参数；两个用户分别将各自的用户信息和关键键值信息进行映射；两个用户对各自映射后的哈希表进行编码；两个用户对编码后结果进行混淆和共享；两个用户交换混淆信息共享值，计算得到隐匿集合求交结果。本发明在用户对编码结果进行混淆阶段，是通过不经意混淆网络协议和随机选取的重排列规则对两用户的编码数据进行混淆，避免了现有技术由于仅对发送方数据进行了随机置换导致的接收方可以通过计算得知的求交结果的明文信息反推出其他参与方样本的关键键值信息和相关数据的缺陷，有效提高了数据求交过程中的数据隐私安全性。

Description

一种用于纵向联邦学习数据对齐的隐匿集合求交方法

技术领域

本发明属于联邦学习技术领域，涉及一种隐匿集合求交方法，具体涉及一种用于纵向联邦学习数据对齐的隐匿集合求交方法，可用于纵向联邦学习中对不同数据集间的数据对齐并避免了数据泄露。

背景技术

随着人工智能和大数据科学的发展，机器学习技术在各类应用场景中迅速发展，并取得了显著成效，但如今传统基于单一企业的数据模型逐渐难以满足需求，需要进行跨机构间数据协作来构建更加准确的模型，然而由于数据安全、隐私保护等监管要求日趋严厉，加剧了机构间数据合作的难度，“数据孤岛”问题普遍存在，基于此联邦学习技术被提出，以“数据可用不可见”的方式安全地构建跨行业数据共享，打通了企业间的数据孤岛，众多企业和研究机构利用该技术解决多方跨域机器学习相关业务的数据隐私问题。根据参与方数据分布的不同，联邦学习分为横向联邦学习和纵向联邦学习，纵向联邦学习本质是特征的联合，适用于各参与机构间用户重叠多，特征重叠少的场景，以一种隐私保护的方式计算训练损失和梯度，将不同的特征聚合在一起。纵向联邦学习在执行模型训练前要对数据进行预处理，各参与方持有的数据可能来自不同的样本空间，需要根据所选关键键值信息完成数据的对齐。

数据对齐是纵向联邦学习的数据预处理过程，各参与方依据所选关键键值信息实现样本的求交，并保护各自非交集数据的隐私，当前纵向联邦学习中数据安全对齐的实现借助隐匿集合求交方法PSI来完成，通过PSI参与方可以得到所有数据集合的交集数据，而无法获知或反推其他参与方的非交集部分数据，但在现有实现中，参与方可以得到交集数据的明文信息，进而可以反推得到其他参与方样本的关键键值信息和相关数据，其中可能包括用户身份证号、手机号等非常重要的个人隐私信息，需要加以防范。

例如神州融安数字科技(北京)有限公司在其拥有的专利技术“具有交集计数的PSI获取交集信息的方法及装置”(专利申请号CN202111493660.4，申请公告号CN114374518A)中，公开了一种重构的基于DH的隐匿集合求交方法，该发明发送方用自己的私钥将自己的数据集合S_A加密，并将加密后的数据集合S_A发送给接收方，接收方用自己的私钥对发送方第一次加密的数据集合S_A、自己的数据集合S_B执行加密，并对二次加密的发送方数据集合S_A进行随机置换，最后将乱序的二次加密发送方数据集合S_A和一次加密的接收方数据集合S_B传回给发送方，发送方用自己的私钥对第一次加密的接收方数据集合S_B执行加密，然后计算二次加密的接收方数据集合S_B与乱序的二次加密的发送方数据集合S_A之间的交集，得到交集个数，接收方通过交集信息可以得到其明文信息，实现发送方统计交集数量和接收方得到正确交集的功能。该发明在协议流程中接收方可以获取两方集合的交集信息，但不能获得交集之外发送方的其他集合元素，发送方可以获得交集的个数，也不能获得其他信息，在一定程度上保护了用户的隐私信息，但是，该方法由于仅对发送方数据进行了随机置换，接收方可以通过计算得知的求交结果的明文信息反推出其他参与方样本的关键键值信息和相关数据，仍然会导致参与方交集数据泄漏，此外，在计算过程中多次涉及加密和乱序计算，使得用户计算负担大，运行效率低。

发明内容

本发明的目的是克服现有技术中的不足，提出一种用于纵向联邦学习数据对齐的隐匿集合求交方法，旨在解决现有技术中存在的用户隐私信息泄露的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)初始化参数：

初始化包括来自不同类型机构的两个参与方用户A和用户B的纵向联邦学习系统，用户A参与求交的用户信息为X₀＝{X₀₁,X₀₂,...,X_0n,...,X_0N}，X₀对应的关键键值信息为D₀＝{D₀₁,D₀₂,...,D_0n,...,D_0N}，用户B参与求交的用户信息为X₁＝{X₁₁,X₁₂,...,X_1n,...,X_1N}，X₁对应的关键键值信息为D₁＝{D₁₁,D₁₂,...,D_1n,...,D_1N}，用户A待映射的布谷鸟哈希表S₀和用户B待映射的简单哈希表S₁均包括M个分箱，用户A构建布谷鸟哈希表S₀和用户B构建简单哈希表S₁所用的哈希函数为F＝{f₁,f₂,...,f_k,...,f_K}，其中，X_0n表示A的第n个用户信息，D_0n表示X_0n对应的关键键值信息，X_1n表示B的第n个用户信息，D_1n表示X_1n对应的关键键值信息，N表示用户A、用户B参与求交的用户信息的总数，N≥1，M＝εN，ε表示超参数，ε≥1，f_k表示第k个哈希函数，K表示哈希函数的总数，1≤K≤M；

(2)两个用户分别对各自的用户信息和关键键值信息进行映射：

用户A采用布谷鸟哈希表映射函数F_C将第n个用户信息X_0n及其对应的关键键值信息D_0n映射至布谷鸟哈希表S₀中的一个分箱中，得到X_0n所在分箱映射值为D_0，n||X_0，n、其余M-N个分箱为空的布谷鸟哈希表S′₀；用户B采用简单哈希表映射函数F_S将第n个用户信息X_1n及其对应的关键键值信息D_1n映射至简单哈希表S₁中的K个分箱中，得到X_1n所在第f_k(D_1，n||X_1，n)个分箱的值为D_1，n||X_1，n的简单哈希表S′₁；

(3)两个用户对哈希表S′₀、S′₁进行编码：

(3a)用户A生成伪随机函数的密钥k_A，用户B生成伪随机函数的密钥k_B；

(3b)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_B对布谷鸟哈希表S′₀进行编码，得到用户A的编码后的布谷鸟哈希表；

(3c)用户A对编码后的布谷鸟哈希表中的每个空分箱进行随机填充，并对随机填充得到的包含N个映射值和M-N个填充有随机值的布谷鸟哈希表复制log N-1次，然后通过k_A对由随机填充后的布谷鸟哈希表及其M log N个复制结果组成的布谷鸟哈希表S″₀使用伪随机函数进行编码，得到包含用户信息X₀和关键键值信息D″′₀的用户A布谷鸟哈希表S′₀的编码结果/>；

(3d)用户B对S′₁的M个分箱进行随机填充，得到由M个包含log N个元素的分箱组成的简单哈希表，并使用伪随机函数，通过伪随机函数密钥k_B对该简单哈希表进行编码，得到用户B的编码后由M log N个元素组成的简单哈希表S″₁；

(3e)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_A对向量S″₁进行编码，得到包含用户信息X₁和关键键值信息D″′₁的用户B简单哈希表S′₁的编码结果；

(4)两个用户对编码结果S″′₀、S″′₁进行混淆：

(4a)用户A对编码结果S″′₀中的用户信息X₀进行加性秘密共享，得到用户A、用户B的X₀的信息共享值<X₀>_A、<X₀>_B，用户B对编码结果S″′₁中的用户信息X₁进行加性秘密共享，得到用户A、用户B的X₁信息共享值<X₁>_A、<X₁>_B；

(4b)用户A计算用户信息共享值<X>_A＝<X₀>_A+<X₁>_A并将S″′₀中的关键键值信息D″′₀与<X>_A进行拼接，得到拼接结果D″′₀||<X>_A，用户B计算用户信息共享值<X>_B＝<X₀>_B+<X₁>_B并将S″′₁中的关键键值信息D″′₁与<X>_B进行拼接，得到拼接结果D″′₁||<X>_B；

(4c)用户A将随机选择的重排列规则ω_A，用户B将D₁″′||<X>_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuffle，并通过重排列规则ω_A对拼接结果D₁″′||<X>_B进行混淆，得到D₁″′的混淆值ω_A(D₁″′)和<X>_B的混淆值ω_A(<X>_B)，然后对ω_A(D₁″′)和ω_A(<X>_B)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A、<ω_A(D₁″′)>_B||<ω_A(<X>_B)>_B；

(4d)用户A使用ω_A对D₀″′、<X>_A分别进行混淆，得到混淆关键键值信息ω_A(D₀″′)和混淆用户信息共享值ω_A(<X>_A)，并计算<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A的关键键值信息共享值<ω_A(D₁″′)>_A与混淆关键键值信息ω_A(D₀″′)的差值α＝<ω_A(D₁″′)>_A-ω_A(D₀″′)，以及<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A的混淆用户信息共享值<ω_A(<X>_B)>_A与混淆加性秘密共享值ω_A(<X>_A)的和值β＝<ω_A(<X>_B)>_A+ω_A(<X>_A)；

(4e)用户A将α和β的拼接结果α||β，用户B将随机选择的重排列规则ω_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuifffle，并通过ω_B对α||β进行混淆，得到α的混淆值ω_B(α)和β的混淆值ω_B(β)，然后对ω_B(α)和ω_B(β)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_B(α)>_A||<ω_B(β)>_A、<ω_B(α)>_B||<ω_B(β)>_B，再将<ω_B(α)>_A、<ω_B(β)>_A作为用户A的保留比特串共享值<res>_A、混淆用户信息共享值<X′>_A；

(4f)用户B使用ω_B对混淆结果共享值<ω_A(D₁″′)>_B||<ω_A(<X>_B)>_B中的<ω_A(D₁″′)>_B、<ω_A(<X>_B)>_B分别进行混淆，得到混淆关键键值信息ω_B(<ω_A(D₁″′)>_B)和混淆用户信息共享值ω_B(<ω_A(<X>_B)>_B)，并将<ω_B(α)>_B+ω_B(<ω_A(D₁″′)>_B)、<ω_B(β)>_B+ω_B(<ω_A(<X>_B)>_B)作为用户B的保留比特串共享值<res>_B、混淆用户信息共享值<X′>_B；

(5)用户获取隐匿集合求交结果：

(5a)初始化保留比特串res的项数为t，最大项数为T＝M log N，并令t＝1；

(5b)用户A和用户B通过加性秘密共享交换共享值<res>_A和<res>_B，计算项数为T的保留比特串res＝<res>_A+<res>_B；

(5c)用户A和用户B判断res中第t项比特位的数值是否为0，若是，则用户A保留<X′>_A中第t项位置的数据，用户B保留<X′>_B中第t项位置的数据，否则，用户A删除<X′>_A中第t项位置的数据，用户B删除<X′>_B中第t项位置的数据；

(5d)用户A和用户B判断t＝T是否成立，若是，用户A返回删除冗余信息后的混淆用户信息共享值<X″>_A至用户B，用户B返回删除冗余信息后的混淆用户信息共享值<X″>_B至用户A，用户A和用户B计算<X″>_A与<X″>_B的交集信息X″＝<X″>_A+<X″>_B，否则，令t＝t+1，并执行步骤(5c)。

本发明与现有技术相比，具有以下优点：

第一，本发明在用户对编码结果进行混淆阶段，是通过不经意混淆网络协议和随机选取的重排列规则对两用户的编码数据进行混淆，避免了现有技术由于仅对发送方数据进行了随机置换，即随机混淆导致的接收方可以通过计算得知的求交结果的明文信息反推出其他参与方样本的关键键值信息和相关数据的缺陷，有效提高了数据求交过程中的数据隐私安全性。

第二，本发明在用户对映射数据进行编码阶段，是通过不经意伪随机函数协议对映射哈希表进行编码，仅涉及少量的哈希编码计算，避免了现有技术由于对数据编码时使用大量公私钥加解密计算而产生的损耗问题，有效减轻了用户的计算负担，提高了集合求交过程的计算效率。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述。

参照附图1，本发明包括如下步骤：

步骤1)初始化参数：

初始化包括来自不同类型机构的两个参与方用户A和用户B的纵向联邦学习系统，用户A参与求交的用户信息为X₀＝{X₀₁，X₀₂，...，X_0n，...，X_0N}，X₀对应的关键键值信息为D₀＝{D₀₁，D₀₂，...，D_0n，...，D_0N}，用户B参与求交的用户信息为X₁＝{X₁₁，X₁₂，...，X_1n，...，X_1N}，X₁对应的关键键值信息为D₁＝{D₁₁，D₁₂，...，D_1n，...，D_1N}，用户A待映射的布谷鸟哈希表S₀和用户B待映射的简单哈希表S₁均包括M个分箱，用户A构建布谷鸟哈希表S₀和用户B构建简单哈希表S₁所用的哈希函数为F＝{f₁，f₂，...，f_k，...，f_K}，其中，X_0n表示A的第n个用户信息，D_0n表示X_0n对应的关键键值信息，X_1n表示B的第n个用户信息，D_1n表示X_1n对应的关键键值信息，N表示用户A、用户B参与求交的用户信息的总数，N≥1，M＝εN，ε表示超参数，ε≥1，f_k表示第k个哈希函数，K表示哈希函数的总数，1≤K≤M；

本实施例中，ε取2.4，用户构建布谷鸟哈希表和简单哈希表的哈希函数f(·)，其表达式为：

f(·)：{0,1}^l→[M]

其中，{0,1}^l表示长度为l的比特串，→表示生成操作；

步骤2)两个用户分别对各自的用户信息和关键键值信息进行映射：

用户A采用布谷鸟哈希表映射函数F_C将第n个用户信息X_0n及其对应的关键键值信息D_0n映射至布谷鸟哈希表S₀中的一个分箱中，得到X_0n所在分箱映射值为D_0,n||X_0,n、其余M-N个分箱为空的布谷鸟哈希表S₀'；用户B采用简单哈希表映射函数F_S将第n个用户信息X_1n及其对应的关键键值信息D_1n映射至简单哈希表S₁中的K个分箱中，得到X_1n所在第f_k(D_1,n||X_1,n)个分箱的值为D_1,n||X_1,n的简单哈希表S₁'；

本实施例中，布谷鸟哈希表为解决哈希冲突的问题而提出，利用较少计算换取了较大空间，每个存储分箱中只有一个元素，具有占用空间小、查询迅速等特性。简单哈希表将元素进行映射时，则不考虑其存储位置是否已经存在元素，一个分箱内可能有多个元素存在，将元素映射至哈希表中，减小数据之间的比较次数；布谷鸟哈希表S₀'，以及简单哈希表S₁'，其获取步骤为：

布谷鸟哈希表S₀'的获取步骤为：用户A计算数据元素D_0,n||X_0,n的K个哈希值{f₁(D_0,n||X_0,n),f₂(D_0,n||X_0,n),...,f_k(D_0,n||X_0,n),...,f_K(D_0,n||X_0,n)}，并判断从该K个哈希值随机选取的一个哈希值所在的分箱是否为空，若是，将D_0,n||X_0,n存储到该分箱中，否则，按照D_0,n||X_0,n计算哈希值以及判断方法对分箱中原有的数据进行处理，并将D_0,n||X_0,n存储到该分箱中，得到X_0n所在分箱映射值为D_0,n||X_0,n、其余M-N个分箱为空的布谷鸟哈希表S₀'；

简单哈希表S₁'的获取步骤为：用户B计算D_1,n||X_1,n的K个哈希值{f₁(D_1,n||X_1,n),f₂(D_1,n||X_1,n),...,f_k(D_1,n||X_1,n),...,f_K(D_1,n||X_1,n)}，对于k个哈希函数值f_k(D_1,n||X_1,n)，将D_1,n||X_1,n存储到简单哈希表的第f_k(D_1,n||X_1,n)个分箱，得到X_1n所在第f_k(D_1,n||X_1,n)个分箱的值为D_1,n||X_1,n的简单哈希表S₁'；

步骤3)两个用户对哈希表S₀'、S₁'进行编码：

本实施例中，两个用户通过不经意伪随机函数协议F_OPRF和伪随机数生成器生成的密钥对映射数据后的哈希表进行编码，完成哈希表S₀'、S₁'的编码过程；

步骤3a)用户A生成伪随机函数的密钥k_A，用户B生成伪随机函数的密钥k_B；

本实例中，用户A生成伪随机函数的密钥k_A，用户B生成伪随机函数的密钥k_B，其生成方法为：用户A、用户B分别采用伪随机数生成器，并将伪随机数生成器生成的数字序列k_A、k_B作为用户A的伪随机函数的密钥、用户B的伪随机函数的密钥；

步骤3b)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_B对布谷鸟哈希表S₀'进行编码，得到用户A的编码后的布谷鸟哈希表F_kB(S₀')；

本实施例中，用户使用不经意伪随机函数协议和伪随机函数密钥对映射哈希表进行编码，仅有少量的哈希编码计算，避免了大量运算，保证其运行效率优于其他计算协议，减轻隐匿集合求交过程的计算负担；

用于对布谷鸟哈希表S₀'进行编码的伪随机函数其表达式为：

其中，表示k_B的比特串，/>表示S'₀的比特串，→表示生成操作，⊥表示无效符号，{0,1}^σ表示生成比特串；

步骤3c)用户A对编码后的布谷鸟哈希表中的每个空分箱进行随机填充，并对随机填充得到的包含N个映射值和M-N个填充有随机值的布谷鸟哈希表复制log N-1次，然后通过k_A对由随机填充后的布谷鸟哈希表及其M log N个复制结果组成的布谷鸟哈希表S₀”使用伪随机函数进行编码，得到包含用户信息X₀和关键键值信息D₀”'的用户A布谷鸟哈希表S₀'的编码结果/>

步骤3d)用户B对S₁'的M个分箱进行随机填充，得到由M个包含log N个元素的分箱组成的简单哈希表，并使用伪随机函数，通过伪随机函数密钥k_B对该简单哈希表进行编码，得到用户B的编码后由M log N个元素组成的简单哈希表S₁”；

本实施例中，步骤(3c)和(3d)中对布谷鸟哈希表和简单哈希表进行填充复制，得到包含M log N个元素的布谷鸟哈希表和简单哈希表，进行之后的计算；

步骤3e)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_A对向量S₁″进行编码，得到包含用户信息X₁和关键键值信息D₁″的用户B简单哈希表S₁′的编码结果

步骤4)两个用户对编码结果S₀″′、S₁″′进行混淆：

本实施例中，为避免用户通过编码数据的顺序获取数据信息，此步骤对(3)中所得编码结果S₀″′、S₁″′进行混淆，得到混淆后的编码数据，并通过加性秘密共享将信息共享给用户，确保用户无法从顺序中获取编码信息；

步骤4a)用户A对编码结果S₀″′中的用户信息X₀进行加性秘密共享，得到用户A、用户B的X₀的信息共享值<X₀>_A、<X₀>_B，用户B对编码结果S₁″′中的用户信息X₁进行加性秘密共享，得到用户A、用户B的X₁信息共享值<X₁>_A、<X₁>_B；

步骤4b)用户A计算用户信息共享值<X>_A＝<X₀>_A+<X₁>_A并将S₀″′中的关键键值信息D₀″′与<X>_A进行拼接，得到拼接结果D₀″′||<X>_A，用户B计算用户信息共享值<X>_B＝<X₀>_B+<X₁>_B并将S₁″′中的关键键值信息D₁″′与<X>_B进行拼接，得到拼接结果D₁″′||<X>_B；

步骤4c)用户A将随机选择的重排列规则ω_A，用户B将D₁″′||<X>_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuffle，并通过重排列规则ω_A对拼接结果D₁″′||<X>_B进行混淆，得到D₁″′的混淆值ω_A(D₁″′)和<X>_B的混淆值ω_A(<X>_B)，然后对ω_A(D₁″′)和ω_A(<X>_B)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A、<ω_A(D₁″′)>_B||<ω_A(<X>_B)>_B；

本实施例中，采用不经意混淆网络协议F_O-Shuffle和随机选取的重排列规则ω_A来对数据进行混淆，完成对数据的随机重排列，确保用户无法从结果中得知数据顺序信息；

通过重排列规则ω_A对拼接结果D₁″′||<X>_B进行混淆，实现步骤为：用户A和用户B通过A随机选择的重排列规则ω_A＝{ω_A1，ω_A2，...，ω_An，...，ω_AN}，对拼接结果D₁″′||<X>_B中包含的D₁″′＝{D₁₁″′，D₁₂″′，...，D_1n″′，...，D_1N″′}，以及<X>_B＝{<X>_B1，<X>_B2，...，<X>_Bn，...，<X>_BN}中的每一项进行重排列，实现对D₁″′||<X>_B的混淆，得到D₁″′的混淆值和<X>_B的混淆值其中，ω_An表示ω_A的第n个数据值，D_1n″′表示D₁″′的第n个数据，<X>_Bn表示<X>_B的第n个数据，/>表示D₁″′的第ω_An个数据，/>表示<X>_B的第ω_An个数据；

步骤4d)用户A使用ω_A对D₀″′、<X>_A分别进行混淆，得到混淆关键键值信息ω_A(D₀″′)和混淆用户信息共享值ω_A(<X>_A)，并计算<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A的关键键值信息共享值<ω_A(D₁″′)>_A与混淆关键键值信息ω_A(D₀″′)的差值α＝<ω_A(D₁″′)>_A-ω_A(D₀″′)，以及<ω_A(D₁″′)>_A||<ω_A(<X>_B)>_A的混淆用户信息共享值<ω_A(<X>_B)>_A与混淆加性秘密共享值ω_A(<X>_A)的和值β＝<ω_A(<X>_B)>_A+ω_A(<X>_A)；

步骤4e)用户A将α和β的拼接结果α||β，用户B将随机选择的重排列规则ω_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuffle，并通过ω_B对α||β进行混淆，得到α的混淆值ω_B(α)和β的混淆值ω_B(β)，然后对ω_B(α)和ω_B(β)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_B(α)>_A||<ω_B(β)>_A、<ω_B(α)>_B||<ω_B(β)>_B，再将<ω_B(α)>_A、<ω_B(β)>_A作为用户A的保留比特串共享值<res>_A、混淆用户信息共享值<X′>_A；

步骤4f)用户B使用ω_B对混淆结果共享值<ω_A(D₁″′)>_B||<ω_A(<X>_B)>_B中的<ω_A(D₁″′)>_B、<ω_A(<X>_B)>_B分别进行混淆，得到混淆关键键值信息ω_B(<ω_A(D₁″′)>_B)和混淆用户信息共享值ω_B(<ω_A(<X>_B)>_B)，并将<ω_B(α)>_B+ω_B(<ω_A(D₁″′)>_B)、<ω_B(β)>_B+ω_B(<ω_A(<X>_B)>_B)作为用户B的保留比特串共享值<res>_B、混淆用户信息共享值<X′>_B；

步骤5)用户获取隐匿集合求交结果：

本实施例中，得到混淆数据信息后，两个用户使用保留比特串res的判断方式删除冗余数据信息，获取隐匿集合求交结果，此步骤是在数据经过编码混淆的形式下进行的，用户最终获取的求交结果也是编码混淆后的，确保数据隐私安全；

步骤5a)初始化保留比特串res的项数为t，最大项数为T＝M log N，并令t＝1；

步骤5b)用户A和用户B通过加性秘密共享交换共享值<res>_A和<res>_B，计算项数为T的保留比特串res＝<res>_A+<res>_B；

步骤5c)用户A和用户B判断res中第t项比特位的数值是否为0，若是，则用户A保留<X′>_A中第t项位置的数据，用户B保留<X′>_B中第t项位置的数据，否则，用户A删除<X′>_A中第t项位置的数据，用户B删除<X′>_B中第t项位置的数据；

步骤5d)用户A和用户B判断t＝T是否成立，若是，用户A返回删除冗余信息后的混淆用户信息共享值<X″>_A至用户B，用户B返回删除冗余信息后的混淆用户信息共享值<X″>_B至用户A，用户A和用户B计算<X″>_A与<X″>_B的交集信息X″＝<X″>_A+<X″>_B，否则，令t＝t+1，并执行步骤5c)。

Claims

1.一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，包括如下步骤：

(1)初始化参数：

用户A采用布谷鸟哈希表映射函数F_C将第n个用户信息X_0n及其对应的关键键值信息D_0n映射至布谷鸟哈希表S₀中的一个分箱中，得到X_0n所在分箱映射值为D_0,n||X_0,n、其余M-N个分箱为空的布谷鸟哈希表S′₀；用户B采用简单哈希表映射函数F_S将第n个用户信息X_1n及其对应的关键键值信息D_1n映射至简单哈希表S₁中的K个分箱中，得到X_1n所在第f_k(D_1,n||X_1,n)个分箱的值为D_1,n||X_1,n的简单哈希表S′₁；

(3)两个用户对哈希表S′₀、S′₁进行编码：

(3b)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_B对布谷鸟哈希表S′₀进行编码，得到用户A的编码后的布谷鸟哈希表

(3c)用户A对编码后的布谷鸟哈希表中的每个空分箱进行随机填充，并对随机填充得到的包含N个映射值和M-N个填充有随机值的布谷鸟哈希表复制logN-1次，然后通过k_A对由随机填充后的布谷鸟哈希表及其MlogN个复制结果组成的布谷鸟哈希表S″₀使用伪随机函数进行编码，得到包含用户信息X₀和关键键值信息D″′₀的用户A布谷鸟哈希表S′₀的编码结果/>

(3d)用户B对S′₁的M个分箱进行随机填充，得到由M个包含log N个元素的分箱组成的简单哈希表，并使用伪随机函数，通过伪随机函数密钥k_B对该简单哈希表进行编码，得到用户B的编码后由MlogN个元素组成的简单哈希表S″₁；

(3e)用户A和用户B按照不经意伪随机函数协议F_OPRF，并通过k_A对向量S″₁进行编码，得到包含用户信息X₁和关键键值信息D″′₁的用户B简单哈希表S′_i的编码结果

(4)两个用户对编码结果S″′₀、S″′₁进行混淆：

(4c)用户A将随机选择的重排列规则ω_A，用户B将D″′₁||<X>_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuffle，并通过重排列规则ω_A对拼接结果D″′₁||<X>_B进行混淆，得到D″′₁的混淆值ω_A(D″′₁)和<X>_B的混淆值ω_A(<X>_B)，然后对ω_A(D″′₁)和ω_A(<X>_B)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_A(D″′₁)>_A||<ω_A(<X>_B)>_A、<ω_A(D″′₁)>_B||<ω_A(<X>_B)>_B；

(4d)用户A使用ω_A对D″′₀、<X>_A分别进行混淆，得到混淆关键键值信息ω_A(D″′₀)和混淆用户信息共享值ω_A(<X>_A)，并计算<ω_A(D″′₁)>_A||<ω_A(<X>_B)>_A的关键键值信息共享值<ω_A(D″′₁)>_A与混淆关键键值信息ω_A(D″′₀)的差值α＝<ω_A(D″′₁)>_A-ω_A(D″′₀)，以及<ω_A(D″′₁)>_A||<ω_A(<X>_B)>_A的混淆用户信息共享值<ω_A(<X>_B)>_A与混淆加性秘密共享值ω_A(<X>_A)的和值β＝<ω_A(<X>_B)>_A+ω_A(<X>_A)；

(4e)用户A将α和β的拼接结果α||β，用户B将随机选择的重排列规则ω_B作为混淆网络的输入，按照不经意混淆网络协议F_O-Shuffle，并通过ω_B对α||β进行混淆，得到α的混淆值ω_B(α)和β的混淆值ω_B(β)，然后对ω_B(α)和ω_B(β)进行加性秘密共享，得到用户A、用户B的混淆结果共享值<ω_B(α)>_A||<ω_B(β)>_A、<ω_B(α)>_B||<ω_B(β)>_B，再将<ω_B(α)>_A、<ω_B(β)>_A作为用户A的保留比特串共享值<res>_A、混淆用户信息共享值<X′>_A；

(4f)用户B使用ω_B对混淆结果共享值<ω_A(D″′₁)>_B||<ω_A(<X>_B)>_B中的<ω_A(D″′₁)>_B、<ω_A(<X>_B)>_B分别进行混淆，得到混淆关键键值信息ω_B(<ω_A(D″′₁)>_B)和混淆用户信息共享值ω_B(<ω_A(<X>_B)>_B)，并将<ω_B(α)>_B+ω_B(<ω_A(D″′₁)>_B)、<ω_B(β)>_B+ω_B(<ω_A(<X>_B)>_B)作为用户B的保留比特串共享值<res>_B、混淆用户信息共享值<X′>_B；

(5)用户获取隐匿集合求交结果：

2.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(1)中所述的用户构建布谷鸟哈希表和简单哈希表的哈希函数f(·)，其表达式为：

f(·)：{0，1}^l→[M]

其中，{0，1}^l表示长度为l的比特串，→表示生成操作。

3.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(2)中所述的布谷鸟哈希表S′₀，以及简单哈希表S′₁，其获取步骤为：

布谷鸟哈希表S′₀的获取步骤为：用户A计算数据元素D_0，n||X_0，n的K个哈希值{f₁(D_0，n||X_0，n)，f₂(D_0，n||X_0，n)，...，f_k(D_0，n||X_0，n)，...，f_K(D_0，n||X_0，n)}，并判断从该K个哈希值随机选取的一个哈希值所在的分箱是否为空，若是，将D_0，n||X_0，n存储到该分箱中，否则，按照D_0，n||X_0，n计算哈希值以及判断方法对分箱中原有的数据进行处理，并将D_0，n||X_0，n存储到该分箱中，得到X_0n所在分箱映射值为D_0，n||X_0，n、其余M-N个分箱为空的布谷鸟哈希表S′₀；

简单哈希表S′₁的获取步骤为：用户B计算D_1，n||X_1，n的K个哈希值{f₁(D_1，n||X_1，n)，f₂(D_1，n||X_1，n)，...，f_k(D_1，n||X_1，n)，...，f_K(D_1，n||X_1，n)}，对于k个哈希函数值f_k(D_1，n||X_1，n)，将D_1，n||X_1，n存储到简单哈希表的第f_k(D_1，n||X_1，n)个分箱，得到X_1n所在第f_k(D_1，n||X_1，n)个分箱的值为D_1，n||X_1，n的简单哈希表S′₁。

4.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(3a)中所述的用户A生成伪随机函数的密钥k_A，用户B生成伪随机函数的密钥k_B，其生成方法为：用户A、用户B分别采用伪随机数生成器，并将伪随机数生成器生成的数字序列k_A、k_B作为用户A的伪随机函数的密钥、用户B的伪随机函数的密钥。

5.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(3b)中所述的用于对布谷鸟哈希表S′₀进行编码的伪随机函数其表达式为：

其中，表示k_B的比特串，/>表示S′₀的比特串，→表示生成操作，⊥表示无效符号，{0，1}^σ表示生成比特串。

6.根据权利要求1所述的一种用于纵向联邦学习数据对齐的隐匿集合求交方法，其特征在于，步骤(4c)中所述的通过重排列规则ω_A对拼接结果D″′₁||<X>_B进行混淆，实现步骤为：用户A和用户B通过A随机选择的重排列规则ω_A＝{ω_A1，ω_A2，...，ω_An，...，ω_AN}，对拼接结果D″′₁||<X>_B中包含的D″′₁＝{D″′₁₁，D″′₁₂，...，D″′_1n，...，D″′_1N}，以及<X>_B＝{<X>_B1，<X>_B2，...，<X>_Bn，...，<X>_BN}中的每一项进行重排列，实现对D″′₁||<X>_B的混淆，得到D″′₁的混淆值和<X>_B的混淆值其中，ω_An表示ω_A的第n个数据值，D″′_1n表示D″′₁的第n个数据，<X>_Bn表示<X>_B的第n个数据，/>表示D″′₁的第ω_An个数据，/>表示<X>_B的第ω_An个数据。