CN115168910A

CN115168910A - 一种基于秘密分享的共享数据等宽分箱方法

Info

Publication number: CN115168910A
Application number: CN202211094836.3A
Authority: CN
Inventors: 邢冰; 马煜翔; 刘洋; 刘文博; 王玥; 冯黎明; 吴泽成
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2022-10-11
Anticipated expiration: 2042-09-08
Also published as: CN115168910B

Abstract

本发明公开了一种基于秘密分享的共享数据等宽分箱方法。它包括以下步骤：原始数据向量X以和共享分片存储于第一方和第二方；第一方、第二方采用密态比较协议找出原始数据向量X中的最大值、最小值对应的共享分片数据；第一方、第二方采用秘密分享算法计算出分箱长度w，第一方得到分箱长度分片w1，第二方得到分箱长度分片w2；第一方计算出每个分箱的上边界值f对应的上边界分片数据f1，第二方计算出每个分箱的上边界值f对应的上边界分片数据f2；第一方、第二方配合将各自持有的共享分片向量中的共享分片数据分配到对应的分箱。本发明可以在第一方、第二方的数据不出库的情况下完成等宽分箱，保护了双方的数据隐私。

Description

一种基于秘密分享的共享数据等宽分箱方法

技术领域

本发明涉及数据分箱技术领域，尤其涉及一种基于秘密分享的共享数据等宽分箱方法。

背景技术

随着个人信息保护法的实施，传统的机器学习面临监管挑战，保护隐私的联邦学习开始兴起，秘密分享是联邦学习中常用到的方法。秘密分享技术是一种在一组参与者之间分配秘密的方法，通过这种技术，可以把秘密拆分成份额分散在多个参与者之间，使得持有份额的参与者在一定条件下可以联合恢复出原本的秘密。等宽分箱又叫等距分箱，其保证每个分箱的上边界与下边界差值一样。

共享数据的分箱常用于金融风控场景。在金融机构联合风控建模中，金融机构为了保护用户隐私，会采用全流程加密联邦学习建模，用于建模的特征数据（如：用户的个人信息数据、消费数据、贷款数据等）要基于秘密分享进行密态处理和存储，参与联邦建模的第一方、第二方分别持有特征数据的第一数据分片、第二数据分片，很多模型（如：XGBoost模型、评分卡模型等等）在建模过程中需要对共享数据（即第一数据分片、第二数据分片）进行离散化分箱处理，传统的基于秘密分享的共享数据分箱方法一般由第三方参与辅助进行分箱，而实际商业落地较难找到可信的第三方，存在数据泄露风险。

发明内容

本发明为了解决上述技术问题，提供了一种基于秘密分享的共享数据等宽分箱方法，其可以在第一方、第二方的数据不出库的情况下完成等宽分箱，无需第三方参与，保护了双方的数据隐私，避免数据泄露。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种基于秘密分享的共享数据等宽分箱方法，用于金融机构联合风控建模，原始数据向量X以和共享分片存储于第一方和第二方，第一方持有共享分片向量X₁，第二方持有共享分片向量X₂，包括以下步骤：

S1：第一方、第二方采用密态比较协议找出原始数据向量X中的最大值x_A对应的属于共享分片向量X₁的共享分片数据x_A1、属于共享分片向量X₂的共享分片数据x_A2，找出原始数据向量X中的最小值x_B对应的属于共享分片向量X₁的共享分片数据x_B1、属于共享分片向量X₂的共享分片数据x_B2；

S2：第一方、第二方采用秘密分享算法计算出分箱长度w，第一方得到分箱长度分片w1，第二方得到分箱长度分片w2，w=w1+w2；

S3：第一方根据共享分片数据x_B1、分箱长度分片w1计算出每个分箱的上边界值f对应的上边界分片数据f1，第二方根据共享分片数据x_B2、分箱长度分片w2计算出每个分箱的上边界值f对应的上边界分片数据f2；

S4：第一方、第二方配合将各自持有的共享分片向量中的共享分片数据分配到对应的分箱，并记录对应的分箱信息。

作为优选，所述密态比较协议为秘密分享的布尔比较协议。

作为优选，所述步骤S1包括以下步骤：

第一方、第二方假设原始数据向量X中的第一个数据为最大值，将最大值依次与原始数据向量X中的其他数据逐一比较，如果某个数据比最大值大，则将该数据作为新的最大值，最后，第一方得到原始数据向量X中的最大值x_A对应的属于共享分片向量X₁的共享分片数据x_A1，第二方得到原始数据向量X中的最大值x_A对应的属于共享分片向量X₂的共享分片数据x_A2；

第一方、第二方假设原始数据向量X中的第一个数据为最小值，将最小值依次与原始数据向量X中的其他数据逐一比较，如果某个数据比最小值小，则将该数据作为新的最小值，最后，第一方得到原始数据向量X中的最小值x_B对应的属于共享分片向量X₁的共享分片数据x_B1，第二方得到原始数据向量X中的最小值x_B对应的属于共享分片向量X₂的共享分片数据x_B2；

所述第一方、第二方比较原始数据向量X中的两个数据大小的方法如下：

N1：第一方随机生成随机数a1、随机数b1，第二方随机生成随机数a2、随机数b2；

N2：第一方、第二方依据秘密分享的乘法和加法协议，采用a1+a2的和作为线性变换的斜率、b1+b2的和作为线性变换的截距，联合计算出每个数据对应的线性变换结果；

N3：第一方、第二方根据两个数据对应的线性变换结果的大小关系判断两个数据的大小关系。

第一方、第二方依据秘密分享的乘法和加法协议，通过线性变换把两个数据转换为对应的线性变换结果（即把数据映射到另外的一个线性空间），根据线性变换结果判断两个数据的大小，整个过程中第一方、第二方都无法获知对方持有的共享分片数据的内容，也无法获知对方生成的随机数，无法推导出对方持有的共享分片数据的内容以及原始数据的内容，保护了数据隐私。另外，线性变换的计算量小，通信开销低，计算速度相较于秘密分享的布尔比较协议提升了8倍。

作为优选，所述步骤N2中第一方、第二方联合计算共享分片向量X₁中的某个共享分片数据x₁、共享分片向量X₂中的某个共享分片数据x₂对应的原始数据x的线性变换结果的方法如下，x=x₁+x₂：

M1：第一方、第二方采用秘密分享的乘法协议计算a2*x₁，第一方得到分片数据C1，第二方得到分片数据C2，C1+C2= a2*x₁；

第一方、第二方采用秘密分享的乘法协议计算a1*x₂，第一方得到分片数据D1，第二方得到分片数据D2，D1+D2= a1*x₂；

M2：第一方将a1*x₁、分片数据C1、分片数据D1、随机数b1相加，得到中间结果G1，并发送给第二方；

第二方将a2*x₂、分片数据C2、分片数据D2、随机数b2相加，得到中间结果G2，并发送给第一方；

M3：第一方、第二方分别将中间结果G1、中间结果G2相加得到最终结果G，最终结果G就是原始数据x的线性变换结果。

作为优选，所述步骤S2包括以下步骤：

第一方根据共享分片数据x_A1、共享分片数据x_B1、分箱个数N计算出中间结果H1，H1=(x_A1-x_B1)/N；

第二方根据共享分片数据x_A2、共享分片数据x_B2、分箱个数N计算出中间结果H2，H2=(x_A2-x_B2)/N；

第一方、第二方采用秘密分享算法的加法协议根据中间结果H1、中间结果H2计算出分箱长度w，w=H1+H2，第一方得到分箱长度分片w1，第二方得到分箱长度分片w2。

作为优选，所述步骤S4中第一方、第二方配合将原始数据向量X中的某个原始数据x对应的属于共享分片向量X₁的共享分片数据x₁、属于共享分片向量X₂的共享分片数据x₂分配到对应的分箱的方法如下：

第一方、第二方采用密态比较协议比较原始数据x与每个分箱的上边界值f的大小关系，从而确定原始数据x应该被分配到的分箱，第一方将共享分片数据x₁分配到该分箱，第二方将共享分片数据x₂分配到该分箱。

由于前一个分箱的上边界是后一个分箱的下边界，所以根据原始数据x与每个分箱的上边界值f的大小关系可以确定原始数据x属于哪个分箱。

作为优选，所述第一方、第二方采用密态比较协议比较原始数据x与某个分箱的上边界值f的大小关系的方法如下：

第一方随机生成随机数c1、随机数d1，第二方随机生成随机数c2、随机数d2；

第一方、第二方依据秘密分享的乘法和加法协议，采用c1+c2的和作为线性变换的斜率、d1+d2的和作为线性变换的截距，联合计算出原始数据x对应的线性变换结果、上边界值f对应的线性变换结果；

第一方、第二方根据原始数据x对应的线性变换结果、上边界值f对应的线性变换结果的大小关系判断原始数据x、上边界值f的大小关系。

作为优选，当第一方持有原始数据向量X内的数据，共享分片向量X₁、共享分片向量X₂是第一方、第二方经过基于秘密分享的共享数据随机排序方法进行排序后的结果时，所述步骤S4执行之前先执行以下步骤：

每个分箱的上边界值f组成上边界向量F，每个分箱的上边界值f对应的上边界分片数据f1组成上边界分片数据向量F1，每个分箱的上边界值f对应的上边界分片数据f2组成上边界分片数据向量F2，F1+F2=F；

第二方生成将1至N这N个数值随机排列生成随机向量g，N为分箱个数；

第一方、第二方依据上边界分片数据向量F1、随机向量g进行一次置换洗牌操作，第一方得到向量b₀，第二方得到向量P₁，所述向量b₀与向量P₁的和为上边界分片数据向量F1按照随机向量g重新排序后的结果；

第二方将上边界分片数据向量F2按照随机向量g重新排序得到向量P₂；

第二方将向量P₁、向量P₂相加得到向量P₃，向量b₀与向量P₃的和为上边界向量F按照随机向量g重新排序后的结果；

第一方根据向量b₀、分箱长度分片w1计算出每个分箱的下边界值h对应的下边界分片数据h1；

第二方根据向量P₃、分箱长度分片w2计算出每个分箱的下边界值h对应的下边界分片数据h2。

初始时，上边界向量F、上边界分片数据向量F1、上边界分片数据向量F2都是升序排序的，即F={x_B+w, x_B+2w,……x_B+Nw }，F1={x_B1+w1, x_B1+2w1,……x_B1+Nw1}，F2={x_B2+w2,x_B2+2w2,……x_B2+Nw2}，N为分箱个数。

在上述情况中，由于第一方持有的数据包含了原始数据向量X内记载的数据，对于年龄等离散特征，连续分箱做比较有一定的统计信息会被第一方猜出来，第一方可以拿到每个分箱的大体分布。所以本方法由第二方生成随机向量g，采用现有方法对第一方持有的上边界分片数据向量F1按照随机向量g进行重新排序，第一方得到向量b₀，第二方得到向量P₁；第二方将上边界分片数据向量F2按照随机向量g重新排序得到向量P₂，将向量P₁、向量P₂相加得到向量P₃，使得向量b₀与向量P₃的和为上边界向量F按照随机向量g重新排序后的结果。这样，分箱边界被打乱了顺序，第一方虽然持有原始数据向量X内记载的数据，但不知道分箱边界打乱后的顺序，无法猜出每个分箱的大体分布，有效的保证分箱的信息不被暴露，从而保证了离散特征的密文信息不会泄漏。由于分箱的边界被打乱了顺序，所以需要计算出每个分箱的下边界值h对应的下边界分片数据，从而能够确定每个分箱的上下边界。

作为优选，所述步骤S4执行之前先执行以下步骤：

第一方、第二方采用基于秘密分享的共享数据随机排序方法对上边界分片数据向量F1、上边界分片数据向量F2进行随机排序处理，第一方得到新的上边界分片数据向量FB1，第二方得到新的上边界分片数据向量FB2，FB1+FB2=F；

第一方根据上边界分片数据向量FB1、分箱长度分片w1计算出每个分箱的下边界值h对应的下边界分片数据h1；

第二方根据上边界分片数据向量FB2、分箱长度分片w2计算出每个分箱的下边界值h对应的下边界分片数据h2。

第一方、第二方采用现有的基于秘密分享的共享数据随机排序方法对上边界分片数据向量F1、上边界分片数据向量F2进行重新排序，这样，分箱边界被打乱了顺序，双方都不知道分箱边界打乱后的顺序，进一步保证了离散特征的密文信息不会泄漏。由于分箱的边界被打乱了顺序，所以需要计算出每个分箱的下边界值h对应的下边界分片数据，从而能够确定每个分箱的上下边界。

本发明的有益效果是：（1）可以在第一方、第二方的数据不出库的情况下完成等宽分箱，无需第三方参与，保护了双方的数据隐私，避免数据泄露。（2）通过线性变换把两个数据的大小比较转换为对应的线性变换结果的大小比较（即把数据映射到另外的一个线性空间），保护了数据隐私，线性变换的计算量小，通信开销低，计算速度相较于秘密分享的布尔比较协议提升了8倍。（3）通过置换洗牌操作保证了离散特征的密文信息不会泄漏。

附图说明

图1是实施例的流程图；

图2是举例的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种基于秘密分享的共享数据等宽分箱方法，用于金融机构联合风控建模，原始数据向量X以和共享分片存储于第一方和第二方，X={x(1), x(2),……x(n)}，第一方持有共享分片向量X₁，X₁={x₁(1), x₁(2),……x₁(n)}，第二方持有共享分片向量X₂，X₂={x₂(1), x₂(2),……x₂(n)}，x(i)=x₁(i)+x₂(i)，1≤i≤n，n为原始数据向量X中的数据个数，x(i)为原始数据向量X中的第i个数据，x₁(i)为共享分片向量X₁中的第i个共享分片数据，x₂(i)为共享分片向量X₂中的第i个共享分片数据，如图1所示，包括以下步骤：

S1：第一方、第二方采用密态比较协议找出原始数据向量X中的最大值x_A对应的属于共享分片向量X₁的共享分片数据x_A1、属于共享分片向量X₂的共享分片数据x_A2，x_A=x_A1+x_A2，找出原始数据向量X中的最小值x_B对应的属于共享分片向量X₁的共享分片数据x_B1、属于共享分片向量X₂的共享分片数据x_B2，x_B=x_B1+x_B2；

S2：第一方根据共享分片数据x_A1、共享分片数据x_B1、分箱个数N计算出中间结果H1，H1=(x_A1-x_B1)/N；

第一方、第二方采用秘密分享算法的加法协议根据中间结果H1、中间结果H2计算出分箱长度w，w=H1+H2，第一方得到分箱长度分片w1，第二方得到分箱长度分片w2，w=w1+w2；

在本方案中，初始时，原始数据向量X通过某些隐私计算组件拆分为加性秘密分享的两个共享分片向量X₁、X₂，第一方持有共享分片向量X₁，第二方持有共享分片向量X₂。第一方、第二方先找出最大值x_A对应的共享分片数据x_A1、共享分片数据x_A2，x_A=x_A1+x_A2，找出最小值x_B对应的共享分片数据x_B1、共享分片数据x_B2，x_B=x_B1+x_B2。

接着，计算出分箱长度w，第一方持有分箱长度分片w1，第二方持有分箱长度分片w2，w=(x_A-x_B)/N，N为分箱个数。

然后，第一方计算出每个分箱的上边界值f对应的上边界分片数据f1，上边界分片数据f1分别为x_B1+w1、x_B1+2w1、x_B1+3w1……x_B1+N*w1，第二方计算出每个分箱的上边界值f对应的上边界分片数据f2，上边界分片数据f2分别为x_B2+w2、x_B2+2w2、x_B2+3w2……x_B2+N*w2。上边界分片数据f1与对应的上边界分片数据f2相加就是对应分箱的上边界值，例如第一个分箱的上边界值为(x_B1+w1)+(x_B2+w2)=x_B+w。由于前一个分箱的上边界是后一个分箱的下边界，所以根据各个分箱的上边界就能够确定各个分箱的区间，第一方、第二方按顺序给每个分箱都编号。

最后，第一方、第二方配合将各自持有的共享分片向量中的共享分片数据分配到对应的分箱，并记录对应的分箱信息。

整个过程中，第一方、第二方都无法获取对方持有的共享分片向量的数据，即第一方、第二方在数据不出库的情况下完成等宽分箱，无需第三方参与，保护了双方的数据隐私，避免数据泄露。

原始数据可以是个人信息数据、消费数据、贷款数据等，例如：用户的年龄、收入、每月话费、每月消费金额、每月还贷金额、欠款总额等数值数据。比如，第一方、第二方为不同的金融机构（可以是银行、证券公司、保险公司等），第一方、第二方进行联合风控建模，第一方、第二方分别持有用户收入的共享数据分片，两方要将各自持有的共享数据分片进行等宽分箱，根据用户收入做客户分级，从而用于模型的训练，分箱可以把连续的特征离散化，让特征有更好的可区分性，更好的训练模型，由于建模的特征是密文数据，采用本方案的高效的密文的等宽分箱方法可以有效保护特征信息。

步骤S1包括以下步骤：

第一方、第二方比较原始数据向量X中的两个数据大小的方法如下：

步骤N2中第一方、第二方联合计算共享分片向量X₁中的第i个共享分片数据x₁(i)、共享分片向量X₂中的第i个共享分片数据x₂(i)对应的原始数据x(i)的线性变换结果G(i)的方法如下，x(i)=x₁(i)+x₂(i)：

M1：第一方、第二方采用秘密分享的乘法协议计算a2*x₁(i)，第一方得到分片数据C1，第二方得到分片数据C2，C1+C2= a2*x₁(i)；

第一方、第二方采用秘密分享的乘法协议计算a1*x₂(i)，第一方得到分片数据D1，第二方得到分片数据D2，D1+D2= a1*x₂(i)；

M2：第一方将a1*x₁(i)、分片数据C1、分片数据D1、随机数b1相加，得到中间结果G1(i)，并发送给第二方；

第二方将a2*x₂(i)、分片数据C2、分片数据D2、随机数b2相加，得到中间结果G2(i)，并发送给第一方；

M3：第一方、第二方分别将中间结果G1(i)、中间结果G2(i)相加得到最终结果G(i)。

第一方、第二方每次比较原始数据向量X中的两个数据大小时都分别重新随机生成随机数a1、随机数b1、随机数a2、随机数b2。

第一方、第二方依据秘密分享的乘法和加法协议，通过线性变换把两个数据转换为对应的线性变换结果（即把数据映射到另外的一个线性空间），根据线性变换结果判断两个数据的大小，整个过程中第一方、第二方都无法获知对方持有的共享分片数据的内容，也无法获知对方生成的随机数，无法推导出对方持有的共享分片数据的内容以及原始数据的内容，保护了数据隐私。另外，线性变换的计算量小，通信开销低，计算速度相较于秘密分享的布尔比较协议提升了8倍。随机数a1、b1、a2、b2为大于20位的常数。

上述方法中第一方、第二方联合计算出共享分片向量X₁中的第i个共享分片数据x₁(i)、共享分片向量X₂中的第i个共享分片数据x₂(i)对应的原始数据x(i)的线性变换结果G(i)，

G(i)=G1(i)+G2(i)

=[a1*x₁(i)+C1+D1+b1]+[a2*x₂(i)+C2+D2+b2]

=a1*x₁(i)+(C1+C2)+ (D1+D2)+a2*x₂(i)+(b1+b2)

=a1*x₁(i)+a2*x₁(i)+a1*x₂(i)+a2*x₂(i)+(b1+b2)

=(a1+a2)*(x₁(i)+x₂(i))+(b1+b2)，

将a1+a2记为a，b1+b2记为b，则G(i)=a*x(i)+b，可以看出G(i)是原始数据x(i)的线性变换结果。

即线性变换的公式为y=ax+b，

其中，a=a1+a2，b=b1+b2，x表示原始数据向量X中的原始数据，x=x₁+x₂，x₁表示原始数据x在共享分片向量X₁中对应的共享分片数据，x₂表示原始数据x在共享分片向量X₂中对应的共享分片数据，y表示原始数据x的线性变换结果。

步骤S4中第一方、第二方配合将原始数据向量X中的某个原始数据x对应的属于共享分片向量X₁的共享分片数据x₁、属于共享分片向量X₂的共享分片数据x₂分配到对应的分箱的方法如下：

第一方、第二方采用密态比较协议比较原始数据x与某个分箱的上边界值f的大小关系的方法如下：

第一方、第二方每次比较原始数据x与某个分箱的上边界值f的大小关系时都分别重新随机生成随机数c1、随机数d1、随机数c2、随机数d2。

第一方、第二方联合计算原始数据x对应的线性变换结果的方法与步骤N2记载的方法一致。

第一方、第二方联合计算上边界分片数据f1(j)、上边界分片数据f2(j)对应的第j个分箱的上边界值f(j)的线性变换结果的方法与步骤N2记载的方法一致，具体如下，f(j)=f1(j)+f2(j)，1≤j≤N：

第一方、第二方采用秘密分享的乘法协议计算c2*f1(j)，第一方得到分片数据E1，第二方得到分片数据E2，E1+E2= c2* f1(j)；

第一方、第二方采用秘密分享的乘法协议计算c1*f2(j)，第一方得到分片数据F1，第二方得到分片数据F2，F1+F2= c1*f2(j)；

M2：第一方将c1*f1(j)、分片数据E1、分片数据F1、随机数d1相加，得到中间结果K1(j)，并发送给第二方；

第二方将c2*f2(j)、分片数据E2、分片数据F2、随机数d2相加，得到中间结果K2(j)，并发送给第一方；

M3：第一方、第二方分别将中间结果K1(j)、中间结果K2(j)相加得到最终结果K(j)。

根据上述方法计算出的K(j)=(c1+c2)*f(j)+(d1+d2)，即完成了线性变换。随机数c1、c2、d1、d2为大于20位的常数。

举例说明：

原始数据向量X中记载着三个样本的年龄数据，即张三的年龄25、李四的年龄14、王五的年龄26，原始数据向量X以和共享分片存储于第一方和第二方，如图2所示，

X={x(1), x(2),x(3)}={25, 14,26}，

第一方持有共享分片向量X₁，

X₁={x₁(1), x₁(2), x₁(3)}={10, 12,23}，

第二方持有共享分片向量X₂，

X₂={x₂(1), x₂(2), x₂(3)}={15, 2,3}。

现需要将共享分片向量X₁、共享分片向量X₂进行等宽分箱，分箱个数N为2。

首先，第一方、第二方采用密态比较协议找出原始数据向量X中的最大值A(A为26)对应的属于共享分片向量X₁的共享分片数据A1(A1为23)、属于共享分片向量X₂的共享分片数据A2(A2为3)，找出原始数据向量X中的最小值B(B为14)对应的属于共享分片向量X₁的共享分片数据B1(B1为12)、属于共享分片向量X₂的共享分片数据B2(B2为2)；

接着，第一方、第二方采用秘密分享算法计算出分箱长度W，第一方得到分箱长度分片W1(W1为2)，第二方得到分箱长度分片W2(W2为4)；

然后，第一方根据最小值B对应的共享分片数据B1、分箱长度分片W1计算出每个分箱的上边界分片数据f1，分别为14、16；

第二方根据最小值B对应的共享分片数据B2、分箱长度分片W2计算出每个分箱的上边界分片数据f2，分别为6、10；

将上边界分片数据f1为14、上边界分片数据f2为6对应的分箱标记为1号分箱，将上边界分片数据f1为16、上边界分片数据f2为10对应的分箱标记为2号分箱，即1号分箱的区间为[14,20]，2号分箱的区间为(20,26]。

最后，第一方、第二方配合计算，第一方将共享分片向量X₁中的10、23分配到2号分箱，将共享分片向量X₁中的12分配到1号分箱；第二方将共享分片向量X₂中的15、3分配到2号分箱，将共享分片向量X₂中的2分配到1号分箱，并记录对应的分箱信息。

分箱完成后，可以给分箱内的共享分片数据重新赋值，位于同一分箱的共享分片数据赋值相同，例如，将分配到1号分箱的共享分片数据都赋值1，将分配到2号分箱的共享分片数据都赋值2，或者计算每个分箱的WOE值或IV值，将每个分箱内的共享分片数据都赋值所在分箱对应的WOE值或IV值。这样分箱就将连续的特征离散化，让特征有更好的可区分性，更好的训练模型。

实施例2：本实施例的一种基于秘密分享的共享数据等宽分箱方法，原始数据向量X以和共享分片存储于第一方和第二方，第一方持有共享分片向量X₁，第二方持有共享分片向量X₂，包括以下步骤：

S1：第一方、第二方采用秘密分享的布尔比较协议找出原始数据向量X中的最大值x_A对应的属于共享分片向量X₁的共享分片数据x_A1、属于共享分片向量X₂的共享分片数据x_A2，x_A=x_A1+x_A2，找出原始数据向量X中的最小值x_B对应的属于共享分片向量X₁的共享分片数据x_B1、属于共享分片向量X₂的共享分片数据x_B2，x_B=x_B1+x_B2；

第一方、第二方采用秘密分享的布尔比较协议比较原始数据x与每个分箱的上边界值f的大小关系，从而确定原始数据x应该被分配到的分箱，第一方将共享分片数据x₁分配到该分箱，第二方将共享分片数据x₂分配到该分箱。

实施例3：本实施例的一种基于秘密分享的共享数据等宽分箱方法，本实施例的方法与实施例1基本相同，不同之处在于：

步骤S4执行之前先执行以下步骤：

本实施例在实施例1记载的方法的步骤S3与步骤S4之间添加了上述步骤。本方法用于下述情况：初始时，第一方持有的数据包含原始数据向量X内记载的数据，原始数据向量X内记载的数据对应的用户ID为第一方、第二方交集的用户ID，第一方采用专利号为CN202210575570.8，名称为一种私有数据隐匿共享方法的专利记载的方法将原始数据向量X的一部分分享给第二方，第一方持有共享分片向量XA₁，第二方持有共享分片向量XA₂，接着，第一方、第二方采用专利号为CN202210721855.8，名称为一种基于秘密分享的共享数据随机排序方法的专利记载的方法对共享数据进行重新排序，最终，第一方得到共享分片向量X₁，第二方得到共享分片向量X₂，此时，第一方、第二方都无法知道随机排序后的共享分片向量内的数据与哪个用户ID对应，将数据与用户ID实现了脱钩。

通过步骤S3计算出上边界分片数据f1、f2后，上边界向量F、上边界分片数据向量F1、上边界分片数据向量F2都是升序排序的，即F={x_B+w, x_B+2w,……x_B+Nw }，F1={x_B1+w1,x_B1+2w1,……x_B1+Nw1}，F2={x_B2+w2, x_B2+2w2,……x_B2+Nw2}，N为分箱个数。

在上述情况中，由于第一方是持有的数据包含了原始数据向量X内记载的数据，对于年龄等离散特征，连续分箱做比较有一定的统计信息会被第一方猜出来，第一方可以拿到每个分箱的大体分布。

所以本方法由第二方生成随机向量g，采用一种基于秘密分享的共享数据随机排序方法的专利记载的步骤S1对第一方持有的上边界分片数据向量F1按照随机向量g进行重新排序，第一方得到向量b₀，第二方得到向量P₁；第二方将上边界分片数据向量F2按照随机向量g重新排序得到向量P₂，将向量P₁、向量P₂相加得到向量P₃，使得向量b₀与向量P₃的和为上边界向量F按照随机向量g重新排序后的结果。这样，分箱边界被打乱了顺序，第一方持有原始数据向量X内记载的数据，但不知道分箱边界打乱后的顺序，第二方知道分箱边界打乱后的顺序，但没有原始数据向量X内记载的数据，双方都无法猜出每个分箱的大体分布，有效的保证分箱的信息不被暴露，从而保证了离散特征的密文信息不会泄漏。

由于分箱的边界被打乱了顺序，所以需要计算出每个分箱的下边界值h对应的下边界分片数据，从而能够确定每个分箱的上下边界。

实施例4：本实施例的一种基于秘密分享的共享数据等宽分箱方法，本实施例的方法与实施例1基本相同，不同之处在于：

步骤S4执行之前先执行以下步骤：

本实施例在实施例1记载的方法的步骤S3与步骤S4之间添加了上述步骤，第一方、第二方采用专利号为CN202210721855.8，名称为一种基于秘密分享的共享数据随机排序方法的专利记载的方法对上边界分片数据向量F1、上边界分片数据向量F2进行重新排序，这样，分箱边界被打乱了顺序，双方都不知道分箱边界打乱后的顺序，进一步保证了离散特征的密文信息不会泄漏。由于分箱的边界被打乱了顺序，所以需要计算出每个分箱的下边界值h对应的下边界分片数据，从而能够确定每个分箱的上下边界。

Claims

1.一种基于秘密分享的共享数据等宽分箱方法，用于金融机构联合风控建模，原始数据向量X以和共享分片存储于第一方和第二方，第一方持有共享分片向量X₁，第二方持有共享分片向量X₂，其特征在于，包括以下步骤：

S4：第一方、第二方配合将各自持有的共享分片向量中的共享分片数据分配到对应的分箱。

2.根据权利要求1所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述密态比较协议为秘密分享的布尔比较协议。

3.根据权利要求1所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述步骤S1包括以下步骤：

4.根据权利要求3所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述步骤N2中第一方、第二方联合计算共享分片向量X₁中的某个共享分片数据x₁、共享分片向量X₂中的某个共享分片数据x₂对应的原始数据x的线性变换结果的方法如下，x=x₁+x₂：

5.根据权利要求1或2或3或4所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述步骤S2包括以下步骤：

6.根据权利要求1或2或3或4所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述步骤S4中第一方、第二方配合将原始数据向量X中的某个原始数据x对应的属于共享分片向量X₁的共享分片数据x₁、属于共享分片向量X₂的共享分片数据x₂分配到对应的分箱的方法如下：

7.根据权利要求6所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述第一方、第二方采用密态比较协议比较原始数据x与某个分箱的上边界值f的大小关系的方法如下：

8.根据权利要求1或2或3或4所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，当第一方持有原始数据向量X内的数据，共享分片向量X₁、共享分片向量X₂是第一方、第二方经过基于秘密分享的共享数据随机排序方法进行排序后的结果时，所述步骤S4执行之前先执行以下步骤：

9.根据权利要求1或2或3或4所述的一种基于秘密分享的共享数据等宽分箱方法，其特征在于，所述步骤S4执行之前先执行以下步骤：