CN114003939A

CN114003939A - 一种用于纵向联邦场景的多重共线性分析方法

Info

Publication number: CN114003939A
Application number: CN202111352559.7A
Authority: CN
Inventors: 倪壮; 毛仁歆; 刘洋; 任江哲
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-01
Anticipated expiration: 2041-11-16
Also published as: CN114003939B

Abstract

本发明公开了一种用于纵向联邦场景的多重共线性分析方法。它包括以下步骤：数据使用方找出具有待分析数据特征的用户及其对应的用户数据集x，数据提供方找出同样用户对应的用户数据集y，将用户数据集x、用户数据集y中除待分析数据特征之外的每个数据特征对应的权重系数初始化；数据使用方计算出总均方误差D，数据使用方与数据提供方相互配合重新计算出除待分析数据特征之外的每个数据特征对应的权重系数并替换原权重系数，重复此步骤直到D＜A；数据使用方、数据提供方使用最新的每个数据特征对应的权重系数配合计算出方差膨胀系数VIF值。本发明能够使数据使用方在不获得数据提供方拥有的原始数据的情况下，分析数据集的多重共线性情况，整个过程无第三方参与，保护了数据安全。

Description

一种用于纵向联邦场景的多重共线性分析方法

技术领域

本发明涉及共线性分析技术领域，尤其涉及一种用于纵向联邦场景的多重共线性分析方法。

背景技术

纵向联邦学习和多方安全计算场景下，数据使用方在建模或使用数据之前，需要检验各数据特征间的多重共线性，以筛选出更有效的建模数据，使建模结果更加稳定。

现有的多重共线性分析方法有以下几种缺点：

(1)分析两个数据特征间的相关系数，如皮尔森系数，但该方法只度量了两个数据特征间的相关性，无法同时对多数据特征间的共线性进行度量；

(2)多数据特征间相关性现有的实现技术均存在第三方，将计算过程中的梯度等信息通过第三方进行加工后返回给数据使用者，存在第三方，必然使安全性和隐私性得不到保障；

(3)加密算子固定，没有自适应不同带宽-计算资源比，使得资源利用率不充分。

发明内容

本发明为了解决上述技术问题，提供了一种用于纵向联邦场景的多重共线性分析方法，其能够使数据使用方在不获得数据提供方拥有的原始数据的情况下，分析待分析数据特征的多重共线性情况，整个过程无第三方参与，保护了数据安全。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种用于纵向联邦场景的多重共线性分析方法，包括以下步骤：

S1：数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x，每个用户数据集x的结构相同，每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征，数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化；

S2：数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集，使数据提供方得到匹配上的用户名称，数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y，每个用户数据集y的结构相同，每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征，数据提供方将每个数据特征对应的权重系数初始化；

S3：数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb，线性和yb为对应用户数据集x中除了待分析数据特征之外的所有其他数据特征的线性和；

数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya，线性和ya为对应用户数据集y中所有数据特征的线性和，数据提供方将计算结果发送给数据使用方；

S4：数据使用方根据每个用户对应的线性和yb、线性和ya以及待分析数据特征计算出每个用户对应的残差f以及均方误差delta，并将计算出的所有均方误差delta相加得到总均方误差D，如果D＜A，则跳转至步骤S6，否则执行步骤S5；

S5：数据使用方根据每个用户对应的残差f计算出用户数据集x具有的除了待分析数据特征之外的其他每个数据特征对应的权重系数的最新值，并给这些权重系数赋予最新值；

数据使用方与数据提供方使用加密算子进行加密通信，使数据提供方计算出用户数据集y具有的每个数据特征对应的权重系数的最新值，并给这些权重系数赋予最新值，接着跳转至步骤S4；

S6：数据使用方根据权重系数的最新值计算出每个用户数据集x对应的线性和yb；

数据提供方根据权重系数的最新值计算出每个用户数据集y对应的线性和ya，并将计算结果发送给数据使用方；

S7：数据使用方根据自身计算出的线性和yb、数据提供方计算出的线性和ya以及待分析数据特征的平均值avg计算出待分析数据特征的方差膨胀系数VIF，根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。

在本方案中，数据使用方：发起数据使用、查询等任务以使用数据提供方的数据。数据提供方：提供数据以满足数据使用方发起的数据使用等任务，但不直接提供原始数据。本方案通过方差膨胀系数VIF值衡量待分析数据特征与数据使用方拥有的其他数据特征以及数据提供方拥有的数据特征之间的多重共线性，VIF值越大表示多重共线性越严重。

每个用户数据集x的结构相同，每个用户数据集y的结构相同，用户数据集x中的数据特征与用户数据集y中的数据特征没有相同的。例如：用户数据集x包含3个数据特征，分别为用户身高、用户体重、用户年龄，用户身高为待分析数据特征，用户数据集y包含2个数据特征，分别为用户日消费金额、用户日打电话次数。

本方案的多重共线性分析方法在计算过程中，数据提供方没有提供原始数据，数据使用方在不获得数据提供方原始数据的情况下分析了待分析数据特征与其他数据特征间的多重共线性情况，有利于建模前的数据特征选择和模型的稳定，整个过程中也没有第三方参与，保护了数据使用方、数据提供方的数据隐私和安全。

作为优选，所述步骤S5包括以下步骤：

S51：数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方；

数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb，根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值，并给这些权重系数赋予最新值；

S52：数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga，给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方；

S53：数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密，得到有噪声的梯度ga_noise并发送给数据提供方；

S54：数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga，根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值，并给这些权重系数赋予最新值，接着跳转至步骤S4。

作为优选，所述步骤S1包括以下步骤：

数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x，具有待分析数据特征的用户有d个，依次编号为1，2……d，每个用户数据集x的结构相同，每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征，将用户数据集x中的待分析数据特征标记为x₁，将用户数据集x中的其他数据特征依次标记为x₂、x₃……x_n，n为用户数据集x中含有的数据特征的数量，n≥2，则编号为i的用户对应的用户数据集为x(i)，1≤i≤d，用户数据集x(i)的结构为x(i)＝{x₁(i)、x₂(i)、……x_n(i)}，数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化，数据特征x_p对应的权重系数为w_p，2≤p≤n；

所述步骤S2包括以下步骤：数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集，使数据提供方得到匹配上的用户名称，数据提供方从数据使用方得到匹配上的用户名称对应的编号，数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y，每个用户数据集y的结构相同，每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征，数据提供方将用户数据集y中的数据特征依次标记为y₁、y₂……y_m，m为用户数据集y中含有的数据特征的数量，m≥1，则编号为i的用户对应的用户数据集为y(i)，用户数据集y(i)的结构为y(i)＝{y₁(i)、y₂(i)、……y_m(i)}，数据提供方将每个数据特征对应的权重系数初始化，数据特征y_q对应的权重系数为v_q，1≤q≤m。

作为优选，所述步骤S3包括以下步骤：

数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb，编号为i的用户对应的用户数据集x(i)对应的线性和yb_i＝∑_jw_j*x_j(i)，j＝2、3……n；

数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya，编号为i的用户对应的用户数据集y(i)对应的线性和ya_i＝∑_jv_j*y_j(i)，j＝1、2……n，数据提供方将计算结果发送给数据使用方。

所述步骤S4包括以下步骤：

数据使用方计算出每个用户对应的残差f以及均方误差delta，编号为i的用户对应的残差f(i)以及均方误差delta(i)的计算公式如下：

f(i)＝x₁(i)-(ya_i+yb_i)，

数据使用方计算出的所有均方误差delta相加得到总均方误差D，

如果D＜A，则跳转至步骤S6，否则执行步骤S5。

作为优选，所述步骤S5包括以下步骤：

数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb，根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值，并给这些权重系数赋予最新值；数据特征x_p对应的梯度

给数据特征x_p对应的权重系数重新赋值的公式如下：w_p：＝w_p-αgb_p，0≤α≤1；

数据特征y_q对应的加密梯度

enc_f(i)表示编号为i的用户对应的加密后的残差，加上高斯噪声noise后得到enc_ga_noise_q＝enc_ga_q+noise；

S54：数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga，(即数据特征y_q对应的梯度

)，根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值，并给这些权重系数赋予最新值，给数据特征y_q对应的权重系数重新赋值的公式如下：v_q：＝v_q-αga_q，0≤α≤1，接着跳转至步骤S4。

作为优选，所述步骤S7包括以下步骤：

数据使用方计算出待分析数据特征的平均值

计算出待分析数据特征的方差膨胀系数

根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。

作为优选，所述步骤S1还包括以下步骤：数据使用方计算宽带-计算资源比，如果宽带-计算资源比＞E，则选择秘密共享算法作为加密算子，并将选择秘密共享算法作为加密算子的信息通知数据提供方，如果宽带-计算资源比≤E，则选择同态加密算法作为加密算子，并将选择同态加密算法作为加密算子的信息通知数据提供方。

作为优选，所述高斯噪声noise为normal(0，1)。

作为优选，所述A＝10^-5。

本发明的有益效果是：(1)数据使用方在不获得数据提供方原始数据的情况下分析了待分析数据特征与数据使用方拥有的其他数据特征以及数据提供方拥有的数据特征之间的多重共线性情况。(2)整个过程无第三方参与，保护了数据安全。(3)自适应选择加密算子，充分利用资源且明显提升计算速率。

附图说明

图1是实施例的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种用于纵向联邦场景的多重共线性分析方法，如图1所示，包括以下步骤：

S1：数据使用方计算宽带-计算资源比，如果宽带-计算资源比＞E，则选择秘密共享算法作为加密算子，并将选择秘密共享算法作为加密算子的信息通知数据提供方，如果宽带-计算资源比≤E，则选择同态加密算法作为加密算子，并将选择同态加密算法作为加密算子的信息通知数据提供方；、

S2：数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集，使数据提供方得到匹配上的用户名称，数据提供方从数据使用方得到匹配上的用户名称对应的编号，数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y，每个用户数据集y的结构相同，每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征，数据提供方将用户数据集y中的数据特征依次标记为y₁、y₂……y_m，m为用户数据集y中含有的数据特征的数量，m≥1，则编号为i的用户对应的用户数据集为y(i)，用户数据集y(i)的结构为y(i)＝{y₁(i)、y₂(i)、……y_m(i)}，数据提供方将每个数据特征对应的权重系数初始化，数据特征y_q对应的权重系数为v_q，1≤q≤m；

S3：数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb，编号为i的用户对应的用户数据集x(i)对应的线性和yb_i＝∑_jw_j*x_j(i)，j＝2、3……n；

数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya，编号为i的用户对应的用户数据集y(i)对应的线性和ya_i＝∑_jv_j*y_j(i)，j＝1、2……n，数据提供方将计算结果发送给数据使用方；

S4：数据使用方计算出每个用户对应的残差f以及均方误差delta，编号为i的用户对应的残差f(i)以及均方误差delta(i)的计算公式如下：

f(i)＝x₁(i)-(ya_i+yb_i)，

如果D＜10^-5，则跳转至步骤S6，否则执行步骤S5；

步骤S5包括以下步骤：

数据特征x_p对应的梯度

S52：数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga，给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方，高斯噪声noise为normal(0，1)；

数据特征y_q对应的加密梯度

步骤S7包括以下步骤：

数据使用方计算出待分析数据特征的平均值

计算出待分析数据特征的方差膨胀系数

计算资源为运行加密算子能使用的CPU核数。根据不同的宽带-计算资源比自适应选择对应的加密算子，充分利用资源且明显提升计算速率。

举例说明：

数据使用方的数据集如下：

用户1对应的用户数据集x(1)＝{接收电话次数3、接收电话天数1}，

用户2对应的用户数据集x(2)＝{接收电话次数5、接收电话天数2}，

数据提供方的数据集如下：

用户1对应的用户数据集y(1)＝{接收短信条数6、接收短信天数2}，

用户2对应的用户数据集y(2)＝{接收短信条数2、接收短信天数4}，

分析接收电话次数这个数据特征与接收电话天数、接收短信条数、接收短信天数这三个数据特征间的多重共线性。

初始化接收电话天数对应的权重w₂＝0.1、接收短信条数对应的权重v₁＝0.2、接收短信天数对应的权重v₂＝0.1，α＝0.001。

计算步骤：计算用户数据集x(1)的线性和yb₁＝0.1*1＝0.1，用户数据集y(1)的线性和ya₁＝0.2*6+0.1*2＝1.4；

用户数据集x(2)的线性和yb₂＝0.1*2＝0.2，用户数据集y(2)的线性和ya₂＝0.2*2+0.1*4＝0.8。

计算用户1对应的残差f(1)＝3-(0.1+1.4)＝1.5，均方误差delta(1)＝1.125，用户2对应的残差f(2)＝5-(0.2+0.8)＝4，均方误差delta(1)＝8，总均方误差D＝1.125+8＝9.125。

接收电话天数对应的权重w₂重新赋值w₂＝0.1-0.001*(1.5*1+4*2)＝0.0905，

接收短信条数对应的权重v₁重新赋值v₁＝0.2-0.001*(1.5*6+4*2)＝0.183，

接收短信天数对应的权重v₂重新赋值v₂＝0.1-0.001*(1.5*2+4*4)＝0.081，

重复上述计算步骤直到总均方误差D＜10^-5，确定此时的接收电话天数对应的权重w₂、接收短信条数对应的权重v₁、接收短信天数对应的权重v₂，然后计算方差膨胀系数VIF。

Claims

1.一种用于纵向联邦场景的多重共线性分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S5包括以下步骤：

3.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S1包括以下步骤：

4.根据权利要求3所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S3包括以下步骤：

数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb，编号为i的用户对应的用户数据集x(i)对应的线性和yb_i＝∑_jw_j*x_j(i)，j＝2、3……n；数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya，编号为i的用户对应的用户数据集y(i)对应的线性和ya_i＝∑_jv_j*y_j(i)，j＝1、2……n，数据提供方将计算结果发送给数据使用方。

5.根据权利要求4所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S4包括以下步骤：

如果D＜A，则跳转至步骤S6，否则执行步骤S5。

6.根据权利要求5所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S5包括以下步骤：

数据特征x_p对应的梯度

数据特征y_q对应的加密梯度

S54：数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga，根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值，并给这些权重系数赋予最新值，给数据特征y_q对应的权重系数重新赋值的公式如下：v_q：＝v_q-αga_q，0≤α≤1，接着跳转至步骤S4。

7.根据权利要求6所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S7包括以下步骤：

数据使用方计算出待分析数据特征的平均值

计算出待分析数据特征的方差膨胀系数

8.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述步骤S1还包括以下步骤：数据使用方计算宽带-计算资源比，如果宽带-计算资源比＞E，则选择秘密共享算法作为加密算子，并将选择秘密共享算法作为加密算子的信息通知数据提供方，如果宽带-计算资源比≤E，则选择同态加密算法作为加密算子，并将选择同态加密算法作为加密算子的信息通知数据提供方。

9.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法，其特征在于，所述A＝10^-5。