CN114003939A - 一种用于纵向联邦场景的多重共线性分析方法 - Google Patents

一种用于纵向联邦场景的多重共线性分析方法 Download PDF

Info

Publication number
CN114003939A
CN114003939A CN202111352559.7A CN202111352559A CN114003939A CN 114003939 A CN114003939 A CN 114003939A CN 202111352559 A CN202111352559 A CN 202111352559A CN 114003939 A CN114003939 A CN 114003939A
Authority
CN
China
Prior art keywords
data
user
gradient
analyzed
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111352559.7A
Other languages
English (en)
Other versions
CN114003939B (zh
Inventor
倪壮
毛仁歆
刘洋
任江哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202111352559.7A priority Critical patent/CN114003939B/zh
Publication of CN114003939A publication Critical patent/CN114003939A/zh
Application granted granted Critical
Publication of CN114003939B publication Critical patent/CN114003939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Abstract

本发明公开了一种用于纵向联邦场景的多重共线性分析方法。它包括以下步骤:数据使用方找出具有待分析数据特征的用户及其对应的用户数据集x,数据提供方找出同样用户对应的用户数据集y,将用户数据集x、用户数据集y中除待分析数据特征之外的每个数据特征对应的权重系数初始化;数据使用方计算出总均方误差D,数据使用方与数据提供方相互配合重新计算出除待分析数据特征之外的每个数据特征对应的权重系数并替换原权重系数,重复此步骤直到D<A;数据使用方、数据提供方使用最新的每个数据特征对应的权重系数配合计算出方差膨胀系数VIF值。本发明能够使数据使用方在不获得数据提供方拥有的原始数据的情况下,分析数据集的多重共线性情况,整个过程无第三方参与,保护了数据安全。

Description

一种用于纵向联邦场景的多重共线性分析方法
技术领域
本发明涉及共线性分析技术领域,尤其涉及一种用于纵向联邦场景的多重共线性分析方法。
背景技术
纵向联邦学习和多方安全计算场景下,数据使用方在建模或使用数据之前,需要检验各数据特征间的多重共线性,以筛选出更有效的建模数据,使建模结果更加稳定。
现有的多重共线性分析方法有以下几种缺点:
(1)分析两个数据特征间的相关系数,如皮尔森系数,但该方法只度量了两个数据特征间的相关性,无法同时对多数据特征间的共线性进行度量;
(2)多数据特征间相关性现有的实现技术均存在第三方,将计算过程中的梯度等信息通过第三方进行加工后返回给数据使用者,存在第三方,必然使安全性和隐私性得不到保障;
(3)加密算子固定,没有自适应不同带宽-计算资源比,使得资源利用率不充分。
发明内容
本发明为了解决上述技术问题,提供了一种用于纵向联邦场景的多重共线性分析方法,其能够使数据使用方在不获得数据提供方拥有的原始数据的情况下,分析待分析数据特征的多重共线性情况,整个过程无第三方参与,保护了数据安全。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种用于纵向联邦场景的多重共线性分析方法,包括以下步骤:
S1:数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化;
S2:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将每个数据特征对应的权重系数初始化;
S3:数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,线性和yb为对应用户数据集x中除了待分析数据特征之外的所有其他数据特征的线性和;
数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,线性和ya为对应用户数据集y中所有数据特征的线性和,数据提供方将计算结果发送给数据使用方;
S4:数据使用方根据每个用户对应的线性和yb、线性和ya以及待分析数据特征计算出每个用户对应的残差f以及均方误差delta,并将计算出的所有均方误差delta相加得到总均方误差D,如果D<A,则跳转至步骤S6,否则执行步骤S5;
S5:数据使用方根据每个用户对应的残差f计算出用户数据集x具有的除了待分析数据特征之外的其他每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值;
数据使用方与数据提供方使用加密算子进行加密通信,使数据提供方计算出用户数据集y具有的每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4;
S6:数据使用方根据权重系数的最新值计算出每个用户数据集x对应的线性和yb;
数据提供方根据权重系数的最新值计算出每个用户数据集y对应的线性和ya,并将计算结果发送给数据使用方;
S7:数据使用方根据自身计算出的线性和yb、数据提供方计算出的线性和ya以及待分析数据特征的平均值avg计算出待分析数据特征的方差膨胀系数VIF,根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
在本方案中,数据使用方:发起数据使用、查询等任务以使用数据提供方的数据。数据提供方:提供数据以满足数据使用方发起的数据使用等任务,但不直接提供原始数据。本方案通过方差膨胀系数VIF值衡量待分析数据特征与数据使用方拥有的其他数据特征以及数据提供方拥有的数据特征之间的多重共线性,VIF值越大表示多重共线性越严重。
每个用户数据集x的结构相同,每个用户数据集y的结构相同,用户数据集x中的数据特征与用户数据集y中的数据特征没有相同的。例如:用户数据集x包含3个数据特征,分别为用户身高、用户体重、用户年龄,用户身高为待分析数据特征,用户数据集y包含2个数据特征,分别为用户日消费金额、用户日打电话次数。
本方案的多重共线性分析方法在计算过程中,数据提供方没有提供原始数据,数据使用方在不获得数据提供方原始数据的情况下分析了待分析数据特征与其他数据特征间的多重共线性情况,有利于建模前的数据特征选择和模型的稳定,整个过程中也没有第三方参与,保护了数据使用方、数据提供方的数据隐私和安全。
作为优选,所述步骤S5包括以下步骤:
S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;
数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;
S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方;
S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有噪声的梯度ga_noise并发送给数据提供方;
S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4。
作为优选,所述步骤S1包括以下步骤:
数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,具有待分析数据特征的用户有d个,依次编号为1,2……d,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,将用户数据集x中的待分析数据特征标记为x1,将用户数据集x中的其他数据特征依次标记为x2、x3……xn,n为用户数据集x中含有的数据特征的数量,n≥2,则编号为i的用户对应的用户数据集为x(i),1≤i≤d,用户数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化,数据特征xp对应的权重系数为wp,2≤p≤n;
所述步骤S2包括以下步骤:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方从数据使用方得到匹配上的用户名称对应的编号,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将用户数据集y中的数据特征依次标记为y1、y2……ym,m为用户数据集y中含有的数据特征的数量,m≥1,则编号为i的用户对应的用户数据集为y(i),用户数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)},数据提供方将每个数据特征对应的权重系数初始化,数据特征yq对应的权重系数为vq,1≤q≤m。
作为优选,所述步骤S3包括以下步骤:
数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,编号为i的用户对应的用户数据集x(i)对应的线性和ybi=∑jwj*xj(i),j=2、3……n;
数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,编号为i的用户对应的用户数据集y(i)对应的线性和yai=∑jvj*yj(i),j=1、2……n,数据提供方将计算结果发送给数据使用方。
所述步骤S4包括以下步骤:
数据使用方计算出每个用户对应的残差f以及均方误差delta,编号为i的用户对应的残差f(i)以及均方误差delta(i)的计算公式如下:
f(i)=x1(i)-(yai+ybi),
Figure BDA0003356260390000041
数据使用方计算出的所有均方误差delta相加得到总均方误差D,
Figure BDA0003356260390000051
如果D<A,则跳转至步骤S6,否则执行步骤S5。
作为优选,所述步骤S5包括以下步骤:
S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;
数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;数据特征xp对应的梯度
Figure BDA0003356260390000052
给数据特征xp对应的权重系数重新赋值的公式如下:wp:=wp-αgbp,0≤α≤1;
S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方;
数据特征yq对应的加密梯度
Figure BDA0003356260390000053
enc_f(i)表示编号为i的用户对应的加密后的残差,加上高斯噪声noise后得到enc_ga_noiseq=enc_gaq+noise;
S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有噪声的梯度ga_noise并发送给数据提供方;
S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,(即数据特征yq对应的梯度
Figure BDA0003356260390000054
Figure BDA0003356260390000055
),根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,给数据特征yq对应的权重系数重新赋值的公式如下:vq:=vq-αgaq,0≤α≤1,接着跳转至步骤S4。
作为优选,所述步骤S7包括以下步骤:
数据使用方计算出待分析数据特征的平均值
Figure BDA0003356260390000056
计算出待分析数据特征的方差膨胀系数
Figure BDA0003356260390000057
根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
作为优选,所述步骤S1还包括以下步骤:数据使用方计算宽带-计算资源比,如果宽带-计算资源比>E,则选择秘密共享算法作为加密算子,并将选择秘密共享算法作为加密算子的信息通知数据提供方,如果宽带-计算资源比≤E,则选择同态加密算法作为加密算子,并将选择同态加密算法作为加密算子的信息通知数据提供方。
作为优选,所述高斯噪声noise为normal(0,1)。
作为优选,所述A=10-5
本发明的有益效果是:(1)数据使用方在不获得数据提供方原始数据的情况下分析了待分析数据特征与数据使用方拥有的其他数据特征以及数据提供方拥有的数据特征之间的多重共线性情况。(2)整个过程无第三方参与,保护了数据安全。(3)自适应选择加密算子,充分利用资源且明显提升计算速率。
附图说明
图1是实施例的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种用于纵向联邦场景的多重共线性分析方法,如图1所示,包括以下步骤:
S1:数据使用方计算宽带-计算资源比,如果宽带-计算资源比>E,则选择秘密共享算法作为加密算子,并将选择秘密共享算法作为加密算子的信息通知数据提供方,如果宽带-计算资源比≤E,则选择同态加密算法作为加密算子,并将选择同态加密算法作为加密算子的信息通知数据提供方;、
数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,具有待分析数据特征的用户有d个,依次编号为1,2……d,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,将用户数据集x中的待分析数据特征标记为x1,将用户数据集x中的其他数据特征依次标记为x2、x3……xn,n为用户数据集x中含有的数据特征的数量,n≥2,则编号为i的用户对应的用户数据集为x(i),1≤i≤d,用户数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化,数据特征xp对应的权重系数为wp,2≤p≤n;
S2:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方从数据使用方得到匹配上的用户名称对应的编号,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将用户数据集y中的数据特征依次标记为y1、y2……ym,m为用户数据集y中含有的数据特征的数量,m≥1,则编号为i的用户对应的用户数据集为y(i),用户数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)},数据提供方将每个数据特征对应的权重系数初始化,数据特征yq对应的权重系数为vq,1≤q≤m;
S3:数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,编号为i的用户对应的用户数据集x(i)对应的线性和ybi=∑jwj*xj(i),j=2、3……n;
数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,编号为i的用户对应的用户数据集y(i)对应的线性和yai=∑jvj*yj(i),j=1、2……n,数据提供方将计算结果发送给数据使用方;
S4:数据使用方计算出每个用户对应的残差f以及均方误差delta,编号为i的用户对应的残差f(i)以及均方误差delta(i)的计算公式如下:
f(i)=x1(i)-(yai+ybi),
Figure BDA0003356260390000071
数据使用方计算出的所有均方误差delta相加得到总均方误差D,
Figure BDA0003356260390000072
如果D<10-5,则跳转至步骤S6,否则执行步骤S5;
S5:数据使用方根据每个用户对应的残差f计算出用户数据集x具有的除了待分析数据特征之外的其他每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值;
数据使用方与数据提供方使用加密算子进行加密通信,使数据提供方计算出用户数据集y具有的每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4;
S6:数据使用方根据权重系数的最新值计算出每个用户数据集x对应的线性和yb;
数据提供方根据权重系数的最新值计算出每个用户数据集y对应的线性和ya,并将计算结果发送给数据使用方;
S7:数据使用方根据自身计算出的线性和yb、数据提供方计算出的线性和ya以及待分析数据特征的平均值avg计算出待分析数据特征的方差膨胀系数VIF,根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
步骤S5包括以下步骤:
S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;
数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;
数据特征xp对应的梯度
Figure BDA0003356260390000081
给数据特征xp对应的权重系数重新赋值的公式如下:wp:=wp-αgbp,0≤α≤1;
S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方,高斯噪声noise为normal(0,1);
数据特征yq对应的加密梯度
Figure BDA0003356260390000082
enc_f(i)表示编号为i的用户对应的加密后的残差,加上高斯噪声noise后得到enc_ga_noiseq=enc_gaq+noise;
S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有噪声的梯度ga_noise并发送给数据提供方;
S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,(即数据特征yq对应的梯度
Figure BDA0003356260390000083
Figure BDA0003356260390000084
),根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,给数据特征yq对应的权重系数重新赋值的公式如下:vq:=vq-αgaq,0≤α≤1,接着跳转至步骤S4。
步骤S7包括以下步骤:
数据使用方计算出待分析数据特征的平均值
Figure BDA0003356260390000091
计算出待分析数据特征的方差膨胀系数
Figure BDA0003356260390000092
根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
在本方案中,数据使用方:发起数据使用、查询等任务以使用数据提供方的数据。数据提供方:提供数据以满足数据使用方发起的数据使用等任务,但不直接提供原始数据。本方案通过方差膨胀系数VIF值衡量待分析数据特征与数据使用方拥有的其他数据特征以及数据提供方拥有的数据特征之间的多重共线性,VIF值越大表示多重共线性越严重。
本方案的多重共线性分析方法在计算过程中,数据提供方没有提供原始数据,数据使用方在不获得数据提供方原始数据的情况下分析了待分析数据特征与其他数据特征间的多重共线性情况,有利于建模前的数据特征选择和模型的稳定,整个过程中也没有第三方参与,保护了数据使用方、数据提供方的数据隐私和安全。
计算资源为运行加密算子能使用的CPU核数。根据不同的宽带-计算资源比自适应选择对应的加密算子,充分利用资源且明显提升计算速率。
举例说明:
数据使用方的数据集如下:
用户1对应的用户数据集x(1)={接收电话次数3、接收电话天数1},
用户2对应的用户数据集x(2)={接收电话次数5、接收电话天数2},
数据提供方的数据集如下:
用户1对应的用户数据集y(1)={接收短信条数6、接收短信天数2},
用户2对应的用户数据集y(2)={接收短信条数2、接收短信天数4},
分析接收电话次数这个数据特征与接收电话天数、接收短信条数、接收短信天数这三个数据特征间的多重共线性。
初始化接收电话天数对应的权重w2=0.1、接收短信条数对应的权重v1=0.2、接收短信天数对应的权重v2=0.1,α=0.001。
计算步骤:计算用户数据集x(1)的线性和yb1=0.1*1=0.1,用户数据集y(1)的线性和ya1=0.2*6+0.1*2=1.4;
用户数据集x(2)的线性和yb2=0.1*2=0.2,用户数据集y(2)的线性和ya2=0.2*2+0.1*4=0.8。
计算用户1对应的残差f(1)=3-(0.1+1.4)=1.5,均方误差delta(1)=1.125,用户2对应的残差f(2)=5-(0.2+0.8)=4,均方误差delta(1)=8,总均方误差D=1.125+8=9.125。
接收电话天数对应的权重w2重新赋值w2=0.1-0.001*(1.5*1+4*2)=0.0905,
接收短信条数对应的权重v1重新赋值v1=0.2-0.001*(1.5*6+4*2)=0.183,
接收短信天数对应的权重v2重新赋值v2=0.1-0.001*(1.5*2+4*4)=0.081,
重复上述计算步骤直到总均方误差D<10-5,确定此时的接收电话天数对应的权重w2、接收短信条数对应的权重v1、接收短信天数对应的权重v2,然后计算方差膨胀系数VIF。

Claims (9)

1.一种用于纵向联邦场景的多重共线性分析方法,其特征在于,包括以下步骤:
S1:数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化;
S2:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将每个数据特征对应的权重系数初始化;
S3:数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,线性和yb为对应用户数据集x中除了待分析数据特征之外的所有其他数据特征的线性和;
数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,线性和ya为对应用户数据集y中所有数据特征的线性和,数据提供方将计算结果发送给数据使用方;
S4:数据使用方根据每个用户对应的线性和yb、线性和ya以及待分析数据特征计算出每个用户对应的残差f以及均方误差delta,并将计算出的所有均方误差delta相加得到总均方误差D,如果D<A,则跳转至步骤S6,否则执行步骤S5;
S5:数据使用方根据每个用户对应的残差f计算出用户数据集x具有的除了待分析数据特征之外的其他每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值;
数据使用方与数据提供方使用加密算子进行加密通信,使数据提供方计算出用户数据集y具有的每个数据特征对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4;
S6:数据使用方根据权重系数的最新值计算出每个用户数据集x对应的线性和yb;
数据提供方根据权重系数的最新值计算出每个用户数据集y对应的线性和ya,并将计算结果发送给数据使用方;
S7:数据使用方根据自身计算出的线性和yb、数据提供方计算出的线性和ya以及待分析数据特征的平均值avg计算出待分析数据特征的方差膨胀系数VIF,根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
2.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S5包括以下步骤:
S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;
数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;
S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方;
S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有噪声的梯度ga_noise并发送给数据提供方;
S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,接着跳转至步骤S4。
3.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S1包括以下步骤:
数据使用方从自身数据库中找出具有待分析数据特征的用户及其对应的用户数据集x,具有待分析数据特征的用户有d个,依次编号为1,2……d,每个用户数据集x的结构相同,每个用户数据集x都包含有与该用户对应的待分析数据特征以及其他若干个数据特征,将用户数据集x中的待分析数据特征标记为x1,将用户数据集x中的其他数据特征依次标记为x2、x3……xn,n为用户数据集x中含有的数据特征的数量,n≥2,则编号为i的用户对应的用户数据集为x(i),1≤i≤d,用户数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},数据使用方将除了待分析数据特征之外的每个数据特征对应的权重系数初始化,数据特征xp对应的权重系数为wp,2≤p≤n;
所述步骤S2包括以下步骤:数据使用方将具有待分析数据特征的用户名称与数据提供方拥有的用户名称求交集,使数据提供方得到匹配上的用户名称,数据提供方从数据使用方得到匹配上的用户名称对应的编号,数据提供方根据匹配上的用户名称从自身数据库中找出对应的用户数据集y,每个用户数据集y的结构相同,每个用户数据集y都包含有与该用户对应且与数据使用方拥有的数据特征不同的若干个数据特征,数据提供方将用户数据集y中的数据特征依次标记为y1、y2……ym,m为用户数据集y中含有的数据特征的数量,m≥1,则编号为i的用户对应的用户数据集为y(i),用户数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)},数据提供方将每个数据特征对应的权重系数初始化,数据特征yq对应的权重系数为vq,1≤q≤m。
4.根据权利要求3所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S3包括以下步骤:
数据使用方根据权重系数计算出每个用户数据集x对应的线性和yb,编号为i的用户对应的用户数据集x(i)对应的线性和ybi=∑jwj*xj(i),j=2、3……n;数据提供方根据权重系数计算出每个用户数据集y对应的线性和ya,编号为i的用户对应的用户数据集y(i)对应的线性和yai=∑jvj*yj(i),j=1、2……n,数据提供方将计算结果发送给数据使用方。
5.根据权利要求4所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S4包括以下步骤:
数据使用方计算出每个用户对应的残差f以及均方误差delta,编号为i的用户对应的残差f(i)以及均方误差delta(i)的计算公式如下:
Figure FDA0003356260380000031
数据使用方计算出的所有均方误差delta相加得到总均方误差D,
Figure FDA0003356260380000032
如果D<A,则跳转至步骤S6,否则执行步骤S5。
6.根据权利要求5所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S5包括以下步骤:
S51:数据使用方用加密算子加密计算出的每个用户对应的残差f得到每个用户对应的加密后的残差enc(f)并发送给数据提供方;
数据使用方根据每个用户对应的残差f计算出除了待分析数据特征之外的其他每个数据特征对应的梯度gb,根据其他每个数据特征对应的梯度gb计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值;
数据特征xp对应的梯度
Figure FDA0003356260380000041
给数据特征xp对应的权重系数重新赋值的公式如下:wp:=wp-αgbp,0≤α≤1;
S52:数据提供方根据接收到的加密后的残差enc(f)计算出每个数据特征对应的加密梯度enc_ga,给每个加密梯度enc_ga加上高斯噪声noise得到有噪声的加密梯度enc_ga_noise并发送给数据使用方;
数据特征yq对应的加密梯度
Figure FDA0003356260380000045
enc_f(i)表示编号为i的用户对应的加密后的残差,加上高斯噪声noise后得到enc_ga_noiseq=enc_gaq+noise;
S53:数据使用方将接收到的每个有噪声的加密梯度enc_ga_noise都进行解密,得到有噪声的梯度ga_noise并发送给数据提供方;
S54:数据提供方将接收到的每个有噪声的梯度ga_noise都去掉高斯噪声noise得到每个数据特征对应的梯度ga,根据每个数据特征对应的梯度ga计算出这些数据特征分别对应的权重系数的最新值,并给这些权重系数赋予最新值,给数据特征yq对应的权重系数重新赋值的公式如下:vq:=vq-αgaq,0≤α≤1,接着跳转至步骤S4。
7.根据权利要求6所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S7包括以下步骤:
数据使用方计算出待分析数据特征的平均值
Figure FDA0003356260380000043
计算出待分析数据特征的方差膨胀系数
Figure FDA0003356260380000044
根据方差膨胀系数VIF确定待分析数据特征的多重共线性情况。
8.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述步骤S1还包括以下步骤:数据使用方计算宽带-计算资源比,如果宽带-计算资源比>E,则选择秘密共享算法作为加密算子,并将选择秘密共享算法作为加密算子的信息通知数据提供方,如果宽带-计算资源比≤E,则选择同态加密算法作为加密算子,并将选择同态加密算法作为加密算子的信息通知数据提供方。
9.根据权利要求1所述的一种用于纵向联邦场景的多重共线性分析方法,其特征在于,所述A=10-5
CN202111352559.7A 2021-11-16 2021-11-16 一种用于纵向联邦场景的多重共线性分析方法 Active CN114003939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111352559.7A CN114003939B (zh) 2021-11-16 2021-11-16 一种用于纵向联邦场景的多重共线性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111352559.7A CN114003939B (zh) 2021-11-16 2021-11-16 一种用于纵向联邦场景的多重共线性分析方法

Publications (2)

Publication Number Publication Date
CN114003939A true CN114003939A (zh) 2022-02-01
CN114003939B CN114003939B (zh) 2024-03-15

Family

ID=79929166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111352559.7A Active CN114003939B (zh) 2021-11-16 2021-11-16 一种用于纵向联邦场景的多重共线性分析方法

Country Status (1)

Country Link
CN (1) CN114003939B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545216A (zh) * 2022-10-19 2022-12-30 上海零数众合信息科技有限公司 一种业务指标预测方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183730A (zh) * 2020-10-14 2021-01-05 浙江大学 一种基于共享学习的神经网络模型的训练方法
CN112182649A (zh) * 2020-09-22 2021-01-05 上海海洋大学 一种基于安全两方计算线性回归算法的数据隐私保护系统
WO2021092977A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
WO2021092980A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
CN113505894A (zh) * 2021-06-02 2021-10-15 北京航空航天大学 纵向联邦学习线性回归和逻辑回归模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021092977A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
WO2021092980A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 纵向联邦学习优化方法、装置、设备及存储介质
CN112182649A (zh) * 2020-09-22 2021-01-05 上海海洋大学 一种基于安全两方计算线性回归算法的数据隐私保护系统
CN112183730A (zh) * 2020-10-14 2021-01-05 浙江大学 一种基于共享学习的神经网络模型的训练方法
CN113505894A (zh) * 2021-06-02 2021-10-15 北京航空航天大学 纵向联邦学习线性回归和逻辑回归模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张铭凯;范宇豪;夏仕冰;: "多数据源下机器学习的隐私保护研究", 网络空间安全, no. 04, 25 April 2020 (2020-04-25) *
陈国润;母美荣;张蕊;孙丹;钱栋军;: "基于联邦学习的通信诈骗识别模型的实现", 电信科学, no. 1, 30 April 2020 (2020-04-30) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545216A (zh) * 2022-10-19 2022-12-30 上海零数众合信息科技有限公司 一种业务指标预测方法、装置、设备和存储介质
CN115545216B (zh) * 2022-10-19 2023-06-30 上海零数众合信息科技有限公司 一种业务指标预测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN114003939B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
WO2020029590A1 (zh) 基于联邦训练的样本预测方法、装置及存储介质
CN113127931B (zh) 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
Drees et al. How to make a Hill plot
CN107145791B (zh) 一种具有隐私保护的K-means聚类方法及系统
CN113239404B (zh) 一种基于差分隐私和混沌加密的联邦学习方法
CN110443378B (zh) 联邦学习中特征相关性分析方法、装置及可读存储介质
CN107547154B (zh) 一种建立视频流量预测模型的方法及装置
Mathon et al. Optimal transport for secure spread-spectrum watermarking of still images
CN111026359B (zh) 多方联合判定隐私数据的数值范围的方法和装置
CN109902506B (zh) 一种多隐私预算的本地差分隐私数据分享方法和系统
CN114386089A (zh) 一种基于多方条件检索的隐私集合求交方法
CN115545216B (zh) 一种业务指标预测方法、装置、设备和存储介质
CN114996749B (zh) 一种用于联邦学习的特征过滤方法
Oosterwijk et al. A capacity-achieving simple decoder for bias-based traitor tracing schemes
CN114003939A (zh) 一种用于纵向联邦场景的多重共线性分析方法
CN106530198B (zh) 基于参数拟合安全容量的自适应批量隐写方法
AU2017101168A4 (en) A method of testing the robustness of cryptographickey
CN112039730A (zh) 一种加密算法的性能评估方法及存储介质
CN114036567A (zh) 一种信息安全分享的权限认证方法及系统
CN112529102B (zh) 特征拓展方法、设备、介质及计算机程序产品
CN109635349A (zh) 一种噪声增强最小化克拉美罗界的方法
Li et al. A game-theoretic method for designing distortion function in spatial steganography
US20230078726A1 (en) Training method and apparatus for a distributed machine learning model, device and medium
CN115510502B (zh) 一种隐私保护的pca方法及系统
Li et al. Multi-modality ensemble distortion for spatial steganography with dynamic cost correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant