CN110889447A

CN110889447A - 基于多方安全计算检验模型特征显著性的方法和装置

Info

Publication number: CN110889447A
Application number: CN201911174424.9A
Authority: CN
Inventors: 刘颖婷; 陈超超; 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-17
Anticipated expiration: 2039-11-26
Also published as: CN110889447B

Abstract

本说明书实施例提供了一种基于多方安全计算检验线性回归模型的特征显著性的方法和装置，所述方法由多个数据持有方中第一数据持有方的设备执行，多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述方法包括：与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和；与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值；计算与第j个t检验值对应的第二数值；与其它数据持有方的设备联合执行基于秘密分享的矩阵加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

Description

基于多方安全计算检验模型特征显著性的方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，更具体地，涉及一种基于多方安全计算检验线性回归模型的特征显著性的方法和装置。

背景技术

机器学习所需要的数据往往会涉及到多个平台、多个领域。例如在基于机器学习的商户分类分析场景中，电子支付平台拥有商户的交易流水数据，电子商务平台存储有商户的销售数据，银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题，数据整合面临着很大阻力，如何在保证数据不泄露的前提下将分散在各个平台的数据整合在一起成为一项挑战。

在例如线性回归模型中，在训练出模型参数之后，还需要通过回归分析对各个模型参数进行检验。“回归分析”是解析自变量和因变量并明确两者关系的统计方法。只有当自变量与因变量确实存在某种关系时，建立的回归方程才有意义。因此，作为自变量的因素与作为因变量的预测对象是否有关，相关程度如何，以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。

通常，“回归分析”会使用t检验来对回归项系数一一检验其值是否为零。一般取0.05为置信度，表示从统计上说该回归项系数为零的概率有5％。得出各个自变量对目标变量产生的影响后，就可以筛选自变量，进一步建立自变量与因变量的回归方程。

在共享学习场景下，数据由多个参与方提供，且数据留在本地，不进行明文的聚合。多方数据需要统一建立模型时，需保证参与者输出的私有数据对其他参与者不可见。在该情况中，如果在不泄露隐私数据的前提下对线性回归模型进行回归分析成为有待解决的问题。

因此，需要一种更有效的保护隐私的检验线性回归模型的特征显著性的方案。

发明内容

本说明书实施例旨在提供一种更有效的检验线性回归模型的特征显著性的方案，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种基于多方安全计算检验线性回归模型的特征显著性的方法，所述方法由多个数据持有方中第一数据持有方的设备执行，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述方法包括：

基于本地的所述N个样本中的部分数据和所述模型参数中的部分数据，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和，所述矩阵加法和矩阵乘法使得对所述第一数据持有方隐藏来自其它数据持有方的隐私数据；

基于本地的所述特征矩阵中的部分数据，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值，其中，所述第一矩阵为特征矩阵的转置与特征矩阵的乘积的逆矩阵；

基于本地的与所述第j个模型参数对应的第一数值、所述N个样本的误差平方和、以及所述第一矩阵对角线上第j项的值，计算与第j个t检验值对应的第二数值，其中，所述第j个t检验值为第j个模型参数的t检验值；

基于本地计算的与所述第j个t检验值对应的第二数值，与其它数据持有方的设备联合执行基于秘密分享的加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

在一个实施例中，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为N行k列的子矩阵，其中，k<K。

在一个实施例中，所述特征矩阵包括横向拼接的多个子矩阵，每个子矩阵包括N行，所述多个子矩阵分别存储在相应的数据持有方设备中。

在一个实施例中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备联合执行基于秘密分享的矩阵乘法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为n行K列的子矩阵，其中，n<N。

在一个实施例中，所述特征矩阵包括纵向拼接的多个子矩阵，每个子矩阵包括K列，所述多个子矩阵分别存储在相应的数据持有方设备中。

在一个实施例中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备联合执行基于秘密分享的矩阵加法，获取第一矩阵对角线上第j项的值。

在一个实施例中，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和包括，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和。

在一个实施例中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述多个数据持有方为多个网络平台，所述N个样本与所述多个网络平台中的N个用户分别对应。

本说明书另一方面提供一种基于多方安全计算检验线性回归模型的特征显著性的装置，所述装置部署在多个数据持有方中第一数据持有方的设备中，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述装置包括：

第一获取单元，配置为，基于本地的所述N个样本中的部分数据和所述模型参数中的部分数据，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和，所述矩阵加法和矩阵乘法使得对所述第一数据持有方隐藏来自其它数据持有方的隐私数据；

第二获取单元，配置为，基于本地的所述特征矩阵中的部分数据，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值，其中，所述第一矩阵为特征矩阵的转置与特征矩阵的乘积的逆矩阵；

计算单元，配置为，基于本地的与所述第j个模型参数对应的第一数值、所述N个样本的误差平方和、以及所述第一矩阵对角线上第j项的值，计算与第j个t检验值对应的第二数值，其中，所述第j个t检验值为第j个模型参数的t检验值；

第三获取单元，配置为，基于本地计算的与所述第j个t检验值对应的第二数值，与其它数据持有方的设备联合执行基于秘密分享的加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

在一个实施例中，所述第二获取单元还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵乘法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述第二获取单元还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵加法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述第一获取单元还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和。

在一个实施例中，所述第二获取单元还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值。

本说明书另一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。

通过根据本说明书实施例的基于多方安全计算检验线性回归模型的特征显著性的方案，可以在保证各个参与方的隐私数据的安全性的同时，高效地完成线性回归特征重要性检验，从而实现了共享学习场景下的特征显著性检验，所述共享学习场景例如为多个网络平台利用其各自私有的数据共同训练线性回归模型，并利用该模型对其中的用户、商品等对象进行共同预测等等。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示出根据本说明书一个实施例的实施场景示意图；

图2示出根据本说明书一个实施例的一种基于多方安全计算检验线性回归模型的特征显著性的方法流程图；

图3示意示出了特征数据中横向分布的数据持有方A、B、C分别拥有的特征数据块x_A，x_B，x_C；

图4示意示出了特征数据中纵向分布的数据持有方A、B、C分别拥有的特征数据块x_A，x_B，x_C；

图5示意示出了A、B、C三方的特征子矩阵的分布图；

图6示意示出了一种基于秘密分享的多方加法；

图7示出根据本说明书一个实施例的一种基于多方安全计算检验线性回归模型的特征显著性的装置700。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示出根据本说明书一个实施例的实施场景示意图。如图1所示，在共享学习场景下，训练数据由多个持有方(图中示意示出三个数据持有方A、B、C)共同提供，每个持有方拥有训练数据中的一部分。该训练数据例如包括N个训练样本，每个训练样本中包括标签值和K个特征各自的特征值。该N个样本各自的标签值可通过向量y表示，其如图中所示例如由B方持有。该N个样本的K个特征的特征值可以用N×K的特征矩阵X表示，从而，各个数据持有方例如可持有该N×K的矩阵X中的一块数据，例如该块数据可以为该矩阵中的N×k的块，其中，k<K，即，该数据为纵向分布的，该持有方拥有N个样本中部分特征的特征值，或者可以为该矩阵中的n×K的块，其中，n<N，即，该数据为横向分布的，该持有方拥有N个样本中部分样本的K个特征的特征值，等等，在此不作限定。

基于上述训练数据，通过共享学习方案可保护隐私地进行多方线性回归，从而使得各方拥有与线性回归模型的参数

对应的分片参数

其中

与

具有相同的维度，其中，

中的每个元素

与K个特征中的一个特征相对应，其中，

从而起到保护模型参数的作用，其中，

表示该参数ω_j的估计值，从而可获取如公式(1)所示线性回归模型：

y＝Xω (1)

其中，ω包括常数项ω₀和ω_j，j＝1～K。

通常，在获取了所述标签值向量y、所述特征矩阵X和模型参数向量

之后，给定检验的原假设和备择假设为：

H₀:ω_j＝0(j＝1，2，...，K)

H₁:ω_j≠0

可通过如下的公式(2)计算与每个

对应的t检验值t_j：

其中，N即为样本数，P为参数个数，即，P＝K+1，N-P为该t分布的自由度，

为N个样本的误差平方和，其可通过如下公式(3)计算：

其中，

为所述N个样本的误差，如公式(4)所示：

其中，

为模型预测值向量(即标签值的估计值)。

在该实施例中，由于所述标签值向量y、所述特征矩阵X和模型参数向量

分散在各个数据持有方中，如图1中所示，通过各方之间进行安全多方计算MPC，其中包括基于秘密分享的矩阵加法，基于秘密分享的矩阵乘法，从而使得各个数据持有方可获取

的值，和各个

的值，从而计算与其本地拥有的参数

对应的t检验值t_ij，其中，i表示各个数据持有方。通过各方之间进行安全多方计算MPC，从而可获取与参数

对应的t检验值t_j。从而给定显著性水平α，可获取临界值t_α/2(N-P)，如果|tj|＞t_α/2(N-P),则可拒绝原假设，即，ω_j≠0。

可以理解，上述参考图1的描述仅仅为示意性的，而不是限定性的，下面将详细说明书上述通过多方安全计算获取t检验值的过程。

图2示出根据本说明书一个实施例的一种基于多方安全计算检验线性回归模型的特征显著性的方法，所述方法由多个数据持有方中第一数据持有方的设备执行，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述方法包括：

步骤S202，基于本地的所述N个样本中的部分数据和所述模型参数中的部分数据，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和，所述矩阵加法和矩阵乘法使得对所述第一数据持有方隐藏来自其它数据持有方的隐私数据；

步骤S204，基于本地的所述特征矩阵中的部分数据，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值，其中，所述第一矩阵为特征矩阵的转置与特征矩阵的乘积的逆矩阵；

步骤S206，基于本地的与所述第j个模型参数对应的第一数值、所述N个样本的误差平方和、以及所述第一矩阵对角线上第j项的值，计算与第j个t检验值对应的第二数值，其中，所述第j个t检验值为第j个模型参数的t检验值；

步骤S208，基于本地计算的与所述第j个t检验值对应的第二数值，与其它数据持有方的设备联合执行基于秘密分享的加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

如上文所述，多个数据持有方(例如如图1中所示的数据方A、数据方B和数据方C)中共同存储了N个样本(y，X)和基于所述N个样本获取的线性回归模型

所述矩阵X可能以M个特征子矩阵的形式分散存储在各个数据方的设备中。例如，在一个实施例中，所述数据持有方A、B、C为电子支付平台、电子商务平台、银行机构三方，对于该三方的N个共同用户，A方拥有用户的交易流水数据，B方拥有用户的销售数据，C方拥有用户的借贷数据。图3示意示出了特征数据中横向分布的数据持有方A、B、C分别拥有的特征数据块x_A，x_B，x_C。其中，每个数据块都包括N行，每个数据块包括的列与相应的数据方中拥有的特征数据中的特征数目相对应，例如，特征数据块x_A，x_B，x_C分别包括k₁、k₂和k₃列，从而X可以表示为(x_Ax_Bx_C)。在该情况中，上述N个样本的标签值可以由A、B、C中任一方持有，例如，标签值为用户是否有欺诈行为，该标签值例如基于电子商务平台的数据获取，从而，该标签值向量y由B方持有。可以理解，所述标签值向量不限于由B方持有，其可以由A、B、C方各持有该向量y的一部分，或者可由除A、B、C之外的其它方持有，对此不作限定。下文中将以B方持有y进行描述。

在一个实施例中，所述数据持有方A、B、C为第一电子商务平台、第二电子商务平台和第三电子商务平台三方，该三方具有不同的用户，并且每方具有的特征数据中对应的多个特征是相同的，例如，A、B、C三方都具有其用户的交易流水数据、销售数据、点击数据等等。图4示意示出了特征数据中纵向分布的数据持有方A、B、C分别拥有的特征数据块x_A，x_B，x_C。其中，每个数据块都包括K列，每个数据块包括的行与相应的数据方拥有的特征数据中的用户数目相对应，例如，特征数据块x_A，x_B，x_C分别包括n₁、n₂和n₃行，从而X可以表示为

在该情况中，N个样本的标签值向量例如可以由A、B、C方各方各持有一部分，例如，A、B、C各方分别持有其对应的各个用户的标签值。

可以理解，上文中仅示意示出了X矩阵中的多个子矩阵的两种典型分布形式，可以理解，分散在各个数据持有方中的X矩阵中的多个子矩阵不限于上述两种分布形式，而可以具有任意分布形式，例如，图5示意示出了A、B、C三方的特征子矩阵的分布图，在图5中，数据块x_A例如包括n行k列，数据块x_B包括N-n行k₁列，数据块x_C包括N行k₂列，其中，k₁+k₂＝K，其共同构成了N行K列的特征矩阵X。另外，各个所述数据持有方不限于只持有X矩阵中的一个子矩阵，而也可以包括分离的多个子矩阵。

所述第一数据持有方可以为所述数据方A、B、C中的任一方，下面将以数据方A作为第一数据持有方为例详细描述该方法中各个步骤。

在步骤S202，基于本地的所述N个样本中的部分数据和所述模型参数中的部分数据，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和，所述矩阵加法和矩阵乘法使得对所述第一数据持有方隐藏来自其它数据持有方的隐私数据。

在一个实施例中，A、B、C方分别具有如图3所示的特征子矩阵x_A，x_B，x_C，即，特征矩阵X可以表示为(x_A x_B x_C)。假设标签值向量y由B方持有，即，将其标记为y_B，并且A、B、C方分别具有模型的部分参数

从而，结合公式(1)和(4)可得如下的公式(5)：

结合公式(3)和公式(5)可计算如下公式(6)所示的N个样本的误差平方和

其中，Q_A、Q_B和Q_C分别是A、B、C方各自持有的数据，即，

对于上述公式(6)，对于其中的矩阵和

可由A、B、C三方联合执行基于秘密分享的矩阵加法而执行，该矩阵加法使得A、B、C三方最终都获取了所述矩阵和，但是其都不能获取来自其他方的隐私数据，例如，A方不能获知

和

该基于秘密分享的矩阵加法可使用本领域已知的多种算法进行。图6示意示出了一种基于秘密分享的多方加法。如图6中所示，假设A、B、C三方分别持有一个隐私数据10、15和25，在各方本地首先执行步骤1，每方在本地将原始数据随机拆分成三个分片数据，该三个分片数据之和等于相应的原始数据。在步骤2，每方将生成的三个分片数据中的两个分片数据分别发送给其它两方，从而各方基于本地剩下的分片数据和从其它两方接收的分片数据获取重构数据。在步骤3，三方基于3个重构数据获取3个原始数据之和。例如，其中一方从其它两方接收2个重构数据，对3个重构数据相加并将相加的和发送给其它两方，或者，三方可分别将其重构数据发送给服务方，由服务方对该三个重构数据相加，并将相加的和分别发送给三方。从而，可通过图6所示方法计算

中每个元素的和。这里示意示出由三方进行该秘密分享加和，可以理解，该方法不限于通过三个数据方执行，而是可以通过至少两个数据方执行。其中，在通过两个数据方执行该秘密分享加和时，需要由服务方进行对来自两方的重构数据的加和，以保护各方的隐私数据。

对于上述公式(6)，对于其中的矩阵乘积，例如

需要利用秘密分享的矩阵乘法SMM。SMM方法是一种已知的隐私保护的矩阵相乘方式，可以在双方不泄露原始矩阵数据的情况下，得到矩阵相乘的结果。下面简单描述这一过程。

假定第一持有方拥有矩阵E，第二持有方拥有矩阵F。第一持有方和第二持有方可以分别生成随机矩阵E′和F′。

第一持有方从随机矩阵E′中抽取偶数列，形成E′_e，抽取奇数列，形成E′_o。

第二持有方从随机矩阵F′中抽取偶数行，形成F′_e，抽取奇数行，形成F′_o。

第一持有方计算E₁和F₂，并将其发送给第二持有方，其中：

E₁＝E+E′；E₂＝E′_e+E′_o

第二持有方计算F₁和F₂，并将其发送给第一持有方，其中：

F₁＝F′-F；F₂＝F′_e-F′_o

第一持有方本地计算G＝(E+2E′)F₁+(E₂+E′_o)F₂；

第二持有方本地计算H＝E₁(2F-F′)-E₂(F₂+F′_e)

然后第一持有方和第二持有方交换G和H。可以验证：G+H＝EF

于是，两个持有方在不暴露原始矩阵E和F的情况下，得到矩阵相乘的结果。

例如，A方和B方通过上述SMM算法联合计算出

之后，可将该乘积发送给C方，从而最终，各方可基于公式(6)通过上述秘密分享加和和SMM算法计算出

的值。

在一个实施例中，A、B、C方分别具有如图4所示的特征子矩阵x_A，x_B，x_C，即，特征矩阵X可以表示为

假设标签值向量y中的各个标签值由A方、B方、C方共同持有，假设A方持有的多个标签值可表示为y_A，其中，y_A与y的维度相同，在y_A中，将A方持有其标签值的维度填上该标签值，将A方没有其标签值的维度填上0。可类似地以y_B表示B方持有的多个标签值，以y_C表示C方持有的多个标签值，从而，可将y标记为y＝y_A+y_B+y_C，并且A、B、C方分别具有模型的部分参数

从而，结合公式(1)和(4)可得如下的公式(7)：

从而，与上述公式(6)的计算类似地，通过基于上述基于秘密分享的矩阵加和和矩阵乘法(SMM)，结合公式(3)和公式(7)，可计算所述N个样本的误差平方和

在此不再赘述。

在步骤S204，基于本地的所述特征矩阵中的部分数据，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值，其中，所述第一矩阵为特征矩阵的转置与特征矩阵的乘积的逆矩阵。

在一个实施例中，如上文所述，如图3所示，特征矩阵X可以表示为(x_A x_B x_C)，从而，可获取如公式(8)所示的X^TX：

其中，对于公式(8)中右侧矩阵中的

项，可由各方分别在本地算出，并发送给其它各方，对于公式(8)中的

项，可与上文类似地，通过SMM算法在两方之间计算，并将计算结果发送给各方。从而，A、B、C各方都可以获取X^TX。从而，可对X^TX求逆，即获取(X^TX)^-1。例如，对于所述模型的第j个参数

A方获取该矩阵(X^TX)^-1对角线上的第j项，即

在一个实施例中，为了进一步保障数据的安全，各方可将本地计算的

以及通过两方计算的

发送给服务方设备，由服务方设备计算(X^TX)^-1，并将

发送给各个数据持有方。

在一个实施例中，如图4所示，特征矩阵X可以表示为

从而，可获取如公式(9)所示的X^TX：

类似地，A、B、C三方可在本地分别计算出

和

之后，可联合执行上述基于秘密分享的矩阵加法，从而各方获取所述矩阵和

同时并不能获知其它方的隐私数据。

同样地，在计算获取X^TX之后，从而可获取

上文中以图3和图4所示的多方数据分布为例描述了获取

的过程，在更复杂的多方数据分布中，例如图5所示的多方数据分布，将结合基于秘密分享的矩阵加法和矩阵乘法用于获取

在此不一一详述。

在步骤S206，基于本地的与所述第j个模型参数对应的第一数值、所述N个样本的误差平方和、以及所述第一矩阵对角线上第j项的值，计算与第j个t检验值对应的第二数值，其中，所述第j个t检验值为第j个模型参数的t检验值。

A方在通过上述步骤获取了N个样本的误差平方和

以及

之后，通过将本地的模型参数

和

代入上述公式(2)，从而可计算与该参数对应的t检验值t_j的一部分t_Aj，即所述第二数值，其中，

类似地，B方可使用其本地

和通过与上述A方执行的过程相同的过程获取的

和

计算其第二数值，即t_Bj，C方可同样地计算t_Cj。

在步骤S208，基于本地计算的与所述第j个t检验值对应的第二数值，与其它数据持有方的设备联合执行基于秘密分享的加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

在上述步骤S206之后，A、B、C方各自使用其计算出的t_ij，通过上述基于秘密分享的加法，对t_Aj、t_Bj和t_Cj相加，使得各方可获取t_j＝t_Aj+t_Bj+t_Cj，同时使得对各方隐藏其它方的隐私数据t_ij。

从而，如上文所述，给定显著性水平α，可通过查表获取临界值t_α/2(N-P)，如果|t_j|＞t_α/2(N-P),则可拒绝原假设，即，ω_j≠0，通常可取α＝0.05或0.01。

图7示出根据本说明书一个实施例的本说明书另一方面提供一种基于多方安全计算检验线性回归模型的特征显著性的装置700，所述装置部署在多个数据持有方中第一数据持有方的设备中，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述装置包括：

第一获取单元71，配置为，基于本地的所述N个样本中的部分数据和所述模型参数中的部分数据，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和，所述矩阵加法和矩阵乘法使得对所述第一数据持有方隐藏来自其它数据持有方的隐私数据；

第二获取单元72，配置为，基于本地的所述特征矩阵中的部分数据，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值，其中，所述第一矩阵为特征矩阵的转置与特征矩阵的乘积的逆矩阵；

计算单元73，配置为，基于本地的与所述第j个模型参数对应的第一数值、所述N个样本的误差平方和、以及所述第一矩阵对角线上第j项的值，计算与第j个t检验值对应的第二数值，其中，所述第j个t检验值为第j个模型参数的t检验值；

第三获取单元74，配置为，基于本地计算的与所述第j个t检验值对应的第二数值，与其它数据持有方的设备联合执行基于秘密分享的加法，获取所述第j个t检验值，以基于所述第j个t检验值确定所述线性回归模型的相应特征的显著性。

在一个实施例中，所述第二获取单元72还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵乘法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述第二获取单元72还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵加法，获取第一矩阵对角线上第j项的值。

在一个实施例中，所述第一获取单元71还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和。

在一个实施例中，所述第二获取单元72还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值。

需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多方安全计算检验线性回归模型的特征显著性的方法，所述方法由多个数据持有方中第一数据持有方的设备执行，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述方法包括：

2.根据权利要求1所述的方法，其中，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为N行k列的子矩阵，其中，k<K。

3.根据权利要求2所述的方法，其中，所述特征矩阵包括横向拼接的多个子矩阵，每个子矩阵包括N行，所述多个子矩阵分别存储在相应的数据持有方设备中。

4.根据权利要求3所述的方法，其中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备联合执行基于秘密分享的矩阵乘法，获取第一矩阵对角线上第j项的值。

5.根据权利要求1所述的方法，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为n行K列的子矩阵，其中，n<N。

6.根据权利要求5所述的方法，其中，所述特征矩阵包括纵向拼接的多个子矩阵，每个子矩阵包括K列，所述多个子矩阵分别存储在相应的数据持有方设备中。

7.根据权利要求6所述的方法，其中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备联合执行基于秘密分享的矩阵加法，获取第一矩阵对角线上第j项的值。

8.根据权利要求1所述的方法，其中，与其它数据持有方的设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和包括，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和。

9.根据权利要求1所述的方法，其中，与其它数据持有方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值包括，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值。

10.根据权利要求1所述的方法，其中，所述多个数据持有方为多个网络平台，所述N个样本与所述多个网络平台中的N个用户分别对应。

11.一种基于多方安全计算检验线性回归模型的特征显著性的装置，所述装置部署在多个数据持有方中第一数据持有方的设备中，所述多个数据持有方各自的设备中共同存储了N个样本和所述模型的模型参数，所述模型参数基于所述N个样本获取，其中，各个数据持有方设备中分别存储有与所述模型参数中第j个模型参数对应的第一数值，各个第一数值之和等于所述第j个模型参数，所述N个样本中包括的特征数据构成特征矩阵，所述第一数据持有方的设备中存储了所述特征矩阵中的部分数据，所述装置包括：

12.根据权利要求11所述的装置，其中，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为N行k列的子矩阵，其中，k<K。

13.根据权利要求12所述的装置，其中，所述特征矩阵包括横向拼接的多个子矩阵，每个子矩阵包括N行，所述多个子矩阵分别存储在相应的数据持有方设备中。

14.根据权利要求13所述的装置，其中，所述第二获取单元还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵乘法，获取第一矩阵对角线上第j项的值。

15.根据权利要求11所述的装置，所述特征矩阵为N行K列的矩阵，其中，每行与所述N个样本中的一个样本相对应，每列与K个特征中的一个特征相对应，其中，所述第一数据持有方的设备中存储的所述特征矩阵中的部分数据为n行K列的子矩阵，其中，n<N。

16.根据权利要求15所述的装置，其中，所述特征矩阵包括纵向拼接的多个子矩阵，每个子矩阵包括K列，所述多个子矩阵分别存储在相应的数据持有方设备中。

17.根据权利要求16所述的装置，其中，所述第二获取单元还配置为，与其它数据持有方设备联合执行基于秘密分享的矩阵加法，获取第一矩阵对角线上第j项的值。

18.根据权利要求11所述的装置，其中，所述第一获取单元还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和矩阵乘法，获取所述N个样本的误差平方和。

19.根据权利要求11所述的装置，其中，所述第二获取单元还配置为，与其它数据持有方设备和服务方设备联合执行基于秘密分享的矩阵加法和/或矩阵乘法，获取第一矩阵对角线上第j项的值。

20.根据权利要求11所述的装置，其中，所述多个数据持有方为多个网络平台，所述N个样本与所述多个网络平台中的N个用户分别对应。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。