CN111401479A

CN111401479A - 多方联合对隐私数据进行降维处理的方法和装置

Info

Publication number: CN111401479A
Application number: CN202010307728.4A
Authority: CN
Inventors: 刘颖婷; 陈超超; 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-07-10
Anticipated expiration: 2040-04-17
Also published as: CN111401479B

Abstract

本说明书实施例提供一种多方联合对隐私数据进行降维处理的方法和装置，在隐私数据纵向分布的情况下，第一持有方针对第一原始矩阵进行零均值化得到第一中心矩阵，获取N*N维的非对称正交矩阵，将非对称正交矩阵与第一中心矩阵相乘得到第一隐秘矩阵，将第一隐秘矩阵发送至可信第三方。可信第三方对各个隐秘矩阵进行拼接得到全局隐秘矩阵，全局隐秘矩阵与其转置矩阵相乘得到协方差矩阵，对协方差矩阵进行本征值求解得到降维变换矩阵，对降维变换矩阵进行拆分后得到各个拆分矩阵，并发送至持有方。第一持有方用第一拆分矩阵处理第一原始矩阵得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

Description

多方联合对隐私数据进行降维处理的方法和装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及多方联合对隐私数据进行降维处理的方法和装置。

背景技术

机器学习所需要的数据往往会涉及多个平台、多个领域。例如在基于机器学习的商户分类分析场景中，电子支付平台拥有商户的交易流水数据，电子商务平台存储有商户的销售数据，银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题，数据整合面临着很大阻力，如何在保证数据不泄露的前提下将分散在各个平台的数据整合在一起，成为一项挑战。

另一方面，随着数据量的增多，各种训练数据的维度变得越来越大。高维度的大量数据尽管可以丰富机器学习的训练样本数据，但是实际上，这些高维数据往往存在一些冗余信息。冗余信息对机器学习效果的帮助十分有限，所造成的高维特征数据有可能引起“维度爆炸”，使得机器学习模型难以处理，影响模型的训练效率。因此，在进行模型训练和使用时，常常对高维样本特征进行降维处理，在尽量不损失信息量的情况下，将其转化为低维特征。

主成分分析(Principal component analysis，PCA)方法，是一种统计分析、简化数据集的方法，它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分。主成分分析可以用于减少数据集的维数，同时保持数据集中对方差贡献最大的特征。因此，在实践中，常常采用PCA方法对高维特征进行降维。

然而，PCA方法一般需要针对全部数据进行统一的变换和主成分提取。在多方共同拥有部分训练数据，希望联合进行模型训练的情况下，如何在不泄露隐私数据的前提下，采用PCA方法进行特征降维，成为有待解决的问题。

因此，希望能有改进的方案，可以针对隐私数据进行多方联合降维，同时保证隐私数据的安全不泄露。

发明内容

本说明书一个或多个实施例描述了多方联合对隐私数据进行降维处理的方法和装置方法和装置，以使得多方共同进行特征降维，同时保证各自隐私数据的安全不泄露。具体的技术方案如下。

第一方面，实施例提供了一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述第一持有方执行，包括：

针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方；

计算所述非对称正交矩阵与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；

从所述可信第三方接收与所述第一持有方对应的第一拆分矩阵；其中，所述第一拆分矩阵为对降维变换矩阵进行拆分后得到，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行拼接得到；

用所述第一拆分矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

第二方面，实施例提供了一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述多个持有方之外的可信第三方执行，包括：

获取多个持有方的隐秘矩阵，并且按照预定的持有方顺序对多个隐秘矩阵进行拼接，得到全局隐秘矩阵；其中，所述第一持有方的第一隐秘矩阵基于N*N维的非对称正交矩阵与第一中心矩阵相乘得到，所述第一中心矩阵基于对所述第一原始矩阵中的每项属性的属性值进行零均值化得到；

计算所述全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；

按照预定的持有方顺序对所述降维变换矩阵进行拆分，得到针对每个持有方的拆分矩阵；

将各个拆分矩阵发送至对应的持有方，使得各个持有方利用各自的拆分矩阵处理其原始矩阵，得到对应的降维矩阵；所述降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

第三方面，实施例提供了一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述方法通过所述第一持有方执行，包括：

通过秘密分享，与其他持有方协同针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

获取N*n1维的第一正交矩阵部分，所述第一正交矩阵部分是从N*N维的非对称正交矩阵中分拆出的与所述第一持有方对应的矩阵部分，且所述非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

计算所述第一正交矩阵部分与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；

从所述可信第三方接收与所述第一持有方对应的降维变换矩阵；其中，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行叠加得到；

用所述降维变换矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

第四方面，实施例提供了一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述方法通过所述多个持有方之外的可信第三方执行，包括：

获取多个持有方的隐秘矩阵，并且对多个隐秘矩阵进行叠加，得到全局隐秘矩阵；其中，所述第一持有方的第一隐秘矩阵基于N*n1维的第一正交矩阵部分与第一中心矩阵相乘得到，第一中心矩阵通过秘密分享与其他持有方协同针对所述第一原始矩阵中的每项属性的属性值进行零均值化得到，所述第一正交矩阵部分是从N*N维的非对称正交矩阵中拆分出的与所述第一持有方对应的矩阵部分，且所述非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

将所述降维变换矩阵发送至各个持有方，以使得各个持有方利用所述降维变换矩阵处理其原始矩阵，得到对应的降维矩阵；所述降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

第五方面，实施例提供了一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述装置部署在所述第一持有方中，包括：

第一均值模块，配置为针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

第一获取模块，配置为获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方；

第一计算模块，配置为计算所述非对称正交矩阵与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；

第一接收模块，配置为从所述可信第三方接收与所述第一持有方对应的第一拆分矩阵；其中，所述第一拆分矩阵为对降维变换矩阵进行拆分后得到，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行拼接得到；

第一降维模块，配置为用所述第一拆分矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

第六方面，实施例提供了一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述装置部署在所述多个持有方之外的可信第三方中，包括：

第二获取模块，配置为获取多个持有方的隐秘矩阵，并且按照预定的持有方顺序对多个隐秘矩阵进行拼接，得到全局隐秘矩阵；其中，所述第一持有方的第一隐秘矩阵基于N*N维的非对称正交矩阵与第一中心矩阵相乘得到，所述第一中心矩阵基于对所述第一原始矩阵中的每项属性的属性值进行零均值化得到；

第二计算模块，配置为计算所述全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；

第一拆分模块，配置为按照预定的持有方顺序对所述降维变换矩阵进行拆分，得到针对每个持有方的拆分矩阵；

第一发送模块，配置为将各个拆分矩阵发送至对应的持有方，使得各个持有方利用各自的拆分矩阵处理其原始矩阵，得到对应的降维矩阵；所述降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

第七方面，实施例提供了一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述装置部署在所述第一持有方中，包括：

第二均值模块，配置为通过秘密分享，与其他持有方协同针对所述第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

第三获取模块，配置为获取N*n1维的第一正交矩阵部分，所述第一正交矩阵部分是从N*N维的非对称正交矩阵中分拆出的与所述第一持有方对应的矩阵部分，且所述非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

第三计算模块，配置为计算所述第一正交矩阵部分与所述第一中心矩阵的乘积，得到第一隐秘矩阵，将所述第一隐秘矩阵发送至所述多个持有方之外的可信第三方；

第二接收模块，配置为从所述可信第三方接收与所述第一持有方对应的降维变换矩阵；其中，所述降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，所述全局隐秘矩阵基于对每个持有方的隐秘矩阵进行叠加得到；

第二降维模块，配置为用所述降维变换矩阵处理所述第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

第八方面，实施例提供了一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述装置部署在所述多个持有方之外的可信第三方中，包括：

第四获取模块，配置为获取多个持有方的隐秘矩阵，并且对多个隐秘矩阵进行叠加，得到全局隐秘矩阵；其中，所述第一持有方的第一隐秘矩阵基于N*n1维的第一正交矩阵部分与第一中心矩阵相乘得到，第一中心矩阵通过秘密分享与其他持有方协同针对所述第一原始矩阵中的每项属性的属性值进行零均值化得到，所述第一正交矩阵部分是从N*N维的非对称正交矩阵中拆分出的与所述第一持有方对应的矩阵部分，且所述非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

第四计算模块，配置为计算所述全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；

第二发送模块，配置为将所述降维变换矩阵发送至各个持有方，以使得各个持有方利用所述降维变换矩阵处理其原始矩阵，得到对应的降维矩阵；所述降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

第九方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第四方面中任一项所述的方法。

第十方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第四方面中任一项所述的方法。

本说明书实施例提供的方法和装置中，针对每个持有方，为了保证自身原始矩阵以及中心化矩阵的隐私安全，可以将获取的非对称正交矩阵与中心矩阵相乘，将得到的隐秘矩阵发送至可信第三方；该可信第三方在接收到每个持有方发送的隐秘矩阵之后对其进行拼接汇总，即得到包含全部的隐秘矩阵数据的全局隐秘矩阵，该全局隐秘矩阵与其转置矩阵的乘积，就等价于所有中心矩阵汇总之后的矩阵与其转置矩阵的乘积，消去了非对称正交矩阵对中心矩阵的影响，对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行降维，就间接地达到了对所有持有方的隐私数据进行降维变换的目的。同时，这种方式能够使得可信第三方无法从隐秘矩阵中分解出中心矩阵，也就保证了原始数据的安全。因此，本说明书实施例能够使得多方共同进行特征降维，同时保证各自隐私数据的安全不泄露。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2-1为数据纵向分布的一种示意图；

图2-2为数据横向分布的一种示意图；

图3为实施例提供的一种多方联合对隐私数据进行降维处理的方法的流程示意图；

图4为实施例提供的一种多方联合对隐私数据进行降维处理的方法的流程示意图；

图5为实施例提供的在数据纵向分布情况下，部署在第一持有方的降维处理装置的一种示意性框图；

图6为实施例提供的在数据纵向分布情况下，部署在可信第三方的降维处理装置的一种示意性框图；

图7为实施例提供的在数据横向分布情况下，部署在第一持有方的降维处理装置的一种示意性框图；

图8为实施例提供的在数据横向分布情况下，部署在可信第三方的降维处理装置的一种示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。如图1所示，在共享学习场景下，数据集由多个持有方1,2，…,M共同提供(M为自然数)，每个持有方拥有数据集中的一部分数据。该数据集可以是用于训练神经网络模型的训练数据集，也可以是用于测试神经网络模型的测试数据集，或者是待预测的数据集。数据集可以包括业务对象的属性特征数据，业务对象可以是用户、商户、商品、事件等各种业务上有待分析的对象。

这里可以存在至少两种数据分布。一种是，各个持有方拥有不同业务对象的相同属性项的数据。例如，共有100个样本，每个样本的隐私数据中包含20项属性，这些数据分布在4个持有方中，每个持有方拥有25个样本的全部20项属性数据。每个持有方拥有的样本不同，其数量可以相同。这种数据分布方式可以一般称为数据纵向分布。参见图2-1所示的数据纵向分布示意图。

另一种是，各个持有方拥有全部对象样本的不同属性数据。例如，共有100个样本，每个样本的隐私数据中包含20项属性，这些数据分布在4个持有方中，每个持有方拥有全部100个样本的5项属性数据，每个持有方拥有的属性不同。这种数据分布方式一般称为数据横向分布。参见图2-2所示的数据横向分布示意图。

在数据横向分布的情况下，每个持有方拥有不同业务对象的相同属性项的特征数据。

例如，在一具体例子中，业务对象为商户。多个持有方中的某一个电商平台，拥有N个商户的部分属性特征，这些属性包括商户id、经营时长等。多个持有方中的另一电商平台，拥有上述N个商户的另一部分属性特征，这些属性包括商户类别和累积销量等等。这样，相同商户的不同属性项的特征数据纵向分布于不同的持有方。

在另一个具体例子中，业务对象为用户。多个数据持有方(以下简称持有方)中的某一个社交平台，拥有n个用户的用户基本属性特征，这些属性包括用户id、年龄、性别、职业和地区。多个持有方中的另一持有方为另一社交平台，该社交平台拥有另外的m个用户的上述用户基本属性特征。这样，不同用户的相同属性项的特征数据横向分布于不同的数据持有方。

在其他实施例中，业务对象还可以是有待分析的商品、事件等等，其中事件可以包括交易事件、登录事件、购买事件和社交事件等等。

不管是哪种数据分布方式，其业务对象的属性特征数据都属于隐私数据，可存储为隐私数据矩阵。为了隐私数据的安全，各个持有方需要将其隐私数据留在本地，不输出明文数据，不进行明文聚合。在本说明书的实施例中，为了保证各个持有方隐私数据安全，各个持有方对隐私数据矩阵进行处理得到隐秘矩阵，并将隐秘矩阵发送至可信第三方。

在本说明书一个实施例的场景下，以上多个持有方采用主成分分析(Principalcomponent analysis，PCA)方法，联合进行训练数据的降维，使得降维后得到的属性特征数据去除了冗余数据，且更好地体现业务对象的特征。如本领域技术人员所知，PCA方法的核心步骤是基于待降维的数据矩阵形成协方差矩阵，并求解该协方差矩阵的本征值和本征向量。在这种场景下，可信第三方在接收到各个持有方的隐秘矩阵之后，对其进行拼接，形成全局隐秘矩阵，将全局隐秘矩阵与其转置矩阵的乘积作为协方差矩阵，这样即可以进行后续的本征值和本征向量的求解。这样既实现了PCA的降维，又保证了各个持有方的隐私数据不被泄露。

为了更清楚地描述上述降维过程，本说明书依次针对数据纵向分布的情况和数据横向分布的情况，描述其执行过程。首先描述数据纵向分布的情况。

图3为实施例提供的一种多方联合对隐私数据进行降维处理的方法的流程示意图。本实施例在描述方法的流程时，会结合图1所示的场景示意图进行。隐私数据分布在多个持有方中，其中第一持有方100存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵。第一原始矩阵的行可以表示业务对象，列表示属性；也可以是，第一原始矩阵的列表示业务对象，行表示属性。其中，N和p均为自然数。为了描述简洁清楚，以下均采用前者的方式举例进行描述。

第一原始矩阵中N个业务对象的数据按照预定顺序排列，不同持有方存储有N个业务对象的不同属性项的属性值。各个持有方均类似地形成包含隐私数据的原始矩阵，如果将各个持有方的原始矩阵沿着横向拼接，可以形成联合矩阵：

X＝(X¹…X^M)

其中，该联合矩阵X为N行、D列的矩阵，M表示持有方的总数，N表示业务对象的总数量，D表示特征的总维数，也就是属性的总项数，D和M均为自然数。各个持有方的原始矩阵中，业务对象的顺序已经进行对齐。X¹代表第一个持有方的原始矩阵，X^M代表第M个持有方的原始矩阵。每个持有方具有的属性项的数目可以相同，也可以不同，例如，持有方1可以具有20项属性，持有方2可以具有30项属性，即针对每个持有方，p的取值可以相同也可以不同。D为所有持有方的属性的总项数，上述的p小于D。由于各个持有方并不直接进行原始矩阵的明文聚合，该联合矩阵只是为了描述方便假定形成的矩阵。

为了描述方便，以各个持有方中任意的第一持有方100作为持有方的代表，各个持有方均按照第一持有方100的操作来执行本方法。各个持有方，以及各个持有方之外的可信第三方200，均可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来实现。上述降维处理方法包括以下步骤S310～S380。

步骤S310，第一持有方100针对第一原始矩阵X_N*p中每项属性的属性值进行零均值化，得到第一中心矩阵Y_N*p，下角标N*p代表矩阵的行为N列为p。

由于各个持有方拥有对应属性项的所有业务对象的属性值，因此针对每个属性项的零均值化处理可以在持有方本地进行。在用列表示属性的情况下，对于第一原始矩阵X_N*p中的每一列，可以计算该列的均值，将该列的所有元素减去该均值，从而得到零均值化处理后的第一中心矩阵Y_N*p。零均值化处理又叫做中心化处理。零均值化处理的目的是使得，针对任意一维属性，所有业务对象在该属性上的属性值的均值为0。

各个持有方对原始矩阵进行零均值化处理后得到的中心矩阵，可以作为多方联合的协方差矩阵的基础，其可以简化数据，降低计算量。但是在隐私保护方面，由于对原始矩阵的零均值化处理比较简单，容易被破解，因此为了保证隐私数据的安全性，本实施例中继续在步骤S320对中心矩阵进行处理。

步骤S320，第一持有方100获取N*N维的非对称正交矩阵Q_N*N，且该非对称正交矩阵被提供至每个持有方。

在一种实施方式中，第一持有方100可以直接生成N*N维的非对称正交矩阵，并将该非对称正交矩阵广播至第一持有方100之外的其他持有方，以使得其他持有方也具有该非对称正交矩阵。

在另一种实施方式中，其他持有方，例如第二持有方，生成N*N维的非对称正交矩阵并将其发送至第一持有方100。因此，第一持有方100可以接收第二持有方广播的N*N维的非对称正交矩阵。

在生成N*N维的非对称正交矩阵时，可以是在预设数值范围内随机生成该非对称正交矩阵的矩阵元素。该非对称正交矩阵可以属于非奇异矩阵。

步骤S330，第一持有方100计算非对称正交矩阵Q_N*N与第一中心矩阵Y_N*p的乘积，得到第一隐秘矩阵Z，将第一隐秘矩阵发送至可信第三方200。每个持有方均将自身得到的隐秘矩阵发送至可信第三方200。

例如，第一隐秘矩阵Z_N*p采用下式计算得到：

Z_N*p＝Q_N*N*Y_N*p

每个持有方得到的隐秘矩阵的维数均等于其原始矩阵的维数。因此，通过将中心矩阵与非对称正交矩阵相乘，并没有改变原始矩阵的维数，但是改变了原始矩阵中的元素取值，不会泄露原始矩阵中的元素取值，这使得持有方的隐私数据得到了很好的保护。

步骤S340，可信第三方200可以获取多个持有方的隐秘矩阵，这其中包括获取第一持有方100的第一隐秘矩阵Z_N*p。可信第三方200按照预定的持有方顺序对多个隐秘矩阵进行拼接，得到全局隐秘矩阵H_N*D。全局隐秘矩阵H_N*D包含了所有持有方的隐秘矩阵的数据。

当第一原始矩阵X_N*p中一行对应一个业务对象，一列对应一项属性时，可以按照预定的持有方顺序对多个隐秘矩阵进行横向拼接。对隐秘矩阵进行横向拼接，即将一个隐秘矩阵整体地放在另一个隐秘矩阵的左侧或者右侧。

当第一原始矩阵X_p*N中一行对应一项属性，一列对应一个业务对象时，可以按照预定的持有方顺序对多个隐秘矩阵进行纵向拼接。对隐秘矩阵进行纵向拼接，即将一个隐秘矩阵整体地放在另一个隐秘矩阵的上方或下方。

步骤S350，可信第三方200计算全局隐秘矩阵H_N*D与其转置矩阵的乘积，得到协方差矩阵C_D*D，基于对该协方差矩阵C_D*D进行本征值求解以及降维的目标维度k，确定降维变换矩阵P_D*k，k是小于D的自然数。

协方差矩阵C_D*D可以采用以下公式得到：

C_D*D＝(H_N*D)^T*H_N*D

可见，协方差矩阵C_D*D为D*D维的方阵。T为转置符号。事实上，协方差矩阵应该是零均值化之后的联合矩阵与其转置矩阵的乘积，即C＝Y^TY，Y在此处表示零均值化之后的联合矩阵。但是，由于存在以下推导公式

而且全局隐秘矩阵H_N*D＝Q(Y₁…Y_M)，Y₁…Y_M代表各个持有方的隐秘矩阵。可见，基于全局隐秘矩阵得到的协方差矩阵，恰恰就等于基于联合矩阵得到的协方差矩阵，也就是采用非对称正交矩阵对中心矩阵的处理，不影响对原始的隐私数据的降维处理结果。这是因为正交矩阵与其转置矩阵的乘积结果为单位矩阵，非对称正交矩阵在处理过程中被消去。

可信第三方200在基于对协方差矩阵C_D*D进行本征值求解以及降维的目标维度k，确定降维变换矩阵P_D*k时，具体可以确定协方差矩阵C_D*D的多个本征值λ和对应的多个本征向量ν。本征值的求解可以通过雅各比迭代等方式进行。然后，从多个本征值λ中，确定值较大的k个本征值λ，作为目标本征值，即λ₁,λ₂,…,λ_k,并确定出对应的k个本征向量ν₁,ν₂,…,ν_k。于是，可以基于该k个本征向量ν₁,ν₂,…,ν_k，形成降维变换矩阵P_D*k。

协方差矩阵C的本征值λ和本征向量ν满足：Cν＝λν。

协方差矩阵属于对称矩阵，存在多个本征值和对应的本征向量，这多个本征向量之间彼此正交。可以通过多种算法，例如本征值分解的方法，求解出协方差矩阵的本征值和本征向量。多个本征向量可以构成本征矩阵。

在物理含义上，一个本征向量意味着在原始D维空间中的一个投影方向。多个本征向量之间彼此正交，意味着该多个投影方向之间彼此正交。而PCA特征降维的本质即为，在原始D维空间中找出k个彼此正交的投影方向作为k个坐标方向，将原始矩阵的数据投影到这k个坐标方向构成的k维映射空间中，使得投影后原始矩阵的方差尽可能大。在各个方向投影后的方差可以通过本征值体现。

因此，上述降维变换矩阵P_D*k可以理解为针对D维属性项确定的k个投影方向，这k个投影方向用于对联合矩阵进行降维。联合矩阵由所有原始矩阵假定地拼接而成。

步骤S360，可信第三方200按照预定的持有方顺序对降维变换矩阵P_D*k进行拆分，得到针对每个持有方的拆分矩阵。

由于所有属性项分布在不同的持有方中，因此在向持有方发送降维变换矩阵P_D*k时，也对应地发送与该持有方拥有的属性项对应的拆分矩阵，而无需发送整个的降维变换矩阵P_D*k。由于D行k列的降维变换矩阵P是基于第一原始矩阵X_N*p中一行对应一个业务对象，一列对应一项属性得到，因此，在对降维变换矩阵P_D*k进行拆分时，可以按照持有方顺序，对降维变换矩阵P_D*k进行纵向拆分，针对第一持有方100，可以从降维变换矩阵P_D*k的对应位置取出第一拆分矩阵

其中，下角标中的p代表第一持有方100拥有的属性项的数目。例如，当第一持有方100排在所有持有方最上方时，可以从P_D*k的最上方取出p行k列元素，得到第一拆分矩阵

当第一原始矩阵的形式为X_p*N，其中一行对应一个业务对象，一列对应一项属性时，可以按照预定的持有方顺序，对降维变换矩阵P_k*D进行横向拆分，这种情况下的降维变换矩阵是k行D列的矩阵。其具体说明内容不再赘述。

步骤S370，第一持有方100，从可信第三方200接收与第一持有方100对应的第一拆分矩阵

步骤S380，第一持有方100，用第一拆分矩阵

处理第一原始矩阵X_N*p，得到第一降维矩阵J。

用第一拆分矩阵处理第一原始矩阵，可以将第一原始矩阵投影到第一拆分矩阵对应的k个投影方向上，实现对第一原始矩阵的降维。第一降维矩阵中的各个维度属于综合维度，没有具体的属性含义。

当第一原始矩阵的形式为X_N*p，其中一行对应一个业务对象，一列对应一项属性时，第一拆分矩阵的形式为

可以用第一原始矩阵X_N*p乘以第一拆分矩阵

得到第一降维矩阵J_N*k，即

当第一原始矩阵的形式为X_N*p，其中一行对应一项属性，一列对应一个业务对象时，第一拆分矩阵的形式为

可以用第一拆分矩阵

乘以第一原始矩阵X_N*p，得到形式为J_k*N的第一降维矩阵，即

该第一降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。其中，业务预测分析包括：预测业务对象的分类或回归值。当第一降维矩阵能够更好地表征业务对象的特征时，也就能够更有效地通过机器学习方式对业务对象进行业务预测分析，提高预测分析的准确性。

回顾一下上述各个步骤，步骤S310中第一持有方100从第一原始矩阵X_N*p得到第一中心矩阵Y_N*p；步骤S320和步骤S330中，第一持有方100将非对称正交矩阵Q_N*N与第一中心矩阵Y_N*p的相乘，得到第一隐秘矩阵Z_N*p；步骤S340中可信第三方200将多个隐秘矩阵Z_N*p拼接成全局隐秘矩阵H_N*D，步骤S350中可信第三方200将全局隐秘矩阵H_N*D与其转置矩阵相乘得到协方差矩阵C_D*D，对协方差矩阵C_D*D进行本征值求解，得到降维变换矩阵P_D*k，步骤S360中可信第三方200对降维变换矩阵P_D*k进行拆分，得到第一拆分矩阵

步骤S370和步骤S380，第一持有方100用第一拆分矩阵

处理第一原始矩阵X_N*p，得到第一降维矩阵J_N*k。

本实施例中，在步骤S320和步骤S330中，第一持有方100将非对称正交矩阵Q_N*N与第一中心矩阵Y_N*p的相乘，得到第一隐秘矩阵Z_N*p，使得可信第三方200无法从隐秘矩阵中还原出原始矩阵，实现了对隐私数据的隐私保护。另一方面，将非对称正交矩阵Q_N*N对第一中心矩阵Y_N*p进行处理，还能够使得后续基于全局隐秘矩阵得到的协方差矩阵，恰恰就等于基于联合矩阵得到的协方差矩阵，也就是采用非对称正交矩阵对中心矩阵的处理，不影响对原始的隐私数据的降维处理结果，这使得降维过程顺利进行。

由上述内容可见，本实施例中，针对每个持有方，为了保证自身原始矩阵以及中心化矩阵的隐私安全，可以将获取的非对称正交矩阵与中心矩阵相乘，将得到的隐秘矩阵发送至可信第三方；该可信第三方在接收到每个持有方发送的隐秘矩阵之后对其进行拼接汇总，即得到包含全部的隐秘矩阵数据的全局隐秘矩阵，该全局隐秘矩阵与其转置矩阵的乘积，就等价于所有中心矩阵汇总之后的矩阵与其转置矩阵的乘积，消去了非对称正交矩阵对中心矩阵的影响，对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行降维，就间接地达到了对所有持有方的隐私数据进行降维变换的目的。同时，这种方式能够使得可信第三方无法从隐秘矩阵中分解出中心矩阵，也就保证了原始数据的安全。因此，本实施例能够使得多方共同进行特征降维，同时保证各自隐私数据的安全不泄露。

在另一实施例中，第一持有方100在得到第一降维矩阵J_N*k之后，还可以利用秘密分享算法，分别与其他持有方将各自的降维矩阵发送至数据需求方，该数据需求方可以是需要获取到总降维矩阵的计算方，包括可信第三方200。数据需求方接收多个持有方利用秘密分享算法分别发送的降维矩阵，基于接收的多个降维矩阵，确定对上述N个业务对象的全部属性进行降维处理后的总降维矩阵。多个持有方得到的降维矩阵，均为N*k维的矩阵。通过秘密分享算法中的加法，可以将各自的降维矩阵在不暴露降维矩阵本身数据的情况下，向数据需求方发送基于降维矩阵的随机数，数据需求方可以接收各个持有方发送的基于降维矩阵的随机数，并对所有持有方发送的随机数进行求和，得到总降维矩阵，实现对多个降维矩阵的求和。这种数据的发送过程既能够保护持有方的数据隐私，又能够使得数据需求方得到多个持有方隐私数据的总和。

以上内容是在数据纵向分布情况下进行的方法描述。下面针对数据横向分布的情况进行说明。

图4为实施例提供的一种多方联合对隐私数据进行降维处理的方法的流程示意图。本实施例在描述方法的流程时，会结合图1所示的场景示意图进行。本实施例与图3实施例的相同或相似之处会简略地说明，详细说明可以参见图3所示实施例。本实施例中，隐私数据分布在多个持有方中，其中任意的第一持有方100存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，多个持有方共计存储有N个业务对象的D项属性的属性值，N>n1，n1为自然数。

第一原始矩阵中的D项属性按照预定顺序排列，不同持有方存储有不同业务对象的相同属性项的属性值。各个持有方均类似地形成包含隐私数据的原始矩阵，如果将各个持有方的原始矩阵沿着纵向拼接，可以形成联合矩阵：

其中，该联合矩阵X为N行、D列的矩阵，M表示持有方的总数，N表示业务对象的总数量，D表示特征的总维数，D和M均为自然数。各个持有方的原始矩阵中，各个属性项的顺序已经进行对齐。X¹代表第一个持有方的原始矩阵，X^M代表第M个持有方的原始矩阵。每个持有方具有的业务对象的数目可以相同，也可以不同。由于各个持有方并不直接进行原始矩阵的明文聚合，该联合矩阵只是为了描述方便假定形成的矩阵。

上述降维处理方法包括以下步骤S410～S470。

步骤S410，第一持有方100通过秘密分享，与其他持有方协同针对第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵。

在数据横向分布的情况下，每个持有方存储有部分业务对象的全部属性项的属性值。在对每项属性的属性值进行零均值化时，需要对各个持有方进行联合零均值化。具体的，针对每个属性项，可以通过秘密分享，确定该属性项在每个持有方的属性值的均值

以及确定各个持有方中的业务对象的总数目N。其中，S_I代表该属性项在第i个持有方中的多个属性值的和值，M是多个持有方对应的总数量。

在步骤S410中，多个持有方可以借助中间方来完成零均值化。中间方可以是多个持有方中的任意有一个，也可以是可信第三方，还可以是除此之外的其他的任意方。下面针对D项属性中任意的第一属性，说明对该属性的属性值进行零均值化的过程。每个持有方在本地将第一属性的各个属性值求和，得到子属性值，并以子属性值为原始值，将该原始值划分为随机数，并将随机数发送至其他持有方，其他持有方也基于其本地的原始值生成随机数，各持有方均将随机数发送至该中间方，中间方将各个持有方发送的随机数相加，即得到所有业务对象的第一属性的总属性值S。业务对象的数目可以是各持有方明文发送至中间方，也可以通过秘密分享使得中间方得到业务对象的总数目N，或者可以某个持有方直接将总数目N发送至中间方。中间方根据

求得第一属性的总均值，并将该总均值广播至每个持有方。每个持有方，在接收到该第一属性的总均值时，将该第一属性中的每个属性值减去该总均值，得到均值化处理后的结果。

上述方式也可以所有属性项一起进行，这样

即为包括D个属性项的总均值向量。

步骤S420，第一持有方100获取N*n1维的第一正交矩阵部分，第一正交矩阵部分是从N*N维的非对称正交矩阵中分拆出的与第一持有方对应的矩阵部分，且非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方。

在一种实施方式中，第一持有方100可以直接生成N*N维的非对称正交矩阵，按照预定的持有方顺序将该非对称正交矩阵拆分为多个正交矩阵部分，保留与第一持有方对应的N*n1维的第一正交矩阵部分，将其他正交矩阵部分发送给对应的持有方。

在另一种实施方式中，其他持有方，例如第二持有方，生成N*N维的非对称正交矩阵，并按照预定的持有方顺序将该非对称正交矩阵拆分为多个正交矩阵部分，向第一持有方100发送与第一持有方100对应的N*n1维的第一正交矩阵部分。第一持有方100可以接收第二持有方发送的N*n1维的第一正交矩阵部分；其中，第一正交矩阵部分由第二持有方从生成的N*N维的非对称正交矩阵中分拆得到。

在对N*N维的非对称正交矩阵进行拆分时，可以按照预定的持有方顺序，以及每个持有方具有的业务对象的数量进行拆分。例如，第一持有方100中具有n1个业务对象，则按照预定的持有方顺序，从N*N维的非对称正交矩阵的相应位置处拆分得到N*n1的第一正交矩阵部分。

步骤S430，第一持有方100计算N*n1维的第一正交矩阵部分与n1*D维的第一中心矩阵的乘积，得到N*D维的第一隐秘矩阵，将第一隐秘矩阵发送至可信第三方200。

步骤S440，可信第三方200获取多个持有方的隐秘矩阵，并且对多个隐秘矩阵进行叠加，得到N*D维的全局隐秘矩阵。

每个持有方的隐秘矩阵都是N*D维，可信第三方200可以对多个N*D维的隐秘矩阵直接相加，得到N*D维的全局隐秘矩阵。

步骤S450，可信第三方200计算全局隐秘矩阵与其转置矩阵的乘积，得到D*D维的协方差矩阵，基于对协方差矩阵进行本征值求解以及降维的目标维度k，确定D*k维的降维变换矩阵，将降维变换矩阵发送至各个持有方。

具体的，可以将全局隐秘矩阵的转置矩阵乘以全局隐秘矩阵，得到D*D维的协方差矩阵。基于对协方差矩阵进行本征值求解以及降维的目标维度k，确定D*k维的降维变换矩阵的步骤可以参见步骤S350中的描述，此处不再赘述。

步骤S460，第一持有方100从可信第三方200接收与第一持有方100对应的D*k维的降维变换矩阵。

步骤S470，第一持有方100用D*k维的降维变换矩阵处理n1*D维的第一原始矩阵，得到n1*k维的第一降维矩阵。具体的，可以将n1*D维的第一原始矩阵乘以D*k维的降维变换矩阵，得到n1*k维的第一降维矩阵。

第一降维矩阵可以用以通过机器学习的方式对业务对象进行业务预测分析。用降维变换矩阵处理第一原始矩阵，可以将第一原始矩阵投影到降维变换矩阵对应的k个投影方向上，实现对第一原始矩阵的降维。第一降维矩阵中的各个维度属于综合维度，没有具体的属性含义。

综上，本实施例针对数据横向分布的情况，可以各个持有方联合进行零均值化，并将非对称正交矩阵进行拆分后与各个持有方的中心矩阵相乘，得到隐秘矩阵。可信第三方在接收到每个持有方发送的隐秘矩阵之后对其进行叠加汇总，即得到包含全部的隐秘矩阵数据的全局隐秘矩阵，该全局隐秘矩阵与其转置矩阵的乘积，就等价于所有中心矩阵汇总之后的矩阵与其转置矩阵的乘积，消去了非对称正交矩阵对中心矩阵的影响，对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行降维，就间接地达到了对所有持有方的隐私数据进行降维变换的目的。同时，这种方式能够使得可信第三方无法从隐秘矩阵中分解出中心矩阵，也就保证了原始数据的安全。因此，本实施例能够使得多方共同进行特征降维，同时保证各自隐私数据的安全不泄露。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图5为实施例提供的一种多方联合对隐私数据进行降维处理的装置的示意性框图。隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，第一原始矩阵中N个业务对象的数据按照预定顺序排列，不同持有方存储有N个业务对象的不同属性项的属性值。该装置500与图3所示方法实施例相对应，该装置500部署在第一持有方中，包括：

第一均值模块510，配置为针对第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

第一获取模块520，配置为获取N*N维的非对称正交矩阵，且非对称正交矩阵被提供至每个持有方；

第一计算模块530，配置为计算非对称正交矩阵与第一中心矩阵的乘积，得到第一隐秘矩阵，将第一隐秘矩阵发送至多个持有方之外的可信第三方；

第一接收模块540，配置为从可信第三方接收与第一持有方对应的第一拆分矩阵；其中，第一拆分矩阵为对降维变换矩阵进行拆分后得到，降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，全局隐秘矩阵基于对每个持有方的隐秘矩阵进行拼接得到；

第一降维模块550，配置为用第一拆分矩阵处理第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

在一种实施方式中，该装置500还包括：

第一总和模块(图中未示出)，配置为在得到第一降维矩阵之后，利用秘密分享算法，分别与其他持有方将各自的降维矩阵发送至数据需求方，使得数据需求方确定对N个业务对象的全部属性进行降维处理后的总降维矩阵；数据需求方包括上述可信第三方。

在一种实施方式中，业务对象为以下之一：用户、商户、商品、事件；业务预测分析包括：预测业务对象的分类或回归值。

在一种实施方式中，第一获取模块520具体配置为：

生成N*N维的非对称正交矩阵，并将非对称正交矩阵广播至第一持有方之外的其他持有方。

在一种实施方式中，第一获取模块520具体配置为：

接收第二持有方广播的N*N维的非对称正交矩阵；其中，非对称正交矩阵为第二持有方生成。

在一种实施方式中，第一原始矩阵中一行对应一个业务对象，一列对应一项属性；

第一降维模块550，具体配置为用第一原始矩阵乘以第一拆分矩阵。

在一种实施方式中，第一原始矩阵中一行对应一项属性，一列对应一个业务对象；

第一降维模块550具体配置为：用第一拆分矩阵乘以第一原始矩阵。

图6为实施例提供的一种多方联合对隐私数据进行降维处理的装置的示意性框图。隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，第一原始矩阵中N个业务对象的数据按照预定顺序排列，不同持有方存储有N个业务对象的不同属性项的属性值。该装置600与图3所示方法实施例相对应。该装置600部署在多个持有方之外的可信第三方中，包括：

第二获取模块610，配置为获取多个持有方的隐秘矩阵，并且按照预定的持有方顺序对多个隐秘矩阵进行拼接，得到全局隐秘矩阵；其中，第一持有方的第一隐秘矩阵基于N*N维的非对称正交矩阵与第一中心矩阵相乘得到，第一中心矩阵基于对第一原始矩阵中的每项属性的属性值进行零均值化得到；

第二计算模块620，配置为计算全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；

第一拆分模块630，配置为按照预定的持有方顺序对降维变换矩阵进行拆分，得到针对每个持有方的拆分矩阵；

第一发送模块640，配置为将各个拆分矩阵发送至对应的持有方，使得各个持有方利用各自的拆分矩阵处理其原始矩阵，得到对应的降维矩阵；降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

在一种实施方式中，该装置还包括：

第二总和模块(图中未示出)，配置为接收多个持有方利用秘密分享算法分别发送的降维矩阵；基于接收的多个降维矩阵，确定对N个业务对象的全部属性进行降维处理后的总降维矩阵。

第二获取模块610具体配置为，按照预定的持有方顺序对多个隐秘矩阵进行横向拼接。

第二获取模块610具体配置为，按照预定的持有方顺序对多个隐秘矩阵进行纵向拼接。

在一种实施方式中，第二计算模块620，基于对协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵时，包括：

确定协方差矩阵的多个本征值和对应的多个本征向量；

从多个本征值中，确定值较大的目标维度个本征值，作为目标本征值；

基于目标本征值对应的本征向量，形成降维变换矩阵。

图7为实施例提供的一种多方联合对隐私数据进行降维处理的装置的示意框图。隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，多个持有方共计存储有N个业务对象的D项属性的属性值，N>n1。该装置实施例与图4所示方法实施例相对应。该装置700部署在第一持有方中，包括：

第二均值模块710，配置为通过秘密分享，与其他持有方协同针对第一原始矩阵中每项属性的属性值进行零均值化，得到第一中心矩阵；

第三获取模块720，配置为获取N*n1维的第一正交矩阵部分，第一正交矩阵部分是从N*N维的非对称正交矩阵中分拆出的与第一持有方对应的矩阵部分，且非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

第三计算模块730，配置为计算第一正交矩阵部分与第一中心矩阵的乘积，得到第一隐秘矩阵，将第一隐秘矩阵发送至多个持有方之外的可信第三方；

第二接收模块740，配置为从可信第三方接收与第一持有方对应的降维变换矩阵；其中，降维变换矩阵基于对全局隐秘矩阵与其转置矩阵的乘积得到的协方差矩阵进行本征值求解而得到，全局隐秘矩阵基于对每个持有方的隐秘矩阵进行叠加得到；

第二降维模块750，配置为用降维变换矩阵处理第一原始矩阵，得到第一降维矩阵，用以通过机器学习的方式对业务对象进行业务预测分析。

在一种实施方式中，第三获取模块720具体配置为：

生成N*N维的非对称正交矩阵；

按照预定的持有方顺序将非对称正交矩阵拆分为多个正交矩阵部分；

保留与第一持有方对应的N*n1维的第一正交矩阵部分，将其他正交矩阵部分发送给对应的持有方。

在一种实施方式中，第三获取模块720具体配置为：

接收第二持有方发送的N*n1维的第一正交矩阵部分；其中，第一正交矩阵部分由第二持有方从生成的N*N维的非对称正交矩阵中分拆得到。

图8为实施例提供的一种多方联合对隐私数据进行降维处理的装置的示意性框图。隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，多个持有方共计存储有N个业务对象的D项属性的属性值，N>n1。该装置与图4所示方法实施例相对应，该装置800部署在多个持有方之外的可信第三方中，包括：

第四获取模块810，配置为获取多个持有方的隐秘矩阵，并且对多个隐秘矩阵进行叠加，得到全局隐秘矩阵；其中，第一持有方的第一隐秘矩阵基于N*n1维的第一正交矩阵部分与第一中心矩阵相乘得到，第一中心矩阵通过秘密分享与其他持有方协同针对第一原始矩阵中的每项属性的属性值进行零均值化得到，第一正交矩阵部分是从N*N维的非对称正交矩阵中拆分出的与第一持有方对应的矩阵部分，且非对称正交矩阵的其他矩阵部分分别被提供至对应的其他持有方；

第四计算模块820，配置为计算全局隐秘矩阵与其转置矩阵的乘积，得到协方差矩阵；基于对协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵；

第二发送模块830，配置为将降维变换矩阵发送至各个持有方，以使得各个持有方利用降维变换矩阵处理其原始矩阵，得到对应的降维矩阵；降维矩阵用以通过机器学习的方式对业务对象进行业务预测分析。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行图1至图4任一项所述的方法。

本说明书实施例提供了一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行所述可执行代码时，实现图1至图4中任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述第一持有方执行，包括：

2.根据权利要求1所述的方法，在得到第一降维矩阵之后，还包括：

利用秘密分享算法，分别与其他持有方将各自的降维矩阵发送至数据需求方，使得所述数据需求方确定对所述N个业务对象的全部属性进行降维处理后的总降维矩阵；所述数据需求方包括所述可信第三方。

3.根据权利要求1所述的方法，其中，所述业务对象为以下之一：用户、商户、商品、事件；所述业务预测分析包括：预测业务对象的分类或回归值。

4.根据权利要求1所述的方法，所述获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方的步骤，包括：

生成N*N维的非对称正交矩阵，并将所述非对称正交矩阵广播至所述第一持有方之外的其他持有方。

5.根据权利要求1所述的方法，所述获取N*N维的非对称正交矩阵，且所述非对称正交矩阵被提供至每个持有方的步骤，包括：

接收第二持有方广播的N*N维的非对称正交矩阵；其中，所述非对称正交矩阵为所述第二持有方生成。

6.根据权利要求1所述的方法，其中，所述第一原始矩阵中一行对应一个业务对象，一列对应一项属性；

所述用所述第一拆分矩阵处理所述第一原始矩阵包括：用所述第一原始矩阵乘以所述第一拆分矩阵。

7.根据权利要求1所述的方法，其中，所述第一原始矩阵中一行对应一项属性，一列对应一个业务对象；

所述用所述第一拆分矩阵处理所述第一原始矩阵包括：用所述第一拆分矩阵乘以所述第一原始矩阵。

8.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述方法通过所述多个持有方之外的可信第三方执行，包括：

9.根据权利要求8所述的方法，还包括：

接收所述多个持有方利用秘密分享算法分别发送的降维矩阵；

基于接收的多个降维矩阵，确定对所述N个业务对象的全部属性进行降维处理后的总降维矩阵。

10.根据权利要求9所述的方法，其中，所述第一原始矩阵中一行对应一个业务对象，一列对应一项属性；

所述按照预定的持有方顺序对多个隐秘矩阵进行拼接步骤包括，按照预定的持有方顺序对多个隐秘矩阵进行横向拼接。

11.根据权利要求9所述的方法，其中，所述第一原始矩阵中一行对应一项属性，一列对应一个业务对象；

所述按照预定的持有方顺序对多个隐秘矩阵进行拼接步骤包括，按照预定的持有方顺序对多个隐秘矩阵进行纵向拼接。

12.根据权利要求8所述的方法，所述基于对所述协方差矩阵进行本征值求解以及降维的目标维度，确定降维变换矩阵的步骤，包括：

确定所述协方差矩阵的多个本征值和对应的多个本征向量；

从所述多个本征值中，确定值较大的目标维度个本征值，作为目标本征值；

基于所述目标本征值对应的本征向量，形成所述降维变换矩阵。

13.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述方法通过所述第一持有方执行，包括：

14.根据权利要求13所述的方法，所述获取N*n1维的第一正交矩阵部分的步骤，包括：

生成N*N维的非对称正交矩阵；

按照预定的持有方顺序将所述非对称正交矩阵拆分为多个正交矩阵部分；

保留与所述第一持有方对应的N*n1维的第一正交矩阵部分，将其他正交矩阵部分发送给对应的持有方。

15.根据权利要求13所述的方法，所述获取N*n1维的第一正交矩阵部分的步骤，包括：

接收第二持有方发送的N*n1维的第一正交矩阵部分；其中，所述第一正交矩阵部分由所述第二持有方从生成的N*N维的非对称正交矩阵中分拆得到。

16.一种多方联合对隐私数据进行降维处理的方法，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述方法通过所述多个持有方之外的可信第三方执行，包括：

17.一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述装置部署在所述第一持有方中，包括：

18.根据权利要求17所述的装置，还包括：

第一总和模块，配置为在得到第一降维矩阵之后，利用秘密分享算法，分别与其他持有方将各自的降维矩阵发送至数据需求方，使得所述数据需求方确定对所述N个业务对象的全部属性进行降维处理后的总降维矩阵。

19.根据权利要求17所述的装置，其中，所述业务对象为以下之一：用户、商户、商品、事件；所述业务预测分析包括：预测业务对象的分类或回归值。

20.一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有N个业务对象针对p项属性的属性值构成的N*p维的第一原始矩阵，所述第一原始矩阵中所述N个业务对象的数据按照预定顺序排列，不同持有方存储有所述N个业务对象的不同属性项的属性值；所述装置部署在所述多个持有方之外的可信第三方中，包括：

21.一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述装置部署在所述第一持有方中，包括：

22.一种多方联合对隐私数据进行降维处理的装置，所述隐私数据分布在多个持有方中，其中任意的第一持有方存储有n1个业务对象针对D项属性的属性值构成的n1*D维的第一原始矩阵，所述多个持有方共计存储有N个业务对象的所述D项属性的属性值，N>n1；所述装置部署在所述多个持有方之外的可信第三方中，包括：

23.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-16中任一项所述的方法。

24.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-16中任一项所述的方法。