CN117439731B

CN117439731B - 基于同态加密的隐私保护大数据主成分分析方法及系统

Info

Publication number: CN117439731B
Application number: CN202311763136.3A
Authority: CN
Inventors: 蒋亚丽; 马熙嵘; 孔凡玉; 孔兰菊; 葛春鹏; 崔立真
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-12
Anticipated expiration: 2043-12-21
Also published as: CN117439731A

Abstract

本发明提出了基于同态加密的隐私保护大数据主成分分析方法及系统，涉及大数据安全技术领域以及机器学习领域，客户端对待分析的隐私数据集进行划分，利用协商好的全同态加密方案，将划分后的数据集打包成多个密文，并发送给云服务器；云服务器对收到的密文执行同态协方差矩阵计算，基于计算好的协方差矩阵密文，通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，作为主成分密文发送给客户端；客户端利用协商好的全同态加密方案，对收到的主成分密文进行解密，得到隐私数据集的主成分；本发明提升了方案的实用性和准确性，在效率、可扩展性上高于当前同一场景下的最优方案。

Description

基于同态加密的隐私保护大数据主成分分析方法及系统

技术领域

本发明属于大数据安全技术领域以及机器学习领域，尤其涉及基于同态加密的隐私保护大数据主成分分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

主成分分析（principal component analysis - PCA）是一种广泛应用的降维技术，通常用于分析大数据集，可以将高维数据映射到一个低维空间，同时保留最重要的特征，减少冗余信息和噪音；从本质上讲，当应用于大型数据集时，PCA的目标是识别一组被称为主成分的向量，它们代表数据集中方差的方向；随后，将数据集投影到这些主成分上，以获得一个低维表示；PCA广泛应用于大数据分析和机器学习，包括数据预处理、特征提取、数据压缩和可视化，帮助数据分析者理解数据集内部的关系，并提供了一个更简单和更易管理的表示。

由于PCA的重要性和多功能性、数据和算力趋于分布式的现状，以及客户拥有数据量和数据分析质量要求的不断提升，PCA迫切需要成为云计算中大数据分析服务所广泛支持的技术之一，从而使用户能够利用云计算的计算能力进行增强的数据分析；然而，关于云存储可信度的担忧阻碍了用户直接在云中处理敏感数据的分析；相反，需要在将数据外包之前将隐私保护措施纳入其数据中，以减轻来自不受信任的云环境的潜在攻击风险；用户和云服务器需要协商并使用保护隐私的算法例程来在云中处理敏感数据，同时确保隐私；因此，提出一个实用和高效的隐私保护大数据PCA技术的建议将极大地使用户受益，使他们能够在云中处理敏感数据的PCA。

在云计算场景中实施隐私保护PCA技术的一个可能方法涉及使用同态加密；同态加密是一种重要的隐私保护技术，允许在加密数据上进行计算而无需解密；这项技术可以在保护数据隐私的同时保持数据可用性，因此在云计算和跨域计算等领域广泛使用。

在过去的十五年里，基于环误差学习问题（Ring Learning With Errors，R-LWE）的一类同态方案迅速发展，这些方案自然具有SIMD属性，并支持同态加法和乘法操作；因此，基于这些方案出现了很多基于隐私保护的数据分析算法，包括为云服务场景量身定制的隐私保护PCA方案；这些现有的基于同态加密的隐私保护PCA方法使用了一种称为幂乘法（PowerMethod）的迭代算法来计算数据集的协方差矩阵的主特征向量；该算法选择主特征向量的初始近似值，并不断应用协方差矩阵变换以改进其近似值。

在先前方法中，同态PowerMethod算法求主成分存在两个主要限制：首先，这些方法缺乏同态计算协方差矩阵的能力，PowerMethod需要输入数据集的协方差矩阵，但以前的方案没有提供计算此矩阵的同态解决方案，相反，它们采用替代方法，一些要求用户在本地计算协方差矩阵，这给用户带来了额外的计算任务，偏离了云服务的原始意图；其他则将PowerMethod中的协方差矩阵变换分解成数据集矩阵变换，以避免显式涉及协方差矩阵，但引入了额外的计算复杂性。其次，由于缺乏通用的向量归一化策略，可能存在精度损失；在PowerMethod的每次迭代中，需要进行归一化以控制向量的长度；在同态上下文中，通常使用迭代算法来逼近归一化的倒数平方根函数；这些算法的准确性严重依赖于参数的选择，如评估间隔和迭代次数；过往的研究没有在同态PowerMethod算法领域提出确定这些参数设置的通用策略。因此，由于这种固有限制，现有的基于同态加密的隐私保护大数据主成分分析方法存在精度损失的风险。

发明内容

为克服上述现有技术的不足，本发明提供了基于同态加密的隐私保护大数据主成分分析方法及系统，提升了隐私保护大数据主成分分析方案的实用性和准确性，在效率、可扩展性上高于当前同一场景下的最优方案。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于同态加密的隐私保护大数据主成分分析方法。

基于同态加密的隐私保护大数据主成分分析方法，包括：

客户端对待分析的隐私数据集进行划分，利用协商好的全同态加密方案，将划分后的数据集打包成多个密文，并发送给云服务器；

云服务器对收到的密文执行同态协方差矩阵计算，基于计算好的协方差矩阵密文，通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，作为主成分密文发送给客户端；

客户端利用协商好的全同态加密方案，对收到的主成分密文进行解密，得到隐私数据集的主成分；

其中，所述同态协方差矩阵计算，通过多同态矩阵乘法的并行处理实现。

进一步的，还包括，客户端和云服务器进行协商，选出一种word-wise 型全同态加密方案，作为隐私保护主成分分析的安全载体。

进一步的，所述对待分析的隐私数据集进行划分与打包，具体为：

将隐私数据集划分成大小为n×n的子矩阵，其中，n表示子矩阵的行数和列数；

根据行序列优先编码方式，将每个子矩阵转换成向量；

利用全同态加密方案中的加密函数，将得到的向量打包为密文。

进一步的，所述同态协方差矩阵计算，具体步骤为：

计算数据集的均值向量，基于均值向量，使用同态矩阵乘法进一步计算均值矩阵；

通过并行执行子矩阵的内积操作的方式，进行数据集的转置相乘；

基于转置相乘的结果和均值矩阵，得到协方差矩阵。

进一步的，所述通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，迭代执行轮同态PowerMethod方法，计算前个特征向量及其特征值的密文，其中，为预设参数，每轮执行的操作为：

通过连续的协方差矩阵变换，计算近似特征向量；

使用迭代的方式逼近开方求逆函数，对近似特征向量进行同态向量归一化；

翻转近似特征向量的轴，计算特征向量及其特征值的密文；

使用本次迭代计算的特征值和特征向量，计算特征偏移后的协方差矩阵。

进一步的，所述使用迭代的方式逼近开方求逆函数，具体为：

基于协方差矩阵变换产生的近似特征向量，用不等式估计欧氏范数的上界；

基于欧氏范数的上界，对近似特征向量进行向量归一化，用于调整特征向量的尺度。

进一步的，所述计算特征偏移后的协方差矩阵，具体为：

利用本次迭代计算的特征值和特征向量及其转置，更新协方差矩阵。

本发明第二方面提供了基于同态加密的隐私保护大数据主成分分析系统。

基于同态加密的隐私保护大数据主成分分析系统，包括数据划分模块、特征生成模块和特征解密模块：

数据划分模块，被配置为：客户端对待分析的隐私数据集进行划分，利用协商好的全同态加密方案，将划分后的数据集打包成多个密文，并发送给云服务器；

特征生成模块，被配置为：云服务器对收到的密文执行同态协方差矩阵计算，基于计算好的协方差矩阵密文，通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，作为主成分密文发送给客户端；

特征解密模块，被配置为：客户端利用协商好的全同态加密方案，对收到的主成分密文进行解密，得到隐私数据集的主成分；

以上一个或多个技术方案存在以下有益效果：

本发明所述的基于同态加密的隐私保护PCA方案，通过多同态矩阵乘法的并行处理，实现高效的同态协方差矩阵计算；设计高效的同态协方差矩阵变换算法与更精确的参数化的同态向量归一化策略，构建更高性能的同态PowerMethod方法，提升了方案的实用性和准确性，在效率、可扩展性上高于当前同一场景下的最优方案。

本发明所述的基于同态加密的隐私保护PCA方案所需要的同态模数层级少于当前同一场景下的最优方案，在使用自举方法实例化时具有更优的复杂度。

本发明所述方案由同态加密方案安全性提供隐私性保障，对于提供选择明文攻击安全性的同态加密方案，半诚实的云服务器在执行本方案时无法获得任何与用户隐私数据有关的信息。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为隐私保护大数据PCA的示意图。

图2为第一个实施例的系统结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决现有的基于同态加密的隐私保护大数据主成分分析方法的精度损失风险，本发明提出了一种高效的隐私保护大数据PCA方案（以下简称隐私保护PCA），其中，包含以下主要发明点：

1)通过多同态矩阵乘法的并行处理，实现高效的同态协方差矩阵计算。

2)设计高效的同态协方差矩阵变换算法与更精确的参数化的同态向量归一化策略，构建更高性能的同态PowerMethod方法。

该方案由客户端（用户端）和云服务器两方构成，如图1所示，共同完成隐私保护PCA的计算过程，对应实际应用场景如下：一个资源有限的用户希望利用云服务器的平台和计算资源来执行机器学习任务，其中PCA可能会成为模型训练初始阶段的关键组件，特别是在面对包含众多属性的复杂数据集时，比如包含图像等。然而，所涉及的数据集具有一定的隐私性质，用户不愿将隐私信息泄露给云端。在这种困境下，传统的在云上执行PCA的方法变得不可行，因为无法外包机密数据。因此，需要设计一个隐私保护PCA解决方案，确保用户可以在云上无缝执行PCA，同时保护数据集的隐私。上述场景描述为以下系统框架：

1)客户端：客户端希望执行PCA过程，但受制于自身匮乏的计算资源。将PCA外包给云服务器，并与云协商使用特定的、双方可见的隐私保护PCA算法。

2)云服务器：半诚实的云服务器在隐私保护计算过程中遵守相关交互协议，负责隐私保护PCA的正确进行，但同时对客户数据保持好奇，会试图根据已知信息推断客户数据隐私。

实施例一

本公开的一种实施例中提供了基于同态加密的隐私保护大数据主成分分析方法，如图2所示，包括如下步骤：

步骤S1：客户端对待分析的隐私数据集进行划分，利用协商好的全同态加密方案，将划分后的数据集打包成多个密文，并发送给云服务器；

步骤S2：云服务器对收到的密文执行同态协方差矩阵计算，基于计算好的协方差矩阵密文，通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，作为主成分密文发送给客户端；

步骤S3：客户端利用协商好的全同态加密方案，对收到的主成分密文进行解密，得到隐私数据集的主成分；

作为一种实施例，基于同态加密的隐私保护大数据主成分分析方法的具体实施方式如下：

步骤1：客户端使用同态加密方案加密用户的隐私数据集

（1）客户端和云服务器进行协商，选出一种按字（word-wise）型同态加密方案，作为本实施例所提出的隐私保护PCA的安全载体，其必须满足以下性质与功能函数：

属于的向量可由canonical编码方式编码至环空间中形成明文元素，明文之间的加法、乘法、自同构将引导底下的属于的向量进行相应的顺坐标加、乘与分量位置置换，其中，N是2的某个次幂。

定义：表示生成私钥。

定义：表示生成公钥 pk 和一系列旋转密钥，其中，用于辅助密文旋转操作，这些秘钥均属于公钥范畴。

定义：表示用公钥 pk 对明文 m 进行加密，产生密文 ct(m)。

定义：表示解密密文 ct(m) 并输出 m'，其中， m' 在一定精度设定内等于 m。

定义：表示执行加法操作，对加密的明文进行加法操作，生成。

定义：表示对加密的明文和明文进行乘法操作，需要控制结果中的噪声增长。

定义：表示执对加密的明文进行乘法操作，需要进行重新缩放和重新线性化操作以控制结果的大小和噪声增长。

定义：表示令加密的明文所对应的信息向量中的所有分量向左循环移动 k 位，其中，是交换密钥。

（2）客户端需要对的隐私数据集X进行划分，并打包成若干个密文，其中，s代表数据集中样本数量，t代表特征数量。

客户端将X划分成大小为的子矩阵，这里等于消息向量的维度，也即N/2。子矩阵会被首先根据行序列优先编码方式转换成维度为N/2的向量，然后被进一步封装为密文。

数据集的特征按照这种划分方式被划分为份，每个密文包含n个样本的一份特征，当t无法被n整除时，选择以下两种zero-padding方式进行0值填充（无论使用哪种填充方式，需要的总密文数量恒为）：

前k-1列的子矩阵均包含n个特征，而最后一列子矩阵包含最后的t-k⋅n个特征，并在其余的空间中填充零；这种方法将特征数量从t扩展到k⋅n，并将每个密文视为一个n×n矩阵，表示具有n个特征的n个样本。

子矩阵的所有列仅存储n-p个有效特征，并在其余的空间中填充零，其中p=⌊(t-k⋅n)/k⌋；这种方法允许将每个密文视为一个n×(n-p)矩阵，利用一些可能的矩形矩阵乘法的优化，同时仍然可以对方阵进行操作。

步骤2：云服务计算数据集对应的协方差矩阵，即多同态矩阵乘法的并行处理

（1）表示为X的第i列子矩阵，其中0≤i<k；表示为的第个子矩阵，表示其对应的密文；如果数据集没有居中处理，云服务器需要计算数据集的均值向量μ，在本实施例提出的方案中，μ由k个子矩阵表示，其中每一列包含一个特征均值的n个副本；0≤i<k，将μ[i]表示为均值向量的第i个子矩阵；μ通过以下方程计算：

其中，表示将矩阵X按列（axis=1）或按行（axis=0）聚合，使用均值向量进一步计算均值矩阵：

（2）计算的每个子矩阵，云服务器遍历列中的每个子矩阵，并将其与列中相应子矩阵的转置相乘：

使用上述方程计算数据集与其转置相乘时，每个矩阵乘法都恰好对应密文上的一次同态矩阵乘法，云服务器通过并行地进行多个同态矩阵乘法实例来提升计算速度。其中，对于的矩阵A、B之间的同态矩阵乘法用同态友好型方程实现：，其中，a和b分别是A和B经过行序列优先编码得到的向量，C,Z,R,T是固定的置换变换矩阵，c是编码了矩阵乘法结果AB的向量。

（3）如果X已经居中处理，那么代表协方差矩阵，记为。否则，云服务器将减去后乘以的结果作为协方差矩阵，记为。

上述使用三个步骤计算协方差矩阵的过程，直接使用上述步骤（1）（2）（3）在同态计算中计算协方差矩阵并不是最高效的实现方式，云服务器可以有选择地选择以下提供的优化方法，其中，优化方法1 和3并列，优化方法2仅在应用优化方法1时实施。在云服务器实际利用用户数据集的密文计算协方差矩阵的密文时，采取优化方法1,2进行这一计算即为多同态矩阵乘法实例的并行处理：

优化方法1：对于给定的0≤j<k，上面的方程中存在一对多的矩阵乘法场景，涉及和矩阵集合{|0≤i<k}。云服务器可选择并行执行k列子矩阵的内积操作：，并通过存储来节省时间。

优化方法2：进一步缓存所有的}，使得每个在整个协方差矩阵计算过程中只需要进行一次T变换和n-1次R变换。

优化方法3：基于协方差矩阵是对称矩阵的事实，只需要计算对角线的一侧结果并将其转置以获得另一侧的结果，从而节省近一半的协方差计算时间。

步骤3：云服务器进行轮PowerMethod计算前个数据集的主成分，其中，PowerMethod方法为以下步骤：

（1）同态协方差矩阵变换算法：通过连续的协方差矩阵变换将交替应用在水平复制的近似特征向量和垂直复制的近似特征向量上。这里，对于一个具有t个分量的列向量（或行向量），使用以下过程将其复制成一列（或行）子矩阵：

(i) 将向量均匀分为k个段，每个段包含n个条目。当t不能被k整除时，需要采用零填充策略，并且应与在密文打包中使用的填充策略保持一致；

(ii) 水平（或垂直）复制这k个列向量（或行向量）段n次，以构建k个子矩阵。对于PowerMethod中第t-1轮的近似特征向量（列向量）及其水平复制得到的子矩阵列，对于，协方差矩阵变换由下式计算：

这里，表示由行向量水平复制得到的子矩阵行。同理，对于，协方差矩阵变换由下式计算：

其中，表示由列向量水平复制得到的子矩阵列。

因此，云服务器执行的连续的协方差矩阵变换的完整流程：在PowerMethod迭代的开始时，首先选择一个行向量作为近似特征向量，表示为，将它垂直地复制成一个子矩阵行。在第t次迭代中，表示近似特征向量的子矩阵列（或行）计算如下：

（2）更精确的参数化的同态向量归一化策略：在连续的协方差矩阵变换之间，云服务器要进行对近似特征向量的归一化处理，以防止它们的不断膨胀或坍缩。

目前已知的所有同态方案无法支持非多项式函数的直接同态计算，云服务器只能通过使用迭代的方式逼近开方求逆函数（Inverse Square-root InvSRT）来对向量进行归一化处理：

估计近似特征向量的二范数：在数据集经历归一化和居中处理后，所有数据单位都在b>0的范围内（由云和客户端双方协商得到）。对于协方差矩阵中的每个元素，有边界，其中表示由数据集中所有样本的第i个特征值组成的向量。因此，向量的欧氏范数限制为。云使用以下不等式估计由协方差矩阵变换产生的近似特征向量的范数的上界：

其中，输入近似特征向量 v 的欧氏范数上界为 c。当不同的特征列具有不同的界限时（云服务器可合法访问时）云服务器需要构建更严格的上界：此时，，并且 y 的欧氏范数的上界表示为：

慵懒式向量归一化（Lazy Normalization）：基于欧氏范数的上界，云服务器需要为近似特征向量进行一种称为 Lazy Normalization的向量归一化方法，用于调整特征向量的尺度。

对于PowerMethod中任意一轮协方差矩阵变换，近似特征向量经过协方差矩阵变换后得到的更精确的近似特征向量，云服务器此时需要对的长度进行慵懒式归一化。设的欧氏范数的上界表示为 B。

云服务器首先将迭代的开方求逆算法（InvSRT）的求值区间设置为，并在此间隔内找到一个合理的初始近似值，以减少在迭代的InvSRT所需的执行轮数。为了实现这一目标，云服务器对以为中点的进行奇数阶的泰勒展开 T(x)。这个泰勒展开函数用作迭代的InvSRT的初始近似函数。

以上述泰勒展开函数作为初始近似函数，迭代的InvSRT此时以初始近似值作为输入，迭代 τ 次以获得一个逼近的值作为输出。接着，云服务器用这个输出与近似特征向量相乘得到归一化后的近似特征向量。

在上述归一化过程中，对于任何，都有成立，进一步地，以这样的作为输入时，迭代的InvSRT的输出小于等于开方求逆函数的真值。因此，按上述过程归一化后的近似特征向量的欧氏范数都有上限为1。服务器利用这一信息，重新计算下一个近似特征向量的欧氏范数的上界。特别地，如果向量的长度最初为1，那么的上界保持不变，等于的上界B，而 B 可由上述估计近似特征向量的二范数的方法计算得到。

在上述归一化过程中，为了防止生成超出同态加密方案精度范围的极小高阶系数，云控制T(x)的次数尽量的小，但这可能导致，与区间 [1,B^2 ] 相比，区间(0,1)的T(x)的准确度较低。为了解决这一问题，云服务器在进行主成分分析过程前，首先进行以下PowerMethod模拟过程以得到在一次完整的PowerMethod计算中，每次向量归一化过程中，调用迭代的InvSRT时其内部所执行的迭代次数：

云服务器设协方差矩阵变换不会将向量的长度缩小超过因子S，其中S是预设参数。基于这一设定，云服务器在单位长度向量上模拟PowerMethod迭代：

1）初始化变量。然后更新为。

2）随后，计算并将其输入迭代的InvSRT函数中。其中，设迭代的InvSRT函数的输出为，则其必须迭代足够的轮数以满足以下两个条件：(i)不得低于预定的精度上限 B'，(ii) 在PowerMethod的最后一次迭代中，值必须小于误差。其中精度上限是与所使用的同态加密方案相关的预设参数，误差由用户、云服务器协商得到的预设参数。

3）更新为，返回第一步进入下一个PowerMethod 迭代。

4）记录PowerMethod的每个迭代中，InvSRT所使用的迭代次数。在实际的同态PowerMethod计算中，云服务器每次执行InvSRT时其内部迭代次数与所记录的值一一对应。

上述模拟PowerMethod过程，确保了在真正实施密文空间上的PowerMethod时的两个要求：（i）对于预设的缩小因子S，在PowerMethod迭代过程中，特征向量的长度不会下溢；（ii）PowerMethod的最终输出特征向量的长度足够接近1，误差至多为预设值e。

（3）特征值计算：计算特征值的过程类似于完成另一轮Power Method迭代，设为经过 t 次迭代后获得的特征向量，特征值由给出，在 t 次迭代后已经被归一化，特征值计算可以简化为（前提是云服务器对近似特征向量的精度有足够的信心），的计算过程与一个新的Power Method迭代的前半部分完全相同。

然而，和有不同的方向，即如果一个是列向量，另一个是行向量，反之亦然。在进行点积计算时，云服务器需要翻转的轴以匹配的方向；特征值计算整合被到PowerMethod迭代中，特别是在Power Method的最后一轮（总共 t+1 轮）中，该迭代用于计算特征值而不是更新特征向量。云服务器需要保留以在计算特征偏移的协方差矩阵。

（4）计算特征值偏移的协方差矩阵：在每次执行Power Method后，云服务器用当前协方差矩阵的第1偏移版本替换其自身，从而确保对于 1≤k，Power Method的第 k 轮产生原始数据集的协方差矩阵的第 k 个主特征向量。云服务器利用在先前的Power Method迭代中获得的主特征值及其相应的特征向量及其转置，更新协方差矩阵为。

步骤4：云服务器在计算好数据集X的前个特征向量及其特征值（的密文）后，将它们返回给用户

步骤5：客户端利用同态加密方案中的解密函数与私钥，将目标特征向量从密文中还原出来，作为用户隐私数据集X的前个主成分。

上述实施例考虑到解释算法时的简洁性，在描述云服务器计算协方差矩阵的密文以及特征向量及其特征值的密文的计算过程时，将所有描述、公式以明文数据结构呈现。以下提供另一实施例，它将描述云服务器在面对真正的密文时，计算协方差矩阵的密文以及特征向量及其特征值的密文时所需要执行的操作，由以下步骤体现：

1)客户端将待分析的大小的数据集按上述实施例所述方法进行划分与打包，利用协商好的全同态加密方案所提供的加密函数将划分后的数据集部分加密成密文集。并将他们发送给云服务器，要求云服务器使用隐私保护PCA计算该数据集X的前个主成分。

2)云服务器接收到上述密文后，按上述实施例执行同态协方差矩阵计算：

a)云服务器遍历数据集的每一子矩阵列的密文，执行以下步骤：

i.计算数据集的均值向量的密文：云服务器按照上一实施例所述计算均值向量的方法，遍历当前子矩阵列的包含的所有子矩阵密文，将它们进行同态求和：，然后聚合得到目标均值向量的密文：。其中，云服务器利用以下同态操作实现：

对于循环条件，将与其循环左移位的结果相加，并将相加结果赋给：，然后置，进入下一循环。

ii.计算数据集矩阵密文的转置密文：对于，对中的每个子矩阵逐个进行同态矩阵转置，其中 G 是完成该操作所需的特定线性变化。

iii．计算数据集矩阵密文与其转置的相乘（上三角部分）：这一步云服务器利用上述计算得到的子矩阵转置密文，计算数据集矩阵密文与其转置的相乘，得到协方差矩阵。此处云服务器应用上一实施例中计算协方差矩阵时所述优化3，只计算相乘结果的上三角部分（以子矩阵位单位），故遍历，执行以下步骤：

对于，并行地进行同态子矩阵乘法：，其中MtrxMul 是Jiang等人提出的同态矩阵乘法，其实施方法在上一实施例给出;

聚合并行计算结果，得到协方差矩阵的一个子矩阵的密文：。

b)转置已计算得到的上三角密文部分来获得下三角的密文：对于，进行同态矩阵转置：。

c)计算数据集的均值向量的密文的转置，并利用其计算均值向量的密文与均值向量转置的密文的相乘结果，最后利用上述计算得到的数据集密文与其转置的相乘结果计算目标协方差矩阵{，对于：

进行同态矩阵转置：；

对于，计算密文均值向量与其转置的乘积：；

计算协方差子矩阵：。

3)云服务器接着利用计算好的协方差矩阵密文，计算同态PowerMethod以获得近似个最大特征向量作为前个主成分：

a)根据前一个实施例中对向量二范数的估计方法，初始化近似特征向量：按照特定分布采样二范数为1的向量，将他们封装到密文中，其中，控制特征向量二范数为1是根据上一实施例中对向量二范数估计方案得到的设定，它使得在实施（慵懒式）向量归一化时，归一化后的向量始终有长度上界1。

b)置变量为1，它用于表示当前近似特征向量是列向量（）或行向量（）。

c)进入到连续的次连续协方差矩阵变换，每进行完一次协方差矩阵衔接一次慵懒式向量归一化操作。其中，默认云服务器已经根据上一实施例对PowerMethod进行过模拟，知晓每次向量归一化操作时进行迭代InvSRT所需要的迭代次数。以下是对连续协方差矩阵在密文上的具体实现过程，以及慵懒式向量归一化操作在密文上的具体实现过程，这些过程均与上一实施例所述方案一一对应。

对于遍历0到的值t，进行如下操作（t用于记录当前执行到第几轮迭代，为最后应该计算特征向量和特征值的轮数做标记）：

i.进行协方差矩阵变换：遍历协方差矩阵的所有子矩阵密文，让它们与本轮近似特征向量进行线性变换，得到下一轮的、未被归一化的近似特征向量。密文上的具体实施过程在以下步骤中给出，对于遍历0到的值i：

(1)初始化求和值为0：

(2)对于:

axis为0时，进行线性变换与求和：；

axis为1时，进行线性变换与求和：。

(3)进行聚合：

ii.置，表示此时协方差矩阵变换完成，近似特征向量此时在其对应密文中以与变换前相反的方向（指行方向或列方向）存在着。

iii.重置求和值：。

iv.计算协方差矩阵变换后的近似特征向量的长度的平方，作为慵懒式向量归一化的输入之一。在密文上的实施方法由以下步骤给出：对于0到的值i：

（1）计算近似特征向量的长度的平方，等价于令近似特征向量（密文）的各个分量进行同态平方与求和，这一步首先是通过让代表近似特征向量的k个子矩阵密文各自进行平方操作然后将所有平方结果加在一起求和：；

（2）最后再通过Aggregate函数把代表求和结果的子矩阵密文中所有分量进行聚合：

v.对特征向量（密文）进行慵懒式归一化处理：当时，表示还未进入PowerMethod的最后一轮计算，需要对特征向量密文进行慵懒式归一化处理。密文上的具体实施过程由以下步骤给出，其中，设是云服务器通过上一实施例中给出的PowerMethod模拟得到的，针对当前轮数（的迭代InvSRT的内部迭代轮数：

使用泰勒近似求开放求逆的初始近似值：，其中TaylorInit 是根据上一实施例所设的Taylor展开函数，它接收参数order为泰勒展开的截断度数，B是求值区间上界，是上一步骤计算得到的近似特征向量的长度的平方（密文），是的开方求逆值的一个初始近似值。

（1）使用迭代InvSRT将初始近似值精确化：。其中可使用牛顿迭代法、Goldschmit迭代法等方式实施。

（2）利用求得的开方求逆值与近似特征向量相乘，进行归一化：对于遍历0到的值i，使用开方求逆值进行向量归一化/归一化：

vi.计算特征值，返回本轮特征值与特征向量：当时，说明此时是最后一轮PowerMethod的内部迭代，这一轮迭代的目标是计算由上一轮（第t-1轮）所得的近似特征向量的特征值、并更新协方差矩阵为特征偏移后的协方差矩阵。为下一个PowerMethod过程做准备。并最终返回上一轮的近似特征向量、这轮计算得到的特征值，作为隐私保护PCA所计算得到的特征向量和特征值返回给用户。密文上的具体实施步骤给出如下：

（1）旋转上一轮计算得到的近似特征向量的轴:，其中AxisFlipping 是将近似特征向量从轴axis翻转至的函数。

（2）重置求和值：

（3）计算特征值，等价于计算本轮近似特征向量（未归一化）与上一轮近似特征向量的内积：对于遍历0到的值i，进行内积中的乘法与子矩阵之间的加法，然后将表示累加的结果的子矩阵中的各分量聚合

vii.返回,,作为本次PowerMethod计算得到的特征值、特征向量及其转置。

d)使用上述返回的特征值和特征向量计算特征偏移后的协方差矩阵，对于：

（1）计算特征矩阵：

（2）计算特征偏移的协方差矩阵，并将其作为新的协方差矩阵：

e)返回步骤a) 计算下一轮PowerMethod，直到前个特征值及其特征向量被计算出来。

4)云返回计算得到所有特征值和特征向量给客户端：,。

5)客户端使用全同态加密方案的私钥和解密函数将密文还原回目标特征向量及其特征值，即为关于数据集X的前个近似主成分。

实施例二

本公开的一种实施例中提供了基于同态加密的隐私保护大数据主成分分析系统，包括数据划分模块、特征生成模块和特征解密模块：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于同态加密的隐私保护大数据主成分分析方法，其特征在于，包括：

其中，所述通过同态PowerMethod方法获得隐私数据集的特征向量及其特征值的密文，迭代执行轮同态PowerMethod方法，计算前个特征向量及其特征值的密文，其中，为预设参数，每轮执行的操作为：

通过连续的协方差矩阵变换，计算近似特征向量；

翻转近似特征向量的轴，计算特征向量及其特征值的密文；

使用本次迭代计算的特征值和特征向量，计算特征偏移后的协方差矩阵；

其中，所述同态协方差矩阵计算，通过多同态矩阵乘法的并行处理实现，具体步骤为：

基于转置相乘的结果和均值矩阵，得到协方差矩阵。

2.如权利要求1所述的基于同态加密的隐私保护大数据主成分分析方法，其特征在于，还包括，客户端和云服务器进行协商，选出一种word-wise 型全同态加密方案，作为隐私保护主成分分析的安全载体。

3.如权利要求1所述的基于同态加密的隐私保护大数据主成分分析方法，其特征在于，所述对待分析的隐私数据集进行划分，具体为：

根据行序列优先编码方式，将每个子矩阵转换成向量；

4.如权利要求1所述的基于同态加密的隐私保护大数据主成分分析方法，其特征在于，所述使用迭代的方式逼近开方求逆函数，具体为：

5.如权利要求1所述的基于同态加密的隐私保护大数据主成分分析方法，其特征在于，所述计算特征偏移后的协方差矩阵，具体为：

6.基于同态加密的隐私保护大数据主成分分析系统，其特征在于，包括数据划分模块、特征生成模块和特征解密模块：

通过连续的协方差矩阵变换，计算近似特征向量；

翻转近似特征向量的轴，计算特征向量及其特征值的密文；

基于转置相乘的结果和均值矩阵，得到协方差矩阵。

7.如权利要求6所述的基于同态加密的隐私保护大数据主成分分析系统，其特征在于，所述对待分析的隐私数据集进行划分，具体为：

根据行序列优先编码方式，将每个子矩阵转换成向量；