CN113949501A - 一种基于半同态加密的横向分布式pca降维方法 - Google Patents
一种基于半同态加密的横向分布式pca降维方法 Download PDFInfo
- Publication number
- CN113949501A CN113949501A CN202111048697.6A CN202111048697A CN113949501A CN 113949501 A CN113949501 A CN 113949501A CN 202111048697 A CN202111048697 A CN 202111048697A CN 113949501 A CN113949501 A CN 113949501A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- result
- party
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009467 reduction Effects 0.000 title claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 239000003999 initiator Substances 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000000513 principal component analysis Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/0819—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
- H04L9/0822—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using key encryption key
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/0819—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
- H04L9/083—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) involving central third party, e.g. key distribution center [KDC] or trusted third party [TTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/46—Secure multiparty computation, e.g. millionaire problem
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于半同态加密的横向分布式PCA降维方法,尤其涉及到一种分布式的横向联邦PCA方法,以解决分布式数据特征降维建模中的隐私保护问题。本发明在分布式场景下,多方数据已经进行加密数据特征对齐,发起方利用Paillier技术保护数据持有方数据隐私。本发明采用半同态加密的技术,相较于全同态加密模式可以大大改善计算效率问题;而且相较于差分隐私的方法可以提高结果的准确性;而且本发明方案同时提出存在可信第三方和不可信第三方的两种算法方案,可以有效解决信任和监管问题。
Description
技术领域
本发明涉及数据安全领域,特别涉及一种基于半同态加密的横向分布式PCA降维方法。
背景技术
MPC(多方安全计算)技术能够让数据在不泄露的情况下联合多方的数据进行联合计算并得到明文计算结果,最终实现数据的所有权和数据使用权的分离。在MPC技术诞生之后,机器学习领域对MPC的研究也正日渐兴起,当前的PCA降维技术主要集中在数据纵向分布领域,采用的方法主要有两种,一种是基于全同态(FullyHomomorphicEncryption)加密技术,这种技术在目前局限于加密效率尚不能大范围推广;另一种是基于差分隐私(DifferentialPrivacy)技术,差分隐私技术虽然在一定程度上可以保护数据隐私不被泄露,但是添加数据噪声让建模结果的准确性大打折扣,特别是在主成分分析等对数据的精度要求比较高的算法中。另外,在分布式横向PCA算法中多是使用秘密分享(SecretSharing)增加了节点之间的通信次数,当样本量大时建模效率比较低。而本发明摒弃全同态加密的同时,采用半同态加密技术分别解决在有无可信第三方下得PCA技术,同时大大改善通信效率问题。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于半同态加密的横向分布式PCA降维方法,本发明采用半同态加密的技术,相较于全同态加密模式可以大大改善计算效率问题;而且相较于差分隐私的方法可以提高结果的准确性。而且本发明方案同时提出存在可信第三方和不可信第三方的两种算法方案,可以有效解决信任和监管问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于半同态加密的横向分布式PCA降维方法,设计两种方案即存在可信第三方(以下称算法1)与不存在可信第三方(以下称算法2)两种情况,两种算法的先决条件都是数据特征做了对齐操作,两种算法的输入、输出如下:
输入:(i=1,2,…N,N≥3),N代表数据拥有方节点个数,p是节点所拥有的特征数,该值在所有节点相同;X1,X2…,Xn分别属于数据拥有方1,2,…,N;K代表主成分个数;n是节点样本量,每个节点n可以不一样;
输出:降维后的数据矩阵X′K:
对于数据横向分割的情况,也就是各个数据拥有方的数据样本id不同,而特征相同;协方差矩阵可以做如图1的计算,其中Xi是经过了中心化的样本数据,那么可以在各节点本地计算得到,不需要泄露其他详细数据给其他参与方,而只需要各节点共享每个特征的均值即可,而均值有很多方法安全共享;
其中算法1的流程分为以下五个步骤:
步骤(1),可信第三方P生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留;
步骤(2),数据拥有方计算所拥有的样本数据特征均值并用公钥加密得到(i=1,2,…N),将计算结果全部传输给某一个计算节点O,节点O将接收到的结果求和得到其中i=1,2,3...N,e=1,2,3…p并将结果[X]发送给可信第三方P,P接收后用私钥解密得到并将结果发送给其余所有数据拥有方节点;
算法2整体流程如下,本算法整体分为六个步骤:
步骤2.1,发起方节点M1(可以选择拥有标签的一方)生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留。
步骤2.2,发起方节点M1计算所拥有的样本数据特征均值并用公钥加密得到并将计算结果传输给下一个节点M2,节点M2计算所拥有的样本数据特征均值并用公钥加密得到然后M2将接收到的结果求和和自己的结果求和得到并将该结果传给下一个节点M3,其余所有节点计算过程和M2一致,一直到最后一个节点将计算结果回传给M1,然后M1就可以得到其中
步骤2.4,发起方节点M1计算拥有数据的协方差矩阵并使用公钥加密得到并传给下一个参与方节点M2,节点M2计算拥有数据的协方差矩阵并使用公钥加密得到然后将接收到的结果与该值求和得到[C1+C2],并将结果发下一个参与方节点M3,其余所有数据拥有方节点进行同样的操作,最后一个节点需要将求和结果回传给M1,M1解密得到所有节点数据的协方差矩阵接着P基于C计算特征向量矩阵U,U的维度与K相同,并将U传给所有数据拥有方节点。
与现有技术相比,本发明的有益效果如下:
本发明采用半同态加密的技术,相较于全同态加密模式可以大大改善计算效率问题;而且相较于差分隐私的方法可以提高结果的准确性。而且本发明方案同时提出存在可信第三方和不可信第三方的两种算法方案,可以有效解决信任和监管问题。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的协方差计算图;
图2是本发明的算法1方案架构图;
图3是本发明的算法2方案架构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明如图1-3所示,本发明提供一种基于半同态加密的横向分布式PCA降维方法,设计两种方案即存在可信第三方(以下称算法1)与不存在可信第三方(以下称算法2)两种情况,两种算法的先决条件都是数据特征做了对齐操作,两种算法的输入、输出如下:
输入:(i=1,2,…N,N≥3),N代表数据拥有方节点个数,p是节点所拥有的特征数,该值在所有节点相同;X1,X2…,Xn分别属于数据拥有方1,2,…,N;K代表主成分个数;n是节点样本量,每个节点n可以不一样;
输出:降维后的数据矩阵X′K:
对于数据横向分割的情况,也就是各个数据拥有方的数据样本id不同,而特征相同;协方差矩阵可以做如图1的计算,其中Xi是经过了中心化的样本数据,那么可以在各节点本地计算得到,不需要泄露其他详细数据给其他参与方,而只需要各节点共享每个特征的均值即可,而均值有很多方法安全共享;
其中算法1的流程分为以下五个步骤:
步骤(1),可信第三方P生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留;
步骤(2),数据拥有方计算所拥有的样本数据特征均值并用公钥加密得到(i=1,2,…N),将计算结果全部传输给某一个计算节点O,节点O将接收到的结果求和得到其中i=1,2,3...N,e=1,2,3…p并将结果[X]发送给可信第三方P,P接收后用私钥解密得到并将结果发送给其余所有数据拥有方节点;
算法2整体流程如下,本算法整体分为六个步骤:
步骤2.1,发起方节点M1(可以选择拥有标签的一方)生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留。
步骤2.2,发起方节点M1计算所拥有的样本数据特征均值并用公钥加密得到并将计算结果传输给下一个节点M2,节点M2计算所拥有的样本数据特征均值并用公钥加密得到然后M2将接收到的结果求和和自己的结果求和得到并将该结果传给下一个节点M3,其余所有节点计算过程和M2一致,一直到最后一个节点将计算结果回传给M1,然后M1就可以得到其中
步骤2.4,发起方节点M1计算拥有数据的协方差矩阵并使用公钥加密得到并传给下一个参与方节点M2,节点M2计算拥有数据的协方差矩阵并使用公钥加密得到然后将接收到的结果与该值求和得到[C1+C2]中,并将结果发下一个参与方节点M3,其余所有数据拥有方节点进行同样的操作,最后一个节点需要将求和结果回传给M1,M1解密得到所有节点数据的协方差矩阵接着P基于C计算特征向量矩阵U,U的维度与K相同,并将U传给所有数据拥有方节点。
具体的,本发明利用分布式横向PCA数据降维的方案解决在电信联合反欺诈、金融联合风控等及其他领域当中,多家不同的机构需要通过联合建模的方式对自己所拥有的数据降维用于后续的机器学习建模,此时这些不同的机构由于所处领域相同用户群体不同,但是所拥有的用户属性基本相同,也就是通常所说的数据横向分割。而由于监管的要求,数据拥有方不能将具体的有可能泄露用户隐私数据的属性分享给第三方机构,这时就需要使用隐私保护技术对这些用户数据降维。
本发明的应用实例为运营商联合解决通信反欺诈场景。
在此应用场景中,中国电信侧拥有的是用户的通话及各类APP流量使用登录情况等通信数据,而如果仅仅使用电信运营商的数据则会造成样本分布比较单一,不能很好识别使用其他运营商产品的欺诈行为。由于电信、移动、联通三家运营商的业务类型几乎重合,所以数据维度基本一致,只是用户id不同,符合数据横向分割的特点。倘若引入移动和联通的用户行为数据会很大程度上丰富用户群体,但是由于用户在诸如移动、联通的通信数据是属于用户的隐私数据,在没有得到用户及监管机构的允许下是没法直接流向第三方机构,同时由于运营商采集数据的维度很大,大维度的样本在机器学习建模时往往会造成过拟合现象,这时如果采用本发明所提出的横向PCA技术可以很方便地将第三方数据利用起来,同时可以解决数据维度过大的问题。
应用算法2作为该案例解决方案,首先可以在电信侧部署一个节点作为发起方,在移动和联通两家运营商部署其他两个节点作为参与方节点。首先进行数据特征对齐操作;接着使用本发明的算法2流程,如图3,Paillier公私钥在电信处生成并分发给其他两家运营商,然后再进行如图所示的密文分享流程,最后生成降维后的样本数据,然后将降维后的数据放到机器学习模型中进行通信行为欺诈识别。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于半同态加密的横向分布式PCA降维方法,其特征在于,设计两种方案即存在可信第三方(以下称算法1)与不存在可信第三方(以下称算法2)两种情况,两种算法的先决条件都是数据特征做了对齐操作,两种算法的输入、输出如下:
输出:降维后的数据矩阵X′K:
对于数据横向分割的情况,也就是各个数据拥有方的数据样本id不同,而特征相同;协方差矩阵可以做如图1的计算,其中Xi是经过了中心化的样本数据,那么可以在各节点本地计算得到,不需要泄露其他详细数据给其他参与方,而只需要各节点共享每个特征的均值即可,而均值有很多方法安全共享;
其中算法1的流程分为以下五个步骤:
步骤(1),可信第三方P生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留;
步骤(2),数据拥有方计算所拥有的样本数据特征均值并用公钥加密得到将计算结果全部传输给某一个计算节点O,节点O将接收到的结果求和得到其中并将结果[X]发送给可信第三方P,P接收后用私钥解密得到并将结果发送给其余所有数据拥有方节点;
步骤(3),各数据拥有方节点收到后计算己方数据与该值的差值,也就是将数据进行中心化操作得到然后各数据拥有方节点计算各自拥有数据的协方差矩阵并使用公钥加密得到并传给某一个节点0,节点O将接收到的结果求和得到[C],并将结果发送给可信第三方P,P解密得到所有节点数据的协方差矩阵接着P基于C计算特征向量矩阵U,U的维度与K相同,并将U传给所有数据拥有方节点;
算法2整体流程如下,本算法整体分为六个步骤:
步骤2.1,发起方节点M1(可以选择拥有标签的一方)生成同态加密公私钥对,并将公钥传给其余所有数据拥有方,私钥自己保留。
步骤2.2,发起方节点M1计算所拥有的样本数据特征均值并用公钥加密得到并将计算结果传输给下一个节点M2,节点M2计算所拥有的样本数据特征均值并用公钥加密得到然后M2将接收到的结果求和和自己的结果求和得到并将该结果传给下一个节点M3,其余所有节点计算过程和M2一致,一直到最后一个节点将计算结果回传给M1,然后M1就可以得到其中
步骤2.4,发起方节点M1计算拥有数据的协方差矩阵并使用公钥加密得到并传给下一个参与方节点M2,节点M2计算拥有数据的协方差矩阵并使用公钥加密得到然后将接收到的结果与该值求和得到[C1+C2],并将结果发下一个参与方节点M3,其余所有数据拥有方节点进行同样的操作,最后一个节点需要将求和结果回传给M1,M1解密得到所有节点数据的协方差矩阵接着P基于C计算特征向量矩阵U,U的维度与K相同,并将U传给所有数据拥有方节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111048697.6A CN113949501A (zh) | 2021-09-08 | 2021-09-08 | 一种基于半同态加密的横向分布式pca降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111048697.6A CN113949501A (zh) | 2021-09-08 | 2021-09-08 | 一种基于半同态加密的横向分布式pca降维方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113949501A true CN113949501A (zh) | 2022-01-18 |
Family
ID=79327909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111048697.6A Pending CN113949501A (zh) | 2021-09-08 | 2021-09-08 | 一种基于半同态加密的横向分布式pca降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113949501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510502A (zh) * | 2022-11-23 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 一种隐私保护的pca方法及系统 |
-
2021
- 2021-09-08 CN CN202111048697.6A patent/CN113949501A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510502A (zh) * | 2022-11-23 | 2022-12-23 | 苏州浪潮智能科技有限公司 | 一种隐私保护的pca方法及系统 |
WO2024109149A1 (zh) * | 2022-11-23 | 2024-05-30 | 苏州元脑智能科技有限公司 | 一种隐私保护的主成分分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084063B (zh) | 一种保护隐私数据的梯度下降计算方法 | |
US8050410B2 (en) | Distributed encryption methods and systems | |
CN112906030B (zh) | 基于多方全同态加密的数据共享方法和系统 | |
CN111797427A (zh) | 一种兼顾隐私保护的区块链用户身份监管方法及系统 | |
CN114548418A (zh) | 一种基于秘密分享的横向联邦iv算法 | |
CN115510502B (zh) | 一种隐私保护的pca方法及系统 | |
CN112052466A (zh) | 基于多方安全计算协议的支持向量机用户数据预测方法 | |
CN115442050A (zh) | 一种基于sm9算法的隐私保护的联邦学习方法 | |
CN113949501A (zh) | 一种基于半同态加密的横向分布式pca降维方法 | |
CN115001651A (zh) | 适用于半诚实模型下基于全同态加密的多方计算方法 | |
Aristov et al. | Encrypted multisensor information filtering | |
CN114124347A (zh) | 一种基于区块链的安全多方计算方法及系统 | |
CN116886276B (zh) | 一种基于动态密钥的数据传输方法及系统 | |
Li et al. | Perturbation-based private profile matching in social networks | |
CN114866312B (zh) | 一种保护数据隐私的共有数据确定方法及装置 | |
CN113965310B (zh) | 基于可控去标识化的标签实现混合隐私计算处理的方法 | |
Li et al. | Privacy-preserving data aggregation for big data in financial institutions | |
US20230188330A1 (en) | System and method for identity-based key agreement for secure communication | |
CN114900283A (zh) | 基于多方安全计算的深度学习用户梯度聚合方法 | |
CN111951918B (zh) | 一种物联网医疗系统中增强数据隐私性的数据聚类方法 | |
Sheikh et al. | Secure sum computation for insecure networks | |
EP3883178A1 (en) | Encryption system and method employing permutation group-based encryption technology | |
CN110197283B (zh) | 一种用量子门电路实现qpc的方法 | |
CN112187445A (zh) | 一种卫星链路下数据传输加解密系统及方法 | |
Troja et al. | Fraud-resilient privacy-preserving crowd-sensing for dynamic spectrum access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |