CN114548418A - 一种基于秘密分享的横向联邦iv算法 - Google Patents

一种基于秘密分享的横向联邦iv算法 Download PDF

Info

Publication number
CN114548418A
CN114548418A CN202111662666.XA CN202111662666A CN114548418A CN 114548418 A CN114548418 A CN 114548418A CN 202111662666 A CN202111662666 A CN 202111662666A CN 114548418 A CN114548418 A CN 114548418A
Authority
CN
China
Prior art keywords
data
party
grouping
calculation
initiator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111662666.XA
Other languages
English (en)
Inventor
毛万葵
骆双阳
贺伟
章庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202111662666.XA priority Critical patent/CN114548418A/zh
Publication of CN114548418A publication Critical patent/CN114548418A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/085Secret sharing or secret splitting, e.g. threshold schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于秘密分享的横向联邦IV算法,分布式横向联邦IV特征筛选方法,在分布式横向IV算法中使用秘密分享进一步增加数据安全性,首先发起方节点统一分组方式并实现分组,同时将分组方式同步个其他参与方,使参与方实现分组,并在分组内对标签求和;各方对标签和结果进行秘密分片,随后将分片结果发送给各方进行隐私求和;最后汇总给发起方,发起方计算woe和iv值。本发明解决了基于全同态加密技术对标签数据进行加密保护而影响计算速度的问题;同时突破大量数据的现实场景计算局限;解决各方在业务相似,但拥有的用户重合度较低情况下,本地计算不出库,也可完成计算函数执行过程,实现数据的特征筛选。

Description

一种基于秘密分享的横向联邦IV算法
技术领域
本发明涉及隐私计算,安全多方计算,联邦机器学习等技术领域,特别涉及一种基于秘密分享的横向联邦IV算法。
背景技术
隐私计算英文全称为PrivacyCompute,是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合。与传统数据使用方式相比,隐私计算的加密机制能够增强对于数据的保护、降低数据泄露风险。因此,包括欧盟在内的部分国家和地区将其视为“数据最小化”的一种实现方式。同时,传统数据安全手段,比如数据脱敏或匿名化处理,都要以牺牲部分数据维度为代价,导致数据信息无法有效被利用,而隐私计算则提供了另一种解决思路,保证在安全的前提下尽可能使数据价值最大化。
多方安全计算英文全称为SecureMulti-PartyComputation,一般缩写为MPC,指的是在保护数据安全隐私的前提下实现多方间数据融合计算。在网络环境中,某一任务的参与者分别拥有自己一方的数据,多个参与者通过通信协议分布式的计算某个功能函数从而完成计算任务。各个参与者为计算函数提供各自的输入,同时参与者得到函数的正确输出。同时这个过程实现对用户隐私数据的保护,也就是参与者除了可以获得自己应得的输出外,不能得到其他用户的任何输入信息。安全多方计算可以实现隐私保护下的用户数据共享,对于数据的有效利用具有重要意义。尤其信息安全相关的法律规定了严格的用户数据保护要求,传统的数据直接共享的方式已经不能满足要求。
传统的安全多方计算是通过复杂的交互式密码协议实现的。参与者将其拥有的输入数据加密后按照协议传递给其他参与者,参与者通过一系列对密文的计算与转换得到原始计算任务的输出。在此过程中,由于参与者不能直接对原始的数据做计算,其计算效率以及计算功能都会受到很大限制。通过传统安全多方计算协议实现的安全多方计算要在计算功能与计算效率直接做取舍。第一种是仅支持特定的相对简单的计算函数,不支持复杂的或者灵活的计算任务。第二种是支持通用的计算任务,但是由于效率较低仅支持少量数据的计算。
联邦学习英文全称为FederatedLearning,简称FL),又名联邦机器学习。联邦学习是实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练。根据参与计算的数据在数据方之间分布的情况不同,可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于秘密分享的横向联邦IV算法,利用隐私保护的分布式横向联邦IV技术,可以很好地利用多家相同行业不同机构的数据,有效突破单个机构内部和外部数据建模互通瓶颈,实现本地数据不出库、但能联合多方数据进行准确的特征筛选,使各参与方对等并共同获益的联合建模。
本发明提供了如下的技术方案:
本发明提供一种基于秘密分享的横向联邦IV算法,分布式横向联邦IV特征筛选方法,在分布式横向IV算法中使用秘密分享(SecretSharing)进一步增加数据安全性,首先发起方节点统一分组方式并实现分组,同时将分组方式同步个其他参与方,使参与方实现分组,并在分组内对标签求和;各方对标签和结果进行秘密分片,随后将分片结果发送给各方进行隐私求和;最后汇总给发起方,发起方计算woe和iv值,实现横向联邦IV算法的计算过程,从而实现特征筛选的过程,具体包括以下步骤:
1)如图1step1所示,发起方决定分箱方式并实现分箱;
2)如图1step2所示,同时发起方将分箱字典发送给各参与方,各参与方实现分箱;
3)如图1step3所示,各参与方计算本地参与计算的总数据量;
4)如图1step4所示,发起分获取各节点参与计算的总数据量,计算出所有数据总量SUM;
5)如图1step5所示,各个参与节点利用秘密分享技术对各方数据分组之后的标签和进行分片;
6)如图1step6所示,同时各节点分发子碎片,并且收集其他参与节点发送的子碎片,然后进行子碎片求和得到各方的大分片;
7)如图1step7所示,发起方节点收集各方发送的大分片,进行最后大分片求和,即可得到参与计算的所有数据的标签值1的总数SUM1,而不会泄露各方标签值,同时可计算出标签值为0的总数SUM0=SUM-SUM1;
8)如图1step8所示,计算woe和iv值,分组后,对于第i组,WOE的计算公式为(其中y表示标签值1,n表示标签值0):
Figure BDA0003447291070000031
WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异;IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组i,其对应的IV值为:
Figure BDA0003447291070000032
特征的IV值即为所有分组iv值之和(其中n为变量分组个数):
Figure BDA0003447291070000033
充分利用所有方的特征数据和标签数据,对所有特征进行上述iv值计算,在这个过程中,没有明文数据传输,A方无法获取B方的y值,同时B方也无法获取A方每个特征的值,从而在安全隐私保护的情况下,完成了特征工程iv算法的计算。
与现有技术相比,本发明的有益效果如下:
本发明使用秘密分享进一步增加数据安全性,同时提高计算效率,解决了基于全同态加密技术对标签数据进行加密保护而影响计算速度的问题;同时突破大量数据的现实场景计算局限;解决各方在业务相似,但拥有的用户重合度较低情况下,本地计算不出库,也可完成计算函数执行过程,实现数据的特征筛选;
本发明提出的方案可以实现对于任意计算函数的安全多方计算,突破传统机器学习中只能中心化本地建模界限,进行分布式联邦特征工程,当前的IV特征筛选技术主要集中在数据纵向分布领域;本发明实现一种分布式横向联邦IV特征筛选方法,在分布式横向IV算法中使用秘密分享(SecretSharing)进一步增加数据安全性,主要解决了各方在业务相似,但拥有的用户重合度较低情况下,己方数据本地计算不出库,也可完成计算函数执行过程,近而对各方数据进行特征筛选。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的算法框架流程图;
图2是本发明的实施例框架图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-2,本发明提供一种基于秘密分享的横向联邦IV算法,分布式横向联邦IV特征筛选方法,在分布式横向IV算法中使用秘密分享(SecretSharing)进一步增加数据安全性,首先发起方节点统一分组方式并实现分组,同时将分组方式同步个其他参与方,使参与方实现分组,并在分组内对标签求和;各方对标签和结果进行秘密分片,随后将分片结果发送给各方进行隐私求和;最后汇总给发起方,发起方计算woe和iv值,实现横向联邦IV算法的计算过程,从而实现特征筛选的过程,具体包括以下步骤:
1)如图1step1所示,发起方决定分箱方式并实现分箱;
2)如图1step2所示,同时发起方将分箱字典发送给各参与方,各参与方实现分箱;
3)如图1step3所示,各参与方计算本地参与计算的总数据量;
4)如图1step4所示,发起分获取各节点参与计算的总数据量,计算出所有数据总量SUM;
5)如图1step5所示,各个参与节点利用秘密分享技术对各方数据分组之后的标签和进行分片;
6)如图1step6所示,同时各节点分发子碎片,并且收集其他参与节点发送的子碎片,然后进行子碎片求和得到各方的大分片;
7)如图1step7所示,发起方节点收集各方发送的大分片,进行最后大分片求和,即可得到参与计算的所有数据的标签值1的总数SUM1,而不会泄露各方标签值,同时可计算出标签值为0的总数SUM0=SUM-SUM1;
8)如图1step8所示,计算woe和iv值,分组后,对于第i组,WOE的计算公式为(其中y表示标签值1,n表示标签值0):
Figure BDA0003447291070000051
WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异;IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组i,其对应的IV值为:
Figure BDA0003447291070000061
特征的IV值即为所有分组iv值之和(其中n为变量分组个数):
Figure BDA0003447291070000062
充分利用所有方的特征数据和标签数据,对所有特征进行上述iv值计算,在这个过程中,没有明文数据传输,A方无法获取B方的y值,同时B方也无法获取A方每个特征的值,从而在安全隐私保护的情况下,完成了特征工程iv算法的计算。
进一步的,应用实例为三大运营商联合解决通信反欺诈场景下实现特征筛选提供可行性;各运营商业务类型几乎重合,数据维度基本一致,如果仅仅使用一家运营商的数据难免会造成样本分布比较单一,不能很好识别使用其他运营商产品的欺诈行为。如果联合电信、移动、联通三家运营商用户行为数据会很大程度上丰富用户群体,但是各运营商的通信数据是属于用户的隐私数据,在没有得到用户及监管机构的允许下是没法直接流向第三方机构实现数据共享的,同时由于运营商采集数据的特征维度很大,大维度的样本在机器学习建模时往往会造成过拟合现象,同时也会降低建模效率,此时如果采用本发明所提出的横向联邦IV特征筛选技术可以很方便地将第三方数据利用起来,同时可以解决数据特征维度过大的问题,筛选出更有意义的特征输入到模型进行训练。
应用实施例整体流程如图2所示,各个平台节点相互授权,同时上传本地资源,创建任务方获取各参与节点的数据集资源、锁定选中资源,发起横向联邦IV计算任务,各节点协同计算,实现横向联邦IV算法的计算过程,从而实现多方数据的特征筛选。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于秘密分享的横向联邦IV算法,其特征在于,分布式横向联邦IV特征筛选方法,在分布式横向IV算法中使用秘密分享(SecretSharing)进一步增加数据安全性,首先发起方节点统一分组方式并实现分组,同时将分组方式同步个其他参与方,使参与方实现分组,并在分组内对标签求和;各方对标签和结果进行秘密分片,随后将分片结果发送给各方进行隐私求和;最后汇总给发起方,发起方计算woe和iv值,实现横向联邦IV算法的计算过程,从而实现特征筛选的过程,具体包括以下步骤:
1)发起方决定分箱方式并实现分箱;
2)同时发起方将分箱字典发送给各参与方,各参与方实现分箱;
3)各参与方计算本地参与计算的总数据量;
4)发起分获取各节点参与计算的总数据量,计算出所有数据总量SUM;
5)各个参与节点利用秘密分享技术对各方数据分组之后的标签和进行分片;
6)同时各节点分发子碎片,并且收集其他参与节点发送的子碎片,然后进行子碎片求和得到各方的大分片;
7)发起方节点收集各方发送的大分片,进行最后大分片求和,即可得到参与计算的所有数据的标签值1的总数SUM1,而不会泄露各方标签值,同时可计算出标签值为0的总数SUM0=SUM-SUM1;
8)计算woe和iv值,分组后,对于第i组,WOE的计算公式为(其中y表示标签值1,n表示标签值0):
Figure FDA0003447291060000011
WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异;IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组i,其对应的IV值为:
Figure FDA0003447291060000021
特征的IV值即为所有分组iv值之和(其中n为变量分组个数):
Figure FDA0003447291060000022
充分利用所有方的特征数据和标签数据,对所有特征进行上述iv值计算,在这个过程中,没有明文数据传输,A方无法获取B方的y值,同时B方也无法获取A方每个特征的值,从而在安全隐私保护的情况下,完成了特征工程iv算法的计算。
CN202111662666.XA 2021-12-30 2021-12-30 一种基于秘密分享的横向联邦iv算法 Pending CN114548418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111662666.XA CN114548418A (zh) 2021-12-30 2021-12-30 一种基于秘密分享的横向联邦iv算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111662666.XA CN114548418A (zh) 2021-12-30 2021-12-30 一种基于秘密分享的横向联邦iv算法

Publications (1)

Publication Number Publication Date
CN114548418A true CN114548418A (zh) 2022-05-27

Family

ID=81670190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111662666.XA Pending CN114548418A (zh) 2021-12-30 2021-12-30 一种基于秘密分享的横向联邦iv算法

Country Status (1)

Country Link
CN (1) CN114548418A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168910A (zh) * 2022-09-08 2022-10-11 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法
CN115688185A (zh) * 2022-12-30 2023-02-03 成方金融科技有限公司 多方隐私求和方法、装置、电子设备和存储介质
CN117527447A (zh) * 2024-01-05 2024-02-06 厦门身份宝网络科技有限公司 一种多方安全计算的秘密共享方法和系统
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168910A (zh) * 2022-09-08 2022-10-11 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法
CN115168910B (zh) * 2022-09-08 2022-12-23 蓝象智联(杭州)科技有限公司 一种基于秘密分享的共享数据等宽分箱方法
CN115688185A (zh) * 2022-12-30 2023-02-03 成方金融科技有限公司 多方隐私求和方法、装置、电子设备和存储介质
CN115688185B (zh) * 2022-12-30 2023-04-28 成方金融科技有限公司 多方隐私求和方法、装置、电子设备和存储介质
CN117527447A (zh) * 2024-01-05 2024-02-06 厦门身份宝网络科技有限公司 一种多方安全计算的秘密共享方法和系统
CN117527447B (zh) * 2024-01-05 2024-03-22 厦门身份宝网络科技有限公司 一种多方安全计算的秘密共享方法和系统
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN117648999B (zh) * 2024-01-30 2024-04-23 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Li et al. Privacy-preserving federated learning framework based on chained secure multiparty computing
CN114548418A (zh) 一种基于秘密分享的横向联邦iv算法
Koti et al. {SWIFT}: Super-fast and robust {Privacy-Preserving} machine learning
Xu et al. Privacy-preserving federated deep learning with irregular users
Zhang et al. A survey on collaborative deep learning and privacy-preserving
CN109495465B (zh) 基于智能合约的隐私集合交集方法
EP3114602B1 (en) Method and apparatus for verifying processed data
CN112380565A (zh) 一种基于可信硬件与区块链的安全多方计算方法
CN114239032A (zh) 基于安全多方计算的多方数据交互方法及系统
CN116667996A (zh) 一种基于混合同态加密的可验证联邦学习方法
WO2023130705A1 (zh) 用户数据处理的系统、方法以及装置
CN112052466A (zh) 基于多方安全计算协议的支持向量机用户数据预测方法
CN116011014A (zh) 一种隐私计算方法和隐私计算系统
CN115865311A (zh) 一种高效恒定轮次安全多方计算协议的优化方法和系统
CN115001651A (zh) 适用于半诚实模型下基于全同态加密的多方计算方法
CN113098682B (zh) 基于区块链平台的多方安全计算方法、装置及电子设备
CN114124347A (zh) 一种基于区块链的安全多方计算方法及系统
CN109992977B (zh) 一种基于安全多方计算技术的数据异常点清洗方法
Pradeep et al. Symmetric key and polynomial-based key generation mechanism for secured data communications in 5G networks
Sharma et al. Privacy-preserving deep learning with SPDZ
Karakoç et al. Set-ot: A secure equality testing protocol based on oblivious transfer
CN106658490A (zh) 一种无线传感器网络同态加密隐私保护方法
Gaur et al. A comparative study and analysis of cryptographic algorithms: RSA, DES, AES, BLOWFISH, 3-DES, and TWOFISH
CN113949501A (zh) 一种基于半同态加密的横向分布式pca降维方法
Yuan et al. Demonstration of Blockchain-based IoT devices anonymous access network using zero-knowledge proof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination