CN114401079A - 多方联合信息价值计算方法、相关设备及存储介质 - Google Patents

多方联合信息价值计算方法、相关设备及存储介质 Download PDF

Info

Publication number
CN114401079A
CN114401079A CN202210300677.1A CN202210300677A CN114401079A CN 114401079 A CN114401079 A CN 114401079A CN 202210300677 A CN202210300677 A CN 202210300677A CN 114401079 A CN114401079 A CN 114401079A
Authority
CN
China
Prior art keywords
information
ciphertext
box
sample
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210300677.1A
Other languages
English (en)
Other versions
CN114401079B (zh
Inventor
程勇
蒋杰
刘煜宏
陈鹏
陶阳宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210300677.1A priority Critical patent/CN114401079B/zh
Publication of CN114401079A publication Critical patent/CN114401079A/zh
Application granted granted Critical
Publication of CN114401079B publication Critical patent/CN114401079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/085Secret sharing or secret splitting, e.g. threshold schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0869Generation of secret information including derivation or calculation of cryptographic keys or passwords involving random numbers or seeds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3006Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters
    • H04L9/302Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters involving the integer factorization problem, e.g. RSA or quadratic sieve [QS] schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3066Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy involving algebraic varieties, e.g. elliptic or hyper-elliptic curves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/50Oblivious transfer

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开一种多方联合信息价值计算方法、相关设备及存储介质,方法包括:第一参与方获取M个样本的标签密文信息,任一样本的标签密文信息是由第二参与方基于同态加密算法和任一样本的标签信息确定的;根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息;在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;使第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重,并根据每个分箱的证据权重生成目标密文信息;根据第二参与方发送的目标密文信息确定目标特征变量的信息价值,这样可有效避免相关信息泄露,提升信息安全性。

Description

多方联合信息价值计算方法、相关设备及存储介质
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种多方联合信息价值计算方法、相关设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的发展,联邦学习(FederatedLearning)技术被提出;所谓的联邦学习技术是指:在不需要各方数据出域的情况下,通过至少两个参与方协作完成机器学习模型的训练任务或推理任务的技术。目前,在基于联邦学习技术执行机器学习模型的训练任务时,通常会对参与建模的特征变量进行筛选以提升机器学习模型(例如逻辑回归(Logistic Regression, LR)模型)的稳定性。具体的,可以先计算参与建模的各个特征变量的信息价值(information value,IV),所谓的信息价值可用于衡量特征变量对于标签信息的预测能力或者特征变量对模型的重要性;然后,可选取IV值较大的特征变量来参与建模,从而提升机器学习模型的稳定性。
由于通过IV值筛选特征变量是一种有监督的特征选择方法,需要用到样本的标签信息Y;而一般情况下,在联邦学习的各个参与方中,通常只有一个参与方持有样本的标签信息。因此,在计算未持有标签信息的参与方中的特征变量的信息价值时,需要借助其他参与方的标签信息Y才能计算出相应IV值;例如,在联邦学习的两个参与方A和B中,若参与方A没有标签信息Y,则需要借助参与方B的标签信息Y才能完成参与方A中的每个特征变量所对应的IV值的计算。经实践表明,现有的IV值计算方法通常会导致相关信息的泄露,如参与方B的标签信息Y被泄露给参与方A,或参与方A的特征数据被泄露被参与方B等。
发明内容
本申请实施例提供了一种多方联合信息价值计算方法、相关设备及存储介质,可以有效避免相关信息泄露,提升信息安全性。
一方面,本申请实施例提供了一种多方联合信息价值计算方法,所述方法由进行联邦学习的第一参与方执行,所述第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数;所述方法包括:
获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;
在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;
将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
接收所述第二参与方发送的所述目标密文信息,并根据所述目标密文信息确定所述目标特征变量的信息价值。
另一方面,本申请实施例提供了一种多方联合信息价值计算装置,所述装置运行在进行联邦学习的第一参与方中,所述第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数;所述装置包括:
第一通信单元,用于获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第一计算单元,用于在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;
所述第一计算单元,还用于在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;
所述第一通信单元,还用于将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第一通信单元,还用于接收所述第二参与方发送的所述目标密文信息;
所述第一计算单元,还用于根据所述目标密文信息确定所述目标特征变量的信息价值。
另一方面,本申请实施例提供了一种多方联合信息价值计算方法,所述方法由进行联邦学习的第二参与方执行,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述第二参与方持有所述每个样本的标签信息,M为正整数;所述方法包括:
接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值。
另一方面,本申请实施例提供了一种多方联合信息价值计算装置,所述装置运行在进行联邦学习的第二参与方中,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述第二参与方持有所述每个样本的标签信息,M为正整数;所述装置包括:
第二通信单元,用于接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第二计算单元,还用于根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第二通信单元,还用于将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,计算机存储介质;
其中,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述提及的由第一参与方所执行的方法;或者,所述一条或多条指令适于由所述处理器加载并执行上述提及的由第二参与方所执行的方法。
再一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述提及的由第一参与方所执行的方法;或者,所述一条或多条指令适于由所述处理器加载并执行上述提及的由第二参与方所执行的方法。
再一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序;所述计算机程序被处理器执行时,实现上述提及的由第一参与方所执行的方法;或者,所述计算机程序被处理器执行时,实现上述提及的由第二参与方所执行的方法。
本申请实施例可由第二参与方基于同态加密算法和各个样本的标签信息确定各个样本的标签密文信息,从而将各个样本的标签密文信息发送给第一参与方,这样可避免将标签信息泄露给第一参与方。相应的,第一参与方在对目标特征变量对应的特征集进行分箱处理后,可根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息,并在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,从而将相应的目标秘密分享结果发送给第二参与方,使第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重,这样可避免直接将每个分箱的样本分布密文信息泄露给第二参与方,进而避免第二参与方根据每个分箱的样本分布密文反推出每个分箱的样本分布情况(如正样本的总数和负样本的总数)。然后,第二参与方可根据每个分箱的证据权重生成目标密文信息,使得第一参与方可根据此目标密文信息确定目标特征变量的信息价值,这样可有效避免将每个分箱的证据权重泄露给第一参与方。由此可见,本申请实施例通过结合同态加密和秘密分享的技术方案来计算信息价值,可有效避免相关信息(如标签信息、样本分布情况、证据权重、信息价值等)泄露,提升信息安全性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种参与方进行通信的示意图;
图1b是本申请实施例提供的一种样本对齐的示意图;
图2是本申请实施例提供的一种多方联合信息价值计算方法的流程示意图;
图3a是本申请实施例提供的一种密钥分发步骤的流程示意图;
图3b是本申请实施例提供的另一种密钥分发步骤的流程示意图;
图4a是本申请另一实施例提供的一种多方联合信息价值计算方法的流程示意图;
图4b是本申请另一实施例提供的第一参与方和第二参与方联合计算IV的示意图;
图5a是本申请再一实施例提供的一种面多方联合信息价值计算方法的流程示意图;
图5b是本申请再一实施例提供的第一参与方和第二参与方联合计算IV的示意图;
图6是本申请实施例提供的一种多方联合信息价值计算装置的结构示意图;
图7是本申请另一实施例提供的一种多方联合信息价值计算装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请实施例中,AI技术是指:利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(MachineLearning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根据途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习/深度学习通常可包括人工神经网络、强化学习、联邦学习等多种技术。
所谓的联邦学习又可称为联合学习,其可以在保证数据不出域的情况下,联合多方数据源训练机器学习模型,以及提供模型推理服务;其可在保护用户隐私和数据安全的同时,又可以充分利用多方数据源来提升机器学习模型的性能,例如通过协同多方数据来提升金融风控模型(一种用于金融风控的机器机器学习模型)的准确率。可见,联邦学习使得跨部门、跨公司、甚至跨行业的数据合作成为可能。从分类上来说,基于数据的分布特征,联邦学习可划分为如下几类:横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(Vertical Federated Learning)和联邦迁移学习(Federated Transfer Learning)。
其中,横向联邦学习又称为特征对齐的联邦学习,其通过联合至少两个参与方中的相同特征变量(或称为特征维度)所对应的不同样本的特征数据进行学习,适用于各参与方的数据集共享相同特征空间但样本空间不同的情况。纵向联邦学习又称为样本对齐的联邦学习,其通过联合至少两个参与方的同一个样本标识的不同特征变量所对应的特征数据进行学习,适用于各参与方的数据集共享相同样本空间但特征空间不同的情况。联邦迁移学习则适用于各参与方的数据集不仅在样本空间上不同,而且在特征空间上也不同的情况。在本申请实施例中,后续所提及的联邦学习均是指纵向联邦学习。
其中,本申请实施所提及的样本可以根据实际需求设定;例如样本可以是用户、植物或动物等生物对象,也可以是工厂中的各种机械设备或电子设备等设备,还可以是音频、视频或文本等多媒体数据等等。任一样本均可具有多个特征变量下的特征数据,所谓的特征数据是指可用于反映样本的特征的数据。例如,当样本为用户时,其可具有年龄、性别、学历、职位等多个特征变量下的特征数据;其中,年龄这一特征变量下的特征数据可称为年龄数据、性别这一特征变量下的特征数据可称为性别数据,以此类推。又如,当样本为植物时,其可具有年龄、类别、颜色、地理位置等多个特征变量下的特征数据。再如,当样本为机械设备时,其可具有投入使用时间、类别、生产商、检修次数等多个特征变量下的特征数据,等等。
需强调的是,联邦学习可理解成是一种特殊的机器学习,即联邦学习与传统的机器学习不同。传统的机器学习也称为集中式机器学习,可以由一方(例如一家公司)将特征数据收集到一个中心点(例如一个数据中心),并在这个中心点完成机器学习模型的训练;而联邦学习是由多个(两个或者更多个)参与方一起协作训练一个或多个机器学习模型。也就是说,联邦学习与普通机器学习的核心区别之一在于:模型的参与方从一方变为了两方甚至更多方;联邦学习可显著扩展训练模型的数据的特征维度,从而提升模型训练效果。例如,在两方纵向联邦学习里,参与方A(例如某互联网公司)和参与方B(例如某银行)合作,联合训练一个或多个基于机器学习的贷款风控模型。其中,参与方A拥有样本的部分特征数据,例如(X1,X2,…,X40)共40维特征数据;而参与方B拥有样本的另一部分特征数据,例如(X41,X42,…,X100)共60维特征数据。那么,参与方A和参与方B联合起来协同建模,就拥有了更多维度的特征数据,例如将参与方A和参与方B所持有的特征数据加起来,就总共有100维特征数据,这样便可显著扩展训练模型的数据的特征维度。
进一步的,对于有监督的机器学习模型而言,参与方A和/或参与方B还可拥有样本的标签信息Y;且一般情况下,通常可由一方拥有该标签信息。其中,样本的标签信息可以是指用于标识样本的分类结果的信息,其也可根据实际需求设定;例如,标签信息可以是用于标识样本的个体行为类别的信息,如标签信息可用于标识用户针对某一文章的行为是点击行为还是未点击行为,或标签信息可用于标识用户的支付行为是逾期支付行为还是非逾期支付行为,或标签信息可用于标识植物的生成行为是向阳生长行为还是非向阳生成行为等;又如,标签信息可以是用于标识样本的喜好类别的信息,如标签信息可用于标识用户是否喜好体育类新闻,或标签信息可用于标识用户是否喜好旅游等。应理解的是,此处只是示例性列举了标签信息的具体例子,并非穷举。进一步的,样本的标签信息具体可以是一个基于二分类所设定的数值,例如样本的标签信息的取值可以是第一数值或第二数值;此处的第一数值和第二数值可根据经验值设置,例如第一数值可以是1,第二数值可以是0,对此不作限定。
在至少两个参与方进行纵向联邦学习的过程中,可利用样本的标签信息来分别计算每个参与方中的各个特征变量的信息价值(即IV值),从而根据每个参与方中的各个特征变量的IV值来筛选出入模的特征变量,以提升机器学习模型的稳定性。其中,在计算第j个特征变量Xj的信息价值(j的取值为正整数,且小于或等于特征变量的总数),需要先确定该特征变量Xj对应的特征集,该特征集中包括M个样本中的每个样本在该特征变量Xj下的特征数据;其次,对该特征变量Xj对应的特征集进行分箱(binning)处理,得到K个分箱(K为正整数);然后,可计算每个分箱的证据权重(Weight of Evidence,WOE)。对于特征变量Xj所对应的第k个分箱(采用Hj,k表示)而言,其对应的证据权重(采用WOEj,k表示)的计算公式可参见下述公式1.1所示:
Figure DEST_PATH_IMAGE001
式1.1
在上述公式1.1中,ln表示对数运算;Bad_Rate_j_k表示第k个分箱的Bad样本(例如,正样本)比例,Bad_Rate_j_k = #Bad_j_k / Bad_Total,即Bad_Rate_j_k等于第k个分箱中的Bad样本的数量除以所述M个样本中的Bad样本的总数;Good_Rate_j_k表示第k个分箱的Good样本(例如,负样本)比例,Good_Rate_j_k = #Good_j_k / Good_Total,即Good_Rate_j_k等于第k个分箱中的Good样本的数量除以M个样本中的Good样本的总数。其中,Bad样本(例如,正样本)是指取值为第一数值(如数值1)的标签信息所对应的样本,Good样本(例如,负样本)是指取值为第二数值的标签信息所对应的样本。
需要说明的是,证据权重(即WOE)是按照每个分箱进行计算的,而信息价值(即IV值)是对一个特征变量进行计算的,因此在得到每个分箱的证据权重后,可对各个分箱的证据权重进行加权求和(或加权平均)来得到该特征变量Xj的信息价值(采用IVj进行表示)。例如,IVj的计算公式可参见下述公式1.2所示:
Figure DEST_PATH_IMAGE002
式1.2
基于上述描述,下面以特征变量Xj为年龄为例进行说明:假设年龄这个特征变量对应的特征集包括1100个样本的特征数据(即年龄数据),选取标签信息的取值为1的样本作为Bad样本,选取标签信息的取值为0的样本作为Good样本,则1100个样本中的Bad样本的总数为100,Good样本的总数为1000。对年龄这个特征变量对应的特征集进行分箱处理,可得到5个分箱(即K等于5)。具体的,在0岁到10岁之间的年龄数据被划分至第1个分箱,即第1个分箱对应的范围是:0<年龄数据≤10(简写为0-10);在10岁到18岁之间的年龄数据被划分至第2个分箱,即第2个分箱对应的范围是:10<年龄数据≤18(简写为10-18);在18岁到35岁之间的年龄数据被划分至第3个分箱,即第3个分箱对应的范围是:18<年龄数据≤35(简写为18-35);在35岁到50岁之间的年龄数据被划分至第4个分箱,即第4个分箱对应的范围是:35<年龄数据≤50(简写为35-50);大于50岁的年龄数据被划分至第5个分箱,即第1个分箱对应的范围是:年龄数据>50(简写为50以上)。那么,基于上述公式1.1的计算公式,可计算这5个分箱中的每个分箱的WOE如下述表1所示:
表1
年龄 Bad样本 Good样本 Bad比例(bad%) Good样本比例(good%) WOE=ln(bad%/good%)
0-10 50 200 0.5 0.2 ln(0.5/0.2)
10-18 20 200 0.2 0.2 ln(0.2/0.2)
18-35 5 200 0.05 0.2 ln(0.05/0.2)
35-50 15 200 0.15 0.2 ln(0.15/0.2)
50以上 10 200 0.1 0.2 ln(0.1/0.2)
总的 100 1000 1 1
基于上述表1所示的证据权重计算结果,依据前述公式1.2便可计算出年龄这一特征变量的IVj为0.5665。
进一步的,基于上述所提及的IV值的计算过程(如公式1.1和公式1.2)可以看出,计算特征变量Xj对应的信息价值IVj,需要先对特征变量Xj对应的特征集进行分箱处理,然后计算每个分箱的WOE。而计算WOE需要使用样本的标签信息以根据标签信息区分Bad样本与Good样本,以及需要知道每个分箱中的Bad样本的数量和Good样本的数量。为了保证在计算IV值时,不将任一参与方所持有的信息泄露给其他参与方,如不泄露参与方B所持有的样本标签信息给参与方A,也不泄露参与方A的特征数据给参与方B,以及不泄露参与方A所持有的Bad样本的数量和Good样本的数量给参与方B等;便需要使用基于隐私保护计算的技术方案来联合各个参与方一起协作计算出未持有标签信息的参与方(如参与方A)中的每个特征变量的IV值。
基于此,本申请实施例提出了一种面向隐私保护的多方联合信息价值计算方法(后续简称多方联合信息价值计算方法),此处提及的多方是指至少两个参与方;通过该多方联合信息价值计算方法可保护特征数据和标签信息不被泄露,进一步还可保护WOE、IV以及每个分箱的Bad样本比例和Good样本比例等信息不被泄露。在实际应用中,本申请实施例所提出的多方联合信息价值计算方法可具有多种用途,对其具体的用途不作限定。例如,可用于金融场景的联邦学习和联合统计分析(如金融风控模型的建模)中,也可用于社交场景的联邦学习和联合统计分析(如信息推送模型的建模、用户推荐模型的建模)中,还可用于多媒体播放场景的联邦学习和联合统计分析(如多媒体推荐模型的建模),等等。并且,本申请实施例所提出的多方联合信息价值计算方法还可以被集成在隐私计算平台中,从而以隐私计算平台的形式在公有云或私有云中对外提供产品或服务,提升隐私计算平台的安全性和可用性。
具体的,本申请实施例所提出的多方联合信息价值计算方法的关键点可以大致包括以下几点:
①通过结合同态加密与秘密分享,来有效避免纵向联邦IV计算流程中不必要的信息泄露,充分保护标签信息、WOE和IV等信息。
②通过结合同态加密与乘法秘密分享,来保护每个分箱内的Bad样本比例和Good样本比例、以及每个分箱内的Bad样本的数量和Good样本的数量,从而进一步保护WOE,有效避免通过WOE泄露标签信息的情况。
③通过结合同态加密和加法秘密分享,来保护IV以有效避免IV被泄露。
④通过同态加密来保护标签信息,并通过先做除法再做同态加密的方式,可避免密文空间的除法计算(即模逆计算),从而提升计算效率。
⑤通过同态加密来保护Bad样本的总数和Good样本的总数。
其中,上述所提及的同态加密可具有如下性质:对经过同态加密的数据进行处理得到一个密文,若将这一密文进行解密,则解密得到的结果与用同一方法处理未加密的原始数据所得到的结果是一样的。例如,设经过同态加密的数据为数据[A];采用某个数值B对权重密文[A]进行乘法运算处理,得到密文B[A],则对该密文B[A]进行解密所得到的结果为BA,即等于对未加密的数据A和数值B进行乘法运算处理所得到的结果。又如,采用某个数值C对权重密文[A]进行加法运算处理,得到密文[A]+C,则对该密文[A]+C进行解密所得到的结果为A+C,即等于对未加密的数据A和数值C进行加法运算处理所得到的结果。再如,采用某个数值B对权重密文[A]进行乘法运算处理,并再采用数值C对乘法运算结果进行加法运算处理,得到密文B[A]+C,则对该密文B[A]+C进行解密所得到的结果为BA+C,即等于在对未加密的数据A和数值B进行乘法运算处理后,再采用数值C进行加法运算处理所得到的结果。
其中,上述所提及的秘密分享是指在一组参与者中共享秘密的技术,其主要用于保护重要信息,防止信息被丢失、被破坏以及被篡改。需要说明的是,秘密分享也可以看成是“一次一密(即每次加密都使用不同的密钥)”的加密方案;当然,每次加密所使用的密钥也可相同,对此不作限定。进一步的,秘密分享可包括但不限于上述所提及的乘法秘密分享和加法秘密分享。乘法秘密分享可以看成是“仿射密码”,其原理可以是:把需要分享的秘密信息z分成t*z和t两个部分,t是随机数;可以看作是采用t对z进行加密,t可以理解成是一个密钥。可选的,乘法秘密分享也可以是一次一密。加法秘密分享的原理可以是:把需要分享的秘密信息z分成z1和z2两部分,以实现对z进行加密;其中,满足z = z1 + z2。
在具体实现中,本申请实施例所提出的信息价值计算方法可支持两个参与方或者两个以上的参与方,基于纵向联邦学习来联合计算IV;各个参与方(采用11进行标识)之间可通过网络(如有线网络或无线网络等)进行通信,如图1a所示。需要说明的是,本申请实施例所提及的参与方可以是任意计算机设备,如终端或服务器,对此不作限定。其中,终端可以包括但不限于:智能手机、电脑(如平板电脑、笔记本电脑、台式计算机等)、智能穿戴设备(如智能手表、智能眼镜)、智能语音交互设备、智能家电(如智能电视)、车载终端或飞行器等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等。
为便于阐述,后续均以两个参与方基于联邦学习来联合计算IV为例,对本申请实施例所提出的多方联合信息价值计算方法进行阐述;应理解的是,两个以上的参与方联合计算IV的具体方式可参考实现。其中,参与联邦学习的两个参与方可包括第一参与方(也可称为参与方A)和第二参与方(也可称为参与方B),第一参与方可持有多个样本在一个或多个特征变量下的特征数据,第二参与方可持有第一参与方所涉及的各个样本的标签信息;当然,第二参与方也可持有一些特征数据,这里不作限定。
在具体实现中,第一参与方和第二参与方可先将他们拥有的特征数据对应的样本进行对齐,以筛选出他们拥有的特征数据的样本交集,且不泄露非交集的部分。这一过程是多方安全样本对齐,也可称为隐私集合求交(Private Set Intersection,PSI);具体的,可基于Blind RSA的方案、基于不经意传输的方案、基于椭圆曲线密码学的方案、或者基于Diffie-Hellman密钥交换协议等任一种样本对齐方案来实现PSI。在第一参与方和第二参与方完成PSI后,可确定出第一参与方和第二参与方之间的样本交集(设样本交集包含M个样本,M为正整数)。以样本为用户进行举例说明,参见图1b所示:假设第一参与方持有5个用户(即U1、U2、U4、U6以及U7)在X3、X4以及X5这三个特征变量下的特征数据,第二参与方持有5个用户(即U1、U2、U3、U5以及U7)在X1、X2这两个特征变量下的特征数据,以及持有各个用户的标签信息。通过样本对齐处理,可筛选出第一参与方和第二参与方之间的样本交集为{ U1,U2,U7},即此情况下的M的取值等于3。
在确定出第一参与方和第二参与方之间的样本交集后,针对第一参与方所持有的N个(N为正整数)特征变量中的第j个特征变量(称为目标特征变量,j∈[1,N]),第一参与方所持有的M个样本中的每个样本在目标特征变量下的特征数据便可构成目标特征变量对应的特征集。基于此,第一参与方和第二参与方可通过本申请实施例所提出的多方联合信息价值计算方法,利用第一参与方所持有的目标特征变量对应的特征集,以及第二参与方所持有的M个样本中的每个样本的标签信息,计算出目标特征变量的信息价值。请参见图2所示,该多方联合信息价值计算方法可包括以下步骤S201-S208:
S201,第一参与方获取M个样本的标签密文信息,任一样本的标签密文信息是由第二参与方基于同态加密算法和任一样本的标签信息确定的。
需要说明的是,第二参与方可预先将M个样本的标签密文信息发送给第一参与方,使得第一参与方可预先接收第二参与方发送的M个样本的标签密文信息,并存储该M个样本的标签密文信息;那么此情况下,步骤S201的实施方式可以是:获取已存储的M个样本的标签密文信息。或者,第二参与方可实时将M个样本的标签密文信息发送给第一参与方;那么此情况下,步骤S201的实施方式可以是:接收第二参与方发送的M个样本的标签密文信息。
其中,第二参与方发送M个样本的标签密文信息的具体过程可以是:第二参与方先基于同态加密算法和每个样本的标签信息,确定每个样本的标签密文信息;然后,将M个样本的标签密文信息发送给第一参与方。其中,此处提及的同态加密算法可以是半同态加密算法,如Paillier算法;或者,也可以是层次全同态加密算法,如CKKS算法、BFV算法等,对此不作限定。由于任一参与方在进行同态加密时,均涉及相应的公钥(Public Key,PK)或私钥(Private Key(或Secret Key),SK)的使用;并且,在后续的解密处理时,也会涉及对方的公钥的使用。因此在执行步骤S201之前,第一参与方和第二参与方还可执行密钥分发步骤,以生成各自的公钥和私钥,并将各自的公钥告知给对方。
在一种实施方式中,密钥分发步骤的执行过程可参见图3a所示:可先由第一参与方生成模数n,模数n可用于计算私钥和加解密处理。其次,第一参与方基于预先协商好的加密算法和模数n生成用于同态加密的第一公钥和第一私钥对(PK_A,SK_A),并将第一公钥PK_A和模数n发送给第二参与方,使得第二参与方根据加密算法和模数n生成用于同态加密的第二公钥和第二私钥对(PK_B,SK_B)。然后,第二参与方可将第二公钥PK_B发送给第一参与方。另一种实施方式中,密钥分发步骤的执行过程可参见图3b所示:可先由第一参与方和第二参与方进行模数协商处理,得到模数n。其次,第一参与方可根据加密算法和模数n生成用于同态加密的第一公钥和第一私钥对(PK_A,SK_A),并将第一公钥PK_A发送给第二参与方。另外,第二参与方可根据加密算法和该模数n生成用于同态加密的第二公钥和第二私钥对(PK_B,SK_B),并将第二公钥PK_B发送给第一参与方。在此情况下,本申请实施例对第一参与方和第二参与方生成相应公钥和私钥的先后顺序不作限定。
在基于同态加密算法和每个样本的标签信息,确定每个样本的标签密文信息的具体实现中,第二参与方可先基于每个样本的标签信息,统计M个样本中的正样本(即Bad样本)的总数L和负样本(即Good样本)的总数G,L+G=M。其次,可根据正样本的总数L、负样本的总数G和第i个样本的标签信息Yi,计算第i个样本对应的第一参数pi和第二参数qi;i∈[1,M],即i=1,2,…,M。然后,可使用第二公钥PK_B,采用同态加密算法对第i个样本对应的第一参数pi进行同态加密处理,得到第一标签密文ENCB(pi);以及,采用同态加密算法对第i个样本对应的第二参数进行同态加密处理,得到第二标签密文ENCB(qi)。在得到第一标签密文ENCB(pi)和第二标签密文ENCB(qi)等加密结果后,第二参与方可将第一标签密文ENCB(pi)和第二标签密文ENCB(qi),均作为第i个样本的标签密文信息。
进一步的,正样本的总数L、负样本的总数G和第i个样本的标签信息Yi,计算第i个样本对应的第一参数pi和第二参数qi的具体实施过程可以如下:
首先,可根据正样本的总数L、负样本的总数G和第i个样本的标签信息Yi,计算第i个样本对应的第一比值和第二比值。其中,当根据第i个样本的标签信息Yi确定第i个样本为正样本时(即Yi为第一数值时),第一比值等于正样本的总数L的倒数,第二比值等于零;当根据第i个样本的标签信息Yi确定第i个样本为负样本时(即Yi为第二数值时),第一比值等于零,第二比值等于负样本的总数G的倒数。在一种可选的实施方式中,若第一数值等于1,第二数值等于0,即Yi的取值等于1或0,则第二参与方可直接将标签信息Yi和正样本的总数L之间的比值(即Yi/L)作为第一比值,将数值1和标签信息Yi之间的差值与负样本的总数G之间的比值(即(1-Yi)/G)作为第二比值。为便于阐述,后续均采用Yi/L表示第一比值,采用(1-Yi)/G表示第二比值为例进行说明。
然后,第二参与方可根据第i个样本对应的第一比值,确定第i个样本对应的第一参数pi;以及,根据第i个样本对应的第二比值,确定第i个样本对应的第二参数qi。在一种实施方式中,第二参与方可直接将第i个样本对应的第一比值,作为第i个样本对应的第一参数pi;以及,将第i个样本对应的第二比值,作为第i个样本对应的第二参数qi。此情况下,pi=Yi/L,qi=(1-Yi)/G。另一种实施方式中,第二参与方可采用数值转换因子Q对第一比值进行数值转换,得到第一数值转换结果;并根据第一数值转换结果,确定第i个样本对应的第一参数pi。以及,采用数值转换因子Q对第二比值进行数值转换,得到第二数值转换结果;并根据第二数值转换结果,确定第i个样本对应的第二参数qi
其中,在采用数值转换因子Q对第一比值进行数值转换,得到第一数值转换结果时,第二参与方可采用数值转换因子Q乘以第一比值,得到第一数值转换结果(Yi/L×Q)。并且,在根据第一数值转换结果,确定第i个样本对应的第一参数pi时,第二参与方可直接将第一数值转换结果,作为第i个样本对应的第一参数pi,此情况下的pi=Yi/L×Q;或者,第二参与方可对第一数值转换结果进行取整处理,得到第i个样本对应的第一参数pi,此情况下的pi可参见下述公式2.1所示:
Figure DEST_PATH_IMAGE003
,i = 1,2,…,M 式2.1
同理,在采用数值转换因子Q对第二比值进行数值转换,得到第二数值转换结果时,第二参与方可采用数值转换因子Q乘以第二比值,得到第二数值转换结果((1-Yi)/G×Q)。并且,在根据第二数值转换结果,确定第i个样本对应的第二参数qi时,第二参与方可直接将第二数值转换结果,作为第i个样本对应的第二参数qi,此情况下的qi=(1-Yi)/G×Q;或者,第二参与方可对第二数值转换结果进行取整处理,得到第i个样本对应的第二参数qi,此情况下的qi可参见下述公式2.2所示:
Figure DEST_PATH_IMAGE004
,i = 1,2,…,M 式2.2
在上述公式2.1和公式2.2中,INT(x)表示对x取整。由上述公式2.1和公式2.2可知,数值转换因子Q和INT可用于将浮点数转换成整数;例如,设浮点数为0.01234,且Q =1000,则通过Q和INT便可实现:0.01234×G=12.34,对其取整之后得到整数12。另外需说明的是,数值转换因子Q需满足如下条件:模数n>4Q,且n>Q2。那么,第二参与方可从满足此条件的各个取值中,随机选取一个取值作为数值转换因子Q。或者可选的,由于第二参与方知道正样本的总数L和负样本的总数G的值,因此第二参与方可简单地选取数值转换因子Q=lcm(L,G),该lcm(L,G)表示L和G的最小公倍数;即第二参与方可以计算正样本的总数和所述负样本的总数之间的最小公倍数,并将计算得到的最小公倍数确定为数值转换因子Q。或者,例如Q=L×G。在此情况下,对第一数值转换结果进行取整处理所得到的第一参数pi与第一数值转换结果相同,对第二数值转换结果进行取整处理所得到的第二参数qi与第二数值转换结果相同。并且,为了便于后续的计算处理,第二参与方还可将数值转换因子Q发送给第一参与方。
S202,第一参与方在对特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息。
其中,第一参与方可使用等频分箱,或者等距分箱,或者其他无监督的分箱方法,对特征集进行分箱处理,以使得特征集被划分至K个分箱中,K为正整数。并且,任一分箱的样本分布密文信息与计算任一分箱的证据权重所需的参数相关;进一步的,基于前述公式1.1可知,计算任一分箱的证据权重所需的参数可包括正样本比例和负样本比例。
由于每个样本的标签密文信息包括第一标签密文和第二标签密文,因此步骤S202的实施方式可以是:对K个分箱中的第k个分箱中的各个特征数据对应的样本的标签密文信息中第一标签密文进行加法运算,得到第k个分箱的第一分布密文,第一分布密文与计算第k个分箱的证据权重所需的正样本比例相关;以及,对第k个分箱中的各个特征数据对应的样本的标签密文信息中的第二标签密文进行加法运算,得到第k个分箱的第二分布密文,第二分布密文与计算第k个分箱的证据权重所需的负样本比例相关。然后,可将第k个分箱的第一分布密文和相应的第二分布密文,作为第k个分箱的样本分布密文信息;其中,k∈[1,K]。
采用ENCB(aj,k)表示第k个分箱的第一分布密文,采用ENCB(bj,k)表示第k个分箱的第二分布密文,则第一分布密文和第二分布密文的计算公式可分布参见下述公式2.3和公式2.4所示:
Figure DEST_PATH_IMAGE005
, k=1,2,…,K 式2.3
Figure DEST_PATH_IMAGE006
, k=1,2,…,K 式2.4
在上述公式2.3和公式2.4中,Hj,k表示第k个分箱中的各个特征数据对应的样本集合,i∈Hj,k表示第k个分箱中的各个特征数据对应的样本集合中的第i个样本。且需要说明的是,公式2.3和公式2.4所涉及的加法运算是指同态加密算法的密文空间中的“加法”(即同态密文加法);随着同态加密算法的不同,密文空间中的“加法”的运算原理可不同。例如,当同态加密算法为Paillier算法时,密文空间中的“加法”实际对应密文的乘法;当同态加密算法为CKKS算法时,密文空间的“加法”对应密文的加法。
这里需要说明的是,同态加密算法可能具有不确定性(即加密过程会添加随机 数),为了叙述简洁,在密文空间里的公式里复用了相等符号“=”,其表达的意义是指所对应 的密文运算在解密之后的明文空间的等式。例如,密文空间里的公式“
Figure DEST_PATH_IMAGE007
”表达的含 义是“
Figure DEST_PATH_IMAGE008
”,即“z=x+y”。这里
Figure DEST_PATH_IMAGE009
表示对x的同态加密。
S203,第一参与方在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果。
其中,K个分箱中的各个分箱的乘法秘密分享结果构成目标秘密分享结果。任一分箱的乘法秘密分享结果是在同态加密算法的密文空间中,对任一分箱的样本分布密文进行乘法秘密分享处理所得到的。其中,针对第k个分箱,k∈[1,K](即k=1,2,…,K)而言,第k个分箱的乘法秘密分享结果的具体生成过程可参见下述步骤s11-s12:
s11,第一参与方可生成用于乘法秘密分享处理的目标随机数。
在一种实施方式中,考虑到第k个分箱的样本分布密文信息可包括第一分布密文ENCB(aj,k)和第二分布密文ENCB(bj,k)这两个密文,因此第一参与方在欲进行乘法秘密分享处理时,可生成第一随机数rj,k和第二随机数sj,k等两个随机数,以分别对第一分布密文ENCB(aj,k)和第二分布密文ENCB(bj,k)进行乘法秘密分享处理,从而用于分别保护第k个分箱中的Bad样本(正样本)的数量和Good样本(负样本)的数量。也就是说,此情况下的目标随机数可包括第一随机数rj,k和第二随机数sj,k
其中,rj,k和sj,k均可以是随机生成的正整数,即rj,k和sj,k均大于1。可选的,为了进一步提升安全性,避免第二参与方猜测出rj,k和sj,k,还可以设置rj,k和sj,k均不是素数,且rj,k和sj,k不相等。进一步的,为了保证后续的“明文乘以密文(即乘法运算)”不出现溢出问题,还可要求rj,kQ<n,且sj,kQ<n。为了增强安全性,还可要求rj,k和sj,k尽量大,例如要求rj,k和sj,k与Q的值接近。更进一步的,为了再进一步增强安全性,还可要求rj,k和sj,k不为互素(即rj,k和sj,k的最大公约数不是1);此情况下,rj,k和sj,k的生成方式可以例如是:第一参与方先随机生成正整数uj,k、vj,k和wj,k,这里要求uj,k、vj,k和wj,k都大于1,且uj,k和vj,k不同;然后选择rj,k=uj,k wj,k,sj,k=vj,k wj,k,从而保证rj,k和sj,k的最大公约数不是1。
另一种实施方式中,若不考虑第k个分箱中的Bad样本(正样本)的数量和Good样本(负样本)的隐私性和安全性,第一参与方在欲进行乘法秘密分享处理时,也可生成一个随机正整数fj,k作为目标随机数;即此情况下,是采用同一个随机数fj,k对第一分布密文ENCB(aj,k)和第二分布密文ENCB(bj,k)进行乘法秘密分享处理的。应理解的是,此情况下的fj,k的取值要求和前述提及的rj,k和sj,k的取值要求类似,在此不再赘述。
s12,在同态加密算法的密文空间中,采用目标随机数对第k个分箱的样本分布密文信息进行乘法秘密分享处理,得到第k个分箱的乘法秘密分享结果。
在一种实施方式中,若目标随机数包括第一随机数rj,k和第二随机数sj,k,则步骤s12的实施过程可包括:在同态加密算法的密文空间中,采用第一随机数rj,k对第k个分箱的第一分布密文ENCB(aj,k)进行乘法运算,得到第一乘法运算结果rj,kENCB(aj,k);以及,在同态加密算法的密文空间中,采用第二随机数sj,k对第k个分箱的第二分布密文ENCB(bj,k)进行乘法运算,得到第二乘法运算结果sj,kENCB(bj,k)。然后,可采用第一乘法运算结果rj,kENCB(aj,k)和第二乘法运算结果sj,kENCB(bj,k),构建第k个分箱的乘法秘密分享结果;即第k个分箱的乘法秘密分享结果可包括:rj,kENCB(aj,k)和sj,kENCB(bj,k)。
另一种实施方式中,若目标随机数包括一个随机正整数fj,k,则步骤s12的实施过程可包括:在同态加密算法的密文空间中,采用随机正整数fj,k分别对第k个分箱的第一分布密文ENCB(aj,k)和第二分布密文ENCB(bj,k)进行乘法运算,得到两个乘法运算结果(fj, kENCB(aj,k)和fj,kENCB(bj,k))。然后,可采用这两个乘法运算结果,构建第k个分箱的乘法秘密分享结果;即第k个分箱的乘法秘密分享结果可包括:fj,kENCB(aj,k)和fj,kENCB(bj,k)。
需要说明的是,上述步骤s12的各实施方式所提及的乘法运算是指同态加密算法的密文空间中的“乘法”(明文乘以密文);随着同态加密算法的不同,密文空间中的“明文乘以密文”的运算原理可不同。例如,当同态加密算法为Paillier算法时,密文空间中的“明文乘以密文”实际对应密文的求幂次,即以密文为底数对明文求幂次;当同态加密算法为CKKS算法时,密文空间的“明文乘以密文”对应密文的乘法。
S204,第一参与方将目标秘密分享结果发送给第二参与方,使第二参与方在接收到第一参与方发送的目标秘密分享结果后,使用第二私钥SK_B对目标秘密分享结果进行解密处理,得到相应的解密结果,并执行步骤S205-S207。
进一步的,在目标随机数可包括第一随机数rj,k和第二随机数sj,k的情况下,第一参与方还可对第一随机数rj,k和第二随机数sj,k之间的比值进行对数运算,得到第k个分箱对应的随机数对数运算结果(ln(rj,k/sj,k));并将随机数对数运算结果(ln(rj,k/sj,k))发送给第二参与方,使第二参与方根据随机数对数运算结果(ln(rj,k/sj,k))以及目标秘密分享结果对应的解密结果,计算第k个分箱的证据权重WOEj,k
S205,第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重。
在一种具体实现中,由前述可知,在目标随机数包括第一随机数rj,k和第二随机数sj,k的情况下,第二参与方还可接收第一参与方发送的第k个分箱对应的随机数对数运算结果(ln(rj,k/sj,k));那么在此情况下,步骤S205的具体实施方式可以是:根据随机数对数运算结果以及目标秘密分享结果对应的解密结果,计算第k个分箱的证据权重。
由前述可知,此情况下的目标秘密分享结果包括每个分箱的乘法秘密分享结果,且第k个分箱的乘法秘密分享结果包括第一乘法运算结果rj,kENCB(aj,k)和第二乘法运算结果sj,kENCB(bj,k);那么相应的,目标秘密分享结果对应的解密结果包括:第k个分箱的第一乘法运算结果对应的第一解密结果rj,kaj,k,以及第k个分箱的第二乘法运算结果对应的第二解密结果sj,kbj,k。基于此,根据随机数对数运算结果以及目标秘密分享结果对应的解密结果,计算第k个分箱的证据权重的具体实施方式可以是:
若第一解密结果rj,kaj,k和第二解密结果sj,kbj,k为无效数值(数值0),或者第一解密结果rj,kaj,k为无效数值且第二解密结果sj,kbj,k不为无效数值,则将无效数值确定为第k个分箱的证据权重WOEj,k,即WOEj,k=0。
若第一解密结果rj,kaj,k不为无效数值且第二解密结果sj,kbj,k为无效数值,则将预设常数值T确定为第k个分箱的证据权重WOEj,k,即WOEj,k=T。
若第一解密结果rj,kaj,k和第二解密结果sj,kbj,k均不为无效数值,则对第一解密结果rj,kaj,k和第二解密结果sj,kbj,k之间的比值进行对数运算,得到解密结果对数运算结果(ln(rj,kaj,k/sj,kbj,k))。根据对数运算法则,解密结果对数运算结果可满足如下公式2.5:
Figure DEST_PATH_IMAGE010
式2.5
基于前述公式2.1-2.4和同态加密的性质可知,aj,k和bj,k满足如下公式2.6-2.7:
Figure DEST_PATH_IMAGE011
式2.6
Figure DEST_PATH_IMAGE012
式2.7
其中,当Q为L和G的公倍数时,上述公式2.6和公式2.7中的约等号(≈)可替换成等 号;并且,在忽略误差的情况下,上述公式2.6和公式2.7中的约等号(≈)也替换成等号。基 于此,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
。从而,可得到如下公式2.8:
Figure DEST_PATH_IMAGE015
式2.8
由于Yi的取值等于1或0,那么
Figure DEST_PATH_IMAGE016
可等于第k个分箱中的正样本的数量,
Figure DEST_PATH_IMAGE017
便等于第k个分箱对应的正样本比例;同理,
Figure DEST_PATH_IMAGE018
可等于第k个分箱中的负样本的数 量,
Figure DEST_PATH_IMAGE019
便等于第k个分箱对应的负样本比例。那么基于前述公式1.1所提及的证据 权重的定义,便可得到如下公式2.9所示的等式关系:
Figure DEST_PATH_IMAGE020
式2.9
综上可得:
Figure DEST_PATH_IMAGE021
从而可得:
Figure DEST_PATH_IMAGE022
基于此,第二参与方在得到解密结果对数运算结果(ln(rj,kaj,k/sj,kbj,k))之后,可计算解密结果对数运算结果和随机数对数运算结果之间的差值,得到第k个分箱的证据权重WOEj,k
进一步可选的,为了避免出现
Figure DEST_PATH_IMAGE023
或者
Figure DEST_PATH_IMAGE024
为无效数值(即0)的情况,第一参与方在 通过前述步骤S202得到第k个分箱的第一分布密文ENCB(aj,k)和第二分布密文ENCB(bj,k)时, 可添加一个较小的正的误差项d(例如取d为1,或者取d为其他正整数);即此情况下,第一参 与方可通过下述公式3.0和公式3.1来得到第一分布密文ENCB(aj,k)和第二分布密文ENCB (bj,k):
Figure DEST_PATH_IMAGE025
, k=1,2,…,K 式3.0
Figure DEST_PATH_IMAGE026
, k=1,2,…,K 式3.1
另一种具体实现中,在目标随机数包括随机正整数fj,k的情况下,步骤S205的具体实施方式可以是:直接根据目标秘密分享结果对应的解密结果,计算第k个分箱的证据权重。由前述可知,此情况下的目标秘密分享结果包括每个分箱的乘法秘密分享结果,且第k个分箱的乘法秘密分享结果包括两个乘法运算结果(fj,kENCB(aj,k)和fj,kENCB(bj,k));那么相应的,目标秘密分享结果对应的解密结果包括:第k个分箱的乘法运算结果(fj,kENCB(aj,k)对应的解密结果fj,kaj,k,以及第k个分箱的乘法运算结果fj,kENCB(bj,k))对应的解密结果fj,kbj,k。基于此,第二参与方可在fj,kaj,k和fj,kbj,k均不为无效数值时,对fj,kaj,k和fj, kbj,k之间的比值进行对数运算,得到相应的对数运算结果(ln(aj,k/ bj,k)),该相应的对数运算结果便可作为第k个分箱的证据权重WOEj,k
S206,第二参与方根据每个分箱的证据权重生成目标密文信息。
在一种具体实现中,第一参与方在通过前述步骤S202得到每个分箱的样本分布密文信息后,可结合加法秘密分享和每个分箱的样本分布密文信息,生成每个分箱的权重系数参考信息(用于确定对分箱的证据权重进行加权的权重加权值的信息),从而将每个分箱的权重系数参考信息发送给第二参与方。在此情况下,第二参与方在执行步骤S206时,便可根据每个分箱的权重系数参考信息以及每个分箱的证据权重,生成目标密文信息,使得目标密文信息对应的解密结果与目标特征变量的信息价值相关,从而使得第一参与方在执行后续步骤S208时,便可根据该目标密文信息对应的解密结果,确定目标特征变量的信息价值。具体的,此情况下的步骤S206和步骤S208的具体实施方式可进一步参见后续图4a所示的方法实施例的相关描述。
另一种具体实现中,第一参与方在通过前述步骤S202得到每个分箱的样本分布密文信息后,也可不生成每个分箱的权重系数参考信息。在此情况下,第二参与方在执行步骤S206时,可对每个分箱的证据权重进行同态加密处理,得到每个分箱的权重密文,并采用每个分箱的权重密文构建目标密文信息,从而使得第一参与方在执行后续步骤S208时,可根据每个分箱的权重密文和相应的样本分布密文信息,计算目标特征变量的信息价值密文信息,并基于该信息价值密文和第二参与方进行通信交互,以最终得到目标特征变量的信息价值。具体的,此情况下的步骤S206和步骤S208的具体实施方式可进一步参见后续图5a所示的方法实施例的相关描述。
S207,第二参与方将目标密文信息发送给第一参与方,使第一参与方在接收到第二参与方发送的目标密文信息后,执行步骤S208。
S208,第一参与方根据目标密文信息确定目标特征变量的信息价值。
本申请实施例可由第二参与方基于同态加密算法和各个样本的标签信息确定各个样本的标签密文信息,从而将各个样本的标签密文信息发送给第一参与方,这样可避免将标签信息泄露给第一参与方。相应的,第一参与方在对目标特征变量对应的特征集进行分箱处理后,可根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息,并在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,从而将相应的目标秘密分享结果发送给第二参与方,使第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重,这样可避免直接将每个分箱的样本分布密文信息泄露给第二参与方,进而避免第二参与方根据每个分箱的样本分布密文反推出每个分箱的样本分布情况(如正样本的总数和负样本的总数)。然后,第二参与方可根据每个分箱的证据权重生成目标密文信息,使得第一参与方可根据此目标密文信息确定目标特征变量的信息价值,这样可有效避免将每个分箱的证据权重泄露给第一参与方。由此可见,本申请实施例通过结合同态加密和秘密分享的技术方案来计算信息价值,可有效避免相关信息(如标签信息、样本分布情况、证据权重、信息价值等)泄露,提升信息安全性。
请参见图4a,是本申请实施例提出的另一种多方联合信息价值计算方法的流程示意图,该方法可以由第一参与方和第二参与方共同执行。在本申请实施例中,主要以基于加法同态加密和秘密分享结合的方案为例进行说明;也就是说,本申请实施例中所提及的同态加密算法为加法同态加密算法为例进行说明。参见图4a所示,该方法可包括以下步骤S401-S413:
S401,第二参与方基于同态加密算法和每个样本的标签信息,确定每个样本的标签密文信息。在本申请实施中,以基于同态加密算法、任一样本的标签信息以及数值转换因子Q确定任一样本的标签密文信息为例进行说明;第i个样本的标签密文信息包括第一标签密文ENCB(pi)和第二标签密文ENCB(qi)。其中:
Figure DEST_PATH_IMAGE027
S402,第二参与方将M个样本的标签密文信息发送给第一参与方。
S403,第一参与方在对特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息。其中,第k个分箱的样本分布密文信息包括:第k个分箱的第一分布密文ENCB(aj,k)和第k个分箱的第二分布密文ENCB(bj,k)。
S404,第一参与方在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果。其中,目标秘密分享结果包括K个分箱中的各个分箱的乘法秘密分享结果;并且,第k个分箱的乘法秘密分享结果包括:第一乘法运算结果rj,kENCB(aj,k),以及和第二乘法运算结果sj,kENCB(bj,k)。
S405,第一参与方将目标秘密分享结果发送给第二参与方,以及将每个分箱对应的随机数对数运算结果发送给第二参与方。其中,目标秘密分享结果和个分箱对应的随机数对数运算结果可以一起发送的,也可以是分开发送的,对此不作限定。
S406,第二参与方根据每个分箱对应的随机数对数运算结果以及目标秘密分享结果对应的解密结果,计算每个分箱的证据权重;其中,第k个分箱的证据权重是根据第k个分箱对应的随机数对数运算结果,以及目标秘密分享结果中的第k个分箱的乘法秘密分享结果计算得到的。
S407,第一参与方分别生成每个分箱对应的第三随机数。
其中,各个分箱对应的第三随机数可用于保护目标特征变量的信息价值(IV);且各个分箱对应的第三随机数可相同或不同,对此不作限定。在具体实现中,针对第k个分箱,第一参与方可随机生成一个整数作为第k个分箱对应的第三随机数tj,k。进一步可选的,为了防止计算溢出,可要求|tj,k| < n/4,即要求tj,k的绝对值小于n/4。
S408,第一参与方采用每个分箱对应的第三随机数,分别对每个分箱的样本分布密文信息进行加法秘密分享处理,得到每个分箱的加法秘密分享结果。
在具体实现中,针对第k个分箱,第一参与方可对第k个分箱的样本分布密文信息中的第一分布密文ENCB(aj,k)和相应的第二分布密文ENCB(qi)进行差值运算,得到差值运算结果(即ENCB(aj,k)-ENCB(qi))。然后,第一参与方可将差值运算结果与第k个分箱对应的第三随机数tj,k之间的差值,作为第k个分箱的第一秘密分片ENCB(cj,k);将第k个分箱对应的第三随机数tj,k,作为第k个分箱的第二秘密分片。从而采用第k个分箱的第一秘密分片ENCB(cj,k)和第k个分箱的第二秘密分片tj,k,构建第k个分箱的加法秘密分享结果;即第k个分箱的加法秘密分享结果包括:第一秘密分片ENCB(cj,k)和第二秘密分片tj,k。其中,第一秘密分片ENCB(cj,k)可采用下述公式3.2表示:
Figure DEST_PATH_IMAGE028
式3.2
需要说明的是,公式3.2所涉及的减法运算是指同态加密算法的密文空间中的“减法”,其与密文空间中的“加法”类似。
S409,第一参与方根据每个分箱的加法秘密分享结果,生成每个分箱的权重系数参考信息。
在具体实现中,针对第k个分箱,第一参与方可对第k个分箱的加法秘密分享结果中的第二秘密分片tj,k进行同态加密处理,得到第二秘密分片的密文信息ENCA(tj,k)。然后,采用第k个分箱的加法秘密分享结果中的第一秘密分片ENCB(cj,k),以及第二秘密分片的密文信息ENCA(tj,k),构建第k个分箱的权重系数参考信息;即第k个分箱的权重系数参考信息包括:第一秘密分片ENCB(cj,k)和第二秘密分片tj,k的密文信息ENCA(tj,k)。
S410,第一参与方将每个分箱的权重系数参考信息发送给第二参与方。
需要说明的是,本申请实施例对上述步骤S404-S405以及步骤S407-S410的执行顺序不作限定。例如,第一参与方可先执行步骤S404-S405,再执行步骤S407-S410;或者,第一参与方也可先执行步骤S407-S410,再执行步骤S404-S405;又或者,第一参与方可同时执行步骤S404-S405和步骤S407-S410,等等。
可选的,针对第k个分箱而言,为了节省第一参与方和第二参与方之间的通信资源,第一参与方可通过一条消息指令,同时将第k个分箱的权重系数参考信息、第k个分箱的乘法秘密分享结果(rj,kENCB(aj,k)和sj,kENCB(bj,k)),以及第k个分箱对应的随机数对数运算结果(ln(rj,k/sj,k))发送给第二参与方,如图4b所示。
S411,第二参与方根据每个分箱的权重系数参考信息以及每个分箱的证据权重,生成目标密文信息,使得目标密文信息对应的解密结果与目标特征变量的信息价值相关。
由前述可知,每个分箱的权重系数参考信息包括:第一秘密分片和第二秘密分片的密文信息。基于此,步骤S411的具体实现方式可以是:首先,可对每个分箱的权重系数参考信息中的第一秘密分片进行解密处理,得到每个分箱的第一明文分片cj,k;基于同态加密的性质,可得cj,k=aj,k-bj,k-tj,k。其次,可对每个分箱的第一明文分片cj,k和相应的第二秘密分片的密文信息进行求和处理,得到每个分箱的权重加权值;如针对第k个分箱分箱,可对第k个分箱的第一明文分片cj,k和相应的第二秘密分片的密文信息ENCA(tj,k)进行求和处理,得到第k个分箱的权重加权值为cj,k+ ENCA(tj,k)。然后,可采用每个分箱的权重加权值对每个分箱的证据权重进行加权求和,得到目标密文信息;采用ENCA(QIVj)表示目标密文信息,则目标密文信息可通过下述公式3.3得到:
Figure DEST_PATH_IMAGE029
式3.3
S412,第二参与方将目标密文信息发送给第一参与方。
S413,第一参与方对目标密文信息进行解密处理,得到目标密文信息对应的解密结果;并根据目标密文信息对应的解密结果,确定目标特征变量的信息价值。
在具体实现中,第一参与方可使用第一私钥SK_A对目标密文信息进行解密处理,得到目标密文信息对应的解密结果(采用QIVj表示)。在同态加密与秘密分享方案下,对应的明文空间中的QIVj可满足如下公式3.4:
Figure DEST_PATH_IMAGE030
式3.4
基于前述公式2.6-2.7的相关描述可知,aj,k-bj,k的结果可参见下述公式3.5所示:
Figure DEST_PATH_IMAGE031
式3.5
由于
Figure 133679DEST_PATH_IMAGE017
等于第k个分箱对应的正样本比例,
Figure 316398DEST_PATH_IMAGE019
便等于第k个分箱对 应的负样本比例,因此结合前述公式1.2可知,QIVj=Q×IVj。也就是说,目标密文信息对应的 解密结果QIVj,与采用数值转换因子Q乘以目标特征变量的信息价值的结果相同;那么,第 一参与方在根据目标密文信息对应的解密结果,确定目标特征变量的信息价值时,便可采 用目标密文信息对应的解密结果除以数值转换因子,得到目标特征变量的信息价值IVj,即
Figure DEST_PATH_IMAGE032
需要说明的是,本申请实施例主要是以
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
为例进行说明的。在其 他实施例中,若在确定任一样本的标签密文信息时,未使用数值转换因子Q,如pi=Yi/L,qi= (1-Yi)/G;则此情况下,第一参与方对目标密文信息进行解密处理所得到的解密结果便可 等于IVj,因此第一参与方在根据目标密文信息对应的解密结果,确定目标特征变量的信息 价值时,便可直接将目标密文信息对应的解密结果,作为目标特征变量的信息价值IVj
本申请实施例可具有如下有益效果:①第一参与方拿不到WOE的明文,从而避免了通过WOE泄露第二参与方的标签信息;②第一参与方拿不到Bad样本的总数L,以及拿不到Good样本的总数G;③第二参与方拿不到每个分箱内的Bad样本的数量,以及拿不到每个分箱内的Good样本的数量;④第二参与方拿不到目标特征变量的IVj。⑤没有密文空间的除法计算(即模逆运算),可有效提升计算效率。也就是说,本申请实施例可有效避免了不必要的隐私信息泄漏,从而有效保护特征数据、标签信息、WOE信息、IV信息,以及每个分箱中的Bad样本的数量和Good样本的数量等隐私信息,提升信息安全性,可适合多种场景的应用(如金融场景的应用)。
请参见图5a,是本申请实施例提出的另一种多方联合信息价值计算方法的流程示意图,该方法可以由第一参与方和第二参与方共同执行。在本申请实施例中,主要以基于层次同态加密和秘密分享结合的方案为例进行说明;也就是说,本申请实施例中所提及的同态加密算法为层次同态加密算法(例如,基于CKKS算法或者基于BFV算法)为例进行说明。参见图5a所示,该方法可包括以下步骤S501-S514:
S501,第二参与方基于同态加密算法和每个样本的标签信息,确定每个样本的标签密文信息。在本申请实施中,以基于同态加密算法、任一样本的标签信息以及数值转换因子Q确定任一样本的标签密文信息为例进行说明;第i个样本的标签密文信息包括第一标签密文ENCB(pi)和第二标签密文ENCB(qi)。其中:
Figure DEST_PATH_IMAGE035
S502,第二参与方将M个样本的标签密文信息发送给第一参与方。
S503,第一参与方在对特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息。其中,第k个分箱的样本分布密文信息包括:第k个分箱的第一分布密文ENCB(aj,k)和第k个分箱的第二分布密文ENCB(bj,k)。
S504,第一参与方在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果。其中,目标秘密分享结果包括K个分箱中的各个分箱的乘法秘密分享结果;并且,第k个分箱的乘法秘密分享结果包括:第一乘法运算结果rj,kENCB(aj,k),以及和第二乘法运算结果sj,kENCB(bj,k)。
S505,第一参与方将目标秘密分享结果发送给第二参与方,以及将每个分箱对应的随机数对数运算结果发送给第二参与方。
其中,目标秘密分享结果和个分箱对应的随机数对数运算结果可以一起发送的,也可以是分开发送的,对此不作限定。可选的,针对第k个分箱而言,为了节省第一参与方和第二参与方之间的通信资源,第一参与方可通过一条消息指令,同时将目标秘密分享结果中的第k个分箱的乘法秘密分享结果(rj,kENCB(aj,k)和sj,kENCB(bj,k)),以及第k个分箱对应的随机数对数运算结果(ln(rj,k/sj,k))发送给第二参与方,如图5b所示。
S506,第二参与方根据每个分箱对应的随机数对数运算结果以及目标秘密分享结果对应的解密结果,计算每个分箱的证据权重;其中,第k个分箱的证据权重是根据第k个分箱对应的随机数对数运算结果,以及目标秘密分享结果中的第k个分箱的乘法秘密分享结果计算得到的。
S507,第二参与方对每个分箱的证据权重进行同态加密处理,得到每个分箱的权重密文;并采用每个分箱的权重密文,构建目标密文信息。
在具体实现中,第二参与方可使用第二公钥PK_B对每个分箱的证据权重进行同态加密处理,得到每个分箱的权重密文。目标密文信息包括每个分箱的权重密文,其中第k个分箱的权重密文可表示为ENCB(WOEj,k)。
S508,第二参与方将目标密文信息发送给第一参与方。
S509,第一参与方根据每个分箱的权重密文和每个分箱的样本分布密文信息,计算目标特征变量的信息价值密文信息。
在具体实现中,第一参与方可将每个分箱的样本分布密文信息中的第一分布密文和第二分布密文之间的差值,确定每个分箱的权重系数密文信息;其中,第k个分箱的权重系数密文信息为ENCB(aj,k)-ENCB(bj,k)。然后,采用每个分箱的权重系数密文信息,对每个分箱的权重密文进行加权求和,得到目标特征变量的信息价值密文信息,该信息价值密文信息可参见下述公式3.6所示:
Figure DEST_PATH_IMAGE036
式3.6
S510,第一参与方生成噪声参数,并采用噪声参数对信息价值密文信息进行加噪处理,得到加噪后的信息价值密文信息。
其中,第一参与方可随机生成一个整数作为噪声参数tj,用于保护IV值。可选的,为了防止计算溢出,可要求|tj| < n/4,即要求tj的绝对值小于n/4。第一参与方可以对噪声参数和信息价值密文信息进行求和处理,并将求和处理的结果作为加噪后的信息价值密文信息;采用ENCA(tQIVj)表示加噪后的信息价值密文信息,则ENCA(tQIVj)可采用下述公式3.7进行表示:
Figure DEST_PATH_IMAGE037
式3.7
需要说明的是,公式3.7要求同时满足加法同态和乘法同态,例如,层次同态加密算法CKKS、BFV算法或者全同态加密算法。
S511,第一参与方将加噪后的信息价值密文信息发送给第二参与方,使第二参与方在接收到第一参与方发送的加噪后的信息价值密文信息后,执行步骤S512。
S512,第二参与方对加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息。
在具体实现中,第二参与方可使用第二私钥SK_B对加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息(采用tQIVj进行表示);基于同态加密的性质,可得到:tQIVj=tj+QIVj。可见,因为有噪声参数的保护(第二参与方不知道噪声参数),所以第二参与方拿不到QIVj,从而无法计算出IVj,这样便可实现IVj的保护。
S513,第二参与方向第一参与方发送信息价值解密信息,使第一参与方在接收到第二参与方发送的信息价值解密信息后,执行步骤S514。
S514,第一参与方可根据噪声参数对信息价值解密信息进行去噪处理,以得到目标特征变量的信息价值。
在具体实现中,第一参与方可计算信息价值解密信息和噪声参数之间的差值,以 实现去噪处理;即采用tj+QIVj减去tj,得到信息价值解密信息和噪声参数之间的差值为 QIVj。然后,可根据信息价值解密信息和噪声参数之间的差值,确定目标特征变量的信息价 值。由前述可知,QIVj=Q×IVj,因此第一参与方在根据信息价值解密信息和噪声参数之间的 差值,确定目标特征变量的信息价值时,便可采用信息价值解密信息和噪声参数之间的差 值除以数值转换因子,得到目标特征变量的信息价值IVj,即
Figure 955190DEST_PATH_IMAGE032
需要说明的是,本申请实施例主要是以
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
为例进行说明的。在其 他实施例中,若在确定任一样本的标签密文信息时,未使用数值转换因子Q,如pi=Yi/L,qi= (1-Yi)/G;则此情况下,信息价值解密信息和噪声参数之间的差值便可等于IVj,因此第一参 与方在根据信息价值解密信息和噪声参数之间的差值,确定目标特征变量的信息价值时, 便可直接将信息价值解密信息和噪声参数之间的差值,作为目标特征变量的信息价值IVj
本申请实施例除了可具有上述图4a所示的方法实施例的有益效果以外,通过对比上述图4a和图4b所示的流程,可知本申请实施例只需使用第二参与方的密钥,这样有助于拥有标签信息的第二参与方更加信任整个计算流程(即充分保护标签信息)。应理解的是,对于多方纵向联邦场景,因为没有标签信息的各个参与方都可以按照上述步骤借助第二参与方的帮助来完成IV值的计算,所以本申请实施例所提出的方法实施例可直接应用到多方纵向联邦学习的场景里。
基于上述多方联合信息价值计算方法的相关实施例的描述,本申请实施例还提出了一种多方联合信息价值计算装置;具体的,该装置可以是运行于参与联邦学习的第一参与方中的一个计算机程序(包括程序代码),且该装置可以执行图2、图4a或图5a所示的方法流程中的部分方法步骤。其中,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数。请参见图6,所述装置可以运行如下单元:
第一通信单元601,用于获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第一计算单元602,用于在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;
所述第一计算单元602,还用于在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;
所述第一通信单元601,还用于将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第一通信单元601,还用于接收所述第二参与方发送的所述目标密文信息;
所述第一计算单元602,还用于根据所述目标密文信息确定所述目标特征变量的信息价值。
在一种实施方式中,所述特征集被划分至K个分箱中,K为正整数;计算任一分箱的证据权重所需的参数可包括正样本比例和负样本比例,每个样本的标签密文信息包括第一标签密文和第二标签密文;相应的,第一计算单元602在用于根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息时,可具体用于:
对所述K个分箱中的第k个分箱中的各个特征数据对应的样本的标签密文信息中的第一标签密文进行加法运算,得到所述第k个分箱的第一分布密文,所述第一分布密文与计算所述第k个分箱的证据权重所需的正样本比例相关;其中,k∈[1,K];
对所述第k个分箱中的各个特征数据对应的样本的标签密文信息中的第二标签密文进行加法运算,得到所述第k个分箱的第二分布密文,所述第二分布密文与计算所述第k个分箱的证据权重所需的负样本比例相关;
将所述第k个分箱的第一分布密文和相应的第二分布密文,作为所述第k个分箱的样本分布密文信息。
另一种实施方式中,所述特征集被划分至K个分箱中,K为正整数;相应的,第一计算单元602在用于所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果时,可具体用于:
生成用于乘法秘密分享处理的目标随机数;
在所述同态加密算法的密文空间中,采用所述目标随机数对第k个分箱的样本分布密文信息进行乘法秘密分享处理,得到所述第k个分箱的乘法秘密分享结果;
其中,k∈[1,K],K个分箱中的各个分箱的乘法秘密分享结果构成目标秘密分享结果。
另一种实施方式中,所述第k个分箱的样本分布密文信息包括第一分布密文和第二分布密文,所述目标随机数包括第一随机数和第二随机数;相应的,第一计算单元602在用于在所述同态加密算法的密文空间中,采用所述目标随机数对第k个分箱的样本分布密文信息进行乘法秘密分享处理,得到所述第k个分箱的乘法秘密分享结果时,可具体用于:
在所述同态加密算法的密文空间中,采用所述第一随机数对所述第k个分箱的第一分布密文进行乘法运算,得到第一乘法运算结果;
在所述同态加密算法的密文空间中,采用所述第二随机数对所述第k个分箱的第二分布密文进行乘法运算,得到第二乘法运算结果;
采用所述第一乘法运算结果和所述第二乘法运算结果,构建所述第k个分箱的乘法秘密分享结果。
另一种实施方式中,第一计算单元602还可用于:对所述第一随机数和所述第二随机数之间的比值进行对数运算,得到所述第k个分箱对应的随机数对数运算结果;
第一通信单元601还可用于:将所述随机数对数运算结果发送给所述第二参与方,使所述第二参与方根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重。
另一种实施方式中,第一计算单元602还可用于:分别生成每个分箱对应的第三随机数;采用所述每个分箱对应的第三随机数,分别对所述每个分箱的样本分布密文信息进行加法秘密分享处理,得到所述每个分箱的加法秘密分享结果;根据所述每个分箱的加法秘密分享结果,生成所述每个分箱的权重系数参考信息;
第一通信单元601还可用于:将所述每个分箱的权重系数参考信息发送给所述第二参与方,使所述第二参与方根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息,使得所述目标密文信息对应的解密结果与所述目标特征变量的信息价值相关。
另一种实施方式中,所述特征集被划分至K个分箱中,K为正整数;第k个分箱的样本分布密文信息包括第一分布密文和第二密文信息,k∈[1,K];相应的,第一计算单元602在用于采用所述每个分箱对应的第三随机数,分别对所述每个分箱的样本分布密文信息进行加法秘密分享处理,得到所述每个分箱的加法秘密分享结果时,可具体用于:
对所述第k个分箱的样本分布密文信息中的第一分布密文和相应的第二分布密文进行差值运算,得到差值运算结果;
将所述差值运算结果与所述第k个分箱对应的第三随机数之间的差值,作为所述第k个分箱的第一秘密分片;以及将所述第k个分箱对应的第三随机数,作为所述第k个分箱的第二秘密分片;
采用所述第k个分箱的第一秘密分片和所述第k个分箱的第二秘密分片,构建所述第k个分箱的加法秘密分享结果。
另一种实施方式中,第一计算单元602在用于根据所述每个分箱的加法秘密分享结果,生成所述每个分箱的权重系数参考信息时,可具体用于:
对所述第k个分箱的加法秘密分享结果中的第二秘密分片进行同态加密处理,得到所述第二秘密分片的密文信息;
采用所述第k个分箱的加法秘密分享结果中的第一秘密分片,以及所述第二秘密分片的密文信息,构建所述第k个分箱的权重系数参考信息。
另一种实施方式中,第一计算单元602在用于根据所述目标密文信息确定所述目标特征变量的信息价值时,可具体用于:
对所述目标密文信息进行解密处理,得到所述目标密文信息对应的解密结果;
根据所述目标密文信息对应的解密结果,确定所述目标特征变量的信息价值。
另一种实施方式中,所述任一样本的标签密文信息是基于同态加密算法、所述任一样本的标签信息以及数值转换因子确定的;其中,所述目标密文信息对应的解密结果,与采用所述数值转换因子乘以所述目标特征变量的信息价值的结果相同;相应的,第一计算单元602在用于根据所述目标密文信息对应的解密结果,确定所述目标特征变量的信息价值时,可具体用于:
采用所述目标密文信息对应的解密结果除以所述数值转换因子,得到所述目标特征变量的信息价值。
另一种实施方式中,所述目标密文信息包括所述每个分箱的权重密文,所述每个分箱的权重密文是对所述每个分箱的证据权重进行同态加密处理得到的;相应的,第一计算单元602在用于根据所述目标密文信息确定所述目标特征变量的信息价值时,可具体用于:
根据所述每个分箱的权重密文和所述每个分箱的样本分布密文信息,计算所述目标特征变量的信息价值密文信息;
生成噪声参数,并采用所述噪声参数对所述信息价值密文信息进行加噪处理,得到加噪后的信息价值密文信息;
将所述加噪后的信息价值密文信息发送给所述第二参与方,使所述第二参与方对所述加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息;
接收所述第二参与方发送的所述信息价值解密信息,并根据所述噪声参数对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值。
另一种实施方式中,所述特征集被划分至K个分箱中,K为正整数;其中,每个分箱的样本分布密文信息包括:第一分布密文和第二分布密文;相应的,第一计算单元602在用于根据所述每个分箱的权重密文和所述每个分箱的样本分布密文信息,计算所述目标特征变量的信息价值密文信息时,可具体用于:
将所述每个分箱的样本分布密文信息中的第一分布密文和第二分布密文之间的差值,确定所述每个分箱的权重系数密文信息;
采用所述每个分箱的权重系数密文信息,对所述每个分箱的权重密文进行加权求和,得到所述目标特征变量的信息价值密文信息。
另一种实施方式中,第一计算单元602在用于采用所述噪声参数对所述信息价值密文信息进行加噪处理,得到加噪后的信息价值密文信息时,可具体用于:对所述噪声参数和所述信息价值密文信息进行求和处理,并将求和处理的结果作为加噪后的信息价值密文信息;
第一计算单元602在用于根据所述噪声参数对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值时,可具体用于:计算所述信息价值解密信息和所述噪声参数之间的差值,并根据所述信息价值解密信息和所述噪声参数之间的差值,确定所述目标特征变量的信息价值。
根据本申请的另一个实施例,图6所示的多方联合信息价值计算装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于多方联合信息价值计算装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4a或图5a中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的多方联合信息价值计算装置设备,以及来实现本申请实施例的多方联合信息价值计算方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例可由第二参与方基于同态加密算法和各个样本的标签信息确定各个样本的标签密文信息,从而将各个样本的标签密文信息发送给第一参与方,这样可避免将标签信息泄露给第一参与方。相应的,第一参与方在对目标特征变量对应的特征集进行分箱处理后,可根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息,并在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,从而将相应的目标秘密分享结果发送给第二参与方,使第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重,这样可避免直接将每个分箱的样本分布密文信息泄露给第二参与方,进而避免第二参与方根据每个分箱的样本分布密文反推出每个分箱的样本分布情况(如正样本的总数和负样本的总数)。然后,第二参与方可根据每个分箱的证据权重生成目标密文信息,使得第一参与方可根据此目标密文信息确定目标特征变量的信息价值,这样可有效避免将每个分箱的证据权重泄露给第一参与方。由此可见,本申请实施例通过结合同态加密和秘密分享的技术方案来计算信息价值,可有效避免相关信息(如标签信息、样本分布情况、证据权重、信息价值等)泄露,提升信息安全性。
基于上述多方联合信息价值计算方法的相关实施例的描述,本申请实施例还提出了一种多方联合信息价值计算装置;具体的,该装置可以是运行于参与联邦学习的第二参与方中的一个计算机程序(包括程序代码),且该装置可以执行图2、图4a或图5a所示的方法流程中的部分方法步骤。其中,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数。请参见图7,所述装置可以运行如下单元:第二计算单元701和第二通信单元702。其中:
第二通信单元702,用于接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第二计算单元701,用于根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第二通信单元702,还用于将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值。
在一种实施方式中,所述第二计算单元701还可用于:
基于同态加密算法和所述每个样本的标签信息,确定所述每个样本的标签密文信息;
将所述M个样本的标签密文信息发送给所述第一参与方。
另一种实施方式中,第二计算单元701在用于基于同态加密算法和所述每个样本的标签信息,确定所述每个样本的标签密文信息时,可具体用于:
基于所述每个样本的标签信息,统计所述M个样本中的正样本的总数和负样本的总数;其中,正样本是指取值为第一数值的标签信息所对应的样本,负样本是指取值为第二数值的标签信息所对应的样本;
根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一参数和第二参数,i∈[1,M];
采用同态加密算法对所述第i个样本对应的第一参数进行同态加密处理,得到第一标签密文;以及,采用所述同态加密算法对所述第i个样本对应的第二参数进行同态加密处理,得到第二标签密文;
将所述第一标签密文和所述第二标签密文,均作为所述第i个样本的标签密文信息。
另一种实施方式中,第二计算单元701在用于根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一参数和第二参数时,可具体用于:
根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一比值和第二比值;
根据所述第i个样本对应的第一比值,确定所述第i个样本对应的第一参数;根据所述第i个样本对应的第二比值,确定所述第i个样本对应的第二参数;
其中,当根据所述第i个样本的标签信息确定所述第i个样本为正样本时,所述第一比值等于所述正样本的总数的倒数,所述第二比值等于零;当根据所述第i个样本的标签信息确定所述第i个样本为负样本时,所述第一比值等于零,所述第二比值等于所述负样本的总数的倒数。
另一种实施方式中,第二计算单元701在用于根据所述第i个样本对应的第一比值,确定所述第i个样本对应的第一参数时,可具体用于:采用数值转换因子对所述第一比值进行数值转换,得到第一数值转换结果;根据所述第一数值转换结果,确定所述第i个样本对应的第一参数;
第二计算单元701在用于根据所述第i个样本对应的第二比值,确定所述第i个样本对应的第二参数时,可具体用于:采用数值转换因子对所述第二比值进行数值转换,得到第二数值转换结果;根据所述第二数值转换结果,确定所述第i个样本对应的第二参数。
另一种实施方式中,第二计算单元701在用于根据所述第一数值转换结果,确定所述第i个样本对应的第一参数时,可具体用于:对所述第一数值转换结果进行取整处理,得到第i个样本对应的第一参数;
另一种实施方式中,第二计算单元701在用于根据所述第二数值转换结果,确定所述第i个样本对应的第二参数时,可具体用于:对所述第二数值转换结果进行取整处理,得到第i个样本对应的第二参数。
另一种实施方式中,第二计算单元701还可用于:
计算所述正样本的总数和所述负样本的总数之间的最小公倍数;
将计算得到的最小公倍数确定为所述数值转换因子。
另一种实施方式中,所述特征集被划分至K个分箱中,K为正整数;相应的,第二计算单元701还可用于:接收所述第一参与方发送的第k个分箱对应的随机数对数运算结果,k∈[1,K];
相应的,第二计算单元701在用于根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重时,可具体用于:根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重。
另一种实施方式中,所述目标秘密分享结果包括每个分箱的乘法秘密分享结果,且所述第k个分箱的乘法秘密分享结果包括第一乘法运算结果和第二乘法运算结果;所述目标秘密分享结果对应的解密结果包括:所述第k个分箱的第一乘法运算结果对应的第一解密结果,以及所述第k个分箱的第二乘法运算结果对应的第二解密结果;
相应的,第二计算单元701在用于根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重时,可具体用于:
若所述第一解密结果和所述第二解密结果为所述无效数值,或者所述第一解密结果为所述无效数值且所述第二解密结果不为所述无效数值,则将所述无效数值确定为所述第k个分箱的证据权重;
若所述第一解密结果不为所述无效数值且所述第二解密结果为所述无效数值,则将预设常数值确定为所述第k个分箱的证据权重;
若所述第一解密结果和所述第二解密结果均不为所述无效数值,则对所述第一解密结果和所述第二解密结果之间的比值进行对数运算,得到解密结果对数运算结果;并计算所述解密结果对数运算结果和所述随机数对数运算结果之间的差值,得到所述第k个分箱的证据权重。
另一种实施方式中,第二计算单元701还可用于:接收所述第一参与方发送的每个分箱的权重系数参考信息;
相应的,第二计算单元701在用于根据所述每个分箱的证据权重生成目标密文信息时,可具体用于:根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息,使得所述目标密文信息对应的解密结果与所述目标特征变量的信息价值相关。
另一种实施方式中,每个分箱的权重系数参考信息包括:第一秘密分片和第二秘密分片的密文信息;相应的,第二计算单元701在用于根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息时,可具体用于:
对所述每个分箱的权重系数参考信息中的第一秘密分片进行解密处理,得到所述每个分箱的明文分片;
对所述每个分箱的明文分片和相应的第二秘密分片的密文信息进行求和处理,得到所述每个分箱的权重加权值;
采用所述每个分箱的权重加权值对所述每个分箱的证据权重进行加权求和,得到目标密文信息。
另一种实施方式中,第二计算单元701在用于根据所述每个分箱的证据权重生成目标密文信息时,可具体用于:
对所述每个分箱的证据权重进行同态加密处理,得到所述每个分箱的权重密文;
采用所述每个分箱的权重密文,构建目标密文信息。
另一种实施方式中,第二计算单元701还可用于:
接收所述第一参与方发送的加噪后的信息价值密文信息;
对所述加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息;
向所述第一参与方发送所述信息价值解密信息,使得所述第一参与方对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值。
根据本申请的另一个实施例,图7所示的多方联合信息价值计算装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于多方联合信息价值计算装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4a或图5a中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的多方联合信息价值计算装置设备,以及来实现本申请实施例的多方联合信息价值计算方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例可由第二参与方基于同态加密算法和各个样本的标签信息确定各个样本的标签密文信息,从而将各个样本的标签密文信息发送给第一参与方,这样可避免将标签信息泄露给第一参与方。相应的,第一参与方在对目标特征变量对应的特征集进行分箱处理后,可根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定每个分箱的样本分布密文信息,并在同态加密算法的密文空间中,对每个分箱的样本分布密文信息进行秘密分享处理,从而将相应的目标秘密分享结果发送给第二参与方,使第二参与方根据目标秘密分享结果对应的解密结果计算每个分箱的证据权重,这样可避免直接将每个分箱的样本分布密文信息泄露给第二参与方,进而避免第二参与方根据每个分箱的样本分布密文反推出每个分箱的样本分布情况(如正样本的总数和负样本的总数)。然后,第二参与方可根据每个分箱的证据权重生成目标密文信息,使得第一参与方可根据此目标密文信息确定目标特征变量的信息价值,这样可有效避免将每个分箱的证据权重泄露给第一参与方。由此可见,本申请实施例通过结合同态加密和秘密分享的技术方案来计算信息价值,可有效避免相关信息(如标签信息、样本分布情况、证据权重、信息价值等)泄露,提升信息安全性。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备,该计算机设备可以是前述所提及的第一参与方或者第二参与方。请参见图8,该计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中,计算机设备内的处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。计算机存储介质804可以存储在计算机设备的存储器中,所述计算机存储介质804用于存储计算机程序,所述计算机程序包括程序指令,所述处理器801 用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,当计算机设备为第一参与方时,本申请实施例所述的处理器801可以用于进行如下的一系列信息价值计算处理,具体包括:获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;接收所述第二参与方发送的所述目标密文信息,并根据所述目标密文信息确定所述目标特征变量的信息价值。,等等。
另一个实施例中,当计算机设备为第一参与方时,本申请实施例所述的处理器801可以用于进行如下的一系列信息价值计算处理,具体包括:接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在具体实施过程中,计算机存储介质中存放的一条或多条指令可由处理器加载并执行上述有关图2、图4a或图5a中所示的第一参与方所执行的各个方法步骤;或者,计算机存储介质中存放的一条或多条指令可由处理器加载并执行上述有关图2、图4a或图5a中所示的第二参与方所执行的各个方法步骤,对此不作限定。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2、图4a或图5a所示的多方联合信息价值计算方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (30)

1.一种多方联合信息价值计算方法,其特征在于,所述方法由参与联邦学习的第一参与方执行,所述第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数;所述方法包括:
获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;
在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;
将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
接收所述第二参与方发送的所述目标密文信息,并根据所述目标密文信息确定所述目标特征变量的信息价值。
2.如权利要求1所述的方法,其特征在于,所述特征集被划分至K个分箱中,K为正整数;计算任一分箱的证据权重所需的参数包括正样本比例和负样本比例,每个样本的标签密文信息包括第一标签密文和第二标签密文;
所述根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息,包括:
对所述K个分箱中的第k个分箱中的各个特征数据对应的样本的标签密文信息中的第一标签密文进行加法运算,得到所述第k个分箱的第一分布密文,所述第一分布密文与计算所述第k个分箱的证据权重所需的正样本比例相关;其中,k∈[1,K];
对所述第k个分箱中的各个特征数据对应的样本的标签密文信息中的第二标签密文进行加法运算,得到所述第k个分箱的第二分布密文,所述第二分布密文与计算所述第k个分箱的证据权重所需的负样本比例相关;
将所述第k个分箱的第一分布密文和相应的第二分布密文,作为所述第k个分箱的样本分布密文信息。
3.如权利要求1所述的方法,其特征在于,所述特征集被划分至K个分箱中,K为正整数;所述在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果,包括:
生成用于乘法秘密分享处理的目标随机数;
在所述同态加密算法的密文空间中,采用所述目标随机数对第k个分箱的样本分布密文信息进行乘法秘密分享处理,得到所述第k个分箱的乘法秘密分享结果;
其中,k∈[1,K],K个分箱中的各个分箱的乘法秘密分享结果构成目标秘密分享结果。
4.如权利要求3所述的方法,其特征在于,所述第k个分箱的样本分布密文信息包括第一分布密文和第二分布密文,所述目标随机数包括第一随机数和第二随机数;
所述在所述同态加密算法的密文空间中,采用所述目标随机数对第k个分箱的样本分布密文信息进行乘法秘密分享处理,得到所述第k个分箱的乘法秘密分享结果,包括:
在所述同态加密算法的密文空间中,采用所述第一随机数对所述第k个分箱的第一分布密文进行乘法运算,得到第一乘法运算结果;
在所述同态加密算法的密文空间中,采用所述第二随机数对所述第k个分箱的第二分布密文进行乘法运算,得到第二乘法运算结果;
采用所述第一乘法运算结果和所述第二乘法运算结果,构建所述第k个分箱的乘法秘密分享结果。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
对所述第一随机数和所述第二随机数之间的比值进行对数运算,得到所述第k个分箱对应的随机数对数运算结果;
将所述随机数对数运算结果发送给所述第二参与方,使所述第二参与方根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
分别生成每个分箱对应的第三随机数;
采用所述每个分箱对应的第三随机数,分别对所述每个分箱的样本分布密文信息进行加法秘密分享处理,得到所述每个分箱的加法秘密分享结果;
根据所述每个分箱的加法秘密分享结果,生成所述每个分箱的权重系数参考信息;
将所述每个分箱的权重系数参考信息发送给所述第二参与方,使所述第二参与方根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息,使得所述目标密文信息对应的解密结果与所述目标特征变量的信息价值相关。
7.如权利要求6所述的方法,其特征在于,所述特征集被划分至K个分箱中,K为正整数;第k个分箱的样本分布密文信息包括第一分布密文和第二密文信息,k∈[1,K];
所述采用所述每个分箱对应的第三随机数,分别对所述每个分箱的样本分布密文信息进行加法秘密分享处理,得到所述每个分箱的加法秘密分享结果,包括:
对所述第k个分箱的样本分布密文信息中的第一分布密文和相应的第二分布密文进行差值运算,得到差值运算结果;
将所述差值运算结果与所述第k个分箱对应的第三随机数之间的差值,作为所述第k个分箱的第一秘密分片;以及将所述第k个分箱对应的第三随机数,作为所述第k个分箱的第二秘密分片;
采用所述第k个分箱的第一秘密分片和所述第k个分箱的第二秘密分片,构建所述第k个分箱的加法秘密分享结果。
8.如权利要求7所述的方法,其特征在于,所述根据所述每个分箱的加法秘密分享结果,生成所述每个分箱的权重系数参考信息,包括:
对所述第k个分箱的加法秘密分享结果中的第二秘密分片进行同态加密处理,得到所述第二秘密分片的密文信息;
采用所述第k个分箱的加法秘密分享结果中的第一秘密分片,以及所述第二秘密分片的密文信息,构建所述第k个分箱的权重系数参考信息。
9.如权利要求6所述的方法,其特征在于,所述根据所述目标密文信息确定所述目标特征变量的信息价值,包括:
对所述目标密文信息进行解密处理,得到所述目标密文信息对应的解密结果;
根据所述目标密文信息对应的解密结果,确定所述目标特征变量的信息价值。
10.如权利要求9所述的方法,其特征在于,所述任一样本的标签密文信息是基于同态加密算法、所述任一样本的标签信息以及数值转换因子确定的;其中,所述目标密文信息对应的解密结果,与采用所述数值转换因子乘以所述目标特征变量的信息价值的结果相同;
所述根据所述目标密文信息对应的解密结果,确定所述目标特征变量的信息价值,包括:
采用所述目标密文信息对应的解密结果除以所述数值转换因子,得到所述目标特征变量的信息价值。
11.如权利要求1所述的方法,其特征在于,所述目标密文信息包括所述每个分箱的权重密文,所述每个分箱的权重密文是对所述每个分箱的证据权重进行同态加密处理得到的;所述根据所述目标密文信息确定所述目标特征变量的信息价值,包括:
根据所述每个分箱的权重密文和所述每个分箱的样本分布密文信息,计算所述目标特征变量的信息价值密文信息;
生成噪声参数,并采用所述噪声参数对所述信息价值密文信息进行加噪处理,得到加噪后的信息价值密文信息;
将所述加噪后的信息价值密文信息发送给所述第二参与方,使所述第二参与方对所述加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息;
接收所述第二参与方发送的所述信息价值解密信息,并根据所述噪声参数对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值。
12.如权利要求11所述的方法,其特征在于,所述特征集被划分至K个分箱中,K为正整数;其中,每个分箱的样本分布密文信息包括:第一分布密文和第二分布密文;
所述根据所述每个分箱的权重密文和所述每个分箱的样本分布密文信息,计算所述目标特征变量的信息价值密文信息,包括:
将所述每个分箱的样本分布密文信息中的第一分布密文和第二分布密文之间的差值,确定所述每个分箱的权重系数密文信息;
采用所述每个分箱的权重系数密文信息,对所述每个分箱的权重密文进行加权求和,得到所述目标特征变量的信息价值密文信息。
13.如权利要求11所述的方法,其特征在于,所述采用所述噪声参数对所述信息价值密文信息进行加噪处理,得到加噪后的信息价值密文信息,包括:对所述噪声参数和所述信息价值密文信息进行求和处理,并将求和处理的结果作为加噪后的信息价值密文信息;
所述根据所述噪声参数对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值,包括:计算所述信息价值解密信息和所述噪声参数之间的差值,并根据所述信息价值解密信息和所述噪声参数之间的差值,确定所述目标特征变量的信息价值。
14.一种多方联合信息价值计算方法,其特征在于,所述方法由参与联邦学习的第二参与方执行,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述第二参与方持有所述每个样本的标签信息,M为正整数;所述方法包括:
接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值。
15.如权利要求14所述的方法,其特征在于,所述方法还包括:
基于同态加密算法和所述每个样本的标签信息,确定所述每个样本的标签密文信息;
将所述M个样本的标签密文信息发送给所述第一参与方。
16.如权利要求15所述的方法,其特征在于,所述基于同态加密算法和所述每个样本的标签信息,确定所述每个样本的标签密文信息,包括:
基于所述每个样本的标签信息,统计所述M个样本中的正样本的总数和负样本的总数;其中,正样本是指取值为第一数值的标签信息所对应的样本,负样本是指取值为第二数值的标签信息所对应的样本;
根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一参数和第二参数,i∈[1,M];
采用同态加密算法对所述第i个样本对应的第一参数进行同态加密处理,得到第一标签密文;以及,采用所述同态加密算法对所述第i个样本对应的第二参数进行同态加密处理,得到第二标签密文;
将所述第一标签密文和所述第二标签密文,均作为所述第i个样本的标签密文信息。
17.如权利要求16所述的方法,其特征在于,所述根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一参数和第二参数,包括:
根据所述正样本的总数、所述负样本的总数和第i个样本的标签信息,计算所述第i个样本对应的第一比值和第二比值;
根据所述第i个样本对应的第一比值,确定所述第i个样本对应的第一参数;根据所述第i个样本对应的第二比值,确定所述第i个样本对应的第二参数;
其中,当根据所述第i个样本的标签信息确定所述第i个样本为正样本时,所述第一比值等于所述正样本的总数的倒数,所述第二比值等于零;当根据所述第i个样本的标签信息确定所述第i个样本为负样本时,所述第一比值等于零,所述第二比值等于所述负样本的总数的倒数。
18.如权利要求17所述的方法,其特征在于,所述根据所述第i个样本对应的第一比值,确定所述第i个样本对应的第一参数,包括:采用数值转换因子对所述第一比值进行数值转换,得到第一数值转换结果;根据所述第一数值转换结果,确定所述第i个样本对应的第一参数;
所述根据所述第i个样本对应的第二比值,确定所述第i个样本对应的第二参数,包括:采用数值转换因子对所述第二比值进行数值转换,得到第二数值转换结果;根据所述第二数值转换结果,确定所述第i个样本对应的第二参数。
19.如权利要求18所述的方法,其特征在于,所述根据所述第一数值转换结果,确定所述第i个样本对应的第一参数,包括:对所述第一数值转换结果进行取整处理,得到第i个样本对应的第一参数;
所述根据所述第二数值转换结果,确定所述第i个样本对应的第二参数,包括:对所述第二数值转换结果进行取整处理,得到第i个样本对应的第二参数。
20.如权利要求18或19所述的方法,其特征在于,所述方法还包括:
计算所述正样本的总数和所述负样本的总数之间的最小公倍数;
将计算得到的最小公倍数确定为所述数值转换因子。
21.如权利要求14-19任一项所述的方法,其特征在于,所述特征集被划分至K个分箱中,K为正整数;
所述方法还包括:接收所述第一参与方发送的第k个分箱对应的随机数对数运算结果,k∈[1,K];
所述根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,包括:根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重。
22.如权利要求21所述的方法,其特征在于,所述目标秘密分享结果包括每个分箱的乘法秘密分享结果,且所述第k个分箱的乘法秘密分享结果包括第一乘法运算结果和第二乘法运算结果;所述目标秘密分享结果对应的解密结果包括:所述第k个分箱的第一乘法运算结果对应的第一解密结果,以及所述第k个分箱的第二乘法运算结果对应的第二解密结果;
所述根据所述随机数对数运算结果以及所述目标秘密分享结果对应的解密结果,计算所述第k个分箱的证据权重,包括:
若所述第一解密结果和所述第二解密结果为无效数值,或者所述第一解密结果为所述无效数值且所述第二解密结果不为所述无效数值,则将所述无效数值确定为所述第k个分箱的证据权重;
若所述第一解密结果不为所述无效数值且所述第二解密结果为所述无效数值,则将预设常数值确定为所述第k个分箱的证据权重;
若所述第一解密结果和所述第二解密结果均不为所述无效数值,则对所述第一解密结果和所述第二解密结果之间的比值进行对数运算,得到解密结果对数运算结果;并计算所述解密结果对数运算结果和所述随机数对数运算结果之间的差值,得到所述第k个分箱的证据权重。
23.如权利要求14-19任一项所述的方法,其特征在于,所述方法还包括:接收所述第一参与方发送的每个分箱的权重系数参考信息;
所述根据所述每个分箱的证据权重生成目标密文信息,包括:根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息,使得所述目标密文信息对应的解密结果与所述目标特征变量的信息价值相关。
24.如权利要求23所述的方法,其特征在于,每个分箱的权重系数参考信息包括:第一秘密分片和第二秘密分片的密文信息;
所述根据所述每个分箱的权重系数参考信息以及所述每个分箱的证据权重,生成目标密文信息,包括:
对所述每个分箱的权重系数参考信息中的第一秘密分片进行解密处理,得到所述每个分箱的明文分片;
对所述每个分箱的明文分片和相应的第二秘密分片的密文信息进行求和处理,得到所述每个分箱的权重加权值;
采用所述每个分箱的权重加权值对所述每个分箱的证据权重进行加权求和,得到目标密文信息。
25.如权利要求14-19任一项所述的方法,其特征在于,所述根据所述每个分箱的证据权重生成目标密文信息,包括:
对所述每个分箱的证据权重进行同态加密处理,得到所述每个分箱的权重密文;
采用所述每个分箱的权重密文,构建目标密文信息。
26.如权利要求25所述的方法,其特征在于,所述方法还包括:
接收所述第一参与方发送的加噪后的信息价值密文信息;
对所述加噪后的信息价值密文信息进行解密处理,得到信息价值解密信息;
向所述第一参与方发送所述信息价值解密信息,使得所述第一参与方对所述信息价值解密信息进行去噪处理,以得到所述目标特征变量的信息价值。
27.一种多方联合信息价值计算装置,其特征在于,所述装置运行在参与联邦学习的第一参与方中,所述第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述联邦学习的第二参与方持有所述每个样本的标签信息,M为正整数;所述装置包括:
第一通信单元,用于获取所述M个样本的标签密文信息,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第一计算单元,用于在对所述特征集进行分箱处理后,根据每个分箱中的各个特征数据对应的样本的标签密文信息,确定所述每个分箱的样本分布密文信息;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;
所述第一计算单元,还用于在所述同态加密算法的密文空间中,对所述每个分箱的样本分布密文信息进行秘密分享处理,得到目标秘密分享结果;
所述第一通信单元,还用于将所述目标秘密分享结果发送给所述第二参与方,使所述第二参与方根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第一通信单元,还用于接收所述第二参与方发送的所述目标密文信息;
所述第一计算单元,还用于根据所述目标密文信息确定所述目标特征变量的信息价值。
28.一种多方联合信息价值计算装置,其特征在于,所述装置运行在参与联邦学习的第二参与方中,所述联邦学习的第一参与方持有目标特征变量对应的特征集,所述特征集包括M个样本中的每个样本的特征数据,所述第二参与方持有所述每个样本的标签信息,M为正整数;所述装置包括:
第二通信单元,用于接收所述第一参与方发送的目标秘密分享结果,所述目标秘密分享结果是由所述第一参与方在同态加密算法的密文空间中,对所述特征集对应的每个分箱的样本分布密文信息进行秘密分享处理得到的;其中,任一分箱的样本分布密文信息与计算所述任一分箱的证据权重所需的参数相关;所述每个分箱的样本分布密文信息是由所述第一参与方根据每个分箱中的各个特征数据对应的样本的标签密文信息确定的,任一样本的标签密文信息是由所述第二参与方基于同态加密算法和所述任一样本的标签信息确定的;
第二计算单元,用于根据所述目标秘密分享结果对应的解密结果计算所述每个分箱的证据权重,并根据所述每个分箱的证据权重生成目标密文信息;
所述第二通信单元,还用于将所述目标密文信息发送给所述第一参与方,使所述第一参与方根据所述目标密文信息确定所述目标特征变量的信息价值。
29.一种计算机设备,包括输入接口和输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,计算机存储介质;
其中,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-13任一项所述的多方联合信息价值计算方法;或者,所述一条或多条指令适于由所述处理器加载并执行如权利要求14-26任一项所述的多方联合信息价值计算方法。
30.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-13任一项所述的多方联合信息价值计算方法;或者,所述一条或多条指令适于由所述处理器加载并执行如权利要求14-26任一项所述的多方联合信息价值计算方法。
CN202210300677.1A 2022-03-25 2022-03-25 多方联合信息价值计算方法、相关设备及存储介质 Active CN114401079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210300677.1A CN114401079B (zh) 2022-03-25 2022-03-25 多方联合信息价值计算方法、相关设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210300677.1A CN114401079B (zh) 2022-03-25 2022-03-25 多方联合信息价值计算方法、相关设备及存储介质

Publications (2)

Publication Number Publication Date
CN114401079A true CN114401079A (zh) 2022-04-26
CN114401079B CN114401079B (zh) 2022-06-14

Family

ID=81233989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210300677.1A Active CN114401079B (zh) 2022-03-25 2022-03-25 多方联合信息价值计算方法、相关设备及存储介质

Country Status (1)

Country Link
CN (1) CN114401079B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611008A (zh) * 2022-05-09 2022-06-10 北京淇瑀信息科技有限公司 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN114662156A (zh) * 2022-05-25 2022-06-24 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法
CN115081004A (zh) * 2022-08-22 2022-09-20 北京瑞莱智慧科技有限公司 数据处理方法、相关装置及存储介质
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN115719094A (zh) * 2023-01-06 2023-02-28 腾讯科技(深圳)有限公司 基于联邦学习的模型训练方法、装置、设备及存储介质
CN115809473A (zh) * 2023-02-02 2023-03-17 富算科技(上海)有限公司 一种纵向联邦学习的信息价值的获取方法及装置
CN116248266A (zh) * 2022-12-16 2023-06-09 北京海泰方圆科技股份有限公司 基于秘密分享的安全多方计算方法及系统
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991655A (zh) * 2019-12-17 2020-04-10 支付宝(杭州)信息技术有限公司 多方联合进行模型数据处理的方法及装置
CN111507479A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及计算机可读存储介质
CN111832503A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 一种基于联邦学习的分心驾驶识别方法
US20210097439A1 (en) * 2019-09-27 2021-04-01 Siemens Healthcare Gmbh Method and system for scalable and decentralized incremental machine learning which protects data privacy
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN112861939A (zh) * 2021-01-26 2021-05-28 深圳前海微众银行股份有限公司 特征选择方法、设备、可读存储介质及计算机程序产品
WO2021114927A1 (zh) * 2019-12-11 2021-06-17 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN113362048A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113505882A (zh) * 2021-05-14 2021-10-15 深圳市腾讯计算机系统有限公司 基于联邦神经网络模型的数据处理方法、相关设备及介质
WO2021214327A1 (en) * 2020-04-24 2021-10-28 Thales Dis France Sa Methods and systems for training a machine learning model
CN113591133A (zh) * 2021-09-27 2021-11-02 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置
CN113704799A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 分箱数据的处理方法、装置、设备、存储介质及程序产品
CN113704800A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
CN114139450A (zh) * 2021-11-29 2022-03-04 百保(上海)科技有限公司 一种基于隐私保护的评分卡建模方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210097439A1 (en) * 2019-09-27 2021-04-01 Siemens Healthcare Gmbh Method and system for scalable and decentralized incremental machine learning which protects data privacy
WO2021114927A1 (zh) * 2019-12-11 2021-06-17 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN110991655A (zh) * 2019-12-17 2020-04-10 支付宝(杭州)信息技术有限公司 多方联合进行模型数据处理的方法及装置
CN111507479A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及计算机可读存储介质
WO2021214327A1 (en) * 2020-04-24 2021-10-28 Thales Dis France Sa Methods and systems for training a machine learning model
CN111832503A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 一种基于联邦学习的分心驾驶识别方法
CN112861939A (zh) * 2021-01-26 2021-05-28 深圳前海微众银行股份有限公司 特征选择方法、设备、可读存储介质及计算机程序产品
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN113505882A (zh) * 2021-05-14 2021-10-15 深圳市腾讯计算机系统有限公司 基于联邦神经网络模型的数据处理方法、相关设备及介质
CN113362048A (zh) * 2021-08-11 2021-09-07 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113704799A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 分箱数据的处理方法、装置、设备、存储介质及程序产品
CN113704800A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
CN113591133A (zh) * 2021-09-27 2021-11-02 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置
CN114139450A (zh) * 2021-11-29 2022-03-04 百保(上海)科技有限公司 一种基于隐私保护的评分卡建模方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
@IRENE: "初认联邦学习—背景和框架介绍", 《HTTPS://BLOG.CSDN.NET/QQ_42871249/ARTICLE/DETAILS/107757404》, 3 August 2020 (2020-08-03) *
JIE LIU: "Computing Weight of Evidence (WOE) and Information Value (IV)", 《ORACLE MACHINE LEARNING》, 2 August 2017 (2017-08-02) *
俞璜悦等: "基于用户兴趣语义的视频关键帧提取", 《计算机应用》 *
俞璜悦等: "基于用户兴趣语义的视频关键帧提取", 《计算机应用》, no. 11, 10 November 2017 (2017-11-10) *
孔钦等: "大数据下数据预处理方法研究", 《计算机技术与发展》, no. 05, 7 February 2018 (2018-02-07) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611008B (zh) * 2022-05-09 2022-07-22 北京淇瑀信息科技有限公司 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN114611008A (zh) * 2022-05-09 2022-06-10 北京淇瑀信息科技有限公司 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN114662156A (zh) * 2022-05-25 2022-06-24 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法
CN114662156B (zh) * 2022-05-25 2022-09-06 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法
CN115081004A (zh) * 2022-08-22 2022-09-20 北京瑞莱智慧科技有限公司 数据处理方法、相关装置及存储介质
CN115081004B (zh) * 2022-08-22 2022-11-04 北京瑞莱智慧科技有限公司 数据处理方法、相关装置及存储介质
CN116248266A (zh) * 2022-12-16 2023-06-09 北京海泰方圆科技股份有限公司 基于秘密分享的安全多方计算方法及系统
CN116248266B (zh) * 2022-12-16 2023-11-14 北京海泰方圆科技股份有限公司 基于秘密分享的安全多方计算方法及系统
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN115659381B (zh) * 2022-12-26 2023-03-10 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN115719094A (zh) * 2023-01-06 2023-02-28 腾讯科技(深圳)有限公司 基于联邦学习的模型训练方法、装置、设备及存储介质
CN115809473A (zh) * 2023-02-02 2023-03-17 富算科技(上海)有限公司 一种纵向联邦学习的信息价值的获取方法及装置
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质
CN116244650B (zh) * 2023-05-12 2023-10-03 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN114401079B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
Xing et al. Mutual privacy preserving $ k $-means clustering in social participatory sensing
CN113516256B (zh) 基于秘密共享、同态加密的无第三方联邦学习方法及系统
CN113505882B (zh) 基于联邦神经网络模型的数据处理方法、相关设备及介质
US20160004874A1 (en) A method and system for privacy preserving matrix factorization
KR20160041028A (ko) 프라이버시 보호 행렬 분해를 위한 방법 및 시스템
CN111723404A (zh) 联合训练业务模型的方法及装置
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN113542228B (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
CN113420232B (zh) 一种面向隐私保护的图神经网络联邦推荐方法
CN112989399B (zh) 数据处理系统及方法
CN111428887A (zh) 一种基于多个计算节点的模型训练控制方法、装置及系统
CN113179158B (zh) 一种控制带宽的多方联合数据处理方法及装置
CN113609781A (zh) 基于联邦学习的汽车生产模具优化方法、系统、设备及介质
CN114448598A (zh) 密文压缩方法、密文解压缩方法、装置、设备和存储介质
CN112819058B (zh) 一种具有隐私保护属性的分布式随机森林评估系统与方法
CN111859440B (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
CN116032639A (zh) 基于隐私计算的消息推送方法及装置
WO2023038930A1 (en) Systems and methods for averaging of models for federated learning and blind learning using secure multi-party computation
CN114553395A (zh) 一种风控场景下的纵向联邦特征衍生方法
CN114463063A (zh) 数据处理方法及相关装置
Tezuka et al. A fast privacy-preserving multi-layer perceptron using ring-lwe-based homomorphic encryption
CN108475483B (zh) 隐匿决定树计算系统、装置、方法以及记录介质
Zhang et al. Privacy-preserving outsourced nash equilibrium computation in cloud computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070935

Country of ref document: HK