CN115809473B - 一种纵向联邦学习的信息价值的获取方法及装置 - Google Patents

一种纵向联邦学习的信息价值的获取方法及装置 Download PDF

Info

Publication number
CN115809473B
CN115809473B CN202310052683.4A CN202310052683A CN115809473B CN 115809473 B CN115809473 B CN 115809473B CN 202310052683 A CN202310052683 A CN 202310052683A CN 115809473 B CN115809473 B CN 115809473B
Authority
CN
China
Prior art keywords
fuzzy
secret
sub
participant
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310052683.4A
Other languages
English (en)
Other versions
CN115809473A (zh
Inventor
蔡晓娟
卞阳
陈立峰
邢旭
李腾飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fucun Technology Shanghai Co ltd
Original Assignee
Fucun Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fucun Technology Shanghai Co ltd filed Critical Fucun Technology Shanghai Co ltd
Priority to CN202310052683.4A priority Critical patent/CN115809473B/zh
Publication of CN115809473A publication Critical patent/CN115809473A/zh
Application granted granted Critical
Publication of CN115809473B publication Critical patent/CN115809473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种纵向联邦学习的信息价值的获取方法及装置,该方法结合了同态加密方法和混淆处理方法计算样本特征的证据权重和价值信息,有效保护了信息安全,既保护了样本的原始信息,每一分箱中样本的正负样本数,正负样本比例,又保护了特征的计算结果,特征的证据权重和价值信息。

Description

一种纵向联邦学习的信息价值的获取方法及装置
技术领域
本申请涉及隐私计算技术领域,具体而言,涉及一种纵向联邦学习的信息价值的获取方法及装置。
背景技术
随着互联网的快速发展,以及对数据安全的重视,如何在充分利用数据信息而不泄露数据的情况下诞生了联邦学习。
在联邦学习领域,是通过多个数据参与方共同训练模型,在训练模型之前会对数据参与方的样本数据进行特征处理,来提高训练模型的性能,具体的,选取信息价值较大的特征变量来参与建模,从而提升机器学习模型的稳定性,其中,信息价值用于衡量特征变量对于标签信息的预测能力或者特征变量对模型的重要性。
由于通过信息价值筛选特征变量是一种有监督的特征选择方法,需要用到样本的标签信息,在联邦学习的各个参与方中,通常只有一个参与方持有样本的标签信息。在计算未持有标签信息的参与方中的特征变量的信息价值时,需要借助其他参与方的标签信息才能计算出相应的信息价值。
然而,现有的信息价值计算方法通常会导致某一参与方的相关信息泄露到另一参与方,例如具有标签信息的第一参与方将其标签信息泄露给第二参与方,或第二参与方将其特征数据泄露给第一参与方,或第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重或对应每个特征的价值信息泄露给第一参与方等等。
发明内容
本申请实施例的目的在于提供一种纵向联邦学习的信息价值的获取方法及装置,用以解决现有的信息价值计算方法通常会导致某一参与方的相关信息泄露到另一参与方的问题。
本申请实施例提供的一种纵向联邦学习的信息价值的获取方法,应用于具有标签值的第一参与方,方法包括:
根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值;
根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重;
根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数;
接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。
上述技术方案中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。
本实施例的方法结合了同态加密方法和混淆处理方法计算样本特征的证据权重和价值信息,有效保护了信息安全,既保护了样本的原始信息,每一分箱中样本的正负样本数,正负样本比例,又保护了特征的计算结果,特征的证据权重和价值信息。
在一些可选的实施方式中,根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,包括:
接收第二参与方发送的每一分箱的密态模糊正样本数
Figure SMS_3
和密态模糊负样本数
Figure SMS_4
,并解密得到每一分箱的模糊正样本数
Figure SMS_6
和模糊负样本数
Figure SMS_2
;其中,第一随机数
Figure SMS_5
用于对密态正样本数
Figure SMS_7
进行混淆,第二随机数
Figure SMS_8
用于对密态负样本数
Figure SMS_1
进行混淆;
根据每一分箱的模糊正样本数、模糊负样本数、正样本个数
Figure SMS_9
和负样本个数
Figure SMS_10
,得到所有分箱的模糊证据权重:
Figure SMS_11
在一些可选的实施方式中,根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,包括:
对每一分箱,根据模糊正样本数
Figure SMS_12
和正样本个数
Figure SMS_13
,得到第一中间参数:
Figure SMS_14
根据模糊负样本数和负样本个数,得到第二中间参数:
Figure SMS_15
对第一中间参数进行加密得到第一密态参数
Figure SMS_16
,对第二中间参数进行加密得到第二密态参数
Figure SMS_17
本申请实施例提供的一种纵向联邦学习的信息价值的获取方法,应用于第二参与方,方法包括:
接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;
接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;
根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;
根据每一分箱的模糊权重系数,得到每一分箱的权重系数;
根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。
上述技术方案中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。
在一些可选的实施方式中,根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,包括:
根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数
Figure SMS_18
和密态负样本数
Figure SMS_19
对应每一分箱产生第一随机数
Figure SMS_20
和第二随机数
Figure SMS_21
利用第一随机数对密态正样本数
Figure SMS_22
进行混淆,得到密态模糊正样本数
Figure SMS_23
利用第二随机数对密态负样本数
Figure SMS_24
进行混淆,得到密态模糊负样本数
Figure SMS_25
其中,第一随机数
Figure SMS_26
和第二随机数
Figure SMS_27
,需满足以下条件,以避免第一参与方可以推断出第二参与方特征每一分箱的正负样本占比(或者猜测出正样本数,负样本数),从而推出第二参与方特征信息价值:
Figure SMS_28
,其中
Figure SMS_29
,
Figure SMS_30
Figure SMS_31
至少存在一个为小数,则
Figure SMS_32
在一些可选的实施方式中,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数,包括:
对应每一分箱产生第三随机数
Figure SMS_33
对第一密态参数
Figure SMS_34
和第二密态参数
Figure SMS_35
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure SMS_36
在一些可选的实施方式中,根据每一分箱的模糊权重系数,得到每一分箱的权重系数,包括:
将每一分箱的模糊权重系数
Figure SMS_37
与对应的第三随机数
Figure SMS_38
做差,得到每一分箱的权重系数。
本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括:
标签模块,用于根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值;
模糊证据权重模块,用于根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重;
密态参数模块,用于根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数;
模糊权重模块,用于接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。
在一些可选的实施方式中,所述模糊证据权重模块,还用于:
接收第二参与方发送的每一分箱的密态模糊正样本数
Figure SMS_40
和密态模糊负样本数
Figure SMS_43
,并解密得到每一分箱的模糊正样本数
Figure SMS_44
和模糊负样本数
Figure SMS_41
;其中,第一随机数
Figure SMS_42
用于对密态正样本数
Figure SMS_45
进行混淆,第二随机数
Figure SMS_46
用于对密态负样本数
Figure SMS_39
进行混淆;
根据每一分箱的模糊正样本数、模糊负样本数、正样本个数
Figure SMS_47
和负样本个数
Figure SMS_48
,得到所有分箱的模糊证据权重:
Figure SMS_49
在一些可选的实施方式中,所述密态参数模块,还用于:
对每一分箱,根据模糊正样本数
Figure SMS_50
和正样本个数
Figure SMS_51
,得到第一中间参数:
Figure SMS_52
根据模糊负样本数和负样本个数,得到第二中间参数:
Figure SMS_53
对第一中间参数进行加密得到第一密态参数
Figure SMS_54
,对第二中间参数进行加密得到第二密态参数
Figure SMS_55
本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括:
密态模糊模块,用于接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;
证据权重模块,用于接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;
密态模糊权重模块,用于根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;
权重计算模块,用于根据每一分箱的模糊权重系数,得到每一分箱的权重系数;
加权求和模块,用于根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。
在一些可选的实施方式中,所述密态模糊模块,还用于:
根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数
Figure SMS_56
和密态负样本数
Figure SMS_57
对应每一分箱产生第一随机数
Figure SMS_58
和第二随机数
Figure SMS_59
利用第一随机数对密态正样本数
Figure SMS_60
进行混淆,得到密态模糊正样本数
Figure SMS_61
利用第二随机数对密态负样本数
Figure SMS_62
进行混淆,得到密态模糊负样本数
Figure SMS_63
在一些可选的实施方式中,其中,第一随机数
Figure SMS_64
和第二随机数
Figure SMS_65
,满足以下条件:
Figure SMS_66
,其中
Figure SMS_67
,
Figure SMS_68
Figure SMS_69
至少存在一个为小数,则
Figure SMS_70
在一些可选的实施方式中,所述密态模糊权重模块,还用于:
对应每一分箱产生第三随机数
Figure SMS_71
对第一密态参数
Figure SMS_72
和第二密态参数
Figure SMS_73
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure SMS_74
在一些可选的实施方式中,所述权重计算模块,还用于:
将每一分箱的模糊权重系数
Figure SMS_75
与对应的第三随机数
Figure SMS_76
做差,得到每一分箱的权重系数。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种纵向联邦学习的信息价值的获取方法流程图;
图2为本申请一个实施例提供的信息价值计算流程图;
图3为本申请实施例提供的一种纵向联邦学习的信息价值的获取装置;
图4为本申请另一实施例提供的一种纵向联邦学习的信息价值的获取装置;
图5为本申请实施例提供的电子设备的一种可能的结构示意图。
图标:11-标签模块,12-模糊证据权重模块,13-密态参数模块,14-模糊权重模块,21-密态模糊模块,22-证据权重模块,23-密态模糊权重模块,24-权重计算模块,25-加权求和模块,31-处理器,32-存储器,33-通信接口,34-通信总线。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请的一个或多个实施例,可以适用于包括但不限于以下场景:根据银行端提供的用户数据与移动端提供的用户数据来共同训练模型,用于后期银行判断是否应该对用户进行贷款,在训练模型之前会对数据参与方的样本数据进行特征处理,来提高训练模型的性能。银行端有用户的姓名、身份证号码、存款额度、是否贷款等信息,移动端有用户姓名、用户身份证号码、与其他用户的通话时长等信息。每一个用户为一个样本,将是否贷款作为样本标签,每一个信息作为样本的特征,对于移动端来说,移动端不具有样本标签,因此,需要借助银行端的样本标签来计算移动端的特征变量的信息价值,之后,通过选取信息价值较大的特征变量来参与建模,从而提升机器学习模型的稳定性。
请参照图1,图1为本申请实施例提供的一种纵向联邦学习的信息价值的获取方法流程图,具体包括:
在第一参与方,根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值。
在第二参与方,接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数。
在第一参与方,根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重。
在第二参与方,接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重。
在第一参与方,根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数。
在第二参与方,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数。
在第一参与方,接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。
在第二参与方,根据每一分箱的模糊权重系数,得到每一分箱的权重系数;根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。
本实施例中,具有标签值的第一参与方对己方的标签值加密后发送给第二参与方,非含有标签值的第二参与方根据密态标签值统计出第二参与方每个特征每一分箱的密态模糊正负样本数(密态模糊正样本数和密态模糊负样本数),并将密态模糊正负样本数发送给第一参与方,第一参与方对密态模糊正负样本数解密得到模糊正负样本数(模糊正样本数和模糊负样本数)并计算出模糊证据权重,根据模糊正负样本数得到用于计算密态模糊权重系数的第一密态参数和第二密态参数,将模糊证据权重、第一密态参数和第二密态参数发送给第二参与方,第二参与方根据模糊证据权重和己方数据进行解模糊操作得到证据权重,第二参与方根据第一密态参数和第二密态参数以及己方数据(指用于进行混淆操作的随机数)计算出密态模糊权重系数并发送给第一参与方,第一参与方根据密态模糊权重系数解密得到模糊权重系数并发送给第二参与方,第二参与方根据模糊权重系数和己方数据进行解模糊操作得到权重系数,最后,第二参与方根据每一分箱的证据权重及对应的权重系数,加权求和得到己方特征的信息价值。上述过程中,具有标签信息的第一参与方将其标签信息不会泄露给第二参与方,第二参与方的特征数据也不会泄露给第一参与方,第二参与方的每个特征每一分箱的正负样本数、正负样本的比例、证据权重和对应每个特征的价值信息均不会泄露给第一参与方。
本实施例的方法结合了同态加密方法和混淆处理方法计算样本特征的证据权重和价值信息,有效保护了信息安全,既保护了样本的原始信息,每一分箱中样本的正负样本数,正负样本比例,又保护了特征的计算结果,特征的证据权重和价值信息。
具体的,请参照图2,图2为本申请一个实施例提供的信息价值计算流程图,包括:
在第一参与方,根据所有样本的标签值,统计出正样本个数
Figure SMS_77
和负样本个数
Figure SMS_78
;对己方样本的标签值Y进行同态加密,得到密态标签值E(Y),第一参与方将密态标签值E(Y)发送给其他不具有标签值的第二参与方,其中,第二参与方可以不止一个。
在第二参与方,接收密态标签值E(Y),第二参与方根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数
Figure SMS_81
和密态负样本数
Figure SMS_84
;对应每一分箱产生第一随机数
Figure SMS_86
和第二随机数
Figure SMS_80
;利用第一随机数对密态正样本数
Figure SMS_82
进行混淆,得到密态模糊正样本数
Figure SMS_85
;利用第二随机数对密态负样本数
Figure SMS_88
进行混淆,得到密态模糊负样本数
Figure SMS_79
。第二参与方将密态模糊正样本数
Figure SMS_83
和密态模糊负样本数
Figure SMS_87
发送给第一参与方。
在第一参与方,接收第二参与方发送的每一分箱的密态模糊正样本数
Figure SMS_91
和密态模糊负样本数
Figure SMS_94
,并解密得到每一分箱的模糊正样本数
Figure SMS_99
和模糊负样本数
Figure SMS_92
;根据每一分箱的模糊正样本数、模糊负样本数、正样本个数和负样本个数,得到所有分箱的模糊证据权重:
Figure SMS_96
。第一参与方将模糊证据权重
Figure SMS_97
发送给第二参与方。其中,第一随机数
Figure SMS_101
和第二随机数
Figure SMS_89
,需满足以下条件,以避免第一参与方可以推断出第二参与方特征每一分箱的正负样本占比(或者猜测出正样本数,负样本数),从而推出第二参与方特征信息价值:若
Figure SMS_95
,其中
Figure SMS_98
,
Figure SMS_100
;若
Figure SMS_90
至少存在一个为小数,则
Figure SMS_93
在第二参与方,根据第一随机数和第二随机数,对模糊证据权重
Figure SMS_102
进行解模糊操作,得到证据权重:
Figure SMS_103
在第一参与方,对每一分箱,根据模糊正样本数
Figure SMS_105
和正样本个数
Figure SMS_108
,得到第一中间参数:
Figure SMS_110
;根据模糊负样本数和负样本个数,得到第二中间参数:
Figure SMS_106
;对第一中间参数进行加密得到第一密态参数
Figure SMS_107
,对第二中间参数进行加密得到第二密态参数
Figure SMS_109
。将第一密态参数
Figure SMS_111
和第二密态参数
Figure SMS_104
发送给第二参与方。
在第二参与方,对应每一分箱产生第三随机数
Figure SMS_112
;对第一密态参数
Figure SMS_113
和第二密态参数
Figure SMS_114
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure SMS_115
。将密态模糊权重系数
Figure SMS_116
发送给第一参与方。
在第一参与方,对密态模糊权重系数
Figure SMS_117
进行解密,得到模糊权重系数
Figure SMS_118
。将模糊权重系数
Figure SMS_119
发送给第二参与方。
在第二参与方,将每一分箱的模糊权重系数
Figure SMS_120
与对应的第三随机数
Figure SMS_121
做差,得到每一分箱的权重系数
Figure SMS_122
。根据每一分箱的证据权重
Figure SMS_123
及对应的权重系数
Figure SMS_124
,加权求和得到特征的信息价值
Figure SMS_125
=
Figure SMS_126
请参照图3,图3为本申请实施例提供的一种纵向联邦学习的信息价值的获取装置,包括标签模块11、模糊证据权重模块12、密态参数模块13和模糊权重模块14。
其中,标签模块11,用于根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送密态标签值。模糊证据权重模块12,用于根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向第二参与方发送模糊证据权重。密态参数模块13,用于根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送第一密态参数和第二密态参数。模糊权重模块14,用于接收第二参与方发送的密态模糊权重系数,对密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。
在一些可选的实施方式中,所述模糊证据权重模块,还用于:接收第二参与方发送的每一分箱的密态模糊正样本数
Figure SMS_128
和密态模糊负样本数
Figure SMS_131
,并解密得到每一分箱的模糊正样本数
Figure SMS_133
和模糊负样本数
Figure SMS_129
;其中,第一随机数
Figure SMS_132
用于对密态正样本数
Figure SMS_134
进行混淆,第二随机数
Figure SMS_135
用于对密态负样本数
Figure SMS_127
进行混淆;根据每一分箱的模糊正样本数、模糊负样本数、正样本个数和负样本个数,得到所有分箱的模糊证据权重:
Figure SMS_130
在一些可选的实施方式中,所述密态参数模块,还用于:对每一分箱,根据模糊正样本数
Figure SMS_136
和正样本个数
Figure SMS_137
,得到第一中间参数:
Figure SMS_138
;根据模糊负样本数和负样本个数,得到第二中间参数:
Figure SMS_139
;对第一中间参数进行加密得到第一密态参数
Figure SMS_140
,对第二中间参数进行加密得到第二密态参数
Figure SMS_141
请参照图4,图4为本申请另一实施例提供的一种纵向联邦学习的信息价值的获取装置,包括密态模糊模块21、证据权重模块22、密态模糊权重模块23、权重计算模块24和加权求和模块25。
其中,密态模糊模块21,用于接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;证据权重模块22,用于接收第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;密态模糊权重模块23,用于根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;权重计算模块24,用于根据每一分箱的模糊权重系数,得到每一分箱的权重系数;加权求和模块25,用于根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。
在一些可选的实施方式中,所述密态模糊模块,还用于:根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数
Figure SMS_144
和密态负样本数
Figure SMS_149
;对应每一分箱产生第一随机数
Figure SMS_151
和第二随机数
Figure SMS_143
;利用第一随机数对密态正样本数
Figure SMS_147
进行混淆,得到密态模糊正样本数
Figure SMS_153
;利用第二随机数对密态负样本数
Figure SMS_156
进行混淆,得到密态模糊负样本数
Figure SMS_142
。其中,第一随机数
Figure SMS_146
和第二随机数
Figure SMS_150
,满足以下条件:若
Figure SMS_154
,其中
Figure SMS_145
,
Figure SMS_148
;若
Figure SMS_152
至少存在一个为小数,则
Figure SMS_155
在一些可选的实施方式中,所述密态模糊权重模块,还用于:对应每一分箱产生第三随机数
Figure SMS_157
;对第一密态参数
Figure SMS_158
和第二密态参数
Figure SMS_159
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure SMS_160
在一些可选的实施方式中,所述权重计算模块,还用于:将每一分箱的模糊权重系数
Figure SMS_161
与对应的第三随机数
Figure SMS_162
做差,得到每一分箱的权重系数。
图5示出了本申请实施例提供的电子设备的一种可能的结构。参照图5,电子设备包括:处理器31、存储器32和通信接口33,这些组件通过通信总线34和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器32包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random AccessMemory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),电可擦除可编程只读存储器(ElectricErasable Programmable Read-Only Memory,简称EEPROM)等。处理器31以及其他可能的组件可对存储器32进行访问,读和/或写其中的数据。
处理器31包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器31可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(MicroController Unit,简称MCU)、网络处理器(NetworkProcessor,简称NP)或者其他常规处理器;还可以是专用处理器,包括神经网络处理器(Neural-networkProcessing Unit,简称NPU)、图形处理器(GraphicsProcessing Unit,简称GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuits,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且,在处理器31为多个时,其中的一部分可以是通用处理器,另一部分可以是专用处理器。
通信接口33包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口33可以包括进行有线和/或无线通信的接口。
在存储器32中可以存储一个或多个计算机程序指令,处理器31可以读取并运行这些计算机程序指令,以实现本申请实施例提供的方法。
可以理解的,图5所示的结构仅为示意,电子设备还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备可能是实体设备,例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等,也可能是虚拟设备,例如虚拟机、虚拟化容器等。并且,电子设备也不限于单台设备,也可以是多台设备的组合或者大量设备构成的集群。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的方法。例如,计算机可读存储介质可以实现为图5中电子设备中的存储器32。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种纵向联邦学习的信息价值的获取方法,其特征在于,应用于具有标签值的第一参与方,所述方法包括:
根据所有样本的标签值,统计出正样本个数和负样本个数;
对标签值进行同态加密,得到密态标签值,并向第二参与方发送所述密态标签值;
根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向所述第二参与方发送所述模糊证据权重;
根据所述模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送所述第一密态参数和第二密态参数;
接收所述第二参与方发送的密态模糊权重系数,对所述密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数;
其中,所述根据所述模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,包括:
对每一分箱,根据模糊正样本数
Figure QLYQS_1
和正样本个数
Figure QLYQS_2
,得到第一中间参数:
Figure QLYQS_3
根据模糊负样本数和负样本个数,得到第二中间参数:
Figure QLYQS_4
对所述第一中间参数进行加密得到第一密态参数
Figure QLYQS_5
,对所述第二中间参数进行加密得到第二密态参数
Figure QLYQS_6
;其中,i为分箱数,E代表密态参数。
2.如权利要求1所述的方法,其特征在于,所述根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,包括:
接收第二参与方发送的每一分箱的密态模糊正样本数
Figure QLYQS_9
和密态模糊负样本数
Figure QLYQS_11
,并解密得到每一分箱的模糊正样本数
Figure QLYQS_13
和模糊负样本数
Figure QLYQS_8
;其中,第一随机数
Figure QLYQS_10
用于对密态正样本数
Figure QLYQS_12
进行混淆,第二随机数
Figure QLYQS_14
用于对密态负样本数
Figure QLYQS_7
进行混淆;
根据每一分箱的模糊正样本数、模糊负样本数、正样本个数
Figure QLYQS_15
和负样本个数
Figure QLYQS_16
,得到所有分箱的模糊证据权重:
Figure QLYQS_17
3.一种纵向联邦学习的信息价值的获取方法,其特征在于,应用于第二参与方,所述方法包括:
接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向所述第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;
接收所述第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;
接收所述第一参与方发送的第一密态参数和第二密态参数,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;
根据每一分箱的模糊权重系数,得到每一分箱的权重系数;根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值;
其中,所述根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数,包括:
对应每一分箱产生第三随机数
Figure QLYQS_18
对第一密态参数
Figure QLYQS_19
和第二密态参数
Figure QLYQS_20
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure QLYQS_21
Figure QLYQS_22
其中,i为分箱数,E代表密态参数。
4.如权利要求3所述的方法,其特征在于,所述根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,包括:
根据己方特征对应的分箱信息以及密态标签值,统计出密态正样本数
Figure QLYQS_23
和密态负样本数
Figure QLYQS_24
;对应每一分箱产生第一随机数
Figure QLYQS_25
和第二随机数
Figure QLYQS_26
利用第一随机数对密态正样本数
Figure QLYQS_27
进行混淆,得到密态模糊正样本数
Figure QLYQS_28
;利用第二随机数对密态负样本数
Figure QLYQS_29
进行混淆,得到密态模糊负样本数
Figure QLYQS_30
5.如权利要求4所述的方法,其特征在于,其中,所述第一随机数
Figure QLYQS_31
和第二随机数
Figure QLYQS_32
,满足以下条件:
Figure QLYQS_33
,其中
Figure QLYQS_34
,
Figure QLYQS_35
Figure QLYQS_36
至少存在一个为小数,则
Figure QLYQS_37
6.如权利要求4所述的方法,其特征在于,所述根据每一分箱的模糊权重系数,得到每一分箱的权重系数,包括:
将每一分箱的模糊权重系数
Figure QLYQS_38
与对应的第三随机数
Figure QLYQS_39
做差,得到每一分箱的权重系数。
7.一种纵向联邦学习的信息价值的获取装置,其特征在于,包括:
标签模块,用于根据所有样本的标签值,统计出正样本个数和负样本个数;对标签值进行同态加密,得到密态标签值,并向第二参与方发送所述密态标签值;
模糊证据权重模块,用于根据第二参与方发送的每一分箱的密态模糊正样本数和密态模糊负样本数,得到每一分箱的模糊正样本数、模糊负样本数以及模糊证据权重,并向所述第二参与方发送所述模糊证据权重;
密态参数模块,用于根据所述模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,并向第二参与方发送所述第一密态参数和第二密态参数;其中,所述根据模糊正样本数、模糊负样本数、正样本个数、负样本个数,得到第一密态参数和第二密态参数,包括:
对每一分箱,根据模糊正样本数
Figure QLYQS_40
和正样本个数
Figure QLYQS_41
,得到第一中间参数:
Figure QLYQS_42
根据模糊负样本数和负样本个数,得到第二中间参数:
Figure QLYQS_43
对所述第一中间参数进行加密得到第一密态参数
Figure QLYQS_44
,对所述第二中间参数进行加密得到第二密态参数
Figure QLYQS_45
;其中,i为分箱数,E代表密态参数;
模糊权重模块,用于接收所述第二参与方发送的密态模糊权重系数,对所述密态模糊权重系数进行解密得到模糊权重系数,并向第二参与方发送模糊权重系数。
8.一种纵向联邦学习的信息价值的获取装置,其特征在于,包括:
密态模糊模块,用于接收第一参与方发送的密态标签值;根据己方特征对应的分箱信息以及密态标签值,得到每一分箱的密态模糊正样本数和密态模糊负样本数,并向所述第一参与方发送每一分箱的密态模糊正样本数和密态模糊负样本数;
证据权重模块,用于接收所述第一参与方发送的模糊证据权重,并根据模糊证据权重,得到每一分箱的证据权重;
密态模糊权重模块,用于接收所述第一参与方发送的第一密态参数和第二密态参数,根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数;其中,所述根据第一密态参数和第二密态参数,得到密态模糊权重系数,向第一参与方发送密态模糊权重系数,包括:
对应每一分箱产生第三随机数
Figure QLYQS_46
对第一密态参数
Figure QLYQS_47
和第二密态参数
Figure QLYQS_48
计算权重系数并混淆第三随机数,得到密态模糊权重系数:
Figure QLYQS_49
其中,i为分箱数,E代表密态参数;
权重计算模块,用于根据每一分箱的模糊权重系数,得到每一分箱的权重系数;
加权求和模块,用于根据每一分箱的证据权重及对应的权重系数,加权求和得到特征的信息价值。
CN202310052683.4A 2023-02-02 2023-02-02 一种纵向联邦学习的信息价值的获取方法及装置 Active CN115809473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310052683.4A CN115809473B (zh) 2023-02-02 2023-02-02 一种纵向联邦学习的信息价值的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310052683.4A CN115809473B (zh) 2023-02-02 2023-02-02 一种纵向联邦学习的信息价值的获取方法及装置

Publications (2)

Publication Number Publication Date
CN115809473A CN115809473A (zh) 2023-03-17
CN115809473B true CN115809473B (zh) 2023-04-25

Family

ID=85487358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310052683.4A Active CN115809473B (zh) 2023-02-02 2023-02-02 一种纵向联邦学习的信息价值的获取方法及装置

Country Status (1)

Country Link
CN (1) CN115809473B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177475A1 (zh) * 2019-03-04 2020-09-10 阿里巴巴集团控股有限公司 一种安全的特征工程方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928187B (zh) * 2019-12-03 2021-02-26 北京工业大学 一种基于模糊宽度自适应学习模型的污水处理过程故障监测方法
CN113407979B (zh) * 2021-08-16 2021-11-26 深圳致星科技有限公司 用于纵向联邦逻辑回归学习的异构加速方法、装置及系统
CN113704800A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
CN113591133B (zh) * 2021-09-27 2021-12-24 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置
CN114401079B (zh) * 2022-03-25 2022-06-14 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN114996772A (zh) * 2022-06-17 2022-09-02 上海富数科技有限公司广州分公司 一种联邦学习方法、装置、电子设备及存储介质
CN115392480A (zh) * 2022-08-05 2022-11-25 北京富算科技有限公司 安全求交、联邦学习模型的训练方法及系统、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020177475A1 (zh) * 2019-03-04 2020-09-10 阿里巴巴集团控股有限公司 一种安全的特征工程方法和装置

Also Published As

Publication number Publication date
CN115809473A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN109214201B (zh) 一种数据共享方法、终端设备及计算机可读存储介质
Mandal et al. Symmetric key image encryption using chaotic Rossler system
CN110162551A (zh) 数据处理方法、装置和电子设备
CN111222178B (zh) 一种数据签名方法及装置
CN109495266B (zh) 基于随机数的数据加密方法及装置
CN107302521A (zh) 一种用户隐私数据的发送方法和接收方法
CN107277028A (zh) 在应用间传输聊天表情的方法及装置、设备、存储介质
Sarkar et al. Tree parity machine guided patients’ privileged based secure sharing of electronic medical record: cybersecurity for telehealth during COVID-19
CN109615372A (zh) 基于智能合约的区块链数据屏蔽方法及装置
CN117932685A (zh) 基于纵向联邦学习的隐私数据处理方法及相关设备
Panigrahy et al. A faster and robust artificial neural network based image encryption technique with improved ssim
Ma et al. Fast quantum image encryption scheme based on multilayer short memory fractional order Lotka-Volterra system and dual-scale triangular map
CN112231768B (zh) 数据处理方法、装置、计算机设备及存储介质
US10706148B2 (en) Spatial and temporal convolution networks for system calls based process monitoring
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN115809473B (zh) 一种纵向联邦学习的信息价值的获取方法及装置
CN113254989B (zh) 目标数据的融合方法、装置和服务器
CN115118520A (zh) 数据处理方法、装置和服务器
CN112232639B (zh) 统计方法、装置和电子设备
CN118551364B (zh) 基于深度学习的商用密码安全性评估方法及系统
CN113011459B (zh) 模型训练方法、装置和计算设备
CN117240497A (zh) 用户账户异常评估方法、装置、计算机设备、存储介质
CN117932669A (zh) 数据处理方法、装置、存储介质以及电子设备
CN116245599A (zh) 信用评估模型待的训练方法、信用评估方法以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant