CN113901501B - 一种基于联邦学习的私域用户画像拓展方法 - Google Patents

一种基于联邦学习的私域用户画像拓展方法 Download PDF

Info

Publication number
CN113901501B
CN113901501B CN202111220092.0A CN202111220092A CN113901501B CN 113901501 B CN113901501 B CN 113901501B CN 202111220092 A CN202111220092 A CN 202111220092A CN 113901501 B CN113901501 B CN 113901501B
Authority
CN
China
Prior art keywords
private
domain
public
label
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111220092.0A
Other languages
English (en)
Other versions
CN113901501A (zh
Inventor
姚承宗
袁亦韧
赵副
林炯佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Fibonacci Information Technology Co ltd
Original Assignee
Suzhou Fibonacci Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Fibonacci Information Technology Co ltd filed Critical Suzhou Fibonacci Information Technology Co ltd
Priority to CN202111220092.0A priority Critical patent/CN113901501B/zh
Publication of CN113901501A publication Critical patent/CN113901501A/zh
Application granted granted Critical
Publication of CN113901501B publication Critical patent/CN113901501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Storage Device Security (AREA)
  • Facsimile Transmission Control (AREA)

Abstract

本发明涉及一种基于联邦学习的私域用户画像拓展方法,属于计算机技术领域。基于联邦学习的私域用户画像拓展包括画像定义、标签定义及同步、标签计算、私域数据加脏、联邦求交、更新权值矩阵、公域指标联邦求值、私域指标联邦求值、画像汇总生成。其方法是通过标签定义及同步,在私域方和公域方统一画像所需的标签值的定义,然后分别在私域和公域方,基于各自的数据,计算标签值。通过加脏和联邦求交的方式,在不泄露私域方用户群的前提下,获取私域方和公域方用户的交集,基于这部分交集,通过2次联邦求值的方式,在不泄露各自标签值的情况下,分别计算公域方和私域方的标签值,最终汇总生成结果画像。

Description

一种基于联邦学习的私域用户画像拓展方法
技术领域
本发明属于计算机技术领域,涉及一种基于联邦学习的私域用户画像拓展方法。
背景技术
用户画像是指建立在一系列真实数据之上的目标用户模型,主要基于用户标签构建。
私域流量是指从公域(internet)、它域(平台、媒体渠道、合作伙伴等)引流到自己私域(官网、客户名单),以及私域本身产生的流量。这部分流量所覆盖的用户即是私域用户。因为私域的封闭性,极强的业务相关性,在私域内,这部分用户的标签存在极大的倾向性,根据这部分标签产生的用户画像,也就存在一定程度的失真,对后续运营产生干扰。
同时,出于用户隐私安全和政府法规的要求,以及对自由私域用户资源的保护,防止外部获取自己的用户资源,不便和外部数据求交,来丰富用户相关标签和丰富用户画像。
而联邦学习则是一种机器学习框架,能有效帮助多家企业或机构在满足用户隐私保护、数据安全的要求下,进行数据使用和机器学习建模。基于联邦学习的模式,可以在保证私域用户的安全性,和私域、公域用户标签的安全性的前提下,完成私域用户画像的扩展。
发明内容
有鉴于此,本发明的目的在于提供一种基于联邦学习的私域用户画像拓展方法。通过加脏之后,再基于rsa加密和hash脱敏,进行的联邦求交,确保了数据在传输过程中的安全性,通过标签定义,解决双边原始数据维度不一致问题,通过画像定义,动态适配不同画像指标,通过2轮联邦求值,在保证双边数据隐私的情况下,求解得到指标值,最终通过画像合并,获取扩展后的用户画像。
为达到上述目的,本发明提供如下技术方案:
一种基于联邦学习的私域用户画像拓展方法,该方法包括以下步骤:
S1:画像定义;其中用户画像的各项指标为基于私域、公域数据生成的各项标签值;根据私域方的业务需求,设计所需的各项指标,计算指标所需的n个标签以及根据标签计算指标的方法和汇总各项指标的方法;
S2:标签定义及同步;对于S1中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间定义标签的生成规则集;并将其在私域方和公域方之间进行同步;
S3:标签计算,私域方和公域方分别基于各自的数据集和生成规则集;计算得到各自部分的标签;
S4:私域数据加脏,在求交之前,对私域用户进行加脏,用于保护私域用户不被泄露,同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;
S5:联邦求交,计算加脏之后的私域数据和公域数据的交集部分;
S6:更新权值矩阵,识别出加脏数据;
S7:公域指标联邦求值,通过同态加密的方式,在既不暴露公域方用户特征,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分的指标值;
S8:私域指标联邦求值,通过同态加密的方式,在不暴露私域方用户特征的情况下,得到画像所需的私域部分的指标值;
S9:画像汇总生成,汇总私域和公域部分的指标值,生成最终的画像报告。
可选的,所述S1中,各项指标均是由相关的标签计算得来,通过预定义的方式,指定各项标签T1和对应的指标计算方式g1,以及基于这些指标,整合为画像UP的函数Agg;
UP=Agg(g1(T1),g2(T2),...,g3(T3)Ti∈T,gi∈G
其中,G支持全同态加密的计算函数;Agg是最终的画像聚合函数;标签集T是所需的n个标签组成的集合。
可选的,所述S2中,对于画像定义中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间X=XPrivate∪XPublic上,定义标签的生成规则集F;
Ti=fi(X) i∈{1...n}
F={fi} i∈{1...n}
T={Ti} i∈{1...n}
由私域方将规则集F和标签集T同步给公域方。
可选的,所述S3中,标签计算时,私域方基于私域数据XPrivate和生成规则集F;计算得到私域部分的标签:
Figure BDA0003312235270000021
Figure BDA0003312235270000022
公域方基于公域数据数据XPublic和生成规则集F;计算得到公域部分的标签:
Figure BDA0003312235270000023
Figure BDA0003312235270000024
其中,对于私域和公域共有的特征生成的标签:
Figure BDA0003312235270000031
在两部分都有值,其余标签只在独有数据的一方有值;
在求交之前,对私域用户进行加脏,混入一定比例的脏数据;同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;加脏方式如下:
针对标签计算中处理好的私域的标签数据,真实覆盖了m个用户,按照一定比例,增加k个随机生成的用户;私域方对外而言,一共有m+k个用户,从而保护私域方真实的用户群;
为剔除这部分加脏用户对最终结果的影响,需要构建一个(m+k)×n的权重矩阵;将加脏部分的权重全部置为0;
Figure BDA0003312235270000032
其中
Figure BDA0003312235270000033
可选的,所述S4中,联邦求交,用于计算加脏之后的私域数据和公域数据的交集部分,采用RSA公开密钥密码体制进行管理;具体操作如下:
S41:私域方发起求交请求;
S42:公域方收到请求后,通过RSA机制,生成密钥:e,d,n;其中,将e,n作为公钥,发送给私域方,d作为私钥,自行保留;对应的有加密函数Euid将明文m加密为c;有解密函数Duid将密文c解密为m;
c=Euid(m)=meMOD n
m=Duid(c)=cdMOD n
S43:私域方收到公钥后,生一个随机数r,使用公钥对该随机数r进行加密,并对用户id进行哈希脱敏;
UE1={Euid(r)×hash(ui)|ui∈Um+k}
S44:将UE1发送给公域方;
S45:公域方接受到UE1后,对其进行解密生成UD1;并将此解密操作应用到公域部分的id上,生成UD2;并将UD1和UD2都发送给私域方
UD1={Duid(vi)|vi∈UE1}={r×hash(ui)d MOD n|ui∈Um+k}
UD2={Duid(vi)|vi∈UPublic}={hash(ui)d MOD n|ui∈UPublic}
S46:私域方接收到UD1和UD2后,对UD1除以随机数r,生成UDE1,这样UDE1就和UD2的操作一致,格式上保持统一;
UDE1={vi d/r|vi∈UD1}={hash(ui)d MODn|ui∈Um+k}
S47:私域方对UDE1和UD2进行求交,至此,私域方得到了联邦求交的结果I;
I=UDE1∩UD2
S48:将I发送给公域方,公域方进行一次加密操作,亦可获取联邦求交的结果;
联邦求交结束,求交的结果为加脏之后私域用户集的子集,并不会泄露私域用户;
更新权值矩阵,则是基于联邦求交的结果,在私域方只选取在求交结果中的用户,更新权重矩阵为WI;
WI={Wp,q|up∈I,q∈{1...n}}。
可选的,所述S7中,公域指标联邦求值时,针对特征Ti,由交集I中用户对应的标签值,得到公域方标签列向量
Figure BDA0003312235270000041
具体操作如下:
S51:在公域方本地生成密钥,这里密钥只在本地使用,无需向私域发送公钥;生成完毕后,得到加密函数EPub和解密函数DPub
S52:对标签向量
Figure BDA0003312235270000042
应用加密函数,得到
Figure BDA0003312235270000043
S53:将
Figure BDA0003312235270000044
传输给私域方,通过和权值矩阵该标签对应列WIp,q=i的转置相乘,剔除加脏数据;
Figure BDA0003312235270000045
对上述结果施加gi函数,则有如下结果:
Figure BDA0003312235270000046
S54:由于gi是支持全同态加密的函数;将S53中的结果返回公域方,再进行解密后得到
Figure BDA0003312235270000047
在既不暴露公域方用户特征的,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分结果值。
可选的,所述S8中,私域指标联邦求值时,针对特征Ti,由交集I中用户对应的标签值,得到私域方标签列向量
Figure BDA0003312235270000051
具体操作如下:
S61:在私域方生成密钥,同时将公钥发送给公域方;在私域方会得到加密函数EPri和解密函数DPri;而在公域方,则只拥有加密函数EPri
S62:将
Figure BDA0003312235270000052
通过和权值矩阵该标签对应列WIp,q=i的转置相乘,剔除加脏数据;同时再进行加密,并应用gi,得到中间值:
Figure BDA0003312235270000053
S63:将
Figure BDA0003312235270000054
发送给公域方,公域方将S7中
Figure BDA0003312235270000055
使用加密函数进行加密后,再和
Figure BDA0003312235270000056
进行对应操作;
Figure BDA0003312235270000057
S64:将
Figure BDA0003312235270000058
发送给私域方进行解密,得到解密之后的结果
Figure BDA0003312235270000059
可选的,所述S7中,针对每个画像指标,整合其私域部分和公域部分的值,生成最终的结果值,并通过画像定义中的聚合函数,汇总生成最终的画像报告。
本发明的有益效果在于:基于联邦学习的私域用户画像扩展方法,针对私域用户特征不全、隐私安全要求高、独有用户不便于和外部数据求交等痛点,在确保数据安全和符合政府法规的前提下,突破了数据孤岛。以一种安全的方式,丰富了用户特征,拓宽了画像维度,更加精准的对用户定位。从而进一步激活了私域用户,帮助企业人员加深了对私域用户的理解,在后续的运营上,具有指导意义。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于联邦学习的私域用户画像扩展流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1为基于联邦学习的私域用户画像扩展流程。
所述基于联邦学习的私域用户画像扩展流程处理步骤如下:
1)画像定义,根据私域方的业务需求,设计所需的各项指标。各项指标均是是由相关的标签计算得来,通过预定义的方式,指定各项标签T1和对应的指标计算方式g1,以及基于这些指标,整合为画像UP的函数Agg。
UP=Agg(g1(T1),g2(T2),...,g3(T3)Ti∈T,gi∈G
其中,G支持全同态加密的计算函数。Agg是最终的画像聚合函数。标签集T是所需的n个标签组成的集合。
2)标签定义及同步,对于画像定义中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间X=XPrivate∪XPublic上,定义标签的生成规则集F。
Ti=fi(X) i∈{1...n}
F={fi} i∈{1...n}
T={Ti} i∈{1...n}
该步骤不涉及具体数据,只做了形式上的定义。可以通过一般加密传输的方式,由私域方将规则集F和标签集T同步给公域方。
3)标签计算,私域方基于私域数据XPrivate和生成规则集F。计算得到私域部分的标签:
Figure BDA0003312235270000071
Figure BDA0003312235270000072
相同的,公域方也基于公域数据数据XPublic和生成规则集F。计算得到公域部分的标签:
Figure BDA0003312235270000073
Figure BDA0003312235270000074
其中,对于私域和公域共有的特征生成的标签:
Figure BDA0003312235270000075
在两部分都有值,其余标签只在独有数据的一方有值。
4)私域数据加脏,相比于公域数据,私域用户是独有的,且有着极强的行业相关性和行业价值。即便只是泄露出用户群(不涉及用户特征),也会对私域数据拥有方造成影响。故在求交之前,对私域用户进行加脏,混入一定比例的脏数据。同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性。加脏方式如下:
针对标签计算中处理好的私域的标签数据,真实覆盖了m个用户,按照一定比例,增加k个随机生成的用户。如此私域方对外而言,一共有m+k个用户,从而保护私域方真实的用户群。
为了剔除这部分加脏用户对最终结果的影响,需要构建一个(m+k)×n的权重矩阵。将加脏部分的权重全部置为0。
Figure BDA0003312235270000076
其中
Figure BDA0003312235270000077
5)联邦求交,用于计算加脏之后的私域数据和公域数据的交集部分,采用RSA公开密钥密码体制进行管理。具体操作如下:
Step1.私域方发起求交请求。
Step2.公域方收到请求后,通过RSA机制,生成密钥:e,d,n。其中,将e,n作为公钥,发送给私域方,d作为私钥,自行保留。对应的有加密函数Euid可以将明文m加密为c。有解密函数Duid可以将密文c解密为m。
c=Euid(m)=meMOD n
m=Duid(c)=cdMOD n
Step3.私域方收到公钥后,生一个随机数r,使用公钥对该随机数r进行加密,并对用户id进行哈希脱敏。
UE1={Euid(r)×hash(ui)|ui∈Um+k}
Step4.将UE1发送给公域方。
Step5.公域方接受到UE1后,对其进行解密生成UD1。并将此解密操作应用到公域部分的id上,生成UD2。并将UD1和UD2都发送给私域方
UD1={Duid(vi)|vi∈UE1}={r×hash(ui)d MOD n|ui∈Um+k}
UD2={Duid(vi)|vi∈UPublic}={hash(ui)d MOD n|ui∈UPublic}
Step6.私域方接收到UD1和UD2后,对UD1除以随机数r,生成UDE1,这样UDE1就和UD2的操作一致,格式上保持统一了。
UDE1={vid/r|vi∈UD1}={hash(ui)d MOD n|ui∈Um+k}
Step7.私域方对UDE1和UD2进行求交,至此,私域方得到了联邦求交的结果I。
I=UDE1∩UD2
Step8.将I发送给公域方,公域方进行一次加密操作,亦可获取联邦求交的结果。
综上,联邦求交结束,求交的结果为加脏之后私域用户集的子集,并不会泄露私域用户。
6)更新权值矩阵,则是基于联邦求交的结果,在私域方只选取在求交结果中的用户,更新权重矩阵为WI。
WI={Wp,q|up∈I,q∈{1...n}}
7)公域指标联邦求值,针对特征Ti,由交集I中用户对应的标签值,可以得到公域方标签列向量
Figure BDA0003312235270000081
具体操作如下:
Step1.在公域方本地生成密钥,这里密钥只在本地使用,无需向私域发送公钥。生成完毕后,得到加密函数EPub和解密函数DPub
Step2.对标签向量
Figure BDA0003312235270000091
应用加密函数,得到
Figure BDA0003312235270000092
Step3.将
Figure BDA0003312235270000093
传输给私域方,通过和权值矩阵该标签对应列WIp,q=i的转置相乘,可以剔除加脏数据。
Figure BDA0003312235270000094
对上述结果施加gi函数,则有如下结果:
Figure BDA0003312235270000095
Step4.由于gi是支持全同态加密的函数。将3中的结果返回公域方,再进行解密后即可得到
Figure BDA0003312235270000096
如此,在既不暴露公域方用户特征的,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分结果值。
8)私域指标联邦求值,针对特征Ti,由交集I中用户对应的标签值,可以得到私域方标签列向量
Figure BDA0003312235270000097
具体操作如下:
Step1.在私域方生成密钥,同时将公钥发送给公域方。如此,在私域方会得到加密函数EPri和解密函数DPri。而在公域方,则只拥有加密函数EPri
Step2.将
Figure BDA0003312235270000098
通过和权值矩阵该标签对应列WIp,q=i的转置相乘,剔除加脏数据。同时再进行加密,并应用gi,可以得到中间值
Figure BDA0003312235270000099
Step3.将
Figure BDA00033122352700000910
发送给公域方,公域方将7中
Figure BDA00033122352700000911
使用加密函数进行加密后,再和
Figure BDA00033122352700000912
进行对应操作。
Figure BDA00033122352700000913
Step4.将
Figure BDA0003312235270000101
发送给私域方进行解密,可以得到解密之后的结果
Figure BDA0003312235270000102
针对每个画像指标,可以整合其私域部分和公域部分的值,生成最终的结果值,并通过画像定义中的聚合函数,汇总生成最终的画像报告。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于联邦学习的私域用户画像拓展方法,其特征在于:该方法包括以下步骤:
S1:画像定义;其中用户画像的各项指标为基于私域、公域数据生成的各项标签值;根据私域方的业务需求,设计所需的各项指标,计算指标所需的n个标签以及根据标签计算指标的方法和汇总各项指标的方法;
S2:标签定义及同步;对于S1中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间定义标签的生成规则集;并将其在私域方和公域方之间进行同步;
S3:标签计算,私域方和公域方分别基于各自的数据集和生成规则集;计算得到各自部分的标签;
S4:私域数据加脏,在求交之前,对私域用户进行加脏,用于保护私域用户不被泄露,同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;
S5:联邦求交,计算加脏之后的私域数据和公域数据的交集部分;
S6:更新权重矩阵,识别出加脏数据;
S7:公域指标联邦求值,通过同态加密的方式,在既不暴露公域方用户特征,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分的指标值;
S8:私域指标联邦求值,通过同态加密的方式,在不暴露私域方用户特征的情况下,得到画像所需的私域部分的指标值;
S9:画像汇总生成,汇总私域和公域部分的指标值,生成最终的画像报告。
2.根据权利要求1所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S1中,各项指标均是由相关的标签计算得来,通过预定义的方式,指定各项标签Ti和对应的指标计算方式gi,以及基于这些指标,整合为画像UP的函数Agg;
UP=Agg(g1(T1),g2(T2),...,gi(Ti),...,gn(Tn))i∈{1...n},Ti∈T,gi∈G
其中,G支持全同态加密的计算函数;Agg是最终的画像聚合函数;标签集T是所需的n个标签组成的集合。
3.根据权利要求2所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S2中,对于画像定义中设计的n个标签,基于私域客群的现有数据和公域的数据,在用户群的特征空间X=XPrivate∪XPublic上,定义标签的生成规则集F;XPrivate为私域数据;XPublic为公域数据;
Ti=fi(X)i∈{1...n}
F={fi}i∈{1...n}
T={Ti}i∈{1...n}
由私域方将规则集F和标签集T同步给公域方;其中,fi(X)为基于特征空间X的第i个标签的生成规则。
4.根据权利要求3所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S3中,标签计算时,私域方基于私域数据XPrivate和生成规则集F,计算得到私域部分的标签:
Figure FDA0003840578770000021
Figure FDA0003840578770000022
公域方基于公域数据XPublic和生成规则集F,计算得到公域部分的标签:
Figure FDA0003840578770000023
Figure FDA0003840578770000024
其中,对于私域和公域共有的特征生成的标签:
Figure FDA0003840578770000025
在两部分都有值,其余标签只在独有数据的一方有值;
在求交之前,对私域用户进行加脏,混入一定比例的脏数据;同时配置权重矩阵用于将脏数据剔除,保证最终结果的正确性;加脏方式如下:
针对标签计算中处理好的私域的标签数据,真实覆盖了m个用户,按照一定比例,增加k个随机生成的用户;私域方对外而言,一共有m+k个用户,从而保护私域方真实的用户群;
为剔除这部分加脏用户对最终结果的影响,需要构建一个(m+k)×n的权重矩阵;将加脏部分的权重全部置为0;
Figure FDA0003840578770000026
其中
Figure FDA0003840578770000027
p为用户下标;up用于标明用户;um+1为随机生成的第1个用户;um+k为随机生成的第k个用户;u1为处理好的私域标签数据中的第一个用户;um为处理好的私域标签数据中的第m个用户。
5.根据权利要求4所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S5 中,联邦求交,用于计算加脏之后的私域数据和公域数据的交集部分,采用RSA公开密钥密码体制进行管理;具体操作如下:
S41:私域方发起求交请求;
S42:公域方收到请求后,通过RSA机制,生成密钥:e,d,n;其中,将e,n作为公钥,发送给私域方,d作为私钥,自行保留;对应的由加密函数Euid将明文m加密为c;由解密函数Duid将密文c解密为m;
c=Euid(m)=meMOD n
m=Duid(c)=cdMOD n
S43:私域方收到公钥后,生一个随机数r,使用公钥对该随机数r进行加密,并对用户id进行哈希脱敏;
UE1={Euid(r)×hash(ui)|ui∈Um+k}
S44:将UE1发送给公域方;
S45:公域方接受到UE1后,对其进行解密生成UD1;并将此解密操作应用到公域部分的id上,生成UD2;并将UD1和UD2都发送给私域方
UD1={Duid(vi)|vi∈UE1}={r×hash(ui)d MOD n|ui∈Um+k}
UD2={Duid(vi)|vi∈UPublic}={hash(ui)d MOD n|ui∈UPublic}
S46:私域方接收到UD1和UD2后,对UD1除以随机数r,生成UDE1,这样UDE1就和UD2的操作一致,格式上保持统一;
UDE1={vi d/r|vi∈UD1}={hash(ui)dMOD n|ui∈Um+k}
Um+k为私域方对外而言,共有m+k个用户的集合;Upublic为公域方覆盖用户的集合;
S47:私域方对UDE1和UD2进行求交,至此,私域方得到了联邦求交的结果I;
I=UDE1∩UD2
S48:将I发送给公域方,公域方进行一次加密操作,亦可获取联邦求交的结果;
联邦求交结束,求交的结果为加脏之后私域用户集的子集,并不会泄露私域用户;
更新权重矩阵,则是基于联邦求交的结果,在私域方只选取在求交结果中的用户,更新权重矩阵为WI;
WI={Wp,q|up∈I,q∈{1...n}}。
6.根据权利要求5所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S7中,公域指标联邦求值时,针对特征Ti,由交集I中用户对应的标签值,得到公域方标签列向量
Figure FDA0003840578770000041
Figure FDA0003840578770000042
表示单个公域与私域交集用户uk在公域方的标签列向量;具体操作如下:
S51:在公域方本地生成密钥,这里密钥只在本地使用,无需向私域发送公钥;生成完毕后,得到加密函数EPub和解密函数DPub
S52:对标签向量
Figure FDA0003840578770000043
应用加密函数,得到
Figure FDA0003840578770000044
S53:将
Figure FDA0003840578770000045
传输给私域方,通过和权重矩阵该标签对应列WIp,q=i的转置相乘,剔除加脏数据;
Figure FDA0003840578770000046
对上述结果施加gi函数,则有如下结果:
Figure FDA0003840578770000047
S54:由于gi是支持全同态加密的函数;将S53中的结果返回公域方,再进行解密后得到
Figure FDA0003840578770000048
在既不暴露公域方用户特征的,也不暴露私域方拥有用户的情况下,得到画像标签所需的公域部分结果值。
7.根据权利要求6所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S8中,私域指标联邦求值时,针对特征Ti,由交集I中用户对应的标签值,得到私域方标签列向量
Figure FDA0003840578770000049
Figure FDA00038405787700000410
表示单个公域与私域交集用户uk在私域方的标签列向量;具体操作如下:
S61:在私域方生成密钥,同时将公钥发送给公域方;在私域方会得到加密函数EPri和解密函数DPri;而在公域方,则只拥有加密函数EPri
S62:将
Figure FDA00038405787700000411
通过和权重矩阵该标签对应列WIp,q=i的转置相乘,剔除加脏数据;同时再进行加密,并应用gi,得到中间值:
Figure FDA00038405787700000412
S63:将
Figure FDA00038405787700000413
发送给公域方,公域方将S7中
Figure FDA00038405787700000414
使用加密函数进行加密后,再和
Figure FDA0003840578770000051
进行对应操作;
Figure FDA0003840578770000052
S64:将
Figure FDA0003840578770000053
发送给私域方进行解密,得到解密之后的结果
Figure FDA0003840578770000054
8.根据权利要求7所述的一种基于联邦学习的私域用户画像拓展方法,其特征在于:所述S9 中,针对每个画像指标,整合其私域部分和公域部分的值,生成最终的结果值,并通过画像定义中的聚合函数,汇总生成最终的画像报告。
CN202111220092.0A 2021-10-20 2021-10-20 一种基于联邦学习的私域用户画像拓展方法 Active CN113901501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111220092.0A CN113901501B (zh) 2021-10-20 2021-10-20 一种基于联邦学习的私域用户画像拓展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111220092.0A CN113901501B (zh) 2021-10-20 2021-10-20 一种基于联邦学习的私域用户画像拓展方法

Publications (2)

Publication Number Publication Date
CN113901501A CN113901501A (zh) 2022-01-07
CN113901501B true CN113901501B (zh) 2022-11-08

Family

ID=79192794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111220092.0A Active CN113901501B (zh) 2021-10-20 2021-10-20 一种基于联邦学习的私域用户画像拓展方法

Country Status (1)

Country Link
CN (1) CN113901501B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9252942B2 (en) * 2012-04-17 2016-02-02 Futurewei Technologies, Inc. Method and system for secure multiparty cloud computation
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法
CN111666460A (zh) * 2020-05-27 2020-09-15 中国平安财产保险股份有限公司 基于隐私保护的用户画像生成方法、装置及存储介质
CN112199709A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 基于多方的隐私数据联合训练模型的方法和装置
CN113283185A (zh) * 2021-07-23 2021-08-20 平安科技(深圳)有限公司 联邦模型训练、客户画像方法、装置、设备及介质
WO2021197037A1 (zh) * 2020-04-01 2021-10-07 支付宝(杭州)信息技术有限公司 双方联合进行数据处理的方法及装置
CN113518092A (zh) * 2021-07-22 2021-10-19 西安电子科技大学 实现多方隐私的集合交集方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329940A (zh) * 2020-11-02 2021-02-05 北京邮电大学 一种结合联邦学习与用户画像的个性化模型训练方法及系统
CN112583575B (zh) * 2020-12-04 2023-05-09 华侨大学 一种车联网中基于同态加密的联邦学习隐私保护方法
CN113434873A (zh) * 2021-06-01 2021-09-24 内蒙古大学 一种基于同态加密的联邦学习隐私保护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9252942B2 (en) * 2012-04-17 2016-02-02 Futurewei Technologies, Inc. Method and system for secure multiparty cloud computation
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法
WO2021197037A1 (zh) * 2020-04-01 2021-10-07 支付宝(杭州)信息技术有限公司 双方联合进行数据处理的方法及装置
CN111666460A (zh) * 2020-05-27 2020-09-15 中国平安财产保险股份有限公司 基于隐私保护的用户画像生成方法、装置及存储介质
CN112199709A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 基于多方的隐私数据联合训练模型的方法和装置
CN113518092A (zh) * 2021-07-22 2021-10-19 西安电子科技大学 实现多方隐私的集合交集方法
CN113283185A (zh) * 2021-07-23 2021-08-20 平安科技(深圳)有限公司 联邦模型训练、客户画像方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113901501A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN110622165B (zh) 用于确定隐私集交集的安全性措施
Chadha et al. Automated verification of equivalence properties of cryptographic protocols
CN110537183B (zh) 数据标记化方法和系统
CN111680324B (zh) 用于区块链的凭证验证方法、管理方法以及签发方法
Zhou et al. A fine-grained access control and security approach for intelligent vehicular transport in 6G communication system
US8526603B2 (en) Public-key encrypted bloom filters with applications to private set intersection
DE102012206341B4 (de) Gemeinsame Verschlüsselung von Daten
Abid et al. RETRACTED ARTICLE: An optimised homomorphic CRT-RSA algorithm for secure and efficient communication
WO2011007697A1 (ja) 匿名認証署名システム、ユーザ装置、検証装置、署名方法、検証方法およびそれらのプログラム
US9882890B2 (en) Reissue of cryptographic credentials
CN109600228B (zh) 基于公共密钥池的抗量子计算的签章方法和签章系统
US20170091485A1 (en) Method of obfuscating data
US8220040B2 (en) Verifying that group membership requirements are met by users
CN110400162B (zh) 一种数据处理方法、装置、服务器及系统
CN104092686B (zh) 基于svm分类器的隐私保护和数据安全访问的方法
CN110674941B (zh) 基于神经网络的数据加密传输方法及系统
CN111709051A (zh) 数据处理方法、装置、系统、计算机存储介质及电子设备
CN109039599B (zh) 支持盲密钥发行的属性基加解密方法及加解密系统
CN113901501B (zh) 一种基于联邦学习的私域用户画像拓展方法
CN116709303A (zh) 一种用于远程监控的卫星边缘计算方法与装置
CN115599959A (zh) 数据共享方法、装置、设备及存储介质
Al-Saidi et al. Improved digital signature protocol using iterated function systems
CN115412259A (zh) 基于区块链的云健康系统可搜索代理签密方法及产品
JP2004228958A (ja) 署名方法および署名プログラム
CN114726549A (zh) 一种基于双向rsa三次传输协议的数据安全查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant