CN113901501B

CN113901501B - 一种基于联邦学习的私域用户画像拓展方法

Info

Publication number: CN113901501B
Application number: CN202111220092.0A
Authority: CN
Inventors: 姚承宗; 袁亦韧; 赵副; 林炯佑
Original assignee: Suzhou Fibonacci Information Technology Co ltd
Current assignee: Suzhou Fibonacci Information Technology Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-11-08
Anticipated expiration: 2041-10-20
Also published as: CN113901501A

Abstract

本发明涉及一种基于联邦学习的私域用户画像拓展方法，属于计算机技术领域。基于联邦学习的私域用户画像拓展包括画像定义、标签定义及同步、标签计算、私域数据加脏、联邦求交、更新权值矩阵、公域指标联邦求值、私域指标联邦求值、画像汇总生成。其方法是通过标签定义及同步，在私域方和公域方统一画像所需的标签值的定义，然后分别在私域和公域方，基于各自的数据，计算标签值。通过加脏和联邦求交的方式，在不泄露私域方用户群的前提下，获取私域方和公域方用户的交集，基于这部分交集，通过2次联邦求值的方式，在不泄露各自标签值的情况下，分别计算公域方和私域方的标签值，最终汇总生成结果画像。

Description

一种基于联邦学习的私域用户画像拓展方法

技术领域

本发明属于计算机技术领域，涉及一种基于联邦学习的私域用户画像拓展方法。

背景技术

用户画像是指建立在一系列真实数据之上的目标用户模型，主要基于用户标签构建。

私域流量是指从公域(internet)、它域(平台、媒体渠道、合作伙伴等)引流到自己私域(官网、客户名单)，以及私域本身产生的流量。这部分流量所覆盖的用户即是私域用户。因为私域的封闭性，极强的业务相关性，在私域内，这部分用户的标签存在极大的倾向性，根据这部分标签产生的用户画像，也就存在一定程度的失真，对后续运营产生干扰。

同时，出于用户隐私安全和政府法规的要求，以及对自由私域用户资源的保护，防止外部获取自己的用户资源，不便和外部数据求交，来丰富用户相关标签和丰富用户画像。

而联邦学习则是一种机器学习框架，能有效帮助多家企业或机构在满足用户隐私保护、数据安全的要求下，进行数据使用和机器学习建模。基于联邦学习的模式，可以在保证私域用户的安全性，和私域、公域用户标签的安全性的前提下，完成私域用户画像的扩展。

发明内容

有鉴于此，本发明的目的在于提供一种基于联邦学习的私域用户画像拓展方法。通过加脏之后，再基于rsa加密和hash脱敏，进行的联邦求交，确保了数据在传输过程中的安全性，通过标签定义，解决双边原始数据维度不一致问题，通过画像定义，动态适配不同画像指标，通过2轮联邦求值，在保证双边数据隐私的情况下，求解得到指标值，最终通过画像合并，获取扩展后的用户画像。

为达到上述目的，本发明提供如下技术方案：

一种基于联邦学习的私域用户画像拓展方法，该方法包括以下步骤：

S1：画像定义；其中用户画像的各项指标为基于私域、公域数据生成的各项标签值；根据私域方的业务需求，设计所需的各项指标，计算指标所需的n个标签以及根据标签计算指标的方法和汇总各项指标的方法；

S2：标签定义及同步；对于S1中设计的n个标签，基于私域客群的现有数据和公域的数据，在用户群的特征空间定义标签的生成规则集；并将其在私域方和公域方之间进行同步；

S3：标签计算，私域方和公域方分别基于各自的数据集和生成规则集；计算得到各自部分的标签；

S4：私域数据加脏，在求交之前，对私域用户进行加脏，用于保护私域用户不被泄露，同时配置权重矩阵用于将脏数据剔除，保证最终结果的正确性；

S5：联邦求交，计算加脏之后的私域数据和公域数据的交集部分；

S6：更新权值矩阵，识别出加脏数据；

S7：公域指标联邦求值，通过同态加密的方式，在既不暴露公域方用户特征，也不暴露私域方拥有用户的情况下，得到画像标签所需的公域部分的指标值；

S8：私域指标联邦求值，通过同态加密的方式，在不暴露私域方用户特征的情况下，得到画像所需的私域部分的指标值；

S9：画像汇总生成，汇总私域和公域部分的指标值，生成最终的画像报告。

可选的，所述S1中，各项指标均是由相关的标签计算得来，通过预定义的方式，指定各项标签T¹和对应的指标计算方式g¹，以及基于这些指标，整合为画像UP的函数Agg；

UP＝Agg(g¹(T¹)，g²(T²)，...，g³(T³)Tⁱ∈T，gⁱ∈G

其中，G支持全同态加密的计算函数；Agg是最终的画像聚合函数；标签集T是所需的n个标签组成的集合。

可选的，所述S2中，对于画像定义中设计的n个标签，基于私域客群的现有数据和公域的数据，在用户群的特征空间X＝X_Private∪X_Public上，定义标签的生成规则集F；

Tⁱ＝fⁱ(X) i∈{1...n}

F＝{fⁱ} i∈{1...n}

T＝{Tⁱ} i∈{1...n}

由私域方将规则集F和标签集T同步给公域方。

可选的，所述S3中，标签计算时，私域方基于私域数据X_Private和生成规则集F；计算得到私域部分的标签：

公域方基于公域数据数据X_Public和生成规则集F；计算得到公域部分的标签：

其中，对于私域和公域共有的特征生成的标签：

在两部分都有值，其余标签只在独有数据的一方有值；

在求交之前，对私域用户进行加脏，混入一定比例的脏数据；同时配置权重矩阵用于将脏数据剔除，保证最终结果的正确性；加脏方式如下：

针对标签计算中处理好的私域的标签数据，真实覆盖了m个用户，按照一定比例，增加k个随机生成的用户；私域方对外而言，一共有m+k个用户，从而保护私域方真实的用户群；

为剔除这部分加脏用户对最终结果的影响，需要构建一个(m+k)×n的权重矩阵；将加脏部分的权重全部置为0；

其中

可选的，所述S4中，联邦求交，用于计算加脏之后的私域数据和公域数据的交集部分，采用RSA公开密钥密码体制进行管理；具体操作如下：

S41：私域方发起求交请求；

S42：公域方收到请求后，通过RSA机制，生成密钥：e，d，n；其中，将e，n作为公钥，发送给私域方，d作为私钥，自行保留；对应的有加密函数E^uid将明文m加密为c；有解密函数D^uid将密文c解密为m；

c＝E^uid(m)＝m^eMOD n

m＝D^uid(c)＝c^dMOD n

S43：私域方收到公钥后，生一个随机数r，使用公钥对该随机数r进行加密，并对用户id进行哈希脱敏；

U_E1＝{E^uid(r)×hash(u_i)|u_i∈U_m+k}

S44：将U_E1发送给公域方；

S45：公域方接受到U_E1后，对其进行解密生成U_D1；并将此解密操作应用到公域部分的id上，生成U_D2；并将U_D1和U_D2都发送给私域方

U_D1＝{D^uid(v_i)|v_i∈U_E1}＝{r×hash(u_i)^d MOD n|u_i∈U_m+k}

U_D2＝{D^uid(v_i)|v_i∈U_Public}＝{hash(u_i)^d MOD n|u_i∈U_Public}

S46：私域方接收到U_D1和U_D2后，对U_D1除以随机数r，生成U_DE1，这样U_DE1就和U_D2的操作一致，格式上保持统一；

U_DE1＝{v_i ^d/r|v_i∈U_D1}＝{hash(u_i)^d MODn|u_i∈U_m+k}

S47：私域方对U_DE1和U_D2进行求交，至此，私域方得到了联邦求交的结果I；

I＝U_DE1∩U_D2

S48：将I发送给公域方，公域方进行一次加密操作，亦可获取联邦求交的结果；

联邦求交结束，求交的结果为加脏之后私域用户集的子集，并不会泄露私域用户；

更新权值矩阵，则是基于联邦求交的结果，在私域方只选取在求交结果中的用户，更新权重矩阵为WI；

WI＝{W_p，q|u_p∈I，q∈{1...n}}。

可选的，所述S7中，公域指标联邦求值时，针对特征Tⁱ，由交集I中用户对应的标签值，得到公域方标签列向量

具体操作如下：

S51：在公域方本地生成密钥，这里密钥只在本地使用，无需向私域发送公钥；生成完毕后，得到加密函数E^Pub和解密函数D^Pub；

S52：对标签向量

应用加密函数，得到

S53：将

传输给私域方，通过和权值矩阵该标签对应列WI_p，q＝i的转置相乘，剔除加脏数据；

对上述结果施加gⁱ函数，则有如下结果：

S54：由于gⁱ是支持全同态加密的函数；将S53中的结果返回公域方，再进行解密后得到

在既不暴露公域方用户特征的，也不暴露私域方拥有用户的情况下，得到画像标签所需的公域部分结果值。

可选的，所述S8中，私域指标联邦求值时，针对特征Tⁱ，由交集I中用户对应的标签值，得到私域方标签列向量

具体操作如下：

S61：在私域方生成密钥，同时将公钥发送给公域方；在私域方会得到加密函数E^Pri和解密函数D^Pri；而在公域方，则只拥有加密函数E^Pri；

S62：将

通过和权值矩阵该标签对应列WI_p，q＝i的转置相乘，剔除加脏数据；同时再进行加密，并应用gⁱ，得到中间值：

S63：将

发送给公域方，公域方将S7中

使用加密函数进行加密后，再和

进行对应操作；

S64：将

发送给私域方进行解密，得到解密之后的结果

可选的，所述S7中，针对每个画像指标，整合其私域部分和公域部分的值，生成最终的结果值，并通过画像定义中的聚合函数，汇总生成最终的画像报告。

本发明的有益效果在于：基于联邦学习的私域用户画像扩展方法，针对私域用户特征不全、隐私安全要求高、独有用户不便于和外部数据求交等痛点，在确保数据安全和符合政府法规的前提下，突破了数据孤岛。以一种安全的方式，丰富了用户特征，拓宽了画像维度，更加精准的对用户定位。从而进一步激活了私域用户，帮助企业人员加深了对私域用户的理解，在后续的运营上，具有指导意义。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于联邦学习的私域用户画像扩展流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1为基于联邦学习的私域用户画像扩展流程。

所述基于联邦学习的私域用户画像扩展流程处理步骤如下：

1)画像定义，根据私域方的业务需求，设计所需的各项指标。各项指标均是是由相关的标签计算得来，通过预定义的方式，指定各项标签T¹和对应的指标计算方式g¹，以及基于这些指标，整合为画像UP的函数Agg。

UP＝Agg(g¹(T¹)，g²(T²)，...，g³(T³)Tⁱ∈T，gⁱ∈G

其中，G支持全同态加密的计算函数。Agg是最终的画像聚合函数。标签集T是所需的n个标签组成的集合。

2)标签定义及同步，对于画像定义中设计的n个标签，基于私域客群的现有数据和公域的数据，在用户群的特征空间X＝X_Private∪X_Public上，定义标签的生成规则集F。

Tⁱ＝fⁱ(X) i∈{1...n}

F＝{fⁱ} i∈{1...n}

T＝{Tⁱ} i∈{1...n}

该步骤不涉及具体数据，只做了形式上的定义。可以通过一般加密传输的方式，由私域方将规则集F和标签集T同步给公域方。

3)标签计算，私域方基于私域数据X_Private和生成规则集F。计算得到私域部分的标签：

相同的，公域方也基于公域数据数据X_Public和生成规则集F。计算得到公域部分的标签：

其中，对于私域和公域共有的特征生成的标签：

在两部分都有值，其余标签只在独有数据的一方有值。

4)私域数据加脏，相比于公域数据，私域用户是独有的，且有着极强的行业相关性和行业价值。即便只是泄露出用户群(不涉及用户特征)，也会对私域数据拥有方造成影响。故在求交之前，对私域用户进行加脏，混入一定比例的脏数据。同时配置权重矩阵用于将脏数据剔除，保证最终结果的正确性。加脏方式如下：

针对标签计算中处理好的私域的标签数据，真实覆盖了m个用户，按照一定比例，增加k个随机生成的用户。如此私域方对外而言，一共有m+k个用户，从而保护私域方真实的用户群。

为了剔除这部分加脏用户对最终结果的影响，需要构建一个(m+k)×n的权重矩阵。将加脏部分的权重全部置为0。

其中

5)联邦求交，用于计算加脏之后的私域数据和公域数据的交集部分，采用RSA公开密钥密码体制进行管理。具体操作如下：

Step1.私域方发起求交请求。

Step2.公域方收到请求后，通过RSA机制，生成密钥：e，d，n。其中，将e，n作为公钥，发送给私域方，d作为私钥，自行保留。对应的有加密函数E^uid可以将明文m加密为c。有解密函数D^uid可以将密文c解密为m。

c＝E^uid(m)＝m^eMOD n

m＝D^uid(c)＝c^dMOD n

Step3.私域方收到公钥后，生一个随机数r，使用公钥对该随机数r进行加密，并对用户id进行哈希脱敏。

U_E1＝{E^uid(r)×hash(u_i)|u_i∈U_m+k}

Step4.将U_E1发送给公域方。

Step5.公域方接受到U_E1后，对其进行解密生成U_D1。并将此解密操作应用到公域部分的id上，生成U_D2。并将U_D1和U_D2都发送给私域方

U_D1＝{D^uid(v_i)|v_i∈U_E1}＝{r×hash(u_i)^d MOD n|u_i∈U_m+k}

U_D2＝{D^uid(v_i)|v_i∈U_Public}＝{hash(u_i)^d MOD n|u_i∈U_Public}

Step6.私域方接收到U_D1和U_D2后，对U_D1除以随机数r，生成U_DE1，这样U_DE1就和U_D2的操作一致，格式上保持统一了。

U_DE1＝{v_id/r|v_i∈U_D1}＝{hash(u_i)^d MOD n|u_i∈U_m+k}

Step7.私域方对U_DE1和U_D2进行求交，至此，私域方得到了联邦求交的结果I。

I＝U_DE1∩U_D2

Step8.将I发送给公域方，公域方进行一次加密操作，亦可获取联邦求交的结果。

综上，联邦求交结束，求交的结果为加脏之后私域用户集的子集，并不会泄露私域用户。

6)更新权值矩阵，则是基于联邦求交的结果，在私域方只选取在求交结果中的用户，更新权重矩阵为WI。

WI＝{W_p，q|u_p∈I，q∈{1...n}}

7)公域指标联邦求值，针对特征Ti，由交集I中用户对应的标签值，可以得到公域方标签列向量

具体操作如下：

Step1.在公域方本地生成密钥，这里密钥只在本地使用，无需向私域发送公钥。生成完毕后，得到加密函数E^Pub和解密函数D^Pub。

Step2.对标签向量

应用加密函数，得到

Step3.将

传输给私域方，通过和权值矩阵该标签对应列WI_p，q＝i的转置相乘，可以剔除加脏数据。

对上述结果施加gⁱ函数，则有如下结果：

Step4.由于gⁱ是支持全同态加密的函数。将3中的结果返回公域方，再进行解密后即可得到

如此，在既不暴露公域方用户特征的，也不暴露私域方拥有用户的情况下，得到画像标签所需的公域部分结果值。

8)私域指标联邦求值，针对特征Tⁱ，由交集I中用户对应的标签值，可以得到私域方标签列向量

具体操作如下：

Step1.在私域方生成密钥，同时将公钥发送给公域方。如此，在私域方会得到加密函数E^Pri和解密函数D^Pri。而在公域方，则只拥有加密函数E^Pri。

Step2.将

通过和权值矩阵该标签对应列WI_p，q＝i的转置相乘，剔除加脏数据。同时再进行加密，并应用gⁱ，可以得到中间值

Step3.将

发送给公域方，公域方将7中

使用加密函数进行加密后，再和

进行对应操作。

Step4.将

发送给私域方进行解密，可以得到解密之后的结果

针对每个画像指标，可以整合其私域部分和公域部分的值，生成最终的结果值，并通过画像定义中的聚合函数，汇总生成最终的画像报告。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于联邦学习的私域用户画像拓展方法，其特征在于：该方法包括以下步骤：

S6：更新权重矩阵，识别出加脏数据；

2.根据权利要求1所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S1中，各项指标均是由相关的标签计算得来，通过预定义的方式，指定各项标签Tⁱ和对应的指标计算方式gⁱ，以及基于这些指标，整合为画像UP的函数Agg；

UP＝Agg(g¹(T¹)，g²(T²)，...，gⁱ(Tⁱ)，...，gⁿ(Tⁿ))i∈{1...n}，Tⁱ∈T，gⁱ∈G

3.根据权利要求2所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S2中，对于画像定义中设计的n个标签，基于私域客群的现有数据和公域的数据，在用户群的特征空间X＝X_Private∪X_Public上，定义标签的生成规则集F；X_Private为私域数据；X_Public为公域数据；

Tⁱ＝fⁱ(X)i∈{1...n}

F＝{fⁱ}i∈{1...n}

T＝{Tⁱ}i∈{1...n}

由私域方将规则集F和标签集T同步给公域方；其中，fⁱ(X)为基于特征空间X的第i个标签的生成规则。

4.根据权利要求3所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S3中，标签计算时，私域方基于私域数据X_Private和生成规则集F，计算得到私域部分的标签：

公域方基于公域数据X_Public和生成规则集F，计算得到公域部分的标签：

其中，对于私域和公域共有的特征生成的标签：

在两部分都有值，其余标签只在独有数据的一方有值；

其中

p为用户下标；u_p用于标明用户；u_m+1为随机生成的第1个用户；u_m+k为随机生成的第k个用户；u₁为处理好的私域标签数据中的第一个用户；u_m为处理好的私域标签数据中的第m个用户。

5.根据权利要求4所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S5 中，联邦求交，用于计算加脏之后的私域数据和公域数据的交集部分，采用RSA公开密钥密码体制进行管理；具体操作如下：

S41：私域方发起求交请求；

S42：公域方收到请求后，通过RSA机制，生成密钥：e，d，n；其中，将e，n作为公钥，发送给私域方，d作为私钥，自行保留；对应的由加密函数E^uid将明文m加密为c；由解密函数D^uid将密文c解密为m；

c＝E^uid(m)＝m^eMOD n

m＝D^uid(c)＝c^dMOD n

U_E1＝{E^uid(r)×hash(u_i)|u_i∈U_m+k}

S44：将U_E1发送给公域方；

U_D1＝{D^uid(v_i)|v_i∈U_E1}＝{r×hash(u_i)^d MOD n|u_i∈U_m+k}

U_D2＝{D^uid(v_i)|v_i∈U_Public}＝{hash(u_i)^d MOD n|u_i∈U_Public}

U_DE1＝{v_i ^d/r|v_i∈U_D1}＝{hash(u_i)^dMOD n|u_i∈U_m+k}

U_m+k为私域方对外而言，共有m+k个用户的集合；U_public为公域方覆盖用户的集合；

I＝U_DE1∩U_D2

更新权重矩阵，则是基于联邦求交的结果，在私域方只选取在求交结果中的用户，更新权重矩阵为WI；

WI＝{W_p，q|u_p∈I，q∈{1...n}}。

6.根据权利要求5所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S7中，公域指标联邦求值时，针对特征Tⁱ，由交集I中用户对应的标签值，得到公域方标签列向量

表示单个公域与私域交集用户u_k在公域方的标签列向量；具体操作如下：

S52：对标签向量

应用加密函数，得到

S53：将

传输给私域方，通过和权重矩阵该标签对应列WI_p，q＝i的转置相乘，剔除加脏数据；

对上述结果施加gⁱ函数，则有如下结果：

7.根据权利要求6所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S8中，私域指标联邦求值时，针对特征Tⁱ，由交集I中用户对应的标签值，得到私域方标签列向量

表示单个公域与私域交集用户u_k在私域方的标签列向量；具体操作如下：

S62：将

通过和权重矩阵该标签对应列WI_p，q＝i的转置相乘，剔除加脏数据；同时再进行加密，并应用gⁱ，得到中间值：

S63：将

发送给公域方，公域方将S7中

使用加密函数进行加密后，再和

进行对应操作；

S64：将

发送给私域方进行解密，得到解密之后的结果

8.根据权利要求7所述的一种基于联邦学习的私域用户画像拓展方法，其特征在于：所述S9 中，针对每个画像指标，整合其私域部分和公域部分的值，生成最终的结果值，并通过画像定义中的聚合函数，汇总生成最终的画像报告。