CN115905648B - 基于高斯混合模型的用户群和金融用户群分析方法及装置 - Google Patents

基于高斯混合模型的用户群和金融用户群分析方法及装置 Download PDF

Info

Publication number
CN115905648B
CN115905648B CN202310015174.4A CN202310015174A CN115905648B CN 115905648 B CN115905648 B CN 115905648B CN 202310015174 A CN202310015174 A CN 202310015174A CN 115905648 B CN115905648 B CN 115905648B
Authority
CN
China
Prior art keywords
data
global
covariance
participants
mixture model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310015174.4A
Other languages
English (en)
Other versions
CN115905648A (zh
Inventor
尚梦琦
王帅
王爽
郑灏
李帜
孙琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nuowei Information Technology Co ltd
Original Assignee
Beijing Nuowei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nuowei Information Technology Co ltd filed Critical Beijing Nuowei Information Technology Co ltd
Priority to CN202310015174.4A priority Critical patent/CN115905648B/zh
Publication of CN115905648A publication Critical patent/CN115905648A/zh
Application granted granted Critical
Publication of CN115905648B publication Critical patent/CN115905648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明实施例涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置,所述方法包括:接收多个参与方发送的中间数据;在可信执行环境中,根据中间数据进行联合计算,得到全局均值向量;将全局均值向量发送至多个参与方;接收多个参与方发送的协方差数据;根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方在本地进行迭代,直至得到收敛的高斯混合模型。本发明的技术方案,通过联邦学习方法构建模型,可以在保证数据不出域的前提下,丰富参与训练的数据集,提高模型的拟合精度,提高用户群分析的准确率。

Description

基于高斯混合模型的用户群和金融用户群分析方法及装置
技术领域
本发明实施例涉及数据挖掘和隐私数据处理技术领域,尤其涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置。
背景技术
随着信息化和数字化时代的到来,大数据技术成为了众多企业进行业务决策和客户群探索的利器。企业根据已有的用户数据,利用适合的数据挖掘方法,可以清晰的构建用户群画像。针对不同的客户群体采用不同的营销策略,推荐更符合用户偏好的产品,以实现精准营销和推广。这种方式下,简化传统人工制定营销方案的繁杂流程,降低了时间成本的同时,还进一步地提高了产品的获客率。
现有的客户群识别技术,通常通过使用大量的数据训练机器学习模型。对于类似于逻辑回归、决策树等的有监督学习,往往需要已知的用户类别标签;而当标签未知时,只能使用聚类算法或者复杂的深度学习方法获得用户群。并且,采用较少的用户数据得到的模型准确率较低,无法提供较好的预测结果。
发明内容
基于现有技术的上述情况,本发明实施例的目的在于提供一种基于高斯混合模型的用户群和金融用户群分析方法及装置,通过联邦学习方法构建模型,可以在保证数据不出域的前提下,丰富参与训练的数据集,提高模型的拟合精度,提高用户群分析的准确率。
为达到上述目的,根据本发明的第一个方面,提供了一种基于高斯混合模型的用户群分析方法,应用于服务器端,所述方法包括:
接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建用户群画像的用户数据;
在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;
将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
接收多个参与方发送的协方差数据;
在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分;
在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
进一步的,所述方法还包括:
当后验概率偏差小于偏差阈值时,向各参与方发送停止迭代指令,以使得各参与方根据停止迭代指令停止迭代,得到收敛的高斯混合模型,各参与方在接收停止迭代指令前暂停迭代;
当后验概率偏差大于或等于偏差阈值时,向各参与方发送继续迭代指令,以使得各参与方依据继续迭代指令进行迭代,各参与方在接收继续迭代指令前暂停迭代。
进一步的,所述与后验概率相关的中间数据包括
Figure 315727DEST_PATH_IMAGE001
Figure 521580DEST_PATH_IMAGE002
Figure 372862DEST_PATH_IMAGE001
为各参与方计算得到 的本地样本数据对各个高斯分布的隶属度和向量,
Figure 68285DEST_PATH_IMAGE002
为归一化的先验概率与本地样本数据 的乘积和矩阵;
在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:
在可信执行环境中将
Figure 247594DEST_PATH_IMAGE003
进行聚合得到P个参与方的用户样本属于第k个高斯分布 的总隶属度
Figure 132504DEST_PATH_IMAGE004
,并利用
Figure 41555DEST_PATH_IMAGE004
Figure 579983DEST_PATH_IMAGE002
计算得到全局均值向量。
进一步的,所述先验概率包括样本属于用户群各类别的权重;
用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得:接收各个参与方发送的多个初始类别数,所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到;
根据所述多个初始类别数建立预设数列,该预设数列为差值为1的等差数列,该预设数列的第一值为多个初始类别数中最小的类别数值,最后一值为多个初始类别数相加的和值;
将多个高斯分布的初始类别数设为预设数列的第一值,其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数;
所述权重通过参与方预设获得;或者由各参与方在本地通过聚类分析获得。
进一步的,所述高斯混合模型采用以下目标函数表示:
Figure 918692DEST_PATH_IMAGE005
其中,
Figure 533258DEST_PATH_IMAGE006
表示第i个用户样本;P表示参与方总数;
Figure 500077DEST_PATH_IMAGE007
表示第p个参与方的样本总数; K表示用户群个数,
Figure 599620DEST_PATH_IMAGE008
表示第k个用户群对应的高斯分布;
Figure 81417DEST_PATH_IMAGE009
是第k个高斯分布的先验概率;
Figure 432764DEST_PATH_IMAGE010
表示标记用户数据样本的来源的二值参数,
Figure 863876DEST_PATH_IMAGE010
为隐变量。
根据本发明的第二个方面,提供了一种基于高斯混合模型的用户群分析方法,应用于参与方端,所述方法包括:
根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据;所述本地样本数据包括参与方用于构建用户群画像的用户数据;
将所述中间数据发送至服务器端,以使得服务器端在可信执行环境中采用中间数据进行联合计算,得到全局均值向量;
接收服务器端发送的全局均值向量,采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
将所述协方差数据发送至服务器端,以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差,以及根据该全局协方差计算全局后验概率;
接收服务器端发送的全局后验概率,将该全局后验概率作为下一轮迭代的先验概率,并采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型。
进一步的,根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据,包括:
对所述先验概率、均值和协方差进行归一化,得到归一化的先验概率;
根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量
Figure 72003DEST_PATH_IMAGE001
计算得到归一化的先验概率与本地样本数据的乘积和矩阵
Figure 713200DEST_PATH_IMAGE002
Figure 399397DEST_PATH_IMAGE011
Figure 199862DEST_PATH_IMAGE002
作为所述中间数据;
采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据,包括:
根据全局均值向量和归一化的先验概率计算样本偏差平方和;
将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。
进一步的,所述方法还包括:
对所采用的先验概率、均值和协方差增加随机数后,多次重新计算。
进一步的,目标数据包括中间数据和协方差,确定目标数据的步骤,包括:
对于样本数据中数值型的第一数据,向第一数据中添加噪声数据进行扰动,以依据扰动后的数据,确定所述目标数据,其中,所述噪声数据符合拉普拉斯分布;
对于样本数据中非数值型的第二数据,依据指数机制确定各个第二数据的返回概率,以依据返回概率确定待统计数据,以依据待统计数据确定所述目标数据。
根据本发明的第三个方面,提供了一种基于高斯混合模型的金融用户群分析方法,应用于服务器端,所述方法包括:
接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建金融用户群画像的用户数据;
在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;
将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
接收多个参与方发送的协方差数据;
在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行金融用户群的划分,以对金融用户群的用户发送相应的金融推荐信息;
在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
根据本发明的第四个方面,提供了一种基于高斯混合模型的用户群分析装置,应用于服务器端,所述装置包括:
中间数据获取模块,用于接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;所述本地样本数据包括各参与方用于构建用户群画像的用户数据;
均值向量更新模块,用于在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;
协方差数据获取模块, 用于将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;接收多个参与方发送的协方差数据;
后验概率更新模块,用于在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型;
高斯混合模型生成模块,用于在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
综上所述,本发明实施例提供了一种基于高斯混合模型的用户群和金融用户群分析方法及装置,所述基于高斯混合模型的用户群分析方法包括:接收多个参与方发送的与后验概率相关的中间数据;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;将所述全局均值向量发送至多个参与方;接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分。本发明实施例的技术方案,相对于有监督的机器学习算法,高斯混合模型无需用户的标签数据信息,避免了人工标记的偏向性,基更具灵活性,直接从数据中提取相应的用户群,不仅得到了样本归属的用户群标签,还找到了用户群的分布信息,更加符合用户群探索的需要。相对于无监督聚类算法,高斯混合模型对异常数据依据概率进行用户群划分,呈现出一定的稳健性。由于高斯混合模型存在在小数据集上表现差的特点,基于TEE的联邦学习方法通过结合多个参与方的数据,在保证数据安全性的同时丰富了数据集,进一步提高了获得模型的精度。
附图说明
图1是本发明一个实施例提供的基于高斯混合模型的用户群分析方法的流程图;
图2是本发明另一个实施例提供的基于高斯混合模型的用户群分析方法的流程图;
图3是本发明实施例提供的基于高斯混合模型的金融用户群分析方法的流程图;
图4是本发明实施例提供的基于高斯混合模型的用户群分析装置的构成框图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
需要说明的是,除非另外定义,本发明一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
现有技术中,利用机器学习等大数据手段进行统计分析、抽象提取客户群的方式,往往需要大量的数据,而金融公司接触的客户往往有限,模型效果将受到影响。如何在保证本方数据安全的前提下,如果能融合其他公司获得的用户数据进行计算,将大大提升模型的拟合效果。另一方面,用户类别标签往往无法提前获知,采用人工标记的方式除了需要对客户群体有较深的认识外,依靠于感觉和经验进行标记可能带有一定的主观性。而如果将同一类型的样本,标记为不同的编号时,将导致模型训练混乱,影响模型的准确性。
分析以上情况,本发明实施例提供的技术方案,通过联合多方数据信息进行安全计算,对于没有已知客户分类标签的客户数据,实现准确的客户群识别与分类。对于单个金融公司获取到的客户数据往往因为地域等因素而受限,通过使用联邦学习方法,可以在保证数据不出域的前提下,丰富参与训练的数据集,提高模型的拟合精度。
对于无监督学习的聚类方法,往往基于距离判断样本的相似性,通过计算用户信息与中心点的距离,将用户划分到距离最小的簇中,实现用户群的划分,这种方式仅能提供客户群的聚簇标签,即硬分配。根据大数定理,当数据容量很大时,分布的极限往往是高斯分布,因此可以使用高斯混合模型(Gaussian Mixture Model, GMM),从样本中找到各个用户群的分布,这种方式通过概率将各个用户划分到不同的高斯模型中。
下面结合附图对本发明的技术方案进行详细说明。本发明实施例提供了一种基于高斯混合模型的用户群分析方法,应用于服务器端,图1中示出了该分析方法的流程图,所述分析方法包括如下步骤:
S202、接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由 对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协 方差获得。其中,与后验概率相关的中间数据包括
Figure 313312DEST_PATH_IMAGE012
Figure 441805DEST_PATH_IMAGE002
Figure 931692DEST_PATH_IMAGE003
为各参与方计算得到的本地 样本数据对各个高斯分布的隶属度和向量,
Figure 337397DEST_PATH_IMAGE002
为归一化的先验概率与本地样本数据的乘积 和矩阵,本地样本数据包括各参与方用于构建用户群画像的用户数据。本发明该实施例中, 先验概率包括样本属于用户群各类别的权重;用户群各类别的类别数根据多个参与方通过 本地样本数据迭代得到本地收敛的高斯混合模型后获得。对于高斯混合模型中用户群的类 别数,可以根据对用户群的认识自定义,即使用有限的混合模型,例如根据用户性别,可以 确定混合成分的个数为2。但是这种信息并不都是可以提前获知,而且该值的设定具有一定 的主观性,存在忽略潜在的成分出现的可能性。因此,加入狄利克雷过程(Dirichlet Process)作为混合成分的先验分布,这种方式是一种基于贝叶斯定理的非参数模型,可以 根据数据自动获取混合成分的个数。接收各个参与方发送的多个初始类别数,所述初始类 别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到;根据所述 多个初始类别数建立预设数列,该预设数列为差值为1的等差数列,该预设数列的第一值为 多个初始类别数中最小的类别数值,最后一值为多个初始类别数相加的和值;将多个高斯 分布的初始类别数设为预设数列的第一值,其后的每一次迭代从该预设数列中取值作为该 次迭代过程中高斯分布的类别数。其中,所述权重通过参与方预设获得;或者由各参与方在 本地通过聚类分析获得。
高斯混合模型作为一种无监督机器学习方法,将样本依概率划分为不同的类别,本发明实施例中混合高斯模型可以利用如下似然函数作为目标函数表示:
Figure 887327DEST_PATH_IMAGE005
其中,
Figure 503116DEST_PATH_IMAGE013
表示第i个用户样本;P表示参与方总数;
Figure 531115DEST_PATH_IMAGE007
表示第p个参与方的样本总数; K表示用户群个数,
Figure 40594DEST_PATH_IMAGE014
表示第k个用户群对应的高斯分布;
Figure 761425DEST_PATH_IMAGE015
是第k个高斯分布的先验概率;
Figure 864510DEST_PATH_IMAGE016
表示标记用户数据样本的来源的二值参数,
Figure 696200DEST_PATH_IMAGE016
为隐变量。
然而由于上述公式的似然函数中的内部嵌套了多层求和公式,所以不便对其直接 利用对数似然计算。此外,用于标记数据样本的来源的二值参数
Figure 810918DEST_PATH_IMAGE016
作为隐变量,其值通过对 当前自变量进一步推理获得,该值的确定也可以看作为样本找到最佳分布的过程。因此,本 发明实施例中使用一种迭代的算法,即期望最大化(Expectation Maximum,以下简称“EM”) 算法进行迭代,以使得一步步接近模型的最佳参数值。由于数据信息来自于各个参与方,这 部分的主要计算过程需要在TEE环境下进行联邦计算,保证参与方原始数据的安全。将参与 方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差,作为 用于进行高斯混合计算的初始值,基于EM算法进行迭代求解。迭代的过程,其实是使用各个 高斯分量的当前权重作为先验概率,通过与样本计算逐步优化权重值,权重值又将作为新 的先验概率参与后续的计算,该过程将使得各个高斯模型的权重逐步接近目标值。
S204、在可信执行环境(TrustedExecutionEnvironment,以下简称“TEE”)中,根据 所接收的多个中间数据进行联合计算,得到全局均值向量。联合计算可以通过在可信执行 环境中将
Figure 905913DEST_PATH_IMAGE001
进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度
Figure 558611DEST_PATH_IMAGE004
,并利 用
Figure 990729DEST_PATH_IMAGE004
Figure 412483DEST_PATH_IMAGE002
计算得到全局均值向量。考虑到数据的安全性,可以将中间数据
Figure 412800DEST_PATH_IMAGE017
Figure 287215DEST_PATH_IMAGE018
等作为中 间数据,接入TEE提供的联邦学习接口,TEE内部聚合各个参与方的中间结果,完成各个高斯 模型的参数的更新。
通过聚合P个参与方提供的隶属度和向量
Figure 539336DEST_PATH_IMAGE017
,计算P个参与方的用户样本属于第k 个高斯分布的总隶属度
Figure 18859DEST_PATH_IMAGE019
Figure 252394DEST_PATH_IMAGE020
TEE聚合参与方计算得到的
Figure 676422DEST_PATH_IMAGE018
更新均值向量,更新的均值向量
Figure 388026DEST_PATH_IMAGE021
采用下式计算:
Figure 722056DEST_PATH_IMAGE022
S206、将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据。
S208、接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据, 计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该 全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先 验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛 的高斯混合模型进行潜在用户群的划分。其中,后验概率是采用本轮均值更新前的后验概 率,后验概率作为下轮均值更新前的先验概率。该步骤中,接收各参与方发送的偏差平方和 数据和总隶属度
Figure 126492DEST_PATH_IMAGE004
,计算得到更新后的各高斯分布的协方差
Figure 788549DEST_PATH_IMAGE023
和用于下一次迭代使用 的高斯分布的权重值
Figure 303844DEST_PATH_IMAGE024
Figure 492380DEST_PATH_IMAGE025
Figure 67718DEST_PATH_IMAGE026
其中,N为总样本个数。
S210、在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
根据某些可选的实施例,所述方法还包括如下步骤:
S212、当后验概率偏差小于偏差阈值时,向各参与方发送停止迭代指令,以使得各参与方根据停止迭代指令停止迭代,得到收敛的高斯混合模型,各参与方在接收停止迭代指令前暂停迭代;当后验概率偏差大于或等于偏差阈值时,向各参与方发送继续迭代指令,以使得各参与方依据继续迭代指令进行迭代,各参与方在接收继续迭代指令前暂停迭代。
根据某些可选的实施例,所述方法还包括:接收各参与方采用该联邦高斯混合模型进行用户群分析的结果,对联邦高斯混合模型的参数进行调整。例如,可以推送多个群体的信息给参与方,根据多个参与方的反馈(选择其中一个进行使用),对模型的参数进行调整。
本发明的实施例还提供了一种基于高斯混合模型的用户群分析方法,应用于参与方端,图2中示出了该方法的流程图,所述方法包括如下步骤:
S402、根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据。各个参与方端,可以采用基于“随机”或者“聚类”方法,自动生成一组相关的先验概率参与模型计算。若选择使用随机方法,将随机生成一组[0,1]区间内和为1的数值作为各个高斯模型的先验概率;若选择使用聚类方法,将基于联邦学习的聚类方法作为高斯混合模型的前导步骤,假设样本完全来自某个分布,并根据聚簇元素个数占总样本数的比例作为各个高斯模型的先验概率,而将聚类中心的均值和协方差作为高斯模型的初值。本发明该实施例根据以下步骤计算获得中间数据:
S4021、对先验概率、均值和协方差进行归一化,得到归一化的先验概率。该步骤 中,各个参与方在本地通过当前模型的先验概率(样本属于用户群各类别的分布权重
Figure 466338DEST_PATH_IMAGE015
)、 均值
Figure 988586DEST_PATH_IMAGE027
和协方差
Figure 93945DEST_PATH_IMAGE028
,计算样本属于各个高斯模型的概率,该概率可以根据样本和样本的先 验概率计算得到,其值的大小直接反映了样本隶属于各个高斯模型的程度,将用于之后高 斯模型的参数更新。此外,这里为了保证概率和为1,进行了归一化处理:
Figure 653234DEST_PATH_IMAGE029
其中,
Figure 211254DEST_PATH_IMAGE030
表示第i个用户样本,
Figure 271614DEST_PATH_IMAGE027
表示第k个参与方在本地得到的均值,
Figure 231480DEST_PATH_IMAGE028
表示第k 个参与方在本地得到的方差,
Figure 210937DEST_PATH_IMAGE015
表示第k个高斯分布的先验概率,
Figure 521833DEST_PATH_IMAGE031
表示方差公式,
Figure 120304DEST_PATH_IMAGE032
表 示归一化处理后的先验概率。
S4022、根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度 和向量
Figure 934677DEST_PATH_IMAGE001
,该
Figure 101347DEST_PATH_IMAGE001
提供了当前参与方中样本的占比情况,可以表示为:
Figure 633959DEST_PATH_IMAGE033
S4023、计算得到归一化的先验概率与本地样本数据的乘积和矩阵
Figure 770543DEST_PATH_IMAGE002
,用于均值的 更新,可以采用以下公式计算隶属度与样本的乘积和矩阵
Figure 705001DEST_PATH_IMAGE002
Figure 291840DEST_PATH_IMAGE034
将计算得到的
Figure 203426DEST_PATH_IMAGE012
Figure 533913DEST_PATH_IMAGE002
作为中间数据。
S404、将所述中间数据发送至服务器端,以使得服务器端在可信执行环境中采用中间数据进行联合计算,得到全局均值向量。
S406、接收服务器端发送的全局均值向量,采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据,具体来说,可以根据以下步骤计算获得协方差数据:
S4061、根据全局均值向量和归一化的先验概率计算样本偏差平方和。高斯分布的 均值,此时已经进行了更新,在接收到服务器端发送的全局均值向量后,根据当前样本隶属 于各个高斯分布的后验概率
Figure 526140DEST_PATH_IMAGE035
(即步骤S4021中获得的归一化处理后的先验概率
Figure 34613DEST_PATH_IMAGE035
)计算样 本偏差平方和
Figure 541818DEST_PATH_IMAGE036
Figure 285783DEST_PATH_IMAGE037
S4062、将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。 可以将各个高斯分布的样本偏差平方和
Figure 257150DEST_PATH_IMAGE038
封装为一个多维矩阵
Figure 123475DEST_PATH_IMAGE039
Figure 790079DEST_PATH_IMAGE040
Figure 400052DEST_PATH_IMAGE039
通过TEE接口发送至服务器端,用于更新协方差。
S408、将所述协方差数据发送至服务器端,以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差,以及根据该全局协方差计算全局后验概率。
S410、接收服务器端发送的全局后验概率,将该全局后验概率作为下一轮迭代的先验概率,并采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型。
根据某些可选的实施例,为了提高所得到的模型的精度,可以对所采用的先验概率、均值和协方差增加随机数后,多次重新计算。由于EM算法容易陷入局部最优值,而无法获得全局最优值,可以经过多次混淆初始化(例如,对初始化时使用的均值、方差和权重增加随机数,重新设定初始化条件),记录目标函数值最大的参数作为最佳参数。
根据某些可选的实施例,所述方法还包括:
S412、确定目标数据。该步骤主要用于各参与方端对本地的数据进行差分隐私处理,其中,目标数据包括中间数据和协方差,确定目标数据包括如下步骤:
S4121、对于样本数据中数值型的第一数据,向第一数据中添加噪声数据进行扰动,以依据扰动后的数据,确定所述目标数据,其中,所述噪声数据符合拉普拉斯分布对于数值型数据而言,直接对输出的数值结果加入噪声实现差分隐私。
S4122、对于样本数据中非数值型的第二数据,依据指数机制确定各个第二数据的返回概率,以依据返回概率确定待统计数据,以依据待统计数据确定所述目标数据。对于非数值型数据而言,输出是一组离散数据中的元素。指数机制的主要构思在于,当接收到一个查询之后,不是确定性的输出一个 离散数据结果,而是以一定的概率值返回结果,从而实现差分隐私。该概率值可以由打分函数确定,得分高的输出概率高,得分低的输出概率低。
通过差分隐私处理,可以对各参与方端的本地数据进行保护,即使发生数据泄露等情况时,也可以最大程度地保护各参与方端的本地数据的隐私和安全。
本发明的实施例,还提供了一种基于高斯混合模型的用户群分析方法,应用于参与方的客户端,所述方法包括如下步骤:
S302、对待分析用户数据添加先验知识,并向服务器端发送待分析用户数据和对应的先验知识,以使得服务器端根据待分析用户数据和先验知识,建立联邦高斯混合模型。其中,可以通过预设方式添加先验知识;或者,通过聚类分析获得先验知识并进行添加。
S304、向服务器端提供后验概率,并与服务器端进行联合计算,以确定所述联邦高斯混合模型的参数。
S306、采用该联邦高斯混合模型进行用户群分析。用户群的分析可以包括如下步骤:
根据联邦高斯混合模型计算得到各个样本的后验概率;
根据所述后验概率的大小对样本进行用户群分析,若后验概率大于第一阈值,认为其对应的用户样本极大可能属于该用户群;若后验概率存在多个位于第二阈值附近的值,认为其对应的用户样本可划分到对应的多个用户群;若后验概率小于第三阈值,认为联邦高斯混合模型的参数不合适。
根据联邦高斯混合模型计算得到分布和权重信息,计算各个样本的后验概率,后验概率一定程度的反映了样本属于该用户群的可能性。因此,依据后验概率值的大小将样本划分到相应的目标用户群,完成用户群的识别。例如后验概率大于0.7,可以认为用户极大可能属于该用户群。如果后验概率最大值对应的元素有多个,则该样本可划分到对应的多个用户群。如果后验概率值都不太大,则可认为此次用户群构建的效果不佳。在这里,可以根据各参与方对于本地的样本进行用户群划分的反馈情况,对模型参数进行调整以实现持续优化。
本发明的实施例,还提供了一种基于高斯混合模型的金融用户群分析方法,应用于服务器端,图3中示出了该方法的流程图,所述方法包括如下步骤:
S602、接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;
S604、在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;
S606、将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
S608、接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行金融用户群的划分,以对金融用户群的用户发送相应的金融推荐信息;
S610、在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
本发明该实施例的技术方案,可用于金融用户群的分析。一般来说,同一用户群的消费习惯较为相似,具有一定的共同性,推荐相关的金融产品容易获得较好的效果。对同一用户群的购买情况进行求并集,并统计各个产品的购买量降序排序,即购买次数越多的产品该类该用户群再次购买的可能性越大,可向该类用户定向推销类似产品。此外,还可以对各个用户群进一步进行分析,例如通过对用户群的人数、特征、行为属性等进行分析,研发针对该群体的金融产品。当提供新的用户数据时,可以根据高斯模型和权重值直接将其划分到对应的用户群中,推荐相关的产品。
本发明的实施例,还提供了一种基于高斯混合模型的用户群分析装置,应用于服务器端,图4中示出了该装置的构成框图,所述装置包括:
中间数据获取模块401,用于接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;
均值向量更新模块402,用于在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;
协方差数据获取模块403,用于将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;接收多个参与方发送的协方差数据;
后验概率更新模块404,用于在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型;
高斯混合模型生成模块405,用于在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型.
本发明上述实施例提供的基于高斯混合模型的用户群分析装置中各个模块实现其功能的具体过程与本发明上述实施例提供的基于高斯混合模型的用户群分析方法的各步骤相同,因此,此处将省略其重复描述。
本发明的实施例,还提供了一种电子设备,图5所示为本发明一实施例提供的电子设备的结构示意图。如图5所示,该电子设备500包括:一个或多个处理器501和存储器502;以及存储在存储器502中的计算机程序指令,计算机程序指令在被处理器501运行时使得处理器501执行如上述任一实施例的基于高斯混合模型的用户群或金融用户群分析方法。处理器501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器502可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1001可以运行程序指令,以实现上文的本发明的各个实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤以及/或者其他期望的功能。
在一些实施例中,电子设备500还可以包括:输入装置503和输出装置504,这些组件通过总线系统和/或其他形式的连接机构(图5中未示出)互连。例如,在该电子设备是单机设备时,该输入装置503可以是通信网络连接器,用于从外部的可移动设备接收所采集的输入信号。此外,该输入设备503还可以包括例如键盘、鼠标、麦克风等。该输出装置504可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本发明的各个实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
应当理解的是,本发明实施例中的处理器可以为中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
综上所述,本发明实施例涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置,所述基于高斯混合模型的用户群分析方法包括:接收多个参与方发送的与后验概率相关的中间数据;在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量;将所述全局均值向量发送至多个参与方;接收多个参与方发送的协方差数据;在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分。本发明实施例的技术方案,相对于有监督的机器学习算法,高斯混合模型无需用户的标签数据信息,避免了人工标记的偏向性,基更具灵活性,直接从数据中提取相应的用户群,不仅得到了样本归属的用户群标签,还找到了用户群的分布信息,更加符合用户群探索的需要。相对于无监督聚类算法,高斯混合模型对异常数据依据概率进行用户群划分,呈现出一定的稳健性。由于高斯混合模型存在在小数据集上表现差的特点,基于TEE的联邦学习方法通过结合多个参与方的数据,在保证数据安全性的同时丰富了数据集,进一步提高了获得模型的精度。
应当理解的是,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于高斯混合模型的用户群分析方法,其特征在于,应用于服务器端,所述方法包括:
接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;其中,所述与后验概率相关的中间数据包括Rp和Sp;Rp为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,Sp为归一化的先验概率与本地样本数据的乘积和矩阵,所述本地样本数据包括各参与方用于构建用户群画像的用户数据;所述高斯混合模型采用以下目标函数表示:
Figure FDA0004184042330000011
其中,Xi表示第i个用户样本;P表示参与方总数;Np表示第p个参与方的样本总数;K表示用户群个数,Dk表示第k个用户群对应的高斯分布;ωk是第k个高斯分布的先验概率;αp表示标记用户数据样本的来源的二值参数,αp为隐变量;
在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将Rp进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度Rk,并利用Rk和Sp计算得到全局均值向量;
将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
接收多个参与方发送的协方差数据;
在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行潜在用户群的划分;
在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当后验概率偏差小于偏差阈值时,向各参与方发送停止迭代指令,以使得各参与方根据停止迭代指令停止迭代,得到收敛的高斯混合模型,各参与方在接收停止迭代指令前暂停迭代;
当后验概率偏差大于或等于偏差阈值时,向各参与方发送继续迭代指令,以使得各参与方依据继续迭代指令进行迭代,各参与方在接收继续迭代指令前暂停迭代。
3.根据权利要求1所述的方法,其特征在于,所述先验概率包括样本属于用户群各类别的权重;
用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得:接收各个参与方发送的多个初始类别数,所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到;
根据所述多个初始类别数建立预设数列,该预设数列为差值为1的等差数列,该预设数列的第一值为多个初始类别数中最小的类别数值,最后一值为多个初始类别数相加的和值;
将多个高斯分布的初始类别数设为预设数列的第一值,其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数;
所述权重通过参与方预设获得;或者由各参与方在本地通过聚类分析获得。
4.一种基于高斯混合模型的用户群分析方法,其特征在于,应用于参与方端,所述方法包括:
根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据;其中,所述与后验概率相关的中间数据包括Rp和Sp;Rp为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,Sp为归一化的先验概率与本地样本数据的乘积和矩阵,所述本地样本数据包括参与方用于构建用户群画像的用户数据;所述高斯混合模型采用以下目标函数表示:
Figure FDA0004184042330000031
其中,Xi表示第i个用户样本;P表示参与方总数;Np表示第p个参与方的样本总数;K表示用户群个数,Dk表示第k个用户群对应的高斯分布;ωk是第k个高斯分布的先验概率;αp表示标记用户数据样本的来源的二值参数,αp为隐变量;
将所述中间数据发送至服务器端,以使得服务器端在可信执行环境中采用中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将Rp进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度Rk,并利用Rk和Sp计算得到全局均值向量;
接收服务器端发送的全局均值向量,采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
将所述协方差数据发送至服务器端,以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差,以及根据该全局协方差计算全局后验概率;
接收服务器端发送的全局后验概率,将该全局后验概率作为下一轮迭代的先验概率,并采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型。
5.根据权利要求4所述的方法,其特征在于,根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据,包括:
对所述先验概率、均值和协方差进行归一化,得到归一化的先验概率;
根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量Rp
计算得到归一化的先验概率与本地样本数据的乘积和矩阵Sp
将Rp和Sp作为所述中间数据;
采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据,包括:
根据全局均值向量和归一化的先验概率计算样本偏差平方和;
将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所采用的先验概率、均值和协方差增加随机数后,多次重新计算。
7.根据权利要求5所述的方法,其特征在于,目标数据包括中间数据和协方差,确定目标数据的步骤,包括:
对于样本数据中数值型的第一数据,向第一数据中添加噪声数据进行扰动,以依据扰动后的数据,确定所述目标数据,其中,所述噪声数据符合拉普拉斯分布;
对于样本数据中非数值型的第二数据,依据指数机制确定各个第二数据的返回概率,以依据返回概率确定待统计数据,以依据待统计数据确定所述目标数据。
8.一种基于高斯混合模型的金融用户群分析方法,其特征在于,应用于服务器端,所述方法包括:
接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;其中,所述与后验概率相关的中间数据包括Rp和Sp;Rp为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,Sp为归一化的先验概率与本地样本数据的乘积和矩阵,所述本地样本数据包括各参与方用于构建金融用户群画像的用户数据;所述高斯混合模型采用以下目标函数表示:
Figure FDA0004184042330000051
其中,Xi表示第i个用户样本;P表示参与方总数;Np表示第p个参与方的样本总数;K表示用户群个数,Dk表示第k个用户群对应的高斯分布;ωk是第k个高斯分布的先验概率;αp表示标记用户数据样本的来源的二值参数,αp为隐变量;
在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将Rp进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度Rk,并利用Rk和Sp计算得到全局均值向量;
将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;
接收多个参与方发送的协方差数据;
在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型,以依据收敛的高斯混合模型进行金融用户群的划分,以对金融用户群的用户发送相应的金融推荐信息;
在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
9.一种基于高斯混合模型的用户群分析装置,其特征在于,应用于服务器端,所述装置包括:
中间数据获取模块,用于接收多个参与方发送的与后验概率相关的中间数据,每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得;其中,所述与后验概率相关的中间数据包括Rp和Sp;Rp为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量,Sp为归一化的先验概率与本地样本数据的乘积和矩阵,所述本地样本数据包括各参与方用于构建用户群画像的用户数据;所述高斯混合模型采用以下目标函数表示:
Figure FDA0004184042330000061
其中,Xi表示第i个用户样本;P表示参与方总数;Np表示第p个参与方的样本总数;K表示用户群个数,Dk表示第k个用户群对应的高斯分布;ωk是第k个高斯分布的先验概率;αp表示标记用户数据样本的来源的二值参数,αp为隐变量;
均值向量更新模块,用于在可信执行环境中,根据所接收的多个中间数据进行联合计算,得到全局均值向量,包括:在可信执行环境中将Rp进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度Rk,并利用Rk和Sp计算得到全局均值向量;
协方差数据获取模块,用于将所述全局均值向量发送至多个参与方,以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据;接收多个参与方发送的协方差数据;
后验概率更新模块,用于在可信执行环境中根据该协方差数据,计算得到对应各个高斯分布的全局协方差,并根据该全局协方差计算全局后验概率,将该全局后验概率作为下一轮迭代的先验概率发至多个参与方,使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代,直至得到收敛的高斯混合模型;
高斯混合模型生成模块,用于在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛,并在参数收敛时停止迭代过程,得到收敛的高斯混合模型。
CN202310015174.4A 2023-01-06 2023-01-06 基于高斯混合模型的用户群和金融用户群分析方法及装置 Active CN115905648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310015174.4A CN115905648B (zh) 2023-01-06 2023-01-06 基于高斯混合模型的用户群和金融用户群分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310015174.4A CN115905648B (zh) 2023-01-06 2023-01-06 基于高斯混合模型的用户群和金融用户群分析方法及装置

Publications (2)

Publication Number Publication Date
CN115905648A CN115905648A (zh) 2023-04-04
CN115905648B true CN115905648B (zh) 2023-05-23

Family

ID=85744572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310015174.4A Active CN115905648B (zh) 2023-01-06 2023-01-06 基于高斯混合模型的用户群和金融用户群分析方法及装置

Country Status (1)

Country Link
CN (1) CN115905648B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502732B (zh) * 2023-06-29 2023-10-20 杭州金智塔科技有限公司 基于可信执行环境的联邦学习方法以及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events
CN103559510B (zh) * 2013-11-12 2017-01-18 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10999247B2 (en) * 2017-10-24 2021-05-04 Nec Corporation Density estimation network for unsupervised anomaly detection
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
CN111898764A (zh) * 2020-06-23 2020-11-06 华为技术有限公司 联邦学习的方法、装置和芯片
CN112185395B (zh) * 2020-09-04 2021-04-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于差分隐私的联邦声纹识别方法
CN112434758B (zh) * 2020-12-17 2024-02-13 浙江工业大学 基于聚类的联邦学习搭便车攻击防御方法
CN113553377B (zh) * 2021-07-21 2022-06-21 湖南天河国云科技有限公司 基于区块链和联邦学习的数据共享方法及装置

Also Published As

Publication number Publication date
CN115905648A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
JP7276757B2 (ja) モデル公平性のためのシステムおよび方法
US9852212B2 (en) Dynamic clustering for streaming data
KR102556896B1 (ko) 기계 학습 모델을 사용하여 편향된 데이터 거절
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
US11449788B2 (en) Systems and methods for online annotation of source data using skill estimation
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
US11275994B2 (en) Unstructured key definitions for optimal performance
Liu et al. Novel evolutionary multi-objective soft subspace clustering algorithm for credit risk assessment
CN112348079B (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN111639696B (zh) 一种用户分类方法及装置
CN115905648B (zh) 基于高斯混合模型的用户群和金融用户群分析方法及装置
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Straton et al. Big social data analytics for public health: Predicting facebook post performance using artificial neural networks and deep learning
Ertekin et al. Approximating the crowd
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN112560105A (zh) 保护多方数据隐私的联合建模方法及装置
Thinh Qos prediction for web services based on Restricted Boltzmann Machines
CN113553501A (zh) 一种基于人工智能的用户画像预测的方法及装置
CN110941714A (zh) 分类规则库构建方法、应用分类方法及装置
US11900426B1 (en) Apparatus and method for profile assessment
US20220156618A1 (en) Ensemble classification algorithms having subclass resolution
CN116501993B (zh) 房源数据推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant