CN115905648B

CN115905648B - 基于高斯混合模型的用户群和金融用户群分析方法及装置

Info

Publication number: CN115905648B
Application number: CN202310015174.4A
Authority: CN
Inventors: 尚梦琦; 王帅; 王爽; 郑灏; 李帜; 孙琪
Original assignee: Beijing Nuowei Information Technology Co ltd
Current assignee: Beijing Nuowei Information Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-23
Anticipated expiration: 2043-01-06
Also published as: CN115905648A

Abstract

本发明实施例涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置，所述方法包括：接收多个参与方发送的中间数据；在可信执行环境中，根据中间数据进行联合计算，得到全局均值向量；将全局均值向量发送至多个参与方；接收多个参与方发送的协方差数据；根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方在本地进行迭代，直至得到收敛的高斯混合模型。本发明的技术方案，通过联邦学习方法构建模型，可以在保证数据不出域的前提下，丰富参与训练的数据集，提高模型的拟合精度，提高用户群分析的准确率。

Description

基于高斯混合模型的用户群和金融用户群分析方法及装置

技术领域

本发明实施例涉及数据挖掘和隐私数据处理技术领域，尤其涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置。

背景技术

随着信息化和数字化时代的到来，大数据技术成为了众多企业进行业务决策和客户群探索的利器。企业根据已有的用户数据，利用适合的数据挖掘方法，可以清晰的构建用户群画像。针对不同的客户群体采用不同的营销策略，推荐更符合用户偏好的产品，以实现精准营销和推广。这种方式下，简化传统人工制定营销方案的繁杂流程，降低了时间成本的同时，还进一步地提高了产品的获客率。

现有的客户群识别技术，通常通过使用大量的数据训练机器学习模型。对于类似于逻辑回归、决策树等的有监督学习，往往需要已知的用户类别标签；而当标签未知时，只能使用聚类算法或者复杂的深度学习方法获得用户群。并且，采用较少的用户数据得到的模型准确率较低，无法提供较好的预测结果。

发明内容

基于现有技术的上述情况，本发明实施例的目的在于提供一种基于高斯混合模型的用户群和金融用户群分析方法及装置，通过联邦学习方法构建模型，可以在保证数据不出域的前提下，丰富参与训练的数据集，提高模型的拟合精度，提高用户群分析的准确率。

为达到上述目的，根据本发明的第一个方面，提供了一种基于高斯混合模型的用户群分析方法，应用于服务器端，所述方法包括：

接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；所述本地样本数据包括各参与方用于构建用户群画像的用户数据；

在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；

将所述全局均值向量发送至多个参与方，以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据；

接收多个参与方发送的协方差数据；

在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行潜在用户群的划分；

在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛，并在参数收敛时停止迭代过程，得到收敛的高斯混合模型。

进一步的，所述方法还包括：

当后验概率偏差小于偏差阈值时，向各参与方发送停止迭代指令，以使得各参与方根据停止迭代指令停止迭代，得到收敛的高斯混合模型，各参与方在接收停止迭代指令前暂停迭代；

当后验概率偏差大于或等于偏差阈值时，向各参与方发送继续迭代指令，以使得各参与方依据继续迭代指令进行迭代，各参与方在接收继续迭代指令前暂停迭代。

进一步的，所述与后验概率相关的中间数据包括

和

；

为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量，

为归一化的先验概率与本地样本数据的乘积和矩阵；

在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量，包括：

在可信执行环境中将

进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度

，并利用

和

计算得到全局均值向量。

进一步的，所述先验概率包括样本属于用户群各类别的权重；

用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得：接收各个参与方发送的多个初始类别数，所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到；

根据所述多个初始类别数建立预设数列，该预设数列为差值为1的等差数列，该预设数列的第一值为多个初始类别数中最小的类别数值，最后一值为多个初始类别数相加的和值；

将多个高斯分布的初始类别数设为预设数列的第一值，其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数；

所述权重通过参与方预设获得；或者由各参与方在本地通过聚类分析获得。

进一步的，所述高斯混合模型采用以下目标函数表示：

其中，

表示第i个用户样本；P表示参与方总数；

表示第p个参与方的样本总数； K表示用户群个数，

表示第k个用户群对应的高斯分布；

是第k个高斯分布的先验概率；

表示标记用户数据样本的来源的二值参数，

为隐变量。

根据本发明的第二个方面，提供了一种基于高斯混合模型的用户群分析方法，应用于参与方端，所述方法包括：

根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据；所述本地样本数据包括参与方用于构建用户群画像的用户数据；

将所述中间数据发送至服务器端，以使得服务器端在可信执行环境中采用中间数据进行联合计算，得到全局均值向量；

接收服务器端发送的全局均值向量，采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据；

将所述协方差数据发送至服务器端，以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差，以及根据该全局协方差计算全局后验概率；

接收服务器端发送的全局后验概率，将该全局后验概率作为下一轮迭代的先验概率，并采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型。

进一步的，根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据，包括：

对所述先验概率、均值和协方差进行归一化，得到归一化的先验概率；

根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量

；

计算得到归一化的先验概率与本地样本数据的乘积和矩阵

；

将

和

作为所述中间数据；

采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据，包括：

根据全局均值向量和归一化的先验概率计算样本偏差平方和；

将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。

进一步的，所述方法还包括：

对所采用的先验概率、均值和协方差增加随机数后，多次重新计算。

进一步的，目标数据包括中间数据和协方差，确定目标数据的步骤，包括：

对于样本数据中数值型的第一数据，向第一数据中添加噪声数据进行扰动，以依据扰动后的数据，确定所述目标数据，其中，所述噪声数据符合拉普拉斯分布；

对于样本数据中非数值型的第二数据，依据指数机制确定各个第二数据的返回概率，以依据返回概率确定待统计数据，以依据待统计数据确定所述目标数据。

根据本发明的第三个方面，提供了一种基于高斯混合模型的金融用户群分析方法，应用于服务器端，所述方法包括：

接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；所述本地样本数据包括各参与方用于构建金融用户群画像的用户数据；

接收多个参与方发送的协方差数据；

在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行金融用户群的划分，以对金融用户群的用户发送相应的金融推荐信息；

根据本发明的第四个方面，提供了一种基于高斯混合模型的用户群分析装置，应用于服务器端，所述装置包括：

中间数据获取模块，用于接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；所述本地样本数据包括各参与方用于构建用户群画像的用户数据；

均值向量更新模块，用于在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；

协方差数据获取模块，用于将所述全局均值向量发送至多个参与方，以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据；接收多个参与方发送的协方差数据；

后验概率更新模块，用于在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型；

高斯混合模型生成模块，用于在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛，并在参数收敛时停止迭代过程，得到收敛的高斯混合模型。

综上所述，本发明实施例提供了一种基于高斯混合模型的用户群和金融用户群分析方法及装置，所述基于高斯混合模型的用户群分析方法包括：接收多个参与方发送的与后验概率相关的中间数据；在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；将所述全局均值向量发送至多个参与方；接收多个参与方发送的协方差数据；在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行潜在用户群的划分。本发明实施例的技术方案，相对于有监督的机器学习算法，高斯混合模型无需用户的标签数据信息，避免了人工标记的偏向性，基更具灵活性，直接从数据中提取相应的用户群，不仅得到了样本归属的用户群标签，还找到了用户群的分布信息，更加符合用户群探索的需要。相对于无监督聚类算法，高斯混合模型对异常数据依据概率进行用户群划分，呈现出一定的稳健性。由于高斯混合模型存在在小数据集上表现差的特点，基于TEE的联邦学习方法通过结合多个参与方的数据，在保证数据安全性的同时丰富了数据集，进一步提高了获得模型的精度。

附图说明

图1是本发明一个实施例提供的基于高斯混合模型的用户群分析方法的流程图；

图2是本发明另一个实施例提供的基于高斯混合模型的用户群分析方法的流程图；

图3是本发明实施例提供的基于高斯混合模型的金融用户群分析方法的流程图；

图4是本发明实施例提供的基于高斯混合模型的用户群分析装置的构成框图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

需要说明的是，除非另外定义，本发明一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

现有技术中，利用机器学习等大数据手段进行统计分析、抽象提取客户群的方式，往往需要大量的数据，而金融公司接触的客户往往有限，模型效果将受到影响。如何在保证本方数据安全的前提下，如果能融合其他公司获得的用户数据进行计算，将大大提升模型的拟合效果。另一方面，用户类别标签往往无法提前获知，采用人工标记的方式除了需要对客户群体有较深的认识外，依靠于感觉和经验进行标记可能带有一定的主观性。而如果将同一类型的样本，标记为不同的编号时，将导致模型训练混乱，影响模型的准确性。

分析以上情况，本发明实施例提供的技术方案，通过联合多方数据信息进行安全计算，对于没有已知客户分类标签的客户数据，实现准确的客户群识别与分类。对于单个金融公司获取到的客户数据往往因为地域等因素而受限，通过使用联邦学习方法，可以在保证数据不出域的前提下，丰富参与训练的数据集，提高模型的拟合精度。

对于无监督学习的聚类方法，往往基于距离判断样本的相似性，通过计算用户信息与中心点的距离，将用户划分到距离最小的簇中，实现用户群的划分，这种方式仅能提供客户群的聚簇标签，即硬分配。根据大数定理，当数据容量很大时，分布的极限往往是高斯分布，因此可以使用高斯混合模型（Gaussian Mixture Model, GMM），从样本中找到各个用户群的分布，这种方式通过概率将各个用户划分到不同的高斯模型中。

下面结合附图对本发明的技术方案进行详细说明。本发明实施例提供了一种基于高斯混合模型的用户群分析方法，应用于服务器端，图1中示出了该分析方法的流程图，所述分析方法包括如下步骤：

S202、接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得。其中，与后验概率相关的中间数据包括

和

；

为归一化的先验概率与本地样本数据的乘积和矩阵，本地样本数据包括各参与方用于构建用户群画像的用户数据。本发明该实施例中，先验概率包括样本属于用户群各类别的权重；用户群各类别的类别数根据多个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后获得。对于高斯混合模型中用户群的类别数，可以根据对用户群的认识自定义，即使用有限的混合模型，例如根据用户性别，可以确定混合成分的个数为2。但是这种信息并不都是可以提前获知，而且该值的设定具有一定的主观性，存在忽略潜在的成分出现的可能性。因此，加入狄利克雷过程（Dirichlet Process）作为混合成分的先验分布，这种方式是一种基于贝叶斯定理的非参数模型，可以根据数据自动获取混合成分的个数。接收各个参与方发送的多个初始类别数，所述初始类别数由各个参与方通过本地样本数据迭代得到本地收敛的高斯混合模型后得到；根据所述多个初始类别数建立预设数列，该预设数列为差值为1的等差数列，该预设数列的第一值为多个初始类别数中最小的类别数值，最后一值为多个初始类别数相加的和值；将多个高斯分布的初始类别数设为预设数列的第一值，其后的每一次迭代从该预设数列中取值作为该次迭代过程中高斯分布的类别数。其中，所述权重通过参与方预设获得；或者由各参与方在本地通过聚类分析获得。

高斯混合模型作为一种无监督机器学习方法，将样本依概率划分为不同的类别，本发明实施例中混合高斯模型可以利用如下似然函数作为目标函数表示：

其中，

表示第i个用户样本；P表示参与方总数；

表示第p个参与方的样本总数； K表示用户群个数，

表示第k个用户群对应的高斯分布；

是第k个高斯分布的先验概率；

表示标记用户数据样本的来源的二值参数，

为隐变量。

然而由于上述公式的似然函数中的内部嵌套了多层求和公式，所以不便对其直接利用对数似然计算。此外，用于标记数据样本的来源的二值参数

作为隐变量，其值通过对当前自变量进一步推理获得，该值的确定也可以看作为样本找到最佳分布的过程。因此，本发明实施例中使用一种迭代的算法，即期望最大化(Expectation Maximum，以下简称“EM”) 算法进行迭代，以使得一步步接近模型的最佳参数值。由于数据信息来自于各个参与方，这部分的主要计算过程需要在TEE环境下进行联邦计算，保证参与方原始数据的安全。将参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差，作为用于进行高斯混合计算的初始值，基于EM算法进行迭代求解。迭代的过程，其实是使用各个高斯分量的当前权重作为先验概率，通过与样本计算逐步优化权重值，权重值又将作为新的先验概率参与后续的计算，该过程将使得各个高斯模型的权重逐步接近目标值。

S204、在可信执行环境（TrustedExecutionEnvironment，以下简称“TEE”）中，根据所接收的多个中间数据进行联合计算，得到全局均值向量。联合计算可以通过在可信执行环境中将

，并利用

和

计算得到全局均值向量。考虑到数据的安全性，可以将中间数据

、

等作为中间数据，接入TEE提供的联邦学习接口，TEE内部聚合各个参与方的中间结果，完成各个高斯模型的参数的更新。

通过聚合P个参与方提供的隶属度和向量

，计算P个参与方的用户样本属于第k 个高斯分布的总隶属度

：

TEE聚合参与方计算得到的

更新均值向量，更新的均值向量

采用下式计算：

S206、将所述全局均值向量发送至多个参与方，以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据。

S208、接收多个参与方发送的协方差数据；在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行潜在用户群的划分。其中，后验概率是采用本轮均值更新前的后验概率，后验概率作为下轮均值更新前的先验概率。该步骤中，接收各参与方发送的偏差平方和数据和总隶属度

，计算得到更新后的各高斯分布的协方差

和用于下一次迭代使用的高斯分布的权重值

：

其中，N为总样本个数。

S210、在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛，并在参数收敛时停止迭代过程，得到收敛的高斯混合模型。

根据某些可选的实施例，所述方法还包括如下步骤：

S212、当后验概率偏差小于偏差阈值时，向各参与方发送停止迭代指令，以使得各参与方根据停止迭代指令停止迭代，得到收敛的高斯混合模型，各参与方在接收停止迭代指令前暂停迭代；当后验概率偏差大于或等于偏差阈值时，向各参与方发送继续迭代指令，以使得各参与方依据继续迭代指令进行迭代，各参与方在接收继续迭代指令前暂停迭代。

根据某些可选的实施例，所述方法还包括：接收各参与方采用该联邦高斯混合模型进行用户群分析的结果，对联邦高斯混合模型的参数进行调整。例如，可以推送多个群体的信息给参与方，根据多个参与方的反馈（选择其中一个进行使用），对模型的参数进行调整。

本发明的实施例还提供了一种基于高斯混合模型的用户群分析方法，应用于参与方端，图2中示出了该方法的流程图，所述方法包括如下步骤：

S402、根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据。各个参与方端，可以采用基于“随机”或者“聚类”方法，自动生成一组相关的先验概率参与模型计算。若选择使用随机方法，将随机生成一组[0,1]区间内和为1的数值作为各个高斯模型的先验概率；若选择使用聚类方法，将基于联邦学习的聚类方法作为高斯混合模型的前导步骤，假设样本完全来自某个分布，并根据聚簇元素个数占总样本数的比例作为各个高斯模型的先验概率，而将聚类中心的均值和协方差作为高斯模型的初值。本发明该实施例根据以下步骤计算获得中间数据：

S4021、对先验概率、均值和协方差进行归一化，得到归一化的先验概率。该步骤中，各个参与方在本地通过当前模型的先验概率（样本属于用户群各类别的分布权重

）、均值

和协方差

，计算样本属于各个高斯模型的概率，该概率可以根据样本和样本的先验概率计算得到，其值的大小直接反映了样本隶属于各个高斯模型的程度，将用于之后高斯模型的参数更新。此外，这里为了保证概率和为1，进行了归一化处理：

其中，

表示第i个用户样本，

表示第k个参与方在本地得到的均值，

表示第k 个参与方在本地得到的方差，

表示第k个高斯分布的先验概率，

表示方差公式，

表示归一化处理后的先验概率。

S4022、根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量

，该

提供了当前参与方中样本的占比情况，可以表示为：

S4023、计算得到归一化的先验概率与本地样本数据的乘积和矩阵

，用于均值的更新，可以采用以下公式计算隶属度与样本的乘积和矩阵

：

将计算得到的

和

作为中间数据。

S404、将所述中间数据发送至服务器端，以使得服务器端在可信执行环境中采用中间数据进行联合计算，得到全局均值向量。

S406、接收服务器端发送的全局均值向量，采用全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据，具体来说，可以根据以下步骤计算获得协方差数据：

S4061、根据全局均值向量和归一化的先验概率计算样本偏差平方和。高斯分布的均值，此时已经进行了更新，在接收到服务器端发送的全局均值向量后，根据当前样本隶属于各个高斯分布的后验概率

（即步骤S4021中获得的归一化处理后的先验概率

）计算样本偏差平方和

：

S4062、将各个高斯分布的样本偏差平方和封装为一个多维矩阵作为协方差数据。可以将各个高斯分布的样本偏差平方和

封装为一个多维矩阵

，

将

通过TEE接口发送至服务器端，用于更新协方差。

S408、将所述协方差数据发送至服务器端，以使得服务器端在可信执行环境中根据该协方差数据计算得到对应各个高斯分布的全局协方差，以及根据该全局协方差计算全局后验概率。

S410、接收服务器端发送的全局后验概率，将该全局后验概率作为下一轮迭代的先验概率，并采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型。

根据某些可选的实施例，为了提高所得到的模型的精度，可以对所采用的先验概率、均值和协方差增加随机数后，多次重新计算。由于EM算法容易陷入局部最优值，而无法获得全局最优值，可以经过多次混淆初始化（例如，对初始化时使用的均值、方差和权重增加随机数，重新设定初始化条件），记录目标函数值最大的参数作为最佳参数。

根据某些可选的实施例，所述方法还包括：

S412、确定目标数据。该步骤主要用于各参与方端对本地的数据进行差分隐私处理，其中，目标数据包括中间数据和协方差，确定目标数据包括如下步骤：

S4121、对于样本数据中数值型的第一数据，向第一数据中添加噪声数据进行扰动，以依据扰动后的数据，确定所述目标数据，其中，所述噪声数据符合拉普拉斯分布对于数值型数据而言，直接对输出的数值结果加入噪声实现差分隐私。

S4122、对于样本数据中非数值型的第二数据，依据指数机制确定各个第二数据的返回概率，以依据返回概率确定待统计数据，以依据待统计数据确定所述目标数据。对于非数值型数据而言，输出是一组离散数据中的元素。指数机制的主要构思在于，当接收到一个查询之后，不是确定性的输出一个离散数据结果，而是以一定的概率值返回结果，从而实现差分隐私。该概率值可以由打分函数确定，得分高的输出概率高，得分低的输出概率低。

通过差分隐私处理，可以对各参与方端的本地数据进行保护，即使发生数据泄露等情况时，也可以最大程度地保护各参与方端的本地数据的隐私和安全。

本发明的实施例，还提供了一种基于高斯混合模型的用户群分析方法，应用于参与方的客户端，所述方法包括如下步骤：

S302、对待分析用户数据添加先验知识，并向服务器端发送待分析用户数据和对应的先验知识，以使得服务器端根据待分析用户数据和先验知识，建立联邦高斯混合模型。其中，可以通过预设方式添加先验知识；或者，通过聚类分析获得先验知识并进行添加。

S304、向服务器端提供后验概率，并与服务器端进行联合计算，以确定所述联邦高斯混合模型的参数。

S306、采用该联邦高斯混合模型进行用户群分析。用户群的分析可以包括如下步骤：

根据联邦高斯混合模型计算得到各个样本的后验概率；

根据所述后验概率的大小对样本进行用户群分析，若后验概率大于第一阈值，认为其对应的用户样本极大可能属于该用户群；若后验概率存在多个位于第二阈值附近的值，认为其对应的用户样本可划分到对应的多个用户群；若后验概率小于第三阈值，认为联邦高斯混合模型的参数不合适。

根据联邦高斯混合模型计算得到分布和权重信息，计算各个样本的后验概率，后验概率一定程度的反映了样本属于该用户群的可能性。因此，依据后验概率值的大小将样本划分到相应的目标用户群，完成用户群的识别。例如后验概率大于0.7，可以认为用户极大可能属于该用户群。如果后验概率最大值对应的元素有多个，则该样本可划分到对应的多个用户群。如果后验概率值都不太大，则可认为此次用户群构建的效果不佳。在这里，可以根据各参与方对于本地的样本进行用户群划分的反馈情况，对模型参数进行调整以实现持续优化。

本发明的实施例，还提供了一种基于高斯混合模型的金融用户群分析方法，应用于服务器端，图3中示出了该方法的流程图，所述方法包括如下步骤：

S602、接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；

S604、在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；

S606、将所述全局均值向量发送至多个参与方，以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据；

S608、接收多个参与方发送的协方差数据；在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行金融用户群的划分，以对金融用户群的用户发送相应的金融推荐信息；

S610、在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛，并在参数收敛时停止迭代过程，得到收敛的高斯混合模型。

本发明该实施例的技术方案，可用于金融用户群的分析。一般来说，同一用户群的消费习惯较为相似，具有一定的共同性，推荐相关的金融产品容易获得较好的效果。对同一用户群的购买情况进行求并集，并统计各个产品的购买量降序排序，即购买次数越多的产品该类该用户群再次购买的可能性越大，可向该类用户定向推销类似产品。此外，还可以对各个用户群进一步进行分析，例如通过对用户群的人数、特征、行为属性等进行分析，研发针对该群体的金融产品。当提供新的用户数据时，可以根据高斯模型和权重值直接将其划分到对应的用户群中，推荐相关的产品。

本发明的实施例，还提供了一种基于高斯混合模型的用户群分析装置，应用于服务器端，图4中示出了该装置的构成框图，所述装置包括：

中间数据获取模块401，用于接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；

均值向量更新模块402，用于在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；

协方差数据获取模块403，用于将所述全局均值向量发送至多个参与方，以使得多个参与方采用该全局均值向量和归一化的先验概率获得对应各个高斯分布的协方差数据；接收多个参与方发送的协方差数据；

后验概率更新模块404，用于在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型；

高斯混合模型生成模块405，用于在可信执行环境中根据该全局后验概率和上一轮迭代的全局后验概率的后验概率偏差判断高斯混合模型的参数是否收敛，并在参数收敛时停止迭代过程，得到收敛的高斯混合模型.

本发明上述实施例提供的基于高斯混合模型的用户群分析装置中各个模块实现其功能的具体过程与本发明上述实施例提供的基于高斯混合模型的用户群分析方法的各步骤相同，因此，此处将省略其重复描述。

本发明的实施例，还提供了一种电子设备，图5所示为本发明一实施例提供的电子设备的结构示意图。如图5所示，该电子设备500包括：一个或多个处理器501和存储器502；以及存储在存储器502中的计算机程序指令，计算机程序指令在被处理器501运行时使得处理器501执行如上述任一实施例的基于高斯混合模型的用户群或金融用户群分析方法。处理器501可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器502可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行程序指令，以实现上文的本发明的各个实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤以及/或者其他期望的功能。

在一些实施例中，电子设备500还可以包括：输入装置503和输出装置504，这些组件通过总线系统和/或其他形式的连接机构（图5中未示出）互连。例如，在该电子设备是单机设备时，该输入装置503可以是通信网络连接器，用于从外部的可移动设备接收所采集的输入信号。此外，该输入设备503还可以包括例如键盘、鼠标、麦克风等。该输出装置504可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本发明的各个实施例的基于高斯混合模型的用户群或金融用户群分析方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

应当理解的是，本发明实施例中的处理器可以为中央处理单元（CentralProcessing Unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

综上所述，本发明实施例涉及一种基于高斯混合模型的用户群和金融用户群分析方法及装置，所述基于高斯混合模型的用户群分析方法包括：接收多个参与方发送的与后验概率相关的中间数据；在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量；将所述全局均值向量发送至多个参与方；接收多个参与方发送的协方差数据；在可信执行环境中根据该协方差数据，计算得到对应各个高斯分布的全局协方差，并根据该全局协方差计算全局后验概率，将该全局后验概率作为下一轮迭代的先验概率发至多个参与方，使得多个参与方本地采用该先验概率、全局均值向量和全局协方差进行迭代，直至得到收敛的高斯混合模型，以依据收敛的高斯混合模型进行潜在用户群的划分。本发明实施例的技术方案，相对于有监督的机器学习算法，高斯混合模型无需用户的标签数据信息，避免了人工标记的偏向性，基更具灵活性，直接从数据中提取相应的用户群，不仅得到了样本归属的用户群标签，还找到了用户群的分布信息，更加符合用户群探索的需要。相对于无监督聚类算法，高斯混合模型对异常数据依据概率进行用户群划分，呈现出一定的稳健性。由于高斯混合模型存在在小数据集上表现差的特点，基于TEE的联邦学习方法通过结合多个参与方的数据，在保证数据安全性的同时丰富了数据集，进一步提高了获得模型的精度。

应当理解的是，以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于高斯混合模型的用户群分析方法，其特征在于，应用于服务器端，所述方法包括：

接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；其中，所述与后验概率相关的中间数据包括R_p和S_p；R_p为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量，S_p为归一化的先验概率与本地样本数据的乘积和矩阵，所述本地样本数据包括各参与方用于构建用户群画像的用户数据；所述高斯混合模型采用以下目标函数表示：

其中，X_i表示第i个用户样本；P表示参与方总数；N_p表示第p个参与方的样本总数；K表示用户群个数，D_k表示第k个用户群对应的高斯分布；ω_k是第k个高斯分布的先验概率；α_p表示标记用户数据样本的来源的二值参数，α_p为隐变量；

在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量，包括：在可信执行环境中将R_p进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度R_k，并利用R_k和S_p计算得到全局均值向量；

接收多个参与方发送的协方差数据；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述先验概率包括样本属于用户群各类别的权重；

4.一种基于高斯混合模型的用户群分析方法，其特征在于，应用于参与方端，所述方法包括：

根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据；其中，所述与后验概率相关的中间数据包括R_p和S_p；R_p为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量，S_p为归一化的先验概率与本地样本数据的乘积和矩阵，所述本地样本数据包括参与方用于构建用户群画像的用户数据；所述高斯混合模型采用以下目标函数表示：

将所述中间数据发送至服务器端，以使得服务器端在可信执行环境中采用中间数据进行联合计算，得到全局均值向量，包括：在可信执行环境中将R_p进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度R_k，并利用R_k和S_p计算得到全局均值向量；

5.根据权利要求4所述的方法，其特征在于，根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得与后验概率相关的中间数据，包括：

根据所述归一化的先验概率得到本地样本数据对各个高斯分布的隶属度和向量R_p；

计算得到归一化的先验概率与本地样本数据的乘积和矩阵S_p；

将R_p和S_p作为所述中间数据；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，目标数据包括中间数据和协方差，确定目标数据的步骤，包括：

8.一种基于高斯混合模型的金融用户群分析方法，其特征在于，应用于服务器端，所述方法包括：

接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；其中，所述与后验概率相关的中间数据包括R_p和S_p；R_p为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量，S_p为归一化的先验概率与本地样本数据的乘积和矩阵，所述本地样本数据包括各参与方用于构建金融用户群画像的用户数据；所述高斯混合模型采用以下目标函数表示：

接收多个参与方发送的协方差数据；

9.一种基于高斯混合模型的用户群分析装置，其特征在于，应用于服务器端，所述装置包括：

中间数据获取模块，用于接收多个参与方发送的与后验概率相关的中间数据，每个所述中间数据由对应的参与方根据本地样本数据对应高斯混合模型中各个高斯分布的先验概率、均值和协方差获得；其中，所述与后验概率相关的中间数据包括R_p和S_p；R_p为各参与方计算得到的本地样本数据对各个高斯分布的隶属度和向量，S_p为归一化的先验概率与本地样本数据的乘积和矩阵，所述本地样本数据包括各参与方用于构建用户群画像的用户数据；所述高斯混合模型采用以下目标函数表示：

均值向量更新模块，用于在可信执行环境中，根据所接收的多个中间数据进行联合计算，得到全局均值向量，包括：在可信执行环境中将R_p进行聚合得到P个参与方的用户样本属于第k个高斯分布的总隶属度R_k，并利用R_k和S_p计算得到全局均值向量；