CN113688934A

CN113688934A - 基于迁移学习分布式期望最大化金融数据聚类方法及系统

Info

Publication number: CN113688934A
Application number: CN202111026341.2A
Authority: CN
Inventors: 周劲; 王荣荣; 韩士元; 王琳; 杜韬; 纪科; 张坤; 赵亚欧
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-23
Anticipated expiration: 2041-09-02
Also published as: CN113688934B

Abstract

本发明公开了一种基于迁移学习分布式期望最大化金融数据聚类方法，用于细分金融领域分布式P2P网络环境下的客户数据。包括：获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储；各个节点分别进行聚类分析，得到初始聚类结果，并基于各个节点上的初始聚类结果进行统计分析，得到迁移学习的初始模型参数集合；根据设定的目标函数，基于当前模型参数集合计算当前模型目标函数值；在邻居节点之间进行模型参数迁移；对于各个节点上的每个数据点进行类别划分。本发明通过在分布式期望最大化算法中引入迁移学习项，能够显示揭示节点间的协作机制，加速算法收敛，同时，提高聚类精度，精准细分金融客户。

Description

基于迁移学习分布式期望最大化金融数据聚类方法及系统

技术领域

本发明属于金融数据挖掘技术领域，尤其涉及一种基于迁移学习分布式期望最大化金融数据聚类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

用户运营领域的应用，从典型应用场景看，产品运营方面以产品精准营销为主线，包括产品推广、个性化推介以及营销渠道分析等细分环节。用户运营方面以用户群的精准识别和特征分类为重点。

在如今智能手机、平板电脑、可穿戴设备、传感器以及物联网等移动终端大规模普及的时代，精细化运营成为金融领域的核心竞争力。金融行业的客户群体在不断分化，不同年龄，不同消费习惯，不同偏好的客户对金融产品的需求都不尽相同，很少存在一种产品能够满足所有客户的需求，同时，金融产品也需要精细化，为不同的客户定制不同产品。只有真正掌握客户的行为需求，才能进一步开展精准营销与个性化推荐，从而为企业创造更大的商业价值。聚类作为重要的数据挖掘工具之一，在用户细分、个性化推荐、图像分割等领域已得到广泛的应用。基于期望最大化(Expectation maximization,EM)的数据聚类，由于其严谨的数学推理与强大的拟合能力，深受计算机科学界与统计学界学者们的青睐。然而，随着高性能计算与分布式网络的不断发展，金融数据往往分散到不同的处理节点上，不同业务部门之间无法直接实现数据共享，只能共享某些提炼后的知识信息；另一方面，金融企业有时还需要借助外部行业数据或有利知识，来补充和完善自己的用户数据库。在这种情况下，无法将全部用户数据集中到同一个处理中心进行统一聚类，传统的集中式聚类算法将不再适用。如图2所示，考虑到数据隐私和安全保护的需要，或者每个处理节点上通信资源的限制，将所有业务部门的数据收集并汇总到一个中央单元进行统一聚类通常是无法实现的。因此，迫切需要开发分布式聚类算法来解决分布式对等(peer-to-peer,P2P)网络环境下的金融数据聚类问题。这一挑战性任务长期以来备受学者们的关注，也提出了很多分布式聚类算法。专利201811397114.9提出了一种基于平均共识的分布式模糊c均值聚类算法用于处理同步传感器网络数据，专利202010131908.1提出了物联网环境下基于平均共识的分布式软聚类算法，这两种方法与现有技术相比，能提升聚类准确度，但利用平均共识策略在更新聚类中心时需要消耗大量迭代时间以达到全局一致，导致聚类效率低下。此外，节点间共享参数的协作机制隐藏在聚类迭代过程中，也不能很好地揭示和解释。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于迁移学习分布式期望最大化金融数据聚类方法及系统。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于迁移学习分布式期望最大化金融数据聚类方法，包括以下步骤：

获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储；

各个节点分别进行聚类分析，得到初始聚类结果，并基于各个节点上的初始聚类结果进行统计分析，得到迁移学习的初始模型参数集合；

根据设定的目标函数，基于当前模型参数集合计算当前模型目标函数值；在邻居节点之间进行模型参数迁移，计算新的模型目标函数值，若两次模型目标函数值的差值超过设定阈值，重复该步骤，否则，迭代终止；

对于各个节点上的每个数据点进行类别划分。

进一步地，所述统计分析包括计算各个节点上每个类别所占比例、每个类别相应的簇均值和簇协方差矩阵。

进一步地，所述聚类分析采用K-means++聚类方法。

进一步地，所述参数迁移包括交换簇均值和簇逆协方差矩阵。

进一步地，所述参数迁移还包括：

更新每个节点的后验概率、每个节点上各类别的混合比例、每个节点的簇均值与相应的拉格朗日乘子、每个节点的协方差矩阵与相应的拉格朗日乘子，以及，每个节点的迁移学习因子。

进一步地，所述设定的目标函数为：

其中，t表示迭代次数，J表示节点个数，N_j表示第j个节点上的数据点个数，K表示类别个数，γ_jnk表示第j个节点第n个数据点第k类的后验概率，λ_ji为第j个节点到第i个节点之间的学习因子，f(x_jn；φ_jk)表示高斯分布函数，μ_jk表示第j个节点第k类的簇均值，∑_jk表示第j个节点第k类的协方差矩阵。

进一步地，对于各个节点上的每个数据点进行类别划分包括：对于各个节点上的每个数据点，选择其后验概率最大值所在的簇作为聚类结果。

一个或多个实施例提供了一种基于迁移学习分布式期望最大化金融数据聚类系统，包括：

数据获取模块，用于获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储；

初始聚类模块，用于各个节点分别进行聚类分析，得到初始聚类结果，并基于各个节点上的初始聚类结果进行统计分析，得到迁移学习的初始模型参数集合；

迁移学习模块，用于根据设定的目标函数，基于当前模型参数集合计算当前模型目标函数值；在邻居节点之间进行模型参数迁移，计算新的模型目标函数值，若两次模型目标函数值的差值超过设定阈值，重复该步骤，否则，迭代终止；

类别划分模块，用于对于各个节点上的每个数据点进行类别划分。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于迁移学习分布式期望最大化金融数据聚类方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于迁移学习分布式期望最大化金融数据聚类方法。

以上一个或多个技术方案存在以下有益效果：

本发明针对分布在不同处理单元上的金融客户数据，在传统的基于EM的分布式聚类基础上，借鉴迁移学习的思想，提出了一种基于迁移学习的分布式期望最大化(TransferDistributed Expectation Maximization，TDEM)聚类方法来细分金融客户，为企业实现精准营销提供基础。网络中每个处理节点既被视为源域，又被看作目标域，它们彼此相互学习，从而提高分布式聚类性能。

在分布式期望最大化(DEM)的目标函数中引入迁移学习项，以显式揭示节点之间共享参数的交互机制，并加速聚类的全局收敛，缓解共享参数一致性导致的迭代时间消耗问题。同时，在约束条件上进一步简化中间变量，并定义逆协方差矩阵的一致约束项，从而得到模型参数的闭式解。另外，采用自适应学习率策略，用自调整的学习率代替固定值，以达到稳定的聚类精度，从而实现更高效更精准地划分金融客户。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于迁移学习分布式期望最大化金融数据聚类方法流程图；

图2为本发明实施例中P2P网络中下基于迁移学习的分布式期望最大化聚类模型架构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于迁移学习分布式期望最大化金融数据聚类方法，包括以下步骤：

步骤1：获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储；

所述金融数据包括客户通过互联网登录金融类软件产生的数据，这些数据包括但不限于客户登录数据、客户查询数据、客户支付数据以及客户登录环境数据。将获取的海量金融数据进行集群分布式存储于不同节点上。

本实施例中，集群分布式存储采用分布式P2P网络拓扑结构。

各个节点分别对步骤1获取的金融数据进行编码量化，得到对应所述多个用户的不同属性金融数据编码向量。

针对符号型数据，根据该属性的内在特性对其进行离散化处理，并将全部数据处理为数值型数据，再利用z-score方法对所有数据进行规范化处理，给定数据x，具体公式为

其中μ为数据的均值，σ为数据的标准差，x’为规范化后的数据表示形式。

步骤2：各个节点分别进行聚类分析，得到初始聚类结果，并基于各个节点上的初始聚类结果进行统计分析，得到迁移学习的初始模型参数集合。

所述统计分析包括计算各个节点上每个类别所占比例、每个类别的簇均值和协方差矩阵。本实施例中，规范化的金融客户数据集合记为X＝{x_jn；j＝1,...,J,n＝1,...,N_j}，模型参数集合记为Φ＝{π_jk,φ_jk；j＝1,...,J,k＝1,...,K}定义为TDEM算法的模型参数集合，其中π_jk表示第j个节点第k类的混合比例，φ_jk＝{μ_jk,∑_jk}，其中μ_jk表示第j个节点第k类的簇均值，∑_jk表示第j个节点第k类的协方差矩阵，N_jk表示第j个节点上第k类的样本个数。初始模型参数集合记为Φ⁽⁰⁾。

所述步骤2具体包括以下步骤：

步骤2.1：读入分布式P2P网络拓扑结构，解析出网络的节点个数J，第j个节点所包含的样本个数N_j及样本的维度D，第j个节点所包含的邻居集合B_j。计算得出网络总样本个数为

步骤2.2：用户输入细分金融客户聚类数K，并设置参数α＝10^-3；

步骤2.3：在每个节点上执行K-means++算法，得到初始的划分结果，并将样本均值

作为TDEM算法的初始簇均值，样本协方差矩阵

作为TDEM算法的初始簇协方差矩阵，

作为TDEM算法的初始簇混合比例，这样得到TDEM算法的初始模型参数Φ⁽⁰⁾，进一步计算每个节点每一类的逆样本协方差矩阵

步骤3：根据设定的目标函数，基于当前模型参数集合计算当前模型目标函数值。

设定的目标函数为：

其中，t表示迭代次数，J表示节点个数，N_j表示第j个节点上的数据点个数，K表示类别个数，γ_jnk表示第j个节点第n个数据点第k类的后验概率，λ_ji为第j个节点到第i个节点之间的学习因子，f(μ_jk；φ_ik)表示高斯分布函数，μ_jk表示第j个节点第k类的簇均值，∑_jk表示第j个节点第k类的协方差矩阵。

步骤4：在邻居节点之间进行模型参数迁移，得到新的模型参数集合，计算新的模型目标函数值，若该新的模型目标函数值与步骤3中目标函数值的差值超过设定阈值，重复执行步骤3-4，否则，迭代终止。

所述步骤4具体包括：

步骤4.1：初始化迁移学习率Λ⁽⁰⁾，0<Λ⁽⁰⁾≤5，其中

|B_j|表示第j个节点的邻居节点的个数，λ_ji为第j个节点到第i个节点之间的学习率。初始化学习率调整步长

初始化拉格朗日乘子P⁽⁰⁾＝Q⁽⁰⁾＝0，将TDEM算法中的停止阈值δ设置为10^-6，并设置迭代指数t＝1；

步骤4.2：邻居节点之间相互通信过程：在邻居节点之间交换更新的簇均值μ_jk与逆协方差矩阵

每个节点上的迁移聚类过程如下：

通过公式

更新每个节点的后验概率，其中1≤j≤J,1≤n≤N_j,1≤k≤K，

是第j个节点的第k个高斯分布函数；通过公式

更新每个节点上各类别的混合比例，其中1≤j≤J,1≤k≤K；

通过公式

p_jik＝p_jik+η₁(μ_jk-μ_ik)

更新每个节点的簇均值与相应的拉格朗日乘子，其中1≤j≤J,1≤k≤K,i∈B_j；

通过公式

更新每个节点的协方差矩阵与相应的拉格朗日乘子，其中1≤j≤J,1≤k≤K,i∈B_j；

通过公式

更新每个节点的迁移学习因子，其中1≤j≤J,i∈B_j，迭代步长为η^(t)＝η⁽⁰⁾0.99^t，迭代搜索方向为

其中

步骤4.3：计算TDEM聚类算法第t次迭代得到的目标函数

与第t-1次迭代得到的目标函数

之差，若

则执行步骤4.2，否则，若

迭代终止。

其中，通过公式

计算第t次迭代得到的目标函数

通过t+1操作时TDEM聚类算法的迭代计数器t加1。

步骤5：对于各个节点上的每个数据点进行类别划分。

根据TDEM聚类算法得到每个节点上每个数据点的后验概率，用其后验概率的最大值所在的簇作为该数据点的类标签，从而得到分布式P2P网络上所有金融客户数据的聚类结果。

所述客户画像后续可用于金融产品的推荐。

实施例二

本实施例的目的是在实施例一所提供的方法基础上，提供一种基于迁移学习分布式期望最大化金融数据聚类系统。所述系统包括：

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中所述的基于迁移学习分布式期望最大化金融数据聚类方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行实施例一中所述的基于迁移学习分布式期望最大化金融数据聚类方法。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

现有的分布式聚类方法在更新共享参数时需要消耗大量迭代时间以达到全局一致，导致聚类效率低下，同时，参数的交互隐藏在聚类的迭代过程中，不能很好地解释与表达。幸运的是，迁移学习技术为解决上述问题提供了新途径。迁移学习是指通过学习某些相关或相近领域的知识来指导目标任务的完成。本发明针对分布在不同处理单元上的金融客户数据，在传统的基于EM的分布式聚类基础上，借鉴迁移学习的思想，提出了一种基于迁移学习的分布式期望最大化(Transfer Distributed Expectation Maximization,TDEM)聚类方法来细分金融客户，为企业实现精准营销提供基础。网络中每个处理节点既被视为源域，又被看作目标域，它们彼此相互学习，从而提高分布式聚类性能。基于此，本发明在分布式期望最大化(DEM)的目标函数中引入迁移学习项，以显式揭示节点之间共享参数的交互机制，并加速聚类的全局收敛，缓解共享参数一致性导致的迭代时间消耗问题。同时，在约束条件上进一步简化中间变量，并定义逆协方差矩阵的一致约束项，从而得到模型参数的闭式解。另外，采用自适应学习率策略，用自调整的学习率代替固定值，以达到稳定的聚类精度，从而实现更高效更精准地划分金融客户。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，包括以下步骤：

对于各个节点上的每个数据点进行类别划分。

2.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，所述统计分析包括计算各个节点上每个类别所占比例、每个类别相应的簇均值和簇协方差矩阵。

3.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，所述聚类分析采用K-means++聚类方法。

4.如权利要求2所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，所述参数迁移包括交换簇均值和簇逆协方差矩阵。

5.如权利要求4所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，所述参数迁移还包括：

6.如权利要求4所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，所述设定的目标函数为：

7.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法，其特征在于，对于各个节点上的每个数据点进行类别划分包括：对于各个节点上的每个数据点，选择其后验概率最大值所在的簇作为聚类结果。

8.一种基于迁移学习分布式期望最大化金融数据聚类系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述基于迁移学习分布式期望最大化金融数据聚类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述基于迁移学习分布式期望最大化金融数据聚类方法。