CN113688934A - 基于迁移学习分布式期望最大化金融数据聚类方法及系统 - Google Patents

基于迁移学习分布式期望最大化金融数据聚类方法及系统 Download PDF

Info

Publication number
CN113688934A
CN113688934A CN202111026341.2A CN202111026341A CN113688934A CN 113688934 A CN113688934 A CN 113688934A CN 202111026341 A CN202111026341 A CN 202111026341A CN 113688934 A CN113688934 A CN 113688934A
Authority
CN
China
Prior art keywords
node
distributed
clustering
data
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111026341.2A
Other languages
English (en)
Other versions
CN113688934B (zh
Inventor
周劲
王荣荣
韩士元
王琳
杜韬
纪科
张坤
赵亚欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202111026341.2A priority Critical patent/CN113688934B/zh
Publication of CN113688934A publication Critical patent/CN113688934A/zh
Application granted granted Critical
Publication of CN113688934B publication Critical patent/CN113688934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于迁移学习分布式期望最大化金融数据聚类方法,用于细分金融领域分布式P2P网络环境下的客户数据。包括:获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移;对于各个节点上的每个数据点进行类别划分。本发明通过在分布式期望最大化算法中引入迁移学习项,能够显示揭示节点间的协作机制,加速算法收敛,同时,提高聚类精度,精准细分金融客户。

Description

基于迁移学习分布式期望最大化金融数据聚类方法及系统
技术领域
本发明属于金融数据挖掘技术领域,尤其涉及一种基于迁移学习分布式期望最大化金融数据聚类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
用户运营领域的应用,从典型应用场景看,产品运营方面以产品精准营销为主线,包括产品推广、个性化推介以及营销渠道分析等细分环节。用户运营方面以用户群的精准识别和特征分类为重点。
在如今智能手机、平板电脑、可穿戴设备、传感器以及物联网等移动终端大规模普及的时代,精细化运营成为金融领域的核心竞争力。金融行业的客户群体在不断分化,不同年龄,不同消费习惯,不同偏好的客户对金融产品的需求都不尽相同,很少存在一种产品能够满足所有客户的需求,同时,金融产品也需要精细化,为不同的客户定制不同产品。只有真正掌握客户的行为需求,才能进一步开展精准营销与个性化推荐,从而为企业创造更大的商业价值。聚类作为重要的数据挖掘工具之一,在用户细分、个性化推荐、图像分割等领域已得到广泛的应用。基于期望最大化(Expectation maximization,EM)的数据聚类,由于其严谨的数学推理与强大的拟合能力,深受计算机科学界与统计学界学者们的青睐。然而,随着高性能计算与分布式网络的不断发展,金融数据往往分散到不同的处理节点上,不同业务部门之间无法直接实现数据共享,只能共享某些提炼后的知识信息;另一方面,金融企业有时还需要借助外部行业数据或有利知识,来补充和完善自己的用户数据库。在这种情况下,无法将全部用户数据集中到同一个处理中心进行统一聚类,传统的集中式聚类算法将不再适用。如图2所示,考虑到数据隐私和安全保护的需要,或者每个处理节点上通信资源的限制,将所有业务部门的数据收集并汇总到一个中央单元进行统一聚类通常是无法实现的。因此,迫切需要开发分布式聚类算法来解决分布式对等(peer-to-peer,P2P)网络环境下的金融数据聚类问题。这一挑战性任务长期以来备受学者们的关注,也提出了很多分布式聚类算法。专利201811397114.9提出了一种基于平均共识的分布式模糊c均值聚类算法用于处理同步传感器网络数据,专利202010131908.1提出了物联网环境下基于平均共识的分布式软聚类算法,这两种方法与现有技术相比,能提升聚类准确度,但利用平均共识策略在更新聚类中心时需要消耗大量迭代时间以达到全局一致,导致聚类效率低下。此外,节点间共享参数的协作机制隐藏在聚类迭代过程中,也不能很好地揭示和解释。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于迁移学习分布式期望最大化金融数据聚类方法及系统。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种基于迁移学习分布式期望最大化金融数据聚类方法,包括以下步骤:
获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;
根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移,计算新的模型目标函数值,若两次模型目标函数值的差值超过设定阈值,重复该步骤,否则,迭代终止;
对于各个节点上的每个数据点进行类别划分。
进一步地,所述统计分析包括计算各个节点上每个类别所占比例、每个类别相应的簇均值和簇协方差矩阵。
进一步地,所述聚类分析采用K-means++聚类方法。
进一步地,所述参数迁移包括交换簇均值和簇逆协方差矩阵。
进一步地,所述参数迁移还包括:
更新每个节点的后验概率、每个节点上各类别的混合比例、每个节点的簇均值与相应的拉格朗日乘子、每个节点的协方差矩阵与相应的拉格朗日乘子,以及,每个节点的迁移学习因子。
进一步地,所述设定的目标函数为:
Figure BDA0003243458730000031
其中,t表示迭代次数,J表示节点个数,Nj表示第j个节点上的数据点个数,K表示类别个数,γjnk表示第j个节点第n个数据点第k类的后验概率,λji为第j个节点到第i个节点之间的学习因子,f(xjn;φjk)表示高斯分布函数,μjk表示第j个节点第k类的簇均值,∑jk表示第j个节点第k类的协方差矩阵。
进一步地,对于各个节点上的每个数据点进行类别划分包括:对于各个节点上的每个数据点,选择其后验概率最大值所在的簇作为聚类结果。
一个或多个实施例提供了一种基于迁移学习分布式期望最大化金融数据聚类系统,包括:
数据获取模块,用于获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
初始聚类模块,用于各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;
迁移学习模块,用于根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移,计算新的模型目标函数值,若两次模型目标函数值的差值超过设定阈值,重复该步骤,否则,迭代终止;
类别划分模块,用于对于各个节点上的每个数据点进行类别划分。
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于迁移学习分布式期望最大化金融数据聚类方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述基于迁移学习分布式期望最大化金融数据聚类方法。
以上一个或多个技术方案存在以下有益效果:
本发明针对分布在不同处理单元上的金融客户数据,在传统的基于EM的分布式聚类基础上,借鉴迁移学习的思想,提出了一种基于迁移学习的分布式期望最大化(TransferDistributed Expectation Maximization,TDEM)聚类方法来细分金融客户,为企业实现精准营销提供基础。网络中每个处理节点既被视为源域,又被看作目标域,它们彼此相互学习,从而提高分布式聚类性能。
在分布式期望最大化(DEM)的目标函数中引入迁移学习项,以显式揭示节点之间共享参数的交互机制,并加速聚类的全局收敛,缓解共享参数一致性导致的迭代时间消耗问题。同时,在约束条件上进一步简化中间变量,并定义逆协方差矩阵的一致约束项,从而得到模型参数的闭式解。另外,采用自适应学习率策略,用自调整的学习率代替固定值,以达到稳定的聚类精度,从而实现更高效更精准地划分金融客户。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中基于迁移学习分布式期望最大化金融数据聚类方法流程图;
图2为本发明实施例中P2P网络中下基于迁移学习的分布式期望最大化聚类模型架构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种基于迁移学习分布式期望最大化金融数据聚类方法,包括以下步骤:
步骤1:获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
所述金融数据包括客户通过互联网登录金融类软件产生的数据,这些数据包括但不限于客户登录数据、客户查询数据、客户支付数据以及客户登录环境数据。将获取的海量金融数据进行集群分布式存储于不同节点上。
本实施例中,集群分布式存储采用分布式P2P网络拓扑结构。
各个节点分别对步骤1获取的金融数据进行编码量化,得到对应所述多个用户的不同属性金融数据编码向量。
针对符号型数据,根据该属性的内在特性对其进行离散化处理,并将全部数据处理为数值型数据,再利用z-score方法对所有数据进行规范化处理,给定数据x,具体公式为
Figure BDA0003243458730000061
其中μ为数据的均值,σ为数据的标准差,x’为规范化后的数据表示形式。
步骤2:各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合。
所述统计分析包括计算各个节点上每个类别所占比例、每个类别的簇均值和协方差矩阵。本实施例中,规范化的金融客户数据集合记为X={xjn;j=1,...,J,n=1,...,Nj},模型参数集合记为Φ={πjkjk;j=1,...,J,k=1,...,K}定义为TDEM算法的模型参数集合,其中πjk表示第j个节点第k类的混合比例,φjk={μjk,∑jk},其中μjk表示第j个节点第k类的簇均值,∑jk表示第j个节点第k类的协方差矩阵,Njk表示第j个节点上第k类的样本个数。初始模型参数集合记为Φ(0)
所述步骤2具体包括以下步骤:
步骤2.1:读入分布式P2P网络拓扑结构,解析出网络的节点个数J,第j个节点所包含的样本个数Nj及样本的维度D,第j个节点所包含的邻居集合Bj。计算得出网络总样本个数为
Figure BDA0003243458730000062
步骤2.2:用户输入细分金融客户聚类数K,并设置参数α=10-3
步骤2.3:在每个节点上执行K-means++算法,得到初始的划分结果,并将样本均值
Figure BDA0003243458730000063
作为TDEM算法的初始簇均值,样本协方差矩阵
Figure BDA0003243458730000064
作为TDEM算法的初始簇协方差矩阵,
Figure BDA0003243458730000065
作为TDEM算法的初始簇混合比例,这样得到TDEM算法的初始模型参数Φ(0),进一步计算每个节点每一类的逆样本协方差矩阵
Figure BDA0003243458730000071
步骤3:根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值。
设定的目标函数为:
Figure BDA0003243458730000072
其中,t表示迭代次数,J表示节点个数,Nj表示第j个节点上的数据点个数,K表示类别个数,γjnk表示第j个节点第n个数据点第k类的后验概率,λji为第j个节点到第i个节点之间的学习因子,f(μjk;φik)表示高斯分布函数,μjk表示第j个节点第k类的簇均值,∑jk表示第j个节点第k类的协方差矩阵。
步骤4:在邻居节点之间进行模型参数迁移,得到新的模型参数集合,计算新的模型目标函数值,若该新的模型目标函数值与步骤3中目标函数值的差值超过设定阈值,重复执行步骤3-4,否则,迭代终止。
所述步骤4具体包括:
步骤4.1:初始化迁移学习率Λ(0),0<Λ(0)≤5,其中
Figure BDA0003243458730000073
|Bj|表示第j个节点的邻居节点的个数,λji为第j个节点到第i个节点之间的学习率。初始化学习率调整步长
Figure BDA0003243458730000074
初始化拉格朗日乘子P(0)=Q(0)=0,将TDEM算法中的停止阈值δ设置为10-6,并设置迭代指数t=1;
步骤4.2:邻居节点之间相互通信过程:在邻居节点之间交换更新的簇均值μjk与逆协方差矩阵
Figure BDA0003243458730000075
每个节点上的迁移聚类过程如下:
通过公式
Figure BDA0003243458730000081
更新每个节点的后验概率,其中1≤j≤J,1≤n≤Nj,1≤k≤K,
Figure BDA0003243458730000082
是第j个节点的第k个高斯分布函数;通过公式
Figure BDA0003243458730000083
更新每个节点上各类别的混合比例,其中1≤j≤J,1≤k≤K;
通过公式
Figure BDA0003243458730000084
pjik=pjik1jkik)
更新每个节点的簇均值与相应的拉格朗日乘子,其中1≤j≤J,1≤k≤K,i∈Bj
通过公式
Figure BDA0003243458730000085
Figure BDA0003243458730000086
更新每个节点的协方差矩阵与相应的拉格朗日乘子,其中1≤j≤J,1≤k≤K,i∈Bj
通过公式
Figure BDA0003243458730000091
更新每个节点的迁移学习因子,其中1≤j≤J,i∈Bj,迭代步长为η(t)=η(0)0.99t,迭代搜索方向为
Figure BDA0003243458730000092
其中
Figure BDA0003243458730000093
步骤4.3:计算TDEM聚类算法第t次迭代得到的目标函数
Figure BDA0003243458730000094
与第t-1次迭代得到的目标函数
Figure BDA0003243458730000095
之差,若
Figure BDA0003243458730000096
则执行步骤4.2,否则,若
Figure BDA0003243458730000097
迭代终止。
其中,通过公式
Figure BDA0003243458730000098
计算第t次迭代得到的目标函数
Figure BDA0003243458730000099
通过t+1操作时TDEM聚类算法的迭代计数器t加1。
步骤5:对于各个节点上的每个数据点进行类别划分。
根据TDEM聚类算法得到每个节点上每个数据点的后验概率,用其后验概率的最大值所在的簇作为该数据点的类标签,从而得到分布式P2P网络上所有金融客户数据的聚类结果。
所述客户画像后续可用于金融产品的推荐。
实施例二
本实施例的目的是在实施例一所提供的方法基础上,提供一种基于迁移学习分布式期望最大化金融数据聚类系统。所述系统包括:
数据获取模块,用于获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
初始聚类模块,用于各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;
迁移学习模块,用于根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移,计算新的模型目标函数值,若两次模型目标函数值的差值超过设定阈值,重复该步骤,否则,迭代终止;
类别划分模块,用于对于各个节点上的每个数据点进行类别划分。
实施例三
本实施例的目的是提供一种电子设备。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述的基于迁移学习分布式期望最大化金融数据聚类方法。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例一中所述的基于迁移学习分布式期望最大化金融数据聚类方法。
以上实施例二至四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
现有的分布式聚类方法在更新共享参数时需要消耗大量迭代时间以达到全局一致,导致聚类效率低下,同时,参数的交互隐藏在聚类的迭代过程中,不能很好地解释与表达。幸运的是,迁移学习技术为解决上述问题提供了新途径。迁移学习是指通过学习某些相关或相近领域的知识来指导目标任务的完成。本发明针对分布在不同处理单元上的金融客户数据,在传统的基于EM的分布式聚类基础上,借鉴迁移学习的思想,提出了一种基于迁移学习的分布式期望最大化(Transfer Distributed Expectation Maximization,TDEM)聚类方法来细分金融客户,为企业实现精准营销提供基础。网络中每个处理节点既被视为源域,又被看作目标域,它们彼此相互学习,从而提高分布式聚类性能。基于此,本发明在分布式期望最大化(DEM)的目标函数中引入迁移学习项,以显式揭示节点之间共享参数的交互机制,并加速聚类的全局收敛,缓解共享参数一致性导致的迭代时间消耗问题。同时,在约束条件上进一步简化中间变量,并定义逆协方差矩阵的一致约束项,从而得到模型参数的闭式解。另外,采用自适应学习率策略,用自调整的学习率代替固定值,以达到稳定的聚类精度,从而实现更高效更精准地划分金融客户。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,包括以下步骤:
获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;
根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移,计算新的模型目标函数值,若两次模型目标函数值的差值超过设定阈值,重复该步骤,否则,迭代终止;
对于各个节点上的每个数据点进行类别划分。
2.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,所述统计分析包括计算各个节点上每个类别所占比例、每个类别相应的簇均值和簇协方差矩阵。
3.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,所述聚类分析采用K-means++聚类方法。
4.如权利要求2所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,所述参数迁移包括交换簇均值和簇逆协方差矩阵。
5.如权利要求4所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,所述参数迁移还包括:
更新每个节点的后验概率、每个节点上各类别的混合比例、每个节点的簇均值与相应的拉格朗日乘子、每个节点的协方差矩阵与相应的拉格朗日乘子,以及,每个节点的迁移学习因子。
6.如权利要求4所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,所述设定的目标函数为:
Figure FDA0003243458720000021
其中,t表示迭代次数,J表示节点个数,Nj表示第j个节点上的数据点个数,K表示类别个数,γjnk表示第j个节点第n个数据点第k类的后验概率,λji为第j个节点到第i个节点之间的学习因子,f(xjn;φjk)表示高斯分布函数,μjk表示第j个节点第k类的簇均值,∑jk表示第j个节点第k类的协方差矩阵。
7.如权利要求1所述的基于迁移学习分布式期望最大化金融数据聚类方法,其特征在于,对于各个节点上的每个数据点进行类别划分包括:对于各个节点上的每个数据点,选择其后验概率最大值所在的簇作为聚类结果。
8.一种基于迁移学习分布式期望最大化金融数据聚类系统,其特征在于,包括:
数据获取模块,用于获取待聚类客户金融数据的业务部门并将各部门数据进行集群分布式存储;
初始聚类模块,用于各个节点分别进行聚类分析,得到初始聚类结果,并基于各个节点上的初始聚类结果进行统计分析,得到迁移学习的初始模型参数集合;
迁移学习模块,用于根据设定的目标函数,基于当前模型参数集合计算当前模型目标函数值;在邻居节点之间进行模型参数迁移,计算新的模型目标函数值,若两次模型目标函数值的差值超过设定阈值,重复该步骤,否则,迭代终止;
类别划分模块,用于对于各个节点上的每个数据点进行类别划分。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述基于迁移学习分布式期望最大化金融数据聚类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述基于迁移学习分布式期望最大化金融数据聚类方法。
CN202111026341.2A 2021-09-02 2021-09-02 基于迁移学习分布式期望最大化金融数据聚类方法及系统 Active CN113688934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026341.2A CN113688934B (zh) 2021-09-02 2021-09-02 基于迁移学习分布式期望最大化金融数据聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111026341.2A CN113688934B (zh) 2021-09-02 2021-09-02 基于迁移学习分布式期望最大化金融数据聚类方法及系统

Publications (2)

Publication Number Publication Date
CN113688934A true CN113688934A (zh) 2021-11-23
CN113688934B CN113688934B (zh) 2024-06-07

Family

ID=78585057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111026341.2A Active CN113688934B (zh) 2021-09-02 2021-09-02 基于迁移学习分布式期望最大化金融数据聚类方法及系统

Country Status (1)

Country Link
CN (1) CN113688934B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN110956204A (zh) * 2019-11-18 2020-04-03 济南大学 基于迁移学习的高斯混合模型数据聚类方法
CN113076970A (zh) * 2021-02-24 2021-07-06 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN110956204A (zh) * 2019-11-18 2020-04-03 济南大学 基于迁移学习的高斯混合模型数据聚类方法
CN113076970A (zh) * 2021-02-24 2021-07-06 浙江师范大学 一种缺失条件下的高斯混合模型聚类机器学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGBING GU: "Distributed EM Algorithm for Gaussian Mixtures in Sensor Networks", 《TRANSACTIONS ON NEURAL NETWORKS》, vol. 19, no. 7, pages 1154 - 1166, XP011229575, DOI: 10.1109/TNN.2008.915110 *
胡爱娜;蔡晓艳;: "基于MapReduce的分布式期望最大化算法", 科学技术与工程, no. 16, 8 June 2013 (2013-06-08), pages 4603 - 4606 *
胡爱娜;蔡晓艳;: "基于MapReduce的分布式期望最大化算法", 科学技术与工程, no. 16, pages 4603 - 4606 *

Also Published As

Publication number Publication date
CN113688934B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
Sussman et al. A consistent adjacency spectral embedding for stochastic blockmodel graphs
Yang et al. A robust EM clustering algorithm for Gaussian mixture models
Bdiri et al. Variational bayesian inference for infinite generalized inverted dirichlet mixtures with feature selection and its application to clustering
De Angelis et al. Mining categorical sequences from data using a hybrid clustering method
Zhi et al. Dynamic truth discovery on numerical data
CN115293919B (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Pham et al. Unsupervised training of Bayesian networks for data clustering
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
Khan et al. Unsupervised domain adaptation using fuzzy rules and stochastic hierarchical convolutional neural networks
de Miranda Cardoso et al. Learning bipartite graphs: Heavy tails and multiple components
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks
Araújo et al. Information-theoretic clustering: A representative and evolutionary approach
Culos et al. An artificial bee colony algorithm for mixture model-based clustering
Sun et al. Learning representative nodes in social networks
Maheswari et al. Kernelized Spectral Clustering based Conditional MapReduce function with big data
CN113688934B (zh) 基于迁移学习分布式期望最大化金融数据聚类方法及系统
Beavers et al. Data Nuggets: A Method for Reducing Big Data While Preserving Data Structure
CN107526794A (zh) 数据处理方法和装置
Li et al. A BYY scale-incremental EM algorithm for Gaussian mixture learning
Choong et al. Variational approach for learning community structures
Shen Encoder Embedding for General Graph and Node Classification
Lu et al. Generalized Cauchy-Schwarz Divergence and Its Deep Learning Applications
Yang et al. Introduction to deep density models with latent variables
Xiong Initial clustering based on the swarm intelligence algorithm for computing a data density parameter
Mohotti et al. Discovering communities with SGNS modelling-based network connections and text communications clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant