CN116204599A - 基于联邦学习的用户信息分析系统及方法 - Google Patents

基于联邦学习的用户信息分析系统及方法 Download PDF

Info

Publication number
CN116204599A
CN116204599A CN202310501894.1A CN202310501894A CN116204599A CN 116204599 A CN116204599 A CN 116204599A CN 202310501894 A CN202310501894 A CN 202310501894A CN 116204599 A CN116204599 A CN 116204599A
Authority
CN
China
Prior art keywords
data
module
clustering
data set
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310501894.1A
Other languages
English (en)
Other versions
CN116204599B (zh
Inventor
代幻成
杨尧
周文
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Sanlitong Technology Development Group Co ltd
Chengdu Sanlitong Technology Co ltd
Original Assignee
Sichuan Sanlitong Technology Development Group Co ltd
Chengdu Sanlitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Sanlitong Technology Development Group Co ltd, Chengdu Sanlitong Technology Co ltd filed Critical Sichuan Sanlitong Technology Development Group Co ltd
Priority to CN202310501894.1A priority Critical patent/CN116204599B/zh
Publication of CN116204599A publication Critical patent/CN116204599A/zh
Application granted granted Critical
Publication of CN116204599B publication Critical patent/CN116204599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析技术领域,公开了一种基于联邦学习的用户信息分析系统及方法,该系统具有若干个客户端模块、多标签分布聚类模块、数据集划分模块和服务端模块;其中,每个客户端模块获取若干个标签数据;多标签分布聚类模块将获取的标签数据进行数据转换与聚类处理;数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类并划分为用于执行局部模型训练的训练数据集和验证数据集;服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,进行全局模型的参数更新。本发明考虑每个数据库中多标签的分布及相关性进行标签数据分类,同时在数据库中模拟多标签的分布,改善了联邦学习中标签分布及频率的不平衡。

Description

基于联邦学习的用户信息分析系统及方法
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于联邦学习的用户信息分析系统及方法。
背景技术
用户信息分析是指针对用户信息进行数据挖掘和分析,以了解用户行为、偏好、需求等信息的技术和方法。在当今数字化时代,各类企业组织采集和记录用户信息已成为常态,而利用这些信息进行数据驱动的决策和营销活动是企业成功的关键之一。合理的用户分析能够帮助企业了解用户的喜好和行为,以便更好地为用户提供服务。通过分析用户数据,企业可以识别占据市场份额的特定人群,并根据他们的偏好调整产品设计、定价和营销策略,以提高销售实绩和客户满意度。对于用户信息分析,深度学习和机器学习是常用技术,深度学习和机器学习需要大量的数据用以支持模型训练。但在实际情况下,用户数据并不是存储在一个数据库中,其往往是存储在多个不同数据库。然而,这些数据库由于隐私保护,他们之间的数据不允许互通,即在使用深度学习和机器学习技术时无法使用全局数据进行训练。
联邦学习的出现有效的解决了这一问题,联邦学习允许不同数据库在本地进行模型训练,并将计算所得梯度上传至云端进行模型参数更新,待云端更新完成后将参数下放至各数据库。但现有技术并未考虑用户是实际存在多种标签的,这些标签代表了用户的属性(如:消费习惯、职业类型、交通习惯等),对用户的属性进行分析即对其进行多标签分类,多标签分类指数据库中的用户个体存在多种标签需要使用深度学习或者机器学习方法对这些标签进行分类,多标签分类存在许多独特问题,如标签相关性、标签纠错和数据不平衡等,这些问题都是现有技术尚未解决的。因此,如何改善联邦学习中标签分布及频率不平衡,是一个亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种基于联邦学习的用户信息分析系统及方法,旨在解决现有联邦学习技术并未考虑多标签分类问题的特殊性,标签分布及频率不平衡导致全局模型出现过拟合现象的技术问题。
为实现上述目的,本发明提供一种基于联邦学习的用户信息分析系统,所述系统具有:
若干个客户端模块;
多标签分布聚类模块;
数据集划分模块;
服务端模块;
其中,每个所述客户端模块获取若干个标签数据,并根据训练数据集和验证数据集进行局部模型训练;
其中,所述多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;
其中,所述数据集划分模块将聚类后的数据划分为训练数据集和验证数据集;
其中,所述服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
可选的,所述客户端模块具有:
数据库;
计算单元;
其中,所述数据库存储采集的用户信息;
其中,所述计算单元基于数据库存储的用户信息,确定若干个标签数据,并根据获得的训练数据集和验证数据集进行局部模型训练。
可选的,所述标签数据为提取的属性标签或赋予的人工标签。
可选的,所述多标签分布聚类模块具有:
数据转换单元;
数据聚类单元;
其中,所述数据转换单元将标签数据进行二进制转换;
其中,所述数据聚类单元采用K-modes聚类算法对二进制转换后的标签数据进行聚类处理。
可选的,将标签数据进行二进制转换的表达式,具体为:
Figure SMS_1
其中,1代表阳性,0代表阴性,
Figure SMS_2
为标签的数量。
可选的,所述数据聚类单元具有:
分配子单元;
更新子单元;
输出子单元;
其中,分配子单元在随机初始化K个中心点后,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类;K为客户端模块的数量;
其中,所述更新子单元基于簇模式值,更新每个中心点的特征;
其中,所述输出子单元在循环执行分配样本和更新特征直至所有样本的相异性度量收敛时,输出标签数据的聚类结果。
可选的,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类的表达式,具体为:
Figure SMS_3
其中,MIN_d为最小化样本与中心点的相异性度量,δ为判断函数,
Figure SMS_4
,/>
Figure SMS_5
为具有m个类别的两个不同的样本,/>
Figure SMS_6
为/>
Figure SMS_7
的标签。
可选的,所述数据集划分模块具有:
聚类划分单元;
数据集划分单元;
其中,所述聚类划分单元基于多标签分布聚类模块的聚类结果,对客户端模块的数据进行聚类,获得内类数据和外类数据;
其中,所述数据集划分单元在内类数据中按预设比例选取训练数据集
Figure SMS_8
和验证数据集/>
Figure SMS_9
;c为客户端模块标号。
可选的,所述服务端模块具有:
梯度权重获取单元;
参数更新单元;
其中,所述梯度权重获取单元计算每个客户端模块的梯度权重,所述梯度权重的表达式,具体为:
Figure SMS_10
其中,
Figure SMS_11
为总的标签数,/>
Figure SMS_12
为客户端模块c的样本总数,/>
Figure SMS_13
为标签,/>
Figure SMS_14
为超参数,通过随机搜索法进行设置,设置范围为[0,1],C满足/>
Figure SMS_15
其中,所述参数更新模块利用梯度值和梯度权重进行全局模型的参数更新。
此外,为了实现上述目的,本发明还提供一种基于联邦学习的用户信息分析方法,所述方法包括以下步骤:
S1:每个客户端模块获取若干个标签数据;
S2:多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;
S3:数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类,并根据聚类结果将客户端模块的数据划分为训练数据集和验证数据集;
S4:每个客户端模块根据训练数据集和验证数据集进行局部模型训练;
S5:服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
本发明提出的一种基于联邦学习的用户信息分析系统及方法,该系统具有:若干个客户端模块;多标签分布聚类模块;数据集划分模块;服务端模块;其中,每个所述客户端模块获取若干个标签数据,并根据训练数据集和验证数据集进行局部模型训练;所述多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;所述数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类并划分为用于执行局部模型训练的训练数据集和验证数据集;所述服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。本发明通过考虑每个数据库中多标签的分布及相关性进行标签数据分类,同时通过在数据库中模拟多标签的分布,改善了联邦学习中标签分布及频率的不平衡。
附图说明
图1为本发明实施例中一种基于联邦学习的用户信息分析系统实施例的结构示意图;
图2为本发明实施例中一种基于联邦学习的用户信息分析方法实施例的流程示意图。
附图标记:
10-客户端模块;20-多标签分布聚类模块;30-数据集划分模块;40-服务端模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于联邦学习的用户信息分析系统,参照图1,图1为本发明基于联邦学习的用户信息分析系统实施例的示意图。
本实施例中,提出一种基于联邦学习的用户信息分析系统,所述基于联邦学习的用户信息分析系统包括若干个客户端模块10、多标签分布聚类模块20、数据集划分模块30和服务端模块40。
需要说明的是,每个所述客户端模块10获取用户信息的若干个标签数据,并根据训练数据集和验证数据集进行局部模型训练;所述多标签分布聚类模块20将客户端模块10获取的若干个标签数据进行数据转换与聚类处理;所述数据集划分模块30根据标签数据聚类处理后的聚类中心,对客户端模块10的数据进行聚类,并根据聚类结果将客户端模块10的数据划分为训练数据集和验证数据集;所述服务端模块40获取每个客户端模块10训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
在用户信息分析的实际场景中,用户存在多种属性,即存在多种标签。这些标签所对应特征往往是存储于不同的数据库中,由于隐私条例的存在,这些数据库并不能进行数据通信或者是数据汇聚,因此使用联邦学习能解决隐私计算的问题,但现有联邦学习技术并未考虑多标签分类问题的特殊性,即标签分布及频率可能存在不平衡,标签分布及频率的不平衡会导致全局模型出现过拟合的现象。
本实施例中,客户端模块10配置有多个,用于对用户信息进行数据采集、存储以及用于局部模型的训练计算;多标签分布聚类模块20用于对客户端模块10获取的多个标签数据进行聚类处理;数据集划分模块30用于根据标签数据聚类处理后的聚类中心,对客户端模块10的数据进行聚类,并根据聚类结果将客户端模块10的数据划分为训练数据集和验证数据集;服务端模块40用于进行全局模型参数的更新。
本实施例提供的基于联邦学习的用户信息分析系统,提出了一种用于多标签联邦学习的快速标签自适应算法及多标签数据分配算法。利用多标签分布聚类模块20和数据集划分模块30对每个客户端获取的用户信息的若干个标签数据进行标签数据分类与客户端模块10的数据划分,通过在数据库中模拟多标签的分布,改善标签分布及频率的不平衡;在此基础上,利用服务端模块40考虑每个数据库中多标签的分布及相关性用于聚合高性能分类模型。改善了联邦学习中标签分布及频率不平衡问题。
在优选的实施例中,所述客户端模块10具有:数据库和计算单元。
需要说明的是,所述数据库存储采集的用户信息;所述计算单元基于数据库存储的用户信息,确定若干个标签数据,并根据获得的训练数据集和验证数据集进行局部模型训练。
其中,在一实施例中,所述标签数据为提取的属性标签,该属性标签为用户信息中提取的某些属性生成的标签。
其中,在另一实施例中,所述标签数据为赋予的人工标签,该人工标签为通过人工的方式对用户信息赋予标记生成的标签。
本实施例中,在从数据库中存储的用户信息中获得若干个标签数据后,即可将标签数据送入多标签分布聚类模块20和数据集划分模块30进行数据聚类与划分,进而根据聚类与划分获得的训练数据集和验证数据集,进行局部模型训练。
在优选的实施例中,所述多标签分布聚类模块20具有:数据转换单元和数据聚类单元。
需要说明的是,所述数据转换单元将标签数据进行二进制转换;所述数据聚类单元采用K-modes聚类算法对二进制转换后的标签数据进行聚类处理。
其中,将标签数据进行二进制转换的表达式,具体为:
Figure SMS_16
其中,1代表阳性,0代表阴性,
Figure SMS_17
为标签的数量。
本实施例中,数据转换单元首先将接收的标签数据进行二进制转换,并将转换后的标签数据送入数据聚类单元进行聚类处理。
在优选的实施例中,所述数据聚类单元具有:分配子单元、更新子单元和输出子单元。
在本实施例中,分配子单元在随机初始化K个中心点后,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类;K为客户端模块10的数量;所述更新子单元基于簇模式值,更新每个中心点的特征;所述输出子单元在循环执行分配样本和更新特征直至所有样本的相异性度量收敛时,输出标签数据的聚类结果。
其中,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类的表达式,具体为:
Figure SMS_18
其中,MIN_d为最小化样本与中心点的相异性度量,δ为判断函数,
Figure SMS_19
,/>
Figure SMS_20
为具有m个类别的两个不同的样本,/>
Figure SMS_21
为/>
Figure SMS_22
的标签。
本实施例中,提出了一种基于聚类的多标签数据分配算法,可以在数据库中模拟多标签的分布,用以改善标签分布及频率的不平衡。具体而言:数据聚类单元随机初始化K个中心点,通过最小化其与中心的相异性度量将样本分配给不同的聚类,然后通过簇模式值更新每个中心点的特征,重复前面的步骤重新分配样本,直到所有样本的相异性度量收敛,最后输出样本的聚类结果,以此实现每个客户端模块10的标签数据的聚类。
在优选的实施例中,所述数据集划分模块30具有:聚类划分单元和数据集划分单元。
在本实施例中,所述聚类划分单元基于多标签分布聚类模块的聚类结果,对客户端模块的数据进行聚类,获得内类数据和外类数据;所述数据集划分单元在内类数据中按预设比例选取训练数据集
Figure SMS_23
和验证数据集/>
Figure SMS_24
;c为客户端模块标号。
其中,多标签分布聚类模块20和数据集划分模块30,在收到训练数据集标签集
Figure SMS_25
时,进行标签数据聚类以及客户端模块的数据划分,进而输出每个客户端模块10的训练数据集/>
Figure SMS_26
和验证数据集/>
Figure SMS_27
。由此,本实施例通过标签数据的聚类结果对客户端模块的数据进行聚类,考虑每个数据库中多标签的分布及相关性,以在数据库中模拟多标签的分布,能够实现改善标签分布及频率的不平衡,解决了联邦学习中由于多标签的设置导致的标签分布不均引起的全局模型过拟合现象。
需要说明的是,
Figure SMS_28
为总的标签集,即所有客户端模块10的。/>
Figure SMS_29
由二进制标签
Figure SMS_30
组成。由于已经二进制编码,且不涉及用户数据,因此在汇聚的过程中不会发生信息泄露,且输出的每个客户端模块10的训练数据集/>
Figure SMS_31
和验证数据集/>
Figure SMS_32
,除了标签数据外还包括了用户数据。
具体而言:首先,使用聚类算法生成训练数据集聚类中心
Figure SMS_33
,这里的中心个数有K个;然后,创建K个集合/>
Figure SMS_34
和K个集合/>
Figure SMS_35
,其中c代表的客户端模块10标号;之后,从1到K做循环,以/>
Figure SMS_36
中每个簇团的中心为该客户端模块10的聚类中心对每个客户端模块10数据进行聚类,将其分为内类和外类,以内类为可用数据,按照一定比例分别赋予
Figure SMS_37
和/>
Figure SMS_38
在优选的实施例中,所述服务端模块40具有:梯度权重获取单元和参数更新单元。
在本实施例中,所述梯度权重获取单元计算每个客户端模块10的梯度权重;所述参数更新模块利用梯度值和梯度权重进行全局模型的参数更新。
需要说明的是,在服务端模块40中,使用
Figure SMS_39
和/>
Figure SMS_40
在每个客户端模块10上进行局部模型训练,在训练完成后将梯度上传至服务端模块40。服务端模块40负责根据梯度进行参数更新用以得到全局模型,但由于每个客户端模块10的标签分布存在特异性,因此提出了一种用于联邦学习的快速标签自适应算法,考虑了每个数据库中多标签的分布及相关性用于聚合高性能分类模型。
具体而言,所述梯度权重的表达式,具体为:
Figure SMS_41
其中,
Figure SMS_42
为总的标签数,/>
Figure SMS_43
为客户端模块c的样本总数,/>
Figure SMS_44
为标签,/>
Figure SMS_45
为超参数,通过随机搜索法进行设置,设置范围为[0,1],C满足/>
Figure SMS_46
由此,计算获得每个客户端模块10的梯度权重
Figure SMS_47
,用以指导全局模型的生成。需要说明的是,梯度权重的表达式包含了标签分布特征和标签出现特征,标签分布特征指在所有可能的标签上存在多少阳性标签,标签出现特征指阳性标签的频率。
本实施例提出一种基于联邦学习的用户信息分析系统,通过快速标签自适应算法和多标签数据分配算法,考虑每个数据库中多标签的分布及相关性进行标签数据分类,同时通过在数据库中模拟多标签的分布,改善了联邦学习中标签分布及频率的不平衡。
本发明实施例还提供了一种基于联邦学习的用户信息分析方法,参照图2,图2为本发明基于联邦学习的用户信息分析方法实施例的示意图。
该基于联邦学习的用户信息分析方法,用于上述实施例记载的基于联邦学习的用户信息分析系统,该方法包括如下步骤:
S1:每个客户端模块获取用户信息的若干个标签数据;
S2:多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;
S3:数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类,并根据聚类结果将客户端模块的数据划分为训练数据集和验证数据集;
S4:每个客户端模块根据训练数据集和验证数据集进行局部模型训练;
S5:服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
需要说明的是,本申请基于联邦学习的用户信息分析方法的具体实施方式与上述基于联邦学习的用户信息分析系统各实施例基本相同,在此不再赘述。
在本发明的实施例的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了使于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。其中,“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。
在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“组装”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之同的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B''表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于联邦学习的用户信息分析系统,其特征在于,所述系统具有:
若干个客户端模块;
多标签分布聚类模块;
数据集划分模块;
服务端模块;
其中,每个所述客户端模块获取用户信息的若干个标签数据,并根据训练数据集和验证数据集进行局部模型训练;
其中,所述多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;
其中,所述数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类,并根据聚类结果将客户端模块的数据划分为训练数据集和验证数据集;
其中,所述服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
2.根据权利要求1所述的基于联邦学习的用户信息分析系统,其特征在于,所述客户端模块具有:
数据库;
计算单元;
其中,所述数据库存储采集的用户信息;
其中,所述计算单元基于数据库存储的用户信息,确定若干个标签数据,并根据获得的训练数据集和验证数据集进行局部模型训练。
3.根据权利要求2所述的基于联邦学习的用户信息分析系统,其特征在于,所述标签数据为提取的属性标签或赋予的人工标签。
4.根据权利要求1所述的基于联邦学习的用户信息分析系统,其特征在于,所述多标签分布聚类模块具有:
数据转换单元;
数据聚类单元;
其中,所述数据转换单元将标签数据进行二进制转换;
其中,所述数据聚类单元采用K-modes聚类算法对二进制转换后的标签数据进行聚类处理。
5.根据权利要求4所述的基于联邦学习的用户信息分析系统,其特征在于,将标签数据进行二进制转换的表达式,具体为:
Figure QLYQS_1
;其中,1代表阳性,0代表阴性,/>
Figure QLYQS_2
为标签的数量。
6.根据权利要求4所述的基于联邦学习的用户信息分析系统,其特征在于,所述数据聚类单元具有:
分配子单元;
更新子单元;
输出子单元;
其中,分配子单元在随机初始化K个中心点后,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类;K为客户端模块的数量;
其中,所述更新子单元基于簇模式值,更新每个中心点的特征;
其中,所述输出子单元在循环执行分配样本和更新特征直至所有样本的相异性度量收敛时,输出标签数据的聚类结果。
7.根据权利要求6所述的基于联邦学习的用户信息分析系统,其特征在于,基于最小化样本与中心点的相异性度量,将样本分配给不同的聚类的表达式,具体为:
Figure QLYQS_3
;其中,MIN_d为最小化样本与中心点的相异性度量,δ为判断函数,/>
Figure QLYQS_4
,/>
Figure QLYQS_5
为具有m个类别的两个不同的样本,
Figure QLYQS_6
为/>
Figure QLYQS_7
的标签。
8.根据权利要求1所述的基于联邦学习的用户信息分析系统,其特征在于,所述数据集划分模块具有:
聚类划分单元;
数据集划分单元;
其中,所述聚类划分单元基于多标签分布聚类模块的聚类结果,对客户端模块的数据进行聚类,获得内类数据和外类数据;
其中,所述数据集划分单元在内类数据中按预设比例选取训练数据集
Figure QLYQS_8
和验证数据集/>
Figure QLYQS_9
;c为客户端模块标号。
9.根据权利要求1所述的基于联邦学习的用户信息分析系统,其特征在于,所述服务端模块具有:
梯度权重获取单元;
参数更新单元;
其中,所述梯度权重获取单元计算每个客户端模块的梯度权重,所述梯度权重的表达式,具体为:
Figure QLYQS_10
;其中,/>
Figure QLYQS_11
为总的标签数,/>
Figure QLYQS_12
为客户端模块c的样本总数,/>
Figure QLYQS_13
为标签,/>
Figure QLYQS_14
为超参数,通过随机搜索法进行设置,设置范围为[0,1],C满足
Figure QLYQS_15
其中,所述参数更新模块利用梯度值和梯度权重进行全局模型的参数更新。
10.一种基于联邦学习的用户信息分析方法,其特征在于,所述方法包括以下步骤:
S1:每个客户端模块获取用户信息的若干个标签数据;
S2:多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理;
S3:数据集划分模块根据标签数据聚类处理后的聚类中心,对客户端模块的数据进行聚类,并根据聚类结果将客户端模块的数据划分为训练数据集和验证数据集;
S4:每个客户端模块根据训练数据集和验证数据集进行局部模型训练;
S5:服务端模块获取每个客户端模块训练获得的梯度值和梯度权重,并利用梯度值和梯度权重进行全局模型的参数更新。
CN202310501894.1A 2023-05-06 2023-05-06 基于联邦学习的用户信息分析系统及方法 Active CN116204599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310501894.1A CN116204599B (zh) 2023-05-06 2023-05-06 基于联邦学习的用户信息分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310501894.1A CN116204599B (zh) 2023-05-06 2023-05-06 基于联邦学习的用户信息分析系统及方法

Publications (2)

Publication Number Publication Date
CN116204599A true CN116204599A (zh) 2023-06-02
CN116204599B CN116204599B (zh) 2023-10-20

Family

ID=86513382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310501894.1A Active CN116204599B (zh) 2023-05-06 2023-05-06 基于联邦学习的用户信息分析系统及方法

Country Status (1)

Country Link
CN (1) CN116204599B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077817A (zh) * 2023-10-13 2023-11-17 之江实验室 一种基于标签分布的个性化联邦学习模型训练方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215097A (zh) * 2018-08-08 2019-01-15 深圳市唯特视科技有限公司 一种基于端到端联合学习的单个图像文本条件嵌入方法
US20210049473A1 (en) * 2019-08-14 2021-02-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Robust Federated Training of Neural Networks
CN112420187A (zh) * 2020-10-15 2021-02-26 南京邮电大学 一种基于迁移联邦学习的医疗疾病分析方法
CN112529027A (zh) * 2019-09-19 2021-03-19 中国电信股份有限公司 数据处理方法、客户端、装置及计算机可读存储介质
CN114077901A (zh) * 2021-11-23 2022-02-22 山东大学 一种基于聚类的图联邦学习的用户位置预测框架
CN114429235A (zh) * 2020-10-29 2022-05-03 新智数字科技有限公司 一种设备故障预测方法、装置、可读介质及电子设备
CN114580663A (zh) * 2022-03-01 2022-06-03 浙江大学 面向数据非独立同分布场景的联邦学习方法及系统
CN115311478A (zh) * 2022-08-16 2022-11-08 悉科大创新研究(深圳)有限公司 一种基于图深度聚类的联邦影像分类方法、存储介质
CN115391576A (zh) * 2022-07-15 2022-11-25 浙江工业大学 一种基于聚类的联邦图学习方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215097A (zh) * 2018-08-08 2019-01-15 深圳市唯特视科技有限公司 一种基于端到端联合学习的单个图像文本条件嵌入方法
US20210049473A1 (en) * 2019-08-14 2021-02-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Robust Federated Training of Neural Networks
CN112529027A (zh) * 2019-09-19 2021-03-19 中国电信股份有限公司 数据处理方法、客户端、装置及计算机可读存储介质
CN112420187A (zh) * 2020-10-15 2021-02-26 南京邮电大学 一种基于迁移联邦学习的医疗疾病分析方法
CN114429235A (zh) * 2020-10-29 2022-05-03 新智数字科技有限公司 一种设备故障预测方法、装置、可读介质及电子设备
CN114077901A (zh) * 2021-11-23 2022-02-22 山东大学 一种基于聚类的图联邦学习的用户位置预测框架
CN114580663A (zh) * 2022-03-01 2022-06-03 浙江大学 面向数据非独立同分布场景的联邦学习方法及系统
CN115391576A (zh) * 2022-07-15 2022-11-25 浙江工业大学 一种基于聚类的联邦图学习方法及系统
CN115311478A (zh) * 2022-08-16 2022-11-08 悉科大创新研究(深圳)有限公司 一种基于图深度聚类的联邦影像分类方法、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANFEI ZHANG 等: "FedLabCluster: A Clustered Federated Learning Algorithm Based on Data Sample Label", 《2021 INTERNATIONAL CONFERENCE ON ELECTRONIC INFORMATION ENGINEERING AND COMPUTER SCIENCE (EIECS)》, pages 423 - 428 *
崔楠: "基于联邦学习的室内定位方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, pages 136 - 813 *
鲁晨阳 等: "基于分层抽样优化的面向异构客户端的联邦学习", 《计算机科学》, vol. 49, no. 9, pages 183 - 193 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077817A (zh) * 2023-10-13 2023-11-17 之江实验室 一种基于标签分布的个性化联邦学习模型训练方法及装置
CN117077817B (zh) * 2023-10-13 2024-01-30 之江实验室 一种基于标签分布的个性化联邦学习模型训练方法及装置

Also Published As

Publication number Publication date
CN116204599B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN106355449A (zh) 用户选取方法和装置
US11468471B2 (en) Audience expansion according to user behaviors
CN110807527A (zh) 一种基于客群筛选的额度调整方法、装置和电子设备
US20110082824A1 (en) Method for selecting an optimal classification protocol for classifying one or more targets
CN110097066A (zh) 一种用户分类方法、装置及电子设备
CN105721629B (zh) 用户标识匹配方法和装置
CN116204599B (zh) 基于联邦学习的用户信息分析系统及方法
CN104573304A (zh) 一种基于信息熵和聚类分群的用户质态评估方法
CN105608179A (zh) 确定用户标识的关联性的方法和装置
CN111967971A (zh) 银行客户数据处理方法及装置
WO2011133551A2 (en) Reducing the dissimilarity between a first multivariate data set and a second multivariate data set
CN111489201A (zh) 一种客户价值分析的方法、设备、存储介质
CN106846082A (zh) 基于硬件信息的旅游冷启动用户产品推荐系统及方法
CN107958270A (zh) 类别识别方法、装置、电子设备及计算机可读存储介质
CN111506755A (zh) 图片集的分类方法和装置
CN106663210A (zh) 基于感受的多媒体处理
CN111475158A (zh) 子领域划分方法、装置、电子设备和计算机可读存储介质
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN109977979A (zh) 定位种子用户的方法、装置、电子设备和存储介质
CN116244612B (zh) 一种基于自学习参数度量的http流量聚类方法及装置
CN107844536A (zh) 应用程序选择的方法、装置和系统
US20160292300A1 (en) System and method for fast network queries
CN110347934A (zh) 一种文本数据过滤方法、装置及介质
CN110309424A (zh) 一种基于粗糙聚类的社会化推荐方法
CN107077475A (zh) 根据产品/用户标签和共安装图推荐产品捆绑包的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant