CN116204599A

CN116204599A - 基于联邦学习的用户信息分析系统及方法

Info

Publication number: CN116204599A
Application number: CN202310501894.1A
Authority: CN
Inventors: 代幻成; 杨尧; 周文; 杨波
Original assignee: Sichuan Sanlitong Technology Development Group Co ltd; Chengdu Sanlitong Technology Co ltd
Current assignee: Sichuan Sanlitong Technology Development Group Co ltd; Chengdu Sanlitong Technology Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-06-02
Anticipated expiration: 2043-05-06
Also published as: CN116204599B

Abstract

本发明涉及数据分析技术领域，公开了一种基于联邦学习的用户信息分析系统及方法，该系统具有若干个客户端模块、多标签分布聚类模块、数据集划分模块和服务端模块；其中，每个客户端模块获取若干个标签数据；多标签分布聚类模块将获取的标签数据进行数据转换与聚类处理；数据集划分模块根据标签数据聚类处理后的聚类中心，对客户端模块的数据进行聚类并划分为用于执行局部模型训练的训练数据集和验证数据集；服务端模块获取每个客户端模块训练获得的梯度值和梯度权重，进行全局模型的参数更新。本发明考虑每个数据库中多标签的分布及相关性进行标签数据分类，同时在数据库中模拟多标签的分布，改善了联邦学习中标签分布及频率的不平衡。

Description

基于联邦学习的用户信息分析系统及方法

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于联邦学习的用户信息分析系统及方法。

背景技术

用户信息分析是指针对用户信息进行数据挖掘和分析，以了解用户行为、偏好、需求等信息的技术和方法。在当今数字化时代，各类企业组织采集和记录用户信息已成为常态，而利用这些信息进行数据驱动的决策和营销活动是企业成功的关键之一。合理的用户分析能够帮助企业了解用户的喜好和行为，以便更好地为用户提供服务。通过分析用户数据，企业可以识别占据市场份额的特定人群，并根据他们的偏好调整产品设计、定价和营销策略，以提高销售实绩和客户满意度。对于用户信息分析，深度学习和机器学习是常用技术，深度学习和机器学习需要大量的数据用以支持模型训练。但在实际情况下，用户数据并不是存储在一个数据库中，其往往是存储在多个不同数据库。然而，这些数据库由于隐私保护，他们之间的数据不允许互通，即在使用深度学习和机器学习技术时无法使用全局数据进行训练。

联邦学习的出现有效的解决了这一问题，联邦学习允许不同数据库在本地进行模型训练，并将计算所得梯度上传至云端进行模型参数更新，待云端更新完成后将参数下放至各数据库。但现有技术并未考虑用户是实际存在多种标签的，这些标签代表了用户的属性（如：消费习惯、职业类型、交通习惯等），对用户的属性进行分析即对其进行多标签分类，多标签分类指数据库中的用户个体存在多种标签需要使用深度学习或者机器学习方法对这些标签进行分类，多标签分类存在许多独特问题，如标签相关性、标签纠错和数据不平衡等，这些问题都是现有技术尚未解决的。因此，如何改善联邦学习中标签分布及频率不平衡，是一个亟需解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于联邦学习的用户信息分析系统及方法，旨在解决现有联邦学习技术并未考虑多标签分类问题的特殊性，标签分布及频率不平衡导致全局模型出现过拟合现象的技术问题。

为实现上述目的，本发明提供一种基于联邦学习的用户信息分析系统，所述系统具有：

若干个客户端模块；

多标签分布聚类模块；

数据集划分模块；

服务端模块；

其中，每个所述客户端模块获取若干个标签数据，并根据训练数据集和验证数据集进行局部模型训练；

其中，所述多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理；

其中，所述数据集划分模块将聚类后的数据划分为训练数据集和验证数据集；

其中，所述服务端模块获取每个客户端模块训练获得的梯度值和梯度权重，并利用梯度值和梯度权重进行全局模型的参数更新。

可选的，所述客户端模块具有：

数据库；

计算单元；

其中，所述数据库存储采集的用户信息；

其中，所述计算单元基于数据库存储的用户信息，确定若干个标签数据，并根据获得的训练数据集和验证数据集进行局部模型训练。

可选的，所述标签数据为提取的属性标签或赋予的人工标签。

可选的，所述多标签分布聚类模块具有：

数据转换单元；

数据聚类单元；

其中，所述数据转换单元将标签数据进行二进制转换；

其中，所述数据聚类单元采用K-modes聚类算法对二进制转换后的标签数据进行聚类处理。

可选的，将标签数据进行二进制转换的表达式，具体为：

其中，1代表阳性，0代表阴性，

为标签的数量。

可选的，所述数据聚类单元具有：

分配子单元；

更新子单元；

输出子单元；

其中，分配子单元在随机初始化K个中心点后，基于最小化样本与中心点的相异性度量，将样本分配给不同的聚类；K为客户端模块的数量；

其中，所述更新子单元基于簇模式值，更新每个中心点的特征；

其中，所述输出子单元在循环执行分配样本和更新特征直至所有样本的相异性度量收敛时，输出标签数据的聚类结果。

可选的，基于最小化样本与中心点的相异性度量，将样本分配给不同的聚类的表达式，具体为：

其中，MIN_d为最小化样本与中心点的相异性度量，δ为判断函数，

，/>

为具有m个类别的两个不同的样本，/>

为/>

的标签。

可选的，所述数据集划分模块具有：

聚类划分单元；

数据集划分单元；

其中，所述聚类划分单元基于多标签分布聚类模块的聚类结果，对客户端模块的数据进行聚类，获得内类数据和外类数据；

其中，所述数据集划分单元在内类数据中按预设比例选取训练数据集

和验证数据集/>

；c为客户端模块标号。

可选的，所述服务端模块具有：

梯度权重获取单元；

参数更新单元；

其中，所述梯度权重获取单元计算每个客户端模块的梯度权重，所述梯度权重的表达式，具体为：

其中，

为总的标签数，/>

为客户端模块c的样本总数，/>

为标签，/>

为超参数，通过随机搜索法进行设置，设置范围为[0,1]，C满足/>

；

其中，所述参数更新模块利用梯度值和梯度权重进行全局模型的参数更新。

此外，为了实现上述目的，本发明还提供一种基于联邦学习的用户信息分析方法，所述方法包括以下步骤：

S1：每个客户端模块获取若干个标签数据；

S2：多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理；

S3：数据集划分模块根据标签数据聚类处理后的聚类中心，对客户端模块的数据进行聚类，并根据聚类结果将客户端模块的数据划分为训练数据集和验证数据集；

S4：每个客户端模块根据训练数据集和验证数据集进行局部模型训练；

S5：服务端模块获取每个客户端模块训练获得的梯度值和梯度权重，并利用梯度值和梯度权重进行全局模型的参数更新。

本发明提出的一种基于联邦学习的用户信息分析系统及方法，该系统具有：若干个客户端模块；多标签分布聚类模块；数据集划分模块；服务端模块；其中，每个所述客户端模块获取若干个标签数据，并根据训练数据集和验证数据集进行局部模型训练；所述多标签分布聚类模块将客户端模块获取的若干个标签数据进行数据转换与聚类处理；所述数据集划分模块根据标签数据聚类处理后的聚类中心，对客户端模块的数据进行聚类并划分为用于执行局部模型训练的训练数据集和验证数据集；所述服务端模块获取每个客户端模块训练获得的梯度值和梯度权重，并利用梯度值和梯度权重进行全局模型的参数更新。本发明通过考虑每个数据库中多标签的分布及相关性进行标签数据分类，同时通过在数据库中模拟多标签的分布，改善了联邦学习中标签分布及频率的不平衡。

附图说明

图1为本发明实施例中一种基于联邦学习的用户信息分析系统实施例的结构示意图；

图2为本发明实施例中一种基于联邦学习的用户信息分析方法实施例的流程示意图。

附图标记：

10-客户端模块；20-多标签分布聚类模块；30-数据集划分模块；40-服务端模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于联邦学习的用户信息分析系统，参照图1，图1为本发明基于联邦学习的用户信息分析系统实施例的示意图。

本实施例中，提出一种基于联邦学习的用户信息分析系统，所述基于联邦学习的用户信息分析系统包括若干个客户端模块10、多标签分布聚类模块20、数据集划分模块30和服务端模块40。

需要说明的是，每个所述客户端模块10获取用户信息的若干个标签数据，并根据训练数据集和验证数据集进行局部模型训练；所述多标签分布聚类模块20将客户端模块10获取的若干个标签数据进行数据转换与聚类处理；所述数据集划分模块30根据标签数据聚类处理后的聚类中心，对客户端模块10的数据进行聚类，并根据聚类结果将客户端模块10的数据划分为训练数据集和验证数据集；所述服务端模块40获取每个客户端模块10训练获得的梯度值和梯度权重，并利用梯度值和梯度权重进行全局模型的参数更新。

在用户信息分析的实际场景中，用户存在多种属性，即存在多种标签。这些标签所对应特征往往是存储于不同的数据库中，由于隐私条例的存在，这些数据库并不能进行数据通信或者是数据汇聚，因此使用联邦学习能解决隐私计算的问题，但现有联邦学习技术并未考虑多标签分类问题的特殊性，即标签分布及频率可能存在不平衡，标签分布及频率的不平衡会导致全局模型出现过拟合的现象。

本实施例中，客户端模块10配置有多个，用于对用户信息进行数据采集、存储以及用于局部模型的训练计算；多标签分布聚类模块20用于对客户端模块10获取的多个标签数据进行聚类处理；数据集划分模块30用于根据标签数据聚类处理后的聚类中心，对客户端模块10的数据进行聚类，并根据聚类结果将客户端模块10的数据划分为训练数据集和验证数据集；服务端模块40用于进行全局模型参数的更新。

本实施例提供的基于联邦学习的用户信息分析系统，提出了一种用于多标签联邦学习的快速标签自适应算法及多标签数据分配算法。利用多标签分布聚类模块20和数据集划分模块30对每个客户端获取的用户信息的若干个标签数据进行标签数据分类与客户端模块10的数据划分，通过在数据库中模拟多标签的分布，改善标签分布及频率的不平衡；在此基础上，利用服务端模块40考虑每个数据库中多标签的分布及相关性用于聚合高性能分类模型。改善了联邦学习中标签分布及频率不平衡问题。

在优选的实施例中，所述客户端模块10具有：数据库和计算单元。

需要说明的是，所述数据库存储采集的用户信息；所述计算单元基于数据库存储的用户信息，确定若干个标签数据，并根据获得的训练数据集和验证数据集进行局部模型训练。

其中，在一实施例中，所述标签数据为提取的属性标签，该属性标签为用户信息中提取的某些属性生成的标签。

其中，在另一实施例中，所述标签数据为赋予的人工标签，该人工标签为通过人工的方式对用户信息赋予标记生成的标签。

本实施例中，在从数据库中存储的用户信息中获得若干个标签数据后，即可将标签数据送入多标签分布聚类模块20和数据集划分模块30进行数据聚类与划分，进而根据聚类与划分获得的训练数据集和验证数据集，进行局部模型训练。

在优选的实施例中，所述多标签分布聚类模块20具有：数据转换单元和数据聚类单元。

需要说明的是，所述数据转换单元将标签数据进行二进制转换；所述数据聚类单元采用K-modes聚类算法对二进制转换后的标签数据进行聚类处理。

其中，将标签数据进行二进制转换的表达式，具体为：

其中，1代表阳性，0代表阴性，

为标签的数量。

本实施例中，数据转换单元首先将接收的标签数据进行二进制转换，并将转换后的标签数据送入数据聚类单元进行聚类处理。

在优选的实施例中，所述数据聚类单元具有：分配子单元、更新子单元和输出子单元。

在本实施例中，分配子单元在随机初始化K个中心点后，基于最小化样本与中心点的相异性度量，将样本分配给不同的聚类；K为客户端模块10的数量；所述更新子单元基于簇模式值，更新每个中心点的特征；所述输出子单元在循环执行分配样本和更新特征直至所有样本的相异性度量收敛时，输出标签数据的聚类结果。

其中，基于最小化样本与中心点的相异性度量，将样本分配给不同的聚类的表达式，具体为：

，/>

为具有m个类别的两个不同的样本，/>

为/>

的标签。

本实施例中，提出了一种基于聚类的多标签数据分配算法，可以在数据库中模拟多标签的分布，用以改善标签分布及频率的不平衡。具体而言：数据聚类单元随机初始化K个中心点，通过最小化其与中心的相异性度量将样本分配给不同的聚类，然后通过簇模式值更新每个中心点的特征，重复前面的步骤重新分配样本，直到所有样本的相异性度量收敛，最后输出样本的聚类结果，以此实现每个客户端模块10的标签数据的聚类。

在优选的实施例中，所述数据集划分模块30具有：聚类划分单元和数据集划分单元。

在本实施例中，所述聚类划分单元基于多标签分布聚类模块的聚类结果，对客户端模块的数据进行聚类，获得内类数据和外类数据；所述数据集划分单元在内类数据中按预设比例选取训练数据集

和验证数据集/>

；c为客户端模块标号。

其中，多标签分布聚类模块20和数据集划分模块30，在收到训练数据集标签集

时，进行标签数据聚类以及客户端模块的数据划分，进而输出每个客户端模块10的训练数据集/>

和验证数据集/>

。由此，本实施例通过标签数据的聚类结果对客户端模块的数据进行聚类，考虑每个数据库中多标签的分布及相关性，以在数据库中模拟多标签的分布，能够实现改善标签分布及频率的不平衡，解决了联邦学习中由于多标签的设置导致的标签分布不均引起的全局模型过拟合现象。

需要说明的是，

为总的标签集，即所有客户端模块10的。/>

由二进制标签

组成。由于已经二进制编码，且不涉及用户数据，因此在汇聚的过程中不会发生信息泄露，且输出的每个客户端模块10的训练数据集/>

和验证数据集/>

，除了标签数据外还包括了用户数据。

具体而言：首先，使用聚类算法生成训练数据集聚类中心

，这里的中心个数有K个；然后，创建K个集合/>

和K个集合/>

，其中c代表的客户端模块10标号；之后，从1到K做循环，以/>

中每个簇团的中心为该客户端模块10的聚类中心对每个客户端模块10数据进行聚类，将其分为内类和外类，以内类为可用数据，按照一定比例分别赋予

和/>

。

在优选的实施例中，所述服务端模块40具有：梯度权重获取单元和参数更新单元。

在本实施例中，所述梯度权重获取单元计算每个客户端模块10的梯度权重；所述参数更新模块利用梯度值和梯度权重进行全局模型的参数更新。

需要说明的是，在服务端模块40中，使用

和/>

在每个客户端模块10上进行局部模型训练，在训练完成后将梯度上传至服务端模块40。服务端模块40负责根据梯度进行参数更新用以得到全局模型，但由于每个客户端模块10的标签分布存在特异性，因此提出了一种用于联邦学习的快速标签自适应算法，考虑了每个数据库中多标签的分布及相关性用于聚合高性能分类模型。

具体而言，所述梯度权重的表达式，具体为：

其中，

为总的标签数，/>

为客户端模块c的样本总数，/>

为标签，/>

。

由此，计算获得每个客户端模块10的梯度权重

，用以指导全局模型的生成。需要说明的是，梯度权重的表达式包含了标签分布特征和标签出现特征，标签分布特征指在所有可能的标签上存在多少阳性标签，标签出现特征指阳性标签的频率。

本实施例提出一种基于联邦学习的用户信息分析系统，通过快速标签自适应算法和多标签数据分配算法，考虑每个数据库中多标签的分布及相关性进行标签数据分类，同时通过在数据库中模拟多标签的分布，改善了联邦学习中标签分布及频率的不平衡。

本发明实施例还提供了一种基于联邦学习的用户信息分析方法，参照图2，图2为本发明基于联邦学习的用户信息分析方法实施例的示意图。

该基于联邦学习的用户信息分析方法，用于上述实施例记载的基于联邦学习的用户信息分析系统，该方法包括如下步骤：

S1：每个客户端模块获取用户信息的若干个标签数据；

需要说明的是，本申请基于联邦学习的用户信息分析方法的具体实施方式与上述基于联邦学习的用户信息分析系统各实施例基本相同，在此不再赘述。

在本发明的实施例的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了使于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。其中，“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。

在本发明的实施例的描述中，术语“第一”、“第二”、“第三”、“第四”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的实施例的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“组装”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的实施例的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的实施例的描述中，需要理解的是，“-”和“~”表示的是两个数值之同的范围，并且该范围包括端点。例如:“A-B”表示大于或等于A，且小于或等于B的范围。“A~B''表示大于或等于A，且小于或等于B的范围。

在本发明的实施例的描述中，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。