CN115994226A - 基于联邦学习的聚类模型训练系统及方法 - Google Patents

基于联邦学习的聚类模型训练系统及方法 Download PDF

Info

Publication number
CN115994226A
CN115994226A CN202310278688.9A CN202310278688A CN115994226A CN 115994226 A CN115994226 A CN 115994226A CN 202310278688 A CN202310278688 A CN 202310278688A CN 115994226 A CN115994226 A CN 115994226A
Authority
CN
China
Prior art keywords
local
model
clustering
text
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310278688.9A
Other languages
English (en)
Other versions
CN115994226B (zh
Inventor
郑小林
胡梦玲
陈超超
刘伟明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jinzhita Technology Co ltd
Original Assignee
Hangzhou Jinzhita Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jinzhita Technology Co ltd filed Critical Hangzhou Jinzhita Technology Co ltd
Priority to CN202310278688.9A priority Critical patent/CN115994226B/zh
Publication of CN115994226A publication Critical patent/CN115994226A/zh
Application granted granted Critical
Publication of CN115994226B publication Critical patent/CN115994226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供基于联邦学习的聚类模型训练系统及方法,目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至服务端;服务端根据至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至至少两个客户端;目标客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,根据本地聚类模型通过训练得到的聚类损失值和对齐损失值,对本地聚类模型进行调参根据调参结果将满足训练条件的本地聚类模型的模型参数发送至服务端;服务端根据至少两个客户端对应的模型参数计算目标模型参数并发送至至少两个客户端;目标客户端用于基于目标模型参数对本地聚类模型进行更新获得目标聚类模型。

Description

基于联邦学习的聚类模型训练系统及方法
技术领域
本说明书实施例涉及联邦学习技术领域,特别涉及一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及基于联邦学习的聚类方法、基于联邦学习的聚类模型训练方法、基于联邦学习的聚类装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的快速发展,互联网数据也随之增多。在不同的机构可能保存着同一样本对应的不同特征数据,例如,不同的项目平台存储相同用户的不同数据,如果各个项目平台向挖掘该用户的喜好,则只能依据本地存储的用户数据进行聚类分析,无法获得最优的聚类结果,而将各个项目平台的用户数据进行汇总再聚类又会产生数据隐私安全问题。目前常采用联邦学习方法应用于无需共享本地原始数据的多客户端协作学习,从而解决上述问题。但是在多客户端的文本聚类场景下,由于某些场景下是对短文本进行聚类,但是由于短文本长度较短,短文本蕴含的信息量少的原因,现有的联邦聚类方法并不适用短文本聚类场景,因此在文本数据分散在多处的前提下,如何实现短文本数据聚类是目前亟需解决的问题。
发明内容
有鉴于此,本说明书实施例提供了一种基于联邦学习的聚类模型训练系统。本说明书一个或者多个实施例同时涉及一种基于联邦学习的聚类模型训练方法、一种基于联邦学习的聚类方法、一种基于联邦学习的聚类装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于联邦学习的聚类模型训练系统,所述系统包括服务端和至少两个客户端,其中,
目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;
所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;
所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;
所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;
所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
可选的,目标客户端,用于通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。
可选的,所述目标客户端,还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。
可选的,所述服务端,用于接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。
可选的,所述目标客户端,用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
可选的,所述服务端,用于在所述至少两个客户端中确定待处理客户端,确定所述待处理客户端对应的模型参数和样本文本数量,根据所述样本文本数量计算所述模型参数对应的参数权重,根据每个客户端对应的模型参数和每个模型参数对应的参数权重计算目标模型参数。
可选的,所述目标客户端,还用于获取待处理文本,通过所述目标聚类模型对所述待处理文本进行聚类处理,获得所述待处理文本对应的目标聚类簇。
根据本说明书实施例的第二方面,提供了一种基于联邦学习的聚类模型训练方法,所述方法包括服务端和至少两个客户端,其中,
目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;
所述服务端根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;
所述目标客户端根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;
所述服务端根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;
所述目标客户端基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
根据本说明书实施例的第三方面,提供了一种基于联邦学习的聚类方法,所述方法应用于客户端,包括:
响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统获得的目标聚类模型;
获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;
基于所述文本聚类簇确定所述目标文本的分析文本。
根据本说明书实施例的第四方面,提供了一种基于联邦学习的聚类装置,所述装置应用于客户端,包括:
输入模块,被配置为响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统获得的目标聚类模型;
获得模块,被配置为获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;
确定模块,被配置为基于所述文本聚类簇确定所述目标文本的分析文本。
根据本说明书实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
本说明书提供的基于联邦学习的聚类模型训练系统,所述系统包括服务端和至少两个客户端,其中,目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
本说明书一实施例实现了通过利用本地样本文本对本地聚类模型进行训练,获得每个客户端的本地聚类中心数据,服务端对每个客户端的本地聚类中心数据进行聚合,生成全局聚类中心数据。再由客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,根据模型训练得到的聚类损失值和对齐损失值对本地聚类模型进行调参,将调参后满足训练条件的本地聚类模型的模型参数都发送至服务端,使得服务端可以聚合所有客户端对应的本地聚类模型的模型参数,从而获得全局的目标模型参数并发送给各个客户端,基于此每个客户端可以根据目标模型参数对本地聚类模型进行更新获得目标聚类模型,后续客户端可以基于目标聚类模型进行文本聚类预测,通过在不聚合每个客户端的本地样本数据的情况下,实现了保证用户数据隐私安全的前提下,同时也可以利用各个客户端的数据共同进行聚类,满足联邦架构下的短文本聚类需求,并优化聚类效果。
附图说明
图1是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的结构示意图;
图2A是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的流程图;
图2B是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的模型处理流程图;
图3是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的处理过程流程图;
图4是本说明书一个实施例提供的一种基于联邦学习的聚类方法的流程图;
图5是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练方法的流程图;
图6是本说明书一个实施例提供的一种基于联邦学习的聚类装置的结构示意图;
图7是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
联邦学习:联邦学习(federated learning)是一种针对数据孤岛问题、保护数据安全与隐私而提出的一种算法框架。联邦学习的基本原理是两个或两个以上的联邦学习参与方协作构建一个共享的机器学习模型。联邦学习的系统架构通常包括客户端和服务器,客户端扮演联邦学习的参与方,服务器扮演模型的协调方,通过服务器将各个客户端训练的模型进行汇聚,从而构建出共享机器学习模型。
数据孤岛:人工智能算法在工业落地时常常面临数据孤岛问题,数据孤岛问题是指AI算法在工业应用时,由于高质量标签数据不足、数据源数据无法共享和数据隐私保护的原因,导致AI无法高效、准确地共同使用各自的数据。
文本聚类是目前最基础的文本挖掘任务之一,在文本聚类的某些场景下需要针对短文本数据进行聚类,现有的短文本聚类方法都假设要聚类的文本数据都存储在同一个中心服务器。然而,当文本数据分布在多个服务器或客户端时,出于数据安全隐私保护的考虑,将所有的文本数据汇集到一个中心服务器上是不可行的。例如,某公司在多个地区都销售相似的商品,每个地区都有关于本地客户的数据,如个人信息、购买记录、评论等数据,该公司希望将所有地区的客户数据聚类从而进行文本数据挖掘,例如挖掘每个用户的喜好、每个用户的浏览习惯等,便于后续更好的为用户提供相应服务。与只聚类每个地区的本地数据相比,通过聚集所有地区客户的文本数据,可以更加可靠地挖掘出有价值的信息。但是由于严格的隐私法规,将所有地区的数据收集到一个中央服务器是不允许的,为了解决这种无法将数据汇集一个中央服务器的问题,通常使用联邦学习方法,联邦学习方法可以对分布在多个客户端的数据进行聚类,但是由于目前有非常多的数据是通过短文本形式呈现的,由于短文本数据的长度较短蕴含的信息量少,目前的文本聚类方法没有考虑到在联邦环境下对短文本进行聚类的应用。
基于此在本说明书中,提供了一种基于联邦学习的聚类模型训练系统,本说明书同时涉及一种基于联邦学习的聚类方法、一种基于联邦学习的聚类模型训练方法、一种基于联邦学习的聚类装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
图1是根据本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的结构示意图,其中,包括由服务端和多个客户端组成的联邦学习架构,在联邦学习过程中每个客户端所执行的逻辑相同,因此针对客户端1的学习流程进行举例说明。首先,客户端1会基于本地样本文本1对本地聚类模型1进行训练,根据训练结果确定本地聚类中心数据并发送给服务端,可以理解为某地区的客户端采用该地区的用户数据对本地聚类模型进行本地训练,根据训练结果将本地的聚类中心表示发送给服务端。服务端在接收到每个客户端发送的本地聚类中心数据之后,会对所有的本地聚类中心数据进行聚合,生成全局聚类中心数据,并将全局聚类中心数据分发至各个客户端。客户端在接收到全局聚类中心数据之后,拉近本地聚类中心数据与全局聚类中心数据的距离,即根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,并通过训练模型时获得的聚类损失值和对齐损失值对本地聚类模型进行调参,从而获得在本地训练好的本地聚类模型,并将该模型的模型参数发送给服务端。需要说明的是,在训练过程中全局聚类中心需要更新多次,即本地聚类中心数据的传输有多次,每次更新全局聚类中心以后固定全局聚类中心一定的迭代次数,计算对齐损失和聚类损失对本地聚类模型进行优化,每次迭代对齐损失都会重新计算当时的本地聚类中心,多次进行此过程直至本地聚类模型收敛,得到最终的本地聚类模型。服务端在接收到每个客户端训练好的模型的模型参数时,通过聚合所有模型参数获得全局模型参数即目标模型参数,将目标模型参数分发至各个客户端,使各个客户端能够基于目标模型参数对各自本地的本地聚类模型进行参数更新,从而获得目标聚类模型。实现了在数据分布在多个客户端的情况下,基于保护数据隐私安全的前提,利用各方数据进行聚类,增加数据量且优化聚类效果。
图2A示出了根据本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的流程图,所述系统包括服务端202和至少两个客户端204,其中,
目标客户端204,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端。
其中,目标客户端可以理解为至少两个客户端中的任意一个客户端,由于每个客户端在联邦学习过程中所执行的逻辑相同,因此选择至少两个客户端中的任意一个客户端作为目标客户端来进行举例说明,本地样本文本可以理解为目标客户端对应的本地数据,本地聚类模型可以理解为目标客户端对应的本地预训练模型。本地聚类中心数据可以理解为本地样本文本对应的聚类中心,也即本地样本文本中的聚类类别,本地聚类中心数据可以是各参与方根据本地样本文本进行聚类处理生成的本地聚类中心表示。
在实际应用中,当用户想要聚合多方数据进行数据挖掘时,为了在解决数据孤岛问题的同时保护各方数据的隐私安全,需要采取联邦学习架构来实现。具体的,本说明书实施例中的每个客户端均为联邦学习架构中的各个参与方,参与方可以是各种机构、企业或者个人,参与方为联邦学习架构中的数据提供方,本地样本文本可以包括样本对象的多个维度的特征,例如样本对象为用户,本地样本文本可以是不同用户的用户文本数据如年龄、性别、使用记录等。服务端可以理解为联邦学习架构中的协调方,协调方为执行全局聚合的终端或服务器,对于协调方来说,能够接收各个参与方的数据并聚合,能够在不侵犯各参与方数据隐私的前提下,实现联邦学习。联邦学习架构中的每个参与方都可能具有不同的样本,并且各方的参与的特征是独立的,即每个参与方都存有不同样本对应的不同特征数据,联邦学习的目的是为了在每个客户端对应的数据都不出本地的情况下,充分利用所有客户端的数据,获取一个比仅使用本地数据训练的模型效果好的全局模型。
在本说明书一具体实施例中,某企业拥有多个地方市场,在所有市场销售类似的商品,每个本地市场都有关于其客户端的文本数据,包括用户个人信息、商品购买记录、用户评论等,该企业希望将所有市场的文本数据进行聚类来文本挖掘,从而制定更有效的营销策略,为用户提供更好的服务。因此不同地方市场的客户端需要利用本地样本文本,即本地用户文本数据对本地聚类模型进行训练,将本地聚类中心数据发送至本次联邦学习中的服务器,服务器可以是该企业设立的用于作为联邦学习中进行协调的服务器。
所述服务端202,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端。
其中,全局聚类中心数据可以理解为对所有本地聚类中心数据进行聚合后获得的聚类中心数据,在实际应用中,服务器接收所有客户端的本地聚类中心表示之后,则会聚合这些本地聚类中心表示获得全局聚类中心表示。具体实施时可以是将各个本地聚类中心数据进行聚合,例如客户端A的本地聚类中心包括类A1和类A2,客户端B的本地聚类中心数据B包括类B1和类B2,则服务器会将类A1与类B1进行聚合,将类A2和类B2进行聚合,从而获得全局聚类中心数据类C1和类C2。
在本说明书一具体实施例中,服务器接收每个客户端对应的本地聚类中心表示,并将每个本地聚类中心表示进行加权计算,计算之后生成全局聚类中心表示,为了后续客户端能够训练各自的本地聚类模型,所以需要将全局聚类中心表示分别再发送至每个客户端。
所述目标客户端204,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
其中,对齐损失值可以理解为通过对齐本地聚类中心数据和全局聚类中心数据计算获得的损失值,聚类损失值可以理解为在训练本地聚类模型的训练过程中计算获得的损失值,每个客户端对应的本地聚类模型的整体训练目标为对齐损失值加聚类损失值,因此在获得对齐损失值和聚类损失值之后,可以基于对齐损失值和聚类损失值对本地聚类模型进行调参,并继续训练本地聚类模型,在满足训练条件的情况下则可以获得训练好的本地聚类模型,并将训练好的本地聚类模型的模型参数发送至服务端。
在实际应用中,客户端在接收到服务端发送的全局聚类中心数据之后,拉近本地聚类中心数据与全局聚类中心数据,从而计算出对齐损失值,具体的对齐损失值的计算方式可以为根据本地聚类中心表示和全局聚类中心表示使用均方误差计算。
在本说明书一具体实施例中,客户端接收服务端发送的全局聚类中心数据,并根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,然后根据模型训练获得的聚类损失值和对齐损失值对本地聚类模型进行调参,并继续训练调参后的本地聚类模型,在满足训练条件的情况下停止训练,并将训练好的本地聚类模型的模型参数发送至服务端。
所述服务端202,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端。
其中,目标模型参数可以理解为聚合每个客户端发送的模型参数获得的参数,由于每个客户端都在本地进行了各自的本地聚类模型训练,因此每个客户端都会向服务端发送各自的本地聚类模型的模型参数,在服务端接收来自不同的客户端发送的模型参数之后,则可以通过聚合所有客户端发送的模型参数来生成目标模型参数,目标模型参数即为联邦学习下生成的全局聚类模型对应的模型参数,因此可以将目标模型参数发送至各个客户端,后续由各个客户端基于目标模型参数对本地聚类模型进行更新,从而生成目标聚类模型。
在实际应用中,服务端可以加权平均所有的客户端本地模型参数来计算目标模型参数,权重由各个客户端的样本数目决定。
在本说明书一具体实施例中,服务端接收所有客户端发送的模型参数,如客户端A发送的模型参数A,客户端B发送的模型参数B,并通过聚合方法将所有模型参数进行聚合,计算出目标模型参数,将目标模型参数发送至各个客户端。
所述目标客户端204,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
其中,目标聚类模型可以理解为利用所有客户端的本地数据训练出的目标聚类模型,目标聚类模型,相较于每个客户端利用本地数据训练的本地聚类模型,目标聚类模型的聚类效果更好,使得后续客户端在基于目标聚类模型进行数据聚类时,能够获得更准确的结果。
在本说明书一具体实施例中,每个客户端在接收到服务端发送的目标模型参数之后,则可以基于本地聚类模型的模型架构生成目标聚类模型,也即对本地聚类模型进行模型参数更新,根据更新结果获得目标聚类模型。
基于此,通过每个客户端将各自的本地聚类中心数据发送给服务端,由服务端进行数据汇总生成全局聚类中心数据,客户端可以根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,并基于对齐损失值和聚类损失值进行本地聚类模型的训练调参,将训练完毕的本地聚类模型的模型参数发送至服务端,由服务端进行模型参数聚合生成目标模型参数,并将目标模型参数返回至各个客户端,由各个客户端生成目标聚类模型,实现了在保证每个客户端的本地数据隐私保护的情况下,也能结合多方数据进行模型训练,并且在训练过程中也不会因为样本文本的稀疏性导致训练效果不佳的情况发生,获得聚类效果更佳的目标聚类模型,使得后续客户端可以根据目标聚类模型进行数据挖掘,为用户提供更好的服务。
进一步的,为了防止目标客户端无法准确的确定本地聚类中心数据,导致后续服务端计算出错误的全局聚类中心数据,目标客户端可以用过本地样本文本对应的本地聚类簇来确定本地聚类中心数据,具体的所述目标客户端,用于通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。
其中,本地聚类簇可以理解为本地样本文本经过聚类处理之后获得的处理结果,在实际应用中,利用本地样本文本对本地聚类模型训练的过程中,由于本地聚类中心在每次训练迭代中都会进行更新,因此在通过本地聚类模型对本地样本文本进行聚类,并获得本地样本文本对应的本地聚类簇之后,则可以基于本地聚类簇确定出准确的本地聚类中心表示。
在实际应用中,由于不同的聚类算法导致本地聚类中心的确定也不同,例如,K-means算法中会随机选择本地聚类中心,将其他样本文本基于该本地聚类中心进行聚类之后,可以获得本地训练轮次对应的聚类簇,基于当前的聚类簇重新计算本地聚类中心,并继续聚类训练,依次类推直至聚类结果收敛。因此,每次训练轮次中确定的本地聚类中心都会发生改变,所以客户端发送给服务端的本地聚类中心数据可以根据最后轮次的本地聚类簇确定。
在本说明书一具体实施例中,通过本地聚类模型对本地样本文本进行聚类处理,获得本地样本文本对应的本地聚类簇,将各个本地聚类簇的簇中心作为本地聚类中心数据,并将本地聚类中心数据发送至服务端。
基于此,通过本地聚类模型对本地样本文本进行聚类处理,可以获得本地样本文本对应的本地聚类簇,从而基于本地聚类簇准确地确定本地聚类中心数据,保证后续可以计算出准确的全局聚类中心数据。
进一步的,为了避免模型无法预测出本地样本文本对应的本地聚类簇,可以通过以下方式来确定本地聚类簇,保证本地聚类簇的正确性,具体的所述目标客户端,用于通过所述本地聚类模型中的编码模块对所述本地样本文本进行编码,获得所述本地样本文本对应的向量表示,通过所述本地聚类模型中的分类模块对所述向量表示进行分类,获得所述本地样本文本对应的本地文本分布,根据所述本地文本分布确定所述本地样本文本对应的本地聚类簇。
其中,本地聚类模型中的编码模块可以理解为本地聚类模型中设置的BERT模型(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码),BERT模型为一个预训练的语言表征模型,用于提取本地样本文本中的特征,并获得文本向量表示。在实际应用中,可以选择用SBERT(Sentence-BERT)模型,SBERT模型是对BERT模型的一种改进,能提取到更好的语句向量表示,并且还可以在SBERT模型的基础上使用知识蒸馏技术训练获得模型体积更小的模型,提高模型运算速度。本地聚类模型中的分类模型可以理解为本地聚类模型中设置的多层感知机,多层感知机用于进行非线性数据分类,通过多层感知机对语句向量表示进行分类,则可以获得本地样本文本对应的本地文本分布,本地文本分布可以理解为本地样本文本中每个样本文本属于哪个类别的分布情况,还可以将本地样本文本进行归一化处理,获得本地文本概率分布,即为每个样本文本属于哪个类别的概率分布情况,通过本地文本分布即可以确定出本地样本文本对应的本地聚类簇。
在实际应用中,可以参见图2B,图2B是本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的模型处理流程图,可以将本地样本文本X输入至预训练好的SBERT模型,得到本地样本文本的文本表示E,将文本表示E输入多层感知机MLP(MultilayerPerceptron)后得到本地样本文本的评分分布,将评分分布通过softmax后得到评分概率分布,并确定本地样本文本对应的本地聚类簇,后续基于本地聚类簇确定本地样本文本对应的本地聚类中心表示,在训练阶段,可以基于评分概率分布通过解离散最优传输问题获得伪标签Q,并通过高斯均匀混合模型计算伪标签Q对应的样本权重,并计算出对应的聚类损失值,后续基于对齐损失值调整本地聚类模型的模型参数。
在本说明书一具体实施例中,客户端通过本地聚类模型中的SBERT模型对文本x进行编码,获得文本x的向量表示,将向量表示输入多层感知机后得到文本x 的评分分布,根据该评分分布确定本地样本文本对应的本地聚类簇。
基于此,通过模型中设置的编码模块和分类模型能够准确地计算出样本样本文本对应的本地聚类簇,后续可以基于本地聚类簇进一步确定本地聚类中心数据。
进一步的,由于聚类处理是基于无标签对数据进行分类,所以在本地样本文本数据是短文本的情况下,由于短文本长度短、蕴含信息少、文本向量表示的可辨别性不足,所以缺少监督信息难以学习到具有可辨别性的表示,限制了聚类表现,为了解决该问题,本实施例中引入监督信息,具体的所述目标客户端,还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。
其中,预设传输函数可以理解为预设的最优传输函数,对于聚类任务来说,假设真实标签为Q,预测分布为P,我们并不知道真实标签Q,对比交叉熵损失和最优传输损失,发现若将Q视为最优传输矩阵,-log(P)视为cost矩阵M,则真实标签Q可以通过解一个最优传输问题得到。最优传输函数可以参见公式1,其中,为要求的最优传输矩阵,M为cost矩阵:
公式1
在实际应用中,预测文本分布即为真实标签(伪标签),根据本地文本分布和预设传输函数计算出预测文本分布,将预测文本分布作为监督信息,即相当于用过解一个离散最优传输问题来生成伪标签即预测文本分布,基于伪标签来计算模型损失值。由于预测文本分布计算出来的,因此预测文本分布不全是正确的,所以可以利用高斯混合函数来评估预测文本分布的正确概率,并使用该概率作为样本权重来保证监督数据的可靠性,从而减轻错误的伪标签影响。其中,高斯混合函数可以理解为高斯均匀混合模型对应的算法函数,高斯均匀混合模型假设正确的伪标签服从高斯分布,错误的伪标签服从均匀分布,则伪标签的正确的概率可以通过公式2进行计算,其中,p为高斯均匀混合模型的概率分布;N是高斯分布;U是均匀分布;是伪标签正确的先验概率,非固定值,计算的过程中会更新为标准偏差;为模型输入的样本数据,y是表示当前的伪标签(当前伪标签整体即正确的伪标签和错误的伪标签,服从高斯均匀混合模型的概率分布),是一个文本分类模型,用于预测的标签,是高斯分布的均值,是高斯分布的方差。
公式2
在本说明书一具体实施例中,客户端根据本地文本分布和预设传输函数计算预测文本分布,并使用高斯混合函数评估每个预测文本分布的正确的概率即样本权重,然后基于本地文本分布、预测文本分布和样本权重进行交叉熵损失值计算,从而获得客户端的聚类损失值,后续通过聚类损失值调整模型参数。
基于此,通过在模型训练过程中计算预测文本分布,将预测文本分布作为监督数据,优化聚类训练效果,并且使用高斯混合函数计算预测文本分布对应的样本权重,避免了错误的预测文本分布对训练效果的影响,保证监督数据的可靠性,从而解决因缺少监督信息难以学习到具有可辨别性的表示、限制聚类表现的问题。
进一步的,由于服务端会接收到各个客户端发送的本地聚类中心数据,为了满足联邦学习的需求,服务端需要将所有本地聚类中心数据进行聚合处理,具体的所述服务端,用于接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。
其中,对多个本地聚类中心数据进行聚合处理可以理解为将多个本地聚类中心数据进行合并,即对所有客户端对应类别的类中心进行加权平均获得全局聚类中心表示,在进行聚合处理之后,则可以生成全局聚类中心数据并发送至每个客户端。
在本说明书一具体实施例中,服务端接收客户端A发送的本地聚类中心数据A和客户端B发送的本地聚类中心数据B,对两个本地聚类中心数据进行聚合处理,根据处理结果生成全局聚类中心数据,并将全局聚类中心数据发送至客户端A和客户端B。
基于此,通过服务端对每个客户端发送的本地聚类中心数据进行聚合,使得在不获取每个客户端的本地数据的情况下,也能进行联邦学习,保证了客户端的本地数据隐私安全。
进一步的,由于客户端在对本地聚类模型训练的过程中计算出对齐损失值和聚类损失值,因此为了保证本地聚类模型的训练效果,需要根据对齐损失值和聚类损失值对模型进行调参,具体的所述目标客户端,用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
其中,对齐处理可以理解为计算本地聚类中心数据和全局聚类中心数据的特征的距离,将计算出的距离作为对齐损失值,聚类损失值为模型预测的结果与伪标签计算出的损失值,模型损失值可以理解为本地聚类模型对应的损失值,模型损失值为聚类损失值和对齐损失值计算获得,具体的模型损失值的计算公式可以参见公式3,其中为模型损失值,为聚类损失值,为对齐损失值,为对齐损失值的损失系数。
公式3
在实际应用中,在计算出对齐损失值和聚类损失值之后,则可以基于对齐损失值和聚类损失值计算出模型损失值,并通过模型损失值对本地聚类模型进行调参,根据调参后的本地聚类进行下一训练轮次。需要注意的是,在训练过程中,可以在指定训练迭代次数后对全局聚类中心数据进行更新,直至全局聚类中心收敛。
在本说明书一具体实施例中,客户端根据对齐损失值和聚类损失值计算模型损失值,并基于模型损失值对本地聚类模型进行调参,并继续训练本地聚类模型。在达到预设训练轮次或模型收敛的训练条件之后,获得训练完毕的本地聚类模型,并将该本地聚类模型的模型参数发送至服务端。
基于此,通过对齐损失值和聚类损失值计算模型损失值,可以基于模型损失值对本地聚类模型进行调参,实现了在数据分布在多端时,以保证多端数据隐私安全为前提,利用多端数据进行本地模型参数训练的目的。
进一步的,在服务端获取到每个客户端发送的模型参数之后,为了能够更准确的计算出目标模型参数,还需要根据每个客户端的样本数目进行模型参数的权重确定,具体的所述服务端,用于在所述至少两个客户端中确定待处理客户端,确定所述待处理客户端对应的模型参数和样本文本数量,根据所述样本文本数量计算所述模型参数对应的参数权重,根据每个客户端对应的模型参数和每个模型参数对应的参数权重计算目标模型参数。
其中,待处理客户端可以理解为接下来需要计算参数权重的客户端,如目前有客户端A和客户端B,则在计算客户端A对应的参数权重时,将客户端A作为待处理客户端。样本文本数量可以理解为每个客户端的本地数据的数量,由于每个客户端的样本数目不同,因此后续在计算目标模型参数时,每个客户端对应的模型参数的计算权重也不同,样本数目越多,则模型参数的计算权重越高。
在本说明书一具体实施例中,确定每个客户端的模型数据和样本文本数量,根据样本文本数量计算每个客户端的模型参数对应的参数权重,计算结果为客户端A的模型参数的参数权重为0.3,客户端B的模型参数的参数权重为0.7,则根据0.3模型参数A加0.7模型参数B计算目标模型参数。
基于此,通过根据每个客户端的样本文本数量确定每个客户端的模型参数的参数权重,后续可以根据每个模型参数的参数权重计算目标模型参数,从而提高目标模型参数计算的正确性。
进一步的,在生成目标聚类模型之后,客户端则可以通过目标聚类模型进行文本类别的预测,具体的所述目标客户端,还用于获取待处理文本,通过所述目标聚类模型对所述待处理文本进行聚类处理,获得所述待处理文本对应的目标聚类簇。
其中,待处理文本可以理解为需要进行聚类的文本,在本说明书实施例中待处理文本可以为短文本,客户端通过目标聚类模型对待处理文本进行聚类处理,从而获得待处理文本对应的目标聚类簇。目标聚类簇即为待处理文本对应的聚类结果。
在实际应用中,客户端生成目标聚类模型之后,则可以进行短文本类别的预测,所述类别可以基于文本评分分布决定,即为分布中每一行最大值所在列的索引,从而获得待处理文本对应的聚类结果。
在本说明书一具体实施例中,目标客户端获取待处理文本,待处理文本为客户端本地收集的客户数据,通过目标聚类模型对待处理文本进行聚类处理,从而获得待处理文本对应的目标聚类簇。
本说明书提供的一种基于联邦学习的聚类模型训练系统,其特征在于,所述系统包括服务端和至少两个客户端,其中,目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。通过在不聚合每个客户端的本地样本数据的情况下,实现了保证用户数据隐私安全的前提下,同时也可以利用各个客户端的数据共同进行聚类,满足联邦架构下的聚类需求,并优化聚类效果。
下述结合附图3,以本说明书提供的基于联邦学习的聚类模型训练系统在购物平台的应用为例,对所述基于联邦学习的聚类模型训练系统进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种基于联邦学习的聚类模型训练系统的处理过程流程图,所述系统包括服务端、至少两个客户端具体步骤包括步骤302至步骤312。
步骤302:目标客户端通过本地聚类模型对本地样本文本进行聚类处理,获得本地样本文本对应的本地聚类簇,根据本地聚类簇确定本地聚类中心数据并发送至服务端。
在一种可实现的方式中,客户端可以理解为不同的购物平台对应的终端,不同的购物平台拥有各自平台用户的用户数据,为了能够更好的挖掘用户的喜好,为用户更准确地提供推荐内容,多个购物平台之间想要通过联邦学习方式进行聚类模型的生成,因此每个购物平台的终端通过本地聚类模型对各自的平台用户数据进行聚类处理,获得本地聚类簇并基于本地聚类簇确定本地聚类中心并发送至服务端。
在一种可实现的方式中,目标客户端通过本地聚类模型中的SBERT模型对平台用户数据进行编码,获得对应的语义向量表示,通过多层感知机对向量表示进行分类,获得对应的本地文本分布,根据本地文本分布确定本地聚类簇。根据本地文本分布和离散最优传输函数计算本地样本文本对应的预测文本分布,通过高斯混合函数计算预测文本分布对应的样本权重,基于本地文本分布、预测文本分布和样本权重计算本地样本文本对应的聚类损失值。
步骤304:服务端接收至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至至少两个客户端。
在一种可实现的方式中,服务端可以理解为每个购物平台认可的中心服务器,服务端用于执行联邦学习中的聚合操作,接收每个购物平台终端发送的本地聚类中心数据之后,将所有的本地聚类中心数据进行聚合,生成全局聚类中心数据并发送至每个购物平台终端。
步骤306:目标客户端对本地聚类中心数据和全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值。
在一种可实现的方式中,目标客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值。
步骤308:目标客户端根据本地聚类模型通过训练得到的聚类损失值和对齐损失值,计算模型损失值,基于模型损失值对本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
在一种可实现的方式中,目标客户端根据聚类损失值和对齐损失值计算模型损失值,并基于模型损失值对本地聚类模型进行调参,并将训练完成的本地聚类模型的模型参数发送给服务端。
步骤310:目标客户端根据至少两个客户端对应的模型参数,计算目标模型参数并发送至至少两个客户端。
在一种可实现的方式中,目标客户端根据每个购物平台终端的样本文本数量计算对应的参数权重,根据每个购物平台终端的模型参数和其对应的参数权重进行加权计算,根据计算结果获得目标模型参数。
步骤312:目标客户端基于目标模型参数对本地聚类模型进行更新,获得目标聚类模型。
在一种可实现的方式中,购物平台终端基于目标模型参数对本地聚类模型进行更新,获得目标聚类模型,并基于目标聚类模型对用户数据进行聚类处理,获得用户数据对应的聚类簇。
本说明书提供的一种基于联邦学习的聚类模型训练系统通过利用本地样本文本对本地聚类模型进行训练,获得每个客户端的本地聚类中心数据,服务端对每个客户端的本地聚类中心数据进行聚合,生成全局聚类中心数据。再由客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,根据模型训练得到的聚类损失值和对齐损失值对本地聚类模型进行调参,将调参后满足训练条件的本地聚类模型的模型参数都发送至服务端,使得服务端可以聚合所有客户端对应的本地聚类模型的模型参数,从而获得全局的目标模型参数并发送给各个客户端,基于此每个客户端可以根据目标模型参数对本地聚类模型进行更新获得目标聚类模型,后续客户端可以基于目标聚类模型进行文本聚类预测,通过在不聚合每个客户端的本地样本数据的情况下,实现了保证用户数据隐私安全的前提下,同时也可以利用各个客户端的数据共同进行聚类,满足联邦架构下的聚类需求,并优化聚类效果。
图4示出了根据本说明书一个实施例提供的一种基于联邦学习的聚类方法的流程图,所述方法包括步骤402至步骤406:
步骤402:响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统训练获得的目标聚类模型。
其中,业务提供方可以理解为向用户提供业务的服务方,例如为用户提供购物业务的购物平台,为用户提供手机使用业务的手机生产商等,目标文本可以理解为业务提供方通过采集用户数据或使用记录的文本数据,文本分析请求可以理解为业务提供方针对目标文本具有文本挖掘分析的请求,目标聚类模型即为基于联邦学习的聚类模型训练系统训练获得的目标聚类模型。
在本说明书一具体实施例中,手机厂商A想要了解用户当前对于手机外观的意见,从而为下一代手机外观设计提供更好的设计思路,从而手机厂商A需要对在某地区的用户文本数据进行分析,将目标文本输入至目标聚类模型。
步骤404:获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇。
其中,文本聚类簇可以理解为对目标文本进行聚类之后的聚类结果,文本聚类簇即为将目标文本进行分类之后的分类结果簇。
在本说明书一具体实施例中,获得目标聚类模型输出的目标文本对应的文本聚类簇,其中包括喜欢翻盖手机的簇和喜欢直板手机的簇。
步骤406:基于所述文本聚类簇确定所述目标文本的分析文本。
其中,分析文本可以理解为针对文本聚类簇提出的分析结果,例如A簇的数据更多,则说明应该越应该考虑A簇用户的意见。
在本说明书一具体实施例中,根据文本聚类簇确定目标文本的分析文本,分析文本喜欢翻盖手机的簇的文本数据量为100,喜欢直板手机的簇的文本数据量为50,则后续手机厂商A可以基于分析文本制定后续的手机外观设计策略,从而满足更多用户的喜好。
本说明书提供的一种基于联邦学习的聚类方法,所述方法应用于客户端,包括:响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统训练获得的目标聚类模型;获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;基于所述文本聚类簇确定所述目标文本的分析文本。通过基于联邦学习的聚类模型训练获得的目标聚类模型,对目标文本进行聚类处理,获得目标文本对应的文本聚类簇,从而可以准确的基于文本聚类簇确定目标文本对应的分析文本,便于后续业务提供方基于分析文本制定相应策略,满足用户需求,为用户提供更好的使用体验。
图5示出了根据本说明书一个实施例提供的一种基于联邦学习的聚类模型训练方法的流程图,所述方法包括服务端和至少两个客户端,所述方法包括步骤502至步骤510:
步骤502:目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端。
步骤504:所述服务端根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端。
步骤506:所述目标客户端根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
步骤508:所述服务端根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端。
步骤510:所述目标客户端基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
可选的,所述方法包括:目标客户端通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。
可选的,所述方法包括:目标客户端通过所述本地聚类模型中的编码模块对所述本地样本文本进行编码,获得所述本地样本文本对应的向量表示,通过所述本地聚类模型中的分类模块对所述向量表示进行分类,获得所述本地样本文本对应的本地文本分布,根据所述本地文本分布确定所述本地样本文本对应的本地聚类簇。
可选的,所述方法还包括:目标客户端根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。
可选的,所述方法包括:服务端接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。
可选的,所述方法包括:目标客户端对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
可选的,所述方法包括:服务端在所述至少两个客户端中确定待处理客户端,确定所述待处理客户端对应的模型参数和样本文本数量,根据所述样本文本数量计算所述模型参数对应的参数权重,根据每个客户端对应的模型参数和每个模型参数对应的参数权重计算目标模型参数。
可选的,所述方法还包括:目标客户端获取待处理文本,通过所述目标聚类模型对所述待处理文本进行聚类处理,获得所述待处理文本对应的目标聚类簇。
本说明书提供的一种基于联邦学习的聚类模型训练方法,实现了通过利用本地样本文本对本地聚类模型进行训练,获得每个客户端的本地聚类中心数据,服务端对每个客户端的本地聚类中心数据进行聚合,生成全局聚类中心数据。再由客户端根据本地聚类中心数据和全局聚类中心数据计算对齐损失值,根据模型训练得到的聚类损失值和对齐损失值对本地聚类模型进行调参,将调参后满足训练条件的本地聚类模型的模型参数都发送至服务端,使得服务端可以聚合所有客户端对应的本地聚类模型的模型参数,从而获得全局的目标模型参数并发送给各个客户端,基于此每个客户端可以根据目标模型参数对本地聚类模型进行更新获得目标聚类模型,后续客户端可以基于目标聚类模型进行文本聚类预测,通过在不聚合每个客户端的本地样本数据的情况下,实现了保证用户数据隐私安全的前提下,同时也可以利用各个客户端的数据共同进行聚类,满足联邦架构下的聚类需求,并优化聚类效果。
上述为本实施例的一种基于联邦学习的聚类模型训练方法的示意性方案。需要说明的是,该基于联邦学习的聚类模型训练方法的技术方案与上述的基于联邦学习的聚类模型训练系统的技术方案属于同一构思,基于联邦学习的聚类模型训练方法的技术方案未详细描述的细节内容,均可以参见上述基于联邦学习的聚类模型训练系统的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了基于联邦学习的聚类装置实施例,图6示出了本说明书一实施例提供的一种基于联邦学习的聚类装置的结构示意图。如图6所示,该装置包括:
输入模块602,被配置为响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练统训练获得的目标聚类模型。
获得模块604,被配置为获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇。
确定模块606,被配置为基于所述文本聚类簇确定所述目标文本的分析文本。
本说明书提供的一种基于联邦学习的聚类装置,所述装置应用于客户端,输入模块,被配置为响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述基于联邦学习的聚类模型训练系统训练获得的目标聚类模型;获得模块,被配置为获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;确定模块,被配置为基于所述文本聚类簇确定所述目标文本的分析文本。通过基于联邦学习的聚类模型训练获得的目标聚类模型,对目标文本进行聚类处理,获得目标文本对应的文本聚类簇,从而可以准确的基于文本聚类簇确定目标文本对应的分析文本,便于后续业务提供方基于分析文本制定相应策略,满足用户需求,为用户提供更好的使用体验。
上述为本实施例的一种基于联邦学习的聚类装置的示意性方案。需要说明的是,该基于联邦学习的聚类装置的技术方案与上述的基于联邦学习的聚类方法的技术方案属于同一构思,基于联邦学习的聚类装置的技术方案未详细描述的细节内容,均可以参见上述基于联邦学习的聚类方法的技术方案的描述。
图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720执行所述计算机指令时实现所述的基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述基于联邦学习的聚类模型训练方法、基于联邦学习的聚类方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种基于联邦学习的聚类模型训练系统,其特征在于,所述系统包括服务端和至少两个客户端,其中,
目标客户端,用于利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;
所述服务端,用于根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;
所述目标客户端,用于根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;
所述服务端,用于根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;
所述目标客户端,用于基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
2.如权利要求1所述的系统,其特征在于,所述目标客户端,用于通过所述本地聚类模型对所述本地样本文本进行聚类处理,获得所述本地样本文本对应的本地聚类簇,根据所述本地聚类簇确定本地聚类中心数据并发送至所述服务端。
3.如权利要求2所述的系统,其特征在于,所述目标客户端,用于通过所述本地聚类模型中的编码模块对所述本地样本文本进行编码,获得所述本地样本文本对应的向量表示,通过所述本地聚类模型中的分类模块对所述向量表示进行分类,获得所述本地样本文本对应的本地文本分布,根据所述本地文本分布确定所述本地样本文本对应的本地聚类簇。
4.如权利要求3所述的系统,其特征在于,所述目标客户端,还用于根据所述本地文本分布和预设传输函数计算所述本地样本文本对应的预测文本分布,通过高斯混合函数计算所述预测文本分布对应的样本权重,基于所述本地文本分布、所述预测文本分布和所述样本权重计算所述本地样本文本对应的聚类损失值。
5.如权利要求1所述的系统,其特征在于,所述服务端,用于接收所述至少两个客户端发送的本地聚类中心数据,对至少两个本地聚类中心数据进行聚合处理,生成全局聚类中心数据并发送至所述至少两个客户端。
6.如权利要求1所述的系统,其特征在于,所述目标客户端,用于对所述本地聚类中心数据和所述全局聚类中心数据进行对齐处理,根据处理结果计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,计算模型损失值,基于所述模型损失值对所述本地聚类模型进行调参,并执行根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端。
7.如权利要求1所述的系统,其特征在于,所述服务端,用于在所述至少两个客户端中确定待处理客户端,确定所述待处理客户端对应的模型参数和样本文本数量,根据所述样本文本数量计算所述模型参数对应的参数权重,根据每个客户端对应的模型参数和每个模型参数对应的参数权重计算目标模型参数。
8.如权利要求1所述的系统,所述目标客户端,还用于获取待处理文本,通过所述目标聚类模型对所述待处理文本进行聚类处理,获得所述待处理文本对应的目标聚类簇。
9.一种基于联邦学习的聚类方法,其特征在于,所述方法应用于客户端,包括:
响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述权利要求1-8任意一项所述系统训练获得的目标聚类模型;
获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;
基于所述文本聚类簇确定所述目标文本的分析文本。
10.一种基于联邦学习的聚类模型训练方法,其特征在于,所述方法包括服务端和至少两个客户端,其中,
目标客户端利用本地样本文本对本地聚类模型进行训练,获得本地聚类中心数据并发送至所述服务端;
所述服务端根据所述至少两个客户端对应的本地聚类中心数据,生成全局聚类中心数据并发送至所述至少两个客户端;
所述目标客户端根据所述本地聚类中心数据和所述全局聚类中心数据计算对齐损失值,根据所述本地聚类模型通过训练得到的聚类损失值和所述对齐损失值,对所述本地聚类模型进行调参,根据调参结果将满足训练条件的本地聚类模型的模型参数发送至所述服务端;
所述服务端根据所述至少两个客户端对应的模型参数,计算目标模型参数并发送至所述至少两个客户端;
所述目标客户端基于所述目标模型参数对所述本地聚类模型进行更新,获得目标聚类模型。
11.一种基于联邦学习的聚类装置,其特征在于,所述装置应用于客户端,包括:
输入模块,被配置为响应于业务提供方针对目标文本提交的文本分析请求,将所述目标文本输入至通过所述权利要求1-8任意一项所述系统训练获得的目标聚类模型;
获得模块,被配置为获得所述目标聚类模型输出的所述目标文本对应的文本聚类簇;
确定模块,被配置为基于所述文本聚类簇确定所述目标文本的分析文本。
12.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现权利要求9或者10所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机指令被处理器执行时实现权利要求9或者10所述方法的步骤。
CN202310278688.9A 2023-03-21 2023-03-21 基于联邦学习的聚类模型训练系统及方法 Active CN115994226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310278688.9A CN115994226B (zh) 2023-03-21 2023-03-21 基于联邦学习的聚类模型训练系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310278688.9A CN115994226B (zh) 2023-03-21 2023-03-21 基于联邦学习的聚类模型训练系统及方法

Publications (2)

Publication Number Publication Date
CN115994226A true CN115994226A (zh) 2023-04-21
CN115994226B CN115994226B (zh) 2023-10-20

Family

ID=85992253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310278688.9A Active CN115994226B (zh) 2023-03-21 2023-03-21 基于联邦学习的聚类模型训练系统及方法

Country Status (1)

Country Link
CN (1) CN115994226B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541712A (zh) * 2023-06-26 2023-08-04 杭州金智塔科技有限公司 基于非独立同分布数据的联邦建模方法及系统
CN116991587A (zh) * 2023-08-14 2023-11-03 北京百度网讯科技有限公司 联邦学习中的设备调度方法及装置
CN117421486A (zh) * 2023-12-18 2024-01-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310938A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
CN113378049A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 信息推荐模型的训练方法、装置、电子设备及存储介质
WO2021189974A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN114358111A (zh) * 2021-11-03 2022-04-15 腾讯科技(深圳)有限公司 对象聚类模型的获取方法、对象聚类方法及装置
US20220129706A1 (en) * 2020-10-23 2022-04-28 Sharecare AI, Inc. Systems and Methods for Heterogeneous Federated Transfer Learning
CN114819069A (zh) * 2022-04-12 2022-07-29 中国人民解放军国防科技大学 基于dbscan聚类的客户端选择联邦学习方法
CN114841355A (zh) * 2021-01-14 2022-08-02 新智数字科技有限公司 一种基于注意力机制的联合学习方法和系统
CN115049076A (zh) * 2022-07-13 2022-09-13 中国科学技术大学 基于原型网络的迭代聚类式联邦学习方法
CN115114988A (zh) * 2022-07-05 2022-09-27 中国电子系统技术有限公司 一种面向不均衡数据分布的隐私保护k均值聚类方法
CN115391576A (zh) * 2022-07-15 2022-11-25 浙江工业大学 一种基于聚类的联邦图学习方法及系统
CN115510936A (zh) * 2021-06-23 2022-12-23 华为技术有限公司 基于联邦学习的模型训练方法及聚类分析器
CN115563519A (zh) * 2022-10-17 2023-01-03 华中科技大学 面向非独立同分布数据的联邦对比聚类学习方法及系统
CN115577803A (zh) * 2022-10-12 2023-01-06 中国科学院计算技术研究所 一种对混合噪声鲁棒的联邦学习方法及系统
CN115587633A (zh) * 2022-11-07 2023-01-10 重庆邮电大学 一种基于参数分层的个性化联邦学习方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310938A (zh) * 2020-02-10 2020-06-19 深圳前海微众银行股份有限公司 基于半监督的横向联邦学习优化方法、设备及存储介质
WO2021189974A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
US20220129706A1 (en) * 2020-10-23 2022-04-28 Sharecare AI, Inc. Systems and Methods for Heterogeneous Federated Transfer Learning
CN114841355A (zh) * 2021-01-14 2022-08-02 新智数字科技有限公司 一种基于注意力机制的联合学习方法和系统
CN113378049A (zh) * 2021-06-10 2021-09-10 平安科技(深圳)有限公司 信息推荐模型的训练方法、装置、电子设备及存储介质
CN115510936A (zh) * 2021-06-23 2022-12-23 华为技术有限公司 基于联邦学习的模型训练方法及聚类分析器
CN114358111A (zh) * 2021-11-03 2022-04-15 腾讯科技(深圳)有限公司 对象聚类模型的获取方法、对象聚类方法及装置
CN114819069A (zh) * 2022-04-12 2022-07-29 中国人民解放军国防科技大学 基于dbscan聚类的客户端选择联邦学习方法
CN115114988A (zh) * 2022-07-05 2022-09-27 中国电子系统技术有限公司 一种面向不均衡数据分布的隐私保护k均值聚类方法
CN115049076A (zh) * 2022-07-13 2022-09-13 中国科学技术大学 基于原型网络的迭代聚类式联邦学习方法
CN115391576A (zh) * 2022-07-15 2022-11-25 浙江工业大学 一种基于聚类的联邦图学习方法及系统
CN115577803A (zh) * 2022-10-12 2023-01-06 中国科学院计算技术研究所 一种对混合噪声鲁棒的联邦学习方法及系统
CN115563519A (zh) * 2022-10-17 2023-01-03 华中科技大学 面向非独立同分布数据的联邦对比聚类学习方法及系统
CN115587633A (zh) * 2022-11-07 2023-01-10 重庆邮电大学 一种基于参数分层的个性化联邦学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GABRIEL RODRIGUES DA SILVA; MARCELO KEESE ALBERTINI: "Using Multiple Clustering Algorithms to Generate Constraint Rules and Create Consensus Clusters", 《2017 BRAZILIAN CONFERENCE ON INTELLIGENT SYSTEMS (BRACIS)》 *
周俊;方国英;吴楠;: "联邦学习安全与隐私保护研究综述", 西华大学学报(自然科学版), no. 04 *
杨虎;易丹辉;张艳宏;吕晓颖;白文静;: "双向聚类方法的文献计量分析", 世界科学技术-中医药现代化, no. 03 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541712A (zh) * 2023-06-26 2023-08-04 杭州金智塔科技有限公司 基于非独立同分布数据的联邦建模方法及系统
CN116541712B (zh) * 2023-06-26 2023-12-26 杭州金智塔科技有限公司 基于非独立同分布数据的联邦建模方法及系统
CN116991587A (zh) * 2023-08-14 2023-11-03 北京百度网讯科技有限公司 联邦学习中的设备调度方法及装置
CN116991587B (zh) * 2023-08-14 2024-04-12 北京百度网讯科技有限公司 联邦学习中的设备调度方法及装置
CN117421486A (zh) * 2023-12-18 2024-01-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法
CN117421486B (zh) * 2023-12-18 2024-03-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法

Also Published As

Publication number Publication date
CN115994226B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US11593894B2 (en) Interest recommendation method, computer device, and storage medium
CN115994226B (zh) 基于联邦学习的聚类模型训练系统及方法
CN111339433B (zh) 基于人工智能的信息推荐方法、装置、电子设备
US20180322411A1 (en) Automatic evaluation and validation of text mining algorithms
Xie et al. A survey on machine learning-based mobile big data analysis: Challenges and applications
WO2023109059A1 (zh) 确定融合参数的方法、信息推荐方法和模型训练方法
CN109961080B (zh) 终端识别方法及装置
CN111695084A (zh) 模型生成方法、信用评分生成方法、装置、设备及存储介质
CN107368499B (zh) 一种客户标签建模及推荐方法及装置
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN110637321A (zh) 动态申索提交系统
CN114371946B (zh) 基于云计算和大数据的信息推送方法及信息推送服务器
CN112464106B (zh) 对象推荐方法及装置
US20220207353A1 (en) Methods and systems for generating recommendations for counterfactual explanations of computer alerts that are automatically detected by a machine learning algorithm
CN113485993A (zh) 数据识别方法以及装置
CN113298121A (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN115659995B (zh) 一种文本情感分析方法和装置
CN115618079A (zh) 会话推荐方法、装置、电子设备及存储介质
CN110163761B (zh) 基于图像处理的可疑项目成员识别方法及装置
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN114637920A (zh) 对象推荐方法以及装置
CN115329183A (zh) 数据处理方法、装置、存储介质及设备
CN113780610A (zh) 一种客服画像构建方法和装置
CN116821512B (zh) 推荐模型训练方法及装置、推荐方法及装置
CN116595978B (zh) 对象类别识别方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant