CN116541712B - 基于非独立同分布数据的联邦建模方法及系统 - Google Patents

基于非独立同分布数据的联邦建模方法及系统 Download PDF

Info

Publication number
CN116541712B
CN116541712B CN202310757831.2A CN202310757831A CN116541712B CN 116541712 B CN116541712 B CN 116541712B CN 202310757831 A CN202310757831 A CN 202310757831A CN 116541712 B CN116541712 B CN 116541712B
Authority
CN
China
Prior art keywords
identification
model
recognition
information
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310757831.2A
Other languages
English (en)
Other versions
CN116541712A (zh
Inventor
陈超超
郑小林
廖馨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jinzhita Technology Co ltd
Original Assignee
Hangzhou Jinzhita Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jinzhita Technology Co ltd filed Critical Hangzhou Jinzhita Technology Co ltd
Priority to CN202310757831.2A priority Critical patent/CN116541712B/zh
Publication of CN116541712A publication Critical patent/CN116541712A/zh
Application granted granted Critical
Publication of CN116541712B publication Critical patent/CN116541712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本说明书提供基于非独立同分布数据的联邦建模方法及系统,其中方法应用于数据处理系统,数据处理系统包括至少两个客户端和服务端;服务端首先基于识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端;目标客户端此时可以利用本地数据对中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至服务端;服务端通过对每个客户端的本地提取参数进行聚合,实现调参出包含识别单元和中间提取单元的目标识别模型,并将目标识别模型作为中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。

Description

基于非独立同分布数据的联邦建模方法及系统
技术领域
本说明书涉及机器学习技术领域,特别涉及基于非独立同分布数据的联邦建模方法及系统。
背景技术
随着互联网技术的发展,线上服务为用户提供了越来越多的便捷服务。同时也在各个业务平台产生了大量关于用户的相关数据。实际应用中,用户数据相对于每个平台都是相对较为重要的数据,这就导致非独立同分布的(Non-Independent and identicaldistributed, Non-IID)数据分布在不同的数据平台对应的本地客户端。随着社会对隐私保护的重视,导致不同本地客户端存储的数据无法聚合起来进行建模;而联邦学习,实现了分布式客户端的数据的联合建模,为解决数据孤岛难题和隐私保护需求提供了富有前景的解决方案。但是,现有技术中,考虑到用户数据个性化和场景多元化等业务需求,不同的本地客户端存储的数据是Non-IID的,如果忽略这个因素会造成类别特征发生迁移,导致建模后得到的模型预测能力达不到需求,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种基于非独立同分布数据的联邦建模方法。本说明书同时涉及一种基于非独立同分布数据的联邦建模系统,一种信息识别方法,一种信息识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于非独立同分布数据的联邦建模方法,应用于数据处理系统,所述数据处理系统包括至少两个客户端和服务端;
服务端在双曲空间中确定识别参数,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端;
目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端;
服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
可选地,所述服务端在双曲空间中确定识别参数,包括:
服务端确定全局类别信息,并根据所述全局类别信息构建双曲原型,其中,所述双曲原型的类别划分单元按照所述全局类别信息均匀分布,基于所述双曲原型生成所述识别参数,其中,所述识别参数在所述中间识别模型训练中固定。
可选地,所述基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,包括:
构建包含基础提取单元和初始识别单元的初始识别模型,利用所述识别参数对所述初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对所述初始识别模型中的基础提取单元进行初始化,根据初始化处理结果获得包含所述初始提取单元和所述识别单元的中间识别模型。
可选地,所述目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,包括:
目标客户端读取本地数据,并将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定所述本地提取单元对应的所述本地提取参数。
可选地,所述服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,包括:
服务端对每个客户端的本地提取参数进行聚合,获得初始全局提取参数,基于所述初始全局提取参数生成包含所述识别单元和中间提取单元的目标识别模型,在所述目标识别模型不满足训练停止条件的情况下,将所述目标识别模型作为所述中间识别模型,并执行发布至各个客户端的步骤。
可选地,所述方法还包括:
目标客户端接收所述识别模型并部署,在接收到信息识别请求的情况下,将所述信息识别请求中携带的待识别信息输入至所述识别模型,通过所述识别模型中的提取单元对所述待识别信息进行特征提取处理,获得信息特征,通过所述识别模型中的识别单元对所述信息特征进行识别处理,获得目标表述信息,作为所述信息识别请求的响应。
可选地,所述将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,包括:
将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得所述本地数据对应的欧式空间特征,作为所述本地数据特征,将所述本地数据特征从欧式空间转换到双曲空间,根据转换结果获得转换特征,通过所述中间识别模型中的所述识别单元对所述转换特征进行识别处理,获得所述预测识别信息。
可选地,所述基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,包括:
确定所述本地数据对应的样本识别信息,将所述预测识别信息作为锚点信息,所述样本识别信息作为正向点信息,以及与所述样本识别信息类别不同的关联识别信息作为负向点信息,基于所述锚点信息、所述正向点信息和所述负向点信息构建三元组损失函数,并基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元。
可选地,所述基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元,包括:
基于所述三元组损失函数计算损失值,并基于所述损失值对所述初始提取单元进行调参,检测调参后的初始提取单元是否满足本地训练停止条件;若不满足,执行读取本地数据,并将所述本地数据输入至所述中间识别模型的步骤;若满足,将调参后的初始提取单元作为所述本地提取单元。
根据本说明书实施例的第二方面,提供了一种基于非独立同分布数据的联邦建模系统,包括至少两个客户端和服务端;
服务端,用于在双曲空间中确定识别参数,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端;
目标客户端,用于利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端;
服务端,还用于对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
根据本说明书实施例的第三方面,提供了一种信息识别方法,包括:
接收业务方提交的待识别信息;
将所述待识别信息输入至上述方法中的识别模型进行识别处理;
根据识别处理结果生成目标表述信息并反馈至所述业务方。
根据本说明书实施例的第四方面,提供了一种信息识别装置,包括:
接收模块,被配置为接收业务方提交的待识别信息;
处理模块,被配置为将所述待识别信息输入至上述方法中的识别模型进行识别处理;
反馈模块,被配置为根据识别处理结果生成目标表述信息并反馈至所述业务方。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令时实现基于非独立同分布数据的联邦建模方法或者信息识别方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述基于非独立同分布数据的联邦建模方法或者信息识别方法的步骤。
本实施例提供的基于非独立同分布数据的联邦建模方法,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
附图说明
图1是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法的示意图;
图2是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法的流程图;
图3是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法中联邦建模的示意图;
图4是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法中模型架构的示意图;
图5是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法的处理流程图;
图6是本说明书一实施例提供的一种基于非独立同分布数据的联邦建模系统的结构示意图;
图7是本说明书一实施例提供的一种信息识别方法的流程图;
图8是本说明书一实施例提供的一种信息识别装置的结构示意图;
图9是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种基于非独立同分布数据的联邦建模方法。本说明书同时涉及一种基于非独立同分布数据的联邦建模系统,一种信息识别方法,一种信息识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,基于Non-IID数据的联邦学习需要考虑两个实际情况,其一是数据源受到相关规定要求不允许直接聚合进行建模,避免数据隐私泄露的风险;其二是由于用户个性化和场景多元化等业务需求,不同的本地数据分布是Non-IID的,忽略这个因素会发生类别特征迁移。也就是说,忽略Non-IID 数据建模的时候,类别统计信息在联邦学习的过程中会发生偏移,进而导致本地模型感知不到本地缺失类别数据的统计信息和无法区分两个重叠类别的数据,同时对数据量少类别种类少的Non-IID数据场景,未能够充分利用数据的结构知识,因此亟需一种有效的方案以解决上述问题。
参见图1所示的示意图,本实施例提供的基于非独立同分布数据的联邦建模方法,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
图2示出了根据本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法的流程图,该方法应用于数据处理系统,所述数据处理系统包括至少两个客户端和服务端;具体包括以下步骤:
步骤S202,服务端在双曲空间中确定识别参数,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端。
步骤S204,目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端。
步骤S206,服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
具体的,服务端具体是指用于联合多方客户端的模型参数进行识别模型确定的一端;其中,识别模型具体是指能够对输入的内容进行识别的模型,包括但不限于手写字符识别模型,图像识别模型,文字识别模型,视频识别模型等,其输出为识别到的信息,比如手写字符识别模型,输入的是用户手写字体,输出的字体内容;图像识别模型输入的是图像,输出的是图像中包含的对象信息,实际应用中,识别模型的功能可以基于客户端持有的数据完成训练,本实施例在此不作任何限定。其中,识别模型至少包含提取单元和识别单元,提取单元用于提取输入的特征,识别单元用于识别内容。
相应的,识别参数具体是指对初始识别模型中的初始识别单元的模型的参数进行更新的参数,且识别参数在训练阶段并不会被调整,进而达到各个客户端可以共享由服务端设定的识别单元,以实现利用各个客户端的本地数据对模型中的提取单元进行优化,从而得到识别范围更为广泛的识别模型。相应的,初始化具体是指对初始识别模型中的初始提取单元和初始识别单元进行参数赋值的过程;相应的,中间识别模型具体是指对识别单元进行参数设定完成,且提取单元还未进行训练的识别模型;相应的,目标客户端具体是指至少两个客户端中的任意一个客户端。相应的,本地数据具体是指每个客户端持有的数据,且该数据相对于客户端为隐私数据,不能够泄露给其他客户端使用;且不同的场景下,本地数据不同,比如手写字符识别场景,本地数据可以是用户手写的字符内容;比如在图像识别场景,本地数据可以是不同类型的图像;相应的,本地提取参数具体是指每个客户端基于本地数据对中间识别模型中的初始提取单元进行训练后得到的参数,该参数仅为当前训练迭代周期对应的提取参数。
相应的,中间提取单元具体是指利用每个客户端对应的本地提取参数进行聚合后得到的模型参数调整后的提取单元,其中聚合方式可以采用加权求和或者计算平均值等方法实现,本实施例在此不作任何限定。相应的,目标识别模型具体是指基于聚合后的中间提取单元以及固定参数的识别单元组成的识别模型,且该识别模型若需要继续进行训练,则将会作为中间识别模型,执行服务端发布到各个客户端进行训练的步骤。相应的,识别模型具体是指基于各个客户端内的本地数据进行训练好的识别模型,其可以部署在实际业务场景中进行应用。
基于此,为了能够实现联合多方数据训练出满足使用需求的识别模型,且可以覆盖更广泛的范围,可以先由服务端在双曲空间中确定识别参数,实现基于识别参数对初始识别模型中的初始识别单元进行初始化,以固定识别模型的模型参数,而不被客户端进行调参时修改,此时将获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端。
进一步的,各个客户端在接收到包含初始提取单元和识别单元的中间是被模型后,可以在本地进行模型训练,即每个目标客户端利用本地数据对中间识别模型中的初始提取单元进行训练,以实现根根据训练结果确定初始提取单元经过训练后得到的本地提取参数,此时可以将本地提取参数发送到服务端,实现在不发送本地数据的情况下,交由服务端完成模型训练。
更进一步的,服务端在接收到各个客户端的本地提取参数后,服务端可以先对每个客户端的本地提取参数进行聚合,以实现根据聚合结果得到全局提取参数,再使用该参数对中间识别模型中的初始提取单元进行调参,将根据调参结果获得包含识别单元和中间提取单元的目标识别模型,其中,中间提取单元即为结合每个客户端的本地提取参数得到的中间提取单元,若该模型还不满足使用需求,可以将目标识别模型作为中间识别模型发布至各个客户端继续训练,以此迭代直至获得满足训练停止条件的识别模型,并发布至各个客户端即可,实现各个客户端使用。
也是就说,本实施例提供的基于非独立同分布数据的联邦建模方法,实则是针对Non-IID数据分类任务的双曲模型联邦建模方案,通过构建全局共享的双曲原型作为类别的统计信息,并将双曲原型固定在合适的位置防止发生偏移,实现对模型中的识别单元进行参数固定,而解决Non-IID本地数据类别确实和类别信息发生重叠的问题;之后客户端在进行训练时,通过以预先设定的双曲原型为监督信号,对本地数据利用双曲模型进行建模,捕捉数据的层次结构,实现将相同类别的数据聚在一起,不同类别的数据区分开来,弥补仅仅利用数据语义信息在存在稀疏数据的Non-IID场景的不足。从而训练出满足使用需求的模型,并发布到各个客户端供其使用。
参见图3所示的示意图,考虑在双曲空间上对1个用户全局聚合的服务器端和K个含有Non-IID数据的本地客户端进行联邦建模。其中每个服务器端和客户端维护相同的模型结构,可以采用庞加莱球(双曲模型)进行双曲建模,从而得到初始识别模型。如图4所示,该模型架构需要包含特征提取模型以及庞加莱球预测模型,且二者之间进行指数投影,实现将欧式空间特征投影到双曲空间进行预测,其中,庞加莱球预测模型由均匀分布的双曲原型初始化。也就是说,该模型包含一个特征提取模型,其用于提取数据特征/>;一个以庞加莱球心o为参照的指数投影操作的/>,用于将特征从欧式空间投影到双曲空间,从而捕捉层次结构,以及一个庞加莱球预测模型,对数据在双曲空间进行预测,即
参见图3所示的示意图,在模型训练阶段,可以通过以下步骤实现:
(1)服务端先在双曲空间,即庞加莱球,根据Non-IID 数据的所有类别,构造均匀分布的双曲原型W,而为了能够实现结合各个客户端的本地数据联合完成模型训练,可以将其固定具有泛化语义的位置,即可以作为该类数据的根结点的位置。
(2)服务端初始化其模型结构,其中,模型结构中的特征提取模型(提取单元)的参数由随机分布采样进行初始化,而庞加莱球预测模型(识别单元)由庞加莱球双曲原型进行初始化。
(3)服务端将初始化后的模型结构(中间识别模型)发布给各个客户端,用于在客户端本地建模进一步训练。
(4)客户端依据固定共享的庞加莱球双曲原型为监督信号,对本地数据进行双曲建模,实现对模型结构中的特征提取模型进行训练,从而得到可以表达数据之间层次结构的特征提取模型参数。
(5)服务端将聚合每个客户端对应的特征提取模型的参数。
此后,考虑到上述方案固定了庞加莱双曲原型的位置,所以不对其更新,保持服务器端和K个客户端共享双曲原型在庞加莱球上的分布。再通过迭代(3)至(5)的步骤实现联邦通讯和建模,从而可以防止联邦建模Non-IID数据的时候发生类别信息偏移的问题,同时通过本地的双曲建模,捕捉了更加充分的层次结构信息,缓解了Non-IID数据在本地稀疏分布的问题。
举例说明,服务端先在双曲空间根据手写字体数据的所有类别,构建出均匀分布的双曲原型,并将其固定具有泛化语义的位置,作为该类数据的根节点位置。之后服务端初始化模型结构,模型结构中的特征提取单元的参数由随机分布采样初始化,而识别单元由庞加莱球双曲原型进行初始化。此后服务端将初始化的模型结构发布到各个客户端,由各个客户端进一步进行训练。任意一个客户端接收到服务端发布的模型结构后,可以依据固定共享的庞加莱球双曲原型作为监督信号,对本地手写字体数据进行双曲建模,实现对模型结构中特征提取单元的训练,从而得到可以表达数据之间层级结构的特征提取参数。并将其发送给服务端。服务端在接收到各个客户端提交的特征提取参数后,可以通过聚合的方式实现更新。即服务端由于固定了庞加莱双曲原型的位置,所以不对其更新,保持服务端和各个客户端共享双曲原型在庞加莱球上的分布,通过不断迭代上述过程实现联邦建模,从而得到能够对手写内容进行识别的模型,实现在应用阶段,可以对用户提交的手写字体进行识别,方便下游业务使用。
本实施例提供的基于非独立同分布数据的联邦建模方法,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
进一步的,在确定识别参数时,实则是服务端结合全局类别信息构建覆盖范围更广的识别参数,用于固定识别模型中的识别单元,从而实现客户端在进行训练时,可以仅训练提取单元即可,本实施例中,所述服务端在双曲空间中确定识别参数,包括:
服务端确定全局类别信息,并根据所述全局类别信息构建双曲原型,其中,所述双曲原型的类别划分单元按照所述全局类别信息均匀分布,基于所述双曲原型生成所述识别参数,其中,所述识别参数在所述中间识别模型训练中固定。
具体的,全局类别信息具体是指能够识别的全部类别的集合,用于实现构建包含全部类别信息的双曲原型,方便后续使用双曲原型生成识别参数,用于固定中间识别模型中的识别单元的参数。
基于此,服务端会先确定覆盖全局的全局类别信息,此后再根据全局类别信息构建双曲原型,并且双曲原型的类别划分单元按照全局类别信息均匀分布,此时再基于双曲原型生成识别参数,方便后续使用即可,其中,识别参数在所述中间识别模型训练中固定。
沿用上例,服务端为了能够训练出识别能力更强的模型,可以在双曲空间中根据Non-IID 数据的所有类别,构造均匀分布的双曲原型W,并且将其固定具有泛化语义的位置,作为该类数据的根节点的位置,方便后续在固定好参数的基础上训练出识别模型,用于手写字体的识别。
综上,通过结合全局类别信息确定识别参数,可以确保识别参数覆盖更广泛的范围,从而实现在模型训练阶段,仅训练提取单元即可。
更进一步的,服务端在进行初始化阶段,实则是对识别模型中的初始识别单元和初始提取单元都进行初始化,本实施例中,所述基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,包括:
构建包含基础提取单元和初始识别单元的初始识别模型,利用所述识别参数对所述初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对所述初始识别模型中的基础提取单元进行初始化,根据初始化处理结果获得包含所述初始提取单元和所述识别单元的中间识别模型。
具体的,基础提取单元具体是指具有特征提取能力的层级结构,但还没进行初始化和训练。相应的,随机分布采样策略具体是指采用随机算法对初始识别单元进行初始化的策略。
基于此,服务端可以先构建包含基础提取单元和初始识别单元的初始识别模型,此后利用识别参数对初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对初始识别模型中的基础提取单元进行初始化,实现根据初始化处理结果获得包含初始提取单元和识别单元的中间识别模型,方便后续同步到客户端继续训练。
也就是说,服务端目标是维护Non-IID 数据联邦建模的所有类别统计信息不会发生偏移,即构造一组均匀分布的双曲原型W,并在庞加莱球预测模型上找到合理的位置进行固定。因此会先建一组均匀分布的双曲原型。将利用正交基在球形空间均匀分布这一特性,将生成均匀分布的双曲原型规定成一个Tammes优化问题,如下公式(1):
(1)
其中,表示是第i类的原型,即双曲原型W的第i列,其中,[c]={1,2,…,c}为C类标签的索引集合。同时,为了降低上述公式(1)中双曲模型需要两两计算的复杂度,可以对每个双曲原型优化其最大的距离最近的双曲原型,因此可以将上述公式(1)转换为矩阵的形式,实现通过公式(2)进行更快的矩阵运算:
(2)
此过程会将双曲原型固定在合适的位置,由于庞加莱球上越靠近球心的地方代表着越广泛的语义,因此可以通过对每个双曲原型沿球半径收缩s倍(0<s<1),以得到均匀分布并具有广泛语义的类别统计信息。最终初始化得到庞加莱球预测模型的双曲原型即为
综上,通过对构建好的识别模型进行初始化,可以实现将双曲原型固定在合适的位置后,发布到各个客户端,作为客户端本地数据的类别信号,以训练出满足使用需求的模型。
客户端在进行初始提取单元训练时,实则是需要使用本地数据通过识别模型进行全部的处理操作后,再进行调参,本实施例中,所述目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,包括:
目标客户端读取本地数据,并将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定所述本地提取单元对应的所述本地提取参数。
具体的,本地数据具体是指客户端自身持有的数据,比如在手写字体识别场景下,本地数据即为手写数据;相应的,本地数据特征具体是指通过识别模型中的提取单元进行特征提取后得到的向量表达;相应的,预测识别信息具体是指通过识别单元对本地数据特征进行处理后,预测到本地数据对应的识别结果,比如手写字体的识别结果为每个字单元。相应的,本地训练停止条件具体是指停止训练提取单元的策略,包括但不限于损失值比较条件,迭代次数条件或者验证结果比较条件等,本实施例在此不作任何限定。
基于此,目标客户端接收到中间识别模型后,可以先读取本地数据,并将本地数据输入至中间识别模型,实现通过中间识别模型中的初始提取单元对所述本地数据进行特征提取处理,获得本地数据对应的本地数据特征,此后再通过中间识别模型中的识别单元对本地数据特征进行识别处理,获得本地数据对应的预测识别信息,此后再基于本地数据对应的样本识别信息和预测识别信息对初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定本地提取单元对应的本地提取参数,发送到服务端即可。
沿用上例,当客户端接收到服务端下发的识别模型后,可以利用本地手写字体数据及其对应的样本标签对识别模型进行训练;即将本地手写字体数据输入至中间识别模型,通过中间识别模型中的初始提取单元提取本地手写字体数据对应的手写字体特征,再通过模型中的识别单元对手写字体特征进行处理,即可得到预测识别字体信息,之后可以基于预设识别字体信息和样本标签计算损失值,并根据损失值对模型进行调参,直至满足训练停止条件后,即可得到提取单元对应的提取参数,并将其发送给服务端进行后续的处理即可。
综上,通过在客户端本地利用本地数据充分训练识别模型中的提取单元,可以确保在服务端汇总各个客户端的本地提取参数,从而训练出范围更广泛且精度更高的模型。
在此基础上,考虑到识别模型是将特征从欧式空间转换到双曲空间进行处理的过程,其目的是为了能够覆盖更广泛的识别范围,达到识别需求,因此需要经过空间投影后再进行模型训练,本实施例中,所述将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,包括:
将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得所述本地数据对应的欧式空间特征,作为所述本地数据特征,将所述本地数据特征从欧式空间转换到双曲空间,根据转换结果获得转换特征,通过所述中间识别模型中的所述识别单元对所述转换特征进行识别处理,获得所述预测识别信息。
具体的,欧式空间特征具体是指通过初始提取单元对本地数据进行特征提取后,得到的在欧式空间中的向量表达;相应的,转换特征具体是指将欧式空间特征转换到双曲空间后的向量表达,更加方便后续进行使用。
基于此,在本地客户端使用模型进行训练时,实则是将本地数据输入至所述中间识别模型,实现通过中间识别模型中的初始提取单元对所述本地数据进行特征提取处理,获得本地数据对应的欧式空间特征,作为本地数据特征,此后为了能够在双曲空间中进行预测,可以将本地数据特征从欧式空间转换到双曲空间,以根据转换结果获得转换特征,此后再通过中间识别模型中的识别单元对转换特征进行识别处理,即可获得预测识别信息。
沿用上例,在将本地手写字体数据输入至模型中的提取单元进行特征提取后,将得到对应欧式空间的向量表达;而为了能够在双曲空间下完成识别,可以将欧式空间中的向量表达转换为双曲空间中的向量表达,之后再进行后续的处理。
综上,通过对特征进行空间转换,实现在处理时可以将特征映射到双曲空间进行后续处理,从而确保双曲原型和样本特征的一致性。
此外,客户端在进行本地调参时,实则是结合正负样本实现,从而避免模型过拟合的问题发生,本实施例中,所述基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,包括:
确定所述本地数据对应的样本识别信息,将所述预测识别信息作为锚点信息,所述样本识别信息作为正向点信息,以及与所述样本识别信息类别不同的关联识别信息作为负向点信息,基于所述锚点信息、所述正向点信息和所述负向点信息构建三元组损失函数,并基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元。
具体的,正向点信息和负向点信息具体是指训练模型使用的正负样本信息,用于使模型更趋向于真实预测结果,远离虚假预测结果。相应的,锚点信息具体是指训练模型的基准样本信息;相应的,三元组损失函数具体是指用于对模型进行参数调整的损失函数。
基于此,在进行提取单元的参数优化阶段,为了避免过拟合,可以先确定本地数据对应的样本识别信息,将预测识别信息作为锚点信息,样本识别信息作为正向点信息,以及与样本识别信息类别不同的关联识别信息作为负向点信息,此后基于锚点信息、正向点信息和负向点信息构建三元组损失函数,实现基于三元组损失函数对初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元即可。
在此基础上,本地提取单元训练时是结合损失函数计算损失值调参的过程,本实施例中,所述基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元,包括:
基于所述三元组损失函数计算损失值,并基于所述损失值对所述初始提取单元进行调参,检测调参后的初始提取单元是否满足本地训练停止条件;若不满足,执行读取本地数据,并将所述本地数据输入至所述中间识别模型的步骤;若满足,将调参后的初始提取单元作为所述本地提取单元。
基于此,在进行调参时,即为基于三元组损失函数计算损失值,并基于损失值对初始提取单元进行调参,检测调参后的初始提取单元是否满足本地训练停止条件;若不满足,执行读取本地数据,并将本地数据输入至中间识别模型的步骤;若满足,将调参后的初始提取单元作为本地提取单元。
也就是说,在客户端进行模型中的提取单元训练阶段,是对本地数据进行双曲建模,通过得到层次结构信息,提升对稀疏的本地数据的利用率,进而得到更好的识别性能。每个客户端k并行执行以下步骤:
(1)客户端先提取本地数据Dk样本(x,y)的欧式空间特征,即
(2)客户端利用指数投影实现特征从欧式空间到双曲空间的转换,为了保持双曲原型和样本特征的一致性,以庞加莱球的球心o为参照,即如下公式(3):
(3);
(3)客户端以双曲空间的样本特征为锚点,以样本所属类别的双曲原型/>为正向点,通过随机从全部类别集合采样非所属类别的双曲原型/>作为负样本,构造双曲三元组损失函数,在锚点和正向点与锚点和负向点之间形成一个边界m,鼓励特征提取模型生成更接近正向点的样本特征,同时区分样本特征和负向点,即如下公式(4):
(4)
其中,即为损失值。
综上,客户端在进行初始提取单元训练时,可以结合本地数据完成,且在此过程中仅训练提取单元的参数,而不会对识别单元进行调整,从而确保各个客户端之间可以使用识别单元相同的模型完成所属本地数据的训练。
当服务端接收到客户端上传的本地提取参数后,服务端实则是聚合本地提取参数进行调参的处理,并在调整后重新发送到各个客户端继续进行训练,从而通过不断的迭代得到满足训练停止条件的模型,本实施例中,所述服务端对每个客户端的本地提取参数进行聚合,根据聚合结果对所述中间识别模型中的初始提取单元进行调参,获得包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,包括:
服务端对每个客户端的本地提取参数进行聚合,获得初始全局提取参数,基于所述初始全局提取参数生成包含所述识别单元和中间提取单元的目标识别模型,在所述目标识别模型不满足训练停止条件的情况下,将所述目标识别模型作为所述中间识别模型,并执行发布至各个客户端的步骤。
基于此,服务端可以先对每个客户端的本地提取参数进行聚合,从而获得初始全局提取参数,此后再基于初始全局提取参数对中间识别模型中的初始提取单元进行调参,根据调参结果获得包含识别单元和中间提取单元的目标识别模型,在目标识别模型不满足训练停止条件的情况下,将目标识别模型作为所述中间识别模型,并执行发布至各个客户端的步骤即可。
在模型部署阶段,当客户端接收到训练好的识别模型后,可以结合输入的信息完成识别,本实施例中,所述方法还包括:目标客户端接收所述识别模型并部署,在接收到信息识别请求的情况下,将所述信息识别请求中携带的待识别信息输入至所述识别模型,通过所述识别模型中的提取单元对所述待识别信息进行特征提取处理,获得信息特征,通过所述识别模型中的识别单元对所述信息特征进行识别处理,获得目标表述信息,作为所述信息识别请求的响应。
沿用上例,当服务端通过上述方案训练出满足使用需求的识别模型后,可以将识别模型发布到各个客户端进行部署。当客户端接收到待识别信息后,该识别信息可以是手写材料的图像,或者学生作答试卷图像等。此时可以将图像输入到识别模型进行处理,从而通过识别模型识别出图像中的手写字体,以根据识别到的结果进行后续的处理,比如进行材料汇总,试卷批改等。
本实施例提供的基于非独立同分布数据的联邦建模方法,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
下述结合附图5,以本说明书提供的基于非独立同分布数据的联邦建模方法在手写内容识别场景中的应用为例,对所述基于非独立同分布数据的联邦建模方法进行进一步说明。其中,图5示出了本说明书一实施例提供的一种基于非独立同分布数据的联邦建模方法的处理流程图,具体包括以下步骤:
步骤S502,服务端确定全局类别信息,并根据全局类别信息构建双曲原型,其中,双曲原型的类别划分单元按照全局类别信息均匀分布,基于双曲原型生成识别参数,其中,识别参数在中间识别模型训练中固定。
步骤S504,服务端构建包含基础提取单元和初始识别单元的初始识别模型,利用识别参数对初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对初始识别模型中的基础提取单元进行初始化,根据初始化处理结果获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端。
步骤S506,目标客户端读取本地数据,并将本地数据输入至中间识别模型,通过中间识别模型中的初始提取单元对本地数据进行特征提取处理,获得本地数据特征,通过中间识别模型中的识别单元对本地数据特征进行识别处理,获得预测识别信息,基于本地数据对应的样本识别信息和预测识别信息对初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定本地提取单元对应的本地提取参数,并发送至服务端。
步骤S508,服务端对每个客户端的本地提取参数进行聚合,获得初始全局提取参数,基于初始全局提取参数生成包含识别单元和中间提取单元的目标识别模型,在目标识别模型不满足训练停止条件的情况下,将目标识别模型作为中间识别模型,并执行发布至各个客户端的步骤,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
步骤S510,目标客户端接收识别模型并部署,在接收到信息识别请求的情况下,将信息识别请求中携带的待识别信息输入至识别模型,通过识别模型中的提取单元对待识别信息进行特征提取处理,获得信息特征,通过识别模型中的识别单元对信息特征进行识别处理,获得目标表述信息,作为信息识别请求的响应。
本实施例提供的基于非独立同分布数据的联邦建模方法,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
与上述方法实施例相对应,本说明书还提供了基于非独立同分布数据的联邦建模系统实施例,图6示出了本说明书一实施例提供的一种基于非独立同分布数据的联邦建模系统的结构示意图。如图6所示,基于非独立同分布数据的联邦建模系统600包括服务端610和至少两个客户端620;
服务端610,用于在双曲空间中确定识别参数,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端;
目标客户端620,用于利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端;
服务端610,还用于对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
一个可选的实施例中,所述服务端在双曲空间中确定识别参数,包括:
服务端确定全局类别信息,并根据所述全局类别信息构建双曲原型,其中,所述双曲原型的类别划分单元按照所述全局类别信息均匀分布,基于所述双曲原型生成所述识别参数,其中,所述识别参数在所述中间识别模型训练中固定。
一个可选的实施例中,所述基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,包括:
构建包含基础提取单元和初始识别单元的初始识别模型,利用所述识别参数对所述初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对所述初始识别模型中的基础提取单元进行初始化,根据初始化处理结果获得包含所述初始提取单元和所述识别单元的中间识别模型。
一个可选的实施例中,所述目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,包括:
目标客户端读取本地数据,并将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定所述本地提取单元对应的所述本地提取参数。
一个可选的实施例中,所述服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,包括:
服务端对每个客户端的本地提取参数进行聚合,获得初始全局提取参数,基于所述初始全局提取参数生成包含所述识别单元和中间提取单元的目标识别模型,在所述目标识别模型不满足训练停止条件的情况下,将所述目标识别模型作为所述中间识别模型,并执行发布至各个客户端的步骤。
一个可选的实施例中,还包括:
目标客户端接收所述识别模型并部署,在接收到信息识别请求的情况下,将所述信息识别请求中携带的待识别信息输入至所述识别模型,通过所述识别模型中的提取单元对所述待识别信息进行特征提取处理,获得信息特征,通过所述识别模型中的识别单元对所述信息特征进行识别处理,获得目标表述信息,作为所述信息识别请求的响应。
一个可选的实施例中,所述将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,包括:
将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得所述本地数据对应的欧式空间特征,作为所述本地数据特征,将所述本地数据特征从欧式空间转换到双曲空间,根据转换结果获得转换特征,通过所述中间识别模型中的所述识别单元对所述转换特征进行识别处理,获得所述预测识别信息。
一个可选的实施例中,所述基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,包括:
确定所述本地数据对应的样本识别信息,将所述预测识别信息作为锚点信息,所述样本识别信息作为正向点信息,以及与所述样本识别信息类别不同的关联识别信息作为负向点信息,基于所述锚点信息、所述正向点信息和所述负向点信息构建三元组损失函数,并基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元。
一个可选的实施例中,所述基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元,包括:
基于所述三元组损失函数计算损失值,并基于所述损失值对所述初始提取单元进行调参,检测调参后的初始提取单元是否满足本地训练停止条件;若不满足,执行读取本地数据,并将所述本地数据输入至所述中间识别模型的步骤;若满足,将调参后的初始提取单元作为所述本地提取单元。
综上所述,为了能够实现多方联合训练出性能更高的模型,可以由服务端在双曲空间中确定识别参数,并基于识别参数对初始识别模型中的初始识别单元进行初始化,以实现得到包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,实现固定识别单元的相关参数,使得各个客户端可以共享服务端固定的全局参数进行模型训练。在此基础上,每个客户端可以利用本地数据对中间识别模型中的初始提取单元进行训练,并在训练完成后将本地提取参数汇总到服务端。此后服务端即可聚合每个客户端的本地提取参数,并根据聚合结果得到包含识别单元和中间提取单元的目标识别模型,而为了能够对识别模型进行充分训练,可以将目标识别模型作为中间识别模型,重复上述训练过程,直至在服务端聚合到满足训练停止条件的识别模型后,即可将识别模型发布到各个客户端,实现各个客户端可以得到性能更高的识别模型,该模型是结合多方数据完成训练且建模由服务端完成,从而确保在数据安全性的情况下完成多方的联合训练。
上述为本实施例的一种基于非独立同分布数据的联邦建模系统的示意性方案。需要说明的是,该基于非独立同分布数据的联邦建模系统的技术方案与上述的基于非独立同分布数据的联邦建模方法的技术方案属于同一构思,基于非独立同分布数据的联邦建模系统的技术方案未详细描述的细节内容,均可以参见上述基于非独立同分布数据的联邦建模方法的技术方案的描述。
与上述实施例相对应,本说明书还提供一种信息识别方法的实施例,图7示出了本说明书一实施例提供的信息识别方法的流程图,该方法具体包括以下步骤:
步骤S702,接收业务方提交的待识别信息;
步骤S704,将所述待识别信息输入至上述方法中的识别模型进行识别处理;
步骤S706,根据识别处理结果生成目标表述信息并反馈至所述业务方。
与上述方法实施例相对应,本说明书还提供了信息识别装置实施例,图8示出了本说明书一实施例提供的一种信息识别装置的结构示意图。如图8所示,
接收模块802,被配置为接收业务方提交的待识别信息;
处理模块804,被配置为将所述待识别信息输入至上述方法中的识别模型进行识别处理;
反馈模块806,被配置为根据识别处理结果生成目标表述信息并反馈至所述业务方。
上述为本实施例的一种信息识别装置的示意性方案。需要说明的是,该信息识别装置的技术方案与上述的信息识别方法的技术方案属于同一构思,信息识别装置的技术方案未详细描述的细节内容,均可以参见上述信息识别方法的技术方案的描述。
图9示出了根据本说明书一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行计算机可执行指令时实现基于非独立同分布数据的联邦建模方法或者信息识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于非独立同分布数据的联邦建模方法或者信息识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于非独立同分布数据的联邦建模方法或者信息识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于基于非独立同分布数据的联邦建模方法或者信息识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于非独立同分布数据的联邦建模方法或者信息识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于非独立同分布数据的联邦建模方法或者信息识别方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种基于非独立同分布数据的联邦建模方法,其特征在于,应用于数据处理系统,所述数据处理系统包括至少两个客户端和服务端;
服务端确定全局类别信息,并根据所述全局类别信息构建双曲原型,其中,所述双曲原型的类别划分单元按照所述全局类别信息均匀分布,基于所述双曲原型生成识别参数,其中,所述识别参数在中间识别模型训练中固定,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,其中,所述初始识别模型的输入为用户手写字体,输出为字体内容,用于对手写字符进行识别;
目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端,其中,所述本地提取参数为对所述本地数据进行双曲建模,且完成对所述中间识别模型中的特征提取模型的训练后,获得的特征提取模型参数;
服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
2.根据权利要求1所述的方法,其特征在于,所述基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,包括:
构建包含基础提取单元和初始识别单元的初始识别模型,利用所述识别参数对所述初始识别模型中的初始识别单元进行初始化,以及按照随机分布采样策略对所述初始识别模型中的基础提取单元进行初始化,根据初始化处理结果获得包含所述初始提取单元和所述识别单元的中间识别模型。
3.根据权利要求1所述的方法,其特征在于,所述目标客户端利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,包括:
目标客户端读取本地数据,并将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,并确定所述本地提取单元对应的所述本地提取参数。
4.根据权利要求1所述的方法,其特征在于,所述服务端对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,包括:
服务端对每个客户端的本地提取参数进行聚合,获得初始全局提取参数,基于所述初始全局提取参数生成包含所述识别单元和中间提取单元的目标识别模型,在所述目标识别模型不满足训练停止条件的情况下,将所述目标识别模型作为所述中间识别模型,并执行发布至各个客户端的步骤。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
目标客户端接收所述识别模型并部署,在接收到信息识别请求的情况下,将所述信息识别请求中携带的待识别信息输入至所述识别模型,通过所述识别模型中的提取单元对所述待识别信息进行特征提取处理,获得信息特征,通过所述识别模型中的识别单元对所述信息特征进行识别处理,获得目标表述信息,作为所述信息识别请求的响应。
6.根据权利要求3所述的方法,其特征在于,所述将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得本地数据特征,通过所述中间识别模型中的所述识别单元对所述本地数据特征进行识别处理,获得预测识别信息,包括:
将所述本地数据输入至所述中间识别模型,通过所述中间识别模型中的所述初始提取单元对所述本地数据进行特征提取处理,获得所述本地数据对应的欧式空间特征,作为所述本地数据特征,将所述本地数据特征从欧式空间转换到双曲空间,根据转换结果获得转换特征,通过所述中间识别模型中的所述识别单元对所述转换特征进行识别处理,获得所述预测识别信息。
7.根据权利要求3或6所述的方法,其特征在于,所述基于所述本地数据对应的样本识别信息和所述预测识别信息对所述初始提取单元进行调参,直至获得满足本地训练停止条件的本地提取单元,包括:
确定所述本地数据对应的样本识别信息,将所述预测识别信息作为锚点信息,所述样本识别信息作为正向点信息,以及与所述样本识别信息类别不同的关联识别信息作为负向点信息,基于所述锚点信息、所述正向点信息和所述负向点信息构建三元组损失函数,并基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元。
8.根据权利要求7所述的方法,其特征在于,所述基于所述三元组损失函数对所述初始提取单元进行调参,直至获得满足本地训练停止条件的所述本地提取单元,包括:
基于所述三元组损失函数计算损失值,并基于所述损失值对所述初始提取单元进行调参,检测调参后的初始提取单元是否满足本地训练停止条件;若不满足,执行读取本地数据,并将所述本地数据输入至所述中间识别模型的步骤;若满足,将调参后的初始提取单元作为所述本地提取单元。
9.一种基于非独立同分布数据的联邦建模系统,其特征在于,所述系统包括至少两个客户端和服务端;
服务端,用于确定全局类别信息,并根据所述全局类别信息构建双曲原型,其中,所述双曲原型的类别划分单元按照所述全局类别信息均匀分布,基于所述双曲原型生成识别参数,其中,所述识别参数在中间识别模型训练中固定,基于所述识别参数对初始识别模型中的初始识别单元进行初始化,获得包含初始提取单元和识别单元的中间识别模型,并发布至各个客户端,其中,所述初始识别模型的输入为用户手写字体,输出为字体内容,用于对手写字符进行识别;
目标客户端,用于利用本地数据对所述中间识别模型中的初始提取单元进行训练,根据训练结果确定本地提取参数,并发送至所述服务端,其中,所述本地提取参数为对所述本地数据进行双曲建模,且完成对所述中间识别模型中的特征提取模型的训练后,获得的特征提取模型参数;
服务端,还用于对每个客户端的本地提取参数进行聚合,根据聚合结果生成包含所述识别单元和中间提取单元的目标识别模型,并将所述目标识别模型作为所述中间识别模型发布至各个客户端继续训练,直至获得满足训练停止条件的识别模型,并发布至各个客户端。
10.一种信息识别方法,其特征在于,包括:
接收业务方提交的待识别信息;
将所述待识别信息输入至权利要求1-8任意一项所述方法中的识别模型进行识别处理,其中,所述识别模型的输入为用户手写字体,输出为字体内容,用于对手写字符进行识别;
根据识别处理结果生成目标表述信息并反馈至所述业务方。
11.一种信息识别装置,其特征在于,包括:
接收模块,被配置为接收业务方提交的待识别信息;
处理模块,被配置为将所述待识别信息输入至权利要求1-8任意一项所述方法中的识别模型进行识别处理,其中,所述识别模型的输入为用户手写字体,输出为字体内容,用于对手写字符进行识别;
反馈模块,被配置为根据识别处理结果生成目标表述信息并反馈至所述业务方。
12.一种计算设备,其特征在于,包括存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现权利要求1至8或10任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至8或10任意一项所述方法的步骤。
CN202310757831.2A 2023-06-26 2023-06-26 基于非独立同分布数据的联邦建模方法及系统 Active CN116541712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310757831.2A CN116541712B (zh) 2023-06-26 2023-06-26 基于非独立同分布数据的联邦建模方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310757831.2A CN116541712B (zh) 2023-06-26 2023-06-26 基于非独立同分布数据的联邦建模方法及系统

Publications (2)

Publication Number Publication Date
CN116541712A CN116541712A (zh) 2023-08-04
CN116541712B true CN116541712B (zh) 2023-12-26

Family

ID=87454414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310757831.2A Active CN116541712B (zh) 2023-06-26 2023-06-26 基于非独立同分布数据的联邦建模方法及系统

Country Status (1)

Country Link
CN (1) CN116541712B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115480A1 (zh) * 2020-06-30 2021-06-17 平安科技(深圳)有限公司 联邦学习方法、装置、设备和存储介质
WO2021190638A1 (zh) * 2020-11-24 2021-09-30 平安科技(深圳)有限公司 基于非均匀分布数据的联邦建模方法及相关设备
CN114265913A (zh) * 2021-12-30 2022-04-01 内蒙古大学 工业物联网边缘设备上基于联邦学习的空时预测算法
CN114554459A (zh) * 2022-01-19 2022-05-27 苏州大学 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN114580663A (zh) * 2022-03-01 2022-06-03 浙江大学 面向数据非独立同分布场景的联邦学习方法及系统
CN114580651A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 联邦学习方法、装置、设备、系统及计算机可读存储介质
CN114741611A (zh) * 2022-06-08 2022-07-12 杭州金智塔科技有限公司 联邦推荐模型训练方法以及系统
CN115511109A (zh) * 2022-09-30 2022-12-23 中南大学 一种高泛化性的个性化联邦学习实现方法
CN115879542A (zh) * 2022-12-21 2023-03-31 南京理工大学 一种面向非独立同分布异构数据的联邦学习方法
CN115983366A (zh) * 2022-12-08 2023-04-18 北京交通大学 面向联邦学习的模型剪枝方法及系统
CN115994226A (zh) * 2023-03-21 2023-04-21 杭州金智塔科技有限公司 基于联邦学习的聚类模型训练系统及方法
CN116306323A (zh) * 2023-05-19 2023-06-23 中南大学 一种数字孪生模型的确定方法、装置、终端设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115480A1 (zh) * 2020-06-30 2021-06-17 平安科技(深圳)有限公司 联邦学习方法、装置、设备和存储介质
WO2021190638A1 (zh) * 2020-11-24 2021-09-30 平安科技(深圳)有限公司 基于非均匀分布数据的联邦建模方法及相关设备
CN114580651A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 联邦学习方法、装置、设备、系统及计算机可读存储介质
CN114265913A (zh) * 2021-12-30 2022-04-01 内蒙古大学 工业物联网边缘设备上基于联邦学习的空时预测算法
CN114554459A (zh) * 2022-01-19 2022-05-27 苏州大学 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN114580663A (zh) * 2022-03-01 2022-06-03 浙江大学 面向数据非独立同分布场景的联邦学习方法及系统
CN114741611A (zh) * 2022-06-08 2022-07-12 杭州金智塔科技有限公司 联邦推荐模型训练方法以及系统
CN115511109A (zh) * 2022-09-30 2022-12-23 中南大学 一种高泛化性的个性化联邦学习实现方法
CN115983366A (zh) * 2022-12-08 2023-04-18 北京交通大学 面向联邦学习的模型剪枝方法及系统
CN115879542A (zh) * 2022-12-21 2023-03-31 南京理工大学 一种面向非独立同分布异构数据的联邦学习方法
CN115994226A (zh) * 2023-03-21 2023-04-21 杭州金智塔科技有限公司 基于联邦学习的聚类模型训练系统及方法
CN116306323A (zh) * 2023-05-19 2023-06-23 中南大学 一种数字孪生模型的确定方法、装置、终端设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection;Bingzhe Wu等;《Arxiv》;1-54 *
Enhanced Security and Privacy via Fragmented Federated Learning;Najeeb Moharrm Jebreel等;《IEEE Transactions on Neural Networks and Learning Systems》;1-15 *
基于参数量化的联邦学习模型共享方案研究;刘蕴琪;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2023年卷(第2期);I140-158 *
基于联邦学习的面向智能驾驶的目标检测方法研究;石佳;《中国优秀硕士学位论文全文数据库 工程科技II辑》;第2022年卷(第3期);C035-371 *

Also Published As

Publication number Publication date
CN116541712A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US20210256403A1 (en) Recommendation method and apparatus
US9990558B2 (en) Generating image features based on robust feature-learning
CN109344884B (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
CN107704838B (zh) 目标对象的属性识别方法及装置
CN109117781B (zh) 多属性识别模型的建立方法、装置及多属性识别方法
CN111738357B (zh) 垃圾图片的识别方法、装置及设备
EP3886037A1 (en) Image processing apparatus and method for style transformation
CN115552429A (zh) 使用非iid数据的横向联邦学习方法和系统
CN112348081A (zh) 用于图像分类的迁移学习方法、相关装置及存储介质
GB2588747A (en) Facial behaviour analysis
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN111967598A (zh) 神经网络压缩方法、装置、设备及计算机可读存储介质
Chamoso et al. Social computing for image matching
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN116758379B (zh) 一种图像处理方法、装置、设备及存储介质
CN117313837A (zh) 一种基于联邦学习的大模型提示学习方法以及装置
CN116541712B (zh) 基于非独立同分布数据的联邦建模方法及系统
CN112434746A (zh) 基于层次化迁移学习的预标注方法及其相关设备
CN112069412A (zh) 信息推荐方法、装置、计算机设备及存储介质
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
CN115392216B (zh) 一种虚拟形象生成方法、装置、电子设备及存储介质
CN116993577A (zh) 图像处理方法、装置、终端设备以及存储介质
CN116976461A (zh) 联邦学习方法、装置、设备及介质
CN114595815A (zh) 一种面向传输友好的云-端协作训练神经网络模型方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant