CN117474127B - 分布式机器学习模型训练系统、方法、装置及电子设备 - Google Patents

分布式机器学习模型训练系统、方法、装置及电子设备 Download PDF

Info

Publication number
CN117474127B
CN117474127B CN202311825150.1A CN202311825150A CN117474127B CN 117474127 B CN117474127 B CN 117474127B CN 202311825150 A CN202311825150 A CN 202311825150A CN 117474127 B CN117474127 B CN 117474127B
Authority
CN
China
Prior art keywords
level
target parameters
local
prediction
cloud server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311825150.1A
Other languages
English (en)
Other versions
CN117474127A (zh
Inventor
张旭
孙华锦
胡雷钧
王小伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311825150.1A priority Critical patent/CN117474127B/zh
Publication of CN117474127A publication Critical patent/CN117474127A/zh
Application granted granted Critical
Publication of CN117474127B publication Critical patent/CN117474127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及机器学习技术领域,公开了一种分布式机器学习模型训练系统、方法、装置及电子设备,包括:用户端获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数;第一层级云服务器根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二层级云服务器根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将第二层级目标参数返回给各用户端,以使用户端基于第二层级目标参数,优化局部预测模型。通过基于第一层级云服务器和第二层级云服务器协同完成全局预测的聚合,以避免云服务器成为性能瓶颈,提高了机器学习模型的训练效率。

Description

分布式机器学习模型训练系统、方法、装置及电子设备
技术领域
本申请涉及机器学习技术领域,尤其涉及一种分布式机器学习模型训练系统、方法、装置及电子设备。
背景技术
目前,随着人工智能技术的快速发展,人工智能技术在很多领域得到了应用,其中,机器学习作为人工智能的技术核心,也已经取得重大的突破。
在现有技术中,为了提高数据处理、计算以及存储效率,新兴的边缘计算提供了强大且有前景的学习框架,例如联邦机器学习。
但是,对于目前的联邦机器学习,当有大量的用户连接至云服务器时,云服务器将会成为性能瓶颈,也就无法保证机器学习模型的训练效率。
发明内容
本申请提供一种分布式机器学习模型训练系统、方法、装置及电子设备,以解决现有技术无法保证机器学习模型的训练效率等缺陷。
本申请第一个方面提供一种分布式机器学习模型训练系统,包括:用户端、第一层级云服务器和第二层级云服务器;
所述用户端用于获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数,将所述局部预测模型的局部目标参数发送至所述第一层级云服务器;
所述第一层级云服务器用于接收若干个所述用户端发送的局部目标参数,根据所述若干个所述用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至所述第二层级云服务器;
所述第二层级云服务器用于接收若干个所述第一层级云服务器发送的第一层级目标参数,根据所述若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将所述第二层级目标参数返回给各所述用户端,以使所述用户端基于所述第二层级目标参数,优化所述局部预测模型。
在一种可选的实施方式中,所述用户端,用于:
根据所述在线量测数据,构建模型训练集;
根据所述模型训练集,构建局部预测模型。
在一种可选的实施方式中,所述用户端,用于:
获取测试数据;
基于所述局部预测模型,根据所述测试数据和模型训练集,确定所述局部预测模型的局部目标参数;
其中,所述测试数据为用户端在完成局部预测模型的训练后获取到的在线量测数据,所述局部目标参数包括局部预测期望和局部预测方差。
在一种可选的实施方式中,所述用户端,用于:
计算所述测试数据与所述模型训练集各训练数据之间的相似度;
根据所述测试数据与所述模型训练集各训练数据之间的相似度,在所述模型训练集中筛选预设数量的目标训练数据,以得到目标训练子集;
基于所述局部预测模型,根据所述测试数据和目标训练子集,确定所述局部预测模型的局部目标参数。
在一种可选的实施方式中,所述用户端,用于:
计算所述测试数据与所述模型训练集各训练数据之间的距离;
根据所述测试数据与所述模型训练集各训练数据之间的距离,确定所述测试数据与所述模型训练集各训练数据之间的相似度。
在一种可选的实施方式中,所述第一层级云服务器,用于:
接收若干个所述用户端发送的局部目标参数,并为各所述用户端发送的局部目标参数分配权重;
根据所述若干个所述用户端发送的局部目标参数及对应的权重,确定第一层级目标参数。
在一种可选的实施方式中,所述第一层级云服务器,用于:
根据接收到若干个所述用户端发送的局部目标参数,确定各所述用户端的优先级;
按照各所述用户端的优先级,为各所述用户端发送的局部目标参数分配权重。
在一种可选的实施方式中,所述局部目标参数包括局部预测期望和局部预测方差,所述第一层级云服务器,用于:
基于如下公式,确定第一层级目标参数:
其中,表示用户端发送的局部预测期望,/>表示分配的权重,/>,且/>,/>表示第一层级预测期望,/>表示局部预测方差,表示第一层级预测方差;所述第一层级目标参数包括第一层级预测期望和第一层级预测方差。
在一种可选的实施方式中,所述第一层级目标参数包括第一层级预测期望和第一层级预测方差,所述第二层级目标参数包括第二层级预测期望和第二层级预测方差,所述第二层级云服务器,用于:
根据各所述第一层级云服务器发送的第一层级预测方差,确定第二层级预测方差;
根据各所述第一层级云服务器发送的第一层级预测期望、第一层级预测方差及所述第二层级预测方差,确定第二层级预测期望。
在一种可选的实施方式中,所述第二层级云服务器,用于:
根据如下公式,确定第二层级预测方差:
其中,表示第二层级预测方差,/>表示第一层级预测方差,表示第一层级云服务器的数量。
在一种可选的实施方式中,所述第二层级云服务器,用于:
根据如下公式,确定第二层级预测期望:
其中,表示第二层级预测期望,/>表示第一层级预测期望,表示第二层级预测方差,/>表示第一层级预测方差。
在一种可选的实施方式中,所述第二层级云服务器,用于:
将所述第二层级目标参数返回给各所述第一层级云服务器;
所述第一层级云服务器,还用于:
将接收到的第二层级目标参数返回至对应的若干个用户端;
其中,所述第一层级云服务器与用户簇一一对应,所述用户簇包括若干个用户端。
本申请第二个方面提供一种分布式机器学习模型训练方法,包括:
获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数;
将所述局部预测模型的局部目标参数发送至第一层级云服务器,以使所述第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至第二层级云服务器;
基于所述第二层级云服务器,根据若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;
基于所述第二层级目标参数,优化所述局部预测模型。
本申请第三个方面提供一种分布式机器学习模型训练装置,包括:
训练模块,用于获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数;
第一聚合模块,用于将所述局部预测模型的局部目标参数发送至第一层级云服务器,以使所述第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至第二层级云服务器;
第二聚合模块,用于基于所述第二层级云服务器,根据若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;
优化模块,用于基于所述第二层级目标参数,优化所述局部预测模型。
本申请第四个方面提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第二个方面以及第二个方面各种可能的设计所述的方法。
本申请第五个方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第二个方面以及第二个方面各种可能的设计所述的方法。
本申请技术方案,具有如下优点:
本申请提供的一种分布式机器学习模型训练系统、方法、装置及电子设备,该系统包括:用户端、第一层级云服务器和第二层级云服务器;用户端用于获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数,将局部预测模型的局部目标参数发送至第一层级云服务器;第一层级云服务器用于接收若干个用户端发送的局部目标参数,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二层级云服务器用于接收若干个第一层级云服务器发送的第一层级目标参数,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将第二层级目标参数返回给各用户端,以使用户端基于第二层级目标参数,优化局部预测模型。上述方案提供的系统,通过基于第一层级云服务器和第二层级云服务器协同完成全局预测的聚合,以避免云服务器成为性能瓶颈,从而提高了机器学习模型的训练效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的分布式机器学习模型训练系统的交互流程示意图;
图2为本申请实施例提供的分布式机器学习模型训练系统的结构示意图;
图3为本申请实施例提供的用户端的运行原理图;
图4为本申请实施例提供的第一层级云服务器的网络结构图;
图5为本申请实施例提供的分布式机器学习模型训练方法的流程示意图;
图6为本申请实施例提供的分布式机器学习模型训练装置的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
目前,智能化系统逐步融入大众的日常生活,这些系统包括智能交通系统(十字路口车流量的预测)、智慧医疗(患者医学检查影像的病理诊断)、智能电网(家庭用电量需求的预测)、以及新兴且未来可期的无人驾驶车辆(移动需求系统中区域内接人次数的预测)、自主机器人(语音识别、故障规避和地图构建)等。其中,计算机视觉,自然语言处理,和推荐系统中的大量任务需要从庞大的数据集中学习复杂的规则和映射,而且大尺度规模物联网系统会产生庞大的分布数据。例如,一辆现代汽车的传感器在几个小时可以采集上百Gb的量测数据,而一个城市成千上万辆汽车在更长时间段采集的数据在传输和存储过程中无疑会给云服务器带来巨大的负担。为了提高数据处理、计算以及存储效率,新兴的边缘计算提供了强大且有前景的学习框架。Google公司提出的联邦机器学习可以使得各个边缘设备进行局部训练,并将得到的局部模型发送给云服务器进行模型的聚合。然而,联邦学习的网络结构有两个严重的问题:终端用户的可扩展性差以及当有大量的用户连接至云服务器时,云服务器将会成为性能瓶颈。另外,一般分布式机器学习采用深度神经网络作为机器学习模型,它在许多应用中都取得了空前的成功,比如模型分类与模式识别。但是深度学习主要局限在离线学习。另一方面,在实际应用中,工作机在实时应用中都会获得数据流,例如,自动驾驶控制系统。
针对上述问题,本申请实施例提供的一种分布式机器学习模型训练系统、方法、装置及电子设备,该系统包括:用户端、第一层级云服务器和第二层级云服务器;用户端用于获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数,将局部预测模型的局部目标参数发送至第一层级云服务器;第一层级云服务器用于接收若干个用户端发送的局部目标参数,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二层级云服务器用于接收若干个第一层级云服务器发送的第一层级目标参数,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将第二层级目标参数返回给各用户端,以使用户端基于第二层级目标参数,优化局部预测模型。上述方案提供的系统,通过基于第一层级云服务器和第二层级云服务器协同完成全局预测的聚合,以避免云服务器成为性能瓶颈,从而提高了机器学习模型的训练效率。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明实施例进行描述。
本申请实施例提供了一种分布式机器学习模型训练系统,用于帮助用户端更好地训练机器学习模型。
如图1所示,为本申请实施例提供的分布式机器学习模型训练系统的交互流程示意图,该系统包括:用户端、第一层级云服务器和第二层级云服务器。
其中,用户端用于获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数,将局部预测模型的局部目标参数发送至第一层级云服务器;第一层级云服务器用于接收若干个用户端发送的局部目标参数,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二层级云服务器用于接收若干个第一层级云服务器发送的第一层级目标参数,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将第二层级目标参数返回给各用户端,以使用户端基于第二层级目标参数,优化局部预测模型。
需要说明的是,为本申请实施例供的分布式机器学习模型训练系统采用多层级云服务器网络分布式在线机器学习框架。割裂用户端形成多个用户簇,每个用户簇配置一个第一层级云服务器,形成局部联邦学习。这里的多个第一层级云服务器也是稀疏配置的,而多个用户簇的多个第一层级云服务器计算得到的全局预测信息(第一层级目标参数),继续发送给第二层级云服务器,让此第二层级云服务器进行多个全局预测信息的整合。当工程应用中的用户端数量非常庞大时,为了有效改善用户端扩展,减少每个云服务器的计算任务,可以多层级继续配置。
具体地,在一实施例中,第二层级云服务器具体可以将第二层级目标参数返回给各第一层级云服务器;
第一层级云服务器 将接收到的第二层级目标参数返回至对应的若干个用户端。
其中,第一层级云服务器与用户簇一一对应,用户簇包括若干个用户端。
示例性的,如图2所示,为本申请实施例提供的分布式机器学习模型训练系统的结构示意图,流数据即为在线量测数据,假设网络中存在个用户端(用户),并且将/>个用户端平均分为/>组。工程中也可以不用平均分配用户端,本申请实施例为了叙述方便,假设平均分配网络中的用户端,因此每一组含有/>个用户端。为每一组/>个用户端配备一个第一层级云服务器,因此一个第一层级云服务器和/>个用户端组成了一个联邦学习子系统;对于任意/>,本申请实施例定义用户端集合/>使得/>。本申请实施以采用三个第一层级云服务器和300个用户段为例,即/>,/>为例给出多层级云服务器分布式在线学习模型训练方案。用户端向第一层级服务器发送的局部目标参数即为局部预测,第一层级目标参数和第二层级目标参数均属于全局预测,第一层级云服务器向用户端发送的全局预测为第二层级目标参数。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,用户端,具体可以根据在线量测数据,构建模型训练集;根据模型训练集,构建局部预测模型。
需要说明的是,目前机器学习主要局限在离线学习,不利于保证机器学习效率,本申请实施例为实现在线学习,采用预设高斯过程回归算法,基于在线量测数据构建局部预测模型。实际上,高斯过程模型在某种意义下可以等价为现有的机器学习模型,包括Bayesian 线性模型和多层神经网络。根据中心极限定理,假设神经网络中的权重服从高斯正态分布,随着神经网络的宽度趋近于无穷,那么这样的神经网络等价于高斯过程回归。然而高斯过程回归是一个非超参数的统计概率模型,不像传统的学习模型,比如线性回归、逻辑回归和神经网络,需要求解优化问题使得损失函数最小来得到最优的模型参数,高斯过程回归并不需要求解优化问题。给定训练数据和测试输入,高斯过程回归的预测分为推断和预测两步。推断过程假设要学习的函数服从高斯过程,给出模型的高斯先验概率分布,然后利用观测值和Bayesian规则,求出模型的高斯后验概率分布。高斯过程回归有三个特点:第一,通过合适地选取协方差函数以及在某些弱化的假设条件下,高斯过程回归可以逼近任意连续函数;第二,高斯过程回归可以实施递归形式,减小计算复杂度和内存;第三,高斯过程回归可以量化不确定,这是因为高斯过程回归利用了后验概率分布来对目标函数进行了预测。
具体地,针对局部预测模型的构建,目标是设计一个算法使得局部多个用户分别利用自己的在线量测数据,通过合作共同学习一个函数。因此,定义目标函数为,其中/>是/>维输入空间。不失一般性,本申请实施例假设输出为一维,即/>。在时刻/>,给定/>,相应的输出是:
其中,是服从均值为0 ,方差为/>的高斯概率分布的高斯噪声,即/>。定义如下形式的训练集(模型训练集)/>,其中/>是输入数据集合,/>是聚合了输出的列向量。高斯过程回归目标是利用训练集在测试数据集合/>上逼近函数/>
定义对称正半定的核函数,即/>
其中,,/>是测度。让/>返回一个列向量,使得它的第/>个元素等于。假设函数/>是来自高斯过程先验概率分布的一个采样,这个先验分布的均值函数为,核函数是/>。那么训练输出和测试输出/>服从联合概率分布:
其中,和/>返回由/>和/>组成的向量,/>返回一个矩阵使得第行第/>列的元素是/>
利用高斯过程的性质,高斯过程回归利用训练集预测测试数据集/>的输出。这个输出/>依然服从正态分布,即/>,这里:
具体地,在一实施例中,用户端具体可以获取测试数据;基于局部预测模型,根据测试数据和模型训练集,确定局部预测模型的局部目标参数。
其中,测试数据为用户端在完成局部预测模型的训练后获取到的在线量测数据,且各用户端获取的测试数据相同,局部目标参数包括局部预测期望和局部预测方差。
具体地,在一实施例中,由于模型训练集包括较多的训练数据,为进一步提高局部预测模型的训练效率,用户端具体可以计算测试数据与模型训练集各训练数据之间的相似度;根据测试数据与模型训练集各训练数据之间的相似度,在模型训练集中筛选预设数量的目标训练数据,以得到目标训练子集;基于局部预测模型,根据测试数据和目标训练子集,确定局部预测模型的局部目标参数。
其中,测试数据和训练数据之间的相似度具体可以依据测试数据和训练数据之间的距离确定,其中,测试数据和训练数据之间的距离表示测试数据和训练数据之间的差异程度。
具体地,在一实施例中,用户端具体可以计算测试数据与模型训练集各训练数据之间的距离;根据测试数据与模型训练集各训练数据之间的距离,确定测试数据与模型训练集各训练数据之间的相似度。
具体地,对于任意第一层级云服务器及其协调的所有用户端/>,针对一个测试数据/>,遍历整个局部训练集/>进行闵氏距离的计算。 即针对一个测试数据输入/>以及任意训练数据输入/>,定义闵氏距离:
其中,,/>,当/>时,/>称为曼哈顿距离,而当/>时,/>称为欧式距离。
进一步地,针对任一用户端,在确定测试数据与各训练数据之间的闵式距离后,将其遍历的闵氏距离/>进行从小到大的排序。然后取m个最小的距离,并且得到对应的目标训练数据输入/>。将m个目标训练数据组成新的集合(目标训练子集)/>,即/>
其中,本申请实施例采用的核函数为squared exponential function,表达式如下:
针对每一个用户端,在目标训练子集/>上计算高斯后验概率分布,根据上述表达式可以得到:
每一个用户端利用目标训练子集进行局部预测,由上述公式得到局部预测期望/>和局部预测方差/>
其中,如图3所示,为本申请实施例提供的用户端的运行原理图,图3中输入的局部预测即为测试数据,用户端在确定目标训练子集后,基于目标训练子集进行后验概率分布计算,得到局部预测输出,其中,局部预测即为局部目标参数。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,第一层级云服务器,具体可以接收若干个用户端发送的局部目标参数,并为各用户端发送的局部目标参数分配权重;根据若干个用户端发送的局部目标参数及对应的权重,确定第一层级目标参数。
具体地,在一实施例中,所述第一层级云服务器具体可以根据接收到若干个所述用户端发送的局部目标参数,确定各所述用户端的优先级;按照各所述用户端的优先级,为各所述用户端发送的局部目标参数分配权重。
具体地,第一层级云服务器可以通过对各用户端发送的局部目标参数进行初步分析,确定各用户端的优先级,例如,可以根据各用户端发送的局部目标参数初步分析各用户端所训练的局部预测模型的精度,进而按照模型的精度为用户端分配优先级,再按照优先级分配各用户端发送的局部目标参数的权重。
具体地,在一实施例中,局部目标参数包括局部预测期望和局部预测方差,第一层级云服务器具体可以基于如下公式,确定第一层级目标参数:
其中,表示用户端发送的局部预测期望,/>表示分配的权重,/>,且/>,/>表示第一层级预测期望,/>表示局部预测方差,表示第一层级预测方差;第一层级目标参数包括第一层级预测期望和第一层级预测方差。
需要说明的是,针对任一第一层级云服务器计算得到全局预测期望(第一层级预测期望)/>和全局预测方差(第一层级预测方差)/>,但是它并不能知道其它第一层级云服务器的全局预测期望和全局预测方差。因此,在云服务器互享网络中,可以通过云服务器与云服务器之间的全局预测传输,来达到全局预测最终的共识性。
其中,如图4所示,为本申请实施例提供的第一层级云服务器的网络结构图,用户训练子集即为用户端的目标训练子集,用户端属于局部模块,第一层级云服务器属于全局模块,测试输入即表示用户端获取的测试数据,局部预测输出即为局部目标参数,第一层级云服务器经过全局预测加权平均聚合,输出全局预测,其中,全局预测即为第一层级目标参数。
在上述实施例的基础上,作为一种可实施的方式,在一实施例中,第一层级目标参数包括第一层级预测期望和第一层级预测方差,第二层级目标参数包括第二层级预测期望和第二层级预测方差,第二层级云服务器,具体可以根据各第一层级云服务器发送的第一层级预测方差,确定第二层级预测方差;根据各第一层级云服务器发送的第一层级预测期望、第一层级预测方差及第二层级预测方差,确定第二层级预测期望。
其中,第二层级云服务器具体可以广义PoE方法对多个全局预测期望和方差进行聚合,以得到第二层级预测期望和第二层级预测方差。
具体地,在一实施例中,第二层级云服务器,具体以根据如下公式,确定第二层级预测方差:
其中,表示第二层级预测方差,/>表示第一层级预测方差,表示第一层级云服务器的数量。
进一步地,在一实施例中,第二层级云服务器,具体可以根据如下公式,确定第二层级预测期望:
其中,表示第二层级预测期望,/>表示第一层级预测期望,表示第二层级预测方差,/>表示第一层级预测方差。
具体地,第二层级云服务器在得到第二层级预测期望和第二层级预测方差,将第二层级预测期望和第二层级预测方差发送至每一个第一层级云服务器,第一层级云服务器再将得到的第二层级预测期望和第二层级预测方差发送回所有用户端。
本申请实施例提供的分布式机器学习模型训练系统,包括:用户端、第一层级云服务器和第二层级云服务器;用户端用于获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数,将局部预测模型的局部目标参数发送至第一层级云服务器;第一层级云服务器用于接收若干个用户端发送的局部目标参数,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二层级云服务器用于接收若干个第一层级云服务器发送的第一层级目标参数,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将第二层级目标参数返回给各用户端,以使用户端基于第二层级目标参数,优化局部预测模型。上述方案提供的系统,通过基于第一层级云服务器和第二层级云服务器协同完成全局预测的聚合,以避免云服务器成为性能瓶颈,从而提高了机器学习模型的训练效率。并且,通过多一层级云服务器的布置,可以利用下一层级云服务器来计算前一层级云服务器的集中式PoE预测结果。这种设计方式可以增强整个学习的扩展性。当用户足够多,可以配置多个云服务器,如增设第三层级云服务器、第四层级云服务器等,从而减小云服务器的计算负担和存储负担。低层级云服务器的全局预测的聚合可以通过高层及云服务器来完成,实现更好的预测结果。
本申请实施例提供了一种分布式机器学习模型训练方法,应用于用户端,用于更好地训练机器学习模型。本申请实施例的执行主体为电子设备,比如服务器、台式电脑、笔记本电脑、平板电脑及其他可用于构建机器学习模型的电子设备。
如图5所示,为本申请实施例提供的分布式机器学习模型训练方法的流程示意图,该方法包括:
步骤501,获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数;
步骤502,将局部预测模型的局部目标参数发送至第一层级云服务器,以使第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;
步骤503,基于第二层级云服务器,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;
步骤504,基于第二层级目标参数,优化局部预测模型。
关于本实施例中的分布式机器学习模型训练方法,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例提供的分布式机器学习模型训练方法,应用于执行上述实施例提供的分布式机器学习模型训练系统中的用户端,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种分布式机器学习模型训练装置,用于执行上述实施例提供的分布式机器学习模型训练方法。
如图6所示,为本申请实施例提供的分布式机器学习模型训练装置的结构示意图。该分布式机器学习模型训练装置60包括:训练模块601、第一聚合模块602、第二聚合模块603和优化模块604。
其中,训练模块,用于获取在线量测数据,基于在线量测数据构建局部预测模型,得到局部预测模型的局部目标参数;第一聚合模块,用于将局部预测模型的局部目标参数发送至第一层级云服务器,以使第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将第一层级目标参数发送至第二层级云服务器;第二聚合模块,用于基于第二层级云服务器,根据若干个第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;优化模块,用于基于第二层级目标参数,优化局部预测模型。
关于本实施例中的分布式机器学习模型训练装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例提供的分布式机器学习模型训练装置,用于执行上述实施例提供的分布式机器学习模型训练方法,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种电子设备,用于执行上述实施例提供的分布式机器学习模型训练方法。
如图7所示,为本申请实施例提供的电子设备的结构示意图。该电子设备70包括:至少一个处理器71和存储器72。
存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上实施例提供的分布式机器学习模型训练方法。
本申请实施例提供的电子设备,用于执行上述实施例提供的分布式机器学习模型训练方法,其实现方式与原理相同,不再赘述。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上任一实施例提供的分布式机器学习模型训练方法。
本申请实施例提供的包含计算机可执行指令的存储介质,可用于存储前述实施例中提供的分布式机器学习模型训练方法的计算机执行指令,其实现方式与原理相同,不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

1.一种分布式机器学习模型训练系统,其特征在于,包括:用户端、第一层级云服务器和第二层级云服务器;
所述用户端用于获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数,将所述局部预测模型的局部目标参数发送至所述第一层级云服务器;
所述第一层级云服务器用于接收若干个所述用户端发送的局部目标参数,根据所述若干个所述用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至所述第二层级云服务器;
所述第二层级云服务器用于接收若干个所述第一层级云服务器发送的第一层级目标参数,根据所述若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数,并将所述第二层级目标参数返回给各所述用户端,以使所述用户端基于所述第二层级目标参数,优化所述局部预测模型;
所述局部目标参数包括局部预测期望和局部预测方差,所述第一层级云服务器,用于:
基于如下公式,确定第一层级目标参数:
其中,表示用户端发送的局部预测期望,/>表示分配的权重,/>,且,/>表示第一层级预测期望, />表示局部预测方差,/>表示第一层级预测方差;所述第一层级目标参数包括第一层级预测期望和第一层级预测方差。
2.根据权利要求1所述的系统,其特征在于,所述用户端,用于:
根据所述在线量测数据,构建模型训练集;
根据所述模型训练集,构建局部预测模型。
3.根据权利要求2所述的系统,其特征在于,所述用户端,用于:
获取测试数据;
基于所述局部预测模型,根据所述测试数据和模型训练集,确定所述局部预测模型的局部目标参数;
其中,所述测试数据为用户端在完成局部预测模型的训练后获取到的在线量测数据,所述局部目标参数包括局部预测期望和局部预测方差。
4.根据权利要求3所述的系统,其特征在于,所述用户端,用于:
计算所述测试数据与所述模型训练集各训练数据之间的相似度;
根据所述测试数据与所述模型训练集各训练数据之间的相似度,在所述模型训练集中筛选预设数量的目标训练数据,以得到目标训练子集;
基于所述局部预测模型,根据所述测试数据和目标训练子集,确定所述局部预测模型的局部目标参数。
5.根据权利要求4所述的系统,其特征在于,所述用户端,用于:
计算所述测试数据与所述模型训练集各训练数据之间的距离;
根据所述测试数据与所述模型训练集各训练数据之间的距离,确定所述测试数据与所述模型训练集各训练数据之间的相似度。
6.根据权利要求1所述的系统,其特征在于,所述第一层级云服务器,用于:
接收若干个所述用户端发送的局部目标参数,并为各所述用户端发送的局部目标参数分配权重;
根据所述若干个所述用户端发送的局部目标参数及对应的权重,确定第一层级目标参数。
7.根据权利要求6所述的系统,其特征在于,所述第一层级云服务器,用于:
根据接收到若干个所述用户端发送的局部目标参数,确定各所述用户端的优先级;
按照各所述用户端的优先级,为各所述用户端发送的局部目标参数分配权重。
8.根据权利要求1所述的系统,其特征在于,所述第一层级目标参数包括第一层级预测期望和第一层级预测方差,所述第二层级目标参数包括第二层级预测期望和第二层级预测方差,所述第二层级云服务器,用于:
根据各所述第一层级云服务器发送的第一层级预测方差,确定第二层级预测方差;
根据各所述第一层级云服务器发送的第一层级预测期望、第一层级预测方差及所述第二层级预测方差,确定第二层级预测期望。
9.根据权利要求8所述的系统,其特征在于,所述第二层级云服务器,用于:
根据如下公式,确定第二层级预测方差:
其中,表示第二层级预测方差,/>表示第一层级预测方差,/>表示第一层级云服务器的数量。
10.根据权利要求9所述的系统,其特征在于,所述第二层级云服务器,用于:
根据如下公式,确定第二层级预测期望:
其中,表示第二层级预测期望,/>表示第一层级预测期望,/>表示第二层级预测方差,/>表示第一层级预测方差。
11.根据权利要求1所述的系统,其特征在于,所述第二层级云服务器,用于:
将所述第二层级目标参数返回给各所述第一层级云服务器;
所述第一层级云服务器,还用于:
将接收到的第二层级目标参数返回至对应的若干个用户端;
其中,所述第一层级云服务器与用户簇一一对应,所述用户簇包括若干个用户端。
12.一种分布式机器学习模型训练方法,其特征在于,包括:
获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数;
将所述局部预测模型的局部目标参数发送至第一层级云服务器,以使所述第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至第二层级云服务器;
基于所述第二层级云服务器,根据若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;
基于所述第二层级目标参数,优化所述局部预测模型;
所述局部目标参数包括局部预测期望和局部预测方差,所述第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,包括:
基于如下公式,确定第一层级目标参数:
其中,表示用户端发送的局部预测期望,/>表示分配的权重,/>,且,/>表示第一层级预测期望, />表示局部预测方差,/>表示第一层级预测方差;所述第一层级目标参数包括第一层级预测期望和第一层级预测方差。
13.一种分布式机器学习模型训练装置,其特征在于,包括:
训练模块,用于获取在线量测数据,基于所述在线量测数据构建局部预测模型,得到所述局部预测模型的局部目标参数;
第一聚合模块,用于将所述局部预测模型的局部目标参数发送至第一层级云服务器,以使所述第一层级云服务器,根据若干个用户端发送的局部目标参数,确定第一层级目标参数,将所述第一层级目标参数发送至第二层级云服务器;
第二聚合模块,用于基于所述第二层级云服务器,根据若干个所述第一层级云服务器发送的第一层级目标参数,确定第二层级目标参数;
优化模块,用于基于所述第二层级目标参数,优化所述局部预测模型;
所述局部目标参数包括局部预测期望和局部预测方差,所述第一聚合模块,用于:
基于如下公式,确定第一层级目标参数:
其中,表示用户端发送的局部预测期望,/>表示分配的权重,/>,且,/>表示第一层级预测期望, />表示局部预测方差,/>表示第一层级预测方差;所述第一层级目标参数包括第一层级预测期望和第一层级预测方差。
14.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求12所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求12所述的方法。
CN202311825150.1A 2023-12-27 2023-12-27 分布式机器学习模型训练系统、方法、装置及电子设备 Active CN117474127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311825150.1A CN117474127B (zh) 2023-12-27 2023-12-27 分布式机器学习模型训练系统、方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311825150.1A CN117474127B (zh) 2023-12-27 2023-12-27 分布式机器学习模型训练系统、方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN117474127A CN117474127A (zh) 2024-01-30
CN117474127B true CN117474127B (zh) 2024-03-26

Family

ID=89631584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311825150.1A Active CN117474127B (zh) 2023-12-27 2023-12-27 分布式机器学习模型训练系统、方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117474127B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949837A (zh) * 2021-04-13 2021-06-11 中国人民武装警察部队警官学院 一种基于可信网络的目标识别联邦深度学习方法
WO2022217781A1 (zh) * 2021-04-15 2022-10-20 腾讯云计算(北京)有限责任公司 数据处理方法、装置、设备以及介质
CN116820816A (zh) * 2023-06-07 2023-09-29 陕西科技大学 一种基于多层分组聚合的横向联邦学习故障检测方法
CN117077811A (zh) * 2023-08-31 2023-11-17 深圳前海微众银行股份有限公司 联邦学习优化方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902396B2 (en) * 2017-07-26 2024-02-13 Amazon Technologies, Inc. Model tiering for IoT device clusters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949837A (zh) * 2021-04-13 2021-06-11 中国人民武装警察部队警官学院 一种基于可信网络的目标识别联邦深度学习方法
WO2022217781A1 (zh) * 2021-04-15 2022-10-20 腾讯云计算(北京)有限责任公司 数据处理方法、装置、设备以及介质
CN116820816A (zh) * 2023-06-07 2023-09-29 陕西科技大学 一种基于多层分组聚合的横向联邦学习故障检测方法
CN117077811A (zh) * 2023-08-31 2023-11-17 深圳前海微众银行股份有限公司 联邦学习优化方法及相关装置

Also Published As

Publication number Publication date
CN117474127A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111124840B (zh) 业务运维中告警的预测方法、装置与电子设备
Zhang et al. Long-term mobile traffic forecasting using deep spatio-temporal neural networks
Liu et al. Unsupervised heterogeneous domain adaptation via shared fuzzy equivalence relations
Li et al. A ship motion forecasting approach based on empirical mode decomposition method hybrid deep learning network and quantum butterfly optimization algorithm
Imteaj et al. Federated learning for resource-constrained iot devices: Panoramas and state of the art
Ates et al. Two-stage convolutional encoder-decoder network to improve the performance and reliability of deep learning models for topology optimization
Wang et al. Deep Boltzmann machine based condition prediction for smart manufacturing
US20220351019A1 (en) Adaptive Search Method and Apparatus for Neural Network
CN112418482B (zh) 一种基于时间序列聚类的云计算能耗预测方法
Li et al. Dynamic structure embedded online multiple-output regression for streaming data
CN110533112A (zh) 车联网大数据跨域分析融合方法
Geng et al. Bearing fault diagnosis based on improved federated learning algorithm
Tang et al. Representation and reinforcement learning for task scheduling in edge computing
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN112749791A (zh) 一种基于图神经网络和胶囊网络的链路预测方法
Zhang et al. Fog computing for distributed family learning in cyber-manufacturing modeling
Sheng et al. Residual LSTM based short-term load forecasting
Kong et al. RETRACTED ARTICLE: Multimodal interface interaction design model based on dynamic augmented reality
CN113886454A (zh) 一种基于lstm-rbf的云资源预测方法
Ge et al. Active learning for imbalanced ordinal regression
CN117474127B (zh) 分布式机器学习模型训练系统、方法、装置及电子设备
Guo et al. New algorithms of feature selection and big data assignment for CBR system integrated by Bayesian network
CN117474129B (zh) 一种多云共享分布式预测系统、方法、装置及电子设备
CN115392493A (zh) 一种分布式预测方法、系统、服务器及存储介质
CN111209105A (zh) 扩容处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant