CN110968426B

CN110968426B - 一种基于在线学习的边云协同k均值聚类的模型优化方法

Info

Publication number: CN110968426B
Application number: CN201911203557.4A
Authority: CN
Inventors: 杨树森; 张靖琪; 韩青; 赵鹏; 赵聪; 任雪斌; 王路辉; 王艺蒙; 王涛; 罗坚
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-02-22
Anticipated expiration: 2039-11-29
Also published as: CN110968426A

Abstract

本发明公开了一种基于在线学习的边云协同k均值聚类的模型优化方法，属于边缘计算/机器学习技术领域。提出了一种新的“Learning to Learn”的框架，用于在具有资源约束的边缘服务器上进行有效的边云协同K‑means学习。各个边缘服务器同时从云服务器读取当前时刻的全局聚类簇中心至本地服务器，从本地数据集中随机抽取一个小批量数据并在此批上进行K‑means的迭代训练，随后将局部聚类簇中心上传至云服务器完成全局参数的更新。将云服务器的协同策略的动态确定建模为在线优化问题，并设计了基于预算受限的固定资源消耗的MAB模型的在线学习算法。同时支持同步的学习模式，可用于非监督学习任务。有效地利用边缘处有限的计算和通信资源以获取最佳的分布式K‑means聚类算法性能。

Description

一种基于在线学习的边云协同k均值聚类的模型优化方法

技术领域

本发明属于边缘计算/机器学习技术领域，具体涉及一种基于在线学习的边云协同k均值聚类的模型优化方法。

背景技术

K-means聚类分析是按照数据之间的相似性(距离准则)对数据进行划分或分组处理的重要技术，可以帮助人们发现数据的潜在规律，在数据挖掘、统计学、生物学以及市场营销等领域广泛应用。

随着物联网、虚拟现实、社交网络和5G技术的激增，边缘网络服务的智能设备和传感器的数量不断增加，其中生成的数据量呈指数级增长，可用于 K-means聚类分析的数据通常分布在各边缘服务器上，考虑到骨干网络在实际中的负担，将这种大数据传输到云以用于集中式K-means聚类分析会消耗大量的I/O资源。为了解决这个问题，已经提出了移动边缘计算(MEC)范例中的协作ML的概念，旨在通过分布式边缘节点/服务器(如笔记本电脑、智能手机和自动驾驶车)和云服务器之间的协作学习(各边不需要将本地数据上传至中心服务器，而只需将本地的参数上传至云)来实现灵活、快速且经济高效的机器学习。与云上的集中式学习相比，虽然典型的边云协作学习方法在节省网络带宽，减少延迟和保护隐私方面表现出巨大优势，但仍然缺乏可以部署在边缘服务器资源受限(如计算和通信方面)的边云系统中的算法。要解决边缘资源约束，有两个问题亟待解决：1)在边缘服务器计算和存储资源有限的情况下，云服务器如何寻找最佳协同策略；2)对于需要解决的方案，很难在数学上精确建立K-means模型准确性与边缘服务器资源消耗之间的关系。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于在线学习的边云协同 k均值聚类的模型优化方法，能够有效地利用边缘处有限的计算和通信资源以获取最佳的分布式K-means算法性能，优化了在边缘服务器计算资源和通信资源受限的边缘智能场景下的边云协同K-means算法性能，实现了K-means算法性能与资源消耗之间的权衡。

本发明是通过以下技术方案来实现：

一种基于在线学习的边云协同k均值聚类的模型优化方法，包括以下步骤：

步骤1：云服务器初始化全局参数，包括k个聚类簇中心w(0)，本地迭代所用数据批量大小b，各边缘服务器的总资源约束R；以及多臂老虎机的臂个数K和每个臂对应的迭代次数p(K)；

步骤2：云服务器将当前时刻t的全局聚类簇中心w(t)和迭代次数p(K)广播给所有边缘服务器N_i；

步骤3：边缘服务器在本地数据集中随机抽取包含b条数据的一个batch，计算这个batch数据与全局聚类簇中心w(t)的距离，把每个数据样本点并入离其最近的簇中，对调整后的新簇计算新的聚类簇中心，进行p(K)次迭代训练，得到新的局部聚类簇中心w_i(t)；

步骤4：记录边缘服务器N_i本地迭代所消耗的资源c_i，1和边缘服务器向云服务器上传参数所消耗的资源c_i，2，用所有边缘服务器本地迭代所消耗的时间和向云服务器上传参数所消耗的时间的最大值更新总资源约束R；

步骤5：每个边缘服务器N_i将其局部聚类簇中心w_i(t)上传至云服务器，云服务器读取所有边缘服务器的局部聚类簇中心来更新全局聚类簇中心w(t)；

步骤6：云服务器同步对所有边缘服务器进行决策；根据全局聚类簇中心 w(t)和云服务器中的测试数据得出全局模型的学习效用值，作为多臂老虎机中当前臂p(K)的收益值，资源消耗量作为当前臂p(K)的支付成本值；

步骤7：云服务器根据在线算法选择新的臂，将该臂对应的迭代次数作为边缘服务器下一次迭代的迭代次数p(K)；

步骤8：云服务器将更新后的全局聚类簇中心w(t)和迭代次数p(K)广播给所有边缘服务器，作为边缘服务器K-means算法的初始值；

步骤9：重复步骤3～8，直到云服务器检测到总资源用尽，此时的全局聚类簇中心w(t)为最终K-means模型训练的结果，云服务器将该训练结果广播给各边缘服务器，完成k均值聚类的模型优化。

优选地，步骤5中，全局聚类簇中心w(t)的更新采用同步聚合方式。

进一步优选地，步骤5的具体操作为：云服务器请求所有边缘服务器上传其局部聚类簇中心w_i(t)，然后利用下式计算所有局部聚类簇中心的加权平均值：

将得到的局部聚类簇中心的加权平均值作为更新后的全局聚类簇中心w(t)。

优选地，步骤6的具体操作为：

将云服务器的动态协同策略被建模成一个在线学习问题，其中协同策略与学习效用值如下定义：对于边缘服务器N_i，使用两个二进制变量

和

分别代表在时隙t是否进行本地迭代和全局更新，云服务器在时隙t的更新决策为

进而定义协同决策为

可得云服务器的协同策略为S^t＝＜D¹,D²,...,D^t＞；学习效用值定义为u(D^t；B^t)，其中B^t表示测试数据的一个batch，测试所用的全局聚类簇中心是云服务器接收到所有边缘服务器的局部聚类簇中心后加权聚合更新得到的；资源预算约束如下定义：云服务器设定在协同学习中的资源约束为R＝(r₁,r₂)，r₁和r₂分别代表计算资源和通信资源的总量，当将资源视为同类型时，R可表示为标量；对于边缘端服务器N_i，假设每次迭代消耗的资源固定，即一次本地迭代消耗c_i,1个计算资源，一次全局聚合消耗c_i,2个通信资源，因此有

在线优化问题定义如下：云服务器的工作是确定最佳协同策略S^T，其最大化整个学习过程中的平均学习效用值，而且该学习过程在时隙T终止，该时刻消耗完所有资源R；上述问题将建模为以下优化问题；

利用上式在计算资源和通信资源限制下最大化平均模型的学习效用值，该学习效用值作为多臂老虎机中当前臂的收益值，计算资源和通信资源消耗量作为当前臂的支付成本值。

优选地，步骤7的具体操作为：确定在给定资源预算约束的情况下最佳拉臂的序列，即选择下一步各边缘服务器进行K-means训练的迭代次数p(K)，其中每个决策的执行所消耗的资源是固定的；在固定资源消耗的情况下，使用基于无界背包问题的模型来寻找在满足固定资源预算约束下的能提供最高置信度边界的臂的组合，以此来估计最佳臂的预期效用，求解以下问题：

其中，

是云服务器选择臂P_I后得到的模型精度的平均值，

是该臂对应的资源消耗的常数；云服务器使用密度有序的贪心近似方法来追求近似最优解，相应的解决方案

表示每个臂被考虑在内的次数集合；基于

云服务器使用每个臂在该次数集合中出现的频率作为选择该臂的概率，通过概率分布

从所有臂中随机选择臂P_I，将P_I对应的迭代次数作为边缘服务器下一次迭代的迭代次数p(K)。

优选地，所述模型优化方法是基于Docker容器实现的。

与现有技术相比，本发明具有以下有益的技术效果：

本发明公开的一种基于在线学习的边云协同k均值聚类的模型优化方法，提出了一种新的“Learning to Learn”的框架，用于在具有资源约束的边缘服务器上进行有效的边云协同K-means学习。各个边缘服务器同时从云服务器读取当前时刻的全局聚类簇中心至本地服务器，从本地数据集中随机抽取一个小批量数据并在此批上进行K-means的迭代训练，随后将局部聚类簇中心上传至云服务器完成全局参数的更新。将云服务器的协同策略的动态确定(即边缘服务器上的本地迭代的分配以及协同学习过程消耗的资源量)建模为在线优化问题，并设计了一个基于预算受限的固定资源消耗的MAB模型的在线学习算法。同时本发明支持同步的学习模式，可用于非监督学习任务。能够有效地利用边缘处有限的计算和通信资源以获取最佳的分布式K-means聚类算法性能，实现了云服务器采用基于带预算约束的多臂老虎机算法的在线学习方法对边缘上的 K-means任务进行动态智能决策，优化在边缘服务器计算资源和通信资源受限的边缘智能场景下的边云协同K-means算法性能，实现了K-means算法性能与资源消耗之间的权衡。

实验结果表明，相较已有的基于Master-Slave架构的分布式算法和最先进的AC-Sync算法，在给定边缘服务器资源约束的情况下，对不同数据分布、不同数据批量大小都可以实现算法精度的显著提升，同时在达到可接受的模型精度的情况下，更加有效地节省了计算资源和通信资源，降低了边缘服务器上的本地视数据上传至云服务器需要高带宽、高延迟以及数据隐私泄露的风险。

附图说明

图1为边云系统框架下同步K-means算法的示意图；

图2为本发明的流程图；

图3为真实网络边缘下给定各边缘服务器的资源约束且同质情况下各算法运行的精度；其中，基于K-means的监控图像(来自视频流)聚类作为性能评估的无监督学习任务；

图4为真实网络边缘下给定各边缘服务器的资源约束且具有不同异质度情况下各算法在达到固定精度时所花费的资源(运行时间)；

图5为真实网络边缘下给定各边缘服务器的资源约束且具有不同异质度情况下各算法运行的精度。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参考图1，考虑到边缘服务器上的本地视频监控图片数据上传至云服务器需要高带宽、高延迟以及数据隐私泄露的风险，所以将数据存储在边缘服务器，仅将局部K-means聚类簇中心上传到云服务器。边缘服务器采用同步并行的方式与云服务器进行通信来完成边云协同K-means学习任务。

参考图1与图2，本发明提供了一种基于在线学习的边云协同k均值聚类的模型优化方法，包括以下步骤：

步骤1：云服务器初始化全局参数，包括k个聚类簇中心w(0)，本地迭代所用数据批量大小b，各边缘服务器总资源约束R；以及多臂老虎机的臂个数 K和每个臂对应的迭代次数p(K)；

步骤4：记录边缘服务器N_i本地迭代所消耗的资源c_i,1和边缘服务器向云服务器上传参数所消耗的资源c_i,2，用所有边缘服务器本地迭代所消耗的时间和向云服务器上传参数所消耗的时间的最大值更新总资源约束R；

步骤5：每个边缘服务器N_i将其局部聚类簇中心w_i(t)上传至云服务器，云服务器读取所有边缘服务器的局部聚类簇中心w_i(t)，利用下式计算所有局部聚类簇中心的加权平均值：

步骤6：云服务器同步对所有边缘服务器进行决策；将云服务器的动态协同策略被建模成一个在线学习问题，其中协同策略与学习效用值如下定义：对于边缘服务器N_i，使用两个二进制变量

和

进而定义协同决策为

可得云服务器的协同策略为S^t＝＜D¹,D²,...,D^t＞。学习效用值定义为u(D^t；B^t)，其中B^t表示测试数据的一个batch，测试所用的全局聚类簇中心是云服务器接收到所有边缘服务器的局部聚类簇中心后加权聚合更新得到的；资源预算约束如下定义：云服务器设定在协同学习中的资源约束为R＝(r₁,r₂)，r₁和r₂分别代表计算资源和通信资源的总量，当将资源视为同类型时，R可表示为标量；对于边缘端服务器N_i，假设每次迭代消耗的资源固定，即一次本地迭代消耗c_i,1个计算资源，一次全局聚合消耗c_i,2个通信资源，因此有

在线优化问题定义如下：云服务器的工作是确定最佳协同策略S^T，其最大化整个学习过程中的平均学习效用值，而且该学习过程在时隙T终止，该时刻消耗完所有资源R。上述问题将建模为以下优化问题；

利用上式在计算资源和通信资源限制下最大化平均模型的学习效用值，该学习效用值作为多臂老虎机中当前臂的收益值，计算资源和通信资源消耗量作为当前臂的支付成本值；

步骤7：云服务器根据在线算法选择新的臂，将该臂对应的迭代次数作为边缘服务器下一次迭代的迭代次数p(K)；云服务器将上述在线优化问题建模为多臂老虎机问题，确定在给定资源预算约束的情况下最佳拉臂的序列，即选择下一步各边缘服务器该进行K-means训练的迭代次数p(K)，其中每个决策的执行所消耗的资源是固定的。例如，边缘服务器i在三个时隙的更新决策是＜(1,0),(1,0),(1,0)＞，那么它的全局更新间隔就为3，代表着边缘服务器i要进行三次本地迭代后再进行全局更新。用

表示边缘服务器i在时隙t的全局更新间隔，进而定义云服务器的选择集合为

其中p_max表示最大更新间隔，I是预定义的整数，用于将所有可能的间隔(≤p_max)划分为J。映射到MAB模型中，p_I∈P就对应一个手臂。因此，协同策略也可以映射为

这是一个确定的多臂老虎机手臂集合。

在固定资源消耗的情况下，使用基于无界背包问题的模型来寻找在满足固定资源预算约束下的能提供最高置信度边界的臂的组合，以此来估计最佳臂的预期效用，求解以下问题

其中，

是云服务器选择臂P_I后得到的模型精度的平均值，

表示每个臂被考虑在内的次数集合。基于

从所有臂中随机选择臂P_I，将P_I对应的迭代次数就是边缘服务器下一次迭代的迭代次数p(K)。

步骤9：重复步骤3～8，直到云服务器检测到总资源用尽，此时的全局聚类簇中心w(t)为最终K-means模型训练的结果，云服务器将该训练结果广播给各边缘服务器，完成k均值聚类的模型训练。

参考图3，这幅图是K-means聚类分析在真实网络测试平台系统上训练的结果，对比算法是本发明提出的OL4EKL算法和两种已有分布式算法在监控图像数据上的分类精度对比。实验的真实网络测试场景是基于Docker容器实现的，同时实验使用Docker Swarm(Docker集群管理工具)统一管理各边缘服务器上的Docker容器，通过Docker Swarm启动边缘服务器上的容器与云服务器建立通信并提供计算服务。将Docker和边云协同K-means算法相结合，可以方便软件封装和复杂系统的搭建，使整个应用灵活、快速和高效。实验中边缘服务器的资源(时间)预算设置为5,000毫秒。通过这幅图可以发现本发明提出的算法(标记点)在minibatch大小不同、数据分布不同情况下能达到实验的最优值。

参考图4，这幅图是K-means聚类在真实网络边缘下给定各边缘服务器的资源约束且具有不同异质度情况下各算法在达到固定精度时所花费的资源，这里的资源选取的是运行时间。资源异质性被定义为最快边缘端服务器的处理速度与最慢边缘端服务器的处理速度的比率。通过这幅图可以看出，本发明提出的算法相比对比算法可以节省更多的资源。

参考图5，这幅图是真实网络边缘下给定各边缘服务器的资源约束且具有不同异质度情况下各算法运行的精度，本发明提出的算法优于AC-sync[1]，这是因为OL4EKL-sync的所有计算都在云上执行，使得边缘资源消耗少于 AC-sync算法。另外需要注意的是，如果允许更长的训练时间，则可以改善图 5中所示的算法精度。

[1]Shiqiang Wang,Tiffany Tuor,Theodoros Salonidis，Kin K Leung，Christian Makaya，Ting He，and Kevin Chan.When edge meets learning:Adaptivecontrol for resource-constrained distributed machine learning.In IEEE INFOCOM2018-IEEE Conference on Computer Communications，pages 63–71.IEEE，2018.

需要说明的是，以上所述仅为本发明实施方式的一部分，根据本发明所做的等效变化，均包括在本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做类似的方式替代，只要不偏离本发明或者超越本权利要求书所定义的范围，均属于本发明的保护范围。

Claims

1.一种基于在线学习的边云协同k均值聚类的模型优化方法，其特征在于，包括以下步骤：

步骤6：云服务器同步对所有边缘服务器进行决策：根据全局聚类簇中心w(t)和云服务器中的测试数据得出全局模型的学习效用值，作为多臂老虎机中当前臂p(K)的收益值，资源消耗量作为当前臂p(K)的支付成本值；

步骤6的具体操作为：

和

进而定义协同决策为

可得云服务器的协同策略为S^t＝<D¹，D²，...，D^t>；学习效用值定义为u(D^t；B^t)，其中B^t表示测试数据的一个batch，测试所用的全局聚类簇中心是云服务器接收到所有边缘服务器的局部聚类簇中心后加权聚合更新得到的；资源预算约束如下定义：云服务器设定在协同学习中的资源约束为R＝(r₁，r₂)，r₁和r₂分别代表计算资源和通信资源的总量，当将资源视为同类型时，R可表示为标量；对于边缘端服务器N_i，假设每次迭代消耗的资源固定，即一次本地迭代消耗c_i，1个计算资源，一次全局聚合消耗c_i，2个通信资源，因此有

2.如权利要求1所述的基于在线学习的边云协同k均值聚类的模型优化方法，其特征在于，步骤5中，全局聚类簇中心w(t)的更新采用同步聚合方式。

3.如权利要求2所述的基于在线学习的边云协同k均值聚类的模型优化方法，其特征在于，步骤5的具体操作为：云服务器请求所有边缘服务器上传其局部聚类簇中心w_i(t)，然后利用下式计算所有局部聚类簇中心的加权平均值：

4.如权利要求1所述的基于在线学习的边云协同k均值聚类的模型优化方法，其特征在于，步骤7的具体操作为：确定在给定资源预算约束的情况下最佳拉臂的序列，即选择下一步各边缘服务器进行K-means训练的迭代次数p(K)，其中每个决策的执行所消耗的资源是固定的；在固定资源消耗的情况下，使用基于无界背包问题的模型来寻找在满足固定资源预算约束下的能提供最高置信度边界的臂的组合，以此来估计最佳臂的预期效用，求解以下问题：

其中，

是云服务器选择臂P_I后得到的模型精度的平均值，

表示每个臂被考虑在内的次数集合；基于

5.如权利要求1所述的基于在线学习的边云协同k均值聚类的模型优化方法，其特征在于，所述模型优化方法是基于Docker容器实现的。