CN112685139A

CN112685139A - 基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法

Info

Publication number: CN112685139A
Application number: CN202110030466.6A
Authority: CN
Inventors: 那俊; 张斌; 邓心; 张瀚铎; 李井瑞
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-20

Abstract

本发明提供一种基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法。所述系统包括云端服务器、边缘智能设备和云边通信模块，首先在云端服务器上创建深度学习任务，根据用户配置参数构建深度学习模型并进行预训练，如果需要云边协同训练时，通过云边通信模块将边缘侧深度学习任务以及预训练模型传输给边缘智能设备，利用采集的样本数据对预训练模型再次进行训练，并将训练后的模型上传回云端服务器，通过云端服务器进行模型参数的融合，生成云边协同训练后的模型，本发明借助边缘智能设备采集的应用场景的样本数据训练深度模型，让云端服务器的模型掌握不同应用场景的环境差异和需求，从而解决样本不足和应用环境间差异的问题。

Description

基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法

技术领域

本发明涉及深度学习和容器应用的管理与部署技术领域，具体涉及一种基于K8S和Kubeedge的云边深度学习模型管理系统及云边协同模型训练方法。

背景技术

随着物联网和深度学习的快速发展，深度学习模型在边缘智能设备的研究与应用已经成为了产业界和学术界关注的热点之一。得益于人工智能技术的发展,物联网结合人工智能的AIOT技术将嵌入式边缘设备智能化。边缘侧智能设备中的传感器、控制器、接口和应用通过网络相互连接，催生了诸如家电自动控制、个性化照明系统、健康管理等一系列的智能应用。在这些智能应用上部署经过训练的深度学习模型可以根据用户需要让边缘智能设备进行智能决策，从而构建出更加舒适、智能的生活环境。

为了提升边缘侧智能设备的智能化水平，基于深度学习模型的自动化控制系统已经成为各大厂商普遍采用的边缘设备智能化方案。制造商对边缘设备的应用场景进行建模，确定深度学习模型的配置参数并对其进行训练，然后将训练好的模型嵌入到边缘智能设备中去进行推理决策。边缘智能设备根据传感器或控制器所收集到的信息进行对设备的控制，根据所收集到的信息执行相应的任务，完成边缘智能设备的自动控制，从而简化用户操作，提升生活环境的便捷性和智能化水平。目前，基于深度学习模型的训练，需要大量的标注样本以提高模型的泛化能力与决策精确度，但在某些领域下存在着数据分布不均匀、缺乏样本数据和不同环境的个性化需求等难题，通过常规的深度学习训练方法无法满足这些领域需求。

基于深度学习模型的自动化控制系统目的是为用户在日常生活中提供便利并且保证用户在使用中的满意度。智能化的自动化控制系统受到越来越多的人来关注，其原因在于智能化自动化控制系统的目的不仅仅为了给人们带来便利，也为社会的资源分配带来了极大的改善，在应用的同时节省了人力物力和财力。智能化自动控制系统的运行方式是利用已经训练好的深度学习模型进行自动控制和少量的人工维护，在减少人为干预的情况下让边缘智能设备尽可能的满足用户的需求。但是实际生活中的应用场景往往复杂且环境中具有一定的差异，导致无法训练出可以满足某一领域下所有应用场景的深度学习模型，所以研究如何能在样本数据不足、环境间具有差异的情况下训练出满足用户需求的高响应、高精度的深度学习模型已经成为研究界和产业界普遍关注的焦点。由于应用场景间的需求和环境状态存在差异，所以需要在模型中整合这些需求和差异，以此提升整个深度学习模型的决策能力，对整个智能化自动控制系统的生产应用至关重要。

然而现有的深度学习模型训练方法无法整合不同应用场景间的需求和环境的差异，只能够先通过收集大量的数据样本然后经过人工标注对模型进行训练，在缺少训练样本和需要个性化需求的情况下则无法训练出让人满意的深度学习模型。因此，当前并没有一套成熟的深度学习模型管理平台来解决缺少训练样本和应用环境间具有差异的难题。

发明内容

针对现有技术的不足，本发明提出一种基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法，该方法通过用户对深度学习模型的参数配置，能够在云端服务器和边缘端智能设备协同训练深度学习模型，解决传统深度学习模型在某些领域缺少训练样本和应用环境间具有差异的问题。

为实现上述技术效果，本发明提出了一种基于K8S和Kubeedge的云边深度学习模型管理系统，包括云端服务器、边缘智能设备和云边通信模块，所述云端服务器包括云端任务管理模块、云端数据管理模块和云端任务运行控制模块；所述边缘智能设备包括边缘侧任务管理模块、边缘侧数据管理模块、边缘侧任务运行控制模块；

所述云端任务管理模块用于深度学习任务的创建、深度学习任务的取消；

所述云端任务运行控制模块用于根据云端深度学习任务生成深度学习模型并进行训练，训练结束后得到的模型定义为预训练模型，还用于对训练过程进行监控生成监控日志；

所述云端数据管理模块用于管理预训练模型、边缘侧模型，并采用加权融合的方式更新预训练模型参数值，得到最终的云边协同训练后的模型，还用于将模型文件以及监控日志存储到云端服务器的数据库中；

所述云边通信模块用于云端服务器和边缘智能设备之间的消息通信，所述消息通信包括云端服务器向边缘智能设备发送的边缘侧深度学习任务、云端服务器和边缘智能设备之间深度学习模型的发送、云端服务器向边缘智能设备发送的控制命令，所述控制命令包括取消边缘智能设备上的训练任务、上传边缘智能设备上训练后的模型；

所述边缘侧任务管理模块用于接收云边通信模块传输的预训练模型和边缘侧深度学习任务，并对边缘侧深度学习任务进行解析，获取自定义数据的存储格式、预设精确度，其中自定义数据的存储格式发送给边缘侧数据管理模块，预设精确度发送给边缘侧任务运行控制模块；

所述边缘侧数据管理模块用于采集训练深度学习模型的样本数据，配置样本数的存储格式、对边缘侧模型和样本数据进行管理，并存储至本地数据库中，所述管理包括对模型的查询和删除，对样本数据的添加、查询和删除，所述样本数据为连接边缘智能设备的传感器采集到的数据；

所述边缘侧任务运行控制模块用于根据样本数据对预训练模型进行训练，达到预设精确度后结束训练，训练后生成的模型具备边缘个性化数据特征定义为边缘侧模型。

所述云端任务管理模块包括云端深度学习任务创建单元、云端深度学习任务取消单元；

所述云端深度学习任务创建单元用于将用户对任务的配置通过K8S平台中的KubeClient进行上传，解析用户对任务的配置参数，并创建深度学习任务，所述配置参数包括待构建深度学习模型的配置参数、自定义数据存储格式、配置是否需要进行云边协同训练及边缘智能设备上训练深度学习模型所要达到的预设精确度；所述深度学习任务包括云端深度学习任务和边缘侧深度学习任务，云端深度学习任务负责云端服务器上深度学习模型的配置和训练，边缘侧深度学习任务包含自定义数据存储格式和边缘智能设备上训练模型所要达到的预设精确度；

所述云端深度学习任务取消单元用于通过KubeClient将创建的任务进行取消。

所述云端任务运行控制模块包括深度学习记录单元、深度学习任务训练单元、深度学习任务监控单元；

所述深度学习记录单元用于对深度学习模型训练过程中生成的监控日志进行记录；

所述深度学习任务训练单元用于在云端服务器上根据云端深度学习任务生成深度学习模型，并进行训练，保存训练后的模型作为预训练模型；

所述深度学习任务监控单元用于实时监控训练过程并生成监控日志，方便用户进行错误排查。

所述云端数据管理模块包括深度学习模型管理单元、任务日志管理单元；

所述深度学习模型管理单元用于将预训练模型存储至云端服务器的数据库中，当需要云边协同训练时，通过云边通信模块将预训练模型传输给边缘智能设备，并将边缘智能设备上传的边缘侧模型存储至云端服务器的数据库中，还用于将预训练模型和边缘侧模型通过加权融合的方式更新预训练模型参数值，生成最终的云边协同训练后的模型；

所述任务日志管理单元用于对监控日志进行持久化记录，将所有的操作记录存储在云端服务器的数据库中。

所述边缘侧数据管理模块包括边缘侧模型管理单元、边缘侧数据采集单元、自定义数据管理单元；

所述边缘侧数据采集单元用于与边缘智能设备的传感器或控制器连接采集数据，作为在边缘智能设备上训练深度学习模型的样本数据；

所述自定义数据管理单元用于根据用户自定义的数据存储格式对样本数据进行数据存储格式的处理，并将处理后的数据存储到本地数据库中；

所述边缘侧模型管理单元用于管理边缘侧任务运行控制模块训练后的模型、样本数据，还用于将训练过程中生成的每个迭代周期模型决策的精确度、模型的召回率、模型的误差以及训练后的模型参数定期存储到本地数据库中。

所述对预训练后的模型进行训练具体表述为：当达到最大迭代次数时，模型的精确度如果小于预设精确度，则控制边缘侧数据采集模块再次采集样本数据，利用新采集的样本数据对模型再次进行训练，直到模型的精确度大于等于预设精确度，训练结束。

所述加权融合的方式具体表述为：对预训练模型和边缘侧模型中的相应模型参数值进行加权平均计算，更新预训练模型参数的具体值。

一种运用基于K8S和Kubeedge的云边深度学习模型管理系统的云边协同模型训练方法，包括：

步骤1：用户在K8S平台上进行所需任务的配置，并通过KubeClient发送给云端服务器，通过云端深度学习任务创建单元解析用户对任务的配置参数，并创建深度学习任务，根据任务的配置参数，将创建的深度学习任务发送给云端任务运行模块和云边通信模块；

步骤2：云端深度学习任务训练单元根据云端深度学习任务生成深度学习模型并进行训练，训练过程中深度学习任务监控单元负责对模型的训练过程进行监控，深度学习任务记录单元将模型训练过程中产生的日志进行记录并传输给云端数据管理模块，由任务日志管理单元存储到云端服务器的数据库中，训练结束后保存模型文件到在云端预设的文件夹Q1中，云端数据管理模块中的深度学习模型管理单元将预训模型以文件形式存储到云端数据库中，如果需要进行云边协同训练，深度学习模型管理单元还需将预训练模型通过云边通信模块传送给边缘智能设备；

步骤3：根据用户对任务的配置判断是否需要进行云边协同训练，如果需要云边协同训练，则执行步骤4，否则执行结束；

步骤4：云端通信模块将云端上传的预训练模型存储到在边缘智能设备上预设的文件夹Q2中，边缘侧任务管理模块通过云边通信模块获取预训练模型的文件路径和边缘侧深度学习任务并进行解析，将解析的自定义数据格式传输给边缘侧数据管理模块中的自定义数据管理单元，将预设精确度和预训练模型的文件路径传输给边缘侧任务运行控制模块；

步骤5：通过边缘侧数据采集单元采集样本数据，使用自定义数据管理单元对所采集的样本数据进行数据格式的转换，形成深度学习模型所需要的数据格式，存储到本地数据库中；

步骤6：利用样本数据在边缘侧任务运行控制模块上对存储在文件夹Q2中的预训练模型进行训练，直到深度学习模型满足所要达到的预设精确度，结束训练，结束训练后生成的模型具备边缘个性化数据特征作为边缘侧模型，并存储到在边缘智能设备上预设的文件夹Q3中，边缘侧模型管理单元将边缘侧模型以文件形式存储到本地数据库中，同时将边缘侧模型以文件形式通过云边通信模块上传回云端服务器；

步骤7：云边通信模块将上传回的边缘侧模型存储到在云端预设的文件夹Q4中，利用深度模型管理单元将预训练模型和边缘侧模型通过加权融合的方式更新预训练模型参数值，生成最终的云边协同训练后的模型。

本发明的有益效果是：

本发明提出了一种基于K8S和Kubeedge的云边深度学习模型管理系统及模型训练方法，该方法的基本思想是通过Kubeedge在云端服务器上对深度学习模型进行预训练然后将预训练模型和训练任务部署到边缘端智能设备上，边缘智能设备对所在应用场景的数据进行实时采集，根据采集到的样本数据对预训练模型再次进行训练得到边缘侧模型，并定期将边缘侧模型上传到云端服务器进行模型融合，让云端服务器的模型掌握不同应用场景的环境差异和需求，从而解决样本不足和应用环境间差异的问题。

附图说明

图1为本发明中的基于K8S和Kubeedge的云边深度学习模型管理系统框图。

图2为本发明中的运用基于K8S和Kubeedge的云边深度学习模型管理系统的云边协同模型训练方法流程图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。为解决深度学习模型训练在某些领域样本不足和环境间具有差异性而无法训练模型的需求，要产生一个深度学习模型训练和管理平台，借助深度学习和物联网技术，能够自动收集边缘应用环境的信息并进行训练深度学习模型，将所学得的经验按照模型参数定期共享给云端服务器上的模型，增强云端服务器上模型的泛化能力和决策精度，达到无论处在任何应用环境，模型都能做用户所需的决策动作。

如图1所示，一种基于K8S和Kubeedge的云边深度学习模型管理系统，采用Python语言设计实现，包括云端服务器、边缘智能设备和云边通信模块，所述云端服务器包括云端任务管理模块、云端数据管理模块和云端任务运行控制模块；所述边缘智能设备包括边缘侧任务管理模块、边缘侧数据管理模块、边缘侧任务运行控制模块；

所述云端深度学习任务创建单元用于将用户对任务的配置通过K8S(kubernetes简称K8S，是Google云平台的开源容器集群管理系统)平台中的KubeClient进行上传，解析用户对任务的配置参数，并创建深度学习任务，所述配置参数包括待构建深度学习模型的配置参数(如深度学习训练次数、深度学习模型的神经网络层数、深度学习模型的学习率等)、自定义数据存储格式、配置是否需要进行云边协同训练及边缘智能设备上训练深度学习模型所要达到的预设精确度；所述深度学习任务包括云端深度学习任务和边缘侧深度学习任务，云端深度学习任务负责云端服务器上深度学习模型的配置和训练，边缘侧深度学习任务包含自定义数据存储格式和边缘智能设备上训练模型所要达到的预设精确度；

例如用户使用json格式对任务进行配置任务名称、任务id、模型生成文件名、是否需要云边协同训练、参与协同训练的边缘节点id等，然后将配置好的json文件使用K8S平台中的KubeClient上传到云端服务器中，按照配置文件创建出任务对象；

所述云端深度学习任务取消单元用于通过KubeClient将创建的任务进行取消，取消任务时，通过调用任务取消函数，输入任务id后函数查找此任务判断其运行状态并进行取消。

消息的处理过程涉及消息封装、消息传递、消息接收、消息解析，其中消息分为MQTT消息、FTP消息和Command消息，所述MQTT消息负责接收和发送文本消息，如模型的配置文件；所述FTP消息负责神经网络模型或其参数文件的转储，存储和下载；所述Command消息负责云边深度学习训练过程的控制，如向云端上传模型、从云端下载模型和云端向边缘端分发参数等。

所述边缘侧数据管理模块用于采集训练深度学习模型的样本数据，配置样本数的存储格式、对边缘侧模型和样本数据进行管理，并存储至本地数据库中，所述管理包括对模型的查询和删除，对样本数据的添加、查询和删除，所述样本数据为连接边缘智能设备的传感器采集到的数据(如光照强度、人脸图片)，如以json格式进行存储；

所述边缘侧数据采集单元用于与边缘智能设备的传感器或控制器(如距离传感器、光照传感器、摄像头等)连接采集数据，作为在边缘智能设备上训练深度学习模型的样本数据；

如图2所示，一种运用基于K8S和Kubeedge的云边深度学习模型管理系统的云边协同模型训练方法，包括如下步骤：

步骤1：用户在K8S平台上进行所需任务的配置，并通过KubeClient发送给云端服务器，通过云端深度学习任务创建单元解析用户对深度学习任务的配置参数，并创建深度学习任务，根据任务的配置参数，将创建的深度学习任务发送给云端任务运行模块和云边通信模块；

步骤2：云端深度学习任务训练单元根据云端深度学习任务生成深度学习模型并进行训练，训练过程中深度学习任务监控单元负责对模型的训练过程进行监控(如模型的迭代次数、此时模型的精确度)，深度学习任务记录单元将模型训练过程中产生的日志进行记录并传输给云端数据管理模块，由任务日志管理单元存储到云端数据库中，训练结束后保存模型文件到在云端预设的文件夹Q1中，云端数据管理模块中的深度学习模型管理单元将预训模型以文件形式存储到云端服务器的数据库中，如果需要进行云边协同训练，深度学习模型管理单元还需将预训练模型通过云边通信模块传送给边缘智能设备；

步骤4：云端通信模块将云端上传的预训练模型存储到在边缘智能设备上预设的文件夹Q2中，边缘侧任务管理模块通过云边通信模块获取预训练模型的文件路径和边缘侧深度学习任务并进行解析，将解析的自定义数据格式函数传输给边缘侧数据管理模块中的自定义数据管理单元，将预设精确度和预训练模型的文件路径传输给边缘侧任务运行控制模块；

步骤5：通过边缘侧数据采集单元采集样本数据，使用自定义数据管理单元对所采集的样本数据进行数据格式的转换，生成深度学习模型所需要的数据格式，存储到本地数据库中；

步骤6：利用样本数据在边缘侧任务运行控制模块上函数函数对存储在文件夹Q2中的预训练模型进行训练，直到深度学习模型满足所要达到的预设精确度，结束训练，结束训练后生成的模型具备边缘个性化数据特征作为边缘侧模型，并存储到在边缘智能设备上预设的文件夹Q3中，边缘侧模型管理单元将边缘侧模型以文件形式存储到本地数据库中，同时将边缘侧模型以文件形式通过云边通信模块上传回云端服务器；

Claims

1.一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，包括云端服务器、边缘智能设备和云边通信模块，所述云端服务器包括云端任务管理模块、云端数据管理模块和云端任务运行控制模块；所述边缘智能设备包括边缘侧任务管理模块、边缘侧数据管理模块、边缘侧任务运行控制模块；

2.根据权利要求1所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述云端任务管理模块包括云端深度学习任务创建单元、云端深度学习任务取消单元；

3.根据权利要求1所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述云端任务运行控制模块包括深度学习记录单元、深度学习任务训练单元、深度学习任务监控单元；

4.根据权利要求1所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述云端数据管理模块包括深度学习模型管理单元、任务日志管理单元；

5.根据权利要求1所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述边缘侧数据管理模块包括边缘侧模型管理单元、边缘侧数据采集单元、自定义数据管理单元；

6.根据权利要求1所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述对预训练后的模型进行训练具体表述为：当达到最大迭代次数时，模型的精确度如果小于预设精确度，则控制边缘侧数据采集模块再次采集样本数据，利用新采集的样本数据对模型再次进行训练，直到模型的精确度大于等于预设精确度，训练结束。

7.根据权利要求1或4所述的一种基于K8S和Kubeedge的云边深度学习模型管理系统，其特征在于，所述加权融合的方式具体表述为：对预训练模型和边缘侧模型中的相应模型参数值进行加权平均计算，更新预训练模型参数的具体值。

8.一种运用基于K8S和Kubeedge的云边深度学习模型管理系统的云边协同模型训练方法，其特征在于，包括如下步骤：

步骤2：云端深度学习任务训练单元根据云端深度学习任务生成深度学习模型并进行训练，训练过程中深度学习任务监控单元负责对模型的训练过程进行监控，深度学习任务记录单元将模型训练过程中产生的日志进行记录并传输给云端数据管理模块，由任务日志管理单元存储到云端数据库中，训练结束后保存模型文件到在云端预设的文件夹Q1中，云端数据管理模块中的深度学习模型管理单元将预训模型以文件形式存储到云端服务器的数据库中，如果需要进行云边协同训练，深度学习模型管理单元还需将预训练模型通过云边通信模块传送给边缘智能设备；