CN109948428A

CN109948428A - 面向传感信息处理的gpu集群深度学习边缘计算系统

Info

Publication number: CN109948428A
Application number: CN201910080007.1A
Authority: CN
Inventors: 陈庆奎; 那丽春; 陈明浩; 曹渠成; 汪明明; 庄松林
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-28
Anticipated expiration: 2039-01-28
Also published as: CN109948428B

Abstract

本发明涉及一种面向传感信息处理的GPU集群深度学习边缘计算系统，运用前端智能传感设备的弱小的计算能力对传感信息预特征提取，使得原始数据信息量大大压缩，再将剩余处理任务交给GPU集群进行大规模传感数据特征聚类集合处理，通过任务拆分处理可以动态地适应前端智能传感设备的计算能力，减轻前端传感设备和硬件版本一致性要求的成本压力；降低边缘计算网络的通信压力，使得构建边缘计算的网络成本大大降低；网路数据特征传输隐藏了用户隐私；网络中传输的数据和存储的数据核心特征，通过聚类操作，发挥了GPU的SPMD优势，提高了边缘计算的并行计算效率，同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。

Description

面向传感信息处理的GPU集群深度学习边缘计算系统

技术领域

本发明涉及一种计算机技术，特别涉及一种面向传感信息处理的GPU集群深度学习边缘计算系统。

背景技术

随着物联网技术和人工智能技术的飞速发展，相应的复合应用已经在各个领域展开，特别是基于视频的实时分析技术应用已经成为热点。例如，大规模视频监控用于公交系统拥挤度实时分析、居家养老用于大社区范围的养老照护、工业自动化分拣应用等。对于这些基于视频传感的大规模应用面临诸多问题需要解决：1)传感信息的实时处理对前端传感设备的成本提出了挑战；2)视频数据的实时传输对通讯网络产生了压力；3)视频数据的存储和传输对隐私保护问题带来了应用难点(如居家养老照护隐私问题)。这些都为边缘计算技术的应用带来了机会。其关键是构建高性能价格比的边缘计算架构、模型和应用支撑模式。以小型GPU集群为中心的边缘计算模式可以有效解决局部大规模传感的汇集、传输、计算和存储的综合高性价比系统。

发明内容

本发明是针对大规模物联网传感信息对物联网络和服务器系统压力日益增大的问题，提出了一种面向传感信息处理的GPU集群深度学习边缘计算系统，通过弹性协同机制，利用前端智能传感设备的预处理和初始特征提取，把数千个传感数据特征传输到GPU集群边缘计算中心按照SPMD(单程序多数据并行)模式统一并行实时处理。

本发明的技术方案为：一种面向传感信息处理的GPU集群深度学习边缘计算系统，对前端智能传感系统中传感数据进行实时处理，包括DL训练系统、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区和全局资源目录库；各个应用领域对应的样本数据集送入DL训练系统进行模型训练，每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型，DL训练系统生成所有模型送全局资源目录库和DL任务拆分计算与部署系统；DL任务拆分计算与部署系统从全局资源目录库读取前端智能传感系统传感数据，部署在前端智能传感系统中，并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例，智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作，把得到的处理中间结果传输至汇集系统，汇集系统将前端智能传感系统处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区，任务调度系统根据聚类缓冲区的中间结果进行聚类，任务调度系统按照该聚类计算批任务所需要的计算资源，寻找适当的GPU集群服务计算系统，并发送该聚类批任务到选定的GPU集群服务计算系统，GPU集群服务计算系统配置相应的服务器端DL模型，完成前端智能传感系统的传感数据剩余比例处理任务，GPU集群服务计算系统把完成的最终结果送入结果缓冲区。

所述DL任务拆分计算与部署系统根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束，计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α，然后对百分比b＝1-α的计算工作部分安排相应的GPU集群服务计算系统进行执行。

所述面向传感信息处理的GPU集群协同深度学习边缘计算系统运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算系统动态任务分配表；

1)智能传感器任务部署表定义为复合对象ISTA，ISTA由ISid，num，LDLMT构成定义，其中ISid为IS的标识符ID，num为该ISTA上可以运行的轻量DL模型的数目；LDLMT为子表，LDLMT由no，LDLM，Du，Dt，α，Tcap构成定义，该子表的每一行记载一个轻量DL模型，LDLMT的no为该轻量DL模型的序号，LDLM为轻量DL模型，Du为该模型的输入数据单元，Dt计算Du所需要的计算资源量，α为该模型对Du执行LDLM计算任务量的百分比，Tcap为Du出现的周期，IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作；

2)聚类任务表定义为GCT，GCT由GCid，GCdata，SDLM，b，Tcap构成定义，其中GCid该聚类任务标识符，GCdata为该聚类任务数据集，SDLM为服务器端DL模型，b为该任务对GCdata执行SDLM计算任务量的百分比，Tcap为GCdata出现的周期，需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作；

3)GPU集群服务计算系统动态任务分配表定义为GPUTA，GPUTA由sno，Stime，GPUSid，GCid，GCdata，SDLM，b，Tcap构成定义，其中表的每一行为一个GPU计算任务，sno为该任务的序号，Stime为任务起始执行时刻，GPUSid为被分配GPU服务器的标识符，GCid为本次任务绑定所执行的聚类任务标识符，GCdata为本次任务绑定所执行的聚类任务数据集，SDLM为服务器端DL模型，b为该模型对GCdata执行SDLM计算任务量的百分比，Tcap为GCdata出现的周期，GPU集群服务计算系统需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作。

本发明的有益效果在于：本发明面向传感信息处理的GPU集群深度学习边缘计算系统，1)运用前端智能传感设备的弱小的计算能力对传感信息进行预特征提取，可以根据前端智能传感设备的计算能力动态地量力而行地分配计算任务，减轻了前端传感设备的成本压力以及硬件版本一致要求的成本压力(不同时期的不同计算能力的前端设备可以一同使用，延长设备的寿命，降低了陈本，可以大规模普及应用)；2)通过前端智能传感设备的预处理使得原始传感数据(如图像)的信息量大大压缩(仅仅获取传感数据的核心特征)，降低了边缘计算网络(往往是无线网络、窄带物联网)的通信压力，使得构建边缘计算的网络成本大大降低；3)过前端智能传感设备的预处理使得原始传感数据的敏感部分被模糊淡化(图像的原始面貌发生了特征变换)，使得边缘计算网络中传输的数据和存储的数据聚焦数据核心特征，更容易被隐私敏感的用户接受应用，拓展了物联网应用普及的范围；4)汇集到GPU集群的大规模传感数据特征集合通过聚类划分来驱动GPU的SPMD计算机制，使得边缘计算的并行计算效率得到了提高，同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。

附图说明

图1为本发明面向传感信息处理的GPU集群深度学习边缘计算系统结构示意图。

具体实施方式

一、面向传感信息处理的GPU集群协同深度学习(Deep Learning-DL)边缘计算系统结构组成：

1、如图1所示GPU集群协同深度学习边缘计算系统结构示意图，面向大规模物联信息智能处理的GPU集群协同DL边缘计算系统(DLECG)包括：DL训练系统、轻型DL模型集合、服务端DL模型集合、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区、全局资源目录库。

2、DL训练系统(DLTS)由若干个DL训练模型DLTM构成，DLTS有自己的标识符ID。每个DLTM可以定义为一个四元组DLTM，包括DLMS，DLMSSD，LDLM和SDLM；其中DLMS为DLTM所采用的DL开发工具(例如Tensorflow，Keras等)；DLMSSD为应用领域对应的训练数据集；LDLM为基于DLMS(如Tensorflow的轻量化版本Tensorflow Lite)，利用DLMSSD训练出的DLTS所对应的领域应用轻量DL模型，此轻量DL模型是可以运行在移动设备芯片(如ARM)上的应用模型(例如应用Tensorflow Lite训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等)；SDLM为基于DLMS，利用DLMSSD训练出的DLTS所对应的领域应用服务器端DL模型，此服务端DL模型是可以运行在服务器芯片(如多核CPU、GPU集群等)上的应用模型(例如应用Tensorflow训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等)。

3、轻型DL模型集合由DL训练系统(DLTS)生成的所有轻量DL模型构成，可以表示为LDLM₁，LDLM₂，……，LDLM_n，n为领域应用个数。

4、服务端DL模型集合由DL训练系统(DLTS)生成的所有服务端DL模型构成，可以表示为SDLM₁，SDLM₂，……，SDLM_n，n为领域应用个数。为了简述，LDLM_i和SDLM_i(1≤i≤n)为一个应用模型对，即他们分别对应第i个领域应用的运行在移动设备和服务端设备上的DL模型。

5、前端智能传感系统由若干个智能传感器IS构成，每个智能传感器IS由ID，Cpower，Func，Bnet，Dinput，DT，Tcap构成定义，其中ID为IS的标识符，Cpower为IS的计算能力，Func为IS的功能描述，Bnet为IS的通信能力，Dinput为IS采集数据，DT为执行Func来计算Dinput所需要的总计算能力(总计算工作量)，Tcap为IS的传感数据的计算周期间隔。

6、GPU集群服务计算系统由若干个GPU服务器构成，称为GPUS，GPUS由ID，Cowper，Func，Rpower，Kernel，Tcap构成定义，其中ID为GPUS的标识符，Cpower为其计算能力，Func为其功能描述，Bpower为其聚类数据处理能力，Dinput为其聚类数据集合，Tcap为其聚类数据计算周期间隔。

7、DL任务拆分计算与部署系统根据智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束，计算出IS的Func所对应的轻量DL模型LDLM能够完成处理Dinput的计算工作的百分比α，然后对百分比b＝1-α的Dinput部分安排相应的GPUS服务器进行执行，数对(α，b)为DL任务拆分计算与部署系统对IS的LDLM模型计算量进行了划分。在实际工作中，如深度学习模型中，α可以为IS完成的神经网络分层数，b为GPUS完成的神经网络分层数，也就是说IS和GPUS共同完成对Dinput的α+b层神经网络计算。

8、全局资源目录库用于存放系统的传感器资源、DL模型资源、GPUS计算资源、任务拆分与部署信息、聚类数据信息等。

9、汇集系统通过物联网通信网络(如WIFI、4G、ZIGBEE、LORA等)汇集来自前端智能传感器系统并发传来的轻型DL模型所计算的中间结果(仅仅完成IS计算，也就是DT的百分之α)；并按照轻型DL模型集合LDLM₁，LDLM₂，……，LDLM_n进行聚类，即使用了同一领域应用轻型DL模型LDLM且前端计算百分比相同的中间结果聚为一类，放置到聚类缓冲区。

10、任务调度系统根据聚类缓冲区的中间结果得到聚类数据GC，按照GC完成后续DL模型计算任务所需要的计算资源，寻找适当的GPUS并配置相应的SDLM，驱动它们完成GC的后百分之b的计算工作。GPU集群服务计算系统把完成的最终结果送入结果缓冲区。

二、系统运行数据结构

1、智能传感器任务部署表

智能传感器任务部署表可以定义为复合对象ISTA，ISTA由ISid，num，LDLMT构成定义，其中ISid为IS的标识符ID，num为该ISTA上可以运行的LDLM模型的数目；LDLMT为子表，LDLMT由no，LDLM，Du，Dt，a，Tcap构成定义，该子表的每一行记载一个LDLM，LDLMT的no为该LDLM的序号，LDLM为模型，Du为该模型的输入数据单元，Dt计算Du所需要的计算资源量，α为该模型对Du执行LDLM计算任务量的百分比，Tcap为Du出现的周期(IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作)。

2、聚类任务表

聚类任务表可以定义为GCT，GCT由GCid，GCdata，SDLM，b，Tcap构成定义，其中GCid该聚类任务标识符，GCdata为该聚类任务数据集，SDLM为模型，b为该任务对GCdata执行SDLM计算任务量的百分比，Tcap为GCdata出现的周期(需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)

3、GPUS动态任务分配表

GPUS动态任务分配表可以定义为GPUTA，GPUTA由sno，Stime，GPUSid，GCid，GCdata，SDLM，b，Tcap构成定义，其中表的每一行为一个GPU计算任务，sno为该任务的序号，Stime为任务起始执行时刻，GPUSid为被分配GPU服务器的标识符，GCid为本次任务绑定所执行的聚类任务标识符，GCdata为本次任务绑定所执行的聚类任务数据集，SDLM为模型，b为该模型对GCdata执行SDLM计算任务量的百分比，Tcap为GCdata出现的周期(GPUS需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)

三、算法

1、DL训练系统工作过程：

设有p个应用领域，分别为D₁，D₂，….，D_p，它们对应的样本数据集为DLMSSD₁，DLMSSD₂，…..，DLMSSD_p，它们实施的DL计算任务分别为DT₁，DT₂，….，DT_p。每个DT_i(1≤i≤p)有多个子任务构成，例如在深度学习网络中可以定义为卷积、池化等一系列子任务。

对每个应用领域D_i(1≤i≤p)进行模型训练，DL训练系统做如下工作：

{

为D_i确定一个DL开发工具DLMS(例如Tensorflow，Keras等)

对于一个训练任务DT_i，利用某一DL开发工具DLMS，对样本数据集DLMSSD_i进行计算训练(训练过程可参考具体的工具手册)，得到一个训练模型DLTM_i(ID_i，DLMS_i，DLMSSD_i，LDLM_i，SDLM_i，DT_i，Du_i)；

}；

完成所有训练任务，输出p个训练模型DLTM₁，DLTM₂，……，DLTM_p和SLTM₁，SLTM₂，……，SLTM_p到全局资源目录库。这里我们对每个应用领域D_i(1<＝i<＝p)对应都得到2个模型，一个可以运行在智能传感器上的轻型DL模型LDLM_i，另一个是运行在GPU服务器上的服务端DL模型SDLM_i。

2、DL任务拆分计算与部署系统过程如下：

读取全局资源目录库，获取前端传感器系统内的q个智能传感器IS_j(ID，Cpower，Func，Bnet，Dinput，Dt,Tcap)(1≤j≤q)；获取p个应用领域的训练模型DLTM₁，DLTM₂，……，DLTM_p；

对每个智能传感器IS_j(1≤j≤q),做如下工作：

{为IS_j生成一个标识符ISid，置计数器num＝1；

在智能传感器任务部署表ISTA中增加一个行复合对象OTMP(ISid，num，LDLMT(NULL))，其中NULL表示子表为空；

对IS_j对应的每个应用领域训练模型DLTM_i(1≤i≤p),做如下工作：

{获取模型DLTM_i的处理数据单元规范Du_i和IS_j单位计算任务量DT_j；

设对Du_i执行任务DT_j的百分之α后产生的中间结果为Mm；采用如下约束来确定比例α的值：(1)α*DT_j≤IS_j.Cpower；(2)Mm的数据规模≤IS_j.Bnet；(3)α*DT_j的运行时间+传输Mm通讯时间≤DLTM_i.Tcap，从约束条件计算出拆分任务DT_j中IS_j传感器计算工作量为α*DT_j；其中*为乘法运算；

把行复合对象OTMP(ISid，num，LDLMT())增加一个字表行LDLMT(DLTM_i.TD_i，DLTM_i.LDLM，Du_i，DT_j，α，DLTM_i.Tcap)，并且num++；

}

用num值更新行复合对象OTMP(ISid，num，LDLMT())的num属性；

}

3、前端传感器系统工作过程如下：

对前端传感器系统中的每个智能传感器IS_j(1≤j≤q),并发地如下工作：

{获取工作任务标志Tflag；(选择当前传感器的领域应用模型)

读取全局资源目录库，获取智能传感器IS_j的智能传感器任务部署行复合对象OTMP(IS_j.ISid，num，LDLMT()),根据Tflag查询子表LDLMT()，得到IS_j的当前工作配置状态ISconfig(ID，Cpower，Func，Bnet，Dinput，DLTM_i.LDLM，DT_j，α，Tcap)；

装载ISconfig.Func功能函数库；根据α*DT的值拆分功能函数库Func为subFunc；

智能传感器IS_j周而复始地做如下工作：

{启动计时器tt＝0且tt<Tcap时，做：

{从传感器端口读取传感数据Dinput；

对Dinput执行DLTM_i.LDLM的subFunc过程并输出中间结果Mm；

传输通讯数据包TP(IS_j.ISid，Tflag，Mm)到汇集系统；

}

}//传感器IS_j工作

}//q个传感器并发工作。

4、汇集系统工作过程如下：

周而复始地做如下工作：

{读取网络数据接受端口，并发地获取来自前端传感器系统的通讯数据包TP(IS_j，Tflag，Mm)(1≤j≤q)；

读取全局资源目录库，获取智能传感器IS_j的智能传感器任务部署行复合对象OTMP(IS_j.ISid，num，LDLMT()),根据Tflag查询子表LDLMT()，得到IS_j的当前工作配置状态ISconfig(ID，Cpower，Func，Bnet，Dinput，LDLM，DT_j，α，Tcap)；根据LDLM获取对应的SDLM；计算服务器端计算任务后百分比b＝1-α；

查询聚类缓冲区，根据Func、SDLM、b、Tcap计算通讯数据包TP归属的类别GCid，并把TP存入GCT(GCid，GCdata，SDLM，b，Tcap)的GCdata；

}

5、任务调度系统过程：

周而复始地做如下工作：

{查询聚类缓冲区，如果有一个准备好的聚类任务GCT(GCid，GCdata，SDLM，b，Tcap)则做如下工作：

{TotalTask＝0；

扫描聚类任务GCT的GCdata，对GCdata的每个数据包TP(IS_j，Tflag，Mm)，做如下工作：

{读取全局资源目录库，获取智能传感器IS_j的智能传感器任务部署行复合对象OTMP(IS_j.ISid，num，LDLMT()),根据Tflag查询子表LDLMT()，得到IS_j的当前工作配置状态ISconfig(ID，Cpower，Func，Bnet，Dinput，LDLM，DT_j，α，Tcap)；

TotalTask＝TotalTask+(DT*1-α))；

}

向GPU集群服务计算系统提交资源申请向量(TotalTask，b，Tcap)，要求其在Tcap的时间内完成SDLM模型的Func功能的DT*b计算工作量；

在得到GPU集群服务计算系统确认恢复后，把聚类任务GCT(GCid，GCdata，SDLM，b，Tcap)和资源申请向量(TotalTask，b，Tcap)提交给GPU集群服务计算系统并行执行该聚类任务；

}

6、GPU集群服务计算系统过程如下：

从任务调度系统获取聚类任务GCT(GCid，GCdata，SDLM，b，Tcap)和资源申请向量(TotalTask，b，Tcap)；

读取每个GPU服务器GPUS(ID，Cowper，Func，Rpower，Kernel，Tcap)的状态信息，确定能够在Tcap时间内完成TotalTask任务的服务器子集合SUBCPUS＝{GPUS₁，GPUS₂，….，GPUS_r}；

把聚类任务GCT的GCdata中的所有中间结果数据Mm变换为SPMD计算模式数据(具体参见GPU编程模型CUDA)，并驱动SUBCPUS所有服务器完成执行具有Func功能的KenerlSPMD计算；SUBCPUS把计算最终结果存入结果缓冲区。

Claims

1.一种面向传感信息处理的GPU集群深度学习边缘计算系统，对前端智能传感系统中传感数据进行实时处理，其特征在于，包括DL训练系统、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区和全局资源目录库；各个应用领域对应的样本数据集送入DL训练系统进行模型训练，每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型，DL训练系统生成所有模型送全局资源目录库和DL任务拆分计算与部署系统；DL任务拆分计算与部署系统从全局资源目录库读取前端智能传感系统传感数据，部署在前端智能传感系统中，并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例，智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作，把得到的处理中间结果传输至汇集系统，汇集系统将前端智能传感系统处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区，任务调度系统根据聚类缓冲区的中间结果进行聚类，任务调度系统按照该聚类计算批任务所需要的计算资源，寻找适当的GPU集群服务计算系统，并发送该聚类批任务到选定的GPU集群服务计算系统，GPU集群服务计算系统配置相应的服务器端DL模型，完成前端智能传感系统的传感数据剩余比例处理任务，GPU集群服务计算系统把完成的最终结果送入结果缓冲区。

2.根据权利要求1所述面向传感信息处理的GPU集群深度学习边缘计算系统，其特征在于，所述DL任务拆分计算与部署系统根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束，计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α，然后对百分比b＝1-α的计算工作部分安排相应的GPU集群服务计算系统进行执行。

3.根据权利要求2所述面向传感信息处理的GPU集群深度学习边缘计算系统，其特征在于，所述面向传感信息处理的GPU集群协同深度学习边缘计算系统运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算系统动态任务分配表；