CN109948428A - 面向传感信息处理的gpu集群深度学习边缘计算系统 - Google Patents

面向传感信息处理的gpu集群深度学习边缘计算系统 Download PDF

Info

Publication number
CN109948428A
CN109948428A CN201910080007.1A CN201910080007A CN109948428A CN 109948428 A CN109948428 A CN 109948428A CN 201910080007 A CN201910080007 A CN 201910080007A CN 109948428 A CN109948428 A CN 109948428A
Authority
CN
China
Prior art keywords
task
cluster
model
gpu
tcap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910080007.1A
Other languages
English (en)
Other versions
CN109948428B (zh
Inventor
陈庆奎
那丽春
陈明浩
曹渠成
汪明明
庄松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910080007.1A priority Critical patent/CN109948428B/zh
Publication of CN109948428A publication Critical patent/CN109948428A/zh
Application granted granted Critical
Publication of CN109948428B publication Critical patent/CN109948428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向传感信息处理的GPU集群深度学习边缘计算系统,运用前端智能传感设备的弱小的计算能力对传感信息预特征提取,使得原始数据信息量大大压缩,再将剩余处理任务交给GPU集群进行大规模传感数据特征聚类集合处理,通过任务拆分处理可以动态地适应前端智能传感设备的计算能力,减轻前端传感设备和硬件版本一致性要求的成本压力;降低边缘计算网络的通信压力,使得构建边缘计算的网络成本大大降低;网路数据特征传输隐藏了用户隐私;网络中传输的数据和存储的数据核心特征,通过聚类操作,发挥了GPU的SPMD优势,提高了边缘计算的并行计算效率,同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。

Description

面向传感信息处理的GPU集群深度学习边缘计算系统
技术领域
本发明涉及一种计算机技术,特别涉及一种面向传感信息处理的GPU集群深度学习边缘计算系统。
背景技术
随着物联网技术和人工智能技术的飞速发展,相应的复合应用已经在各个领域展开,特别是基于视频的实时分析技术应用已经成为热点。例如,大规模视频监控用于公交系统拥挤度实时分析、居家养老用于大社区范围的养老照护、工业自动化分拣应用等。对于这些基于视频传感的大规模应用面临诸多问题需要解决:1)传感信息的实时处理对前端传感设备的成本提出了挑战;2)视频数据的实时传输对通讯网络产生了压力;3)视频数据的存储和传输对隐私保护问题带来了应用难点(如居家养老照护隐私问题)。这些都为边缘计算技术的应用带来了机会。其关键是构建高性能价格比的边缘计算架构、模型和应用支撑模式。以小型GPU集群为中心的边缘计算模式可以有效解决局部大规模传感的汇集、传输、计算和存储的综合高性价比系统。
发明内容
本发明是针对大规模物联网传感信息对物联网络和服务器系统压力日益增大的问题,提出了一种面向传感信息处理的GPU集群深度学习边缘计算系统,通过弹性协同机制,利用前端智能传感设备的预处理和初始特征提取,把数千个传感数据特征传输到GPU集群边缘计算中心按照SPMD(单程序多数据并行)模式统一并行实时处理。
本发明的技术方案为:一种面向传感信息处理的GPU集群深度学习边缘计算系统,对前端智能传感系统中传感数据进行实时处理,包括DL训练系统、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区和全局资源目录库;各个应用领域对应的样本数据集送入DL训练系统进行模型训练,每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型,DL训练系统生成所有模型送全局资源目录库和DL任务拆分计算与部署系统;DL任务拆分计算与部署系统从全局资源目录库读取前端智能传感系统传感数据,部署在前端智能传感系统中,并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例,智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作,把得到的处理中间结果传输至汇集系统,汇集系统将前端智能传感系统处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区,任务调度系统根据聚类缓冲区的中间结果进行聚类,任务调度系统按照该聚类计算批任务所需要的计算资源,寻找适当的GPU集群服务计算系统,并发送该聚类批任务到选定的GPU集群服务计算系统,GPU集群服务计算系统配置相应的服务器端DL模型,完成前端智能传感系统的传感数据剩余比例处理任务,GPU集群服务计算系统把完成的最终结果送入结果缓冲区。
所述DL任务拆分计算与部署系统根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α,然后对百分比b=1-α的计算工作部分安排相应的GPU集群服务计算系统进行执行。
所述面向传感信息处理的GPU集群协同深度学习边缘计算系统运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算系统动态任务分配表;
1)智能传感器任务部署表定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的轻量DL模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,α,Tcap构成定义,该子表的每一行记载一个轻量DL模型,LDLMT的no为该轻量DL模型的序号,LDLM为轻量DL模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期,IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作;
2)聚类任务表定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为服务器端DL模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作;
3)GPU集群服务计算系统动态任务分配表定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为服务器端DL模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,GPU集群服务计算系统需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作。
本发明的有益效果在于:本发明面向传感信息处理的GPU集群深度学习边缘计算系统,1)运用前端智能传感设备的弱小的计算能力对传感信息进行预特征提取,可以根据前端智能传感设备的计算能力动态地量力而行地分配计算任务,减轻了前端传感设备的成本压力以及硬件版本一致要求的成本压力(不同时期的不同计算能力的前端设备可以一同使用,延长设备的寿命,降低了陈本,可以大规模普及应用);2)通过前端智能传感设备的预处理使得原始传感数据(如图像)的信息量大大压缩(仅仅获取传感数据的核心特征),降低了边缘计算网络(往往是无线网络、窄带物联网)的通信压力,使得构建边缘计算的网络成本大大降低;3)过前端智能传感设备的预处理使得原始传感数据的敏感部分被模糊淡化(图像的原始面貌发生了特征变换),使得边缘计算网络中传输的数据和存储的数据聚焦数据核心特征,更容易被隐私敏感的用户接受应用,拓展了物联网应用普及的范围;4)汇集到GPU集群的大规模传感数据特征集合通过聚类划分来驱动GPU的SPMD计算机制,使得边缘计算的并行计算效率得到了提高,同时GPU集群的大规模并行计算能力以及低成本高可靠性的优势得以有效发挥。
附图说明
图1为本发明面向传感信息处理的GPU集群深度学习边缘计算系统结构示意图。
具体实施方式
一、面向传感信息处理的GPU集群协同深度学习(Deep Learning-DL)边缘计算系统结构组成:
1、如图1所示GPU集群协同深度学习边缘计算系统结构示意图,面向大规模物联信息智能处理的GPU集群协同DL边缘计算系统(DLECG)包括:DL训练系统、轻型DL模型集合、服务端DL模型集合、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区、全局资源目录库。
2、DL训练系统(DLTS)由若干个DL训练模型DLTM构成,DLTS有自己的标识符ID。每个DLTM可以定义为一个四元组DLTM,包括DLMS,DLMSSD,LDLM和SDLM;其中DLMS为DLTM所采用的DL开发工具(例如Tensorflow,Keras等);DLMSSD为应用领域对应的训练数据集;LDLM为基于DLMS(如Tensorflow的轻量化版本Tensorflow Lite),利用DLMSSD训练出的DLTS所对应的领域应用轻量DL模型,此轻量DL模型是可以运行在移动设备芯片(如ARM)上的应用模型(例如应用Tensorflow Lite训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等);SDLM为基于DLMS,利用DLMSSD训练出的DLTS所对应的领域应用服务器端DL模型,此服务端DL模型是可以运行在服务器芯片(如多核CPU、GPU集群等)上的应用模型(例如应用Tensorflow训练的人脸识别、公交车乘客拥堵检测、基于视频的道路拥堵分析等)。
3、轻型DL模型集合由DL训练系统(DLTS)生成的所有轻量DL模型构成,可以表示为LDLM1,LDLM2,……,LDLMn,n为领域应用个数。
4、服务端DL模型集合由DL训练系统(DLTS)生成的所有服务端DL模型构成,可以表示为SDLM1,SDLM2,……,SDLMn,n为领域应用个数。为了简述,LDLMi和SDLMi(1≤i≤n)为一个应用模型对,即他们分别对应第i个领域应用的运行在移动设备和服务端设备上的DL模型。
5、前端智能传感系统由若干个智能传感器IS构成,每个智能传感器IS由ID,Cpower,Func,Bnet,Dinput,DT,Tcap构成定义,其中ID为IS的标识符,Cpower为IS的计算能力,Func为IS的功能描述,Bnet为IS的通信能力,Dinput为IS采集数据,DT为执行Func来计算Dinput所需要的总计算能力(总计算工作量),Tcap为IS的传感数据的计算周期间隔。
6、GPU集群服务计算系统由若干个GPU服务器构成,称为GPUS,GPUS由ID,Cowper,Func,Rpower,Kernel,Tcap构成定义,其中ID为GPUS的标识符,Cpower为其计算能力,Func为其功能描述,Bpower为其聚类数据处理能力,Dinput为其聚类数据集合,Tcap为其聚类数据计算周期间隔。
7、DL任务拆分计算与部署系统根据智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出IS的Func所对应的轻量DL模型LDLM能够完成处理Dinput的计算工作的百分比α,然后对百分比b=1-α的Dinput部分安排相应的GPUS服务器进行执行,数对(α,b)为DL任务拆分计算与部署系统对IS的LDLM模型计算量进行了划分。在实际工作中,如深度学习模型中,α可以为IS完成的神经网络分层数,b为GPUS完成的神经网络分层数,也就是说IS和GPUS共同完成对Dinput的α+b层神经网络计算。
8、全局资源目录库用于存放系统的传感器资源、DL模型资源、GPUS计算资源、任务拆分与部署信息、聚类数据信息等。
9、汇集系统通过物联网通信网络(如WIFI、4G、ZIGBEE、LORA等)汇集来自前端智能传感器系统并发传来的轻型DL模型所计算的中间结果(仅仅完成IS计算,也就是DT的百分之α);并按照轻型DL模型集合LDLM1,LDLM2,……,LDLMn进行聚类,即使用了同一领域应用轻型DL模型LDLM且前端计算百分比相同的中间结果聚为一类,放置到聚类缓冲区。
10、任务调度系统根据聚类缓冲区的中间结果得到聚类数据GC,按照GC完成后续DL模型计算任务所需要的计算资源,寻找适当的GPUS并配置相应的SDLM,驱动它们完成GC的后百分之b的计算工作。GPU集群服务计算系统把完成的最终结果送入结果缓冲区。
二、系统运行数据结构
1、智能传感器任务部署表
智能传感器任务部署表可以定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的LDLM模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,a,Tcap构成定义,该子表的每一行记载一个LDLM,LDLMT的no为该LDLM的序号,LDLM为模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期(IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作)。
2、聚类任务表
聚类任务表可以定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期(需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)
3、GPUS动态任务分配表
GPUS动态任务分配表可以定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期(GPUS需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作)
三、算法
1、DL训练系统工作过程:
设有p个应用领域,分别为D1,D2,….,Dp,它们对应的样本数据集为DLMSSD1,DLMSSD2,…..,DLMSSDp,它们实施的DL计算任务分别为DT1,DT2,….,DTp。每个DTi(1≤i≤p)有多个子任务构成,例如在深度学习网络中可以定义为卷积、池化等一系列子任务。
对每个应用领域Di(1≤i≤p)进行模型训练,DL训练系统做如下工作:
{
为Di确定一个DL开发工具DLMS(例如Tensorflow,Keras等)
对于一个训练任务DTi,利用某一DL开发工具DLMS,对样本数据集DLMSSDi进行计算训练(训练过程可参考具体的工具手册),得到一个训练模型DLTMi(IDi,DLMSi,DLMSSDi,LDLMi,SDLMi,DTi,Dui);
};
完成所有训练任务,输出p个训练模型DLTM1,DLTM2,……,DLTMp和SLTM1,SLTM2,……,SLTMp到全局资源目录库。这里我们对每个应用领域Di(1<=i<=p)对应都得到2个模型,一个可以运行在智能传感器上的轻型DL模型LDLMi,另一个是运行在GPU服务器上的服务端DL模型SDLMi
2、DL任务拆分计算与部署系统过程如下:
读取全局资源目录库,获取前端传感器系统内的q个智能传感器ISj(ID,Cpower,Func,Bnet,Dinput,Dt,Tcap)(1≤j≤q);获取p个应用领域的训练模型DLTM1,DLTM2,……,DLTMp
对每个智能传感器ISj(1≤j≤q),做如下工作:
{为ISj生成一个标识符ISid,置计数器num=1;
在智能传感器任务部署表ISTA中增加一个行复合对象OTMP(ISid,num,LDLMT(NULL)),其中NULL表示子表为空;
对ISj对应的每个应用领域训练模型DLTMi(1≤i≤p),做如下工作:
{获取模型DLTMi的处理数据单元规范Dui和ISj单位计算任务量DTj
设对Dui执行任务DTj的百分之α后产生的中间结果为Mm;采用如下约束来确定比例α的值:(1)α*DTj≤ISj.Cpower;(2)Mm的数据规模≤ISj.Bnet;(3)α*DTj的运行时间+传输Mm通讯时间≤DLTMi.Tcap,从约束条件计算出拆分任务DTj中ISj传感器计算工作量为α*DTj;其中*为乘法运算;
把行复合对象OTMP(ISid,num,LDLMT())增加一个字表行LDLMT(DLTMi.TDi,DLTMi.LDLM,Dui,DTj,α,DLTMi.Tcap),并且num++;
}
用num值更新行复合对象OTMP(ISid,num,LDLMT())的num属性;
}
3、前端传感器系统工作过程如下:
对前端传感器系统中的每个智能传感器ISj(1≤j≤q),并发地如下工作:
{获取工作任务标志Tflag;(选择当前传感器的领域应用模型)
读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,DLTMi.LDLM,DTj,α,Tcap);
装载ISconfig.Func功能函数库;根据α*DT的值拆分功能函数库Func为subFunc;
智能传感器ISj周而复始地做如下工作:
{启动计时器tt=0且tt<Tcap时,做:
{从传感器端口读取传感数据Dinput;
对Dinput执行DLTMi.LDLM的subFunc过程并输出中间结果Mm;
传输通讯数据包TP(ISj.ISid,Tflag,Mm)到汇集系统;
}
}//传感器ISj工作
}//q个传感器并发工作。
4、汇集系统工作过程如下:
周而复始地做如下工作:
{读取网络数据接受端口,并发地获取来自前端传感器系统的通讯数据包TP(ISj,Tflag,Mm)(1≤j≤q);
读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,LDLM,DTj,α,Tcap);根据LDLM获取对应的SDLM;计算服务器端计算任务后百分比b=1-α;
查询聚类缓冲区,根据Func、SDLM、b、Tcap计算通讯数据包TP归属的类别GCid,并把TP存入GCT(GCid,GCdata,SDLM,b,Tcap)的GCdata;
}
5、任务调度系统过程:
周而复始地做如下工作:
{查询聚类缓冲区,如果有一个准备好的聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)则做如下工作:
{TotalTask=0;
扫描聚类任务GCT的GCdata,对GCdata的每个数据包TP(ISj,Tflag,Mm),做如下工作:
{读取全局资源目录库,获取智能传感器ISj的智能传感器任务部署行复合对象OTMP(ISj.ISid,num,LDLMT()),根据Tflag查询子表LDLMT(),得到ISj的当前工作配置状态ISconfig(ID,Cpower,Func,Bnet,Dinput,LDLM,DTj,α,Tcap);
TotalTask=TotalTask+(DT*1-α));
}
向GPU集群服务计算系统提交资源申请向量(TotalTask,b,Tcap),要求其在Tcap的时间内完成SDLM模型的Func功能的DT*b计算工作量;
在得到GPU集群服务计算系统确认恢复后,把聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)和资源申请向量(TotalTask,b,Tcap)提交给GPU集群服务计算系统并行执行该聚类任务;
}
6、GPU集群服务计算系统过程如下:
从任务调度系统获取聚类任务GCT(GCid,GCdata,SDLM,b,Tcap)和资源申请向量(TotalTask,b,Tcap);
读取每个GPU服务器GPUS(ID,Cowper,Func,Rpower,Kernel,Tcap)的状态信息,确定能够在Tcap时间内完成TotalTask任务的服务器子集合SUBCPUS={GPUS1,GPUS2,….,GPUSr};
把聚类任务GCT的GCdata中的所有中间结果数据Mm变换为SPMD计算模式数据(具体参见GPU编程模型CUDA),并驱动SUBCPUS所有服务器完成执行具有Func功能的KenerlSPMD计算;SUBCPUS把计算最终结果存入结果缓冲区。

Claims (3)

1.一种面向传感信息处理的GPU集群深度学习边缘计算系统,对前端智能传感系统中传感数据进行实时处理,其特征在于,包括DL训练系统、DL任务拆分计算与部署系统、前端智能传感系统、汇集系统、任务调度系统、聚类缓冲区、GPU集群服务计算系统、结果缓冲区和全局资源目录库;各个应用领域对应的样本数据集送入DL训练系统进行模型训练,每个应用领域对应训练输出运行在移动设备的轻量DL模型和运行在服务端设备上的服务器端DL模型,DL训练系统生成所有模型送全局资源目录库和DL任务拆分计算与部署系统;DL任务拆分计算与部署系统从全局资源目录库读取前端智能传感系统传感数据,部署在前端智能传感系统中,并根据智能传感设备的计算能力和通信能力约束条件计算得到所适用的轻量DL模型和服务器端DL模型处理工作比例,智能传感设备周期地对传感数据完成轻量DL模型相应比例的预处理工作,把得到的处理中间结果传输至汇集系统,汇集系统将前端智能传感系统处理的中间结果以及DL任务拆分工作的服务器工作比例送聚类缓冲区,任务调度系统根据聚类缓冲区的中间结果进行聚类,任务调度系统按照该聚类计算批任务所需要的计算资源,寻找适当的GPU集群服务计算系统,并发送该聚类批任务到选定的GPU集群服务计算系统,GPU集群服务计算系统配置相应的服务器端DL模型,完成前端智能传感系统的传感数据剩余比例处理任务,GPU集群服务计算系统把完成的最终结果送入结果缓冲区。
2.根据权利要求1所述面向传感信息处理的GPU集群深度学习边缘计算系统,其特征在于,所述DL任务拆分计算与部署系统根据每个智能传感器IS的计算能力Cpower、计算周期间隔Tcap、通信能力Bnet为约束,计算出每个智能传感器IS的功能所对应的轻量DL模型能够完成处理的计算工作的百分比α,然后对百分比b=1-α的计算工作部分安排相应的GPU集群服务计算系统进行执行。
3.根据权利要求2所述面向传感信息处理的GPU集群深度学习边缘计算系统,其特征在于,所述面向传感信息处理的GPU集群协同深度学习边缘计算系统运行数据结构包括智能传感器任务部署表、聚类任务表和GPU集群服务计算系统动态任务分配表;
1)智能传感器任务部署表定义为复合对象ISTA,ISTA由ISid,num,LDLMT构成定义,其中ISid为IS的标识符ID,num为该ISTA上可以运行的轻量DL模型的数目;LDLMT为子表,LDLMT由no,LDLM,Du,Dt,α,Tcap构成定义,该子表的每一行记载一个轻量DL模型,LDLMT的no为该轻量DL模型的序号,LDLM为轻量DL模型,Du为该模型的输入数据单元,Dt计算Du所需要的计算资源量,α为该模型对Du执行LDLM计算任务量的百分比,Tcap为Du出现的周期,IS需要在Tcap时间内完成Du的LDLM任务的百分之α计算工作;
2)聚类任务表定义为GCT,GCT由GCid,GCdata,SDLM,b,Tcap构成定义,其中GCid该聚类任务标识符,GCdata为该聚类任务数据集,SDLM为服务器端DL模型,b为该任务对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作;
3)GPU集群服务计算系统动态任务分配表定义为GPUTA,GPUTA由sno,Stime,GPUSid,GCid,GCdata,SDLM,b,Tcap构成定义,其中表的每一行为一个GPU计算任务,sno为该任务的序号,Stime为任务起始执行时刻,GPUSid为被分配GPU服务器的标识符,GCid为本次任务绑定所执行的聚类任务标识符,GCdata为本次任务绑定所执行的聚类任务数据集,SDLM为服务器端DL模型,b为该模型对GCdata执行SDLM计算任务量的百分比,Tcap为GCdata出现的周期,GPU集群服务计算系统需要在Tcap时间内完成GCdata的SDLM任务的百分之b计算工作。
CN201910080007.1A 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算系统 Active CN109948428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910080007.1A CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910080007.1A CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算系统

Publications (2)

Publication Number Publication Date
CN109948428A true CN109948428A (zh) 2019-06-28
CN109948428B CN109948428B (zh) 2022-12-09

Family

ID=67007835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910080007.1A Active CN109948428B (zh) 2019-01-28 2019-01-28 面向传感信息处理的gpu集群深度学习边缘计算系统

Country Status (1)

Country Link
CN (1) CN109948428B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160321A (zh) * 2020-02-10 2020-05-15 杭州大数云智科技有限公司 一种电瓶车上梯检测与预警系统
CN111245664A (zh) * 2020-03-23 2020-06-05 上海理工大学 面向大规模数据流处理的gpu边缘计算集群通信系统
CN111400048A (zh) * 2020-03-23 2020-07-10 上海理工大学 面向大规模ai数据流处理的集群汇集通信系统
CN113642275A (zh) * 2020-05-11 2021-11-12 阿特里斯公司 用于无死锁变换的片上网络的综合的系统和方法
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构系统
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理系统及方法
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器
US20180373540A1 (en) * 2017-06-21 2018-12-27 International Business Machines Corporation Cluster graphical processing unit (gpu) resource sharing efficiency by directed acyclic graph (dag) generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227669A (zh) * 2015-10-15 2016-01-06 浪潮(北京)电子信息产业有限公司 一种面向深度学习的cpu与gpu混合的集群架构系统
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理系统及方法
US20180373540A1 (en) * 2017-06-21 2018-12-27 International Business Machines Corporation Cluster graphical processing unit (gpu) resource sharing efficiency by directed acyclic graph (dag) generation
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11983630B2 (en) 2018-09-03 2024-05-14 Tesla, Inc. Neural networks for embedded devices
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11908171B2 (en) 2018-12-04 2024-02-20 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
CN111160321A (zh) * 2020-02-10 2020-05-15 杭州大数云智科技有限公司 一种电瓶车上梯检测与预警系统
CN111245664B (zh) * 2020-03-23 2022-12-09 上海理工大学 面向大规模数据流处理的gpu边缘计算集群通信系统
CN111400048B (zh) * 2020-03-23 2022-06-07 上海理工大学 面向大规模ai数据流处理的集群汇集通信系统
CN111400048A (zh) * 2020-03-23 2020-07-10 上海理工大学 面向大规模ai数据流处理的集群汇集通信系统
CN111245664A (zh) * 2020-03-23 2020-06-05 上海理工大学 面向大规模数据流处理的gpu边缘计算集群通信系统
CN113642275A (zh) * 2020-05-11 2021-11-12 阿特里斯公司 用于无死锁变换的片上网络的综合的系统和方法

Also Published As

Publication number Publication date
CN109948428B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN109948428A (zh) 面向传感信息处理的gpu集群深度学习边缘计算系统
Syeda et al. Parallel granular neural networks for fast credit card fraud detection
CN104899561A (zh) 一种并行化的人体行为识别方法
CN102541858B (zh) 基于映射和规约的数据均衡性处理方法、装置及系统
KR102236302B1 (ko) 빅데이터 기반의 인공지능 통합 플랫폼 서비스 방법
CN101436959A (zh) 基于后台管控架构的并行仿真任务分发与调度方法
Zhou et al. Privacy regulation aware process mapping in geo-distributed cloud data centers
TW201717066A (zh) 叢集運算架構的資源規劃方法、系統及裝置
CN103116525A (zh) 一种Internet环境下MapReduce计算方法
WO2013036824A2 (en) Parallel processing development environment extensions
Misale et al. A comparison of big data frameworks on a layered dataflow model
CN111783966A (zh) 一种深度卷积神经网络硬件并行加速器的硬件装置及方法
CN107046557A (zh) 移动云计算环境下动态Skyline查询的智能医疗呼叫查询系统
CN107807983A (zh) 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN102289491B (zh) 基于模糊规则推理的并行应用性能脆弱点分析方法
CN103106261B (zh) 基于窄带云数据服务的分布式查询方法
Li et al. Breaking (global) barriers in parallel stochastic optimization with wait-avoiding group averaging
CN103455364B (zh) 一种多核环境并行程序Cache性能在线获取系统及方法
CN102932847A (zh) 基于稀疏表示分类器的分布式压缩感知数据分类方法
Gu et al. Deadline-aware complex event processing models over distributed monitoring streams
Wilmarth Pose: Scalable general-purpose parallel discrete event simulation
CN106575241A (zh) 移动和远程运行时集成
Senger et al. An On‐Line Approach for Classifying and Extracting Application Behavior on Linux
Spieck et al. Domain-adaptive soft real-time hybrid application mapping for MPSoCs
Hernández et al. A Simulation-based Scheduling Strategy for Scientific Workflows.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant