CN111245664B

CN111245664B - 面向大规模数据流处理的gpu边缘计算集群通信系统

Info

Publication number: CN111245664B
Application number: CN202010207624.6A
Authority: CN
Inventors: 陈庆奎; 陈上也
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-12-09
Anticipated expiration: 2040-03-23
Also published as: CN111245664A

Abstract

本发明涉及一种面向大规模数据流处理的GPU边缘计算集群通信系统，针对边缘计算数据流的周期处理特性，在传感节点、汇集节点、GPU计算节点按照同一处理周期配置通讯包，形成数据流链路；通过成千上万个数据流链路实现了单一数据流、并发数据流的通信。运用节点、数据流配置机制，只需按照功能类别和流的名字编写通信应用，降低了应用的复杂度，支持大规模流应用的普及展开；采用组确认机制，提高了并行通信的效率，更适合大规模扩展；采用动态配置以及流路由机制，通过重传率驱动负载均衡，可灵活配置传感节点、汇集节点、GPU计算节点的网络结构；在单一资源失效的情况下，灵活地隔离或增加节点资源，达到容错效果，提高了系统的可用性。

Description

面向大规模数据流处理的GPU边缘计算集群通信系统

技术领域

本发明涉及一种数据传输技术，特别涉及一种面向大规模数据流处理的GPU边缘计算集群通信系统。

背景技术

随着物联网技术和人工智能技术的飞速发展，相应的复合应用已经在各个领域展开，特别是基于视频和传感数据流的实时分析技术应用已经成为热点。例如，大规模视频监控用于公交系统拥挤度实时分析、用于大社区范围的养老照护、工业自动化分拣应用等。对于这些基于传感的大规模应用面临诸多问题需要解决：1)传感信息的实时处理对前端传感设备的成本提出了挑战；2)视频数据的实时传输对通讯网络产生了压力；3)视频数据的存储和传输对隐私保护问题带来了应用难点(如居家养老照护隐私问题)。这些都为边缘计算技术的应用带来了机会。其关键是构建高性能价格比的边缘计算架构、模型和应用支撑模式。以小型GPU集群为中心的边缘计算模式可以有效解决局部大规模传感的汇集、传输、计算和存储的综合高性价比系统。然而面对数千个数据流的接入、集群内传输以及通信的可靠性问题都为业界带来了新的挑战，目前的相近的通信系统存在以下问题：1)大规模AI流都存在并发周期性，也就是说，数千个流按照一定的周期传输数据流单元，GPU集群按照这个周期并行处理数千个数据流单元，这样可以有效发挥GPU及GPU集群的SPMD(SingleProgram Multi Data)的设备优势特性。然而，支持这种通信特性需求的系统还没见报导。2)外网传感节点通过流汇集节点把信息传入GPU计算集群，GPU计算集群内的节点也需要通过汇集节点传输信息到外部传感节点，增加了应用设计的复杂性。3)现有系统基于连接的的可靠数据流通信机制，限制了系统接入和并发处理数据流的规模，同时不具备灵活的迁移性，使得负载均衡的开销增大以及灵活性降低，不适合大规模的处理机制的扩展。

发明内容

本发明是针对大规模AI流通信效率和可靠性的问题，提出了一种面向大规模数据流处理的GPU边缘计算集群通信系统，面对大规模AI流，其通过动态配置节点、流路由机制，利用前端智能传感设备固有的周期地获取数据、传输数据的特点，把数千个传感特征并发传输到汇集集群节点，再根据GPU计算节点的计算任务和计算能力的特性，把这些并发的数据流单元，传输到GPU集群中的计算节点按照SPMD模式统一并行实时处理。

本发明的技术方案为：一种面向大规模数据流处理的GPU边缘计算集群通信系统，

包括传感节点、汇集节点、GPU计算节点；系统结构如下：

传感节点是系统的末端节点，其收集其传感数据并以数据流的形式发送到汇集节点，同时可以接受来自汇集节点、或来自计算节点的控制命令；

汇集节点收集来自多个不同传感节点的数据流，并按照数据流单元的处理周期聚类形成并发数据流发送到计算节点；另一方面，通过并发数据流双向传递传感节点与计算节点间的控制命令；

计算节点收集来自多个汇集节点的并发数据流的当前数据流单元，形成当前SPMD处理单元，并送往GPU实施大规模并行处理；计算节点以并发数据流的形式在计算节点间传递数据，同时通过逆向并发数据流向传感节点和汇集节点传输控制命令；

传感节点、汇集节点、计算节点之间构建数据流链路，数据流链路是基于通信包CP构建的；一个通信包CP包括CPid，SP，RP，PTi，STable，RTable，STL，RTnum，其中CPid为通信包标识符，SP为发送线程，RP为接受线程，SP和RP都是通过调用底层通信原语来实现最终通信；PTi为该通信包的处理周期；STable为数据流单元发送表；RTable为数据流单元接收表；STL为数据流单元发送确认循环二维表；RTnum为重传次数计算器；在一个节点上有多个通信包CP参与多个处理周期的数据流链路；

STable为二维表，二维表的每一行为一个数据流单元的发送临时缓冲区，STable包括Intime，CP，DSU，SNDst，rs，其中Intime属性为该数据流单元转发到来或从应用到来的时间戳；DSU属性存放该数据流单元；CP为发送目标通信包；SNDst为该数据流单元的发送状态，0表示还未发送，1表示已发送但还未收到确认回答，2表示已发送并且得到接收端的确认；rs为该数据流单元成功发送的可信率，其是数据流单元被重复发送的次数的函数；

STL为二维表，二维表的每一行为一个数据流单元的发送临时缓冲区，STL包括Stime，CP，DSU，SNDst，Snum，其中Stime属性为该数据流单元被SP第一次发送的时间戳；CP为发送目标通信包；DSU属性存放该数据流单元；SNDst为该数据流单元的发送状态，0表示还未发送，1表示已发送但还未收到确认回答，2表示已发送并且得到接收端的确认；Snum为重复发送计数器，SP每发送一次该数据流单元，则该数据流单元的Snum加1；

RTable为二维表，二维表的每一行为一个数据流单元的接收临时缓冲区，Rtable包括Rtime，CP，DSU，type，RStime，其中Rtime属性为该数据流接收到时刻的时间戳；CP为数据源通信包；DSU属性存放该数据流单元；type为该数据流单元的发送状态，0表示正常数据流，1表示确认回答命令包；当type＝1时，说明该确认命令是对STL中命令STL.Stime＝RStime确认。

所述面向大规模数据流处理的GPU边缘计算集群通信系统，系统数据结构包括数据流、数据流单元、处理周期生成器、并发数据流、节点地址配置表、流配置表、并发流配置表、数据流链路和全局配置目录；

1)数据流为DS，包括DSid,DSUS,Pt，DSbw,其中DSid为数据流标识符；DSUS为构成该数据流的数据流单元的集合，其按照时间形成序列；Pt为该数据流的数据流单元处理的时间，包括感知、汇集、计算处理，即该数据流单元必须在Pt内处理完毕；DSbw为数据流需要的通信带宽；

2)数据流单元为DSU，包括DSid，Timestamp，Data，DSUsta，DSUdirect，其中DSid为该单元所隶属的数据流标识符；TimeStamp为该数据流的生存时间戳；Data为数据流单元的数据部分，Data可是某通信协议下的数据、控制命令；DSUsta为该数据单元的状态，当DSUsta为0时，表示该DSU为空，即数据流DSid的该Timestamp周期没有数据，是空单元；DSUdirect为数据流方向，当DSUdirect＝0表示从传感节点到计算节点，当DSUdirect＝1表示从计算节点到传感节点；

3)处理周期生成器为PCM，包括PCid，PCtime，DSid，其中PCid为处理周期id，PCtime为该处理周期所用的时间，DSid为与该PCid所对应的数据流的标识符；即数据流DSid的数据流单元需要在PCtime时间内处理完成，与DSU的Pt所对应；

4)并发数据流为PDS，是同一汇集节点汇集到的相同处理周期的数据流的集合，这个汇集节点可以是针对大规模传感节点的汇集节点，也可以是嵌套在计算节点上的汇集来自多个汇集节点的PDS进而形成更大规模的PDS；PDS包括PDSid，DSS，CN，Pnum，Pctime，其中PDSid为PDS的标识符；DSS为构成该PDS的数据流；CN为汇集该PDS的汇集节点；Pnum为组成该PDS的数据流的个数；PCtime为该并发数据流的数据流单元处理周期，即PDS上的所有数据流的当前处理周期的Pnum个DSU以SPMD处理方式提交给GPU节点并行处理；

5)节点地址配置表为NAC，包括id，Nname，IPa，Type，Pcp，Psuc，其中id为节点标识符；Nname为节点名称；IPa为节点的IP地址；Type为节点的类型，Type为0表示该节点为传感节点，Type为1表示该节点为汇集节点，Type为2表示该节点为计算节点，计算节点为配置GPU的计算机；Pcp为该节点的通信处理能力；Psuc为该节点通信处理成功累计平均率；

6)流配置表为DSC，包括DSid，SNid，DNid，dsr，其中DSid为数据流标识符，来自数据流表；SNid为该数据流的源节点，来自节点地址配置表；DNid为该数据流的目标节点，来自节点地址配置表；dsr为该数据流的数据流量值；

7)并发流配置表为PDSC，用来标志并发数据流在汇集节点与计算节点之间、计算节点与计算节点之间并行通信的路由结构；包括PDSid，SNid，DNid，DSS，dsr，其中PDSid为该并发数据流标识符，来自并发数据流表；PSNid为该并发数据流的源节点，来自节点地址配置表；PDNid为该并发数据流的目标节点，来自节点地址配置表；DSS为该并发数据流所包含的数据流的集合；dsr为该数据流的数据流量值；

8)数据流链路为DSL，包括DSLid，DSLNS，Pt，其中DSLid为链路标识符，DSLNS为链路节点的集合，每个链路节点DSLN包括CN和CPid，其中CN为节点名称，CPid为通信包标识符；链路节点取值于流配置表DSC或者并发流配置表PDSC，并且每个数据流链路必须包括传感节点、汇集节点和计算节点；Pt为这个链路的处理周期；

9)全局配置目录存放数据流表、数据流单元定义、处理周期管理器表、并发数据流表、节点地址配置表、流配置表、并发流配置表、数据流链路表、通信包集合、时钟集合。

所述传感节点处理：每个传感节点对应的数据流地址与数据流标识符绑定发送给全局目录系统；每个汇集节点把自己的地址与通讯支持能力发送给全局目录系统；每个计算节点把自己的地址、通讯支持能力、计算能力发送给全局目录系统；根据所有传感节点的数据流标识符得到的数据流需要的通信带宽和所有汇集节点的通讯支持能力，运用通信负载均衡原理，均匀地把每个传感节点所对应的数据流按组聚集分配给汇集节点，并将这些配置信息存入全局目录系统中的流配置表中。

所述汇集节点处理：根据所有汇集节点的汇集并发数据流的总通信带宽需求和所有计算节点的通讯支持能力、计算能力运用通信和计算负载均衡原理，均匀地把每个并发数据流建立与计算节点汇集节点之间的对应关系，并将这些配置信息存入全局目录系统中的并发流配置表中；每个汇集节点和计算节点从全局目录系统中获取流配置表和并发流配置表获取信息，并按照每个数据流的处理时间进行聚类，即相同处理时间的数据流划分为并发数据流，重新配置并发数据流，把重新划分的并发数据流发往全局目录系统并更新并发数据流配置表。

所述传感、汇集、计算节点从全局目录获取流配置表和并发流配置表，扫描自己的流配置表的每个数据流，获得不同的数据流的DSU处理的时间Pt集合{Pt1,Pt2,……,Ptw},并且向处理周期生成器获取w个时钟TPt1,TPt2,……,TPtw，并与相应的数据流同步绑定；

传感、汇集、计算节点获取时钟TPt1,TPt2,……,TPtw，创建一个通信包CP；并把时钟TPt1,TPt2,……,TPtw和通信包CP1，CP2，……，CPw发往全局目录系统，并存储。

所述全局配置目录扫描数据流表DS,对每个数据流进行如下处理：

首先、根据DS寻找与之绑定的传感节点SN；根据DS.pt查询配置在SN上的通信包集合并得到一个与之对应的通信包CP，CP.PTi＝DS.pt；

初始化生成一个数据流链路DSL，DSLid自动生成，DSL.Pt＝DS.pt；用CN和CP.CPi构建一个链路节点DSLN(CN，CP.CPi)，并且执行DSL.DSLNS＝DSL.DSLNS+DSLN(CN，CP.CPi)；

用传感节点SN查找流配置表DSC,直到找到SN.id＝DSC.SNid的表行DSCl(DSidl，SNidl，DNidl，dsrl)；

然后、重复地用DSCl.DNidl查询并发流配置表PDSC并做如下重复处理：

用DSCl.DNidl查找并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr),直到找到DSCl.DNidl＝PDSC.SNid的表行PDSCL(PDSidl，SNidl，DNidl，DSS，dsrl)；根据DS.pt查询配置在PDSCL.SNid上的通信包集合并得到一个与之对应的通信包CPc，CPc.PTi＝DS.pt；用PDSCL.SNid和CPc构建一个链路节点DSLN(PDSCL.SNid，CPc)；如果DSLN在DSL.DSLNS中不存在，则执行DSL.DSLNS＝DSL.DSLNS+DSLN(PDSCL.SNid，CPc)；

根据DS.pt查询配置在PDSCL.DNid上的通信包集合并得到一个与之对应的通信包CPg，这里由CPg.PTi＝DS.pt；用PDSCL.DNid和CPg构建一个链路节点DSLN(PDSCL.DNid，CPg)，并且执行DSL.DSLNS＝DSL.DSLNS+DSLN(PDSCL.DNid，CPg)；

重复处理，直到所有数据流均被配置。

所述通信包CP的SP进程如下：

CP获取自己所在的数据链路DSL(DSLid，DSLNS，Pt)；

扫描本地应用端口，如果有发送数据DSU包，则：CP判别自己所处的节点位置；A、如果CP的SP所在节点为传感节点，则：

{获取相应数据链路DSL的第二个链路节点DLSN[2].Cp通信包作为通信目标包；从本地CP的STable读取DSU，获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DLSN[2].Cp，DSU，SNDst，Snum)，把(Stime，DLSN[2].Cp，DSU)交给S进程发送；

启动计时器tt，等待对(Stime，DLSN[2].Cp，DSU)的确认回答：

{如果在回答确认时间区间Apt内未收到确认回答，则重新提交(Stime，DLSN[2].Cp，DSU)给S进程发送并且置Snum++；如果tt>Stime+CP.pt,并且还没收到回答确认，则通知本地应用该DSU发送失败；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，则删除表行(Stime，DLSN[2].Cp，DSU，SNDst，Snum)，并通知本地应用“(Stime，DLSN[2].Cp，DSU)发送成功”}

DLSN[2].Cp.RTnum＝DLSN[2].Cp.RTnum+Snum；//重传计数器累加}；

B、如果SP所在节点为汇集节点，且DSUdirect＝0，重复读Stable取做，直到Stable为空，具体如下：

{

{从CP的STable读取DSU，获取CP的数据链路DSL的第二个链路节点DLSN[3].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DLSN[3].Cp，DSU，SNDst，Snum)，把(Stime，DLSN[3].Cp，DSU)交给S进程发送；}

启动计时器tt；

循环等待STL表内的所有DSU的确认回答，直到STL的所有回答处理结束，每个DSU的确认回答操作如下：

{对STL的每一个行STL0(Stime，DLSN[3].Cp，DSU，SNDst，Snum)；

如果在回答确认时间区间Tpt内未收到对STL0的确认回答，则重新提交(Stime，DLSN[3].Cp，DSU)给S进程发送并且置STL0.Snum++；如果tt>Stime+CP.pt,并且还没收到确认回答，则通知本地应用STL0所承载的DSU发送失败；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，并通知本地应用“STL0所承载的DSU发送成功”}//END循环等待STL

扫描STL(Stime，DSU，SNDst，Snum)的每一行，对每一行STLl做：Cp.RTnum＝Cp.RTnum+STLl.Snum；//重传计数器累加

清空STL；进入下一阶段发送；

}；

C、如果SP所在节点为汇集节点，且DSUdirect＝1:

C-1、重复读取Stable，每次读取做如下处理，直到Stable为空：

{从CP的STable读取一个DSU，根据DSU.DSid查询流配置表DSC(DSid，SNid，DNid，dsr)得到一个表行DSC0(DSid，SNid，DNid，dsr),这里有DSC0.Dsid＝DSU.DSid；

根据DSC0.SN查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SN在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.SN；

Tiqu1数据链路DSL0的第一个链路节点DSL0.DLSN[1].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DSL0.DLSN[1].Cp,DSU，SNDst，Snum)，把(Stime，DSL0.DLSN[1].Cp,DSU)交给S进程发送；

}//END发送Stable中的所有DSU；

C-2、启动计时器tt；

循环等待STL表内的所有DSU的确认回答，直到STL的所有回答处理结束，具体操作如下：

{

{对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

如果在回答确认时间区间Tpt内未收到对STL0的确认回答，则重新提交(Stime，Cp，DSU)给S进程发送并且置STL0.Snum++；如果tt>Stime+CP.pt,并且还没收到确认回答，则通知本地应用STL0所承载的DSU发送失败；

扫描STL(Stime，Cp，DSU，SNDst，Snum)的每一行，对每一行STLl做：Cp.RTnum＝Cp.RTnum+STLl.Snum；//重传计数器累加

清空STL；进入下一阶段发送；

}；

D、如果SP所在节点为计算节点，且DSUdirect＝1，计算节点发送到汇集节点：D-1、重复读取Stable，每次读取做如下处理，直到Stable为空：

{从CP的STable读取一个DSU，根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；

根据PDSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.SNid；

提取数据链路DSL0的第二个链路节点DSL0.DLSN[2].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DSL0.DLSN[2].Cp,DSU，SNDst，Snum)，把(Stime，DSL0.DLSN[2].Cp,DSU)交给S进程发送；}//END发送Stable中的所有DSU；

D-2、启动计时器tt；

{

{对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，并通知本地应用“STL0所承载的DSU发送成功”；}//END循环等待STL

清空STL；进入下一阶段发送；

}。

所述通信包CP上的RP进程和R进程如下：

Ⅰ、如果当前节点为汇集节点，则重复执行如下过程：

Ⅰ-1、启动当前时段计数器tt；

Ⅰ-2、节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；根据PDSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.Snid；进而得到该DSU的目的通信包DSLN0.Cpid；R进程把DSU发送给通信包DSLN0.CPid；

Ⅰ-3、通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；判别当前通信包DSLN0.CPid是否为并发数据流当前单元的目的节点，如果是则发送DSU到本地应用并且发送DSU确认信息给源节点；如果不是，则把DSU存放置STable中继续转发；

Ⅱ、如果当前节点为计算节点，则重复执行如下过程：

Ⅱ-1、启动当前时段计数器tt；

Ⅱ-2、节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；根据PDSC0.DNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.DNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.DNid；进而得到该DSU的目的通信包DSLN0.CPid；R进程把DSU发送给通信包DSLN0.CPid；

Ⅱ-3、通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；判别当前通信包DSLN0.CPid是否为并发数据流当前单元的目的节点，如果是则发送DSU到本地应用并且发送DSU确认信息给源节点；如果不是，则把DSU存放置STable中继续转发；

Ⅲ、如果当前节点为传感节点，则重复执行如下过程：

Ⅲ-1、启动当前时段计数器tt；

Ⅲ-2、节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询流配置表DSC(DSid，SNid，DNid，dsr)得到一个表行DSC0(DSid，SNid，DNid，dsr)，使得DSU.DSid＝DSC0.DSid中；根据DSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.Snid；进而得到该DSU的目的通信包DSLN0.CPid；R进程把DSU发送给通信包DSLN0.CPid；

Ⅲ-3、通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；发送DSU到本地应用并且发送DSU确认信息给源节点。

本发明的有益效果在于：本发明面向大规模数据流处理的GPU边缘计算集群通信系统，1)运用统一的流配置和路由机制，屏蔽了应用程序对内网节点、汇集节点、GPU计算节点、外部传感节点的物理地址信息，只需按照功能类别和流的名字编写通信应用，大大地降低了应用的复杂度，降低了应用门槛，支持大规模流应用的普及展开；2)基于不可靠的非连接的通信机制(如IP、UDP)，实现了大规模并发数据流的可靠通信，采用组确认机制，克服了基于连接的可靠通信机制(如TCP)耗费了大量通信资源，大大提高了并行通信的效率，更适合大规模扩展；3)采用动态配置以及流路由机制，通过重传率驱动负载均衡，可以灵活分配传感节点、汇集节点、GPU计算节点的网络关系和网络拓扑结构，具有灵活的适应性；4)灵活的适应性使得边缘计算环境在一些资源失效的情况下，灵活地隔离或增加节点资源，达到容错效果，提高了系统的可用性。

附图说明

图1为本发明面向大规模数据流处理的GPU边缘计算集群通信系统运行示意图；

图2为本发明由同类PTi通信包构成的一条流通信链路示意图；

图3为本发明通信包构成的流通信系统图；

图4为本发明同一节点内实现多个Pt类别应用的通信包结构示意图。

具体实施方式

现在是大数据时代，所用传感器分类很多，由电信号的，有视频信号的也有纯数字信号的再加解析码的等等。并且现传感器多配智能化，可按自己的固有周期自动采集数据，实时采集质量要求也越来越高，这样就产生大量数据，面对上述各种周期的各类数据，重新设计GPU边缘计算集群与之对应的通信系统，提高运行效率。

1、体系结构

(1)如图1所示GPU边缘计算集群通信系统运行示意图，面向大规模数据流处理的GPU边缘计算集群通信系统包括传感节点、汇集节点、GPU计算节点、全局配置目录、负载均衡系统、处理周期生成器。把数千个传感特征并发传输到汇集集群节点，再根据GPU计算节点的计算任务和计算能力的特性，把这些并发的数据流单元，传输到GPU集群中的计算节点按照SPMD模式统一并行实时处理。

(2)传感节点是系统的末端节点，其收集其传感数据并以数据流的形式发送到汇集节点，同时可以接受来自汇集节点、或来自计算节点的控制命令。

(3)汇集节点收集来自多个不同传感节点的数据流，并按照数据流单元的处理周期聚类形成并发数据流发送到计算节点；另一方面，通过并发数据流双向传递传感节点与计算节点间的控制命令。

(4)计算节点收集来自多个汇集节点的并发数据流的当前DSU(数据流单元)，形成当前SPMD处理单元，并送往GPU实施大规模并行处理。计算节点也可以以并发数据流的形式在计算节点间传递数据；同时通过逆向并发数据流向传感节点和汇集节点传输控制命令。

(5)传感节点、汇集节点、计算节点之间构建数据流链路(如图2)，这些数据流链路的是基于通信包CP构建的；一个CP可以为CP(CPid，SP，RP，PTi，STable，RTable，STL，RTnum)，其中CPid为通信包标识符，SP为发送线程，RP为接受线程，SP和RP都是通过调用底层通信原语(如UDP协议的SEND和RECEIVE)来实现最终通信；PTi为该通信包的处理周期(参见数据结构(3))；STable为数据流单元发送表；RTable为数据流单元接收表；STL为数据流单元发送确认循环二维表；RTnum为重传次数计算器。在一个节点(传感、汇集、计算)上有多个CP参与多个处理周期的数据流链路。

(6)STable为二维表STable(Intime，CP，DSU，SNDst，rs)，二维表的每一行为一个数据流单元的发送临时缓冲区，Intime属性为该数据流单元转发到来或从应用到来的时间戳；DSU属性存放该数据流单元；CP为发送目标通信包；SNDst为该数据流单元的发送状态，0表示还未发送，1表示已发送但还未收到确认回答，2表示已发送并且得到接收端的确认；rs为该DSU成功发送的可信率，其是DSU被重复发送的次数的函数；

(7)STL为二维表STL(Stime，CP，DSU，SNDst，Snum，)，包括Stime，DSU，SNDst属性，二维表的每一行为一个数据流单元的发送临时缓冲区，Stime属性为该数据流单元被SP第一次发送的时间戳；CP为发送目标通信包；DSU属性存放该数据流单元；SNDst为该数据流单元的发送状态，0表示还未发送，1表示已发送但还未收到确认回答，2表示已发送并且得到接收端的确认；Snum为重复发送计数器，SP每发送一次该DSU，则该DSU的Snum加1；

(8)RTable为二维表RTable(Rtime，CP，DSU，type，RStime)，二维表的每一行为一个数据流单元的接收临时缓冲区，Rtime属性为该数据流接收到时刻的时间戳；CP为数据源通信包；DSU属性存放该数据流单元；type为该数据流单元的发送状态，0表示正常数据流，1表示确认回答命令包；当type＝1时，说明该确认命令是对STL中命令STL.Stime＝RStime确认。

如图3所述通信包构成的流通信系统图，面向大规模数据流处理的GPU边缘计算集群通信系统建立通信包拓扑网络，系统在全局配置目录系统这个所有节点访问的公共存储环境的支持下，通过通信包拓扑网络进行流通信。

2、数据结构

(1)数据流(DS)为DS(DSid,DSUS,Pt，DSbw),其中DSid为数据流标识符；DSUS为构成该数据流的数据流单元的集合，其按照时间形成序列；Pt为该数据流的DSU处理的时间，包括感知、汇集、计算处理，即该DSU必须在Pt内处理完毕；DSbw为数据流需要的通信带宽。数据流通常由传感节点发起，经汇集节点汇集到边缘计算集群的计算节点，或在计算集群内流动。

(2)数据流单元(DSU)为DSU(DSid，Timestamp，Data，DSUsta，DSUdirect)，其中DSid为该单元所隶属的数据流标识符；TimeStamp为该数据流的生存时间戳；Data为数据流单元的数据部分，Data可以是某通信协议下的数据、控制命令；DSUsta为该数据单元的状态，当DSUsta为0时，表示该DSU为空，即数据流DSid的该Timestamp周期没有数据，是空单元。DSUdirect为数据流方向，当DSUdirect＝0表示从传感节点到计算节点，当DSUdirect＝1表示从计算节点到传感节点

(3)处理周期生成器(PCM)为PCM(PCid，PCtime，DSid)，其中PCid为处理周期id，PCtime为该处理周期所用的时间，DSid为与该PCid所对应的数据流的标识符；即数据流DSid的数据流单元需要在PCtime时间内处理完成，与DSU的Pt所对应。

(4)并发数据流PDS(PDSid，DSS，CN，Pnum，PCtime)为同一汇集节点汇集到的相同处理周期的数据流的集合，这个汇集节点可以是针对大规模传感节点的汇集节点，也可以是嵌套在计算节点上的汇集来自多个汇集节点的PDS进而形成更大规模的PDS；PDSid为PDS的标识符，DSS为构成该PDS的数据流；CN为汇集该PDS的汇集节点，Pnum为组成该PDS的数据流的个数；PCtime为该并发数据流的数据流单元处理周期，即PDS上的所有数据流的当前处理周期的Pnum个DSU以SPMD处理方式提交给GPU节点并行处理。

(5)节点地址配置表NAC为NAC(id，Nname，IPa，Type，Pcp，Psuc)，其中id为节点标识符；Nname为节点名称；IPa为节点的IP地址；Type为节点的类型，Type为0表示该节点为传感节点，Type为1表示该节点为汇集节点，Type为2表示该节点为计算节点(计算节点为配置GPU的计算机)，Pcp为该节点的通信处理能力，Psuc为该节点通信处理成功累计平均率。

(6)流配置表DSC为DSC(DSid，SNid，DNid，dsr)，其中DSid为数据流标识符，来自数据流表；SNid为该数据流的源节点，来自节点地址配置表；DNid为该数据流的目标节点，来自节点地址配置表；dsr为该数据流的数据流量值。

(7)并发流配置表PDSC为PDSC(PDSid，SNid，DNid，DSS，dsr)，其中PDSid为该并发数据流标识符，来自并发数据流表；PSNid为该并发数据流的源节点，来自节点地址配置表；PDNid为该并发数据流的目标节点，来自节点地址配置表；DSS为该并发数据流所包含的数据流的集合；dsr为该数据流的数据流量值。用来标志并发数据流在汇集节点与计算节点之间、计算节点与计算节点之间并行通信的路由结构。通过流配置表和并发流配置表，可以实现横贯传感节点、汇集节点、计算节点之间的数据流传输，以及控制命令的双向传输。

(8)数据流链路DSL可以为DSL(DSLid，DSLNS，Pt)，其中DSLid为链路标识符，DSLNS为链路节点的集合，每个链路节点DSLN(CN，CPid)，其中CN为节点名称，CPid为通信包(参见体系结构(5))标识符；链路节点取值于流配置表DSC或者并发流配置表PDSC，并且每个数据流链路必须包括传感节点、汇集节点和计算节点。由于每个数据流链路起源于单个传感节点，所以可以给出起源于该传感节点的这个数据流流动时所经历的汇集节点、计算节点，同时具有计算节点经过汇集节点发给传感节点的逆向通讯能力；Pt为这个链路的处理周期。

(9)全局配置目录存放在一个可以被所有节点访问的公共存储环境下，其存放数据流(DS)表、数据流单元(DSU)定义、处理周期管理器(PCM)表、并发数据流(PDS)表、节点地址配置表NAC、流配置表DSC、并发流配置表PDSC、数据流链路DSL表、通信包集合、时钟集合等。

3、算法

1)数据流通信负载均衡配置过程：

设有o个传感节点SN₁，SN₂，…，SN_o，p个汇集节点CN₁，CN₂，…，CN_p，(NODE)；

(1.1)对每个传感节点SN_i1(1<＝i1<＝o)，做如下工作：

{SN_i1从全局配置目录获取分配给自己的数据流DS(DSid,DSUS,Pt)；并把自己的IP(SN_i1)与数据流标识符DSid绑定发送给全局目录系统；}

对每个汇集节点CN_i2(1<＝i2<＝p)，做如下工作：

{CN_i2把自己的IP(CN_i2)与通讯支持能力P(CN_i2)发送给全局目录系统；}

对每个计算节点GN_i3(1<＝i3<＝q)，做如下工作：

{GN_i3把自己的IP(GN_i3)、通讯支持能力P(GN_i3)、计算能力CPower(GN_i3)发送给全局目录系统；}

(1.2)全局目录系统汇集来自所有传感节点SN_i1(1<＝i1<＝o)、汇集节点CN_i2(1<＝i2<＝p)、计算节点GN_i3(1<＝i3<＝q)的信息；

(1.3)全局目录系统根据所有传感节点SN_i1(1<＝i1<＝o)的DSid的数据流需要的通信带宽DSbw和所有汇集节点的通讯支持能力P(CN_i2)(1<＝i2<＝p)，运用通信负载均衡原理，均匀地把每个传感节点所对应的数据流按组聚集分配给汇集节点。即把SN_i1分成p个组CN_i2，使得SN_i1与CN_i2(1<＝i<＝p)对应且∑SNj.DSbw(SNj∈SN_i1)<＝P(CN_i2)，即SN_i1组内的所有数据流都由汇集节点CN_i2汇集。全局目录系统把这些配置信息存入流配置表DSC为DSC(DSid，SNid，DNid，dsr)。

(1.4)全局目录系统根据所有汇集节点CN_i2(1<＝i2<＝p)的汇集的并发数据流PDS_i2(PDSid，DSS，CN，Pnum，PCtime)的总通信带宽需求PDSbw_i2(1<＝i2<＝p)和所有计算节点的通讯支持能力P(GN_i3)(1<＝i3<＝q)、计算能力CPower(GN_i3)(1<＝i3<＝q)运用通信和计算负载均衡原理，均匀地把每个并发数据流PDSC_i3建立与计算节点汇集节点GN_i3(1<＝i3<＝q)之间的对应关系。全局目录系统把这些配置信息存入并发流配置表PDSC为PDSC(PDSid，SNid，DNid，dsr)。

(1.5)对每个汇集节点CN_i2(1<＝i2<＝p)和计算节点GN_i3(1<＝i3<＝q)，做如下工作：

{从全局目录获取流配置表DSC(DSid，SNid，DNid，dsr)和并发流配置表PDSC为PDSC(PDSid，SNid，DNid，dsr)，并按照每个数据流的DSU处理的时间Pt聚类，重新配置并发流，即把每个并发数据流按照Pt值聚类划分成多个并发数据流(具有相同的Pt)，每个并发数据流具有相同的Pt；把重新划分的并发数据流发往全局配置目录系统并重新更新并发数据流配置表PDSC。}

(1.6)对每个传感节点SN_i1(1<＝i1<＝o)、汇集节点CN_i2(1<＝i2<＝p)和计算节点GN_i3(1<＝i3<＝q)，做如下工作：

{传感、汇集、计算节点从全局目录获取流配置表DSC(DSid，SNid，DNid，dsr)和并发流配置表PDSC为PDSC(PDSid，SNid，DNid，dsr)；

扫描自己的流配置表DSC(DSid，SNid，DNid，dsr)的每个数据流DS(DSid,DSUS,Pt，DSbw)，获得不同的数据流的DSU处理的时间Pt集合{Pt1,Pt2,……,Ptw},并且向处理周期生成器获取w个时钟TPt1,TPt2,……,TPtw，并与相应的数据流同步绑定。一般情况下一个传感节点只配置一个数据流，因此只配置一个时钟。

传感、汇集、计算节点均获取时钟TPt1,TPt2,……,TPtw，创建一个通信包CP(CPid，SP，RP，PTi，STable，RTable，STL)；并把时钟TPt1,TPt2,……,TPtw和通信包CP1，CP2，……，CPw发往全局目录系统，并存储；}

因为同一汇集节点可能收到几个不同采集周期的传感节点数据，按时间聚类后，同一汇集节点的数据按时间分到了不同的通信包内，每个通信包按自己的时钟进行数据传输，如图4所示同一汇集节点内实现多个Pt类别应用的通信包结构示意图。

(1.7)全局配置目录扫描数据流表DS(DSid,DSUS,Pt，DSbw),对每个数据流做如下工作：

{根据DS.DSid寻找与之绑定的传感节点SN；根据DS.pt查询配置在SN上的通信包集合并得到一个与之对应的通信包CP，这里由CP.PTi＝DS.pt；

初始化生成一个数据流链路DSL(DSLid，DSLNS，Pt)，DSLid自动生成，DSL.Pt＝DS.pt；用CN和CP.CPi构建一个链路节点DSLN(CN，CP.CPi)，并且执行DSL.DSLNS＝DSL.DSLNS+DSLN(CN，CP.CPi)；

用传感节点SN查找流配置表DSC为DSC(DSid，SNid，DNid，dsr),直到找到SN.id＝DSC.SNid的表行DSCl(DSidl，SNidl，DNidl，dsrl)

重复地用DSCl.DNidl查询并发流配置表PDSC并做：

{用DSCl.DNidl查找并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr),直到找到DSCl.DNidl＝PDSC.SNid的表行PDSCL(PDSidl，SNidl，DNidl，DSS，dsrl)；根据DS.pt查询配置在PDSCL.SNid上的通信包集合并得到一个与之对应的通信包CPc，这里有CPc.PTi＝DS.pt；用PDSCL.SNid和CPc构建一个链路节点DSLN(PDSCL.SNid，CPc)；如果DSLN在DSL.DSLNS中不存在，则执行DSL.DSLNS＝DSL.DSLNS+DSLN(PDSCL.SNid，CPc)；

}//END重复地

}//END(1.7)

2)系统通讯过程如下：

所有传感节点、汇集节点、计算节点从全局目录获取自己所在的数据链路DS(DSLid，DSLNS，Pt)；

对于传感节点SN，其获取数据链路DSL.DSLNS的第二个节点DSLN[2](CN，CPg2)作为直接通信节点(汇集节点)；

对于汇集节点CN，其获取数据链路DSL.DSLNS的第一个节点DSLN[1](SN，CPg1)作为上游直接通信节点(传感节点)；其获取数据链路DSL.DSLNS的第三个节点DSLN[3](GN，CPg3)作为下游直接通信节点(计算节点)；

这样链路上的数据通信过程利用通信包CPg1、CPg2、CPg3建立了通信实体；SN的数据流通过CPg1发送给CPg2，CPg2汇集成并发数据流再传递给CPg3.反之GN通过CPg3发送控制命令给CPg2，CPg2再传递给CPg1.实现了数据链路DSL所定义的具有Pt处理周期的数据流的汇集、SPMD处理。

3)通信包CP的SP进程工作过程如下：

CP获取自己所在的数据链路DSL(DSLid，DSLNS，Pt)；

扫描本地应用端口，如果有发送数据(命令)DSU包，则：

CP判别自己所处的节点位置；

3.1如果CP的SP所在节点为传感节点，则：

启动计时器tt，等待对(Stime，DLSN[2].Cp，DSU)的确认回答：

如果在tt<＝Stime+CP.pt时间内，收到确认回答，则删除表行(Stime，DLSN[2].Cp，DSU，SNDst，Snum)，并通知本地应用“(Stime，DLSN[2].Cp，DSU)发送成功”。}

DLSN[2].Cp.RTnum＝DLSN[2].Cp.RTnum+Snum；//重传计数器累加}

3.2如果SP所在节点为汇集节点，且DSUdirect＝0(汇集数据)，重复读Stable取做(直到Stable为空)：

{

{从CP的STable读取DSU，获取CP的数据链路DSL的第二个链路节点DLSN[3].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DLSN[3].Cp，DSU，SNDst，Snum)，把(Stime，DLSN[3].Cp，DSU)交给S进程发送；

}

启动计时器tt；

循环等待STL表内的所有DSU的确认回答，直到STL的所有回答处理结束：

{

对STL的每一个行STL0(Stime，DLSN[3].Cp，DSU，SNDst，Snum)；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，并通知本地应用“STL0所承载的DSU发送成功”。

}//END循环等待STL

清空STL；进入下一阶段发送；

}

3.3如果SP所在节点为汇集节点，且DSUdirect＝1(汇集反向，广播功能)

(3.3.1)重复读取Stable，直到Stable为空(Stable存放一个并发数据流的当前DSU)：

{从CP的STable读取一个DSU，根据DSU.DSid查询流配置表DSC(DSid，SNid，DNid，dsr)得到一个表行DSC0(DSid，SNid，DNid，dsr)(这里有DSC0.Dsid＝DSU.DSid)；

}//END发送Stable中的所有DSU

(3.3.2)启动计时器tt；

{

{对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

}//END循环等待STL

清空STL；进入下一阶段发送；

}

3.4如果SP所在节点为计算节点，且DSUdirect＝1(计算节点发送到汇集节点)

(3.4.1)重复读取Stable，直到Stable为空(Stable存放一个并发数据流的当前DSU)：

提取数据链路DSL0的第二个链路节点DSL0.DLSN[2].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DSL0.DLSN[2].Cp,DSU，SNDst，Snum)，把(Stime，DSL0.DLSN[2].Cp,DSU)交给S进程发送；

}//END发送Stable中的所有DSU

(3.4.2)启动计时器tt；

{

{对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

}//END循环等待STL

清空STL；进入下一阶段发送；

}

4)通信包CP上的RP进程和R进程过程如下：

(4.1)如果当前节点为汇集节点，则重复执行如下过程：

{

(4.1.1)启动当前时段计数器tt；

(4.1.2)节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；根据PDSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.Snid；进而得到该DSU的目的通信包DSLN0.CPid；R进程把DSU发送给通信包DSLN0.CPid；

(4.1.3)通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；判别当前通信包DSLN0.CPid是否为并发数据流当前单元的目的节点，如果是则发送DSU到本地应用并且发送DSU确认信息给源节点；如果不是，则把DSU存放置STable中继续转发；

}

(4.2)如果当前节点为计算节点，则重复执行如下过程：

{

(4.2.1)启动当前时段计数器tt；

(4.2.2)节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；根据PDSC0.DNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.DNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.DNid；进而得到该DSU的目的通信包DSLN0.CPid；R进程把DSU发送给通信包DSLN0.CPid；

(4.2.3)通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；判别当前通信包DSLN0.CPid是否为并发数据流当前单元的目的节点，如果是则发送DSU到本地应用并且发送DSU确认信息给源节点；如果不是，则把DSU存放置STable中继续转发；

}

(4.3)如果当前节点为传感节点，则重复执行如下过程：

{

(4.3.1)启动当前时段计数器tt；

(4.3.2)节点上的R进程监听网络，收到数据流单元DSU；根据DSU.DSid查询流配置表DSC(DSid，SNid，DNid，dsr)得到一个表行DSC0(DSid，SNid，DNid，dsr)，使得DSU.DSid＝DSC0.DSid中；根据DSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.Snid；进而得到该DSU的目的通信包DSLN0.CPid；R进程把DSU发送给通信包DSLN0.CPid；

(4.3.3)通信包DSLN0.CPid接收来自R进程的DSU，存入到RTable中；发送DSU到本地应用并且发送DSU确认信息给源节点；

}

5)负载均衡计算过程：

pnum＝0；

扫描通信包集合CP1，CP2，…,CPc,对每个CPi(1<＝i<＝c)执行pnum＝pnum+CPi.Rtnum；如果pnum大于阈值thnum(可以根据实验数据获得)，则启动算法数据流通信负载均衡配置过程。

6)S进程工作过程：

S进程收到本地SP进程的通信包(Stime，Cp,DSU)，其中Stime为时间戳，Cp为通信包,DSU为数据流单元；

根据通信包CP查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得CP在DSL0的链路节点集合DSLNS中；即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CPid＝CP；

S进程查询节点地址配置表NAC(id，Nname，IPa，Type，Pcp，Psuc)得到一个表行NAC0(id，Nname，IPa，Type，Pcp，Psuc)，使得CP＝NAC0.Nname；S进程启动物理网络通信协议把DSU发送到节点NAC0.Ipa。

Claims

1.一种面向大规模数据流处理的GPU边缘计算集群通信系统，其特征在于，包括传感节点、汇集节点、GPU计算节点；系统结构如下：

RTable为二维表，二维表的每一行为一个数据流单元的接收临时缓冲区，Rtable包括Rtime，CP，DSU，type，RStime，其中Rtime属性为该数据流接收到时刻的时间戳；CP为数据源通信包；DSU属性存放该数据流单元；type为该数据流单元的发送状态，0表示正常数据流，1表示确认回答命令包；当type＝1时，说明该确认命令是对STL中命令STL.Stime＝RStime确认；

所述GPU边缘计算集群通信系统数据结构包括数据流、数据流单元、处理周期生成器、并发数据流、节点地址配置表、流配置表、并发流配置表、数据流链路和全局配置目录；

2)数据流单元为DSU，包括DSid，Timestamp，Data，DSUsta，DSUdirect，其中DSid为该单元所隶属的数据流标识符；TimeStamp为该数据流的生存时间戳；Data为数据流单元的数据部分，Data可是某通信协议下的数据、控制命令；DSUsta为该数据流单元的状态，当DSUsta为0时，表示该DSU为空，即数据流DSid的该Timestamp周期没有数据，是空单元；DSUdirect为数据流方向，当DSUdirect＝0表示从传感节点到计算节点，当DSUdirect＝1表示从计算节点到传感节点；

7)并发流配置表为PDSC，用来标志并发数据流在汇集节点与计算节点之间、计算节点与计算节点之间并行通信的路由结构；包括PDSid，SNid，DNid，DSS，dsr，其中PDSid为该并发数据流标识符，来自并发数据流表；SNid为该并发数据流的源节点，来自节点地址配置表；DNid为该并发数据流的目标节点，来自节点地址配置表；DSS为该并发数据流所包含的数据流的集合；dsr为该数据流的数据流量值；

9)全局配置目录存放数据流表、数据流单元定义、处理周期管理器表、并发数据流表、节点地址配置表、流配置表、并发流配置表、数据流链路表、通信包集合、时钟集合；

所述传感节点处理：每个传感节点对应的数据流地址与数据流标识符绑定发送给全局配置目录；每个汇集节点把自己的地址与通讯支持能力发送给全局配置目录；每个计算节点把自己的地址、通讯支持能力、计算能力发送给全局配置目录；根据所有传感节点的数据流标识符得到的数据流需要的通信带宽和所有汇集节点的通讯支持能力，运用通信负载均衡原理，均匀地把每个传感节点所对应的数据流按组聚集分配给汇集节点，并将这些配置信息存入全局配置目录中的流配置表中；

所述汇集节点处理：根据所有汇集节点的汇集并发数据流的总通信带宽需求和所有计算节点的通讯支持能力、计算能力运用通信和计算负载均衡原理，均匀地把每个并发数据流建立与计算节点汇集节点之间的对应关系，并将这些配置信息存入全局配置目录中的并发流配置表中；每个汇集节点和计算节点从全局配置目录中获取流配置表和并发流配置表获取信息，并按照每个数据流的处理时间进行聚类，即相同处理时间的数据流划分为并发数据流，重新配置并发数据流，把重新划分的并发数据流发往全局配置目录并更新并发数据流配置表；所述传感、汇集、计算节点从全局配置目录获取流配置表和并发流配置表，扫描自己的流配置表的每个数据流，获得不同的数据流的DSU处理的时间Pt集合{Pt1,Pt2,……,Ptw},并且向处理周期生成器获取w个时钟TPt1,TPt2,……,TPtw，并与相应的数据流同步绑定；

传感、汇集、计算节点获取时钟TPt1,TPt2,……,TPtw，创建一个通信包CP；并把时钟TPt1,TPt2,……,TPtw和通信包CP1，CP2，……，CPw发往全局配置目录，并存储；

初始化生成一个数据流链路DSL，DSLid自动生成，DSL.Pt＝DS.pt；用CN和CP.CPi构建一个链路节点DSLN(CN，CP.CPi)，并且执行DSL.DSLNS＝DSL.DSLNS+DSLN (CN，CP.CPi)；

重复处理，直到所有数据流均被配置。

2.根据权利要求1所述面向大规模数据流处理的GPU边缘计算集群通信系统，其特征在于，所述通信包CP的SP进程如下：

CP获取自己所在的数据链路DSL(DSLid，DSLNS，Pt)；

获取相应数据链路DSL的第二个链路节点DLSN[2].Cp通信包作为通信目标包；从本地CP的STable读取DSU，获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DLSN[2].Cp，DSU，SNDst，Snum)，把(Stime，DLSN[2].Cp，DSU)交给S进程发送；

启动计时器tt，等待对(Stime，DLSN[2].Cp，DSU)的确认回答：

如果在回答确认时间区间Apt内未收到确认回答，则重新提交(Stime，DLSN[2].Cp，DSU)给S进程发送并且置Snum++；如果tt>Stime+CP.pt,并且还没收到回答确认，则通知本地应用该DSU发送失败；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，则删除表行(Stime，DLSN[2].Cp，DSU，SNDst，Snum)，并通知本地应用“(Stime，DLSN[2].Cp，DSU)发送成功”；

DLSN[2].Cp.RTnum＝DLSN[2].Cp.RTnum+Snum；重传计数器累加；

B、如果SP所在节点为汇集节点，且DSUdirect＝0，重复读取Stable，直到Stable为空，具体如下：

从CP的STable读取DSU，获取CP的数据链路DSL的第二个链路节点DLSN[3].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DLSN[3].Cp，DSU，SNDst，Snum)，把(Stime，DLSN[3].Cp，DSU)交给S进程发送；启动计时器tt；

对STL的每一个行STL0(Stime，DLSN[3].Cp，DSU，SNDst，Snum)；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，并通知本地应用“STL0所承载的DSU发送成功”，END循环等待STL；

扫描STL(Stime，DSU，SNDst，Snum)的每一行，对每一行STLl做：Cp.RTnum＝Cp.RTnum+STLl.Snum；重传计数器累加；

清空STL；进入下一阶段发送；

C、如果SP所在节点为汇集节点，且DSUdirect＝1:

C-1、重复读取Stable，每次读取做如下处理，直到Stable为空：

从CP的STable读取一个DSU，根据DSU.DSid查询流配置表DSC(DSid，SNid，DNid，dsr)得到一个表行DSC0(DSid，SNid，DNid，dsr),这里有DSC0.Dsid＝DSU.DSid；

提取数据链路DSL0的第一个链路节点DSL0.DLSN[1].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DSL0.DLSN[1].Cp,DSU，SNDst，Snum)，把(Stime，DSL0.DLSN[1].Cp,DSU)交给S进程发送；

END发送Stable中的所有DSU；

C-2、启动计时器tt；

对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

扫描STL(Stime，Cp，DSU，SNDst，Snum)的每一行，对每一行STLl做：Cp.RTnum＝Cp.RTnum+STLl.Snum；重传计数器累加；

清空STL；进入下一阶段发送；

从CP的STable读取一个DSU，根据DSU.DSid查询并发流配置表PDSC(PDSid，SNid，DNid，DSS，dsr)得到一个表行PDSC0(PDSid，SNid，DNid，DSS，dsr)，使得DSU.Dsid在集合PDSC0.DSS中；

根据PDSC0.SNid查询数据链路表DSL(DSLid，DSLNS，Pt)得到一个表行DSL0(DSLid，DSLNS，Pt)，使得DSC0.SNid在DSL0的链路节点集合DSLNS中；

即找到一个链路节点DSLN0(CN，CPid)，使得DSLN0.CN＝DSC0.SNid；

提取数据链路DSL0的第二个链路节点DSL0.DLSN[2].Cp通信包；获取当前时间戳Stime，置SNDst＝0，Snum＝0，构造二维表STL的一个行(Stime，DSL0.DLSN[2].Cp,DSU，SNDst，Snum)，把(Stime，DSL0.DLSN[2].Cp,DSU)交给S进程发送；END发送Stable中的所有DSU；

D-2、启动计时器tt；

对STL的每一个行STL0(Stime，Cp，DSU，SNDst，Snum)；

如果在tt<＝Stime+CP.pt时间内，收到确认回答，并通知本地应用“STL0所承载的DSU发送成功”；END循环等待STL；

清空STL；进入下一阶段发送。

3.根据权利要求1所述面向大规模数据流处理的GPU边缘计算集群通信系统，其特征在于，所述通信包CP上的RP进程和R进程如下：

Ⅰ、如果当前节点为汇集节点，则重复执行如下过程：

Ⅰ-1、启动当前时段计数器tt；

Ⅱ、如果当前节点为计算节点，则重复执行如下过程：

Ⅱ-1、启动当前时段计数器tt；

Ⅲ、如果当前节点为传感节点，则重复执行如下过程：

Ⅲ-1、启动当前时段计数器tt；