CN111614785B - 一种基于微容器云的边缘ai计算集群 - Google Patents

一种基于微容器云的边缘ai计算集群 Download PDF

Info

Publication number
CN111614785B
CN111614785B CN202010493075.3A CN202010493075A CN111614785B CN 111614785 B CN111614785 B CN 111614785B CN 202010493075 A CN202010493075 A CN 202010493075A CN 111614785 B CN111614785 B CN 111614785B
Authority
CN
China
Prior art keywords
cloud
edge
computing
container
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010493075.3A
Other languages
English (en)
Other versions
CN111614785A (zh
Inventor
徐颖菲
谢磊
李丽
丁路
廖威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhishi Huiyu Technology Co ltd
Original Assignee
Chengdu Zhishi Huiyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhishi Huiyu Technology Co ltd filed Critical Chengdu Zhishi Huiyu Technology Co ltd
Priority to CN202010493075.3A priority Critical patent/CN111614785B/zh
Publication of CN111614785A publication Critical patent/CN111614785A/zh
Application granted granted Critical
Publication of CN111614785B publication Critical patent/CN111614785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5041Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the time relationship between creation and deployment of a service
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开一种基于边缘微容器云的边缘AI计算集群,应用于边缘计算、人工智能、云计算及5G通讯技术领域,针对现有技术难以满足城市管理对数据的多模态、全时段、全目标、全背景、全跟踪、全认知及全域范围内(全城)数据的实时综合分析要求的问题;本发明通过构造边缘微容器集群、边缘AI计算集群,实现对计算任务进行自动拆分、合并,以最大限度地利用边缘集群的计算资源;同时以并行化的计算方式,极大提高了任务执行效率,并通过多层级云架构,实现在总云端可以实现对模型的集中式训练和分布式部署。

Description

一种基于微容器云的边缘AI计算集群
技术领域
本发明属于边缘计算、人工智能、云计算及5G通讯技术领域,特别涉及一种基于微容器云的边缘AI计算集群的构造技术。
背景技术
随着平安城市、智慧交通、城市大脑对城市智能化管理程度的要求越来越高,使得监控摄像头和其他传感设备在城市边缘端部署也越来越密集,因此如何对这些边缘数据进行实时计算和智能分析,特别是对监控视频中出现的移动物体进行实时探测、识别、跟踪和认知等,已成为实现城市的精细化、智能化、精确化及敏捷化管理的紧迫需求。
目前对边缘数据进行计算处理主要包括以下几种方式:
一是使用边缘采集设备,利用其自身的计算能力,对特定数据进行处理。比如使用感应线圈对机动车闯红灯拍照、使用雷达对城市管道探测等,然而这种方式通常存在以下问题:其一为专有设备的硬件配置和计算能力通常是固化有限的,当硬件提供的计算能力不能满足边缘计算需求时,必须要更换新的设备,从而造成资源浪费和成本增加;其二为这种专有设备通常是事先预置好算法模型,而对于事先无法预置的算法模型,将难以实现算法模型的快速及实时更新;其三为这种专有设备通常是封闭并且不联网的,因此对于跨采集,跨设备的数据分析,将难以实现数据的实时共享、融合和对比分析。
二是使用边缘专有计算设备,虽然边缘采用多核ARM处理器、多核GPU、多核DSP等,具备一定的计算能力,但因其本身仍是单设备,当边缘处理复杂任务或计算规模扩大时,这种仅依靠单设备的计算能力同样会面临计算力不够的情况。
三是使用微型电脑设备(比如树莓派)作为边缘计算设备,将其放置在机房内,并且一个采集设备对应一个边缘计算设备,这种方式通常会增加数据传输延时,而且当边缘端需要实时处理复杂计算任务时,单个边缘计算设备将无法提供足够的计算资源和计算能力来满足实时性处理要求。
四是前端设备只负责数据采集,然后将其全部传送到数据中心/云端集中处理。这种方式不仅增加了数据传输的时延,而且还会占用较高的网络带宽资源以及数据中心/云端数据入口资源。
综合以上目前关于边缘计算方式的做法,受限于边缘单设备的处理能力限制,边缘设备要么采用专有设备处理特定数据,要么采用专有计算设备、要么采用微型设备/终端,存在计算力不足并难以灵活扩展、设备采集功能和类型单一、人工智能模型迭代更新困难或成本高昂、多模态数据缺乏融合分析、以及缺少多层级云计算的统一管控的问题,这将难以满足城市管理对数据的多模态、全时段、全目标、全背景、全跟踪、全认知及全域范围内(全城)数据的实时综合分析要求。
发明内容
针对以上边缘计算存在的相关问题,本发明提出了一种基于微容器云的边缘AI计算集群;边缘集群部署在靠近数据采集端(或区域数据中心),面向AI计算(即人工智能计算)模型的容器资源管控,使用成本相对低廉的移动设备,基于剪裁后的Linux系统、面向移动设备的Kubernetes容器云等。
本发明采用的技术方案为:一种基于微容器云的边缘AI计算集群,边缘微容器云构建具体为:边缘AI计算硬件集群组装和检查完成后,首先确定边缘微容器云的管控节点、主节点、工作节点,具体为:选择一个通用移动设备作为边缘微容器云的管控节点;选择两个移动设备作为边缘微容器云主节点,然后将所有移动设备都设置为工作节点;然后由管控节点从总云下载安装边缘微容器云所需的基础环境安装包和镜像安装包并进行安装;
所述安装过程包括:
(1)管控节点对所有移动设备节点进行系统配置和微容器云环境配置;
(2)管控节点对移动设备节点安装微容器云所需的基础环境安装包;
(3)管控节点将镜像安装包自动复制到边缘微容器云主节点和其他工作节点;
(4)管控节点通过执行复制文件包里的脚本完成对边缘微容器云的安装部署;
(5)管控节点将边缘微容器集群注册到总云的容器云平台。
还包括多层级云架构,所述多层级云架构至少包括四层级云结构,所述四层级云结构从下至上依次为:边缘微容器云、基站小云、中云、总云,各层级云结构之间通过网络进行通信。
所述移动设备中包括5G通信模块、北斗通信模块中的至少一种。
还包括AI计算集群构建:
管控节点从总云下载并安装AI计算集群运行环境镜像和基础算法模型镜像;并根据计算任务所需的计算资源确定容器模式:
若单个任务容器占用的CPU/GPU资源的使用率不足20%,且单个移动设备节点整体CPU/GPU计算资源利用率不足100%时,则在单个移动设备节点上部署一个或多个这样的任务容器;
若单个移动设备节点整体CPU/GPU计算资源使用率达到100%,也无法满足计算需求,则将多个移动设备节点虚拟化成一个超级容器,并将每个设备节点作为一个计算单位运行单个任务容器,然后进行分布式处理,并指定该超级容器中的某个移动设备节点完成该超级容器中所有移动设备节点计算后的结果进行合并;
最后管控节点将边缘微容器云的AI计算集群注册到总云的容器云平台上的人工智能总集群。
还包括:AI任务部署,总云根据边缘微容器云对应的计算任务画像,进行模型训练并计算容器需要的计算资源,然后由管控节点向边缘微容器云的主节点推送训练好的模型,然后由主节点根据计算任务的画像和边缘环境的画像及所需的边缘计算资源,自动向每个工作节点分派计算任务并发布云化模型,从而对计算任务实时并行处理;当计算任务处理完成后,其执行结果除了保存在边缘微云外,同时还会将结果通过通信网络上传到上级云结构。
当模型更新时,由总云选择在边缘集群的工作负载处于最低时段时,将模型和相关的支持包一起推送到边缘微容器云的主节点,然后由主节点自动完成其他工作节点上任务模型的更新。
还包括:总云定时监控AI计算集群中容器的整体资源使用情况,并根据负载的高低动态调整容器的副本数,以实现资源的自动伸缩,并将伸缩后的资源配置信息汇报给总云。
本发明的有益效果:本发明旨在解决物联网、AI边缘计算和云计算应用的快速发展过程中边缘端存在的计算力不够、数据采集功能和类型单一、人工智能模型迭代更新难以实现或成本高昂、缺乏多模态数据的融合分析、以及缺少多层级云计算的统一管控的问题。由于现有的边缘计算方式(或将边缘计算放置在数据中心/云端所在机房、或每个采集点只配置单个边缘设备、或边缘数据传送到数据中心/云端后并在其上进行计算)存在上述问题,本发明提供了一种基于微容器云的边缘AI计算集群,可在边缘端通过AI计算集群进行实时计算任务处理,包括对高清视频图像等数据的实时探测、识别、跟踪和认知等。本发明包括以下优点:
1.本发明构造的基于微云的边缘AI计算集群,除具备CPU的计算能力外,更重要的是具备随需扩展的GPU计算能力,从而极大增强了集群的计算能力,最大程度减少了网络负载及降低了云端计算压力;
2.边缘集群中的每个移动设备,不仅是计算节点,而且还是通讯节点,其融合了5G和北斗技术,实现了边缘与总云数据之间的无缝对接;
3.通过边缘AI计算集群,可以实现对计算任务进行自动拆分、合并,以最大限度地利用边缘集群的计算资源;同时以并行化的计算方式,极大提高了任务执行效率;
4.本发明对边缘AI计算集群采用微容器云的管理方式,不仅可以灵活实现资源调度的自动伸缩,以应对高密度、高弹性的计算需求,而且可以对节点和容器进行自我修复,实现管理的自动化和高效化,同时也更易于微服务的实现和部署;
5.本发明构造的边缘集群连接或自带多种数据传感器,具有天生的边缘多模数据融合能力,包括对边缘端的视频、图像、声音、天气、污染情况等进行AI综合分析;
6.本发明通过多层级云管理统一平台,不仅可以实现边缘端本地数据的实时处理和分析,而且在总云端可以实现对模型的集中式训练和分布式部署,并对跨摄像头、跨基站(5G或4G)、跨区、跨市、跨省的数据可以进行及时处理、综合分析和统一管控;
7.本发明边缘端采用基于裁剪版的Linux系统的移动设备构建边缘AI计算集群,不仅具备较好的可扩展性,而且构建成本低、占用空间体积小、能耗低、操作简便,具备很强的综合性价比和可实施性。
附图说明
图1是本发明基于微容器云的边缘AI计算集群的构造流程图。
图2是本发明边缘AI计算硬件集群框架图。
图3是本发明边缘AI计算集群多层级云平台总体框架图。
图4是本发明边缘AI计算集群边缘微容器云管理框架图。
附图中各部件的标记如下:1-主控节点模块,2-分布式数据库模块,3-应用服务接口模块,4-调度器模块,5-容器副本服务模块,6-容器组模块,7-容器模块。
具体实施方式
在对具体实施例进行具体描述前,先对以下概念做出定义或解释:
边缘设备,是指已安装裁剪后的Linux系统并具备CPU(GPU)的移动设备(包括安卓、鸿蒙、树莓派等通用移动设备(具有相同的硬件和软件配置),基于微处理器的专有移动设备),以及各类可插拔传感器设备;本发明的边缘设备既可以采集视频数据也可以采集诸如温度湿度等数据。
管控节点,是指选择一个通用移动设备作为微容器云的管控节点,其作用包括通过5G从总云下载并安装微容器所需的各种镜像安装包,及对微容器云中所有移动设备节点进行系统配置和基础环境安装,并负责向总云注册微容器云集群;
主节点,即对应Kubernetes中的Master节点,主要负责对微容器云集群进行任务调度、检测及响应集群事件;
工作节点,即对应Kubernetes中的Node节点,主要用来运行容器应用,由Master节点管理,并负责监控和对其汇报容器状态;
多层级云架构包括边缘端微云、基站(5G/4G)小云、区域级中云、城市级总云,如图3所示,各层级云之间通过5G(4G)网络进行通信。其中跨摄像头、跨区域的概念,是指针对不同区域不同地理位置的摄像头进行数据处理。比如,某辆车从A街B街交叉口驶向H街I街交叉口,中间会经过多个街区多个摄像头,对这辆车的追踪就需要进行跨摄像头或跨区域分析。边缘端视频数据首先传输到基站,通过基站部署的小集群,专门负责该基站范围内的跨摄像头的物体追踪;区域也会部署一个小集群,只负责对跨区域之间移动物体的追踪,其分析结果数据,比如物体的探测和背景的提取等,将按照区域和时间存到不同层的云上,总云存储全体分析后的数据。其中原始视频数据因为存储成本高,其存储周期根据需求微云一般是3-7天,小云按照区域存储一般30天;而对原始视频分析处理后的移动物体和背景这些关键图像数据,其数据量相对较小,根据需求存储周期微云一般是1-6个月,小云6-12个月,中云1-10年,总云10年至永久并可以进行全域查询。
边缘微容器云基础架构,指对底层的计算、网络、存储等资源通过虚拟化技术来整体管理和配置,包含多种管控组件,如虚拟内网集群管控组件和基础架构及设备管控组件等。
人工智能集群处理算法,指对深度神经网络中需要的训练数据量大,而且算法模型本身网络深度和模型复杂度都非常高,需要足够的计算力才能对模型的参数进行训练的集群处理算法。其处理过程首先是通过对使用不同的深度学习框架进行大规模训练,然后对数据集和模型进行管理和迭代,最后通过API或本地部署等方式提供给具体业务场景使用。
下面结合附图和具体实施例对本发明作进一步说明,本发明的边缘AI计算集群构造步骤如图1所示,具体包括如下步骤:
步骤1.集群初装:如图2所示,将边缘设备直接插入到边缘集成控制主板上的USBType-C接口插座,然后使用主板上的硬件网络设备(或通过无线网),将所有移动设备和各类传感器连接成一个局域网,实现对边缘AI计算集群硬件的初装;
步骤2.集群组网:选择一个通用移动设备作为管控节点,在其上,首先通过5G从总云下载边缘微容器云基础架构管控组件镜像安装包,包括虚拟内网集群管控组件和基础架构及设备管控组件,并完成对所插入设备的硬件识别(准入清单),注册,并组装为边缘AI计算硬件集群;然后安装虚拟内网集群管控组件,并基于步骤一通过TCP/IP(Ethernet)或RDMA(RoCE网络)将所插入移动设备所组建的边缘集群组装成一个边缘虚拟内网;
步骤3.配置检查:在管控节点安装边缘微容器云基础架构及设备管控组件,然后检查集群中各节点的硬件配置是否满足硬件准入配置标准(比如移动计算设备或微型电脑设备是否配置GPU处理器、是否支持OpenGL开源实现;操作系统是否支持RoCE网络协议,是否支持裁剪和增强版的Kubernetes;是否支持5G/4G通信模块、是否支持北斗/GPS;以及各类传感器是否支持USB口接入等),以及各节点之间是否互联互通并进行状态互检,同时检查各节点是否可通过5G和北斗与总云连接通信,以及各硬件设备运行状态是否正常稳定,最后将整个边缘AI计算硬件集群注册信息及其检查结果信息保存于本集群中并注册到总云,完成边缘微云纳入总云管控的第一步;
步骤4.微容器云构建:边缘AI计算硬件集群组装和检查完成后,由管控节点从总云下载安装边缘微容器云所需的基础环境安装包和镜像安装包并进行安装。所述边缘微容器云是指基于裁剪和增强版的针对移动设备的Kubernetes容器云。其安装过程包括:
(1)选择两个移动设备作为边缘微容器云主节点,然后将所有移动设备都设置为工作节点,以保证其中一个主节点挂掉之后,工作节点还能访问到另外一个主节点进行运作,进而保障微容器云的高可用性;
(2)管控节点对所有移动设备节点进行系统配置和微容器云环境配置,其中系统配置(包括ip地址分配、免密码ssh登录、hosts解析、关闭防火墙);
(3)管控节点对移动设备节点安装微容器云所需的基础环境安装包;
(4)管控节点将镜像安装包自动复制到边缘微容器云主节点和其他工作节点;
(5)管控节点通过执行复制文件包里的脚本完成对边缘微容器云的安装部署;
(6)管控节点将本边缘微容器集群注册到总云的容器云平台,从而完成边缘微云纳入总云管控的第二步。
步骤5.AI计算集群构建:管控节点从总云下载并安装AI计算集群运行环境镜像和基础算法模型镜像(包括针对不同算法模型来进行集群构造和配置的基础算法)。其中AI计算集群运行环境,包括移动版TensorFlow、Keras、Pytorch、Caffe、ncnn以及OpenCV、YOLO和Darknet等。该步骤完成后,结合第四步构造的边缘微容器云,虽已具备通用的计算集群处理能力,但还不能解决不同计算任务场景下对AI计算资源的不同需求。为此提出了对边缘AI计算集群的三种容器构造模式,如图4所示:
一是多容器模式。即将多个任务容器部署到单个移动设备节点上。对于计算资源需求较低的任务容器,比如在进行空气温度、湿度等监测时,其单个任务容器占用的CPU/GPU资源的使用率不足20%,整体CPU/GPU计算资源利用率不足100%时,就可以在单个移动设备节点上部署一个或多个计算资源使用率较低的任务容器,从而更灵活高效的利用单个移动设备的算力资源和能力。
二是超级容器模式。即把多个计算容器/移动设备编排成一个超级容器,然后运行在多个移动设备节点上。对于计算资源需求较多的任务容器,比如在实时探测视频中出现的移动物体时,单凭一个移动设备节点的计算资源,其GPU资源9使用率即使达到100%,也无法满足计算需求。这时可以通过把多个移动设备节点虚拟化成一个超级容器,并将每个设备节点作为一个计算单位运行单个任务容器,然后通过人工智能算法进行分布式处理。比如在进行视频移动物体的实时探测、识别、跟踪和认知时,首先可对每个任务容器的使用参数进行预先配置,包括容器使用的算法处理方式,比如视频帧或点阵图等;然后根据人工智能集群处理算法,比如在对监控摄像头中的移动物体进行实时探测、识别和跟踪时,受限于单个计算设备的计算资源、存储资源,在对数据和模型进行拆分、训练、调优、合并时,实现对每个容器实时计算所需的计算资源和存储资源进行自动分配,并对每个容器空闲的计算和存储资源进行再次管理和任务分配;最后通过在超级容器中指定一个节点完成多个容器计算后的结果进行合并,从而实现超级容器对资源占用较大任务的处理模式。
本实施例中超级模式采用RDMA(Remote Direct Memory Access,远程直接数据存取)来做移动设备节点和节点之间的通讯,以提供高效实时的通信支持,包括算法之间的协同和交互以及数据之间的互通和同步。在超级容器模式下,同样的工作也适用于容器之间。
三是混合模式。对于上述两种资源需求同时存在的多个任务,比如同时存在对监控摄像头中多个移动物体实时探测和对其所在位置的温度和湿度进行监测时,对于多个移动物体的实时探测任务,可采用多节点单容器模式处理;而对资源占用较少的容器,比如温度和湿度的监测任务等,可在单节点多容器模式下CPU/GPU资源利用率较低时再次使用,从而实现移动设备计算资源的高效利用。
安装完成后将本微容器云的人工智能集群注册到总云的容器云平台上的人工智能总集群,从而完成边缘微云纳入总云管控的第三步。
步骤6.AI任务部署:总云根据边缘微容器云对应的计算任务画像,进行模型训练并计算容器需要的计算资源,然后由管控节点向边缘微云的主节点推送AI计算模型,然后由主节点根据计算任务的画像和边缘环境的画像及所需的边缘计算资源,自动向每个工作节点分派计算任务并发布云化模型,从而实现对计算任务的实时并行处理;当AI任务处理完成后,其执行结果除了保存在边缘微云外,同时还会将结果通过5G(4G)通信网络上传到上层云端(小云、中云、总云),用于解决比如在跨摄像头场景下对移动物体的识别、检索和连续追踪,从而增强数据的时空连续性。
步骤7.AI模型更新:在多级云架构下,总云负责原始数据的大规模存储和归档以及基于原始数据的AI计算模型的训练。如果模型发生了更新,则由总云选择在边缘集群的工作负载处于最低时段时,把模型和相关的支持包一起推送到边缘微容器云的主节点,然后由主节点自动完成其他工作节点上任务模型的更新。
边缘集群的工作负载,根据所在任务场景的不同时间段,其执行任务所需的计算资源也有所不同;比如在城市交通要道、十字路口、主要街道等进行监控视频的任务处理时,白天通常人流、车流较大,视频处理的工作负载也较大,对计算资源和存储资源的占用率比较高;而晚上尤其是夜间(比如晚上11点至凌晨3点)相对来说,人、车一般少很多,工作负载也相对较小,所以可以选择夜间(23:00-3:00)进行模型更新。
步骤8.远程监控运维:在多层级云架构下,由总云对边缘AI计算集群和硬件设备进行远程管理和运维。首先总云定时监控AI计算集群中容器的整体资源使用情况,并根据负载的高低动态调整容器的副本数,以实现资源的自动伸缩,并将伸缩后的资源配置信息汇报给总云;同时,总云实时监控边缘微容器云集群中各个移动设备节点是否在线、是否可以接收任务请求,以及运行状态是否正常,同时通过自动监控工具对硬件、网络、存储、CPU、内存以及算法、容器运行状态实时监控;然后由各个设备通过5G网络直接向总云实时报告自身的各类设备运维信息,以及边缘微云的各级管控节点通过5G网络直接向总云实时报告各自集群(硬件,虚拟内网,微容器云,人工智能等)的设备运维信息,从而可在总云端利用各类可视化及运维工具(自动化脚本),实现对边缘设备及集群运行状态的可视化展现,并由运维人员根据异常和故障类型判定可否远程处理,包括远程重启、自动伸缩或到现场进行设备更换等。
动态调整容器的副本数,本实施例以采用Kubernetes提供的API接口实现对容器Pod副本数的动态调整为例进行说明,具体的:通过kubectl scale命令来完成;如:若容器xxx的副本数量为2,要扩容副本数为3,可执行kubectl scale rc xxx--replicas=3,要缩容副本数为1,可执行kubectl scale rc xxx--replicas=1。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种基于边缘微容器云的边缘AI计算集群,其特征在于,边缘微容器云构建具体为:边缘AI计算硬件集群组装和检查完成后,首先确定边缘微容器云的管控节点、主节点、工作节点,具体为:选择一个移动设备作为边缘微容器云的管控节点;另外选择两个移动设备作为边缘微容器云主节点,然后将剩下的移动设备都设置为工作节点;然后由管控节点从总云下载安装边缘微容器云所需的基础环境安装包和镜像安装包并进行安装;
所述安装过程包括:
(1)管控节点对所有移动设备节点进行系统配置和微容器云环境配置;
(2)管控节点对移动设备节点安装微容器云所需的基础环境安装包;
(3)管控节点将镜像安装包自动复制到边缘微容器云主节点和其他工作节点;
(4)管控节点通过执行复制文件包里的脚本完成对边缘微容器云的安装部署;
(5)管控节点将边缘微容器集群注册到总云的容器云平台;
还包括AI计算集群构建:
管控节点从总云下载并安装AI计算集群运行环境镜像和基础算法模型镜像;并根据计算任务所需的计算资源确定容器模式:
若单个任务容器占用的CPU/GPU资源的使用率不足20%,且单个移动设备节点整体CPU/GPU计算资源利用率不足100%时,则在单个移动设备节点上部署一个或多个这样的任务容器;
若单个移动设备节点整体CPU/GPU计算资源使用率达到100%,也无法满足计算需求,则将多个移动设备节点虚拟化成一个超级容器,并将每个设备节点作为一个计算单位运行单个任务容器,然后进行分布式处理,并指定该超级容器中的某个移动设备节点完成该超级容器中所有移动设备节点计算后的结果进行合并;
最后管控节点将边缘微容器云的AI计算集群注册到总云的容器云平台上的人工智能总集群;
对跨区域之间移动物体的追踪,其分析结果数据按照区域和时间存到不同层的云上,总云存储全体分析后的数据;
各基站分别部署一个小集群,各区域分别部署一个小集群。
2.根据权利要求1所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,还包括多层级云架构,所述多层级云架构至少包括四层级云结构,所述四层级云结构从下至上依次为:边缘微容器云、基站小云、中云、总云,各层级云结构之间通过网络进行通信。
3.根据权利要求2所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,所述网络为5G通信网络或或4G网络或北斗通信网络或以太网网络或RDMA网络。
4.根据权利要求3所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,还包括:AI任务部署,总云根据边缘微容器云对应的计算任务画像,进行模型训练并计算容器需要的计算资源,然后由管控节点向边缘微容器云的主节点推送训练好的模型,然后由主节点根据计算任务的画像和边缘环境的画像及所需的边缘计算资源,自动向每个工作节点分派计算任务并发布训练好的模型,从而对计算任务实时并行处理。
5.根据权利要求4所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,当计算任务处理完成后,其执行结果除了保存在边缘微云外,同时还会将结果通过通信网络上传到上级云结构。
6.根据权利要求4所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,当模型更新时,由总云选择在边缘集群的工作负载处于最低时段时,将更新后的模型和相关的支持包一起推送到边缘微容器云的管控节点,由管控节点将更新后的模型和相关的支持包推送给主节点,然后由主节点自动完成其他工作节点上模型的更新。
7.根据权利要求5所述的一种基于边缘微容器云的边缘AI计算集群,其特征在于,还包括:还包括:总云定时监控AI计算集群中容器的整体资源使用情况,并根据负载的高低动态调整容器的副本数,以实现资源的自动伸缩,并将伸缩后的资源配置信息汇报给总云。
CN202010493075.3A 2020-06-03 2020-06-03 一种基于微容器云的边缘ai计算集群 Active CN111614785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010493075.3A CN111614785B (zh) 2020-06-03 2020-06-03 一种基于微容器云的边缘ai计算集群

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010493075.3A CN111614785B (zh) 2020-06-03 2020-06-03 一种基于微容器云的边缘ai计算集群

Publications (2)

Publication Number Publication Date
CN111614785A CN111614785A (zh) 2020-09-01
CN111614785B true CN111614785B (zh) 2023-06-27

Family

ID=72202224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010493075.3A Active CN111614785B (zh) 2020-06-03 2020-06-03 一种基于微容器云的边缘ai计算集群

Country Status (1)

Country Link
CN (1) CN111614785B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416575A (zh) * 2020-11-02 2021-02-26 中关村科学城城市大脑股份有限公司 一种用于城市大脑ai计算的算法模型调度系统及方法
CN112328371A (zh) * 2020-11-27 2021-02-05 四川长虹电器股份有限公司 基于k3s平台的边云交互管理边缘业务的方法
CN112433857A (zh) * 2020-12-07 2021-03-02 上海光数信息科技有限公司 一种基于边缘计算的数字标牌管理系统及方法
CN112671582B (zh) * 2020-12-25 2023-01-06 苏州浪潮智能科技有限公司 一种基于边缘推理集群的人工智能推理方法和系统
CN112698944A (zh) * 2020-12-29 2021-04-23 乐陵欧曼电子科技有限公司 基于人脑模拟的分布式云计算系统及方法
CN112804362B (zh) * 2021-04-06 2021-06-22 湖南师范大学 分散数据微服务自动化运维体系
CN112995346A (zh) * 2021-05-10 2021-06-18 南京甄视智能科技有限公司 物联网设备与云平台数据同步的方法、装置、终端及存储介质
CN113778686B (zh) * 2021-09-16 2024-03-15 上海电信科技发展有限公司 一种分布式图像识别云服务平台系统
CN113838100A (zh) * 2021-11-24 2021-12-24 广东电网有限责任公司中山供电局 一种基于边缘计算的目标动态跟踪方法及系统
CN114489957B (zh) * 2022-04-01 2022-07-22 国家卫星海洋应用中心 遥感卫星数据处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN110647380A (zh) * 2019-08-06 2020-01-03 上海孚典智能科技有限公司 用于支持边缘计算的超融合服务器系统
CN110851145A (zh) * 2019-09-30 2020-02-28 烽火通信科技股份有限公司 一种基于容器编排的边缘云安装维护方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766157A (zh) * 2017-11-02 2018-03-06 山东浪潮云服务信息科技有限公司 基于国产cpu和os的分布式容器集群框架实现方法
CN109271233B (zh) * 2018-07-25 2021-01-12 上海华云互越数据技术有限公司 基于Kubernetes组建Hadoop集群的实现方法
CN109067599B (zh) * 2018-09-25 2021-06-18 浪潮云信息技术股份公司 一种部署集群的方法及装置
US20190097900A1 (en) * 2018-11-26 2019-03-28 Bryan J. Rodriguez Zero-configuration cluster and provisioning pipeline for heterogeneous computing nodes
CN110647580B (zh) * 2019-09-05 2022-06-10 南京邮电大学 分布式容器集群镜像管理主节点、从节点、系统及方法
CN110764918A (zh) * 2019-11-04 2020-02-07 浪潮云信息技术有限公司 一种容器集群中主节点管理方法
CN111158852A (zh) * 2019-12-14 2020-05-15 苏州浪潮智能科技有限公司 一种训练资源动态分配方法、系统、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN110647380A (zh) * 2019-08-06 2020-01-03 上海孚典智能科技有限公司 用于支持边缘计算的超融合服务器系统
CN110851145A (zh) * 2019-09-30 2020-02-28 烽火通信科技股份有限公司 一种基于容器编排的边缘云安装维护方法及系统

Also Published As

Publication number Publication date
CN111614785A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111614785B (zh) 一种基于微容器云的边缘ai计算集群
CN110390246A (zh) 一种边云环境中的视频分析方法
CN113906716A (zh) 雾节点资源的分配
CN111199279A (zh) 一种警务行业云端边缘计算和人工智能融合方法及装置
CN108777637A (zh) 一种支持服务器异构的数据中心综合管理系统和方法
CN112272234A (zh) 一种实现边云协同智能即服务的平台管理系统及方法
EP4322024A1 (en) Map updating method and device
CN112631725A (zh) 一种基于云边端协同的智慧城市的管理系统及方法
CN113572815A (zh) 一种跨异构平台的通信技术方法、系统及介质
CN112291728A (zh) 基于5g网络的私有行业应用平台实现架构
CN113516331A (zh) 一种建筑数据处理方法及装置
Song et al. Building spatiotemporal cloud platform for supporting GIS application
CN114301809B (zh) 一种边缘计算平台架构
CN208890843U (zh) 一种基于雾节点的边缘计算系统
CN110445762A (zh) 在高速路网中基于物联网的智能环保监控管理系统
CN115909716A (zh) 基于网联云控平台的交通路口调度系统、方法及设备
CN111191956A (zh) 一种基于区块链的无人机光伏板检修方法及其系统
CN114138501B (zh) 用于现场安全监控的边缘智能服务的处理方法和装置
Zhang et al. Task placement for crowd recognition in edge-cloud based urban intelligent video systems
CN109829525B (zh) 一种基于群智能的建筑控制方法及系统
CN116071892B (zh) 基于5g+iot的局地灾害性天气预警物联网发布方法
Cui et al. Intelligent connected vehicle cloud data platform for park scene
Duan et al. Research on architecture and technology application of smart Park Based on 5G cloud network
Roy et al. RoboCon: A Modular Robotic Containerization, Orchestration, and Load Balancing Technique for Mixed Hierarchy Task Handling Across Computing Platforms
Zhu et al. Distribution Grid Resource Business Center Integrating Dynamic Migration Algorithm and Lightweight System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant