CN111258716A - 一种基于容器云平台的边缘机器学习系统及其方法 - Google Patents

一种基于容器云平台的边缘机器学习系统及其方法 Download PDF

Info

Publication number
CN111258716A
CN111258716A CN202010034668.3A CN202010034668A CN111258716A CN 111258716 A CN111258716 A CN 111258716A CN 202010034668 A CN202010034668 A CN 202010034668A CN 111258716 A CN111258716 A CN 111258716A
Authority
CN
China
Prior art keywords
edge
machine learning
container
service
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010034668.3A
Other languages
English (en)
Other versions
CN111258716B (zh
Inventor
曹滔韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wuyu Technology Co.,Ltd.
Original Assignee
Titanium Chain Zhiyun Xiamen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Titanium Chain Zhiyun Xiamen Information Technology Co Ltd filed Critical Titanium Chain Zhiyun Xiamen Information Technology Co Ltd
Priority to CN202010034668.3A priority Critical patent/CN111258716B/zh
Publication of CN111258716A publication Critical patent/CN111258716A/zh
Application granted granted Critical
Publication of CN111258716B publication Critical patent/CN111258716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于容器云平台的边缘机器学习系统,包括基础设施子系统、边缘路由子系统、存储子系统、机器学习计算设备子系统以及平台管理子系统。这些子系统均容器化为边缘容器云平台服务,实现以服务方式进行资源调度、运行监控等,并实现基于容器云技术的机器学习计算系统的快速部署、运维、发布。本发明提供边缘机器学习系统间自组织协同方法,该两者交互采用自组织式通信方式实现分布式控制和多中心的网络结构,通过接入认证技术保证通信双方的身份正确性,保证重要的网络传播内容不被窃取。本发明还提供了边缘机器学习系统间的容器内卷协同迁移方法,通过容器内卷协同迁移使得在一个容器云平台之间的数据可以相互迁移,并保证服务完整性和无误性。

Description

一种基于容器云平台的边缘机器学习系统及其方法
技术领域
本发明属于容器云技术相关领域,尤其涉及一种基于容器云技术构建的人工智能边缘计算(简称边缘人工智能)系统及其方法。
背景技术
随着人工智能机器学习算法的兴起,对数据存储和迁移提出了更大的需求。人工智能算法的研发和改进需要反复调用以TB数量级计算的数据的下载上传,对传统的传输网络带来了很高的成本和带宽要求。同时人工智能计算设备高昂的成本也要求对人工智能计算设备进行有效的调度和分配。
而随着边缘人工智能的兴起,从中心化到分布式转变,并且基于高速、本地化、灵活服务等方面提升了数据的使用效率和传输速率,降低了数据存储和迁移的成本。边缘机器学习系统的基本组件包括边缘路由子系统、存储子系统、平台管理子系统及边缘云基础设施。前3个子系统部署于边缘人工智能服务器内,而边缘云基础设施则由部署在网络边缘的小型或微型数据中心构成。
目前边缘人工智能的部署模式基于传统的服务器部署形态,依赖底层基础设施,而且不具备高效简洁部署发放服务、进程高可用及自动监控服务运行状态等优势功能,并且不能实现宕机自动拉起。
发明内容
本发明提供一种基于容器云平台的边缘机器学习系统及其方法,旨在至少解决现有技术中存在的技术问题之一。该系统具备高效简洁部署人工智能服务、系统高可用及自动监控服务运行状态并实现服务中断自动迁移等优势。
本发明的技术方案涉及一种基于容器云平台的边缘机器学习系统,所述的边缘机器学习系统由容器云技术通过容器云平台构建,并且所述的边缘机器学习系统包括:
基础设施子系统,用于提供包含网络通信的基础设施服务;
与所述的基础设施子系统连接的边缘路由子系统,用于通信连接一个或多个另外的边缘机器学习系统;
存储子系统,包含存储服务以及应用程序接口模块;
机器学习计算设备子系统,用于调用多个边缘计算终端组成用于机器学习的运算资源;
分别与所述的基础设施子系统、所述的边缘路由子系统、所述的存储子系统和所述的机器学习计算设备子系统连接的平台管理子系统,用于协调容器云平台进行服务管理,进行边缘机器学习系统的资源调度,
其中,所述的基础设施子系统、所述的边缘路由子系统、所述的存储子系统、所述的机器学习计算设备子系统和所述的平台管理子系统均被容器化为服务并由基于容器云平台的底层容器引擎运行。
在本发明的一些方面,所述的边缘机器学习系统还包括:
与所述的机器学习计算设备子系统连接的机器学习服务管理模块,用于对机器学习服务进行资源调度、运行监控的全生命周期管理。
在本发明的一些方面,所述的边缘路由子系统与容器云平台的接入端连接,并且被配置成通过边缘路由服务与另外的多个边缘机器学习系统进行加密的通信连接,以允许通过单点登陆认证的方式进行所述的边缘机器学习系统之间的双方身份认证。
在本发明的一些方面,所述的边缘机器学习系统还包括:
服务协同迁移模块,用于容器内数据卷在集群各节点之间的迁移,并且对需要迁出的服务数据卷容器进行备份、恢复、迁移到新的边缘学习系统或者内部节点。其中,所述的数据卷包含服务的内容、服务的临时用户数据、服务的中间状态数据等。
本发明的技术方案还涉及一种基于边缘机器学习系统的工作方法,该方法包括步骤:
A、两个或多个的容器边缘机器学习系统之间基于服务注册技术和单点登录认证技术,在边缘路由的网络结构内进行通信交互;和/或
B、对于容器边缘机器学习系统支撑服务协同迁移,采用容器内数据卷在集群各节点之间的迁移。
在本发明的一些方面,所述步骤A包括:两个或多个容器边缘机器学习系统之间的认证采用对称加密方式,并且采用单点登录进行双向认证;或者两个或多个容器边缘机器学习系统之间的认证采用非对称加密方式。
优选地,在两个或多个的容器边缘机器学习系统之间通信前,通过单点登录进行双向认证,以保证交互双方身份安全,比如让认证不成功的接入者拒绝接入。
在本发明的一些方面,所述步骤B包括在以下任一个或多个场景时进行服务协同迁移:
容器云第一边缘人工智能模块和容器云第二边缘人工智能模块均为部署在同一业务范围内的容器云平台,并具备迁移的前置条件;
智能移动设备跨边缘机器学习系统接入访问服务,使服务从第一边缘人工智能模块迁移到第二边缘人工智能模块;
第一边缘人工智能模块系统资源负载过高,而第二边缘人工智能模块资源负载低,第一边缘人工智能模块与第二边缘人工智能模块协商资源,服务由第一边缘人工智能模块迁移到第二边缘人工智能模块;
第一边缘人工智能模块系统上服务连续故障,与第二边缘人工智能模块协商资源,在第二边缘人工智能模块上重建该服务。
在本发明的一些方面,所述步骤B还包括:
对于原先的边缘机器学习系统,首先将原容器云边缘人工智能模块的容器数据卷分离,停止数据卷,再将数据卷导出;
对于目标的边缘机器学习系统,在目标容器云边缘人工智能模块进行服务配置描述数据导入,创建新的容器,挂载从原容器云边缘人工智能模块导出的数据卷;
挂载成功并顺利运行容器后,触发删除原容器云边缘人工智能模块的已被迁移的容器。
在一些方面,通过(数据卷的)迁移可以在不同节点之间保持服务的持续性。在以下的场景中将会使用此项服务:1.在多个容器之间共享数据,多个容器可以同时以只读或者读写的方式挂载同一个数据卷,从而共享数据卷中的数据;2.当宿主机不能保证一定存在某个目录或一些固定路径的文件时,使用数据卷可以规避这种限制带来的问题;3.当容器中的数据存储在宿主机之外的地方时,比如远程主机上或云存储上;4.容器数据在不同的宿主机之间备份、恢复或迁移时。
本发明的技术方案还涉及一种计算机可读存储介质,其上储存有计算机程序指令,所述计算机程序指令被处理器执行时实施上述的方法。
本发明的有益效果如下。
根据本发明的基于容器云平台的边缘机器学习系统,对其基础设施子系统、边缘路由子系统、存储子系统、机器学习计算设备子系统、平台管理子系统容器化为边缘容器云平台服务,实现以服务方式进行资源调度、运行监控等,实现基于容器云技术的机器学习计算系统生命周期管理及快速部署、运维、发布的人工智能的用户群体、企业需求。本发明还提供了机器学习计算设备(例如GPU、FPGA、边缘计算终端)与边缘机器学习系统,以及边缘机器学习系统间自组织协同技术,两者交互采用自组织式通信方式实现分布式控制和多中心的网络结构,通过接入认证技术保证通信双方的身份正确性,保证重要的网络传播内容不被窃取。本发明提供了边缘机器学习系统间的容器内卷协同迁移方法,通过容器内卷协同迁移使得在同一容器云平台之间的数据可以相互迁移,并保证服务完整性和无误性。
附图说明
图1是本发明的基于容器云平台的边缘机器学习系统的组成框架示意图;
图2是本发明的基于容器云平台的边缘机器学习系统与边缘路由接入认证示意图;
图3是机器学习容器与机器学习硬件资源池连接示意图;
图4是边缘机器学习系统与边缘路由之间双向认证示意图;
图5是容器边缘机器学习系统间服务迁移示意图;
图6是容器边缘机器学习系统间具体服务协同迁移实施流程示意图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。本文所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
如图1所示,在一些实施例中,根据本发明的一种基于容器云平台的边缘机器学习系统,是以容器云技术通过容器云平台构建容器的边缘机器学习系统。所述通过容器云平台构建的容器边缘机器学习系统包含容器化为服务并由底层容器引擎运行的基础设施子系统、边缘路由子系统、存储子系统、平台管理子系统。容器边缘机器学习系统对服务进行资源调度、运行监控的全生命周期管理。所述容器化为服务的基础设施子系统包含基础设施服务容器、网络模块、资源池;所述容器化为服务的边缘路由子系统包含路由服务容器、数据转发模块、网络链接模块;所述容器化为服务的机器学习计算设备子系统包含机器学习硬件设备的容器,资源池;所述容器化为服务的存储子系统包含存储容器、接口模块APIs;所述容器化为服务的平台管理子系统包含平台管理服务容器、资源调度模块、健康监测模块。
如图3所示,在一些实施例中,机器学习计算设备子系统的资源池融合一个或多个边缘计算设备终端(如附近的GPU、FPGA等)的运算资源。机器学习容器可以向该硬件资源池申请运算资源,然后被用来执行基于机器学习的运算程序。
在一些实施例中,本发明采用基于容器云技术的部署模式,只需通过容器云实行统一运维,让系统用户不用关心资源的申请、软件安装部署等问题,而只需聚焦业务本身。容器云平台以轻量级可扩展的容器为运行单元,实现服务微服务化、服务快速部署、服务快速迁移、服务健康检查、快速故障恢复等特性。
如图2-4所示,在一些实施例中,多个容器边缘机器学习系统之间支持基于接入认证技术的自组织交互,使用服务注册技术采用分布式控制和多中心的网络结构进行通信交互。在容器边缘机器学习系统与容器边缘机器学习系统之间通信前,通过单点授权进行双向认证保证交互双方身份安全,认证不成功的接入者拒绝接入。
如图2所示,在一些实施例中,所述的边缘路由子系统与容器云平台的接入端连接,并且被配置成通过边缘路由服务与另外的多个边缘机器学习系统进行加密的通信连接,以允许通过单点授权/单点登陆认证的方式进行所述的边缘机器学习系统之间的双方身份认证。
在一些实施例中,两个或多个容器边缘机器学习系统之间的认证,可以采用对称/非对称加密算法。服务注册网络的布设或展开需要通过边缘计算节点的服务发现和服务注册机制,结点通过分层协议和分布式算法协调各自的行为,结点开机后就可以快速、自动地组成一个独立的网络。
考虑到网络信息技术的快速发展,对国家、组织、公司或者个人来说至关重要的信息通过网络进行传输、存储等,在网络安全中身份的接入认证是非常重要且是第一道防线,接入认证机制确保传输内容被可靠正确的客户端服务端所传输。利用服务注册技术采用分布式控制和多中心的网络结构,移动智能终端不依赖基础设施,能够在不能利用或者不便利用现有网络基础设施(如基站)的情况下,提供终端与边缘机器学习系统之间的相互通信,同时边缘机器学习系统之间同样采用该服务注册网络交互,实现服务发现、自动接入等功能。
在一些实施例中,为了满足交互的安全性需必须保证接入模式包含接入认证机制,在根据本发明的系统中,需要在通信之前进行双向认证,认可通信载体的身份信息,保证交互的安全可靠性。通过单点授权双向认证保证交互双方身份安全,认证可采用对称/非对称加密算法,在认证双方的平台上通过接入认证的流程拦截非安全身份的接入者,若认证不成功则拒绝接入,认证成功允许新建链接并进行接入后续操作。
在一些实施例中,本发明的基于容器云平台的边缘机器学习系统支撑服务协同迁移,包括对需要迁出的服务数据卷容器来进行备份、恢复、迁移到新的边缘学习系统或者内部节点。
考虑到容器云中的服务依赖云平台中的资源,对于容器服务的高可靠性要求,保证容器服务可以实现协同迁移。对于实现迁移的前提是当存在一定的外在因素(系统自动触发或者人为触发)时,容器云中的服务进行协同迁移。
在一些实施例中,根据本发明的基于容器云技术的边缘机器学习系统支持服务协同迁移,使得在一个容器云平台上运行的服务迁移到另一个容器云平台上,同时保证服务的完整性和无误性。
下面在一些实施例中描述服务协同迁移的一般场景。
如图5所示,容器云第一边缘人工智能模块和容器云第二边缘人工智能模块均为部署在同一业务范围内的容器云平台,并具备迁移的前置条件。在满足迁移条件后,可以在一些场景中进行服务协同迁移。
业务场景:智能移动设备跨边缘机器学习系统接入访问服务,使服务从第一边缘人工智能模块迁移到第二边缘人工智能模块。
资源调度场景:第一边缘人工智能模块系统资源负载过高,而第二边缘人工智能模块资源负载低,第一边缘人工智能模块与第二边缘人工智能模块协商资源,服务由第一边缘人工智能模块迁移到第二边缘人工智能模块。
故障场景:第一边缘人工智能模块系统上服务连续故障,与第二边缘人工智能模块协商资源,在第二边缘人工智能模块上重建该服务。
如图6所示,在一些实施例中,原容器云边缘人工智能模块上的服务迁移到目标容器云边缘人工智能模块,其配置描述信息迁移流程如下:
对于原先的边缘机器学习系统1,首先将原容器云边缘人工智能模块的容器数据卷分离,停止数据卷;将数据卷导出。
对于目标的边缘机器学习系统2,在目标容器云边缘人工智能模块进行服务配置描述数据导入,创建新的容器,挂载从原容器云边缘人工智能模块导出的数据卷。
当挂载成功并顺利运行容器后,触发删除原容器云边缘人工智能模块的已被迁移的容器。
通过容器云技术构建边缘机器学习系统,其子系统包含边缘路由子系统、能使开放平台子系统、平台管理子系统、基础设施管理子系统,各个子系统可以容器化为部署于容器云平台中的容器服务,实现基于容器云技术的边缘机器学习系统。在该系统中,包含多个不同功能特性的服务,而在容器云平台中的服务协同迁移,能够实现服务迁移适配容器云的服务生态及服务负载均衡的目的。
应当认识到,本发明实施例中的方法步骤可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还可以包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (10)

1.一种基于容器云平台的边缘机器学习系统,其特征在于,所述的边缘机器学习系统由容器云技术通过容器云平台构建,并且所述的边缘机器学习系统包括:
基础设施子系统,用于提供包含网络通信的基础设施服务;
与所述的基础设施子系统连接的边缘路由子系统,用于通信连接一个或多个另外的边缘机器学习系统;
存储子系统,包含存储服务以及应用程序接口模块;
机器学习计算设备子系统,用于调用多个边缘计算终端组成用于机器学习的运算资源;
分别与所述的基础设施子系统、所述的边缘路由子系统、所述的存储子系统和所述的机器学习计算设备子系统连接的平台管理子系统,用于协调容器云平台进行服务管理,进行边缘机器学习系统的资源调度,
其中,所述的基础设施子系统、所述的边缘路由子系统、所述的存储子系统、所述的机器学习计算设备子系统和所述的平台管理子系统均被容器化为服务并由基于容器云平台的底层容器引擎运行。
2.根据权利要求1所述的边缘机器学习系统,其中,所述的边缘机器学习系统还包括:
与所述的机器学习计算设备子系统连接的机器学习服务管理模块,用于对机器学习服务进行资源调度、运行监控的全生命周期管理。
3.根据权利要求1所述的边缘机器学习系统,其中:
所述的基础设施子系统包含基础设施服务容器、网络模块和基础设施资源池;
所述的边缘路由子系统包含路由服务容器、数据转发模块和网络链接模块;
所述的机器学习计算设备子系统包含机器学习硬件设备的容器和资源池,该资源池融合一个或多个边缘计算设备终端的运算资源;
所述的平台管理子系统包含平台管理服务容器、资源调度模块、健康监测模块和报警模块。
4.根据权利要求3所述的边缘机器学习系统,其中,所述的边缘路由子系统与容器云平台的接入端连接,并且被配置成通过边缘路由服务与另外的多个边缘机器学习系统进行加密的通信连接,以允许通过单点登陆认证的方式进行所述的边缘机器学习系统之间的双方身份认证。
5.根据权利要求1所述的边缘机器学习系统,其中,所述的边缘机器学习系统还包括:
服务协同迁移模块,用于容器内数据卷在集群各节点之间的迁移,并且对需要迁出的服务数据卷容器进行备份、恢复、迁移到新的边缘学习系统或者内部节点,
其中,所述的数据卷包含服务的内容、服务的临时用户数据或者服务的中间状态数据。
6.一种如权利要求1至5中任一项所述的边缘机器学习系统的工作方法,其特征在于,该方法包括以下任一个或多个步骤:
A、两个或多个的容器边缘机器学习系统之间基于服务注册技术和单点登录认证技术,在边缘路由的网络结构内进行通信交互;
B、对于容器边缘机器学习系统支撑服务协同迁移,采用容器内数据卷在集群各节点之间的迁移。
7.根据权利要求6所述的方法,其中,所述步骤A包括:
两个或多个容器边缘机器学习系统之间的认证采用对称加密方式,并且采用单点登录进行双向认证;或者
两个或多个容器边缘机器学习系统之间的认证采用非对称加密方式。
8.根据权利要求6所述的方法,其中,所述步骤B包括在以下任一个或多个场景时进行服务协同迁移:
容器云第一边缘人工智能模块和容器云第二边缘人工智能模块均为部署在同一业务范围内的容器云平台,并具备迁移的前置条件;
智能移动设备跨边缘机器学习系统接入访问服务,使服务从第一边缘人工智能模块迁移到第二边缘人工智能模块;
第一边缘人工智能模块系统资源负载过高,而第二边缘人工智能模块资源负载低,第一边缘人工智能模块与第二边缘人工智能模块协商资源,服务由第一边缘人工智能模块迁移到第二边缘人工智能模块;
第一边缘人工智能模块系统上服务连续故障,与第二边缘人工智能模块协商资源,在第二边缘人工智能模块上重建该服务。
9.根据权利要求6或8所述的方法,其中,所述步骤B还包括:
对于原先的边缘机器学习系统,首先将原容器云边缘人工智能模块的容器数据卷分离,停止数据卷,再将数据卷导出;
对于目标的边缘机器学习系统,在目标容器云边缘人工智能模块进行服务配置描述数据导入,创建新的容器,挂载从原容器云边缘人工智能模块导出的数据卷;
挂载成功并顺利运行容器后,触发删除原容器云边缘人工智能模块的已被迁移的容器。
10.一种计算机可读存储介质,其上储存有程序指令,所述程序指令被处理器执行时实施如权利要求6至9中任一项所述的方法。
CN202010034668.3A 2020-01-14 2020-01-14 一种基于容器云平台的边缘机器学习系统及其方法 Active CN111258716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034668.3A CN111258716B (zh) 2020-01-14 2020-01-14 一种基于容器云平台的边缘机器学习系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034668.3A CN111258716B (zh) 2020-01-14 2020-01-14 一种基于容器云平台的边缘机器学习系统及其方法

Publications (2)

Publication Number Publication Date
CN111258716A true CN111258716A (zh) 2020-06-09
CN111258716B CN111258716B (zh) 2023-06-27

Family

ID=70952129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034668.3A Active CN111258716B (zh) 2020-01-14 2020-01-14 一种基于容器云平台的边缘机器学习系统及其方法

Country Status (1)

Country Link
CN (1) CN111258716B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722532A (zh) * 2020-06-29 2020-09-29 重庆跃途科技有限公司 一种基于边缘计算技术的智慧教室控制方法及系统
CN112087522A (zh) * 2020-09-18 2020-12-15 北京航空航天大学 一种面向工业机器人数据处理的边云协同流程编排系统
CN113617020A (zh) * 2021-08-02 2021-11-09 Oppo广东移动通信有限公司 游戏控制方法、装置、存储介质、服务器以及终端
CN113722109A (zh) * 2021-11-02 2021-11-30 深圳大学 一种容器化边缘计算智能服务引擎系统
WO2021248423A1 (zh) * 2020-06-12 2021-12-16 华为技术有限公司 人工智能资源的调度方法、装置、存储介质和芯片
CN114172908A (zh) * 2022-02-10 2022-03-11 浙江大学 一种端云协同处理方法及设备
CN115296831A (zh) * 2022-05-30 2022-11-04 苏州大学 一种分布式认证的系统、方法及处理器可读存储介质
CN115688067A (zh) * 2022-09-30 2023-02-03 金航数码科技有限责任公司 一种基于容器的数据存储及访问控制方法
US11687380B2 (en) 2020-09-10 2023-06-27 International Business Machines Corporation Optimizing resource allocation for distributed stream processing systems
CN116389491A (zh) * 2023-04-03 2023-07-04 中国电子技术标准化研究院 一种云边算力资源自适应计算系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092565A (ja) * 2016-12-01 2018-06-14 エヌ・ティ・ティ・コミュニケーションズ株式会社 クラウド中継装置、クラウド接続処理方法、及びプログラム
CN109802934A (zh) * 2018-12-13 2019-05-24 中国电子科技网络信息安全有限公司 一种基于容器云平台的mec系统
CN110647380A (zh) * 2019-08-06 2020-01-03 上海孚典智能科技有限公司 用于支持边缘计算的超融合服务器系统
CN110658759A (zh) * 2019-09-25 2020-01-07 上海众壹云计算科技有限公司 一种可动态部署ai模型的工业智能控制器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092565A (ja) * 2016-12-01 2018-06-14 エヌ・ティ・ティ・コミュニケーションズ株式会社 クラウド中継装置、クラウド接続処理方法、及びプログラム
CN109802934A (zh) * 2018-12-13 2019-05-24 中国电子科技网络信息安全有限公司 一种基于容器云平台的mec系统
CN110647380A (zh) * 2019-08-06 2020-01-03 上海孚典智能科技有限公司 用于支持边缘计算的超融合服务器系统
CN110658759A (zh) * 2019-09-25 2020-01-07 上海众壹云计算科技有限公司 一种可动态部署ai模型的工业智能控制器

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4149071A4 (en) * 2020-06-12 2023-05-31 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR RESOURCE PLANNING OF ARTIFICIAL INTELLIGENCE, STORAGE MEDIA AND CHIP
WO2021248423A1 (zh) * 2020-06-12 2021-12-16 华为技术有限公司 人工智能资源的调度方法、装置、存储介质和芯片
CN111722532A (zh) * 2020-06-29 2020-09-29 重庆跃途科技有限公司 一种基于边缘计算技术的智慧教室控制方法及系统
US11687380B2 (en) 2020-09-10 2023-06-27 International Business Machines Corporation Optimizing resource allocation for distributed stream processing systems
CN112087522A (zh) * 2020-09-18 2020-12-15 北京航空航天大学 一种面向工业机器人数据处理的边云协同流程编排系统
CN113617020A (zh) * 2021-08-02 2021-11-09 Oppo广东移动通信有限公司 游戏控制方法、装置、存储介质、服务器以及终端
CN113617020B (zh) * 2021-08-02 2023-11-17 Oppo广东移动通信有限公司 游戏控制方法、装置、存储介质、服务器以及终端
CN113722109A (zh) * 2021-11-02 2021-11-30 深圳大学 一种容器化边缘计算智能服务引擎系统
CN114172908A (zh) * 2022-02-10 2022-03-11 浙江大学 一种端云协同处理方法及设备
CN115296831A (zh) * 2022-05-30 2022-11-04 苏州大学 一种分布式认证的系统、方法及处理器可读存储介质
CN115296831B (zh) * 2022-05-30 2023-08-04 苏州大学 一种分布式认证的系统、方法及处理器可读存储介质
CN115688067A (zh) * 2022-09-30 2023-02-03 金航数码科技有限责任公司 一种基于容器的数据存储及访问控制方法
CN116389491A (zh) * 2023-04-03 2023-07-04 中国电子技术标准化研究院 一种云边算力资源自适应计算系统
CN116389491B (zh) * 2023-04-03 2023-11-07 中国电子技术标准化研究院 一种云边算力资源自适应计算系统

Also Published As

Publication number Publication date
CN111258716B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111258716B (zh) 一种基于容器云平台的边缘机器学习系统及其方法
CN110572448B (zh) 一种分布式边缘云系统架构
CN107426034B (zh) 一种基于云平台的大规模容器调度系统及方法
CN104753817B (zh) 一种云计算消息队列服务本地模拟方法和系统
US20140325503A1 (en) Cloud infrastructure-based management system and method for maintenance and deployment of application system
CN109802934A (zh) 一种基于容器云平台的mec系统
CN103778031A (zh) 一种云环境下的分布式系统多级故障容错方法
Doan et al. FAST: Flexible and low-latency state transfer in mobile edge computing
US9268737B2 (en) Managing virtual computing services
CN104244243B (zh) 终端外设控制方法、机器对机器网关及通信系统
CN105260377B (zh) 一种基于分级存储的升级方法和系统
US20230137879A1 (en) In-flight incremental processing
CN114553874A (zh) 一种混合仿真云平台及自动化部署方法
CN110855739B (zh) 一种基于容器技术的异地及异构资源统一管理方法及系统
CN114301914A (zh) 一种云边协同方法、装置及存储介质
CN111970162B (zh) 一种超融合架构下的异构gis平台服务中控系统
CN113946441A (zh) 一种fpga硬件加速设备使用、管理系统及方法
CN110795209B (zh) 一种控制方法和装置
CN112667360A (zh) 一种基于Kubernetes与docker统一调度云平台系统
CN112351106A (zh) 一种含事件网格的服务网格平台及其通信方法
US20200351708A1 (en) User plane replicator
CN110191016A (zh) 云平台业务监控方法、装置、设备、系统及可读存储介质
CN105847428A (zh) 一种移动云平台
CN109117146A (zh) 云平台双机容灾系统的自动部署方法、装置、存储介质和计算机设备
CN113111100B (zh) 基于区块链的数据交互系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230802

Address after: 200093 Room 205-07, Building 1, No. 135 Yixian Road, Yangpu District, Shanghai

Patentee after: Shanghai Wuyu Technology Co.,Ltd.

Address before: 361000 3F-A136, Zone C, Innovation Building, Software Park, Torch High tech Zone, Xiamen City, Fujian Province

Patentee before: Titanium chain Zhiyun (Xiamen) Information Technology Co.,Ltd.