CN109803018B - 一种基于Mesos和YARN结合的DCOS云管理平台 - Google Patents

一种基于Mesos和YARN结合的DCOS云管理平台 Download PDF

Info

Publication number
CN109803018B
CN109803018B CN201910068215.XA CN201910068215A CN109803018B CN 109803018 B CN109803018 B CN 109803018B CN 201910068215 A CN201910068215 A CN 201910068215A CN 109803018 B CN109803018 B CN 109803018B
Authority
CN
China
Prior art keywords
dcos
management
yarn
application
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910068215.XA
Other languages
English (en)
Other versions
CN109803018A (zh
Inventor
苏文伟
黄祖源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201910068215.XA priority Critical patent/CN109803018B/zh
Publication of CN109803018A publication Critical patent/CN109803018A/zh
Application granted granted Critical
Publication of CN109803018B publication Critical patent/CN109803018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Mesos和YARN结合的DCOS云管理平台,Mesos用来管理大数据集群的所有资源,Mesos通过resources offers分配资源,调度器将使用这些资源在Mesos从服务器上运行任务,YARN用来安全的管理Hadoop任务,Mesos能够管理YARN的资源请求,DCOS云管理平台基于Mesos和YARN扩容,DCOS云管理平台由应用管理、容器集群管理、镜像仓库管理、资源整合组件、企业安全管理系统和第三方对接集成组成。本发明不仅可以在共享的集群中弹性的使用YARN,使得YARN比最初设计时更具活力和弹性。整个数据中心的扩容变得十分容易,本发明采用Mesos和YARN主要结合Hadoop大数据的相关任务进行调度,验证调度技术的复杂度,同时为将来DCOS支持大数据相关运算和大数据任务提供技术支撑。

Description

一种基于Mesos和YARN结合的DCOS云管理平台
技术领域
本发明涉及一种高性能计算的大众化转换方法,特别涉及一种基于Mesos和YARN结合的DCOS云管理平台。
背景技术
随着电网公司系统规模的不断增长,在传统架构基础上做业务增长及部署规划,不仅资源准备周期长,同时部署过程繁琐,无法如期满足业务活动需要,同时在传统架构上,结构各异的应用系统、分散的运维、复杂的部署模式,不仅加大了系统运维的难度,还使得IT资源无法按需分配,造成资源的浪费。
传统企业在“互联网+”的背景下,IT基础架构的发展要确保新技术的研究和应用与企业未来业务发展需要相一致。而今,云计算相关技术正在逐渐演化成熟。DCOS为云计算技术和数据中心资源管理打开了新的视角,也能够为智能电网做好信息化技术储备。
DCOS是数据中心操作系统,相对于传统的云计算概念来说,DCOS打开了一个全新的视野,以操作系统的角度来看待和管理数据中心中的资源。操作系统核心解决资源协调(存储、计算、网络)、任务调度、日志管理、服务编排问题。将数据中心所有资源统一在操作系统纳管。但分布式的计算资源(多台计算、存储资源)还不像传统物理机,需要跨机器调度。因此DCOS需要解决分布式调度,转移,弹性的问题,首要需要封装一个容易跨资源调度的任务封装方式。
发明内容
发明的目的在于提供一种基于Mesos和YARN结合的DCOS云管理平台,本发明不仅让你在共享的集群中弹性的使用YARN,使得YARN比最初设计时更具活力和弹性。而且,它使得数据中心的运维团队在给YARN资源扩容时无需重新配置YARN集群,整个数据中心的扩容变得十分容易,本发明采用Mesos和YARN主要结合Hadoop大数据的相关任务进行调度,验证调度技术的复杂度,同时为将来DCOS支持大数据相关运算和大数据任务提供技术支撑,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于Mesos和YARN结合的DCOS云管理平台,Mesos用来管理大数据集群的所有资源,Mesos通过resources offers分配资源,调度器将使用这些资源在Mesos从服务器上运行任务,YARN用来安全的管理Hadoop任务,Mesos能够管理YARN的资源请求,DCOS云管理平台基于Mesos和YARN扩容,其中,
DCOS云管理平台由应用管理、容器集群管理、镜像仓库管理、资源整合组件、企业安全管理系统和第三方对接集成组成,其中,
应用管理,DCOS管理平台以容器化方式运行应用,轻松实现跨主机多实例高可用部署,采用策略化的应用运维方式,以及多种可触发方式的管理机制,并且提供了可供微调的 Restart Policy 和 Reschedule Policy,而且对于不稳定应用,可以设置重启阀值,实现自动监控,主动修复,此外,可以在不间断用户访问的情况下,在应用多实例之间按顺序重启;
容器集群管理,DCOS管理平台在添加集群主机或网络存储资源时,设定标签;在部署应用时,设定调度规则,确定容器与主机之间的联系;根据Docker Swarm规则在主机之间智能调度容器;采用灵活多样的调度规则,可设置主机标签、区域或容器,将容器在全集群分散部署;
镜像仓库管理,DCOS 内置可缓存Registry,其中,应用以 YML 标准文件为基础模板,实现模板化应用一键部署,通过友好的引导流程,实现轻松自主定制应用模板,采用SSH接口,一键进入容器,采用控制台命令行操作,轻松调试应用程序,一键完成宿主机与容器的文件传输,上传/下载无需繁琐命令,并且集成了主流开发工具和构建工具;
资源整合组件,DCOS 实现在同一个界面,同时管理容器和虚拟机资源,同时管理容器化应用和虚拟机内的传统应用,避免多头管理,管理混合式分布应用,一部分在容器,一部分在虚拟机,对Oracle、SAP等重型应用实现差异化管理,可以接入VMware,OpenStack和AWS;
企业安全管理系统,DCOS支持多租户模式,并且具有团队与空间设定,可以实现基于群组的应用隔离,此外,针对企业安全需求,DCOS提供了五级用户权限,保证平台安全性,便于管理;
第三方对接集成,DCOS能够轻松对接第三方监控平台,实现监控日志的统一集中处理,在应用与容器的监控面板提供了图表形式的监控,可实时查看处理器、内存、网络、存储的数据,应用与容器的日志面板提供日志查看,便捷查看日志信息,此外,还需支持自动监控并检测容器主机状态,并提供故障预警功能,支持便捷可视化监控查看主机性能和实时数据。
进一步地,DCOS云管理平台还包括DCOS资源管理模块、DCOS监控管理模块、DCOS弹性伸缩调度模块、统一日志和监控中心、持续集成平台、运维管理模块、DCOS集成及应用方案。
进一步地,DCOS资源管理模块包括应用编排、网络管理、主机管理和存储管理。
进一步地,DCOS监控管理模块包括权限管理和监控与日志。
进一步地,DCOS弹性伸缩调度模块包括弹性伸缩和负载均衡。
进一步地,统一日志和监控中心包括微服务运维管理。
进一步地,持续集成平台包括应用部署、应用模板和镜像管理。
进一步地,运维管理模块包括模块中心、配置管理、运行维护管理、容灾方案设计。
进一步地,DCOS集成及应用方案包括4A系统集成、移动应用平台应用方案。
进一步地,YARN可以看做是Mapreduce的升级版本,将JobTracker的资源管理和任务调度分为两个独立的组件:Scheduler和ApplicationsManager。
与现有技术相比,本发明的有益效果是:本发明提出的基于Mesos和YARN结合的DCOS云管理平台,本发明一方面使用Mesos来管理大数据集群的所有资源,另一方面使用YARN来安全的管理Hadoop任务,当一个任务到达YARN时,它会通过调度器调度它,使请求与Mesos提供的资源匹配。相应的,Mesos也会将它传递给Mesos工作节点。在Mesos资源启动YARN节点管理器,启动之后,Mesos资源会告诉YARN资源管理器哪些资源可用。不仅让可以在共享的集群中弹性的使用YARN,使得YARN比最初设计时更具活力和弹性。而且,它使得数据中心的运维团队在给YARN资源扩容时无需重新配置YARN集群。整个数据中心的扩容变得十分容易,本发明采用Mesos和YARN主要结合Hadoop大数据的相关任务进行调度,验证调度技术的复杂度,同时为将来DCOS支持大数据相关运算和大数据任务提供技术支撑。
附图说明
图1为本发明的DCOS平台总体架构图;
图2为本发明的DCOS管理平台的应用架构图;
图3为本发明的基于DCOS的网络方案整体架构图;
图4为本发明的自动伸缩的架构图;
图5为本发明的DCOS负载均衡方案整体架构图;
图6为本发明的DCOS的日志管理方案架构如图;
图7为本发明的镜像仓库部署架构图;
图8为本发明的容器的封装标准-容器镜像图;
图9为本发明的4A系统集成原理图;
图10为本发明的移动应用平台架构图;
图11为本发明的具体实施内容图;
图12为本发明的Mesos主从服务器调度资源的顺序图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于Mesos和YARN结合的DCOS云管理平台,Meso决定了那些资源可用,把分配请求返回给一个应用调度器(应用调度器和执行器被称作“框架”)。这些分配请求被框架接受或者拒绝。Mesos允许任何实现任何调度算法,每个算法都能根据自己的策略进行接收或是拒绝分配请求,并且可以容纳成千上万种调度程序以多租户的方式运行在同一个集群,Mesos的两级调度模型允许每个框架(自己)决定使用哪种算法来调度运行的工作。Mesos扮演仲裁者,在多个调度器上来调度资源,解决冲突,并且确保资源基于业务策略被公平地分发。分配请求到来时,框架会执行任务来消费那些提供的资源。或者框架可以选择拒绝请求并且等待下一个分配请求。这种模型的好处在于它具有良好的扩展性。
当job请求到达YARN资源管理器,YARN评估所有可用的资源然后调度job。YARN以一种整体的方式,直接决定job运行的位置。为了调度Hadoop任务,YARN进行了优化(过去一贯的Hadoop任务是持续一段时间的批处理任务)。这意味着YRAN既不是为长时间运行的服务而设计,也不是为满足短期交互/快速响应式请求(像简短而快速的Spark任务),尽管它可能调度其他种类的工作任务,但这并不是一个理想的模型。MapReduce的资源需求、执行模型和架构需求不同于长时间运行的服务。同时,YARN为了易于无状态的脚本任务重启而设计。它并不能处理像分布式文件系统或数据库那样的有状态的服务。
本发明一方面使用Mesos来管理大数据集群的所有资源,另一方面使用YARN来安全的管理Hadoop任务,既是一个Mesos框架,又是一个YARN调度器,这就使得Mesos能够管理YARN的资源请求。当一个任务到达YARN时,它会通过调度器调度它,使请求与Mesos提供的资源匹配。相应的,Mesos也会将它传递给Mesos工作节点。之后,这个Mesos节点会把这个请求与一个正在执行YARN节点的管理器的执行器关联。在Mesos资源启动YARN节点管理器,启动之后,Mesos资源会告诉YARN资源管理器哪些资源可用。这时候YARN就可以随意地使用这些资源。
这种做法的优点是,它不仅让你在共享的集群中弹性的使用YARN,使得YARN比最初设计时更具活力和弹性。而且,它使得数据中心的运维团队在给YARN资源扩容时无需重新配置YARN集群。整个数据中心的扩容变得十分容易。该模型提供了一种简单的方式运行和管理多个YARN的实现,甚至在同一个集群上运行多个不同版本的YARN。
DCOS云管理平台由应用管理、容器集群管理、镜像仓库管理、资源整合组件、企业安全管理系统和第三方对接集成组成,同时,通过云平台的开放REST API 接口,还可以将现有的周边系统接入云平台,供平台及应用使用,DCOS平台总体架构如图1,其中,应用管理,DCOS管理平台以容器化方式运行应用,轻松实现跨主机多实例高可用部署,采用策略化的应用运维方式,以及多种可触发方式的管理机制,并且提供了可供微调的 RestartPolicy 和 Reschedule Policy,而且对于不稳定应用,可以设置重启阀值,实现自动监控,主动修复,此外,可以在不间断用户访问的情况下,在应用多实例之间按顺序重启。DCOS管理平台的此项特性让应用运维更加简单,避免了人工重启,或被动处理应用故障,解决了DCOS管理平台本身因为内存泄漏、代码故障等导致的稳定性问题, 实现了高可用和负载均衡相结合,极大降低了企业的配置管理成本,使产品具备了自动化能力。几乎适用于所有应用,特别是NodeJS等常见的内存泄漏顽症。对于基础设施提供HA能力,降低了开发和运维成本。
容器集群管理,DCOS管理平台在添加集群主机或网络存储资源时,设定标签;在部署应用时,设定调度规则,确定容器与主机之间的联系;根据Docker Swarm规则在主机之间智能调度容器;采用灵活多样的调度规则,可设置主机标签、区域或容器,拥有多种容器部策略如binpack、spread、random等等;将容器在全集群分散部署;DCOS的此项特性通过合理设置调度区域,实现了较为复杂的平台内调度逻辑,利用多部门资产管理,对应容器内业务应用与底层资源的明确关系。将交互密切的容器调度在一起,提升了性能,共享文件和 IO,可以同时管理多种异构设备(如GPU,SSD),并调度管理,实现跨地域的调度策略,并且可以设置主机为维护节点,实现灵活的硬件维护和更换。
镜像仓库管理,DCOS 内置可缓存Registry,其中,应用以YML标准文件为基础模板,实现模板化应用一键部署,通过友好的引导流程,实现轻松自主定制应用模板,采用SSH接口,一键进入容器,采用控制台命令行操作,轻松调试应用程序,一键完成宿主机与容器的文件传输,上传/下载无需繁琐命令,并且集成了主流开发工具和构建工具;DCOS的该项特性实现了Docker镜像的高速加载,避免了重复下载和带宽浪费。实现快速精确定位应用Bug;提高了应用开发速度,提高了代码质量。完美地接入持续集成、持续部署流程。
资源整合组件,DCOS 实现在同一个界面,同时管理容器和虚拟机资源,同时管理容器化应用和虚拟机内的传统应用,避免多头管理,管理混合式分布应用,一部分在容器,一部分在虚拟机,对Oracle、SAP等重型应用实现差异化管理,可以接入VMware,OpenStack和AWS;DCOS的该项特性为用户提供了更多选择,将服务灵活地部署在容器或者是虚拟机之上,大大降低了管理复杂度和迁移成本,实现渐进式过渡;通过统一管理容器和虚拟机,兼容现有软硬件资产投入;实现IaaS层和PaaS层的统一管理,降低系统运维复杂性。
企业安全管理系统,DCOS支持多租户模式,并且具有团队与空间设定,可以实现基于群组的应用隔离,此外,针对企业安全需求,DCOS提供了五级用户权限,保证平台安全性,便于管理;DCOS完善的权限系统保证企业信息安全,并且实现了组织间团队的协作。
第三方对接集成,DCOS能够轻松对接第三方监控平台,实现监控日志的统一集中处理,在应用与容器的监控面板提供了图表形式的监控,可实时查看处理器、内存、网络、存储的数据,应用与容器的日志面板提供日志查看,便捷查看日志信息,此外,还需支持自动监控并检测容器主机状态,并提供故障预警功能,支持便捷可视化监控查看主机性能和实时数据。DCOS同时定制化对接南方电网的4A系统,实现DCOS和4A系统支持用户及组织机构同步,DCOS管理平台中的用户及组织机构信息与4A保持一致性。DCOS管理平台通过4A进行单点登录。
模块和开发者中心,DCOS管理平台提供模块商店,支持多种模块以扩展DCOS管理平台的功能。包括监控工具、存储系统、容器工具、持续集成、公有云、负载均衡、日志管理、硬件管理、虚拟化平台、Web服务器10类模块,提供手动和自动化一键部署能力。
DCOS管理平台的应用架构如图2所示,用户可以在普通x86服务器上快速创建DCOS容器集群管理平台,产品对硬件无特殊要求,支持各类物理机、虚拟机和云主机,适配主流Linux 发行版,支持 Windows 系统平台,可与 vSphere、OpenStack、云平台 API 实现自动化部署,支持超融合设备,无缝对接各类存储和网络基础架构,实现集群管理版本平滑升级,不影响平台数据且无需重启容器主机。DCOS以容器化方式运行应用,轻松实现跨主机多实例高可用部署,采用策略化的应用运维方式,以及多种可触发方式的管理机制,并且提供了可供微调的 Restart Policy 和 Reschedule Policy,而且对于不稳定应用,可以设置重启阀值,实现自动监控,主动修复,此外,可以在不间断用户访问的情况下,在应用多实例之间按顺序重启。
DCOS云管理平台还包括DCOS资源管理模块、DCOS监控管理模块、DCOS弹性伸缩调度模块、统一日志和监控中心、持续集成平台、运维管理模块、DCOS集成及应用方案。
DCOS资源管理模块包括应用编排、网络管理、主机管理和存储管理,其中,
应用编排
DCOS提供了应用可视化编排部署的相关管理功能,包括拓扑可视化、组件可视化、配置可视化等核心功能。在此基础之上,DCOS还提供了F5、数据库、DNS、软件负载均衡等常见平台组件及服务的封装功能,实现组件的配置管理、可视化编排支持等功能。
DCOS支持的编排功能有:
应用模板管理与认证:应用模板管理功能支持应用模板新建、删除、修改等操作。同时DCOS 提供了更为丰富的应用模板管理能力,比如批量上传应用模板、添加/修改模板变量、展示和修改应用模板描述信息、展示模板与相关应用的关联情况、提供从模板部署应用的向导、支持模板分类和搜索。模板功能还支持验证公有/私有模板,并且支持模板权限配置,设定访问权限。
应用编排管理:DCOS 的应用编排管理功能较为丰富。不仅支持与数据库、F5 等周边系统混编,还支持更为完善的应用编排管理能力,比如支持Docker Compose v1/v2 编排标准、支持图形化展示编排、同时编排基础设施资源、支持编排时指定日志策略/调度策略、支持图形化修改和维护编排。
应用配置管理:DCOS可以为应用编排设置应用程序日志、应用端口等配置信息。
容器信息查询:DCOS支持用户以应用系统为维度,查看应用中容器名称、软件版本、配置信息、所属应用、所属宿主机、运行状态等信息。同时DCOS 根据企业级用户的需求,展示更多可用信息,包括镜像层级信息、镜像改动记录、容器内进程信息、容器网络信息、容器存储信息、应用/容器操作审计日志信息、应用可视化拓扑以及编排信息等。
容器操作功能:在编排功能下,DCOS提供了常用的应用容器操作功能,包括启动、停止、创建、删除等。并且DCOS为了方便企业级用户的操作,额外提供了更为丰富的容器操作功能,包括从容器内下载文件、向容器上传文件、支持打开容器内部Shell 控制台、支持从容器一键制作新镜像、重启容器、暂停以及恢复容器、在不中断容器内业务服务的情况下修改容器资源配额。
负载均衡展示:DCOS 提供内置负载均衡,并能够展示应用整体负载情况,同时DCOS 可对接F5 等外部负载均衡系统或设备,并且支持提供应用级别的负载均衡,应对微服务架构。
服务到容器的自动负载分发:DCOS 负载均衡默认采用Linux 内核中的LVS 技术,相对于其他软件负载性能较高,并且负载均衡可以配置SSL 证书,当服务的容器扩展后,负载均衡可以自动发现后端服务变化并自动适配,负载均衡可提供多种负载策略,可以通过环境变量进行配置,具备会话保持的功能。
版本管理/灰度发布:针对企业级发布应用的场景,DCOS 支持应用版本升级时对各集群进行灰度升级,保证业务的不间断运行,同事DCOS 还支持更高级的灰度发布选项,比如设定并行发布实例数、设置发布失败后的错误处理机制、配置发布时旧版本实例优雅下线策略。
网络管理
DCOS完全支持Docker的标准容器网络模型(Container Network Model,简称CNM),只要符合CNM模型的网络插件都可以被 DCOS 接入用于管理容器间网络通信。DCOS目前产品内置支持的网络技术包括:Bridge 本地网络、Overlay 虚拟网络、Macvlan网络、IPvlan网络,同时可以通过插件支持Contiv、Kuryr和Weave。基于DCOS的网络方案整体架构如图3。
DCOS 与Docker 原生网络解决方案
DCOS平台支持所有docker原生网络方案,包括bridge、host、macvlan、overlay等。
bridge 网络模式:bridge网络提供单主机内容器间网络通信,在同一台主机内使用bridge模式的容器可以相互通信,但无法跨主机通信。
host 网络模式:host网络模式可以通过映射端口的形式通过访问宿主机的映射端口访问主机内容器。可以使用host网络模式进行跨主机通信。
overlay 网络模式:overlay网络模式为容器集群提供一个全局的虚拟网络,基于该网络容器可以在集群中的各节点进行迁移。
主机管理
可以兼容企业数据中心网络里主流的X86物理服务器设备,虚拟机技术(VMware,Xen,KVM等)以及私有云环境(Openstack等)。并且支持虚拟化+容器双引擎管理(支持虚拟机和容器统一管理,支持vSphere,AWS和Openstack控制面板。
存储管理
可以兼容企业数据中心网络里存在的多种存储技术,传统集中式存储架构和分布式存储架构。兼容国内外主流存储设备。能够支持本地本地存储卷挂在和外部存储卷挂在两种模式,同时提供对持久卷的集中管理的能力。支持 Docker原生存储能力,灵活接入包括NAS/NFS/Gluster在内的多种存储扩展方案。支持通过图形化界面创建和管理容器数据卷。支持容器数据快照备份和数据保护。根据实际应用容器化的存储需求进行存储sizing。为容器的数据提供一个高可靠,高性能的存储服务。
DCOS监控管理模块包括权限管理和监控与日志,其中,
权限管理
DCOS管理平台支持五级角色控制权限(以下顺序权限由高到低):
管理员:对任意的资源拥有任何权限。除了对容器、网络、存储等资源有完全控制权限外,对组织、用户等同样拥有最高权限。另外,对整个DCOS管理平台系统环境拥有完备的配置管理权限。
普通权限:除了组织、用户、DCOS管理平台配置权限外,对DCOS管理平台管辖内的任意资源有完整权限,包括:创建,重启,删除,查看容器、网络、存储等。这是管理员之外的最高权限。
受限权限:在全控制权限的基础上,受到部分的限制。比如容器的privilige权限授予,宿主机文件的挂载,以及其他一些特殊的敏感操作。
仅查看权限:面对资源,只有查看的权限,并不更新权限。
无权限:对资源或者平台没有任何权限。
DCOS管理平台除了为个人用户设置不同权限之外,也支持为团队设置权限,为团队成员的权限管理提供了便利。您可以在DCOS管理平台中创建团队、邀请成员加入团队和删除团队等操作。DCOS管理平台支持多租户管理,为租户分配CPU和内存资源配额,可为租户分配许可团队。支持租户SLA设置,可设置专属主机或者主机集群。
监控与日志
在集群管理中,经常需要查看集群状态、集群中的容器状态和集群中的网络状态等,通过查看这些信息能快速判断当前容器集群是否正常运行,同时,也可以在发生错误时进行错误定位。这里,将向用户介绍如何使用DCOS管理平台控制台查看各类集群状态信息,以及如何使用DCOS管理平台运维套件手动查看各类集群状态信息。
查看集群状态,用户可以浏览器访问DCOS管理平台主控节点进入DCOS管理平台控制台。在这里,用户能够查看到集群整体状态。用户可以看到当前容器集群部署的应用,容器,用户网络和存储卷。还可以看到,当前容器集群已经接入的主机。在系统信息栏,我们还能看到容器集群控制器的相关信息,如集群是否健康、控制器所在主机的 IP 地址。
查看日志,在容器集群的运行过程中,会发生大量的事件,DCOS管理平台通过日志记录了集群运行的相关信息。通过查看日志,能够快速完成故障定位、状态查看等操作。DCOS管理平台控制台提供了容器日志和应用日志,分别通过容器页面和应用页面查看。应用日志记录了应用运行时的日志,包含与应用相关的每个容器的日志、以及拉取镜像等事件的日志。
应用资源监控,DCOS 提供了监控应用资源占用情况的功能,可以监控应用的CPU、内存、网络和存储资源的占用情况。
应用审计日志,DCOS审计日志记录了应用的每一次操作,包括创建应用、更新应用、启动应用等。
系统告警
系统告警:根据设置的告警策略,会产生相应的告警,可以在DCOS监控中心中查看。
知悉已触发的告警:在 DCOS 中知悉告警后,告警既不会清除也不会重置。知悉告警可以让其他用户了解到您正着手解决此问题。
重置已触发的告警:在 DCOS 中重置告警后,会将该告警置为已解决状态,当再次触发该告警时,会重新发送邮件给指定邮件收件人。
设置告警:DCOS 提供设置邮件收件人和告警策略的功能。
启用与警用告警策略:DCOS 预置了一组告警策略,根据需要可以启用或禁用相应的告警策略。
指定邮件收件人:DCOS 支持配置告警邮件收件人,当产生告警或告警状态发生变化时,会发送邮件通知邮件收件人。(需要预先配置了邮件服务器,才能设置邮件收件人)
DCOS弹性伸缩调度模块包括弹性伸缩和负载均衡,其中,
弹性伸缩,是根据不同的业务需求与策略,自动调整应用的弹性计算资源,最终达到优化资源组合的服务能力。通过自动伸缩和手动伸缩 这两种工作模式,应用便能在无运维人员介入的情况下实现自动调整计算资源,当访问量上涨时增加计算能力,而当访问量下降时减小计算能力,既保障了系统的稳定性与高可用性,又节约了计算资源成本。
弹性伸缩在业界有两个方向,一个是垂直化的扩展(Scale up),一个水平化的扩展(Scale out)。从业务发展的角度来看应该是水平扩展的能力,这要求业务都是无状态的,通过负载均衡技术将访问请求分配到集群每一台机器上,不管是增加还是减少机器,业务的连续性都不应受到影响。
DCOS的弹性伸缩策略,DCOS同时支持自动伸缩和手动伸缩两种策略,自动伸缩方面,对于不同的应用,DCOS 通过平台内置的弹性伸缩引擎来灵活地提供弹性伸缩功能。 目前,DCOS 的弹性伸缩策略支持从内存、CPU负载、线程池剩余线程数、会话数等维度来进行弹性扩缩容。自动伸缩的架构如图4。
相比较其他平台的弹性伸缩功能,DCOS 平台的弹性伸缩具备如下特点:
容器化部署,最高程度提高部署的灵活度。弹性伸缩作为DCOS的一个模块,通过应用模板的方式容器化部署,可以做到针对每个服务提供不同的弹性伸缩策略而不会相互影响。
伸缩策略灵活且可定制化。弹性伸缩和应用紧密耦合,根据不同应用的特点和表现需要设定不同的弹性策略,DCOS的弹性伸缩内置根据容器资源(CPU和内存使用情况)和中间件资源(Tomcat的线程数和会话数),除此之外,用户可灵活设置应用特定的弹性策略如MySQL数据库并发量、应用的网络连接数等。
开放接口,方便二次开发。DCOS 完全兼容Docker原生API,同时还提供平台相应的二次开发API,DCOS自动伸缩模块也是根据DCOS的API进行开发而成。如用户需要根据平台进行深度二次定制开发,DCOS 弹性伸缩模块可以很好支持和对接。
伸缩资源广泛,粒度可调。DCOS应用平台提供南向北向的集成,除容器管理功能外,DCOS 可以很好集成Vmware和Openstack实现对虚机的动态创建和管理。因此,根据应用的需求,DCOS 自动伸缩模块可以进行多个维度的动态伸缩。
负载均衡,DCOS 支持两种负载均衡方案:7层负载均衡和4层负载均衡,需要在不同的应用场景下选用不同的负载均衡方案。DCOS负载均衡方案整体架构如图5所示。
统一日志和监控中心包括微服务运维管理,其中,
微服务运维管理,DCOS 通过与ELK对接,实现了日志解决方案,ELK 可以在页面上配置收集日志的协议与端口,一般选用syslog 的方式收集日志。Docker 提供了LogDriver,可以将容器内主进程的日志信息发送,支持 syslog、GELF、Splunk 等协议。DCOS的日志管理方案架构如图6。
持续集成平台包括应用部署、应用模板和镜像管理,其中,
应用部署,DCOS管理平台为用户提供了方便地应用部署方式,用户可以通过DCOS管理平台安装、部署并管理所有的 Docker应用,包括私有云和公有云环境。
应用模板,DCOS内置了定制化的应用商店,能够与SaaS和容器化生态对接。从而实现一键式部署容器应用。环境的应用和集群环境快速搭建。形成数据中心的数据库,内存对象,负载均衡,中间件服务,微服务支撑,持续集成服务,大数据服务、深度学习服务,消息队列服务等一共95种服务模板,常用的有tomcat,redis,mysql,mongodb,Rabbitmq,nginx,haproxy,websphere,weblogic,hbase,storm,hive,dubbo,gitlab等。
用户也可将自己的容器化应用通过编排后放到应用商店中。支持应用模板下载,离线和批量导入。用户可以创建、编辑、查看、分类应用模板。DCOS应用商店界面支持对应用模板进行搜索操作。
镜像管理,镜像仓库部署架构如图7,镜像仓库是容器软件安装部署的重要部分,在该部分的研究中会重点从以下几个方面展开:
镜像仓库的存储后端:目前支持的后端存储包括本地存储、AWS S3。
镜像仓库的权限控制:镜像仓库缺省是没有任何安全权限控制的,任何人都可以拉取和上传镜像,镜像的安全和版本控制很难控制,提供相应的镜像权限控制。
镜像仓库的部署形态:DCOS镜像仓库以容器的方式部署。
容器的封装标准-容器镜像,如图8,容器镜像就是一个只读的模板,例如:一个容器镜像可以包含一个的 ubuntu 操作系统环境,里面仅安装了 Apache 或用户需要的其它应用程序。容器引擎可以基于容器镜像来创建和运行容器。Docker 定义了一套标准的机制来创建镜像或者更新现有的镜像,用户甚至可以直接从其他人那里下载一个已经做好的镜像来直接使用。从整体的角度来讲,一个完整的Docker镜像可以支撑一个Docker容器的运行,在 Docker容器运行过程中主要提供文件系统视角。例如一个ubuntu:14.04的镜像,提供了一个基本的ubuntu:14.04的发行版,当然此镜像是不包含操作系统Linux内核的。
运维管理模块包括模块中心、配置管理、运行维护管理、容灾方案设计,其中,
模块中心,DCOS模块是由第三方提供的增强 DCOS 功能的组件。每一个模块都是一个功能完整且独立的 Docker 镜像。模块让更多的人能参与到 DCOS 的开发中,从而实现容器无处不在的理想。
配置管理
定制化外观
DCOS支持自定义外观,可在DCOS图形界面灵活定制平台外观,包括平台显示名称。登录页图标,导航栏图标,浏览器图标,可打开或关闭登录页动画效果等。提供个性化的界面。
集群调度参数
DCOS图形化界面可配各种集群参数,例如各节点接入令牌参数、部署应用默认参数(包括资源和端口推荐)、集群调度参数(保留历史任务数,心跳间隔,证书超时时间)、一致性算法参数和集群高可用
API密钥
DCOS在安全中心中提供密钥管理功能,用于访问开放API和持续发布。可创建access key、secretkey等参数。
运行维护管理
快速部署与升级:
DCOS平台为容器化交付,通过导入DCOS容器镜像完成离线安装。在Docker环境中只需一条命令即可完成DCOS管理节点部署。其余节点扩容同样通过一条接入命令即可完成。在升级新版本时候,在DCOS管理界面上提供一键升级按钮完成集群平台升级。
故障排除:
可在DCOS节点上一键dump日志和dcos系统信息。
安全访问:
DCOS通过HTTPS加密访问,在DCOS的设置界面中可以配置和管理SSL私钥,SSL证书。同时也可以选择开关来关闭HTTPS访问改为HTTP访问。
DCOS集成及应用方案包括4A系统集成、移动应用平台应用方案,其中,
4A系统集成
操作系统涉及到资源管理、任务分配。因此还需要有响应的用户及权限认证模块。目前采用了4A技术平台作为用户/鉴权的统一技术平台,因此DCOS设计时,用户和鉴权需要与4A平台进行集成。由于在技术层级上,4A技术平台是应用层面内容,因此集成方式不同于传统的4A集成。而是需要底层集成(管理平台不集成,即不需要从4A登录DCOS管理控制台),原理如图9。
移动应用平台应用方案
移动应用平台架构如图10,从图中可见,移动应用平台涉及到了移动前置服务的云化管理。需要调度云化资源,满足移动应用的资源需求,同时需要进行任务在这些资源上的调度。图中云化管理层的部署、监控、弹性调度正是对数据中心资源进行调度的内容。
本发明利用DCOS更加强大的资源调度管理能力,为移动平台带来更强的管控能力。DCOS能够成为移动前置数据中心的管理层,为移动应用平台提供弹性调度能力。具体实施内容如图11:移动前置数据中心主要验证DCOS资源管理能力、弹性调度能力。应用的范围明确,即在增加了DCOS管理后,是否能够有效支持(或加强)移动应用平台对资源的管理和分配需求(即DCOS提供的接口,是否能够应用于目前移动应用平台目前的管理模块功能)。
Mesos通过"resources offers" 分配资源,资源其实是当前可用资源的一个快照,调度器将使用这些资源在mesos从服务器上运行任务。
Mesos主从服务器调度资源的顺序如图12,首先由Mesos主服务器查询可用资源给调度器,第二步调度器向主服务器发出加载任务,主服务器再传达给从服务器,从服务器向执行器命令加载任务执行,执行器执行任务以后,将状态反馈上报给从服务器,最终告知调度器。虽然Messos也是一个通用的调度框架,但就目前业界路线分析来看,Messos调度Docker相对引入了较多的第三方技术,例如持续任务执行的marathon,集群负载均衡的Haproxy,分布式协调zookeeper,可以认为Messos调度是一个开源技术群,虽然Messos支持多种框架调度,但是从技术路线上来看,DCOS调度更多针对的是资源封装单元(Docker),引入更多的开源技术,增加了架构复杂度,目前也没有特定业务的调度需要使用Messos来进行,因此本发明,仅仅将Messos调度的框架,限定于大数据相关任务。
大数据Mapreduce框架的工作流程如下;用户提交一个job,job的信息会发送到jobTracker中,JobTracker是Map-Reduce框架的中心,需要与集群中的机器定时通讯(hearbeat),需要管理那些程序应该跑在那些机器上,需要管理所有job失败、重启等操作。
TaskTracker是Map-Reduce集群中每台机器都有的一个部分,作用主要是监视自己所在机器的资源情况,TaskTracker同时监控当前机器的tasks运行情况。TaskTracker需要把这些信息通过hearbeat发送给JobTracker,JobTracker会搜集这些信息已给新提交的job分配运行在那些机器上。上述可以看到,JobTracker在Hadoop体系中既要分配资源,又要管理应用程序,又要处理异常,一旦JobTracker宕机出现单点故障,整个集群就要崩掉,这对生产环节来说就是灾难。JobTracker承担了太多的负担,也占用了很大的系统资源。并且在taskTracker端,以Map/reduce task的数据作为资源的表示过于简单,没有考虑到CPU/MEM的占用情况,如果两个大内存消耗的task被调度到了一块,很容易出现OOM。而且把资源强制划分为map task slot和reduce task slot,如果当系统中只有map task或者只有reduce task的时候,会变成资源的浪费,也就是出现集群资源利用的问题。YARN可以看做是Mapreduce的升级版本,将JobTracker的资源管理和任务调度/监控分为两个独立的组件:Scheduler 和 ApplicationsManager,原框架中核心的JobTracker和TaskTracker不见了,取而代之的是ResourceManager、ApplicationMaster与NodeManager三部分。所以YARN的调度在Hadoop大数据体系上,具有更加明显的优势。为了增强DCOS的适应性,同时也为了验证Messos这种调度框架的能力,项目中将Messos用来结合Hadoop来完成大数据任务的调度支持。利用插件方式,提供Messos调度Hadoop能力,支持Hadoop的job执行,以此验证Messos和YARN的调度能力和技术细节。
简单来说,Mesos就是选择调度框架,复杂度增加。而YARN则是自动选择框架的调度方式,无论是否合适。由于本发明主要是针对DCOS本身的开发和实施,因此需要研究的是资源的调度方式,本发明将Messos和YARN纳入研究和集成范围。
综上所述,本发明提出的基于Mesos和YARN结合的DCOS云管理平台,本发明一方面使用Mesos来管理大数据集群的所有资源,另一方面使用YARN来安全的管理Hadoop任务,当一个任务到达YARN时,它会通过调度器调度它,使请求与Mesos提供的资源匹配。相应的,Mesos也会将它传递给Mesos工作节点。之后,这个Mesos节点会把这个请求与一个正在执行YARN节点的管理器的执行器关联。在Mesos资源启动YARN节点管理器,启动之后,Mesos资源会告诉YARN资源管理器哪些资源可用。这时候YARN就可以随意地使用这些资源。不仅可以在共享的集群中弹性的使用YARN,使得YARN比最初设计时更具活力和弹性。而且,它使得数据中心的运维团队在给YARN资源扩容时无需重新配置YARN集群。整个数据中心的扩容变得十分容易,本发明采用Mesos和YARN主要结合Hadoop大数据的相关任务进行调度,验证调度技术的复杂度,同时为将来DCOS支持大数据相关运算和大数据任务提供技术支撑。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,Mesos用来管理大数据集群的所有资源,Mesos通过resourcesoffers分配资源,调度器将使用这些资源在Mesos从服务器上运行任务,YARN用来安全的管理Hadoop任务,当一个任务到达YARN时,YARN会通过调度器调度Hadoop,使请求与Mesos提供的资源匹配,相应的,Mesos也会将Hadoop任务传递给Mesos工作节点,在Mesos资源启动YARN节点管理器,启动之后,Mesos资源会告诉YARN资源管理器哪些资源可用;将Messos用来结合Hadoop来完成大数据任务的调度支持,利用插件方式,提供Messos调度Hadoop能力,支持Hadoop的job执行;Mesos能够管理YARN的资源请求,DCOS云管理平台基于Mesos和YARN扩容,其中,
DCOS云管理平台由应用管理、容器集群管理、镜像仓库管理、资源整合组件、企业安全管理系统和第三方对接集成组成,其中,
应用管理,DCOS管理平台以容器化方式运行应用,轻松实现跨主机多实例高可用部署,采用策略化的应用运维方式,以及多种可触发方式的管理机制,并且提供了可供微调的RestartPolicy和ReschedulePolicy,而且对于不稳定应用,可以设置重启阀值,实现自动监控,主动修复,此外,可以在不间断用户访问的情况下,在应用多实例之间按顺序重启;
容器集群管理,DCOS管理平台在添加集群主机或网络存储资源时,设定标签;在部署应用时,设定调度规则,确定容器与主机之间的联系;根据DockerSwarm规则在主机之间智能调度容器;采用灵活多样的调度规则,可设置主机标签、区域或容器,将容器在全集群分散部署;
镜像仓库管理,DCOS内置可缓存Registry,其中,应用以YML标准文件为基础模板,实现模板化应用一键部署,通过友好的引导流程,实现轻松自主定制应用模板,采用SSH接口,一键进入容器,采用控制台命令行操作,轻松调试应用程序,一键完成宿主机与容器的文件传输,上传/下载无需繁琐命令,并且集成了主流开发工具和构建工具;
资源整合组件,DCOS实现在同一个界面,同时管理容器和虚拟机资源,同时管理容器化应用和虚拟机内的传统应用,管理混合式分布应用,一部分在容器,一部分在虚拟机,对Oracle、SAP重型应用实现差异化管理,可以接入VMware,OpenStack和AWS;
企业安全管理系统,DCOS支持多租户模式,并且具有团队与空间设定,可以实现基于群组的应用隔离,此外,针对企业安全需求,DCOS提供了五级用户权限,保证平台安全性,便于管理;
第三方对接集成,DCOS能够轻松对接第三方监控平台,实现监控日志的统一集中处理,在应用与容器的监控面板提供了图表形式的监控,可实时查看处理器、内存、网络、存储的数据,应用与容器的日志面板提供日志查看,便捷查看日志信息,此外,还需支持自动监控并检测容器主机状态,并提供故障预警功能,支持便捷可视化监控查看主机性能和实时数据。
2.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,DCOS云管理平台还包括DCOS资源管理模块、DCOS监控管理模块、DCOS弹性伸缩调度模块、统一日志和监控中心、持续集成平台、运维管理模块、DCOS集成及应用方案。
3.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,DCOS资源管理模块包括应用编排、网络管理、主机管理和存储管理。
4.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,DCOS监控管理模块包括权限管理和监控与日志。
5.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,DCOS弹性伸缩调度模块包括弹性伸缩和负载均衡。
6.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,统一日志和监控中心包括微服务运维管理。
7.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,持续集成平台包括应用部署、应用模板和镜像管理。
8.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,运维管理模块包括模块中心、配置管理、运行维护管理、容灾方案设计。
9.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,DCOS集成及应用方案包括4A系统集成、移动应用平台应用方案。
10.根据权利要求1所述的一种基于Mesos和YARN结合的DCOS云管理平台,其特征在于,YARN为Mapreduce的升级版本,将JobTracker的资源管理和任务调度分为两个独立的组件:Scheduler和ApplicationsManager。
CN201910068215.XA 2019-01-24 2019-01-24 一种基于Mesos和YARN结合的DCOS云管理平台 Active CN109803018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910068215.XA CN109803018B (zh) 2019-01-24 2019-01-24 一种基于Mesos和YARN结合的DCOS云管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910068215.XA CN109803018B (zh) 2019-01-24 2019-01-24 一种基于Mesos和YARN结合的DCOS云管理平台

Publications (2)

Publication Number Publication Date
CN109803018A CN109803018A (zh) 2019-05-24
CN109803018B true CN109803018B (zh) 2022-06-03

Family

ID=66560288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910068215.XA Active CN109803018B (zh) 2019-01-24 2019-01-24 一种基于Mesos和YARN结合的DCOS云管理平台

Country Status (1)

Country Link
CN (1) CN109803018B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321152B (zh) * 2019-07-04 2023-08-29 青岛华正信息技术股份有限公司 一种软件开发平台
CN110391942A (zh) * 2019-07-30 2019-10-29 中国联合网络通信集团有限公司 服务管理平台及服务管理方法
CN110532074B (zh) * 2019-08-08 2021-11-23 北明云智(武汉)网软有限公司 一种多租户模式SaaS服务集群环境的任务调度方法及系统
CN110505085B (zh) * 2019-08-14 2021-06-29 济南浪潮数据技术有限公司 一种网络插件适配方法及装置
CN110750331B (zh) * 2019-10-21 2023-06-09 北京华育兴业科技有限公司 一种针对教育桌面云应用的容器集群调度方法及平台
CN110806916B (zh) * 2019-11-05 2024-01-26 北京金和网络股份有限公司 实现saas平台各租户个性化登录页的方法及系统
CN110990458B (zh) * 2019-12-03 2023-04-18 电子科技大学 分布式数据库系统、接口通信中间件
CN110968427A (zh) * 2019-12-05 2020-04-07 北京京东尚科信息技术有限公司 集群资源的控制方法、装置和云计算系统
CN111158855B (zh) * 2019-12-19 2023-06-23 中国科学院计算技术研究所 一种基于微容器及云函数的轻量虚拟化裁剪方法
CN111158856A (zh) * 2019-12-20 2020-05-15 天津大学 一种基于Docker的容器可视化系统
CN111190580B (zh) * 2019-12-25 2021-06-08 湖北普罗劳格科技股份有限公司 一种基于微服务架构的菠菜云技术平台
CN111190738B (zh) * 2019-12-31 2023-09-08 北京仁科互动网络技术有限公司 多租户体系下的用户镜像方法、装置及系统
CN111262727B (zh) * 2020-01-08 2023-04-07 广州虎牙科技有限公司 服务的扩容方法、装置、设备及存储介质
CN111209087B (zh) * 2020-01-15 2024-01-30 南京中新赛克科技有限责任公司 一种基于Docker的大数据学习平台搭建方法
CN111414381B (zh) * 2020-03-04 2021-09-14 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111541746B (zh) * 2020-04-09 2022-04-15 哈尔滨工业大学 面向用户需求变化的多版本并存的微服务自适应方法
CN111816277B (zh) * 2020-07-16 2021-11-19 张健 用户信息管理方法、医疗信息管理系统及主信息管理端
CN112241313B (zh) * 2020-10-27 2022-04-12 浪潮云信息技术股份公司 基于Ambari的Hadoop集群多租户管理服务方法及系统
CN112463298B (zh) * 2020-11-26 2022-08-30 浪潮云信息技术股份公司 一种跨命名空间检测容器可用性的方法
CN112700004A (zh) * 2020-12-25 2021-04-23 南方电网深圳数字电网研究院有限公司 基于容器技术的深度学习模型训练方法、设备及存储介质
CN114697319B (zh) * 2020-12-30 2023-06-16 华为云计算技术有限公司 一种公有云的租户业务管理方法及装置
CN113391925A (zh) * 2021-06-25 2021-09-14 北京字节跳动网络技术有限公司 云资源管理方法、系统、介质、计算机设备
CN113407310A (zh) * 2021-07-09 2021-09-17 科东(广州)软件科技有限公司 一种容器管理方法、装置、设备及存储介质
CN113608722A (zh) * 2021-07-31 2021-11-05 云南电网有限责任公司信息中心 一种基于分布式技术的算法封装方法
CN113849137B (zh) * 2021-10-13 2023-08-01 上海威固信息技术股份有限公司 一种面向申威容器平台的可视化块存储方法和系统
CN115499494B (zh) * 2022-11-08 2023-03-24 恒丰银行股份有限公司 一种基于服务化的云资源智能分配方法及设备
CN115766421A (zh) * 2022-11-09 2023-03-07 中电云数智科技有限公司 一种微服务跨域自动化部署方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686141B2 (en) * 2014-09-10 2017-06-20 Ebay Inc. Systems and methods for resource sharing between two resource allocation systems
CN107229520A (zh) * 2017-04-27 2017-10-03 北京数人科技有限公司 一种数据中心操作系统
CN109189401A (zh) * 2018-07-06 2019-01-11 曙光信息产业(北京)有限公司 一种深度学习框架的部署方法以及系统
CN109347974A (zh) * 2018-11-16 2019-02-15 北京航空航天大学 一种提高在线服务质量和集群资源利用率的在线离线混合调度系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3475888A1 (en) * 2016-08-22 2019-05-01 Oracle International Corporation System and method for ontology induction through statistical profiling and reference schema matching
WO2018107128A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs, Inc. Systems and methods for automating data science machine learning analytical workflows

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686141B2 (en) * 2014-09-10 2017-06-20 Ebay Inc. Systems and methods for resource sharing between two resource allocation systems
CN107229520A (zh) * 2017-04-27 2017-10-03 北京数人科技有限公司 一种数据中心操作系统
CN107229520B (zh) * 2017-04-27 2019-10-18 北京数人科技有限公司 一种数据中心操作系统
CN109189401A (zh) * 2018-07-06 2019-01-11 曙光信息产业(北京)有限公司 一种深度学习框架的部署方法以及系统
CN109347974A (zh) * 2018-11-16 2019-02-15 北京航空航天大学 一种提高在线服务质量和集群资源利用率的在线离线混合调度系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DC_OS关键技术与应用场景;张基恒;《专题:大数据》;20161220;全文 *
Scalable system scheduling for HPC and big data;Albert Reuther;《J. Parallel Distrib. Comput.》;20181231;全文 *

Also Published As

Publication number Publication date
CN109803018A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109803018B (zh) 一种基于Mesos和YARN结合的DCOS云管理平台
US11496407B2 (en) Systems and methods for provisioning and managing an elastic computing infrastructure
US10713071B2 (en) Method and apparatus for network function virtualization
US9430264B2 (en) System and method for managing resources in virtualized environment based on resource state information and policy information
US10630559B2 (en) Virtual machine (VM) realm integration and management
Zhang et al. Cloud computing: state-of-the-art and research challenges
US11121906B2 (en) Data plane API in a distributed computing network
EP3929741A1 (en) Federated operator for edge computing network
WO2014036717A1 (zh) 虚拟资源对象组件
US20220156164A1 (en) Method and system for managing cloud resources
US11652708B2 (en) Policies for analytics frameworks in telecommunication clouds
US20070294736A1 (en) Method for dynamic information technology infrastructure provisioning
US20180331918A1 (en) Upgrade/downtime scheduling using end user session launch data
CN116841705A (zh) 一种基于云原生的分布式调度监控系统及其部署方法
US20210240511A1 (en) Computer-implemented method for reducing service disruption times for a universal customer premise equipment, ucpe, device with resource constraint in a network functions virtualization, nfv, network infrastucture
Abbasi et al. Resource-aware network topology management framework
US11809911B2 (en) Resuming workload execution in composed information handling system
Hao Edge computing on low availability devices with K3S in a smart home IoT system
US20230337060A1 (en) Cellular system observability architecture including short term and long term storage configuration
US20230337063A1 (en) Cellular system observability architecture
US20230337062A1 (en) Cellular system observability centralized for all domains and vendors
US20230336601A1 (en) Cellular system observability with centralized configuration management
US20230337061A1 (en) Cellular system observability data bus later extending over domain analytic collections layer
Pal et al. A Virtualization Model for Cloud Computing
CN114816725A (zh) 使用操作数据来管理组合系统的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant