CN107229520A - 一种数据中心操作系统 - Google Patents

一种数据中心操作系统 Download PDF

Info

Publication number
CN107229520A
CN107229520A CN201710288751.1A CN201710288751A CN107229520A CN 107229520 A CN107229520 A CN 107229520A CN 201710288751 A CN201710288751 A CN 201710288751A CN 107229520 A CN107229520 A CN 107229520A
Authority
CN
China
Prior art keywords
application
scheduler
management
mirror image
customization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710288751.1A
Other languages
English (en)
Other versions
CN107229520B (zh
Inventor
王璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wang Pu
Original Assignee
Beijing Shuren Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuren Technology Co ltd filed Critical Beijing Shuren Technology Co ltd
Priority to CN201710288751.1A priority Critical patent/CN107229520B/zh
Publication of CN107229520A publication Critical patent/CN107229520A/zh
Application granted granted Critical
Publication of CN107229520B publication Critical patent/CN107229520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种数据中心操作系统,包括:主机资源,包括硬件计算资源,应用容器引擎Docker和用于管理计算资源信息的分布式资源管理框架Mesos,用于提供硬件资源和应用容器;核心系统,包括UI,RESTfulAPI,调度器Swan,监控报警模块Prometheus,包括LogProxy和ELK日志分析系统的日志监控模块,发布系统Baker和镜像仓库,用于连接客户化UI系统和主机资源,使用户通过客户化UI系统实现对主机资源的管理,包括对主机资源的调度、监控报警、日志记录分析、应用发布和管理镜像仓库;客户化UI系统,包括CLI,SSO,审计界面和多集群管理界面,用于提供客户化的数据中心操作系统的操作界面。本发明提供的系统能高效率的利用服务器,较快的部署和迁移应用,方便的扩展服务且方便对系统的管理。

Description

一种数据中心操作系统
技术领域
本发明涉及计算机领域,特别涉及一种数据中心操作系统。
背景技术
数据中心操作系统是为整个数据中心提供分布式调度与协调功能,实现数据中心级弹性伸缩能力的软件堆栈,它将所有数据中心资源当作一台服务器来调度。
目前,单台服务器的性能限制了应用程序的部署规模,而且不同应用程序占用的资源不同,这样在数据中心里有的服务器很忙,而有的服务器却很闲,服务器部署的平均利用率较低,造成了资源的极大浪费。因为服务器数量太多难以管理,新服务器和应用的部署时间长,硬件维护需要数天或数周才能完成,造成管理成本高昂。一旦承载应用的服务器故障,就需要手工将应用切换到其它服务器上来,往往给数据中心带来严重损失。即使是通过虚拟化技术构成的集群也难以运维,尤其是出了故障后,较难分析故障的原因和位置。无法实现可以无限扩展的服务和易于迁移的应用。
由此需要提出一种数据中心操作系统,既可以高效率的利用服务器,又能较快的部署和迁移应用,还可以方便的扩展服务且方便对系统的管理。
发明内容
本发明提供一种数据中心操作系统,用于高效率的利用服务器,较快的部署和迁移应用及方便的扩展服务,且硬件扩展也不受到与旧系统兼容的限制。
根据本发明提供的一种数据中心操作系统,包括:
主机资源,包括硬件计算资源,应用容器引擎Docker和用于管理计算资源信息的分布式资源管理框架Mesos,用于提供硬件资源和应用容器;
核心系统,包括UI,RESTfulAPI,调度器Swan,监控报警模块Prometheus,包括LogProxy和ELK日志分析系统的日志监控模块,发布系统Baker和镜像仓库,用于连接客户化UI系统和主机资源,使用户通过客户化UI系统实现对主机资源的管理,包括对主机资源的调度、监控报警、日志记录分析、应用发布和管理镜像仓库;
客户化UI系统,包括CLI,SSO,审计界面和多集群管理界面,用于提供客户化的数据中心操作系统的操作界面。
优选的,
所述数据中心操作系统还包括测试系统;
所述调度器、监控报警模块、日志监控模块是runtime子系统;
所述发布系统、测试系统、镜像仓库是效率子系统;
所述调度器向分布式资源管理框架Mesos注册,用于提供容器调度和应用管理的核心功能,其中每个容器任务的id定义为taskid.appid.userid.clusterid,并且固定不变;调度器还通过HttpGET链接访问监控报警模块和日志监控模块,其中的参数通过URI传递;
所述发布系统通过RestfulAPI调用调度器,用以实现应用发布、滚动发布、回滚的操作;
所述发布系统通过RestfulAPI调用测试系统,用以完成自动化测试;
测试通过的镜像通过CLI推送到镜像仓库。
优选的,所述调度器,用于:
应用生命的周期管理:包括应用的滚动更新、实例扩缩和容错恢复,所述滚动更新为老版本的实例依次更新为新版本,滚动更新包括自动回滚和手动回滚,所述实例扩缩为当应用实例个数扩张增加时,新增实例的taskid从已有实例最大taskid开始依次递增,所述容错恢复,用于在发现有任何应用的任何实例失效的时候,自动恢复失效的实例;
操作审计,记录所有手动触发的操作的操作人;
出错调试,记录并展示应用发布或运行中的任何错误信息,所述错误信息包括:资源不足、镜像不存在、镜像下载失败、镜像无法启动;所述展示错误信息包括:给出应用程序的屏幕日志和文件日志的查看或下载链接;
应用事件,在应用全生命周期的各个阶段,给出应用实例的各种事件,同时调度器把实例的各种事件按照时间倒序保存,方便后续debug;
服务发现与负载均衡:调度器把所有应用的所有实例的IP以及暴露的端口都写入Consul,调度器通过Consul的DNS功能查询到每个应用的每个实例的SRV记录,当实例有任何变化时,调度器把实例的IP和端口的变化同步到Consul,保证Consul里每个实例的SRV记录都是可访问的;
健康检查,利用Mesos的健康检查机制或者基于Consul实现健康检查,兼容Marathon API且支持HTTP和TCP检查;
网络管理:每一个容器具有独立的IP,且能够进行网络限流;
应用编排:基于统一命名实现应用编排,支持Docker的Bundle格式的编排;
资源限额Quota;
任务优先级抢占;
高可用部署,系统包含多个调度器,由一个主调度器和多个从调度器组成,形成主从关系,主调度器失效时,某个从调度器自动变为主调度器。
优选的,所述监控报警模块,用于:
容器的性能指标监控:包括对CPU,内存,磁盘IO、网络IO的监控;
应用的健康状态监控;
对监控结果进行绘图展现。
优选的,所述日志监控模块,用于:
日志检索和日志统计。
优选的,所述发布系统,用于:
对接代码库,包括Git、SVN;
对接镜像仓库;
构建应用:根据配置文件描述构建流程,从代码构建或从二进制文件构建应用;
应用的发布;
应用的滚动发布;
应用的回滚;
应用的配置管理;
所述发布系统还支持CI服务器Jenkins以及支持cherrypicking请求。
优选的,所述客户化UI系统:
客户化UI系统通过API与核心系统对接;
客户化UI系统根据客户需要进行定制开发;
优选的,所述客户化UI系统,包括:
CLI:用于对多集群操作和镜像操作;
SSO:用于统一登录;
审计界面:用于对用户操作进行审计;
多集群管理界面:用于信息展示和信息搜索。
优选的,所述客户化UI系统,还包括:
可定制UI:用于对各个子系统的UI进行整合;
权限管理界面:用于组管理,角色管理,并用于对接LDAP。
本发明提供的数据中心操作系统,既可以高效率的利用服务器,又能较快的部署和迁移应用,还可以方便的扩展服务且方便对系统的管理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种数据中心操作系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
在本发明的一个实施例中,如图1所示,一种数据中心操作系统,包括:
主机资源,包括硬件计算资源,应用容器引擎Docker和用于管理计算资源信息的分布式资源管理框架Mesos,用于提供硬件资源和应用容器;
核心系统,包括UI,RESTfulAPI,调度器Swan,监控报警模块Prometheus,包括LogProxy和ELK日志分析系统的日志监控模块,发布系统Baker和镜像仓库,用于连接客户化UI系统和主机资源,使用户通过客户化UI系统实现对主机资源的管理,包括对主机资源的调度、监控报警、日志记录分析、应用发布和管理镜像仓库;
客户化UI系统,包括CLI,SSO,审计界面和多集群管理界面,用于提供客户化的数据中心操作系统的操作界面。
依据本发明提供的系统,通过容器的使用实现了较快的部署和迁移应用,可以高效率的利用服务器,还可以方便的扩展服务。
在本发明的一个实施例中,数据中心操作系统还包括测试系统;
调度器、监控报警模块、日志监控模块是runtime子系统;
发布系统、测试系统、镜像仓库是效率子系统;
调度器向分布式资源管理框架Mesos注册,用于提供容器调度和应用管理的核心功能,其中每个容器任务的id定义为taskid.appid.userid.clusterid,并且固定不变;调度器还通过HttpGET链接访问监控报警模块和日志监控模块,其中的参数通过URI传递;
发布系统通过RestfulAPI调用调度器,用以实现应用发布、滚动发布、回滚的操作;
发布系统通过RestfulAPI调用测试系统,用以完成自动化测试;
测试通过的镜像通过CLI推送到镜像仓库。
依据本发明提供的系统,通过容器和应用的统一使用和出错调试,可以帮助用户较快的测试、部署和迁移应用,并方便的扩展服务。
在本发明的一个实施例中,调度器,用于:
应用生命的周期管理:包括应用的滚动更新、实例扩缩和容错恢复,所述滚动更新为老版本的实例依次更新为新版本,滚动更新包括自动回滚和手动回滚,所述实例扩缩为当应用实例个数扩张增加时,新增实例的taskid从已有实例最大taskid开始依次递增,所述容错恢复,用于在发现有任何应用的任何实例失效的时候,自动恢复失效的实例;
操作审计,记录所有手动触发的操作的操作人;
出错调试,记录并展示应用发布或运行中的任何错误信息,所述错误信息包括:资源不足、镜像不存在、镜像下载失败、镜像无法启动;所述展示错误信息包括:给出应用程序的屏幕日志和文件日志的查看或下载链接;
应用事件,在应用全生命周期的各个阶段,给出应用实例的各种事件,同时调度器把实例的各种事件按照时间倒序保存,方便后续debug;
服务发现与负载均衡:调度器把所有应用的所有实例的IP以及暴露的端口都写入Consul,调度器通过Consul的DNS功能查询到每个应用的每个实例的SRV记录,当实例有任何变化时,调度器把实例的IP和端口的变化同步到Consul,保证Consul里每个实例的SRV记录都是可访问的;
健康检查,利用Mesos的健康检查机制或者基于Consul实现健康检查,兼容Marathon API且支持HTTP和TCP检查;
网络管理:每一个容器具有独立的IP,且能够进行网络限流;
应用编排:基于统一命名实现应用编排,支持Docker的Bundle格式的编排;
资源限额Quota;
任务优先级抢占;
高可用部署,系统包含多个调度器,由一个主调度器和多个从调度器组成,形成主从关系,主调度器失效时,某个从调度器自动变为主调度器。
在本发明的另一个实施例中,调度器用于容器应用的全生命周期管理,用于强制pull镜像,并具有privileges权限且支持URI机制和具有停止信号指定的功能。调度器删除应用,分为两种种情况,包括一次性删除应用所有的实例和应用实例收缩:当应用实例个数收缩减少时,从taskid最大的实例开始删除,在该市实例中,某个应用有5个实例,taskid为0、1、2、3、4,当实例个数要收缩为3个时,调度器把taskid是4和3的两个实例删除掉,且调度器不能任意删除实例,必须是通过实例收缩来删除应用实例。调度器支持优雅终止,每杀掉一个实例时,调度器先发送SIGTERM信号给实例,然后等待预置的时间后看实例是否结束,如果实例还未结束则杀掉实例。更新应用包括三种情况:应用实例扩缩、全量更新和滚动更新;实例扩缩:当应用实例个数扩张增加时,调度器将新增实例的taskid从已有实例最大taskid开始依次递增,在该实施例中,某个应用有3个实例,taskid为0、1、2,当实例个数要扩张为5个时,新增的两个实例的taskid分别为3和4;全量更新:调度器将老版本全部删除,再发布新版本;滚动更新:调度器将老版本的实例依次更新为新版本,滚动更新必须从第0个实例开始,滚动更新分批次进行,每次选择要更新几个实例,在该实施例中,某应用有5个实例,先更新一个,把第0个实例更新,再更新两个,把第1个和第2个实例更新,最后再更新两个,把第3个和第4个实例更新;每次滚动更新操作,调度器记录哪些实例是被更新的、哪些实例还是老版本;在该实施例中,每次滚动更新,更新某应用的3个实例,当3个更新实例的健康检查成功之后,并保持健康至少一分钟以上,当作这3个实例更新完毕,在滚动更新完毕之前,不再对应用有其他滚动更新操作;滚动更新开始之后,调度器设置应用的状态为更新状态,只要应用的实例没有全部更新完或全部回滚完,不能对应用进行扩缩操作,调度器只维护应用的两个版本,老版本和新版本,应用的所有实例更新完毕后结束应用的更新状态;在该实施例中,滚动更新的回滚,分为两种情况,自动回滚和手动回滚:自动回滚,滚动更新开始之后,只要有任意一个更新后的实例健康检查不成功,并重新调度超过3次,则回滚所有更新的实例到老版本,并结束应用的更新状态;手动回滚,滚动更新开始之后,手动触发撤销滚动更新,所有更新的实例回滚到老版本;在该实施例中,调度器在发现有任何应用的任何实例失效的时候,自动恢复失效的实例:当应用的实例为可迁移的,自动恢复时把实例迁移到其他节点上重新运行;当应用的实例绑定特定节点不可迁移时,如MySQL等长时间有状态的应用,自动恢复时必须先确认实例绑定的节点可用后再恢复实例。
在本发明的另一个实施例中,调度器把所有应用的所有实例的IP以及暴露的端口都写入Consul,要求可以通过Consul的DNS功能查询到每个应用的每个实例的SRV记录,并且每当实例有任何变化时,诸如增加一个实例、删除一个实例、容错恢复或迁移一个实例,调度器都要把实例的IP和端口的变化同步到Consul,保证Consul里每个实例的SRV记录都是可访问的;在该实施例中,服务发现包括七层服务发现和四层服务发现,对于七层服务发现,通过http://taskid.app_id.user_id.cluster_id.dataman.io:80/来访问某个实例的port0暴露的服务,http://taskid.app_id.user_id.cluster_id.dataman.io:80/要HTTP重定向到http://taskid.app_id.user_id.cluster_id.dataman.io:port0/;对于四层服务发现,应用的每个实例要保持固定IP,每个实例暴露的服务通过tcp://taskid.app_id.user_id.cluster_id.dataman.io:port_number来访问,其中taskid.app_id.user_id.cluster_id.dataman.io解析到该应用的某个实例的固定IP,port_number是该应用所暴露的端口,在该实施例中为MySQL的3306端口,进一步每个实例可以暴露多个端口,可以直接用taskid.app_id.user_id.cluster_id.dataman.io加上实例暴露的特定端口来访问。在该实施例中负载均衡为七层负载均衡,使用域名的方式进行负载均衡:通过http://app_id.user_id.cluster_id.dataman.io:80/来访问某个应用暴露的七层服务,app_id.user_id.cluster_id.dataman.io是范域名解析到负载均衡器的IP地址,负载均衡器根据app_id.user_id.cluster_id来区分不同的应用服务并把请求分发给应用服务的某个后台实例,如果应用的实例暴露多个端口,默认只支持port0对应的服务。
在本发明的另一个实施例中,调度器完全无状态,所有状态数据保存到Consul里;多个调度器之间是主从关系,由一个住调度器和多个从调度器组成,主调度器失效时,某个从调度器自动变为主调度器。
在本发明的一个实施例中,调度器,还包括:
调度器为基于raft协议和本地数据存储实现的可扩展集群。
在本发明的另一个实施例中,调度器内置raftserver来实现leaderelection,Logreplication,Configurationchanges,Logcompaction,FastProtobufLogEncoding,HTTPtransport等功能。在raft集群中,raft节点有且仅有一下三种状态中的一种——follower,candidate或leader。所有节点启动时状态都是follower,在此状态下节点能够接收来自leader的日志并投票,如果一段时间内没有接收到来自leader的消息则节点状态自动升级为candidate,处于candidate状态的节点请求来自其对等体的投票,如果候选者获得需要的票数则状态升级为leader,leader必须接受新的日志条目,并复制给所有的follower,另外如果follower的日志和leader的冲突,则所有的查询也必须对leader执行。
依据本发明提供的系统,可以较快的部署和更新应用,还可以方便的扩展服务,通过服务发现和负载均衡,可以高效率的利用服务器,且任何一个调度器失效,不能影响Mesos上正在运行的应用实例。同时,3个节点的raft集群可以容忍单个节点故障,而5个集群可以容忍2个节点故障,这将最大限度地提高可用性,而不会大大牺牲性能。从而达到当以集群方式运行调度器时的稳定性,间接的提高了服务器的利用率。
在本发明的一个实施例中,监控报警模块,用于:
容器的性能指标监控:包括对CPU,内存,磁盘IO、网络IO的监控;
应用的健康状态监控;
对监控结果进行绘图展现。
依据本发明提供的系统,对容器的性能和应用的健康状态进行直观的展现,方便用户更直观的了解当前系统的资源应用状态,方便通过调整资源来提高服务器的利用率。
在本发明的一个实施例中,日志监控模块,用于:
日志检索和日志统计。
依据本发明提供的系统,可以对日志检索和日志统计,方便在出现问题时对问题进行追踪。
在本发明的一个实施例中,发布系统,用于:
对接代码库,代码库包括Git、SVN;
对接镜像仓库;
构建应用:根据配置文件描述构建流程,从代码构建或从二进制文件构建应用;
应用的发布;
应用的滚动发布;
应用的回滚;
应用的配置管理;
所述发布系统还支持CI服务器Jenkins以及支持cherrypicking请求。
依据本发明提供的系统,通过对接代码库和镜像仓库,可以方便的发布应用,而构建应用的使用,可以直接根据配置文件构建应该,从而实现了较快的部署应用。
在本发明的一个实施例中,客户化UI系统:
客户化UI系统通过API与核心系统对接;
客户化UI系统根据客户需要进行定制开发;
依据本发明提供的系统,客户化UI系统通过API与核心系统对接可以方便客户根据需要进行UI定制,方便对系统的管理。
在本发明的一个实施例中,客户化UI系统,包括:
CLI:用于对多集群操作和镜像操作;
SSO:用于统一登录;
审计界面:用于对用户操作进行审计;
多集群管理界面:用于信息展示和信息搜索。
依据本发明提供的系统,客户化UI系统可以对异常操作进行审计,同时可以展示多个集群的状态,方便对系统的管理。
在本发明的一个实施例中,所述客户化UI系统,还包括:
可定制UI:用于对各个子系统的UI进行整合;
权限管理界面:用于组管理,角色管理,并用于对接LDAP。
依据本发明提供的系统,可以方便的对每个子系统进行管理,方便了系统的管理。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种数据中心操作系统,其特征在于,包括:
主机资源,包括硬件计算资源,应用容器引擎Docker和用于管理计算资源信息的分布式资源管理框架Mesos,用于提供硬件资源和应用容器;
核心系统,包括UI,RESTfulAPI,调度器Swan,监控报警模块Prometheus,包括LogProxy和ELK日志分析系统的日志监控模块,发布系统Baker和镜像仓库,用于连接客户化UI系统和主机资源,使用户通过客户化UI系统实现对主机资源的管理,包括对主机资源的调度、监控报警、日志记录分析、应用发布和管理镜像仓库;
客户化UI系统,包括CLI,SSO,审计界面和多集群管理界面,用于提供客户化的数据中心操作系统的操作界面。
2.如权利要求1所述的系统,其特征在于:
所述数据中心操作系统还包括测试系统;
所述调度器、监控报警模块、日志监控模块是runtime子系统;
所述发布系统、测试系统、镜像仓库是效率子系统;
所述调度器向分布式资源管理框架Mesos注册,用于提供容器调度和应用管理的核心功能,其中每个容器任务的id定义为taskid.appid.userid.clusterid,并且固定不变;调度器还通过HttpGET链接访问监控报警模块和日志监控模块,其中的参数通过URI传递;
所述发布系统通过RestfulAPI调用调度器,用以实现应用发布、滚动发布、回滚的操作;
所述发布系统通过RestfulAPI调用测试系统,用以完成自动化测试;
测试通过的镜像通过CLI推送到镜像仓库。
3.如权利要求1所述的系统,其特征在于,所述调度器,用于:
应用生命的周期管理:包括应用的滚动更新、实例扩缩和容错恢复,所述滚动更新为老版本的实例依次更新为新版本,滚动更新包括自动回滚和手动回滚,所述实例扩缩为当应用实例个数扩张增加时,新增实例的taskid从已有实例最大taskid开始依次递增,所述容错恢复,用于在发现有任何应用的任何实例失效的时候,自动恢复失效的实例;
操作审计,记录所有手动触发的操作的操作人;
出错调试,记录并展示应用发布或运行中的任何错误信息,所述错误信息包括:资源不足、镜像不存在、镜像下载失败、镜像无法启动;所述展示错误信息包括:给出应用程序的屏幕日志和文件日志的查看或下载链接;
应用事件,在应用全生命周期的各个阶段,给出应用实例的各种事件,同时调度器把实例的各种事件按照时间倒序保存,方便后续debug;
服务发现与负载均衡:调度器把所有应用的所有实例的IP以及暴露的端口都写入Consul,调度器通过Consul的DNS功能查询到每个应用的每个实例的SRV记录,当实例有任何变化时,调度器把实例的IP和端口的变化同步到Consul,保证Consul里每个实例的SRV记录都是可访问的;
健康检查,利用Mesos的健康检查机制或者基于Consul实现健康检查,兼容MarathonAPI且支持HTTP和TCP检查;
网络管理:每一个容器具有独立的IP,且能够进行网络限流;
应用编排:基于统一命名实现应用编排,支持Docker的Bundle格式的编排;
资源限额Quota;
任务优先级抢占;
高可用部署,系统包含多个调度器,由一个主调度器和多个从调度器组成,形成主从关系,主调度器失效时,某个从调度器自动变为主调度器。
4.如权利要求1所述的系统,其特征在于,所述监控报警模块,用于:
容器的性能指标监控:包括对CPU,内存,磁盘IO、网络IO的监控;
应用的健康状态监控;
对监控结果进行绘图展现。
5.如权利要求1所述的系统,其特征在于,所述日志监控模块,用于:
日志检索和日志统计。
6.如权利要求1所述的系统,其特征在于,所述发布系统,用于:
对接代码库,包括Git、SVN;
对接镜像仓库;
构建应用:根据配置文件描述构建流程,从代码构建或从二进制文件构建应用;
应用的发布;
应用的滚动发布;
应用的回滚;
应用的配置管理;
所述发布系统还支持CI服务器Jenkins以及支持cherrypicking请求。
7.如权利要求1所述的系统,其特征在于,所述客户化UI系统:
客户化UI系统通过API与核心系统对接;
客户化UI系统根据客户需要进行定制开发。
8.如权利要求1所述的系统,其特征在于,所述客户化UI系统,包括:
CLI:用于对多集群操作和镜像操作;
SSO:用于统一登录;
审计界面:用于对用户操作进行审计;
多集群管理界面:用于信息展示和信息搜索。
9.如权利要求1所述的系统,其特征在于,所述客户化UI系统,还包括:
可定制UI:用于对各个子系统的UI进行整合;
权限管理界面:用于组管理,角色管理,并用于对接LDAP。
CN201710288751.1A 2017-04-27 2017-04-27 一种数据中心操作系统 Active CN107229520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710288751.1A CN107229520B (zh) 2017-04-27 2017-04-27 一种数据中心操作系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710288751.1A CN107229520B (zh) 2017-04-27 2017-04-27 一种数据中心操作系统

Publications (2)

Publication Number Publication Date
CN107229520A true CN107229520A (zh) 2017-10-03
CN107229520B CN107229520B (zh) 2019-10-18

Family

ID=59933740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710288751.1A Active CN107229520B (zh) 2017-04-27 2017-04-27 一种数据中心操作系统

Country Status (1)

Country Link
CN (1) CN107229520B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108037973A (zh) * 2017-12-20 2018-05-15 苏州优圣美智能系统有限公司 一种与数据处理工具交互的数据流建模和处理系统
CN108121768A (zh) * 2017-11-30 2018-06-05 北京元心科技有限公司 分布式系统数据处理方法及装置
CN108366102A (zh) * 2018-01-26 2018-08-03 北京奇艺世纪科技有限公司 一种基于Consul的服务发现方法、装置及电子设备
CN108920136A (zh) * 2018-06-29 2018-11-30 郑州云海信息技术有限公司 一种基于容器的操作系统创建方法、系统及相关装置
CN108989430A (zh) * 2018-07-19 2018-12-11 北京百度网讯科技有限公司 负载均衡方法、装置及存储介质
CN109302483A (zh) * 2018-10-17 2019-02-01 网宿科技股份有限公司 一种应用程序的管理方法及系统
CN109471730A (zh) * 2018-11-15 2019-03-15 上海新炬网络信息技术股份有限公司 一种弹性计算服务管理系统
CN109600269A (zh) * 2019-01-21 2019-04-09 云南电网有限责任公司信息中心 一种基于dcos的云管理平台
WO2019071926A1 (zh) * 2017-10-10 2019-04-18 武汉斗鱼网络科技有限公司 自动监控数据库服务的方法、存储介质、电子设备及系统
CN109803018A (zh) * 2019-01-24 2019-05-24 云南电网有限责任公司信息中心 一种基于Mesos和YARN结合的DCOS云管理平台
CN109961151A (zh) * 2017-12-21 2019-07-02 同方威视科技江苏有限公司 用于机器学习的计算服务的系统及用于机器学习的方法
CN110262944A (zh) * 2019-06-21 2019-09-20 四川长虹电器股份有限公司 一种对K8s集群容器资源进行监控并进行告警的方法
CN110289982A (zh) * 2019-05-17 2019-09-27 平安科技(深圳)有限公司 容器应用的扩容方法、装置、计算机设备及存储介质
CN110391942A (zh) * 2019-07-30 2019-10-29 中国联合网络通信集团有限公司 服务管理平台及服务管理方法
CN110445861A (zh) * 2019-08-07 2019-11-12 上海浦东发展银行股份有限公司信用卡中心 一种基于f5适配器的容器云平台服务注册发现方法
CN110689956A (zh) * 2019-10-12 2020-01-14 河北时代电子有限公司 一种用于健康监控的智慧互联网大数据平台
CN110991970A (zh) * 2019-12-11 2020-04-10 成都市赛力培物流科技有限公司 一种物流平台自动化运维管理方法
CN111049907A (zh) * 2019-12-12 2020-04-21 杭州安恒信息技术股份有限公司 一种文件传输方法、装置、系统、设备及可读存储介质
CN111338784A (zh) * 2020-05-25 2020-06-26 南栖仙策(南京)科技有限公司 一种实现代码仓库与计算服务整合的方法及系统
CN111563018A (zh) * 2020-04-28 2020-08-21 北京航空航天大学 一种人机物融合云计算平台的资源管理和监控方法
CN112468314A (zh) * 2020-10-29 2021-03-09 贵州新致普惠信息技术有限公司 基于服务网格实现的日志服务自动化部署的方法
CN112540771A (zh) * 2019-12-02 2021-03-23 北京首都在线科技股份有限公司 自动化运维方法、系统、设备和计算机可读存储介质
CN113778613A (zh) * 2021-07-15 2021-12-10 上海浦东发展银行股份有限公司 一种多数据中心双栈容器云平台的统一管理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895670A (zh) * 2010-07-20 2010-11-24 深圳市茁壮网络股份有限公司 一种通用数字电视中间件系统
CN105022954A (zh) * 2015-07-07 2015-11-04 中国人民解放军国防科学技术大学 飞腾cpu上三态操作系统安全内核服务动态运行方法
CN105718302A (zh) * 2016-01-18 2016-06-29 浪潮集团有限公司 一种基于Docker实现冗余交换机操作系统的方法
CN105975276A (zh) * 2016-05-09 2016-09-28 上海携程商务有限公司 分布式构建系统及方法
CN106533758A (zh) * 2016-11-10 2017-03-22 河南智业科技发展有限公司 一种OpenStack云桌面的企业云桌面管理平台
CN106550002A (zh) * 2015-09-23 2017-03-29 中移(杭州)信息技术有限公司 一种paas云托管系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101895670A (zh) * 2010-07-20 2010-11-24 深圳市茁壮网络股份有限公司 一种通用数字电视中间件系统
CN105022954A (zh) * 2015-07-07 2015-11-04 中国人民解放军国防科学技术大学 飞腾cpu上三态操作系统安全内核服务动态运行方法
CN106550002A (zh) * 2015-09-23 2017-03-29 中移(杭州)信息技术有限公司 一种paas云托管系统及方法
CN105718302A (zh) * 2016-01-18 2016-06-29 浪潮集团有限公司 一种基于Docker实现冗余交换机操作系统的方法
CN105975276A (zh) * 2016-05-09 2016-09-28 上海携程商务有限公司 分布式构建系统及方法
CN106533758A (zh) * 2016-11-10 2017-03-22 河南智业科技发展有限公司 一种OpenStack云桌面的企业云桌面管理平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李丽新: ""基于Mesos和Docker构建大数据平台技术研究与应用"", 《吉林建筑大学学报》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071926A1 (zh) * 2017-10-10 2019-04-18 武汉斗鱼网络科技有限公司 自动监控数据库服务的方法、存储介质、电子设备及系统
CN108121768A (zh) * 2017-11-30 2018-06-05 北京元心科技有限公司 分布式系统数据处理方法及装置
CN108037973B (zh) * 2017-12-20 2021-11-16 苏州优圣美智能系统有限公司 一种与数据处理工具交互的数据流建模和处理系统
CN108037973A (zh) * 2017-12-20 2018-05-15 苏州优圣美智能系统有限公司 一种与数据处理工具交互的数据流建模和处理系统
CN109961151B (zh) * 2017-12-21 2021-05-14 同方威视科技江苏有限公司 用于机器学习的计算服务的系统及用于机器学习的方法
CN109961151A (zh) * 2017-12-21 2019-07-02 同方威视科技江苏有限公司 用于机器学习的计算服务的系统及用于机器学习的方法
CN108366102A (zh) * 2018-01-26 2018-08-03 北京奇艺世纪科技有限公司 一种基于Consul的服务发现方法、装置及电子设备
CN108920136B (zh) * 2018-06-29 2021-10-15 郑州云海信息技术有限公司 一种基于容器的操作系统创建方法、系统及相关装置
CN108920136A (zh) * 2018-06-29 2018-11-30 郑州云海信息技术有限公司 一种基于容器的操作系统创建方法、系统及相关装置
CN108989430A (zh) * 2018-07-19 2018-12-11 北京百度网讯科技有限公司 负载均衡方法、装置及存储介质
CN108989430B (zh) * 2018-07-19 2022-01-25 北京百度网讯科技有限公司 负载均衡方法、装置及存储介质
US11316800B2 (en) 2018-10-17 2022-04-26 Wangsu Science & Technology Co., Ltd. Method and system for managing applications
CN109302483B (zh) * 2018-10-17 2021-02-02 网宿科技股份有限公司 一种应用程序的管理方法及系统
CN109302483A (zh) * 2018-10-17 2019-02-01 网宿科技股份有限公司 一种应用程序的管理方法及系统
CN109471730A (zh) * 2018-11-15 2019-03-15 上海新炬网络信息技术股份有限公司 一种弹性计算服务管理系统
CN109600269A (zh) * 2019-01-21 2019-04-09 云南电网有限责任公司信息中心 一种基于dcos的云管理平台
CN109803018B (zh) * 2019-01-24 2022-06-03 云南电网有限责任公司信息中心 一种基于Mesos和YARN结合的DCOS云管理平台
CN109803018A (zh) * 2019-01-24 2019-05-24 云南电网有限责任公司信息中心 一种基于Mesos和YARN结合的DCOS云管理平台
CN110289982B (zh) * 2019-05-17 2022-08-23 平安科技(深圳)有限公司 容器应用的扩容方法、装置、计算机设备及存储介质
CN110289982A (zh) * 2019-05-17 2019-09-27 平安科技(深圳)有限公司 容器应用的扩容方法、装置、计算机设备及存储介质
CN110262944A (zh) * 2019-06-21 2019-09-20 四川长虹电器股份有限公司 一种对K8s集群容器资源进行监控并进行告警的方法
CN110391942A (zh) * 2019-07-30 2019-10-29 中国联合网络通信集团有限公司 服务管理平台及服务管理方法
CN110445861A (zh) * 2019-08-07 2019-11-12 上海浦东发展银行股份有限公司信用卡中心 一种基于f5适配器的容器云平台服务注册发现方法
CN110445861B (zh) * 2019-08-07 2021-10-22 上海浦东发展银行股份有限公司信用卡中心 一种基于f5适配器的容器云平台服务注册发现方法
CN110689956A (zh) * 2019-10-12 2020-01-14 河北时代电子有限公司 一种用于健康监控的智慧互联网大数据平台
CN112540771A (zh) * 2019-12-02 2021-03-23 北京首都在线科技股份有限公司 自动化运维方法、系统、设备和计算机可读存储介质
CN110991970A (zh) * 2019-12-11 2020-04-10 成都市赛力培物流科技有限公司 一种物流平台自动化运维管理方法
CN111049907A (zh) * 2019-12-12 2020-04-21 杭州安恒信息技术股份有限公司 一种文件传输方法、装置、系统、设备及可读存储介质
CN111563018B (zh) * 2020-04-28 2021-11-12 北京航空航天大学 一种人机物融合云计算平台的资源管理和监控方法
CN111563018A (zh) * 2020-04-28 2020-08-21 北京航空航天大学 一种人机物融合云计算平台的资源管理和监控方法
CN111338784A (zh) * 2020-05-25 2020-06-26 南栖仙策(南京)科技有限公司 一种实现代码仓库与计算服务整合的方法及系统
CN112468314A (zh) * 2020-10-29 2021-03-09 贵州新致普惠信息技术有限公司 基于服务网格实现的日志服务自动化部署的方法
CN113778613A (zh) * 2021-07-15 2021-12-10 上海浦东发展银行股份有限公司 一种多数据中心双栈容器云平台的统一管理方法
CN113778613B (zh) * 2021-07-15 2024-04-26 上海浦东发展银行股份有限公司 一种多数据中心双栈容器云平台的统一管理方法

Also Published As

Publication number Publication date
CN107229520B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN107229520B (zh) 一种数据中心操作系统
US9529550B2 (en) Managing access of multiple executing programs to non-local block data storage
US9262273B2 (en) Providing executing programs with reliable access to non-local block data storage
JP5945031B2 (ja) 複製されたデータインスタンスのプロビジョニングおよび管理
US9569123B2 (en) Providing executing programs with access to stored block data of others
US7441024B2 (en) Method and apparatus for applying policies
US7831682B2 (en) Providing a reliable backing store for block data storage
US7941510B1 (en) Management of virtual and physical servers using central console
US9218231B2 (en) Diagnosing a problem of a software product running in a cloud environment
WO2020072338A1 (en) Data backup and disaster recovery between environments
EP2324429B1 (en) Providing executing programs with reliable access to non-local block data storage
CN107256178A (zh) 一种容器管理平台
EP3158441A1 (en) System and method for partition migration in a multitenant application server environment
Heidari et al. Qos assurance with light virtualization-a survey
US11663093B2 (en) Automated development of recovery plans
CN115812298A (zh) 供应故障的区块链管理
US11533391B2 (en) State replication, allocation and failover in stream processing
US20200358648A1 (en) Continuous monitoring of network devices during maintenance
US10706073B1 (en) Partitioned batch processing for a usage analysis system
US10348596B1 (en) Data integrity monitoring for a usage analysis system
Benduhn Patrick Wuggazer
Kaufman et al. Implementing High Availability
Vallath et al. Testing for Availability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220520

Address after: 100000 students at No. 15, Xueyuan Road, study abroad service center of the Ministry of education, Haidian District, Beijing

Patentee after: Wang Pu

Address before: 100020 806-807, 8th floor, building a, No. 13, Wangjing Dongyuan Fourth District, Chaoyang District, Beijing

Patentee before: BEIJING SHUREN TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right