CN111708604A - 一种智能运维支撑方法 - Google Patents
一种智能运维支撑方法 Download PDFInfo
- Publication number
- CN111708604A CN111708604A CN202010468759.8A CN202010468759A CN111708604A CN 111708604 A CN111708604 A CN 111708604A CN 202010468759 A CN202010468759 A CN 202010468759A CN 111708604 A CN111708604 A CN 111708604A
- Authority
- CN
- China
- Prior art keywords
- resource
- scheduling
- resources
- cluster
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012423 maintenance Methods 0.000 title claims abstract description 26
- 238000012544 monitoring process Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 238000003860 storage Methods 0.000 claims description 22
- 238000002955 isolation Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000013468 resource allocation Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000011084 recovery Methods 0.000 abstract description 3
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种智能运维支撑方法。包括通过资源虚拟化的云操作系统进行资源动态调度;基于参数配置,确定所述资源动态调度的工作路径;对所述工作路径进行监控,通过线程状态显示所述资源动态调度的异常。本发明的有益效果在于:通过云操作系统,进行数据虚拟化,因此可以实现数据的瞬时连接,接入设备不受硬件设施的限制。资源实现自动调度,而且通过监控,实现资源数据调度过程中的可视化运维。因为可以实现资源的自动调度进而可以实现通过资源调度实现异常故障自动迁移,支持备份和自动恢复。
Description
技术领域
本发明涉及资源智能管理技术领域,特别涉及一种智能运维支撑方法。
背景技术
目前,在大数据技术中,已经实现了大数据流数据的调度,大数据得到数据资源可以应用于各行各业。但是,在大数据的应用领域并没有一套完整的大数据资源调度运维的系统或平台,实现用户在调取大数据数据集群中的资料时能够资源的动态、灵活且便捷的调度系统。在没有资源调度运维管理的系统情况下,用户在进行资源调度时很可能会出现资源或者用户不可信状态,使得数据调度异常,而进行数据调度的用户还无法得知调取的数据时异常数据,没有完善的数据监控系统。
发明内容
本发明提供种智能运维支撑方法,用以解决大数据的资源调度难、不可信和数据调度无监控的情况。
一种智能运维支撑方法,其特征在于,包括:
通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置;
根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径;
对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常。
作为本发明的一种实施例,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过跨分布式的应用程序和框架实现对资源调度集群的资源隔离和共享;其中,
所述应用程序和框架用于发布隔离任务和共享任务,并对所述隔离任务和共享任务进行计算,获取任务进程的参数配置;
所述应用程序包括但不限于容错机制软件、任务隔离软件和资源计算配置软件;
所述框架包括但不限于容错机制框架、任务隔离框架和资源计算配置框架;
所述应用程序和框架组成所述云操作系统;
所述资源调度集群包括:计算资源、网络资源和存储资源。
作为本发明的一种实施例,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过所述应用程序发出资源分配任务,并在所述资源调度集群上运行所述资源分配任务;
通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化。
作为本发明的一种实施例,所述资源动态调度集群包括主节点和从节点;其中,
所述主节点用于控制所述应用程序的任务在所述资源动态调度集群的从节点上运行;
所述主节点用于跨应用或框架的细粒度资源共享;
所述主节点根据所述源动态调度集群的分配策略分配资源给应用程序;其中,
所述分配策略至少包括:公平共享策略和优先级策略;
所述主节点具有模块化结构,并通过增加插件添加新的模块,并通过新的模块支持多样性的分配策略。
作为本发明的一种实施例,所述应用程序包括调度器和执行进程;其中,
所述调度器为多个;
所述调度器用于在所述主节点上注册,并获取集群资源;
所述调度器还用于对所述主节点上的资源进行选择;
所述调度器还用于通过所述主节点将任务发送到从节点上;
所述执行进程应用于所述从节点上,所述从节点根据所述执行进程执行所述调度器发送到所述从节点上的任务。
作为本发明的一种实施例,所述通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化,包括:
通过分配器将所述资源动态调度集群的资源定期分配给所述框架,所述框架根据所述框架的用户定义资源分配的算法;
将所述算法的用户通过PAM、LDAP、MySQL、NIS和UNIX进行身份认证;
在认证成功后,通过预设的文件系统隔离器让所述资源动态调度集群的资源都拥有专有的目录空间,实现集群资源模块化。
作为本发明的一种实施例,所述根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径包括:
根据所述参数配置,以option_name=value来传递配置路径选项;其中,
所述路径选项包括绝对路径或相对当前工作目录的相对路径;
通过预设的SSL安全访问控制机制对所述资源动态调度的用户信息进行加密。
作为本发明的一种实施例,所述对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常,包括:
通过所述线程状态,确定统计数据和指标,判断是否发生异常,并生成监控报告;其中,
所述监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态;
所述监控报告根据时间序列以监控图标的形式显示。
一种智能运维支撑方法,其特征在于,包括:
通过资源虚拟化的云操作系统进行资源动态调度;
基于所述资源动态调度的参数配置,确定所述资源动态调度的工作路径对所述工作路径进行监控,通过线程状态显示所述资源动态调度的异常。
作为本发明的一种实施例:所述通过所述线程状态,确定统计数据和指标,判断是否发生异常,包括以下步骤:
步骤1:获取统计数据H
其中,所述ki表示第i个网络资源;所述pj表示第j个计算资源;所述ml表示第l个存储资源;所述L表示有L个数据进行统计,所述xi第i个网络资源调度量;所述yj表示第j个计算资源调度量;所述ml表示第l个存储资源调度量;
步骤2:获取指标数据K
所述xi表示网络资源指标量,所述ys表示计算资源指标量;所述
ms表示存储资源指标量;
步骤3:将所述统计数据H和指标数据K进行对比,判断所述虚拟动态调度模块是否发生异常;
当所述H>K时,所述统计数据超过指标,发生异常;
当所述H≤K时,所述统计数据没有超过指标,没有发生异常。
本发明的有益效果在于:
(1)本发明支持海量关键装备/业务系统等要素的数据瞬时连接,数据边缘处理,接入设备/业务系统的数量可以根据需要添加,数据采集点10万级以上。
(2)本发明可部署节点规模,基于线程监控,实现在现有技术1024个节点规模以上数据中心部署、资源自动调度,可视化运维管理。
(3)数据加载高效:基于大数据和云操作系统,装载数据速度能够大于1TB/小时,提供面向特定领域大数据知识动态存储。
(4)可扩展性:资源动态调度集群的单个集群可达到现有技术的1024个节点之上,10PB级的数据动态访问存储,进而可以支持100万级以上用户。
(5)数据加载高效:基于大数据技术,和云处理服务器,装载数据速度大于1TB/小时,提供面向特定领域的10PB级大数据知识动态存储。
(6)具有良好的可靠性,能故障自动迁移,支持备份和自动恢复。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种智能运维支撑方法的方法流程图;
图2为本发明实施例中一种智能运维支撑方法的主节点指标作用示意图;
图3为本发明实施例中一种智能运维方法的数据日志记录流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明是一款网络、计算和存储等资源虚拟化的云操作系统,可支持十万级数据节点的虚拟化、自动调度、资源动态配置、集群参数配置、同步参数配置、启停集群服务、查看集群的运行状态、查看集群节点信息、系统主动预警等功能。为企业系统管理员提供一套简单,易操作和可视化云资源运维管理系统。
实施例1:
如附图1所示的一种智能运维支撑方法的方法流程图,包括:
步骤100:通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置;
本发明执行数据资源的动态调度前提时通过云操作系统实现数据资源的虚拟化,进而能够在互联网中实现数据的资源调度。数据调度中主要是对网络资源、计算资源和存储资源等资源虚拟化,进而使得本发明中本发明的数据节点能够进行虚拟化,作为一个优选实施例本发明至少可以支持十万级数据节点的资源虚拟化和自动调度。作为一个优选实施例:本发明具备大数据智能处理系统对集群可靠性和可用性的要求;具有兼容性,支持标准Linux系统的能力。
步骤101:根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径;
本发明在资源可信管理上通过资源的配置参数,确定用户调取资源时,资源的工作路径,并通过在用户端假设加密机制,实现资源的可信管理。
步骤102对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常。
本发明在资源的管控上,监控资源的工作路径,即工作进程,并实时显示资源调度的线程状态,根据可读的线程状态确定资源调度和调度的资源的集群是否发生异常,进而可以把异常通过监控以图表的形式表现出来,使得异常状态可控。
本发明的有益效果在于:通过云操作系统,进行数据虚拟化,因此可以实现数据的瞬时连接,接入设备不受硬件设施的限制。资源实现自动调度,而且通过监控,实现资源数据调度过程中的可视化运维。因为可以实现资源的自动调度进而可以实现通过资源调度实现异常故障自动迁移,支持备份和自动恢复。
在一个实施例中:
本发明系统还具有正确性,指程序要实现设计要求的功能;稳定性/安全性,指程序稳定、可靠、安全;可测试性,指程序要具有良好的可测试性;规范/可读性,指程序书写风格、命名规则等要符合规范;全局效率,指软件系统的整体效率;局部效率,指某个模块、子模块、函数的本身效率。
实施例2:
作为本发明的一种实施例,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过跨分布式的应用程序和框架实现对资源调度集群的资源隔离和共享;其中
所述应用程序和框架用于发布隔离任务和共享任务,并对所述隔离任务和共享任务进行计算,获取任务进程的参数配置;
云操作系统是一个可扩展的操作系统组合式操作,通过添加应用程序和框架实现资源调度功能
所述应用程序包括但不限于容错机制软件、任务隔离软件和资源计算配置软件;
所述框架包括但不限于容错机制框架、任务隔离框架和资源计算配置框架;
本发明时通过个框架或应用程序实现,因此,本发明的组成架构就包含框架或应用程序,本发明也可能是应用程序和框架组成,根据资源调度中的各种功能的实现。
所述应用程序和框架组成所述云操作系统;
所述资源调度集群包括:计算资源、网络资源和存储资源。
对于资源的调度,除了数据资源大数据技术存在的计算资源和云端服务器的存储资源调度也是本发明需要予以实现的功能。
本发明的有益效果在于:因为提供了有效的、跨分布式的应用或框架的资源隔离和共享,可以运行多种框架。能够实现容错机制,能够隔离任务,支持多种资源计算分配,实现多种服务混布,更细粒度、更高效的提高资源利用率,避免资源的浪费。
实施例3:
作为本发明的一种实施例,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过所述应用程序发出资源分配任务,并在所述资源调度集群上运行所述资源分配任务;
通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化。
本发明的原理在于:本发明是通过应用程序和进行分配资源分配任务,然后基于资源调度集群上的运行分配的资源分配任务,最后通过容器化将任务的各个进程、集群资源和预设隔离功能实现集群资源的模块化。
本发明的有益效果在于:本发明能通过任务分配实现了资源调度集群上的资源的调度;然后通过集群资源模块化,实现集群资源的分割,实现集群资源的模块化划分,进而实现资源的更细粒度,更高效的资源利用,避免了资源的浪费。
实施例4:
作为本发明的一种实施例,所述资源动态调度集群包括主节点和从节点;其中,
所述主节点用于控制所述应用程序的任务在所述资源动态调度集群的从节点上运行;
所述主节点用于跨应用或框架的细粒度资源共享;
所述主节点根据所述源动态调度集群的分配策略分配资源给应用程序;其中,
所述分配策略至少包括:公平共享策略和优先级策略;
所述主节点具有模块化结构,并通过增加插件添加新的模块,并通过新的模块支持多样性的分配策略。
本发明的原理在于:资源动态调度是一个集群式的资源调度,集群分为主节点和从节点两种角色。由一个主节点守护进程来管理从节点守护进程在每个集群节点上的运行,应用程序在这些从节点上运行任务。主节点实现跨应用细粒度资源共享,这些资源包括计算资源、存储资源和网络资源。主节点根据相应的策略分配资源给应用程序,如公平共享策略或优先级策略。本发明的分配策略包括但是不局限于公平共享策略或优先级策略。
本发明的有益效果在于:主节点采用模块化结构,可以通过插件形式来添加新的模块,从而支持多样性的策略。主节点实现跨应用细粒度资源共享,因此,可以实现资源在细粒度上的资源动态调度。
实施例5:
作为本发明的一种实施例,所述应用程序包括调度器和执行进程;其中,
所述调度器为多个;
所述调度器用于在所述主节点上注册,并获取集群资源;
所述调度器还用于对所述主节点上的资源进行选择;
所述调度器还用于通过所述主节点将任务发送到从节点上;
所述执行进程应用于所述从节点上,所述从节点根据所述执行进程执行所述调度器发送到所述从节点上的任务。
本发明的原理在于应用程序的资源动态分配由两部分组成:调度器和执行进程。应用程序的调度器注册到主节点来获取集群资源。在从节点上运行的执行进程,可以执行应用程序的任务。主节点决定为每个应用程序提供多少资源,调度器来选择提供的资源。当应用程序决定提供资源,它通过主节点将任务发送到提供资源的从节点上运行。
调度器有多个。所有的调度程序都使用优势资源公平算法来竞争公平分配的资源。调度器可以调度状态服务的任务和无状态服务,还可以将角色分配给框架和任务,并通过分配权重给这个角色来调整调度器的优先级。角色与资源是紧密相连的。以上特性使能根据自己想要运行的任务类型,针对不同的应用程序创建自己的调度方式。例如,在运行批处理任务时,本发明最好将它们放在离数据近一些的地方,与启动的时间无关。另一方面,运行无状态服务是独立于节点的,因此需要尽快运行它们,它们相对于状态服务更为重要。
在一个实施例中:本发明还具有可靠性,利用多个主节点来实现高可用性,至少包括一个活跃的主节点和若干备份主节点来避免宕机。通过选举出活跃的主节点,然后通知集群中的其它节点,包括其它主节点,从节点和调度器。
实施例6:
作为本发明的一种实施例,所述通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化,包括:
通过分配器将所述资源动态调度集群的资源定期分配给所述框架,所述框架根据所述框架的用户定义资源分配的算法;
将所述算法的用户通过PAM、LDAP、MySQL、NIS和UNIX进行身份认证;
在认证成功后,通过预设的文件系统隔离器让所述资源动态调度集群的资源都拥有专有的目录空间,实现集群资源模块化。
本发明是模块化的,通过创建和按需加载共享库来扩展内部机能。通过模块化可以定制来支撑不同的应用场景,无需重新编译/链接整个工程。模块化可以把外部依赖放到单独的库中,从而精简核心。模块化还可以让开发者很容易地尝试新功能。例如,编写一个包含特定编程环境虚拟机的分配程序,可以用这些编程语言开发资源分配算法,而不必把这些环境的依赖库打到主工程中。最后,还能为第三方提供一种简单的方法扩展,而不必了解所有内部细节。本发明的模块化基于分配器、身份认证子单元和隔离子单元实现上述功能,本发明的模块化还包括匿名单元,匿名单元具有不接收回调的功能,只是与它们的父进程共存。这种模块既不实现具体功能,也不代替任何现有的模块。
实施例7:
作为本发明的一种实施例,所述根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径包括:
根据所述参数配置,以option_name=value来传递配置路径选项;其中,
所述路径选项包括绝对路径或相对当前工作目录的相对路径;
通过预设的SSL安全访问控制机制对所述资源动态调度的用户信息进行加密。
本发明的资源可信管理在路径的配置方面,通过主节点和从节点命令行参数或环境变量来传递一系列的配置选项。通过运行-master--help或者-slave--help可以查看相关的可用选项。每个选项可以通过以下两种方式设置:
执行命令的时候使用–-option_name=value来传递配置选项。
value既可以是数值,也可以指定包含参数的文(--opthon_name=file://文件路径)。该路径既可以是绝对路径,也可以是相对当前工作目录的相对路径。通过设定环境变量OPTION_NAME执行时会先读取环境变量,然后是命令行参数。配置参数会首先在环境中搜索,然后才是命令行。
SSL安全访问控制机制:其中,
所述对资源动态调度的用户信息进行加密。
本发明的SSL安全访问控制机制是基于用户端,通过用户端的用户名加密,实现资源只能被本发明的注册用户调度,难以被其它方获取。
实施例8:
作为本发明的一种实施例,所述对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常,包括:
通过所述线程状态,确定统计数据和指标,判断是否发生异常,并生成监控报告;其中,
所述监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态;
所述监控报告根据时间序列以监控图标的形式显示。
本发明的原理在于:通过可读性指标可以更快地发现集群的异常状况。主节点和从节点提供一组统计数据和指标,能方便地监控资源使用情况并及早发现异常状况,并生成监控报告。
监控报告包括但不局限于可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态等细节。
使用这些监控报告的信息实现自动化的报警,或者在监控界面里面绘制时间序列的监控图表。
在一个实施例中,本发明的指标包括两种,计数器和仪表。
计数器(counter)用来跟踪不连续的事件。这种类型的指标总是自然数。例子包括失败的任务数目和注册的从节点数量。对于这种类型的指标,变化率往往比数值本身更重要。仪表测量一个瞬间的采样值。例如当前集群中使用内存的总量和在线的从节点连接数量。这类指标通常用来监控是否在一段时间内高于或低于某个阈值。
指标能够提供两个重要的信息:整个集群中的可用资源总量和当前已经使用的部分。如果资源使用率持续高居不下,说明应该增加集群的资源总量,或者某个框架已经运行失常。
指标说明两个问题:有关主节点是否是leading主节点,已经启动运行了多长时间。当一个集群经过一段时间依然没有选出leading主节点,则认为这个集群已经处于故障状态。这说明要不竞选过程出现问题要不选出的主节点有故障。此外较短的已经运行时间表明主节点近期有过重启。在一个实施例中主节点指标的作用如附图2所示能力。
实施例9:
作为本发明的一种实施例:所述通过所述线程状态,确定统计数据和指标,判断是否发生异常,包括以下步骤:
,包括以下步骤:
步骤1:获取统计数据H
其中,所述ki表示第i个网络资源;所述pj表示第j个计算资源;所述ml表示第l个存储资源;所述L表示有L个数据进行统计,所述xi第i个网络资源调度量;所述yj表示第j个计算资源调度量;所述ml表示第l个存储资源调度量;
步骤2:获取指标数据K
所述xi表示网络资源指标量,所述ys表示计算资源指标量;所述ms表示存储资源指标量;
步骤3:将所述统计数据H和指标数据K进行对比,判断所述虚拟动态调度模块是否发生异常;
当所述H>K时,所述统计数据超过指标,发生异常;
当所述H≤K时,所述统计数据没有超过指标,没有发生异常。
本发明的有益效果在于:本发明的判断是否发生异常的判断指标是通过统计数据和指标数据进行对比,判断统计数据是否超过指标,只有超过指标的情况下,才能算是发生异常。在资源的统计和指标方面,包括对计算资源、网络资源和存储资源三方的指标数据和统计数据。
在一个实施例中,如附图3所示,本发明的系统和方法还有日志记录功能:包括:
步骤1:用于发出资源调度请求任务;
步骤2:资源数据进行打包;
步骤3:资源数据的数据节点向上级数据中心发起连接;
步骤4:连接成功,判断是否进行数据发送还是重发;
步骤5:数据重发返回步骤3;
步骤6:数据连接判断是否发送成功,
步骤7:判断发送失败,返回步骤6,再次判断;
步骤8:判断发送成功,任务结束。
领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种智能运维支撑方法,其特征在于,包括:
通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置;
根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径;
对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常。
2.根据权利要求1所述的一种智能运维支撑方法,其特征在于,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过跨分布式的应用程序和框架实现对资源调度集群的资源隔离和共享;其中,
所述应用程序和框架用于发布隔离任务和共享任务,并对所述隔离任务和共享任务进行计算,获取任务进程的参数配置;
所述应用程序包括但不限于容错机制软件、任务隔离软件和资源计算配置软件;
所述框架包括但不限于容错机制框架、任务隔离框架和资源计算配置框架;
所述应用程序和框架组成所述云操作系统;
所述资源调度集群包括:计算资源、网络资源和存储资源。
3.根据权利要求2所述的一种智能运维支撑方法,其特征在于,所述通过资源虚拟化的云操作系统进行资源动态调度,并确定所述资源动态调度的参数配置,包括:
通过所述应用程序发出资源分配任务,并在所述资源调度集群上运行所述资源分配任务;
通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化。
4.根据权利要求3所述的一种智能运维支撑方法,其特征在于,所述资源动态调度集群包括主节点和从节点;其中,
所述主节点用于控制所述应用程序的任务在所述资源动态调度集群的从节点上运行;
所述主节点用于跨应用或框架的细粒度资源共享;
所述主节点根据所述源动态调度集群的分配策略分配资源给应用程序;其中,
所述分配策略至少包括:公平共享策略和优先级策略;
所述主节点具有模块化结构,并通过增加插件添加新的模块,并通过新的模块支持多样性的分配策略。
5.根据权利要求3所述的一种智能运维支撑方法,其特征在于,所述应用程序包括调度器和执行进程;其中,
所述调度器为多个;
所述调度器用于在所述主节点上注册,并获取集群资源;
所述调度器还用于对所述主节点上的资源进行选择;
所述调度器还用于通过所述主节点将任务发送到从节点上;
所述执行进程应用于所述从节点上,所述从节点根据所述执行进程执行所述调度器发送到所述从节点上的任务。
6.根据权利要求3所述的一种智能运维支撑方法,其特征在于,所述通过轻量级的容器化和隔离功能对所述资源调度集群的集群资源进行模块化,包括:
通过分配器将所述资源动态调度集群的资源定期分配给所述框架,所述框架根据所述框架的用户定义资源分配的算法;
将所述算法的用户通过PAM、LDAP、MySQL、NIS和UNIX进行身份认证;
在认证成功后,通过预设的文件系统隔离器让所述资源动态调度集群的资源都拥有专有的目录空间,实现集群资源模块化。
7.根据权利要求1所述的一种智能运维支撑方法,其特征在于,所述根据所述资源动态调度的参数配置,确定所述资源动态调度的工作路径包括:
根据所述参数配置,以option_name=value来传递配置路径选项;其中,
所述路径选项包括绝对路径或相对当前工作目录的相对路径;
通过预设的SSL安全访问控制机制对所述资源动态调度的用户信息进行加密。
8.根据权利要求1所述的一种智能运维支撑方法,其特征在于,所述对所述工作路径进行监控,获取所述工作路径的线程状态,并根据所述线程状态判断是否异常,包括:
通过所述线程状态,确定统计数据和指标,判断是否发生异常,并生成监控报告;其中,
所述监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态;
所述监控报告根据时间序列以监控图标的形式显示。
9.根据权利要求8所述的一种智能运维支撑方法,其特征在于,所述通过所述线程状态,确定统计数据和指标,判断是否发生异常,包括以下步骤:
步骤1:获取统计数据H
其中,所述ki表示第i个网络资源;所述pj表示第j个计算资源;所述ml表示第l个存储资源;所述L表示有L个数据进行统计,所述xi第i个网络资源调度量;所述yj表示第j个计算资源调度量;所述ml表示第l个存储资源调度量;
步骤2:获取指标数据K
所述xi表示网络资源指标量,所述ys表示计算资源指标量;所述ms表示存储资源指标量;
步骤3:将所述统计数据H和指标数据K进行对比,判断所述虚拟动态调度模块是否发生异常;
当所述H>K时,所述统计数据超过指标,发生异常;
当所述H≤K时,所述统计数据没有超过指标,没有发生异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468759.8A CN111708604A (zh) | 2020-05-28 | 2020-05-28 | 一种智能运维支撑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468759.8A CN111708604A (zh) | 2020-05-28 | 2020-05-28 | 一种智能运维支撑方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111708604A true CN111708604A (zh) | 2020-09-25 |
Family
ID=72538451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010468759.8A Pending CN111708604A (zh) | 2020-05-28 | 2020-05-28 | 一种智能运维支撑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708604A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905423A (zh) * | 2021-03-26 | 2021-06-04 | 北京赛博云睿智能科技有限公司 | 大数据环境中分布式资源容器监控与自评估方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404542A (zh) * | 2015-08-14 | 2016-03-16 | 国家超级计算深圳中心(深圳云计算中心) | 云计算系统及在其上运行高性能计算的方法 |
CN106686136A (zh) * | 2017-02-24 | 2017-05-17 | 郑州云海信息技术有限公司 | 一种云资源的调度方法及装置 |
CN108304260A (zh) * | 2017-12-15 | 2018-07-20 | 上海超算科技有限公司 | 一种基于高性能云计算的虚拟化作业调度系统及其实现方法 |
CN108694071A (zh) * | 2017-03-29 | 2018-10-23 | 瞻博网络公司 | 用于分布式虚拟化基础设施元件监视和策略控制的多集群面板 |
CN109828833A (zh) * | 2018-11-02 | 2019-05-31 | 上海帆一尚行科技有限公司 | 一种神经网络训练任务的排队系统及其方法 |
CN110597621A (zh) * | 2019-08-09 | 2019-12-20 | 苏宁金融科技(南京)有限公司 | 集群资源的调度方法与系统 |
-
2020
- 2020-05-28 CN CN202010468759.8A patent/CN111708604A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404542A (zh) * | 2015-08-14 | 2016-03-16 | 国家超级计算深圳中心(深圳云计算中心) | 云计算系统及在其上运行高性能计算的方法 |
CN106686136A (zh) * | 2017-02-24 | 2017-05-17 | 郑州云海信息技术有限公司 | 一种云资源的调度方法及装置 |
CN108694071A (zh) * | 2017-03-29 | 2018-10-23 | 瞻博网络公司 | 用于分布式虚拟化基础设施元件监视和策略控制的多集群面板 |
CN108304260A (zh) * | 2017-12-15 | 2018-07-20 | 上海超算科技有限公司 | 一种基于高性能云计算的虚拟化作业调度系统及其实现方法 |
CN109828833A (zh) * | 2018-11-02 | 2019-05-31 | 上海帆一尚行科技有限公司 | 一种神经网络训练任务的排队系统及其方法 |
CN110597621A (zh) * | 2019-08-09 | 2019-12-20 | 苏宁金融科技(南京)有限公司 | 集群资源的调度方法与系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905423A (zh) * | 2021-03-26 | 2021-06-04 | 北京赛博云睿智能科技有限公司 | 大数据环境中分布式资源容器监控与自评估方法及系统 |
CN112905423B (zh) * | 2021-03-26 | 2024-02-13 | 北京赛博云睿智能科技有限公司 | 大数据环境中分布式资源容器监控与自评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11656915B2 (en) | Virtual systems management | |
US9396031B2 (en) | Distributed UIMA cluster computing (DUCC) facility | |
US11740921B2 (en) | Coordinated container scheduling for improved resource allocation in virtual computing environment | |
US11467874B2 (en) | System and method for resource management | |
CN111552556B (zh) | 一种gpu集群服务管理系统及方法 | |
CN112104723A (zh) | 一种多集群的数据处理系统及方法 | |
US12111733B2 (en) | Orchestrating a container-based application on a terminal device | |
US9244718B2 (en) | Virtual machine resource allocation based on connection time coverage exceeding a minimum threshold | |
CN112162839A (zh) | 任务调度方法、装置、计算机设备和存储介质 | |
CN108028806B (zh) | 网络功能虚拟化nfv网络中分配虚拟资源的方法和装置 | |
CN111708604A (zh) | 一种智能运维支撑方法 | |
Antoniou | Performance evaluation of cloud infrastructure using complex workloads | |
CN113672336A (zh) | 一种k8s容器集群部署方法、装置、设备及可读存储介质 | |
CN111082964B (zh) | 一种配置信息的分发方法和装置 | |
CN111708605B (zh) | 一种智能运维支撑方法和支撑系统 | |
Imran et al. | Cloud-niagara: A high availability and low overhead fault tolerance middleware for the cloud | |
CN110928679A (zh) | 一种资源分配方法及装置 | |
CN113515356B (zh) | 一种轻量级分布式资源管理与任务调度器及方法 | |
US10621006B2 (en) | Method for monitoring the use capacity of a partitioned data-processing system | |
CN110895504A (zh) | 调度仿真系统和调度仿真方法 | |
WO2022177455A1 (en) | Method and system for optimizing resource and traffic management of a computer execution environment in a vran | |
CN113780974A (zh) | 一种网络安全服务管控系统 | |
CN110647440A (zh) | 一种基于状态机的大数据任务处理方法及系统 | |
CN115811549B (zh) | 支持混合异构运行时的云边资源管理调度方法及系统 | |
US20240370309A1 (en) | Virtual systems management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200925 |
|
RJ01 | Rejection of invention patent application after publication |