CN111708605B - 一种智能运维支撑方法和支撑系统 - Google Patents

一种智能运维支撑方法和支撑系统 Download PDF

Info

Publication number
CN111708605B
CN111708605B CN202010477440.1A CN202010477440A CN111708605B CN 111708605 B CN111708605 B CN 111708605B CN 202010477440 A CN202010477440 A CN 202010477440A CN 111708605 B CN111708605 B CN 111708605B
Authority
CN
China
Prior art keywords
resource
data
module
configuration
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010477440.1A
Other languages
English (en)
Other versions
CN111708605A (zh
Inventor
王军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saibo Yunrui Intelligent Technology Co ltd
Original Assignee
Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saibo Yunrui Intelligent Technology Co ltd filed Critical Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority to CN202010477440.1A priority Critical patent/CN111708605B/zh
Publication of CN111708605A publication Critical patent/CN111708605A/zh
Application granted granted Critical
Publication of CN111708605B publication Critical patent/CN111708605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种智能运维支撑方法和支撑系统,所述方法包括;将日志数据传输至上级数据中心;对数据节点进行虚拟化、资源自动调度和资源动态配置;查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;显示监控资源运行过程中的各种运行状态数据以及线程运行数据;分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。所述系统包括与所述方法步骤对应的模块。

Description

一种智能运维支撑方法和支撑系统
技术领域
本发明提出一种智能维运支撑方法和支撑系统,属于互联网技术领域。
背景技术
目前的网络运维包括很多方面,具体包括网络资源管理,告警管理,性能数据管理和接入管理等多方面。但是现在的运维系统多需要技术人员到现场去对用户如何操作使用运维系统,不仅导致成本增加,还会由于系统结构、操作复杂,使客户在实际操作和使用系统过程中常出现操作错误,监控管理无法达到要求的问题。
发明内容
本发明提供了一种智能运维支撑方法和支持系统,用以解决现有大型企业互联网运行系统操作难度大,不易管理监控的问题,所采取的方法如下:
一种智能运维支撑方法,所述支撑方法包括:
将日志数据传输至上级数据中心;
对数据节点进行虚拟化、资源自动调度和资源动态配置;
查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
显示监控资源运行过程中的各种运行状态数据以及线程运行数据;
分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
进一步地,所述将日志数据传输至上级数据中心,包括:
对所要上传的日志数据进行打包,生成日志数据包;
向上级数据中心发起连接;
判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送;如果没有连接成功,则重新想数据中心发起连接直至连接成功;
将所述日志数据包发送至所述上级数据中心;
判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;
对所述向上级数据中心发起连接的过程中、判断是否与所述上级数据中心连接成功的过程中、将所述日志数据包发送至所述上级数据中心以及判断所述日志数据包是否成功发送至所述上级数据中心的过程中产生的上传过程数据进行记录。
进一步地,所述对数据节点进行虚拟化、资源自动调度和资源动态配置,包括:
利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure DEST_PATH_IMAGE001
Figure 955384DEST_PATH_IMAGE002
其中,N表示资源分配优先级指标,
Figure DEST_PATH_IMAGE003
表示第i个调度器的延时门限,
Figure 64417DEST_PATH_IMAGE004
表示第i个 调度器允许的最大放弃资源竞争的次数,
Figure 677932DEST_PATH_IMAGE005
表示第i个调度器放弃资源竞争次数,
Figure 322540DEST_PATH_IMAGE006
表 示第t时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure 513350DEST_PATH_IMAGE007
表示第t时 刻第i个调度器的数据传输速度,
Figure 127871DEST_PATH_IMAGE008
表示第i个调度器的所需最大带宽,
Figure 454947DEST_PATH_IMAGE009
表示第i个调 度器的所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离;
创建和按需加载共享库来扩展内部机能。
进一步地,所述查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数,包括:
通过运行-master--help或-slave--help查看可用资源选项;
主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
首先在环境中搜索配置参数,然后再命令行中搜索配置参数;
在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
进一步地,所述显示监控资源运行过程中的各种运行状态数据以及线程运行数据,包括:
根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
显示所述资源调度线程的各种线程运行数据。
一种智能运维支撑系统,所述系统包括:
日志数据上传模块,用于将日志数据传输至上级数据中心;
虚拟资源动态调度模块,用于对数据节点进行虚拟化、资源自动调度和资源动态配置;
资源可信管理模块,用于查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
资源运行状态监控模块,用于显示监控资源运行过程中的各种运行状态数据以及线程运行数据;
接口设置模块,用于分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
进一步地,所述日志数据上传模块包括:
数据打包模块,用于对所要上传的日志数据进行打包,生成日志数据包;
连接发起模块,用于向上级数据中心发起连接;
连接判断模块,用于判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送模块;如果没有连接成功,则重新向数据中心发起连接直至连接成功;
数据发送模块,用于将所述日志数据包发送至所述上级数据中心;
发送状态判断模块,用于判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;
日志记录模块,用于对所述连接发起模块、连接判断模块、数据发送模块和发送状态判断模块产生的上传过程数据进行记录。
进一步地,所述虚拟资源动态调度模块包括:
资源动态分配模块,用于利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure 4877DEST_PATH_IMAGE001
Figure 823928DEST_PATH_IMAGE002
其中,N表示资源分配优先级指标,
Figure 117506DEST_PATH_IMAGE003
表示第i个调度器的延时门限,
Figure 564668DEST_PATH_IMAGE004
表示第i个 调度器允许的最大放弃资源竞争的次数,
Figure 19920DEST_PATH_IMAGE005
表示第i个调度器放弃资源竞争次数,
Figure 823140DEST_PATH_IMAGE006
表 示第t时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure 654830DEST_PATH_IMAGE007
表示第t时 刻第i个调度器的数据传输速度,
Figure 222077DEST_PATH_IMAGE008
表示第i个调度器的所需最大带宽,
Figure 989176DEST_PATH_IMAGE009
表示第i个调 度器的所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
资源敏捷编排模块,用于在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离;
模块化单元,用于创建和按需加载共享库来扩展内部机能。
进一步地,所述资源可信管理模块包括:
可用资源选项查看模块,用于通过运行-master--help或-slave--help查看可用资源选项;
配置选项传递模块,用于主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
配置参数搜索模块,用于首先在环境中搜索配置参数,然后再命令行中搜索配置参数;
配置参数读取模块,用于在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
进一步地,所述资源运行状态监控模块包括:
资源运行监控模块,用于根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
资源调度线程状态显示模块,用于显示所述资源调度线程的各种线程运行数据。
本发明有益效果:
本发明提出的一种智能运维支撑方法和支持系统,具有虚拟化、自动调度、资源动态配置、集群参数配置、同步参数配置、启停集群服务、查看集群运行状态、查看集群节点信息、系统主动语境等功能,具有加载效率高,可扩展性强等特点。所述智能运维支撑方法和支持系统极大程度上降低了大型企业互联网运行系操作难度和管理监控难度。
附图说明
图1为本发明所述支持方法的流程图;
图2为本发明所述支持系统的系统框图;
图3为本发明所述支持系统的监控界面图一;
图4为本发明所述支持系统的监控界面图二。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种智能运维支撑方法和支持系统,用以解决现有大型企业互联网运行系操作难度大,不易管理监控的问题,所采取的方法如下:
本发明实施例提出一种智能运维支撑方法,如图1所示,所述支撑方法包括:
S1、将日志数据传输至上级数据中心;
S2、对数据节点进行虚拟化、资源自动调度和资源动态配置;
S3、查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
S4、显示监控资源运行过程中的各种运行状态数据以及线程运行数据;
S5、分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
上述方案的工作原理为:首先,将日志数据传输至上级数据中心,然后,对数据节点进行虚拟化、资源自动调度和资源动态配置;查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;然后,显示监控资源运行过程中的各种运行状态数据以及线程运行数据;最后,分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
上述方案的技术效果为:具有虚拟化、自动调度、资源动态配置、集群参数配置、同步参数配置、启停集群服务、查看集群运行状态、查看集群节点信息、系统主动语境等功能,具有加载效率高,可扩展性强等特点。所述智能运维支撑方法和支持系统极大程度上降低了大型企业互联网运行系操作难度和管理监控难度。
本发明的一个实施例,所述将日志数据传输至上级数据中心,包括:
S101、对所要上传的日志数据进行打包,生成日志数据包;
S102、向上级数据中心发起连接;
S103、判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送;如果没有连接成功,则重新向数据中心发起连接直至连接成功;
S104、将所述日志数据包发送至所述上级数据中心;
S105、判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;
S106、对所述向上级数据中心发起连接的过程中、判断是否与所述上级数据中心连接成功的过程中、将所述日志数据包发送至所述上级数据中心以及判断所述日志数据包是否成功发送至所述上级数据中心的过程中产生的上传过程数据进行记录。
上述方案的工作原理为:首先,对所要上传的日志数据进行打包,生成日志数据包;然后,向上级数据中心发起连接;判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送模块;如果没有连接成功,则重新向数据中心发起连接直至连接成功;判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送;如果没有连接成功,则重新想数据中心发起连接直至连接成功;将所述日志数据包发送至所述上级数据中心;判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;最后,对所述向上级数据中心发起连接的过程中、判断是否与所述上级数据中心连接成功的过程中、将所述日志数据包发送至所述上级数据中心以及判断所述日志数据包是否成功发送至所述上级数据中心的过程中产生的上传过程数据进行记录。
上述方案的技术效果为:提高日志数据上传的效率,并实时监控数据上传是否成功,实时对每个上传过程的数据进行记录,有效提高了日志数据上传的成功率。
本发明的一个实施例,所述对数据节点进行虚拟化、资源自动调度和资源动态配置,包括:
S201、利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure 641874DEST_PATH_IMAGE001
Figure 277255DEST_PATH_IMAGE010
其中,N表示资源分配优先级指标,
Figure 433430DEST_PATH_IMAGE003
表示第i个调度器的延时门限,
Figure 151856DEST_PATH_IMAGE004
表示第i个 调度器允许的最大放弃资源竞争的次数,
Figure 167216DEST_PATH_IMAGE005
表示第i个调度器放弃资源竞争次数,
Figure 606288DEST_PATH_IMAGE006
表 示第t时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure 882549DEST_PATH_IMAGE007
表示第t时 刻第i个调度器的数据传输速度,
Figure 116084DEST_PATH_IMAGE008
表示第i个调度器的所需最大带宽,
Figure 103894DEST_PATH_IMAGE009
表示第i个调 度器的所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
S202、在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离;
S203、创建和按需加载共享库来扩展内部机能。
上述方案的工作原理为:首先,利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程。
具体的,资源动态调度集群分为主节点和从节点两种角色。由一个主节点守护进程来 管理从节点守护进程在每个集群节点上的运行,应用程序在这些从节点上运行任务。主节点实现跨应用细粒度资源共享,这些资源包括计算资源、存储资源和网络资源。主节点根据相应的策略分配资源给应用程序,如公平共享策略或优先级策略。主节点采用模块化结构,可以通过插件形式来添加新的模块,从而支持多 样性的策略。应用程序的资源动态分配由两部分组成:调度器和执行进程。应用程序的调度器注册到主节点来获取集群资源。在从节点上运行的执行进程,可以执行应用程序的任务。主节点决定为每个应用程序提供多少资源,调度器来选择提供的资源。当应用程序决定提供资源,它通过主节点将任务发送到提供资源的从节点上运行。针对应用程序的调度器,所有的调度程序都使用优势资源公平算法来竞争公平分配的资源。还可以将角色分配给框架和任务,并通过分配权重给这个角色来调整调度器的优先级。角色与资源是紧密相连的。以上特性使能根据自己想要运行的任务类型,针对不同的应用程序创建自己的调度方式。例如,在运行批处理任务时,最好将它们放在离数据近一些的地方,而启动的时间并不重要。另一方面,运行无状态服务是独立于节点的,用于快速尽快运行它们,这一点更为重要。
同时,利用多台主节点来实现高可用性,包括一个活跃的主节点和若干备份主节点来避免宕机。通过选举出活跃的主节点,然后通知集群中的其他节点,包括其他主节点,从节点和调度器。
然后,在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离。具体的,提供轻量级的容器化和资源隔离功能,主要使用了Linux内建的cgroup和namespace等机制。这些机制可以组合使用,来满足不同的的隔离需求。提供了对 POSIX 系统的基本支持,具有资源使用情况报告功能。共享文件系统隔离器安装在 Linux 宿主机上,容器和宿主机之间可以共享文件系统。有关共享文件系统的配置信息位于执行器信息中,通过应用程序或者启动从节点的时候使用 –default_container_info 标志位来实现。文件系统隔离器让每个容器能都拥有专有的目录空间。容器私有的 "/temp" 目录来设置参数 —— host_path = "tmp" 和 container_path = "/temp "。在宿主机excutor 的工作目录下创建一个 "tmp" 目录),同时在容器内映射到根目录下"/tmp" 之下。容器内的进程将看不到宿主机的根目录 /tmp 或者其他容器内的/tmp 。
最后,创建和按需加载共享库来扩展内部机能。具体为,通过模块化可以定制用于支撑不同的应用场景,无需重新编译/链接整个工程。 模块化可以把外部依赖放到单独的库中,从而精简核心。模块化还可以让开发者很容易地尝试新功能。例如,编写一个包含特定编程环境虚拟机的分配程序,可以用这些编程语言开发资源分配算法,而不必把这些环境的依赖库打到主工程中。最后,为第三方提供一种简单的方法扩展,而不必了解所有内部细节;其中,本实施例中,所述模块化单元生成的各种模块的种类为:
分配器:
主节点的分配器会定期将资源分配给某个框架。分配模块支持用户自己定义资源分配的算法,
匿名模块:
匿名模块不接收任何回调,只是与它们的父进程共存。这种模块既不实现具体功能,也不代替任何现有的模块。
身份认证模块:
通过使用认证模块,第三方可以很快捷地开发和部署新的身份认证手段。例如通过 PAM (LDAP,MySQL,NIS,UNIX) 进行身份认证。
隔离模块:
隔离模块可以试验专门的隔离和监控功能,例如针对 GPU 或网络资源的第三方的资源隔离机制。
上述方案的技术效果为:提高资源调动和分配效率,以及提高资源调动和分配的合理性;同时,具有较高的安全性、设置灵活性和操作灵活性。
本发明的一个实施例,所述查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数,包括:
S301、通过运行-master--help或-slave--help查看可用资源选项;
S302主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
S303、首先在环境中搜索配置参数,然后再命令行中搜索配置参数;
S304、在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
上述方案的工作原理为:主节点和从节点可以通过命令行参数或环境变量来传递一系列的配置选项。通过运行-master --help 或者-slave --help 可以查看相关的可用选项。每个选项可以通过以下两种方式设置:执行命令的时候使用–-option_name=value来传递配置选项。value 既可以是数值,也可以指定包含参数的文件 (--opthon_name=file://文件路径)。 该路径既可以是绝对路径,也可以是相对当前工作目录的相对路径。通过设定环境变量 OPTION_NAME 执行时会先读取环境变量,然后是命令行参数。配置参数会首先在环境中搜索,然后才是命令行。
上述方案的技术效果为:通过上述过程进行资源可信管理能够保证信息难以被其他方获取,提高信息管理的安全性和保密性,以及资源信息管理配置的效率和准确性。
本发明的一个实施例,所述显示监控资源运行过程中的各种运行状态数据以及线程运行数据,包括:
S401、根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
S402、显示所述资源调度线程的各种线程运行数据。
上述方案的工作原理为:通过可读性指标可以更快地发现集群的异常状况。主节点和从节点提供一组统计数据和指标,能方便地监控资源使用情况并及早发现异常状况。监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态等细节。使用这些监控信息实现自动化的报警,或者在监控界面里面绘制时间序列的监控图表。提供两种指标:计数器和仪表计数器(counter)用来跟踪不连续的事件。这种类型的指标总是自然数。例子包括失败的任务数目和注册的从节点数量。对于这种类型的指标,变化率往往比数值本身更重要。测量代表一个瞬间的采样值。例如当前集群中使用内存的总量和在线的从节点连接数量。这类指标通常用来监控是否在一段时间内高于或低于某个阈值。以下指标提供两个重要的信息:整个集群中的可用资源总量和当前已经使用的部分。如果资源使用率持续高居不下,说明应该增加集群的资源总量,或者某个框架已经运行失常。以下指标说明两个问题:有关主节点是否是 leading 主节点,它已经启动运行了多长时间。当一个集群经过一段时间依然没有选出 leading 主节点,则认为这个集群已经处于故障状态。这说明要不竞选过程出现问题要不选出的主节点有故障。此外较短的已经运行时间表明主节点近期有过重启。
上述方案的技术效果为:提高显示内容的准确率和效率,同时,在有限界面能展示更多的资源,方便工作人员监控和管理。快速响应,及时显示错误或故障情况,提高工作人员的监控质量和网络运维的数据反馈及时性。
本发明实施例提出了一种智能运维支撑系统,如图2所示,所述系统包括:
日志数据上传模块,用于将日志数据传输至上级数据中心;
虚拟资源动态调度模块,用于对数据节点进行虚拟化、资源自动调度和资源动态配置;
资源可信管理模块,用于查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
资源运行状态监控模块,用于显示监控资源运行过程中的各种运行状态数据以及线程运行数据;
接口设置模块,用于分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
上述方案的工作原理为:通过日志数据上传模块将日志数据传输至上级数据中心;然后,利用虚拟资源动态调度模块对数据节点进行虚拟化、资源自动调度和资源动态配置;最后,通过资源可信管理模块查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;采用资源运行状态监控模块显示监控资源运行过程中的各种运行状态数据以及线程运行数据;最后,利用接口设置模块分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
上述方案的技术效果为:具有虚拟化、自动调度、资源动态配置、集群参数配置、同步参数配置、启停集群服务、查看集群运行状态、查看集群节点信息、系统主动语境等功能,具有加载效率高,可扩展性强等特点。所述智能运维支撑方法和支持系统极大程度上降低了大型企业互联网运行系操作难度和管理监控难度。
本发明的一个实施例,所述日志数据上传模块包括:
数据打包模块,用于对所要上传的日志数据进行打包,生成日志数据包;
连接发起模块,用于向上级数据中心发起连接;
连接判断模块,用于判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送模块;如果没有连接成功,则重新想数据中心发起连接直至连接成功;
数据发送模块,用于将所述日志数据包发送至所述上级数据中心;
发送状态判断模块,用于判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;
日志记录模块,用于对所述连接发起模块、连接判断模块、数据发送模块和发送状态判断模块产生的上传过程数据进行记录。
上述方案的工作原理为:首先,通过数据打包模块对所要上传的日志数据进行打包,生成日志数据包;然后,利用连接发起模块向上级数据中心发起连接;利用连接判断模块判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送模块;如果没有连接成功,则重新想数据中心发起连接直至连接成功;通过数据发送模块将所述日志数据包发送至所述上级数据中心;随后,通过发送状态判断模块判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据成功发送至所述上级数据中心;最后,采用日志记录模块对所述连接发起模块、连接判断模块、数据发送模块和发送状态判断模块产生的上传过程数据进行记录。
上述方案的技术效果为:提高日志数据上传的效率,并实时监控数据上传是否成功,实时对每个上传过程的数据进行记录,有效提高了日志数据上传的成功率。
本发明的一个实施例,所述虚拟资源动态调度模块包括:
资源动态分配模块,用于利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure 81077DEST_PATH_IMAGE001
Figure 211844DEST_PATH_IMAGE002
其中,N表示资源分配优先级指标,
Figure 616280DEST_PATH_IMAGE003
表示第i个调度器的延时门限,
Figure 340654DEST_PATH_IMAGE004
表示第i个 调度器允许的最大放弃资源竞争的次数,
Figure 121528DEST_PATH_IMAGE005
表示第i个调度器放弃资源竞争次数,
Figure 372381DEST_PATH_IMAGE006
表 示第t时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure 603511DEST_PATH_IMAGE007
表示第t时 刻第i个调度器的数据传输速度,
Figure 939814DEST_PATH_IMAGE008
表示第i个调度器的所需最大带宽,
Figure 134166DEST_PATH_IMAGE009
表示第i个调 度器的所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
资源敏捷编排模块,用于在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离;
模块化单元,创建和按需加载共享库来扩展内部机能。
上述方案的工作原理为:采用资源动态分配模块利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;然后通过资源敏捷编排模块在资源动态调度分配过程中,为资源动态调度分配提供容器化和资源隔离;最后,通过模块化单元创建和按需加载共享库来扩展内部机能。
上述方案的技术效果为:提高资源调动和分配效率,以及提高资源调动和分配的合理性;同时,具有较高的安全性、设置灵活性和操作灵活性。
本发明的一个实施例,所述资源可信管理模块包括:
可用资源选项查看模块,用于通过运行-master--help或-slave--help查看可用资源选项;
配置选项传递模块,用于主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
配置参数搜索模块,用于首先在环境中搜索配置参数,然后再命令行中搜索配置参数;
配置参数读取模块,用于在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
上述方案的工作原理为:利用可用资源选项查看模块通过运行-master--help或-slave--help查看可用资源选项;通过配置选项传递模块在主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;采用配置参数搜索模块首先在环境中搜索配置参数,然后再命令行中搜索配置参数;最后利用配置参数读取模块在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
上述方案的技术效果为:通过上述过程进行资源可信管理能够保证信息难以被其他方获取,提高信息管理的安全性和保密性,以及资源信息管理配置的效率和准确性。
本发明的一个实施例,所述资源运行状态监控模块包括:
资源运行监控模块,用于根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
资源调度线程状态显示模块,用于显示所述资源调度线程的各种线程运行数据。
所述资源运行监控模块中包括自动报警模块和监控报告生成模块:
监控报告生成模块,用于生成资源运行过程中各种数据监控的监控报告;所述监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态等细节数据。
自动报警模块,用于在所述资源运行出现故障时进行自动报警;
所述资源运行监控模块和资源调度线程状态显示模块中均包括监控图绘制模块;
所述监控图绘制模块,用于在监控界面里绘制时间序列的监控图标。
上述方案的工作原理为:通过资源运行监控模块根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;利用资源调度线程状态显示模块显示所述资源调度线程的各种线程运行数据。
其中,进一步地,所述资源运行监控模块中包括自动报警模块和监控报告生成模块:
通过监控报告生成模块生成资源运行过程中各种数据监控的监控报告;所述监控赶报告包括可用资源、已经使用的资源、已经注册的框架、活跃的从节点和任务的状态等细节数据。
同时采用自动报警模块在所述资源运行出现故障时进行自动报警;
另外,所述资源运行监控模块和资源调度线程状态显示模块中均包括监控图绘制模块;
通过所述监控图绘制模块在监控界面里绘制时间序列的监控图标。
上述方案的技术效果为:提高显示内容的准确率和效率,同时,在有限界面能展示更多的资源,方便工作人员监控和管理。快速响应,及时显示错误或故障情况,提高工作人员的监控质量和网络运维的数据反馈及时性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种智能运维支撑方法,其特征在于,所述支撑方法包括:
将日志数据传输至上级数据中心;
对数据节点进行虚拟化、资源自动调度和资源动态配置,包括:
利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure 384366DEST_PATH_IMAGE002
Figure 787665DEST_PATH_IMAGE004
其中,N表示资源分配优先级指标,
Figure DEST_PATH_IMAGE005
表示第i个调度器的延时门限,
Figure 374504DEST_PATH_IMAGE006
表示第i个调度器 允许的最大放弃资源竞争的次数,
Figure DEST_PATH_IMAGE007
表示第i个调度器放弃资源竞争次数,
Figure 946476DEST_PATH_IMAGE008
表示第t 时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure DEST_PATH_IMAGE009
表示第t时刻第i 个调度器的数据传输速度,
Figure 152329DEST_PATH_IMAGE010
表示第i个调度器的所需最大带宽,
Figure DEST_PATH_IMAGE011
表示第i个调度器的 所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
在资源自动调度和资源动态配置过程中,为资源自动调度和资源动态配置提供容器化和资源隔离;
创建和按需加载共享库来扩展内部机能;
查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
显示监控资源运行过程中的各种运行状态数据以及线程运行数据;
分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
2.根据权利要求1所述支撑方法,其特征在于,所述将日志数据传输至上级数据中心,包括:
对所要上传的日志数据进行打包,生成日志数据包;
向上级数据中心发起连接;
判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送;如果没有连接成功,则重新向数据中心发起连接直至连接成功;
将所述日志数据包发送至所述上级数据中心;
判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据包成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据包没有发送至所述上级数据中心,则重新启动数据发送向所述上级数据中心发送日志数据包直至所述日志数据包成功发送至所述上级数据中心;
对所述向上级数据中心发起连接的过程中、判断是否与所述上级数据中心连接成功的过程中、将所述日志数据包发送至所述上级数据中心以及判断所述日志数据包是否成功发送至所述上级数据中心的过程中产生的上传过程数据进行记录。
3.根据权利要求1所述支撑方法,其特征在于,所述查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数,包括:
通过运行-master--help或-slave--help查看可用资源选项;
主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
首先在环境中搜索配置参数,然后在命令行中搜索配置参数;
在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
4.根据权利要求1所述支撑方法,其特征在于,所述显示监控资源运行过程中的各种运行状态数据以及线程运行数据,包括:
根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
显示资源运行过程中资源调度线程的各种线程运行数据。
5.一种智能运维支撑系统,其特征在于,所述系统包括:
日志数据上传模块,用于将日志数据传输至上级数据中心;
虚拟资源动态调度模块,用于对数据节点进行虚拟化、资源自动调度和资源动态配置,包括:
资源动态分配模块,用于利用调度器通过优势资源公平算法模型竞争公平分配的集群资源,在竞争到所述集群资源后通过注册到主节点的方式获取集群资源,并对获取到的所述集群资源进行选择,当所述调度器决定选取所述集群资源时,通过所述主节点将任务发送到提供所述集群资源的从节点上,通过所述从节点运行提供资源的执行进程;其中,所述优势资源公平算法模型如下:
Figure 269190DEST_PATH_IMAGE002
Figure 433455DEST_PATH_IMAGE004
其中,N表示资源分配优先级指标,
Figure 409501DEST_PATH_IMAGE005
表示第i个调度器的延时门限,
Figure 419045DEST_PATH_IMAGE006
表示第i个调度器 允许的最大放弃资源竞争的次数,
Figure 655992DEST_PATH_IMAGE007
表示第i个调度器放弃资源竞争次数,
Figure 319054DEST_PATH_IMAGE008
表示第t 时刻第i个调度器允许注册的第j个主节点的集群资源的资源量;
Figure 782397DEST_PATH_IMAGE009
表示第t时刻第i 个调度器的数据传输速度,
Figure 595632DEST_PATH_IMAGE010
表示第i个调度器的所需最大带宽,
Figure 828030DEST_PATH_IMAGE011
表示第i个调度器的 所需最小带宽,E表示自然常数,E=2;λ表示集群资源的剩余资源量;
资源敏捷编排模块,用于在资源自动调度和资源动态配置过程中,为资源自动调度和资源动态配置提供容器化和资源隔离;
模块化单元,用于创建和按需加载共享库来扩展内部机能;
资源可信管理模块,用于查看可用资源选项,传递配置选项,搜索配置参数,并先后读取环境变量和命令行参数;
资源运行状态监控模块,用于显示监控资源运行过程中的各种运行状态数据以及资源调度线程的各种线程运行数据;
接口设置模块,用于分别对任务资源配置API、容器部部署配置API和可靠性配置接口进行设置。
6.根据权利要求5所述支撑系统,其特征在于,所述日志数据上传模块包括:
数据打包模块,用于对所要上传的日志数据进行打包,生成日志数据包;
连接发起模块,用于向上级数据中心发起连接;
连接判断模块,用于判断是否与所述上级数据中心连接成功,如果连接成功,则启动数据发送模块;如果没有连接成功,则重新向数据中心发起连接直至连接成功;
数据发送模块,用于将所述日志数据包发送至所述上级数据中心;
发送状态判断模块,用于判断所述日志数据包是否成功发送至所述上级数据中心;如果所述日志数据包成功发送至所述上级数据中心,则结束本次日志数据上传;如果所述日志数据包没有发送至所述上级数据中心,则重新启动数据发送模块向所述上级数据中心发送日志数据包直至所述日志数据包成功发送至所述上级数据中心;
日志记录模块,用于对所述连接发起模块、连接判断模块、数据发送模块和发送状态判断模块产生的上传过程数据进行记录。
7.根据权利要求5所述支撑系统,其特征在于,所述资源可信管理模块包括:
可用资源选项查看模块,用于通过运行-master--help或-slave--help查看可用资源选项;
配置选项传递模块,用于主节点和从节点在执行命令时,通过--option_name=value来传递配置选项;
配置参数搜索模块,用于首先在环境中搜索配置参数,然后在命令行中搜索配置参数;
配置参数读取模块,用于在执行命令时,通过设定环境变量OPTION_NAME先读取环境变量,然后再读取命令行参数。
8.根据权利要求5所述支撑系统,其特征在于,所述资源运行状态监控模块包括:
资源运行监控模块,用于根据主节点和从节点提供的统计数据和指标显示并监控资源运行过程中的各种运行状态数据;
资源调度线程状态显示模块,用于显示资源调度线程的各种线程运行数据。
CN202010477440.1A 2020-05-29 2020-05-29 一种智能运维支撑方法和支撑系统 Active CN111708605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010477440.1A CN111708605B (zh) 2020-05-29 2020-05-29 一种智能运维支撑方法和支撑系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010477440.1A CN111708605B (zh) 2020-05-29 2020-05-29 一种智能运维支撑方法和支撑系统

Publications (2)

Publication Number Publication Date
CN111708605A CN111708605A (zh) 2020-09-25
CN111708605B true CN111708605B (zh) 2021-07-30

Family

ID=72538419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010477440.1A Active CN111708605B (zh) 2020-05-29 2020-05-29 一种智能运维支撑方法和支撑系统

Country Status (1)

Country Link
CN (1) CN111708605B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114629924B (zh) * 2022-04-13 2024-02-13 北京赛博云睿智能科技有限公司 一种容器进行业务数据同步运行的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404542A (zh) * 2015-08-14 2016-03-16 国家超级计算深圳中心(深圳云计算中心) 云计算系统及在其上运行高性能计算的方法
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109934361B (zh) * 2019-02-25 2022-03-11 江苏电力信息技术有限公司 一种基于容器和大数据的自动化运维平台模型

Also Published As

Publication number Publication date
CN111708605A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
JP7197612B2 (ja) オンデマンドネットワークコード実行システム上での補助機能の実行
US9396031B2 (en) Distributed UIMA cluster computing (DUCC) facility
KR20160087706A (ko) 가상화 플랫폼을 고려한 분산 데이터 처리 시스템의 자원 할당 장치 및 할당 방법
US20100077250A1 (en) Virtualization based high availability cluster system and method for managing failure in virtualization based high availability cluster system
EP2442228A1 (en) A computer cluster arrangement for processing a computaton task and method for operation thereof
CN110661647A (zh) 一种生命周期管理方法及装置
US11740921B2 (en) Coordinated container scheduling for improved resource allocation in virtual computing environment
Convolbo et al. GEODIS: towards the optimization of data locality-aware job scheduling in geo-distributed data centers
CN113382077B (zh) 微服务调度方法、装置、计算机设备和存储介质
Pusztai et al. Pogonip: Scheduling asynchronous applications on the edge
Schmidt et al. Elastic infrastructure to support computing clouds for large-scale cyber-physical systems
Selvi et al. Resource allocation issues and challenges in cloud computing
CN109902028A (zh) Acl特性的自动化测试方法、装置、设备及存储介质
CN111708605B (zh) 一种智能运维支撑方法和支撑系统
JP5178778B2 (ja) 仮想計算機およびcpu割り当て方法
CN117596247A (zh) 基于异构边缘计算系统的资源监控和性能评估的方法
CN114168252A (zh) 信息处理系统及方法、网络方案推荐组件及方法
CN109525443B (zh) 分布式前置采集通讯链路的处理方法、装置和计算机设备
US20230137191A1 (en) Mechanism to recompose workload packages in a computing environment
CN111708604A (zh) 一种智能运维支撑方法
CN115827148A (zh) 一种资源管理方法、装置、电子设备及存储介质
WO2022177455A1 (en) Method and system for optimizing resource and traffic management of a computer execution environment in a vran
CN115686813A (zh) 一种资源调度方法、装置、电子设备和存储介质
WO2022007645A1 (zh) 一种容器组的创建方法和装置
JP6322332B2 (ja) エネルギー管理システムおよび業務アプリケーションの実行方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant