CN114816702A - 监控数据获取方法、装置、设备、介质和程序产品 - Google Patents

监控数据获取方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN114816702A
CN114816702A CN202210433254.7A CN202210433254A CN114816702A CN 114816702 A CN114816702 A CN 114816702A CN 202210433254 A CN202210433254 A CN 202210433254A CN 114816702 A CN114816702 A CN 114816702A
Authority
CN
China
Prior art keywords
task
execution
monitoring data
file
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210433254.7A
Other languages
English (en)
Inventor
李臻
宋稼璐
赵永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210433254.7A priority Critical patent/CN114816702A/zh
Publication of CN114816702A publication Critical patent/CN114816702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/547Messaging middleware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种监控数据获取方法,可以应用于大数据技术领域和人工智能技术领域。其中,监控数据获取方法包括:根据策略任务文件确定当前时刻的定时任务;响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。本公开还提供了一种监控数据获取装置、设备、存储介质和程序产品。

Description

监控数据获取方法、装置、设备、介质和程序产品
技术领域
本公开涉及计算机技术领域,具体地涉及一种监控数据获取方法、装置、设备、介质和程序产品。
背景技术
数据中心开放平台具有操作系统、数据库、中间件、存储等多个系统级别的专业对象,每个专业对象又存在多种类型,每个类型又分很多版本。同时,对于这些专业对象进行监控数据的获取分析属于数据中心运维管理的必要内容。但是专业对象的类型多样、版本复杂给监控数据的获取分析造成了较大的处理压力。
发明内容
鉴于上述问题,本公开提供了一种适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本的监控数据获取方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种监控数据获取方法,包括:根据策略任务文件确定当前时刻的定时任务;响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
根据本公开的实施例,在所述根据策略任务文件确定当前时刻的定时任务之前,还包括:通过下行任务链路周期性接收所述策略任务文件和执行任务文件;存储所述策略任务文件和执行任务文件。
根据本公开的实施例,在所述响应于所述监听连接关系,存储所述策略任务文件和执行任务文件之前,还包括:启动监控数据获取的主控制进程;响应于所述主控制进程,建立所述主控制进程与对应的文件执行队列之间的监听连接关系。
根据本公开的实施例,在所述根据策略任务文件确定当前时刻的定时任务中,包括:基于第一间隔时间周期性探测所述主控制进程的所述监听连接关系的探测连接状态;通过所述探测连接状态遍历所述策略任务文件中指定的策略任务脚本;基于第二间隔时间执行所述策略任务脚本以确定当前时刻的定时任务。
根据本公开的实施例,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件中,包括:根据所述定时任务的执行周期所决定的执行时间,批量获取与所述策略任务文件对应的执行任务文件;解析所述执行任务文件,获取对应的任务执行信息。
根据本公开的实施例,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件之后,包括:基于第三间隔时间查询动态对象记录;根据动态对象记录和所述任务执行信息,匹配与所述执行任务文件对应的业务指标脚本,其中,所述业务指标脚本用于对所述动态对象记录中对应的专业对象进行监控执行。
根据本公开的实施例,在所述执行与所述执行任务文件相耳匹配的业务指标脚本,获取所述监控数据中,包括:将与所述业务指标脚本对应的任务执行信息作为脚本执行参数脚本执行线程启动脚本执行线程;响应于所述脚本执行线程,向所述业务指标脚本所指定的专业对象发送数据采集请求;获取所述专业对象根据所述数据采集请求所反馈的所述监控数据。
根据本公开的实施例,在所述获取所述专业对象根据所述数据采集请求所反馈的所述监控数据之后,还包括:依据对应的执行任务文件汇总所述监控数据;将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列。
根据本公开的实施例,将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列之后,还包括:拉取所述第一消息队列中的集中监测数据和第二消息队列中的性能容量数据;通过上行任务链路上传所述集中监测数据和性能容量数据。
根据本公开的实施例,上述监控数据获取方法还包括:基于第四间隔时间检查当前服务器的动态切换记录;根据动态切换记录对所述集中监测数据和性能容量数据进行迁移。
根据本公开的实施例,在所述基于第四间隔时间检查当前服务器的动态切换记录中,包括:基于第四间隔时间检查当前服务器对应的标识配置文件;根据所述标识配置文件获取的原始服务器标识和所述当前服务器的当前服务器标识确定所述动态切换记录。
本公开的第二方面提供了一种监控数据获取装置,其中,包括任务确定模块、文件解析模块和数据获取模块。任务确定模块用于根据策略任务文件确定当前时刻的定时任务;文件解析模块用于响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及数据获取模块用于执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述监控数据获取方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述监控数据获取方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述监控数据获取方法。
本公开提供了一种监控数据获取方法、装置、设备、介质和程序产品。其中,监控数据获取方法,包括:根据策略任务文件确定当前时刻的定时任务;响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。因此,本公开的监控数据获取方法,相对于现有技术中为适用不同版本专业对象而采用不同采集技术的情况,通过策略任务文件定义执行任务文件的采集执行逻辑,可以精准地获取相应专业对象的监控数据,能够避免因对各专业对象匹配不同采集技术造成的服务器资源占用率较大,确保数据中心集群的正常运作,同时基于定时任务能够周期性或者定时的自主实现上述采集执行过程,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率,且其能够适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本,能够在保证任务执行精度的情况下,进一步提升监控采集执行效率。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的监控数据获取方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的监控数据获取方法的流程图;
图3示意性示出了根据本公开实施例的监控数据获取方法的另一应用场景图;
图4A示意性示出了根据本公开实施例的监控数据获取方法的应用场景时序图;
图4B示意性示出了根据本公开实施例的监控数据获取方法的应用场景流程图;
图5示意性示出了根据本公开实施例的监控数据获取装置的结构框图;以及
图6示意性示出了根据本公开实施例的适于实现监控数据获取方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
信息技术(Information Technology,简称IT),是主要用于管理和处理信息所采用的各种技术的总称。它主要是应用计算机科学和通信技术来设计、开发、安装和实施信息系统及应用软件。它也常被称为信息和通信技术(Information and CommunicationsTechnology,简称ICT)。信息技术的研究包括科学,技术,工程以及管理等学科。信息技术的应用包括计算机硬件和软件、网络和通讯技术以及应用软件开发工具等。在银行等金融组织中,信息技术体系结构是一个为达成战略目标而采用和发展信息技术的综合结构,包括管理和技术的成分,其中管理成分包括使命、职能与信息需求、系统配置和信息流程,而技术成分包括用于实现管理体系结构的信息技术标准、规则等。
IT运维监控(即IT综合管理系统)是一系列基于数据中心平台的IT管理产品的统称,它所包含的产品功能强大、易于使用、解决方案齐全,可一站式满足用户的各种IT管理需求。IT运维监控具有性能稳定、用户界面友好、跨平台、易实施、易集成等特点,可极大地简化IT设施和业务系统的监控管理、提高用户的IT管理效率、通过故障预警和快速定位,确保用户的网络设备和业务系统的正常运行,特别适合于电信、电力、教育、服务机构、金融/银行、医疗、交通、政府等众多行业客户。越来越多的客户都在考虑或采纳业务集中的方案。然而业务系统集中后,不仅增加运行维护的工作强度,而且会使集中的系统变得更加繁杂。有效的系统和应用监控体系成为了解业务资源的使用状况,及时发现可能导致系统故障的隐患,实现系统运营保障的关键。另一方面,借助于集中监控解决方案,用户能够正确和及时地了解系统的运行状态,发现影响整体系统运行的瓶颈,帮助系统人员进行必要的系统优化和配置变更,甚至为系统的升级和扩容提供依据。强有力的监控和诊断工具还可以帮助运行维护人员快速地分析出应用故障原因,把他们从繁杂重复的劳动中解放出来。维护人员快速地分析出应用故障原因,把他们从繁杂重复的劳动中解放出来。因此,很多应用企业的IT部门提出建立集中IT管理系统的需求,监控的内容包括网络、服务器、数据库、中间件和应用。通过集中监控系统及时发现系统中的故障,减少故障处理时间。当前,集中IT管理系统可以基于如数据中心的大型数据设备系统来实现。其中,对于数据中心所以来的数据开发和数据运维平台而言,可以适用于具有一定IT规模基础的单位和部门,如银行、证券、电信、政府、医疗、教育、保险、广电、铁路、民航、烟草、军工以及大中型企业用户等。
金融业的快速发展,使得其相应的数据信息系统的规模也在快速扩张。目前,以典型的金融IT系统的数据中心为例,可以发展成为网络覆盖面积数百万平方米,服务器规模高达300台以上,终端和网络设备规模达到5000台,且涵盖业务办理、服务开发、信息安全、数据管理、商业应用等多个核心业务系统,服务用户超过几万甚至几十万人以上的大型多源异构信息系统。
随着数据中心的规模持续扩大,业务应用的不断增加,服务用户对象的日益增多,数据中心运维管理人员必然将要面临着业务种类繁多以及相应的设备类型、设备中的业务服务专业对象类型、专业对象的代理服务类型等繁杂的情况,造成各类资料信息分散,版本难以统一,导致一线运维人员无法在第一时间及时准确地实现信息运维管理,并有效整体掌控网络和系统运行情况,且二线管理人员无法了解未来网络及系统运行的趋势。
互联网、人工智能、物联网等信息技术的应用正在快速改变着人们的生活和工作方式,甚至有些工作岗位已经被人工智能所取代,技术应用的同时产生了大量的数据信息,承载这些数据的服务器通过集群的形式形成大规模数据中心。大规模是一种以高速扩展满足超级需求的能力,用于应对日益增长的数据存储需求,可以快速增加容量能力,具有最佳性能的空间增加,功能、计算、内存、网络基础架构和存储资源是通常定义大规模数据中心的方式。数据中心可以支持数百个乃至上万个物理服务器以及数百万个虚拟机。
对于数据中心而言,其具有多种运维对象,如在提供IT服务过程中所应用的各种IT设备、管理工具、系统与数据以及运维人员等。其中,IT设备主要包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体;管理工具包括基础设施监控软件、IT监控软件、工作流管理平台、报表平台、短信平台等,这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施,通过这些管理工具,可以直观感受并考证到数据中心如何管理好与其IT直接相关的资源,从而间接地提升IT的可用性与可靠性;系统与数据则包括操作系统、数据库、中间件、应用程序等软件资源,还有业务数据、配置文件、日志等各类数据,这类管理对象虽然不像前两类管理对象那样“看得见、摸得着”,但却是IT服务的逻辑载体;运维人员包括数据中心的技术人员、IT运维人员、管理人员以及提供服务的厂商人员,人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理对象,支持IT的运行,这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。
互联网、人工智能、物联网等信息技术的应用正在快速改变着人们的生活和工作方式,甚至有些工作岗位已经被人工智能所取代,技术应用的同时产生了大量的数据信息,承载这些数据的服务器通过集群的形式形成上述大规模数据中心。大规模是一种以高速扩展满足超级需求的能力,用于应对日益增长的数据存储需求,可以快速增加容量能力,具有最佳性能的空间增加,功能、计算、内存、网络基础架构和存储资源是通常定义大规模数据中心的方式。数据中心可以支持数百个乃至上万个物理服务器以及数百万个虚拟机。
对于数据中心而言,其具有多种运维对象,如在提供IT服务过程中所应用的各种IT设备、管理工具、系统与数据以及运维人员等。其中,IT设备主要包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体;管理工具包括基础设施监控软件、IT监控软件、工作流管理平台、报表平台、短信平台等,这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施,通过这些管理工具,可以直观感受并考证到数据中心如何管理好与其IT直接相关的资源,从而间接地提升IT的可用性与可靠性;系统与数据则包括操作系统、数据库、中间件、应用程序等各类软件功能的专业对象,还有业务数据、配置文件、日志等各类数据,这类管理对象虽然不像前两类管理对象那样“看得见、摸得着”,但却是IT服务的逻辑载体;运维人员包括数据中心的技术人员、IT运维人员、管理人员以及提供服务的厂商人员,人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理对象,支持IT的运行,这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。
为保持数据中心的正常工作状态,提高数据中心的运维管理安全性,确保基于计算机系统的业务服务功能的正常运行,就必须对数据中心展开集中监控和性能控制管理,如确保服务器或者服务器机架在低于工作温度以内的范围运行、确保不断检查Ashrae以确保最佳的操作运营温度、确保数据运行安全性、确保业务资源占用率处在正常范围内等,这就需要实时动态地呈现各类服务器集群、服务器各专业对象以及各类应用支持设备等内容的监测监控信息,如设备告警信息、故障设备信息、正常运维日志、服务器运行温度以及资源占用参数等等一系列的与监测监控数据相关的监控信息。因此,为确保数据中心的运维正常,能够提供安全稳定的业务服务功能和运维支持功能,就需要能够准确地获取数据中心服务器集群的监控数据。
现有技术中通常是采用一个或多个专有服务器搭建监控数据检测分析架构系统,利用该架构系统可以将各个服务器集群中每个服务器以及相应支持设备上的监控数据进行汇总。但是现有技术中,由于各个服务器系统中的各类专业对象具有对应不同厂商的应用版本和不同时间的升级版本,这就给中间件、数据库、操作系统等各类专业对象的监控数据的汇总采集的处理过程带来极大不便,如在需要对应不同厂商的系统版本和类型的各类对象部署独立的监控和性能容量采集代理设备或者代理模块,对每个专业对象都设定特殊的采集代理提供相应的采集手段,这就造成每个服务器的资源占用率更大,影响数据中心集群的正常运作,进一步地也使得采集过程需要进行维护的内容更多更杂,为运维人员的正常运维管理操作带来极大不便,严重影响大规模数据中心的监控数据采集反馈,不利于数据中心的安全性和稳定性保持,降低了数据中心运维管理效率。
为解决现有技术中在监控数据采集过程中需要适应不同类型或版本的专业对象而设置对应的采集技术造成数据中心运维管理效率较差的技术问题,本公开提供了一种适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统监控数据的有效统一获取,避免了现有的为适用不同版本专业对象而采用不同采集技术的现有手段,并能够最大化降低一线系统侧的运维成本的监控数据获取方法、装置、设备、介质和程序产品。
需要说明的是,本公开实施例的上述监控数据获取方法和装置可用于大数据技术领域和人工智能技术领域,也可用于金融领域以及金融领域之外的任意领域,本公开实施例的监控数据获取方法和装置的应用领域不做限定。
在本公开的技术方案中,所涉及的包括用户个人信息等数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。其中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
本公开的实施例提供了一种监控数据获取方法,包括:根据策略任务文件确定当前时刻的定时任务;响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
图1示意性示出了根据本公开实施例的监控数据获取方法的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的监控数据获取方法一般可以由服务器105执行。相应地,本公开实施例所提供的监控数据获取装置一般可以设置于服务器105中。本公开实施例所提供的监控数据获取方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的监控数据获取装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图6对公开实施例的监控数据获取方法进行详细描述。
图2示意性示出了根据本公开实施例的监控数据获取方法的流程图。
如图2所示,该实施例的监控数据获取方法包括操作S201~操作S203。
根据本公开的第一个方面,提供了一种监控数据获取方法,包括:
在操作S201中,根据策略任务文件确定当前时刻的定时任务;
在操作S202中,响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及
在操作S203中,执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
策略任务文件为具有监控数据采集获取的脚本执行逻辑的业务文件,如Policyfile等,主要用于定义后续执行任务文件的解析逻辑和脚本匹配逻辑规则。定时任务一般与该策略任务文件相对应的定时执行任务,一般是指满足指定时刻或者指定周期的执行任务。当满足定时任务的指定时刻或者指定周期时,可以对应地执行与策略任务文件相匹配的执行任务文件,实现相应的定时执行功能。其中,对于不同的策略任务文件而言,定时任务的执行逻辑也需要有所不同,一般可以对执行逻辑的指定时刻和指定周期进行匹配,以满足策略任务文件的执行需要。因此,通过策略任务文件可以匹配相应的当前时刻的定时任务,使得在该定时任务被执行时,策略任务文件的执行能够满足后续执行任务文件的执行需要。因此,借助于策略任务文件和定时任务能够精确地启动监控获取执行过程,提高数据获取的逻辑可执行性,在不具有其他相应的采集技术手段情况下,能够直接定义相应的监控数据采集执行逻辑,以精准地获取相应专业对象的监控数据。
执行任务文件为与该策略任务文件相互匹配的监控信息采集任务的采集执行文件,一般可以是如xml格式文件,执行任务文件能够被执行解析,用于为后续的监控数据采集执行脚本进行匹配。根据定时任务的响应,可以在相应的指定时刻和指定周期满足时,对执行任务文件进行解析操作,确定解析之后的执行任务文件的执行要素信息,这些执行要素信息可以用于满足下述业务指标脚本的匹配操作。借此,可以基于定时任务对执行任务文件进行解析处理,实现与采集执行逻辑相适应的脚本匹配过程,建立策略任务文件与在采集过程中被执行的业务指标脚本的逻辑关系,确保后续的业务指标脚本能够充分满足对监控数据精准高效采集的要求。
业务指标脚本为该监控数据获取操作中被执行的执行脚本,能够指定各个被采集监控数据的专业对象,在该业务指标脚本被执行时,用于对指定的专业对象执行监控数据采集,从而能够在排除现有厂商的专业对象的各种适配采集模块的情况下,精确地实现对专业对象的数据采集,确保相应的监控数据能够全面完整的实现采集。因此,能够基于定时任务周期性或者定时地自主实现上述采集执行过程,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理。
因此,本公开的监控数据获取方法,相对于现有技术中为适用不同版本专业对象而采用不同采集技术的情况,通过策略任务文件定义执行任务文件的采集执行逻辑,可以精准地获取相应专业对象的监控数据,能够避免因对各专业对象匹配不同采集技术造成的服务器资源占用率较大,确保数据中心集群的正常运作,同时基于定时任务能够周期性或者定时的自主实现上述采集执行过程,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率,且其能够适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本,能够在保证任务执行精度的情况下,进一步提升监控采集执行效率。
图3示意性示出了根据本公开实施例的监控数据获取方法的另一应用场景图;4A示意性示出了根据本公开实施例的监控数据获取方法的应用场景时序图;图4B示意性示出了根据本公开实施例的监控数据获取方法的应用场景流程图。
如图3所示,本公开的上述监控信息的定时采集应用场景主要包括消息队列中间件310、计划管理模块320和本地脚本库330等,以用于完成上述操作S201-S203的主要操作内容,实现相应的监控数据采集。其中,上述消息队列中间件310、计划管理模块320和本地脚本库330等可以部署在全行所有开放平台服务器或者某些数据库服务器上.
消息队列中间件310和本地脚本库330可以与服务器集群的上层业务模块连接,实现数据收发处理,其中消息队列中间件310可以是一级机构Active MQ等消息处理中间件,主要负责定时接收和转发相应的任务消息,同时也可以用于反馈采集集中监测和性能容量的监控数据,这些监控数据被上送至消息队列中间件310的指定队列,如将集中监测数据上送至监测数据队列311,同时将性能容量数据上送至性能数据队列312,具体可以如图3所示操作S301。
计划管理模块320主要用于监控数据采集任务的执行,该监控数据采集可以通过建立定时任务调度线程作为主线程调取执行脚本进行数据采集,其中该任务调度线程可以基于Schedule进程进行实现。此外,本地脚本库330主要用于为计划管理模块320提供相应的执行脚本的本地脚本信息,如图3所示操作S302。在监测数据采集321对应模块执行相应的脚本信息时,可以单独实现对集中监测数据的采集,同时在性能数据采集322对应模块执行相应的脚本信息时,可以单独实现对性能容量数据的采集。从而,基于如业务指标脚本的本地脚本信息的采集执行逻辑实现对集中监测数据和性能容量数据的独立并发采集,防止传统因采用同一匹配厂商采集技术的情况下造成的监控数据的混淆事件,也建立了多种不同监控数据的分类获取方案,便于监控数据的采集管理。
借此,可见本公开实施例的上述监控数据获取方法能够遵循高内聚、低耦合原则,具备良好的模块化设计,覆盖面广,过程对用户透明,简单通用,具备较好的推广应用价值。
如图2-图4B所示,根据本公开的实施例,在操作S201所述根据策略任务文件确定当前时刻的定时任务之前,还包括:
通过下行任务链路周期性接收所述策略任务文件和执行任务文件;
存储所述策略任务文件和执行任务文件。
业务模块410作为上层业务任务的输入节点,能够在设定时间周期满足时,统一向消息队列中间件420下发监控数据采集执行业务相关的策略任务文件和执行任务文件,例如每日的凌晨3∶15、4∶15会统一下发更新一组监控和性能容量的策略文件和执行任务文件到所有相关服务器,从而能够确保策略任务文件和执行任务文件能够按天及时甚至实时更新。下行任务链路为业务模块410和消息队列中间件420之间的数据传输通路,用于将相应的数据文件自上层传输至下层消息队列中间件420的文件消息队列中,如POLICY队列,如操作S402所示。其中,如前述所言,策略任务文件中可以用于记录对应的执行任务文件的各个执行逻辑,如相应每个任务文件针对不同专业对象监控数据采集的执行周期等。
此外,通过计划管理模块430可以从上述消息队列中间420的消息队列中监听相应的任务消息,将任务消息匹配的策略任务文件和执行任务文件存储到服务器本地的指定目录下,从而完成对策略任务文件和执行任务文件的接收操作,如操作S403所示。
因此,通过上述下行任务链路完成对策略任务文件和执行任务文件的接收存储,能够显著提高业务任务文件的前期处理速度,保证策略任务文件和执行任务文件的一一对应,借以确保后期能够在对执行任务文件进行解析时可以精准匹配相应的策略任务文件的执行逻辑,力求从进程的启动阶段确保监控采集效率。
如图2-图4B所示,根据本公开的实施例,在所述存储所述策略任务文件和执行任务文件之前,还包括:
启动监控数据获取的主控制进程;
响应于所述主控制进程,建立所述主控制进程与对应的文件执行队列之间的所述监听连接关系。
在操作S411中,在进行相应的任务文件存储执行之前,响应于上述消息队列中间件420对策略任务文件和对应执行任务文件的接收,可以直接进行主控制进程的启动。该主控制进程为计划管理模块430的启动进程,具体如schedule进程,主要应用于根据上述策略任务文件和对应执行任务文件对监控数据的采集执行。借助于上述主控制进程,能够实现对数据采集的各个执行阶段的精确控制,实现相应的数据独立采集操作,从而排除现有技术中对不同专业对象匹配不同版本类型的采集方案。
进一步地,在操作S401和S412,根据上述主控制进程的启动,建立计划管理模块430的主控制进程和消息队列中间件420的文件执行队列之间的监听连接关系。其中,文件执行队列可以理解为上述的文件消息队列,如POLICY队列,属于消息队列中间件420中的可专用于该策略任务文件和对应执行任务文件的排队处理的消息队列。该文件执行队列和相应的主控制进程之间可以建立基于心跳形式实现的用于任务消息传输的连接关系作为监听连接关系。
因此,通过监听连接关系使得计划管理模块可以有效地对文件执行队列中的排队执行的该策略任务文件和对应执行任务文件的任务消息进行准确调取,加快任务文件的处理速度。
如图2-图4B所示,根据本公开的实施例,在所述根据策略任务文件确定当前时刻的定时任务中,包括:
基于第一间隔时间周期性探测所述主控制进程的所述监听连接关系的探测连接状态;
通过所述探测连接状态遍历所述策略任务文件中指定的策略任务脚本;
基于第二间隔时间执行所述策略任务脚本以确定当前时刻的定时任务。
在操作S404和S413中,根据预设第一间隔时间周期性重复探测主控制进程和文件执行队列之间的监听连接关系的当前探测连接状态。其中,第一间隔时间可以是根据相应的监听连接关系的实际应用场景进行设定,如为30s。该探测过程可以重复的周期性执行,此外,当前的探测连接状态主要用于反馈该监听连接关系的正常与异常运行状态,一般正常运行状态为保持心跳形式的监听连接关系的探测连接状态,异常运行状态则为该监听连接关系的探测连接状态不存在,无法实现队列消息的监听。换言之,对于正常的探测连接状态则反馈主进程状态存在,对于异常的探测连接状态则反馈主进程状态不存在,相应地执行主控制进程的重启动操作,并通过建立如MQ消费者的操作实现主控制进程和文件执行队列之间的监听连接关系的重建。
当所述探测连接状态主进程状态存在时,在操作S406和S414中,则该主控制进程会立即响应并对策略任务文件中的指定策略任务脚本进行遍历,其中,每个策略任务脚本都可以对应不同的监控专业对象,并定义这些监控专业对象的相应监控数据的采集执行逻辑,如执行周期等。
根据相应专业对象的该策略任务脚本的执行,使得计划管理模块430的主控制进程能够以预设的第二间隔时间在指定的存储目录之下根据该策略任务脚本定义的执行逻辑指定执行任务文件执行类型,如操作S406和S414。其中,预设的第二间隔时间可以是根据实际脚本执行的应用场景所设定的时间,如60s。该任务文件执行类型可以是定时任务执行类型,每种不同的执行类型都定义不同的执行方式,如定时或即时执行等。例如每隔1分钟前往上述用于存储策略任务文件和执行任务文件的指定目录下,根据策略任务文件的策略任务脚本中指定的执行周期决定下一次执行执行任务文件进行监控数据采集的执行时间,当该执行时间为一确定的指定时刻或者指定周期时,从而能够判断当前时刻是否存在待执行的集中监测或者性能容量等监控业务的定时任务,相反,若该执行时间为指定的即时时刻,则为即时任务。
当策略任务脚本被执行时可以确定该当前时刻的执行任务文件的执行操作为定时任务时,可以对该执行任务文件进行文件解析操作。相反,若其不为定时任务时,可以直接返回主进程重启操作。
因此,通过策略任务脚本的执行可以使得执行任务文件的执行过程匹配相应的定时操作类型,从而避免了人为对执行操作过程的干扰,使得执行任务文件能够根据策略任务脚本指定的专业对象直接进行监控数据采集的定时启动,从而使得本公开的上述监控数据获取方法能够自主支持指定时刻和指定周期的采集执行,进一步提高采集过程的自动化水平,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率
如图2-图4B所示,根据本公开的实施例,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件中,包括:
根据所述定时任务的执行周期所决定的执行时间,批量获取与所述策略任务文件对应的执行任务文件;
解析所述执行任务文件,获取对应的任务执行信息。
在操作S408和S415中,当策略任务脚本被执行时可以确定该当前时刻的执行任务文件的执行操作为定时任务时,可以根据该策略任务脚本对应的定时任务的执行周期指定的执行时间,如指定时刻或者指定周期,批量从上述的本地服务器的策略任务文件和执行任务文件的指定存储目录中批量拉取这些执行任务文件。因此,可以快速准确地基于定时任务定时启动相应的执行任务文件的执行,也即开启相应的监控数据的采集执行进程。
对于执行任务文件一般为xml格式任务文件,在对其进行批量并发解析操作时,能够将该执行任务文件相应的业务指标脚本的脚本匹配要素信息进行解析,这些脚本匹配要素信息可以为该业务指标脚本在被执行时所涉及的执行参数,如脚本执行平台、脚本属性、脚本执行时间等。具体地,该任务执行信息主要可以包括脚本执行适用业务、专业对象类型、专业对象版本、脚本属性、适用平台、执行超时时间等脚本匹配要素信息。因而,主控制进程可以通过这些任务执行信息与相应的业务指标脚本进行匹配,使得计划管理模块430能够从本地脚本库中获取与这些任务执行信息相互对应的业务脚本。
因而,可以借助于上述基于定时任务的任务执行信息解析,对本地脚本库中的业务指标脚本进行匹配适用,提高每个执行任务文件对应的脚本匹配速度,且该业务指标脚本能够与相应的专业对象进行自行匹配,避免了人为处理的方式,确保通过策略任务文件定义执行任务文件的采集执行逻辑被执行时能够准确高效地获取相应的监控数据。
如图2-图4B所示,根据本公开的实施例,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件之后,包括:
基于第三间隔时间查询动态对象记录;
根据动态对象记录和所述任务执行信息,匹配与所述执行任务文件对应的业务指标脚本,其中,所述业务指标脚本用于对所述动态对象记录中对应的专业对象进行监控执行。
对于当前主控制进程在系统服务器中的系统环境而言,一般监控的专业对象的种类、数量和当前版本类型都是同定的,但是也会存在为适应新的业务服务功能而新引入的相应的新专业对象,因此,为更加准确地对这些新专业对象进行监控数据采集,就需要对专业对象的原始记录进行更新。其中,对于更新之后的当前专业对象的运行记录可以作为前述的动态对象记录。
因此,为对当前主控制进程在系统服务器中的系统环境的实时自识别,查询相应的动态对象记录,可以在上述主控制进程的处理执行过程中,周期性的通过调用监控对象的更新进程,对系统环境的监控专业对象进行实时监测更新。其中,查询该动态对象记录的第三间隔时间一般可以通过实际的专业对象的系统引入频率进行设定。
例如,在操作S431和S405中,主控制进程可以调取对象更新模块440的对象更新子进程,通过该对象更新子进程每隔9分钟检查当前服务器上所有可监控的专业对象是否存在,若发现有新增专业对象,则会自动更新专业对象记录至监控对象配置文件中,如targets.cfg的对象配置文件可以用于存储并更新专业对象记录。
因此,通过该对象更新子进程子进程可以确保服务器上的所有专业对象自启动后都可被快速自动地纳入监控视角,无需人工干预手工配置,极大缩短了专业对象从上线到被运维人员发现再纳入监控的真空时间,极大减少了手工配置的繁杂步骤,实现监控信息采集的自发现。
进一步地,在操作S416和S407中,计划管理模块430的主控制进程可以对对象更新模块440通过对象更新模块440所确定的动态对象记录,结合上述的任务执行信息中相应的脚本匹配要素信息对本地脚本库中的本地执行脚本进行一一匹配。具体地,可以将脚本执行适用业务、专业对象类型、专业对象版本、脚本属性、适用平台等脚本匹配要素信息依照设定的匹配顺序,依次逐个对相应的本地执行脚本进行匹配,只有符合与上述任务执行信息中的各个脚本匹配要素信息都匹配的本地执行脚本才可以被确定为上述的业务指标脚本。因此,这就使得该业务指标脚本能够基于任务执行信息建立与动态对象记录中的各个专业对象之间的匹配关系,在该业务指标脚本被执行时,能够精确地对相应的专业对象进行监控采集执行操作。
因此,可以排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本,能够在保证任务执行精度的情况下,进一步提升监控采集执行效率。
如图2-图4B所示,根据本公开的实施例,在所述执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据中,包括:
将与所述业务指标脚本对应的任务执行信息作为脚本执行参数启动脚本执行线程;
响应于所述脚本执行线程,向所述业务指标脚本所指定的专业对象发送数据采集请求;
获取所述专业对象根据所述数据采集请求所反馈的所述监控数据。
在操作S416和操作S409中,计划管理模块430可以通过主控制进程对执行任务文件对应的业务指标脚本进行执行,具体可以是将相应的任务执行信息的各个脚本匹配要素信息作为脚本执行参数,启动相应的脚本执行线程池,通过该脚本执行线程池中的一个或多个脚本执行线程对该业务指标脚本进行并发执行操作。其中,上述定时任务还可以对具体的执行时间按照不同的专业对象类型、业务指标脚本或者策略任务的执行逻辑进行分别定义。因此,脚本执行线程通过上述定时任务所定义的执行时间可以对该业务指标脚本的执行进行指定时刻或者指定周期的执行操作。
不同的专业对象一般可以将相应的监控数据随时采集并存储至该专业对象的本地数据库,因此,脚本执行线程在执行相应业务指标脚本的过程中,向该业务指标脚本所指定的专业对象进行批量发送数据采集请求。该数据采集请求为每个专业对象可以进行识别的数据采集控制指令,仅仅涉及数据传输响应请求,即便在没有匹配相应的采集软件的情况下,也能够使得各个专业对象识别该请求指令,并作出监控数据的采集响应。其中,对于不同的专业对象,该业务指标脚本可以发出不同标识的数据采集请求,同时该数据采集请求可以同时包括至少两种能够对应于不同监控数据类型的请求指令,如满足性能容量监控数据的数据类型请求指令在被专业对象识别之后,专用于针对该专业对象的性能容量监控数据的采集反馈,如满足集中监测数据的数据类型请求指令在被专业对象识别之后,专用于针对该专业对象的集中监控数据的采集反馈。其中,该专业对象也可以响应该数据请求指令,直接对当前时刻的该专业对象的监控数据进行实时采集,而不限于仅对专业对象本地数据库已有的当前监控数据的反馈。
因此,接收对应专业对象的本地数据库的反馈数据,即可以实现根据业务指标脚本的执行所能够采集的监控数据内容,并且对这些监控数据内容进行存储上传。
因此,本公开的监控数据获取方法,相对于现有技术中为适用不同版本专业对象而采用不同采集技术的情况,通过策略任务文件定义执行任务文件的采集执行逻辑,可以精准地获取相应专业对象的监控数据,能够避免因对各专业对象匹配不同采集技术造成的服务器资源占用率较大,确保数据中心集群的正常运作,同时基于定时任务能够周期性或者定时的自主实现上述采集执行过程,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率。
其中,需要特别说明的是,上述的监控数据采集过程中的脚本执行、监测数据获取均完全支持多线程的并发执行操作,显著提高监控数据的获取效率,加快数据采集获取的速度。
如图2-图4B所示,根据本公开的实施例,在所述获取所述专业对象根据所述数据采集请求所反馈的所述监控数据之后,还包括:
依据对应的执行任务文件汇总所述监控数据;
将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列。
在操作S417、S418和S419中,对于业务指标脚本的执行结果所采集的监控数据,先按照执行任务文件的不同进行分类汇总。
然后对这些监控数据的数据类型进行判断。其中,在数据中心中监控数据的数据类型主要分为集中监测数据的类型1和性能容量数据的类型2两种类型。不同的数据类型应用于的监控指标也不尽相同。因此,可以基于类型1和类型2对两种类型数据进行分类转发处理。如将符合类型1的集中监测数据拉取至消息队列中间件420的第一队列,如图3所示监测数据队列311;同时将符合类型2的性能容量数据拉取至消息队列中间件的第二队列,如图3所示性能数据队列312。其中,需要特别说明的是,上述的监控数据的汇总分类、转发处理均可以支持多线程的并发操作,从而快速地处理所采集的监控数据。
因此,基于前述的脚本执行过程,可以直接对监控数据进行分类汇总,并通过上述的消息队列中间件,直接快速高效的完成两种类型数据的分类处理,整个执行处理过程完全保证了不同类型数据的并发隔离处理,完全避免了现有汇总采集数据再行分类且分类不够精准易于造成数据混淆的局面,极大地提升了后期数据处理的效果,改善了监控数据获取管理效率,完全实现了数据操作的自动化和智能化。
如图2-图4B所示,根据本公开的实施例,将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列之后,还包括:
拉取所述第一消息队列中的集中监测数据和第二消息队列中的性能容量数据;
通过上行任务链路上传所述集中监测数据和性能容量数据。
在操作S420、S411中,对上述消息队列中间件420中的两个消息队列的两种类型的监测数据执行并发拉取操作,将消息队列中间件420的队列监控数据进行转发上传,具体可以通过定义的输出方式string或者file返回上层。
其中,在消息队列中间件420收到由主控制进程所发送的任务消息发送请求后,即转发该执行结果的监控数据按照不同的数据类型至不同的业务上行任务链路,最终返回到集中监测或者性能容量的上层业务模块410,由业务模块410进行后续的业务逻辑处理。其中,上行任务链路为业务模块410和消息队列中间件420之间与上述下行任务链路反向的数据传输通路,在此不作赘述。
至此,本公开实施例的上述监控数据的获取方法能够达到监控数据采集的闭环要求,将监控数据的采集执行启动、执行、回转、反馈等实现基本的自动化和智能化处理,极大解放了人力成本,能够适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本,能够在保证任务执行精度的情况下,进一步提升监控采集执行效率。
如图2-图4B所示,根据本公开的实施例,上述监控数据获取方法还包括:
基于第四间隔时间检查当前服务器的动态切换记录;
根据动态切换记录对所述集中监测数据和性能容量数据进行迁移。
在上述基于定时任务的主控制进程的执行操作过程中,对于当前主控制进程在系统服务器中的系统环境而言,一般其对应的主控制进程的当前的本地服务器(即上述当前服务器)不需要执行切换。但是随着越来越多业务运维场景需要,服务器的切换也越来越频繁。因此,一旦发生服务器切换,当在监控数据的采集过程中就势必存在原本地服务器的原数据和新切换本地服务器的新数据不一致的情况。
在操作S421-S423,可以基于实际的服务器切换场景需要,对当前服务器进行第四间隔时间的切换信息检查,其中第四间隔时间可以是2min,切换信息检查的对象可以是该当前服务器的当前IP。其中,动态切换记录为该当前服务器的当前IP是否发生更新切换,若2min前所检查的原服务器的原IP与2min后检查的当前服务器的当前IP保持一致,则动态切换记录为IP未更新,即该服务器没有发生切换操作;但是,若2min前所检查的原服务器的原IP与2min后检查的当前服务器的当前IP不一致,则动态切换记录为IP已更新,即该服务器发生切换操作。
其中,当动态切换记录为该服务器没有发生切换操作时,则继续重复执行动态切换记录的检查操作。当动态切换记录为该服务器发生切换操作时,则满足服务器置换场景,将新采集到的监控数据和原服务器的历史数据进行关联融合,从而确保切换前后的服务器能够在相应的主控制进程执行监控数据采集过程中保持数据完整性和一致性,同时保证主控制进程的有效执行,提高监控执行的智能化水平。
如图2-图4B所示,根据本公开的实施例,在所述基于第四间隔时间检查当前服务器的动态切换记录中,包括:
基于第四间隔时间检查当前服务器对应的标识配置文件;
根据所述标识配置文件获取的原始服务器标识和所述当前服务器的当前服务器标识确定所述动态切换记录。
对于上述当前服务器的IP的检查,可以通过代理服务进程调取切换检测更新子进程,每隔2分钟检查当前服务器的实时IP,判断是否发生了IP切换。其中,切换检测更新子进程会立即将采集到的IP写入agent.props的配置文件中,同时将包含自身IP的心跳上送至消息队列中间件420的消息队列中。因此,切换检测更新子进程在相应的执行周期满足时再次检查当前服务器的该agent.props的配置文件时,可以获取本地服务器的所有历史IP记录,其中,该用于记录历史检查IP信息的配置文件可以作为上述的标识配置文件,用于对本地服务器的IP检查信息进行记录。当子进程发现实时采集到的实时IP和文件中记录的原始IP不一致时,表示发生了IP切换,会立即将新的IP更新入配置文件中,同时切换检测更新子进程反馈IP切换消息(如IP切换标识、新IP、旧IP等字段)生成动态切换记录。其中,原始服务器标识可以为用于标识原始服务器历史数据的参数,当前服务器标识为用于标识当前服务器当前数据的参数,具体都可以采用服务器IP参数。
可见,通过上述动态切换记录,可以在不影响主控制进程的基础上,实现对服务器切换进行数据同步迁移的需求,同时保证数据的完整性。
最后,将上述切换的信息作为监控数据采集执行结果的部分,形成定时任务结果返回上层业务模块410,上层业务模块410会在监控数据采集的执行过程中,将旧IP字段的监控和性能容量数据继承给新IP的服务器,真正做到监控信息采集方法的闭环和信息融合。
因此,本公开的监控数据获取方法,相对于现有技术中为适用不同版本专业对象而采用不同采集技术的情况,通过策略任务文件定义执行任务文件的采集执行逻辑,可以精准地获取相应专业对象的监控数据,能够避免因对各专业对象匹配不同采集技术造成的服务器资源占用率较大,确保数据中心集群的正常运作,同时基于定时任务能够周期性或者定时的自主实现上述采集执行过程,排除人力干扰的同时保障采集数据的精度,进一步提高监控数据采集速度,便于运维人员操作管理,利于实现数据中心的集群安全性和稳定性,显著提高数据中心的运维管理效率,且其能够适用于大规模数据中心,且能适配各种版本的各种专业对象,支持对系统环境批量进行脚本任务推送与自动化执行,并能够最大化降低一线系统侧的运维成本,能够在保证任务执行精度的情况下,进一步提升监控采集执行效率。
进一步地,本公开实施例的上述监控数据获取方法提供了一种大规模数据中心使用的监控采集执行方案,能够支持对百万台服务器规模或量级的数据中心能够进行监控数据的批量采集及自动化执行,且可以支持覆盖众多专业对象,大大降低了生产运维成本,提升了运维操作及生产管理的便捷性,且适用于Linux、AIX、Neokylin、windows等各类开放应用平台环境,具有较好的普适性和推广性。
需要说明的是,本公开实施例的上述监控数据获取管理方案可以作为能为大规模数据中心所适用的监控数据采集执行的解决方案,应用范围广泛,遍布行内大多数操作系统开放平台应用服务器。其中,具体使用开发语言可以包括java等开发运维语言,使用到的相关工具可以包括eclipse、JDK、ActiveMQ client、log4j、jna等开发运维平台。
基于上述监控数据获取方法,本公开还提供了一种监控数据获取装置。以下将结合图5对该装置进行详细描述。
图5示意性示出了根据本公开实施例的监控数据获取装置的结构框图。
如图5所示,该实施例的监控数据获取装置500包括任务确定模块510、文件解析模块520和数据获取模块530。
任务确定模块510用于根据策略任务文件确定当前时刻的定时任务。在一实施例中,任务确定模块510可以用于执行前文描述的操作S201,在此不再赘述。
文件解析模块520用于响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件。在一实施例中,文件解析模块520可以用于执行前文描述的操作S202,在此不再赘述。
数据获取模块530用于执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。在一实施例中,数据获取模块530可以用于执行前文描述的操作S203,在此不再赘述。
根据本公开的实施例,任务确定模块510、文件解析模块520和数据获取模块530中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,任务确定模块510、文件解析模块520和数据获取模块530中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,任务确定模块510、文件解析模块520和数据获取模块530中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现监控数据获取方法的电子设备的方框图。
如图6所示,根据本公开实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的方法。
在该计算机程序被处理器601执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (15)

1.一种监控数据获取方法,其中,包括:
根据策略任务文件确定当前时刻的定时任务;
响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及
执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
2.根据权利要求1所述的方法,其中,在所述根据策略任务文件确定当前时刻的定时任务之前,还包括:
通过下行任务链路周期性接收所述策略任务文件和执行任务文件;
存储所述策略任务文件和执行任务文件。
3.根据权利要求2所述的方法,其中,在所述响应于所述监听连接关系,存储所述策略任务文件和执行任务文件之前,还包括:
启动监控数据获取的主控制进程;
响应于所述主控制进程,建立所述主控制进程与对应的文件执行队列之间的监听连接关系。
4.根据权利要求3所述的方法,其中,在所述根据策略任务文件确定当前时刻的定时任务中,包括:
基于第一间隔时间周期性探测所述主控制进程的所述监听连接关系的探测连接状态;
通过所述探测连接状态遍历所述策略任务文件中指定的策略任务脚本;
基于第二间隔时间执行所述策略任务脚本以确定当前时刻的定时任务。
5.根据权利要求1所述的方法,其中,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件中,包括:
根据所述定时任务的执行周期所决定的执行时间,批量获取与所述策略任务文件对应的执行任务文件;
解析所述执行任务文件,获取对应的任务执行信息。
6.根据权利要求5所述的方法,其中,在所述响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件之后,包括:
基于第三间隔时间查询动态对象记录;
根据动态对象记录和所述任务执行信息,匹配与所述执行任务文件对应的业务指标脚本,其中,所述业务指标脚本用于对所述动态对象记录中对应的专业对象进行监控执行。
7.根据权利要求6所述的方法,其中,在所述执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据中,包括:
将与所述业务指标脚本对应的任务执行信息作为脚本执行参数脚本执行线程启动脚本执行线程;
响应于所述脚本执行线程,向所述业务指标脚本所指定的专业对象发送数据采集请求;
获取所述专业对象根据所述数据采集请求所反馈的所述监控数据。
8.根据权利要求7所述的方法,其中,在所述获取所述专业对象根据所述数据采集请求所反馈的所述监控数据之后,还包括:
依据对应的执行任务文件汇总所述监控数据;
将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列。
9.根据权利要求8所述的方法,其中,将所述监控数据中的集中监测数据反馈至第一消息队列,并将所述监控数据中的性能容量数据反馈至第二消息队列之后,还包括:
拉取所述第一消息队列中的集中监测数据和第二消息队列中的性能容量数据;
通过上行任务链路上传所述集中监测数据和性能容量数据。
10.根据权利要求8所述的方法,其中,还包括:
基于第四间隔时间检查当前服务器的动态切换记录;
根据动态切换记录对所述集中监测数据和性能容量数据进行迁移。
11.根据权利要求10所述的方法,其中,在所述基于第四间隔时间检查当前服务器的动态切换记录中,包括:
基于第四间隔时间检查当前服务器对应的标识配置文件;
根据所述标识配置文件获取的原始服务器标识和所述当前服务器的当前服务器标识确定所述动态切换记录。
12.一种监控数据获取装置,其中,包括:
任务确定模块,用于根据策略任务文件确定当前时刻的定时任务;
文件解析模块,用于响应于所述定时任务,解析与所述策略任务文件对应的执行任务文件;以及
数据获取模块,用于执行与所述执行任务文件相互匹配的业务指标脚本,获取所述监控数据。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~11中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~11中任一项所述的方法。
CN202210433254.7A 2022-04-22 2022-04-22 监控数据获取方法、装置、设备、介质和程序产品 Pending CN114816702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210433254.7A CN114816702A (zh) 2022-04-22 2022-04-22 监控数据获取方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210433254.7A CN114816702A (zh) 2022-04-22 2022-04-22 监控数据获取方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN114816702A true CN114816702A (zh) 2022-07-29

Family

ID=82507261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210433254.7A Pending CN114816702A (zh) 2022-04-22 2022-04-22 监控数据获取方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN114816702A (zh)

Similar Documents

Publication Publication Date Title
US11244233B2 (en) Intelligent adaptor service in unified automation platforms for robotic process automation
US9697104B2 (en) End-to end tracing and logging
US20190286736A1 (en) Resource-efficient record processing in unified automation platforms for robotic process automation
CN110704277B (zh) 一种监测应用性能的方法、相关设备及存储介质
KR20170051471A (ko) 하나 이상의 클라우드 시스템 상에 애플리케이션들을 이식 가능하게 배치하기 위한 방법들 및 시스템들
WO2007036932A2 (en) Data table management system and methods useful therefor
US11706084B2 (en) Self-monitoring
EP3128416A1 (en) Sdn application integration, management and control method, system and device
CN102916839A (zh) 一种糖厂农务自动化监管系统
CN114721807A (zh) 批量业务任务执行方法、装置、设备、介质和程序产品
US10372572B1 (en) Prediction model testing framework
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN114237853A (zh) 应用于异构系统的任务执行方法、装置、设备、介质和程序产品
US11403120B1 (en) Enterprise process graphs for representing RPA data
CN114816477A (zh) 服务器升级方法、装置、设备、介质和程序产品
CN113760634A (zh) 一种数据处理方法和装置
CN109324892B (zh) 分布式管理方法、分布式管理系统及装置
CN114816702A (zh) 监控数据获取方法、装置、设备、介质和程序产品
CN112422349B (zh) 面向nfv的网管系统、方法、设备及介质
US11188924B2 (en) Connectivity interface optimization recommendation engine for enterprise system
CN113360182B (zh) 系统性能诊断的方法和装置
CN115550141A (zh) 事件处理方法、装置、电子设备及可读存储介质
CN113434382A (zh) 数据库性能监控方法、装置、电子设备及计算机可读介质
CN114884844B (zh) 流量录制方法及系统
KR102637540B1 (ko) 표준화 스택과 자율형 오퍼레이터 기반 클라우드 컴퓨팅 환경 구성 및 운영 자동화 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination