CN115687036A - 日志采集方法、装置及日志系统 - Google Patents

日志采集方法、装置及日志系统 Download PDF

Info

Publication number
CN115687036A
CN115687036A CN202110876525.1A CN202110876525A CN115687036A CN 115687036 A CN115687036 A CN 115687036A CN 202110876525 A CN202110876525 A CN 202110876525A CN 115687036 A CN115687036 A CN 115687036A
Authority
CN
China
Prior art keywords
log
server
service server
collection
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110876525.1A
Other languages
English (en)
Inventor
曾令新
林哲伟
严勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110876525.1A priority Critical patent/CN115687036A/zh
Publication of CN115687036A publication Critical patent/CN115687036A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种日志采集方法、装置及日志系统,属于计算机技术领域。所述方法包括:日志采集系统获取日志采集请求,向业务服务器发送日志采集指令;所述业务服务器响应于所述日志采集指令,执行与多个日志文件分别对应的多个采集指令,以采集所述多个日志文件,将所述多个日志文件构成日志文件包,向所述日志采集系统上传所述日志文件包;所述日志采集系统接收所述日志文件包,存储所述日志文件包。本申请通过一个日志采集指令,即可采集到多个日志文件,实现了自动化地批量采集日志,提高了日志采集效率。

Description

日志采集方法、装置及日志系统
技术领域
本申请涉及计算机技术领域,特别涉及一种日志采集方法、装置及日志系统。
背景技术
业务服务器在运行时会生成多个不同类型的日志文件,日志文件对业务服务器的维护和管理具有重要意义,因此,研发人员常常具有采集日志文件的需求。当前,研发人员每次执行针对一个日志文件的采集操作,仅能触发一个日志文件对应的采集指令,从而采集到一个日志文件,在需要采集多个日志文件的情况下,需要依次执行多次采集操作,日志采集效率很低。
发明内容
本申请实施例提供了一种日志采集方法、装置及日志系统,能够提高日志采集效率。所述技术方案如下:
一方面,提供了一种日志采集方法,该方法包括:
日志采集系统获取日志采集请求,向业务服务器发送日志采集指令;
业务服务器响应于日志采集指令,执行与多个日志文件分别对应的多个采集指令,以采集多个日志文件,将多个日志文件构成日志文件包,向日志采集系统上传日志文件包;
日志采集系统接收日志文件包,存储日志文件包。
在一些实施例中,日志采集系统获取日志采集请求,向业务服务器发送日志采集指令,包括:
日志采集系统获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令。
在一些实施例中,方法还包括:
日志采集系统获取日志采集请求,在业务服务器不具备批量上传日志文件的功能的情况下,向业务服务器发送与多个日志文件分别对应的多个采集指令;
业务服务器响应于多个采集指令,向日志采集系统发送多个日志文件;
日志采集系统接收多个日志文件,将多个日志文件构成日志文件包。
在一些实施例中,日志采集系统获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令,包括下述任一项:
日志采集系统获取日志采集请求,在查询到与业务服务器的型号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令;
日志采集系统获取日志采集请求,在查询到与业务服务器的版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令;
日志采集系统获取日志采集请求,在查询到与业务服务器的型号和版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令。
一方面,提供了一种日志采集方法,该方法包括:
获取日志采集请求,向业务服务器发送日志采集指令,日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集多个日志文件,将多个日志文件构成日志文件包,向日志采集系统上传日志文件包;
接收日志文件包,存储日志文件包。
一方面,提供了一种日志采集装置,该装置包括:
指令发送模块,用于获取日志采集请求;向业务服务器发送日志采集指令,日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集多个日志文件,将多个日志文件构成日志文件包,向日志采集系统上传日志文件包;
文件接收模块,用于接收日志文件包;
文件存储模块,用于存储日志文件包。
一方面,提供了一种日志系统,该日志系统包括上述任一实施例所述的日志采集系统和业务服务器。
一方面,提供了一种服务器,服务器包括处理器和存储器,存储器中存储有计算机程序,计算机程序由处理器加载并执行,以实现上述任一实施例中的日志采集系统、业务服务器或日志采集系统中的任一服务器执行的步骤。
一方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序由处理器加载并执行,以实现上述任一实施例中的日志采集系统、业务服务器或日志采集系统中的任一服务器执行的步骤。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,服务器的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该服务器执行上述任一实施例中的日志采集系统、业务服务器或日志采集系统中的任一服务器执行的步骤。
在本申请实施例中,日志采集系统在获取到日志采集请求后,指示业务服务器批量采集日志文件并上传,业务服务器基于日志采集系统的指示,采集多个日志文件,将该多个日志文件构成的日志文件包上传至日志采集系统,日志采集系统存储接收到的日志文件包,实现了自动化地一次性采集多个日志文件,提高了日志采集效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种日志系统的示意图;
图2是本申请实施例提供的一种日志采集方法的流程图;
图3是本申请实施例提供的一种日志采集方法的流程图;
图4是本申请实施例提供的一种采集第一日志文件包的示意图;
图5是本申请实施例提供的一种设备架构的示意图;
图6是本申请实施例提供的一种触发日志采集的示意图;
图7是本申请实施例提供的一种日志采集方法的流程图;
图8是本申请实施例提供的一种日志采集装置的框图;
图9是本申请实施例提供的一种服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面对本申请涉及到的相关技术进行说明。
云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。计算机设备在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,IDentity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当计算机设备请求访问数据时,文件系统能够根据每个对象的存储位置信息让计算机设备对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
图1是本申请实施例提供的一种日志系统的示意图。参见图1,该日志系统包括业务服务器101和日志采集系统102,用于实现本申请实施例提供的日志采集方法。
业务服务器101是为其它计算机设备提供计算或应用服务的服务器。其它计算机设备为智能手机、平板电脑、笔记本电脑、台式计算机、可穿戴设备或者其它业务服务器等。在一些实施例中,业务服务器101为安装在其它计算机设备上的客户端提供后台服务。例如,业务服务器101为社交客户端的后台服务器,为社交客户端提供消息交互、内容分享等服务。再如,业务服务器101为视频客户端的后台服务器,为视频客户端提供视频分享服务。在一些实施例中,业务服务器101为其它业务服务器提供后台服务,例如,其它业务服务器为视频客户端提供视频分享服务,业务服务器101为该其它业务服务器提供视频推荐服务,该其它业务服务器基于业务服务器101提供的视频推荐服务,通过视频客户端向用户推荐其感兴趣的视频。
日志采集系统102与业务服务器101通过有线或无线通信方式进行直接或间接地连接。日志采集系统102采集业务服务器101的多个日志文件,并存储该多个日志文件,以便于研发人员对日志文件进行查询和分析,掌握业务服务器101的运行状况,加强对业务服务器101的维护和管理。
日志采集系统102包括至少一个服务器,其中,业务服务器101以及日志采集系统102中的每个服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请实施例对此不做限制。
需要说明的是,业务服务器101泛指多个业务服务器中的一个,本申请实施例仅以业务服务器101来举例说明。本领域技术人员可以知晓,上述业务服务器的数量可以更多或更少。比如上述业务服务器仅为一个,或者上述业务服务器为几十个或几百个,或者更多数量,本申请实施例对业务服务器的数量不做限制。
在一些实施例中,日志采集系统中的服务器以及至少一个业务服务器通过网络通信的形式连接形成分布式系统,该分布式系统为区块链系统,日志采集系统中的服务器以及业务服务器为区块链系统中的节点。区块链系统中的每个节点存储有区块链,且不同节点上的区块链存储的数据保持同步。其中,每个节点的区块链中存储的数据包括业务服务器的多个日志文件。
下面对本申请实施例提供的日志采集方法的应用场景进行简要说明,该日志采集方法可应用在任一日志采集场景中。
在一个示例中,该日志采集方法应用在由业务服务器异常触发采集日志的场景中,日志采集系统在某一业务服务器发生异常时,批量采集该业务服务器的日志文件,并存储采集到的日志文件,既提高了日志采集效率,又及时保留了业务服务器异常时的日志,提高了日志采集的及时性。
在一个示例中,该日志采集方法应用在研发人员触发采集日志的场景中,研发人员通过在终端的页面上执行操作,指定批量采集日志针对的业务服务器;终端向日志采集系统发送针对该业务服务器的日志采集请求;日志采集系统基于该日志采集请求,批量采集该业务服务器的日志文件,并将采集到的日志文件发送至终端;终端显示接收到的日志文件,以便于研发人员对日志进行分析,减少了日志采集所需执行的操作,提高了日志采集效率。
在一个示例中,该日志采集方法应用在业务层面异常触发采集日志的场景中,业务服务器通过运行服务程序提供服务,该服务程序的运行情况由运维系统监控,当运维系统监测到该服务程序的运行出现异常时,生成针对该业务服务器的日志采集请求;日志采集系统基于该日志采集请求,批量采集该业务服务器的日志文件,并存储采集到的日志文件,进一步丰富了批量采集日志的应用场景。
图2是本申请实施例提供的一种日志采集方法的流程图。下面结合图2,对该日志采集方法进行简要说明,该日志采集方法包括以下步骤:
201、日志采集系统获取日志采集请求,向业务服务器发送日志采集指令。
其中,日志采集请求用于指示批量采集业务服务器的日志文件,该日志采集请求包括业务服务器的标识信息,日志采集系统基于该标识信息,向该标识信息对应的业务服务器发送日志采集指令。
202、业务服务器响应于该日志采集指令,执行与多个日志文件分别对应的多个采集指令,以采集该多个日志文件,将该多个日志文件构成日志文件包,向日志采集系统上传该日志文件包。
其中,日志采集指令用于指示批量采集日志文件,并上传多个日志文件构成的日志文件包。业务服务器响应于该日志采集指令,通过执行多个采集指令,采集到多个日志文件,向日志采集系统上传该多个日志文件构成的日志文件包。
203、日志采集系统接收该日志文件包,存储该日志文件包。
日志采集系统接收业务服务器上传的日志文件包,存储该日志文件包,以便于研发人员基于已存储的日志文件包,对日志文件进行查询和分析,掌握业务服务器的运行状况,加强对业务服务器的维护和管理。
在本申请实施例中,日志采集系统在获取到日志采集请求后,指示业务服务器批量采集日志文件并上传,业务服务器基于日志采集系统的指示,采集多个日志文件,将该多个日志文件构成的日志文件包上传至日志采集系统,日志采集系统存储接收到的日志文件包,实现了自动化地一次性采集多个日志文件,提高了日志采集效率。
上述实施例对日志采集方法进行了简要说明,在一些实施例中,日志采集系统包括多个异常探测服务器、探测管理服务器、故障监控服务器、第一管理服务器和至少一个第二管理服务器,其中,第一管理服务器用于管理至少一个第二管理服务器,每个第二管理服务器用于管理至少一个业务服务器。日志采集方法由业务服务器以及上述日志采集系统包括的多个服务器交互执行,下面结合图3,对该日志采集方法进行详细说明,图3是本申请实施例提供的一种日志采集方法的流程图,参见图3,该日志采集处理方法包括以下步骤:
301、多个异常探测服务器分别在确定业务服务器处于异常状态的情况下,向探测管理服务器上报该业务服务器的异常事件。
其中,异常探测服务器用于探测业务服务器的运行状态,也即是,探测该业务服务器是否处于异常状态。为了提高确定业务服务器的运行状态的准确性,本申请实施例设置了多个异常探测服务器,该多个异常探测服务器均对同一业务服务器进行异常探测。在一些实施例中,多个异常探测服务器与多个业务服务器属于同一个服务器集群,该多个异常探测服务器对同一服务器集群内的每个业务服务器进行异常探测。在一些实施例中,多个异常探测服务器与多个业务服务器为同一机房中的多台物理服务器。
多个异常探测服务器中的每个异常探测服务器在确定某一业务服务器处于异常状态的情况下,均会向探测管理服务器上报该业务服务器的异常事件,该异常事件用于指示该业务服务器处于异常状态。在一些实施例中,该异常事件包括该业务服务器的标识信息,其中,标识信息为该业务服务器的唯一标识,例如,标识信息为该业务服务器的序列号。
在一些实施例中,异常探测服务器为Ping(Packet Internet Groper,因特网包探索器)服务器,异常探测服务器向业务服务器发送探测数据包,基于业务服务器的返回情况,确定业务服务器的运行状态。在一些实施例中,异常探测服务器在向业务服务器发送探测数据包后的参考时长内,未接收到业务服务器返回的响应数据包,确定业务服务器处于异常状态。在一些实施例中,异常探测服务器在向业务服务器发送探测数据包后的参考时长内,接收到了业务服务器返回的响应数据包,确定业务服务器未处于异常状态。其中,参考时长可灵活配置,例如,参考时长为30秒或者1分钟等。
以上是以一个异常探测服务器确定业务服务器的运行状态为例进行说明的,每个异常探测服务器确定业务服务器的运行状态的过程均同理,在此不再赘述。
在一些实施例中,多个异常探测服务器周期性的对业务服务器进行异常探测。在一些实施例中,多个异常探测服务器基于故障监控服务器的指示,确定业务服务器的运行状态。其中,故障监控服务器指示多个异常探测服务器确定业务服务器的运行状态的过程如下:故障监控服务器接收业务服务器实时上传的日志文件;故障监控服务器分析该日志文件,得到分析结果;在分析结果指示业务服务器处于异常状态的情况下,向多个异常探测服务器发送异常探测指示。通过使多个异常探测服务器再次确定业务服务器的运行状态,降低了异常的误识率,提高了异常确定的准确性。在一些实施例中,上述分析结果指示业务服务器处于异常状态,该分析结果还包括业务服务器的异常类型,故障监控服务器在业务服务器的异常类型为目标异常类型的情况下,向多个异常探测服务器发送异常探测指示,以通过多个异常探测服务器再次确认业务服务器是否处于异常状态,在确定该业务服务器处于异常状态的情况下,进行日志采集。其中,目标异常类型可根据需要灵活配置,本申请实施例对此不做限制。
302、探测管理服务器在接收到每个异常探测服务器上报的该异常事件的情况下,向故障监控服务器发送异常指示信息。
其中,该异常事件用于指示业务服务器处于异常状态。探测管理服务器在接收到每个异常探测服务器上报的该异常事件,也即是,在接收到由上述多个异常探测服务器分别上报的多个该异常事件的情况下,向故障监控服务器发送异常指示信息,以通知故障监控服务器该业务服务器已处于异常状态,触发故障监控服务器执行相应的处理策略。
在一些实施例中,探测管理服务器在异常上报比例达到第一阈值的情况下,向故障监控服务器发送异常指示信息。其中,异常上报比例为已上报该异常事件的异常探测服务器的数量与上述多个异常探测服务器的总数量的比值。其中,第一阈值可灵活配置,例如,第一阈值为0.8或者0.9等。
上述技术方案,在少量异常探测服务器发生故障,未能正确上报业务服务器的运行状态的情况下,也能够基于大多数异常探测服务器上报的运行状态,准确确定业务服务器是否处于异常状态,既保证了确定业务服务器的运行状态的准确性,又提高了对异常探测服务器的故障容许度。
在一些实施例中,每个异常探测服务器上报的异常事件均包括业务服务器的标识信息,探测管理服务器基于异常事件包括的标识信息,确定是否接收到多个异常探测服务器针对同一业务服务器分别上报的多个异常事件。
在一些实施例中,异常指示信息包括业务服务器的标识信息,以指示该标识信息对应的业务服务器处于异常状态。
在上述实施例中,日志采集系统包括多个异常探测服务器,通过在每个异常探测服务器均确定业务服务器处于异常状态的情况下,确认业务服务器处于异常状态,以提高异常状态确定的准确性。在一些实施例中,日志采集系统包括一个异常探测服务器,上述步骤301至步骤302可替换为以下步骤:异常探测服务器在确定业务服务器处于异常状态的情况下,向探测管理服务器上报该业务服务器的异常事件;探测管理服务器在接收到该异常探测服务器上报的该异常事件的情况下,向故障监控服务器发送异常指示信息。
303、故障监控服务器在接收到异常指示信息的情况下,获取日志采集请求。
故障监控服务器在接收到异常指示信息时,即生成日志采集请求,该日志采集请求用于指示批量采集业务服务器的日志文件。在一些实施例中,异常指示信息包括业务服务器的标识信息,故障监控服务器基于该异常指示信息包括的标识信息,生成日志采集请求,该日志采集请求携带该标识信息,用于指示批量采集该标识信息对应的业务服务器的日志文件。
上述技术方案,通过参考多个异常探测服务器对业务服务器的运行状态的探测情况,确定业务服务器的运行状态,丰富了确定业务服务器的运行状态所参考的数据维度,提高了确定业务服务器的运行状态的准确性,进而在更准确的确定业务服务器处于异常状态的情况下,指示业务服务器批量采集日志文件,提高了由异常触发日志批量采集的准确性和可靠性。
在一些实施例中,对不同异常类型进行分析所需的日志类型不同,故障监控服务器确定业务服务器的异常类型对应的至少一个日志类型,基于所确定的至少一个日志类型,生成针对该业务服务器的日志采集请求,以指示采集该至少一个日志类型的日志文件。
在一些实施例中,故障监控服务器在接收到异常指示信息的情况下,还生成告警工单,向该业务服务器对应的运维终端发送该告警工单,以通知该业务服务器的相关人员该业务服务器发生异常。可选地,该告警工单包括异常发现时间、发生异常的业务服务器的序列号、该业务服务器的IP地址、该业务服务器所在的位置和异常类型中的至少一项。
上述步骤301至步骤303是以日志采集系统包括多个异常探测服务器、探测管理服务器和故障监控服务器为例进行说明的,在一些实施例中,日志采集系统不包括探测管理服务器,包括多个异常探测服务器和故障监控服务器,上述步骤301至步骤303可替换为以下步骤:多个异常探测服务器分别在确定该业务服务器处于异常状态的情况下,向故障监控服务器上报该业务服务器的异常事件;故障监控服务器在接收到每个异常探测服务器上报的该异常事件的情况下,获取日志采集请求。在一些实施例中,日志采集系统不包括探测管理服务器,包括一个异常探测服务器和故障监控服务器,上述步骤301至步骤303可替换为以下步骤:异常探测服务器分别在确定该业务服务器处于异常状态的情况下,向故障监控服务器上报该业务服务器的异常事件;故障监控服务器在接收到该异常探测服务器上报的该异常事件的情况下,获取日志采集请求。
上述故障监控服务器在接收到异常指示信息的情况下,获取日志采集请求,是故障监控服务器在确定业务服务器处于异常状态的情况下,获取日志采集请求的一种实现方式。在一些实施例中,故障监控服务器还可以通过其它方式,确定业务服务器是否处于异常状态,进而在确定业务服务器处于异常状态的情况下,获取日志采集请求。在一些实施例中,日志采集系统不包括探测管理服务器和异常探测服务器,包括故障监控服务器,故障监控服务器在分析业务服务器实时上传的日志文件,得到指示业务服务器处于异常状态的分析结果的情况下,即生成日志获取请求。
304、故障监控服务器向第一管理服务器发送该日志采集请求。
其中,第一管理服务器用于管理至少一个第二管理服务器,每个第二管理服务器用于管理至少一个业务服务器,因此,故障监控服务器通过向第一管理服务器发送该日志采集请求,实现向第一管理服务器下发针对业务服务器的批量采集任务,以使第一管理服务器指示用于管理该业务服务器的第二管理服务器对该业务服务器进行控制,控制该业务服务器批量采集日志文件。
305、第一管理服务器基于该日志采集请求,从至少一个第二管理服务器中,确定该业务服务器对应的目标管理服务器。
在一些实施例中,日志采集请求包括该业务服务器的标识信息,第一管理服务器接收该日志采集请求,基于该日志采集请求包括的标识信息,确定该标识信息标识的业务服务器对应的目标管理服务器。
在一些实施例中,第一管理服务器从业务服务器的标识信息与第二管理服务器的标识信息之间的对应关系中,确定该日志采集请求包括的标识信息对应的第二管理服务器的标识信息,所确定的第二管理服务器的标识信息即为目标管理服务器的标识信息。在一些实施例中,业务服务器的标识信息与第二管理服务器的标识信息之间的对应关系存储在第一管理服务器中,第一管理服务器基于本地存储的对应关系,确定目标管理服务器。在一些实施例中,业务服务器的标识信息与第二管理服务器的标识信息之间的对应关系存储在配置管理服务器中,第一管理服务器从配置管理服务器拉取该业务服务器的标识信息对应的第二管理服务器的标识信息。其中,配置管理服务器用于存储多个业务服务器的配置信息,一个业务服务器的配置信息至少包括该业务服务器的标识信息以及用于管理该业务服务器的第二管理服务器的标识信息。
在一些实施例中,第二管理服务器的标识信息为第二管理服务器的序列号。在一些实施例中,第二管理服务器的标识信息为第二管理服务器的IP(Internet Protocol,网际互连协议)地址。
在一些实施例中,一个服务器集群包括一个第二管理服务器,该第二管理服务器用于管理同一服务器集群中的其他服务器。在一些实施例中,第一管理服务器先确定业务服务器所属的服务器集群,再确定该服务器集群中的第二管理服务器,所确定的第二管理服务器即为该业务服务器对应的目标管理服务器。也即是,第一管理服务器基于业务服务器的标识信息,确定该业务服务器的标识信息对应的集群标识,该集群标识用于标识该业务服务器所属的服务器集群;第一管理服务器基于该集群标识,确定该集群标识对应的第二管理服务器的标识信息,从而确定出该业务服务器对应的目标管理服务器。
在上述技术方案中,基于预先存储的服务器集群与至少一个业务服务器的对应关系以及服务器集群与第二管理服务器的对应关系,即可确定出业务服务器对应的目标管理服务器,相较于一一对应存储业务服务器与第二管理服务器之间的对应关系,减少了存储对应关系所占用的存储空间,提高了存储空间的利用率。
在一些实施例中,一个机房中的多台服务器构成一个服务器集群,一个机房包括一个第二管理服务器,用于管理该机房中的多个服务器,第一管理服务器确定业务服务器所属的服务器集群,进而确定该服务器集群中的第二管理服务器,也即是,第一管理服务器确定业务服务器所属的机房,进而确定该机房中的第二管理服务器。
306、第一管理服务器向目标管理服务器发送该日志采集请求。
第一管理服务器向目标管理服务器发送该日志采集请求,也即是向目标管理服务器传递针对业务服务器的批量采集任务。在一些实施例中,第一管理服务器确定的目标管理服务器的标识信息为IP地址,第一管理服务器基于目标管理服务器的IP地址,向目标管理服务器发送该日志采集请求。
在一些实施例中,第一管理服务器确定的目标管理服务器的标识信息为序列号,第一管理服务器查询该序列号对应的IP地址,基于该IP地址,向目标管理服务器发送该日志采集请求。
307、目标管理服务器接收该日志采集请求,向该业务服务器的BMC(BaseboardManagement Controller,基板管理控制器)发送第一日志采集指令。
其中,业务服务器包括操作系统和BMC,操作系统和BMC用于存储不同类型的日志文件。BMC是独立于业务服务器的操作系统之外的小型操作系统,具有对业务服务器进行硬件状态管理、操作系统管理、健康状态管理和功耗管理的功能。BMC在业务服务器处于异常状态的情况下,也能够继续工作。BMC具备记录各种日志的能力,BMC记录的日志类型包括但不限于SEL(System Event Log,系统事件日志)、SDR(Sensor Data Records,传感器数据记录)、SNMP Trap(Simple Network Management Protocol Trap,简单网络管理协议陷阱)、ACD(Autonomous Crash Dump,自治崩溃转储)、审计日志和资产信息等。其中,审计日志用于记录用户操作信息。资产信息用于记录业务服务器的各部件的信息,如厂商标识、设备标识等。
目标管理服务器用于管理业务服务器的BMC,也即是对业务服务器进行带外管理。在一些实施例中,BMC记录的各种类型的日志文件统称为带外日志,第二管理服务器也被称为带外管理服务器,第一管理服务器也被称为带外管理系统。
第一日志采集指令用于指示批量采集日志文件,并上传多个日志文件构成的日志文件包。在一些实施例中,日志采集请求还包括至少一个日志类型,用于指示采集该至少一个日志类型的日志文件,相应的,目标管理服务器向BMC发送的第一日志采集指令还包括该至少一个日志类型。
在一些实施例中,目标管理服务器上部署有批量采集工具,该批量采集工具用于支持实现批量采集功能,目标管理服务器调用该批量采集工具,向业务服务器的BMC发送第一日志采集指令。
在一些实施例中,批量采集所涉及到的业务服务器均具备批量上传日志文件的功能,日志采集系统接收到日志采集请求,向业务服务器发送日志采集指令即可,无需判断业务服务器是否具备批量上传日志文件的功能。
在一些实施例中,一部分业务服务器具备批量上传日志文件的功能,另一部分业务服务器不具备批量上传日志文件的功能,日志采集系统在向业务服务器发送日志采集指令之前,还确定业务服务器是否具备批量上传日志文件的功能,在业务服务器具备批量上传日志文件的功能的情况下,向该业务服务器发送日志采集指令。
在一些实施例中,由日志采集系统中的目标管理服务器确定业务服务器的BMC是否具备批量上传日志文件的功能,目标管理服务器在业务服务器的BMC具备批量上传日志文件的功能的情况下,向业务服务器的BMC发送第一日志采集指令,以通过一个指令指示BMC上传多个日志文件构成的日志文件包,减少数据传输数量,减少网络传输资源的消耗,提高网络传输资源的利用率。
在一些实施例中,目标管理服务器存储有业务服务器的标识信息与功能支持信息的对应关系,该功能支持信息用于指示该业务服务器的BMC是否具备批量上传日志文件的功能;目标管理服务器在该功能支持信息用于指示该业务服务器的BMC具备批量上传日志文件的功能的情况下,向业务服务器的BMC发送第一日志采集指令。
在一些实施例中,不同业务服务器对应的第一日志采集指令相同,目标管理服务器在接收到针对不同业务服务器的日志采集请求后,均向业务服务器发送同一第一日志采集指令。在一些实施例中,不同业务服务器对应的第一日志采集指令不同,目标管理服务器在接收到针对某一业务服务器的日志采集请求后,获取该业务服务器的标识信息对应的第一日志采集指令,向该业务服务器的BMC发送该第一日志采集指令。
在一些实施例中,一个型号的业务服务器均具备批量上传日志文件的功能,某一型号对应有第一日志采集指令,则表示该型号的业务服务器均具备批量上传日志文件的功能。相应的,目标管理服务器存储有目标型号与第一日志采集指令的对应关系,其中,目标型号为具备批量上传日志文件的功能的业务服务器的型号。目标管理服务器接收到指示业务服务器批量采集日志的日志采集请求后,查询与该业务服务器的型号对应的第一日志采集指令;在查询到与该业务服务器的型号对应的第一日志采集指令的情况下,向该业务服务器发送查询到的第一日志采集指令。
在一些实施例中,不同型号对应的第一日志采集指令相同,目标管理服务器存储一个第一日志采集指令与多个目标型号的对应关系。在一些实施例中,不同型号对应的第一日志采集指令不同,目标管理服务器分别存储一个第一日志采集指令与一个目标型号的对应关系。
在一些实施例中,不同型号对应的批量采集工具相同,目标管理服务器在接收到不同型号的业务服务器对应的日志采集请求后,均调用同一批量采集工具,向业务服务器的BMC发送第一日志采集指令。在一些实施例中,不同型号的业务服务器对应的批量采集工具不同,目标管理服务器在接收到针对某一业务服务器的日志采集请求后,确定该业务服务器的型号对应的批量采集工具,调用该批量采集工具,向该业务服务器的BMC发送第一日志采集指令。
在一些实施例中,一个版本号的业务服务器均具备批量上传日志文件的功能,某一版本号对应有第一日志采集指令,则表示该版本号的业务服务器均具备批量上传日志文件的功能。相应的,目标管理服务器存储有目标版本号与第一日志采集指令的对应关系,其中,目标版本号为具备批量上传日志文件的功能的业务服务器的版本号。目标管理服务器接收到指示业务服务器批量采集日志的日志采集请求后,查询与该业务服务器的版本号对应的第一日志采集指令;在查询到与该业务服务器的版本号对应的第一日志采集指令的情况下,向该业务服务器发送查询到的第一日志采集指令。
在一些实施例中,不同版本号对应的第一日志采集指令相同,目标管理服务器存储一个第一日志采集指令与多个目标版本号的对应关系。在一些实施例中,不同版本号对应的第一日志采集指令不同,目标管理服务器分别存储一个第一日志采集指令与一个目标版本号的对应关系。
在一些实施例中,不同版本号对应的批量采集工具相同,目标管理服务器在接收到不同版本号的业务服务器对应的日志采集请求后,均调用同一批量采集工具,向业务服务器的BMC发送第一日志采集指令。在一些实施例中,不同版本号对应的批量采集工具不同,目标管理服务器在接收到针对某一业务服务器的日志采集请求后,确定该业务服务器的版本号对应的批量采集工具,调用该批量采集工具,向该业务服务器的BMC发送第一日志采集指令。
在一些实施例中,同一型号的多个业务服务器版本不同,有不同的版本号。某一型号下的一部分版本号的业务服务器具备批量上传日志文件的功能,该型号下的另一部分版本号的业务服务器不具备批量上传日志文件的功能。版本号相同的业务服务器可能型号不同,为了保证确定业务服务器是否具备批量上传日志文件的功能以及向业务服务器发送的第一日志采集指令的准确性,由某一型号下的某一版本号对应有第一日志采集指令,来表示该型号下的该版本号的业务服务器均具备批量上传日志文件的功能。
相应的,目标管理服务器存储有目标型号、目标版本号以及第一日志采集指令的对应关系,其中,目标版本号的业务服务器属于目标型号,该目标型号下的目标版本号的业务服务器具备批量上传日志文件的功能。目标管理服务器接收到指示业务服务器批量采集日志的日志采集请求后,查询与该业务服务器的型号和版本号对应的第一日志采集指令;在查询到与该业务服务器的型号和版本号对应的第一日志采集指令的情况下,向该业务服务器发送查询到的第一日志采集指令。
在一些实施例中,不同型号下的不同版本号对应的第一日志采集指令相同,目标管理服务器存储一个第一日志采集指令与多个型号下的多个目标版本号的对应关系。在一些实施例中,不同型号下的版本号对应的第一日志采集指令不同,目标管理服务器分别存储一个第一日志采集指令与一个目标型号下的一个目标版本号的对应关系。
在一些实施例中,不同型号下的不同版本号对应的批量采集工具相同,目标管理服务器在接收到任一业务服务器对应的日志采集请求后,均调用同一批量采集工具,向该业务服务器的BMC发送第一日志采集指令。在一些实施例中,不同型号下的不同版本号对应的批量采集工具不同,目标管理服务器在接收到针对某一业务服务器的日志采集请求后,确定与该业务服务器的型号和版本号对应的批量采集工具,调用该批量采集工具,向该业务服务器的BMC发送第一日志采集指令。
在上述实施例中,日志采集系统包括故障监控服务器、第一管理服务器和至少一个第二管理服务器,上述步骤301至步骤307是日志采集系统获取日志采集请求,向BMC发送第一日志采集指令的一种实现方式。在另一些实施例中,日志采集系统获取日志采集请求,向BMC发送第一日志采集指令的过程还有其它的实现方式。
在一些实施例中,日志采集系统包括故障监控服务器和管理服务器,该管理服务器集成了第一管理服务器和至少一个第二管理服务器的功能,第一管理服务器和至少一个第二管理服务器的功能在该管理服务器中由不同的功能模块实现,日志采集系统获取日志采集请求,向BMC发送第一日志采集指令的另一种实现方式如下:故障监控服务器在业务服务器处于异常状态的情况下,获取日志采集请求,向管理服务器发送该日志采集请求;管理服务器接收该日志采集请求,向该业务服务器的BMC发送第一日志采集指令。其中,管理服务器接收日志采集请求,向该业务服务器的BMC发送第一日志采集指令的过程与上述步骤305至步骤307同理,在此不再赘述。
在一些实施例中,日志采集系统包括第一管理服务器和至少一个第二管理服务器,不包括故障监控服务器,第一管理服务器除了具有从至少一个第二管理服务器中,确定目标管理服务器的功能之外,还具有获取日志采集请求的功能,相应的,日志采集系统获取日志采集请求,向BMC发送第一日志采集指令的另一种实现方式如下:第一管理服务器获取日志采集请求,从至少一个第二管理服务器中,确定该业务服务器对应的目标管理服务器,向目标管理服务器发送日志采集请求;目标管理服务器接收该日志采集请求,向BMC发送第一日志采集指令。其中,第一管理服务器获取日志采集请求的过程与故障监控服务器获取日志采集请求的过程同理,在此不再赘述。在日志采集系统不包括故障监控服务器的情况下,第一管理服务器还具有在业务服务器恢复为正常状态的情况下,向业务服务器的操作系统发送第二日志采集指令的功能。
308、BMC响应于第一日志采集指令,执行与多个第一日志文件分别对应的多个采集指令,以采集该多个第一日志文件,将该多个第一日志文件构成第一日志文件包。
其中,多个第一日志文件分别从不同方面记录业务服务器的信息,多个第一日志文件由BMC记录在BMC的非易失性存储空间中。多个采集指令分别与多个第一日志文件对应,也即是,多个采集指令分别指示采集该多个第一日志采集文件,其中,一个采集指令与一个第一日志文件对应,用于采集一个第一日志文件。
BMC具备批量上传日志文件的功能,BMC响应于第一日志采集指令,执行多个采集指令,从BMC的非易失性存储空间中采集到多个第一日志文件,将该多个第一日志文件打包成第一日志文件包,向目标管理服务器发送该第一日志文件包。在一些实施例中,BMC批量上传日志文件的功能是通过在多个采集指令上封装一层计算机程序实现的,BMC通过执行该计算机程序,执行上述步骤308。
为了使采集第一日志文件包的过程更加清晰,下面结合图4进行示例性说明,参见图4,上述步骤306至步骤308也即是:目标管理服务器调用批量采集工具401,向BMC下发第一日志采集指令;BMC具备批量采集功能,响应于第一日志采集指令,基于该批量采集功能的支持,执行与多个第一日志文件分别对应的多个采集指令,从而采集到多个第一日志文件,向目标管理服务器返回该多个第一日志文件构成的第一日志文件包。
在图4所示的示例中,多个第一日志文件包括SEL类型的第一日志文件、SDR类型的第一日志文件和ACD类型的第一日志文件,BMC执行SEL对应的采集指令,采集到的SEL类型的第一日志文件;执行SDR对应的采集指令,采集到SDR类型的第一日志文件。其中,SEL和SDR对应的采集指令均为IPMI(Intelligent Platform Management Interface,智能平台管理接口)命令,其中,IPMI是一种开放标准的硬件管理接口规范,BMC基于IPMI采集SEL和SDR类型的第一日志文件。ACD对应的采集指令为OEM(Original Equipment Manufacturer,原始设备制造商)命令,BMC基于业务服务器的制造商自定义的命令,采集ACD类型的第一日志文件。
在一些实施例中,BMC中预先配置有第一日志采集指令对应的多个采集指令。在一些实施例中,日志采集系统还支持按照异常类型采集不同日志类型的日志文件,目标管理服务器向BMC发送的第一日志采集指令还包括业务服务器的异常类型对应的至少一个日志类型,BMC响应于第一日志采集指令,获取该至少一个日志类型分别对应的采集指令,以采集该至少一个日志类型的第一日志文件,将采集到的第一日志文件构成第一日志文件包。
309、BMC向目标管理服务器发送该第一日志文件包。
310、目标管理服务器接收该第一日志文件包,存储该第一日志文件包。
在一些实施例中,目标管理服务器将第一日志文件包存储在本地。在一些实施例中,日志采集系统还包括文件服务器,目标管理服务器向文件服务器发送该第一日志文件包,使该第一日志文件包存储在文件服务器中。在一些实施例中,文件服务器为云存储系统中的存储节点。
在一些实施例中,目标管理服务器还在第一日志文件包的文件名中添加业务服务器的信息。例如,添加在第一日志文件包的文件名中的信息包括业务服务器的标识信息、业务服务器的制造商信息、业务服务器的型号和业务服务器的版本号中的至少一个。在一些实施例中,目标管理服务器还在第一日志文件包的文件名中添加第一日志文件包的采集时间,第一日志文件包的采集时间为目标管理服务器接收到该第一日志文件包的时间或者BMC生成该第一日志文件包的时间,本申请实施例对此不做限制。
在一些实施例中,目标管理服务器还支持预先定义第一日志文件包的文件名的形式,目标管理服务器按照预先定义的形式,配置第一日志文件包的文件名。在一些实施例中,目标管理服务器还支持预先指定第一日志文件包的存储路径,目标管理服务器按照预先指令的存储路径,存储第一日志文件包。
在一些实施例中,目标管理服务器向文件服务器发送第一日志文件包,文件服务器接收到该第一日志文件包后,对该第一日志文件包进行归类存储。在一些实施例中,文件服务器按照型号,归类存储第一日志文件包,也即是,将同一型号的业务服务器对应的第一日志文件包存储在同一存储路径下。在一些实施例中,文件服务器按照型号和版本号,归类存储第一日志文件包,也即是,将同一型号下同一版本号的业务服务器对应的第一日志文件包存储在同一存储路径下。在一些实施例中,文件服务器按照采集时间从先到后的顺序,依次存储第一日志文件包。在一些实施例中,文件服务器按照型号和采集时间或者按照型号、版本号和采集时间,归类存储第一日志文件包。
在一些实施例中,目标管理服务器通过与文件服务器归类存储第一日志文件包同理的过程,将第一日志文件包存储在本地。
上述技术方案,通过归类存储日志文件,有助于从已存储的日志文件中快速查询到需要的日志文件,提高日志文件的查询效率。
在上述实施例中,BMC具备批量上传日志文件的功能,目标管理服务器通过向BMC发送一个第一日志采集指令,即可获取到BMC上传的第一日志文件包。在一些实施例中,目标管理服务器在业务服务器的BMC不具备批量上传日志文件的功能的情况下,也能够通过标准化命令,指示BMC上传多个第一日志文件,进而在目标管理服务器侧对多个第一日志文件进行统一打包。也即是,目标管理服务器在业务服务器的BMC不具备批量上传日志文件的功能的情况下,向业务服务器的BMC发送与多个第一日志文件分别对应的多个采集指令,以使业务服务器响应于该多个采集指令,采集该多个第一日志文件,向目标管理服务器发送该多个第一日志文件;目标管理服务器接收该多个第一日志文件,将该多个第一日志文件构成第一日志文件包。
上述技术方案,即使在BMC不具备批量上传日志文件的功能的情况下,日志采集系统也能够通过标准化命令,自动化地获取多个日志文件,提高日志采集效率。
在一些实施例中,目标管理服务器存储有业务服务器的标识信息与第一功能支持信息的对应关系,目标管理服务器在该第一功能支持信息用于指示该业务服务器的BMC不具备批量上传日志文件的功能的情况下,向业务服务器的BMC发送与多个第一日志文件分别对应的采集指令。
在一些实施例中,某一型号未对应有第一日志采集指令,表示该型号的业务服务器不具备批量上传日志文件的功能,目标管理服务器在未查询到与该业务服务器的型号对应的第一日志采集指令的情况下,向该业务服务器发送与多个第一日志文件分别对应的采集指令。
在一些实施例中,某一版本号未对应有第一日志采集指令,表示该版本号的业务服务器不具备批量上传日志文件的功能,目标管理服务器在未查询到与该业务服务器的版本号对应的第一日志采集指令的情况下,向该业务服务器发送与多个第一日志文件分别对应的采集指令。
在一些实施例中,某一型号下的某一版本号未对应有第一日志采集指令,表示该型号下的该版本号的业务服务器不具备批量上传日志文件的功能,目标管理服务器在未查询到与该业务服务器的型号和版本号对应的第一日志采集指令的情况下,向该业务服务器发送与多个第一日志文件分别对应的采集指令。
311、多个异常探测服务器分别在确定该业务服务器恢复为正常状态的情况下,向探测管理服务器发送该业务服务器的恢复信息。
需要说明的是,在业务服务器处于正常状态的情况下,业务服务器的操作系统才支持日志采集和上传,因此,异常探测服务器在确定业务服务器处于异常状态后,继续对该业务服务器进行异常探测,以在确定该业务服务器恢复为正常状态的情况下,向探测管理服务器发送该业务服务器的恢复信息,以及时通知探测管理服务器该业务服务器已恢复正常,进而通过故障监控服务器该业务服务器已恢复正常,使故障监控服务器在业务服务器恢复正常后及时获取操作系统记录的日志文件。
312、探测管理服务器在接收到每个异常探测服务器发送的该恢复信息的情况下,向故障监控服务器发送恢复指示信息。
其中,该恢复信息用于指示业务服务器已恢复为正常状态。探测管理服务器在接收到每个异常探测服务器发送的该恢复信息的情况下,向故障监控服务器发送恢复指示信息,以通知故障监控服务器该业务服务器已恢复正常,使故障监控服务器及时获取业务服务器的第二日志文件包。
在一些实施例中,探测管理服务器在正常上报比例达到第二阈值的情况下,向故障监控服务器发送恢复指示信息。其中,正常上报比例为已发送该恢复信息的异常探测服务器的数量与上述多个异常探测服务器的总数量的比值。其中,第二阈值可灵活配置,例如,第二阈值为0.8或者0.9等。
313、故障监控服务器在接收到恢复指示信息的情况下,向该业务服务器的操作系统发送第二日志采集指令。
第二日志采集指令用于指示批量采集日志文件,并上传多个日志文件构成的日志文件包。在一些实施例中,故障监控服务器上部署有批量采集工具,该批量采集工具用于支持批量采集功能的实现,故障监控服务器调用该批量采集工具,向业务服务器的操作系统发送第二日志采集指令。
在一些实施例中,故障监控服务器在业务服务器的操作系统具备批量上传日志文件的功能的情况下,向业务服务器的操作系统发送第二日志采集指令,以通过一个指令指示业务服务器的操作系统上传多个日志文件构成的日志文件包。其中,故障监控服务器确定业务服务器的操作系统是否具备批量上传日志文件的功能的过程与上述步骤307中目标管理服务器确定BMC是否具备批量上传日志文件的功能的过程同理,在此不再赘述。
上述步骤311至步骤313是以日志采集系统包括多个异常探测服务器、探测管理服务器和故障监控服务器为例进行说明的,在一些实施例中,日志采集系统不包括探测管理服务器,包括多个异常探测服务器和故障监控服务器,上述步骤311至步骤313可替换为以下步骤:多个异常探测服务器分别在确定该业务服务器恢复为正常状态的情况下,向故障监控服务器发送该业务服务器的恢复信息;故障监控服务器在接收到每个异常探测服务器发送的该恢复信息的情况下,向操作系统发送第二日志采集指令。
314、业务服务器的操作系统响应于第二日志采集指令,执行与多个第二日志文件分别对应的多个采集指令,以采集多个第二日志文件,将多个第二日志文件构成第二日志文件包。
其中,第二日志文件是由操作系统记录的日志文件,在一些实施例中,多个第二日志文件统称为带内日志。多个第二日志文件包括message(消息)类型的日志文件、MCELog(Machine Check Exceptions Log,机器检查异常日志)类型的日志文件和dmesg(displaymessage,显示消息)类型的日志文件。
在一些实施例中,操作系统下部署有执行批量采集功能的代理模块,操作系统响应于第二日志采集指令,调用该代理模块,执行与多个第二日志文件分别对应的多个采集指令,采集到该多个第二日志文件,将该多个第二日志文件构成第二日志文件包。
315、业务服务器的操作系统向故障监控服务器发送该第二日志文件包。
316、故障监控服务器接收该第二日志文件包,存储该第二日志文件包。
在上述实施例中,业务服务器的操作系统具备批量上传日志文件的功能,故障监控服务器通过向操作系统发送一个第二日志采集指令,即可获取到操作系统上传的第一日志文件包。在一些实施例中,故障监控服务器在业务服务器的操作系统不具备批量上传日志文件的功能的情况下,也能够通过标准化命令,指示操作系统上传多个第二日志文件,进而在故障监控服务器侧对多个第二日志文件进行统一打包。也即是,故障监控服务器在业务服务器的操作系统不具备批量上传日志文件的功能的情况下,向业务服务器的操作系统发送与多个第二日志文件分别对应的多个采集指令,以使业务服务器响应于该多个采集指令,采集该多个第二日志文件,向目标管理服务器发送该多个第二日志文件;目标管理服务器接收该多个第二日志文件,将该多个第二日志文件构成第二日志文件包。
在一些实施例中,批量采集所涉及到的业务服务器的操作系统均具备批量上传日志文件的功能,故障监控服务器接收到日志采集请求,向业务服务器发送日志采集指令即可,无需判断业务服务器是否具备批量上传日志文件的功能。
在一些实施例中,一部分业务服务器的操作系统具备批量上传日志文件的功能,另一部分业务服务器的操作系统不具备批量上传日志文件的功能,故障监控服务器在向业务服务器的操作系统发送日志采集指令之前,还确定业务服务器的操作系统是否具备批量上传日志文件的功能,在业务服务器的操作具备批量上传日志文件的功能的情况下,向该业务服务器的操作系统发送第二日志采集指令。其中,故障监控服务器确定业务服务器的操作系统是否具备批量上传日志文件的功能的过程与目标管理服务器确定业务服务器的BMC是否具备批量上传日志文件的功能的过程同理,在此不再赘述。
故障监控服务器存储第二日志文件包的过程与步骤310中目标管理服务器存储第一日志文件包的过程同理,在此不再赘述。
在一些实施例中,业务服务器的操作系统在处于异常状态的情况下,会自动重启,在重启过程中,多个异常探测服务器确定该业务服务器处于异常状态,在业务服务器处于异常状态的情况下,能够通过上述步骤307至步骤310获取并存储第一日志文件包;在重启完成,也即是恢复后,多个异常探测服务器确定该业务服务器恢复为正常状态,进而通过上述步骤311至步骤316获取并存储第二日志文件包。
在一些实施例中,第一日志文件包和第二日志文件包存储在文件服务器中,其它计算机设备能够从文件服务器中拉取日志文件。在一些实施例中,文件服务器对外提供调用接口,其它计算机设备通过该调用接口拉取日志文件。在一些实施例中,其它计算机设备上部署有运维系统,运维人员在发现业务服务器的异常后,通过该运维系统获取在业务服务器异常时采集的日志文件。在一些实施例中,运维人员在发现业务服务器的异常后,通过在其它计算机设备上执行操作,指示所需获取的日志文件的类型,其它计算机设备从文件服务器中获取所指示的类型的日志文件,提供给运维人员。
为了使上述日志采集过程更加清晰,下面结合图5所示的设备架构,对日志采集过程进行说明。参见图5,异常探测服务器501通过上述步骤301,对服务器集群502中的每个业务服务器进行异常探测,在确定某一业务服务器处于异常状态的情况下,向探测管理服务器503上报该业务服务器的异常事件;探测管理服务器503通过上述步骤302,在接收到每个异常探测服务器上报的该异常事件的情况下,向故障监控服务器504发送异常指示信息;故障监控服务器504通过上述步骤303至步骤304,在接收到异常指示信息的情况下,向第一管理服务器505发送日志采集请求;第一管理服务器505通过上述步骤305至步骤306,向至少一个第二管理服务器506中的目标管理服务器发送该日志采集请求;目标管理服务器通过上述步骤307至步骤310,从该业务服务器的BMC采集到第一日志文件包,将第一日志文件包存储在文件服务器507中;异常探测服务器501通过上述步骤311,在确定该业务服务器恢复为正常状态的情况下,向探测管理服务器503发送该业务服务器的恢复信息;探测管理服务器503通过上述步骤312,在接收到每个异常探测服务器发送的该恢复信息的情况下,向故障监控服务器504发送恢复信息;故障监控服务器504通过上述步骤313至步骤316,从该业务服务器的操作系统采集到第二日志文件包,将第二日志文件包存储在文件服务器507中;进而运维系统508能够从文件服务器507中拉取在业务服务器异常时采集的日志文件。
业务服务器发生异常时产生的带内外日志会记录异常发生时的原因和过程,研发人员需要采集相应的带内外日志,对该业务服务器的异常进行深入分析,以定位异常原因。随着业务服务器的数量日益增加,以及监控诊断能力的不断完善,日志采集所针对的业务服务器的数量以及所需采集的日志文件的类型也日益增多,本申请实施例提供的技术方案,通过实时监控业务服务器的操作系统的运行状态,当监测到业务服务器发生异常时,通过自定义的批量采集工具自动采集相应的带内外日志,在业务服务器发生异常时,就采集BMC的日志,在业务服务器的操作系统恢复正常,支持采集日志时,就采集操作系统的日志,及时保留了异常发生时的日志,满足了异常发生时第一时间采集日志的需求,提高了日志采集的及时性。并且,日志采集流程与异常监控流程打通,实现了异常监控、日志的自动采集、传输和保存等流程的自动化,提高了日志采集效率。
并且,本申请实施例提供的技术方案在异常发生时就对相应日志进行了采集和存储,相较于运维人员在异常发生一段时间后手动采集日志的方案,不会在业务服务器中在先存储的日志被清除或业务服务器的主板被更换之后,才采集日志,不会由于未及时采集日志而导致日志丢失,保证了异常发生时的日志能够保留下来,在发生异常的情况下,提高了日志采集和存储的可靠性。
并且,本申请实施例提供的技术方案实现了日志的自动化采集,无需运维人员时刻监控业务服务器的运行状态,以及时采集日志,减少了日志采集所需的人力成本。本申请实施例提供的技术方案已广泛应用于各种场景下的带内外日志采集,日志采集时间已由人工采集的平均7小时缩短到分钟级别,并且节省了3到5个人力,日志采集效率提升了几十倍。
并且,本申请实施例提供的技术方案,通过自动触发指令的方式自动采集日志,可同时针对多个业务服务器并行触发多个日志采集指令,并行采集该多个业务服务器的日志,在需要同时采集多个业务服务器的日志的情况下,进一步提高了日志采集效率。相较于研发人员依次针对一个业务服务器执行一次采集操作,采集到一个日志文件的方案,日志采集效率存在明显提升。
并且,本申请实施例提供的技术方案提供了一种基础的日志采集能力,不受业务服务器的权限限制,扩大了日志采集的覆盖范围。在采集到业务服务器的日志后,可以根据用户权限,筛选与用户权限匹配的日志,提供给对应的用户,保证日志应用的安全性。
在上述实施例中,日志采集系统是在业务服务器处于异常状态的情况下,获取日志采集请求,进而触发批量采集日志的。也即是,参见图6,上述实施例由业务服务器异常触发日志采集系统601批量采集日志。
在一些实施例中,日志采集系统支持外部系统触发批量采集日志。在一些实施例中,日志采集系统支持研发人员通过在控制终端的页面上执行操作,指定批量采集一个或多个业务服务器的日志,也即是,继续参见图6,由页面操作触发日志采集系统601批量采集日志。
在一些实施例中,控制终端显示采集配置页面,该采集配置页面包括多个业务服务器分别对应的批量采集控件;响应于对任一批量采集控件的触发操作,获取该批量采集控件对应的业务服务器的标识信息;基于获取到的至少一个标识信息,生成日志采集请求,该日志采集请求用于指示批量采集该至少一个标识信息对应的业务服务器的日志;向日志采集系统发送该日志采集请求。相应的,在一些实施例中,日志采集系统接收到该日志采集请求时,业务服务器处于正常状态,日志采集系统接收控制终端发送的该日志采集请求,响应于该日志采集请求,向BMC发送第一日志采集指令,向操作系统发送第二日志采集指令,以批量采集BMC和操作系统记录的日志文件。
在一些实施例中,日志采集系统接收到该日志采集请求后,判断业务服务器是否处于异常状态;在业务服务器处于异常状态的情况下,向业务服务器的BMC发送第一日志采集指令;在业务服务器恢复为正常状态的情况下,向业务服务器的操作系统发送第二日志采集指令。
在一些实施例中,采集配置页面为Web(World Wide Web,即全球广域网)页面或客户端的应用界面,本申请实施例对此不做限制。
在一些实施例中,采集配置页面包括多个型号分别对应的批量采集控件,一个批量采集控件用于指示批量采集一个型号的业务服务器的日志,通过选中任一型号对应的批量采集控件,能够采集到该型号的业务服务器的日志,进而基于采集到的日志,对该型号的业务服务器的共性问题进行分析。
在一些实施例中,采集配置页面包括多个批次号分别对应的批量采集控件,同一批次号的多个业务服务器投入使用的时间相同,一个批量采集控件用于指示批量采集一个批次的业务服务器的日志,在小批量试用阶段,通过选中任一批次号对应的批量采集控件,能够采集到同一批次的多个业务服务器的日志,进而基于采集到的日志,分析该批次的业务服务器的运行情况。
在一些实施例中,采集配置页面还包括多个日志类型分别对应的类型控件,一个类型控件用于指示采集一个日志类型的日志文件,终端响应于对任一类型控件的触发操作,获取该类型控件对应的日志类型;基于该日志类型,生成日志采集请求,以指示采集特定的日志类型的日志文件。
在一些实施例中,业务服务器上的服务程序通过运维系统进行监控和维护,该运维系统在监测到该服务程序的运行出现异常的情况下,向日志采集系统发送针对该服务程序所属的业务服务器的日志采集请求,以指示日志采集系统批量采集该业务服务器的日志,也即是,继续参见图6,由运维系统触发日志采集系统601批量采集日志。日志采集系统接收到运维系统发送的日志采集请求,在确定业务服务器处于异常状态的情况下,向业务服务器发送日志采集指令,以批量采集业务服务器的日志文件。日志采集系统在确定业务服务器处于异常状态的情况下,向业务服务器发送日志采集指令,批量采集业务服务器的日志文件的过程与上述步骤301至步骤316同理,在此不再赘述。
本申请实施例提供的技术方案,不仅在业务服务器异常时触发批量采集日志,提高了异常日志采集的及时性,也能够批量采集研发人员指定的业务服务器的日志,还能够在运维系统监控到业务层面的异常时,基于运维系统的指示批量采集对应业务服务器的日志,丰富了批量采集功能的适配场景,在各个场景中均能实现自动化批量采集日志,提高日志采集效率。
上述实施例是以日志采集系统包括多个异常探测服务器、探测管理服务器、故障监控服务器、第一管理服务器和至少一个第二管理服务器为例进行说明的。在一些实施例中,日志采集系统包括至少一个服务器,该至少一个服务器的数量少于多个异常探测服务器、探测管理服务器、故障监控服务器、第一管理服务器和至少一个第二管理服务器的总数量,该至少一个服务器包括多个功能模块,多个功能模块分别用于实现异常探测服务器、探测管理服务器、故障监控服务器、第一管理服务器和第二管理服务器的部分或全部功能。目标采集方法由业务服务器和日志采集系统包括的至少一个服务器基于与上述实施例同理的步骤交互执行。本申请实施例对日志采集系统的架构以及日志采集系统包括的服务器的数量不做限制。
图7是本申请实施例提供的一种日志采集方法的流程图,参见图7,该日志采集方法由日志采集系统执行,包括以下步骤:
701、获取日志采集请求,向业务服务器发送日志采集指令。
其中,该日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集多个日志文件,将多个日志文件构成日志文件包,向日志采集系统上传日志文件包。
702、接收日志文件包,存储该日志文件包。
本申请实施例提供的技术方案,在获取到日志采集请求后,指示业务服务器批量采集多个日志文件并上传该多个日志文件构成的日志文件包,进而在存储接收到的日志文件包后,实现了自动化地一次性采集多个日志文件,提高了日志采集效率。
在一些实施例中,业务服务器包括基板管理控制器BMC,获取日志采集请求,向业务服务器发送日志采集指令,包括:获取日志采集请求,向BMC发送第一日志采集指令。
在一些实施例中,第一日志采集指令用于指示执行与多个第一日志文件分别对应的多个采集指令,以采集多个第一日志文件,将多个第一日志文件构成第一日志文件包,向日志采集系统发送第一日志文件包。
在一些实施例中,获取日志采集请求,向BMC发送第一日志采集指令,包括:
日志采集系统的第一管理服务器获取日志采集请求,从至少一个第二管理服务器中,确定业务服务器对应的目标管理服务器,向目标管理服务器发送日志采集请求,每个第二管理服务器用于管理至少一个业务服务器的BMC;
目标管理服务器接收日志采集请求,向BMC发送第一日志采集指令。
在一些实施例中,获取日志采集请求,向BMC发送第一日志采集指令,包括:
日志采集系统的故障监控服务器在业务服务器处于异常状态的情况下获取日志采集请求,向管理服务器发送日志采集请求;
日志采集系统的管理服务器接收日志采集请求,向BMC发送第一日志采集指令。
在一些实施例中,在业务服务器处于异常状态的情况下获取日志采集请求,包括:
日志采集系统的多个异常探测服务器分别在确定业务服务器处于异常状态的情况下,向故障监控服务器上报业务服务器的异常事件;
日志采集系统的故障监控服务器在接收到每个异常探测服务器上报的异常事件的情况下,获取日志采集请求。
在一些实施例中,在业务服务器处于异常状态的情况下获取日志采集请求,包括:
日志采集系统的多个异常探测服务器分别在确定业务服务器处于异常状态的情况下,向探测管理服务器上报业务服务器的异常事件;
日志采集系统的探测管理服务器在接收到每个异常探测服务器上报的异常事件的情况下,向故障监控服务器发送异常指示信息;
日志采集系统的故障监控服务器在接收到异常指示信息的情况下,获取日志采集请求。
在一些实施例中,业务服务器包括操作系统,该方法还包括:
日志采集系统的故障监控服务器在业务服务器恢复为正常状态的情况下,向操作系统发送第二日志采集指令。
在一些实施例中,在业务服务器恢复为正常状态的情况下,向操作系统发送第二日志采集指令,包括:
日志采集系统的多个异常探测服务器分别在确定业务服务器恢复为正常状态的情况下,向故障监控服务器发送恢复信息;
日志采集系统的故障监控服务器在接收到每个异常探测服务器发送的恢复信息的情况下,向操作系统发送第二日志采集指令。
在一些实施例中,第二日志采集指令用于指示执行与多个第二日志文件分别对应的多个采集指令,以采集多个第二日志文件,将多个第二日志文件构成第二日志文件包,向日志采集系统发送第二日志文件包。
在一些实施例中,获取日志采集请求,向业务服务器发送日志采集指令,包括:接收运维系统发送的日志采集请求,运维系统用于在监测到业务服务器中的服务程序运行异常的情况下发送日志采集请求;在确定业务服务器处于异常状态的情况下,向业务服务器发送日志采集指令。
在一些实施例中,业务服务器包括BMC和操作系统,获取日志采集请求,向业务服务器发送日志采集指令,包括:接收控制终端发送的日志采集请求;响应于日志采集请求,向BMC发送第一日志采集指令,向操作系统发送第二日志采集指令。
在一些实施例中,获取日志采集请求,向业务服务器发送日志采集指令,包括:获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令。
在一些实施例中,该方法还包括:获取日志采集请求,在业务服务器不具备批量上传日志文件的功能的情况下,向业务服务器发送与多个日志文件分别对应的多个采集指令,多个采集指令分别用于指示向日志采集系统发送多个日志文件;接收多个日志文件,将多个日志文件构成日志文件包。
在一些实施例中,获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令,包括:获取日志采集请求,在查询到与业务服务器的型号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令。
在一些实施例中,获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令,包括:获取日志采集请求,在查询到与业务服务器的版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令;
在一些实施例中,获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令,包括:获取日志采集请求,在查询到与业务服务器的型号和版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令。
上述日志采集系统执行的各个步骤已在前述的实施例中进行了详细描述,在此不再赘述。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图8是本申请实施例提供的一种日志采集装置的框图。参见图8,该装置包括:
指令发送模块801,用于获取日志采集请求;向业务服务器发送日志采集指令,日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集多个日志文件,将多个日志文件构成日志文件包,向日志采集系统上传日志文件包;
文件接收模块802,用于接收日志文件包;
文件存储模块803,用于存储日志文件包。
在一些实施例中,业务服务器包括基板管理控制器BMC,指令发送模块801,用于获取日志采集请求,向BMC发送第一日志采集指令。
本申请实施例提供的日志采集装置,在获取到日志采集请求后,指示业务服务器批量采集多个日志文件并上传该多个日志文件构成的日志文件包,进而在存储接收到的日志文件包后,实现了自动化地一次性采集多个日志文件,提高了日志采集效率。
在一些实施例中,第一日志采集指令用于指示执行与多个第一日志文件分别对应的多个采集指令,以采集多个第一日志文件,将多个第一日志文件构成第一日志文件包,向日志采集系统发送第一日志文件包。
在一些实施例中,指令发送模块801,包括:
第一管理单元,用于获取日志采集请求,从至少一个第二管理服务器中,确定业务服务器对应的目标管理服务器,向目标管理服务器发送日志采集请求,每个第二管理服务器用于管理至少一个业务服务器的BMC;
目标管理单元,用于接收日志采集请求,向BMC发送第一日志采集指令。
在一些实施例中,指令发送模块801,包括:
故障监控单元,用于在业务服务器处于异常状态的情况下获取日志采集请求,向管理服务器发送日志采集请求;
管理单元,用于接收日志采集请求,向BMC发送第一日志采集指令。
在一些实施例中,故障监控单元,包括:
多个异常探测子单元,用于分别在确定业务服务器处于异常状态的情况下,向故障监控服务器上报业务服务器的异常事件;
故障监控子单元,用于在接收到每个异常探测服务器上报的异常事件的情况下,获取日志采集请求。
在一些实施例中,故障监控单元,包括:
多个异常探测子单元,用于分别在确定业务服务器处于异常状态的情况下,向探测管理服务器上报业务服务器的异常事件;
探测管理子单元,用于在接收到每个异常探测服务器上报的异常事件的情况下,向故障监控服务器发送异常指示信息;
故障监控子单元,用于在接收到异常指示信息的情况下,获取日志采集请求。
在一些实施例中,业务服务器包括操作系统,该装置还包括:
故障监控模块,用于在业务服务器恢复为正常状态的情况下,向操作系统发送第二日志采集指令。
在一些实施例中,故障监控模块,包括:
多个异常探测单元,用于分别在确定业务服务器恢复为正常状态的情况下,向故障监控服务器发送恢复信息;
故障监控子单元,用于在接收到每个异常探测服务器发送的恢复信息的情况下,向操作系统发送第二日志采集指令。
在一些实施例中,第二日志采集指令用于指示执行与多个第二日志文件分别对应的多个采集指令,以采集多个第二日志文件,将多个第二日志文件构成第二日志文件包,向日志采集系统发送第二日志文件包。
在一些实施例中,指令发送模块801,用于:接收运维系统发送的日志采集请求,运维系统用于在监测到业务服务器中的服务程序运行异常的情况下发送日志采集请求;在确定业务服务器处于异常状态的情况下,向业务服务器发送日志采集指令。
在一些实施例中,业务服务器包括BMC和操作系统,指令发送模块801,用于:接收控制终端发送的日志采集请求;响应于日志采集请求,向BMC发送第一日志采集指令,向操作系统发送第二日志采集指令。
在一些实施例中,指令发送模块801,用于:获取日志采集请求,在业务服务器具备批量上传日志文件的功能的情况下,向业务服务器发送日志采集指令。
在一些实施例中,该装置还包括:指令发送模块801,还用于获取日志采集请求,在业务服务器不具备批量上传日志文件的功能的情况下,向业务服务器发送与多个日志文件分别对应的多个采集指令,多个采集指令分别用于指示向日志采集系统发送多个日志文件;文件接收模块802还用于接收多个日志文件;文件包生成模块,用于将多个日志文件构成日志文件包。
在一些实施例中,指令发送模块801,用于获取日志采集请求,在查询到与业务服务器的型号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令。
在一些实施例中,指令发送模块801,用于获取日志采集请求,在查询到与业务服务器的版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令;
在一些实施例中,指令发送模块801,用于获取日志采集请求,在查询到与业务服务器的型号和版本号对应的日志采集指令的情况下,向业务服务器发送查询到的日志采集指令。
需要说明的是:上述实施例提供的日志采集装置在采集日志时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将日志采集装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的日志采集装置与日志采集方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是本申请实施例提供的一种服务器的框图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有计算机程序,该计算机程序由处理器901加载并执行以实现上述方法实施例中的日志采集系统、日志采集系统中的任一服务器或业务服务器执行的步骤。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,上述计算机程序可由服务器中的处理器执行以实现上述实施例中的日志采集系统、业务服务器或日志采集系统中的任一服务器执行的步骤。例如,计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,服务器的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该服务器执行上述方法实施例中的日志采集系统、业务服务器或日志采集系统中的任一服务器执行的步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种日志采集方法,其特征在于,所述方法包括:
日志采集系统获取日志采集请求,向业务服务器发送日志采集指令;
所述业务服务器响应于所述日志采集指令,执行与多个日志文件分别对应的多个采集指令,以采集所述多个日志文件,将所述多个日志文件构成日志文件包,向所述日志采集系统上传所述日志文件包;
所述日志采集系统接收所述日志文件包,存储所述日志文件包。
2.根据权利要求1所述的方法,其特征在于,所述业务服务器包括基板管理控制器BMC,所述日志采集系统获取日志采集请求,向业务服务器发送日志采集指令,包括:
所述日志采集系统获取所述日志采集请求,向所述BMC发送第一日志采集指令。
3.根据权利要求2所述的方法,其特征在于,所述业务服务器响应于所述日志采集指令,执行与多个日志文件分别对应的多个采集指令,以采集所述多个日志文件,将所述多个日志文件构成日志文件包,向所述日志采集系统上传所述日志文件包,包括:
所述BMC响应于所述第一日志采集指令,执行与多个第一日志文件分别对应的多个采集指令,以采集所述多个第一日志文件,将所述多个第一日志文件构成第一日志文件包,向所述日志采集系统发送所述第一日志文件包。
4.根据权利要求2所述的方法,其特征在于,所述日志采集系统包括第一管理服务器和至少一个第二管理服务器,每个第二管理服务器用于管理至少一个业务服务器的BMC;
所述日志采集系统获取所述日志采集请求,向所述BMC发送第一日志采集指令,包括:
所述第一管理服务器获取所述日志采集请求,从所述至少一个第二管理服务器中,确定所述业务服务器对应的目标管理服务器,向所述目标管理服务器发送所述日志采集请求;
所述目标管理服务器接收所述日志采集请求,向所述BMC发送所述第一日志采集指令。
5.根据权利要求2所述的方法,其特征在于,所述日志采集系统包括故障监控服务器和管理服务器;
所述日志采集系统获取所述日志采集请求,向所述BMC发送第一日志采集指令,包括:
所述故障监控服务器在所述业务服务器处于异常状态的情况下获取所述日志采集请求,向所述管理服务器发送所述日志采集请求;
所述管理服务器接收所述日志采集请求,向所述BMC发送所述第一日志采集指令。
6.根据权利要求5所述的方法,其特征在于,所述日志采集系统包括故障监控服务器和多个异常探测服务器;
所述故障监控服务器在所述业务服务器处于异常状态的情况下获取所述日志采集请求,包括:
所述多个异常探测服务器分别在确定所述业务服务器处于异常状态的情况下,向所述故障监控服务器上报所述业务服务器的异常事件;
所述故障监控服务器在接收到每个异常探测服务器上报的所述异常事件的情况下,获取所述日志采集请求。
7.根据权利要求5所述的方法,其特征在于,所述日志采集系统包括故障监控服务器、探测管理服务器和多个异常探测服务器;
所述故障监控服务器在所述业务服务器处于异常状态的情况下获取所述日志采集请求,包括:
所述多个异常探测服务器分别在确定所述业务服务器处于异常状态的情况下,向所述探测管理服务器上报所述业务服务器的异常事件;
所述探测管理服务器在接收到每个异常探测服务器上报的所述异常事件的情况下,向所述故障监控服务器发送异常指示信息;
所述故障监控服务器在接收到所述异常指示信息的情况下,获取所述日志采集请求。
8.根据权利要求5所述的方法,其特征在于,所述业务服务器包括操作系统,所述方法还包括:
所述故障监控服务器在所述业务服务器恢复为正常状态的情况下,向所述操作系统发送第二日志采集指令。
9.根据权利要求8所述的方法,其特征在于,所述日志采集系统包括故障监控服务器和多个异常探测服务器;
所述故障监控服务器在所述业务服务器恢复为正常状态的情况下,向所述操作系统发送第二日志采集指令,包括:
所述多个异常探测服务器分别在确定所述业务服务器恢复为正常状态的情况下,向所述故障监控服务器发送恢复信息;
所述故障监控服务器在接收到每个异常探测服务器发送的恢复信息的情况下,向所述操作系统发送所述第二日志采集指令。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
所述操作系统响应于所述第二日志采集指令,执行与多个第二日志文件分别对应的多个采集指令,以采集所述多个第二日志文件,将所述多个第二日志文件构成第二日志文件包,向所述日志采集系统发送所述第二日志文件包。
11.根据权利要求1所述的方法,其特征在于,所述日志采集系统获取日志采集请求,向业务服务器发送日志采集指令,包括:
所述日志采集系统接收运维系统发送的所述日志采集请求,所述运维系统用于在监测到所述业务服务器中的服务程序运行异常的情况下发送所述日志采集请求;
所述日志采集系统在确定所述业务服务器处于异常状态的情况下,向所述业务服务器发送所述日志采集指令。
12.根据权利要求1所述的方法,其特征在于,所述业务服务器包括BMC和操作系统,所述日志采集系统获取日志采集请求,向业务服务器发送日志采集指令,包括:
所述日志采集系统接收控制终端发送的日志采集请求;响应于所述日志采集请求,向所述BMC发送第一日志采集指令,向所述操作系统发送第二日志采集指令。
13.一种日志采集方法,其特征在于,所述方法包括:
获取日志采集请求,向业务服务器发送日志采集指令,所述日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集所述多个日志文件,将所述多个日志文件构成日志文件包,向日志采集系统上传所述日志文件包;
接收所述日志文件包,存储所述日志文件包。
14.一种日志采集装置,其特征在于,所述装置包括:
指令发送模块,用于获取日志采集请求,向业务服务器发送日志采集指令,所述日志采集指令用于指示执行与多个日志文件分别对应的多个采集指令,以采集所述多个日志文件,将所述多个日志文件构成日志文件包,向日志采集系统上传所述日志文件包;
文件接收模块,用于接收所述日志文件包;
文件存储模块,用于存储所述日志文件包。
15.一种日志系统,其特征在于,所述日志系统包括如权利要求1-12任一项所述的日志采集系统和业务服务器。
CN202110876525.1A 2021-07-30 2021-07-30 日志采集方法、装置及日志系统 Pending CN115687036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110876525.1A CN115687036A (zh) 2021-07-30 2021-07-30 日志采集方法、装置及日志系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110876525.1A CN115687036A (zh) 2021-07-30 2021-07-30 日志采集方法、装置及日志系统

Publications (1)

Publication Number Publication Date
CN115687036A true CN115687036A (zh) 2023-02-03

Family

ID=85059647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110876525.1A Pending CN115687036A (zh) 2021-07-30 2021-07-30 日志采集方法、装置及日志系统

Country Status (1)

Country Link
CN (1) CN115687036A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891647A (zh) * 2024-03-18 2024-04-16 荣耀终端有限公司 日志处理方法、电子设备和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891647A (zh) * 2024-03-18 2024-04-16 荣耀终端有限公司 日志处理方法、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP6440203B2 (ja) ネットワーク監視システム、ネットワーク監視方法およびプログラム
US20190196894A1 (en) Detecting and analyzing performance anomalies of client-server based applications
US9658914B2 (en) Troubleshooting system using device snapshots
CN107508722B (zh) 一种业务监控方法和装置
EP3255833B1 (en) Alarm information processing method, relevant device and system
US10216432B1 (en) Managing backup utilizing rules specifying threshold values of backup configuration parameters and alerts written to a log
CN112073262B (zh) 一种云平台监控方法、装置、设备及系统
JP2021530067A (ja) データセンターハードウェアインスタンスネットワークのトレーニング
CN108390907B (zh) 一种基于Hadoop集群的管理监控系统及方法
CN112506755B (zh) 日志采集方法、装置、计算机设备和存储介质
CN114884838A (zh) Kubernetes组件的监控方法及服务器
US11983088B2 (en) Apparatus and method for determining the underlying cause of user experience degradation
CN112395172A (zh) 基于应用软件自动化监测数据的可视化展示方法
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN115687036A (zh) 日志采集方法、装置及日志系统
US20210373953A1 (en) System and method for an action contextual grouping of servers
CN111371570A (zh) 一种nfv网络的故障检测方法及装置
CN105703942B (zh) 一种日志采集方法及装置
US20060053021A1 (en) Method for monitoring and managing an information system
CN116170275A (zh) 一种云网络运维管理方法和装置
CN115934464A (zh) 一种信息化平台监控采集系统
KR101828156B1 (ko) 트랜잭션 모니터링 시스템 및 그 동작방법
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
KR20030056301A (ko) 시스템 장애 통합관리방법
CN115934453A (zh) 一种故障排查方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination