CN116627771A - 日志采集方法、装置、电子设备和可读存储介质 - Google Patents

日志采集方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN116627771A
CN116627771A CN202310879288.3A CN202310879288A CN116627771A CN 116627771 A CN116627771 A CN 116627771A CN 202310879288 A CN202310879288 A CN 202310879288A CN 116627771 A CN116627771 A CN 116627771A
Authority
CN
China
Prior art keywords
job
information
log
historical
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310879288.3A
Other languages
English (en)
Other versions
CN116627771B (zh
Inventor
于磊春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202310879288.3A priority Critical patent/CN116627771B/zh
Publication of CN116627771A publication Critical patent/CN116627771A/zh
Application granted granted Critical
Publication of CN116627771B publication Critical patent/CN116627771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种日志采集方法、装置、电子设备和可读存储介质,属于计算机技术领域。所述方法包括:获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;根据所述历史作业信息在所述当前作业信息中确定目标作业信息,所述目标作业信息对应的流程状态为作业进行中流程;控制所述集群侧采集与所述目标作业信息对应的作业日志。控制集群侧采集与目标作业信息所对应的作业流程的作业日志,仅根据目标作业信息对应的作业日志对于作业问题进行排查,无需查看所有作业日志,减少了日志查看量,提高了作业问题的排查效率。

Description

日志采集方法、装置、电子设备和可读存储介质
技术领域
本申请属于计算机技术领域,具体涉及一种日志采集方法、装置、电子设备和可读存储介质。
背景技术
分布式系统在大规模集群作业环境中,持续性作业过程内作业量越来越大,同时,运维侧也会存在很多作业问题需要排查,对作业问题进行排查时,需要通过查看作业日志进行分析。
现有技术的作业日志查看过程中,集群侧在作业的同时,需要不断地采集实时作业日志信息,因为作业日志信息的数据量较大,所以需要耗费大量时间和精力才能在大量的作业日志信息中找到与作业问题相关的问题日志,对作业问题进行排查的效率较低。
发明内容
本申请实施例的目的是提供一种日志采集方法、装置、电子设备和可读存储介质,能够解决现有的作业日志问题排查过程中,排查效率较低的问题。
第一方面,本申请实施例提供了一种日志采集方法,应用于分布式计算机系统,所述分布式计算机系统包括管理侧和集群侧,所述方法包括:
获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
根据所述历史作业信息在所述当前作业信息中确定目标作业信息;
控制所述集群侧采集与所述目标作业信息对应的作业日志。
第二方面,本申请实施例提供了一种日志采集装置,应用于分布式系统,所述分布式系统包括管理侧和集群侧,所述装置包括:
获取模块,用于获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
确定模块,用于根据所述历史作业信息在所述当前作业信息中确定目标作业信息,所述目标作业信息对应的流程状态为作业进行中流程;
采集模块,用于控制所述集群侧采集与所述目标作业信息对应的作业日志。
第三方面,本申请实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本申请实施例中,获取历史作业信息和当前作业信息,根据历史作业信息在当前作业信息中确定目标作业信息,在确定了目标作业信息后,控制集群侧采集与目标作业信息所对应的作业流程的作业日志,仅根据目标作业信息对应的作业日志对于作业问题进行排查,无需查看所有作业日志,减少了日志查看量,提高了作业问题的排查效率。
附图说明
图1为本申请实施例提供的日志采集方法的流程示意图;
图2为本申请实施例提供的中间存储层的结构示意图;
图3为本申请实施例提供的日志采集装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象 可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的方法进行详细地说明。
本申请实施例提供的日志采集方法,基于分布式系统实现,分布式系统包括分布式发布订阅消息系统(kafka)以及管理侧、集群侧、控制侧。本申请实施例的日志采集方法的执行主体可以是控制侧。
如图1所示,本申请实施例提供的日志采集方法包括如下步骤:
步骤S1,获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
历史作业信息和当前作业信息中,作业信息至少包括作业流程的:功能、持续时长、流程状态。其中,流程状态包括两种,一种流程状态为作业进行中状态,另外一种流程状态为作业已完成状态。
当前作业信息为管理侧在当前时刻实时采集的作业信息,分为两种,历史作业信息为管理侧在采集当前作业信息之前就已经采集并存储在管理侧的数据库中的作业信息。优选的,历史作业信息的采集时刻是上一次采集作业信息的时刻。
存储在数据库中的历史作业信息上被设置有标签,标签分为已完成标签和未完成标签,已完成标签与作业已完成状态相对应,表示对应的作业信息被采集时,已经完成了作业流程,作业不再进行。未完成标签与作业进行中状态相对应,表示对应的作业信息被采集时,作业流程还未完成,仍在进行中。
步骤S2,根据所述历史作业信息在所述当前作业信息中确定目标作业信息;
在对作业问题进行排查时,作业问题必然是出现在流程状态为作业进行中状态的作业流程中,因此,将历史作业信息与当前作业信息进行对比,在当前作业信息中存在作业信息对应的第一作业流程的状态为作业已完成状态,且历史作业信息中存在与第一作业流程对应的作业信息的情况下,将数据库中第一作业流程对应的作业信息的标签修改为已完成标签,当前作业信息中第一作业流程对应的作业信息不被存储进数据库,只将作业流程状态为作业进行中的目标作业信息存储进数据库。与将当前作业信息中的所有作业信息都存储进数据库的方式相比,只将目标作业信息存储进数据库的方式,既能够根据目标作业信息来排查作业问题,又能够实现数据库的资源节约,最大程度的利用存储资源,降低了数据库的存储压力。
步骤S3,控制所述集群侧采集与所述目标作业信息对应的作业日志。
在确定了目标作业信息后,控制侧控制集群侧采集与目标作业信息所对应的作业流程的作业日志,仅根据目标作业信息对应的作业日志对于作业问题进行排查,无需查看所有作业日志,减少了日志查看量,提高了作业问题的排查效率。
在另一实施例中,在集群侧部署可由管理侧触发调用的接口,在确定了目标作业信息后,管理侧触发集群侧的接口,当接口被触发之后,集群侧进行作业日志的采集。在集群侧为需要kerberos协议认证的集群的情况下,管理侧向集群侧发送用户信息,以完成kerberos认证,在认证后集群侧采集作业日志。在集群侧不需要认证的情况下,集群侧根据目标作业信息直接采集对应的作业日志。在集群侧进行作业采集中,采用多线程机制以提高处理效率并且有利于系统承受高并发状态。
可选地,所述根据所述历史作业信息在所述当前作业信息中确定目标作业信息,包括:
从所述历史作业信息中获取第一作业信息,所述第一作业信息对应的流程状态为作业进行中,且所述第一作业信息对应的持续时长大于目标预设时长;
基于所述第一作业信息,从所述当前作业信息中确定第二作业信息,所述第二作业信息对应的流程与所述第一作业信息对应的作业流程相同且所述第二作业信息对应的流程状态为作业进行中;
将所述当前作业信息中去除所述第二作业信息所剩余的作业信息确定为第三作业信息;
将所述第三作业信息中对应的流程状态为作业进行中状态的作业信息确定为所述目标作业信息。
在当前作业信息中存在第二作业信息对应的流程状态为作业进行中状态,历史作业信息中存在第一作业信息对应的流程状态为作业进行中状态、第一作业信息对应的持续时长大于目标预设时长,且第一作业信息和第二作业信息对应的同一个作业流程的情况下,从当前作业信息中去除第二作业信息以得到第三作业信息,再从第三作业信息中确定目标作业信息。
由于第一作业信息和第二作业信息所对应的作业流程的持续时长大于目标预设时长,说明第一作业信息和第二作业信息所对应的作业流程运行比较稳定,出现作业问题的概率极低,可进行排除。在本实施例中,进一步减少了目标作业信息的数据量,从而减少了集群侧所采集的与目标作业信息相对应的作业日志的数据量,以减少日志查看量,提高作业问题的排查效率。
可选地,所述获取历史作业信息和当前作业信息,包括:
在接收到采集指示的情况下,获取所述历史作业信息和所述当前作业信息;
其中,所述采集指示为满足预设条件的情况下接收的指示,所述预设条件包括如下至少一项:所述采集指示与前一次采集指示之间的间隔时长大于第一预设时长、接收到作业问题排查指令。
控制侧在接收到采集指示的情况下,获取历史作业信息和当前作业信息,历史作业信息存储在管理侧的数据库中,可以直接获取,当前作业信息需要在管理侧先进行信息采集后才能获取,可以理解地,在接收到采集指示的情况下,管理侧会进行作业信息采集。
接收采集指示需要满足预设条件,预设条件可以是采集指示与前一次采集指示之间的间隔时长大于第一预设时长,即管理侧在完成上一次作业信息采集的时刻为第一时刻t1,在经过第一预设时长tn后,也就是(t1+tn)时刻时,触发采集指示并发送到控制侧。接收采集指示的预设条件还可以是控制侧接收到作业排查指令时,作业排查指令可以由用户在外设设备、操作页面主动发出,或是系统检测到作业出现问题时,自动发出作业排查指令。
在接收到采集指示后,才会控制管理侧采集当前作业信息,并在其中确定目标作业信息,从而控制集群侧采集与目标作业信息对应的作业日志,避免管理侧、集群侧时刻采集作业日志的情况,降低了管理侧、集群侧的工作压力,保证了系统运行的稳定性。
可选地,所述当前作业信息包括多个作业流程信息,所述多个作业流程信息中每个作业流程信息对应的作业时长小于或等于第二预设时长。
设置第二预设时长作为阈值,在当前时刻对作业时间特别长的作业流程信息进行拉取时,若是作业流程信息对应的作业时长超过了第二预设时长这一阈值,将结束对该作业流程信息的采集,保证采集的每个作业流程信息的作业时长都不超过第二预设时长,通过上述方式,可保证管理侧在同一次作业信息采集过程中采集到的数据总量不会超出管理侧的负荷能力,进一步保证了系统运行的稳定性。
可选地,所述分布式系统还包括中间存储层,所述控制所述集群侧采集与所述目标作业信息对应的作业日志之后,所述方法还包括:
控制所述集群侧将所述作业日志发送至所述中间存储层;
其中,所述作业日志用于使所述中间存储层基于所述作业日志对应的作业过程的业务类别,对所述作业日志进行分类,以确定所述作业日志的日志标签,所述日志标签包括:日志编号、索引名、日志产生时间、日志等级、分类名称;并使得所述中间存储层将所述作业日志和所述日志标签发送至所述管理侧,以使得所述管理侧基于所述日志标签,对所述作业日志进行可视化展示。
如图2所示,所述分布式系统的中间存储层包括kafka、数据分发模块和日志聚类服务模块,集群侧将采集到的作业日志的数据发送到kafka中,kafka包括三类服务器,如图2所示的topic1、topic2和topic3,其中,topic1用于将作业日志数据发送到数据分发模块,在数据分发模块中通过聚合代码可将单条的作业日志数据进行整合,之后,数据分发模块将整合后的作业日志数据发送到topic2进行过渡,topic2将整合后的作业日志数据转发至日志聚类服务模块中。
日志聚类服务模块具备不同实例服务节点,如图2所示的实例1、实例2、实例3,在topic2中进行作业日志数据的转发时,将根据作业日志的业务类别来进行分发,例如,实例1对应第一业务、实例2对应第二业务、实例3对应第三业务,topic2将业务类别为第一业务的作业日志数据发送至实例1,业务类别为第二业务的作业日志数据发送至实例2,业务类别为第三业务的作业日志数据发送至实例3。在实例服务节点中采用频繁模式挖掘算法对相应的作业日志数据进行聚类,以对每条数据设置好相应的日志标签。日志标签包括:日志编号、索引名、日志产生时间、日志等级、分类名称、应用标签、日志消息体、聚类结果类别编号、聚类结果类别名等。将设置好日志标签,即完成聚类后的日志数据及其对应的日志标签封装成统一的协议格式,如JavaScript Object Notation协议格式,并重新转发回kafka的topic3服务器中,管理侧可从kafka中获取封装后的日志数据和日志标签。
通过上述步骤对日志数据的进行分类并设置日志标签,从而压缩了日志的信息,进行作业问题排查时,可通过日志标签直接查询相应的日志,提高了作业问题排查的精准度。
进一步地,本实施例的方法还包括对作业日志的冷数据再拉取。具体的,为了成本节约和提高查询效率,在集群侧采集到的作业日志的数据保存过程中,采用冷热数据分离的机制,其中,热数据是指访问频率高、对业务和应用关键的数据。这些数据通常需要快速、高效地访问和处理,因此需要存储在高性能、低延迟的存储设备上。冷数据是指访问频率低、对业务和应用不太重要的数据。由于冷热数据分离可能会导致一些日志数据的丢失,冷数据再拉取包括如下步骤:在冷热数据分离时,实时记录数据的作业类型,将作业生命周期内的冷数据从原本的存储位置中拉取出来,并作为热数据进行保存,可保证数据的完整性,防止日志数据丢失,便于对作业问题进行排查。
此外,管理侧将封装后的日志数据和日志标签进行可视化展示,便于日志数据的查看。
可选地,所述中间存储层包括多个服务器,每个所述服务器包括多个存储节点,在所述控制所述集群侧将所述进行中作业日志发送至所述中间存储层之前,所述方法还包括:
获取所述多个服务器对应的历史负载信息和数据处理性能;
基于所述多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值;
计算多个服务器的数据处理性能的平均处理性能;
计算所述多个服务器对应的预测负载值之和,并计算所述预测负载值之和与所述平均处理性能的商,以得到所述中间存储层中所述存储节点的总量;
基于所述存储节点的总量与每个服务器的预设参数,调节每个服务器对应的预设存储节点的数量,所述预设参数为服务器的数据处理性能与所述预设存储节点数量的商。
如图2所示,在本实施例中,多个服务器分别是topic1、topic2和topic3,每个服务 器都包括多个存储节点(partition)。获取服务器的历史负载信息和数据处理性能,其中, 数据处理性能由服务器的数据处理参数确定,数据处理参数包括:中央处理器利用率( )、内存利用率()、磁盘的I/O访问率()、网络带宽使用率()、存储空间使用率( )。根据上述数据处理参数可以确定服务器的数据处理性能:
其中,分别是中央处理器利用率()、内存利用率()、磁盘 的I/O访问率()、网络带宽使用率()、存储空间使用率()对应的权重系数,之和为1,的具体数值可由服务器对应的功能类别来确定。
得到多个服务器各自对应的数据处理性能后,计算服务器的平均数据处理性能C。
根据多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值。得到多个服务器各自对应的预测负载值后,计算预测负载值之和N,根据预测负载值之和、平均处理性能可以确定中间存储层中存储节点的总量:
R=N/C
基于所述存储节点的总量与每个服务器的预设参数,调节每个服务器对应的预设存储节点的数量,以对图2所示的三个服务器进行调节为例来进行说明:
三个服务器对应的数据处理性能分别为M1、M2、M3。每个服务器都有各自对应的预设存储节点,对存储节点的数量进行增减,使得增减后的存储节点的数量满足:
M1/r1=M2/r2=M3/r3
其中,r1为M1进行调节后所包含的存储节点的数量,r2为M2进行调节后所包含的存储节点的数量,r3为M3进行调节后所包含的存储节点的数量。r1、r2、r3之和为R。
通过上述方式,调节中间存储层中每个服务器对应的存储节点的数量,使得每个服务器在能够完成各自的负载任务的同时,实现多个服务器之间的负载均衡,避免资源浪费。
可选地,所述历史负载信息包括多个历史负载值和多个历史样本容量,所述历史负载值和所述历史样本容量一一对应,
所述基于所述多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值,包括:
根据目标服务器对应的多个历史负载值进行预测,得到第一负载值,所述目标服务器为所述多个服务器中的任一个;
根据目标负载值、所述目标负载值对应的目标样本容量和所述第一负载值,确定所述第一负载值对应的第一样本容量,所述目标负载值为所述多个历史负载值中的任一个,所述第一负载值与所述第一样本容量的商,与所述目标负载值与所述目标样本容量的商匹配;
将所述第一样本容量除以预先获取的所述中间存储层的总负载值的商,确定为第一采样率;
在所述第一采样率小于或等于预设采样率的情况下,将所述第一负载值确定为所述目标服务器的预测负载值;
在所述第一采样率大于所述预设采样率的情况下,基于所述第一采样率对所述第一负载值进行调整,将调整后的第一负载值确定为所述目标服务器的预测负载值。
历史负载信息包括多个历史负载值和多个历史样本容量,每个历史负载值都对应一个时刻,按照时刻的顺序对历史负载值进行排序,得到历史负载数据序列。例如,获取多个历史负载值H1、H2…Ht-1和Ht,按照时刻的顺序进行排序,得到历史负载数据序列H=(H1、H2…Ht-1、Ht),通过马尔可夫预测模型对序列H进行预测,得到(t+1)时刻的第一负载值Ht+1
在获取了第一负载值之后,计算任一历史时刻的目标负载值和目标样本容量的商:Qi=Hi/Li
计算第一负载值和对应的第一样本容量的商:Qt+1=Ht+1/Lt+1
根据Qi与Qt+1相匹配的条件,确定第一样本容量Lt+1的取值。相匹配的条件可以是,两者相等,或是两者之间差值在预设范围内。
在确定了第一样本容量后,获取中间存储层此时的总负载值P,计算第一采样率:S=Lt+1/P
预设采样率可以根据用户预设设置,也可以在后续应用过程中根据系统运行情况进行调整。优选的,预设采样率为25%。
在第一采样率S小于或等于预设采样率的情况下,将第一负载值Ht+1确定为预测负载值。
在第一采样率S大于预设采样率的情况下,减小第一负载值,使得调整后的第一负载值对应的第一采样率满足预设采样率的要求,将调整后的第一负载值确定为所述目标服务器的预测负载值。
通过上述方式,确定出预测负载值,提高了预测负载值的准确度,后续再根据预测负载值调整服务器中存储节点的数量,以保证对存储节点进行调整时的合理性。
本申请实施例提供的日志采集方法的执行主体可以是日志采集装置,日志采集装置应用于分布式系统,所述分布式系统包括管理侧和集群侧。以日志采集装置执行日志采集方法为例,结合附图3说明本申请实施例提供的日志采集装置300,日志采集装置300包括:
获取模块301,用于获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
确定模块302,用于根据所述历史作业信息在所述当前作业信息中确定目标作业信息,所述目标作业信息对应的流程状态为作业进行中流程;
采集模块303,用于控制所述集群侧采集与所述目标作业信息对应的作业日志。
可选地,获取模块301还用于:
在接收到采集指示的情况下,获取所述历史作业信息和所述当前作业信息;
其中,所述采集指示为满足预设条件的情况下接收的指示,所述预设条件包括如下至少一项:所述采集指示与前一次采集指示之间的间隔时长大于第一预设时长、接收到作业问题排查指令。
可选地,所述当前作业信息包括多个作业流程信息,所述多个作业流程信息中每个作业流程信息对应的作业时长小于或等于第二预设时长。
可选地,所述分布式系统还包括中间存储层,所述装置还包括发送模块,用于:
控制所述集群侧将所述作业日志发送至所述中间存储层;
其中,所述作业日志用于使所述中间存储层基于所述作业日志对应的作业过程的业务类别,对所述作业日志进行分类,以确定所述作业日志的日志标签,所述日志标签包括:日志编号、索引名、日志产生时间、日志等级、分类名称;并使得所述中间存储层将所述作业日志和所述日志标签发送至所述管理侧,以使得所述管理侧基于所述日志标签,对所述作业日志进行可视化展示。
可选地,所述装置还包括调节模块,用于:
获取所述多个服务器对应的历史负载信息和数据处理性能;
基于所述多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值;
计算多个服务器的数据处理性能的平均处理性能;
计算所述多个服务器对应的预测负载值之和,并计算所述预测负载值之和与所述平均处理性能的商,以得到所述中间存储层中所述存储节点的总量;
基于所述存储节点的总量与每个服务器的预设参数,调节每个服务器对应的预设存储节点的数量,所述预设参数为服务器的数据处理性能与所述预设存储节点数量的商。
可选地,调节模块,还用于:
根据目标服务器对应的多个历史负载值进行预测,得到第一负载值,所述目标服务器为所述多个服务器中的任一个;
根据目标负载值、所述目标负载值对应的目标样本容量和所述第一负载值,确定所述第一负载值对应的第一样本容量,所述目标负载值为所述多个历史负载值中的任一个,所述第一负载值与所述第一样本容量的商,与所述目标负载值与所述目标样本容量的商匹配;
将所述第一样本容量除以预先获取的所述中间存储层的总负载值的商,确定为第一采样率;
在所述第一采样率小于或等于预设采样率的情况下,将所述第一负载值确定为所述目标服务器的预测负载值;
在所述第一采样率大于所述预设采样率的情况下,基于所述第一采样率对所述第一负载值进行调整,将调整后的第一负载值确定为所述目标服务器的预测负载值。
本申请实施例提供的日志采集装置可以获取历史作业信息和当前作业信息,根据历史作业信息在当前作业信息中确定目标作业信息,在确定了目标作业信息后,控制集群侧采集与目标作业信息所对应的作业流程的作业日志。
需要说明的是,本申请实施例提供的日志采集装置能够实现上述日志采集方法的全部技术过程,并达到相同的技术效果,为避免重复,在此不再赘述。
本申请实施例中的装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(MobileInternet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、 可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备还可以为服务器 、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
可选地,如图4所示,本申请实施例还提供一种电子设备400,包括处理器401和存储器402,存储器402上存储有可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机 软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器, 或者网络设备等)执行本申请各个实施例所述的方法。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种日志采集方法,应用于分布式系统,所述分布式系统包括管理侧和集群侧,其特征在于,所述方法包括:
获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
根据所述历史作业信息在所述当前作业信息中确定目标作业信息;
控制所述集群侧采集与所述目标作业信息对应的作业日志。
2.如权利要求1所述的方法,其特征在于,所述根据所述历史作业信息在所述当前作业信息中确定目标作业信息,包括:
从所述历史作业信息中获取第一作业信息,所述第一作业信息对应的流程状态为作业进行中,且所述第一作业信息对应的持续时长大于目标预设时长;
基于所述第一作业信息,从所述当前作业信息中确定第二作业信息,所述第二作业信息对应的流程与所述第一作业信息对应的作业流程相同且所述第二作业信息对应的流程状态为作业进行中;
将所述当前作业信息中去除所述第二作业信息所剩余的作业信息确定为第三作业信息;
将所述第三作业信息中对应的流程状态为作业进行中状态的作业信息确定为所述目标作业信息。
3.如权利要求1所述的方法,其特征在于,所述获取历史作业信息和当前作业信息,包括:
在接收到采集指示的情况下,获取所述历史作业信息和所述当前作业信息;
其中,所述采集指示为满足预设条件的情况下接收的指示,所述预设条件包括如下至少一项:所述采集指示与前一次采集指示之间的间隔时长大于第一预设时长、接收到作业问题排查指令。
4.如权利要求1所述的方法,其特征在于,所述当前作业信息包括多个作业流程信息,所述多个作业流程信息中每个作业流程信息对应的作业时长小于或等于第二预设时长。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述分布式系统还包括中间存储层,所述控制所述集群侧采集与所述目标作业信息对应的作业日志之后,所述方法还包括:
控制所述集群侧将所述作业日志发送至所述中间存储层;
其中,所述作业日志用于使所述中间存储层基于所述作业日志对应的作业过程的业务类别,对所述作业日志进行分类,以确定所述作业日志的日志标签,所述日志标签包括:日志编号、索引名、日志产生时间、日志等级、分类名称;并使得所述中间存储层将所述作业日志和所述日志标签发送至所述管理侧,以使得所述管理侧基于所述日志标签,对所述作业日志进行可视化展示。
6.如权利要求5所述的方法,其特征在于,所述中间存储层包括多个服务器,每个所述服务器包括多个存储节点,在所述控制所述集群侧将所述进行中作业日志发送至所述中间存储层之前,所述方法还包括:
获取所述多个服务器对应的历史负载信息和数据处理性能;
基于所述多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值;
计算多个服务器的数据处理性能的平均处理性能;
计算所述多个服务器对应的预测负载值之和,并计算所述预测负载值之和与所述平均处理性能的商,以得到所述中间存储层中所述存储节点的总量;
基于所述存储节点的总量与每个服务器的预设参数,调节每个服务器对应的预设存储节点的数量,所述预设参数为服务器的数据处理性能与所述预设存储节点数量的商。
7.如权利要求6所述的方法,其特征在于,所述历史负载信息包括多个历史负载值和多个历史样本容量,所述历史负载值和所述历史样本容量一一对应,
所述基于所述多个服务器对应的历史负载信息进行预测,以得到所述多个服务器对应的预测负载值,包括:
根据目标服务器对应的多个历史负载值进行预测,得到第一负载值,所述目标服务器为所述多个服务器中的任一个;
根据目标负载值、所述目标负载值对应的目标样本容量和所述第一负载值,确定所述第一负载值对应的第一样本容量,所述目标负载值为所述多个历史负载值中的任一个,所述第一负载值与所述第一样本容量的商,与所述目标负载值与所述目标样本容量的商匹配;
将所述第一样本容量除以预先获取的所述中间存储层的总负载值的商,确定为第一采样率;
在所述第一采样率小于或等于预设采样率的情况下,将所述第一负载值确定为所述目标服务器的预测负载值;
在所述第一采样率大于所述预设采样率的情况下,基于所述第一采样率对所述第一负载值进行调整,将调整后的第一负载值确定为所述目标服务器的预测负载值。
8.一种日志采集装置,应用于分布式系统,所述分布式系统包括管理侧和集群侧,其特征在于,所述装置包括:
获取模块,用于获取历史作业信息和当前作业信息,所述历史作业信息和所述当前作业信息均为所述管理侧采集到的作业信息,所述历史作业信息的采集时刻位于所述当前作业信息的采集时刻之前;
确定模块,用于根据所述历史作业信息在所述当前作业信息中确定目标作业信息,所述目标作业信息对应的流程状态为作业进行中流程;
采集模块,用于控制所述集群侧采集与所述目标作业信息对应的作业日志。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的日志采集方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的日志采集方法的步骤。
CN202310879288.3A 2023-07-18 2023-07-18 日志采集方法、装置、电子设备和可读存储介质 Active CN116627771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310879288.3A CN116627771B (zh) 2023-07-18 2023-07-18 日志采集方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310879288.3A CN116627771B (zh) 2023-07-18 2023-07-18 日志采集方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN116627771A true CN116627771A (zh) 2023-08-22
CN116627771B CN116627771B (zh) 2023-10-13

Family

ID=87597528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310879288.3A Active CN116627771B (zh) 2023-07-18 2023-07-18 日志采集方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116627771B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076184A (zh) * 2023-10-12 2023-11-17 湖南长银五八消费金融股份有限公司 一种交易系统检测方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385452A (zh) * 2022-01-12 2022-04-22 芃飞软件科技无锡有限公司 智能集群日志监控分析方法
CN116069751A (zh) * 2023-02-28 2023-05-05 中国建设银行股份有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN116126621A (zh) * 2022-08-29 2023-05-16 马上消费金融股份有限公司 大数据集群的任务监控方法及相关设备
CN116225848A (zh) * 2023-03-03 2023-06-06 中国工商银行股份有限公司 日志监测方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385452A (zh) * 2022-01-12 2022-04-22 芃飞软件科技无锡有限公司 智能集群日志监控分析方法
CN116126621A (zh) * 2022-08-29 2023-05-16 马上消费金融股份有限公司 大数据集群的任务监控方法及相关设备
CN116069751A (zh) * 2023-02-28 2023-05-05 中国建设银行股份有限公司 信息处理方法、装置、设备及计算机可读存储介质
CN116225848A (zh) * 2023-03-03 2023-06-06 中国工商银行股份有限公司 日志监测方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076184A (zh) * 2023-10-12 2023-11-17 湖南长银五八消费金融股份有限公司 一种交易系统检测方法、装置及存储介质
CN117076184B (zh) * 2023-10-12 2023-12-22 湖南长银五八消费金融股份有限公司 一种交易系统检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN116627771B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN105357038B (zh) 监控虚拟机集群的方法和系统
WO2021238045A1 (zh) 基于rpa的大规模定制客户需求获取、查询方法
Yang et al. Big-sensing-data curation for the cloud is coming: A promise of scalable cloud-data-center mitigation for next-generation IoT and wireless sensor networks
US9015316B2 (en) Correlation of asynchronous business transactions
CN112231075B (zh) 一种基于云服务的服务器集群负载均衡控制方法及系统
CN102999385B (zh) 计算设备中多处理器协同处理方法
CN116627771B (zh) 日志采集方法、装置、电子设备和可读存储介质
CN111209310B (zh) 基于流计算的业务数据处理方法、装置和计算机设备
CN103713935B (zh) 一种在线管理Hadoop集群资源的方法和装置
CN108121511A (zh) 一种分布式边缘存储系统中的数据处理方法、装置及设备
CN110119307B (zh) 数据处理请求的处理方法、装置、存储介质及电子装置
CN109597837B (zh) 时序数据的存储方法、查询方法及相关设备
Tang et al. Nanily: A qos-aware scheduling for dnn inference workload in clouds
CN113076771A (zh) 一种车辆及其车辆管理系统、监测方法
Filip et al. Data capsule: Representation of heterogeneous data in cloud-edge computing
CN113190417A (zh) 微服务状态检测方法、模型的训练方法、设备及存储介质
CN114300082B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN115373960A (zh) 一种数据库查询性能分析方法、装置及存储介质
CN116010447A (zh) 一种优化异构数据库用户查询的负载均衡方法及装置
CN114035906A (zh) 虚拟机迁移方法、装置、电子设备及存储介质
JPH10242997A (ja) 情報提供装置及び情報提供方法
WO2020207294A1 (zh) 服务处理方法、装置、存储介质及电子设备
CN109688177B (zh) 一种数据同步方法及装置、设备、存储介质
CN112560938A (zh) 模型训练方法、装置及计算机设备
CN101482816B (zh) 中介软件桥接系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant