CN110555004A - 服务的监控方法、装置、计算机设备及存储介质 - Google Patents

服务的监控方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110555004A
CN110555004A CN201910699967.6A CN201910699967A CN110555004A CN 110555004 A CN110555004 A CN 110555004A CN 201910699967 A CN201910699967 A CN 201910699967A CN 110555004 A CN110555004 A CN 110555004A
Authority
CN
China
Prior art keywords
service
information
early warning
memory
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910699967.6A
Other languages
English (en)
Inventor
王杨
段光磊
王平
赫振军
周正
张大虎
徐婷
柯登科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910699967.6A priority Critical patent/CN110555004A/zh
Publication of CN110555004A publication Critical patent/CN110555004A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及一种服务的监控方法、装置、计算机设备及存储介质,所述方法包括:基于决策树模型确定服务对应的预警条件;实时获取所述服务对应的日志文件;从所述日志文件中确定监控对象的数据信息;判断所述数据信息是否符合所述预警条件;若所述数据信息符合所述预警条件,则发出预警信息;通过设置预警条件,触发预警条件进行预警的方式可以有效地对运行中的服务进行监控,再通过预警信息进行提示,便于确定符合预警条件的服务,及时对该服务的运行参数进行相应调整,保证服务运行过程中的稳定性。

Description

服务的监控方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种服务的监控方法、装 置、计算机设备及存储介质。
背景技术
随着互联网时代的发展,计算机设备的功能种类越来越多,对应的业 务功能的扩大,监控业务的服务数量也在增多,在监控业务的服务资源有 限的情况下,实时了解服务的监控情况成为必要。
然而现有的业务的监控,通常采用nginx的各业务的业务接口错误码 zabbix报警,然而,在出现服务每秒查询率突增或Java虚拟机异常造成的 服务内存溢出或者假死时,通常先服务宕机后进行告警,当宕机后告警的 方式无法提前预判服务的告警,严重影响服务的稳定性。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一 种服务的监控方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种服务的监控方法,包括:
基于决策树模型确定服务对应的预警条件;
实时获取所述服务对应的日志文件;
从所述日志文件中确定监控对象的数据信息;
判断所述数据信息是否符合所述预警条件;
若所述数据信息符合所述预警条件,则发出预警信息。
在一个可能的实施方式中,所述基于决策树模型确定服务对应的预警 条件,包括:
将所述服务的属性信息作为决策树模型的输入,以使所述决策树模型 输出所述服务触发所述预警条件时对应的第一阈值和/或第二阈值;
将垃圾回收率大于所述第一阈值作为预警条件;和/或,将内存回收比 例大于所述第二阈值作为预警条件。
在一个可能的实施方式中,所述实时获取所述服务对应的日志文件, 包括:
配置java虚拟机jvm服务对应垃圾回收gc的日期参数、时间戳参数 以及存储路径参数;
基于所述gc的所述日期参数、所述时间戳参数以及所述存储路径参数, 获取所述jvm服务对应的gc日志文件。
在一个可能的实施方式中,所述方法还包括:
将所述gc日志文件与所述服务的属性信息进行关联,生成gc日志记 录,以使在所述gc日志记录中的所述gc日志文件与所述服务一一对应;
将所述gc日志记录存储于分布式消息集群kafka。
在一个可能的实施方式中,所述从所述日志文件中确定监控对象的数 据信息,包括:
调用流处理框架flink进程,根据属性信息查询所述kafka,确定所述 属性信息对应的所述gc日志记录;
从所述gc日志记录中获取待监控的垃圾回收信息和/或内存回收信息。
在一个可能的实施方式中,所述从所述gc日志记录中获取待监控的垃 圾回收信息和/或内存回收信息,包括:
基于设定的时间窗口对多个所述gc日志记录进行过滤,得到处于所述 时间窗口内的多个gc日志记录;
对处于所述时间窗口内的多个gc日志记录进行聚合;
统计聚合后所述gc日志记录中的垃圾回收信息和/或内存回收信息, 其中,所述垃圾回收信息中包括不同类型gc的信息;
存储所述垃圾回收信息和/或所述内存回收信息。
在一个可能的实施方式中,所述决策树模型通过以下方式训练:
将存储的历史垃圾回收信息作为训练样本;
将所述训练样本输入所述决策树模型计算垃圾回收率;
基于所述服务宕机时对应的垃圾回收率调整所述决策树模型输出的第 一阈值;
当所述第一阈值与所述服务宕机时对应的垃圾回收率的差值小于第三 阈值时,则确定所述决策树模型训练完成。
在一个可能的实施方式中,所述决策树模型通过以下方式训练:
将存储的历史内存回收信息作为训练样本;
将所述训练样本输入所述决策树模型计算内存回收比例;
基于所述服务宕机时对应的内存回收比例调整所述决策树模型输出的 第二阈值;
当所述第二阈值与所述服务宕机时对应的内存回收比例的差值小于第 三阈值时,则确定所述决策树模型训练完成。
第二方面,本发明实施例提供一种服务的监控装置,包括:
确定模块,用于基于决策树模型确定服务对应的预警条件;
获取模块,用于实时获取所述服务对应的日志文件;
所述确定模块,还用于从所述日志文件中确定监控对象的数据信息;
判断模块,用于判断所述数据信息是否符合所述预警条件;
预警模块,用于确定若所述数据信息符合所述预警条件,则发出预警 信息。
第三方面,本发明实施例提供一种计算机设备包括:处理器和存储器, 所述处理器用于执行所述存储器中存储的数据处理程序,以实现上述第一 方面中任一项所述的服务的监控方法。
第四方面,本发明实施例提供一种存储介质,其特征在于,所述存储 介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个 处理器执行,以实现上述第一方面中任一项所述的服务的监控方法。
本发明实施例提供的服务的监控方案,通过基于决策树模型确定服务 对应的预警条件,实时获取服务对应的日志文件;从所述日志文件中确定 监控对象的数据信息;判断所述数据信息是否符合预警条件;若所述数据 信息符合预警条件,则发出预警信息,通过设置预警条件,触发预警条件 进行预警的方式可以有效地对运行中的服务进行监控,再通过预警信息进 行提示,便于确定符合预警条件的服务,及时对该服务的运行参数进行相应调整,保证服务运行过程中的稳定性。
附图说明
图1为本发明实施例提供的一种服务的监控方法流程示意图;
图2为本发明实施例提供的另一种服务的监控方法流程示意图;
图3为本发明实施例提供的服务的监控系统结构示意图;
图4为本发明实施例提供一种服务的监控装置的结构示意图;
图5为本发明实施例提供的一种的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一 步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种服务的监控方法流程示意图,如图1 所示,该方法具体包括:
S11、基于决策树模型确定服务对应的预警条件。
本发明实施例的服务的监控方法应用于计算机设备,在计算机设备中 通过服务对某类业务进行监控,在监控到该类业务的业务量突增,在服务 压力过大导致计算机设备宕机前,对监控该类业务的服务进行预警。
决策树模型通过服务出现内存溢出或假死使得计算机设备出现宕机时 服务的历史运行参数,再根据该历史运行参数确定服务对应的预警条件。
S12、实时获取服务对应的日志文件。
计算机设备实时获取服务在监控业务时对应的日志文件。
S13、从所述日志文件中确定监控对象的数据信息。
确定服务监控业务时的监控对象,从该日志文件中获取监控对象的数 据信息,例如,监控某业务时的垃圾回收信息或内存回收信息。
S14、判断所述数据信息是否符合预警条件。
在本实施例中,为预防现有技术中计算机设备先出现宕机后进行告警 的弊端,预先通过决策树模型设置预警条件(其中,预警条件低于该服务 使计算机设备宕机时对应的运行参数),并将该预警条件存储于计算机设 备中;例如,若服务的某数据值达到85%时,计算机设备出现宕机,则将 预警条件设置为某数据值达到75%。
S15、若所述数据信息符合预警条件,则发出预警信息。
对监控对象的数据信息进行实时判断,判断该数据信息是否符合预警 条件,若符合预警条件,则将该预警信息发送给该服务对应的终端设备, 终端设备显示或语音播报该预警信息,以进行相应提示,通过该预警信息 可调整服务的运行参数,保证该服务处于正常运行状态。
本发明实施例提供的服务的监控方法,通过基于决策树模型确定服务 对应的预警条件,实时获取服务对应的日志文件;从所述日志文件中确定 监控对象的数据信息;判断所述数据信息是否符合预警条件;若所述数据 信息符合预警条件,则发出预警信息,通过设置预警条件,触发预警条件 进行预警的方式可以有效地对运行中的服务进行监控,再通过预警信息进 行提示,便于确定符合预警条件的服务,及时对该服务的运行参数进行相应调整,保证服务运行过程中的稳定性。
图2为本发明实施例提供的另一种服务的监控方法流程示意图,如图 2所示,该方法具体包括:
S21、基于决策树模型确定服务对应的预警条件。
本实施例的服务的监控方法解决服务的每秒查询率(Query Per Second, QPS)突增,或java虚拟机(Java Virtual Machine,JVM)异常时,出现 先宕机后预警的问题,采用监控JVM服务的垃圾回收(Garbage Collection, GC)日志文件形式对JVM服务进行监控。
为了方便描述,下文中将JVM服务和垃圾回收GC采用小写的形式表 述,如,jvm服务、垃圾回收gc。
具体地,将所述服务的属性信息作为决策树模型的输入,以使所述决 策树模型输出所述服务触发所述预警条件时对应的第一阈值和/或第二阈 值;将垃圾回收率大于所述第一阈值作为预警条件;和/或,将内存回收比 例大于所述第二阈值作为预警条件。
进一步地,决策树模型通过以下方式训练:
针对历史垃圾回收信息,将存储的历史垃圾回收信息作为训练样本; 将所述训练样本输入所述决策树模型计算垃圾回收率;基于所述服务宕机 时对应的垃圾回收率调整所述决策树模型输出的第一阈值;当所述第一阈 值与所述服务宕机时对应的垃圾回收率的差值小于第三阈值时,则确定所 述决策树模型训练完成。
例如,将存储的历史垃圾回收信息输入决策树模型,决策树模型根据 该历史垃圾回收信息计算其对应的垃圾回收率(例如,采用标记算法确定 垃圾回收率,在标记阶段遍历历史垃圾回收信息中所有的对象,在活动的 对象头打上活动的标记,在清除阶段再次遍历所有对象,检查对象头,对 于没有活动标记的对象,将其内存空间释放;对于有活动标记的对象,去 掉标记,通过标记阶段和清除阶段有无活动标记确定对象的垃圾回收率。)
再根据服务使计算机设备宕机时的历史垃圾回收信息,确定对应的垃 圾回收率;将该垃圾回收率作为训练目标,调整决策树模型以使决策树模 型输出的第一阈值与训练目标之间的差值小于第三阈值时,则确定所述决 策树模型训练完成。
例如,训练目标为70%,第三阈值为1%,当决策树模型输出的第一 阈值处于69%-71%时,则确定决策树模型训练完成。
针对历史内存回收信息,将存储的历史内存回收信息作为训练样本; 将所述训练样本输入所述决策树模型计算内存回收比例;基于所述服务宕 机时对应的内存回收比例调整所述决策树模型输出的第二阈值;当所述第 二阈值与所述服务宕机时对应的内存回收比例的差值小于第三阈值时,则 确定所述决策树模型训练完成。
对于根据历史内存回收信息对决策树模型进行训练的过程与上述根据 历史垃圾回收信息对决策树模型进行训练的过程类型,可参照上述相关描 述,为简洁描述,在此,不作赘述。
S22、配置Java虚拟机jvm服务对应垃圾回收gc的日期参数、时间戳 参数以及存储路径参数。
S23、基于所述gc的所述日期参数、所述时间戳参数以及所述存储路 径参数,获取所述jvm服务对应的gc日志文件。
对于配置Java虚拟机jvm服务对应垃圾回收gc的日期参数、时间戳 参数以及存储路径参数中的各参数可通过代码的形式进行配置。
例如,gc的日期参数对应的配置代码为:-XX:+PrintGCDetails;gc时 间戳参数对应的配置代码为:-XX:+PrintGCDateStamps;gc的存储路径参 数对应的配置代码为:-Xloggc:../logs/gc.log。
在通过代码配置完成获取gc日志文件的参数后,执行上述配置代码, 获取jvm服务对应的gc日志文件。
在本发明发明实施例的一可选方案中,对gc日志文件按照设定格式进 行打印,并对gc日志文件进行数据抽取、清洗、转换、装载(extract,transform, load,etl),确保获取到gc日志文件格式统一,设定格式可包括如下信息: gc时间、垃圾回收类型(minorgc或fullgc),新生代gc还是老年代gc,gc 发生区域,gc前后内存变化或垃圾回收器等。
其中,新生代gc(主要是用来存放新生的对象)对应的垃圾回收类型 为minorgc,老年代gc(主要存放应用程序中生命周期长的内存对象)对 应的垃圾回收类型为fullgc;gc前后内存变化为垃圾回收前和垃圾回收后 运行该服务的计算机设备的内存的变化;垃圾回收器为回收垃圾的容器。
S24、将所述gc日志文件与所述服务的属性信息进行关联生成gc日志 记录,以使在所述gc日志记录中的所述gc日志文件与所述服务一一对应。
S25、将所述gc日志记录存储于分布式消息集群kafka。
将gc日志文件对服务的属性信息进行关联,例如,gc日志文件A, 对应服务的属性信息a,gc日志文件B,对应服务的属性信息b,将A和a 进行关联,将B和b进行关联。
其中,属性信息可以包括,但不限于:服务名、机房、集群、应用名 等。
在本实施例的一可选方案中,参照图3,通过容器服务器将服务的属 性信息与gc日志文件进行关联,具体采用venus-agent脚本获取gc日志文 件,使用venus-sdk将容器服务的属性信息与gc日志文件进行合并,生成 gc日志记录(生成gc日志记录的目的在于通过查询属性信息可调取服务 相应的gc日志文件),并将gc日志记录发送到分布式消息集群kafka。
S26、调用流处理框架flink进程,根据属性信息查询所述kafka,确定 所述属性信息对应的所述gc日志记录。
S27、从所述gc日志记录中获取待监控的垃圾回收信息和/或内存回收 信息。
参照图3,通过调用flink进程对存储于kafka各节点中的gc日志记录 进行监听,根据服务的属性信息查询存储于kafka中的gc日志记录,并对 获取到的gc日志记录进行数据清洗,flink进程调用实时计算服务,实时 计算服务根据时间窗口进行消费,得到待监控的垃圾回收信息和/或内存回 收信息。
对获取到的gc日志记录进行数据清洗,实时计算服务根据时间窗口进 行消费具体包括:
基于设定的时间窗口对多个所述gc日志记录进行过滤,得到处于所述 时间窗口内的多个gc日志记录;对处于所述时间窗口内的多个gc日志记 录进行聚合;统计聚合后所述gc日志记录中的垃圾回收信息和/或内存回 收信息,其中,所述垃圾回收信息中包括不同类型gc的信息;存储所述垃 圾回收信息和/或所述内存回收信息。
例如,以时间窗口为依据对gc日志记录进行过滤,去除不在该时间窗 口的gc日志记录;对处于该时间窗口期内的多个gc日志记录,按照不同 服务、不同机房及不同应用分别进行数据聚合;flink进程再调用实时计算 服务,实时统计聚合后gc日志记录中不同gc类型的垃圾回收信息和/或内 存回收信息(例如,实时计算minorgc对应的垃圾回收信息,又如,实时 计算fullgc对应的垃圾回收信息)。
在本发明实施例的一可选方案中,参照图3,flink进程将获取到的垃 圾回收信息和/或内存回收信息存储于数据连接池Durid。
在本发明实施例的一可选方案中,还可采用搜索服务器(elastic search, es)代替Durid。
在本发明实施例的一可选方案中,根据Durid中存储的监控信息按照 多个维度生成显示信息对应的数据包,通过接口调用提供web界面,在所 述web界面上对该数据包对应的显示信息进行显示。
具体地,对Durid中存储的监控信息设置技术count指标,定义多个 维度指标,根据多个维度指标生产显示信息。多个维度可以是,但不限于: 名称、簇(磁盘是由一个一个扇区组成的,若干个扇区合为一个簇)、系 统文件、垃圾原因及gc前后内容变化等。
通过granfana开源工具为服务的监控提供web界面,通过调用接口将 数据包发送至web界面,在web界面加载该数据包,进而显示该显示信息; 通过web界面便于对服务进行查询和监控。
S28、基于所述垃圾回收信息确定所述服务对应的垃圾回收率是否大 于第一阈值;和/或,基于所述内存回收信息确定所述服务对应的内存回收 比例是否大于第二阈值。
flink进程实时监控存储于Durid中垃圾回收信息,在Durid中垃圾回 收信息更新后,flink进程根据垃圾回收信息计算得到服务对应的垃圾回收 率,可采用标记算法确定垃圾回收率(参照S21中的相关描述,在此不作 赘述),判断垃圾回收率是否大于第一阈值。
和/或,
flink进程实时监控存储于Durid中内存回收信息,在Durid中内存回 收信息更新后,flink进程根据内存回收信息计算得到服务对应的内存回收 比例,可采用标记算法确定内存回收比例(参照S21中的相关描述,在此 不作赘述),判断的内存回收比例是否大于第二阈值。
若确定所述垃圾回收率大于第一阈值或所述内存回收比例大于第二阈 值,则执行S29;否则继续执行S22-S27获取垃圾回收信息和/或内存回收 信息。
其中,触发预警的条件包括:所述垃圾回收率大于第一阈值且所述内 存回收比例大于第二阈值、所述垃圾回收率大于第一阈值且所述内存回收 比例小于等于第二阈值,或所述垃圾回收率小于等于第一阈值且所述内存 回收比例大于第二阈值。
不触发预警的条件包括:所述垃圾回收率小于等于第一阈值且所述内 存回收比例小于等于第二阈值。
S29、若确定所述垃圾回收率大于第一阈值或所述内存回收比例大于 第二阈值,则发出预警信息。
若确定所述垃圾回收率大于第一阈值或所述内存回收比例大于第二阈 值,则调用应用程序编程(Application ProgrammingInterface,API)接口, 预警服务器通过API接口将预警信息发送给该服务对应的终端设备,终端 设备显示或语音播报该预警信息,以进行相应提示,通过该预警信息可调 整服务的运行参数,保证该服务处于正常运行状态。
图4为本发明实施例提供一种服务的监控装置的结构示意图,如图4 所示,该结构具体包括:
确定模块401,用于基于决策树模型确定服务对应的预警条件;
获取模块402,用于实时获取所述服务对应的日志文件;
所述确定模块401,还用于从所述日志文件中确定监控对象的数据信 息;
判断模块403,用于判断所述数据信息是否符合所述预警条件;
预警模块404,用于若所述数据信息符合所述预警条件,则发出预警 信息。
可选地,确定模块401,具体用于将所述服务的属性信息作为决策树 模型的输入,以使所述决策树模型输出所述服务触发所述预警条件时对应 的第一阈值和/或第二阈值;将垃圾回收率大于所述第一阈值作为预警条件; 和/或,将内存回收比例大于所述第二阈值作为预警条件。
可选地,获取模块402,具体用于配置Java虚拟机jvm服务对应垃圾 回收gc的日期参数、时间戳参数以及存储路径参数;基于所述gc的所述 日期参数、所述时间戳参数以及所述存储路径参数,获取所述jvm服务对 应的gc日志文件。
可选地,所述装置还包括:存储模块405,用于将所述gc日志文件与 所述服务的属性信息进行关联,生成gc日志记录,以使在所述gc日志记 录中的所述gc日志文件与所述服务一一对应;将所述gc日志记录存储于 分布式消息集群kafka。
可选地,确定模块401,具体用于调用流处理框架flink进程,根据属 性信息查询所述kafka,确定所述属性信息对应的所述gc日志记录;从所 述gc日志记录中获取待监控的垃圾回收信息和/或内存回收信息。
可选地,确定模块401,具体用于基于设定的时间窗口对多个所述gc 日志记录进行过滤,得到处于所述时间窗口内的多个gc日志记录;对处于 所述时间窗口内的多个gc日志记录进行聚合;统计聚合后所述gc日志记 录中的垃圾回收信息和/或内存回收信息,其中,所述垃圾回收信息中包括 不同类型gc的信息;存储所述垃圾回收信息和/或所述内存回收信息。
可选地,所述装置还包括:训练模块406,用于将存储的历史垃圾回 收信息作为训练样本;将所述训练样本输入所述决策树模型计算垃圾回收 率;基于所述服务宕机时对应的垃圾回收率调整所述决策树模型输出的第 一阈值;当所述第一阈值与所述服务宕机时对应的垃圾回收率的差值小于 第三阈值时,则确定所述决策树模型训练完成。
可选地,训练模块406,用于将存储的历史内存回收信息作为训练样 本;将所述训练样本输入所述决策树模型计算内存回收比例;基于所述服 务宕机时对应的内存回收比例调整所述决策树模型输出的第二阈值;当所 述第二阈值与所述服务宕机时对应的内存回收比例的差值小于第三阈值 时,则确定所述决策树模型训练完成。
本实施例提供的服务的监控装置可以是如图4中所示的服务的监控装 置,可执行如图1-2中服务的监控方法的所有步骤,进而实现图1-2所示 服务的监控方法的技术效果,具体请参照图1-2相关描述,为简洁描述, 在此不作赘述。
图5为本发明实施例提供的一种的计算机设备的结构示意图,图5所 示的计算机设备500包括:至少一个处理器501、存储器502、至少一个网 络接口504和其他用户接口503。计算机设备500中的各个组件通过总线 系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连 接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线 和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总 线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标, 轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易 失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存 储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器 (ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM, EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪 存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM), 其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM 可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储 器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM, SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM) 和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述 的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者 数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程 序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、 驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序 5022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser) 等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应 用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的, 可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实 施例所提供的方法步骤,例如包括:
基于决策树模型确定服务对应的预警条件;实时获取所述服务对应的 日志文件;从所述日志文件中确定监控对象的数据信息;判断所述数据信 息是否符合所述预警条件;若所述数据信息符合所述预警条件,则发出预 警信息。
可选地,将所述服务的属性信息作为决策树模型的输入,以使所述决 策树模型输出所述服务触发所述预警条件时对应的第一阈值和/或第二阈 值;将垃圾回收率大于所述第一阈值作为预警条件;和/或,将内存回收比 例大于所述第二阈值作为预警条件。
可选地,配置Java虚拟机jvm服务对应垃圾回收gc的日期参数、时 间戳参数以及存储路径参数;基于所述gc的所述日期参数、所述时间戳参 数以及所述存储路径参数,获取所述jvm服务对应的gc日志文件。
可选地,将所述gc日志文件与所述服务的属性信息进行关联,生成 gc日志记录,以使在所述gc日志记录中的所述gc日志文件与所述服务一 一对应;将所述gc日志记录存储于分布式消息集群kafka。
可选地,调用流处理框架flink进程,根据属性信息查询所述kafka, 确定所述属性信息对应的所述gc日志记录;从所述gc日志记录中获取待 监控的垃圾回收信息和/或内存回收信息。
可选地,基于设定的时间窗口对多个所述gc日志记录进行过滤,得到 处于所述时间窗口内的多个gc日志记录;对处于所述时间窗口内的多个 gc日志记录进行聚合;统计聚合后所述gc日志记录中的垃圾回收信息和/ 或内存回收信息,其中,所述垃圾回收信息中包括不同类型gc的信息;存 储所述垃圾回收信息和/或所述内存回收信息。
可选地,将存储的历史垃圾回收信息作为训练样本;将所述训练样本 输入所述决策树模型计算垃圾回收率;基于所述服务宕机时对应的垃圾回 收率调整所述决策树模型输出的第一阈值;当所述第一阈值与所述服务宕 机时对应的垃圾回收率的差值小于第三阈值时,则确定所述决策树模型训 练完成。
可选地,将存储的历史内存回收信息作为训练样本;将所述训练样本 输入所述决策树模型计算内存回收比例;基于所述服务宕机时对应的内存 回收比例调整所述决策树模型输出的第二阈值;当所述第二阈值与所述服 务宕机时对应的内存回收比例的差值小于第三阈值时,则确定所述决策树 模型训练完成。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理 器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。 在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻 辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、 数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecific IntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门 或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中 的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处 理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步 骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件 及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存 储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成 熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502 中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中 间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或 多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号 处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice, DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门 阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控 制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技 术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器 中或在处理器外部实现。
本实施例提供的计算机设备可以是如图5中所示的计算机设备,可执 行如图1-2中服务的监控方法的所有步骤,进而实现图1-2所示服务的监 控方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作 赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里 的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存 储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只 读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的 存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实 现上述在服务的监控设备侧执行的服务的监控方法。
所述处理器用于执行存储器中存储的服务的监控程序,以实现以下在 服务的监控设备侧执行的服务的监控方法的步骤:
基于决策树模型确定服务对应的预警条件;实时获取所述服务对应的 日志文件;从所述日志文件中确定监控对象的数据信息;判断所述数据信 息是否符合所述预警条件;若所述数据信息符合所述预警条件,则发出预 警信息。
可选地,将所述服务的属性信息作为决策树模型的输入,以使所述决 策树模型输出所述服务触发所述预警条件时对应的第一阈值和/或第二阈 值;将垃圾回收率大于所述第一阈值作为预警条件;和/或,将内存回收比 例大于所述第二阈值作为预警条件。
可选地,配置Java虚拟机jvm服务对应垃圾回收gc的日期参数、时 间戳参数以及存储路径参数;基于所述gc的所述日期参数、所述时间戳参 数以及所述存储路径参数,获取所述jvm服务对应的gc日志文件。
可选地,将所述gc日志文件与所述服务的属性信息进行关联,生成 gc日志记录,以使在所述gc日志记录中的所述gc日志文件与所述服务一 一对应;将所述gc日志记录存储于分布式消息集群kafka。
可选地,调用流处理框架flink进程,根据属性信息查询所述kafka, 确定所述属性信息对应的所述gc日志记录;从所述gc日志记录中获取待 监控的垃圾回收信息和/或内存回收信息。
可选地,基于设定的时间窗口对多个所述gc日志记录进行过滤,得到 处于所述时间窗口内的多个gc日志记录;对处于所述时间窗口内的多个gc日志记录进行聚合;统计聚合后所述gc日志记录中的垃圾回收信息和/ 或内存回收信息,其中,所述垃圾回收信息中包括不同类型gc的信息;存 储所述垃圾回收信息和/或所述内存回收信息。
可选地,将存储的历史垃圾回收信息作为训练样本;将所述训练样本 输入所述决策树模型计算垃圾回收率;基于所述服务宕机时对应的垃圾回 收率调整所述决策树模型输出的第一阈值;当所述第一阈值与所述服务宕 机时对应的垃圾回收率的差值小于第三阈值时,则确定所述决策树模型训 练完成。
可选地,将存储的历史内存回收信息作为训练样本;将所述训练样本 输入所述决策树模型计算内存回收比例;基于所述服务宕机时对应的内存 回收比例调整所述决策树模型输出的第二阈值;当所述第二阈值与所述服 务宕机时对应的内存回收比例的差值小于第三阈值时,则确定所述决策树 模型训练完成。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述 的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结 合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按 照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软 件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人 员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种 实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处 理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除 可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公 知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进 行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方 式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内, 所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种服务的监控方法,其特征在于,包括:
基于决策树模型确定服务对应的预警条件;
实时获取所述服务对应的日志文件;
从所述日志文件中确定监控对象的数据信息;
判断所述数据信息是否符合所述预警条件;
若所述数据信息符合所述预警条件,则发出预警信息。
2.根据权利要求1所述的方法,其特征在于,所述基于决策树模型确定服务对应的预警条件,包括:
将所述服务的属性信息作为决策树模型的输入,以使所述决策树模型输出所述服务触发所述预警条件时对应的第一阈值和/或第二阈值;
将垃圾回收率大于所述第一阈值作为预警条件;和/或,将内存回收比例大于所述第二阈值作为预警条件。
3.根据权利要求1所述的方法,其特征在于,所述实时获取所述服务对应的日志文件,包括:
配置java虚拟机jvm服务对应垃圾回收gc的日期参数、时间戳参数以及存储路径参数;
基于所述gc的所述日期参数、所述时间戳参数以及所述存储路径参数,获取所述jvm服务对应的gc日志文件。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述gc日志文件与所述服务的属性信息进行关联,生成gc日志记录,以使在所述gc日志记录中的所述gc日志文件与所述服务一一对应;
将所述gc日志记录存储于分布式消息集群kafka。
5.根据权利要求4所述的方法,其特征在于,所述从所述日志文件中确定监控对象的数据信息,包括:
调用流处理框架flink进程,根据属性信息查询所述kafka,确定所述属性信息对应的所述gc日志记录;
从所述gc日志记录中获取待监控的垃圾回收信息和/或内存回收信息。
6.根据权利要求5所述的方法,其特征在于,所述从所述gc日志记录中获取待监控的垃圾回收信息和/或内存回收信息,包括:
基于设定的时间窗口对多个所述gc日志记录进行过滤,得到处于所述时间窗口内的多个gc日志记录;
对处于所述时间窗口内的多个gc日志记录进行聚合;
统计聚合后所述gc日志记录中的垃圾回收信息和/或内存回收信息,其中,所述垃圾回收信息中包括不同类型gc的信息;
存储所述垃圾回收信息和/或所述内存回收信息。
7.根据权利要求6所述的方法,其特征在于,所述决策树模型通过以下方式训练:
将存储的历史垃圾回收信息作为训练样本;
将所述训练样本输入所述决策树模型计算垃圾回收率;
基于所述服务宕机时对应的垃圾回收率调整所述决策树模型输出的第一阈值;
当所述第一阈值与所述服务宕机时对应的垃圾回收率的差值小于第三阈值时,则确定所述决策树模型训练完成。
8.根据权利要求6所述的方法,其特征在于,所述决策树模型通过以下方式训练:
将存储的历史内存回收信息作为训练样本;
将所述训练样本输入所述决策树模型计算内存回收比例;
基于所述服务宕机时对应的内存回收比例调整所述决策树模型输出的第二阈值;
当所述第二阈值与所述服务宕机时对应的内存回收比例的差值小于第三阈值时,则确定所述决策树模型训练完成。
9.一种服务的监控装置,其特征在于,包括:
确定模块,用于基于决策树模型确定服务对应的预警条件;
获取模块,用于实时获取所述服务对应的日志文件;
所述确定模块,还用于从所述日志文件中确定监控对象的数据信息;
判断模块,用于判断所述数据信息是否符合所述预警条件;
预警模块,用于确定若所述数据信息符合所述预警条件,则发出预警信息。
10.一种计算机设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的服务的监控程序,以实现权利要求1~8中任一项所述的服务的监控方法。
11.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~8中任一项所述的服务的监控方法。
CN201910699967.6A 2019-07-30 2019-07-30 服务的监控方法、装置、计算机设备及存储介质 Pending CN110555004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699967.6A CN110555004A (zh) 2019-07-30 2019-07-30 服务的监控方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699967.6A CN110555004A (zh) 2019-07-30 2019-07-30 服务的监控方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110555004A true CN110555004A (zh) 2019-12-10

Family

ID=68736961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699967.6A Pending CN110555004A (zh) 2019-07-30 2019-07-30 服务的监控方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110555004A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352698A (zh) * 2020-02-25 2020-06-30 北京奇艺世纪科技有限公司 一种jvm参数的调整方法及装置
CN112084387A (zh) * 2020-08-21 2020-12-15 上海微亿智造科技有限公司 一种实时数据分类统计方法、系统、可读介质及设备
CN112650695A (zh) * 2020-12-30 2021-04-13 北京奇艺世纪科技有限公司 一种应用服务器的缓存管理方法及装置
CN112860527A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 应用服务器的故障监测方法及装置
CN113900819A (zh) * 2021-10-25 2022-01-07 联想(北京)有限公司 控制方法、装置及电子设备
CN114666237A (zh) * 2022-02-25 2022-06-24 众安在线财产保险股份有限公司 秒级监控方法、装置及存储介质
CN115080192A (zh) * 2022-08-23 2022-09-20 中建电子商务有限责任公司 一种jvm性能监控方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES438641A1 (es) * 1975-06-17 1977-02-16 Citroen Sa Dispositivo contador-detector-avisador de velocidad para ve-hiculo automovil.
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
CN109117350A (zh) * 2018-09-20 2019-01-01 北京北信源信息安全技术有限公司 自动监控计算机软硬件的告警方法、装置及服务器
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN109617737A (zh) * 2018-12-27 2019-04-12 携程计算机技术(上海)有限公司 互联网的日志平台的监控方法及系统
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES438641A1 (es) * 1975-06-17 1977-02-16 Citroen Sa Dispositivo contador-detector-avisador de velocidad para ve-hiculo automovil.
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
CN109117350A (zh) * 2018-09-20 2019-01-01 北京北信源信息安全技术有限公司 自动监控计算机软硬件的告警方法、装置及服务器
CN109582529A (zh) * 2018-09-29 2019-04-05 阿里巴巴集团控股有限公司 一种报警阈值的设置方法及装置
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN109617737A (zh) * 2018-12-27 2019-04-12 携程计算机技术(上海)有限公司 互联网的日志平台的监控方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352698A (zh) * 2020-02-25 2020-06-30 北京奇艺世纪科技有限公司 一种jvm参数的调整方法及装置
CN111352698B (zh) * 2020-02-25 2023-12-22 北京奇艺世纪科技有限公司 一种jvm参数的调整方法及装置
CN112084387A (zh) * 2020-08-21 2020-12-15 上海微亿智造科技有限公司 一种实时数据分类统计方法、系统、可读介质及设备
CN112650695A (zh) * 2020-12-30 2021-04-13 北京奇艺世纪科技有限公司 一种应用服务器的缓存管理方法及装置
CN112650695B (zh) * 2020-12-30 2023-09-05 北京奇艺世纪科技有限公司 一种应用服务器的缓存管理方法及装置
CN112860527A (zh) * 2021-03-31 2021-05-28 中国工商银行股份有限公司 应用服务器的故障监测方法及装置
CN113900819A (zh) * 2021-10-25 2022-01-07 联想(北京)有限公司 控制方法、装置及电子设备
CN114666237A (zh) * 2022-02-25 2022-06-24 众安在线财产保险股份有限公司 秒级监控方法、装置及存储介质
CN114666237B (zh) * 2022-02-25 2023-10-31 众安在线财产保险股份有限公司 秒级监控方法、装置及存储介质
CN115080192A (zh) * 2022-08-23 2022-09-20 中建电子商务有限责任公司 一种jvm性能监控方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110555004A (zh) 服务的监控方法、装置、计算机设备及存储介质
CN110086666B (zh) 一种告警方法、装置及系统
CN107145489B (zh) 一种基于云平台的客户端应用的信息统计方法和装置
US7559053B2 (en) Program and system performance data correlation
KR20180078296A (ko) 서비스 호출 정보 처리 방법 및 디바이스
JP6152788B2 (ja) 障害予兆検知方法、情報処理装置およびプログラム
JP6780655B2 (ja) ログ分析システム、方法およびプログラム
US20060277440A1 (en) Method, system, and computer program product for light weight memory leak detection
US10728111B2 (en) Data module management and interface for pipeline data processing by a data processing system
CN109670091B (zh) 一种基于数据标准的元数据智能维护方法和装置
CN111078695B (zh) 计算企业内元数据关联关系的方法及装置
JPWO2013069138A1 (ja) 稼働情報予測計算機、稼働情報予測方法及びプログラム
CN113190401B (zh) 快游戏的异常监控方法、电子设备、移动终端以及存储介质
WO2018122890A1 (ja) ログ分析方法、システムおよびプログラム
US20170244595A1 (en) Dynamic data collection profile configuration
CN111478889A (zh) 一种告警方法及装置
CN111414619B (zh) 一种数据安全检测方法、装置、设备及可读存储介质
WO2019109961A1 (zh) 故障诊断方法及装置
US9201752B2 (en) System and method for correlating empirical data with user experience
CN104407966B (zh) 一种jvm的内存对象数量统计系统及方法
CN112214378B (zh) 数据收集方法、装置、电子设备及存储介质
CN116126859A (zh) 一种数据管理方法、装置、电子设备及存储介质
CN112764990B (zh) 一种目标进程的监控方法、装置及计算机设备
CN112286769B (zh) 监控方法、装置、计算机设备及存储介质
CN114500038A (zh) 网络安全检测方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191210

RJ01 Rejection of invention patent application after publication