CN113765685A - 一种异常管理方法及装置 - Google Patents

一种异常管理方法及装置 Download PDF

Info

Publication number
CN113765685A
CN113765685A CN202010503703.1A CN202010503703A CN113765685A CN 113765685 A CN113765685 A CN 113765685A CN 202010503703 A CN202010503703 A CN 202010503703A CN 113765685 A CN113765685 A CN 113765685A
Authority
CN
China
Prior art keywords
module
content processing
content
processing module
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010503703.1A
Other languages
English (en)
Other versions
CN113765685B (zh
Inventor
贺宏达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010503703.1A priority Critical patent/CN113765685B/zh
Publication of CN113765685A publication Critical patent/CN113765685A/zh
Application granted granted Critical
Publication of CN113765685B publication Critical patent/CN113765685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常管理方法及装置;获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;基于第一处理结果记录,获取各内容处理模块的处理质量表征信息;获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块;确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息。该方案可以促进对出现异常的内容处理模块的维护,进而促进模块服务质量的提升。

Description

一种异常管理方法及装置
技术领域
本申请涉及通信技术领域,具体涉及一种异常管理方法及装置。
背景技术
近年来通信技术飞速发展,一些客户端对应的后台服务系统可以对客户端中的内容进行处理,后台服务系统可以包括多个内容处理模块组成的内容处理模块链路,链路中不同的内容处理模块可以对内容进行不同类型的内容处理。例如对内容进行文字识别处理,去水印处理等等。
当内容处理模块链路出现链路阻塞时,为了尽快恢复内容处理模块链路的功能,会向内容处理模块链路的所有负责人发送告警信息,但是这种出现阻塞才发送告警信息的方案,会影响对内容的正常处理,降低内容处理效率,而且这种告警方式会出现负责人收到告警过多导致麻木的情况,不利于各模块负责人专注于提升自己模块的服务质量。
发明内容
本申请实施例提供一种异常管理方法及装置,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的负责人,提升告警信息的针对性。
本申请实施例提供了一种异常管理方法,包括:
获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;
基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,所述处理质量表征信息用于表征所述内容处理模块对所述第一历史处理内容的内容处理质量;
获取所述各内容处理模块的异常模块判定规则,所述异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;
若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块;
确定所述异常内容处理模块对应的异常处理终端,向所述异常处理终端发送告警信息,所述告警信息用于提示所述异常处理终端管理的内容处理模块出现异常。
相应的,本申请实施例提供了一种异常管理装置,包括:
第一获取单元,用于获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;
第二获取单元,用于基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,所述处理质量表征信息用于表征所述内容处理模块对所述第一历史处理内容的内容处理质量;
第三获取单元,用于获取所述各内容处理模块的异常模块判定规则,所述异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;
第一确定单元,用于若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块;
确定及发送单元,用于确定所述异常内容处理模块对应的异常处理终端,向所述异常处理终端发送告警信息,所述告警信息用于提示所述异常处理终端管理的内容处理模块出现异常。
在一实施例中,所述第一获取单元,包括:
调用子单元,用于调用所述模块信息管理系统的全文检索模块,在所述数据库存储的所述处理结果记录中,确定各内容处理模块针对第一历史处理内容的第一处理结果记录。
在一实施例中,所述第二获取单元,包括:
调用及检索子单元,用于通过所述全文检索模块,在所述各内容处理模块的第一处理结果记录中,检索预设的至少一个处理质量表征维度上的处理结果数据;
统计子单元,用于对于各内容处理模块,基于所述至少一个处理质量表征维度上的处理结果数据进行统计分析,确定各内容处理模块在所述至少一个处理质量表征维度上的处理质量表征信息。
在一实施例中,所述第一确定单元,包括:
筛选子单元,用于根据所述模块白名单,从所述内容处理系统的内容处理模块中筛选出所述模块白名单以外的筛选后内容处理模块;
确定子单元,用于若所述筛选后内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述筛选后内容处理模块为异常内容处理模块。
在一实施例中,所述确定及发送单元,包括:
确定及获取子单元,用于确定所述异常内容处理模块所属的模块组,获取所述模块组对应的告警推送规则;
发送子单元,用于基于所述告警推送规则,向所述异常内容处理模块对应的异常处理终端发送告警信息。
在一实施例中,所述确定及发送单元,包括:
第一获取子单元,用于获取各异常内容处理模块的模块标识信息;
第二获取子单元,用于基于所述各异常内容处理模块的模块标识信息,从所述缓存区域中获取所述模块标识信息对应的终端标识信息,所述终端标识信息标识的终端为所述异常内容处理模块对应的异常处理终端。
在一实施例中,异常管理装置,还包括:
获取及存储单元,用于通过所述调度模块定时获取所述内容处理模块的模块关联信息,并将所述模块关联信息存储至模块信息管理系统的数据库中,所述模块关联信息包括所述内容处理模块对内容的处理结果记录。
在一实施例中,异常管理装置,还包括:
第四获取单元,用于获取所述内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
保存单元,用于将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中。
在一实施例中,所述第四获取单元,包括:
运行子单元,用于运行异步更新协程获取所述内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息。
在一实施例中,所述保存单元,包括:
第三获取子单元,用于通过所述异步更新协程基于获取的所述内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息,更新缓存区域。
在一实施例中,异常管理装置,还包括:
第五获取单元,用于获取所述内容处理模块链路中各内容处理模块的链路阻塞影响信息,其中,链路阻塞影响信息用于表示所述内容处理模块的异常,对所述内容处理模块链路的链路阻塞影响程度;
分组单元,用于基于所述链路阻塞影响信息,将所述内容处理模块按照所述链路阻塞影响程度分为至少两个模块组;
设置单元,用于对于各所述模块组,设置不同的告警推送规则;
在一实施例中,异常管理装置,还包括:
第六获取单元,用于获取历史时间段内所述内容处理模块,对第二历史处理内容的第二处理结果记录;
第七获取单元,用于根据所述第二处理结果记录,获取所述内容处理模块在所述历史时间段内的处理质量表征信息;
第二确定单元,用于基于所述处理质量表征信息,确定所述内容处理模块在所述历史时间段内的内容处理质量变化趋势;
第一调整单元,用于基于所述内容处理质量变化趋势,调整所述告警推送规则中的告警推送参数。
在一实施例中,异常管理装置,还包括:
第八获取单元,用于获取所述内容处理模块对应的告警信息的历史推送记录;
第九获取单元,用于根据所述历史推送记录,获取所述告警信息的历史推送变化趋势;
第二调整单元,用于基于所述历史推送变化趋势,调整所述告警推送规则中的告警推送参数。
在一实施例中,异常管理装置,还包括:
第一展示单元,用于展示模块信息获取页面,所述模块信息获取页面包括模块信息获取控件;
第十获取单元,用于当检测到针对所述模块信息获取控件的触发操作时,从所述模块信息管理系统的数据库中,获取所述内容处理模块的模块信息,所述模块信息包括所述内容处理模块的处理质量表征信息;
第二展示单元,用于展示所述模块信息。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的异常管理方法中的步骤。
相应的,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的异常管理方法中的步骤。
本申请实施例可以获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,所述处理质量表征信息用于表征所述内容处理模块对所述第一历史处理内容的内容处理质量;获取所述各内容处理模块的异常模块判定规则,所述异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块;确定所述异常内容处理模块对应的异常处理终端,向所述异常处理终端发送告警信息,所述告警信息用于提示所述异常处理终端管理的内容处理模块出现异常。该方案可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的异常管理方法的场景示意图;
图2是本申请实施例提供的异常管理方法的流程图;
图3是本申请实施例提供的异常管理方法的整体架构图;
图4是本申请实施例提供的异常管理方法的告警流程图;
图5是本申请实施例提供的异常管理方法的另一流程图;
图6是本申请实施例提供的异常管理方法的装置图;
图7是本申请实施例提供的异常管理方法的另一装置图;
图8是本申请实施例提供的异常管理方法的另一装置图;
图9是本申请实施例提供的异常管理方法的另一装置图;
图10是本申请实施例提供的异常管理方法的另一装置图;
图11是本申请实施例提供的异常管理方法的另一装置图;
图12是本申请实施例提供的异常管理方法的另一装置图;
图13是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种异常管理方法、装置、计算机设备和存储介质。具体地,本申请实施例提供适用于计算机设备的异常管理装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
参考图1,以该计算机设备为服务器为例,该服务器可以获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量;获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块;确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。
由以上可知,本申请实施例可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性,有助于异常处理终端的模块负责人对异常内容处理模块进行维护,有利于各模块负责人专注于提升自己内容处理模块的服务质量,进而促进模块服务质量的提升。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种异常管理方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以异常管理方法由服务器执行为例来进行说明,具体的,由集成在服务器中的异常管理装置来执行。如图2所示,该异常管理方法的具体流程可以如下:
201、获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录。
其中,内容处理系统的结构可以简化为一个调度服务和多个后端服务,处理外部爬取的各种内容,包括文章、视频、音频,等等。而内容处理模块为内容处理系统中的后端服务,每个内容处理模块负责一个功能,比如内容分类、旧闻识别,等等。
其中,历史处理内容为各内容处理模块在历史时间段内为履行自己的职责而对内容进行处理的内容,比如,负责识别图文内容的内容处理模块在历史时间段内识别图文内容。而第一处理结果记录为内容处理模块在历史时间段内对内容进行处理的记录,比如,负责识别图文内容的内容处理模块在历史时间段内识别图文内容的记录。
可以理解的是,在处理结果记录中可以包括内容处理模块对内容处理的内容处理成功的记录,还可以包括内容处理失败的记录,等,比如,负责识别图文内容的内容处理模块可能识别出所有错别字或者识别出没有错别字的记录、或者因为机器故障或者其他原因无法完成错别字的检测的记录。
在一实施例中,参见图3,在这个整体架构图中,可以通过管理中心模块(admin)、配置中心模块(config center)、调度模块(dispatcher_svr)或者模块信息管理系统(比如,Elastic Search,ES搜索服务器),获取内容处理系统中各内容处理模块的第一处理结果记录。
其中,管理中心模块是这个系统的使用者,主要负责维护模块白名单、模块分组、推送阈值等配置信息。异常管理模块可以查询模块信息管理系统获取模块的成功、失败、超时信息,还可以查询配置中心模块以获取配置信息,比如,配置中心模块保存的模块白名单、模块分组和推送阈值,等配置信息。其中,原始数据由调度模块上报到模块信息管理系统,包含了每一条内容的处理结果,有处理耗时、是否处理成功、处理机器的IP、后端服务返回的对本次处理结果的备注信息,等等。
其中,配置中心模块主要负责维护模块信息,包括模块名、输入输出参数、负责人、模块间依赖关系等。配置中心模块以高可用分布式键值数据库(ETCD)为存储介质,管理员通过可视化页面提交模块配置信息,经过配置中心序列化为一种轻量级的数据交换格式JSON(JavaScript Object Notation,JS对象简谱)字符串,存储到ETCD。
调度模块主要负责内容处理模块的统一调度,并对模块服务质量进行上报。调度模块访问配置中心模块获取内容处理模块的模块信息,然后发起对内容处理模块的调用。调用结束后,调度模块抽取出内容处理模块的模块名、内容处理模块对应的异常处理终端的终端信息、调用结果等相关信息,汇总整理后上报到模块信息管理系统。
模块信息管理系统主要负责保存模块服务质量信息。借助模块信息管理系统强大的全文检索能力,可以很方便地对模块服务质量进行各处理质量表征维度的统计,还可以生成报表,方便后续跟进。
其中,模块信息管理系统可以保存多条调度流水,每一条调度流水都对应着一个内容处理模块以及一条历史处理内容的处理结果,包括内容处理模块的模块名、耗时和历史处理内容处理是否成功。通过模块名可以在配置中心模块查到对应的模块信息,有模块名、模块对应异常处理终端的终端信息、最大允许处理时长等信息。
异常管理模块可以计算内容处理模块的模块失败率并排序、查询内容处理模块对应的异常处理终端的终端信息、以及全链路告警自动检测。
(1)计算内容处理模块的失败率并排序,该能力用于获取指定时间范围内的模块失败率信息,排序后输出。可作为独立接口进行调用,方便开发和运维人员获取实时的模块质量信息。比如异常管理模块配置的告警推送周期较长,而又需要查看当前链路中各内容处理模块状态时,可以单独调用此接口,获取实时信息。
(2)查询内容处理模块对应的异常处理终端的终端信息,该能力可用于查询各异常内容处理模块对应异常处理终端的终端信息。考虑到异常处理终端的终端信息更新不频繁,而配置中心模块查询请求量较大,该接口被调用时优先访问缓存。同时,后台有协程运行,以较低频率访问配置中心模块获取异常处理终端的终端信息,更新缓存。这种设计在确保结果准确性的同时,降低了对现有服务的性能压力。
(3)全链路告警自动检测:该能力支持定制,可以指定链路采样周期、告警信息推送频率、时间范围等。可以按照配置定期拉取模块信息管理系统的信息,获取模块失败率信息,统计后记录高失败率的模块信息。然后通过查询接口获取内容处理模块对应的异常处理终端的终端信息,汇总后调用接口,通知异常处理终端的相关人员创建群聊进行跟进。
其中,模块失败率指的是内容处理模块因为机器故障或者网络波动等原因导致出现无法履行职责的情况的概率。模块服务质量是模块职责履行情况的综合描述,比如,模块服务质量可以指成功率和失败率,失败率是其中一部分,常用的指标也包括耗时。
202、基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量。
其中,各内容处理模块的处理质量表征信息可以包括内容处理模块对第一历史处理内容的处理成功信息,还可以包括内容处理模块对第一历史处理内容的处理失败信息,比如,负责识别图文内容的内容处理模块成功识别出第一历史处理内容的所有错别字或者识别出没有错别字,或者负责识别图文内容的内容处理模块无法完成识别第一历史处理内容的错别字。
其中,各内容处理模块对第一历史处理内容进行处理,得到的各内容处理模块的成功量、失败量、超时量等,作为衡量各内容处理模块的处理质量。
其中,各内容处理模块的成功量、失败量、超时量则指单位时间内(比如每10分钟)的成功、失败、超时数,比如,以内容处理模块为错别字识别模块为例,10分钟内共处理了600篇文章,每篇只能用1秒钟来处理,其中,500篇文章能够顺利完成检测,100篇文章因为机器故障或者网络问题无法识别,这100篇中,又有8篇是因为机器过热无法在1秒钟内完成识别,则成功量、失败量、超时量分别为500、100、8。
在一实施例中,内容处理系统还包括与内容处理模块连接的调度模块,步骤“获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录”之前,还可以包括:
通过调度模块定时获取内容处理模块的模块关联信息,并将模块关联信息存储至模块信息管理系统的数据库中,模块关联信息包括内容处理模块对内容的处理结果记录;
获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录,包括:
调用模块信息管理系统的全文检索模块,在数据库存储的处理结果记录中,确定各内容处理模块针对第一历史处理内容的第一处理结果记录;
基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,包括:
通过全文检索模块,在数据库中从各内容处理模块的第一处理结果记录中,检索预设的至少一个处理质量表征维度上的处理结果数据;
对于各内容处理模块,基于至少一个处理质量表征维度上的处理结果数据进行统计分析,确定各内容处理模块在至少一个处理质量表征维度上的处理质量表征信息。
其中,模块关联信息可以包括各内容处理模块的模块名、各内容处理模块对应异常处理终端的终端信息、以及调用结果等相关信息,将各内容处理模块的模块名、异常处理终端的终端信息、以及调用结果等相关信息汇总后存储至模块信息管理系统的数据库中。
其中,处理质量表征信息可以通过统计多个处理质量表征维度上内容处理模块的内容处理质量得到,为了获取表征各内容处理模块的内容处理质量,从不同的处理质量表征维度进行信息的统计,比如,从各内容处理模块对历史处理内容进行处理的成功量、失败量、超时量等处理质量表征维度上来统计。
203、获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件。
其中,异常模块判定规则为用于对内容处理模块进行异常判定的规则,根据该异常模块判定规则,可以确定该内容处理模块是否为异常内容处理模块,比如,可以根据内容处理模块的模块服务质量,即各内容处理模块对历史处理内容的成功量、失败量、超时量来确定异常模块判定规则。进一步的,异常判定条件指的是为判定内容处理模块是否为异常内容处理模块起到判定作用的条件,比如某一内容处理模块对内容处理进行处理的成功量达到预设成功量,失败量低于预设失败量、超时量低于预设超时量时,满足异常判定条件。
例如,一内容处理模块的成功量低于预设成功量、失败量高于预设失败量、以及超时量高于预设超时量阈值时,将判定该内容处理模块为异常内容处理模块,那么此时的异常判定规则为内容处理模块的成功量低于预设成功量、失败量高于预设失败量、以及超时量高于预设超时量阈值。
其中,内容处理质量指的是内容处理模块的模块职责履行情况的综合描述,比如,负责识别图文内容的内容处理模块识别图文内容的成功率和失败率,负责识别错别字的内容处理模块识别错别字的成功率和失败率,以及负责去水印的内容处理模块去除水印的成功率和失败率,常用的指标还可以包括耗时,等等。
204、若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块。
其中,内容处理质量指的是内容处理模块对第一历史处理内容的处理质量,异常判定条件为用于对内容处理模块进行异常判定的条件。
例如,各内容处理模块对历史处理内容进行处理的成功量、失败量、超时量,满足异常判定条件中的成功量、失败量、超时量,内容处理模块为异常内容处理模块。
在一实施例中,异常判定规则还包括模块白名单,模块白名单包括:在内容处理模块的内容处理过程中出现异常时,无需发送告警信息的内容处理模块,步骤“若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块”可以包括:
根据模块白名单,从内容处理系统的内容处理模块中筛选出模块白名单以外的筛选后内容处理模块;
若筛选后内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定筛选后内容处理模块为异常内容处理模块。
例如,根据当前各内容处理模块的实际内容处理需要,确定各内容处理模块的重要性,并根据重要性程度对各内容处理模块进行模块分组,比如,按模块重要性进行分组,不同重要级别的模块,消息推送频率不同;还可以对各内容处理模块进行分类,比如设置一些内容处理模块的模块白名单:内容处理模块对处理内容进行处理得到的失败量可以忽略的模块;还可以根据内容处理模块的重要性程度设置推送告警信息的推送阈值,比如,限制每分钟或者每小时推送消息次数的最大值,避免消息过多对异常内容处理模块对应模块负责人造成干扰。可以在配置中心模块中进行模块分组、模块白名单设置、以及推送阈值等的独立配置。
205、确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。
其中,异常处理终端用于在接收异常内容处理模块因模块异常产生的告警信息后,对异常内容处理模块进行管理,每个异常内容处理模块都有对应的异常处理终端,可以对各异常内容处理模块对应的异常处理终端进行变更。
在一实施例中,内容处理系统中的内容处理模块组成内容处理模块链路,一个内容处理模块为内容处理模块链路中的一个节点,步骤“向异常处理终端发送告警信息”之前,还可以包括:
获取内容处理模块链路中各内容处理模块的链路阻塞影响信息,其中,链路阻塞影响信息用于表示内容处理模块的异常,对内容处理模块链路的链路阻塞影响程度;
基于链路阻塞影响信息,将内容处理模块按照链路阻塞影响程度分为至少两个模块组;
对于各模块组,设置不同的告警推送规则;
向异常处理终端发送告警信息,包括:
确定异常内容处理模块所属的模块组,获取模块组对应的告警推送规则;
基于告警推送规则,向异常内容处理模块对应的异常处理终端发送告警信息。
其中,链路阻塞指的是当前内容处理模块在履行自己的职责的时候,未能成功履行自己的职责,而导致下一个内容处理模块因上一个内容处理模块的履行职责的结果,导致自己无法履行自己的职责,而造成的结果,比如,假设有两个内容处理模块分别负责错别字识别和去水印,如果可以接受被处理后的内容存在错别字,但是不能接受被处理后的内容存在水印,则去水印模块的失败会导致部分内容无法完成处理,进而链路出现阻塞。还可以依据各内容处理模块的重要性而,自动推导出可能造成内容链路阻塞的部分。
在一实施例中,还可以基于各内容处理模块的处理质量表征信息与链路阻塞影响信息,将内容处理模块按照处理质量表征信息(比如,内容处理模块的成功量、失败量、超时量等)与链路阻塞影响程度分为至少两个模块组,然后对于各模块组,周期性设置不同的告警推送规则,最后基于告警推送规则,向异常处理终端发送告警信息。
在一实施例中,步骤“确定异常内容处理模块对应的异常处理终端”之前,还可以包括:
获取内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中;
确定各异常内容处理模块对应的异常处理终端,包括:
获取各异常内容处理模块的模块标识信息;
基于各异常内容处理模块的模块标识信息,从缓存区域中获取模块标识信息对应的终端标识信息,终端标识信息标识的终端为异常内容处理模块对应的异常处理终端。
在一实施例中,步骤“获取内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息”,包括:
运行异步更新协程获取内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中,包括:
通过异步更新协程基于获取的内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息,更新缓存区域。
其中,通过运行异步更新协程,单独执行如图3所示中的配置中心模块的数据信息的写入,比如,内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息的写入,异步执行异常管理模块的数据信息读取,并更新异常管理模块的数据信息,比如,更新缓存区域内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息。
其中,各异常内容处理模块对应的异常处理终端的终端信息更新不频繁,而配置中心模块查询请求量较大,可以将模块标识信息与终端标识信息对应地保存到缓存区域中,该接口被调用时优先访问缓存区域。同时,后台有协程运行,以较低频率访问配置中心模块获取异常处理终端的终端信息,更新缓存,在确保结果准确性的同时,降低对现有服务的性能压力。
在一实施例中,参见图4,每隔固定的时间间隔,异常管理模块访问模块信息管理系统获取历史时间段内的调度流水,统计并计算出失败率最高的内容处理模块,依据内容处理模块的模块名称从配置中心获取内容处理模块对应异常处理终端的终端信息,然后将告警信息推送给异常处理终端,其中,计时器(time_ticker)每隔固定的时间间隔触发一次异常管理模块运行。
在一实施例中,还可以根据历史时间段内内容处理模块的内容处理质量,调整告警推送规则中的告警推送参数,比如,设置每分钟或者每小时推送告警信息的次数的最大值,避免消息过多对异常内容处理模块对应模块负责人造成干扰,具体步骤可以包括:
获取历史时间段内内容处理模块,对第二历史处理内容的第二处理结果记录;
根据第二处理结果记录,获取内容处理模块在历史时间段内的处理质量表征信息;
基于处理质量表征信息,确定内容处理模块在历史时间段内的内容处理质量变化趋势;
基于内容处理质量变化趋势,调整告警推送规则中的告警推送参数。
其中,告警推送参数可以包括告警推送的频率、告警推送的方式、以及告警推送的渠道,等等。
在一实施例中,还可以根据内容处理模块对应的告警信息的历史推送记录,分析告警信息的历史推送变化趋势,然后告警推送规则进行调整,具体步骤可以包括:
获取内容处理模块对应的告警信息的历史推送记录;
根据历史推送记录,获取告警信息的历史推送变化趋势;
基于历史推送变化趋势,调整告警推送规则中的告警推送参数。
在一实施例中,内容处理模块对应的模块负责人可以通过模块信息获取页面的模块信息获取控件,获取内容处理模块的模块信息,具体步骤可以包括:
展示模块信息获取页面,模块信息获取页面包括模块信息获取控件;
当检测到针对模块信息获取控件的触发操作时,从模块信息管理系统的数据库中,获取内容处理模块的模块信息,模块信息包括内容处理模块的处理质量表征信息;
展示模块信息。
本申请主要解决内容链路每次阻塞时需要分析日志、监控、定位出错内容处理模块,并且不能对出错的内容处理模块对应的异常处理终端推送告警信息等一系列低效问题,本申请实施例提供一种异常管理模块和模块信息管理系统中的调度流水实现的全链路告警检测系统,支持定时查询模块信息管理系统的模块信息,检索出错的异常内容处理模块,并且自动匹配对应模块的异常处理终端,拉群跟进。
其中,内容链路出现阻塞指后端服务出现故障(内容处理模块履行职责时出现故障),导致内容无法继续处理。监控,全称为监控视图,用来监控服务的各项指标,包括处理内容所需时间、磁盘占用率、CPU占用率、处理的所有内容中成功内容数量所占比率等。各个后端服务都有自己的监控视图。
本申请的一些具体应用场景可以包括:监控内容链路中各内容处理模块运行状态,定时统计并推送出错的异常内容处理模块的模块信息,可以推广应用到涉及后端服务多且统计信息分散的场景。
由以上可知,本实施例可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性,有助于异常处理终端的模块负责人对异常内容处理模块进行维护,有利于各模块负责人专注于提升自己内容处理模块的服务质量,进而促进模块服务质量的提升。
根据上述介绍的内容,下面将举例来进一步说明本申请的异常管理方法。参考图5,一种异常管理方法,具体流程可以如下:
501、服务器搭建模块信息管理系统,约定调度流水上报规范。
其中,参考图3,为了实现对内容处理模块的异常管理,本实施例的内容处理系统在内容处理模块和调度模块的基础上,新增了管理中心模块(admin)、配置中心模块、模块信息管理系统、以及异常管理模块,其中,内容处理模块组成了内容处理模块链路(一个内容处理模块为内容处理模块链路中的一个节点)。管理中心模块是这个内容处理系统的使用者,主要负责维护模块白名单、模块分组、推送阈值等配置信息。
在一实施例中,模块信息管理系统可以为ES搜索服务器(Elastic Search,ES),约定各内容处理模块出现异常上报规范。ES为基于全文搜索引擎库(Lucene)的搜索服务器,提供了分布式、支持多租户的全文搜索能力,具有HTTP Web接口和无模式JSON文档。
其中,调度流水指的是由调度模块上报,并保存在ES中的各内容处理模块服务质量信息,每一条调度流水都对应着一个内容处理模块对一条处理内容的处理结果,包括内容处理模块的模块名、耗时和处理是否成功。
在实际应用中,每个内容处理模块都有自己的职责,比如,识别图文内容中的错别字,内容处理模块的成功、失败、超时分别对应这项工作的成功(识别出所有错别字或者识别出没有错别字)、失败(因为机器故障或者其他原因无法完成错别字的检测)、以及指定时间内未完成(指定时间内无法完成错别字的识别),超时是失败的细分,各内容处理模块服务质量信息就是内容处理模块在履行自己的职责时的履行情况。
502、服务器修改调度模块,根据对每个内容处理模块的访问结果构建调度流水,上报到模块信息管理系统。
其中,调度模块主要负责各内容处理模块的统一调度,并对模块服务质量进行上报,上报的内容还可以包含各内容处理模块的处理耗时、是否处理成功、处理机器的IP、后端服务返回的对于本次处理结果的备注信息等。调度模块访问配置中心模块获取内容处理模块的模块信息,然后发起对内容处理模块的调用。调用结束后,调度模块抽取出内处理模块的模块名、内处理模块对应异常处理终端的终端信息、调用结果等相关信息,汇总整理后上报到ES。
其中,上报到ES的各内容处理模块的模块服务质量信息,借助ES强大的全文检索能力,可以很方便地对模块服务质量进行各处理质量表征维度上的统计,比如,可以从模块成功、失败、超时等处理质量表征维度进行统计,还可以生成报表,方便后续跟进。
比如,获取内容处理系统中各内容处理模块,对历史处理内容的处理结果记录,然后可以将该处理结果记录按照调度流水上报规范上报到模块信息管理系统,最后基于模块信息管理系统的全文检索模块,统计至少在一个处理质量表征维度上内容处理模块的模块服务质量信息。
503、服务器创建配置中心模块,根据实际业务场景配置模块白名单、模块分组和推送阈值。
其中,模块白名单包括失败量可以被忽略的模块;模块分组:按模块重要性进行分组,不同重要级别的模块,消息推送频率不同;推送阈值:限制每分钟或者每小时推送告警信息次数的最大值,避免消息过多对内容处理模块对应的异常处理终端的模块负责人造成干扰。三者都是独立的配置选项,在配置中心模块中进行配置。
例如,根据模块白名单可以从各内容处理模块中,筛选出模块白名单以外的内容处理模块,作为在对内容进行处理时可能出现异常的筛选后内容处理模块,如果筛选后内容处理模块的模块服务质量,满足异常判定规则中的异常判定条件,那么筛选后内容处理模块为异常内容处理模块,最后根据推送阈值,向异常内容处理模块对应的异常处理终端发送告警信息。
504、服务器实现异常管理模块,定时拉取并计算内容处理模块失败信息并计算排名,按照配置中心模块的配置推送告警消息到异常处理终端。
其中,异常管理模块可以计算各内容处理模块的模块失败率并排序,比如,可以获取历史时间段内(如10分钟)的模块失败信息,排序后输出,可以查询内容处理模块对应的异常处理终端的终端信息,还可以进行全链路告警自动检测,比如,指定链路采样周期、告警信息的推送频率、时间范围等。
其中,模块失败率指的是内容处理模块因为机器故障或者网络波动等原因导致出现无法履行职责的情况的概率。
例如,异常管理模块访问模块信息管理系统获取历史时间段内的调度流水,统计并计算出失败率最高的内容处理模块,依据内容处理模块的模块名称从配置中心获取内容处理模块对应异常处理终端的终端信息,然后将告警信息推送给异常处理终端。
在一实施例中,内容处理系统可以部署在服务器上,服务器中的各模块的代码信息可以采用Python语言进行编写,也可以采用其他编程语言进行编写,该服务器运行的操作系统可以包括但不限于Linux操作系统。
其中,Python是一种跨平台的计算机程序设计语言,是一个高层次的结合了解性、编译性、互动性和面向对象的脚本语言,写好就可以直接运行,省去了编译链接的麻烦。
其中,Linux全称GNU/Linux,是一套免费使用和自由传播的类UNIX操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统,它能运行主要的Unix工具软件、应用程序和网络协议,支持32位和64位硬件,继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。
由以上可知,本实施例可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性,有助于异常处理终端的模块负责人对异常内容处理模块进行维护,有利于各模块负责人专注于提升自己内容处理模块的服务质量,进而促进模块服务质量的提升。
为了更好地实施以上方法,相应的,本申请实施例还提供一种异常管理装置,其中,该异常管理装置具体可以集成在服务器中,参考图6,该异常管理装置可以包括第一获取单元601、第二获取单元602、第三获取单元603、第一确定单元604和确定及发送单元605,如下:
(1)第一获取单元601;
第一获取单元601,用于获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录。
在一实施例中,如图7所示,第一获取单元601,包括:
调用子单元6011,用于调用模块信息管理系统的全文检索模块,在数据库存储的处理结果记录中,确定各内容处理模块针对第一历史处理内容的第一处理结果记录。
(2)第二获取单元602;
第二获取单元602,用于基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量。
在一实施例中,如图8所示,第二获取单元602,包括:
调用及检索子单元6021,用于通过全文检索模块,在数据库中从各内容处理模块的第一处理结果记录中,检索预设的至少一个处理质量表征维度上的处理结果数据;
统计子单元6022,用于对于各内容处理模块,基于至少一个处理质量表征维度上的处理结果数据进行统计分析,确定各内容处理模块在至少一个处理质量表征维度上的处理质量表征信息。
(3)第三获取单元603;
第三获取单元603,用于获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件。
(4)第一确定单元604;
第一确定单元604,用于若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块。
在一实施例中,如图9所示,第一确定单元604,包括:
筛选子单元6041,用于根据模块白名单,从内容处理系统的内容处理模块中筛选出模块白名单以外的筛选后内容处理模块;
确定子单元6042,用于若筛选后内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定筛选后内容处理模块为异常内容处理模块。
(5)确定及发送单元605;
确定及发送单元605,用于确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。
在一实施例中,如图10所示,确定及发送单元605,包括:
确定及获取子单元6051,用于确定异常内容处理模块所属的模块组,获取模块组对应的告警推送规则;
发送子单元6052,用于基于告警推送规则,向异常内容处理模块对应的异常处理终端发送告警信息。
在一实施例中,确定及发送单元605,包括:
第一获取子单元6053,用于获取各异常内容处理模块的模块标识信息;
第二获取子单元6054,用于基于各异常内容处理模块的模块标识信息,从缓存区域中获取模块标识信息对应的终端标识信息,终端标识信息标识的终端为异常内容处理模块对应的异常处理终端。
在一实施例中,异常管理装置,还包括:
获取及存储单元606,用于通过调度模块定时获取内容处理模块的模块关联信息,并将模块关联信息存储至模块信息管理系统的数据库中,模块关联信息包括内容处理模块对内容的处理结果记录。
在一实施例中,异常管理装置,还包括:
第四获取单元607,用于获取内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
保存单元608,用于将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中。
在一实施例中,如图11所示,第四获取单元607,包括:
运行子单元6071,用于运行异步更新协程获取内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息。
在一实施例中,如图12所示,保存单元608,包括:
第三获取子单元6081,用于通过异步更新协程基于获取的内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息,更新缓存区域。
在一实施例中,异常管理装置,还包括:
第五获取单元609,用于获取内容处理模块链路中各内容处理模块的链路阻塞影响信息,其中,链路阻塞影响信息用于表示内容处理模块的异常,对内容处理模块链路的链路阻塞影响程度;
分组单元610,用于基于链路阻塞影响信息,将内容处理模块按照链路阻塞影响程度分为至少两个模块组;
设置单元611,用于对于各模块组,设置不同的告警推送规则。
在一实施例中,异常管理装置,还包括:
第六获取单元612,用于获取历史时间段内内容处理模块,对第二历史处理内容的第二处理结果记录;
第七获取单元613,用于根据第二处理结果记录,获取内容处理模块在历史时间段内的处理质量表征信息;
第二确定单元614,用于基于处理质量表征信息,确定内容处理模块在历史时间段内的内容处理质量变化趋势;
调整单元615,用于基于内容处理质量变化趋势,调整告警推送规则中的告警推送参数。
在一实施例中,异常管理装置,还包括:
第八获取单元616,用于获取内容处理模块对应的告警信息的历史推送记录;
第九获取单元617,用于根据历史推送记录,获取告警信息的历史推送变化趋势。
第二调整单元618,用于基于历史推送变化趋势,调整告警推送规则中的告警推送参数。
在一实施例中,异常管理装置,还包括:
第一展示单元619,用于展示模块信息获取页面,模块信息获取页面包括模块信息获取控件;
第十一获取单元620,用于当检测到针对模块信息获取控件的触发操作时,从模块信息管理系统的数据库中,获取内容处理模块的模块信息,模块信息包括内容处理模块的处理质量表征信息;
第二展示单元621,用于展示模块信息。
由以上可知,本申请实施例的异常管理装置的第一获取单元601获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;然后,由第二获取单元602基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量;由第三获取单元603获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;由第一确定单元604若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块;由确定及发送单元605确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。该方案可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图13所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解,图13中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1001是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器1002内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器1001可包括一个或多个处理核心;优选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
存储器1002可用于存储软件程序以及模块,处理器1001通过运行存储在存储器1002的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1002还可以包括存储器控制器,以提供处理器1001对存储器1002的访问。
计算机设备还包括给各个部件供电的电源1003,优选的,电源1003可以通过电源管理系统与处理器1001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元1004,该输入单元1004可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器1001会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中,并由处理器1001来运行存储在存储器1002中的应用程序,从而实现各种功能,如下:
获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量;获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块;确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。
由以上可知,本实施例可以通过获取各内容处理模块对历史处理内容的处理结果记录,统计出各内容处理模块的处理质量表征信息,并根据处理质量表征信息与异常模块判定规则来判定各内容处理模块是否为异常内容处理模块,然后再向异常内容处理模块对应的异常处理终端发送告警信息,可以快速发现内容处理模块在内容处理过程中的异常,降低出现链路阻塞的概率,保证内容处理效率,并且可以精准地推送告警信息至异常内容处理模块的异常处理终端,提升告警信息的针对性,有助于异常处理终端的模块负责人对异常内容处理模块进行维护,有利于各模块负责人专注于提升自己内容处理模块的服务质量,进而促进模块服务质量的提升。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种异常管理方法中的步骤。例如,该指令可以执行如下步骤:
获取内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;基于第一处理结果记录,获取各内容处理模块的处理质量表征信息,处理质量表征信息用于表征内容处理模块对第一历史处理内容的内容处理质量;获取各内容处理模块的异常模块判定规则,异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;若内容处理模块的处理质量表征信息表征的内容处理质量,符合异常判定条件,则确定内容处理模块为异常内容处理模块;确定异常内容处理模块对应的异常处理终端,向异常处理终端发送告警信息,告警信息用于提示异常处理终端管理的内容处理模块出现异常。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种异常管理方法中的步骤,因此,可以实现本申请实施例所提供的任一种异常管理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种异常管理方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种异常管理方法,其特征在于,应用于内容处理系统,所述内容处理系统包括至少两个用于对内容进行处理的内容处理模块,所述方法包括:
获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;
基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,所述处理质量表征信息用于表征所述内容处理模块对所述第一历史处理内容的内容处理质量;
获取所述各内容处理模块的异常模块判定规则,所述异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;
若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块;
确定所述异常内容处理模块对应的异常处理终端,向所述异常处理终端发送告警信息,所述告警信息用于提示所述异常处理终端管理的内容处理模块出现异常。
2.根据权利要求1所述的方法,其特征在于,所述内容处理系统中的内容处理模块组成内容处理模块链路,一个所述内容处理模块为所述内容处理模块链路中的一个节点;
所述向所述异常处理终端发送告警信息之前,所述方法还包括:
获取所述内容处理模块链路中各内容处理模块的链路阻塞影响信息,其中,链路阻塞影响信息用于表示所述内容处理模块的异常,对所述内容处理模块链路的链路阻塞影响程度;
基于所述链路阻塞影响信息,将所述内容处理模块按照所述链路阻塞影响程度分为至少两个模块组;
对于各所述模块组,设置不同的告警推送规则;
所述向所述异常处理终端发送告警信息,包括:
确定所述异常内容处理模块所属的模块组,获取所述模块组对应的告警推送规则;
基于所述告警推送规则,向所述异常内容处理模块对应的异常处理终端发送告警信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取历史时间段内所述内容处理模块,对第二历史处理内容的第二处理结果记录;
根据所述第二处理结果记录,获取所述内容处理模块在所述历史时间段内的处理质量表征信息;
基于所述处理质量表征信息,确定所述内容处理模块在所述历史时间段内的内容处理质量变化趋势;
基于所述内容处理质量变化趋势,调整所述告警推送规则中的告警推送参数。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述内容处理模块对应的告警信息的历史推送记录;
根据所述历史推送记录,获取所述告警信息的历史推送变化趋势;
基于所述历史推送变化趋势,调整所述告警推送规则中的告警推送参数。
5.根据权利要求1所述的方法,其特征在于,所述异常判定规则还包括模块白名单,所述模块白名单包括:在内容处理模块的内容处理过程中出现异常时,无需发送所述告警信息的内容处理模块;
所述若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块,包括:
根据所述模块白名单,从所述内容处理系统的内容处理模块中筛选出所述模块白名单以外的筛选后内容处理模块;
若所述筛选后内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述筛选后内容处理模块为异常内容处理模块。
6.根据权利要求1所述的方法,其特征在于,所述确定各异常内容处理模块对应的异常处理终端之前,所述方法还包括:
获取所述内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中;
所述确定各异常内容处理模块对应的异常处理终端,包括:
获取各异常内容处理模块的模块标识信息;
基于所述各异常内容处理模块的模块标识信息,从所述缓存区域中获取所述模块标识信息对应的终端标识信息,所述终端标识信息标识的终端为所述异常内容处理模块对应的异常处理终端。
7.根据权利要求6所述的方法,其特征在于,所述获取所述内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息,包括:
运行异步更新协程获取所述内容处理系统中所有内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息;
所述将各内容处理模块所对应的模块标识信息与终端标识信息,对应地保存到缓存区域中,包括:
通过所述异步更新协程基于获取的所述内容处理模块的模块标识信息,以及各内容处理模块对应的异常处理终端的终端标识信息,更新缓存区域。
8.根据权利要求1所述的方法,其特征在于,所述内容处理系统还包括与所述内容处理模块连接的调度模块;
所述获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录之前,所述方法还包括:
通过所述调度模块定时获取所述内容处理模块的模块关联信息,并将所述模块关联信息存储至模块信息管理系统的数据库中,所述模块关联信息包括所述内容处理模块对内容的处理结果记录;
所述获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录,包括:
调用所述模块信息管理系统的全文检索模块,在所述数据库存储的所述处理结果记录中,确定各内容处理模块针对第一历史处理内容的第一处理结果记录;
所述基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,包括:
通过所述全文检索模块,在所述各内容处理模块的第一处理结果记录中,检索预设的至少一个处理质量表征维度上的处理结果数据;
对于各内容处理模块,基于所述至少一个处理质量表征维度上的处理结果数据进行统计分析,确定各内容处理模块在所述至少一个处理质量表征维度上的处理质量表征信息。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
展示模块信息获取页面,所述模块信息获取页面包括模块信息获取控件;
当检测到针对所述模块信息获取控件的触发操作时,从所述模块信息管理系统的数据库中,获取所述内容处理模块的模块信息,所述模块信息包括所述内容处理模块的处理质量表征信息;
展示所述模块信息。
10.一种异常管理装置,其特征在于,包括:
第一获取单元,用于获取所述内容处理系统中各内容处理模块,对第一历史处理内容的第一处理结果记录;
第二获取单元,用于基于所述第一处理结果记录,获取所述各内容处理模块的处理质量表征信息,所述处理质量表征信息用于表征所述内容处理模块对所述第一历史处理内容的内容处理质量;
第三获取单元,用于获取所述各内容处理模块的异常模块判定规则,所述异常模块判定规则包括针对内容处理模块的内容处理质量的异常判定条件;
第一确定单元,用于若所述内容处理模块的处理质量表征信息表征的内容处理质量,符合所述异常判定条件,则确定所述内容处理模块为异常内容处理模块;
确定及发送单元,用于确定所述异常内容处理模块对应的异常处理终端,向所述异常处理终端发送告警信息,所述告警信息用于提示所述异常处理终端管理的内容处理模块出现异常。
CN202010503703.1A 2020-06-05 2020-06-05 一种异常管理方法及装置 Active CN113765685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010503703.1A CN113765685B (zh) 2020-06-05 2020-06-05 一种异常管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010503703.1A CN113765685B (zh) 2020-06-05 2020-06-05 一种异常管理方法及装置

Publications (2)

Publication Number Publication Date
CN113765685A true CN113765685A (zh) 2021-12-07
CN113765685B CN113765685B (zh) 2024-06-28

Family

ID=78783920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010503703.1A Active CN113765685B (zh) 2020-06-05 2020-06-05 一种异常管理方法及装置

Country Status (1)

Country Link
CN (1) CN113765685B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617758A (zh) * 2018-11-30 2019-04-12 网宿科技股份有限公司 节点网络质量计算方法及装置、服务器、计算机存储介质
CN110311812A (zh) * 2019-06-24 2019-10-08 深圳市腾讯计算机系统有限公司 一种网络分析方法、装置和存储介质
WO2019223062A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 系统异常的处理方法和系统
CN111190798A (zh) * 2020-01-03 2020-05-22 苏宁云计算有限公司 一种业务数据监控警告装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223062A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 系统异常的处理方法和系统
CN109617758A (zh) * 2018-11-30 2019-04-12 网宿科技股份有限公司 节点网络质量计算方法及装置、服务器、计算机存储介质
CN110311812A (zh) * 2019-06-24 2019-10-08 深圳市腾讯计算机系统有限公司 一种网络分析方法、装置和存储介质
CN111190798A (zh) * 2020-01-03 2020-05-22 苏宁云计算有限公司 一种业务数据监控警告装置及方法

Also Published As

Publication number Publication date
CN113765685B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
US10678669B2 (en) Field content based pattern generation for heterogeneous logs
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
CN108985981B (zh) 数据处理系统及方法
WO2019223062A1 (zh) 系统异常的处理方法和系统
CN112463543B (zh) 业务数据的监控方法、规则数据生成方法、装置及系统
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN112306700A (zh) 一种异常rpc请求的诊断方法和装置
CN111538563A (zh) 一种对Kubernetes的事件分析方法及装置
CN113505044B (zh) 数据库告警方法、装置、设备和存储介质
CN112182025A (zh) 日志分析方法、装置、设备与计算机可读存储介质
CN107026865A (zh) 异常事件处理方法及系统、客户端及服务端
WO2015187001A2 (en) System and method for managing resources failure using fast cause and effect analysis in a cloud computing system
CN114091704B (zh) 一种告警压制方法和装置
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN114020585A (zh) 业务处理方法、装置和计算机可读存储介质
CN110011845B (zh) 日志采集方法及系统
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN116991669A (zh) 告警方法、装置、终端设备以及存储介质
CN105446707B (zh) 一种数据转换方法
CN113765685A (zh) 一种异常管理方法及装置
CN113742400B (zh) 一种基于自适应约束条件的网络数据获取系统及方法
CN114996080A (zh) 数据处理方法、装置、设备及存储介质
CN114706893A (zh) 故障检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant