CN111858274A - 一种大数据评分系统稳定性监控方法 - Google Patents

一种大数据评分系统稳定性监控方法 Download PDF

Info

Publication number
CN111858274A
CN111858274A CN202010638015.6A CN202010638015A CN111858274A CN 111858274 A CN111858274 A CN 111858274A CN 202010638015 A CN202010638015 A CN 202010638015A CN 111858274 A CN111858274 A CN 111858274A
Authority
CN
China
Prior art keywords
log
monitoring
data
scoring
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010638015.6A
Other languages
English (en)
Other versions
CN111858274B (zh
Inventor
陈建
苏明富
王树伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruizhi Tuyuan Technology Co ltd
Original Assignee
Beijing Ruizhi Tuyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruizhi Tuyuan Technology Co ltd filed Critical Beijing Ruizhi Tuyuan Technology Co ltd
Priority to CN202110489346.2A priority Critical patent/CN113190426B/zh
Priority to CN202010638015.6A priority patent/CN111858274B/zh
Publication of CN111858274A publication Critical patent/CN111858274A/zh
Application granted granted Critical
Publication of CN111858274B publication Critical patent/CN111858274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种大数据评分系统稳定性监控方法,包括:采集大数据评分系统的评分日志;将采集的评分日志通过预设消息队列进行解耦传输到监控中心;监控中心对接收到的评分日志进行预处理和预转化;将预处理和预转化后的评分日志导入查询数据库,同时,监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控。便于降低存储成本,提高查询速度,进而提高监控效率。

Description

一种大数据评分系统稳定性监控方法
技术领域
本发明涉及监控技术领域,特别涉及一种大数据评分系统稳定性监控方法。
背景技术
大数据评分系统较常采用的一种智能评分方式,并且为了保证大数据评分系统运行的可靠性,一般会对大数据评分系统进行监控,但是对其进行监控的过程中一般存在如下问题:
1、在监控过程中,会对监控数据和指标的存储,业界通常做法是对原始数据进行存储,长此以往会产生大量数据,占用海量存储空间,造成存储成本居高不下。
2、随着时间的推移监控的历史数据本身价值已经微乎其微,通常会对历史数据定期清理,这样做也会增加IT的维护成本。
3、对监控指标按照时间维度进行计算后压缩存储,如果计算的时间维度发生变化无法进行重新计算,易用性也会受到影响。
4、当存在数值类型的敏感数据时无法明文存储,如果该敏感值有统计分析类的需求则需要进行批量解密后才可进行统计。
基于上述存在的问题,使得存储成本高、查询速度慢,进而降低监控效率。
因此,本发明提出一种大数据评分系统稳定性监控方法。
发明内容
本发明提供一种大数据评分系统稳定性监控方法,用以解决上述提出的技术问题。
本发明提供一种大数据评分系统稳定性监控方法,包括:
采集大数据评分系统的评分日志;
将采集的评分日志通过预设消息队列进行解耦传输到监控中心;
所述监控中心对接收到的评分日志进行预处理和预转化;
将预处理和预转化后的评分日志导入查询数据库,同时,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控。
在一种可能实现的方式中,
所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,包括:
查询与所述监控中心监控获得的监控样本相关的样本数据指标;
获取所述样本数据指标的指标结果,基于所述指标结果判断所述样本数据指标是否异常;
若异常,基于所述监控中心,向预先配置好的目标员工的警示端发送第一警示指令,所述警示端执行与第一警示指令相关的第一警示提醒;
否则,基于所述样本数据指标,提取监控指标。
在一种可能实现的方式中,
采集大数据评分系统的评分日志的过程中包括:
基于时间戳,实时监测所述大数据评分系统产生的评分日志;
对所述评分日志的数据容量进行判断,当所述数据容量到达预设容量范围时,将对应的评分日志存储传输到监控中心;
当所述数据容量小于预设容量范围对应的最小容量时,基于所述时间戳,继续实时监测所述大数据评分系统产生的评分日志;
当所述数据容量大于预设容量范围对应的最大容量时,判定传输失败,并向预先配置好的目标员工的警示端发送第二警示指令,所述警示端执行与第二警示指令相关的第二警示提醒。
在一种可能实现的方式中,
所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,还包括:
向所述监控中心进行监控规则配置,且监控规则配置步骤包括:
配置监控名称到待监控数据库,并将名称配置信息传输到所述监控中心,所述名称配置信息包括:监控数据库以及与待监控数据库对应的待监控名称;
向配置有监控名称的待监控数据库配置监控维度,并根据所述监控维度从对应的评分日志中提取维度字段,并构成维度分组;
确定所述维度分组对应的基准数据量,当所述基准数据量大于预设数据量时,所述监控中心基于预设计算方式,对所述维度分组进行监控计算;
当基于预设计算方式,对所述维度分组进行监控计算时,计算获得所述维度分组的基准值,并根据所述基准值,配置相关的基准指标,并对配置的所述基准指标进行存储;
其中,所述待监控数据库中存储的数据源与大数据评分系统的评分日志相关。
在一种可能实现的方式中,
所述预设数据量是基于历史监控数据库确定的。
在一种可能实现的方式中,
所述监控计算是基于自定义与所述待监控数据库相关的直方图的分位数和自定义区间占比两种方式进行自定义基准分析来实现的;
在自定义基准分析之后,基于直方图计算规则,计算区间占比和分位数;
其中,通过接收修改指令,对所述直方图进行编辑修改,并基于直方图计算规则,重新计算与所述直方图相关的区间占比和分位数。
在一种可能实现的方式中,
采集大数据评分系统的评分日志的之前,还包括:
当所述大数据评分系统产生新日志时,同步捕捉所述大数据评分系统的硬件信息,所述硬件信息与产生所述新日志的配置硬件相关;
同时,同步捕捉所述大数据评分系统的软件信息,所述软件信息与产生所述新日志的配置软件相关;
获取所述配置硬件和配置软件的周期性以及周期变化规律;
将所述周期性以及周期变化规律进行时间拆分处理,获得拆分序列;
获取与所述新日志相关的拆分序列,并对所述新日志以及相关的拆分序列进行融合处理,判断所述新日志与相关的拆分序列是否一致;
若一致,将所述新日志和相关的拆分序列同步导入异常检测模型中,判断所述新日志是否存在异常;
若存在,进行报警提醒;
否则,将所述新日志进行保留;
若不一致,将所述新日志和相关的拆分序列异步导入异常检测模型中,并获得对应的第一检测结果和第二检测结果;
根据所述第一检测结果和第二检测结果,判断异常检测点,并将所述异常检测点传输到日志修正模型中,获得修正方案;
同时,基于所述修正方案,对所述新日志进行修正,并将修正后的新日志进行保留。
在一种可能实现的方式中,
所述监控中心对接收到的评分日志进行预处理和预转化的过程中,包括:
对所述评分日志进行局部调度管理,并根据如下公式,计算所述局部调度管理的局部管理值;
Figure BDA0002567169280000041
其中,n表示所述局部调度管理过程中,基于时间戳从评分日志中调取的n段日志;Ti2表示第i段日志基于时间戳的初始时间点;Ti1表示第i段日志基于时间戳的末尾时间点;fi表示第i段日志的日志权重值;di表示第i段日志的日志增益值;d表示n段日志的平均增益值;
对所述评分日志进行文件切分,基于时间戳获取不同时间节点的切分日志,并对不同时间节点的切分日志进行全局调度管理,并根据如下公式,获取所有切分日志的全局管理值;
Figure BDA0002567169280000051
其中,m表示所述全局调度管理过程中,基于不同时间节点的切分日志的个数;Tj表示第j个切分日志对应的时间节点的时长;fj表示第j个切分日志的日志权重值;dj表示第j个切分日志的日志增益值;d′表示m个切分日志的平均增益值;fj+1表示第j+1个切分日志的日志权重值;f′表示m个切分日志的平均日志权重值;
根据局部管理值和全局管理值,并基于预先存储的补丁数据库,创建与所述切分日志相关的补丁文件;
同时,对每个切分日志进行初始化处理,生成与所述切分日志相关的切分后缀数组;
将所述切分日志以及与切分日志相关的补丁文件和切分后缀数组打包成完整日志,并对所述完成日志进行预处理和预转化。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种大数据评分系统稳定性监控方法的流程图;
图2为本发明实施例中一种大数据评分系统稳定性监控方法的结构图;
图3为本发明实施例中区间占比图;
图4为本发明实施例中分位数图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种大数据评分系统稳定性监控方法,如图1所示,包括:
步骤1:采集大数据评分系统的评分日志;
步骤2:将采集的评分日志通过预设消息队列进行解耦传输到监控中心;
步骤3:所述监控中心对接收到的评分日志进行预处理和预转化;
步骤4:将预处理和预转化后的评分日志导入查询数据库,同时,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控。
该实施例中,如图2所示,首先对评分日志进行采集,然后通过消息队列kafka进行解耦传输,监控中心收到日志记录后进行处理和转化,然后将数据摄入到druid数据库中,再由监控中心通过轮询查询数据的方式进行监控,并输出信息到消息中心。
其中,Druid是一个高效的数据查询系统,且监控中心是包括:监控规则、监控器、CronTask(定时任务)等在内的;kafka是一种高吞吐量的分布式发布订阅消息系统。
其中,Druid是一个开源的分布式OLAP(联机分析处理)系统,且Druid的核心特征为:
1、列式存储格式:Druid采用列式存储格式,因此它只会加载特定查询所需要的特定列的数据。这就极大的加速了那些只需要个别列数据的查询。另外,每一列还根据数据类型做了专门的优化,以便更好的支持列的快速扫描和聚合。
2、可扩展的分布式系统:Druid通常被部署到几十到几百台的服务器上,每秒可以支持导入数百万条记录,存储规模可达数十亿条。具有在这种超大规模的数据场景下提供亚秒级查询响应的能力。
3、强大的并行处理能力:Druid可以在整个集群中同时并行查询,以降低一个查询所需要的时间。
4、支持实时或批量数据导入:Druid可以支持实时数据导入(导入的数据可以被立即查询到),也可以支持批量导入。
5、高度容错,自动负载均衡,以及低操作门槛:druid支持不停机扩缩容。对于运维来说,可以通过简单的增加或删除集群中的机器来轻松地扩展或者收缩集群规模,集群将会自动在后台进行重新负载均衡。当某一台服务器出现问题时,集群将自动下线该服务器直到该服务器恢复正常或者被替换。Druid支持7*24小时在线服务,即使在软件升级或者配置变更的情况下,也不需要下线。
6、云原生设计,高度容错的架构以确保不丢失数据:一旦druid接收了数据,数据副本将会被安全的存储在深度存储中(deep storage,通常是云存储,HDFS,或者一个共享的文件系统)。即使所有的druid服务器都出现问题,druid也有能力从深度存储中自动恢复数据。除了深度存储外,druid还支持多副本,当个别服务器出现问题时,druid的多副本保证查询服务不受影响。
7、建立索引以支持快速过滤:Druid使用CONCISE和Roaring位图压缩算法来创建索引,这些算法保证在跨列过滤时能够进行非常快速的查询。
8、近似算法:Druid实现了快速支持count-distinct,ranking,直方图以及百分比等近似算法。这些近似算法可以在有限内存的情况下进行快速的计算。对于那些精度比速度更重要的场景,druid也提供了精确的count-distinct和ranking算法。
9、在导入数据时自动汇总:Druid可以在导入数据的使用对数据进行自动汇总。这种汇总操作可以对你的数据进行部分预聚合,因此可以极大降低存储成本和提升查询时的速度。
并且,通过使用druid数据库(查询数据库)存储评分日志数据,通过datasketches处理加工分数值并用来查询分位数和区间分布,大大降低存储成本,并提高查询相应速度,做到实时监控和分析。
上述技术方案的有益效果是:便于降低存储成本,提高查询速度,进而提高监控效率。
本发明提供一种大数据评分系统稳定性监控方法,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,包括:
查询与所述监控中心监控获得的监控样本相关的样本数据指标;
获取所述样本数据指标的指标结果,基于所述指标结果判断所述样本数据指标是否异常;
若异常,基于所述监控中心,向预先配置好的目标员工的警示端发送第一警示指令,所述警示端执行与第一警示指令相关的第一警示提醒;
否则,基于所述样本数据指标,提取监控指标。
上述第一警示指令如指标异常指令,对应的第一警示提醒,可以为文字弹跳提醒等。
该实施例中,警示端可以是包括:智能手机、笔记本、电脑等智能电子设备在内的。
上述技术方案的有益效果是:通过查询样本数据指标,便于对相应的指标结果进行判断,当存在异常时,进行报警提醒,便于及时处理,提高效率。
本发明提供一种大数据评分系统稳定性监控方法,采集大数据评分系统的评分日志的过程中包括:
基于时间戳,实时监测所述大数据评分系统产生的评分日志;
对所述评分日志的数据容量进行判断,当所述数据容量到达预设容量范围时,将对应的评分日志存储传输到监控中心;
当所述数据容量小于预设容量范围对应的最小容量时,基于所述时间戳,继续实时监测所述大数据评分系统产生的评分日志;
当所述数据容量大于预设容量范围对应的最大容量时,判定传输失败,并向预先配置好的目标员工的警示端发送第二警示指令,所述警示端执行与第二警示指令相关的第二警示提醒。
上述第二警示指令如传输失败指令,对应的第二警示提醒,可以为文字弹跳提醒等。
上述评分日志的数据容量,例如为容量S,且对应的预设容量分为为[Smin,Smax],当S大于Smax时,传输失败,当S大于或等于Smin且小于或等于Smax时,在此容量范围内进行有效传输,减小传输次数,降低传输损耗,进而提高传输效率。
上述技术方案的有益效果是:便于提高传输效率,为后续进行监控提供基础。
本发明提供一种大数据评分系统稳定性监控方法,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,还包括:
向所述监控中心进行监控规则配置,且监控规则配置步骤包括:
配置监控名称到待监控数据库,并将名称配置信息传输到所述监控中心,所述名称配置信息包括:监控数据库以及与待监控数据库对应的待监控名称;
向配置有监控名称的待监控数据库配置监控维度,并根据所述监控维度从对应的评分日志中提取维度字段,并构成维度分组;
确定所述维度分组对应的基准数据量,当所述基准数据量大于预设数据量时,所述监控中心基于预设计算方式,对所述维度分组进行监控计算;
当基于预设计算方式,对所述维度分组进行监控计算时,计算获得所述维度分组的基准值,并根据所述基准值,配置相关的基准指标,并对配置的所述基准指标进行存储;
其中,所述待监控数据库中存储的数据源与大数据评分系统的评分日志相关。
其中,所述预设数据量是基于历史监控数据库确定的。
该实施例中,待监控数据库,例如是需要对系统日志A对应的数据库B进行监控,此时数据库B即为待监控数据库。
该实施例中,待监控名称,是对待监控数据库的命名,如总分稳定性-1。
在向监控中心进行监控规则配置的过程中还包括如下相关的配置信息,并根据如下的配置信息,对该实施例中配置的内容的进行辅助。
配置名称:配置的名称,在配置模板中保持唯一性,关联告警模块进行通知相关人员;
设置SysCode,即系统的数据源,用来区分不同业务线;
且数据源,是指日志指标数据的存储名称,监控的数据源;
配置维度列表:选择作为维度的字段,监控时会根据维度字段,计算基准时也会根据维度分组计算各自的基准;
对应的计算方式分为三种,一是绝对值计算,即计算指标的实际值,二是参考基准值计算,即从历史数据中计算当前维度的指标,三是上述两者全都包括在内。
配置最小数量:仅当监控的数据量大于该值时进行监控,避免因数据量过小导致的计算指标超出设定值而产生的误报;
配置回溯天数:计算基准数据需要参考历史数据,回溯天数指不包含今天在内,往前推N天的历史数据;
配置基准最小数据量:在计算历史数据作为基准的时候,有可能会出现历史数据量过少导致基准指标不准确的情况,设定该值表示只有当基准数据量大于该值的时候才会进行监控计算。
配置监控周期、task:监控执行的频率,分为5分钟、小时级、天、周、月,勾选checkbox后会生成相应的task内容。Task由两部分组成,cron和timeRage,cron是linux执行定时任务的一个表达式,业界有统一的标准解析该表达式,表示多久执行一次。TimeRage是指执行时需要获取的样本数据的时间范围,比如3600s表示获取最近一个小时内的数据作为监控样本。
配置查询指标:需要查询的样本数据指标,该查询语句遵循druid.io的查询语法,通过该查询获取监控指标,psi计算需要通过druid.io的扩展datasketches统计直方图和区间占比之后进行计算。
配置监控指标:监控指标的规则设定,根据查询指标得出的指标结果,判定指标是否异常,判断的方式有当前绝对值、和基准的相对波动值、和基准的绝对波动值、PSI指标,判断方法包括大于、大于等于、小于、小于等于、在范围区间内、在范围区间外。考虑到部分数据存在时效性,即某个时间段有具体的特征,比如白天调用量大,晚上基本无调用量,可针对该指标设置时间段,表示该指标只在该时间段内进行监控,指定时间段外不进行监控。同时支持单个指标的多次比较,只需新增相同的监控指标然后设置不同的比较方式和比较方法即可。
配置开启/关闭:开启后生效,如果不想让配置生效,直接关闭即可。
druid数据库在实时摄入数据时可设置查询的时间粒度,据此可查询聚合比设置时间粒度更大的时间粒度的数据,比如设置了查询时间粒度是分钟,则可查询分钟级、小时、天、周、月、季度、年级别的聚合数据,包括分位数和分数的区间分布。
通过上述配置,可以对查询数据库的PSI稳定性进行实时监控和分析。
群体稳定性指标(populationstabilityindex)公式:PSI=sum((实际占比-预期占比)*ln(实际占比/预期占比))举个例子解释下,比如训练一个logistic回归模型,预测时候会有个类概率输出p。
在测试数据集上的输出设定为p1,将它从小到大排序后将数据集10等分(每组样本数一直,此为等宽分组),计算每等分组的最大最小预测的类概率值。现在你用这个模型去对新的样本进行预测,预测结果叫p2,利用刚才在测试数据集上得到的10等分每等分的上下界。按p2将新样本划分为10分(不一定等分了哦)。实际占比就是新样本通过p2落在p1划分出来的每等分界限内的占比,预期占比就是测试数据集上各等分样本的占比。意义就是如果模型更稳定,那么在新的数据上预测所得类概率应该更建模分布一致,这样落在建模数据集所得的类概率所划分的等分区间上的样本占比应该和建模时一样,否则说明模型变化,一般来自预测变量结构变化。通常用作模型效果监测。一般认为PSI小于0.1时候模型稳定性很高,0.1-0.2一般,需要进一步研究,大于0.2模型稳定性差,建议修复:
Figure BDA0002567169280000121
PSI算法在系统中的实现步骤:
1、特征取值等频分段:
对特征在base集的取值进行等频划分(通常等频分10份即可),用字母i表示第i个分段区间
2、计算:
Figure BDA0002567169280000122
统计落在每个分段区间内的目标数量(如果是用户特征就是用户数,如果是门店特征就是门店数,etc),进一步得到数量占比,
Figure BDA0002567169280000123
表示该特征在base集中第i个取值分段中的数量占比。
3、计算:
Figure BDA0002567169280000124
继续按照第2步计算得到
Figure BDA0002567169280000125
分段还是采用第1步中产出的分段(依据base集产出的分段)
4、根据公式即可计算得到该特征基于这两个日期的PSI。
在原始评分数据不落地存储的情况下,使用datasketches计算得到评分。
上述技术方案的有益效果是:通过对监控中心的监控规则进行配置,便于提高监控的稳定性,提高监控的针对性,进而提高监控效率。
本发明提供一种大数据评分系统稳定性监控方法,所述监控计算是基于自定义与所述待监控数据库相关的直方图的分位数和自定义区间占比两种方式进行自定义基准分析来实现的;
在自定义基准分析之后,基于直方图计算规则,计算区间占比和分位数;
其中,通过接收修改指令,对所述直方图进行编辑修改,并基于直方图计算规则,重新计算与所述直方图相关的区间占比和分位数。
该实施例中,通过对自定义的分位数、区间占比进行分析,为监控结果PSI提供分析依据,如图3和4所示,图3为区间占比图,图4为分位数图。
由于部分历史数据可能存在一定的局限性,自动分位并不能产生有效的基准数据,需要手动设定,通过自定义分位数和自定义区间占比两种方式去自定义基准分析,点击计算区间占比或分位数后可修改分位数或占比,下一步可参与到PSI的计算中。
该实施例中,通过自定义的分位数、区间占比,可以对数值类的敏感数据使用datasketches(超快速计算算法)进行处理,无需单独进行加密存储,可直接通过近似计算的方式查询分位数和分布区间,提高查询效率。
在在查询分数的分位数和区间分布时会对该列进行聚合处理计算,得出分位数或区间分布的近似值。datasketches做该类的计算会比精确计算快很多,同时由于不存储原始数据,对存储空间的节省也是巨大的。
上述技术方案的有益效果是:通过查询或修改分位数和区间分布,大大降低存储成本,提高查询相应速度,为实时监控和分析提供基础。
本发明提供一种大数据评分系统稳定性监控方法,采集大数据评分系统的评分日志的之前,还包括:
当所述大数据评分系统产生新日志时,同步捕捉所述大数据评分系统的硬件信息,所述硬件信息与产生所述新日志的配置硬件相关;
同时,同步捕捉所述大数据评分系统的软件信息,所述软件信息与产生所述新日志的配置软件相关;
获取所述配置硬件和配置软件的周期性以及周期变化规律;
将所述周期性以及周期变化规律进行时间拆分处理,获得拆分序列;
获取与所述新日志相关的拆分序列,并对所述新日志以及相关的拆分序列进行融合处理,判断所述新日志与相关的拆分序列是否一致;
若一致,将所述新日志和相关的拆分序列同步导入异常检测模型中,判断所述新日志是否存在异常;
若存在,进行报警提醒;
否则,将所述新日志进行保留;
若不一致,将所述新日志和相关的拆分序列异步导入异常检测模型中,并获得对应的第一检测结果和第二检测结果;
根据所述第一检测结果和第二检测结果,判断异常检测点,并将所述异常检测点传输到日志修正模型中,获得修正方案;
同时,基于所述修正方案,对所述新日志进行修正,并将修正后的新日志进行保留。
该实施例中,由于在产生新日志的过程中,始终伴随着相关硬件与软件的相关信息,因此,同步捕捉硬件信息和软件信息获取相应的配置硬件和配置软件。
该实施例中,由于硬件以及软件在应用过程中,存在周期性以及周期变化规律,进而可以依据与周期相关的内容对新日志进行拆分,便于对新日志进行有效的判断,确保新日志的可靠性。
该实施例中,通过异步导入异常检测模型中,便于获取异常检测点,其异常检测点如新日志中的的某个信息存在异常,此时对应的位置即为异常检测点。
上述技术方案的有益效果是:通过对新日志涉及到的硬件和软件等进行检测,且进行序列拆分,并进行同步或异步的相关数据的获取,便于提高对新日志的检测效率,通过对新日志进行修正,便于提高新日志的有效性,加快后续进行实时监测和分析的效率。
本发明提供一种大数据评分系统稳定性监控方法,所述监控中心对接收到的评分日志进行预处理和预转化的过程中,包括:
对所述评分日志进行局部调度管理,并根据如下公式,计算所述局部调度管理的局部管理值;
Figure BDA0002567169280000151
其中,n表示所述局部调度管理过程中,基于时间戳从评分日志中调取的n段日志;Ti2表示第i段日志基于时间戳的初始时间点;Ti1表示第i段日志基于时间戳的末尾时间点;fi表示第i段日志的日志权重值;di表示第i段日志的日志增益值;d表示n段日志的平均增益值;
对所述评分日志进行文件切分,基于时间戳获取不同时间节点的切分日志,并对不同时间节点的切分日志进行全局调度管理,并根据如下公式,获取所有切分日志的全局管理值;
Figure BDA0002567169280000152
其中,m表示所述全局调度管理过程中,基于不同时间节点的切分日志的个数;Tj表示第j个切分日志对应的时间节点的时长;fj表示第j个切分日志的日志权重值;dj表示第j个切分日志的日志增益值;d′表示m个切分日志的平均增益值;fj+1表示第j+1个切分日志的日志权重值;f′表示m个切分日志的平均日志权重值;
根据局部管理值和全局管理值,并基于预先存储的补丁数据库,创建与所述切分日志相关的补丁文件;
同时,对每个切分日志进行初始化处理,生成与所述切分日志相关的切分后缀数组;
将所述切分日志以及与切分日志相关的补丁文件和切分后缀数组打包成完整日志,并对所述完成日志进行预处理和预转化。
上述技术方案的有益效果是:通过对评分日志进行局部调度管理,并对评分日志进行文件切分后,进行每个切分文件的全局调度管理,便于有效的获取与评分日志相关的补丁文件,确定评分日志的有效性和可靠性,通过打包成完整日志,便于确保评分日志的完整性,进而提高对评分日志进行预处理和预转化的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种大数据评分系统稳定性监控方法,其特征在于,包括:
采集大数据评分系统的评分日志;
将采集的评分日志通过预设消息队列进行解耦传输到监控中心;
所述监控中心对接收到的评分日志进行预处理和预转化;
将预处理和预转化后的评分日志导入查询数据库,同时,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控。
2.如权利要求1所述的稳定性监控方法,其特征在于,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,包括:
查询与所述监控中心监控获得的监控样本相关的样本数据指标;
获取所述样本数据指标的指标结果,基于所述指标结果判断所述样本数据指标是否异常;
若异常,基于所述监控中心,向预先配置好的目标员工的警示端发送第一警示指令,所述警示端执行与第一警示指令相关的第一警示提醒;
否则,基于所述样本数据指标,提取监控指标。
3.如权利要求1所述的稳定性监控方法,其特征在于,采集大数据评分系统的评分日志的过程中包括:
基于时间戳,实时监测所述大数据评分系统产生的评分日志;
对所述评分日志的数据容量进行判断,当所述数据容量到达预设容量范围时,将对应的评分日志存储传输到监控中心;
当所述数据容量小于预设容量范围对应的最小容量时,基于所述时间戳,继续实时监测所述大数据评分系统产生的评分日志;
当所述数据容量大于预设容量范围对应的最大容量时,判定传输失败,并向预先配置好的目标员工的警示端发送第二警示指令,所述警示端执行与第二警示指令相关的第二警示提醒。
4.如权利要求1所述的稳定性监控方法,其特征在于,所述监控中心通过轮循查询数据的方式对导入后的查询数据库进行监控之前,还包括:
向所述监控中心进行监控规则配置,且监控规则配置步骤包括:
配置监控名称到待监控数据库,并将名称配置信息传输到所述监控中心,所述名称配置信息包括:监控数据库以及与待监控数据库对应的待监控名称;
向配置有监控名称的待监控数据库配置监控维度,并根据所述监控维度从对应的评分日志中提取维度字段,并构成维度分组;
确定所述维度分组对应的基准数据量,当所述基准数据量大于预设数据量时,所述监控中心基于预设计算方式,对所述维度分组进行监控计算;
当基于预设计算方式,对所述维度分组进行监控计算时,计算获得所述维度分组的基准值,并根据所述基准值,配置相关的基准指标,并对配置的所述基准指标进行存储;
其中,所述待监控数据库中存储的数据源与大数据评分系统的评分日志相关。
5.如权利要求4所述的稳定性监控方法,其特征在于,
所述预设数据量是基于历史监控数据库确定的。
6.如权利要求4所述的稳定性监控方法,其特征在于,所述监控计算是基于自定义与所述待监控数据库相关的直方图的分位数和自定义区间占比两种方式进行自定义基准分析来实现的;
在自定义基准分析之后,基于直方图计算规则,计算区间占比和分位数;
其中,通过接收修改指令,对所述直方图进行编辑修改,并基于直方图计算规则,重新计算与所述直方图相关的区间占比和分位数。
7.如权利要求1所述的稳定性监控方法,其特征在于,采集大数据评分系统的评分日志的之前,还包括:
当所述大数据评分系统产生新日志时,同步捕捉所述大数据评分系统的硬件信息,所述硬件信息与产生所述新日志的配置硬件相关;
同时,同步捕捉所述大数据评分系统的软件信息,所述软件信息与产生所述新日志的配置软件相关;
获取所述配置硬件和配置软件的周期性以及周期变化规律;
将所述周期性以及周期变化规律进行时间拆分处理,获得拆分序列;
获取与所述新日志相关的拆分序列,并对所述新日志以及相关的拆分序列进行融合处理,判断所述新日志与相关的拆分序列是否一致;
若一致,将所述新日志和相关的拆分序列同步导入异常检测模型中,判断所述新日志是否存在异常;
若存在,进行报警提醒;
否则,将所述新日志进行保留;
若不一致,将所述新日志和相关的拆分序列异步导入异常检测模型中,并获得对应的第一检测结果和第二检测结果;
根据所述第一检测结果和第二检测结果,判断异常检测点,并将所述异常检测点传输到日志修正模型中,获得修正方案;
同时,基于所述修正方案,对所述新日志进行修正,并将修正后的新日志进行保留。
8.如权利要求1所述的稳定性监控方法,其特征在于,所述监控中心对接收到的评分日志进行预处理和预转化的过程中,包括:
对所述评分日志进行局部调度管理,并根据如下公式,计算所述局部调度管理的局部管理值;
Figure FDA0002567169270000031
其中,n表示所述局部调度管理过程中,基于时间戳从评分日志中调取的n段日志;Ti2表示第i段日志基于时间戳的初始时间点;Ti1表示第i段日志基于时间戳的末尾时间点;fi表示第i段日志的日志权重值;di表示第i段日志的日志增益值;d表示n段日志的平均增益值;
对所述评分日志进行文件切分,基于时间戳获取不同时间节点的切分日志,并对不同时间节点的切分日志进行全局调度管理,并根据如下公式,获取所有切分日志的全局管理值;
Figure FDA0002567169270000041
其中,m表示所述全局调度管理过程中,基于不同时间节点的切分日志的个数;Tj表示第j个切分日志对应的时间节点的时长;fj表示第j个切分日志的日志权重值;dj表示第j个切分日志的日志增益值;d′表示m个切分日志的平均增益值;fj+1表示第j+1个切分日志的日志权重值;f′表示m个切分日志的平均日志权重值;
根据局部管理值和全局管理值,并基于预先存储的补丁数据库,创建与所述切分日志相关的补丁文件;
同时,对每个切分日志进行初始化处理,生成与所述切分日志相关的切分后缀数组;
将所述切分日志以及与切分日志相关的补丁文件和切分后缀数组打包成完整日志,并对所述完成日志进行预处理和预转化。
CN202010638015.6A 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法 Active CN111858274B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110489346.2A CN113190426B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法
CN202010638015.6A CN111858274B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010638015.6A CN111858274B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110489346.2A Division CN113190426B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法

Publications (2)

Publication Number Publication Date
CN111858274A true CN111858274A (zh) 2020-10-30
CN111858274B CN111858274B (zh) 2021-06-01

Family

ID=73153420

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110489346.2A Active CN113190426B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法
CN202010638015.6A Active CN111858274B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110489346.2A Active CN113190426B (zh) 2020-07-02 2020-07-02 一种大数据评分系统稳定性监控方法

Country Status (1)

Country Link
CN (2) CN113190426B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667590A (zh) * 2021-01-05 2021-04-16 上海七牛信息技术有限公司 一种高效融合cdn实时日志olap存储查询系统及其存储查询方法
CN117495173A (zh) * 2023-11-03 2024-02-02 睿智合创(北京)科技有限公司 一种评分升级切换数据信息的前台数据监控方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849369B (zh) * 2021-09-22 2024-06-11 上海浦东发展银行股份有限公司 一种评分方法、装置、设备及存储介质
CN114297242A (zh) * 2021-12-31 2022-04-08 上海淇玥信息技术有限公司 一种基于入参解耦的数据查询方法、装置和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075857A (en) * 1988-03-11 1991-12-24 Maresca Joseph S Unmanned compliance monitoring device
CN101197694B (zh) * 2006-12-04 2011-05-11 中兴通讯股份有限公司 一种通讯系统日志集中统计、处理系统及其方法
CN102055818B (zh) * 2010-12-30 2013-09-18 北京世纪互联宽带数据中心有限公司 分布式智能dns库系统
US8719225B1 (en) * 2012-01-17 2014-05-06 Amazon Technologies, Inc. System and method for log conflict detection and resolution in a data store
CN105138615B (zh) * 2015-08-10 2019-02-26 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105426292B (zh) * 2015-10-29 2018-03-16 网易(杭州)网络有限公司 一种游戏日志实时处理系统及方法
CN107038162B (zh) * 2016-02-03 2021-03-02 北京嘀嘀无限科技发展有限公司 基于数据库日志的实时数据查询方法和系统
CN106776253B (zh) * 2016-12-08 2020-08-04 武汉斗鱼网络科技有限公司 一种界面卡顿监测方法及装置
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN107506451B (zh) * 2017-08-28 2020-11-03 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN107579975A (zh) * 2017-09-05 2018-01-12 合肥丹朋科技有限公司 网站信息实时监控系统
WO2019060326A1 (en) * 2017-09-20 2019-03-28 University Of Utah Research Foundation ANALYSIS OF SYSTEM EVENT LOGS DURING CONTINUOUS TRANSMISSION
CN107612740A (zh) * 2017-09-30 2018-01-19 武汉光谷信息技术股份有限公司 一种分布式环境下的日志监控系统及方法
CN108334556A (zh) * 2017-12-31 2018-07-27 江苏易润信息技术有限公司 一种分析互联网金融海量日志的方法及系统
CN108376181A (zh) * 2018-04-24 2018-08-07 丹阳飓风物流股份有限公司 基于elk的日志服务平台
CN109034521B (zh) * 2018-06-07 2021-11-16 国电南瑞科技股份有限公司 一种电网调度控制系统的智能运维架构设计方法
CN110493348B (zh) * 2019-08-26 2023-02-28 山东融为信息科技有限公司 一种基于物联网的智能监控报警系统
CN110908957A (zh) * 2019-11-20 2020-03-24 国网湖南省电力有限公司 电力行业网络安全日志审计分析方法
CN111352921A (zh) * 2020-02-19 2020-06-30 中国平安人寿保险股份有限公司 基于elk的慢查询监控方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667590A (zh) * 2021-01-05 2021-04-16 上海七牛信息技术有限公司 一种高效融合cdn实时日志olap存储查询系统及其存储查询方法
CN117495173A (zh) * 2023-11-03 2024-02-02 睿智合创(北京)科技有限公司 一种评分升级切换数据信息的前台数据监控方法及系统
CN117495173B (zh) * 2023-11-03 2024-09-24 睿智合创(北京)科技有限公司 一种评分升级切换数据信息的前台数据监控方法及系统

Also Published As

Publication number Publication date
CN111858274B (zh) 2021-06-01
CN113190426B (zh) 2023-10-20
CN113190426A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111858274B (zh) 一种大数据评分系统稳定性监控方法
CN111475804B (zh) 一种告警预测方法及系统
CN111475370A (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN112416724B (zh) 告警处理方法、系统、计算机设备和存储介质
US20110078106A1 (en) Method and system for it resources performance analysis
CN106940677A (zh) 一种应用日志数据告警方法及装置
RU2716029C1 (ru) Система мониторинга качества и процессов на базе машинного обучения
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN111740884B (zh) 一种日志处理方法及电子设备、服务器、存储介质
CN111966762B (zh) 指标采集方法以及装置
CN113220756A (zh) 物流数据实时处理方法、装置、设备及存储介质
CN113626241B (zh) 应用程序的异常处理方法、装置、设备及存储介质
CN114416703A (zh) 数据完整性自动监控方法、装置、设备及介质
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN112416904A (zh) 电力数据规范化处理方法及装置
CN112799868B (zh) 一种根因确定方法、装置、计算机设备及存储介质
CN117909173A (zh) 基于大数据云平台的云应用健康度分析方法及装置
CN110011845B (zh) 日志采集方法及系统
CN113780906A (zh) 机台管理方法、装置及计算机可读存储介质
CN113220530B (zh) 数据质量监控方法及平台
CN114996080A (zh) 数据处理方法、装置、设备及存储介质
CN118260167B (zh) 气象数据产品加工流程监控方法、系统、设备及存储介质
Mijumbi et al. MAYOR: machine learning and analytics for automated operations and recovery
CN112604295A (zh) 游戏更新失败的上报方法、装置及管理方法、服务器
CN112148491B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant