CN116126647B - 一种适配于数字化企业的数据联动分析系统 - Google Patents

一种适配于数字化企业的数据联动分析系统 Download PDF

Info

Publication number
CN116126647B
CN116126647B CN202310403485.8A CN202310403485A CN116126647B CN 116126647 B CN116126647 B CN 116126647B CN 202310403485 A CN202310403485 A CN 202310403485A CN 116126647 B CN116126647 B CN 116126647B
Authority
CN
China
Prior art keywords
service
data
unit
module
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310403485.8A
Other languages
English (en)
Other versions
CN116126647A (zh
Inventor
李彪
张帅
程强
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Hurricane Engine Information Technology Co ltd
Original Assignee
Nanjing Hurricane Engine Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Hurricane Engine Information Technology Co ltd filed Critical Nanjing Hurricane Engine Information Technology Co ltd
Priority to CN202310403485.8A priority Critical patent/CN116126647B/zh
Publication of CN116126647A publication Critical patent/CN116126647A/zh
Application granted granted Critical
Publication of CN116126647B publication Critical patent/CN116126647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适配于数字化企业的数据联动分析系统,属于服务数据联动分析技术领域。本发明包括服务治理模块、网关治理模块、缓存模块、日志治理模块、健康检查模块、联动分析模块和数据遥测模块;所述服务治理模块与网关治理模块、缓存模块、日志治理模块、健康检查模块分别电性连接;所述网关治理模块、缓存模块、日志治理模块、健康检查模块的输出端分别与所述联动分析模块电性连接;所述联动分析模块的输出端与所述数据遥测模块的输入端相连接;所述数据遥测模块连接有管理员维护端口。本系统以服务元数据为基础,在服务从开始运行到停止整个生命周期期间收集服务数据,完成数据加工与联动分析,输出服务的预判告警和数据的可视化展示。

Description

一种适配于数字化企业的数据联动分析系统
技术领域
本发明涉及服务数据联动分析技术领域,具体为一种适配于数字化企业的数据联动分析系统。
背景技术
服务,也称为系统服务,系统服务是一种应用程序类型,服务应用程序通常可以在本地和通过网络为用户提供一些功能,例如客户端/服务器应用程序、Web服务器、数据库服务器以及其他基于服务器的应用程序。服务一般不会出现程序窗口或对话框,其一般是指执行指定系统功能的程序、例程或进程。
在企业系统平台的运维或者可视化监测过程中,由于运行数据的高速化,往往会导致在告警后已经出现大量告警数据和底层垃圾数据,其会导致运维过程中存留数据垃圾在系统平台,使得系统平台内部不断冗杂,影响使用效率,即便利用相关软件清理,也难以准确选择目标,还会存在数据丢失的风险。
发明内容
本发明的目的在于提供一种适配于数字化企业的数据联动分析系统,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种适配于数字化企业的数据联动分析系统,该系统包括服务治理模块、网关治理模块、缓存模块、日志治理模块、健康检查模块、联动分析模块和数据遥测模块;
所述服务治理模块用于获取服务基本信息,可视化输出数据链路上的服务指标;所述网关治理模块用于获取服务元数据,接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,同时以可视化形式展示服务外部指标;所述缓存模块用于与服务治理模块进行数据交互,对服务数据进行缓存;所述日志治理模块用于记录服务的功能配置定义,对服务数据进行聚合处理,将处理后的数据转存至联动分析模块;所述健康检查模块用于设置时间周期,对服务配置进行健康检查和记录,构建历史健康状态数据库,存储历史情况下出现健康事件的信息数据;所述联动分析模块用于获取传输的各项数据,对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;所述数据遥测模块用于设置告警配置,包括服务的CPU、内存、磁盘和网络基础资源指标,根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息;
所述服务治理模块与网关治理模块、缓存模块、日志治理模块、健康检查模块分别电性连接;所述网关治理模块的输出端与所述缓存模块的输入端相连接;所述日志治理模块的输出端与所述健康检查模块的输入端相连接;所述网关治理模块、缓存模块、日志治理模块、健康检查模块的输出端分别与所述联动分析模块电性连接;所述联动分析模块的输出端与所述数据遥测模块的输入端相连接;所述数据遥测模块连接有管理员维护端口。
根据上述技术方案,所述服务治理模块包括控制面单元、数据面单元和可视化单元;
所述控制面单元用于接收服务注册,获取服务基本信息,所述服务基本信息包括服务唯一识别号、地区、机房信息、运行环境、实例名、版本号、元数据和镜像信息,同时在控制面单元对服务治理配置,所述治理配置包括熔断、限流和资源预警,并将治理配置的控制信息下发到数据面单元;所述数据面单元获取当前服务的治理配置,执行治理配置相应的功能并采集治理配置过程中产生的数据,同时调用关系、服务上下线信息和服务的请求数量,以及定时抓取服务和运行服务的平台自身的系统资源使用信息上报至联动分析模块;所述可视化单元用于展示服务指标的数据情况,所述服务指标以服务唯一识别号作为核心区分,系统平台利用数据调用链路的拓扑图与服务唯一识别号进行关联;所述服务指标包括对于服务治理发生的事件与告警的统计分析,对高频事件的服务的排名信息,针对服务详情进行的遥测信息,服务当前的资源消耗图表以及系统设置的自定义监控内容;
所述控制面单元的输出端与所述数据面单元的输入端相连接;所述控制面单元与所述数据面单元均与所述可视化单元相连接。
根据上述技术方案,所述网关治理模块包括网关配置单元、外部访问管理单元、数据存储下发单元和多维展示单元;
所述网关配置单元基于服务唯一识别号设置服务的网关配置,将服务元数据注册进网关治理模块中,所述服务元数据包括服务域名、路径、服务访问端口、服务访问内网地址和证书;所述外部访问管理单元用于接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,并在运行过程中,上报服务的访问和状态信息至联动分析模块,包括请求日志记录、限流、熔断和WAF防火墙;所述数据存储下发单元将请求日志记录信息发送到日志治理模块,同时提供时序信息拉取接口,系统平台通过时序信息拉取接口拉取时序数据形成流量数据存储;所述多维展示单元根据流量数据存储,以可视化形式展示各个维度的指标信息,包括出入网流量统计、RPS(每秒请求数量)、状态码异常分析、请求延迟指标分析;
所述网关配置单元的输出端与所述外部访问管理单元的输入端相连接;所述外部访问管理单元的输出端与所述数据存储下发单元、联动分析模块的输入端相连接;所述数据存储下发单元的输出端与所述多维展示单元的输入端相连接。
根据上述技术方案,所述缓存模块包括数据交互单元和缓存引擎;
所述数据交互单元处于控制面单元与数据面单元的传输链路上,以服务唯一识别号作为识别标准,在控制面单元进行服务治理配置时,数据交互单元同时进行数据交互功能配置,所述数据交互功能配置包括缓存分片前缀、缓存引擎、网络连接配置、端口配置、主从配置;在控制面单元将服务治理配置下发到数据面单元时,数据面单元提供对服务进出流量的代理,服务根据端口配置将缓存请求发送到数据面单元,数据面单元将缓存请求发送到缓存引擎实现缓存功能,并以服务唯一识别号为关键数据记录遥测信息,所述遥测信息包括请求发送数量、请求发送成功失败状态、请求key、请求时间和请求内容大小;
所述数据交互单元的输出端与所述缓存引擎的输入端相连接。
根据上述技术方案,所述日志治理模块包括日志基础配置单元和聚合处理单元;
所述日志基础配置单元以服务唯一识别号作为识别标准,在控制面单元获取服务基本信息后,对服务进行日志基础配置,所述日志基础配置包括日志开关、日志存储引擎、采集级别和预处理规则,将日志基础配置反馈给控制面单元后,控制面单元将日志基础配置下发到数据面单元,数据面对日志基础配置数据进行中转和初步预处理;所述初步预处理包括拦截和过滤;所述聚合处理单元用于对日志数据进行聚合处理,提供查询功能,根据服务唯一识别号进行服务日志查询,构建日志数据指标,转存至联动分析模块,所述日志数据指标包括日志生产速率、最近的预警事件以及根据日志等级的汇总数据;
所述日志基础配置单元的输出端与所述聚合处理单元的输入端相连接。
根据上述技术方案,所述健康检查模块包括时间巡检单元和存储分析单元;
所述时间巡检单元用于设置时间周期,为服务配置健康检查功能,所述健康检查功能包括服务唯一标识检查、服务端口巡查、服务访问信息确认、接口状态监控、返回状态分析;获取到健康检查功能中出现预警的健康数据,一份传输至可视化单元,另一份存储至历史健康状态数据库;
所述时间巡检单元的输出端与所述存储分析单元的输入端相连接。
根据上述技术方案,所述联动分析模块包括数据聚合单元和联动分析单元;
所述数据聚合单元用于获取服务的访问和状态信息、日志数据指标、系统资源使用信息和出现预警的健康数据,对数据进行聚合传输至联动分析单元;所述联动分析单元用于对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;
所述数据聚合单元的输出端与所述联动分析单元的输入端相连接。
所述联动分析单元还包括:
调用健康检查模块的终端服务告警数据,构建一组训练集,输出终端服务内部指标变化趋势:
获取任一终端服务指标相邻数据的差值变化数据,构建时间周期U,实时计算时间周期U内出现的差值变化数据的平均值,若存在平均值超出设定阈值,启动多角度预判分析模型:
yt+T=at+bt*T
其中,T代表预测周期数据;t代表时间周期U内的第t组数据;yt+T代表t+T组的控制面单元中的预测相邻服务指标值变化;at、bt代表趋势影响系数;
其中:
Mt1=(y1+y2+……+yt-N+1)/N
Mt2=[Mt1+M(t-1)1+……+M(t-N+1)1]/N
at=2Mt1-Mt2
bt=2(Mt1-Mt2)/(N-1)
其中,Mt1代表第一指标;Mt2代表第二指标;N代表时间周期U内的数据组数总量;
设置控制面单元中的各个服务信息下的相邻服务指标变化阈值,在T取系统预设周期数据值时,若存在P组yt+T数据超出相邻服务指标变化阈值,则判断为当前控制面单元中的服务异常,输出告警信息至数据遥测模块。
根据上述技术方案,所述数据遥测模块包括数据收集单元和告警单元;
用于收集健康检查模块以及联动分析模块下的告警信息数据,所述健康检查模块的告警数据包括终端服务的CPU、内存、磁盘、网络数据;所述告警单元用于设置告警配置,包括服务的CPU、内存、磁盘和网络基础资源指标,根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息;
所述数据收集单元的输出端与所述告警单元的输入端相连接。
与现有技术相比,本发明所达到的有益效果是:
本系统以服务元数据为基础,在服务从开始运行到停止整个生命周期期间收集服务数据,将不同类型的数据进行联动分析处理,并与服务进行关联,完成数据加工与联动分析,输出服务的预判告警和数据的可视化展示,其能够从服务角度出发,对系统平台运行实现预判告警,以服务元数据变化反馈系统平台运维,校对时间短,发现问题更加及时,从而实现对系统平台的高速运维,防止系统平台内垃圾堆叠。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种适配于数字化企业的数据联动分析系统的框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,在本实施例一中:提供如下系统框图,如图1所示:其包括服务治理模块、网关治理模块、缓存模块、日志治理模块、健康检查模块、联动分析模块和数据遥测模块;
所述服务治理模块用于获取服务基本信息,可视化输出数据链路上的服务指标;所述网关治理模块用于获取服务元数据,接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,同时以可视化形式展示服务外部指标;所述缓存模块用于与服务治理模块进行数据交互,对服务数据进行缓存;所述日志治理模块用于记录服务的功能配置定义,对服务数据进行聚合处理,将处理后的数据转存至联动分析模块;所述健康检查模块用于设置时间周期,对服务配置进行健康检查和记录,构建历史健康状态数据库,存储历史情况下出现健康事件的信息数据;所述联动分析模块用于获取传输的各项数据,对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;所述数据遥测模块用于设置告警配置,包括服务的CPU、内存、磁盘和网络基础资源指标,根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息;
所述服务治理模块与网关治理模块、缓存模块、日志治理模块、健康检查模块分别电性连接;所述网关治理模块的输出端与所述缓存模块的输入端相连接;所述日志治理模块的输出端与所述健康检查模块的输入端相连接;所述网关治理模块、缓存模块、日志治理模块、健康检查模块的输出端分别与所述联动分析模块电性连接;所述联动分析模块的输出端与所述数据遥测模块的输入端相连接;所述数据遥测模块连接有管理员维护端口。
所述服务治理模块包括控制面单元、数据面单元和可视化单元;
所述控制面单元用于接收服务注册,获取服务基本信息,所述服务基本信息包括服务唯一识别号、地区、机房信息、运行环境、实例名、版本号、元数据和镜像信息,同时在控制面单元对服务治理配置,所述治理配置包括熔断、限流和资源预警,并将治理配置的控制信息下发到数据面单元;所述数据面单元获取当前服务的治理配置,执行治理配置相应的功能并采集治理配置过程中产生的数据,同时调用关系、服务上下线信息和服务的请求数量,以及定时抓取服务和运行服务的平台自身的系统资源使用信息上报至联动分析模块;所述可视化单元用于展示服务指标的数据情况,所述服务指标以服务唯一识别号作为核心区分,系统平台利用数据调用链路的拓扑图与服务唯一识别号进行关联;所述服务指标包括对于服务治理发生的事件与告警的统计分析,对高频事件的服务的排名信息,针对服务详情进行的遥测信息,服务当前的资源消耗图表以及系统设置的自定义监控内容;
所述控制面单元的输出端与所述数据面单元的输入端相连接;所述控制面单元与所述数据面单元均与所述可视化单元相连接。
所述网关治理模块包括网关配置单元、外部访问管理单元、数据存储下发单元和多维展示单元;
所述网关配置单元基于服务唯一识别号设置服务的网关配置,将服务元数据注册进网关治理模块中,所述服务元数据包括服务域名、路径、服务访问端口、服务访问内网地址和证书;所述外部访问管理单元用于接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,并在运行过程中,上报服务的访问和状态信息至联动分析模块,包括请求日志记录、限流、熔断和WAF防火墙;所述数据存储下发单元将请求日志记录信息发送到日志治理模块,同时提供时序信息拉取接口,系统平台通过时序信息拉取接口拉取时序数据形成流量数据存储;所述多维展示单元根据流量数据存储,以可视化形式展示各个维度的指标信息,包括出入网流量统计、RPS、状态码异常分析、请求延迟指标分析;
所述网关配置单元的输出端与所述外部访问管理单元的输入端相连接;所述外部访问管理单元的输出端与所述数据存储下发单元、联动分析模块的输入端相连接;所述数据存储下发单元的输出端与所述多维展示单元的输入端相连接。
所述缓存模块包括数据交互单元和缓存引擎;
所述数据交互单元处于控制面单元与数据面单元的传输链路上,以服务唯一识别号作为识别标准,在控制面单元进行服务治理配置时,数据交互单元同时进行数据交互功能配置,所述数据交互功能配置包括缓存分片前缀、缓存引擎、网络连接配置、端口配置、主从配置;在控制面单元将服务治理配置下发到数据面单元时,数据面单元提供对服务进出流量的代理,服务根据端口配置将缓存请求发送到数据面单元,数据面单元将缓存请求发送到缓存引擎实现缓存功能,并以服务唯一识别号为关键数据记录遥测信息,所述遥测信息包括请求发送数量、请求发送成功失败状态、请求key、请求时间和请求内容大小;
所述数据交互单元的输出端与所述缓存引擎的输入端相连接。
所述日志治理模块包括日志基础配置单元和聚合处理单元;
所述日志基础配置单元以服务唯一识别号作为识别标准,在控制面单元获取服务基本信息后,对服务进行日志基础配置,所述日志基础配置包括日志开关、日志存储引擎、采集级别和预处理规则,将日志基础配置反馈给控制面单元后,控制面单元将日志基础配置下发到数据面单元,数据面对日志基础配置数据进行中转和初步预处理;所述初步预处理包括拦截和过滤;所述聚合处理单元用于对日志数据进行聚合处理,提供查询功能,根据服务唯一识别号进行服务日志查询,构建日志数据指标,转存至联动分析模块,所述日志数据指标包括日志生产速率、最近的预警事件以及根据日志等级的汇总数据;
所述日志基础配置单元的输出端与所述聚合处理单元的输入端相连接。
所述健康检查模块包括时间巡检单元和存储分析单元;
所述时间巡检单元用于设置时间周期,为服务配置健康检查功能,所述健康检查功能包括服务唯一标识检查、服务端口巡查、服务访问信息确认、接口状态监控、返回状态分析;获取到健康检查功能中出现预警的健康数据,一份传输至可视化单元,另一份存储至历史健康状态数据库;
所述时间巡检单元的输出端与所述存储分析单元的输入端相连接。
所述联动分析模块包括数据聚合单元和联动分析单元;
所述数据聚合单元用于获取服务的访问和状态信息、日志数据指标、系统资源使用信息和出现预警的健康数据,对数据进行聚合传输至联动分析单元;所述联动分析单元用于对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;
所述数据聚合单元的输出端与所述联动分析单元的输入端相连接。
对所述联动分析单元,设置有如下实施例作为说明,设想服务A和服务B都依赖服务C。服务C是一个CPU敏感型计算服务,为了保护服务C,除了基础的各项配置之外,为服务C在服务治理模块配置了限流策略,在承载量达到巅峰时进行限流。
设置其中一种实施例为:有大量请求经由网关发送到了服务A,服务A会请求服务C进行业务计算,而且此流量超过了服务C的承载上限:
由于服务C承载到了上限,那么限流功能会被触发,从服务治理模块会抛出服务C的限流信息和告警。同时服务C的健康检查会报告异常,从健康检查模块也会报出服务C的状态异常信息。同时从日志模块中也能看到各个模块和服务C发送的相关的信息,通过元数据与服务C关联。由于服务承载力到了阈值上限,那么原始的数据遥测也开始输出服务C的资源报警。综合以上信息可以看出服务C由于大量请求造成CPU资源使用达到上限,因而被限流保护了。但是触发原因还需要进一步分析。在开始分析之后,大量的滞后性指标才会相继出现,例如:网关治理模块和服务治理模块的流量指标会报告服务A和服务C的大流量吞吐。服务链路指标能够表明服务A和服务C之间存在频繁调用。其中网关模块会表明服务A的流量来自外部用户请求,从而定位到由于大量用户请求到达服务A导致服务A的流量快速增加。
在这样的情况下,服务C已然造成了业务计算的拥堵,势必会导致了系统平台的故障,同时也出现了大量的垃圾冗余,这时候还需要运维人员逐步清理,修复异常,同时大量的滞后性指标又会导致系统确定慢,延时性高,例如,服务C告警同时根本找不到服务A的问题所在,也没有办法及时处理,因此,我们引入了如下的数据联动分析方式:
调用健康检查模块的终端服务告警数据,构建一组训练集,输出终端服务内部指标变化趋势:
以服务C为例,假设服务C中的业务计算量数据为200、200、210、190;则实时获取其平均值为200,上述我们提及服务A出现大批流量业务,因此服务C的业务计算量数据实时变化为200、200、210、190、800、1200;继续实时获取其平均值为467;根据日常的服务C设置其阈值业务为300左右,一旦超出就说明存在大批量业务涌入,此时启动多角度预判分析模型,来分析是控制面的哪个服务指标出现了问题;
获取任一终端服务指标相邻数据的差值变化数据,构建时间周期U,实时计算时间周期U内出现的差值变化数据的平均值,若存在平均值超出设定阈值,启动多角度预判分析模型:
yt+T=at+bt*T
其中,T代表预测周期数据;t代表时间周期U内的第t组数据;yt+T代表t+T组的控制面单元中的预测相邻服务指标值变化;at、bt代表趋势影响系数;
这里是对控制面单元中的服务指标进行测算,即实施例所述的服务A、服务B;基于服务A、服务B的指标变化,来判断到底是哪个服务出现了问题,由于服务A或服务B的变化不一定能够全面引起服务C的变化,例如服务A变化100,可能服务C仅变化20,可能还有服务D可以分担服务A的部分计算,一次利用多角度的方式,判断所有服务的变化,也引入了P组yt+T数据超出相邻服务指标变化阈值,则判断为当前控制面单元中的服务异常;
其中:
Mt1=(y1+y2+……+yt-N+1)/N
Mt2=[Mt1+M(t-1)1+……+M(t-N+1)1]/N
at=2Mt1-Mt2
bt=2(Mt1-Mt2)/(N-1)
其中,Mt1代表第一指标;Mt2代表第二指标;N代表时间周期U内的数据组数总量;
主要计算方式为利用函数make_forecasts(),输入数据集的训练集、测试集和配置作为参数进行,并返回一个预测列表,如下所示:
>># evaluate the persistence model
def make forecasts(train test,n lag,n seq):
forecasts=list(()
for i in range(len(test)):
X,y=test[i,0:nlag],test[in lag:]# make forecast
forecast=persistence(X[-1],nseg
# store the forecast
forecasts.append(forecast)
return forecasts
所述数据遥测模块包括数据收集单元和告警单元;
用于收集健康检查模块以及联动分析模块下的告警信息数据,所述健康检查模块的告警数据包括终端服务的CPU、内存、磁盘、网络数据;所述告警单元用于设置告警配置,包括服务的CPU、内存、磁盘和网络基础资源指标,根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息;
所述数据收集单元的输出端与所述告警单元的输入端相连接。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种适配于数字化企业的数据联动分析系统,其特征在于:该系统包括服务治理模块、网关治理模块、缓存模块、日志治理模块、健康检查模块、联动分析模块和数据遥测模块;
所述服务治理模块用于获取服务基本信息,可视化输出数据链路上的服务指标;所述网关治理模块用于获取服务元数据,接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,同时以可视化形式展示服务外部指标;所述缓存模块用于与服务治理模块进行数据交互,对服务数据进行缓存;所述日志治理模块用于记录服务的功能配置定义,对服务数据进行聚合处理,将处理后的数据转存至联动分析模块;所述健康检查模块用于设置时间周期,对服务配置进行健康检查和记录,构建历史健康状态数据库,存储历史情况下出现健康事件的信息数据;所述联动分析模块用于获取传输的各项数据,对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;所述数据遥测模块用于设置告警配置,包括服务的CPU、内存、磁盘和网络基础资源指标,根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息;
所述服务治理模块与网关治理模块、缓存模块、日志治理模块、健康检查模块分别电性连接;所述网关治理模块的输出端与所述缓存模块的输入端相连接;所述日志治理模块的输出端与所述健康检查模块的输入端相连接;所述网关治理模块、缓存模块、日志治理模块、健康检查模块的输出端分别与所述联动分析模块电性连接;所述联动分析模块的输出端与所述数据遥测模块的输入端相连接;所述数据遥测模块连接有管理员维护端口;
所述联动分析模块包括数据聚合单元和联动分析单元;
所述数据聚合单元用于获取服务的访问和状态信息、日志数据指标、系统资源使用信息和出现预警的健康数据,对数据进行聚合传输至联动分析单元;所述联动分析单元用于对服务进行联动分析,形成多角度预测分析服务问题,并将问题数据送入数据遥测模块;
所述数据聚合单元的输出端与所述联动分析单元的输入端相连接;
所述联动分析单元还包括:
调用健康检查模块的终端服务告警数据,构建一组训练集,输出终端服务内部指标变化趋势:
获取任一终端服务指标相邻数据的差值变化数据,构建时间周期U,实时计算时间周期U内出现的差值变化数据的平均值,若存在平均值超出设定阈值,启动多角度预判分析模型:
yt+T=at+bt*T
其中,T代表预测周期数据;t代表时间周期U内的第t组数据;yt+T代表t+T组的控制面单元中的预测相邻服务指标值变化;at、bt代表趋势影响系数;
其中:
Mt1=(y1+y2+……+yt-N+1)/N
Mt2=[Mt1+M(t-1)1+……+M(t-N+1)1]/N
at=2Mt1-Mt2
bt=2(Mt1-Mt2)/(N-1)
其中,Mt1代表第一指标;Mt2代表第二指标;N代表时间周期U内的数据组数总量;
设置控制面单元中的各个服务信息下的相邻服务指标变化阈值,在T取系统预设周期数据值时,若存在P组yt+T数据超出相邻服务指标变化阈值,则判断为当前控制面单元中的服务异常,输出告警信息至数据遥测模块。
2.根据权利要求1所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述服务治理模块包括控制面单元、数据面单元和可视化单元;
所述控制面单元用于接收服务注册,获取服务基本信息,所述服务基本信息包括服务唯一识别号、地区、机房信息、运行环境、实例名、版本号、元数据和镜像信息,同时在控制面单元对服务治理配置,所述治理配置包括熔断、限流和资源预警,并将治理配置的控制信息下发到数据面单元;所述数据面单元获取当前服务的治理配置,执行治理配置相应的功能并采集治理配置过程中产生的数据,同时调用关系、服务上下线信息和服务的请求数量,以及定时抓取服务和运行服务的平台自身的系统资源使用信息上报至联动分析模块;所述可视化单元用于展示服务指标的数据情况,所述服务指标以服务唯一识别号作为核心区分,系统平台利用数据调用链路的拓扑图与服务唯一识别号进行关联;所述服务指标包括对于服务治理发生的事件与告警的统计分析,对高频事件的服务的排名信息,针对服务详情进行的遥测信息,服务当前的资源消耗图表以及系统设置的自定义监控内容;
所述控制面单元的输出端与所述数据面单元的输入端相连接;所述控制面单元与所述数据面单元均与所述可视化单元相连接。
3.根据权利要求2所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述网关治理模块包括网关配置单元、外部访问管理单元、数据存储下发单元和多维展示单元;
所述网关配置单元基于服务唯一识别号设置服务的网关配置,将服务元数据注册进网关治理模块中,所述服务元数据包括服务域名、路径、服务访问端口、服务访问内网地址和证书;所述外部访问管理单元用于接收公网请求,并提供公网证书,识别路由信息,将请求代理转发到对应服务中,管理对于服务的外部访问,并在运行过程中,上报服务的访问和状态信息至联动分析模块,包括请求日志记录、限流、熔断和WAF防火墙;所述数据存储下发单元将请求日志记录信息发送到日志治理模块,同时提供时序信息拉取接口,系统平台通过时序信息拉取接口拉取时序数据形成流量数据存储;所述多维展示单元根据流量数据存储,以可视化形式展示各个维度的指标信息,包括出入网流量统计、RPS、状态码异常分析、请求延迟指标分析;
所述网关配置单元的输出端与所述外部访问管理单元的输入端相连接;所述外部访问管理单元的输出端与所述数据存储下发单元、联动分析模块的输入端相连接;所述数据存储下发单元的输出端与所述多维展示单元的输入端相连接。
4.根据权利要求2所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述缓存模块包括数据交互单元和缓存引擎;
所述数据交互单元处于控制面单元与数据面单元的传输链路上,以服务唯一识别号作为识别标准,在控制面单元进行服务治理配置时,数据交互单元同时进行数据交互功能配置,所述数据交互功能配置包括缓存分片前缀、缓存引擎、网络连接配置、端口配置、主从配置;在控制面单元将服务治理配置下发到数据面单元时,数据面单元提供对服务进出流量的代理,服务根据端口配置将缓存请求发送到数据面单元,数据面单元将缓存请求发送到缓存引擎实现缓存功能,并以服务唯一识别号为关键数据记录遥测信息,所述遥测信息包括请求发送数量、请求发送成功失败状态、请求key、请求时间和请求内容大小;
所述数据交互单元的输出端与所述缓存引擎的输入端相连接。
5.根据权利要求2所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述日志治理模块包括日志基础配置单元和聚合处理单元;
所述日志基础配置单元以服务唯一识别号作为识别标准,在控制面单元获取服务基本信息后,对服务进行日志基础配置,所述日志基础配置包括日志开关、日志存储引擎、采集级别和预处理规则,将日志基础配置反馈给控制面单元后,控制面单元将日志基础配置下发到数据面单元,数据面对日志基础配置数据进行中转和初步预处理;所述初步预处理包括拦截和过滤;所述聚合处理单元用于对日志数据进行聚合处理,提供查询功能,根据服务唯一识别号进行服务日志查询,构建日志数据指标,转存至联动分析模块,所述日志数据指标包括日志生产速率、最近的预警事件以及根据日志等级的汇总数据;
所述日志基础配置单元的输出端与数据面单元的输入端相连接;所述数据面单元的输出端与所述聚合处理单元的输入端相连接。
6.根据权利要求2所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述健康检查模块包括时间巡检单元和存储分析单元;
所述时间巡检单元用于设置时间周期,为服务配置健康检查功能,所述健康检查功能包括服务唯一标识检查、服务端口巡查、服务访问信息确认、接口状态监控、返回状态分析;获取到健康检查功能中出现告警的健康数据,一份传输至可视化单元,另一份存储至历史健康状态数据库;所述历史健康状态数据库与所述数据遥测模块之间实现数据交互;
所述时间巡检单元的输出端与所述存储分析单元的输入端相连接。
7.根据权利要求1所述的一种适配于数字化企业的数据联动分析系统,其特征在于:所述数据遥测模块包括数据收集单元和告警单元;
所述数据收集单元用于收集健康检查模块以及联动分析模块下的告警信息数据,所述健康检查模块的告警数据包括终端服务的CPU、内存、磁盘、网络数据;所述告警单元用于设置告警配置,包括终端服务的CPU、内存、磁盘和网络基础资源指标;根据遥测的告警配置会在对应的指标出现异常时,对关联的人员发送告警信息,也根据联动分析模块下的告警信息数据,输出至相应管理员端口;
所述数据收集单元的输出端与所述告警单元的输入端相连接。
CN202310403485.8A 2023-04-17 2023-04-17 一种适配于数字化企业的数据联动分析系统 Active CN116126647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310403485.8A CN116126647B (zh) 2023-04-17 2023-04-17 一种适配于数字化企业的数据联动分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310403485.8A CN116126647B (zh) 2023-04-17 2023-04-17 一种适配于数字化企业的数据联动分析系统

Publications (2)

Publication Number Publication Date
CN116126647A CN116126647A (zh) 2023-05-16
CN116126647B true CN116126647B (zh) 2023-06-20

Family

ID=86301297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310403485.8A Active CN116126647B (zh) 2023-04-17 2023-04-17 一种适配于数字化企业的数据联动分析系统

Country Status (1)

Country Link
CN (1) CN116126647B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431872B (zh) * 2023-06-09 2023-09-01 智者四海(北京)技术有限公司 可观测系统及基于可观测系统的服务观测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491354A (zh) * 2013-10-10 2014-01-01 国家电网公司 一种系统运行监控可视化平台

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794113B (zh) * 2014-01-16 2019-04-23 中兴通讯股份有限公司 数据处理方法及装置
KR102006122B1 (ko) * 2017-09-27 2019-08-01 한국전력공사 지중 전력구 감시장치 및 그 제어방법
CN111917887A (zh) * 2020-08-17 2020-11-10 普元信息技术股份有限公司 大数据环境下实现数据治理的系统
US20220292006A1 (en) * 2021-03-09 2022-09-15 Vunet Systems Private Limited System for Automatically Generating Insights by Analysing Telemetric Data
CN114489681B (zh) * 2022-04-07 2022-06-28 南京飓风引擎信息技术有限公司 一种基于浏览器内核的移动端跨平台开发系统及方法
CN115169961A (zh) * 2022-07-28 2022-10-11 国网河南省电力公司信息通信公司 一种电力骨干网告警信息解析方法与系统
CN115514679B (zh) * 2022-11-11 2023-04-28 浙江万胜智能科技股份有限公司 一种基于通信模块的异常来源监测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491354A (zh) * 2013-10-10 2014-01-01 国家电网公司 一种系统运行监控可视化平台

Also Published As

Publication number Publication date
CN116126647A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN113112086B (zh) 一种基于边缘计算和标识解析的智能生产系统
US20190279098A1 (en) Behavior Analysis and Visualization for a Computer Infrastructure
CN108833184A (zh) 服务故障定位方法、装置、计算机设备及存储介质
CN104636352B (zh) 一种基于质量戳的scada 系统历史数据补数与查询处理方法
CN104731690B (zh) 适应性度量收集、存储、和警告阈值
US20060265272A1 (en) System and methods for re-evaluating historical service conditions after correcting or exempting causal events
JP6097889B2 (ja) 監視システム、監視装置、および検査装置
CN116126647B (zh) 一种适配于数字化企业的数据联动分析系统
CN107070692A (zh) 一种基于大数据分析的云平台监控服务系统及方法
CN107888452B (zh) 一种24小时分布式网站性能监测和实时告警方法
CN106940677A (zh) 一种应用日志数据告警方法及装置
US20070297337A1 (en) Apparatus and methods for determining availability and performance of entities providing services in a distributed system using filtered service consumer feedback
WO2006065399A2 (en) Using trend data to address computer faults
US11616848B2 (en) Curating proxy server pools
CN116232963B (zh) 一种链路跟踪方法及系统
CN110311802A (zh) 网络运营方法、装置、电子设备及存储介质
AU2001239753A1 (en) Method of monitoring the availability of a messaging and voip network
CN102932194B (zh) 基于贝叶斯方法的互联网应用服务监控系统及方法
JP2012181744A (ja) 分散ファイルシステムにおける運用監視システム及び運用監視方法
CN116972910A (zh) 一种火电厂电气设备的监测方法及系统
CN111988172B (zh) 一种网络信息管理平台、装置及安全管理方法
CN114727166A (zh) 基于物联网的远程在线式计量仪表状态监控方法及系统
CN110597699A (zh) 一种服务评估方法
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
CN110797833B (zh) 二次设备在线监视系统的实时监视与故障诊断装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant