CN117056109A - 数据运维故障分析系统、方法 - Google Patents

数据运维故障分析系统、方法 Download PDF

Info

Publication number
CN117056109A
CN117056109A CN202311017905.5A CN202311017905A CN117056109A CN 117056109 A CN117056109 A CN 117056109A CN 202311017905 A CN202311017905 A CN 202311017905A CN 117056109 A CN117056109 A CN 117056109A
Authority
CN
China
Prior art keywords
data
monitoring
prompt information
quality
alarm prompt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311017905.5A
Other languages
English (en)
Inventor
陈海平
邓凌青
王仕杰
王嘉瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Nanyangwanbang Software Technical Co ltd
Original Assignee
Shanghai Nanyangwanbang Software Technical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Nanyangwanbang Software Technical Co ltd filed Critical Shanghai Nanyangwanbang Software Technical Co ltd
Priority to CN202311017905.5A priority Critical patent/CN117056109A/zh
Publication of CN117056109A publication Critical patent/CN117056109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种数据运维故障分析系统、方法,系统包括系统监控模块,所述系统监控模块用于对系统对象进行实时监控,获取监控数据;数据血缘关系模块,所述数据血缘关系模块用于根据所述监控数据,构建数据血缘关系图谱;数据质量分析模块,所述数据质量分析模块用于为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;数据告警模块,所述数据告警模块用于根据所述监控数据的质量指标,提供告警提示信息;故障分析模块,所述故障分析模块用于根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。

Description

数据运维故障分析系统、方法
技术领域
本申请涉及数据分析领域,尤其涉及一种数据运维故障分析系统、方法。
背景技术
随着数字化转型的进程不断推进,大多数企业都已经建立了企业级的数据中心,以实现统一的数据归集、数据治理和数据共享,从而为业务场景提供强大的数据支持。然而,在日常的数据服务运行过程中,不可避免地会出现数据服务故障。即使已经确认问题所在的节点,工程师仍需投入大量时间来分析和排查问题,这主要是因为:数据加工链路往往涉及多个数据节点、服务器节点和技术组件,因此,确定导致数据服务故障的根本原因变得复杂困难;当某个节点出现故障时,有时并不是由该节点自身引起的,而是由上游的某个异常节点引发的连锁反应,这使问题的追踪和定位变得更具挑战性;当上游数据节点出现异常时,问题可能仅表现为“数据量”异常,而任务本身可能不会报错,这使得运维人员在排查问题时面临更大的难度。
发明内容
本申请的一个目的是提供一种数据运维故障分析系统、方法,至少用以使得该系统可以解决无法准确定位数据故障位置,数据运维工作难度大的技术问题。
为实现上述目的,本申请的一些实施例提供了一种数据运维故障分析系统,所述系统包括系统监控模块,所述系统监控模块用于对系统对象进行实时监控,获取监控数据;数据血缘关系模块,所述数据血缘关系模块用于根据所述监控数据,构建数据血缘关系图谱;数据质量分析模块,所述数据质量分析模块用于为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;数据告警模块,所述数据告警模块用于根据所述监控数据的质量指标,提供告警提示信息;故障分析模块,所述故障分析模块用于根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
进一步地,所述构建数据血缘关系图谱包括:根据所述监控数据,通过解析数据采集任务、数据加工任务、数据下发任务和数据接口配置,构建数据链路关系,并标记所述数据中实体与实体之间、实体与加工任务之间和实体与接口之间的关系;根据所述实体、服务器、数据库组件和日志之间的关系,构建数据节点与技术组件之间的关联。
进一步地,所述计算所述监控数据的质量指标包括:根据数据量、字段空值比率、字段标准化比率、字段一致性比率、数据更新时间、字段重复值比率和数据量变化率对所述监控数据的质量指标进行计算。
进一步地,所述提供告警提示信息包括:根据系统对象、数据任务和所述质量指标,配置阈值规则,当所述监控数据不满足所述阈值规则时,发出所述告警提示信息;当应用服务、接口服务、数据任务调用返回结果为失败时,所述数据告警模块发出告警提示信息;当数据量稽核失败时,数据抽取过程中,来源数据表与目标数据表数据量不一致,所述数据告警模块发出告警提示信息。
进一步地,所述提供告警提示信息还包括:根据数据波动范围,为所述监控数据的质量指标设置阈值,当所述监控数据的所述质量指标超过阈值时,发出所述告警提示信息;当服务器CPU使用率、内存使用率和硬盘使用率超过第一阈值,所述数据告警模块发出告警提示信息;当数据量日变化率波动超过第二阈值时,所述数据告警模块发出告警提示信息;当数据空值率波动超过第三阈值时,所述数据告警模块发出告警提示信息。
进一步地,所述对故障数据进行分析包括:当所述数据节点发生故障时,根据所述数据血缘关系图谱,对所述数据链路关系上下游进行追溯,查询所有关联节点的状态;当关联的所述服务器、应用服务或者接口状态存在异常时,根据所述数据链路关系,得到系统错误提示;当所述监控数据的质量指标存在异常时,根据所述告警提示信息,对所述故障数据进行分析,得到故障分析结果。
进一步地,所述系统还包括:运维知识库模块,所述运维知识库模块用于根据所述故障分析结果,构建运维记录知识库,当获取所述告警提示信息时,自动查找历史解决方案,提供故障解决方案。
本申请的一些实施例还提供了一种数据运维故障分析方法,应用于如上所述的系统,所述方法包括:对系统对象进行实时监控,获取监控数据;根据所述监控数据,构建数据血缘关系图谱;为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;根据所述监控数据的质量指标,提供告警提示信息;根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
相较于现有技术,本申请实施例提供的方案中,数据运维故障分析系统引入了数据血缘图谱,能够清晰地展示数据的来源、流向和依赖关系,使得故障追踪变得更加可视化和直观;支持全链路追踪,不仅能够追溯故障节点的上游,还能逆向追溯下游,帮助发现连锁反应的根本原因;数据质量分析的引入可以帮助发现隐藏的数据问题,即使数据量异常或质量问题未导致任务报错,也能在早期发现问题;本方案中的自动告警规则和运维知识库有助于运维人员快速响应和解决问题,节省排查时间。总之,本申请的实施例通过引入数据血缘图谱、全链路追踪、数据质量分析以及自动告警和知识库等功能,为数据运维故障分析提供了更高效、更精确的解决方案,能够更好地满足现代企业在数据运维方面的需求。
附图说明
图1为本申请实施例提供的一种数据运维故障分析系统的结构示意图;
图2为本申请实施例提供的一种数据运维故障分析方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在当前的数据运维领域,尽管已经有一些监控和故障分析工具可用,但仍然存在一些问题。当前的数据运维任务可能涉及多个数据节点、服务器和技术组件,导致整个系统的复杂性增加,故障的根本原因难以追踪和确定;故障可能会导致连锁反应,问题的影响可能不仅限于故障节点本身,还可能影响其他相关节点,从而导致问题的扩散;当数据质量问题出现时,其影响可能不会立即导致任务报错,而是在后续的数据加工过程中引发问题。
针对上述技术问题,本申请实施例提供了一种数据运维故障分析系统,所述系统包括:系统监控模块,所述系统监控模块用于对系统对象进行实时监控,获取监控数据;数据血缘关系模块,所述数据血缘关系模块用于根据所述监控数据,构建数据血缘关系图谱;数据质量分析模块,所述数据质量分析模块用于为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;数据告警模块,所述数据告警模块用于根据所述监控数据的质量指标,提供告警提示信息;故障分析模块,所述故障分析模块用于根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
系统监控模块用于实时监控系统对象,通过安装服务器探针、常用服务探针、端口探针等常见的监控手段,在主机上进行数据采集,这些数据被周期性地收集、存储和预处理,以实现对系统对象的实时监控;数据血缘关系模块根据从系统监控模块获得的监控数据,构建数据血缘关系图谱,通过分析监控数据中的依赖关系和流向,它能够清楚地呈现数据的源头、流向以及相关联的对象;数据质量分析模块为监控数据配置质量规则,然后根据这些规则计算监控数据的质量指标,这可以帮助评估数据的准确性、完整性和一致性,以及是否存在潜在的问题;数据告警模块基于监控数据的质量指标,生成告警提示信息,如果监控数据的质量指标超出了预先配置的阈值,系统将提供告警信息,以便运维人员迅速注意到潜在问题;故障分析模块利用告警提示信息和数据血缘关系图谱来对故障数据进行分析,这允许运维人员更准确地定位故障发生的位置,找到根本原因,并采取适当的措施来解决问题。
综合来看,本申请数据运维故障分析系统通过整合实时监控、数据血缘关系图谱、数据质量分析、告警系统和故障分析,能够更快速、更精确地处理数据运维故障。
在本申请一些实施例中,所述构建数据血缘关系图谱包括:根据所述监控数据,通过解析数据采集任务、数据加工任务、数据下发任务和数据接口配置,构建数据链路关系,并标记所述数据中实体与实体之间、实体与加工任务之间和实体与接口之间的关系;根据所述实体、服务器、数据库组件和日志之间的关系,构建数据节点与技术组件之间的关联。
首先,通过解析已配置的数据采集任务、数据加工任务、数据下发任务和数据接口配置等信息,系统能够获得数据流程中涉及的各个任务和步骤;基于已解析的任务和配置信息,系统开始构建数据链路关系,这涉及到追踪数据的流动路径,从数据的初始采集点到最终的应用和接口,每个任务之间的依赖关系也会被建立;在数据链路中,数据实体之间可能存在依赖关系,系统会标记哪些实体之间相互关联,以便在故障分析时追踪数据的流动;系统会识别哪些数据实体与特定的数据加工任务相关联,这有助于理解数据加工的流程,以及加工任务如何影响数据的转化和处理。对于涉及数据接口的情况,系统会标记哪些数据实体与哪些接口之间存在关联,这帮助识别数据是如何在不同系统之间传递的。除了实体之间的关系,系统还会构建数据节点与服务器、数据库组件、日志等技术组件之间的关联关系。这有助于将数据故障与技术故障关联起来。综合以上步骤,系统将所构建的数据血缘关系图谱与系统模块进行关联,这使得每个模块的数据流程和依赖关系更加清晰可见。通过这一过程,系统能够建立一个全面的数据血缘关系图谱,涵盖了数据的流动、加工过程以及技术组件的关联。这个图谱在故障分析、数据追踪和质量保障等方面都具有重要作用。
在本申请一些实施例中,所述计算所述监控数据的质量指标包括:根据数据量、字段空值比率、字段标准化比率、字段一致性比率、数据更新时间、字段重复值比率和数据量变化率对所述监控数据的质量指标进行计算。
为数据表配置质量规则,数据表每次更新完成后,会对质量指标进行计算。指标计算方法列举如下:
①数据量:统计当前表的数据记录数,计算当前数据表的数据记录数,以了解数据表中包含的实际数据量。
②字段空值比率:指定字段的空值记录数/数据量*100%。对于指定的字段,计算其空值记录数与总数据量的比率。这可以帮助识别缺失数据的情况。
③字段标准化比率:指定字段数值符合字段标准规范的记录数/数据量*100%。对于指定的字段,计算符合字段标准规范的记录数与总数据量的比率,这可以帮助确保数据的规范性。
④字段一致性比率:与对比表比较,指定字段数值一致的记录数/数据量*100%。与一个对比表进行比较,计算指定字段数值一致的记录数与总数据量的比率。这有助于检测数据在不同数据源之间的一致性。
⑤数据更新时间:最后一次数据写入数据表的时间。记录最后一次数据写入数据表的时间,以跟踪数据的更新情况。
⑥字段重复值比率:指定字段重复字段的记录数/数据量*100%;对于指定字段,计算包含重复值的记录数与总数据量的比率。这可以帮助发现重复数据的存在。
⑦数据量日变化率:(当前数据量-昨日数据量)/昨日数据量*100%。计算当前数据量与昨日数据量之间的变化率。这能够揭示数据量的日常波动情况。
数据质量分析的过程是在数据表更新完成后执行的。每当数据表发生更新,系统会根据事先配置的质量规则,执行上述指标的计算,以获得有关数据质量的详细信息。这些指标不仅可以帮助发现数据质量问题,还可以作为故障分析和数据问题排查的依据,从而提高数据的可靠性和准确性。
在本申请一些实施例中,所述提供告警提示信息包括:根据系统对象、数据任务和所述质量指标,配置阈值规则,当所述监控数据不满足所述阈值规则时,发出所述告警提示信息;当应用服务、接口服务、数据任务调用返回结果为失败时,所述数据告警模块发出告警提示信息;当数据量稽核失败时,数据抽取过程中,来源数据表与目标数据表数据量不一致,所述数据告警模块发出告警提示信息。
系统根据系统对象、数据任务和质量指标配置阈值规则,当监控数据不满足这些阈值规则时,系统会发出告警提示信息。例如,如果某个数据任务的执行时间超过了预设的阈值,系统会生成相应的告警,以便运维人员可以检查和解决问题。当应用服务、接口服务或数据任务的调用返回失败结果时,数据告警模块会立即发出告警提示信息,这有助于运维人员迅速识别系统中的问题,尤其是与外部系统通信相关的问题。在数据抽取过程中,如果发现来源数据表与目标数据表的数据量不一致,系统会判定数据量稽核失败,并发出告警提示信息,这有助于确保数据的准确性和完整性。通过这些告警提示机制,运维人员能够及时获知数据服务运行中的潜在问题,可以根据告警信息快速采取行动,进行故障排查和问题解决。这有助于提高数据服务的可用性和稳定性。
在本申请一些实施例中,所述提供告警提示信息还包括:根据数据波动范围,为所述监控数据的质量指标设置阈值,当所述监控数据的所述质量指标超过阈值时,发出所述告警提示信息;当服务器CPU使用率、内存使用率和硬盘使用率超过第一阈值,所述数据告警模块发出告警提示信息;当数据量日变化率波动超过第二阈值时,所述数据告警模块发出告警提示信息;当数据空值率波动超过第三阈值时,所述数据告警模块发出告警提示信息。
针对监控数据的质量指标,系统可以根据预先设定的数据波动范围设置阈值。当监控数据的质量指标超过这些阈值时,系统会生成告警提示信息。例如,如果数据质量指标出现异常波动,系统会警示运维人员可能存在数据质量问题。如果服务器的CPU使用率、内存使用率或硬盘使用率超过预先设定的阈值,数据告警模块会发出相应的告警提示信息。有助于实时监测服务器资源的负载情况,避免高负荷状态下引起数据任务执行失败。当数据量的日变化率超过预设的阈值时,数据告警模块会发出告警提示信息。这有助于捕捉数据量的异常波动情况,及时寻找可能的原因。如果数据的空值率超过预先设定的阈值,系统会发出告警提示信息。这能够帮助发现数据中的缺失情况。通过为不同类型的数据指标和服务器资源设置阈值,系统能够在监测到异常情况时,及时通知运维人员,以便他们可以采取措施来解决问题。这些告警提示信息的补充进一步增强了系统的故障监测和问题响应能力。
在本申请一些实施例中,所述对故障数据进行分析包括:当所述数据节点发生故障时,根据所述数据血缘关系图谱,对所述数据链路关系上下游进行追溯,查询所有关联节点的状态;当关联的所述服务器、应用服务或者接口状态存在异常时,根据所述数据链路关系,得到系统错误提示;当所述监控数据的质量指标存在异常时,根据所述告警提示信息,对所述故障数据进行分析,得到故障分析结果。
数据上下游链路追溯:运维人员可以在系统中点击触发告警的对象,这会基于之前构建的数据血缘关系图谱,自动进行上下游链路的追溯,以查看所有关联节点的状态。这个关联过程如下:假设告警对象为服务器资源,首先会关联到应用服务,然后关联到数据任务,再关联到数据表。由于数据表之间存在上下游关系,再从数据表逆向关联到数据任务、应用服务、服务器资源。此外,运维人员可以根据需要限制追溯的类型和层级。例如,可以限制只追溯数据任务和数据表,从而避免显示与故障无关的服务器和应用服务信息。同样,也可以限制追溯的层级,例如向上追溯2层、向下追溯1层,以确保关注的层级范围。
上下游链路异常显示:在上下游链路中,如果关联的服务器主机、应用服务或者接口状态等出现异常,系统会自动高亮显示这些异常。这使得运维人员可以迅速定位到可能的系统级错误,以便进行进一步的故障分析和排查。
上下游链路中的数据质量异常显示:在上下游链路中,如果某个数据表配置的数据质量指标出现异常,系统会自动高亮显示这些异常情况。例如,如果数据量激增、空值数据变化大、唯一键有重复数据等情况,运维人员会立即看到。即使数据任务本身正常运行,通过这些信息,运维人员可以判断该表的数据更新存在问题。
在本申请一些实施例中,所述系统还包括:运维知识库模块,所述运维知识库模块用于根据所述故障分析结果,构建运维记录知识库,当获取所述告警提示信息时,自动查找历史解决方案,提供故障解决方案。
运维知识库模块的主要功能是根据之前的故障分析结果,构建一个运维记录知识库。每当系统遇到故障或问题并得到解决时,运维人员可以将问题和对应的解决方案记录到运维知识库中。这可以是一个持久的数据库或知识管理系统。当系统获取告警提示信息时,运维知识库模块会自动查找之前类似问题的历史解决方案。通过对比当前的告警信息和过去的解决方案,系统可以帮助运维人员找到可能的问题点和参考解决方案。这个运维知识库模块的存在可以大大加速故障诊断和问题解决的过程。它允许运维人员在处理问题时可以借鉴已有的经验,避免重复的工作,提高故障分析和解决的效率。这有助于持续改进运维流程,增加系统的稳定性和可维护性。
下面结合一具体应用实例对本申请实施例的数据运维故障分析系统的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
如图1所示,系统监控包括服务器监控、应用服务监控、接口日志监控和调度日志监控。数据血缘包括数据源进行采集任务得到贴源数据,贴源数据进行加工任务得到明细数据,各明细数据之间联系并进行加工任务得到汇总数据,汇总数据进行加工任务得到应用数据,应用数据进行加工任务为下游应用提供接口服务。数据质量包括数据量、唯一性、完整性和有效性。系统监控和数据质量与数据血缘关联,得到上下游追踪,系统级错误排查,数据级异常排查和问题修复等功能。
服务器监控涉及到对服务器主机的实时监控,通过在主机上安装服务器探针,可以周期性地采集服务器的CPU使用率、内存使用率、硬盘使用率等信息,当这些资源的使用率超过预设的阈值时,系统会发出告警提示信息,以便运维人员能够及时采取措施;应用服务监控可以实时监测这些服务的运行状态,如果应用服务的调用返回失败结果,系统会发出相应的告警,这有助于运维人员及时发现应用服务的问题并解决;接口日志监控在与外部系统交互时,接口日志监控非常重要,系统会实时监测接口调用的日志,以捕捉潜在的问题。如果接口返回异常数据或错误信息,监控系统会生成告警提示,使运维人员能够快速处理;数据任务的调度和执行情况需要被监控,通过监控调度日志,系统可以了解每个数据任务的执行情况,包括是否成功完成、是否有错误或超时等情况,在发现调度问题时,系统会发出相应的告警。
数据血缘是指数据的源头、流向和依赖关系,它能够帮助追踪数据从产生到消耗的路径,以及在各个环节中的加工和转化过程。所述数据血缘包括:数据源采集任务,数据源采集任务是从数据源(数据库、文件、API等)中获取原始数据的任务,这是数据流的起始点,数据血缘可以帮助追溯数据是从哪里获取的;贴源数据加工任务,在贴源数据加工任务中,原始数据可能会经过一些简单的清洗和初步处理,以适应后续的数据加工需求,数据血缘可以帮助记录这些处理步骤,确保数据的源头不会被遗漏;明细数据加工任务,在明细数据加工任务中,数据可能会进行更复杂的转换和计算,以便生成更丰富的信息,数据血缘可以帮助追溯这些数据的来源和加工过程;汇总数据加工任务,在汇总数据加工任务中,数据可能会从多个来源进行聚合和计算,生成汇总的数据结果,数据血缘可以帮助记录数据是如何汇总和计算的;应用数据加工任务,在应用数据加工任务中,数据可能会被进一步加工,以适应特定的应用需求,例如生成报表、图表等,数据血缘可以追踪这些应用加工的过程;接口服务与下游应用联系,数据血缘还可以帮助追踪数据的传递和共享情况,接口服务可能是数据在不同系统间传递的桥梁,通过数据血缘可以了解数据是如何流向下游应用的。综合这些环节,数据血缘帮助构建了一个完整的数据流程图,从数据的初始源头到最终的应用和接口。这对于数据追踪、质量保证、故障分析以及合规性等方面都具有重要意义。
数据质量是确保数据在各个阶段和节点上的准确性、一致性和可靠性的关键因素。数据质量通常可以从多个维度进行评估和保障,包括:数据量,数据量指数据记录的数量,在数据处理过程中,数据量的异常波动可能暗示着数据源、加工过程或其他方面出现了问题;唯一性,数据的唯一性表示数据集中不应该存在重复的数据,唯一性问题可能会导致数据冗余和混乱;完整性,数据的完整性表示数据集中的所有字段都应该包含有效的、不缺失的信息,数据的缺失可能会影响数据的分析和决策;有效性:数据的有效性表示数据应该符合预期的格式和值范围,无效的数据可能会导致错误的计算和分析结果。在数据质量分析中,对这些维度进行监控、评估和控制,有助于识别潜在的数据质量问题并及时采取措施进行纠正。数据质量的提高可以增加数据的可信度和可用性,从而为业务决策和分析提供更可靠的基础。
将系统监控、数据质量分析和数据血缘关系相结合,可以实现多方面的功能,包括:上下游追踪,通过数据血缘关系图谱,可以追踪数据在不同阶段和节点之间的流动路径,当系统监控发现问题或数据质量异常时,可以通过追溯上下游关系,快速定位问题的根本原因,从而更有效地进行故障分析和修复;系统级错误排查,当系统监控提示系统级错误,如服务器资源不足或应用服务失败,可以使用数据血缘图谱来查看与问题相关的数据链路,这有助于判断问题是由哪个数据节点或环节引起的,以便能够快速采取适当的措施;数据级异常排查,数据质量分析可能会揭示数据级别的异常,如数据量激增、字段重复值或空值等,通过数据血缘关系图谱,可以定位问题数据的源头,并查看其在不同加工任务之间的传递路径,从而找出数据异常的原因;问题修复,结合上述信息,你可以更准确地进行问题修复,根据上下游关系,可以逐步追溯问题的根本原因,同时结合数据质量信息,可以更精准地定位和修复数据问题。综上所述,将系统监控、数据质量分析和数据血缘关系相结合,可以为运维人员提供全面的故障分析、问题排查和修复的能力,帮助确保数据服务的稳定性和可靠性。
图2示出了一种数据运维故障分析方法,应用于上述任意一个或多个实施例所述的系统,所述方法可以包括如下步骤:
步骤S101,对系统对象进行实时监控,获取监控数据;
步骤S102,根据所述监控数据,构建数据血缘关系图谱;
步骤S103,为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标。
步骤S104,根据所述监控数据的质量指标,提供告警提示信息;根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
不难发现,本申请实施例是与系统实施例相对应的方法实施例,本申请实施例的实现细节已在系统实施例中阐述,为避免重复,此处不再赘述。
附图中的流程图或框图示出了按照本申请各种实施例的系统、方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (8)

1.一种数据运维故障分析系统,其特征在于,所述系统包括:
系统监控模块,所述系统监控模块用于对系统对象进行实时监控,获取监控数据;
数据血缘关系模块,所述数据血缘关系模块用于根据所述监控数据,构建数据血缘关系图谱;
数据质量分析模块,所述数据质量分析模块用于为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;
数据告警模块,所述数据告警模块用于根据所述监控数据的质量指标,提供告警提示信息;
故障分析模块,所述故障分析模块用于根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
2.根据权利要求1所述系统,其特征在于,所述构建数据血缘关系图谱包括:
根据所述监控数据,通过解析数据采集任务、数据加工任务、数据下发任务和数据接口配置,构建数据链路关系,并标记所述数据中实体与实体之间、实体与加工任务之间和实体与接口之间的关系;
根据所述实体、服务器、数据库组件和日志之间的关系,构建数据节点与技术组件之间的关联。
3.根据权利要求1所述系统,其特征在于,所述计算所述监控数据的质量指标包括:
根据数据量、字段空值比率、字段标准化比率、字段一致性比率、数据更新时间、字段重复值比率和数据量变化率对所述监控数据的质量指标进行计算。
4.根据权利要求1所述系统,其特征在于,所述提供告警提示信息包括:
根据系统对象、数据任务和所述质量指标,配置阈值规则,当所述监控数据不满足所述阈值规则时,发出所述告警提示信息;
当应用服务、接口服务、数据任务调用返回结果为失败时,所述数据告警模块发出告警提示信息;
当数据量稽核失败时,数据抽取过程中,来源数据表与目标数据表数据量不一致,所述数据告警模块发出告警提示信息。
5.根据权利要求4所述系统,其特征在于,所述提供告警提示信息还包括:
根据数据波动范围,为所述监控数据的质量指标设置阈值,当所述监控数据的所述质量指标超过阈值时,发出所述告警提示信息;
当服务器CPU使用率、内存使用率和硬盘使用率超过第一阈值,所述数据告警模块发出告警提示信息;
当数据量日变化率波动超过第二阈值时,所述数据告警模块发出告警提示信息;
当数据空值率波动超过第三阈值时,所述数据告警模块发出告警提示信息。
6.根据权利要求2所述系统,其特征在于,所述对故障数据进行分析包括:
当所述数据节点发生故障时,根据所述数据血缘关系图谱,对所述数据链路关系上下游进行追溯,查询所有关联节点的状态;
当关联的所述服务器、应用服务或者接口状态存在异常时,根据所述数据链路关系,得到系统错误提示;
当所述监控数据的质量指标存在异常时,根据所述告警提示信息,对所述故障数据进行分析,得到故障分析结果。
7.根据权利要求6所述系统,其特征在于,所述系统还包括:
运维知识库模块,所述运维知识库模块用于根据所述故障分析结果,构建运维记录知识库,当获取所述告警提示信息时,自动查找历史解决方案,提供故障解决方案。
8.一种数据运维故障分析方法,其特征在于,所述方法包括:
对系统对象进行实时监控,获取监控数据;根据所述监控数据,构建数据血缘关系图谱;
为所述监控数据配置质量规则,根据所述质量规则,计算所述监控数据的质量指标;
根据所述监控数据的质量指标,提供告警提示信息;根据所述告警提示信息和所述数据血缘关系图谱,对故障数据进行分析。
CN202311017905.5A 2023-08-14 2023-08-14 数据运维故障分析系统、方法 Pending CN117056109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311017905.5A CN117056109A (zh) 2023-08-14 2023-08-14 数据运维故障分析系统、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311017905.5A CN117056109A (zh) 2023-08-14 2023-08-14 数据运维故障分析系统、方法

Publications (1)

Publication Number Publication Date
CN117056109A true CN117056109A (zh) 2023-11-14

Family

ID=88658425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311017905.5A Pending CN117056109A (zh) 2023-08-14 2023-08-14 数据运维故障分析系统、方法

Country Status (1)

Country Link
CN (1) CN117056109A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137939A1 (en) * 2009-12-09 2011-06-09 Linkage Technology Group Co., Ltd. Data Supervision Based on the Configuration Rule of All Operational Indicators
CN113220726A (zh) * 2021-05-07 2021-08-06 镇江快智慧创新发展有限公司 一种数据质量检测方法及系统
CN113704234A (zh) * 2021-07-23 2021-11-26 青岛海尔科技有限公司 基于大数据应用的数据质量检测方法及系统
CN115860912A (zh) * 2022-11-30 2023-03-28 重庆富民银行股份有限公司 基于变量血缘的风控监控预警系统及方法
CN116302829A (zh) * 2023-03-23 2023-06-23 中国平安财产保险股份有限公司 数据监控方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137939A1 (en) * 2009-12-09 2011-06-09 Linkage Technology Group Co., Ltd. Data Supervision Based on the Configuration Rule of All Operational Indicators
CN113220726A (zh) * 2021-05-07 2021-08-06 镇江快智慧创新发展有限公司 一种数据质量检测方法及系统
CN113704234A (zh) * 2021-07-23 2021-11-26 青岛海尔科技有限公司 基于大数据应用的数据质量检测方法及系统
CN115860912A (zh) * 2022-11-30 2023-03-28 重庆富民银行股份有限公司 基于变量血缘的风控监控预警系统及方法
CN116302829A (zh) * 2023-03-23 2023-06-23 中国平安财产保险股份有限公司 数据监控方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11968264B2 (en) Systems and methods for operation management and monitoring of bots
US8589859B2 (en) Collection and processing of code development information
CN109960635B (zh) 实时计算平台的监控和报警方法、系统、设备及存储介质
US10534692B2 (en) Tagged tracing, logging and performance measurements
US11429574B2 (en) Computer system diagnostic log chain
CN112506799A (zh) 业务异常定位方法及装置、电子设备、介质、产品
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN108665237B (zh) 一种基于业务系统建立自动巡检模型和定位异常的方法
CN115118621A (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
CN112087320A (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN117056109A (zh) 数据运维故障分析系统、方法
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN113626288A (zh) 故障处理方法、系统、装置、存储介质和电子设备
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN113064890A (zh) 一种运营商数据的质量评估方法、装置、服务器及介质
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
US20060184339A1 (en) Using arm correlators to link log file statements to transaction instances and dynamically adjusting log levels in response to threshold violations
Huo et al. A Roadmap towards Intelligent Operations for Reliable Cloud Computing Systems
Horovitz et al. Online Automatic Characteristics Discovery of Faulty Application Transactions in the Cloud.
CN110347741B (zh) 大数据处理过程中有效提升输出成果数据质量的系统及其控制方法
CN116909921A (zh) 一种数据质量检测方法、设备、装置及存储介质
CN114911672A (zh) 数据处理方法及装置
CN113900902A (zh) 日志处理方法、装置、电子设备及存储介质
Jagannathan et al. REFORM: Increase alerts value using data driven approach
CN117743093A (zh) 一种调用链的数据质量评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination