CN112905420A - 数据监控系统、方法、电子设备及存储介质 - Google Patents
数据监控系统、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112905420A CN112905420A CN202110240595.8A CN202110240595A CN112905420A CN 112905420 A CN112905420 A CN 112905420A CN 202110240595 A CN202110240595 A CN 202110240595A CN 112905420 A CN112905420 A CN 112905420A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring
- monitored
- access
- total
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013500 data storage Methods 0.000 claims abstract description 34
- 238000007405 data analysis Methods 0.000 claims abstract description 17
- 230000010354 integration Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910001175 oxide dispersion-strengthened alloy Inorganic materials 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开涉及一种数据监控系统、方法、电子设备及存储介质,应用于大数据技术领域,所述系统包括:生命周期监控模块,用于获取待监控数据,对待监控数据的数据流程进行监控,得到流程监控结果;其中,数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务;数据资源监控模块,用于获取待监控数据,在一个或多个维度对待监控数据的数据资源进行监控,得到资源监控结果。本公开可以提高数据监控的全面性和完整性。
Description
技术领域
本公开涉及大数据技术领域,尤其涉及一种数据监控系统、方法、电子设备及存储介质。
背景技术
随着数据存储量的提升,在大数据平台形成了大量有价值的数据资源。在此情况下,如何对数据资源进行统一、全面的运维监控,以及如何提升数据供给、共享能力,持续完善大数据运营体系,为数据资源发挥价值提供保障成为亟待解决的问题。
相关技术中,在对数据进行监控时大多关注在数据治理方面,也就是,关注数据标准和质量的监控,例如,元数据管理、数据质量报告、数据血缘分析、影响性分析等等,不能对平台中的数据形成全局性的监控。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据监控系统、方法、电子设备及存储介质。
根据本公开的第一方面,提供了一种数据监控系统,所述系统包括:
生命周期监控模块,用于获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果;其中,所述数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务;
数据资源监控模块,用于获取所述待监控数据,在一个或多个维度对所述待监控数据的数据资源进行监控,得到资源监控结果。
在一种可选的实施方式中,所述生命周期监控模块具体用于以在下一个或多个维度对所述待监控数据的数据接入情况进行监控:接入系统、接入数据类型、接入频次、接入方式;以及
在以下一个或多个维度对所述待监控数据的数据存储情况进行监控:存储总量、接入总存储量和派生表总存储量占比、存储总量趋势图、库表总数、接入库表与派生表总量占比、库表总量趋势图;
在以下一个或多个维度对所述待监控数据的数据分析情况进行监控:数据集总数、数据集增长量、工作流总数量、工作流增长量、抽取转换加载ETL作业总数量、ETL作业增长量;以及
在以下一个或多个维度对所述待监控数据的数据应用情况进行监控:数据平台中应用的总数量、应用访问总次数、应用评论总数、评论总数最高的N个应用、访问次数最高的M个应用、点赞次数最高的O个应用,其中,N、M和O均为正整数;以及
在以下一个或多个维度对所述待监控数据的数据服务情况进行监控:数据表申请总数、各用户数据表申请分布情况、API(Application Programming Interface,应用程序接口)调用总数量、各类型API调用次数分布、API调用所对应的项目。
在一种可选的实施方式中,所述生命周期监控模块,具体用于基于第一监控指标,确定待使用的第一数据表,并根据所述第一数据表获取第一目标数据,根据所述第一目标数据计算第一监控结果,将所述第一监控结果作为所述流程监控结果。
在一种可选的实施方式中,所述数据资源监控模块,具体用于对所述待监控数据在以下一个或多个维度的数据资源进行监控:主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况。
在一种可选的实施方式中,所述数据资源监控模块,具体用于基于第二监控指标,确定待使用的第二数据表,并根据所述第二数据表获取第二目标数据,根据所述第二目标数据计算第二监控结果,将所述第二监控结果作为所述资源监控结果。
在一种可选的实施方式中,所述生命周期监控模块,还用于基于所述流程监控结果确定是否进行超标预警;
所述数据资源监控模块,还用于基于所述资源监控结果确定是否进行超标预警。
在一种可选的实施方式中,所述各个数据存储层包括:ODS(Operation DataStore,操作数据存储)层、整合层和汇总层。
根据本公开的第二方面,提供了一种数据监控方法,所述方法包括:
获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果;其中,所述数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务;
在一个或多个维度对所述待监控数据的数据资源进行监控,得到资源监控结果。
在一种可选的实施方式中,所述对所述待监控数据的数据流程进行监控,包括:
在以下一个或多个维度对所述待监控数据的数据接入情况进行监控:接入系统、接入数据类型、接入频次、接入方式;以及
在以下一个或多个维度对所述待监控数据的数据存储情况进行监控:存储总量、接入总存储量和派生表总存储量占比、存储总量趋势图、库表总数、接入库表与派生表总量占比、库表总量趋势图;
在以下一个或多个维度对所述待监控数据的数据分析情况进行监控:数据集总数、数据集增长量、工作流总数量、工作流增长量、抽取转换加载ETL作业总数量、ETL作业增长量;以及
在以下一个或多个维度对所述待监控数据的数据应用情况进行监控:数据平台中应用的总数量、应用访问总次数、应用评论总数、评论总数最高的N个应用、访问次数最高的M个应用、点赞次数最高的O个应用,其中,N、M和O均为正整数;以及
在以下一个或多个维度对所述待监控数据的数据服务情况进行监控:数据表申请总数、各用户数据表申请分布情况、应用程序接口API调用总数量、各类型API调用次数分布、API调用所对应的项目。
在一种可选的实施方式中,所述获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果,包括:
基于第一监控指标,确定待使用的第一数据表,并根据所述第一数据表获取第一目标数据;
根据第一目标数据计算第一监控结果,将所述第一监控结果作为所述流程监控结果。
在一种可选的实施方式中,所述在一个或多个维度对所述待监控数据的数据资源进行监控,包括:
在以下一个或多个维度对所述待监控数据的数据资源进行监控:主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况。
在一种可选的实施方式中,所述获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果,包括:
基于第二监控指标,确定待使用的第二数据表,并根据所述第二数据表获取第二目标数据;
根据第二目标数据计算第二监控结果,将所述第二监控结果作为所述资源监控结果。
在一种可选的实施方式中,所述方法还包括:
在得到所述流程监控结果后,基于所述流程监控结果确定是否进行超标预警;
在得到所述资源监控结果后,基于所述资源监控结果确定是否进行超标预警。
在一种可选的实施方式中,所述各个数据存储层包括:操作数据存储ODS层、整合层和汇总层。
根据本公开的第三方面,提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第二方面所述的方法。
根据本公开的第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第二方面所述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的数据监控系统覆盖了数据全流程的各个环节,即,可以覆盖数据接入、数据存储、数据分析、数据应用和数据服务的所有环节,这样,可以全方位、多角度地对待监控数据(例如企业数据)进行监控,以保证对数据接入、存储、分析、应用和服务等整个流程进行严格监控。并且,还可以对待监控数据的数据资源进行监控,例如数据质量、数据规范、数据标准等,使数据平台的运营得到全面有效监控和预警,保证数据平台的正常运营,提升数据资源管理的能力水平,助力数据价值的发挥。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中数据监控系统的应用场景示意图;
图2为本公开实施例中数据监控系统的结构示意图;
图3为本公开实施例中数据表的使用情况示意图;
图4为本公开实施例中数据监控方法的一种流程图;
图5为本公开实施例中电子设备的一种结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
参见图1,图1为本公开实施例中数据监控系统的应用场景示意图,可以看出,数据平台的最底层,即数据源层中可以包含多种不同的数据,例如数据源1、数据源2、数据源3等等,该数据可以是不同企业的企业数据。针对不同类型的数据,可以通过不同的传输工具传输至数据平台。例如,可以通过OGG(Oracle Golden Gate)、FTP(File Transfer Protocol,文件传输协议)、Informatica、Web Service和Sqoop等多种数据传输工具进行数据传输。
OGG是一种基于日志的结构化数据复制备份工具,FTP是用于在网络上进行文件传输的一套标准协议,Informatica是一种常用的ETL(Extract-Transform-Load,数据抽取、转换、加载)工具,Web Service可以能使得运行在不同机器上的不同应用无须借助附加的、专门的第三方软件或硬件,就可相互交换数据或集成。Sqoop主要用于在Hadoop(Hive)与传统的关系型数据库间进行数据的传递。ETL可以将数据从来源端经过抽取、转换、加载至目的端的过程。
在获取到各个数据源之后,可以将各个数据源存储至数据平台,而数据集市可以满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。在用户侧,技术人员、业务人员、数据分析人员或管理运维人员等可以访问上述数据。
以下对本公开实施例的数据监控系统进行详细介绍。
参见图2,图2为本公开实施例中数据监控系统的一种结构示意图,可以包括:
生命周期监控模块210,用于获取待监控数据,对待监控数据的数据流程进行监控,得到流程监控结果;其中,数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务。
本公开实施例中,待监控数据是数据平台中的任意数据,可以是部分数据,也可以是全部数据。数据的生命周期监控,指的是对数据在数据平台上流动的数量进行监控。数据生命周期监控可以包括五个监控主题,包括:数据接入、数据存储、数据分析和计算、数据应用以及数据服务,因此,生命周期监控模块210可以从整个流程的各个流程节点上对待监控数据进行流程监控。
数据资源监控模块220,用于获取待监控数据,在一个或多个维度对待监控数据的数据资源进行监控,得到资源监控结果。
本公开实施例中,数据资源监控,主要关注某个时间段中数据资源的整体状况,可以涉及到数据资源的多个维度,例如,可以包括主数据、数据质量、元数据、指标、数据平台模型、各个存储层以及数据集市层的数据状况等,让用户可以直接了解目前数据资源的整体状况。
本公开实施例的数据监控系统,覆盖了数据全流程的各个环节,即,可以覆盖数据接入、数据存储、数据分析、数据应用和数据服务的所有环节,这样,可以全方位、多角度地对待监控数据(例如企业数据)进行监控,以保证对数据接入、存储、分析、应用和服务等整个流程进行严格监控。并且,还可以对待监控数据的数据资源进行监控,例如数据质量、数据规范、数据标准等,使数据平台的运营得到全面有效监控和预警,保证数据平台的正常运营,提升数据资源管理的能力水平,助力数据价值的发挥。
在一种可选的实施方式中,生命周期监控模块210具体用于在以下一个或多个维度对待监控数据的数据接入情况进行监控:接入系统、接入数据类型、接入频次、接入方式。其中,接入方式可以包括OGG、FTP、Informatica、Web service、Sqoop等等。
以及生命周期监控模块210具体用于在以下一个或多个维度对待监控数据的数据存储情况进行监控:存储总量、接入总存储量和派生表总存储量占比、存储总量趋势图、库表总数、接入库表与派生表总量占比、库表总量趋势图。其中,派生表可以将子查询做为一个表来处理,这个由子查询得出的新表就是我们说的“派生表”。存储总量趋势图具体可以是最近一段时间内(例如7天内、10天内等)的存储总量趋势图,同样地,库表总量趋势图具体也可以是最近一段时间内的库表总量趋势图。
以及生命周期监控模块210具体用于在以下一个或多个维度对待监控数据的数据分析情况进行监控:数据集总数、数据集增长量、工作流总数量、工作流增长量、ETL作业总数量、ETL作业增长量等。
以及生命周期监控模块210具体用于在以下一个或多个维度对待监控数据的数据应用情况进行监控:数据平台中应用的总数量、应用访问总次数、应用评论总数、评论总数最高的N个应用、访问次数最高的M个应用、点赞次数最高的O个应用,其中,N、M和O均为正整数。
以及生命周期监控模块210具体用于在以下一个或多个维度对待监控数据的数据服务情况进行监控:数据表申请总数、各用户数据表申请分布情况、应用程序接口API调用总数量、各类型API调用次数分布、API调用所对应的项目。其中,数据表可以包含多种不同的类型,不同类型的数据表中保存有不同的数据信息。例如,基本信息表中可以存储有数据平台上所有的基础表的情况信息,应用基本信息表中存储有数据平台的所有应用的信息等等。数据表申请总数指的是数据云平台下数据表申请总数,各用户数据表申请分布情况指的是数据云平台下各用户数据表申请分布情况,例如可以是最近一段时间内(例如7天内)的数据表申请情况。
本公开实施例中,数据平台上数据全流程监控所使用的数据表可参见表1。
表1
基于上述表1,可参见图3,图3为本公开实施例中数据表的使用情况示意图,可以看出,生命周期监控和数据资源监控可以分别使用不同的数据表来进行数据监控。下文将对数据表的具体使用情况进行说明。
在一种可选的实施方式中,生命周期监控模块210,具体用于基于第一监控指标,确定待使用的第一数据表,并根据第一数据表获取第一目标数据,根据第一目标数据计算第一监控结果,将第一监控结果作为流程监控结果。
本公开实施例中,生命周期监控模块210可以对应有多个不同的第一监控指标,例如,对于数据接入节点,其监控指标可以参见表2。
表2
对于数据存储节点,其监控指标可以参见表3。
表3
对于数据分析节点,其监控指标可以参见表4。
表4
数据集总数:数据云平台数据集总数监控 |
数据集增长量:数据云平台近7天数据集增长量监控 |
各用户数据集个数分布:数据云平台各用户数据集个数分布 |
工作流总数:数据云平台下工作流总数监控 |
工作流增长量:数据云平台下近7天工作流增长量监控 |
各用户工作流个数分布:数据云平台各用户工作流个数分布 |
ETL作业总数:数据云平台下ETL作业总数监控 |
ETL作业增长量:数据云平台下近7天ETL作业增长量监控 |
各用户工作流个数分布:数据云平台下各用户ETL作业个数分布 |
对于数据应用节点,其监控指标可以参见表5。
表5
对于数据服务节点,其监控指标可以参见表6。
表6
针对上述监控指标,数据接入监控、数据存储监控、数据分析监控、数据应用监控和数据服务监控分别使用的数据表可参见表7。
表7
在此可以以数据接入监控的指标(即表2)中“各系统的接入存储量”为例进行说明。
“各系统的接入存储量”即为第一监控指标,根据该第一监控指标,确定要使用的数据表是“存储量记录表”。根据该第一监控指标的定义可以确定其所涉及的数据范围、时间段等维度。例如,计算“各系统的接入存储量”需要用到“存储量记录表”的XTID(系统)和CCL(存储量)两个字段,时间范围是自从系统接入截止到当前时间点。
之后,根据该第一监控指标的定义,可以计算该该第一监控指标。例如,可以分别计算每个系统(XTID)的数据存储量(CCL)的累计求和,求和结果即为第一监控结果,即流程监控结果。
在一种可选的实施方式中,生命周期监控模块210,还可以用于基于流程监控结果确定是否进行超标预警。
例如,对于“各系统的接入存储量”,可以设置存储量阈值(例如,可以是5G、8G等),当存储量大于该存储量阈值时,可以进行存储量超标预警。该存储量阈值可以根据实际情况进行设定,在此不做限定。
在一种可选的实施方式中,数据资源监控模块220,具体用于对待监控数据在以下一个或多个维度的数据资源进行监控:主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况。
其中,数据平台中主数据的监控可以包括:发送方到主数据方的总交易数、电子化移交易数和各业务系统交易数等。数据质量的监控可以包括:数据质量得分、数据考核规则信息和规则执行情况等。元数据的监控可以包括:对元数据情况的监控。指标监控可以包括:指标总数、各业务域指标分布情况和热门指标等。数据平台模型监控可以包括模型数量、概念模型整体情况和逻辑模型整体情况等。
在一种可选的实施方式中,各个数据存储层包括:操作数据存储ODS层、整合层和汇总层。各个数据存储层的数据状况的监控包括:ODS层监控、整合层监控和汇总层监控。其中,ODS层监控可以包括:占用总存储量、表数量和字段总数等。整合层监控也可以包括:占用总存储量、表数量和字段总数等。数据集市层的数据状况的监控可以包括:占用总存储量、表数量和字段总数等。
在一种可选的实施方式中,数据资源监控模块220,具体用于基于第二监控指标,确定待使用的第二数据表,并根据第二数据表获取第二目标数据,根据第二目标数据计算第二监控结果,将第二监控结果作为资源监控结果。
与前述生命周期监控模块210类似,数据资源监控模块220也对应有多个不同的第二监控指标。其中,对于主数据,其对应的监控指标可参见表8。
表8
发送方到主数据方的总交易数 |
发送方到主数据方的电子化移交交易数 |
发送方到主数据方的各业务系统交易数 |
发送方到主数据方的主数据传输方式交易数 |
主数据到消费方的总交易数 |
主数据到消费方的电子化移交交易数 |
主数据到消费方的各业务系统交易数 |
主数据到消费方的主数据传输方式交易数 |
发送方到主数据方的总失败数 |
发送方到主数据方的电子化移交失败数 |
发送方到主数据方的各业务系统失败数 |
发送方到主数据方的主数据传输方式失败数 |
主数据到消费方的总失败数 |
主数据到消费方的电子化移交失败数 |
主数据到消费方的各业务系统失败数 |
主数据到消费方的主数据传输方式失败数 |
对于数据质量,其对应的监控指标可参见表9。
表9
数据质量得分:自评网公司、自评标准、业务系统、协同数据治理等 |
数据质量考核规则个数:当前阶段执行的考核规则的个数 |
问题数据分布:问题数据的详细监控 |
规则执行情况监控:数据质量规则的执行情况的详细监控 |
对于元数据,其对应的监控指标可参见表10。
表10
对于指标,其对应的监控指标可参见表11。
表11
对于数据平台模型,其对应的监控指标可参见表12。
表12
模型数量:模型总量 |
概念模型整体情况:用知识图谱展示概念模型的具体情况 |
逻辑模型整体情况:用知识图谱展示逻辑模型的具体情况 |
各层模型调度任务数:监控各层产生的调用任务数据 |
各层模型产生的表数据:监控各层产生的表数据 |
各层模型产生的数据量:监控各层产生的数据量 |
对于ODS层,其对应的监控指标可参见表13。
表13
数据云平台ODS层总存储量 |
数据云平台ODS层总表数量 |
数据云平台ODS层总字段总数 |
数据云平台ODS层调度任务总数 |
数据云平台ODS层表申请次数 |
数据云平台ODS层表申请次数 |
对于整合层,其对应的监控指标可参见表14。
表14
数据云平台整合层总存储量 |
数据云平台整合层总表数量 |
数据云平台整合层总字段总数 |
数据云平台整合层调度任务总数 |
数据云平台整合层表申请次数 |
数据云平台整合层表申请次数 |
对于汇总层,其对应的监控指标可参见表15。
表15
数据云平台汇总层总存储量 |
数据云平台汇总层总表数量 |
数据云平台汇总层总字段总数 |
数据云平台汇总层调度任务总数 |
数据云平台汇总层表申请次数 |
数据云平台汇总层表申请次数 |
对于数据集市层的数据状况,其对应的监控指标可参见表16。
表16
数据云平台集市层总存储量 |
数据云平台集市层总表数量 |
数据云平台集市层总字段总数 |
数据云平台集市层调度任务总数 |
数据云平台集市层表申请次数 |
数据云平台集市层表申请次数 |
针对上述监控指标,主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况分别使用的数据表可参见表17。
表17
类似地,可以将上述任一监控指标作为第二监控指标,基于第二监控指标,确定待使用的第二数据表,针对“主数据监控”,确定要使用的数据表为“主数据交易记录表”。并根据第二数据表获取第二目标数据,根据第二目标数据计算第二监控结果,将第二监控结果作为资源监控结果。数据资源监控模块220,还用于基于资源监控结果确定是否进行超标预警。
本公开实施例的数据监控系统,通过建立全面且完善的数据生命周期监控和数据资源监控指标体系,对数据平台上的数据可以进行全流程的监控,保证数据平台的正常运营。并且,提升了数据资源管理的能力,助力数据价值的充分挖掘。
相应于上述系统实施例,本公开实施例还提供了一种数据监控方法,参见图4,图4为本公开实施例中数据监控方法的一种流程图,可以包括以下步骤:
步骤S410,获取待监控数据,对待监控数据的数据流程进行监控,得到流程监控结果;其中,数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务。
步骤S420,在一个或多个维度对待监控数据的数据资源进行监控,得到资源监控结果。
在一种可选的实施方式中,对待监控数据的数据流程进行监控,包括:
在以下一个或多个维度对待监控数据的数据接入情况进行监控:接入系统、接入数据类型、接入频次、接入方式;以及
在以下一个或多个维度对待监控数据的数据存储情况进行监控:存储总量、接入总存储量和派生表总存储量占比、存储总量趋势图、库表总数、接入库表与派生表总量占比、库表总量趋势图;
在以下一个或多个维度对待监控数据的数据分析情况进行监控:数据集总数、数据集增长量、工作流总数量、工作流增长量、抽取转换加载ETL作业总数量、ETL作业增长量;以及
在以下一个或多个维度对待监控数据的数据应用情况进行监控:数据平台中应用的总数量、应用访问总次数、应用评论总数、评论总数最高的N个应用、访问次数最高的M个应用、点赞次数最高的O个应用,其中,N、M和O均为正整数;以及
在以下一个或多个维度对待监控数据的数据服务情况进行监控:数据表申请总数、各用户数据表申请分布情况、应用程序接口API调用总数量、各类型API调用次数分布、API调用所对应的项目。
在一种可选的实施方式中,获取待监控数据,对待监控数据的数据流程进行监控,得到流程监控结果,包括:
基于第一监控指标,确定待使用的第一数据表,并根据第一数据表获取第一目标数据;
根据第一目标数据计算第一监控结果,将第一监控结果作为流程监控结果。
在一种可选的实施方式中,在一个或多个维度对待监控数据的数据资源进行监控,包括:
在以下一个或多个维度对待监控数据的数据资源进行监控:主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况。
在一种可选的实施方式中,获取待监控数据,对待监控数据的数据流程进行监控,得到流程监控结果,包括:
基于第二监控指标,确定待使用的第二数据表,并根据第二数据表获取第二目标数据;
根据第二目标数据计算第二监控结果,将第二监控结果作为资源监控结果。
在一种可选的实施方式中,上述数据监控方法还包括:
在得到流程监控结果后,基于流程监控结果确定是否进行超标预警;
在得到资源监控结果后,基于资源监控结果确定是否进行超标预警。
在一种可选的实施方式中,各个数据存储层包括:操作数据存储ODS层、整合层和汇总层。
上述方法中各步骤的具体细节已经在对应的系统中进行了详细的描述,因此此处不再赘述。
参见图5,图5为本公开实施例中电子设备的一种结构示意图,本公开具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器502、通信接口504、存储器506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现上述数据监控方法。
本公开还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述数据监控方法对应的操作。
需要指出,根据实施的需要,可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本公开实施例的目的。
上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的数据监控方法。此外,当通用计算机访问用于实现在此示出的数据监控方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的数据监控方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。
以上实施方式仅用于说明本公开实施例,而并非对本公开实施例的限制,有关技术领域的普通技术人员,在不脱离本公开实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开实施例的范畴,本公开实施例的专利保护范围应由权利要求限定。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据监控系统,其特征在于,所述系统包括:
生命周期监控模块,用于获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果;其中,所述数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务;
数据资源监控模块,用于获取所述待监控数据,在一个或多个维度对所述待监控数据的数据资源进行监控,得到资源监控结果。
2.根据权利要求1所述的系统,其特征在于,所述生命周期监控模块具体用于在以下一个或多个维度对所述待监控数据的数据接入情况进行监控:接入系统、接入数据类型、接入频次、接入方式;以及
在以下一个或多个维度对所述待监控数据的数据存储情况进行监控:存储总量、接入总存储量和派生表总存储量占比、存储总量趋势图、库表总数、接入库表与派生表总量占比、库表总量趋势图;
在以下一个或多个维度对所述待监控数据的数据分析情况进行监控:数据集总数、数据集增长量、工作流总数量、工作流增长量、抽取转换加载ETL作业总数量、ETL作业增长量;以及
在以下一个或多个维度对所述待监控数据的数据应用情况进行监控:数据平台中应用的总数量、应用访问总次数、应用评论总数、评论总数最高的N个应用、访问次数最高的M个应用、点赞次数最高的O个应用,其中,N、M和O均为正整数;以及
在以下一个或多个维度对所述待监控数据的数据服务情况进行监控:数据表申请总数、各用户数据表申请分布情况、应用程序接口API调用总数量、各类型API调用次数分布、API调用所对应的项目。
3.根据权利要求1所述的系统,其特征在于,所述生命周期监控模块,具体用于基于第一监控指标,确定待使用的第一数据表,并根据所述第一数据表获取第一目标数据,根据所述第一目标数据计算第一监控结果,将所述第一监控结果作为所述流程监控结果。
4.根据权利要求1所述的系统,其特征在于,所述数据资源监控模块,具体用于在以下一个或多个维度对所述待监控数据的数据资源进行监控:主数据、数据质量、元数据、指标、数据平台模型、各个数据存储层的数据状况以及数据集市层的数据状况。
5.根据权利要求1所述的系统,其特征在于,所述数据资源监控模块,具体用于基于第二监控指标,确定待使用的第二数据表,并根据所述第二数据表获取第二目标数据,根据第二目标数据计算第二监控结果,将所述第二监控结果作为所述资源监控结果。
6.根据权利要求1所述的系统,其特征在于,所述生命周期监控模块,还用于基于所述流程监控结果确定是否进行超标预警;
所述数据资源监控模块,还用于基于所述资源监控结果确定是否进行超标预警。
7.根据权利要求4所述的系统,其特征在于,所述各个数据存储层包括:操作数据存储ODS层、整合层和汇总层。
8.一种数据监控方法,其特征在于,所述方法包括:
获取待监控数据,对所述待监控数据的数据流程进行监控,得到流程监控结果;其中,所述数据流程包括:数据接入、数据存储、数据分析、数据应用和数据服务;
在一个或多个维度对所述待监控数据的数据资源进行监控,得到资源监控结果。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求8所述的方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240595.8A CN112905420A (zh) | 2021-03-04 | 2021-03-04 | 数据监控系统、方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110240595.8A CN112905420A (zh) | 2021-03-04 | 2021-03-04 | 数据监控系统、方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905420A true CN112905420A (zh) | 2021-06-04 |
Family
ID=76108704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110240595.8A Pending CN112905420A (zh) | 2021-03-04 | 2021-03-04 | 数据监控系统、方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905420A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853437A (zh) * | 2009-03-31 | 2010-10-06 | 软件Ag公司 | 端对端业务流程管理、业务事件管理和/或业务活动监控的系统和/或方法 |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN110262951A (zh) * | 2019-06-10 | 2019-09-20 | 天翼电子商务有限公司 | 一种业务秒级监控方法及系统、存储介质及客户端 |
CN112416729A (zh) * | 2020-11-24 | 2021-02-26 | 平安普惠企业管理有限公司 | 数据处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-03-04 CN CN202110240595.8A patent/CN112905420A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853437A (zh) * | 2009-03-31 | 2010-10-06 | 软件Ag公司 | 端对端业务流程管理、业务事件管理和/或业务活动监控的系统和/或方法 |
CN108846076A (zh) * | 2018-06-08 | 2018-11-20 | 山大地纬软件股份有限公司 | 支持接口适配的海量多源异构数据etl方法及系统 |
CN110262951A (zh) * | 2019-06-10 | 2019-09-20 | 天翼电子商务有限公司 | 一种业务秒级监控方法及系统、存储介质及客户端 |
CN112416729A (zh) * | 2020-11-24 | 2021-02-26 | 平安普惠企业管理有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
彭泽武: "电网企业电网数据资产运营监控系统设计", 《电子制作》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8849736B2 (en) | Data quality management for profiling, linking, cleansing, and migrating data | |
US20070174840A1 (en) | Determining the level of availability of a computing resource | |
US20100153431A1 (en) | Alert triggered statistics collections | |
US20150193719A1 (en) | Comparison of Client and Benchmark Data | |
US10074079B2 (en) | Systems and methods for automated analysis, screening and reporting of group performance | |
US20070106577A1 (en) | Apparatus and method for facilitating trusted business intelligence | |
JP2013531844A (ja) | データマート自動化 | |
US10776506B2 (en) | Self-monitoring time series database system that enforces usage policies | |
CN111160658B (zh) | 一种协同制造资源优配方法、系统和平台 | |
US20150039555A1 (en) | Heuristically modifying dbms environments using performance analytics | |
US10379850B2 (en) | Software project estimation | |
US9336504B2 (en) | Eliminating execution of jobs-based operational costs of related reports | |
Cheng et al. | Efficient event correlation over distributed systems | |
WO2021128523A1 (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
US11243951B2 (en) | Systems and methods for automated analysis, screening, and reporting of group performance | |
CN112181704A (zh) | 一种大数据任务处理方法、装置、电子设备及存储介质 | |
CN113468159A (zh) | 一种数据应用全链路管控方法及系统 | |
JP2015109074A (ja) | ルールの自動化された生成および動的な更新 | |
CN109886434B (zh) | 一种智能钻井平台维护保养系统及方法 | |
US11308104B2 (en) | Knowledge graph-based lineage tracking | |
CN112905420A (zh) | 数据监控系统、方法、电子设备及存储介质 | |
US10902370B1 (en) | Methods and systems for multidisciplinary research collaboration | |
EP2722798A1 (en) | Assessing outsourcing engagements | |
US8527326B2 (en) | Determining maturity of an information technology maintenance project during a transition phase | |
US10552455B2 (en) | Analytics enablement for engineering records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210604 |
|
RJ01 | Rejection of invention patent application after publication |