CN111125152A - 一种基于数据处理过程模型的全链路数据管控方法 - Google Patents

一种基于数据处理过程模型的全链路数据管控方法 Download PDF

Info

Publication number
CN111125152A
CN111125152A CN201911369700.7A CN201911369700A CN111125152A CN 111125152 A CN111125152 A CN 111125152A CN 201911369700 A CN201911369700 A CN 201911369700A CN 111125152 A CN111125152 A CN 111125152A
Authority
CN
China
Prior art keywords
data
data processing
task
node
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911369700.7A
Other languages
English (en)
Other versions
CN111125152B (zh
Inventor
张永庆
林国春
王建功
侯培彬
朱英刚
马娇玉
辛德全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Integrated Electronic Systems Lab Co Ltd
Original Assignee
Integrated Electronic Systems Lab Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Integrated Electronic Systems Lab Co Ltd filed Critical Integrated Electronic Systems Lab Co Ltd
Priority to CN201911369700.7A priority Critical patent/CN111125152B/zh
Publication of CN111125152A publication Critical patent/CN111125152A/zh
Application granted granted Critical
Publication of CN111125152B publication Critical patent/CN111125152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据处理过程模型的全链路数据管控方法,该方法包括:构建数据处理过程描述模型与存储结构;采集数据处理过程模型信息;收集任务执行状态信息;对数据处理过程进行可视化处理;利用可视化界面对数据全链路进行管控。可以采用图形化的方式展示数据处理全过程的运行状态和数据质量,对数据处理全链路进行监控,并在出现问题时进行数据跟踪分析,定位问题根源。通过应用此种方法,可帮助数据运维人员有效提升数据管理效率,及时发现并解决问题。

Description

一种基于数据处理过程模型的全链路数据管控方法
技术领域
本发明涉及数据监控技术领域,具体地说是一种基于数据处理过程模型的全链路数据管控方法。
背景技术
为了消除信息孤岛,满足业务数据共享与综合利用的需要,各行业的企业或组织逐步建设了各种各样的数据综合分析系统、数据平台或数据中台。在此类系统中,数据的汇集与处理过程涉及到多数据源数据上送、转储、抽取、汇集、清洗、转换、加载、统计、数据应用等多个环节。每个环节出问题,都可能影响到数据应用的效果。
但是,由于数据经过的链路长,各个环节处理逻辑复杂,各环节实现形式多样,部署分散。因此,一方面,当某个数据处理环节出现问题时难以及时发现并处置,另一方面,当发现数据存在问题时,难以定位数据问题的根源。
发明内容
本发明的目的在于一种基于数据处理过程模型的全链路数据管控方法,用于解决由于缺乏对数据链路的全面描述与直观展示,在数据经过多个环节时出现问题不容易被发现或定位、难以分析影响范围的问题。
本发明解决其技术问题所采取的技术方案是:
一种基于数据处理过程模型的全链路数据管控方法,该方法包括:
构建数据处理过程描述模型与存储结构;
采集数据处理过程模型信息;
收集任务执行状态信息;
对数据处理过程进行可视化处理;
利用可视化界面对数据全链路进行管控。
在第一种可能实现的方式中,构建数据处理过程描述模型与存储结构具体包括:建立能够描述数据全链路的数据处理过程模型,对各种类型数据以及各种数据处理环节及其关系进行描述;
为数据处理过程模型创建描述表,作为存储结构。
在第二种可能实现的方式中,采集数据处理过程模型信息包括构建数据处理过程模型信息采集模块,采集系统的数据处理过程信息,并按照描述模型进行存储;具体包括以下方法:
构建SQL脚本解析过程,对SQL脚本进行解析,自动提取数据表及字段之间的依赖关系;
构建kettle转换文件解析过程,对kettle转换任务进行解析,自动提取其中的数据表及字段之间的依赖关系;
构建任务解析过程,对任务调度器的任务配置信息进行搜索,利用SQL脚本解析模块和kettle转换文件解析模块等自动提取模块对其中的每条任务内容进行解析,提取数据处理任务信息、数据处理节点信息、数据信息、任务级依赖关系和数据级依赖关系、字段级依赖关系。
在第三种可能实现的方式中,在构建SQL脚本解析过程中,自动提取数据表及字段之间的依赖关系具体包括以下方法:
从insert或update子句提取输出表数据节点,从from和join子句提取输入数据节点,将SQL脚本提取为流经的数据处理节点;
从select子句和insert或update子句中提取字段依赖关系。
在第四种可能实现的方式中,在构建kettle转换文件解析过程中,自动提取其中的数据表及字段之间的依赖关系具体包括以下方法:
提取其中的表输出节点作为输出表数据节点,提取其中的表输入节点作为输入表数据节点,将kettle文件提取为流经的数据处理节点;
对表输入、表输出节点的字段信息进行分析,提取为字段依赖关系。
在第五种可能实现的方式中,收集任务执行状态信息包括构建数据处理任务执行状态模块及日志信息收集模块,收集数据处理链路上每个处理环节的执行状态和日志,具体包括以下方法:
方法一:从任务执行日志表中读取执行日志信息;
根据日志信息处理生成执行状态,与数据处理任务模型的标识进行匹配处理并集中存储;
或/和,方法二:通过日志文件收集与解析,根据日志信息处理生成执行状态模块,与数据处理任务模型的标识进行匹配处理并集中存储。
在第六种可能实现的方式中,对数据处理过程进行可视化处理包括绘制各层级的数据处理过程可视化展示界面,呈现数据处理过程及运行状态,提供数据全链路监控管理界面,具体包括以下方法:
绘制所有者级数据交互关系概览图;
绘制任务级数据处理过程监控图;
绘制数据级数据依赖关系图;
绘制字段级数据依赖关系图。
在第七种可能实现的方式中,所述绘制所有者级数据交互关系概览图具体包括以下方法:
搜索数据节点依赖关系模型表,按照数据节点所属的所有者,提取数据所有者之间的数据输入、输出依赖关系;
以本系统对应的数据所有者为中心,在周围绘制其他各个数据所有者系统的图标;
根据数据输入、输出依赖关系在数据所有者图标之间绘制带箭头的连线,箭头的方向表示数据流动的方向;
读取数据处理任务执行状态信息,通过连接线的颜色表示数据流动过程的状态;
所述绘制任务级数据处理过程监控图具体包括以下方法:
从数据处理任务依赖关系模型表中搜索没有前置任务的所有数据处理任务;
按照任务的调度执行时间从上向下排列顺序绘制搜索出的数据处理任务图标;
从数据处理任务依赖关系模型表中搜索前置数据处理任务为搜索出的任务的数据处理任务,并按照前置任务的顺序进行排序;
绘制从数据处理任务依赖关系模型表中搜索出的数据处理任务图标;
在数据处理任务和其前置数据处理任务图标之间绘制带箭头的连接线;
读取任务执行状态信息,并在任务节点图标上显示执行状态标志;
所述绘制数据级数据依赖关系图具体包括以下方法:
从数据节点模型表中查询所有数据节点信息,按照数据所有者、存储位置、类型的层级组织成树形视图;
在数据节点视图上选中某个数据节点后,在右侧绘图区域绘制该节点的数据处理过程图;
所述绘制字段级数据依赖关系图具体包括以下方法:
从数据字段描述中查询该数据表的所有字段;
在绘图区域的之间位置从上至下排列数据表的每个字段图标;
从数据字段依赖关系表中搜索每个字段的流入字段作为上一级字段,及流经的数据处理节点;
绘制每个上一级字段的图标;
在每个字段和其上一级字段图标之间带箭头的连接线,并在连接线上绘制流经的数据处理节点。
在第八种可能实现的方式中,利用可视化界面对数据全链路的管控方法包括:
利用所有者级数据交互关系概览图了解数据交互整体情况;
利用任务级数据处理过程监控图监视数据处理任务的执行情况;
利用数据级数据依赖关系图进行数据溯源分析。
由以上方案可知,本发明建立能够描述数据全链路的数据处理过程模型与存储结构,对数据表、文件、流数据等各种类型数据以及各种数据处理环节(如:输出、传输、复制、抽取、清洗、转换、计算、持久化等)在任务、数据、字段各层次上的依赖关系进行描述。
本发明能够构建数据处理过程模型信息采集模块,采集系统的数据处理过程信息并存储,解决数据处理过程信息收集不全的问题,通过对系统的任务调度信息进行搜索,对其中的kettle数据抽取转换任务和SQL、HQL数据统计处理任务进行解析,提取其中的任务依赖关系以及数据表和字段级别的依赖关系。
本发明构建数据处理任务执行状态模块及日志信息收集模块,收集数据处理链路上每个处理环节的执行状态和日志,与数据处理过程模型匹配处理后集中存储,为基于数据处理过程模型的全链路监控提供数据。
本发明构建据处理过程可视化展示界面,直观呈现数据处理过程。
本发明基于可视化数据处理过程展示界面,数据运维人员实时监视数据处理全链路的运行状态,当出现问题时,可查看详细日志分析问题原因。同时,根据数据的依赖关系,分析运行异常的影响范围。在数据节点上查询数据内容,依据数据之间的依赖关系数据溯源分析、排查问题原因。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于数据处理过程模型的全链路数据管控方法流程示意图;
图2为本发明实施例所应用的采集数据处理过程模型信息方法流程示意图;
图3为本发明实施例所应用的绘制所有者级数据交互关系概览图方法流程示意图;
图4为本发明实施例所应用的调控数据中心所有者级别数据交互概览图示意图;
图5为本发明实施例所应用的绘制任务级数据处理过程监控图方法流程示意图;
图6为本发明实施例所应用的任务级数据处理过程监控图示意图;
图7为本发明实施例所应用的绘制数据级数据依赖关系图方法流程示意图;
图8为本发明实施例所应用的数据级数据依赖关系图示意图;
图9为本发明实施例所应用的绘制字段级数据依赖关系图方法流程示意图;
图10本发明实施例所应用的字段级数据依赖关系图示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,一种基于数据处理过程模型的全链路数据管控方法,该方法包括:
S1、构建数据处理过程描述模型与存储结构;
S2、采集数据处理过程模型信息;
S3、收集任务执行状态信息;
S4、对数据处理过程进行可视化处理;
S5、利用可视化界面对数据全链路进行管控。
S1中,构建数据处理过程描述模型与存储结构具体包括:建立能够描述数据全链路的数据处理过程模型,对各种类型数据以及各种数据处理环节及其关系进行描述;为数据处理过程模型创建描述表,作为存储结构。
数据处理过程描述模型的主要内容包括:
数据所有者模型对产生数据的应用系统进行描述。
数据存储位置模型对容纳数据的位置进行描述,描述信息包括类型、地址、路径等。
数据节点模型对系统中处理的各种数据信息进行描述。描述信息包括:所有者、存储位置、数据存在形式、名称、标识、标识命名规则、数据规模、更新频度、更新类型等。数据存在形式包括数据表、文件、流数据。
数据字段模型对数据节点的存储结构进行描述。对于数据表类型的数据节点,描述其中的字段信息。
任务调度器模型对调度执行数据处理任务的服务进行描述,描述的信息包括:类型、任务调度执行方式、所在服务器地址等。
数据处理任务模型对数据处理任务进行描述,描述的信息包括任务类型、作用、所属的任务调度器、内部任务标识、调度方式、执行时间等。
数据处理节点模型对各个具体的数据处理环节进行描述。描述的信息包括:功能类型、形态、所属的数据处理任务、任务节点标识。功能类型包括:实时传输、文件转发、数据抽取、过滤、清洗、转换、计算、写文件、写库、综合。数据处理节点形态包括:shell脚本、hql/sql、kettle转换、自定义流程、专用服务等。
任务级依赖关系模型描述任务及其中的数据处理节点依赖的前置任务及数据处理节点、依赖类型等。
数据级依赖关系模型描述数据节点之间的依赖关系。描述的信息包括:数据节点、流入数据节点、流经的数据处理节点。
字段级依赖关系模型描述数据表字段之间的依赖关系。描述的信息包括:数据字段、流入数据字段、流经的数据处理节点。
如图2所示,采集数据处理过程模型信息包括构建数据处理过程模型信息采集模块,采集系统的数据处理过程信息,并按照描述模型进行存储;具体包括以下方法:
S21、构建SQL脚本解析过程,对SQL脚本进行解析,自动提取数据表及字段之间的依赖关系;
S22、构建kettle转换文件解析过程,对kettle转换任务进行解析,自动提取其中的数据表及字段之间的依赖关系;
S23、构建任务解析过程,对任务调度器的任务配置信息进行搜索,利用SQL脚本解析模块和kettle转换文件解析模块等自动提取模块对其中的每条任务内容进行解析,提取数据处理任务信息、数据处理节点信息、数据信息、任务级依赖关系和数据级依赖关系、字段级依赖关系。
在构建SQL脚本解析过程中,自动提取数据表及字段之间的依赖关系具体包括以下方法:
从insert或update子句提取输出表数据节点,从from和join子句提取输入数据节点,将SQL脚本提取为流经的数据处理节点;从select子句和insert或update子句中提取字段依赖关系。
在构建kettle转换文件解析过程中,自动提取其中的数据表及字段之间的依赖关系具体包括以下方法:
提取其中的表输出节点作为输出表数据节点,提取其中的表输入节点作为输入表数据节点,将kettle文件提取为流经的数据处理节点;对表输入、表输出节点的字段信息进行分析,提取为字段依赖关系。
S3中,收集任务执行状态信息包括构建数据处理任务执行状态模块及日志信息收集模块,收集数据处理链路上每个处理环节的执行状态和日志,具体包括以下方法:
方法一针对对于任务执行状态与日志信息已存储在数据库中的情况:
从任务执行日志表中读取执行日志信息;
根据日志信息处理生成执行状态,与数据处理任务模型的标识进行匹配处理并集中存储;
或/和,方法二针对对于日志没有集中存库的专用数据处理服务进程:
通过日志文件收集与解析,根据日志信息处理生成执行状态模块,与数据处理任务模型的标识进行匹配处理并集中存储。
S4中,对数据处理过程进行可视化处理包括绘制各层级的数据处理过程可视化展示界面,呈现数据处理过程及运行状态,提供数据全链路监控管理界面,具体包括以下方法:
绘制所有者级数据交互关系概览图;
绘制任务级数据处理过程监控图;
绘制数据级数据依赖关系图;
绘制字段级数据依赖关系图。
如图3-4所示,绘制所有者级数据交互关系概览图具体包括以下方法:
A1、搜索数据节点依赖关系模型表,按照数据节点所属的所有者,提取数据所有者之间的数据输入、输出依赖关系;
A2、以本系统对应的数据所有者为中心,在周围绘制其他各个数据所有者系统的图标;
A3、根据数据输入、输出依赖关系在数据所有者图标之间绘制带箭头的连线,箭头的方向表示数据流动的方向;
A4、读取数据处理任务执行状态信息,通过连接线的颜色表示数据流动过程的状态。(例如:绿色表示正常,红色表示中断,黄色表示存在异常)。
如图5-6所示,绘制任务级数据处理过程监控图包括以下方法:
B1、从数据处理任务依赖关系模型表中搜索没有前置任务的所有数据处理任务。
B2、在绘图区域中的最左侧,按照任务的调度执行时间从上向下排列顺序绘制B1搜索出的数据处理任务图标。
B3、再从数据处理任务依赖关系模型表中搜索前置数据处理任务为B1搜索出的任务的数据处理任务,并按照前置任务的顺序进行排序。
B4、在B2步所绘制的任务图标右侧绘制B3步搜索出的数据处理任务图标。
B5、在数据处理任务和其前置数据处理任务图标之间绘制带箭头的连接线,箭头向右。
B6、重复B2至B5步骤,直至所有的数据处理任务在图上绘制完成。
B7、读取任务执行状态信息,并在任务节点图标上显示执行状态标志。
如图7-8所示,绘制数据级数据依赖关系图方法包括:从数据节点模型表中查询所有数据节点信息,按照数据所有者、存储位置、类型的层级组织成树形视图,在左侧展示。
在数据节点视图上选中某个数据节点后,在右侧绘图区域绘制该节点的数据处理过程图。
具体的绘制步骤如下:
①在绘图区域的中间位置,绘制该数据节点的图标,作为图形的主节点。
②从数据节点依赖关系模型表中查询主节点的所有流入数据节点作为上一级数据节点,以及流经的数据处理节点信息。
③在主节点的左侧从上之下排列其所有的上一级数据节点,并在主节点与上一级数据节点之间绘制带箭头的连接线,箭头指向主节点。
④在上一级数据节点与主节点之间的连接线上绘制流经的数据处理节点。
⑤再查询图上每个上一级数据节点的上级流入节点与流经的数据处理节点,执行③和④步骤。直至最左侧的数据节点不再有上一级数据节点为止。
⑥从数据节点依赖关系模型表中查询以主节点为流入数据节点的所有数据节点作为下一级的数据节点,以及流经的数据处理节点。
⑦在主节点的右侧绘制每个下一级数据节点的图标。
⑧在主节点与每个下一级节点之间绘制带箭头的连接线,箭头指向下一级数据节点。在连接线上绘制流经的数据处理节点图标。
⑨读取数据质量检查结果信息,并在每个数据节点图标上显示数据质量标志。
⑩读取各个数据处理节点的执行状态,并在其图标上显示执行状态。
为了使图形显示简洁明了,对于数据处理节点,采用简化图标表示,例如:C:表示复制同步;E:表示数据抽取;S:表示统计计算。
如图9-10所示,所述绘制字段级数据依赖关系图包括从数据级数据依赖关系图上,选中某个数据表类型的数据节点后,可以查看其字段级依赖关系图。绘制具体步骤如下:
a)从数据字段描述中查询该数据表的所有字段。
b)在绘图区域的之间位置从上至下排列数据表的每个字段图标。
c)从数据字段依赖关系表中搜索每个字段的流入字段作为上一级字段,及流经的数据处理节点。
d)在左侧绘制每个上一级字段的图标
e)在每个字段和其上一级字段图标之间带箭头的连接线。并在连接线上绘制流经的数据处理节点。
利用可视化界面对数据全链路的管控方法包括:
1)利用所有者级数据交互关系概览图了解数据交互整体情况。
2)利用任务级数据处理过程监控图监视数据处理任务的执行情况。
21)根据数据处理任务图标上的标志查看任务执行的状态。查看任务的处理逻辑、任务的调度器相关信息。
22)当发现异常时,可在发生异常的数据处理任务图标上查看详细日志,分析出现的具体问题并进行处理。
23)对于出现问题的数据处理任务,可根据数据级依赖关系模型,调出数据级数据依赖关系图,分析数据处理任务异常对数据的影响范围。
3)利用数据级数据依赖关系图进行数据溯源分析
31)根据数据节点图标上的数据质量标志了解数据的质量情况。
32)对数据质量可疑的数据节点,可以直接查看其中的数据内容以及上一级的数据内容,查看经过的数据处理节点的处理逻辑,对其中的字段存在问题时,可以调出字段级数据依赖关系图,分析数据出现问题的根源,对问题进行定位。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于数据处理过程模型的全链路数据管控方法,其特征是,该方法包括:
构建数据处理过程描述模型与存储结构;
采集数据处理过程模型信息;
收集任务执行状态信息;
对数据处理过程进行可视化处理;
利用可视化界面对数据全链路进行管控。
2.根据权利要求1所述的方法,其特征是,构建数据处理过程描述模型与存储结构具体包括:建立能够描述数据全链路的数据处理过程模型,对各种类型数据以及各种数据处理环节及其关系进行描述;
为数据处理过程模型创建描述表,作为存储结构。
3.根据权利要求1所述的方法,其特征是,采集数据处理过程模型信息包括构建数据处理过程模型信息采集模块,采集系统的数据处理过程信息,并按照描述模型进行存储;具体包括以下方法:
构建SQL脚本解析过程,对SQL脚本进行解析,自动提取数据表及字段之间的依赖关系;
构建kettle转换文件解析过程,对kettle转换任务进行解析,自动提取其中的数据表及字段之间的依赖关系;
构建任务解析过程,对任务调度器的任务配置信息进行搜索,利用SQL脚本解析模块和kettle转换文件解析模块等自动提取模块对其中的每条任务内容进行解析,提取数据处理任务信息、数据处理节点信息、数据信息、任务级依赖关系和数据级依赖关系、字段级依赖关系。
4.根据权利要求3所述的方法,其特征是,在构建SQL脚本解析过程中,自动提取数据表及字段之间的依赖关系具体包括以下方法:
从insert或update子句提取输出表数据节点,从from和join子句提取输入数据节点,将SQL脚本提取为流经的数据处理节点;
从select子句和insert或update子句中提取字段依赖关系。
5.根据权利要求3所述的方法,其特征是,在构建kettle转换文件解析过程中,自动提取其中的数据表及字段之间的依赖关系具体包括以下方法:
提取其中的表输出节点作为输出表数据节点,提取其中的表输入节点作为输入表数据节点,将kettle文件提取为流经的数据处理节点;
对表输入、表输出节点的字段信息进行分析,提取为字段依赖关系。
6.根据权利要求2所述的方法,其特征是,收集任务执行状态信息包括构建数据处理任务执行状态模块及日志信息收集模块,收集数据处理链路上每个处理环节的执行状态和日志,具体包括以下方法:
方法一:从任务执行日志表中读取执行日志信息;
根据日志信息处理生成执行状态,与数据处理任务模型的标识进行匹配处理并集中存储;
或/和,方法二:通过日志文件收集与解析,根据日志信息处理生成执行状态模块,与数据处理任务模型的标识进行匹配处理并集中存储。
7.根据权利要求1所述的方法,其特征是,对数据处理过程进行可视化处理包括绘制各层级的数据处理过程可视化展示界面,呈现数据处理过程及运行状态,提供数据全链路监控管理界面,具体包括以下方法:
绘制所有者级数据交互关系概览图;
绘制任务级数据处理过程监控图;
绘制数据级数据依赖关系图;
绘制字段级数据依赖关系图。
8.根据权利要求7所述的方法,其特征是,所述绘制所有者级数据交互关系概览图具体包括以下方法:
搜索数据节点依赖关系模型表,按照数据节点所属的所有者,提取数据所有者之间的数据输入、输出依赖关系;
以本系统对应的数据所有者为中心,在周围绘制其他各个数据所有者系统的图标;
根据数据输入、输出依赖关系在数据所有者图标之间绘制带箭头的连线,箭头的方向表示数据流动的方向;
读取数据处理任务执行状态信息,通过连接线的颜色表示数据流动过程的状态;
所述绘制任务级数据处理过程监控图具体包括以下方法:
从数据处理任务依赖关系模型表中搜索没有前置任务的所有数据处理任务;
按照任务的调度执行时间从上向下排列顺序绘制搜索出的数据处理任务图标;
从数据处理任务依赖关系模型表中搜索前置数据处理任务为搜索出的任务的数据处理任务,并按照前置任务的顺序进行排序;
绘制从数据处理任务依赖关系模型表中搜索出的数据处理任务图标;
在数据处理任务和其前置数据处理任务图标之间绘制带箭头的连接线;
读取任务执行状态信息,并在任务节点图标上显示执行状态标志;
所述绘制数据级数据依赖关系图具体包括以下方法:
从数据节点模型表中查询所有数据节点信息,按照数据所有者、存储位置、类型的层级组织成树形视图;
在数据节点视图上选中某个数据节点后,在右侧绘图区域绘制该节点的数据处理过程图;
所述绘制字段级数据依赖关系图具体包括以下方法:
从数据字段描述中查询该数据表的所有字段;
在绘图区域的之间位置从上至下排列数据表的每个字段图标;
从数据字段依赖关系表中搜索每个字段的流入字段作为上一级字段,及流经的数据处理节点;
绘制每个上一级字段的图标;
在每个字段和其上一级字段图标之间带箭头的连接线,并在连接线上绘制流经的数据处理节点。
9.根据权利要求1所述的,其特征是,利用可视化界面对数据全链路的管控方法包括:
利用所有者级数据交互关系概览图了解数据交互整体情况;
利用任务级数据处理过程监控图监视数据处理任务的执行情况;
利用数据级数据依赖关系图进行数据溯源分析。
CN201911369700.7A 2019-12-26 2019-12-26 一种基于数据处理过程模型的全链路数据管控方法 Active CN111125152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911369700.7A CN111125152B (zh) 2019-12-26 2019-12-26 一种基于数据处理过程模型的全链路数据管控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911369700.7A CN111125152B (zh) 2019-12-26 2019-12-26 一种基于数据处理过程模型的全链路数据管控方法

Publications (2)

Publication Number Publication Date
CN111125152A true CN111125152A (zh) 2020-05-08
CN111125152B CN111125152B (zh) 2023-10-13

Family

ID=70503424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911369700.7A Active CN111125152B (zh) 2019-12-26 2019-12-26 一种基于数据处理过程模型的全链路数据管控方法

Country Status (1)

Country Link
CN (1) CN111125152B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651460A (zh) * 2020-06-11 2020-09-11 上海德易车信息科技有限公司 一种数据治理方法、装置、电子设备及可读存储介质
CN112559280A (zh) * 2020-12-04 2021-03-26 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN113537824A (zh) * 2021-08-03 2021-10-22 南方电网数字电网研究院有限公司 一种电网数据全链路监控系统
CN113901094A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 一种数据处理方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
US20160357739A1 (en) * 2015-06-02 2016-12-08 Oracle International Corporation Techniques for tenant controlled visualizations and management of files in cloud storage systems
CN109765883A (zh) * 2019-03-04 2019-05-17 积成电子股份有限公司 配电自动化终端运行状态评价与故障诊断方法
CN109962792A (zh) * 2017-12-22 2019-07-02 南京欣网互联网络科技有限公司 一种基于大数据的全链路监控系统
CN110209486A (zh) * 2019-06-06 2019-09-06 南威软件股份有限公司 基于界面的spark任务流程构建方法和计算机可读存储介质
CN110428018A (zh) * 2019-08-09 2019-11-08 北京中电普华信息技术有限公司 一种全链路监控系统中的异常预测方法及装置
CN110442651A (zh) * 2019-08-13 2019-11-12 焦点科技股份有限公司 一种基于kettle实现excel数据自动上传并触发调度的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102685221A (zh) * 2012-04-29 2012-09-19 华北电力大学(保定) 一种状态监测数据的分布式存储与并行挖掘方法
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
US20160357739A1 (en) * 2015-06-02 2016-12-08 Oracle International Corporation Techniques for tenant controlled visualizations and management of files in cloud storage systems
CN109962792A (zh) * 2017-12-22 2019-07-02 南京欣网互联网络科技有限公司 一种基于大数据的全链路监控系统
CN109765883A (zh) * 2019-03-04 2019-05-17 积成电子股份有限公司 配电自动化终端运行状态评价与故障诊断方法
CN110209486A (zh) * 2019-06-06 2019-09-06 南威软件股份有限公司 基于界面的spark任务流程构建方法和计算机可读存储介质
CN110428018A (zh) * 2019-08-09 2019-11-08 北京中电普华信息技术有限公司 一种全链路监控系统中的异常预测方法及装置
CN110442651A (zh) * 2019-08-13 2019-11-12 焦点科技股份有限公司 一种基于kettle实现excel数据自动上传并触发调度的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张华正: "基于大数据的配电自动化终端智能运维管理系统" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651460A (zh) * 2020-06-11 2020-09-11 上海德易车信息科技有限公司 一种数据治理方法、装置、电子设备及可读存储介质
CN112559280A (zh) * 2020-12-04 2021-03-26 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN112559280B (zh) * 2020-12-04 2023-08-22 国网安徽省电力有限公司信息通信分公司 基于数据中台的数据全链路监控方法
CN113537824A (zh) * 2021-08-03 2021-10-22 南方电网数字电网研究院有限公司 一种电网数据全链路监控系统
CN113901094A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 一种数据处理方法、装置、设备及存储介质
CN113901094B (zh) * 2021-09-29 2022-08-23 北京百度网讯科技有限公司 一种数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111125152B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN111125152A (zh) 一种基于数据处理过程模型的全链路数据管控方法
CN107886238B (zh) 一种基于海量数据分析的业务流程管理系统及方法
WO2020001642A1 (zh) 一种运维系统及方法
CN109947746B (zh) 一种基于etl流程的数据质量管控方法和系统
CN110764786A (zh) 一种云计算环境下优化部署资源与软件交付平台
CN206058263U (zh) 基于智能化数据采集的实验室管理系统
Zhu et al. A framework-based approach to utility big data analytics
CN112328220A (zh) 基于拖拽编排方式的流式数据处理系统及其处理方法
CN106656620A (zh) 网络设备监控处理方法及系统
CN113642299A (zh) 一种基于电网统计报表一键生成的方法
CN106341257A (zh) 一种自定义日志解析规则并自动解析日志的方法和工具
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN115423429A (zh) 基于图像和声音信息的多模态一体化配网运营系统
CN113468159A (zh) 一种数据应用全链路管控方法及系统
EP1993016A2 (en) Embedded historians with data aggregator
CN113391978B (zh) 一种主机的巡检方法和装置
CN103209094B (zh) 一种基于事件的故障定位系统及方法
CN111125450A (zh) 一种多层拓扑网络资源对象的管理方法
CN114328278A (zh) 分布式仿真测试方法、系统、可读存储介质及计算机设备
CN117422434A (zh) 一种智慧运维调度平台
CN115016902B (zh) 工业流程数字化管理系统及方法
CN110415136B (zh) 一种电力调度自动化系统服务能力评估系统与方法
CN112532432B (zh) 一种基于ltu终端的自动成图方法及系统
CN113159721A (zh) 一种基于设备全生命周期的物联网平台
CN114529017A (zh) 汽轮机故障检修系统、检修方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant