CN111241176A - 一种数据治理管理系统 - Google Patents
一种数据治理管理系统 Download PDFInfo
- Publication number
- CN111241176A CN111241176A CN201911397427.9A CN201911397427A CN111241176A CN 111241176 A CN111241176 A CN 111241176A CN 201911397427 A CN201911397427 A CN 201911397427A CN 111241176 A CN111241176 A CN 111241176A
- Authority
- CN
- China
- Prior art keywords
- data
- column
- governance
- management system
- columns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
Abstract
本发明提出了一种数据治理管理系统,包括:数据治理创建模块,用于创建数据流每个转换操作控件对应一个数据转换功能,并对输入控件赋值输入数据,运行数据治理创建模块,在数据治理过程中,数据被自动提取和加载,并根据转换操作控件进行处理,转换为相应的格式或结构供查询和分析,由输出控件得到的输出数据为数据流,并将其加载到数据中心中;数据治理编辑模块对数据中心中保存的数据流的信息进行编辑保存;数据治理删除模块对数据中心中保存的数据流的信息进行删除处理;数据治理管理模块对数据中心中保存的数据流提供数据运行功能,并提供数据流运行历史查询记录。本发明可以降低实施难度、降低实施成本、提高实施质量、提高实施效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据治理管理系统。
背景技术
现有的业务数据处理存在以下问题:数据分散在各业务系统、数据质量差,不完整、数据量大、数据格式及版本繁杂、历史数据缺失、无人了解源系统数据、统计口径不好确定、指标计算复杂。
图1为简化ETL的示意图。ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。利用ETL工具可以对业务数据进行处理,但现有的其它ETL工具存在以下缺陷:
采用功能繁多的转换组件进行开发;
组件功能极为复杂,容易形成蛛网式流程;
难以调试、排错及性能优化;
缺少专门的运维界面,计划调度采用;
操作系统命令,手工跑批需命令行;
查看日志需打开生产环境的日志文件;
如何解决上述业务系统中存在的问题,是当前需要解决的技术问题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种数据治理管理系统。
为了实现上述目的,本发明的实施例提供一种数据治理管理系统,包括:数据治理创建模块,用于创建数据流,包括:设置输入控件、一个或多个转换操作控件、输出控件,在所述输入控件、一个或多个转换操作控件、输出控件之间建立顺序连接,其中,每个所述转换操作控件对应一个数据转换功能,并对所述输入控件赋值输入数据,运行所述数据治理创建模块,在数据治理过程中,数据被自动提取和加载,并根据所述转换操作控件进行处理,转换为相应的格式或结构供查询和分析,由所述输出控件得到的输出数据为数据流,并将其加载到数据中心中;数据治理编辑模块,用于对所述数据中心中保存的数据流的信息进行编辑保存;数据治理删除模块,用于对所述数据中心中保存的数据流的信息进行删除处理;数据治理管理模块,用于对所述数据中心中保存的数据流提供数据运行功能,并提供数据流运行历史查询记录。
进一步,所述数据治理编辑模块还用于提供禁用或删除数据流功能,其中,执行禁用数据流,将会停止数据流自动更新设置的运行;执行删除数据流,该数据流将会从数据治理系统移除,但由其输出的数据仍然保留。
进一步,每个所述数据流的信息包括:名称、连接器、所有者、行列数、图集数及最后更新时间。
进一步,所述数据治理创建模块对输入控件进行赋值,赋值数据从预存的带有JDBC驱动的数据库或第三方云应用中获取。
进一步,所述一个或多个转换操作控件包括:常量列、计算、列转行、连接列、日期计算、分组聚合、排序和累计、选择列、修改列类型、行转列、文本计算、过滤、删除重复项、替换文本、设置列值、文本格式化、值映射、合并、关联。
进一步,所述数据治理管理模块对数据运行排序和累计功能,包括:对数据进行排序、累计与偏移操作,并对结果进行排序与分组展示。
进一步,所述数据治理管理模块对数据运行值映射功能,包括:根据特定列中的值进行内容的匹配映射,对已有列进行值替换或创建新的列。
进一步,所述数据治理管理模块对数据运行合并功能,包括:将来自多个数据集的具有相同数据结构和数据类型的行合并到一个数据集中,返回所有匹配项,包括重复行;如果数据结构不匹配,则创建新的列。
进一步,所述数据治理管理模块对数据运行关联功能,包括:用特定列或列集的公共值,将两个数据集组合成一个数据集,其中,特定列必须存在于两个输入数据中,且具有相同的数据结构。
进一步,所述多个转换操作控件的数据连接和数据抽取过程,采用SQL语句执行。
根据本发明实施例的数据治理管理系统,采用先抽取源数据并加载到目标数据库后再进行清洗转换的ELT方式,充分利用数据库服务器自身的性能优势,通过异构数据抽取、转换脚本任务、作业控制流、计划调度、实时监控等核心服务引擎,开发人员只需要掌握基本的SQL语言就可以准确、高效的实现数据整合的开发和运维工作,可快速搭建包括数据迁移、数据标准化、数据同步、数据交换、数据仓库在内的一体化数据整合服务。本发明可以降低实施难度、降低实施成本、提高实施质量、提高实施效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的简化ETL的示意图;
图2为根据本发明实施例的数据治理管理系统的结构图;
图3为根据本发明实施例的数据中心的界面图;
图4为根据本发明实施例的数据族谱的界面图;
图5为根据本发明实施例的数据流的界面图;
图6为根据本发明实施例的数据治理创建的界面图;
图7为根据本发明实施例的查看数据流运行历史的界面图;
图8为根据本发明实施例的数据输入的界面图;
图9为根据本发明实施例的数据输出的界面图;
图10为根据本发明实施例的分组聚合的界面图;
图11为根据本发明实施例的排序累计的界面图;
图12为根据本发明实施例的关联的界面图;
图13为根据本发明实施例的实时监控的界面图;
图14为根据本发明实施例的历史日志的界面图;
图15为根据本发明实施例的数据质量剖析-分析报告的界面图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面对本发明中使用到的两个概念:数据和数据流,进行说明。
本发明设置了数据中心,管理数据及数据流,数据中心分为两个选项,可以通过导航栏面板切换进行选择,如图3所示。
(1)数据:查看和管理数据治理系统中的数据集。对于任何数据,都可以点击查看详情。
1、字段和记录
2、数据类型
选择Excel中任意一个单元格,单击鼠标右键,在弹出的菜单中选择“设置单元格格式”,会出现“设置单元格格式”的对话框,。可以看到各种不同的数据类型,比如:数字、货币、会计专用、时间、百分比、文本等。可以归结为两大类:字符型数据和数值型数据。
字符型数据是不具有计算能力的文本数据类型,它包括中文字、英文字、数字以及特殊字符等。数值型数据是直接使用自然数或度量单位进行计量的数值数据。是否能够用数学方法进行汇总和分析,是区分数据是否是数值型数据的重要依据。
在数据治理系统中,数据类型的分类更加贴近用户的业务类型,比如:身份证、邮箱、手机号、省、市等更加便于理解,而且对于数值型的数据,可以进行智能统计,在之后的内容中会详细介绍。
3、交叉表和列表
对于数据分析最理想的方式是使用列表,因为列表的每一行记录都是完整的记录,而交叉表中每一行包含“字段”和“记录”两部分内容,因此并不适合提供数据分析使用。在数据治理系统中,需要上传列表。
在数据选项卡中,可以查看已添加数据的详细信息,包括连接数据类型、名称、所有者、数据集的行列数、包含的图表数及最后更新时间。点击可以查看详情、预览或删除数据。
选择数据集,查看详情,可以查看数据集的详细信息,此页面分为图表、数据、数据族谱、更新及数据权限五个选项。
图表:显示该数据下已创建的图表。
数据:可修改数据的行标题。
数据族谱:展示当前数据的来源,即与其它数据间的关联关系。将鼠标放置页面的数据框上即可查看该数据的详细信息,包括所有者、更新时间、包含数据列等,也可通过点击面板上的数据名直接跳转进入该数据,如图4所示。
更新:如数据为本地文件,显示“替换数据”及“追加数据”两个选项,点击“替换数据”可替换原有数据集,点击“追加数据”即在原有数据基础上追加行,以上操作均会对已有图表进行重绘操作。
如数据来自数据库或第三方云应用,显示“替换数据”及“定时更新”两个选项,点击“替换数据”会自动进行更新,替换原有数据集,点击“定时更新”,在弹出对话框上进行更新设置,点击“确认”完成。
数据流:创建并管理数据流,由两个或多个“输入”集组合并转换而成。
在数据流选项中,可以创建并管理的数据流,每次运行脚本时都将生成一个新的“输出”。移动鼠标到数据流,可以对数据流进行编辑,查看详情,运行,禁用、复制或删除操作,如图5所示。
编辑:对已有数据流进行修改。
查看详情:所有的数据流都有一个详细信息视图,分为设置、数据、历史、版本四个选项。
设置:可以选择运行数据流,点击复选框,选择“应用”即可在数据源更新后自动运行数据流。
数据:显示“输入”及“输出”的数据流,单击数据可查看其详细视图。
历史:显示关于运行的历史记录,包括运行成功及失败的次数,平均运行成功次数,运行历史,是否手动执行或自动更新,以及每次运行的状态。
版本:显示数据流的历史版本信息,每次编辑保存数据流,都会在列表生成一条新记录。
权限:点击头像右侧“转交”,即可将该数据流权限转交他人。
运行:运行数据流。
禁用:此数据流不可用,也可点击“启用”恢复此数据流。
复制:复制数据流。
删除:删除数据流。
图3为根据本发明实施例的数据中心的界面图
导航栏:可以切换选择“数据”与“数据流”;
搜索框:可以输入关键词进行数据搜索;
创建新数据:可以添加新的连接数据(文件或数据库)或转换数据(关联数据、合并数据或数据治理);
过滤设置:可以通过下拉列表对数据进行类型与所有者的筛选,并按照指定顺序显示;
数据:显示每个数据的信息,包括名称、连接器、所有者、行列数、图集数及最后更新时间。(数据信息的展示取决于对数据的访问权限)对于数据集,可以执行以下操作,移动鼠标到数据集,单击选择查看详情,可以打开详细视图,查看数据行列数、图表、更新次数等等。
设置:显示数据集的设置菜单。移动鼠标到数据集上显示,点击进行查看详情、预览数据或删除。如果删除图表上的数据集,图表将显示“数据无法加载。
如图2所示,本发明实施例的数据治理管理系统,包括:数据治理创建模块1、数据治理编辑模块2、数据治理删除模块3和数据治理管理模块4。
在数据中心,可以直观的用拖拽的方式在界面创建一个数据流。只需要简单的将的数据集拖动到画布上,然后添加想要的操作,对数据集进行合并与转换即可。在这里,可以进行合并列、过滤行、替换文本等等操作。
具体的,数据治理创建模块1用于创建数据流,包括:设置输入控件、一个或多个转换操作控件、输出控件,在输入控件、一个或多个转换操作控件、输出控件之间建立顺序连接,其中,每个转换操作控件对应一个数据转换功能,并对输入控件赋值输入数据。
在本发明中,数据治理创建模块1对输入控件进行赋值,赋值数据从预存的带有JDBC驱动的数据库或第三方云应用中获取。本发明数据连接、驱动管理和元数据管理功能,数据源支持各种带有JDBC驱动的数据库、文本文件等。使用SQL语句对变量进行赋值,如数据批次号等。定义抽取的源和目标,以及删除操作和取数语句,语句中可嵌入变量。将数据库中的数据查询出来并保存至文本文件中,路径和文件名可嵌入变量。
本发明可以通过webservice或者本地读取的方式将xml和json数据插入目标数据库。
然后运行数据治理创建模块,在数据治理过程中,数据被自动提取和加载,并根据转换操作控件进行处理,转换为相应的格式或结构供查询和分析,由输出控件得到的输出数据为数据流,并将其加载到数据中心中。
本发明可以通过选择数据连接,编写该数据库类型的SQL语句。支持各种DDL、DML语句,可嵌入变量。选择数据连接,调用存储过程,配置输入输出参数和成功判断条件。
在数据中心,可以直观的用拖拽的方式在界面创建一个数据流。只需要简单的将的数据集拖放到画布上,然后添加想要的操作,对数据集进行合并与转换即可。在这里,可以进行合并列、过滤行等等操作。以下是创建数据治理数据流的操作步骤。
如图6所示通过以下方式添加及配置“输入”:在左侧“操作面板”中,展开“数据”,将“输入”拖放到画布上,单击“输入”,选择想要转换的数据集。单击“数据中心”进入面板,在右上角单击“创建数据”中的“数据治理”。通过以下方式添加一个“输出”:在左侧“操作”面板的“数据”中,拖放“输出”到画布上,连接操作到“输出”,对其进行配置操作。从左侧“操作”面板拖放其他操作(过滤、合并、关联等)到画布上用于转换“输出”。绘制转换操作的连接,对数据治理中的操作进行排序。通过单击操作进行配置,然后指定选项。同时在右侧画布单击并圈选特定的操作,可以在左侧选择进行整体复制与删除。通过执行以下操作,对“输出”进行配置:连接一个操作到“输出”,单击“输出”,输入新的名称。
配置转换流运行时的设置:默认情况下,数据治理仅通过手动操作运行。也可以通过设置使数据治理数据流在指定的“输入”发生变更时自动运行。单击右上角“保存”对数据治理数据流进行保存操作,当保存一个数据流之后,此数据流将会添加到“数据中心”中的数据选项中。
数据治理创建模块1建立的数据流,包括:每个转换步骤的描述名称、正在合并或操作的“输入”及正在创建的数据集,并且标明数据的所有者;与“输出”相同的命名-较易识别数据集是由哪个数据流所产生。
数据治理编辑模块2用于对数据中心中保存的数据流的信息进行编辑保存。在本发明的实施例中,每个数据流的信息包括:名称、连接器、所有者、行列数、图集数及最后更新时间。
此外,数据治理编辑模块2还用于提供禁用或删除数据流功能。执行禁用数据流,将会停止数据流自动更新设置的运行;执行删除数据流,该数据流将会从数据治理系统移除,但由其输出的数据仍然保留。
数据治理删除模块3用于对数据中心中保存的数据流的信息进行删除处理。
数据治理管理模块4用于对数据中心中保存的数据流提供数据运行功能,并提供数据流运行历史查询记录。
具体的,第一次运行数据流时,系统基于的“输入”数据以及设置的组合方式生成一个或多个新的数据;后续运行时,该数据流生成的数据将会根据“输入”数据的变更进行更新。如果没有权限访问数据流中的数据,数据流将无法运行。
本发明可以通过以下几种方式运行数据流:
在数据中心的数据流选项卡中选择运行,保证数据流已经存在于此界面中,这是运行数据流的最快方式。在“创建数据治理”界面,可以选择“保存”及“启用并运行”。“保存”仅保存对数据流进行的更改,如果刚刚创建一个数据流,则会在数据中心显示一个新的数据流记录。“启用并运行”不仅保存对数据流的更改,同时也会运行数据流的脚本
数据治理管理模块4可以提供查看数据流运行历史的功能。在数据流的详情面板上如图7所示,可以看到数据流的运行历史。每次编辑保存的数据流,都可以在版本中查到记录。每个记录包括版本、开始时间、结束时间、时长、数据输入、数据输出、触发方式及结果。数据治理管理模块还可以选择将旧版本的数据流还原为当前版本。执行此操作时,被恢复的版本将会作为一个新版本,原始版本仍存在于列表中。
数据治理管理模块可以提供查看数据流的历史版本信息的功能。在数据中心的数据流中,找到并单击想要查看其历史版本的数据流,单击“版本”选项卡,要将旧版本还原为当前版本,移动鼠标到数据流上,并点击“…”选择“使用当前版本”。
在数据治理系统,可以禁用或删除数据流。执行禁用数据流,将会停止数据流自动更新设置的运行;执行删除数据流,该数据流将会从数据治理系统移除,但由其输出的数据仍然保留。
点击数据中心进入系统单击左侧面板的“数据流”,找到需要禁止或删除的数据流,将鼠标移动到“数据流”上,单击显示选项列表。禁用数据流,点击“禁用”。删除数据流,点击“删除”,也可以通过数据流详细视图访问此选项。
下面对转换操作控件进行说明。本发明中的一个或多个转换操作控件包括:常量列、计算、列转行、连接列、日期计算、分组聚合、排序和累计、选择列、修改列类型、行转列、文本计算、过滤、删除重复项、替换文本、设置列值、文本格式化、值映射、合并、关联。
需要说明的是,转换操作控件的类型不限于上述举例,还可以包括其他类型的转换操作,可以根据用户的需要进行添加或删除。
本发明中的多个转换操作控件的数据连接和数据抽取过程,采用SQL语句执行。
当进行数据可视化操作前需要转换的数据,这时可以使用数据治理转换多数据集,并用图表创建新的数据集。在数据治理系统,无需学习SQL,可以用数据治理直观地对数据集进行转换操作并排序。
数据治理是指抽取,转换和加载,它指的是数据库中的一个过程,用于提取数据,将其转换为适当的格式或结构以供查询和分析,并将其加载到目标数据库中。在数据治理数据流中,数据集将自动提取和加载,并根据数据治理数据集中的操作进行转换。
(1)输入
使用“输入”操作将数据添加到“数据治理”中。“数据治理”中要求至少存在一个“输入”。根据预定的运行设置,只要指定的“输入”产生变化,数据治理数据流就会进行转换,更新“输出”。
1)确保想要改变的数据已经上传到数据治理系统。
2)单击“输入”,选择想要转换的数据。
3)可以通过搜索框直接输入数据名称进行查询,也可以通过下拉菜单根据“数据类型”与“数据所有者”快速筛选数据,如图8所示。
(2)输出
使用“输出”将转换后的数据作为数据集输出。可以使用新的数据集创建图表(或其他数据治理)。“数据治理”中必须有“输出”。根据预定的运行设置,只要指定的“输入”产生变化,数据治理数据流就会进行转换,更新“输出”。
1)确保至少有一个“输入”连接到“输出”。
2)确保“转换流”中至少有一个转换操作。
3)确保操作连接到“输出”,并且所有操作都在“转换流”中连接和配置。
4)单击“输出”,确认想输出的数据集,点击“请输入名称”命名,如图9所示。
单击“输出”中的“浏览”选项卡可以预览“输出”中的数据。
(3)常量列
通过“常量列”操作在数据中增加一个常量列。
1)单击面板中的“常量列”。
2)点击“常量列”对其进行重命名。
3)输入新列名。
4)选择列类型,如表1所示。
列类型 | 描述 |
文本 | 包含文本与数字(视作文本格式) |
整数 | 包含整数 |
小数 | 包含小数 |
日期 | 包含日期 |
日期和时间 | 包含日期和时间 |
表1
(5)在列值中输入常量值、日期、日期与时间,或选择不填。
提示:单击“常量列”中的“浏览”选项卡预览已填充的数据。
(4)计算
通过“计算”操作进行简单运算,并对结果值实现添加列操作
1)单击面板中的“计算”。
2)点击“计算”对其进行重命名。
3)为新列命名。
4)选择计算类型,如表2所示。
操作 | 描述 |
加 | 返回两列相加值 |
减 | 返回两列相减值 |
乘 | 返回两列相乘值 |
除 | 返回两列相除值 |
幂 | 返回两列幂值 |
向上取整 | 返回值为列值整数值+1 |
向下取整 | 返回值为列值整数部分 |
表2
5)选择要进行运算的列。
提示:单击“计算”中的“浏览”选项卡可以预览运算后的数据。
(5)列转行
可以通过“列转行”操作调整表格中的数据,将单行多列数据转换为单列多行的格式。
1)单击面板中的“列转行”。
2)点击“列转行”对其进行重命名。
3)将列转换为行并为其创建一个新的列标题,如“产品”。
4)为原有列值创建一个新的列标题,如“销量”。
5)进行“列转行”,请执行以下操作:选择某列进行转换,如“钢笔”;为原列值重新定义新的标题,如“销量”。
6)如需转换其他列,单击“添加列”。
提示:单击“列转行”中的“浏览”选项卡可以预览已转换的数据。
(6)连接列
通过“连接列”操作将两列合并为一列
1)单击左侧导航中的“连接列”。
2)点击“连接列”对其进行重命名。
3)为新列命名。
4)选择连接列的分隔符。
5)选择是否合并后进行列删除。
6)选择要组合的列。
7)如果需要添加其他的列,选择“添加列”。
提示:单击“连接列”中的“浏览”选项卡可以预览已转换的数据。
(7)日期计算
通过“日期计算”操作根据日期进行计算,并对结果值实现添加列操作。
1)单击面板中的“日期计算”。
2)点击“日期计算”对其进行重命名。
3)输入新列名。
4)选择想要进行的日期操作方式,如表3所示。
操作方式 | 描述 |
日期加 | 返回日期相加值的结果 |
月份加 | 返回月份相加值的结果 |
年份值 | 返回年份相加值的结果 |
季度值 | 返回季度相加值的结果 |
月份值 | 返回日期列或值中的月份值 |
年中的第几天 | 返回日期列或值中年份的天数值 |
月中的第几天 | 返回日期列或值中月份的天数值 |
月中的第几周 | 返回日期列或值中月份的周数值 |
年中的第几周 | 返回日期列或值中年份的周数值 |
周几 | 返回日期列或值的星期值 |
日期差 | 返回日期相差值的结果 |
表3
5)选择要使用的列或指定所需的值
提示:单击“日期计算”中的浏览进行填充值预览。
(8)分组聚合
“分组聚合”可以将多个列中的值聚合到一个列。例如,可以计算每件产品的平均销售额或获取库存中黄色衬衫的总量,如图10所示。
1)单击“分组聚合”。
2)点击“分组聚合”进行重命名。
3)选择分组中的“列”。
4)添加“列”,请执行以下操作:输入新的列名称、选择要“聚合”的列、选择要使用的“聚合类型”、选择要使用的“聚合类型”,如表4所示。
类型 | 描述 | 可用的数据类型 |
求和 | 返回列中所有值的总和 | 十进制、整数 |
平均 | 返回列中所有值的平均值 | 十进制、整数 |
最大 | 返回列中的最大值 | 十进制、整数 |
最小 | 返回列中的最小值 | 十进制、整数 |
计数 | 返回列中非空值的数量 | 十进制、整数、文本、日期 |
不重复计数 | 返回列中不重复值的数量 | 十进制、整数、文本、日期 |
第一个值 | 返回第一个值(包括空值) | 十进制、整数、文本、日期 |
最后一个值 | 返回最后一个值(包括空值) | 十进制、整数、文本、日期 |
第一个非空值 | 返回第一非空值 | 十进制、整数、文本、日期 |
最后一个非空值 | 返回最后非空值 | 十进制、整数、文本、日期 |
表4
如果想要添加列,单击“添加列”。
提示:单击“分组聚合”中的“浏览”选项卡可以预览已转换的数据。
(9)排序和累计
数据治理管理模块对数据运行排序和累计功能,包括:对数据进行排序、累计与偏移操作,并对结果进行排序与分组展示。
“排序和累计”操作可以根据需求对数据进行排序、累计与偏移操作,并对结果进行排序与分组展示,如图11所示。
1)点击左侧面板中的“排序和累计”。
2)点击“排序和累计”对其进行重命名。
3)点击“添加方法”进行计算操作设置。为新列命名,选择所需的计算方式,如“排序(连续)。
4)点击右上角“应用”进行保存。
5)选择特定列启用该功能,并规定其排序方式,如需其他限制条件,单击“添加列”。
6)选择特定列进行分区设置,如需多个分区条件,单击“添加列”。
提示:单击“排序和累计”中的“浏览”选项可以预览已转换的数据。
(10)选择列
操作可以选择包含列,对列进行重新排序及列标题重命名
1)单击“选择列”。
2)点击“选择列”进行重命名。
3)通过以下操作,选择想包含(或排除)的列:单击“请选择数据”选择需要添加的列,重复操作添加其他列。单击“选择全部列”,然后点击“×”排除不需要的列。例如,移除“出货日期”。
4)点击列并拖动可以将其移到所需位置,对列进行重新排序。例如,移动“销售量”到“订单号”之后。
5)对于需要重命名的列标题,输入列标题的新名称即可。例如,将“客户编号”重命名为“ID”。
提示:单击“选择列”中的“浏览”选项可以预览已转换的数据。
(11)修改列类型
通过“修改列类型”改变已有列的数据类型(如,从文本转换为日期)
1)点击面板中的“修改列类型”。
2)点击“修改列类型”对其进行重命名。
3)对于想进行数据类型修改的列,请执行以下操作。
4)选择要改变类型的列如“注册时间”。
5)为此列选择想要转换的类型,包括:文本、整数、小数、日期、日期与时间。
6)如果要添加另一列,请选择“添加列”
提示:单击“修改列类型”中的“浏览”选项卡可以预览已转换的数据。
(12)行转列
通过“行转列”操作实现根据关键列值对数据进行转换或再规范,将单列值转换为单行多列
1)单击面板中的“行转列”。
2)点击“行转列”对其进行重命名。
3)选择需要进行操作的列。
4)选择某列对转换后的数据进行分组。
对于每个“行转列”操作,执行以下步骤:
创建新列名,如“铅笔”;
输入其在原有列的对应值,如“铅笔”;
选择特定列值填充到新列,如“销量”;
如果要添加列,请单击“添加列”。
提示:单击“行转列”中的“浏览”选项卡可以预览已转换的数据。
(13)文本计算
通过“文本计算”操作对数据中的列值进行计算,并对结果值实现添加列操作。
利用以下配置进行操作:
1)单击面板中的“文本计算”。
2)点击“文本计算”对其进行重命名。
3)输入新列名。
4)选择想要进行的计算类型,包括:字符串长度、定位并截取、定位字符、截取字符、左侧截取、右侧截取。
5)选择要计算的列,并完成指定信息输入。
提示:单击“文本计算”中的浏览进行填充值预览。
过滤
过滤可以根据特定的规则筛选或排除行。
1)单击“过滤”。
2)点击“请输入名称”进行重命名。
3)选择是否包含符合以下所有或任意条件的数据。
4)对于每个过滤规则,请执行以下操作:
选择要过滤的列。
选择要使用的操作。
根据需要过滤的列中的数据类型,显示操作项。
选择是否对特定列或特定值中的值进行比较,然后执行下列操作(二选一):
如果对列进行比较,请选择要使用的列。
如果与特定值比较,请输入要使用的值。
如果要添加另一条规则,请单击“添加过滤”。
提示:单击“过滤”中的“浏览”选项卡可以预览已转换的数据。
(15)删除重复项
“删除重复项”操作可以删除特定列的重复行:
1)确保你想删除的行在该数据中。
2)单击左侧导航中的“删除重复项”。
3)点击“删除重复项”对其进行重命名。
4)对需要删除重复值的列,进行如下操作:
选择所需列,如“商品”;选择是否“区分大小写”;如果需要添加其他列,请选择“添加列”对于删除重复项的行,所有的列必须是重复的。
提示:单击“删除重复项”中的“浏览”选项卡预览已转换的数据。
(16)替换文本
“替换文本”操作可以对特定列的值进行替换。
1)单击左侧导航中的“替换文本”。
2)点击“替换文本”对其进行重命名。
3)选择需要查找的列。
4)输入要搜索的词,如“市场成本”,可点击“”进行条件设置。
5)输入要替换的值,如“运营成本”,可点击“”进行条件设置,选择“空字符串”。
提示:单击“替换文本”中的“浏览”选项卡预览已转换的数据
(17)设置列值
设置列值操作可以将某特定列的值替换为另一列的值,实现复制列的需求。
1)单击左侧导航中的“设置列值”。
2)点击“设置列值”对其进行重命名。
3)选择要替换的列。
4)选择一列替换值。
5)如果想要添加列,单击“添加列”。
提示:单击“设置列值”中的“浏览”选项卡可以预览已复制的数据。
(18)文本格式化
文本格式化可以将文本进行格式化操作,如更改大小写、删除数字等。
1)单击面板中的“文本格式化”。
2)点击“文本格式化”对其进行重命名。
3)通过以下操作,选择需进行“文本格式化”的列。
选择需要格式化的列;选择字母大小写的格式类型,如“大写”;选择如何处理数字,如“无更改”;如果要添加其他列,点击“添加列”。
提示:单击“文本格式化”中的“浏览”选项卡预览已转换的数据。
(19)值映射操作
值映射操作将根据特定列中的值进行内容的匹配映射,可以对已有列进行值替换或创建新的列。
数据治理管理模块对数据运行值映射功能,包括:根据特定列中的值进行内容的匹配映射,对已有列进行值替换或创建新的列。
1)单击左侧导航中“值映射”。
2)点击“值映射”对其进行重命名。
3)选择要搜索的列。
4)选择是否覆盖指定列或创建新列。
如果创建新列,则填写新列名称
5)选择是否写入默认值或保持原始值。
如果选择默认值,则输入该值
6)输入要搜索的值与要替换的值。
7)如果需要添加其他列,请选择“添加列”。
提示:单击“值映射”中的“浏览”选项卡预览已转换的数据。
(20)合并
数据治理管理模块对数据运行合并功能,包括:将来自多个数据集的具有相同数据结构和数据类型的行合并到一个数据集中,返回所有匹配项,包括重复行;如果数据结构不匹配,则创建新的列。
合并可以将来自多个数据集(具有相似列和数据结构)的行合并到一个数据集中,返回所有匹配项,包括重复行。只能从具有相同数据结构和数据类型的“输入”中合并数据行。如果数据结构不匹配,合并将为其创建新的列。例如,合并文本到整数列中,将生成整数和文本两个列。
利用以下配置进行操作:
1)单击“合并”。
2)点击“合并”进行重命名。
3)选择包含列、全部列或共享列,如表5所示。
选项 | 描述 |
包含列 | 包含选择的数据集中的全部列 |
包含全部列 | 包含所有“输入”中的指定列 |
仅包含共享列 | 仅包含每个“输入”中均存在的列 |
表5
4)检查对每个数据集进行的更改。
提示:单击“合并”中的“浏览”选项卡可以预览已合并的数据。
(21)关联
数据治理管理模块对数据运行关联功能,包括:用特定列或列集的公共值,将两个数据集组合成一个数据集,其中,特定列必须存在于两个输入数据中,且具有相同的数据结构。
关联可以用特定列(或列集)的公共值将两个数据集组合成一个数据集。特定列必须存在于两个“输入”中,且具有相同的数据结构
数据治理系统会为匹配的指定列增加“_1”的名称后缀。
预览时,转换后的数据排列方式可能与所想象的不同,可以在图表中进行修改。如图12所示。
1)单击“关联”。
2)点击“关联”进行重命名。
3)确定组合数据中使用的列。
用于“关联”的特定列必须存在于两个“输入”中,且具有相同的数据结构。
数据治理系统将默认第一个“输入”中的列为标识列,第二个“输入”中的列为匹配列。
对于内部、左外及全外部连接,指定主要值或包含特定值的“查找表”作为第一个“输入”(左侧)。(标识列不能有10000个以上的重复值)
4)选择第一个“输入”(左侧),然后选择想要的标识列。
标识列必须与第二个“输入”中的匹配列配对。
5)择第二个“输入”(右侧),然后选择想要的匹配列。
匹配列必须与第一个“输入”中的匹配标识列配对。
(6)单击”“,选择需要的连接类型,如表6所示。
表6
7)如果要定义另一对列,单击“匹配另一列”,然后配置成对列。
提示:单击“关联”中的“浏览”选项卡可以预览已关联的数据。
本发明的数据治理系统还可以提供以下功能:
1、调度计划管理,设置自动执行的调度计划,将作业在某一固定时间调起,可支持Cron表达式。
2、实时监控
如图13所示,实时监控作业的执行情况,数据导入条数、错误信息等。
3、手工运行作业。
选择数据批次范围和执行频度可进行多批次手工重跑操作,可选择部分任务执行,执行情况实时显示。
4、历史日志查询
如图14所示,历史日志查询,对作业历史日志进行查询。
5、平台元数据导入导出功能:提供所有元数据对象的导入导出功能,快速实现开发到生产环境的迁移。
6、元数据血缘分析:显示数据抽取任务中的数据流向,说明源表和目标表的关联关系及上下游路径。
7、数据质量剖析-规则设置:设置各种数据剖析规则,包括字段值分析、重复性、值匹配、表达式匹配、参照完整性约束检查等。
8、数据质量剖析-分析报告:数据剖析完成后,会生成各剖析规则的分析报告,并可进一步查看实际的异常数据,如图15所示。
9、本发明可以建立并维护各种类型的转换任务,任务可分类存放于相应的目录中。
10、调用外部命令任务:输入windows或linux下的命令行脚本,可嵌入变量,并配置成功返回值。
11、通常用于作业执行完成后将出错信息和通知信息发送到管理者的邮箱中。将事先设计好的任务组装成作业流程,包括各种任务和条件节点,支持串行和并行操作,实时监控作业的执行情况,数据导入条数、错误信息等。将事先建立的各型任务批量一次导入,并自动建立连线。对作业流程中的各类型节点和组件进行设置,任务节点可以直接对任务进行编辑。
12、本发明可以选择数据批次范围和执行频度可进行多批次手工重跑操作,可选择部分任务执行,执行情况实时显示。
根据本发明实施例的数据治理管理系统,采用先抽取源数据并加载到目标数据库后再进行清洗转换的ELT方式,充分利用数据库服务器自身的性能优势,通过异构数据抽取、转换脚本任务、作业控制流、计划调度、实时监控等核心服务引擎,开发人员只需要掌握基本的SQL语言就可以准确、高效的实现数据整合的开发和运维工作,可快速搭建包括数据迁移、数据标准化、数据同步、数据交换、数据仓库在内的一体化数据整合服务。本发明可以降低实施难度、降低实施成本、提高实施质量、提高实施效率。
本发明的数据治理系统,具有以下有益效果:
1、开发简单
数据治理:多数场景仅用SQL语句进行开发;
充分发挥开发人员的脚本特长;
便于程序扩展、错误调试和性能优化;
2)运维简单
数据治理:计划调度、手工跑批、日志监控等;
通过浏览器可视化操作;
对运维人员技术水平要求较低。
3)学习成本低
熟练掌握几个小时时间,开发人员只需要掌握数据库的SQL开发即可,无需ETL工具经验。
4)系统自带调度计划设置,通过浏览器即可设定,操作简单。
5)系统提供清晰的日志监控功能,通过浏览器实时观察作业执行情况,以及提供历史日志分析功能。
6)作业手工重跑,支持多批次批量重跑,并且可以支持只运行部分任务。
7)创建任务及作业,可以批量生成任务,以及将任务批量导入作业。另外有完善的任务和作业管理功能。
8)数据质量探查
内置数据剖析模块,支持各种类型的数据质量剖析.
9)ETL方法论
内置实施方法论,帮助缺少经验的开发人员快速实施.
10)元数据血缘分析
提供列表和血缘关系图的方式查找数据的流向和依赖关系。
11)开发方式
充分利用数据库自身的SQL、存储过程完成,转换效率更高,程序排错和性能调优更加容易。
12)技术支持
可提供现场或在线支持,也可以根据需求定制开发部分功能
13)部署迁移
B/S模式,只要通过浏览器就可以访问开发和生产环境,可直接调整修改生成环境的任务和作业,也可以将开发环境的对象导出后再倒入生产环境。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (10)
1.一种数据治理管理系统,其特征在于,包括:
数据治理创建模块,用于创建数据流,包括:设置输入控件、一个或多个转换操作控件、输出控件,在所述输入控件、一个或多个转换操作控件、输出控件之间建立顺序连接,其中,每个所述转换操作控件对应一个数据转换功能,并对所述输入控件赋值输入数据,运行所述数据治理创建模块,在数据治理过程中,数据被自动提取和加载,并根据所述转换操作控件进行处理,转换为相应的格式或结构供查询和分析,由所述输出控件得到的输出数据为数据流,并将其加载到数据中心中;
数据治理编辑模块,用于对所述数据中心中保存的数据流的信息进行编辑保存;
数据治理删除模块,用于对所述数据中心中保存的数据流的信息进行删除处理;
数据治理管理模块,用于对所述数据中心中保存的数据流提供数据运行功能,并提供数据流运行历史查询记录。
2.如权利要求1所述的数据治理管理系统,其特征在于,所述数据治理编辑模块还用于提供禁用或删除数据流功能,其中,执行禁用数据流,将会停止数据流自动更新设置的运行;执行删除数据流,该数据流将会从数据治理系统移除,但由其输出的数据仍然保留。
3.如权利要求1所述的数据治理管理系统,其特征在于,每个所述数据流的信息包括:名称、连接器、所有者、行列数、图集数及最后更新时间。
4.如权利要求1所述的数据治理管理系统,其特征在于,所述数据治理创建模块对输入控件进行赋值,赋值数据从预存的带有JDBC驱动的数据库或第三方云应用中获取。
5.如权利要求1所述的数据治理管理系统,其特征在于,所述一个或多个转换操作控件包括:常量列、计算、列转行、连接列、日期计算、分组聚合、排序和累计、选择列、修改列类型、行转列、文本计算、过滤、删除重复项、替换文本、设置列值、文本格式化、值映射、合并、关联。
6.如权利要求5所述的数据治理管理系统,其特征在于,所述数据治理管理模块对数据运行排序和累计功能,包括:对数据进行排序、累计与偏移操作,并对结果进行排序与分组展示。
7.如权利要求5所述的数据治理管理系统,其特征在于,所述数据治理管理模块对数据运行值映射功能,包括:根据特定列中的值进行内容的匹配映射,对已有列进行值替换或创建新的列。
8.如权利要求5所述的数据治理管理系统,其特征在于,所述数据治理管理模块对数据运行合并功能,包括:将来自多个数据集的具有相同数据结构和数据类型的行合并到一个数据集中,返回所有匹配项,包括重复行;如果数据结构不匹配,则创建新的列。
9.如权利要求5所述的数据治理管理系统,其特征在于,所述数据治理管理模块对数据运行关联功能,包括:用特定列或列集的公共值,将两个数据集组合成一个数据集,其中,特定列必须存在于两个输入数据中,且具有相同的数据结构。
10.如权利要求1所述的数据治理管理系统,其特征在于,所述多个转换操作控件的数据连接和数据抽取过程,采用SQL语句执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911397427.9A CN111241176A (zh) | 2019-12-30 | 2019-12-30 | 一种数据治理管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911397427.9A CN111241176A (zh) | 2019-12-30 | 2019-12-30 | 一种数据治理管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111241176A true CN111241176A (zh) | 2020-06-05 |
Family
ID=70871755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911397427.9A Pending CN111241176A (zh) | 2019-12-30 | 2019-12-30 | 一种数据治理管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241176A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926852A (zh) * | 2021-02-19 | 2021-06-08 | 南京莱斯网信技术研究院有限公司 | 一种基于数据融合的大气生态环境分析方法 |
CN114691784A (zh) * | 2022-06-01 | 2022-07-01 | 杭州量之智能科技有限公司 | 数据治理的共享平台、共享方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010546B1 (en) * | 2000-09-20 | 2006-03-07 | Parasoft Corporation | Method and system for testing data sources and database oriented software applications |
CN103902574A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团内蒙古有限公司 | 一种基于数据流技术的实时数据加载方法和装置 |
CN107391719A (zh) * | 2017-07-31 | 2017-11-24 | 南京邮电大学 | 一种云环境中分布式流数据处理方法及系统 |
CN109635162A (zh) * | 2018-12-18 | 2019-04-16 | 北京九章云极科技有限公司 | 一种数据处理系统及方法 |
-
2019
- 2019-12-30 CN CN201911397427.9A patent/CN111241176A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010546B1 (en) * | 2000-09-20 | 2006-03-07 | Parasoft Corporation | Method and system for testing data sources and database oriented software applications |
CN103902574A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团内蒙古有限公司 | 一种基于数据流技术的实时数据加载方法和装置 |
CN107391719A (zh) * | 2017-07-31 | 2017-11-24 | 南京邮电大学 | 一种云环境中分布式流数据处理方法及系统 |
CN109635162A (zh) * | 2018-12-18 | 2019-04-16 | 北京九章云极科技有限公司 | 一种数据处理系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926852A (zh) * | 2021-02-19 | 2021-06-08 | 南京莱斯网信技术研究院有限公司 | 一种基于数据融合的大气生态环境分析方法 |
CN114691784A (zh) * | 2022-06-01 | 2022-07-01 | 杭州量之智能科技有限公司 | 数据治理的共享平台、共享方法、设备及存储介质 |
CN114691784B (zh) * | 2022-06-01 | 2022-08-23 | 杭州量之智能科技有限公司 | 数据治理的共享平台、共享方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857689B2 (ja) | データ検索装置、プログラム、及び記録媒体 | |
US11461294B2 (en) | System for importing data into a data repository | |
US10885112B2 (en) | System and method for non-programmers to dynamically manage multiple sets of XML document data | |
US11675781B2 (en) | Dynamic dashboard with guided discovery | |
US7668860B2 (en) | Apparatus and method for constructing and using a semantic abstraction for querying hierarchical data | |
US8010905B2 (en) | Open model ingestion for master data management | |
CN108153897B (zh) | 一种plsql程序代码生成方法及系统 | |
US20070094060A1 (en) | Strategy trees for data mining | |
KR101505858B1 (ko) | 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템 | |
JP6623754B2 (ja) | 表形式データ処理プログラム、方法及び装置 | |
JP6375029B2 (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
CN111241176A (zh) | 一种数据治理管理系统 | |
EP2000927A1 (en) | Apparatus and method for abstracting data processing logic in a report | |
CN103473305A (zh) | 一种在统计分析中进行决策流程展示的方法及系统 | |
US7433882B2 (en) | Data management system and computer program | |
Ahmed et al. | Generating data warehouse schema | |
Zheng et al. | Research and application of bottom-up route-based product data conformity inspection approach for civil aircraft | |
US11216486B2 (en) | Data retrieval apparatus, program and recording medium | |
US20020178140A1 (en) | Method for characterizing and storing data analyses in an analysis database | |
CN113126849B (zh) | 一种基于数据库的电子表格交互映射的虚拟系统及交互映射方法 | |
Rana et al. | A Comparative Analysis of Data Cleansing Tools | |
Buxmann et al. | Data Management: Concepts and SAP Solutions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |