CN114491179A - 一种通过数据探查感知数据治理成效的方法 - Google Patents
一种通过数据探查感知数据治理成效的方法 Download PDFInfo
- Publication number
- CN114491179A CN114491179A CN202210340155.4A CN202210340155A CN114491179A CN 114491179 A CN114491179 A CN 114491179A CN 202210340155 A CN202210340155 A CN 202210340155A CN 114491179 A CN114491179 A CN 114491179A
- Authority
- CN
- China
- Prior art keywords
- exploration
- data
- task
- probing
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种通过数据探查感知数据治理成效的方法,该方法包括:配置内置业务规则和自定义业务规则;创建探查任务配置,关联上述业务规则,指定探查指标,新增探查任务;读取探查任务配置,执行探查任务和探查子任务,形成探查结果;解析探查结果,形成探查报告。根据本发明的方法,可匹配识别出业务字段的真实含义,同时支持根据字段中英文名、业务数据设置匹配规则,支持关键字或正则表达式匹配,并提供规则测试;支持多类数据源和多种探查指标;可对接分布式任务调度平台,支持任务的执行、冻结、解冻以及查看实例运行日志;可直观地展示数据源探查、元数据探查、数据表探查、字段探查各项指标结果,支持探查报告导出。
Description
技术领域
本发明涉及数据治理领域,尤其涉及一种通过数据探查感知数据治理成效的方法。
背景技术
数据治理伴随着数据标准化、脱敏、计算和数据上下云等一系列数据加工过程,如何能在这些复杂的加工过程中找出数据潜在的问题和风险,如何保障有价值的数据产出、形成数据报告,并对数据决策提供支持,这些都是数据治理过程中需要亟待解决的问题。
数据探查就是数据治理过程中非常重要的一环,它可以为数据质量和数据决策分析提供保障。数据探查可通过自动化手段,探查数据的内容、背景、结构、路径等信息,还能检查数据成分、数据关系及数据格式等规范性,并结合业务场景,帮助分析和判断需求实现的可行性,为开发提供指导。
目前在数据治理领域,如何采用一套完善且规范化的数据探查指标去反映数据治理成效,采用一套自动化手段实现对数据治理过程中数据的动态变化进行监控,成为亟待解决的技术问题。
发明内容
有鉴于此,本发明针对现有技术中存在的缺点,提供一种能够自动动态感知数据治理成效的技术方案,通过一套完善的数据探查指标来反馈数据的动态变化,从而实现可以及时找出数据潜在的问题和风险,为数据决策和数据开发提供指导。
一方面,本发明提供一种通过数据探查感知数据治理成效的方法,包括:
S1:配置内置业务规则和自定义业务规则;
S2:创建探查任务配置,关联上述业务规则,指定探查指标,新增探查任务;
S3:读取探查任务配置,执行探查任务和探查子任务,形成探查结果;
S4:解析探查结果,形成探查报告。
进一步地,步骤S1中,配置内置业务规则,具体包括:配置常用业务规则,并将所述常用业务规则设置为启用状态。
进一步地,步骤S1中,自定义业务规则,具体包括:配置自定义业务规则名称、规则分类、识别方式、识别规则,其中,识别规则支持对字段内容进行关键字匹配和正则表达式匹配,并支持对所述自定义业务规则进行测试,验证规则的有效性。
进一步地,步骤S2中,创建探查任务配置,具体包括:配置任务基本信息,选择数据源,读取业务规则,配置数据源探查指标、配置元数据探查指标、配置数据表探查指标、配置表字段探查指标。
进一步地,步骤S2中,新增探查任务,具体包括:新增探查定时任务,调用任务调度服务,保存定时任务,采用任务调度服务定时触发探查任务执行。
进一步地,步骤S3中,读取探查任务配置,具体包括:读取探查任务配置信息并对探查任务配置进行预检查,其中,预检查包括对数据源、元数据、数据表及表字段是否存在以及各字段类型是否匹配进行检查。
进一步地,步骤S3中,执行探查任务和探查子任务,具体包括:
创建任务队列,用于存放各项探查子任务的执行器;
根据探查指标生成任务总校验和,拆分总校验和创建各探查子任务,将任务执行器放入任务队列中;
获取业务规则配置,完成规则匹配,并将匹配结果入库,执行业务探查任务;
执行各探查指标对应的探查子任务。
进一步地,步骤S3中,形成探查结果,具体包括:保存数据源、元数据、数据表及表字段探查指标的探查结果到数据库。
进一步地,步骤S4中,解析探查结果,形成探查报告,具体包括:对探查指标结果进行后台加工,并通过前端界面图表进行展示,形成探查报告,所述探查报告由数据源探查报告、数据表探查报告和表字段探查报告组成,所述探查报告支持多种格式导出,支持历史多版本查看。
另一方面,本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法的步骤。
本发明的通过数据探查感知数据治理成效的方法,具有以下优点:
1)可通过系统内置常用业务规则匹配识别出业务字段的真实含义,同时支持根据业务需求自定义业务规则,支持根据字段中英文名、业务数据设置匹配规则,支持关键字或正则表达式匹配,并提供规则测试;
2)支持组织隔离和数据隔离,可根据业务需求自定义数据探查范围,支持数仓规划中的多类数据源类型和多种探查指标;
3)可对接分布式任务调度平台,支持任务的执行、冻结、解冻以及查看实例运行日志;
4)可通过丰富的前端展示组件,直观明了地展示数据源探查、元数据探查、数据表探查、字段探查各项指标结果,支持探查报告导出。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据本发明示例性第一实施例的通过数据探查感知数据治理成效的方法的流程图;
图2为根据本发明示例性第二实施例的通过数据探查感知数据治理成效的方法的流程图;
图3为根据本发明示例性第二实施例的通过数据探查感知数据治理成效的方法涉及的探查指标。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
本发明涉及的名词解释如下:
数据源:指各类数据库,如mysql、oracle、hive等。
元数据:指数据库结构信息,如表、字段、视图、函数。
数据表:指数据库中存储数据的容器。
表字段:指数据表中存储信息的属性。
图1为根据本发明示例性第一实施例的通过数据探查感知数据治理成效的方法的流程图。如图1所示,本实施例中通过数据探查感知数据治理成效的方法,包括:
S1:配置内置业务规则和自定义业务规则;
S2:创建探查任务配置,关联上述业务规则,指定探查指标,新增探查任务;
S3:读取探查任务配置,执行探查任务和探查子任务,形成探查结果;
S4:解析探查结果,形成探查报告。
具体操作时,可以有如下多种优选方式中的任何一种:
步骤S1中,配置内置业务规则,具体包括:配置常用业务规则,并将所述常用业务规则设置为启用状态。在实际应用中,本实施例方法所述的常用业务规则包括身份证、车架号、车牌号、军官证、税务登记证、护照、社会统一信用代码以及营业执照等。
步骤S1中,自定义业务规则,具体包括:配置自定义业务规则名称、规则分类、识别方式、识别规则,其中,识别规则支持对字段内容进行关键字匹配和正则表达式匹配,并支持对所述自定义业务规则进行测试,验证规则的有效性。
步骤S2中,创建探查任务配置,具体包括:配置任务基本信息,选择数据源,读取业务规则,配置数据源探查指标、配置元数据探查指标、配置数据表探查指标、配置表字段探查指标。
步骤S2中,新增探查任务,具体包括:新增探查定时任务,调用任务调度服务,保存定时任务,采用任务调度服务定时触发探查任务执行。
图2为根据本发明示例性第二实施例的通过数据探查感知数据治理成效的方法的流程图,图2为图1所示通过数据探查感知数据治理成效的方法的优选实施方式,如图1和图2所示,步骤S3中,读取探查任务配置,执行探查任务和探查子任务,形成探查结果,可以有如下多种优选方式中的任何一种,具体的:
步骤S3中,读取探查任务配置,具体包括:读取探查任务配置信息并对探查任务配置进行预检查,其中,预检查包括对数据源、元数据、数据表及表字段是否存在以及各字段类型是否匹配进行检查。
步骤S3中,执行探查任务和探查子任务,具体包括:
创建任务队列,用于存放各项探查子任务的执行器;
根据探查指标生成任务总校验和,拆分总校验和创建各探查子任务,将任务执行器放入任务队列中;
获取业务规则配置,完成规则匹配,并将匹配结果入库,执行业务探查任务;
执行各探查指标对应的探查子任务。
图3为本实施例所示方法涉及的探查指标,如图3所示,在实际应用时,探查指标可以包括:
1)数据源探查指标:数据源类型、最大连接数、字符集、数据源名称、活动连接数、权限、大小写敏感、存储大小、时区、总数据量等;数据源探查指标可反映出该数据源的基本信息,数据库连接及存储是否有压力。
2)元数据探查指标:元数据总量、字段个数、表个数、视图个数、存储过程个数、函数个数等;元数据探查指标可反映出整体库元数据的基本情况。
3)数据表探查指标:数据量、空值率、标准通过率、属性填充率、规范率等;数据表探查指标可反映出具体表数据的存储情况,是否符合标准,是否空置率过高,是否有异常数据等。
4)表字段探查指标:字段英文名、字段中文名、业务探查、符合标准程度、是否敏感、空值率、规范率、值域、最大值、最小值、唯一值、上下文路径、标准差、方差、数据分布占比等;表字段探查指标可反映表字段存储数据的基本情况,数据分布,是否有异常。
步骤S3中,形成探查结果,具体包括:保存数据源、元数据、数据表及表字段探查指标的探查结果到数据库。
本发明示例性第三实施例提供了一种通过数据探查感知数据治理成效的方法,本实施例是图1和图2所示方法的优选实施例。具体的,步骤S4中,解析探查结果,形成探查报告,具体包括:对探查指标结果进行后台加工,并通过前端界面图表进行展示,形成探查报告,所述探查报告由数据源探查报告、数据表探查报告和表字段探查报告组成,所述探查报告支持多种格式导出,支持历史多版本查看。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法的步骤。
该计算机设备具有上述通过数据探查感知数据治理成效的方法相应的技术效果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种通过数据探查感知数据治理成效的方法,其特征在于,所述通过数据探查感知数据治理成效的方法,包括:
S1:配置内置业务规则和自定义业务规则;
S2:创建探查任务配置,关联上述业务规则,指定探查指标,新增探查任务;
S3:读取探查任务配置,执行探查任务和探查子任务,形成探查结果;
S4:解析探查结果,形成探查报告。
2.根据权利要求1所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S1中,配置内置业务规则,具体包括:配置常用业务规则,并将所述常用业务规则设置为启用状态。
3.根据权利要求2所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S1中,自定义业务规则,具体包括:配置自定义业务规则名称、规则分类、识别方式、识别规则,其中,识别规则支持对字段内容进行关键字匹配和正则表达式匹配,并支持对所述自定义业务规则进行测试,验证规则的有效性。
4.根据权利要求3所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S2中,创建探查任务配置,具体包括:配置任务基本信息,选择数据源,读取业务规则,配置数据源探查指标、配置元数据探查指标、配置数据表探查指标、配置表字段探查指标。
5.根据权利要求4所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S2中,新增探查任务,具体包括:新增探查定时任务,调用任务调度服务,保存定时任务,采用任务调度服务定时触发探查任务执行。
6.根据权利要求5所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S3中,读取探查任务配置,具体包括:读取探查任务配置信息并对探查任务配置进行预检查,其中,预检查包括对数据源、元数据、数据表及表字段是否存在以及各字段类型是否匹配进行检查。
7.根据权利要求6所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S3中,执行探查任务和探查子任务,具体包括:
创建任务队列,用于存放各项探查子任务的执行器;
根据探查指标生成任务总校验和,拆分总校验和创建各探查子任务,将任务执行器放入任务队列中;
获取业务规则配置,完成规则匹配,并将匹配结果入库,执行业务探查任务;
执行各探查指标对应的探查子任务。
8.根据权利要求7所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S3中,形成探查结果,具体包括:保存数据源、元数据、数据表及表字段探查指标的探查结果到数据库。
9.根据权利要求8所述的通过数据探查感知数据治理成效的方法,其特征在于,步骤S4中,解析探查结果,形成探查报告,具体包括:对探查指标结果进行后台加工,并通过前端界面图表进行展示,形成探查报告,所述探查报告由数据源探查报告、数据表探查报告和表字段探查报告组成,所述探查报告支持多种格式导出,支持历史多版本查看。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210340155.4A CN114491179B (zh) | 2022-04-02 | 2022-04-02 | 一种通过数据探查感知数据治理成效的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210340155.4A CN114491179B (zh) | 2022-04-02 | 2022-04-02 | 一种通过数据探查感知数据治理成效的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114491179A true CN114491179A (zh) | 2022-05-13 |
CN114491179B CN114491179B (zh) | 2022-07-01 |
Family
ID=81488887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210340155.4A Active CN114491179B (zh) | 2022-04-02 | 2022-04-02 | 一种通过数据探查感知数据治理成效的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491179B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841275A (zh) * | 2022-12-07 | 2023-03-24 | 北京鸿鹄元数科技有限公司 | 基于ai的数据管理水平的体检方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480553A (zh) * | 2017-07-28 | 2017-12-15 | 北京明朝万达科技股份有限公司 | 一种数据探查系统、方法、设备及存储介质 |
US20180203857A1 (en) * | 2017-01-13 | 2018-07-19 | International Business Machines Corporation | Automated data exploration and validation |
CN112463252A (zh) * | 2020-12-08 | 2021-03-09 | 平安国际智慧城市科技股份有限公司 | 数据探查方法、装置和计算机设备 |
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
-
2022
- 2022-04-02 CN CN202210340155.4A patent/CN114491179B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180203857A1 (en) * | 2017-01-13 | 2018-07-19 | International Business Machines Corporation | Automated data exploration and validation |
CN107480553A (zh) * | 2017-07-28 | 2017-12-15 | 北京明朝万达科技股份有限公司 | 一种数据探查系统、方法、设备及存储介质 |
CN112527783A (zh) * | 2020-11-27 | 2021-03-19 | 中科曙光南京研究院有限公司 | 一种基于Hadoop的数据质量探查系统 |
CN112463252A (zh) * | 2020-12-08 | 2021-03-09 | 平安国际智慧城市科技股份有限公司 | 数据探查方法、装置和计算机设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841275A (zh) * | 2022-12-07 | 2023-03-24 | 北京鸿鹄元数科技有限公司 | 基于ai的数据管理水平的体检方法及装置 |
CN115841275B (zh) * | 2022-12-07 | 2023-09-05 | 北京鸿鹄元数科技有限公司 | 基于ai的数据管理水平的体检方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114491179B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cichy et al. | An overview of data quality frameworks | |
CN107665171B (zh) | 自动回归测试方法及装置 | |
US10013439B2 (en) | Automatic generation of instantiation rules to determine quality of data migration | |
US9886369B2 (en) | Dynamic data fabrication for database applications | |
US20080195999A1 (en) | Methods for supplying code analysis results by using user language | |
CN109376093B (zh) | 保险产品的测试方法及装置、存储介质及电子设备 | |
CN111158795A (zh) | 报表生成方法、装置、介质及电子设备 | |
US10853741B2 (en) | Information governance platform | |
CN110019116B (zh) | 数据追溯方法、装置、数据处理设备及计算机存储介质 | |
CN114491179B (zh) | 一种通过数据探查感知数据治理成效的方法 | |
Zhang et al. | A data driven approach for discovering data quality requirements | |
CN112860556A (zh) | 覆盖率统计方法、装置、计算机系统和可读存储介质 | |
CN116226166A (zh) | 基于数据源的数据查询方法及系统 | |
CN114219207A (zh) | 业务决策方法、系统、装置、计算机设备和存储介质 | |
US9773003B2 (en) | Computer implemented system and method for investigative data analytics | |
CN113342692B (zh) | 测试用例自动生成方法、装置、电子设备及存储介质 | |
CN110362630A (zh) | 数据管理方法、装置、设备与计算机可读存储介质 | |
CN112598260A (zh) | 粮油质检管理方法、装置、系统、存储介质及电子设备 | |
CN114860737B (zh) | 教研数据的处理方法、装置、设备及介质 | |
CN113791980B (zh) | 测试用例的转化分析方法、装置、设备及存储介质 | |
CN113641628B (zh) | 数据质量检测方法、装置、设备及存储介质 | |
CN114911511A (zh) | 一种软件技术状态管理系统 | |
CA3144122A1 (en) | Data verifying method, device and system | |
CN113986753A (zh) | 接口测试方法、装置、设备及存储介质 | |
CN111405060A (zh) | 服务影响范围确定方法、装置、工具和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 430058 No. n3013, 3rd floor, R & D building, building n, Artificial Intelligence Science Park, economic and Technological Development Zone, Caidian District, Wuhan City, Hubei Province Patentee after: Zhongdian Cloud Computing Technology Co.,Ltd. Address before: 430058 No. n3013, 3rd floor, R & D building, building n, Artificial Intelligence Science Park, economic and Technological Development Zone, Caidian District, Wuhan City, Hubei Province Patentee before: CLP cloud Digital Intelligence Technology Co.,Ltd. |